Conceitos Big Data

Introdução a Big Data
Temos observado na última década, inúmeras revoluções culturais e

tecnológicas em nossa sociedade, dentre elas temos a explosão no volume
de dados, mais conhecido como Big Data. É um conceito abstrato que surge
em meados de 2010, designado por grandes quantidades de dados difíceis
de armazenar, analisar e processar, de formatos e origens diversos,
dificultados com as tecnologias de banco de dados tradicionais. Embora Big
Data não seja um termo novo, ainda gera muitas incertezas sobre que seja,
definição, características, aplicações e desafios.
O que pode ser considerado como Big Data, qual é o conceito, onde obter
fontes de dados? Como extrair informações de valor processando os dados,
qual a infraestrutura necessária para ter uma solução Big Data?
Figura 1 - Nuvem de Tags Big Data
Fonte:https://www.acessa.com/tecnologia/arquivo/artigo/2018/06/18-que-big-data/, 2021.
As técnicas Big Data tornaram um grande diferencial competitivo para as

empresas, mas não têm aplicação somente nessa área. Um exemplo de uso
da big data foi a eleição presidencial dos Estados Unidos de 2016, em que
foram utilizados os termos mais pesquisados para que se conseguisse
atingir o maior número de delegados para alguns presidenciáveis.
Informações acesse: http://ocubo.cpscetec.com.br/

Mas o que, de fato, vem a ser a big data?
O termo Big Data refere a uma base de dados com uma quantidade enorme
de dados, podendo estar alocada em múltiplos servidores, e estes dados
não precisam estar estruturados necessariamente, como ocorrem nos
bancos de dados relacional, ou seja, com as organizações lidam um enorme
crescimento de dados, sendo necessário pensar em formas de analisar e
processar esses dados, porém o Big Data, vem sendo utilizado para definir
o fluxo de dados desestruturados cuja a estrutura de dados relacionais é
incapaz de processar.
São dados muito grandes ou muito complexos para serem gerenciados por
técnicas
tradicionais de processamento, análise e armazenamento dos dados, a
ciência que analisa dados brutos para extrair conhecimento útil deles.
A ciência de dados está preocupada com a criação de modelos capazes de
extrair padrões de dados complexos e com o uso desses modelos em
problemas da vida real, em contrapartida o big data está mais preocupado
com a tecnologia, com as quantidade de dados que extrapolam a
capacidade dos sistemas tradicionais, tornando-os lentos e insuficientes
para fornecerem informações às organizações.
Por que estamos na era dos dados

O processo de geração dos dados é contínuo pelas pessoas e empresas e
das mais diferentes fontes, dados que muitas vezes são classificados como
sem qualidade, ou seja, não fornecem segurança nas informações, para
decisões competitivas, o que é o grande desafio.
Os dados dentro do sistema de gerenciamento de banco de dados (SGBD)
podem estar organizados de três formas: estruturados, não estruturados
ou semiestruturados, que abordaremos com mais detalhes mais adiante.

Estamos vivendo numa era de grandes volumes de informações. Chamam,
Big Data.
Figura 2 - Era dos dados
Fonte: https://www.cotiinformatica.com.br/blog/bi-bigdata-a-era-dos-dados/, 2021.
O volume vem aumentando a cada ano por diversas razões como o

armazenamento de dados atualmente é barato ou até mesmo de graça
como por exemplo serviços de hospedagem gratuitas na Web. As pessoas
estão mais familiarizadas com a tecnologia que por sua vez, geram e
armazenam mais informações, há uma tendência de não jogar nada fora, e
sem deixar de levar em conta a possibilidades de serviços para publicar e
difundi Estes primeiros passos geram volumes grandes de dados, conforme
figura 03.

Figura 3 - Empresas mais valiosas
Fonte: https://macmagazine.com.br/wp-content/uploads/2021/01/27-marcas.jpg/, 2021
Deve-se utilizar ferramentas próprias para registrar os dados, seus

relacionamentos, de forma a facilitar a análise e filtragem das informações
posteriormente.
Todos os 5Vs de Big Data

Conhecendo os tipos de dados utilizados em um SGBD, facilitam a
compreensão da forma de como o big data é estruturado seguindo os
conceitos dos 5 Vs.

Figura 4 - Os 5Vs do Big data
Fonte: https://pt.semrush.com/blog/big-data-conheca-os-5-vs-e-sua-aplicacao-pratica-para-pmes/, 2021.
Volume: refere ao conceito principal do big data, onde a quantidade dos

dados a serem coletados e tratados, representam um grande volume, que
temos, em MB (Megabytes), GB (Gigabytes), TB (Terabytes), etc.
Dados esses, que são advindos de diversas fontes, como redes sociais,
motores de busca da internet, e-commerce, entre outras. Talvez esse seja
o grande diferencial em relação aos outros bancos de dados: o tratamento
de grandes volumes de informações de dados, com formas diferentes
estruturados ou não estruturados e até mesmo os semiestruturados.

Figura 5 - Escala global do Volume de Dados
Fonte: https://www.commsbusiness.co.uk/features/big-data-can-help-businesses-make-smart-
decisions/zettabytes , 2021.
revisão
Os computadores "entendem" impulsos elétricos, positivos ou negativos,
que são representados por 1 ou 0. A cada impulso elétrico damos o nome
de bit (BInary digiT). Um conjunto de 8 bits reunidos como uma única
unidade forma um byte.
Nos computadores, representar 256 números binários é suficiente para
que possamos lidar a contento com estas máquinas. Assim, os bytes
possuem 8 bits. É só fazer os cálculos: como um bit representa dois tipos
de valores (1 ou 0) e um byte representa 8 bits, basta fazer 2 (do bit)
elevado a 8 (do byte) que é igual a 256.
Os bytes representam todas as letras (maiúsculas e minúsculas), sinais
de pontuação, acentos, caracteres especiais e até informações que não
podemos ver, mas que servem para comandar o computador e que
podem inclusive ser enviados pelo teclado ou por outro dispositivo de
entrada de dados e instruções.

Ilustração de bits.
Para que isso aconteça, os computadores utilizam uma tabela que
combina números binários com símbolos: a tabela ASCII (American
Standard Code for Information Interchange). Nela, cada byte representa
um caractere ou um sinal.
Velocidade: Assim como os dados são gerados em grandes volumes, seu

processamento deve ser efetuado da mesma forma, caso contrário,
ocorreram filas e a consequentemente a degradação do serviço, é
basicamente a velocidade com que capturamos e salvamos informações e
as deixamos disponíveis para análise.
Estes dados gerados devem possuir uma capacidade de processamento
adequada às necessidades. Para tal o SGBD também deve permitir que
grandes quantidades de dados sejam recebidas e processadas.
Figura 6 - Tráfego de Dados intenso
Fonte: https://www.bitmag.com.br/2014/02/cisco-preve-que-trafego-de-dados-moveis-cresca-11-vezes-no-
brasil/, 2021.

Veracidade: O grande desafio do Big Data, dados coletados nem sempre
vão representar uma informação, em que se possa ter total confiabilidade.
Para isso, ao estruturar uma análise de dados, se faz necessário verificar
as fontes, os dados tendenciosos e as datas de sua publicação.
Figura 7 - Verdadeiro ou Falso
Fonte: https://www.istockphoto.com/pt/vetorial/true-and-false-option-green-and-red-check-mark-and-x-icon-
isolated-on-wthte-gm1140391362-305156372, 2021.
Variedade: é a heterogeneidade dos dados. Para os SGBD’s que trabalham

dentro do conceito do big data devem possuir técnicas que possibilitem o
tratamento dos mais diferentes tipos de dados, como textos, números,
imagens, tags etc. Fazendo referência é claro, aos três tipos de dados:
estruturados, não estruturados e semiestruturados.

Figura 8 - Variedade de Dados
Fonte: https://cappra.com.br/2012/09/10/a-era-do-excesso-da-informacao/, 2021.
Valor: Apresenta resultados quanto a significância dos dados coletados e

tratados pela organização, de forma que possam adquirir informações
relevantes, que proporcionem conhecimento para um diferencial de
mercado ou, ainda, auxiliar os gestores nas tomadas de decisões.
É exatamente o ponto que as empresas buscam nas características do big
data é o que precisam, converter em informações relevantes para o
crescimento ou posicionamento, garantindo que esses dados sejam de
grande significância e valor para a empresa.

Figura 9 - O valor da informação
Fonte: https://newsroom.br.paypal-corp.com/Mitos-do-Big-Data-Dados-sao-a-coisa-mais-valiosa-do-mundo,
2021.
Em 2001, o Gartner, acidentalmente talvez tenha estimulado uma

avalanche de alterações com um artigo que previa tendências no setor,
reunindo-as sob os títulos Volume de dados, Velocidade de dados e
Variedade de dados, tínhamos os 3 V's, depois os 4 V's, 5 V's, 7 V's, 10 V's
e depois os 42 V's.
Dados gerados por máquinas

O funcionamento desses sistemas inteligentes se baseia na mineração de
dados e no respectivo tratamento desses dados (big data), de forma que a
inteligência artificial de uma aplicação possa tomar a melhor decisão. Isso,
por sua vez, permite que os robôs investidores executem as melhores
opções de mercado, como: compra de ações, tradings, câmbio de moedas,
entre outras possíveis operações do mercado financeiro. Essas operações
efetuadas são recapturadas pelas ferramentas do big data, e o processo é
reiniciado.

Figura 10 - Dados gerados por máquinas
Fonte: https://www.proof.com.br/blog/tag/dados-gerados-por-maquina/, 2021.
Você já deve ter ouvido aquela expressão “o céu é o limite” — ela se encaixa
muito bem no contexto dos cenários em que o big data pode atuar. Não
existe uma limitação para determinado segmento. Desde que seja possível,
de alguma forma, gerar e captar dados, será possível fazer com que o big
data se torne uma importante ferramenta de estratégia de mercado.
Contudo, deve sempre haver um cuidado dos profissionais ligados a essa
área do conhecimento em desenvolver os métodos mais adequados para
cada caso.
Mitos sobre Big Data

Existem muitos mitos quando o assunto é Big Data, iremos destacar 6
grandes mitos sobre na tentativa de trazer eficaz no tratamento dos dados:

Figura 11 - Mitos sobre big data
Fonte: https://celsocestaro.com.br/analise-de-dados/mitos-data-analytics-big-data/, 2021.
Big Data significa “muitos” dados

Em relação ao número de dados, muitas acreditam que se trata apenas de
um grande volume de informação, entretanto, é um pouco mais complexo,
Big Data é a forma como os dados estão separados em conjuntos,
estruturados, semiestruturados ou não estruturados, organizados e
analisados, possibilitando tendências e projeções para uma organização, o
que muito mais complexo utilizando técnicas analíticas tradicionais.
Os dados precisam ser “limpos”

É comum as informações capturadas em registros, estarem incompletas ou
até mesmo incorretas, classificados como dados sujos, o que certamente
podem gerar decisões equivocadas, o intuito é mediante aos problemas e
desafios que a empresa possui, ter qualidade nos dados, para que se torne
possível obter uma visão melhor da situação, para isso, é importante
identificar primeiramente as deficiências dos dados, realizar um plano de
organização e extração para que possam ser dados limpos.

Esperar para aperfeiçoar seus dados
Após a limpeza dos dados, ou seja, separamos para utilização apenas dados
relevantes ao que se espera encontrar, esta mesma análise pode e deve ser
refeita passando por novos processos de refinamento, assim a cada análise
feita espera-se obter maior precisão na interpretação, trazendo resultados
uteis para organização e agilidade nos processos.
Possuir um lago de dados (Lake Data)

Esse termo se refere a um processo de seleção e manutenção de objetos
digitais em repositórios de armazenamento que armazenam grandes
quantidades de dados em seus formatos originais para quando necessário
as empresas usá-los. Entretanto, os dados de uma organização não são
despejados em um lago de dados, é realizada uma curadoria digital que faz
a distribuição deles em silos, que irão fornecer transparência e agilidade
para a conformidade e governança.
A análise de dados é cara

Existem organizações que acreditam que é necessário investir muito para
análise de dados. Porém, temos várias ferramentas disponíveis hoje, que
veremos mais a frente neste curso para a realização deste processo. Além
disso, existem ferramentas em computação em nuvem que facilitam ainda
mais as tarefas.
Os algoritmos irão substituir os analistas humanos

Cada vez as empresas estão usando os algoritmos para agrupar e
transformar os grandes volumes de dados, para transformá-los em
informações úteis. A eficácia dos algoritmos tem levado muitas pessoas
acreditarem que em breve eles realizarão todo o processo. No entanto os
trabalhos se complementam, pois, a “máquina” chegará a uma resposta

para qual foi programada, mas nunca uma explicação, ou seja, é necessário
a participação dos especialistas para a interpretação dos resultados, e cada
vez mais os cientistas de dados vem se especializando a cada dia.
Caso ainda exista algum receio por parte das empresas sobre os projetos
de Big Data, devem aproveitar essas oportunidades e capturar elementos
que possam trazer grande impacto nas projeções e resultados de seus
negócios.
Assim como a computação em nuvem em seu começo, o Big Data é uma
tecnologia que ainda deve sofrer alterações e aprimoramentos, sendo
essencial compreender como esse processo é, e fundamental para
acompanhar o mercado.
Um mundo de oportunidades
O Big Data é um advento tecnológico, capaz de processar de grandes
volumes de dados, e vem ganhando destaque devido as oportunidades e
aos desafios frete as necessidades das organizações e seus recursos para
os negócios, o que traz grandes possibilidade com seu uso nas mais diversas
organizações. Empresas on-line, as seguradoras, de cartões de crédito, de
bens de consumo, do turismo, transporte, companhias bancárias,
telecomunicações, mídia e entretenimento, varejo, de utilidade pública, as
concessionárias de energia elétrica, como de saúde, de empresas B2B
(business-to-business) ou de produtos industriais etc.
O objetivo é adquirir conhecimento de uma forma eficaz otimizando os
custos, informações mais precisas sobre os clientes e os serviços,
permitindo diagnósticos e dados que otimizem o tempo de decisão, é
importante dizer que, existem várias oportunidades com o Big Data, mas
dúvidas sobre acesso, armazenamento, busca, compartilhamento, entre
outros, ainda dificultam e restringem o entendimento e a busca de soluções
e sua operacionalização.

Tomando decisão baseada em dados.
Um tomador de decisões não deve basear apenas na experiência. É preciso
se basear na análise de dados, porém a ciência de dados envolve princípios,
processos e técnicas para entender fenômenos por meio da análise
(automatizada) de dados.
Figura 12 - Tomando decisões
Fonte: https://melhorrh.com.br/os-principais-estilos-do-tomador-de-decisao/, 2021.
Uma decisão sempre envolverá riscos, elas impactam diretamente diversos

setores do negócio. Portanto, é preciso saber coletar as informações para
que a organização. Para tal adotarmos ferramentas e conceitos analíticos
para decifrar os dados e extrair os pontos relevantes, podendo vir de fontes
internas, externas, redes sociais, transações financeiras, concorrência etc.
Conhecer os hábitos, os problemas, as necessidades dos seus clientes é
imprescindível para que a sua empresa ofereça um produto ou um serviço
adequado a eles, lembrando que também que, cada ação depende do
contexto e do momento, levando em consideração sempre o cenário atual,
os riscos e as oportunidades.

Tipos de Dados
Basicamente temos dois tipos de dados estruturados e dados não
estruturados
Figura 13 - Comparativo entre dados estruturados e não estruturados
Fonte: https://www.grupotreinar.com.br/blog/2016/4/9/vis%C3%A3o-geral-sobre-a-gest%C3%A3o-de-
conte%C3%BAdo-n%C3%A3o-estruturado-e-ecm.aspx, 2021.
Dados estruturados
São aqueles com tamanhos definidos em seu desenvolvimento. Em grande
parte, correspondem a números, datas e palavras. Geralmente são
utilizados em bancos de dados do tipo relacional, em que a estrutura precisa
estar definida por tipos e tamanhos, o que define o relacionamento por meio
das chaves.
Podendo ser do tipo qualitativo ou quantitativo.
Qualitativos geralmente são atributos que podem ser categorizados por
nome, sexo, estado civil, cor, raça etc.
Quantitativos são atributos numéricos que se originam de alguma medida
objetiva, podendo ser: idade, altura, data de nascimento, peso e dentre
outros.

Tabela 01: Exemplo de dados estruturados
Nome Idade Altura Data Sexo Estado
Nasc. civil
ANA 22 1,72 25/01/1999 F Solteira
MARCIO 19 1,78 31/07/2002 M Solteiro
JOÃO 76 1,69 14/06/1945 M Viúvo
MARIA 43 1,67 06/02/1978 F Casada
Fonte: elabora pelo autor, 2021.
Dados não estruturados

Dados não estruturados são difíceis de serem utilizados diretamente. São
bastante utilizados relacionados a imagens, são encontrados em
fotografias, vídeos, imagens de satélites, dados científicos e mídias sociais,
entre outros.
Figura 14 - Imagens, vídeos e áudio
Fonte: https://i1.wp.com/www.tecnoup.net.br/wp-content/uploads/2019/07/banco-de-
imagens.jpg?w=1280&ssl=1, 2021.
Preparação dos dados

A etapa de preparação dos dados é de extrema importância e envolve
tarefas como: transformação e engenharia de atributos, a checagem de

consistência e a verificação de atributos redundantes que possuem
informações correlatas que não agregam valor aos dados, podendo,
inclusive, piorar o desempenho de modelos quando utilizadas
conjuntamente, sem esquecer de eventuais dados faltantes, que são muito
comuns em problemas reais, pode não ser uma tarefa simples, seu
tratamento depende do tipo de dado e da quantidade de dados faltantes.
O tipo de atributo define que operações podem ser aplicadas sobre ele,
transformar atributos via agrupamento ou categorização é extremamente
útil, pois viabiliza a análise de fenômenos sazonais e a identificação de
propriedades particulares de grupos de instâncias.
Figura 15 - comparativo das análises
Fonte: https://rogerioaraujo.files.wordpress.com/2020/06/tipos-de-analise-1.jpg?w=925, 2021.
Análise exploratória
A análise exploratória através de estatística descritiva fornece métodos para
sumarizar dados, muitas vezes, estes sumários são exibidos por meio de
visualizações que facilitam a interpretação dos dados e o tipo de dado
influencia no tipo de sumário que pode ser realizado, podendo ser
qualitativo ou quantitativo. via técnicas estatísticas ou de visualização é
extremamente útil para revelar padrões, tendências e valores discrepantes

(outliers) nos dados, auxiliando tanto na tarefa de processamento e limpeza
dos dados como na construção de modelos.
Figura 16 - Análise exploratória
Fonte: https://www.harbor.com.br/harbor-blog/2016/08/30/histograma/, 2021.
A medida de frequência conta quantas vezes um determinado valor aparece

em um atributo, pode ser relativa, indicando a sua porcentagem.
O cálculo de frequência por meio de contagem só é possível quando o
atributo é categórico, em caso de atributos contínuos, a frequência da
ocorrência de valores é analisada por meio de histogramas. Essas medidas
pode ser: menor valor; maior valor, média, valor mais frequente etc.
Ferramentas de visualização como gráficos temporais e de barra,
histogramas e scatter plots são muito úteis na compreensão dos dados, mas
devem ser empregados com cautela.
Escolha do Modelo
Depende da natureza do problema que se deseja abordar para escolha o
método a ser utilizado em uma análise.

Figura 17 - Escolha do modelo
Fonte: https://abracd.org/etapas-de-um-projeto-de-big-data-analytics-coleta-ingestao-tratamento-de-dados/,
2021.
• Preditivos: ajudam a prever cenários futuros com base na análise de

padrões da base de dados, assim, é possível tomar decisões mais
precisas. Buscam definir modelos capazes de realizar predições a
partir dos dados e informações contidas nos atributos dos dados, os
métodos preditivos buscam realizar predições de valores contínuos ou
categóricos, que demandam, conjunto de respostas esperadas
associadas a um subconjunto de objetos que demanda um conjunto
de respostas esperadas
• Prescritiva: verificar as consequências das ações tomadas, o que

possibilita saber o que deverá ocorrer ao escolher determinadas
atitudes. Essa camada é a que possui mais valor, pois precisa do
elemento humano para se concretizar. Além disso, ela é relevante
porque define o caminho a ser tomado para que a ação ocorra
conforme o esperado. uma meta é traçada e, a partir disso, são
indicados os caminhos que devem ser percorridos para alcançá-la,
• Descritiva: o objetivo é permitir que o analista compreenda os

eventos em tempo real buscam encontrar padrões nos dados, como
atributos que caracterizem certas classes de objetos ou conjuntos de
objetos com propriedades semelhantes, operando diretamente nas

informações contidas nos atributos dos dados, não demandando um
conjunto de controle que indique, para um subconjunto dos dados
procurados.
• Diagnóstica: A finalidade dessa prática é compreender as causas de

um evento, ou seja, responder às perguntas: Quem? Quando? Onde?
Como? Por quê? O ideal é analisar o impacto e alcance de uma ação
tomada. A partir disso, pode-se traçar estratégias para aprimorar os
resultados. Esse é um modelo muito usado em vendas e deve ser
complementado com a análise preditiva para reforçar a projeção dos
dados.
Figura 18 - diagnostica
Fonte: https://blog.academiain1.com.br/big-data-voce-conhece-os-4-tipos-de-analise-de-dados/, 2021.
Avaliação dos modelos

Uma vez que o método ou modelo tenha sido escolhido, é importante saber
o quão eficaz ele é, que sempre estará associada ao tipo de problema,
dividindo o dado de treinamento em duas partes: uma de treinamento de
fato e outra para avaliação do modelo.

Figura 19 - avaliar modelo
Fonte:https://minerandodados.com.br/guia-passo-a-passo-de-como-um-projeto-de-data-science-e-
desenvolvido/, 2021.
Data Warehouse
Depósito de dados operacionais ou armazém de dados, é um tipo especial
de banco de dados, pode ser definido como um depósito de dados orientado
por assunto, integrado, não volátil (uma vez inserido não podem ser
alterados, mas pode ser excluído), variável com o tempo, para apoiar
decisões.

Figura 20 - DW
Fonte: https://www.techtem.com.br/voce-sabe-o-que-e-um-data-warehouse/, 2021.
Surgiu basicamente por duas razões, pela necessidade de fornecer uma

origem de dados única, limpa e consistente para fins de apoio à decisão e
pela necessidade de fazer sem causar impacto sobre os sistemas
operacionais.
Por definição, as cargas de trabalho do data warehouse são cargas de
trabalho de apoio à decisão e, portanto, utilizam consultas intensamente;
além disso, os próprios data warehouse costumam ser bem grandes
frequentemente com muitos terabytes, crescendo cerca de 50% em um
ano, ou ainda mais do que isso.
Como resultado, o ajuste de desempenho é difícil, embora não impossível.
Porém, a escalabilidade pode ser um problema. Os fatores que contribuem
para esse problema incluem
• erros de projeto de bancos de dados;
• uso ineficaz de operações relacionais;
• fraqueza na implementação do modelo relacional pelo SGBD (Sistema
de Gerenciamento de Banco de Dados);
• falta de escalabilidade do próprio SGBD; e

• erros de projeto arquitetônico que limitam a capacidade e impedem a
escalabilidade da plataforma
Figura 21 - DW etapas
Fonte: https://www.cetax.com.br/data-warehouse/, 2021.
REVISÃO
SGBD é a sigla para Sistema Gerenciador de Banco de Dados – em inglês,
Data Base Management System.
Data Mart
Os data warehouse geralmente são destinados a fornecer uma única origem
de dados para todas as atividades de apoio à decisão. Porém, quando os
data warehouse se tornaram populares no início da década de 1990, logo
se percebeu que os usuários, com frequência, executavam extensivas
operações de relatórios e análise de dados sobre um subconjunto
relativamente pequeno do data warehouse completo.
Na verdade, os usuários provavelmente repetiam as mesmas operações
sobre o mesmo subconjunto dos dados toda vez que eles eram renovados.

Além disso, algumas dessas atividades por exemplo, a análise de
prognósticos (previsão), a simulação, a modelagem de dados comerciais
envolviam a criação de novos esquemas e dados, com atualizações
subsequentes desses novos dados.
A execução repetida dessas operações sobre o mesmo subconjunto do
warehouse completo obviamente não é muito eficiente; a ideia de construir
alguma espécie de “warehouse” limitado e de uso especial, adaptado à
finalidade imediata, parece assim uma ideia muito boa.
Além disso, em alguns casos, talvez seja possível extrair e preparar os
dados exigidos diretamente de fontes locais, fornecendo acesso mais rápido
aos dados do que se eles tivessem de serem sincronizados com todos os
outros dados a serem carregados no warehouse completo.
Figura 22 - DW / Data Mart
Fonte: https://www.everit.com.br/data-mart/, 2021.
Essas considerações levaram ao conceito de data marts. Na realidade,

existe alguma controvérsia sobre a definição precisa do termo data mart.
Para nossos fins, podemos defini-lo como um “depósito de dados

especializado, orientado por assunto, integrado, volátil e variável no tempo,
que fornece apoio a um subconjunto específico de decisões da gerência”.
Como podemos ver, as principais distinções entre um data mart e um data
warehouse são as de que um data mart é especializado e volátil.
Por especializado, queremos dizer que ele contém dados para apoio a uma
área específica de análise comercial; por volátil, queremos dizer que os
usuários podem atualizar os dados, e talvez até mesmo criar dados para
algum propósito. Existem três técnicas principais para criação de um data
mart:
• Os dados podem simplesmente ser extraídos do data warehouse com
efeito, seguindo uma tática de “dividir e conquistar” para a carga de
trabalho global de apoio à decisão, a fim de obter melhor desempenho e
escalabilidade. Normalmente, os dados extraídos são carregados em um
banco de dados com um esquema físico muito semelhante ao subconjunto
aplicável destinado ao data warehouse; contudo, pode ser possível
simplificá-lo um pouco, graças à natureza especializada do data mart.
• Apesar do fato de o data warehouse se destinar a fornecer um “único
ponto de controle”, um data mart pode ainda ser criado de modo
independente (não pela extração do data warehouse). Essa técnica poderia
ser apropriada se o data warehouse estivesse inacessível por alguma razão,
digamos por questões financeiras, operacionais ou mesmo políticas (ou o
data warehouse poderia nem sequer existir ainda.)
• Algumas instalações seguiram uma abordagem de “data mart
primeiro”, na qual os data marts são criados conforme a necessidade, com
o data warehouse global sendo criado finalmente como uma consolidação
dos diversos data marts.
As duas últimas técnicas sofrem de possíveis problemas de divergência
semântica. Os data marts independentes são particularmente suscetíveis a
tais problemas, pois não existe um modo óbvio de verificar problemas de

divergência semântica quando os bancos de dados são projetados de forma
independente.
Figura 23 - processo do DW
Fonte: https://www.gratispng.com/png-7zcnp1/, 2021.
A consolidação de data marts em um data warehouse em geral falha, a

menos que seja construído primeiro um único esquema lógico para o data
warehouse e os esquemas para os data marts individuais sejam, então,
derivados desse esquema de warehouse.
Uma decisão importante a ser tomada no projeto de qualquer banco de
dados de apoio à decisão é com respeito à granularidade do banco de dados.
O termo granularidade se refere aqui ao nível mais baixo de agregação de
dados que será mantido no banco de dados.
Agora, a maioria das aplicações de apoio à decisão exige acesso aos dados
de detalhe mais cedo ou mais tarde; assim, no caso do data warehouse, a
decisão é fácil.
Para um data mart, ela pode ser mais difícil. Extrair grandes quantidades
de dados de detalhe do data warehouse e armazená-los no data mart pode
ser muito ineficiente se esse nível de detalhe não for necessário com muita
frequência.
Por outro lado, às vezes é difícil enunciar de forma definitiva qual é
realmente o nível mais baixo de agregação necessário.

Em tais casos, o acesso aos dados de detalhe pode ser feito diretamente a
partir do data warehouse se e quando necessário, com dados um pouco
agregados sendo mantidos no data mart.
Ao mesmo tempo, a agregação total dos dados não costuma ser feita,
porque as muitas possibilidades de agregação dos dados produzirão
quantidades enormes de dados de totalização.
Um ponto adicional: como os usuários de data marts frequentemente
empregam certas ferramentas analíticas, o projeto físico muitas vezes é
determinado em parte pelas ferramentas específicas a serem usadas.
Data Mining
A mineração de dados, possibilita a descoberta de informações de grande
valor, principalmente nas tomadas de decisões utilizando como base
experimentos de áreas como estatística, inteligência artificial, máquina de
estado e banco de dados para construir seu modelo, está o grande volume
de dados e a capacidade de mudança de escala com relação ao tamanho
dos dados.
Figura 24 - Nuvem de Tags Data Mining
Fonte: https://abracd.org/data-mining-o-que-e-e-por-onde-comecar/, 2021.

Algoritmos que têm a capacidade de mudança de escala, mas a mineração
é muito mais do que aplicar algoritmos, geralmente, os dados estão
incompletas ou podem conter ruído, comprometendo os padrões e gerando
baixa confiabilidade.
Sendo importante tomar a decisão sobre quais tipos de algoritmos de
mineração serão aplicados em conjunto de amostra de dados específico,
sintetizando os resultados, aplicando ferramentas de apoio à decisão e
mineração, iterando o processo.
Assim, as principais etapas do processo de mineração podem ser:
• a tomada de decisão do analista sobre quais algoritmos serão
utilizados.
• aplicação dos algoritmos em um conjunto de amostra de dados e
variáveis específicas.
• síntese dos resultados.
• aplicação de mais ferramentas de apoio à decisão de mineração.
• iteração do processo.
Dentre os tipos de dados que podem ser minerados, utilizam-se técnicas
diferentes de mineração. Esse processo de definição e criação do modelo
que será utilizado é a maior parte do processo, na qual deverão ser incluídas
as perguntas sobre os dados e deverá constar um modelo de respostas para
as perguntas feitas; a partir disso, será implantado o modelo propriamente
dito.

Figura 25 - mineração
Fonte: https://www.estrategiaconcursos.com.br/blog/mineracao-de-dados-para-pf/, 2021.
Vários algoritmos e técnicas podem ser utilizados nesse processo. Podemos

citar os seguintes algoritmos: associação, itens frequentes, clustering,
árvores de decisão, classificação bayesiana, mineração por redes neurais
Data Lake e Data Swamp

Diante de números, que são multiplicados em escala global, é possível
estabelecer um ponto de referência no universo do Big Data. Os V’s de
Volume e Velocidade são vencidos por outro fator, o terceiro V, de
Variedade.

Figura 26 - Data Lake x Data Swamp
Fonte: https://www.collibra.com/blog/data-lake-vs-data-swamp-pushing-the-analogy/, 2021.
Neste espaço os dados podem ser estruturados, semiestruturados ou não

estruturados, além de serem provenientes dos mais diversos dispositivos
eletrônicos.
Dos principais desafios originalmente associados ao Big Data, ou seja,
volume, velocidade e variedade, o aspecto Variedade é o menos abordado
pelas arquiteturas analíticas padrão.
É importante destacar que a falta de semântica entre os dados, que
considerem sua origem, tempo, metadados de descrição padronizado, entre
outros fatores, tem proporcionado o surgimento de Lago de Dados (Data
Lakes), que são repositórios com dados de todos os tipos.
Quando não tratados corretamente, um Data Lake pode se tornar um
“Pântano de Dados” (Data Swamp). Portanto, o valor dos metadados e das
anotações semânticas estão rapidamente se tornando uma consideração
chave, em relação à concepção e manutenção de lagos de dados
Como Evitar que o seu Data Lake vire um Data Swamp

Para evitar que seu Data Lake vire um Data Swamp, é preciso ter uma
governança de dados, que vem para estruturar e gerenciar as informações
que residem no Lake, deixando-as mais acessíveis e valiosas

Figura 27 - como evitar o Data Swamp
Fonte: https://bjdooleytoons.wordpress.com/2015/03/05/as-companies-continue-to-implement-data-lakes-
and-bring-their-unstructured-data-together/, 2021.
À medida que as empresas continuam implementando data Lakes e

trazendo seus dados não estruturados para descoberta, novos conceitos
surgirão para fortalecer essa ideia e, esperamos, ajudar a garantir que o
data lake não se torne o temido pântano de dados
Análise de dados
É um campo que está ganhando popularidade a cada dia e muitas empresas
estão evoluindo seus produtos e serviços de acordo com as necessidades
de seus clientes.
O conceito de Data Warehousing e Análise de dados parecia novo no
passado, mas hoje, essas são algumas das ferramentas mais importantes
necessárias para atender a diferentes serviços fornecidos por grandes
empresas em todo o mundo.

As empresas implementam o processo de Transformação e Unificação de
Dados através de ETL (Extract, Transform & Load) ou ELT (Extract, Load &
Transform).
Figura 28 - analisando os dados
Fonte: https://www.striim.com/etl-vs-elt/, 2021.
ETL - Extract, Transform and Load

ETL – Extração, Transformação e Carga, deve ser planejado e o
armazenamento dos dados deve estar à altura do que poderá ser exigido
dele.
Após os dados estiverem disponíveis, o sistema poderá começar a processar
os dados para exibir informações reais.

Figura 29 - extração dos dados
Fonte: https://blogs.bmc.com/is-etl-extract-transform-load-still-relevant/?print=print/, 2021.
O processo ETL começa com a extração de dados de vários arquivos de

origem (docx, csv, xlsx, pdf) ou bancos de dados OLTP (Online
Transactional Processing).
Para entender o que é um banco de dados OLTP, imagine uma simples
transação de venda, em que a empresa vende um produto ou serviço assim
que recebe o dinheiro do cliente.
Um aplicativo OLTP reúne dados de entrada (produto ou serviço, preço,
pagamento, cliente), gerencia a transação até a conclusão e armazena os
dados por meio de inserções ou atualizações em tempo real em um banco
de dados OLTP (Oracle, SQL Server, IBM DB2 ou outro)
A camada de computação é talvez a parte mais diversa do sistema, pois os
requisitos e a melhor abordagem podem variar de maneira significativa,
dependendo do tipo de informação que se queira extrair dos dados.
Estes são frequentemente processados, repetidamente e iterativamente por
uma única ferramenta ou usando várias ferramentas para apresentar
diferentes tipos de insights.

Os requisitos básicos para trabalhar com big data são os mesmos para
trabalhar com conjuntos de dados de qualquer tamanho, porém, o
tamanho, a velocidade, o processamento e as características dos dados que
devem ser tratados em cada etapa do processo apresentam novos desafios
significativos ao projetar soluções.
O objetivo da maioria dos sistemas de big data é apresentar informações e
conexões de grandes volumes de dados heterogêneos que não seriam
possíveis usando-se métodos convencionais.
ELT - Extract, Load and Transform

ETL que significa, Extração, Transformação e Carga, embora esse termo se
refira convencionalmente a processos de data warehouse, alguns dos
mesmos conceitos se aplicam aos dados que entram no sistema de big data.
As operações típicas podem incluir modificar os dados recebidos para
formatá-los, categorizar e rotular dados, filtrar dados desnecessários ou
incorretos, ou validar potencialmente a conformidade com certos requisites
Figura 30 - transformação dos dados
Fonte: https://hevodata.com/learn/understanding-elt /, 2021.

O processo de ETL é um ciclo que passa por três etapas. Na etapa de
extração é onde se obtém os dados, em seu formato original e bruto. Para
que ele se adapte à arquitetura de big data que será utilizada, os dados
serão transformados em uma segunda etapa, sendo tratados quanto ao seu
formato.
Após os devidos ajustes e padronizações dos dados, eles serão carregados
ou inseridos dentro de uma base de dados que, nesse caso, pode ser em
ambiente distribuído e clusterizado.
Os processos de ingestão normalmente entregam os dados aos
componentes que gerenciam o armazenamento, para que possam ser
mantidos no disco de maneira confiável. Embora isso pareça uma operação
simples, o volume de dados recebidos, os requisitos de disponibilidade e a
camada de computação distribuída tornam necessários os sistemas de
armazenamento mais complexos.
Staging Area
Staging Area ou Preparação dos Dados compreende as ações de pré-
processamento dos dados para a fase de modelagem propriamente dita.
Figura 31 - preparação dos dados
Fonte: http://bufallos.com.br/bg_br/staging-area/, 2021.

É um local temporário onde os dados dos sistemas de origem são copiados.
Assim, ao invés de acessar os dados diretamente da fonte, os dados serão
processados ou transformados nesta área, que pode ser uma tabela
temporária, ou uma view materializada que pode ser executada. O ETL pega
os dados da Staging Area para tratar e entregar os dados.
Figura 32 - processo da preparação da área
Fonte: https://www.unidax.com.br/blog/2018/07/09/bi-big-data-frequently-asked-questions-faq/, 2021.
São exemplos de ações desta fase:

• Selecionar os dados que serão efetivamente analisados, a seleção de
dados pode integrar dados coletados de diferentes fontes,
enriquecendo o conjunto de dados que será analisado.
• Promover a limpeza dos dados, procurando remover inconsistências
e completar (ou eliminar) dados ausentes.
• Adequar o formato dos dados. • Construir novos atributos a partir de
atributos existentes.
Os esforços de preparação dos dados sejam direcionados em função da
tarefa e do algoritmo/técnica de mineração a ser utilizado.

Modelagem:
O processo de KDD (Knowledge Discovery in Databases) foi formalizado em
1989 em referência à procura de conhecimento a partir de bases de dados.
Seu objetivo principal é extrair conhecimento de grandes bases dados. A
descoberta do conhecimento envolve uma sequência de fases que devem
ser obedecidas, iniciando-se com a coleta de informações, passando pelo
tratamento e, por fim, a apresentação do resultado da extração do
conhecimento.
Para trabalhar com o processo de KDD, faz-se necessário ter objetivos
definidos, saber quais resultados deseja-se atingir e ter conhecimento do
domínio da aplicação. Nesse processo, três profissionais são envolvidos:
• Analista de dados: conhece as ferramentas aplicadas ao processo,
como algoritmos e inteligência computacional, mas nem sempre
conhece o domínio ao qual os dados pertencem;
• Especialista no domínio: tem conhecimento do domínio dos dados e
sabe onde aplicá-los;
• Usuário (pessoa ou empresa): quem fará uso das informações
resultantes do processo de KDD. Esta fase consiste na escolha e da
aplicação da(s) técnica(s) de modelagem algoritmo(s) de mineração
sobre os dados a serem analisados. Corresponde à etapa de
Mineração de Dados do Processo de KDD.
O processo de KDD é composto por cinco fases: seleção de dados, pré-
processamento, transformação, mineração e interpretação/avaliação.
Trata-se de um processo iterativo, pois poderá ser repetido quantas vezes
for necessário na busca de melhores resultados, mas também é considerado
um processo interativo devido à participação de profissionais como o
usuário final, o especialista do domínio e o analista do domínio. Esse
processo é aplicado na identificação de padrões compreensíveis, válidos,
novos e potencialmente úteis a partir de grandes bases de dados. Embora

cada fase do processo de KDD seja independente, podendo ser tratada
individualmente, existe uma forte dependência entre elas. Assim, para que
seja feita uma correta transformação dos dados, é necessário ter uma base
de dados corretamente modelada. Da mesma maneira, para que os dados
sejam devidamente preparados, é necessário ter como objetivo a aplicação
de ferramentas de extração do conhecimento, como um algoritmo da
mineração
Figura 33 - processo KDD
Fonte: https://www.researchgate.net/figure/Figura-31-Principais-fases-do-processo-de-KDD_fig2_34009292/,
2021.
Envolve testes iniciais voltados à calibração de parâmetros do(s)

algoritmo(s).
Nesta fase, diversas técnicas de modelagem dos dados são experimentadas
e, em cada uma delas, diversos valores de parâmetros são testados.
Essa atividade prevê um retorno à atividade de preparação dos dados, visto
que algumas técnicas de modelagem apresentam demandas diferentes
quanto ao formato do conjunto de dados utilizado.

Resumo
Para um projeto em ciência de dados é importante, entender o problema a

ser resolvido, definir os objetivos do projeto, procurar os dados necessários,
preparar esses dados para que possam ser usados, identificar métodos
adequados e escolher entre eles, ajustar os parâmetros de cada método,
analisar e avaliar os resultados e refazer as tarefas de pré-processamento
e repetir os experimentos.
O big data, apresenta-se como ferramenta competitiva para as empresas,
através de bases de conhecimento bem sólidas que permitem alcançar os
resultados esperados, juntamente com uma infraestrutura composta por
equipamentos e serviços. Vale ressaltar as grande oportunidade de
mercado que os profissionais especializados e qualificados têm diante da
necessidade das empresas
Big Data é certamente uma das mais populares expressões surgidas nos
últimos anos para referenciar o massivo crescimento da quantidade de
dados ao redor do mundo. Este termo compreende também todas as
técnicas e iniciativas de tratamento, integração e análise de dados
provenientes de diversas fontes em diferentes mídias e formatos.
Uma área fortemente relacionada com a Big Data é a mineração de dados,
Data Mining

Referências
SANTOS, R.R.D.; BORDIN, M.V.; NUNES, S.E.; AL., E. FUNDAMENTOS DE

BIG GRUPO A, 2021. 9786556901749.
SILVEIRA, MARCIO, CARLA BONATO MARCOLIN, & HENRIQUE MELLO

RODRIGUES FREITAS. "USO CORPORATIVO DO BIG DATA: UMA REVISÃO
DE LITERATURA." REVISTA DE GESTÃO E PROJETOS [ONLINE], 6.3 (2015):
44-59. WEB. 19 JUL. 2021
MAYER, W ET AL. (2018). VARIETY MANAGEMENT FOR BIG DATA. //HOPPE

T., HUMM B., REIBOLD A. (EDS) SEMANTIC APPLICATIONS. SPRINGER
VIEWEG, BERLIM, HEIDELBERG,2018. 47-62.
ARAÚJO, P. M. FRAMEWORK DE BIG DATA. GRUPO A, 2020.
GOLDSCHMIDT, R. DATA MINING. GRUPO GEN, 2015
BLOG SYNNEX WESTCON-COMSTOR - O blog dos negócios de TI. - 6 Mitos

sobre o Big Data. Disponível em: http://digital.br.synnex.com/pt/6-mitos-
sobre-big-data/
BIG DATA: VOCÊ CONHECE OS 4 TIPOS DE ANÁLISE DE DADOS? Disponível

em: https://blog.academiain1.com.br/big-data-voce-conhece-os-4-tipos-
de-analise-de-dados/
Descoberta de conhecimento utilizando o processo KDD. Disponível em:

https://www.devmedia.com.br/descoberta-de-conhecimento-utilizando-o-
processo-kdd/38709

Conceitos Big Data

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Conceitos Big Data

Enviado por

Direitos autorais:

Formatos disponíveis

Introdução a Big Data

Temos observado na última década, inúmeras revoluções culturais e

Figura 1 - Nuvem de Tags Big Data

As técnicas Big Data tornaram um grande diferencial competitivo para as

Informações acesse: http://ocubo.cpscetec.com.br/

Por que estamos na era dos dados

Informações acesse: http://ocubo.cpscetec.com.br/

Figura 2 - Era dos dados

Fonte: https://www.cotiinformatica.com.br/blog/bi-bigdata-a-era-dos-dados/, 2021.

O volume vem aumentando a cada ano por diversas razões como o

Informações acesse: http://ocubo.cpscetec.com.br/

Fonte: https://macmagazine.com.br/wp-content/uploads/2021/01/27-marcas.jpg/, 2021

Deve-se utilizar ferramentas próprias para registrar os dados, seus

Todos os 5Vs de Big Data

Informações acesse: http://ocubo.cpscetec.com.br/

Fonte: https://pt.semrush.com/blog/big-data-conheca-os-5-vs-e-sua-aplicacao-pratica-para-pmes/, 2021.

Volume: refere ao conceito principal do big data, onde a quantidade dos

Informações acesse: http://ocubo.cpscetec.com.br/

Informações acesse: http://ocubo.cpscetec.com.br/

Velocidade: Assim como os dados são gerados em grandes volumes, seu

Figura 6 - Tráfego de Dados intenso

Informações acesse: http://ocubo.cpscetec.com.br/

Figura 7 - Verdadeiro ou Falso

Variedade: é a heterogeneidade dos dados. Para os SGBD’s que trabalham

Informações acesse: http://ocubo.cpscetec.com.br/

Fonte: https://cappra.com.br/2012/09/10/a-era-do-excesso-da-informacao/, 2021.

Valor: Apresenta resultados quanto a significância dos dados coletados e

Informações acesse: http://ocubo.cpscetec.com.br/

Em 2001, o Gartner, acidentalmente talvez tenha estimulado uma

Dados gerados por máquinas

Informações acesse: http://ocubo.cpscetec.com.br/

Fonte: https://www.proof.com.br/blog/tag/dados-gerados-por-maquina/, 2021.

Mitos sobre Big Data

Informações acesse: http://ocubo.cpscetec.com.br/

Fonte: https://celsocestaro.com.br/analise-de-dados/mitos-data-analytics-big-data/, 2021.

Big Data significa “muitos” dados

Os dados precisam ser “limpos”

Informações acesse: http://ocubo.cpscetec.com.br/

Possuir um lago de dados (Lake Data)

A análise de dados é cara

Os algoritmos irão substituir os analistas humanos

Informações acesse: http://ocubo.cpscetec.com.br/

Informações acesse: http://ocubo.cpscetec.com.br/

Figura 12 - Tomando decisões

Fonte: https://melhorrh.com.br/os-principais-estilos-do-tomador-de-decisao/, 2021.

Uma decisão sempre envolverá riscos, elas impactam diretamente diversos

Informações acesse: http://ocubo.cpscetec.com.br/

Informações acesse: http://ocubo.cpscetec.com.br/

Dados não estruturados

Figura 14 - Imagens, vídeos e áudio

Preparação dos dados

Informações acesse: http://ocubo.cpscetec.com.br/

Figura 15 - comparativo das análises

Fonte: https://rogerioaraujo.files.wordpress.com/2020/06/tipos-de-analise-1.jpg?w=925, 2021.

Informações acesse: http://ocubo.cpscetec.com.br/

Figura 16 - Análise exploratória

Fonte: https://www.harbor.com.br/harbor-blog/2016/08/30/histograma/, 2021.

A medida de frequência conta quantas vezes um determinado valor aparece

Informações acesse: http://ocubo.cpscetec.com.br/

• Preditivos: ajudam a prever cenários futuros com base na análise de

• Prescritiva: verificar as consequências das ações tomadas, o que

• Descritiva: o objetivo é permitir que o analista compreenda os

Informações acesse: http://ocubo.cpscetec.com.br/

• Diagnóstica: A finalidade dessa prática é compreender as causas de