Escolar Documentos
Profissional Documentos
Cultura Documentos
Fonte:https://www.acessa.com/tecnologia/arquivo/artigo/2018/06/18-que-big-data/, 2021.
http://ocubo.cpscetec.com.br/
pesquisas, utilizando termos mais pesquisados, o objetivo para encontrar e
conseguir chegar no maior número de delegados para os presidenciáveis.
http://ocubo.cpscetec.com.br/
sem qualidade, ou seja, não fornecem segurança nas informações, para
decisões competitivas, o que é o grande desafio.
Os dados dentro do sistema de gerenciamento de banco de dados (SGBD)
podem estar organizados de três formas: estruturados, não estruturados
ou semiestruturados, que abordaremos com mais detalhes mais adiante.
Estamos vivendo numa era de grandes volumes de informações. Chamam,
Big Data.
http://ocubo.cpscetec.com.br/
Figura 3 - Empresas mais valiosas
http://ocubo.cpscetec.com.br/
Figura 4 - Os 5Vs do Big data
Dados esses, que são advindos de diversas fontes, como redes sociais,
motores de busca da internet, e-commerce, entre outras. Talvez esse seja
o grande diferencial em relação aos outros bancos de dados: o tratamento
de grandes volumes de informações de dados, com formas diferentes
estruturados ou não estruturados e até mesmo os semiestruturados.
http://ocubo.cpscetec.com.br/
Figura 5 - Escala global do Volume de Dados
Fonte: https://www.commsbusiness.co.uk/features/big-data-can-help-businesses-make-smart-
decisions/zettabytes , 2021.
revisão
Os computadores realizam seu processamento através impulsos
elétricos, sendo positivos ou negativos, e representados por 0 ou 1. Cada
impulso elétrico recebe o nome de bit (BInary digiT). Um conjunto de 8
bits unidos como uma única unidade formam um byte.
Nos computadores, representar 256 números binários é suficiente para
que possamos lidar a contento com estas máquinas. Assim, os bytes
possuem 8 bits. É só fazer os cálculos: como um bit representa dois tipos
de valores (1 ou 0) e um byte representa 8 bits, basta fazer 2 (do bit)
elevado a 8 (do byte) que é igual a 256.
Os bytes representam todas as letras (maiúsculas e minúsculas), sinais
de pontuação, acentos, caracteres especiais e até informações que não
podemos ver, mas’ que servem para comandar o computador e que
podem inclusive ser enviados pelo teclado ou por outro dispositivo de
entrada de dados e instruções.
Para que isso aconteça, os computadores utilizam uma tabela que
combina números binários com símbolos: a tabela ASCII (American
http://ocubo.cpscetec.com.br/
Standard Code for Information Interchange). Nela, cada byte representa
um caractere ou um sinal.
Fonte: https://www.bitmag.com.br/2014/02/cisco-preve-que-trafego-de-dados-moveis-cresca-11-vezes-no-
brasil/, 2021.
http://ocubo.cpscetec.com.br/
Figura 7 - Verdadeiro ou Falso
Fonte: https://www.istockphoto.com/pt/vetorial/true-and-false-option-green-and-red-check-mark-and-x-icon-
isolated-on-wthte-gm1140391362-305156372, 2021.
http://ocubo.cpscetec.com.br/
relevantes, que proporcionem conhecimento para um diferencial de
mercado ou, ainda, auxiliar os gestores nas tomadas de decisões.
É exatamente o ponto que as empresas buscam nas características do big
data é o que precisam, converter em informações relevantes para o
crescimento ou posicionamento, garantindo que esses dados sejam de
grande significância e valor para a empresa.
Fonte: https://newsroom.br.paypal-corp.com/Mitos-do-Big-Data-Dados-sao-a-coisa-mais-valiosa-do-mundo,
2021.
http://ocubo.cpscetec.com.br/
entre outras possíveis operações do mercado financeiro. Essas operações
efetuadas são recapturadas pelas ferramentas do big data, e o processo é
reiniciado.
Você já deve ter ouvido aquela expressão “o céu é o limite” — ela se encaixa
muito bem no contexto dos cenários em que o big data pode atuar. Não
existe uma limitação para determinado segmento. Desde que seja possível,
de alguma forma, gerar e captar dados, será possível fazer com que o big
data se torne uma importante ferramenta de estratégia de mercado.
Contudo, deve sempre haver um cuidado dos profissionais ligados a essa
área do conhecimento em desenvolver os métodos mais adequados para
cada caso.
http://ocubo.cpscetec.com.br/
Figura 11 - Mitos sobre big data
http://ocubo.cpscetec.com.br/
1.4.2. Esperar para aperfeiçoar seus dados
Após a limpeza dos dados, ou seja, separamos para utilização apenas dados
relevantes ao que se espera encontrar, esta mesma análise pode e deve ser
refeita passando por novos processos de refinamento, assim a cada análise
feita espera-se obter maior precisão na interpretação, trazendo resultados
uteis para organização e agilidade nos processos.
http://ocubo.cpscetec.com.br/
a participação dos especialistas para a interpretação dos resultados, e cada
vez mais os cientistas de dados vem se especializando a cada dia.
Caso ainda exista algum receio por parte das empresas sobre os projetos
de Big Data, devem aproveitar essas oportunidades e capturar elementos
que possam trazer grande impacto nas projeções e resultados de seus
negócios.
Assim como a computação em nuvem em seu começo, o Big Data é uma
tecnologia que ainda deve sofrer alterações e aprimoramentos, sendo
essencial compreender como esse processo é, e fundamental para
acompanhar o mercado.
http://ocubo.cpscetec.com.br/
1.4.7. Tomando decisão baseada em dados.
Um tomador de decisões não deve basear apenas na experiência. É preciso
se basear na análise de dados, porém a ciência de dados envolve processos,
técnicas e princípios para compreender os fenômenos por meio de uma
análise (automatizada) de dados.
http://ocubo.cpscetec.com.br/
1.4.8. Tipos de Dados
Basicamente temos dois tipos de dados estruturados e dados não
estruturados
Figura 13 - Comparativo entre dados estruturados e não estruturados
Fonte: https://www.grupotreinar.com.br/blog/2016/4/9/vis%C3%A3o-geral-sobre-a-gest%C3%A3o-de-
conte%C3%BAdo-n%C3%A3o-estruturado-e-ecm.aspx, 2021.
2. Dados estruturados
São aqueles com tamanhos definidos em seu desenvolvimento. Em grande
parte, correspondem a números, datas e palavras. Geralmente são
utilizados em bancos de dados do tipo relacional, em que a estrutura precisa
estar definida por tipos e tamanhos, o que define o relacionamento por meio
das chaves, podendo ser qualitativo ou quantitativo.
Qualitativos geralmente são atributos que podem ser categorizados por
nome, sexo, estado civil, cor, raça etc.
Quantitativos são atributos numéricos que se originam de alguma medida
objetiva, podendo ser: idade, altura, data de nascimento, peso e dentre
outros.
http://ocubo.cpscetec.com.br/
Tabela 01: Exemplo de dados estruturados
Nome Idade Altura Data Sexo Estado
Nasc. civil
ANA 22 1,72 25/01/1999 F Solteira
MARCIO 19 1,78 31/07/2002 M Solteiro
JOÃO 76 1,69 14/06/1945 M Viúvo
MARIA 43 1,67 06/02/1978 F Casada
Fonte: elabora pelo autor, 2021.
Fonte: https://i1.wp.com/www.tecnoup.net.br/wp-content/uploads/2019/07/banco-de-
imagens.jpg?w=1280&ssl=1, 2021.
http://ocubo.cpscetec.com.br/
consistência e a verificação de atributos redundantes que possuem
informações correlatas que não agregam valor aos dados, podendo,
inclusive, piorar o desempenho de modelos quando utilizadas
conjuntamente, sem esquecer de eventuais dados faltantes, que são muito
comuns em problemas reais, pode não ser uma tarefa simples, seu
tratamento depende do tipo de dado e da quantidade de dados faltantes.
O tipo de atributo define que operações podem ser aplicadas sobre ele,
transformar atributos via agrupamento ou categorização é extremamente
útil, pois viabiliza a análise de fenômenos sazonais e a identificação de
propriedades particulares de grupos de instâncias.
5. Análise exploratória
A análise exploratória através de estatística descritiva fornece métodos para
sumarizar dados, muitas vezes, estes sumários são exibidos por meio de
visualizações que facilitam a interpretação dos dados e o tipo de dado
influencia no tipo de sumário que pode ser realizado, podendo ser
qualitativo ou quantitativo. via técnicas estatísticas ou de visualização é
extremamente útil para revelar padrões, tendências e valores discrepantes
http://ocubo.cpscetec.com.br/
(outliers) nos dados, auxiliando tanto na tarefa de processamento e limpeza
dos dados como na construção de modelos.
6. Escolha do Modelo
Depende da natureza do problema que se deseja abordar para escolha o
método que será utilizado em uma análise de dados.
http://ocubo.cpscetec.com.br/
Figura 17 - Escolha do modelo
Fonte: https://abracd.org/etapas-de-um-projeto-de-big-data-analytics-coleta-ingestao-tratamento-de-dados/,
2021.
http://ocubo.cpscetec.com.br/
caracterizem certas classes de objetos ou conjuntos de objetos com
propriedades semelhantes, operando diretamente nas informações
contidas nos atributos dos dados, não demandando um conjunto de
controle que indique, para um subconjunto dos dados procurados.
Figura 18 - diagnostica
http://ocubo.cpscetec.com.br/
Figura 19 - avaliar modelo
Fonte:https://minerandodados.com.br/guia-passo-a-passo-de-como-um-projeto-de-data-science-e-
desenvolvido/, 2021.
8. Data Warehouse
Depósito de dados operacionais ou armazém de dados, é um tipo específico
de banco de dados, que pode ser definido como um depósito de dados
organizado por assunto, integrado e não volátil, ou seja, uma vez inserido
os dados eles não podem ser alterados, mas podem ser excluído, variam
com o tempo, para apoiar as decisões.
http://ocubo.cpscetec.com.br/
Figura 20 - DW
Surgiu basicamente por duas razões, pela demanda de fornecer uma origem
única para os dados, limpa e consistente para finalidade de apoiar à decisão
sem causar impacto sobre os sistemas operacionais.
Por delimitação, as cargas de trabalho do data warehouse são cargas de
apoio à decisão que, realizam consultas intensamente; além disso, os
próprios data warehouse costumam ser bem grandes frequentemente com
muitos terabytes, crescem cerca de 50% ao ano, ou ainda mais do que isso.
Como resultado, o ajuste de desempenho é difícil, embora não impossível.
Porém, a escalabilidade pode ser um problema. Os fatores que contribuem
para esse problema incluem
• erros de projetos em bancos de dados;
• uso ineficaz de operações relacionais;
• fraqueza na implementação do modelo relacional pelo SGBD (Sistema
de Gerenciamento de Banco de Dados);
• falta de escalabilidade do próprio SGBD; e
• erros de projeto arquitetônico que limitam a capacidade e impedem a
escalabilidade da plataforma
http://ocubo.cpscetec.com.br/
Figura 21 - DW etapas
REVISÃO
SGBD é a sigla para Sistema Gerenciador de Banco de Dados – em inglês,
Data Base Management System.
9. Data Mart
Os data warehouse geralmente são destinados a fornecer uma única origem
de dados para todas as atividades de apoio à decisão. Porém, quando os
data warehouse se tornaram populares no início da década de 1990, logo
se percebeu que os usuários, com frequência, executavam extensivas
operações de relatórios e análise de dados sobre um subconjunto
relativamente pequeno do data warehouse completo.
Na verdade, os usuários provavelmente repetiam as mesmas operações
sobre o mesmo subconjunto dos dados toda vez que eles eram renovados.
Além disso, algumas dessas atividades por exemplo, a análise de
prognósticos (previsão), a simulação, a modelagem de dados comerciais
http://ocubo.cpscetec.com.br/
envolviam a criação de novos esquemas e dados, com atualizações
subsequentes desses novos dados.
A execução repetida dessas operações sobre o mesmo subconjunto do
warehouse completo obviamente não é muito eficiente; a ideia de construir
alguma espécie de “warehouse” limitado e de uso especial, adaptado à
finalidade imediata, parece assim uma ideia muito boa.
Além disso, em alguns casos, talvez seja possível extrair e preparar os
dados exigidos diretamente de fontes locais, fornecendo acesso mais rápido
aos dados do que se eles tivessem de serem sincronizados com todos os
outros dados a serem carregados no warehouse completo.
http://ocubo.cpscetec.com.br/
variável no tempo, fornecendo apoio a subconjunto específico de decisões
para a gerência.
Como podemos observar, as principais diferenças entre um data mart e um
data warehouse são que, um data mart é volátil e especializado.
Volátil, se refere aos usuários que podem atualizar os dados, e talvez até
mesmo criar dados para algum propósito. Especializado, possuem dados
que apoiarão determinada área de análise. Existem três técnicas principais
para criação de um data mart:
• Os dados podem simplesmente ser extraídos do data warehouse com
efeito, seguindo uma tática de “dividir e conquistar” para a carga de
trabalho global de apoio à decisão, a fim de obter melhor desempenho e
escalabilidade. Normalmente, os dados extraídos são carregados em um
banco de dados com um esquema físico muito semelhante ao subconjunto
aplicável destinado ao data warehouse; contudo, pode ser possível
simplificá-lo um pouco, graças à natureza especializada do data mart.
• Apesar do fato de o data warehouse se destinar a fornecer um “único
ponto de controle”, um data mart pode ainda ser criado de modo
independente (não pela extração do data warehouse). Essa técnica poderia
ser apropriada se o data warehouse estivesse inacessível por alguma razão,
digamos por questões financeiras, operacionais ou mesmo políticas (ou o
data warehouse poderia nem sequer existir ainda.)
• Algumas instalações seguiram uma abordagem de “data mart
primeiro”, na qual os data marts são criados conforme a necessidade, com
o data warehouse global sendo criado finalmente como uma consolidação
dos diversos data marts.
As duas últimas técnicas sofrem de possíveis problemas de divergência
semântica. Os data marts independentes são particularmente suscetíveis a
tais problemas, pois não existe um modo óbvio de verificar problemas de
divergência semântica quando os bancos de dados são projetados de forma
independente.
http://ocubo.cpscetec.com.br/
Figura 23 - processo do DW
http://ocubo.cpscetec.com.br/
Um ponto adicional: como os usuários de data marts frequentemente
empregam certas ferramentas analíticas, o projeto físico muitas vezes é
determinado em parte pelas ferramentas específicas a serem usadas.
http://ocubo.cpscetec.com.br/
sintetizando os resultados, aplicando ferramentas de apoio à decisão e
mineração, iterando o processo.
Assim, as principais etapas do processo de mineração podem ser:
• a tomada de decisão do analista sobre quais algoritmos serão
utilizados.
• aplicação dos algoritmos em conjunto com amostra de dados e
variáveis específicas.
• síntese dos resultados.
• aplicação de várias ferramentas de apoio à decisão de mineração.
• iteração do processo.
Entre os tipos de dados, existem diferentes técnicas de mineração. Esse
processo de criação e definição do modelo a será utilizado demanda a maior
parte do processo, quando serão incluídas as perguntas sobre os dados e
devem conter, devendo constar também um modelo de respostas para as
perguntas que serão feitas, partindo para implantação do modelo
propriamente dito.
Figura 25 - mineração
Várias técnicas e algoritmos podem ser utilizados nesse processo, como por
exemplo os algoritmos de árvores de decisão, clustering (análise de
http://ocubo.cpscetec.com.br/
agrupamento de dados), associação, itens mais frequentes, classificação
bayesiana (classe mais provável) e a mineração por redes neurais.
http://ocubo.cpscetec.com.br/
Quando não tratados corretamente, um Data Lake pode se tornar um
“Pântano de Dados” (Data Swamp). Portanto, o valor dos metadados e das
anotações semânticas estão rapidamente se tornando uma consideração
chave, em relação à concepção e manutenção de lagos de dados
11.1 Como Evitar que o seu Data Lake vire um Data Swamp
Para que se evite que um Data Lake vire um Data Swamp, é necessário
realizar a governança de dados, que determinarão a estrutura e como as
informações serão gerenciadas no Data Lake, tornando-as acessíveis e
valiosas.
Fonte: https://bjdooleytoons.wordpress.com/2015/03/05/as-companies-continue-to-implement-data-lakes-
and-bring-their-unstructured-data-together/, 2021.
http://ocubo.cpscetec.com.br/
12. Análise de dados
É um campo que está ganhando popularidade a cada dia e muitas empresas
estão evoluindo seus produtos e serviços de acordo com as necessidades
de seus clientes.
O conceito de Data Warehousing e Análise de dados parecia novo no
passado, mas hoje, essas são algumas das ferramentas mais importantes
necessárias para atender a diferentes serviços fornecidos por grandes
empresas em todo o mundo.
As empresas implementam o processo de Transformação e Unificação de
Dados através de ETL (Extract, Transform & Load) ou ELT (Extract, Load &
Transform).
http://ocubo.cpscetec.com.br/
Após os dados serem disponibilizados, começa a fase de processamento e
produção das informações reais.
http://ocubo.cpscetec.com.br/
significativa, dependendo diretamente do tipo de informação deseja extrair
dos dados.
Estes são frequentemente processados, repetidamente e iterativamente por
uma única ferramenta ou várias ferramentas com o objetivo de apresentar
diferentes tipos de insights.
Os requisitos principais para se trabalhar com Big Data, são exatamente os
mesmos para trabalhar com conjuntos de dados de qualquer tamanho.
Entretanto, o tamanho, a velocidade, o processamento e as características
dos dados que serão tratados em cada etapa do processo, vão apresentar
novos desafios significativos ao projetar as soluções.
Sua principal finalidade na maioria dos casos, é apresentar informações e
conexões entre grandes volumes de dados heterogêneos que não seriam
possíveis aplicando os métodos convencionais.
http://ocubo.cpscetec.com.br/
Figura 30 - transformação dos dados
http://ocubo.cpscetec.com.br/
15. Staging Area
Staging Area ou Preparação dos Dados compreende as ações de pré-
processamento dos dados para a fase de modelagem propriamente dita.
http://ocubo.cpscetec.com.br/
Figura 32 - processo da preparação da área
15.1 Modelagem:
O processo KDD (Knowledge Discovery in Databases) foi regularizado em
1989, em conta da procura de conhecimento a partir das bases de dados.
Seu principal objetivo é extrair conhecimento de grandes bases dados. Essa
descoberta do conhecimento, envolve uma sequência de fases que devem
ser obedecidas, se inicia com a coleta de informações, passa pelo
http://ocubo.cpscetec.com.br/
tratamento e, finalmente, a apresentação desses resultados obtidos através
da extração, gerando conhecimento.
Para trabalhar com o processo de KDD, é importante ter objetivos definidos,
saber quais os resultados pretendem atingir e dominar a aplicação,
processo esse que envolve três profissionais:
• Analista de dados: responsável por manusear as ferramentas que
serão aplicadas no processo, como por exemplo, inteligência
computacional e algoritmos, mas nem sempre conhecem o domínio
para o qual os dados são pertencentes;
• Especialista no domínio: tem ciência e domínio dos dados e sabe como
e onde aplicá-los;
• Usuário (pessoa ou empresa): o que fará uso das informações que
são obtidos no KDD. Fase essa, que comtempla a escolha da(s)
aplicação(ões), da(s) técnica(s) de modelagem algoritmo(s) de
mineração dos dados que serão analisados, que corresponde à etapa
de Mineração de Dados do Processo de KDD.
O KDD é composto por cinco fases em seu processo, sendo: a seleção de
dados, o pré-processamento, a transformação, a mineração e interpretação
/ avaliação.
É um processo iterativo, que pode se repetir quantas vezes for necessário
na busca de melhores resultados, entretanto, também é considerado um
processo interativo porque acontece à participação não somente de
profissionais como o especialista e o analista do domínio, mas também do
usuário final. Esse processo é realizado para a identificação de padrões que
sejam compreensíveis e válidos, novos e potencialmente úteis a partir de
grandes bases de dados.
Embora cada fase do KDD seja independente, podemos tratar de forma
individual, existindo uma forte dependência entre elas. De tal modo, para
que seja feita a transformação dos dados de forma correta, é preciso ter
uma base de dados modelada corretamente. Da mesma forma, para que os
http://ocubo.cpscetec.com.br/
dados sejam devidamente preparados, se faz necessário ter como objetivo
a aplicação de ferramentas que realizem a extração gerando conhecimento,
através de um algoritmo da mineração.
Fonte: https://www.researchgate.net/figure/Figura-31-Principais-fases-do-processo-de-KDD_fig2_34009292/,
2021.
http://ocubo.cpscetec.com.br/
Resumo
http://ocubo.cpscetec.com.br/
Referências
http://ocubo.cpscetec.com.br/