Escolar Documentos
Profissional Documentos
Cultura Documentos
Juciander L. Moreira
Wallace Brito
1
Sumário
1. Introdução
2. Os 3 Vs de Big Data
3. Definição de Big Data
4. Mitos sobre Big Data
5. Aplicações
6. Iniciando um projeto de Big Data
6.1. Captura e armazenamento dos dados
6.2. Tecnologias para Big Data
7. Tendências
8. Conclusão
9. Referências bibliográficas
2
Introdução
➢ Usamos smartphones desde que acordamos e em tempos
pré-determinados durante o dia.
➢ A tecnologia está em constante evolução. Há vinte anos atrás não
existiam soluções capazes de facilitar nossas ações diárias.
○ Smartphone nos acorda com a música favorita.
○ Nossos compromissos são notificados com antecedência.
○ Documentos podem ser buscados facilmente acessando a internet em um serviço de
computação em nuvem para armazenamento de dados.
○ Solicitar serviço de transporte de passageiros por meio de um aplicativo.
○ Etc…
➢ Você é capaz de imaginar sua rotina diária sem os recursos tecnológicos
existentes? Seja para lazer, viagens, compras ou trabalho, a tecnologia
nos proporciona facilidades que antes eram inimagináveis.
3
Introdução
4
Introdução
➢ Qual a semelhança entre os serviços apresentados anteriormente?
○ A quantidade de dados que eles geram.
➢ Os avanços em hardware, software, tecnologias e infraestrutura de
redes foram responsáveis para que chegássemos à “era dos dados”.
➢ Um estudo feito pela revista Science apontou que, em 1996, somente
0.8% dos dados eram armazenados em formato digital, enquanto em
2007 a quantidade de dados digitais já era de 94%.
➢ Como as pessoas utilizam e armazenam uma música, um vídeo ou um
documento nos dias atuais?
○ A grande maioria das respostas envolve um dispositivo digital.
➢ Como ocorreu essa transformação?
○ Um dos fatores é a internet e os dispositivos móveis.
5
Introdução
6
Introdução
7
Introdução
➢ Custo de armazenamento de 1 megabytes em 1990 era de
aproximadamente U$ 12.000, a média atual é de apenas U$ 0.03.
➢ Aumento do poder de processamento.
➢ Lei de Moore.
○ A capacidade de processamento dos computadores dobraria aproximadamente a cada
18 meses.
➢ Com o volume de dados crescendo e novas tecnologias habilitadoras para
a geração desses dados, empresas de diversos segmentos passaram a
perceber o potencial dos diferentes tipos de dados.
○ Aperfeiçoar processos.
○ Aumentar a produtividade.
○ Melhorar o processo de tomada de decisão.
○ Desenvolver novos produtos ou serviços.
➢ Logo, surgiram soluções que utilizam uma série de dados para inúmeros
propósitos.
8
Introdução
➢ Na indústria varejista, que adotam etiquetas de identificação por
radiofrequência (RFID).
➢ Na agricultura, utilização de redes de sensores, que coletam fluxos de
dados em tempo real para fornecer suporte às ações referentes ao
processo de plantação, cultivo e colheita.
➢ Mesmos havendo tantos dados, um estudo do EMC apontou que, em
2012, de todos os 643 exabytes de dados existentes no mundo digital,
somente 3% foram utilizados.
9
Os Vs de Big Data
➢ Além do próprio nome Big Data, “grande quantidade de dados”, dizer
uma de suas principais características, existem outras como os Vs de Big
Data.
➢ Os 3 Vs de Big Data está relacionado com as suas características.
➢ Volume.
➢ Variedade.
➢ Velocidade.
10
Os Vs de Big Data
11
Volume
➢ O atributo volume é a característica mais significativa no conceito de Big
Data. Ele faz referência à dimensão sem precedentes do volume de
dados.
➢ 90% dos dados foram criados nos últimos dois anos.
➢ Origem para tanto dados:
○ A cada segundo, cerca de 40.000 buscas são realizadas no Google.
○ A empresa Walmart manipula mais de 1 milhão de transações dos clientes por hora.
➢ Uma dúvida frequente relacionada ao volume de dados é a identificação
de quando um determinado conjunto de dados pode ser considerado Big
Data.
➢ É preciso ter uma quantidade de petabytes de dados para ter uma
solução de Big Data?
○ A resposta é não.
➢ O que define se o atributo volume necessita de uma tecnologia de Big
Data é limitação das ferramentas tradicionais para lidar com volumes
de dados. 12
Volume
44 zettabytes de
dados em 2020
13
Variedade
➢ O banco de dados relacional é o modelo de armazenamento de dados
mais usado nos últimos 40 anos pelas corporações.
○ Dados rígidos, bem estruturados.
○ Tamanho e os tipos de dados bem definidos.
➢ Embora seja muito eficiente e aplicado a diversos cenários, devido às
características acima, o banco de dados relacional se torna uma limitação
para Big Data, uma vez que esse termo inclui dados semiestruturados e
não estruturados.
➢ Dados semiestruturados são aqueles que possuem uma estrutura
pré-definida, porém não com o mesmo rigor dos dados relacionais.
○ Arquivos no formato JSON (JavaScript Object Notation).
○ XML (eXtensible Markup Language).
➢ Dados não estruturados incluem os vídeos, imagens, e alguns formatos
de textos.
➢ Considerando todos os dados disponíveis globalmente, apenas 20% são
considerados dados estruturados. 14
Variedade
➢ Quando nos referimos à variedade, também cabe destacar a variedade
de áreas das quais Big Data tem sido aplicado.
➢ Na área governamental, com a utilização de tecnologias para rastrear os
perfis dos eleitores na campanha do presidente dos Estados Unidos,
Barack Obama;
➢ No setor financeiro, com soluções na área de análise de risco e detecção
de fraude;
➢ Na área de transporte e automação, com o monitoramento de tráfego
e rastreamento de carga;
➢ No setor de varejo, com a possibilidade de gerar ofertas baseadas na
análise de vendas e no perfil do consumidor;
➢ Nas diversas possibilidades na área de marketing, por meio da análise
de redes sociais;
➢ Na área de seguros, com a possibilidade de ofertas de planos baseados
no comportamento do segurado.
15
Variedade
Dados
transacionais
Repositório de
dados
16
Velocidade
➢ Outra característica de Big Data é a velocidade com que os dados são
coletados, analisados e utilizados.
➢ Imagine um e-commerce que faz recomendações de produtos a um
cliente depois de uma semana dele ter comprado um produto. Se fosse
feito no mesmo instante teria um impacto bem maior provavelmente.
➢ Além da análise dos dados, outro fator de velocidade deve ser levado em
consideração e a rapidez com que os dados são gerados.
➢ Em apenas 1 minuto são gerados:
○ 2 milhões de pesquisas no google.
○ 6 milhões de páginas são visitadas no facebook.
○ 1.3 milhão de vídeos são vistos no youtube.
17
Velocidade
18
Definição informal
➢ Big Data não é somente um grande volume de dados armazenado.
Envolve variedade e velocidade dos dados, que necessita de estratégias
inovadoras capaz de extrair informações valiosas de uma massa de
dados.
➢ Exige quebra de paradigmas. Novos tamanhos de dados, novas
velocidades, novas tecnologias e novos métodos de análise de dados.
➢ Mudança de estratégias e tecnologias a todo momento.
➢ Existem outras características além dos 3 Vs apresentados. O atributo
valor, que consiste em quão valioso e significativo um dado é para uma
solução. O atributo veracidade, que consiste na confiabilidade dos
dados.
➢ Por ser característico de Big Data ter uma grande quantidade e variedade
de dados, é comum a existência de dados inconsistentes.
19
Como os dados são gerados?
20
Dados gerados por humanos
➢ Dados gerados por humanos são aqueles em que o conteúdo foi gerado
a partir do pensamento de uma pessoa, na qual a propriedade intelectual
está integrada ao dado.
➢ Mídias sociais: Facebook, Instagram, twitter, whatsapp etc…
○ Comentários e curtidas.
○ Compartilhamento e publicação de imagens, áudio e vídeo.
○ Posts com pensamentos sobre algo que geram debates.
➢ Sites colaborativos: wikipédia.
➢ Outros tipos de dados: blogs, avaliação de produtos, serviços de sites
e-commerce, Internet das coisas.
○ Americanas.com, Walmart.com e Amazom.com.
➢ Dados de e-commerce são usados para fazer recomendações de
produtos e serviços. Netflix: recomendar filmes para seu usuário.
Walmart: descobrir preferências de seus usuários.
21
Dados gerados por máquinas
➢ Dados digitais produzidos por processos computacionais, sem necessitar
explicitamente de intervenção humana.
➢ Registro de logs gerado pelos servidores da web
○ Visitas em páginas da web.
○ Clicks em link capturados.
➢ Internet das Coisas
○ Sensores
○ Atuadores
○ Wearables
○ Etiquetas de RFID
22
Mitos sobre Big Data
➢ Big Data engloba somente dados não estruturados.
○ Banco de dados relacional precisou ser complementado.
○ Dados relacionais continuam sendo valiosos e muito utilizados em soluções Big Data.
○ Inclusão de mais tipos de dados.
23
Aplicações
Área Onde Big Data está sendo aplicado
Saúde e Medicina ● Monitoramento de pacientes em tempo real;
● Análise de dados de redes sociais para descobertas de pandemias;
● Análise de padrões de doenças;
24
Iniciando um projeto de Big Data
25
Etapas num projeto de Big Data
1. Identificar as perguntas que devem ser respondidas com os dados
a. Quais informações pretende-se extrair de um conjunto de dados.
2. Etapa de captura e armazenamento dos dados
a. Que fontes devo utilizar?
b. Como os dados serão capturados?
c. Formato e tipo de dados a serem extraídos.
d. Como serão armazenados?
3. Etapa de processamento e análise
a. Tecnologias de Big Data devem ser definidas.
b. Mecanismos de machine learning, métodos estatísticos, fundamentos matemáticos e
mineração de dados.
4. Visualização de dados
a. Técnicas de criação de gráficos dinâmicos e interativos.
26
Etapas num projeto de Big Data
1. Identificar as perguntas que devem ser respondidas com os dados
a. Quais informações pretende-se extrair de um conjunto de dados.
2. Etapa de captura e armazenamento dos dados
a. Que fontes devo utilizar?
b. Como os dados serão capturados?
3. Etapa de processamento e análise
a. Tecnologias de Big Data devem ser definidas.
b. Mecanismos de machine learning, métodos estatísticos, fundamentos matemáticos e
mineração de dados.
4. Visualização de dados
a. Técnicas de criação de gráficos dinâmicos e interativos.
27
Captura e armazenamento dos dados
Formas de obtenção dos dados
● Dados internos
■ Registro de logs.
■ Dados de sensores.
● Dados externos
○ Dados de domínio público.
○ Open data.
28
Captura e armazenamento dos dados
Armazenamento de dados
● Escalabilidade
○ Manter o desempenho mesmo com a adição de mais dados.
○ Os SGDBs relacionais, consegue garantir esse desempenho com adição de novos
recursos computacionais.
● Alta disponibilidade
● Flexibilidade
○ Os SGDBs relacionais precisa definir o esquema. Inviável para dados semiestruturados.
Tecnologias NoSQL
29
Captura e armazenamento dos dados
Características das tecnologias NoSQL:
● Ausência de esquema
○ Não exigem um esquema rígido.
● Projetadas para cluster
○ Oferecendo maior escalabilidade.
Teorema CAP
Tolerância à partição
30
Captura e armazenamento dos dados
31
Processamento de dados
● Como processar grandes volumes de dados em tempo razoável?
○ Processamento distribuído
32
Processamento de dados
33
Processando os dados com Hadoop
● O que é o Hadoop?
○ Conjunto de ferramentas que permite fazer processamento distribuído.
● Inicialmente o Hadoop foi projetado para um propósito específico: uma
engine de busca da Web, tal como serviço da Google, porém open source.
● Lançado oficialmente em 2006.
34
Processando os dados com Hadoop
Principais características que tornaram o Hadoop tão interessante para
aplicações que envolvem o grande volume de dados:
35
Ecossistema do Hadoop
36
Hadoop - HDFS
● HDFS
- Sistema de arquivos distribuído que permite o armazenamento de
grande volume de dados de maneira tolerante a falhas.
37
Hadoop - HDFS
● HDFS
- Transparência
38
Hadoop - Modelo MapReduce
● MapReduce
- O Hadoop é baseado no modelo de programação MapReduce.
- Permite que grandes volumes de dados sejam processados por meio da
divisão de uma aplicação em tarefas independentes.
- É composto por duas fases principais:
● Map
○ Processar um conjunto de dados de entrada, que devem ser obtidos no formato de
pares chave-valor.
● Reduce
○ Recebe dados do Map, e tem como saída também no formato chave-valor.
39
Hadoop - Modelo MapReduce
Exemplo básico: Contador de palavras
42
Limitações do MapReduce
MapReduce não é uma solução adequada para todas as aplicações de Big
Data.
43
Processamento em tempo real
Processamento em tempo real:
● Baixa latência
● Consistência
● Alta disponibilidade
44
Processamento em tempo real
Tecnologias de Big Data para processamento em tempo real:
● Apache Storm
○ Oferece baixa latência.
○ Pode ser utilizado em uma infraestrutura Hadoop.
● Apache Spark
○ Considerado uma evolução do Apache MapReduce.
○ Oferece mecanismos que otimizam o processamento em memória dos dados.
○ Pode ser utilizado em uma infraestrutura Hadoop.
● Apache Kafka
○ Pode ser utilizado em uma infraestrutura Hadoop.
45
Apache Spark
46
Apache Spark
● Aplicações em Java, Scala, Python, R, e SQL.
47
Apache Spark
Exemplo: Monitoramento em tempo real.
48
Tendências
➢ Streaming de dados
○ Para atender massa de dispositivos da IoT.
➢ Análise de séries temporais
○ Banco de dados de séries temporais
○ Banco de dados que contenham sequências de valores ou eventos armazenados
sucessivamente em função do tempo.
➢ Fusão de ferramentas de Big Data com IA
○ TensorFlow
➢ Combate a fake news
49
Conclusão
➢ Big Data é considerado “o novo petróleo”. Está sendo e será mais usado
ainda no futuro. Uma área que está se desenvolvendo cada vez mais com
novas tecnologias, novas técnicas.
50
Referências Bibliográficas
● http://hadoop.apache.org/ acessado em 02/07/18 ás 18:32h
● https://spark.apache.org/ acessado em 02/07/18 ás 19:45h
● https://cloud.google.com/bigtable/ acessado em 02/07/18 ás 18:12h
● MCCREARY, Dan; KELLY, Ann. Making sense of NoSQL. Shelter Island:
Manning, 2014.
● DEAN, Jeffrey; GHEMAWAT, Sanjay. MapReduce: simplified data
processing on large clusters. Sixth Symposium on Operating System
Design and Implementation, Dez. 2004.
● LUBLINSKY, Boris; YAKUBOVICH, Alexey; SMITH, Kevin. Professional
Hadoop Solutions. John Wiley & Sons, 2013.
● GOLDMAN, Alfredo; KON, Fabio; JUNIOR, Francisco Pereira; POLATO,
Ivanilton; PEREIRA, Rosangela de Fátima. Apache Hadoop: conceitos
teóricos e práticos, evoluçao e novas possibilidades. XXXI Jornadas de
atualizaçoes em informatica, 2012.
51