Seminario Big Data

Introdução a Big Data
Juciander L. Moreira
Wallace Brito
1
Sumário
1. Introdução
2. Os 3 Vs de Big Data
3. Definição de Big Data
4. Mitos sobre Big Data
5. Aplicações
6. Iniciando um projeto de Big Data
6.1. Captura e armazenamento dos dados
6.2. Tecnologias para Big Data
7. Tendências
8. Conclusão
9. Referências bibliográficas
2
Introdução
➢ Usamos smartphones desde que acordamos e em tempos
pré-determinados durante o dia.
➢ A tecnologia está em constante evolução. Há vinte anos atrás não
existiam soluções capazes de facilitar nossas ações diárias.
○ Smartphone nos acorda com a música favorita.
○ Nossos compromissos são notificados com antecedência.
○ Documentos podem ser buscados facilmente acessando a internet em um serviço de
computação em nuvem para armazenamento de dados.
○ Solicitar serviço de transporte de passageiros por meio de um aplicativo.
○ Etc…
➢ Você é capaz de imaginar sua rotina diária sem os recursos tecnológicos
existentes? Seja para lazer, viagens, compras ou trabalho, a tecnologia
nos proporciona facilidades que antes eram inimagináveis.
3
Introdução
4
Introdução
➢ Qual a semelhança entre os serviços apresentados anteriormente?
○ A quantidade de dados que eles geram.
➢ Os avanços em hardware, software, tecnologias e infraestrutura de
redes foram responsáveis para que chegássemos à “era dos dados”.
➢ Um estudo feito pela revista Science apontou que, em 1996, somente
0.8% dos dados eram armazenados em formato digital, enquanto em
2007 a quantidade de dados digitais já era de 94%.
➢ Como as pessoas utilizam e armazenam uma música, um vídeo ou um
documento nos dias atuais?
○ A grande maioria das respostas envolve um dispositivo digital.
➢ Como ocorreu essa transformação?
○ Um dos fatores é a internet e os dispositivos móveis.
5
Introdução
6
Introdução
7
Introdução
➢ Custo de armazenamento de 1 megabytes em 1990 era de
aproximadamente U$ 12.000, a média atual é de apenas U$ 0.03.
➢ Aumento do poder de processamento.
➢ Lei de Moore.
○ A capacidade de processamento dos computadores dobraria aproximadamente a cada
18 meses.
➢ Com o volume de dados crescendo e novas tecnologias habilitadoras para
a geração desses dados, empresas de diversos segmentos passaram a
perceber o potencial dos diferentes tipos de dados.
○ Aperfeiçoar processos.
○ Aumentar a produtividade.
○ Melhorar o processo de tomada de decisão.
○ Desenvolver novos produtos ou serviços.
➢ Logo, surgiram soluções que utilizam uma série de dados para inúmeros
propósitos.
8
Introdução
➢ Na indústria varejista, que adotam etiquetas de identificação por
radiofrequência (RFID).
➢ Na agricultura, utilização de redes de sensores, que coletam fluxos de
dados em tempo real para fornecer suporte às ações referentes ao
processo de plantação, cultivo e colheita.
➢ Mesmos havendo tantos dados, um estudo do EMC apontou que, em
2012, de todos os 643 exabytes de dados existentes no mundo digital,
somente 3% foram utilizados.
9
Os Vs de Big Data
➢ Além do próprio nome Big Data, “grande quantidade de dados”, dizer
uma de suas principais características, existem outras como os Vs de Big
Data.
➢ Os 3 Vs de Big Data está relacionado com as suas características.
➢ Volume.
➢ Variedade.
➢ Velocidade.
10
Os Vs de Big Data
11
Volume
➢ O atributo volume é a característica mais significativa no conceito de Big
Data. Ele faz referência à dimensão sem precedentes do volume de
dados.
➢ 90% dos dados foram criados nos últimos dois anos.
➢ Origem para tanto dados:
○ A cada segundo, cerca de 40.000 buscas são realizadas no Google.
○ A empresa Walmart manipula mais de 1 milhão de transações dos clientes por hora.
➢ Uma dúvida frequente relacionada ao volume de dados é a identificação
de quando um determinado conjunto de dados pode ser considerado Big
Data.
➢ É preciso ter uma quantidade de petabytes de dados para ter uma
solução de Big Data?
○ A resposta é não.
➢ O que define se o atributo volume necessita de uma tecnologia de Big
Data é limitação das ferramentas tradicionais para lidar com volumes
de dados. 12
Volume
44 zettabytes de
dados em 2020
13
Variedade
➢ O banco de dados relacional é o modelo de armazenamento de dados
mais usado nos últimos 40 anos pelas corporações.
○ Dados rígidos, bem estruturados.
○ Tamanho e os tipos de dados bem definidos.
➢ Embora seja muito eficiente e aplicado a diversos cenários, devido às
características acima, o banco de dados relacional se torna uma limitação
para Big Data, uma vez que esse termo inclui dados semiestruturados e
não estruturados.
➢ Dados semiestruturados são aqueles que possuem uma estrutura
pré-definida, porém não com o mesmo rigor dos dados relacionais.
○ Arquivos no formato JSON (JavaScript Object Notation).
○ XML (eXtensible Markup Language).
➢ Dados não estruturados incluem os vídeos, imagens, e alguns formatos
de textos.
➢ Considerando todos os dados disponíveis globalmente, apenas 20% são
considerados dados estruturados. 14
Variedade
➢ Quando nos referimos à variedade, também cabe destacar a variedade
de áreas das quais Big Data tem sido aplicado.
➢ Na área governamental, com a utilização de tecnologias para rastrear os
perfis dos eleitores na campanha do presidente dos Estados Unidos,
Barack Obama;
➢ No setor financeiro, com soluções na área de análise de risco e detecção
de fraude;
➢ Na área de transporte e automação, com o monitoramento de tráfego
e rastreamento de carga;
➢ No setor de varejo, com a possibilidade de gerar ofertas baseadas na
análise de vendas e no perfil do consumidor;
➢ Nas diversas possibilidades na área de marketing, por meio da análise
de redes sociais;
➢ Na área de seguros, com a possibilidade de ofertas de planos baseados
no comportamento do segurado.
15
Variedade
Dados
transacionais
Repositório de
dados
16
Velocidade
➢ Outra característica de Big Data é a velocidade com que os dados são
coletados, analisados e utilizados.
➢ Imagine um e-commerce que faz recomendações de produtos a um
cliente depois de uma semana dele ter comprado um produto. Se fosse
feito no mesmo instante teria um impacto bem maior provavelmente.
➢ Além da análise dos dados, outro fator de velocidade deve ser levado em
consideração e a rapidez com que os dados são gerados.
➢ Em apenas 1 minuto são gerados:
○ 2 milhões de pesquisas no google.
○ 6 milhões de páginas são visitadas no facebook.
○ 1.3 milhão de vídeos são vistos no youtube.
17
Velocidade
18
Definição informal
➢ Big Data não é somente um grande volume de dados armazenado.
Envolve variedade e velocidade dos dados, que necessita de estratégias
inovadoras capaz de extrair informações valiosas de uma massa de
dados.
➢ Exige quebra de paradigmas. Novos tamanhos de dados, novas
velocidades, novas tecnologias e novos métodos de análise de dados.
➢ Mudança de estratégias e tecnologias a todo momento.
➢ Existem outras características além dos 3 Vs apresentados. O atributo
valor, que consiste em quão valioso e significativo um dado é para uma
solução. O atributo veracidade, que consiste na confiabilidade dos
dados.
➢ Por ser característico de Big Data ter uma grande quantidade e variedade
de dados, é comum a existência de dados inconsistentes.
19
Como os dados são gerados?
20
Dados gerados por humanos
➢ Dados gerados por humanos são aqueles em que o conteúdo foi gerado
a partir do pensamento de uma pessoa, na qual a propriedade intelectual
está integrada ao dado.
➢ Mídias sociais: Facebook, Instagram, twitter, whatsapp etc…
○ Comentários e curtidas.
○ Compartilhamento e publicação de imagens, áudio e vídeo.
○ Posts com pensamentos sobre algo que geram debates.
➢ Sites colaborativos: wikipédia.
➢ Outros tipos de dados: blogs, avaliação de produtos, serviços de sites
e-commerce, Internet das coisas.
○ Americanas.com, Walmart.com e Amazom.com.
➢ Dados de e-commerce são usados para fazer recomendações de
produtos e serviços. Netflix: recomendar filmes para seu usuário.
Walmart: descobrir preferências de seus usuários.
21
Dados gerados por máquinas
➢ Dados digitais produzidos por processos computacionais, sem necessitar
explicitamente de intervenção humana.
➢ Registro de logs gerado pelos servidores da web
○ Visitas em páginas da web.
○ Clicks em link capturados.
➢ Internet das Coisas
○ Sensores
○ Atuadores
○ Wearables
○ Etiquetas de RFID
22
Mitos sobre Big Data
➢ Big Data engloba somente dados não estruturados.
○ Banco de dados relacional precisou ser complementado.
○ Dados relacionais continuam sendo valiosos e muito utilizados em soluções Big Data.
○ Inclusão de mais tipos de dados.
➢ Big Data é aplicado somente às empresas do vale do Silício com

Facebook, Twitter e Netflix.
○ Agricultura e varejo.
➢ Big Data é aplicado somente em grandes empresas.
○ Pequenas e médias empresas podem fazer uso de soluções de Big Data.
➢ As tecnologias de Big Data já estão bem estabelecidas.

○ Infelizmente não, ou felizmente, se pensarmos nas oportunidades.
23
Aplicações
Área Onde Big Data está sendo aplicado
Saúde e Medicina ● Monitoramento de pacientes em tempo real;
● Análise de dados de redes sociais para descobertas de pandemias;
● Análise de padrões de doenças;
Serviços financeiros ● Análise de risco;

● Detecção de fraude;
Setor público ● Vigilância por vídeo;

● Otimização de rotas no transporte público;
Telecomunicação ● Análise de registro de chamadas;

● Monitoramento de equipamentos;
Varejo ● Previsão de demanda;

● Precificação dinâmica;
24
Iniciando um projeto de Big Data
25
Etapas num projeto de Big Data
1. Identificar as perguntas que devem ser respondidas com os dados
a. Quais informações pretende-se extrair de um conjunto de dados.
2. Etapa de captura e armazenamento dos dados
a. Que fontes devo utilizar?
b. Como os dados serão capturados?
c. Formato e tipo de dados a serem extraídos.
d. Como serão armazenados?
3. Etapa de processamento e análise
a. Tecnologias de Big Data devem ser definidas.
b. Mecanismos de machine learning, métodos estatísticos, fundamentos matemáticos e
mineração de dados.
4. Visualização de dados
a. Técnicas de criação de gráficos dinâmicos e interativos.
26
Etapas num projeto de Big Data
1. Identificar as perguntas que devem ser respondidas com os dados
a. Quais informações pretende-se extrair de um conjunto de dados.
2. Etapa de captura e armazenamento dos dados
a. Que fontes devo utilizar?
b. Como os dados serão capturados?
3. Etapa de processamento e análise
a. Tecnologias de Big Data devem ser definidas.
b. Mecanismos de machine learning, métodos estatísticos, fundamentos matemáticos e
mineração de dados.
4. Visualização de dados
a. Técnicas de criação de gráficos dinâmicos e interativos.
27
Captura e armazenamento dos dados
Formas de obtenção dos dados
● Dados internos
○ Dados em que a empresa é dona e possui controle.
■ Arquivos, documentos XML, JSON, CSV.
■ Registro de logs.
■ Dados de sensores.
● Dados externos
○ Dados de domínio público.
○ Open data.
28
Armazenamento de dados
● Escalabilidade
○ Manter o desempenho mesmo com a adição de mais dados.
○ Os SGDBs relacionais, consegue garantir esse desempenho com adição de novos
recursos computacionais.
● Alta disponibilidade
● Flexibilidade
○ Os SGDBs relacionais precisa definir o esquema. Inviável para dados semiestruturados.
Tecnologias NoSQL
29
Características das tecnologias NoSQL:
● Ausência de esquema
○ Não exigem um esquema rígido.
● Projetadas para cluster
○ Oferecendo maior escalabilidade.
Teorema CAP
Consistência: Todos os nós da rede
deve conter os mesmos dados.
Disponibilidade: O sistema deverá
sempre responder a uma requisição.
Mesmo que não esteja consistente.
Tolerância à partição
30
31
Processamento de dados
● Como processar grandes volumes de dados em tempo razoável?
○ Processamento distribuído
32
Processamento de dados
33
Processando os dados com Hadoop
● O que é o Hadoop?
○ Conjunto de ferramentas que permite fazer processamento distribuído.
● Inicialmente o Hadoop foi projetado para um propósito específico: uma
engine de busca da Web, tal como serviço da Google, porém open source.
● Lançado oficialmente em 2006.
34
Principais características que tornaram o Hadoop tão interessante para
aplicações que envolvem o grande volume de dados:
● Baixo custo, ou seja, Hadoop é open source.

● Escalabilidade.
○ Permite a execução de aplicações em ambientes de cluster com centenas, ou até mesmo
milhares de servidores.
● Tolerância a falhas.
○ Hadoop garante a disponibilidade dos dados e execução de tarefas, mesmo na
ocorrência de falhas.
35
Ecossistema do Hadoop
36
Hadoop - HDFS
● HDFS
- Sistema de arquivos distribuído que permite o armazenamento de
grande volume de dados de maneira tolerante a falhas.
37
Hadoop - HDFS
● HDFS
- Transparência
38
Hadoop - Modelo MapReduce
● MapReduce
- O Hadoop é baseado no modelo de programação MapReduce.
- Permite que grandes volumes de dados sejam processados por meio da
divisão de uma aplicação em tarefas independentes.
- É composto por duas fases principais:
● Map
○ Processar um conjunto de dados de entrada, que devem ser obtidos no formato de
pares chave-valor.
● Reduce
○ Recebe dados do Map, e tem como saída também no formato chave-valor.
39
Hadoop - Modelo MapReduce
Exemplo básico: Contador de palavras
Link do projeto: https://github.com/rosangelapereira/livrobigdata/tree/master/cap3/ContaHashtags

40
$ hadoop jar Contador,jar ContadorDriver BaseEntrada saida 41

Processando os dados com Hadoop - Pipelines
42
Limitações do MapReduce
MapReduce não é uma solução adequada para todas as aplicações de Big
Data.
Pois foi projetada para a categoria de processamento em lote.
43
Processamento em tempo real
Processamento em tempo real:
● Dados são analisados assim que são gerados.

● O processamento é feito em apenas um item de dado.
● Exemplo: Processamento de dados oriundos de um sensor de
temperatura.
Características do processamento em tempo real:
● Baixa latência
● Consistência
● Alta disponibilidade
44
Processamento em tempo real
Tecnologias de Big Data para processamento em tempo real:
● Apache Storm
○ Oferece baixa latência.
○ Pode ser utilizado em uma infraestrutura Hadoop.
● Apache Spark
○ Considerado uma evolução do Apache MapReduce.
○ Oferece mecanismos que otimizam o processamento em memória dos dados.
● Apache Kafka
45
Apache Spark
46
Apache Spark
● Aplicações em Java, Scala, Python, R, e SQL.
● Experimento executando uma lógica de regressão no Hadoop e Spark.
47
Apache Spark
Exemplo: Monitoramento em tempo real.
48
Tendências
➢ Streaming de dados
○ Para atender massa de dispositivos da IoT.
➢ Análise de séries temporais
○ Banco de dados de séries temporais
○ Banco de dados que contenham sequências de valores ou eventos armazenados
sucessivamente em função do tempo.
➢ Fusão de ferramentas de Big Data com IA
○ TensorFlow
➢ Combate a fake news
49
Conclusão
➢ Apresentamos algumas características de Big Data: volume, variedade,

velocidade, valor, veracidade.
➢ Definimos o conceito de Big Data como sendo um grande volume de

dados com variedade e velocidade que necessita de tecnologias
inovadoras para processamento e armazenamento de dados.
➢ Apresentamos algumas aplicações em algumas áreas.

➢ Introduzimos ferramentas para Big Data: Hadoop e Apache spark.
➢ Big Data é considerado “o novo petróleo”. Está sendo e será mais usado
ainda no futuro. Uma área que está se desenvolvendo cada vez mais com
novas tecnologias, novas técnicas.
50
Referências Bibliográficas
● http://hadoop.apache.org/ acessado em 02/07/18 ás 18:32h
● https://spark.apache.org/ acessado em 02/07/18 ás 19:45h
● https://cloud.google.com/bigtable/ acessado em 02/07/18 ás 18:12h
● MCCREARY, Dan; KELLY, Ann. Making sense of NoSQL. Shelter Island:
Manning, 2014.
● DEAN, Jeffrey; GHEMAWAT, Sanjay. MapReduce: simplified data
processing on large clusters. Sixth Symposium on Operating System
Design and Implementation, Dez. 2004.
● LUBLINSKY, Boris; YAKUBOVICH, Alexey; SMITH, Kevin. Professional
Hadoop Solutions. John Wiley & Sons, 2013.
● GOLDMAN, Alfredo; KON, Fabio; JUNIOR, Francisco Pereira; POLATO,
Ivanilton; PEREIRA, Rosangela de Fátima. Apache Hadoop: conceitos
teóricos e práticos, evoluçao e novas possibilidades. XXXI Jornadas de
atualizaçoes em informatica, 2012.
51

Seminario Big Data

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Seminario Big Data

Enviado por

Direitos autorais:

Formatos disponíveis

Introdução a Big Data

➢ Big Data é aplicado somente às empresas do vale do Silício com

➢ Big Data é aplicado somente em grandes empresas.

○ Pequenas e médias empresas podem fazer uso de soluções de Big Data.

➢ As tecnologias de Big Data já estão bem estabelecidas.

Serviços financeiros ● Análise de risco;

Setor público ● Vigilância por vídeo;

Telecomunicação ● Análise de registro de chamadas;

Varejo ● Previsão de demanda;

○ Dados em que a empresa é dona e possui controle.

■ Arquivos, documentos XML, JSON, CSV.

Consistência: Todos os nós da rede

deve conter os mesmos dados.

Disponibilidade: O sistema deverá

sempre responder a uma requisição.

Mesmo que não esteja consistente.

● Baixo custo, ou seja, Hadoop é open source.

Link do projeto: https://github.com/rosangelapereira/livrobigdata/tree/master/cap3/ContaHashtags

$ hadoop jar Contador,jar ContadorDriver BaseEntrada saida 41

Pois foi projetada para a categoria de processamento em lote.

● Dados são analisados assim que são gerados.

Características do processamento em tempo real:

● Experimento executando uma lógica de regressão no Hadoop e Spark.

➢ Apresentamos algumas características de Big Data: volume, variedade,

➢ Definimos o conceito de Big Data como sendo um grande volume de

➢ Apresentamos algumas aplicações em algumas áreas.

Você também pode gostar