Você está na página 1de 51

Introdução a Big Data

Juciander L. Moreira
Wallace Brito

1
Sumário
1. Introdução
2. Os 3 Vs de Big Data
3. Definição de Big Data
4. Mitos sobre Big Data
5. Aplicações
6. Iniciando um projeto de Big Data
6.1. Captura e armazenamento dos dados
6.2. Tecnologias para Big Data
7. Tendências
8. Conclusão
9. Referências bibliográficas

2
Introdução
➢ Usamos smartphones desde que acordamos e em tempos
pré-determinados durante o dia.
➢ A tecnologia está em constante evolução. Há vinte anos atrás não
existiam soluções capazes de facilitar nossas ações diárias.
○ Smartphone nos acorda com a música favorita.
○ Nossos compromissos são notificados com antecedência.
○ Documentos podem ser buscados facilmente acessando a internet em um serviço de
computação em nuvem para armazenamento de dados.
○ Solicitar serviço de transporte de passageiros por meio de um aplicativo.
○ Etc…
➢ Você é capaz de imaginar sua rotina diária sem os recursos tecnológicos
existentes? Seja para lazer, viagens, compras ou trabalho, a tecnologia
nos proporciona facilidades que antes eram inimagináveis.

3
Introdução

4
Introdução
➢ Qual a semelhança entre os serviços apresentados anteriormente?
○ A quantidade de dados que eles geram.
➢ Os avanços em hardware, software, tecnologias e infraestrutura de
redes foram responsáveis para que chegássemos à “era dos dados”.
➢ Um estudo feito pela revista Science apontou que, em 1996, somente
0.8% dos dados eram armazenados em formato digital, enquanto em
2007 a quantidade de dados digitais já era de 94%.
➢ Como as pessoas utilizam e armazenam uma música, um vídeo ou um
documento nos dias atuais?
○ A grande maioria das respostas envolve um dispositivo digital.
➢ Como ocorreu essa transformação?
○ Um dos fatores é a internet e os dispositivos móveis.

5
Introdução

6
Introdução

7
Introdução
➢ Custo de armazenamento de 1 megabytes em 1990 era de
aproximadamente U$ 12.000, a média atual é de apenas U$ 0.03.
➢ Aumento do poder de processamento.
➢ Lei de Moore.
○ A capacidade de processamento dos computadores dobraria aproximadamente a cada
18 meses.
➢ Com o volume de dados crescendo e novas tecnologias habilitadoras para
a geração desses dados, empresas de diversos segmentos passaram a
perceber o potencial dos diferentes tipos de dados.
○ Aperfeiçoar processos.
○ Aumentar a produtividade.
○ Melhorar o processo de tomada de decisão.
○ Desenvolver novos produtos ou serviços.
➢ Logo, surgiram soluções que utilizam uma série de dados para inúmeros
propósitos.

8
Introdução
➢ Na indústria varejista, que adotam etiquetas de identificação por
radiofrequência (RFID).
➢ Na agricultura, utilização de redes de sensores, que coletam fluxos de
dados em tempo real para fornecer suporte às ações referentes ao
processo de plantação, cultivo e colheita.
➢ Mesmos havendo tantos dados, um estudo do EMC apontou que, em
2012, de todos os 643 exabytes de dados existentes no mundo digital,
somente 3% foram utilizados.

9
Os Vs de Big Data
➢ Além do próprio nome Big Data, “grande quantidade de dados”, dizer
uma de suas principais características, existem outras como os Vs de Big
Data.
➢ Os 3 Vs de Big Data está relacionado com as suas características.
➢ Volume.
➢ Variedade.
➢ Velocidade.

10
Os Vs de Big Data

11
Volume
➢ O atributo volume é a característica mais significativa no conceito de Big
Data. Ele faz referência à dimensão sem precedentes do volume de
dados.
➢ 90% dos dados foram criados nos últimos dois anos.
➢ Origem para tanto dados:
○ A cada segundo, cerca de 40.000 buscas são realizadas no Google.
○ A empresa Walmart manipula mais de 1 milhão de transações dos clientes por hora.
➢ Uma dúvida frequente relacionada ao volume de dados é a identificação
de quando um determinado conjunto de dados pode ser considerado Big
Data.
➢ É preciso ter uma quantidade de petabytes de dados para ter uma
solução de Big Data?
○ A resposta é não.
➢ O que define se o atributo volume necessita de uma tecnologia de Big
Data é limitação das ferramentas tradicionais para lidar com volumes
de dados. 12
Volume

44 zettabytes de
dados em 2020

13
Variedade
➢ O banco de dados relacional é o modelo de armazenamento de dados
mais usado nos últimos 40 anos pelas corporações.
○ Dados rígidos, bem estruturados.
○ Tamanho e os tipos de dados bem definidos.
➢ Embora seja muito eficiente e aplicado a diversos cenários, devido às
características acima, o banco de dados relacional se torna uma limitação
para Big Data, uma vez que esse termo inclui dados semiestruturados e
não estruturados.
➢ Dados semiestruturados são aqueles que possuem uma estrutura
pré-definida, porém não com o mesmo rigor dos dados relacionais.
○ Arquivos no formato JSON (JavaScript Object Notation).
○ XML (eXtensible Markup Language).
➢ Dados não estruturados incluem os vídeos, imagens, e alguns formatos
de textos.
➢ Considerando todos os dados disponíveis globalmente, apenas 20% são
considerados dados estruturados. 14
Variedade
➢ Quando nos referimos à variedade, também cabe destacar a variedade
de áreas das quais Big Data tem sido aplicado.
➢ Na área governamental, com a utilização de tecnologias para rastrear os
perfis dos eleitores na campanha do presidente dos Estados Unidos,
Barack Obama;
➢ No setor financeiro, com soluções na área de análise de risco e detecção
de fraude;
➢ Na área de transporte e automação, com o monitoramento de tráfego
e rastreamento de carga;
➢ No setor de varejo, com a possibilidade de gerar ofertas baseadas na
análise de vendas e no perfil do consumidor;
➢ Nas diversas possibilidades na área de marketing, por meio da análise
de redes sociais;
➢ Na área de seguros, com a possibilidade de ofertas de planos baseados
no comportamento do segurado.
15
Variedade

Dados
transacionais

Repositório de
dados

16
Velocidade
➢ Outra característica de Big Data é a velocidade com que os dados são
coletados, analisados e utilizados.
➢ Imagine um e-commerce que faz recomendações de produtos a um
cliente depois de uma semana dele ter comprado um produto. Se fosse
feito no mesmo instante teria um impacto bem maior provavelmente.
➢ Além da análise dos dados, outro fator de velocidade deve ser levado em
consideração e a rapidez com que os dados são gerados.
➢ Em apenas 1 minuto são gerados:
○ 2 milhões de pesquisas no google.
○ 6 milhões de páginas são visitadas no facebook.
○ 1.3 milhão de vídeos são vistos no youtube.

17
Velocidade

18
Definição informal
➢ Big Data não é somente um grande volume de dados armazenado.
Envolve variedade e velocidade dos dados, que necessita de estratégias
inovadoras capaz de extrair informações valiosas de uma massa de
dados.
➢ Exige quebra de paradigmas. Novos tamanhos de dados, novas
velocidades, novas tecnologias e novos métodos de análise de dados.
➢ Mudança de estratégias e tecnologias a todo momento.
➢ Existem outras características além dos 3 Vs apresentados. O atributo
valor, que consiste em quão valioso e significativo um dado é para uma
solução. O atributo veracidade, que consiste na confiabilidade dos
dados.
➢ Por ser característico de Big Data ter uma grande quantidade e variedade
de dados, é comum a existência de dados inconsistentes.

19
Como os dados são gerados?

20
Dados gerados por humanos
➢ Dados gerados por humanos são aqueles em que o conteúdo foi gerado
a partir do pensamento de uma pessoa, na qual a propriedade intelectual
está integrada ao dado.
➢ Mídias sociais: Facebook, Instagram, twitter, whatsapp etc…
○ Comentários e curtidas.
○ Compartilhamento e publicação de imagens, áudio e vídeo.
○ Posts com pensamentos sobre algo que geram debates.
➢ Sites colaborativos: wikipédia.
➢ Outros tipos de dados: blogs, avaliação de produtos, serviços de sites
e-commerce, Internet das coisas.
○ Americanas.com, Walmart.com e Amazom.com.
➢ Dados de e-commerce são usados para fazer recomendações de
produtos e serviços. Netflix: recomendar filmes para seu usuário.
Walmart: descobrir preferências de seus usuários.

21
Dados gerados por máquinas
➢ Dados digitais produzidos por processos computacionais, sem necessitar
explicitamente de intervenção humana.
➢ Registro de logs gerado pelos servidores da web
○ Visitas em páginas da web.
○ Clicks em link capturados.
➢ Internet das Coisas
○ Sensores
○ Atuadores
○ Wearables
○ Etiquetas de RFID

22
Mitos sobre Big Data
➢ Big Data engloba somente dados não estruturados.
○ Banco de dados relacional precisou ser complementado.
○ Dados relacionais continuam sendo valiosos e muito utilizados em soluções Big Data.
○ Inclusão de mais tipos de dados.

➢ Big Data é aplicado somente às empresas do vale do Silício com


Facebook, Twitter e Netflix.
○ Agricultura e varejo.

➢ Big Data é aplicado somente em grandes empresas.

○ Pequenas e médias empresas podem fazer uso de soluções de Big Data.

➢ As tecnologias de Big Data já estão bem estabelecidas.


○ Infelizmente não, ou felizmente, se pensarmos nas oportunidades.

23
Aplicações
Área Onde Big Data está sendo aplicado
Saúde e Medicina ● Monitoramento de pacientes em tempo real;
● Análise de dados de redes sociais para descobertas de pandemias;
● Análise de padrões de doenças;

Serviços financeiros ● Análise de risco;


● Detecção de fraude;

Setor público ● Vigilância por vídeo;


● Otimização de rotas no transporte público;

Telecomunicação ● Análise de registro de chamadas;


● Monitoramento de equipamentos;

Varejo ● Previsão de demanda;


● Precificação dinâmica;

24
Iniciando um projeto de Big Data

25
Etapas num projeto de Big Data
1. Identificar as perguntas que devem ser respondidas com os dados
a. Quais informações pretende-se extrair de um conjunto de dados.
2. Etapa de captura e armazenamento dos dados
a. Que fontes devo utilizar?
b. Como os dados serão capturados?
c. Formato e tipo de dados a serem extraídos.
d. Como serão armazenados?
3. Etapa de processamento e análise
a. Tecnologias de Big Data devem ser definidas.
b. Mecanismos de machine learning, métodos estatísticos, fundamentos matemáticos e
mineração de dados.
4. Visualização de dados
a. Técnicas de criação de gráficos dinâmicos e interativos.

26
Etapas num projeto de Big Data
1. Identificar as perguntas que devem ser respondidas com os dados
a. Quais informações pretende-se extrair de um conjunto de dados.
2. Etapa de captura e armazenamento dos dados
a. Que fontes devo utilizar?
b. Como os dados serão capturados?
3. Etapa de processamento e análise
a. Tecnologias de Big Data devem ser definidas.
b. Mecanismos de machine learning, métodos estatísticos, fundamentos matemáticos e
mineração de dados.
4. Visualização de dados
a. Técnicas de criação de gráficos dinâmicos e interativos.

27
Captura e armazenamento dos dados
Formas de obtenção dos dados

● Dados internos

○ Dados em que a empresa é dona e possui controle.

■ Arquivos, documentos XML, JSON, CSV.

■ Registro de logs.

■ Dados de sensores.

● Dados externos
○ Dados de domínio público.
○ Open data.

28
Captura e armazenamento dos dados
Armazenamento de dados

● Escalabilidade
○ Manter o desempenho mesmo com a adição de mais dados.
○ Os SGDBs relacionais, consegue garantir esse desempenho com adição de novos
recursos computacionais.
● Alta disponibilidade
● Flexibilidade
○ Os SGDBs relacionais precisa definir o esquema. Inviável para dados semiestruturados.

Tecnologias NoSQL

29
Captura e armazenamento dos dados
Características das tecnologias NoSQL:

● Ausência de esquema
○ Não exigem um esquema rígido.
● Projetadas para cluster
○ Oferecendo maior escalabilidade.

Teorema CAP

Consistência: Todos os nós da rede

deve conter os mesmos dados.

Disponibilidade: O sistema deverá

sempre responder a uma requisição.

Mesmo que não esteja consistente.

Tolerância à partição
30
Captura e armazenamento dos dados

31
Processamento de dados
● Como processar grandes volumes de dados em tempo razoável?
○ Processamento distribuído

32
Processamento de dados

33
Processando os dados com Hadoop
● O que é o Hadoop?
○ Conjunto de ferramentas que permite fazer processamento distribuído.
● Inicialmente o Hadoop foi projetado para um propósito específico: uma
engine de busca da Web, tal como serviço da Google, porém open source.
● Lançado oficialmente em 2006.

34
Processando os dados com Hadoop
Principais características que tornaram o Hadoop tão interessante para
aplicações que envolvem o grande volume de dados:

● Baixo custo, ou seja, Hadoop é open source.


● Escalabilidade.
○ Permite a execução de aplicações em ambientes de cluster com centenas, ou até mesmo
milhares de servidores.
● Tolerância a falhas.
○ Hadoop garante a disponibilidade dos dados e execução de tarefas, mesmo na
ocorrência de falhas.

35
Ecossistema do Hadoop

36
Hadoop - HDFS
● HDFS
- Sistema de arquivos distribuído que permite o armazenamento de
grande volume de dados de maneira tolerante a falhas.

37
Hadoop - HDFS
● HDFS
- Transparência

38
Hadoop - Modelo MapReduce
● MapReduce
- O Hadoop é baseado no modelo de programação MapReduce.
- Permite que grandes volumes de dados sejam processados por meio da
divisão de uma aplicação em tarefas independentes.
- É composto por duas fases principais:
● Map
○ Processar um conjunto de dados de entrada, que devem ser obtidos no formato de
pares chave-valor.
● Reduce
○ Recebe dados do Map, e tem como saída também no formato chave-valor.

39
Hadoop - Modelo MapReduce
Exemplo básico: Contador de palavras

Link do projeto: https://github.com/rosangelapereira/livrobigdata/tree/master/cap3/ContaHashtags


40
Processando os dados com Hadoop

$ hadoop jar Contador,jar ContadorDriver BaseEntrada saida 41


Processando os dados com Hadoop - Pipelines

42
Limitações do MapReduce
MapReduce não é uma solução adequada para todas as aplicações de Big
Data.

Pois foi projetada para a categoria de processamento em lote.

43
Processamento em tempo real
Processamento em tempo real:

● Dados são analisados assim que são gerados.


● O processamento é feito em apenas um item de dado.
● Exemplo: Processamento de dados oriundos de um sensor de
temperatura.

Características do processamento em tempo real:

● Baixa latência
● Consistência
● Alta disponibilidade

44
Processamento em tempo real
Tecnologias de Big Data para processamento em tempo real:

● Apache Storm
○ Oferece baixa latência.
○ Pode ser utilizado em uma infraestrutura Hadoop.
● Apache Spark
○ Considerado uma evolução do Apache MapReduce.
○ Oferece mecanismos que otimizam o processamento em memória dos dados.
○ Pode ser utilizado em uma infraestrutura Hadoop.
● Apache Kafka
○ Pode ser utilizado em uma infraestrutura Hadoop.

45
Apache Spark

46
Apache Spark
● Aplicações em Java, Scala, Python, R, e SQL.

● Experimento executando uma lógica de regressão no Hadoop e Spark.

47
Apache Spark
Exemplo: Monitoramento em tempo real.

48
Tendências

➢ Streaming de dados
○ Para atender massa de dispositivos da IoT.
➢ Análise de séries temporais
○ Banco de dados de séries temporais
○ Banco de dados que contenham sequências de valores ou eventos armazenados
sucessivamente em função do tempo.
➢ Fusão de ferramentas de Big Data com IA
○ TensorFlow
➢ Combate a fake news

49
Conclusão

➢ Apresentamos algumas características de Big Data: volume, variedade,


velocidade, valor, veracidade.

➢ Definimos o conceito de Big Data como sendo um grande volume de


dados com variedade e velocidade que necessita de tecnologias
inovadoras para processamento e armazenamento de dados.

➢ Apresentamos algumas aplicações em algumas áreas.


➢ Introduzimos ferramentas para Big Data: Hadoop e Apache spark.

➢ Big Data é considerado “o novo petróleo”. Está sendo e será mais usado
ainda no futuro. Uma área que está se desenvolvendo cada vez mais com
novas tecnologias, novas técnicas.

50
Referências Bibliográficas
● http://hadoop.apache.org/ acessado em 02/07/18 ás 18:32h
● https://spark.apache.org/ acessado em 02/07/18 ás 19:45h
● https://cloud.google.com/bigtable/ acessado em 02/07/18 ás 18:12h
● MCCREARY, Dan; KELLY, Ann. Making sense of NoSQL. Shelter Island:
Manning, 2014.
● DEAN, Jeffrey; GHEMAWAT, Sanjay. MapReduce: simplified data
processing on large clusters. Sixth Symposium on Operating System
Design and Implementation, Dez. 2004.
● LUBLINSKY, Boris; YAKUBOVICH, Alexey; SMITH, Kevin. Professional
Hadoop Solutions. John Wiley & Sons, 2013.
● GOLDMAN, Alfredo; KON, Fabio; JUNIOR, Francisco Pereira; POLATO,
Ivanilton; PEREIRA, Rosangela de Fátima. Apache Hadoop: conceitos
teóricos e práticos, evoluçao e novas possibilidades. XXXI Jornadas de
atualizaçoes em informatica, 2012.
51

Você também pode gostar