Você está na página 1de 15

Trilha de Aprendizagem 1 — Introdução à arquitetura Big Data

Sumário

1. Arquitetura em Big Data 4


2. Introdução à arquitetura de Big Data 6
3. Objetivos de aprendizagem 7
4. Ciclo de vida dos dados 8
5. Compondo uma arquitetura para sistemas Big
Data Analytics 10
6. Teorema CAP 12
7. Síntese 13
8. Referências 14

Ciência de Dados (BIG DATA ANALYTICS) — Arquitetura de Big Data


Trilha de Aprendizagem 1 — Introdução à arquitetura Big Data

1. Arquitetura em Big Data

Sejam bem-vindos ao componente curricular Arquitetura em Big


Data. Este componente objetiva apresentar os principais conceitos
e técnicas empregadas nos sistemas Big Data.

Assim como a arquitetura de uma edificação contém diversos


elementos, como decoração, estrutura, elétrica e hidráulica,
paisagismo, etc, a arquitetura de sistemas computadorizados
também possui componentes, como infraestrutura, componentes
de software, fluxos de dados, etc. Neste componente curricular
exploraremos especificamente arquiteturas de sistemas Big Data,
suas particularidades e as principais ferramentas utilizadas para
gestão de dados em grandes volumes, variedades e velocidade.

Geralmente tendemos a entender que Big Data pode resolver


apenas problemas de sistemas analíticos; no entanto, ambos os
sistemas transacionais e analíticos podem requerer ferramentas
de Big Data para a solução de problemas.

Este componente curricular é composto por oito trilhas de


aprendizagem:

• Introdução à arquitetura em Big Data

Nesta trilha de aprendizagem vamos explorar as questões


referentes ao ciclo de vida dos dados em sistemas Big Data
e suas particularidades, apresentação dos passos para
categorização do problema a ser resolvido para definição
da arquitetura adequada e entender o teorema CAP e como
escolher a solução com base nas limitações de consistência,
disponibilidade e particionamento em ambientes distribuídos;

• Infraestrutura para Big Data

Exploraremos conceitos básicos de virtualização e


abordaremos os conceitos básicos de cloud computing e seus
respectivos modelos de serviço e implantação;

Ciência de Dados (BIG DATA ANALYTICS) — Arquitetura de Big Data 4


Trilha de Aprendizagem 1 — Introdução à arquitetura Big Data

• Visão geral e ferramentas para Big Data e introdução à


computação distribuída

Nesta trilha apresentaremos as principais ferramentas e suas


características, compreenderemos as principais ferramentas
para Big Data e suas características e enquadramento no
teorema CAP, faremos comparações entre as ferramentas,
entendendo as principais diferenças entre as ferramentas
disponíveis, e faremos uma introdução à computação
distribuída, explorando a comunicação entre computadores,
conceitos de cluster, rack e datacenters;

• Armazenamento distribuído com o hadoop

Apresentaremos os conceitos de armazenamento de


dados distribuídos, exploraremos a arquitetura do HDFS
e seus elementos: namenode, datanotes e o processo de
armazenamento de dados distribuídos;

• Processamento distribuído com o hadoop

Nesta trilha teremos uma visão geral do map reduce, maps


e reduces e suas características, explorando conceitos e
características do yarn e seus elementos job tracker e task
tracker e gerenciamento de recursos;

• Bancos de dados em ambientes distribuídos

Nesta trilha apresentaremos os principais bancos de dados


no hadoop e a arquitetura do apache hive e do apache spark
SQL;

• Bancos de dados orientados a documentos

Apresentaremos nesta trilha o mongo DB e sua arquitetura


de manipulação de dados e uma visão geral das ferramentas
Big Data;

• Segurança e privacidade em Big Data

Nesta trilha abordaremos os aspectos de privacidade em


Big Data de dados pessoais, coleta indiscriminada de dados,
aspectos de segurança em fontes de dados externas, maior
assédio aos dados, etc.

Ciência de Dados (BIG DATA ANALYTICS) — Arquitetura de Big Data 5


Trilha de Aprendizagem 1 — Introdução à arquitetura Big Data

2. Introdução à arquitetura de
Big Data
A arquitetura de um sistema Big Data contempla todo o ciclo
de vida dos dados, que engloba desde sua geração, que acontece
em sistemas transacionais, como, por exemplo, ERP (Enterprise
Resource Planning), POS (Point of Sales), redes sociais, internet
das coisas, etc.

Nesta trilha de aprendizagem exploraremos o ciclo de vida dos


dados e os passos recomendados para criação da arquitetura de
um sistema Big Data.

Ciência de Dados (BIG DATA ANALYTICS) — Arquitetura de Big Data 6


Trilha de Aprendizagem 1 — Introdução à arquitetura Big Data

3. Objetivos de aprendizagem

Esta trilha tem os seguintes objetivos de aprendizagem:

• ciclo de vida dos dados em ambientes analíticos - explorar as


questões referentes ao ciclo de vida dos dados em sistemas Big
Data e suas particularidades;

• passos para definição de arquitetura para Big Data -


apresentação dos passos para categorização do problema a ser
resolvido para definição da arquitetura adequada;

• teorema CAP - entendimento do teorema CAP e como


escolher a solução com base nas limitações de consistência,
disponibilidade e particionamento em ambientes distribuídos.

Ciência de Dados (BIG DATA ANALYTICS) — Arquitetura de Big Data 7


Trilha de Aprendizagem 1 — Introdução à arquitetura Big Data

4. Ciclo de vida dos dados

Todo dado possui uma origem, que na maioria dos casos ocorre
em um sistema que gerencia transações. Os sistemas transacionais
estão diretamente ligados à execução ou automação de um
processo de negócio, como, por exemplo, um sistema de controle
de vendas PoS (Point of Sales) automatiza processos de frente de
caixa em uma empresa de comércio. Podemos entender cada venda
como uma transação. Essa mesma empresa geralmente utiliza-se
de outros sistemas, como, por exemplo, um ERP para controle de
contas a pagar, estoque, etc., um TMS (Transport Management
System) para controle dos processos de transporte, etc.

Além dos sistemas transacionais convencionais, atualmente


temos outros grandes geradores/originadores de dados, como,
por exemplo, as redes sociais, visto que as empresas percebem
grande valor em entender o comportamento de clientes e
consumidores, e dispositivos da internet das coisas, que podem
assumir diversas funções, como botões de compras instantâneas,
sensores residenciais, entre outros.

A figura 1 apresenta uma visão macro de sistemas transacionais,


diretamente ligados aos processos de negócio, gerando grandes
quantidades de dados, e os sistemas analíticos, armazenando de
forma conjunta todos os dados de uma organização.

Figura 1: Sistemas OLTP e OLAP

Fonte: DATA WAREHOUSE 4U (2010).

Ciência de Dados (BIG DATA ANALYTICS) — Arquitetura de Big Data 8


Trilha de Aprendizagem 1 — Introdução à arquitetura Big Data

A figura 2 apresenta o ciclo de vida dos dados nos processos


analíticos, ou seja, depois de serem gerados pelos sistemas de
origem.

Figura 2: Ciclo de vida dos dados em processos analíticos

Fonte: CLOUDERA (2014).

Como podemos observar, a partir da coleta de dados brutos


originais, os processos analíticos agregam valor aos dados no eixo
X até o alcance de insights. O data pipeline representa um funil de
dados, ou seja, a partir de uma grande quantidade de dados geramos
insights, que são compostos por poucos dados. Por exemplo: ao
somar todo o volume de vendas de determinado produto nos
últimos 5 anos, percebe-se que após 4 anos de crescimento de
5% nas vendas consecutivo houve no quinto ano uma retração de
25% nas vendas. O insight compõe apenas o nome do produto e
o percentual de retração de vendas, mas para chegar até aqui foi
preciso sumarizar todas as vendas realizadas nos últimos 5 anos,
o que representa uma grande quantia de dados.

Ciência de Dados (BIG DATA ANALYTICS) — Arquitetura de Big Data 9


Trilha de Aprendizagem 1 — Introdução à arquitetura Big Data

5. Compondo uma
arquitetura para sistemas
Big Data Analytics

Uma etapa importante para a criação da arquitetura de um


sistema Big Data para análise de dados é a escolha das ferramentas
adequadas para tanto. A IBM divulgou em seu grupo de trabalho
chamado Developer Works um passo a passo para entendimento
e definição de uma arquitetura para sistemas Big Data Analytics.

Figura 3: Passos para arquitetura Big Data Analytics

Fonte: IBM (2013).

Ciência de Dados (BIG DATA ANALYTICS) — Arquitetura de Big Data 10


Trilha de Aprendizagem 1 — Introdução à arquitetura Big Data

De acordo com a figura 3, temos os seguintes passos:

• tipo de análise - em lotes, tempo real ou ambos? Análise de


fraude geralmente requer ambos os tipos de análise;

• metodologia de processamento - predição, relatórios,


analytics?;

• frequência e volume - qual volume de dados é esperado e


em qual frequência? Contínuo em tempo real? Sob demanda?;

• tipo de dados - transacionais, históricos?;

• formato dos dados - estruturado, não estruturado (áudio,


vídeo, redes sociais, etc.). O formato determina como os
dados adquiridos precisam ser processados. Este processo é
fundamental para a definição das ferramentas e técnicas que
serão utilizadas;

• fonte dos dados - onde os dados foram gerados? Sistemas


transacionais, redes sociais, outros sistemas, pessoas, etc;

• consumidores dos resultados - seres humanos, outros


sistemas, outros repositórios, etc.

Para saber mais sobre os passos para arquitetura de Big Data


Analytics, veja IBM:

IBM - Introduction to Big Data classification and architecture.


2013. Disponivel em: <https://www.ibm.com/developerworks/
library/bd-archpatterns1/index.html>. Acesso em: 25 de jun. 2018.

Ciência de Dados (BIG DATA ANALYTICS) — Arquitetura de Big Data 11


Trilha de Aprendizagem 1 — Introdução à arquitetura Big Data

6. Teorema CAP

O teorema CAP, que é o acrônimo de consistência (consistency),


disponibilidade (availability) e partição (partition tolerance), visa
a auxiliar o processo de escolha das ferramentas utilizadas em
um sistema Big Data, considerando a limitação da satisfação de
apenas duas dessas três qualidades acima descritas.

Figura 4: Título para a figura

Fonte: NAHURST (2010).

Ciência de Dados (BIG DATA ANALYTICS) — Arquitetura de Big Data 12


Trilha de Aprendizagem 1 — Introdução à arquitetura Big Data

7. Síntese

A arquitetura de Big Data abrange todo o ciclo de vida dos dados,


em sistema analítico, ocorre após sua geração nos sistemas
transacionais e engloba todo o processamento que gera valor aos
dados.

Sistemas analíticos Big Data visam à geração de insights que são


a base para tomada de decisões e são grandes geradores de valor
para as organizações. Insights não atrelados a decisões não geram
valor para as organizações.

Ciência de Dados (BIG DATA ANALYTICS) — Arquitetura de Big Data 13


Trilha de Aprendizagem 1 — Introdução à arquitetura Big Data

8. Referências

CLOUDERA. 2014. Disponível em: <http://blog.cloudera.com/


blog/2014/09/getting-started-with-big-data-architecture/>.
Acesso em: 27 jun. 2018.

DATA WAREHOUSE 4U. 2010. Disponível em: <http://


datawarehouse4u.info/OLTP-vs-OLAP.html, 2010>. Acesso em:
25 jun. 2018.

IBM - Introduction to Big Data classification and architecture.


2013. Disponivel em: <https://www.ibm.com/developerworks/
library/bd-archpatterns1/index.html>. Acesso em: 25 jun. 2018.

NAHURST. 2010. Disponível em: <http://blog.nahurst.com/


visual-guide-to-nosql-systems>. Acesso em: 25 jun. 2018.

Ciência de Dados (BIG DATA ANALYTICS) — Arquitetura de Big Data 14


ead.mackenzie.br

Você também pode gostar