Você está na página 1de 137

Especialização em

ARQUITETURA DE NUVEM

Disciplina: Big Data


Carga Horária: 20h
Prof. Marcos Luiz Lins Filho

Setembro/2014
.:: Programação ::.

1ᵒ Dia (17/09) – Apresentação e Motivação


– Apresentação da Disciplina (Estrutura, Materiais, Avaliação)
– Histórico e conceitos de Big Data
– Tipos e Fontes de Dados
– Estudos de Caso – Vídeo e Slides
– Os 4 desafios do Big Data (Atividade)
2ᵒ Dia (18/09) – Infraestrutura de Big Data
– Considerações sobre Cloud Computing, Internet das Coisas e SOLOMO
– Arquitetura e Governança de Big Data
– Bases de dados Relacionais, NoSQL e in-memory
– Hadoop e seus agregados
– Atividade

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Programação ::.

3ᵒ Dia (19/09) – Análise de Big Data


– O que é?
– Oportunidades e Dificuldades da Análise de Big Data
– Atividade
4ᵒ Dia (20/09) – Big Data no Futuro
– Novas tendências (BYOD, Consumerização, Crowdsourcing e
Crowdfunding, Gamificação)
– Futuro do Big Data
– Encerramento da Disciplina

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: 1° Dia – 17/09/2014

Apresentação e Motivação para


estudar BIG DATA

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Por que Big Data?

Fonte: Bruno Domingues, Big Data com AWS e Intel, 2014

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Por que Big Data?

Fonte: Bruno Domingues, Big Data com AWS e Intel, 2014

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Histórico do Big Data

Se divide em dois momentos


Expansão no campo científico e de negócios basicamente através do
uso do termo Big Data de forma técnica e acadêmica (1984 – 2007)
Difusão do termo já com viés tecnológico e econômico, estudo de
tecnologias, desenvolvimento de ferramentas para análise de dados
etc (meados de 2008)

Fonte: Francis X. Diebold: A Personal Perspective on the Origin(s) and Development of “Big Data”: The Phenomenon, the Term, and the
Discipline, August 2012

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Histórico do Big Data

Se divide em dois momentos


Expansão no campo científico e de negócios basicamente através do
uso do termo Big Data de forma técnica e acadêmica (1984 – 2007)
(Tilly, 1984) usa pela primeira vez o termo Big Data em textos
acadêmicos;
Uma primeira pesquisa publicada em 1987 relativa a uma técnica
de programação chamada small code, big data;
Em 1989 e 1993 pesquisas começam a tratar de aplicações de Big
Data;
(Laney , 2001) publica trabalho com o título os 3 V´s do Big Data
(Volume, Variedade e Velocidade)

Fonte: Francis X. Diebold: A Personal Perspective on the Origin(s) and Development of “Big Data”: The Phenomenon, the Term, and the
Discipline, August 2012

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Histórico do Big Data

Se divide em dois momentos


Difusão do termo já com viés tecnológico e econômico, estudo de
tecnologias, desenvolvimento de ferramentas para análise de dados
etc (meados de 2008)
(Lohr, 2008) Jornalista do New York Times publicou artigo em que
citava que cientistas de computação e executivos da indústria já
enxergavam que o termo Big Data saia da esfera acadêmica e já
começava a trazer resultados econômicos.
A Wired publica em junho de 2008 um artigo “The Petabyte Age:
because more isn’t just more, more is different”, que apresenta as
oportunidades e implicações do Big Data
(Lohr, 2012) – Início do uso do termo Big data pela IBM em 2008
na sua estratégia de Marketing. Em 2011, no Twitter. Em 2012,
com a publicação do 1ᵒ ebook sobre tecnologias de Big Data.
Fonte: Francis X. Diebold: A Personal Perspective on the Origin(s) and Development of “Big Data”: The Phenomenon, the Term, and the
Discipline, August 2012

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Histórico do Big Data

Dilbert, 2012

Fonte: Dilbert, 2012 – Disponível em: http://dilbert.com/strips/comic/2012-07-29/

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Motivação para o Big Data

“A verdadeira questão não é que você está


coletando grandes quantidades de dados, mas
sim o que você faz com eles. As organizações
terão que ser capazes de aproveitar os dados
relevantes e usá-los para tomar as melhores
decisões.” (IDC, 2011)

Fonte: IDC. "Big Data Analytics: Future Architectures, Skills and Roadmaps for the CIO," September 2011

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Conceitos ..: O que é Big Data?

FONTE: EMC

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Definição de Big Data

Não há unanimidade quanto a definição de Big Data, apesar de


haver consenso quanto a sua força modificadora no contexto
de dados (Joyanes, 2013)
Alguns conceitos:
(Gartner, 2012) “Big Data é tudo que ultrapassa as capacidades de
hardware e de ferramentas de softwares de captura, gerenciamento e
processamento de dados num tempo razoável para os usuários”
(McKinsey, 2011; Deloitte, 2012)
(IDC, 2011) “Big Data é uma nova geração de tecnologias,
arquiteturas e estratégias para capturar e analisar grandes volumes de
dados provenientes de fontes múltiplas e heterogêneas com o objetivo
de extrair valor econômico desses dados”
Há que se separar a definição mercadológica dada ao Big
Data da origem do problema (Quebra de Paradigma)
Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014
.:: De onde vem a necessidade de quebrar paradigma?

Aumento na quantidade de Dados Científicos

Maior demanda por Computação Distribuída

Limitação dos Bancos de Dados Relacionais

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: De onde vem a necessidade de quebrar paradigma?

Aumento na quantidade de Dados Científicos

Fonte: EMC

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: De onde vem a necessidade de quebrar paradigma?

Maior demanda por Computação Distribuída

Fonte: http://www.inf.ufsc.br/~frank/INE5418/1.Fundamentos-Slides.pdf

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: De onde vem a necessidade de quebrar paradigma?

Maior demanda por Computação Distribuída

Computação distribuída significa pegar uma


tarefa, dividi-la em pedaços menores e dar cada
pedaço a um servidor diferente, depois pegar cada
resultado, uni-los (de maneira coerente) e
apresentá-lo.
Dificuldade

Processamento X Distribuição (Divisão)


Integridade e Disponibilidade em Cloud Computing
Fonte: https://under-linux.org/entry.php?b=2603

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: De onde vem a necessidade de quebrar paradigma?

Limitações dos Bancos de Dados Relacionais

Fonte: IMD

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Definição de Big Data

O que mais se utiliza como definição remete ao trabalho de


(Laney, 2001) sobre os 3 V´s do Big Data (Volume, Variedade e
Velocidade) ;
“Big Data são os grandes conjuntos de dados que possuem
três características principais: volume, velocidade e
variedade.”

Fonte: IBM

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Volume, Velocidade e Variedade

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Volume, Velocidade e Variedade

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: + 3 V’s do Big Data

Valor
Veracidade
Viabilidade
Fonte: http://cio.uol.com.br/opiniao/2012/05/11/o-caos-conceitual-e-os-5-vs-do-big-data/

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Curiosidades

From “Using Private Cloud to solve Big Data problems”, disponível em


https://www.panasas.com/sites/default/files/uploads/docs/Panasas_Private_Cloud_Storage_by%20Intersect360_wp_1074.PDF

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Curiosidades

Fonte: “Big Data and the Web: Algorithms for Data Intensive Scalable Computing”, Ph.D Thesis, Gianmarco

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Fontes e Tipos de Dados

Os dados são de 3 tipos

– Estruturados
– Semi-estruturados
– Não estruturados

Fonte: Joyanes, 2013

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Fontes e Tipos de Dados

Estruturados
– Dados que possuem esquema de campos fixos
– Formato bem definido
– Normalmente armazenado em BD Relacionais
– Conhecimento prévio da estrutura dos dados
– São gerados em uma ordem especificada

Fonte: Joyanes, 2013

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Fontes e Tipos de Dados

Semi-estruturados
– Possuem um fluxo lógico
– O formato pode ser bem definido, mas não necessariamente é fixo
– Não possui fácil compreensão por parte do usuário leigo
– Tem como característica marcante o uso de etiquetas e marcadores
para separar elementos dos dados
– Regras complexas para manipulação dos dados

Fonte: Joyanes, 2013

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Fontes e Tipos de Dados

Não estruturados
– Sem tipo predefinido;
– Não possuem estrutura uniforme (ex. Documentos, objetos);
– Pouco ou nenhum controle sobre eles;
– Dificuldade de “manipulação” para extração de informação

Fonte: Joyanes, 2013

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Fontes e Tipos de Dados

De onde vem os dados do Big Data?

– Web e Redes Sociais (clicks, cookies, twitter, facebook)


– Mobilidade
– Internet das Coisas (RFID/NFC, Sensores, GPS e Telemetria)
– Biometria (Reconhecimento fácil, impressão digital, dados genéticos)
– Dados gerados por pessoas (Voz, email, SMS, etc)
– Dados gerados por governos, institutos de pesquisas e empresas

Fonte: Soares, 2012

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Fontes e Tipos de Dados

Dados da WEB
– Maior fonte de Big Data utilizada na atualidade;
– Facilidade para mapear comportamento e fazer predição
– Possui conhecimento importante para tomada de decisão pelas
empresas
– Gera informação objetiva e de impacto, que é dificil de se obter sem
uma comunicação direta
– Possibilidade de captura de diversos tipos de eventos (Compras,
visualização de produtos e vídeos, buscas etc)

Fonte: Joyanes, 2013

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Fontes e Tipos de Dados

Dados de Texto
– Tipo mais comum e “simples” de dados
– Origina-se praticamente em todas as fontes de dados do Big Data
– Pode ser tratado como um tipo de dado “Estruturado”
– Estruturado + Muitas fontes = DIFICULDADE
– Possui ferramentas e aparato científico bem estruturado para análise
– Processamento de linguagem natural
– Análise sintática
– Mineração de texto

Fonte: Joyanes, 2013

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Fontes e Tipos de Dados

Dados de Sensores
– Peças chave da Internet das Coisas
– Monitoramento Autônomo e Ubíquo
– Complexidade de manipulação dos sensores
– Captura muito influenciada por fatores externos (Ex. Delay)
– Dados normalmente estruturados, mas já há redes de sensores com
dados não estruturados

Fonte: Joyanes, 2013

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Fontes e Tipos de Dados

Dados de Geolocalização
– Localização e Tempo são dois atributos de grande VALOR (Ex. Google
Location History)
– Possibilildades diversas para desenvolvimento de aplicações
– Muito sensível para o Big Data em Volume e Velocidade
– Binômio crítico com relação a questão de privacidade

Fonte: Joyanes, 2013

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Fontes e Tipos de Dados

Dados de RFID e NFC


– Sofrem também efeito da privacidade
– NFC foi criada para comunicação entre objetos próximos e com pouca
transmissão de dados
– Inclusão de NFC em celulares mudou a perspectiva do trafégo de dados
(Ex. Pagamentos, controle de acesso)

Qual a diferença então entre Redes de


Sensores e RFID/NFC?

Fonte: Joyanes, 2013

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Fontes e Tipos de Dados

Dados de Redes Sociais


– Tão complexo que criou um novo ramo na análise de dados: Análise
Social
– Volume de dados para análise de um único indivíduo na rede
– Amplitude gerando complexidade: (Ex: Eu -> Meus amigos -> Amigos
dos meus Amigos)
– Dados crescendo indefinidamente e de forma heterogênea
– Como separar o joio do trigo nesse dilúvio de dados?

Fonte: Joyanes, 2013

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Palavra-chave - Tecnologia

Integração
Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014
.:: Palavra-chave – Mercado / Negócios

Estratégia
Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014
.:: E a gestão?

O que muda?
TOMADA DE
DECISÃO
Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014
.:: E a gestão?

BI
x
BIG DATA
Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014
.:: E a gestão?

BI

• Bases de dados e Datawarehouse


• Ferramentas OLAP
Cubo OLAP (On-line Analytical Processing)
• Mineração de Dados
• Sistemas de apoio a decisão
• Relatórios
• Visualização

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: E a gestão?

BI x BIG DATA
Dados transacionais Dados transacionais + outros
dados

Decisão baseada Decisão baseada em dados em


dados passados tempo real

Análise Intuitiva Análise voltada a predição

Universo de dados limitado Universo de dados ilimitado

Busca analisar dados Busca aprendizado a partir dos


dados

A diferença está nos 3V’s


Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014
.:: Estudos de Caso

Vídeo: The age of Big Data

Fonte: BBC, 2013

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Estudos de Caso

Fonte: INFO, 2014

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Estudos de Caso

Ferramenta Match Analytics


– Coleta e Análise de informações de treino e jogos
– Analisa desde esquema tático até informação de precisão de chutes
– Avalia situações de jogo e predizem o melhor treinamento para cada
jogador
– Possui interface que facilita o uso inclusive pelos jogadores
– Roda sob a plataforma HANA da SAP
– De quebra, faz análise de redes sociais analisando sentimento de
torcedores com relação ao desempenho da equipe e dos atletas

Fonte: INFO, 2014

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Estudos de Caso

ROLLS ROYCE
– Inclusão de sensores nos motores
– Informação em tempo real de peças
– Vantagem competitiva: Substituição de produto por SERVIÇO

SMART METERS - IBM


– Medições de consumo de energia
– Sensores enviam dados em tempo real
– Hábitos de consumo e mudança de estratégias com premiação
– Criação das chamadas Smart Grids

Fonte: JOYANES, 2013

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Estudos de Caso

GOOGLE - FluTrends

Fonte: GOOGLE

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Estudos de Caso

GOOGLE - FluTrends

Fonte: GOOGLE

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: O 4 desafios do Big Data

Fonte: AMAZON AWS

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Os 4 desafios do Big Data (Atividade)

Dividir a turma em grupos de 5 alunos


Cada grupo será responsável por estudar uma ferramenta específica e
preparar uma apresentação para discussão em sala
Ferramentas de Aquisição (Facebook Scribe, FluentD, Apache
Flume, Apache Chukwa)
Ferramentas de Aquisição de uma API (Facebook Likes, Tweets,
Google Analytics)
Crawlers (Apache Nutch, Crawler4J, Scrapy (python), Anemone
(ruby))
Armazenamento (Cassandra, Neo4J, MongoDB, Hbase, Redis)
Análise (Rstudio, Matlab, Julia, Ipython)
Processamento de Stream (Splunk, Amazon Kinesis)

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: 2° Dia – 18/09/2014

Infraestrutura de BIG DATA

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Cloud Computing, IoT e SoLoMo

O que Cloud Computing tem a ver com Big Data?


Nova infraestrutura para computação sob demanda
Tornou o Big Data mais próximo da realidade
Big Data evolui em paralelo com a consolidação da computação em
Nuvem

SoLoMo e IoT convergem com Cloud Computing e Big Data


criando novas perspectivas para as empresas

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Cloud Computing, IoT e SoLoMo

Fonte: NIST, 2011

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Cloud Computing, IoT e SoLoMo

Fonte: CONTROL4.COM

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Cloud Computing, IoT e SoLoMo

Fonte: IBM, 2012

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Arquitetura e Governança de Big Data

Arquitetura de Big Data da Oracle

Fonte: Oracle, 2012

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Arquitetura e Governança de Big Data

Arquitetura de Big Data da Oracle


• Sistema de Armazenamento e Gestão de Dados
• Hadoop Distributed File System (HDFS)
• Cloudera Manager

• Bancos de Dados
• Oracle NoSQL
• Apache Hbase
• Apache Cassandra
• Apache Hive (ETL)

Fonte: Oracle, 2012

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Arquitetura e Governança de Big Data

Arquitetura de Big Data da Oracle


• Processamento
• MapReduce
• Apache Hadoop

• Integração de Dados
• Oracle Big Data Connectors, Oracle Loader for Hadoop, Oracle
Data Integrator

• Análises Estatísticas
• Oracle Enterprise R

Fonte: Oracle, 2012

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Arquitetura e Governança de Big Data

Fonte: IHBW, 2012

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Arquitetura e Governança de Big Data

Fonte: Soares, 2013

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Arquitetura e Governança de Big Data

Fontes de Big Data


Dados tradicionais das empresas
Datos gerados por máquinas (M2M) e Internet das Coisas
Dados sociais
Dados de Biometría e genética
Dados pessoais e dados gerados por pessoas

Fonte: Soares, 2013

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Arquitetura e Governança de Big Data

Bases de Dados
SQL
NoSQL (Not only SQL)
In-memory
Legadas

Tendência de DBaaS (Database as a Service)


Amazon RDS, DynamoDB, SImpleDB, PostgreSQL
Xeround(MySQL)
Salesforce Database.com (Oracle)
Google App Engine (NoSQL)
Fonte: Soares, 2013

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Arquitetura e Governança de Big Data

Datawarehouses e Data Marts


Surgimento de novos Datawarehouses e Data Marts para tratar dados
de Big Data
Uso massivo de ferramentas de ETL (Extraction, Transformation, Load)
Novas ferramentas de inteligência de negócio, relatórios e visualização
de informações
Adaptar infraestrutura para soluções Híbridas
Integrar Hadoop e NoSQL as tecnologias tradicionais

Fonte: Soares, 2013

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Arquitetura e Governança de Big Data

Componentes do Hadoop
Surgimento de diversas distribuições devido a plataforma ser de código
aberto
Necessidade de definir um caminho a seguir

Integração de Dados
Movimentação de dados brutos (DB1 + DB2 = DBNew)
Replicação de dados (Sincronismo)
Federação de dados (Vários dados separados = Um único dado)

Fonte: Soares, 2013

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Arquitetura e Governança de Big Data

Gov. de Big Data = Gov. de TI + Gov. de Informação + Big Data


Organização
Metadados
Privacidade
Qualidade dos Dados
Integração com processos de negócios
Integração com dados mestres
Gestão do ciclo de vida da informação

Fonte: Soares, 2013

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Arquitetura e Governança de Big Data

Deve se relacionar diretamente com as iniciativas de


Governança da Informação já existentes na empresa
Metadados – Definir bons metadados para evitar dados em
duplicidade
Políticas de Privacidade – Definir políticas de privacidade ao mesmo
tempo que busca alavancar análise de mídias sociais
Qualidade dos dados – Definir o nível de qualidade dos dados (Volume
e Velocidade)
Gerenciamento do ciclo de vida da Informação – Definir bem as
políticas de arquivamento (Armazenamento x Custos)
Manejo – Recrutar grandes administradores de Dados para evitar
dados inconsistentes (Ex. Setor de Petróleo – adm de dados sísmicos e
metadados)
Fonte: Soares, 2013

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Bases de Dados - Relacionais, NoSQL e in-memory

BD Relacionais
Largamente utilizados atualmente pelas empresas
Utiliza relações (tabelas) como elementos básicos
Tabelas compostas por linhas e colunas
Faz uso de restrições para manutenção de integridade
(chaves)
Utiliza NORMALIZAÇÃO
SQL é a linguagem de consulta
Os SGBDs relacionais implementam outras funções
(controle de concorrência, segurança, controle de
transações, recuperação de falhas etc) Fonte: Soares, 2013

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Bases de Dados - Relacionais, NoSQL e in-memory

BD Relacionais – Limitações

ESCALABILIDADE
é a maior

Fonte: Soares, 2013

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Bases de Dados - Relacionais, NoSQL e in-memory

BD Relacionais – Limitações

Servidor Servidor Servidor


Servidor

BD BD

Aplicação

BD BD BD

Fonte: Ricardo Brito - UFC, 2012

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Bases de Dados - Relacionais, NoSQL e in-memory

BDs No SQL

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Bases de Dados - Relacionais, NoSQL e in-memory

BDs No SQL
De volta ao passado… (Sistemas de Arquivos)
Estrutura mais flexível
Melhor adaptado para questões de escalabilidade
Não veio para acabar com o Modelo Relacional
Abandonou a NORMALIZAÇÃO
São livres de esquemas de tabelas e sem JOINs
Iniciou em 2004 Big Table (Google), 2007 Dynamo
(Amazon), 2008 Cassandra (Facebook)
Escalabilidade Linear, Acesso rápido, Manipulação de
dados não estruturados Fonte: Soares, 2013

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Bases de Dados - Relacionais, NoSQL e in-memory

Dividida em 4 Categorias
Orientadas a Chave-valor
Orientadas a documentos
Orientadas a colunas (BigTable)
Orientada a grafos

Fonte: Soares, 2013

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Bases de Dados - Relacionais, NoSQL e in-memory

Fonte: Imasters

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Bases de Dados - Relacionais, NoSQL e in-memory

Bases de Dados orientadas a chave-valor


Uso do conceito de tabela hash (chave única identificando
um valor)
Simplicidade
Maior escalabilidade
Consultas O(1) independente do volume de dados
Problemas???

Fonte: Soares, 2013

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Bases de Dados - Relacionais, NoSQL e in-memory

Entendendo Tabela Hash

Exemplo:

Fonte: Prof. Thales Castro, 2011

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Bases de Dados - Relacionais, NoSQL e in-memory

Bases de Dados orientadas a Chave-Valor

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Bases de Dados - Relacionais, NoSQL e in-memory

Bases de Dados orientadas a documentos


Parecido com o modelo chave-valor, porém mais complexo
Contém todas as informações em um único documento
Consulta utilizando métodos avançados (MapReduce)
Livres de Esquemas
Utiliza identificadores únicos universais (UUID)
Usa JSON (JavaScript Object Notation) para intercâmbio de dados

Fonte: Soares, 2013

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Bases de Dados - Relacionais, NoSQL e in-memory

Bases de Dados orientadas a documentos

Fonte: Yuri Adams, 2011

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Bases de Dados - Relacionais, NoSQL e in-memory

Bases de Dados orientadas a documentos

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Bases de Dados - Relacionais, NoSQL e in-memory

Bases de Dados orientadas colunas (BigTable)


Keyspace = Databases / Schemas
Colum Family = Tabelas
Colunas = Registros
Um mega BD Chave-valor
Ponto forte: Velocidade e Escalabilidade
Ponto fraco: Complexidade na forma de armazenamento

Fonte: Soares, 2013

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Bases de Dados - Relacionais, NoSQL e in-memory

Bases de Dados orientadas colunas (BigTable)

Fonte: Otávio Gonçalves, TDC 2012

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Bases de Dados - Relacionais, NoSQL e in-memory

Bases de Dados orientadas colunas (BigTable)

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Bases de Dados - Relacionais, NoSQL e in-memory

Bases de Dados orientadas a grafos


Armazenamento em forma de grafos (nós e arcos)
Possui ACID (Atomicidade, Consistência, Isolamento,
Durabilidade)
Os dados do registros são armazenados nos vértices
Os relacionamentos são armazenados nas arestas
Muito utilizado em redes sociais
Utiliza a teoria dos grafos para obter informações
Flexibilidade em quantidade de atributos e longitude de
buscas
Relacionamentos fazem parte dos dados, não da estrutura
Fonte: Soares, 2013

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Bases de Dados - Relacionais, NoSQL e in-memory

Fonte: Eder Ignatowicz, 2012

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Bases de Dados - Relacionais, NoSQL e in-memory

Bases de Dados orientadas a grafos

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Bases de Dados - Relacionais, NoSQL e in-memory

Bases de Dados in-memory


Avanços na tecnologia de memórias
Aumento da capacidade associada a redução de custos
Necessidade de acelerar buscas, leitura e gravação em BD
Arquitetura distinta da que utiliza discos
Redução considerável do tempo de processamento
Bom para grandes volumes de dados
Usa memória principal para armazenamento
Objetivo: Responder em tempo real sem ter que perder tempo
acessando discos (LENTO)

Fonte: Joyanes, 2013

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Bases de Dados - Relacionais, NoSQL e in-memory

Bases de Dados in-memory


Duas categorias principais:
Tecnologia In-memory pura
Carrega todos os dados na Memória RAM antes de
utilizar

Tecnologia in-memory just-in-time


Carrega somente os dados necessários para uma
consulta particular
Libera os dados de acordo com o padrão de uso
JIT + Bases de Dados em colunas = Maior
Desempenho
Fonte: Joyanes, 2013

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Bases de Dados - Relacionais, NoSQL e in-memory

Por que na memória?

Barramento de alta
velocidade conectado
diretamente ao
processador

MEMÓRIA

X
DISCOS
Um ou mais barramentos

Fonte: IBM, 2012

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Bases de Dados - Relacionais, NoSQL e in-memory

Bases de Dados in-memory – Propriedades


ACID
Atomicidade: Transações atômicas (Se falha parte, falha o todo e
BD não se altera);
Consistência: Transações não alteram a consistência do BD
(Respeitar integridade – Ex: chaves);
Isolamento: Uma transação não pode interferir em outra (Paralelo
= Sequencial);
Durabilidade: Depois de confirmada uma transação deve
permanecer confirmada;

Fonte: WIKI

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Bases de Dados - Relacionais, NoSQL e in-memory

Bases de Dados in-memory – Propriedades


Armazenamento em colunas – Recuperação de Informação

Fonte: Soares, B. e Boscarioli, C., Modelo de Banco de Dados Colunar: Características, Aplicações e Exemplos de Sistemas, 2013

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Bases de Dados - Relacionais, NoSQL e in-memory

Bases de Dados in-memory – Propriedades


Armazenamento em colunas – Recuperação de Informação

Fonte: Soares, B. e Boscarioli, C., Modelo de Banco de Dados Colunar: Características, Aplicações e Exemplos de Sistemas, 2013

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Bases de Dados - Relacionais, NoSQL e in-memory

Bases de Dados in-memory – Propriedades


Armazenamento em colunas – Recuperação de Informação

Fonte: Soares, B. e Boscarioli, C., Modelo de Banco de Dados Colunar: Características, Aplicações e Exemplos de Sistemas, 2013

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Bases de Dados - Relacionais, NoSQL e in-memory

Bases de Dados in-memory – Propriedades


Armazenamento em colunas – Recuperação de Informação

Fonte: Soares, B. e Boscarioli, C., Modelo de Banco de Dados Colunar: Características, Aplicações e Exemplos de Sistemas, 2013

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Bases de Dados - Relacionais, NoSQL e in-memory

Bases de Dados in-memory – SAP HANA

Fonte: SAP, 2012

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Bases de Dados - Relacionais, NoSQL e in-memory

Bases de Dados in-memory – SAP HANA

Fonte: SAP, 2012

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Bases de Dados - Relacionais, NoSQL e in-memory

Bases de Dados in-memory – SAP HANA

Fonte: SAP, 2012

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: O framework Hadoop

“The Apache Hadoop software library is a


framework that allows for the distributed
processing of large data sets across clusters
of computers using a simple Programming
model

(Divide to Conquer)
Fonte: https://under-linux.org/entry.php?b=2603
Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014
.:: O framework Hadoop

Origem do Hadoop
Lê um 1TB em 1 disco = 200 seg, em 100 discos em paralelo
= ~ 2 seg
Pesquisas do Google de novos métodos para acesso a
informação, tratamento de grandes volumes de dados e
processamento paralelo geraram 3 artigos
“The Google File System (GFS)”
“MapReduce: Simplified Data Processing on Large Clusters”
“Big Table: A Distributed Storage System for Structured Data”

Fonte: Joyanes, 2013

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: O framework Hadoop

The Google File System


Sistema de arquivos distribuído e escalável para aplicações com
grandes volumes de dados distribuídos
Tolerante a falhas e que pode ser executado a partir de hardware
convencional e barato
Entrega alto rendimento quando está associado a um grande número
de clientes

Fonte: Joyanes, 2013

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: O framework Hadoop

Map Reduce
Modelo de programação para processamento de grandes conjuntos de
dados
Programas escritos em estilo funcional são paralelizados
automaticamente
Executado em cluster de máquinas básicas
Responsável pelo particionamento dos dados de entrada, divisão entre
as máquinas do cluster, gerenciamento de comunicação e falhas

Fonte: Joyanes, 2013

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: O algoritmo MapReduce

Baseado no conceito de Dividir para Conquistar


GRID COMPUTING
Várias implementações existentes: Hadoop, Disco, Skynet,
FileMap e Greenplum;

Fonte: https://under-linux.org/entry.php?b=2603

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Algoritmo MapReduce

Dividido em 3 passos

1. Seleciona os dados de entrada


2. Aplica as duas operações em sequência (MAP/REDUCE)
3. Recupera os dados de saída e obtém a resposta

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Algoritmo MapReduce

Divide uma tarefa em pedaços menores (MAP);

Envia as tarefas para os servidores (MAP);

Coleta os resultados das tarefas (REDUCE);

Processa os resultados obtendo uma resposta única (REDUCE)

Fonte: https://under-linux.org/entry.php?b=2603

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Algoritmo MapReduce

Fonte: Fabiane Nardon, 2013 - QconSP

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Algoritmo MapReduce

Fonte: https://under-linux.org/entry.php?b=2603

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Algoritmo MapReduce

Fonte: Fabiane Nardon, 2013 - QconSP


Fonte: Fabiane Nardon, 2013 - QconSP

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: O framework Hadoop

Big Table
Sistema de armazenamento distribuído para gestão de dados
estruturados
Muitos projetos do Google usando BigTable
Desenhado para ser escalável até ordem de petabytes através de
milhares de servidores
O artigo descreve detalhes da plataforma;
Várias bases de dados comerciais atualmente seguem características
desse modelo (CouchDB, MongoDB, Cassandra, Neo4J, Hypertable)

Fonte: Joyanes, 2013

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: O framework Hadoop

O que é ???

Inicialmente era uma implementação open source do MapReduce


A medida que o projeto foi amadurecendo foram incorporados
outros componentes para melhorar usabilidade e funcionalidade;
Hoje é tido como o Ecossistema completo para resolver de modo
eficiente e econômico a escalabilidade de dados
Open source, escrito em Java
Originalmente construído para a distribuição do projeto do motor
web Apache Nutch

Fonte: APACHE HADOOP

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: O framework Hadoop

Composto pelos módulos:

• Hadoop Common
• Hadoop MapReduce
• Hadoop Distributed File System (HDFS)
• Hadoop YARN

Fonte: Apache Hadoop

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: O framework Hadoop

Composto pelos módulos:


•Hadoop Common: The common utilities that support the other Hadoop
modules.

• Hadoop Distributed File System (HDFS™): A distributed file system


that provides high-throughput access to application data.

• Hadoop YARN: A framework for job scheduling and cluster resource


management.

• Hadoop MapReduce: A YARN-based system for parallel processing of


large data sets.
Fonte: Apache Hadoop

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: O framework Hadoop

O que é HDFS ?

Sistema de arquivos distribuído


Alta tolerância a falhas
Projetado para hardware de baixo custo
Provê alta vazão de dados
Escalável
Portável
Baseado no Google File System

Fonte: APACHE HADOOP

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: O framework Hadoop

Como funciona HDFS ?

Fonte: APACHE HADOOP

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: O framework Hadoop

Como funciona o HDFS ?


Arquitetura cliente/servidor
Constituído por um NameNode e vários DataNodes
Os NameNodes executam as operações no sistema de arquivos,
coordena acesso a dados e metadados, mantém o sistema de
nomes
Os metadados são mantidos em RAM (Velocidade)
Organização hierárquica semelhante a outros sistemas de arquivos
Protocolos HDFS sobre TCP/IP e comunicação através de RPC

Fonte: APACHE HADOOP

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: O framework Hadoop

Como funciona o HDFS ?


Arquivos armazenados em blocos, maiores que os sistemas de
arquivos normais, normalmente blocos de 64 megas
Confiabilidade implementada através de replicação de dados entre
os DataNodes (3 ou mais)
Não se faz cache de dados devido ao tamanho dos blocos e
Streaming

Fonte: APACHE HADOOP

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: O framework Hadoop

Por que FRAMEWORK ??????

Por que Ecossistema ??????

Fonte: APACHE HADOOP

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: O framework Hadoop

Arquitetura Hadoop – Alto nível

Fonte: Hadoop in Practice, 2012

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: O framework Hadoop

Fonte: Joyanes, 2013

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: O framework Hadoop

Fonte: http://opensource.com/life/14/8/intro-apache-hadoop-big-data

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: O framework Hadoop

Fonte: Hadoop in Practice, 2012

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: O framework Hadoop

Hadoop - Limitações

Alta Disponibilidade
O problema do NameNode único e os problemas de 2 NameNodes
Segurança
Oferece um modelo de segurança, mas por default está desabilitado;
Se limita a segurança do HDFS (Permissões e Propriedades)
Por default, todos os demais serviços do Hadoop são totalmente “abertos”
Autenticação de clientes e Criptografia de dados devem ser configuradas a
parte (Complexidade)

Fonte: Hadoop in Practice, 2012

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: O framework Hadoop

Hadoop - Limitações
HDFS
Problemas com Alta Disponibilidade, Arquivos Pequenos e compressão
transparente
MapReduce
Arquitetura baseada em lotes, ruim para situações de tempo real
Tarefas que exigem sincronização global e compartilhamento de dados
mutáveis não são bons para MapReduce porque é uma arquitetura sem
compartilhamento;

Fonte: Hadoop in Practice, 2012

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: O framework Hadoop

Outro projetos associados ao Hadoop


Ambari™: A web-based tool for provisioning, managing, and monitoring Apache
Hadoop clusters which includes support for Hadoop HDFS, Hadoop MapReduce,
Hive, HCatalog, HBase, ZooKeeper, Oozie, Pig and Sqoop. Ambari also provides a
dashboard for viewing cluster health such as heatmaps and ability to view
MapReduce, Pig and Hive applications visually alongwith features to diagnose
their performance characteristics in a user-friendly manner.

Avro™: A data serialization system.

Cassandra™: A scalable multi-master database with no single points of failure.

Chukwa™: A data collection system for managing large distributed systems.

HBase™: A scalable, distributed database that supports structured data storage


for large tables.
Fonte: APACHE HADOOP, 2014

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: O framework Hadoop

Outro projetos associados ao Hadoop


Hive™: A data warehouse infrastructure that provides data summarization and ad
hoc querying.

Mahout™: A Scalable machine learning and data mining library.

Pig™: A high-level data-flow language and execution framework for parallel


computation.

Spark™: A fast and general compute engine for Hadoop data. Spark provides a
simple and expressive programming model that supports a wide range of
applications, including ETL, machine learning, stream processing, and graph
computation.

ZooKeeper™: A high-performance coordination service for distributed applications.


Fonte: APACHE HADOOP, 2014

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: 3° Dia – 19/09/2014

Análise de BIG DATA

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Análise de Big Data

O que é ?

“É o processo de examinar grandes quantidade de dados de


uma variedade de tipos para descobrir padrões ocultos,
correlações desconhecidas e outras informações de interesse
de forma que essas informações possam trazer vantagens
competitivas num ambiente de negócios”

Fonte: Joyanes, 2013

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Análise de Big Data

Oportunidades e Desafios

Área de maior complexidade no universo de Big Data

Fortemente baseada em modelos estatísticos

Exige recursos humanos muito especializados

Fonte: Joyanes, 2013

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Análise de Big Data

Fonte: EMC, 2013

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Análise de Big Data

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: 4° Dia – 20/09/2014

Tendências de BIG DATA

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Novas Tendências
Mídias Sociais

Mobilidade

Big Data
Cloud
Fonte: Gartner, 2013
Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014
.:: Novas Tendências

A convergências dessas 4 forças estão gerando:


Mudança de comportamento dos usuários
Criando novos modelos de negócios
Mudando a forma de decidir das empresas e de se relacionar
com os clientes
Consumidores mais ativos e com relacionamento mais
próximos das empresas, obrigando mudança de cultura
organizacional

Fonte: Gartner, 2013

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Novas Tendências

Soma-se a isso novas tendências tecnológicas, sociais, econômicas


e de consumo
BYOD (Bring Your Own Device)
Gamificação
Crowdsourcing
Crowdfunding
Consumerização (Apontada pelo GARTNER como mais significativa nos próximos 10 anos)

Fonte: Gartner, 2013

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Novas Tendências

Vídeo: Consumerização

Fonte: Gartner, 2013

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Novas Tendências

Soma-se a isso novas tendências tecnológicas, sociais, econômicas


e de consumo
BYOD (Bring Your Own Device)
Gamificação (Ex. programa de milhagens)
Crowdsourcing
Crowdfunding
Consumerização (Apontada pelo GARTNER como mais significativa nos próximos 10 anos)

Fonte: Gartner, 2013

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Big Data tendências

Tim O´Reilly criador da Web 2.0 e CEO da editora O´Reilly publicou


através da conferência Strata as 5 grandes predições para o Big
Data
1ª Arquitetura Padrão para Big Data
Decisões de melhores ferramentas para determinados propósitos
Definição de regras apropriadas para BD Relacional, Hadoop, NoSQL e
in-memory
Métodos para combinar datawarehouses existentes e bases com
Hadoop

Fonte: Gartner, 2013

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Big Data tendências

Tim O´Reilly criador da Web 2.0 e CEO da editora O´Reilly publicou


através da conferência Strata as 5 grandes predições para o Big
Data
2ª : Hadoop não será a única “oferta” profissional
Surgimento de novas ferramentas para processamento de grandes
volumes de dados
Ferramentas de nicho
Suporte aos dados através de uma linguagem universal estilo SQL
3ª : Unificação de Plataformas de Big Data
Objetivo de reduzir tempo de processamento em cluster Hadoop

Fonte: Gartner, 2013

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Big Data tendências

Tim O´Reilly criador da Web 2.0 e CEO da editora O´Reilly publicou


através da conferência Strata as 5 grandes predições para o Big
Data
4ª: Governança como centro das atenções
Segurança dos dados
Consistências dos dados
Compliance regulatório
5ª: Surgimento de Soluções de Análise FIM a FIM
Fácil de utilizar
Universais

Fonte: Gartner, 2013

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014


.:: Big data em 2020

Visão 360º
Insights = 10% estruturados + 90% interação humana
Engines de recomendação terão uma visão global de
preferências, sentimentos e estado atual dos indivíduos
Identificação de padrões futuros de forma independente

Fonte: Gartner, 2013

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Você também pode gostar