Posgraduacaoufrn Bigdata Set2014 140921144432 Phpapp01

Especialização em
ARQUITETURA DE NUVEM
Disciplina: Big Data

Carga Horária: 20h
Prof. Marcos Luiz Lins Filho
Setembro/2014
.:: Programação ::.
1ᵒ Dia (17/09) – Apresentação e Motivação

– Apresentação da Disciplina (Estrutura, Materiais, Avaliação)
– Histórico e conceitos de Big Data
– Tipos e Fontes de Dados
– Estudos de Caso – Vídeo e Slides
– Os 4 desafios do Big Data (Atividade)
2ᵒ Dia (18/09) – Infraestrutura de Big Data
– Considerações sobre Cloud Computing, Internet das Coisas e SOLOMO
– Arquitetura e Governança de Big Data
– Bases de dados Relacionais, NoSQL e in-memory
– Hadoop e seus agregados
– Atividade
Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

.:: Programação ::.
3ᵒ Dia (19/09) – Análise de Big Data

– O que é?
– Oportunidades e Dificuldades da Análise de Big Data
– Atividade
4ᵒ Dia (20/09) – Big Data no Futuro
– Novas tendências (BYOD, Consumerização, Crowdsourcing e
Crowdfunding, Gamificação)
– Futuro do Big Data
– Encerramento da Disciplina

.:: 1° Dia – 17/09/2014
Apresentação e Motivação para

estudar BIG DATA

.:: Por que Big Data?
Fonte: Bruno Domingues, Big Data com AWS e Intel, 2014

.:: Por que Big Data?
Fonte: Bruno Domingues, Big Data com AWS e Intel, 2014

.:: Histórico do Big Data
Se divide em dois momentos

Expansão no campo científico e de negócios basicamente através do
uso do termo Big Data de forma técnica e acadêmica (1984 – 2007)
Difusão do termo já com viés tecnológico e econômico, estudo de
tecnologias, desenvolvimento de ferramentas para análise de dados
etc (meados de 2008)
Fonte: Francis X. Diebold: A Personal Perspective on the Origin(s) and Development of “Big Data”: The Phenomenon, the Term, and the
Discipline, August 2012


Expansão no campo científico e de negócios basicamente através do
uso do termo Big Data de forma técnica e acadêmica (1984 – 2007)
(Tilly, 1984) usa pela primeira vez o termo Big Data em textos
acadêmicos;
Uma primeira pesquisa publicada em 1987 relativa a uma técnica
de programação chamada small code, big data;
Em 1989 e 1993 pesquisas começam a tratar de aplicações de Big
Data;
(Laney , 2001) publica trabalho com o título os 3 V´s do Big Data
(Volume, Variedade e Velocidade)


Difusão do termo já com viés tecnológico e econômico, estudo de
tecnologias, desenvolvimento de ferramentas para análise de dados
etc (meados de 2008)
(Lohr, 2008) Jornalista do New York Times publicou artigo em que
citava que cientistas de computação e executivos da indústria já
enxergavam que o termo Big Data saia da esfera acadêmica e já
começava a trazer resultados econômicos.
A Wired publica em junho de 2008 um artigo “The Petabyte Age:
because more isn’t just more, more is different”, que apresenta as
oportunidades e implicações do Big Data
(Lohr, 2012) – Início do uso do termo Big data pela IBM em 2008
na sua estratégia de Marketing. Em 2011, no Twitter. Em 2012,
com a publicação do 1ᵒ ebook sobre tecnologias de Big Data.

Dilbert, 2012
Fonte: Dilbert, 2012 – Disponível em: http://dilbert.com/strips/comic/2012-07-29/

.:: Motivação para o Big Data
“A verdadeira questão não é que você está

coletando grandes quantidades de dados, mas
sim o que você faz com eles. As organizações
terão que ser capazes de aproveitar os dados
relevantes e usá-los para tomar as melhores
decisões.” (IDC, 2011)
Fonte: IDC. "Big Data Analytics: Future Architectures, Skills and Roadmaps for the CIO," September 2011

.:: Conceitos ..: O que é Big Data?
FONTE: EMC

.:: Definição de Big Data
Não há unanimidade quanto a definição de Big Data, apesar de

haver consenso quanto a sua força modificadora no contexto
de dados (Joyanes, 2013)
Alguns conceitos:
(Gartner, 2012) “Big Data é tudo que ultrapassa as capacidades de
hardware e de ferramentas de softwares de captura, gerenciamento e
processamento de dados num tempo razoável para os usuários”
(McKinsey, 2011; Deloitte, 2012)
(IDC, 2011) “Big Data é uma nova geração de tecnologias,
arquiteturas e estratégias para capturar e analisar grandes volumes de
dados provenientes de fontes múltiplas e heterogêneas com o objetivo
de extrair valor econômico desses dados”
Há que se separar a definição mercadológica dada ao Big
Data da origem do problema (Quebra de Paradigma)
.:: De onde vem a necessidade de quebrar paradigma?
Aumento na quantidade de Dados Científicos
Maior demanda por Computação Distribuída
Limitação dos Bancos de Dados Relacionais

Aumento na quantidade de Dados Científicos
Fonte: EMC

Fonte: http://www.inf.ufsc.br/~frank/INE5418/1.Fundamentos-Slides.pdf

Computação distribuída significa pegar uma

tarefa, dividi-la em pedaços menores e dar cada
pedaço a um servidor diferente, depois pegar cada
resultado, uni-los (de maneira coerente) e
apresentá-lo.
Dificuldade
Processamento X Distribuição (Divisão)

Integridade e Disponibilidade em Cloud Computing
Fonte: https://under-linux.org/entry.php?b=2603

Limitações dos Bancos de Dados Relacionais
Fonte: IMD

.:: Definição de Big Data
O que mais se utiliza como definição remete ao trabalho de

(Laney, 2001) sobre os 3 V´s do Big Data (Volume, Variedade e
Velocidade) ;
“Big Data são os grandes conjuntos de dados que possuem
três características principais: volume, velocidade e
variedade.”
Fonte: IBM

.:: Volume, Velocidade e Variedade

.:: Volume, Velocidade e Variedade

.:: + 3 V’s do Big Data
Valor
Veracidade
Viabilidade
Fonte: http://cio.uol.com.br/opiniao/2012/05/11/o-caos-conceitual-e-os-5-vs-do-big-data/

.:: Curiosidades
From “Using Private Cloud to solve Big Data problems”, disponível em

https://www.panasas.com/sites/default/files/uploads/docs/Panasas_Private_Cloud_Storage_by%20Intersect360_wp_1074.PDF

.:: Curiosidades
Fonte: “Big Data and the Web: Algorithms for Data Intensive Scalable Computing”, Ph.D Thesis, Gianmarco

.:: Fontes e Tipos de Dados
Os dados são de 3 tipos
– Estruturados
– Semi-estruturados
– Não estruturados
Fonte: Joyanes, 2013

Estruturados
– Dados que possuem esquema de campos fixos
– Formato bem definido
– Normalmente armazenado em BD Relacionais
– Conhecimento prévio da estrutura dos dados
– São gerados em uma ordem especificada

Semi-estruturados
– Possuem um fluxo lógico
– O formato pode ser bem definido, mas não necessariamente é fixo
– Não possui fácil compreensão por parte do usuário leigo
– Tem como característica marcante o uso de etiquetas e marcadores
para separar elementos dos dados
– Regras complexas para manipulação dos dados

Não estruturados
– Sem tipo predefinido;
– Não possuem estrutura uniforme (ex. Documentos, objetos);
– Pouco ou nenhum controle sobre eles;
– Dificuldade de “manipulação” para extração de informação

De onde vem os dados do Big Data?
– Web e Redes Sociais (clicks, cookies, twitter, facebook)

– Mobilidade
– Internet das Coisas (RFID/NFC, Sensores, GPS e Telemetria)
– Biometria (Reconhecimento fácil, impressão digital, dados genéticos)
– Dados gerados por pessoas (Voz, email, SMS, etc)
– Dados gerados por governos, institutos de pesquisas e empresas
Fonte: Soares, 2012

Dados da WEB
– Maior fonte de Big Data utilizada na atualidade;
– Facilidade para mapear comportamento e fazer predição
– Possui conhecimento importante para tomada de decisão pelas
empresas
– Gera informação objetiva e de impacto, que é dificil de se obter sem
uma comunicação direta
– Possibilidade de captura de diversos tipos de eventos (Compras,
visualização de produtos e vídeos, buscas etc)

Dados de Texto
– Tipo mais comum e “simples” de dados
– Origina-se praticamente em todas as fontes de dados do Big Data
– Pode ser tratado como um tipo de dado “Estruturado”
– Estruturado + Muitas fontes = DIFICULDADE
– Possui ferramentas e aparato científico bem estruturado para análise
– Processamento de linguagem natural
– Análise sintática
– Mineração de texto

Dados de Sensores
– Peças chave da Internet das Coisas
– Monitoramento Autônomo e Ubíquo
– Complexidade de manipulação dos sensores
– Captura muito influenciada por fatores externos (Ex. Delay)
– Dados normalmente estruturados, mas já há redes de sensores com
dados não estruturados

Dados de Geolocalização
– Localização e Tempo são dois atributos de grande VALOR (Ex. Google
Location History)
– Possibilildades diversas para desenvolvimento de aplicações
– Muito sensível para o Big Data em Volume e Velocidade
– Binômio crítico com relação a questão de privacidade

Dados de RFID e NFC

– Sofrem também efeito da privacidade
– NFC foi criada para comunicação entre objetos próximos e com pouca
transmissão de dados
– Inclusão de NFC em celulares mudou a perspectiva do trafégo de dados
(Ex. Pagamentos, controle de acesso)
Qual a diferença então entre Redes de

Sensores e RFID/NFC?

Dados de Redes Sociais

– Tão complexo que criou um novo ramo na análise de dados: Análise
Social
– Volume de dados para análise de um único indivíduo na rede
– Amplitude gerando complexidade: (Ex: Eu -> Meus amigos -> Amigos
dos meus Amigos)
– Dados crescendo indefinidamente e de forma heterogênea
– Como separar o joio do trigo nesse dilúvio de dados?

.:: Palavra-chave - Tecnologia
Integração
.:: Palavra-chave – Mercado / Negócios
Estratégia
.:: E a gestão?
O que muda?
TOMADA DE
DECISÃO
.:: E a gestão?
BI
x
BIG DATA
.:: E a gestão?
BI
• Bases de dados e Datawarehouse

• Ferramentas OLAP
Cubo OLAP (On-line Analytical Processing)
• Mineração de Dados
• Sistemas de apoio a decisão
• Relatórios
• Visualização

.:: E a gestão?
BI x BIG DATA
Dados transacionais Dados transacionais + outros
dados
Decisão baseada Decisão baseada em dados em

dados passados tempo real
Análise Intuitiva Análise voltada a predição
Universo de dados limitado Universo de dados ilimitado
Busca analisar dados Busca aprendizado a partir dos

dados
A diferença está nos 3V’s

.:: Estudos de Caso
Vídeo: The age of Big Data
Fonte: BBC, 2013

.:: Estudos de Caso
Fonte: INFO, 2014

.:: Estudos de Caso
Ferramenta Match Analytics

– Coleta e Análise de informações de treino e jogos
– Analisa desde esquema tático até informação de precisão de chutes
– Avalia situações de jogo e predizem o melhor treinamento para cada
jogador
– Possui interface que facilita o uso inclusive pelos jogadores
– Roda sob a plataforma HANA da SAP
– De quebra, faz análise de redes sociais analisando sentimento de
torcedores com relação ao desempenho da equipe e dos atletas
Fonte: INFO, 2014

.:: Estudos de Caso
ROLLS ROYCE
– Inclusão de sensores nos motores
– Informação em tempo real de peças
– Vantagem competitiva: Substituição de produto por SERVIÇO
SMART METERS - IBM

– Medições de consumo de energia
– Sensores enviam dados em tempo real
– Hábitos de consumo e mudança de estratégias com premiação
– Criação das chamadas Smart Grids
Fonte: JOYANES, 2013

.:: Estudos de Caso
GOOGLE - FluTrends
Fonte: GOOGLE

.:: Estudos de Caso
GOOGLE - FluTrends
Fonte: GOOGLE

.:: O 4 desafios do Big Data
Fonte: AMAZON AWS

.:: Os 4 desafios do Big Data (Atividade)
Dividir a turma em grupos de 5 alunos

Cada grupo será responsável por estudar uma ferramenta específica e
preparar uma apresentação para discussão em sala
Ferramentas de Aquisição (Facebook Scribe, FluentD, Apache
Flume, Apache Chukwa)
Ferramentas de Aquisição de uma API (Facebook Likes, Tweets,
Google Analytics)
Crawlers (Apache Nutch, Crawler4J, Scrapy (python), Anemone
(ruby))
Armazenamento (Cassandra, Neo4J, MongoDB, Hbase, Redis)
Análise (Rstudio, Matlab, Julia, Ipython)
Processamento de Stream (Splunk, Amazon Kinesis)

.:: 2° Dia – 18/09/2014
Infraestrutura de BIG DATA

.:: Cloud Computing, IoT e SoLoMo
O que Cloud Computing tem a ver com Big Data?

Nova infraestrutura para computação sob demanda
Tornou o Big Data mais próximo da realidade
Big Data evolui em paralelo com a consolidação da computação em
Nuvem
SoLoMo e IoT convergem com Cloud Computing e Big Data

criando novas perspectivas para as empresas

Fonte: NIST, 2011

Fonte: CONTROL4.COM

Fonte: IBM, 2012

.:: Arquitetura e Governança de Big Data
Arquitetura de Big Data da Oracle
Fonte: Oracle, 2012


• Sistema de Armazenamento e Gestão de Dados
• Hadoop Distributed File System (HDFS)
• Cloudera Manager
• Bancos de Dados
• Oracle NoSQL
• Apache Hbase
• Apache Cassandra
• Apache Hive (ETL)
Fonte: Oracle, 2012


• Processamento
• MapReduce
• Apache Hadoop
• Integração de Dados
• Oracle Big Data Connectors, Oracle Loader for Hadoop, Oracle
Data Integrator
• Análises Estatísticas
• Oracle Enterprise R
Fonte: Oracle, 2012

Fonte: IHBW, 2012

Fonte: Soares, 2013

Fontes de Big Data

Dados tradicionais das empresas
Datos gerados por máquinas (M2M) e Internet das Coisas
Dados sociais
Dados de Biometría e genética
Dados pessoais e dados gerados por pessoas
Fonte: Soares, 2013

Bases de Dados
SQL
NoSQL (Not only SQL)
In-memory
Legadas
Tendência de DBaaS (Database as a Service)

Amazon RDS, DynamoDB, SImpleDB, PostgreSQL
Xeround(MySQL)
Salesforce Database.com (Oracle)
Google App Engine (NoSQL)
Fonte: Soares, 2013

Datawarehouses e Data Marts

Surgimento de novos Datawarehouses e Data Marts para tratar dados
de Big Data
Uso massivo de ferramentas de ETL (Extraction, Transformation, Load)
Novas ferramentas de inteligência de negócio, relatórios e visualização
de informações
Adaptar infraestrutura para soluções Híbridas
Integrar Hadoop e NoSQL as tecnologias tradicionais
Fonte: Soares, 2013

Componentes do Hadoop
Surgimento de diversas distribuições devido a plataforma ser de código
aberto
Necessidade de definir um caminho a seguir
Integração de Dados
Movimentação de dados brutos (DB1 + DB2 = DBNew)
Replicação de dados (Sincronismo)
Federação de dados (Vários dados separados = Um único dado)
Fonte: Soares, 2013

Gov. de Big Data = Gov. de TI + Gov. de Informação + Big Data

Organização
Metadados
Privacidade
Qualidade dos Dados
Integração com processos de negócios
Integração com dados mestres
Gestão do ciclo de vida da informação
Fonte: Soares, 2013

Deve se relacionar diretamente com as iniciativas de

Governança da Informação já existentes na empresa
Metadados – Definir bons metadados para evitar dados em
duplicidade
Políticas de Privacidade – Definir políticas de privacidade ao mesmo
tempo que busca alavancar análise de mídias sociais
Qualidade dos dados – Definir o nível de qualidade dos dados (Volume
e Velocidade)
Gerenciamento do ciclo de vida da Informação – Definir bem as
políticas de arquivamento (Armazenamento x Custos)
Manejo – Recrutar grandes administradores de Dados para evitar
dados inconsistentes (Ex. Setor de Petróleo – adm de dados sísmicos e
metadados)
Fonte: Soares, 2013

.:: Bases de Dados - Relacionais, NoSQL e in-memory
BD Relacionais
Largamente utilizados atualmente pelas empresas
Utiliza relações (tabelas) como elementos básicos
Tabelas compostas por linhas e colunas
Faz uso de restrições para manutenção de integridade
(chaves)
Utiliza NORMALIZAÇÃO
SQL é a linguagem de consulta
Os SGBDs relacionais implementam outras funções
(controle de concorrência, segurança, controle de
transações, recuperação de falhas etc) Fonte: Soares, 2013

BD Relacionais – Limitações
ESCALABILIDADE
é a maior
Fonte: Soares, 2013

BD Relacionais – Limitações
Servidor Servidor Servidor

Servidor
BD BD
Aplicação
BD BD BD
Fonte: Ricardo Brito - UFC, 2012

BDs No SQL

BDs No SQL
De volta ao passado… (Sistemas de Arquivos)
Estrutura mais flexível
Melhor adaptado para questões de escalabilidade
Não veio para acabar com o Modelo Relacional
Abandonou a NORMALIZAÇÃO
São livres de esquemas de tabelas e sem JOINs
Iniciou em 2004 Big Table (Google), 2007 Dynamo
(Amazon), 2008 Cassandra (Facebook)
Escalabilidade Linear, Acesso rápido, Manipulação de
dados não estruturados Fonte: Soares, 2013

Dividida em 4 Categorias
Orientadas a Chave-valor
Orientadas a documentos
Orientadas a colunas (BigTable)
Orientada a grafos
Fonte: Soares, 2013

Fonte: Imasters

Bases de Dados orientadas a chave-valor

Uso do conceito de tabela hash (chave única identificando
um valor)
Simplicidade
Maior escalabilidade
Consultas O(1) independente do volume de dados
Problemas???
Fonte: Soares, 2013

Entendendo Tabela Hash
Exemplo:
Fonte: Prof. Thales Castro, 2011

Bases de Dados orientadas a Chave-Valor

Bases de Dados orientadas a documentos

Parecido com o modelo chave-valor, porém mais complexo
Contém todas as informações em um único documento
Consulta utilizando métodos avançados (MapReduce)
Livres de Esquemas
Utiliza identificadores únicos universais (UUID)
Usa JSON (JavaScript Object Notation) para intercâmbio de dados
Fonte: Soares, 2013

Fonte: Yuri Adams, 2011


Bases de Dados orientadas colunas (BigTable)

Keyspace = Databases / Schemas
Colum Family = Tabelas
Colunas = Registros
Um mega BD Chave-valor
Ponto forte: Velocidade e Escalabilidade
Ponto fraco: Complexidade na forma de armazenamento
Fonte: Soares, 2013

Fonte: Otávio Gonçalves, TDC 2012


Bases de Dados orientadas a grafos

Armazenamento em forma de grafos (nós e arcos)
Possui ACID (Atomicidade, Consistência, Isolamento,
Durabilidade)
Os dados do registros são armazenados nos vértices
Os relacionamentos são armazenados nas arestas
Muito utilizado em redes sociais
Utiliza a teoria dos grafos para obter informações
Flexibilidade em quantidade de atributos e longitude de
buscas
Relacionamentos fazem parte dos dados, não da estrutura
Fonte: Soares, 2013

Fonte: Eder Ignatowicz, 2012

Bases de Dados orientadas a grafos

Bases de Dados in-memory

Avanços na tecnologia de memórias
Aumento da capacidade associada a redução de custos
Necessidade de acelerar buscas, leitura e gravação em BD
Arquitetura distinta da que utiliza discos
Redução considerável do tempo de processamento
Bom para grandes volumes de dados
Usa memória principal para armazenamento
Objetivo: Responder em tempo real sem ter que perder tempo
acessando discos (LENTO)

Bases de Dados in-memory

Duas categorias principais:
Tecnologia In-memory pura
Carrega todos os dados na Memória RAM antes de
utilizar
Tecnologia in-memory just-in-time

Carrega somente os dados necessários para uma
consulta particular
Libera os dados de acordo com o padrão de uso
JIT + Bases de Dados em colunas = Maior
Desempenho

Por que na memória?
Barramento de alta
velocidade conectado
diretamente ao
processador
MEMÓRIA
X
DISCOS
Um ou mais barramentos
Fonte: IBM, 2012

Bases de Dados in-memory – Propriedades

ACID
Atomicidade: Transações atômicas (Se falha parte, falha o todo e
BD não se altera);
Consistência: Transações não alteram a consistência do BD
(Respeitar integridade – Ex: chaves);
Isolamento: Uma transação não pode interferir em outra (Paralelo
= Sequencial);
Durabilidade: Depois de confirmada uma transação deve
permanecer confirmada;
Fonte: WIKI


Armazenamento em colunas – Recuperação de Informação
Fonte: Soares, B. e Boscarioli, C., Modelo de Banco de Dados Colunar: Características, Aplicações e Exemplos de Sistemas, 2013







Bases de Dados in-memory – SAP HANA
Fonte: SAP, 2012

Fonte: SAP, 2012

Fonte: SAP, 2012

.:: O framework Hadoop
“The Apache Hadoop software library is a

framework that allows for the distributed
processing of large data sets across clusters
of computers using a simple Programming
model
(Divide to Conquer)
Origem do Hadoop
Lê um 1TB em 1 disco = 200 seg, em 100 discos em paralelo
= ~ 2 seg
Pesquisas do Google de novos métodos para acesso a
informação, tratamento de grandes volumes de dados e
processamento paralelo geraram 3 artigos
“The Google File System (GFS)”
“MapReduce: Simplified Data Processing on Large Clusters”
“Big Table: A Distributed Storage System for Structured Data”

The Google File System

Sistema de arquivos distribuído e escalável para aplicações com
grandes volumes de dados distribuídos
Tolerante a falhas e que pode ser executado a partir de hardware
convencional e barato
Entrega alto rendimento quando está associado a um grande número
de clientes

Map Reduce
Modelo de programação para processamento de grandes conjuntos de
dados
Programas escritos em estilo funcional são paralelizados
automaticamente
Executado em cluster de máquinas básicas
Responsável pelo particionamento dos dados de entrada, divisão entre
as máquinas do cluster, gerenciamento de comunicação e falhas

.:: O algoritmo MapReduce
Baseado no conceito de Dividir para Conquistar

GRID COMPUTING
Várias implementações existentes: Hadoop, Disco, Skynet,
FileMap e Greenplum;

.:: Algoritmo MapReduce
Dividido em 3 passos
1. Seleciona os dados de entrada

2. Aplica as duas operações em sequência (MAP/REDUCE)
3. Recupera os dados de saída e obtém a resposta

Divide uma tarefa em pedaços menores (MAP);
Envia as tarefas para os servidores (MAP);
Coleta os resultados das tarefas (REDUCE);
Processa os resultados obtendo uma resposta única (REDUCE)

Fonte: Fabiane Nardon, 2013 - QconSP




Big Table
Sistema de armazenamento distribuído para gestão de dados
estruturados
Muitos projetos do Google usando BigTable
Desenhado para ser escalável até ordem de petabytes através de
milhares de servidores
O artigo descreve detalhes da plataforma;
Várias bases de dados comerciais atualmente seguem características
desse modelo (CouchDB, MongoDB, Cassandra, Neo4J, Hypertable)

O que é ???
Inicialmente era uma implementação open source do MapReduce

A medida que o projeto foi amadurecendo foram incorporados
outros componentes para melhorar usabilidade e funcionalidade;
Hoje é tido como o Ecossistema completo para resolver de modo
eficiente e econômico a escalabilidade de dados
Open source, escrito em Java
Originalmente construído para a distribuição do projeto do motor
web Apache Nutch
Fonte: APACHE HADOOP

Composto pelos módulos:
• Hadoop Common
• Hadoop MapReduce
• Hadoop Distributed File System (HDFS)
• Hadoop YARN
Fonte: Apache Hadoop

Composto pelos módulos:

•Hadoop Common: The common utilities that support the other Hadoop
modules.
• Hadoop Distributed File System (HDFS™): A distributed file system

that provides high-throughput access to application data.
• Hadoop YARN: A framework for job scheduling and cluster resource

management.
• Hadoop MapReduce: A YARN-based system for parallel processing of

large data sets.
Fonte: Apache Hadoop

O que é HDFS ?
Sistema de arquivos distribuído

Alta tolerância a falhas
Projetado para hardware de baixo custo
Provê alta vazão de dados
Escalável
Portável
Baseado no Google File System

Como funciona HDFS ?

Como funciona o HDFS ?

Arquitetura cliente/servidor
Constituído por um NameNode e vários DataNodes
Os NameNodes executam as operações no sistema de arquivos,
coordena acesso a dados e metadados, mantém o sistema de
nomes
Os metadados são mantidos em RAM (Velocidade)
Organização hierárquica semelhante a outros sistemas de arquivos
Protocolos HDFS sobre TCP/IP e comunicação através de RPC

Como funciona o HDFS ?

Arquivos armazenados em blocos, maiores que os sistemas de
arquivos normais, normalmente blocos de 64 megas
Confiabilidade implementada através de replicação de dados entre
os DataNodes (3 ou mais)
Não se faz cache de dados devido ao tamanho dos blocos e
Streaming

Por que FRAMEWORK ??????
Por que Ecossistema ??????

Arquitetura Hadoop – Alto nível
Fonte: Hadoop in Practice, 2012


Fonte: http://opensource.com/life/14/8/intro-apache-hadoop-big-data


Hadoop - Limitações
Alta Disponibilidade
O problema do NameNode único e os problemas de 2 NameNodes
Segurança
Oferece um modelo de segurança, mas por default está desabilitado;
Se limita a segurança do HDFS (Permissões e Propriedades)
Por default, todos os demais serviços do Hadoop são totalmente “abertos”
Autenticação de clientes e Criptografia de dados devem ser configuradas a
parte (Complexidade)

Hadoop - Limitações
HDFS
Problemas com Alta Disponibilidade, Arquivos Pequenos e compressão
transparente
MapReduce
Arquitetura baseada em lotes, ruim para situações de tempo real
Tarefas que exigem sincronização global e compartilhamento de dados
mutáveis não são bons para MapReduce porque é uma arquitetura sem
compartilhamento;

Outro projetos associados ao Hadoop

Ambari™: A web-based tool for provisioning, managing, and monitoring Apache
Hadoop clusters which includes support for Hadoop HDFS, Hadoop MapReduce,
Hive, HCatalog, HBase, ZooKeeper, Oozie, Pig and Sqoop. Ambari also provides a
dashboard for viewing cluster health such as heatmaps and ability to view
MapReduce, Pig and Hive applications visually alongwith features to diagnose
their performance characteristics in a user-friendly manner.
Avro™: A data serialization system.
Cassandra™: A scalable multi-master database with no single points of failure.
Chukwa™: A data collection system for managing large distributed systems.
HBase™: A scalable, distributed database that supports structured data storage

for large tables.
Fonte: APACHE HADOOP, 2014

Outro projetos associados ao Hadoop

Hive™: A data warehouse infrastructure that provides data summarization and ad
hoc querying.
Mahout™: A Scalable machine learning and data mining library.
Pig™: A high-level data-flow language and execution framework for parallel

computation.
Spark™: A fast and general compute engine for Hadoop data. Spark provides a
simple and expressive programming model that supports a wide range of
applications, including ETL, machine learning, stream processing, and graph
computation.
ZooKeeper™: A high-performance coordination service for distributed applications.

Fonte: APACHE HADOOP, 2014

.:: 3° Dia – 19/09/2014
Análise de BIG DATA

.:: Análise de Big Data
O que é ?
“É o processo de examinar grandes quantidade de dados de

uma variedade de tipos para descobrir padrões ocultos,
correlações desconhecidas e outras informações de interesse
de forma que essas informações possam trazer vantagens
competitivas num ambiente de negócios”

Oportunidades e Desafios
Área de maior complexidade no universo de Big Data
Fortemente baseada em modelos estatísticos
Exige recursos humanos muito especializados

Fonte: EMC, 2013


.:: 4° Dia – 20/09/2014
Tendências de BIG DATA

.:: Novas Tendências
Mídias Sociais
Mobilidade
Big Data
Cloud
Fonte: Gartner, 2013
A convergências dessas 4 forças estão gerando:

Mudança de comportamento dos usuários
Criando novos modelos de negócios
Mudando a forma de decidir das empresas e de se relacionar
com os clientes
Consumidores mais ativos e com relacionamento mais
próximos das empresas, obrigando mudança de cultura
organizacional

Soma-se a isso novas tendências tecnológicas, sociais, econômicas

e de consumo
BYOD (Bring Your Own Device)
Gamificação
Crowdsourcing
Crowdfunding
Consumerização (Apontada pelo GARTNER como mais significativa nos próximos 10 anos)

Vídeo: Consumerização

Soma-se a isso novas tendências tecnológicas, sociais, econômicas

e de consumo
BYOD (Bring Your Own Device)
Gamificação (Ex. programa de milhagens)
Crowdsourcing
Crowdfunding
Consumerização (Apontada pelo GARTNER como mais significativa nos próximos 10 anos)

.:: Big Data tendências
Tim O´Reilly criador da Web 2.0 e CEO da editora O´Reilly publicou

através da conferência Strata as 5 grandes predições para o Big
Data
1ª Arquitetura Padrão para Big Data
Decisões de melhores ferramentas para determinados propósitos
Definição de regras apropriadas para BD Relacional, Hadoop, NoSQL e
in-memory
Métodos para combinar datawarehouses existentes e bases com
Hadoop


Data
2ª : Hadoop não será a única “oferta” profissional
Surgimento de novas ferramentas para processamento de grandes
volumes de dados
Ferramentas de nicho
Suporte aos dados através de uma linguagem universal estilo SQL
3ª : Unificação de Plataformas de Big Data
Objetivo de reduzir tempo de processamento em cluster Hadoop


Data
4ª: Governança como centro das atenções
Segurança dos dados
Consistências dos dados
Compliance regulatório
5ª: Surgimento de Soluções de Análise FIM a FIM
Fácil de utilizar
Universais

.:: Big data em 2020
Visão 360º
Insights = 10% estruturados + 90% interação humana
Engines de recomendação terão uma visão global de
preferências, sentimentos e estado atual dos indivíduos
Identificação de padrões futuros de forma independente

Posgraduacaoufrn Bigdata Set2014 140921144432 Phpapp01

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Posgraduacaoufrn Bigdata Set2014 140921144432 Phpapp01

Enviado por

Direitos autorais:

Formatos disponíveis

Especialização em

Disciplina: Big Data

1ᵒ Dia (17/09) – Apresentação e Motivação

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

3ᵒ Dia (19/09) – Análise de Big Data

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Apresentação e Motivação para

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: Bruno Domingues, Big Data com AWS e Intel, 2014

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: Bruno Domingues, Big Data com AWS e Intel, 2014

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Se divide em dois momentos

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Se divide em dois momentos

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Se divide em dois momentos

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: Dilbert, 2012 – Disponível em: http://dilbert.com/strips/comic/2012-07-29/

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

“A verdadeira questão não é que você está

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Não há unanimidade quanto a definição de Big Data, apesar de

Aumento na quantidade de Dados Científicos

Maior demanda por Computação Distribuída

Limitação dos Bancos de Dados Relacionais

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Aumento na quantidade de Dados Científicos

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Maior demanda por Computação Distribuída

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Maior demanda por Computação Distribuída

Computação distribuída significa pegar uma

Processamento X Distribuição (Divisão)

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Limitações dos Bancos de Dados Relacionais

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

O que mais se utiliza como definição remete ao trabalho de

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

From “Using Private Cloud to solve Big Data problems”, disponível em

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Os dados são de 3 tipos

Fonte: Joyanes, 2013

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: Joyanes, 2013

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: Joyanes, 2013

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: Joyanes, 2013

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

De onde vem os dados do Big Data?

– Web e Redes Sociais (clicks, cookies, twitter, facebook)

Fonte: Soares, 2012

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: Joyanes, 2013

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014

Fonte: Joyanes, 2013

Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014