Escolar Documentos
Profissional Documentos
Cultura Documentos
ARQUITETURA DE NUVEM
Setembro/2014
.:: Programação ::.
Fonte: Francis X. Diebold: A Personal Perspective on the Origin(s) and Development of “Big Data”: The Phenomenon, the Term, and the
Discipline, August 2012
Fonte: Francis X. Diebold: A Personal Perspective on the Origin(s) and Development of “Big Data”: The Phenomenon, the Term, and the
Discipline, August 2012
Dilbert, 2012
Fonte: IDC. "Big Data Analytics: Future Architectures, Skills and Roadmaps for the CIO," September 2011
FONTE: EMC
Fonte: EMC
Fonte: http://www.inf.ufsc.br/~frank/INE5418/1.Fundamentos-Slides.pdf
Fonte: IMD
Fonte: IBM
Valor
Veracidade
Viabilidade
Fonte: http://cio.uol.com.br/opiniao/2012/05/11/o-caos-conceitual-e-os-5-vs-do-big-data/
Fonte: “Big Data and the Web: Algorithms for Data Intensive Scalable Computing”, Ph.D Thesis, Gianmarco
– Estruturados
– Semi-estruturados
– Não estruturados
Estruturados
– Dados que possuem esquema de campos fixos
– Formato bem definido
– Normalmente armazenado em BD Relacionais
– Conhecimento prévio da estrutura dos dados
– São gerados em uma ordem especificada
Semi-estruturados
– Possuem um fluxo lógico
– O formato pode ser bem definido, mas não necessariamente é fixo
– Não possui fácil compreensão por parte do usuário leigo
– Tem como característica marcante o uso de etiquetas e marcadores
para separar elementos dos dados
– Regras complexas para manipulação dos dados
Não estruturados
– Sem tipo predefinido;
– Não possuem estrutura uniforme (ex. Documentos, objetos);
– Pouco ou nenhum controle sobre eles;
– Dificuldade de “manipulação” para extração de informação
Dados da WEB
– Maior fonte de Big Data utilizada na atualidade;
– Facilidade para mapear comportamento e fazer predição
– Possui conhecimento importante para tomada de decisão pelas
empresas
– Gera informação objetiva e de impacto, que é dificil de se obter sem
uma comunicação direta
– Possibilidade de captura de diversos tipos de eventos (Compras,
visualização de produtos e vídeos, buscas etc)
Dados de Texto
– Tipo mais comum e “simples” de dados
– Origina-se praticamente em todas as fontes de dados do Big Data
– Pode ser tratado como um tipo de dado “Estruturado”
– Estruturado + Muitas fontes = DIFICULDADE
– Possui ferramentas e aparato científico bem estruturado para análise
– Processamento de linguagem natural
– Análise sintática
– Mineração de texto
Dados de Sensores
– Peças chave da Internet das Coisas
– Monitoramento Autônomo e Ubíquo
– Complexidade de manipulação dos sensores
– Captura muito influenciada por fatores externos (Ex. Delay)
– Dados normalmente estruturados, mas já há redes de sensores com
dados não estruturados
Dados de Geolocalização
– Localização e Tempo são dois atributos de grande VALOR (Ex. Google
Location History)
– Possibilildades diversas para desenvolvimento de aplicações
– Muito sensível para o Big Data em Volume e Velocidade
– Binômio crítico com relação a questão de privacidade
Integração
Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014
.:: Palavra-chave – Mercado / Negócios
Estratégia
Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014
.:: E a gestão?
O que muda?
TOMADA DE
DECISÃO
Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014
.:: E a gestão?
BI
x
BIG DATA
Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014
.:: E a gestão?
BI
BI x BIG DATA
Dados transacionais Dados transacionais + outros
dados
ROLLS ROYCE
– Inclusão de sensores nos motores
– Informação em tempo real de peças
– Vantagem competitiva: Substituição de produto por SERVIÇO
GOOGLE - FluTrends
Fonte: GOOGLE
GOOGLE - FluTrends
Fonte: GOOGLE
Fonte: CONTROL4.COM
• Bancos de Dados
• Oracle NoSQL
• Apache Hbase
• Apache Cassandra
• Apache Hive (ETL)
• Integração de Dados
• Oracle Big Data Connectors, Oracle Loader for Hadoop, Oracle
Data Integrator
• Análises Estatísticas
• Oracle Enterprise R
Bases de Dados
SQL
NoSQL (Not only SQL)
In-memory
Legadas
Componentes do Hadoop
Surgimento de diversas distribuições devido a plataforma ser de código
aberto
Necessidade de definir um caminho a seguir
Integração de Dados
Movimentação de dados brutos (DB1 + DB2 = DBNew)
Replicação de dados (Sincronismo)
Federação de dados (Vários dados separados = Um único dado)
BD Relacionais
Largamente utilizados atualmente pelas empresas
Utiliza relações (tabelas) como elementos básicos
Tabelas compostas por linhas e colunas
Faz uso de restrições para manutenção de integridade
(chaves)
Utiliza NORMALIZAÇÃO
SQL é a linguagem de consulta
Os SGBDs relacionais implementam outras funções
(controle de concorrência, segurança, controle de
transações, recuperação de falhas etc) Fonte: Soares, 2013
BD Relacionais – Limitações
ESCALABILIDADE
é a maior
BD Relacionais – Limitações
BD BD
Aplicação
BD BD BD
BDs No SQL
BDs No SQL
De volta ao passado… (Sistemas de Arquivos)
Estrutura mais flexível
Melhor adaptado para questões de escalabilidade
Não veio para acabar com o Modelo Relacional
Abandonou a NORMALIZAÇÃO
São livres de esquemas de tabelas e sem JOINs
Iniciou em 2004 Big Table (Google), 2007 Dynamo
(Amazon), 2008 Cassandra (Facebook)
Escalabilidade Linear, Acesso rápido, Manipulação de
dados não estruturados Fonte: Soares, 2013
Dividida em 4 Categorias
Orientadas a Chave-valor
Orientadas a documentos
Orientadas a colunas (BigTable)
Orientada a grafos
Fonte: Imasters
Exemplo:
Barramento de alta
velocidade conectado
diretamente ao
processador
MEMÓRIA
X
DISCOS
Um ou mais barramentos
Fonte: WIKI
Fonte: Soares, B. e Boscarioli, C., Modelo de Banco de Dados Colunar: Características, Aplicações e Exemplos de Sistemas, 2013
Fonte: Soares, B. e Boscarioli, C., Modelo de Banco de Dados Colunar: Características, Aplicações e Exemplos de Sistemas, 2013
Fonte: Soares, B. e Boscarioli, C., Modelo de Banco de Dados Colunar: Características, Aplicações e Exemplos de Sistemas, 2013
Fonte: Soares, B. e Boscarioli, C., Modelo de Banco de Dados Colunar: Características, Aplicações e Exemplos de Sistemas, 2013
(Divide to Conquer)
Fonte: https://under-linux.org/entry.php?b=2603
Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014
.:: O framework Hadoop
Origem do Hadoop
Lê um 1TB em 1 disco = 200 seg, em 100 discos em paralelo
= ~ 2 seg
Pesquisas do Google de novos métodos para acesso a
informação, tratamento de grandes volumes de dados e
processamento paralelo geraram 3 artigos
“The Google File System (GFS)”
“MapReduce: Simplified Data Processing on Large Clusters”
“Big Table: A Distributed Storage System for Structured Data”
Map Reduce
Modelo de programação para processamento de grandes conjuntos de
dados
Programas escritos em estilo funcional são paralelizados
automaticamente
Executado em cluster de máquinas básicas
Responsável pelo particionamento dos dados de entrada, divisão entre
as máquinas do cluster, gerenciamento de comunicação e falhas
Fonte: https://under-linux.org/entry.php?b=2603
Dividido em 3 passos
Fonte: https://under-linux.org/entry.php?b=2603
Fonte: https://under-linux.org/entry.php?b=2603
Big Table
Sistema de armazenamento distribuído para gestão de dados
estruturados
Muitos projetos do Google usando BigTable
Desenhado para ser escalável até ordem de petabytes através de
milhares de servidores
O artigo descreve detalhes da plataforma;
Várias bases de dados comerciais atualmente seguem características
desse modelo (CouchDB, MongoDB, Cassandra, Neo4J, Hypertable)
O que é ???
• Hadoop Common
• Hadoop MapReduce
• Hadoop Distributed File System (HDFS)
• Hadoop YARN
O que é HDFS ?
Fonte: http://opensource.com/life/14/8/intro-apache-hadoop-big-data
Hadoop - Limitações
Alta Disponibilidade
O problema do NameNode único e os problemas de 2 NameNodes
Segurança
Oferece um modelo de segurança, mas por default está desabilitado;
Se limita a segurança do HDFS (Permissões e Propriedades)
Por default, todos os demais serviços do Hadoop são totalmente “abertos”
Autenticação de clientes e Criptografia de dados devem ser configuradas a
parte (Complexidade)
Hadoop - Limitações
HDFS
Problemas com Alta Disponibilidade, Arquivos Pequenos e compressão
transparente
MapReduce
Arquitetura baseada em lotes, ruim para situações de tempo real
Tarefas que exigem sincronização global e compartilhamento de dados
mutáveis não são bons para MapReduce porque é uma arquitetura sem
compartilhamento;
Spark™: A fast and general compute engine for Hadoop data. Spark provides a
simple and expressive programming model that supports a wide range of
applications, including ETL, machine learning, stream processing, and graph
computation.
O que é ?
Oportunidades e Desafios
Mobilidade
Big Data
Cloud
Fonte: Gartner, 2013
Especialização em ARQUITETURA DE NUVEM – Big Data – Set/2014
.:: Novas Tendências
Vídeo: Consumerização
Visão 360º
Insights = 10% estruturados + 90% interação humana
Engines de recomendação terão uma visão global de
preferências, sentimentos e estado atual dos indivíduos
Identificação de padrões futuros de forma independente