Escolar Documentos
Profissional Documentos
Cultura Documentos
Ecosistema da Ambiente
Livre
Colaboraes com Eventos
Big Data - Muito se fala...
2005naapresentaodoPapaBentoXVI
2013naapresentaodoPapaFrancisco
Big Data
um novo conceito se consolidando.
Grande armazenamento de dados e maior
velocidade
Big Data
Os 4 V's
Velocidade, Volume, Variedade e Valor
Volume
Modelos de Persistncia da ordem
de Petabytes, zetabytes
ou yottabyte(YB).
Geralmente dados no
estruturados.
Um Zettabyte corresponde a
1.000.000.000.000.000.000.000 (10) ou
1180591620717411303424 (2 elevado a 70)
Bytes.
Velocidade
Processamento de Dados
Armazenamento
Analise de Dados
Variedade
Dados semi-estruturados
Dados no estruturados
Diferentes fontes
Diferentes formatos
Valor
Tomada de Deciso
Benefcios
Objetivo
do Negcio.
O novo V: Veracidade
Veracidade refere-se a confiabilidade dos dados. Com muitas
formas de grandes qualidades e preciso dos dados so menos
controlveis (basta pensar em posts no Twitter com hash tags,
abreviaes, erros de digitao e linguagem coloquial, bem como
a confiabilidade e a preciso do contedo), mas agora a
tecnologia permite-nos trabalhar com este tipo de dados .
O momento agora
Tomada de Deciso
1 em cada 3 gestores tomam deciso com base em
informaes que no confiam ou no tem
56% sentem sobrecarregados com a quantidade de
dados que gerenciam
60% acreditam que precisam melhorar captura e
entender informaes rapidamente.
83% apontam que BI & analytics fazem parte de
seus planos para aumentar a competitividade
fonte : Survey KPMG.
Onde usar Big Data ?
Sistemas de
recomendao
Redes Sociais
Onde usar Big Data ?
Analise de Risco
(Crdito, Seguros ,
Mercado Financeiro)
Dados Espaciais ( Clima ,
Imagens, Trafego,
Monitoramento)
Energia Fotovoltaica
(Medies , Estudos,
Resultados )
Big Data X BI
Big Data e uma evoluo do BI, devem
caminhar juntos
Data Warehouses so necessrios para
armazenar dados estruturados
Previso:
BI Casos especficos
Big Data Analise geral
Data Lake
Cases
O Profissional
data scientist
Fonte http://www.datascientist.com.br/Artigo.aspx?ID=Competencia_de_um_cientista_de_dados_um_breve_exemplo_de_uma_analise_de_redes
Tendncias
Tendncias
Citizen Data Scientist
De onde ?
Ferramentas de Big Data
Software Livre
Muitosdasmelhoresemais
conhecidasferramentasde
dadosdisponveisso
grandesprojetosdecdigo
aberto.Omaisconhecido
delesoHadoop,oque
estgerandotodauma
indstriadeserviose
produtosrelacionados.
Hadoop
O Apache Hadoop um projeto de software open-source escrito
em Java. Escalvel, confivel e com processamento distribudo.
Filesystem Distribudo
Inspirado Originalmente pelo GFS e MapReduce da Google
( Modelo de programao MapReduce)
Utiliza-se de Hardware Comum ( Commodity cluster computing )
Framework para computao distribuda
infraestrutura confivel capaz de lidar com falhas ( hardware,
software, rede )
Distribuies Hadoop
Open Source
Apache
Comercial
Open Source
- Cloudera
- HortoWorks
- MapR
- AWS MapReduce
Motivaes Atuais -
Hadoop
Grande quantidade ( massiva ) de dados
Dados no cabem em uma mquina
Demoram muito para processar de forma serial
Mquinas individuais falham
Computao nas nuvens
Escalabilidade de aplicaes
Computao sob demanda
Fundao Apache
Big Data = Apache = Open Source
Apache lider e Big Data!
~31 projetos de Big Data incluindo Apache
Hadoop e Spark
Ecosistema - Hadoop
O que HDFS
Hadoop Filesystem
Um sistema de arquivos distribudo
que funciona em grandes aglomerados de
mquinas de commodities.
Caractersticas do HDFS
Projetado para trabalhar com arquivos muito
grandes e grandes volumes
Executado em hardware comum
Streaming de acesso a dados
Replicao e localidade
Projetado para escalar a petabytes de
armazenamento, executa em cima dos sistemas
de arquivos do sistema operacional subjacente.
Fonte:http://hadoop.apache.org/docs/r1.2.1/hdfs_design.html
HDFS - Replicao
Dados de entrada copiado para HDFS
dividido em blocos e cada blocos de dados
replicado para vrias mquinas
MapReduce
um modelo de programao desenhado
para processar grandes volumes de dados em
paralelo, dividindo o trabalho em um conjunto
de tarefas independentes
Programao Distribuda
MapReduce
Map Reduce
HBase
Banco de dados orientada por colunas
distribuda. HBase usa o HDFS por sua
subjacente de armazenamento e suporta os
clculos de estilo lote usando MapReduce e
ponto consultas (leituras aleatrias)
Hive
Armazm de dados (datawarehouse)
distribudos. Gerencia os dados armazenados
no HDFS e fornece uma linguagem de consulta
baseada em SQL para consultar os dados.
PIG
PIG - linguagem de fluxo de dados
e ambiente de execuo para explorar
grandes conjuntos de dados.Executado no
HDFS e grupos MapReduce.
Mahout
O objetivo primrio de criar algoritmos de
aprendizagem por mquina escalveis de fcil uso
comercial para a construo de aplicativos inteligentes
O Mahout contm implementaes para
armazenamento em cluster, categorizao, CF, e
programao evolucionria. Alm disso, quando
prudente, ele usa a biblioteca Apache Hadoop para
permitir que o Mahout escale de forma efetiva na
nuvem
Diversidade de algortimos
ZooKeeper
Sqoop
Ferramenta para a movimentao eficiente de
dados entre bancos de dados relacionais e
HDFS.
Apache Spark
100x mais rpido que Hadoop
Programao com Scala,
Java, Python ou R
Apache Cassandra
um tipo de banco nosql que originalmente
foi criado pelo Facebook e que atualmente
mantido pela Apache e outras empresas.
Banco de dados distribudo baseado no
modelo BigTable do Google e no sistema de
armazenamento Dynamo da Amazon.com.
Apache Hama
Apache HamaTM uma estrutura para anlise de
Big Data, que usa o modelo de computao
paralela Synchronous Parallel (BSP), que foi
criada em 2012 como um projeto de nvel superior
da Apache Software Foundation.
Ele fornece no s modelo de programao BSP
pura, mas tambm vrtice
e neurnio modelos de
programao centrada, inspirado
por Pregel e DistBelief do Google.
Apacha CounchDB
um banco de dados de cdigo-aberto
que foca na facilidade de uso e na filosofia
de ser "um banco de dados que abrange a Web"
NoSQL, usa JSON para armazenar os dados,
JavaScript como sua linguagem de consulta usando o
MapReduce, e HTTP como API1 .
Facilidade na replicao.
Cada banco de dados uma coleo de documentos
independentes, e cada documento mantm seus
prprios dados e esquemas.
MongoDB
MongoDB uma aplicao open source de
alta performance, sem esquemas, orientado a
documentos. Foi escrito na linguagem de
programao C++. Alm de orientado a
documentos, formado por um conjunto de
documentos JSON
Titan Grafh
um banco de dados
grfico escalvel otimizado
para armazenar e consultar
grficos contendo centenas de bilhes de vrtices e
arestas distribudos atravs de um cluster multi-mquina.
Pode suportar milhares de usurios simultneos
executando traversals grfico complexos em tempo real.
Suporta aos storages Apache Cassandra, Apache
HBase , MapR Tables, Oracle BerkeleyDB (local)
Neo4J
um banco de dados grfico open-source,
implementado em Java. Integrado, totalmente
com transacional e persistncia Java.
Armazena dados estruturados de grafos ao
invs de tabelas.
Neo4j o banco de dados grfico mais
popular.
Soluo de BI Open Source.
Community Edition
Soluo completa de BI e BA ( ETL,
Reporting, Minerao, OLAP e Dashbards,
etc)
Pentaho Orquestrando
Hadoop
Pentaho Data Integration
Sparkl
CTools e Pentaho Data Integration (PDI)
Desenvolve frontend comk CTools
Implementamos backend com PDI
Modelo tradicional de Uso
Empresa Usando Hadoop
Amazon Joost
Facebook Last.fm
Google New York Times
IBM PowerSet
Yahoo Veoh
Linkedin Twitter
Ebay
Big Data no Brasil e com
Hadoop
Principais desafios
O Big Data no envolve s mudana de tecnologia, envolve
adaptao de processos e treinamento relacionado mudana de
gesto e analise de dados ( MERITALK BIG DATA EXCHANGE, 2013)
A maioria dos lideres no seba lidar com essa grande variedade e
quantidade de informaes, e no tem conhecimento dos benefcios
que uma analise bem feita destas dados poderia trazer ao seu
negocio( COMPUTERWORLD, 2012)
Falta da cultura: a maioria das empresas no fazem um bom trabalho
com as informaes que j tem.
Desafios dos Os 5 V !
Privacidade, A identidade do usurio, mesmo preservada pode ser
buscada... ( Marco Civil da Internet )
Recomendaes
Comece com o problema , e no com os
dados
Compartilhe dados para receber dados
Suporte gerencial e executivo
Oramento suficiente
Melhores parceiros e fornecedores
Big Data
revolucionrio, mas no
sabemos o quanto...
Contatos
e-mail:
marcio @ ambientelivre.com.br
http://twitter.com/ambientelivre
@ambientelivre
@marciojvieira
Blog
blogs.ambientelivre.com.br/marcio
Facebook/ambientelivre