Você está na página 1de 70

Cientista de Dados Dominando o Big Data

com Software Livre

Palestrante: Marcio Junior Vieira


marcio@ambientelivre.com.br
Marcio Junior Vieira
15 anos de experincia em informtica, vivncia em desenvolvimento e
anlise de sistemas de Gesto empresarial.

Trabalhando com Software Livre desde 2000 com servios de consultoria e
treinamento.
Graduado em Tecnologia em Informtica(2004) e ps-graduado em
Software Livre(2005) ambos pela UFPR.
Palestrante em diversos Congressos relacionados a Software Livre tais
como: CONISLI, SOLISC, FISL, LATINOWARE, SFD, JDBR, Campus Party,
Pentaho Day.
Organizador Geral do Pentaho Day 2015 e apoio nas edies 2013 e 2014.
Fundador da Ambiente Livre Tecnologia.
Instrutor de Big Data - Hadoop e Pentaho


Ecosistema da Ambiente
Livre


Colaboraes com Eventos


Big Data - Muito se fala...


2005naapresentaodoPapaBentoXVI
2013naapresentaodoPapaFrancisco

Big Data
um novo conceito se consolidando.
Grande armazenamento de dados e maior
velocidade


Big Data


Os 4 V's
Velocidade, Volume, Variedade e Valor


Volume
Modelos de Persistncia da ordem
de Petabytes, zetabytes
ou yottabyte(YB).
Geralmente dados no
estruturados.
Um Zettabyte corresponde a
1.000.000.000.000.000.000.000 (10) ou
1180591620717411303424 (2 elevado a 70)
Bytes.

Velocidade
Processamento de Dados
Armazenamento
Analise de Dados


Variedade
Dados semi-estruturados
Dados no estruturados
Diferentes fontes
Diferentes formatos


Valor
Tomada de Deciso
Benefcios
Objetivo
do Negcio.


O novo V: Veracidade
Veracidade refere-se a confiabilidade dos dados. Com muitas
formas de grandes qualidades e preciso dos dados so menos
controlveis (basta pensar em posts no Twitter com hash tags,
abreviaes, erros de digitao e linguagem coloquial, bem como
a confiabilidade e a preciso do contedo), mas agora a
tecnologia permite-nos trabalhar com este tipo de dados .


O momento agora


Tomada de Deciso
1 em cada 3 gestores tomam deciso com base em
informaes que no confiam ou no tem
56% sentem sobrecarregados com a quantidade de
dados que gerenciam
60% acreditam que precisam melhorar captura e
entender informaes rapidamente.
83% apontam que BI & analytics fazem parte de
seus planos para aumentar a competitividade
fonte : Survey KPMG.


Onde usar Big Data ?
Sistemas de
recomendao

Redes Sociais


Onde usar Big Data ?
Analise de Risco
(Crdito, Seguros ,
Mercado Financeiro)
Dados Espaciais ( Clima ,
Imagens, Trafego,
Monitoramento)
Energia Fotovoltaica
(Medies , Estudos,
Resultados )

Big Data X BI
Big Data e uma evoluo do BI, devem
caminhar juntos
Data Warehouses so necessrios para
armazenar dados estruturados
Previso:
BI Casos especficos
Big Data Analise geral


Data Lake


Cases


O Profissional
data scientist

Novo profissional: Cientista de Dados



Cientista de dados
Gartner: necessitaremos de 4,4 Milhes de
especialistas at 2015 ( 1,9M Amrica do Norte, 1,2M
Europa Ocidental e 1,3M sia/Pacifico e Amrica
Latina)
Estima-se que apenas um tero disso ser preenchido.
( Gartner )
Brasil dever abrir 500 mil vagas para profissionais
com habilidades em Big Data
As universidades do Brasil ainda no oferecem
graduao para formao de cientistas de dados

Competncias


Fonte http://www.datascientist.com.br/Artigo.aspx?ID=Competencia_de_um_cientista_de_dados_um_breve_exemplo_de_uma_analise_de_redes
Tendncias


Tendncias
Citizen Data Scientist


De onde ?


Ferramentas de Big Data


Software Livre
Muitosdasmelhoresemais
conhecidasferramentasde
dadosdisponveisso
grandesprojetosdecdigo
aberto.Omaisconhecido
delesoHadoop,oque
estgerandotodauma
indstriadeserviose
produtosrelacionados.
Hadoop

O Apache Hadoop um projeto de software open-source escrito
em Java. Escalvel, confivel e com processamento distribudo.

Filesystem Distribudo
Inspirado Originalmente pelo GFS e MapReduce da Google
( Modelo de programao MapReduce)

Utiliza-se de Hardware Comum ( Commodity cluster computing )
Framework para computao distribuda

infraestrutura confivel capaz de lidar com falhas ( hardware,
software, rede )


Distribuies Hadoop
Open Source
Apache
Comercial
Open Source
- Cloudera
- HortoWorks
- MapR
- AWS MapReduce


Motivaes Atuais -
Hadoop
Grande quantidade ( massiva ) de dados
Dados no cabem em uma mquina
Demoram muito para processar de forma serial
Mquinas individuais falham
Computao nas nuvens
Escalabilidade de aplicaes
Computao sob demanda


Fundao Apache
Big Data = Apache = Open Source
Apache lider e Big Data!
~31 projetos de Big Data incluindo Apache
Hadoop e Spark


Ecosistema - Hadoop


O que HDFS
Hadoop Filesystem
Um sistema de arquivos distribudo
que funciona em grandes aglomerados de
mquinas de commodities.


Caractersticas do HDFS
Projetado para trabalhar com arquivos muito
grandes e grandes volumes
Executado em hardware comum
Streaming de acesso a dados
Replicao e localidade
Projetado para escalar a petabytes de
armazenamento, executa em cima dos sistemas
de arquivos do sistema operacional subjacente.


Fonte:http://hadoop.apache.org/docs/r1.2.1/hdfs_design.html

HDFS - Replicao
Dados de entrada copiado para HDFS
dividido em blocos e cada blocos de dados
replicado para vrias mquinas


MapReduce
um modelo de programao desenhado
para processar grandes volumes de dados em
paralelo, dividindo o trabalho em um conjunto
de tarefas independentes


Programao Distribuda


MapReduce
Map Reduce


HBase
Banco de dados orientada por colunas
distribuda. HBase usa o HDFS por sua
subjacente de armazenamento e suporta os
clculos de estilo lote usando MapReduce e
ponto consultas (leituras aleatrias)


Hive
Armazm de dados (datawarehouse)
distribudos. Gerencia os dados armazenados
no HDFS e fornece uma linguagem de consulta
baseada em SQL para consultar os dados.


PIG
PIG - linguagem de fluxo de dados
e ambiente de execuo para explorar
grandes conjuntos de dados.Executado no
HDFS e grupos MapReduce.


Mahout
O objetivo primrio de criar algoritmos de
aprendizagem por mquina escalveis de fcil uso
comercial para a construo de aplicativos inteligentes
O Mahout contm implementaes para
armazenamento em cluster, categorizao, CF, e
programao evolucionria. Alm disso, quando
prudente, ele usa a biblioteca Apache Hadoop para
permitir que o Mahout escale de forma efetiva na
nuvem
Diversidade de algortimos


ZooKeeper

Servio de coordenao altamente disponvel


e distribudo. Fornece funes de bloqueios
distribudos que podem ser usados para a
construo de aplicaes distribudas.


Sqoop
Ferramenta para a movimentao eficiente de
dados entre bancos de dados relacionais e
HDFS.


Apache Spark
100x mais rpido que Hadoop
Programao com Scala,
Java, Python ou R


Apache Cassandra
um tipo de banco nosql que originalmente
foi criado pelo Facebook e que atualmente
mantido pela Apache e outras empresas.
Banco de dados distribudo baseado no
modelo BigTable do Google e no sistema de
armazenamento Dynamo da Amazon.com.


Apache Hama
Apache HamaTM uma estrutura para anlise de
Big Data, que usa o modelo de computao
paralela Synchronous Parallel (BSP), que foi
criada em 2012 como um projeto de nvel superior
da Apache Software Foundation.
Ele fornece no s modelo de programao BSP
pura, mas tambm vrtice
e neurnio modelos de
programao centrada, inspirado
por Pregel e DistBelief do Google.

Apacha CounchDB
um banco de dados de cdigo-aberto
que foca na facilidade de uso e na filosofia
de ser "um banco de dados que abrange a Web"
NoSQL, usa JSON para armazenar os dados,
JavaScript como sua linguagem de consulta usando o
MapReduce, e HTTP como API1 .
Facilidade na replicao.
Cada banco de dados uma coleo de documentos
independentes, e cada documento mantm seus
prprios dados e esquemas.


MongoDB
MongoDB uma aplicao open source de
alta performance, sem esquemas, orientado a
documentos. Foi escrito na linguagem de
programao C++. Alm de orientado a
documentos, formado por um conjunto de
documentos JSON


Titan Grafh
um banco de dados
grfico escalvel otimizado
para armazenar e consultar
grficos contendo centenas de bilhes de vrtices e
arestas distribudos atravs de um cluster multi-mquina.
Pode suportar milhares de usurios simultneos
executando traversals grfico complexos em tempo real.
Suporta aos storages Apache Cassandra, Apache
HBase , MapR Tables, Oracle BerkeleyDB (local)


Neo4J
um banco de dados grfico open-source,
implementado em Java. Integrado, totalmente
com transacional e persistncia Java.
Armazena dados estruturados de grafos ao
invs de tabelas.
Neo4j o banco de dados grfico mais
popular.


Soluo de BI Open Source.
Community Edition
Soluo completa de BI e BA ( ETL,
Reporting, Minerao, OLAP e Dashbards,
etc)


Pentaho Orquestrando
Hadoop


Pentaho Data Integration


Sparkl
CTools e Pentaho Data Integration (PDI)
Desenvolve frontend comk CTools
Implementamos backend com PDI




Modelo tradicional de Uso


Empresa Usando Hadoop
Amazon Joost
Facebook Last.fm
Google New York Times
IBM PowerSet
Yahoo Veoh
Linkedin Twitter
Ebay

Big Data no Brasil e com
Hadoop


Principais desafios
O Big Data no envolve s mudana de tecnologia, envolve
adaptao de processos e treinamento relacionado mudana de
gesto e analise de dados ( MERITALK BIG DATA EXCHANGE, 2013)
A maioria dos lideres no seba lidar com essa grande variedade e
quantidade de informaes, e no tem conhecimento dos benefcios
que uma analise bem feita destas dados poderia trazer ao seu
negocio( COMPUTERWORLD, 2012)
Falta da cultura: a maioria das empresas no fazem um bom trabalho
com as informaes que j tem.
Desafios dos Os 5 V !
Privacidade, A identidade do usurio, mesmo preservada pode ser
buscada... ( Marco Civil da Internet )


Recomendaes
Comece com o problema , e no com os
dados
Compartilhe dados para receber dados
Suporte gerencial e executivo
Oramento suficiente
Melhores parceiros e fornecedores


Big Data

Big Data hoje o que era a


Linux em 1991.
Sabemos que ser algo

revolucionrio, mas no
sabemos o quanto...


Contatos
e-mail:
marcio @ ambientelivre.com.br
http://twitter.com/ambientelivre
@ambientelivre
@marciojvieira
Blog
blogs.ambientelivre.com.br/marcio
Facebook/ambientelivre

Você também pode gostar