Você está na página 1de 46

Big Data Open Source com Hadoop

Palestrante: Marcio Junior Vieira


marcio@ambientelivre.com.br
Realia!"o:

Marcio Junior Vieira

14 anos de experincia em informtica, vivncia em


desenvolvimento e anlise de sistemas de Gesto
empresarial.

Trabalhando com Software Livre desde !!! com servi"os de


cons#ltoria e treinamento.

Grad#ado em Tecnolo$ia em %nformtica&!!4' e p(s)


$rad#ado em Software Livre&!!*' ambos pela +,-..

-alestrante em diversos /on$ressos relacionados a Software


Livre tais como0 /12%SL%, S1L%S/, ,%SL, L3T%2143.5,
S,6, 768., /amp#s -art9, -entaho 6a9.

,#ndador da 3mbiente Livre.



#cosistema $mbiente
%ivre

&olabora!'es

Big Data ( Muito se )ala...


Big Data

: #m novo conceito se consolidando.

Grande arma;enamento de dados e maior


velocidade

Os * V+s

<elocidade , <ol#me , <ariedade e <alor



Volume

=odelos de -ersistncia da ordem


de -etab9tes, ;etab9tes
o# 9ottab9te&>8'.

Geralmente dados no
estr#t#rados.

+m ?ettab9te corresponde a
1.!!!.!!!.!!!.!!!.!!!.!!!.!!! &1!@A' o#
11B!*C1D!E1E411F!F44 & elevado a E!'
89tes.

Velocidade

-rocessamento de 6ados

3rma;enamento

3nalise de 6ados

Variedade

6ados semi)estr#t#rados

6ados no estr#t#rados

6iferentes fontes

6iferentes formatos

Valor

Tomada de 6eciso

8enefGcios

1bHetivo
do 2e$(cio.

O momento , agora

Onde podemos utiliar Big
Data -

-

Sistema de Recomenda!"o

... em geral

Redes Sociais

$nalise de Risco

/rIdito

Se$#ros

=ercado ,inanceiro

Dados #spaciais

/lima

%ma$ens

Trafe$o

=onitoramento

Big Data / B0

8i$ 6ata e #ma evol#"o do 8%, devem


caminhar H#ntos

6ata 4areho#ses so necessrios para


arma;enar dados estr#t#rados
Previs"o:

8% J /asos especGficos

8i$ 6ata J 3nalise $eral



Pro)issionais
2ovo profissional0 &ientista de Dados

&ompet1ncias do &ientista de
dados

,onte http0KKwww.datascientist.com.brK3rti$o.aspxL%6M/ompetenciaNdeN#mNcientistaNdeNdadosN#mNbreveNexemploNdeN#maNanaliseNdeNredes

De onde -

2erramentas de Big Data

Hadoop

1 3pache Oadoop I #m proHeto de software open)so#rce escrito


em 7ava. 5scalvel, confivel e com processamento distrib#Gdo.

,iles9stem 6istrib#ido.

%nspirado 1ri$inalmente pelo G,S e =ap.ed#ce da Goo$le


& =odelo de pro$rama"o =ap.ed#ce'

+tili;a)se de Oardware /om#m & /ommodit9 cl#ster comp#tin$ '

,rameworP para comp#ta"o distrib#Gda

infraestr#t#ra confivel capa; de lidar com falhas & hardware,


software, rede '

Motiva!'es $tuais

Grande Q#antidade & massiva ' de dados

6ados no cabem em #ma mQ#ina

6emoram m#ito para processar de forma serial

=Q#inas individ#ais falham

/omp#ta"o nas n#vens

5scalabilidade de aplica"Res

/omp#ta"o sob demanda



$ origem do 3ome

Se$#ndo 6o#$ /#ttin$, criador do Oadoop


S1 nome Q#e me# filho de# a #m elefante
amarelo de pelTcia. /#rto, relativamente fcil
de soletrar e pron#nciar, sem sentido, e no
#sado em o#tro l#$ar0 esses so os me#s
critIrios de nomea"oU

#cosistema

O 4ue , HD2S

Hadoop Filesystem

Um sistema de arquivos distribudo


que funciona em grandes aglomerados de
mquinas de commodities.

&aracter5sticas do HD2S

%nspirado em G,S

-roHetado para trabalhar com arQ#ivos m#ito


$randes e $randes vol#mes

5xec#tado em hardware com#m

Streamin$ de acesso a dados

.eplica"o e localidade

HD2S

-roHetado para escalar a petab9tes de


arma;enamento, e correr em cima dos
sistemas de arQ#ivos do sistema
operacional s#bHacente.

Fonte: http://hadoop.apache.org/docs/r1.2.1/hdfs_design.html

HD2S ( Replica!"o

6ados de entrada I copiado para O6,S I


dividido em blocos e cada blocos de dados I
replicado para vrias mQ#inas

MapReduce

: #m modelo de pro$rama"o desenhado


para processar $randes vol#mes de dados em
paralelo, dividindo o trabalho em #m conH#nto
de tarefas independentes

Programa!"o Distribu5da

MapReduce
Voc1 especi)ica o map 6...7 e reduce 6...7
)un!'es

map M &lista &P, v' )V lista &P, v''

red#ce M &P, lista &v' )V P, v'


O 2rame8or9 )a o resto

6ividir os dados

5xec#te vrios mappers sobre as divisRes

5mbaralhar os dados para os red#tores

5xec#te vrios red#tores

G#arde os res#ltados finais



MapReduce
Map Reduce

Modos de Opera!"o

Standalone & Local '

-se#do)distrib#ted

,#ll9)distrib#ted

Outros componentes

PIG - linguagem de fuxo de dados


e ambiente de execuo para explorar
grandes conjuntos de dados.Executado no !"# e grupos
$ap%educe.

Hive - &rma'(m de dados )data*are+ouse, distribudos.


-erencia os dados arma'enados no !"# e fornece uma
linguagem de consulta
baseada em #./ para consultar os dados.

Hbase 0 1anco de dados orientada


por colunas distribuda. 1ase usa o !"#
por sua subjacente de arma'enamento e suporta
os clculos de estilo lote usando $ap%educe e ponto consultas
)leituras aleat2rias,.

Outros componentes

ZooKeeper 0 #ervio de coordenao altamente


disponvel e distribudo. "ornece fun3es de
bloqueios distribudos que podem ser usados
para a construo de aplica3es distribudas.

Sqoop 0 "erramenta para a movimentao


e4ciente de dados entre bancos de dados
relacionais e !"#.

Mahout - &prendi'agem de mquina


escalvel5 de fcil uso comercial para
a construo de aplicativos inteligentes

Distribui!'es Hadoop

Open Source
3pache

&omercial
Open Source
) /lo#dera
) Oorto4orPs
) =ap.
) 34S =ap.ed#ce
) =icrosoft O6%nsi$ht &beta'

Possibilidades de :so

6ata4areOo#se

8#siness %ntelli$ence

3plica"Res analGticas

=Gdias Sociais

S#$esto de /ompras

3nalise preditiva

/ompras /oletivas

.ecomenda"Res

Modelo tradicional de :so

#mpresa :sando Hadoop

3ma;on

,acebooP

Goo$le

%8=

>ahoo

LinPedin

7oost

Last.fm

2ew >orP Times

-owerSet

<eoh

Twitter

5ba9

Hadoop no Brasil

&ontatos

e)mail0

marcio W ambientelivre.com.br

http0KKtwitter.comKambientelivre

Wambientelivre

WmarcioHvieira

8lo$
blo$s.ambientelivre.com.brKmarcio

,acebooPKambientelivre

&onvite

-entaho 6a9
1E de =aio J S-

,TSL ) 1B e 1C de Setembro

Software ,reedom 6a9


! de Setembro.

Você também pode gostar