Apache Hadoop

Apache Hadoop
Apache Hadoop
Conceitos tericos e prticos, evoluo
e novas possibilidades
Daniel Cordeiro
Departamento de Cincia da Computao

Instituto de Matemtica e Estatstica
Universidade de So Paulo
Baseado no curso apresentado no CSBC12 pelos professores

Alfredo Goldman e Fabio Kon (USP);
Francisco Pereira Jr., Ivanilton Polato e Rosangela de Ftima Pereira (UTFPR)
ERAD/SP 25 de julho de 2012

Apache Hadoop
Introduo
Motivao
Uso potencial em aplicaes BigData

Conjuntos de dados na ordem de petabytes
Computao intensiva sobre os dados
Computao paralela no trivial

Diviso das subtarefas
Escalonamento das subtarefas
Balanceamento de carga
Daniel Cordeiro (IME/USP) danielc@ime.usp.br ERAD/SP 25 de julho de 2012 2 / 88

Apache Hadoop
Introduo
Motivao
Apache Hadoop
Hadoop remove a complexidade da computao de alto
desempenho
Custo eficiente
Mquinas comuns
Rede comum
Tolerncia a falhas automtica
Poucos administradores
Facilidade de uso
Poucos programadores

Apache Hadoop
Introduo
Hadoop
Arcabouo para processamento e armazenamento de dados em

larga escala:
Cdigo aberto
Implementado em Java
Inspirado no GFS e MapReduce do Google
Projeto top-level da Fundao Apache
Tecnologia recente, porm j muito utilizada

Apache Hadoop
Introduo
Histrico
* http://nutch.apache.org/
** http://labs.google.com/papers/mapreduce.html
http://labs.google.com/papers/gfs.html

Apache Hadoop
Introduo
Origem (I)
2003 Google publica artigo do GFS (SOSP03)

2004 Google publica artigo do MapReduce (OSDI04)
2005 Doug Cutting cria uma verso do MapReduce para o
projeto Nutch
2006 Hadoop se torna um subprojeto do Apache Lucene

Apache Hadoop
Introduo
Origem (II)
2007 Yahoo! Inc. se torna o maior contribuidor e utilizador

do projeto (aglomerado com mais de 1.000 ns)
2008 Hadoop deixa a tutela do projeto Lucene e se
transforma em um projeto top-level da Apache
2010 Facebook anuncia o maior aglomerado Hadoop do
mundo (mais de 2.900 ns e 30 petabytes de dados)
2011 Apache disponibiliza a verso 1.0.0

Apache Hadoop
Introduo
Quem utiliza?

Apache Hadoop
Introduo
The New York Times
Published: May 2, 1892

Copyright The New York Times
http://open.blogs.nytimes.com/2007/11/01/self-service-prorated-super-computing-fun/
Apache Hadoop
Introduo
The New York Times
Em 2007, o jornal The New York Times converteu para PDF

todos seus os artigos publicados entre 1851 e 1980
Cada artigo composto por vrias imagens previamente
digitalizadas que precisavam ser posicionadas e
redimensionadas de forma coerente pra a criao do PDF
O Hadoop foi utilizado para converter 4 TB de imagens TIFF
em 11 milhes de arquivos PDF
100 instncias EC2 da Amazon foram utilizadas durante
24 horas para gerar 1,5 TB de arquivos PDF, a um custo de
aproximadamente US$ 240,00

Apache Hadoop
Introduo
Onde o Hadoop utilizado?
Soluo para:
Data warehouse
Business intelligence
Aplicaes analticas
Mdias sociais

Apache Hadoop
Introduo
Muitas possibilidades...

Apache Hadoop
Introduo
Vantagens
Por que usar Hadoop?

Cdigo aberto
Econmico
Robusto
Escalvel
Foco na regra de negcio

Apache Hadoop
Introduo
Vantagens
Vantagem I
Cdigo Aberto
Comunidade ativa
Apoio de grandes corporaes
Correes de erros frequentes
Constante evoluo do arcabouo

Apache Hadoop
Introduo
Vantagens
Vantagem II
Econmico
Software livre
Uso de mquinas e redes convencionais
Aluguel de servios disponveis na nuvem:
Amazon Elastic MapReduce
Google App Engine MapReduce
etc.

Apache Hadoop
Introduo
Vantagens
Vantagem III
Robusto
Se em 1 mquina h probabilidade de haver falhas...
Tempo mdio entre falhas para 1 n: 3 anos
Tempo mdio entre falhas para 1.000 ns: 1 dia
Estratgias
Replicao dos dados
Armazenamento de metadados

Apache Hadoop
Introduo
Vantagens
Vantagem IV
Escalvel
Permite facilmente adicionar mquinas ao aglomerado
Adio no implica na alterao do cdigo-fonte
Limitao apenas relacionada a quantidade de recursos
disponveis

Apache Hadoop
Introduo
Vantagens
Vantagem V
Foco na regra de negcio

Hadoop realiza todo o trabalho duro
Desenvolvedores podem focar apenas na abstrao do
problema

Apache Hadoop
Introduo
Desvantagens
Desvantagens
nico n mestre
Ponto nico de falha
Pode impedir o escalonamento
Dificuldade das aplicaes paralelas

Problemas no paralelizveis
Processamento de arquivos pequenos
Muito processamento em um pequeno conjunto de dados

Apache Hadoop
Suposies
Suposies do projeto (I)
Problemas
Os dados que sero processados no cabem em um n
Cada n composto por hardware comum
Falhas podem (e iro) acontecer
Ideias e solues do Apache Hadoop

Sistema de arquivos distribudo
Replicao interna
Recuperao de falhas automtica

Apache Hadoop
Suposies
Suposies do projeto (II)
Problemas
Mover dados caro (largura de banda pequena)
Mover computao barato
Programao paralela e distribuda difcil
Ideias e solues do Apache Hadoop

Mover a computao para onde esto os dados
Escrever programas que so fceis de se distribuir
Paralelismo de dados utilizando conceitos de linguagem
funcional

Apache Hadoop
O modelo MapReduce
O exemplo clssico: contagem de palavras
Word Count
Gerar uma lista de frequncia das palavras em um conjunto grande
de arquivos: ordem de terabytes!
Minicursos ERAD 2012 2012, 4

ERAD 2012 em Campinas ERAD, 4
Campinas, 2
Word Count em, 1
Minicursos Ha- Hadoop, 1
doop ERAD 2012 Minicursos, 2
ERAD 2012 Campinas SP SP, 1

Apache Hadoop
O modelo MapReduce
Em um mundo no paralelo
Assuma que a mquina tem memria suficiente (> 1 TB !)
word-count() {
for each document d {
for each word w in d {
w_count[w]++
}
}
save w_count to persistent storage
}
Fcil, mas provavelmente a execuo demorar um longo tempo,

pois a entrada da ordem de terabytes

Apache Hadoop
O modelo MapReduce
Em um mundo paralelo qualquer

Mutex lock; // protege w_count
word-count() {
for each document d in parallel {
for each word w in d {
lock.Lock();
w_count[w]++
lock.Unlock();
}
}
save w_count to persistent storage
}
Problemas:
utiliza uma estrutura de dados nica e global
recursos compartilhados: seo crtica!
Apache Hadoop
O modelo MapReduce
Google MapReduce
O modelo inicial proposto pelo Google apresentou conceitos

para simplificar alguns problemas
Paralelizao da computao em um aglomerado de mquinas
comuns (com centenas/milhares de CPUs)
Paralelizao e distribuio automtica de computao deveria
ser o mais simples possvel
O sistema de execuo se encarrega de:
particionar e distribuir os dados de entrada
escalonar as execues em um conjunto de mquinas
tratar as falhas
comunicao entre as mquinas

Apache Hadoop
O modelo MapReduce
Ideia bsica do MapReduce
O modelo de programao paralela MapReduce aborda os

problemas da seguinte forma:
1 Leia uma grande quantidade de dados
2 Aplique a funo MAP: extrai alguma informao de valor!
3 Fase intermediria: Shuffle & Sort
4 Aplique a funo REDUCE: rene, compila, filtra, transforma,
etc.
5 Grave os resultados

Apache Hadoop
O modelo MapReduce
MapReduce
A ideia do modelo de programao Map e Reduce no nova

Presente em linguagens funcionais h mais de 40 anos!
No Hadoop a parte do arcabouo responsvel pelo
processamento distribudo (paralelo) de grandes conjuntos de
dados
Usa padres j conhecidos:
cat | grep | sort | uniq > arquivo

entrada | map | shuffle | reduce > sada

Apache Hadoop
O modelo MapReduce
A natureza do Map
Map em programao funcional
map({1,2,3,4}, (2)) -> {2,4,6,8}
Todos os elementos so processados por um mtodo e os elementos

no afetam uns aos outros.

Apache Hadoop
O modelo MapReduce
A natureza do Reduce
Reduce em programao funcional
reduce({1,2,3,4}, ()) -> {24}
Todos os elementos da lista so processados juntos

Tanto em Map quanto em Reduce: a entrada fixa
(imutvel), e a sada uma nova lista (em geral)

Apache Hadoop
O modelo MapReduce
O modelo implementado
O modelo MapReduce adequado para trabalhar com grandes

quantidades de dados
Realiza computao sobre os dados (pouca movimentao de
dados)
Os dados so compartilhados atravs de um sistema de
arquivos distribudo

Apache Hadoop
O modelo MapReduce
MapReduce no Hadoop
A funo Map atua sobre um conjunto de entrada com chaves

e valores, produzindo uma lista de chaves e valores
A funo Reduce atua sobre os valores intermedirios
produzidos pelo Map para, normalmente, agrupar os valores e
produzir a sada
Entrada Sada
map <k1, v1> lista(<k2, v2>)
reduce <k2, lista(v2)> lista(<k3, v3>)

Apache Hadoop
O modelo MapReduce
De volta ao exemplo do Word Count
L arquivos texto e conta a frequncia das palavras

Entrada: arquivos texto
Sada: arquivo texto
Cada linha: palavra, separador (tab), quantidade
Map: gera pares (palavra, quantidade)
Reduce: para cada palavra, soma as quantidades

Apache Hadoop
O modelo MapReduce
Word Count (pseudo-cdigo)

map(String key, String value):
// key: document name
// value: document contents
for each word w in value:
EmitIntermediate(w, "1");
reduce(String key, Iterator values):

// key: a word
// value: a list of counts
int result = 0;
for each v in values:
result += ParseInt(v);
Emit(key, AsString(result));

Apache Hadoop
O modelo MapReduce
Execuo do Word Count
Entrada Mapper Shuffle Reducer Sada
entrada1.txt
(Minicursos, 1)
Minicursos ERAD (ERAD, 2)
2012 ERAD 2012 (2012, 2)
em Campinas (em, 1) (2012, [2,2]) (2012, 4) 2012, 4
(Campinas, 1) (Campinas, [1,1]) (Campinas, 2) Campinas, 2
(em,[1,0]) (em, 1) em, 1
(ERAD, [2,2]) (ERAD, 4) ERAD, 4
(Hadoop, [0,1]) (Hadoop,1) Hadoop,1
entrada2.txt (Minicursos, [1,1]) (Minicursos, 2) Minicursos, 2
(Minicursos, 1)
Minicursos (Hadoop, 1) (SP, [0,1]) (SP, 1) SP, 1
Hadoop ERAD (ERAD, 2)
2012 ERAD 2012 (2012,2)
Campinas SP (Campinas, 1)
(SP, 1)

Apache Hadoop
O modelo MapReduce
Outros exemplos: Grep
Procura nos arquivos de entrada por um dado padro

Map: emite uma linha se um padro encontrado
Reduce: copia os resultados para a sada

Apache Hadoop
O modelo MapReduce
Ilustrando o Grep
cat | grep | sort | uniq > arquivo

entrada | map | shuffle | reduce > sada

Apache Hadoop
O modelo MapReduce
Outros exemplos: ndice Invertido
Gerar o ndice invertido das palavras de um conjunto de

arquivos dado
Map: faz a anlise dos documentos e gera pares de (palavra,
docId)
Reduce: recebe todos os pares de uma palavra, organiza os
valores docId, e gera um par (palavra, lista(docId))

Apache Hadoop
O modelo MapReduce
Ilustrando o ndice Invertido
hamlet.txt to, hamlet.txt

be, hamlet.txt
sada.txt
or, hamlet.txt
to be or
not, hamlet.txt
not to be afraid, (12th.txt)
be, (12th.txt, hamlet.txt)
greatness, (12th.txt)
not, (12th.txt, hamlet.txt)
be, 12th.txt of, (12th.txt)
12th.txt not, 12th.txt or, (hamlet.txt)
afraid, 12th.txt to, (hamlet.txt)
be not afraid of, 12th.txt
of greatness greatness, 12th.txt

Apache Hadoop
Subprojetos do Hadoop
Hadoop Common
Hadoop MapReduce
Hadoop Distributed File System (HDFS)

Apache Hadoop
O Hadoop Common
O Hadoop Common oculta o que os usurios comuns no precisam

saber!
Paralelizao automtica
Balanceamento de carga
Otimizao nas transferncias de disco e rede
Tratamento de falhas
Robustez
Escalabilidade

Apache Hadoop
Outros projetos Apache relacionados

Avro seriao de dados e chamada a procedimentos
remotos (Remote Procedure Call )
Cassandra banco de dados NoSQL, tuplas <chave,valor>
Chukwa monitoramento e coleta de dados de sistemas
distribudos
HBase banco de dados no-relacional distribudo e escalvel
(baseado no Google Bigtable)
Hive infraestrutura de data warehouse (relacional,
SQL-like)
Mahout biblioteca para machine learning e data mining
Pig plataforma de anlise de dados e linguagem de fluxo
de dados (Pig Latin)
ZooKeeper coordenao de servios distribudos (configuraes,
nomes, sincronizao, etc.)
Apache Hadoop
A pilha de software do Hadoop

Apache Hadoop
Componentes do Hadoop
N Mestre
NameNode
SecondaryNameNode
JobTracker
Ns Escravos
DataNode
TaskTracker

Apache Hadoop
NameNode
Gerencia os metadados dos arquivos

FSImage (checkpointing ) e EditLog (lista das operaes)
Controla a localizao das rplicas
Encaminha os blocos aos ns escravos
Mantm as informaes em memria

Apache Hadoop
DataNode
Realiza o armazenamento dos dados

Permite armazenar diversos blocos
Deve se comunicar com o NameNode

Apache Hadoop
SecondaryNameNode
N auxiliar do HDFS
Realiza pontos de checagem em intervalos pr-definidos
Permite manter o nvel de desempenho do NameNode

Apache Hadoop
JobTracker
Gerencia o plano de execuo de tarefas MapReduce

Designa as tarefas aos ns escravos
Monitora a execuo das tarefas para agir em caso de falhas

Apache Hadoop
TaskTracker
Realiza o processamento das tarefas MapReduce

Cada n escravo possui uma nica instncia

Apache Hadoop
Resumindo...

Apache Hadoop
NameNode e DataNodes no HDFS
Fonte: Evert Lammers (SARA.nl)
NameNode (NN) DataNode (DN)
Gerencia o namespace do sistema Armazena dados no sistema

de arquivos de arquivos local
Mapeia nomes de arquivos para Mantm informaes para
blocos checar integridade dos
Mapeia blocos para DataNodes blocos (CRC )
Gerencia replicao
Apache Hadoop
JobTracker e TaskTrackers no MapReduce
Fonte: Evert Lammers (SARA.nl)
JobTracker (JT) TaskTrackers (TT)
Controla os metadados Solicita trabalho no JT

status de um job busca cdigo para executar do DFS
status de tasks aplica configuraes especficas nos
nos TTs jobs
Decide como ser o Comunicam-se com o JT nas tasks
escalonamento enviam sadas, sinais, atualizaes ...
Apache Hadoop
Rodando o Hadoop
Formas de execuo
Local
Pseudo-distribuda
Completamente distribuda

Apache Hadoop
Rodando o Hadoop
Formas de execuo
Execuo local:
Configurao padro
Recomendvel para a fase de desenvolvimento e testes
Aplicao executada na mquina local

Apache Hadoop
Rodando o Hadoop
Formas de execuo
Execuo pseudo-distribuda:
Cluster de uma mquina s
Configurao similar do processamento em um cluster...
... porm, o processamento continua sendo executado na
mquina local

Apache Hadoop
Rodando o Hadoop
Formas de execuo
Execuo completamente distribuda:

Processamento real de uma aplicao Hadoop
Deve indicar quais mquinas iro efetivamente executar os
componentes Hadoop

Apache Hadoop
Rodando o Hadoop
Execuo de tarefas MapReduce no Hadoop

Apache Hadoop
Rodando o Hadoop
Demo
Demo do Word Count

Apache Hadoop
HDFS
HDFS
Caractersticas
Sistema de arquivos distribudo
Arquitetura Mestre/Escravo
Inspirado no Google FileSystem (GFS)

Apache Hadoop
HDFS
Caractersticas
Implementado em Java
Armazenamento de grandes volumes de dados
Recuperao de dados transparente para o usurio

Apache Hadoop
HDFS
Diviso em blocos
Disco rgido pode no suportar o tamanho de um arquivo

principalmente em solues BigData
HDFS divide os arquivos em blocos de mesmo tamanho
64 MB por padro

Apache Hadoop
HDFS
Replicao de dados
3 rplicas (em geral) para cada bloco

aumento de segurana e disponibilidade
Cada rplica em um n diferente
2 em um mesmo rack de rede e 1 em um rack diferente
Re-replicao
para o caso de uma rplica se tornar corrompida

Apache Hadoop
HDFS
Exemplo

Apache Hadoop
Apache Pig
Apache Pig

Apache Hadoop
Apache Pig
O que o Apache Pig?
O Apache Pig uma plataforma para a anlise de grandes

quantidades de dados composta por:
uma linguagem de alto-nvel para expressar programas de
anlise de dados (Pig Latin)
e uma infra-estrutura para a execuo desses programas
A plataforma gera, otimiza e compila automaticamente
programas MapReduce em tempo de execuo

Apache Hadoop
Apache Pig
Motivao com um exemplo

Ler usurios
Filtrar por idade Ler pginas
Problema:
Suponha que voc tenha dados Juno por nome
dos seus usurios em um arquivo,

logs de acesso a sites em outro, e Agrupar por URL
voc quer saber quais so os 5

sites mais visitados por usurios Contar visitas
com idades entre 18 e 25 anos.

Ordenar por nmero
de visitas
Pegar as 5 primeiras

Apache Hadoop
Apache Pig
Cdigo em MapReduce

Apache Hadoop
Apache Pig
Mesmo cdigo em Pig Latin
Users = load users as (name, age);

Fltrd = filter Users by
age >= 18 and age <= 25;
Pages = load pages as (user, url);
Jnd = join Fltrd by name, Pages by user;
Grpd = group Jnd by url;
Smmd = foreach Grpd generate group,
COUNT(Jnd) as clicks;
Srtd = order Smmd by clicks desc;
Top5 = limit Srtd 5;
store Top5 into top5sites;

Apache Hadoop
Apache Pig
Execuo
Ao executar o script Pig, a plataforma se encarrega de:

fazer o parse do arquivo
verificar erros de sintaxe
otimizar o cdigo do script
criar um plano de execuo quais tarefas Map e Reduce
sero necessrias e qual a melhor ordem para execut-las?
enviar todos os arquivos necessrios para o HDFS
monitorar os processos em execuo

Apache Hadoop
Apache Pig
Pig vs. Hive
Por que no usar SQL em vez do Pig?
Pig Hive
Pipelines Ferramentas de Business
Processamento iterativo Intelligence
Pesquisa Anlise a posteriori

Apache Hadoop
Apache Pig
Destaques do Pig
Funes definidas pelo usurio (UDFs) so elementos de

primeira ordem da linguagem. Podem ser escritos para
transformaes em colunas (toUpper()) ou agregao
(sum())
Quatro tipo de joins diferentes: hash, fragment-replicate,
merge e skewed
Multi-query : Pig ir combinar certos tipos de operaes em
um nico pipeline para reduzir o nmero de vezes que um
mesmo dado precisa ser analisado
Order by prov ordem total entre os reducers
Piggybank, uma coleo de funes UDF disponibilizadas pela
comunidade de usurios

Apache Hadoop
Apache Pig
Funes algbricas e de acumulao
Eval functions:
AVG MAX
CONCAT MIN
COUNT
SIZE
COUNT_STAR
DIFF SUM
IsEmpty TOKENIZE

Apache Hadoop
Apache Pig
Funes matemticas
ABS LOG
ACOS LOG10
ASIN RANDOM
ATAN
ROUND
CBRT
SIN
CEIL
SINH
COS
COSH SQRT
EXP TAN
FLOOR TANH

Apache Hadoop
Apache Pig
Quem usa o Pig?
Em 2010, tarefas MapReduce geradas pelo Pig correspondiam

a 70% das tarefas executadas no Yahoo!
O Pig tambm usado pelo Twitter, LinkedIn, Ebay, AOL, etc.
Usos comuns:
Processamento de logs de servidores web
Construo de modelos de predio de comportamento de
usurios
Processamento de imagens
Construo de ndices de pginas da web
Pesquisa em conjuntos de dados brutos

Apache Hadoop
Apache Pig
Leitura dos arquivos
A leitura dos arquivos pode ser feita utilizando:

a classe PigStorage, que fornece um modo conveniente de ler
arquivos com entradas separadas por um delimitador
especificado com uma expresso regular, ou
uma classe Java personalizada

Apache Hadoop
Apache Pig
Acessando o Pig
Modos de execuo
Grunt Shell: modo iterativo, comandos so digitados
manualmente usando um shell iterativo
Arquivo de script: os comandos so definidos em um arquivo
de script
Modo embutido: os comandos do Pig podem ser executados
de dentro de um outro programa
Modos de distribuio
Modo local, as tarefas MapReduce so executadas na mquina
local
Modo Hadoop (MapReduce): a plataforma executa as tarefas
MapReduce em uma instalao do Hadoop e do HDFS remota
Apache Hadoop
Apache Pig
Um script em PIG simples
Script
A = load passwd using PigStorage(:);

B = foreach A generate $0 as id;
dump B;
store B into id.out;

Apache Hadoop
Apache Pig
Um script em PIG simples
Modo embutido
public class idlocal{
public static void main(String[] args) {
try {
PigServer pigServ = new PigServer("mapreduce");
runIdQuery(pigServer, "passwd");
} catch(Exception e) {}
}
public static void runIdQuery(PigServer pigServ, String inputFile)
throws IOException {
pigServ.registerQuery("A = load " + inputFile + " using PigStorage(:);");
pigServ.registerQuery("B = foreach A generate $0 as id;");
pigServ.store("B", "id.out");
}
}

Apache Hadoop
Apache Pig
Pig Demo
Pig Demo

Apache Hadoop
Apache Mahout
Apache Mahout

Apache Hadoop
Apache Mahout
Apache Mahout
uma biblioteca de algoritmos de aprendizado de mquina

um projeto da Fundao Apache
Software livre (licena Apache)
Principal objetivo: ser escalvel para manipular grandes
volumes de dados

Apache Hadoop
Apache Mahout
Onde usar o Mahout?

O Mahout utilizado quando se preciso trabalhar com:
Matrizes e vetores
Estruturas esparsas e densas
Agrupamento
Cobertura
K-Means
Anlise de densidade de funes
Filtragem colaborativa
Mahout + Hadoop
Opcional, mas se utilizado com o Hadoop o Mahout pode explorar
a escalabilidade do modelo MapReduce para processar os dados

Apache Hadoop
Apache Mahout
Quem usa o Mahout?
Adobe Adobe Media Player usa o Mahout para gerar

recomendaes de vdeos para seus usurios
Amazon Amazons Personalization Platform
AOL recomendaes de compras
Foursquare sistema de recomendaes de lugares
Mendeley sistema de recomendaes de artigos cientficos
Twitter modelagem de interesses de usurios
etc.

Apache Hadoop
Apache Mahout
Gerando recomendaes
Exemplo: Large-scale Parallel Collaborative Filtering for the Netflix

Prize (AAIM08 Zhou et al., HP Labs)
Constri uma matriz de co-ocorrncia
Computa o nmero de vezes que cada par de itens aparecem
juntos na lista de preferncias de algum usurio
Se existem 9 usurios que expressam preferncia pelo itens X e
Y, ento X e Y co-ocorrem 9 vezes
Co-ocorrncia como similaridade, quanto mais dois itens
aparecerem juntos, mais provvel que sejam similares

Apache Hadoop
Apache Mahout
Gerando recomendaes
101 102 103 104 105 106 107

101 5 3 4 4 2 2 1
102 3 3 3 2 1 1 0
103 4 3 4 3 1 2 0
104 4 2 3 4 2 2 1
105 2 1 1 2 2 1 1
106 2 1 2 2 1 2 0
107 1 0 0 1 1 0 1

Apache Hadoop
Apache Mahout
Gerando recomendaes
Computando o vetor de cada usurio:

Um vetor para cada usurio
Com n itens na base de dados, o vetor de preferncias ter n
dimenses
Se o usurio no exprime nenhuma preferncia por um
determinado item, o valor correspondente no vetor ser zero
Neste exemplo, o vetor do usurio trs [2.0, 0.0, 0.0, 4.0,
4.5, 0.0, 5.0]

Apache Hadoop
Apache Mahout
Gerando recomendaes
101 102 103 104 105 106 107 U3 R

101 5 3 4 4 2 2 1 2.0 40.0
102 3 3 3 2 1 1 0 0.0 18.5
103 4 3 4 3 1 2 0 x 0.0 = 24.5
104 4 2 3 4 2 2 1 4.0 40.0
105 2 1 1 2 2 1 1 4.5 26.0
106 2 1 2 2 1 2 0 0.0 16.5
107 1 0 0 1 1 0 1 5.0 15.5
Multiplicando a matriz de co-ocorrncia com o vetor de preferncias do

usurio trs para chegar ao vetor que nos leva s recomendaes.

Apache Hadoop
Apache Mahout
Gerando recomendaes
Intuitivamente, olhando para a linha 3 da tabela, se o item desta

linha co-ocorre com muitos itens que o usurio 3 expressou sua
preferncia, ento provvel que seja algo de que o usurio 3 goste.

Apache Hadoop
Apache Mahout
Demo
Recomendao de filmes usando o conjunto de dados MovieLens

da Universidade de Minnesota
Entrada: UserID::MovieID::Rating::Timestamp
Sada: UserID [MovieID:Recommendation,...]
6040 [1941:5.0,1904:5.0,2859:5.0,3811:5.0,...]
Veja o exemplo completo em:

cwiki.apache.org/MAHOUT/recommendationexamples.html

Apache Hadoop
Referncias
Referncias
Livros
Hadoop: The Definitive Guide (Tom White, Yahoo Press)
Hadoop in Action (Chuck Lam, Manning Publications)
Web
http://wiki.apache.org/hadoop/
http://developer.yahoo.com/hadoop/tutorial/
http://pig.apache.org/
http://mahout.apache.org/
Material extra
Profa. Luciana Arantes (LIP6, Paris)

Apache Hadoop - Conceitos Teóricos e Práticos Evolução e Novas Possibilidades PDF

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Apache Hadoop - Conceitos Teóricos e Práticos Evolução e Novas Possibilidades PDF

Enviado por

Direitos autorais:

Formatos disponíveis

Departamento de Cincia da Computao

Baseado no curso apresentado no CSBC12 pelos professores

ERAD/SP 25 de julho de 2012

Uso potencial em aplicaes BigData

Computao paralela no trivial

Daniel Cordeiro (IME/USP) danielc@ime.usp.br ERAD/SP 25 de julho de 2012 2 / 88

Daniel Cordeiro (IME/USP) danielc@ime.usp.br ERAD/SP 25 de julho de 2012 3 / 88

Arcabouo para processamento e armazenamento de dados em

Daniel Cordeiro (IME/USP) danielc@ime.usp.br ERAD/SP 25 de julho de 2012 4 / 88

Daniel Cordeiro (IME/USP) danielc@ime.usp.br ERAD/SP 25 de julho de 2012 5 / 88

2003 Google publica artigo do GFS (SOSP03)

Daniel Cordeiro (IME/USP) danielc@ime.usp.br ERAD/SP 25 de julho de 2012 6 / 88

2007 Yahoo! Inc. se torna o maior contribuidor e utilizador

Daniel Cordeiro (IME/USP) danielc@ime.usp.br ERAD/SP 25 de julho de 2012 7 / 88

Daniel Cordeiro (IME/USP) danielc@ime.usp.br ERAD/SP 25 de julho de 2012 8 / 88

The New York Times

Published: May 2, 1892

The New York Times

Em 2007, o jornal The New York Times converteu para PDF

Daniel Cordeiro (IME/USP) danielc@ime.usp.br ERAD/SP 25 de julho de 2012 9 / 88

Onde o Hadoop utilizado?

Daniel Cordeiro (IME/USP) danielc@ime.usp.br ERAD/SP 25 de julho de 2012 10 / 88

Daniel Cordeiro (IME/USP) danielc@ime.usp.br ERAD/SP 25 de julho de 2012 11 / 88

Por que usar Hadoop?

Daniel Cordeiro (IME/USP) danielc@ime.usp.br ERAD/SP 25 de julho de 2012 12 / 88

Daniel Cordeiro (IME/USP) danielc@ime.usp.br ERAD/SP 25 de julho de 2012 13 / 88

Daniel Cordeiro (IME/USP) danielc@ime.usp.br ERAD/SP 25 de julho de 2012 14 / 88

Daniel Cordeiro (IME/USP) danielc@ime.usp.br ERAD/SP 25 de julho de 2012 15 / 88

Daniel Cordeiro (IME/USP) danielc@ime.usp.br ERAD/SP 25 de julho de 2012 16 / 88

Foco na regra de negcio

Daniel Cordeiro (IME/USP) danielc@ime.usp.br ERAD/SP 25 de julho de 2012 17 / 88

Dificuldade das aplicaes paralelas

Daniel Cordeiro (IME/USP) danielc@ime.usp.br ERAD/SP 25 de julho de 2012 18 / 88

Suposies do projeto (I)

Ideias e solues do Apache Hadoop

Daniel Cordeiro (IME/USP) danielc@ime.usp.br ERAD/SP 25 de julho de 2012 19 / 88

Suposies do projeto (II)

Ideias e solues do Apache Hadoop

Daniel Cordeiro (IME/USP) danielc@ime.usp.br ERAD/SP 25 de julho de 2012 20 / 88

O exemplo clssico: contagem de palavras

Minicursos ERAD 2012 2012, 4

Daniel Cordeiro (IME/USP) danielc@ime.usp.br ERAD/SP 25 de julho de 2012 21 / 88

Fcil, mas provavelmente a execuo demorar um longo tempo,

Daniel Cordeiro (IME/USP) danielc@ime.usp.br ERAD/SP 25 de julho de 2012 22 / 88

Em um mundo paralelo qualquer

O modelo inicial proposto pelo Google apresentou conceitos

Daniel Cordeiro (IME/USP) danielc@ime.usp.br ERAD/SP 25 de julho de 2012 24 / 88

Ideia bsica do MapReduce

O modelo de programao paralela MapReduce aborda os

Daniel Cordeiro (IME/USP) danielc@ime.usp.br ERAD/SP 25 de julho de 2012 25 / 88

A ideia do modelo de programao Map e Reduce no nova

cat | grep | sort | uniq > arquivo

Daniel Cordeiro (IME/USP) danielc@ime.usp.br ERAD/SP 25 de julho de 2012 26 / 88

Map em programao funcional

map({1,2,3,4}, (2)) -> {2,4,6,8}

Todos os elementos so processados por um mtodo e os elementos

Daniel Cordeiro (IME/USP) danielc@ime.usp.br ERAD/SP 25 de julho de 2012 27 / 88

Reduce em programao funcional

reduce({1,2,3,4}, ()) -> {24}

Todos os elementos da lista so processados juntos

Daniel Cordeiro (IME/USP) danielc@ime.usp.br ERAD/SP 25 de julho de 2012 28 / 88

O modelo MapReduce adequado para trabalhar com grandes