Hadoop

Overview
Apache Hadoop
Refer encias
Hadoop
Arlley Vila Real <avrmattos@gmail.com> Thiago Nascimento <nascimenthiago@gmail.com> Thomas Souza <tssilva86@gmail.com>
Armazenamento de Dados em Redes
Mar co de 2013
Arlley Vila Real <avrmattos@gmail.com>, Thiago Nascimento <nascimenthiago@gmail.com>, Thomas Souza <tssilva86@gma Armazenamento de Dados em Redes Hadoop
Overview
Apache Hadoop
Refer encias
Overview
Overview Cen ario Big Data Apache Hadoop Vis ao Geral HDFS MapReduce Hadoop.tar.gz Refer encias
Overview
Apache Hadoop
Refer encias
Cen ario
Escopo do Problema
Crescente acesso ` a tecnologia culminando em coletas de dados numa escala sem precedentes. Sistemas convencionais de armazenamento e processamento de dados n ao atendendo demandas para lidar com grandes volumes de dados. Facebook, Yahoo! e Google compartilham solu c oes para manuseio de grandes volumes de dados (white papers).
Overview
Apache Hadoop
Refer encias
Cen ario
Facebook
Lida com cerca de 40 bilh oes de fotos geradas por seus usu arios. Mais de 350 milh oes de usu arios ativos acessam a rede social via dispositivos m oveis. Em mar co de 2008, a rede social coletava 200 GB de dados; atualmente coleta 15 TB.
Overview
Apache Hadoop
Refer encias
Cen ario
Large Hadron Collider (CERN)
Com menos de 0,001% dos sensores de dados (150 milh oes) em funcionamento, o uxo de dados dos experimentos do LHC representa uma taxa de 25 petabytes/ano com estimativas de alcan car 200 petabytes/ano. Com todos os sensores ativados, o uxo de dados excede a taxa de 150 milh oes de petabytes/ano, ou aproximadamente 500 exabytes/dia.
Overview
Apache Hadoop
Refer encias
Cen ario
Yahoo! Search Assist

Recurso de sugest oes de pesquisa em tempo real. Analisa terabytes de arquivos de log em apenas um dia. Analise centenas de terabytes dentro de um per odo de um ano. 26 dias para cria c ao da base de dados utilizada pelo Search Assist.
Overview
Apache Hadoop
Refer encias
Big Data
Big Data
Overview
Apache Hadoop
Refer encias
Big Data
Big Data is big

Conjunto de dados de grande volume, o qual e praticamente invi avel o manuseio por meio de ferramentas e t ecnicas convencionais.
Overview
Apache Hadoop
Refer encias
Big Data
Big Data 3 Vs - Volume

Processar o maior volume de dados poss vel para obten c ao de respostas mais precisas. Op c oes de ferramentas: data wharehouse, arquiteturas MPP (Massive Parallel Processing), banco de dados como Greenplum ou solu c oes como o Apache Hadoop. Solu c oes de data wharehouse envolvem o tratamento de estruturas (schemas) pr e-denidas. Apache Hadoop n ao imp oe qualquer condi c ao na estrutura dos dados que ser ao processados.
Hadoop
Arlley Vila Real <avrmattos@gmail.com>, Thiago Nascimento <nascimenthiago@gmail.com>, Thomas Souza <tssilva86@gma Armazenamento de Dados em Redes
Overview
Apache Hadoop
Refer encias
Big Data
Big Data 3 Vs - Velocidade

Possuir uma informa c ao precisa no momento errado n ao e grande vantagem, por em possuir uma informa c ao precisa no momento certo e a vantagem procurada pelo dono dos dados. Voc e atravessaria a rua se tudo que voc e tivesse fosse um snapshot do tr afego de 5 segundos atr as? Na busca pela velocidade foi estimulado o uso de armazenamento na forma de pares de valores (chave-valor) e de bancos de dados orientados a colunas.
Overview
Apache Hadoop
Refer encias
Big Data
Big Data 3 Vs - Variedade

Dados gerados nas mais diversas formas e estruturas, al em de serem providos por diferentes fontes. Dados podem surgir na forma de texto, audio, v deo, gerados por usu arios, gerados por m aquinas, RFID, etc. O objetivo e poder construir aplica c oes para explorar, de forma eciente, fontes de dados estruturadas, semiestruturadas e n ao-estruturadas, para que possam usufruir dessas fontes de dados armazenadas e auxiliar na tomada de decis ao.
Overview
Apache Hadoop
Refer encias
Apache Hadoop
Overview
Apache Hadoop
Refer encias
Vis ao Geral
Hist oria
Nasceu durante a concep c ao de outro projeto da Apache, denominado Nutch, que consistia em um mecanismo para pesquisas web. Grupo de desenvolvedores respons avel pelo projeto enfrentava diculdades para conseguir realizar processamentos de forma ecient, mesmo utilizando um conjunto signcativo de m aquinas. Google Labs publica white papersdivulgando o algoritmo MapReduce e o GFS (Google File System).
Overview
Apache Hadoop
Refer encias
Vis ao Geral
Apresenta c ao
Hadoop e um framework para desenvolver aplica c oes que processam grandes volumes de dados em paralelo sobre v arios n os (milhares) de hardware. Pertence ` a Apache e e uma solu c ao open source para trabalhar com big data. Pode ser utilizado para realizar uma consulta em um grande volume de dados e obter uma resposta r apida, utilizando a plataforma de computa c ao distribu da fornecida por ele.
Overview
Apache Hadoop
Refer encias
Vis ao Geral
Vantagens
Cada n o (do conjunto de servidores) realiza localmente tarefas de armazenamento e processamento. No m, todos os resultados processados localmente s ao consolidados. Ao inv es de executar a consulta em um u nico servidor, esta e distribu da para todos os n os participantes, e o resultado e consolidado. Servidores mais simples, com o custo mais baixo, pode ser u teis e participar do cluster.
Overview
Apache Hadoop
Refer encias
Vis ao Geral
Mais Vantagens
Maior toler ancia a falhas, conforme a dimens ao das m aquinas dispon veis. O cluster pode variar de uma composi c ao mais simples (apenas duas m aquinas), para milhares, sem nenhum esfor co adicional. Hadoop e escrito em Java, por isso e poss vel de ser executado em v arias plataformas.
Overview
Apache Hadoop
Refer encias
Vis ao Geral
Estrutura
Hadoop Common: S ao os utilit arios comuns, alicerce do funcionamento dos demais subprojetos do Hadoop. Hadoop Distributed File System (HDFS): Sistema de armazenamento utilizado pelo Hadoop, um sistema de projetado para fornecer um alto arquivos distribu do. E rendimento de acesso aos dados da aplica c ao. um framework que permite realizar Hadoop MapReduce: E processamento distribu do sob grandes volumes de dados em um grupo de computadores (cluster).
Overview
Apache Hadoop
Refer encias
Vis ao Geral
Derivados do Hadoop
Cassandra: Sistema de banco de dados distribu do, escrito em Java e criado inicialmente pela rede social Facebook. HBase: Banco de dados distribu do, n ao-relacional, orientado a colunas (pares e valores) e escrito em Java. Funciona sobre o sistema de arquivos do Hadoop. Hive: Infraestrutura de data wharehouse constru da sobre a plataforma do Hadoop que pode transformar consultas SQL em tarefas MapReduce e execut a-las no cluster. Alguns usu arios: Netix, Facebook.
Hadoop
Overview
Apache Hadoop
Refer encias
Vis ao Geral
Outros derivados do Hadoop

Pig: Linguagem constru da sobre a plataforma Hadoop que simplica e agiliza as tarefas de an alise. A l ogica e escrita em uma linguagem de alto n vel chamada Pig Latin. Desenvolvido inicialmente pela Yahoo! Research. Zookeeper: Incialmente um subprojeto do Hadoop, seu objetivo e disponibilizar um servi co centralizado de informa c oes de congura c ao, sincroniza c ao, agrupamento de servi cos e registro de nomes para sistemas robustos distribu dos.
Overview
Apache Hadoop
Refer encias
Vis ao Geral
Processamento com Hadoop - Funcionamento Geral
1. Carregar os dados no HDFS; 2. Realizar as opera c oes MapReduce; e 3. Recuperar os resultados no HDFS
Resumidamente: o HDFS armazena e o MapReduce computa.
Overview
Apache Hadoop
Refer encias
HDFS
Hadoop Distributed File System
Overview
Apache Hadoop
Refer encias
HDFS
HDFS at load time
Cria m ultiplas c opias dos blocos de dados e os distribui entre os n os do cluster, provendo extrema velocidade ao processamento. Divide cada arquivo fornecido em peda cos de tamanho xo de 64 Mb (padr ao) a 128 Mb, chamados de blocos, e os envia para diferentes m aquinas do cluster, replicando cada bloco tr es vezes durante essa distribui c ao.
Overview
Apache Hadoop
Refer encias
HDFS
Distribui c ao de Dados
Overview
Apache Hadoop
Refer encias
HDFS
Padr ao Master/Workers
Namenode (master): gerencia o namespace do sistema de arquivos e os acessos aos arquivos pelos clientes. Datanode: onde se localizam os blocos que comp oem um arquivo. Uma arquivo de entrada, depois de dividido em blocos de dados, e armazenado em um conjunto de Datanodes que cam respons aveis pelo seu gerenciamento.
Overview
Apache Hadoop
Refer encias
HDFS
Namenode e Datanodes
Overview
Apache Hadoop
Refer encias
MapReduce
Hadoop MapReduce
Overview
Apache Hadoop
Refer encias
MapReduce
Vis ao Geral
um framework para simplicar o processamento de dados E em grande escala, tirando proveito do poder do processamento em paralelo. Processamento pode ser realizado sob dados aramazenados em sistemas de arquivos (n ao-estruturado) ou em banco de dados (estruturado). O processamento MapReduce fundamentalmente e realizado em duas fases: Map e Reduce.
Overview
Apache Hadoop
Refer encias
MapReduce
Fase Map
O n o principal (master) recebe a entrada, divide em problemas menores e distribui para os outros n os participantes. Os workers processam o subproblema que receberam e repassam o resultado para o seu master. Workers tamb em podem repassar subproblemas para outros workers, ramicando a estrutura em v arios n veis, em formato de arvore. A sa da da fun c ao Map e processada pelo framework MapReduce antes de ser repassada ` a fun c ao Reduce.
Hadoop
Overview
Apache Hadoop
Refer encias
MapReduce
Fase Map em a c ao
Overview
Apache Hadoop
Refer encias
MapReduce
Fase Reduce
O n o principal (master) recebe a resposta de todos os n os e os combina para obter a resposta para o problema original.
Overview
Apache Hadoop
Refer encias
MapReduce
MapReduce - Funcionamento Geral
Overview
Apache Hadoop
Refer encias
MapReduce
MapReduce em A c ao
Overview
Apache Hadoop
Refer encias
MapReduce
Detalhes de Uso
Cada uma das fases possui uma entrada e uma sa da de dados no formato de pares de informa c oes. Cada sa da e entrada e composta por uma lista (com uma ou mais ocorr encias) do par chave e o seu valor (como HashMap java). O programador implementa a l ogica das fun c oes de Map e Reduce, para assim alimentar o funcionamento do framework.
Overview
Apache Hadoop
Refer encias
MapReduce
MapReduce na Pr atica - Entrada
Um arquivo simples de Log de acesso ao servidor composto pelo endere co de IP da m aquina, data e hora de acesso.
Overview
Apache Hadoop
Refer encias
MapReduce
MapReduce na Pr atica - Fase Map
O resultado da fase Map ser a o endere co IP como chave, e o valor como contador.
Overview
Apache Hadoop
Refer encias
MapReduce
Processamento Intermedi ario

Cada Mapper, localizado em um n o do cluster, grava seu resultado no disco local antes de envi a-lo atrav es da rede para o n o que realizar a a fun c ao Reduce. Antes de iniciar o Reduce, todos os Mappers executados no cluster ter ao seus resultados condensados e combinados. O framework MapReduce realiza o agrupamento e classica c ao das informa c oes pelo valor da chave, antes de repass a-la ao Reduce.
Overview
Apache Hadoop
Refer encias
MapReduce
MapReduce na Pr atica - Groupping

Todos valores com a mesma chave s ao enviados para uma u nica tarefa de Reduce
Figura : Cores diferentes representam chaves diferentes.

Hadoop
Overview
Apache Hadoop
Refer encias
MapReduce
MapReduce na Pr atica - Fase Reduce
A fun c ao Reduce combina os resultados oriundos da fase anterior, e com base na chave (endere co de IP) e na soma dos valores (contador), obt em o total de acesso por m aquina.
Overview
Apache Hadoop
Refer encias
MapReduce
MapReduce e os Bancos de Dados Relacionais

O MapReduce n ao e considerado um substituto dos Bancos de Dados relacionais, mas apenas uma op c ao complementar. O MapReduce possui um melhor desempenho para consultas espec cas em lote sobre um grande volume de dados, que se encaixa na categoria de big data. O MapReduce funciona melhor em ocasi oes em que o dado e escrito uma vez e lido v arias vezes, enquanto o Banco de Dados Relacional e indicado quando os dados s ao frequentemente alterados.
Overview
Apache Hadoop
Refer encias
MapReduce
MapReduce e os Bancos de Dados Relacionais
Overview
Apache Hadoop
Refer encias
Hadoop.tar.gz
Hadoop.tar.gz
Overview
Apache Hadoop
Refer encias
Hadoop.tar.gz
Estrutura do hadoop-*.tar.gz
Diret orios-chave do projeto: /conf e /bin

core-site.xml: Propriedades comuns hdfs-site.xml: Propriedades do Hadoop Distributed File System
mapred-site.xml: Propriedades do MapReduce
Overview
Apache Hadoop
Refer encias
Hadoop.tar.gz
Comportamento do Hadoop no Cluster

executado somente em uma JVM. E adequado para Local: E executar programas MapReduce durante o seu desenvolvimento, j a que torna mais f acil a execu c ao de testes e depura c oes. Pseudo-distribu do: Os servi cos background (daemons) do Hadoop executam somente na m aquina local, simulando um cluster com apenas uma m aquina. Totalmente distribu do: Os servi cos background (daemons) do Hadoop executam em um grupo de computadores (cluster).
Overview
Apache Hadoop
Refer encias
Hadoop.tar.gz
Considera co es Finais
O que e Hadoop? Tom White, em Hadoop - The Denitive Guide: Hadoop e feito para criar solu c oes para desenvolvedores que por acaso tem muitos dados para armazenas, ou muitos dados para analisar, ou muitas m aquinas para coordenar, e que n ao t em tempo, habilidade, ou vontade de se tornar um especialista em sistemas distribu dos a ponto de preparar uma infraetrutura para lidar com isso.
Overview
Apache Hadoop
Refer encias
Refer encias
1 U. O. A. Junior, Big Data na plataforma Java, Revista Java Magazine 103 2 Hadoop Tutorial - Yahoo! Developer Network, http:// developer.yahoo.com/hadoop/tutorial/module1.html

Hadoop

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Hadoop

Enviado por

Direitos autorais:

Formatos disponíveis

Overview

Large Hadron Collider (CERN)

Yahoo! Search Assist

Big Data is big

Big Data 3 Vs - Volume

Big Data 3 Vs - Velocidade

Big Data 3 Vs - Variedade

Outros derivados do Hadoop

Processamento com Hadoop - Funcionamento Geral

Resumidamente: o HDFS armazena e o MapReduce computa.

Hadoop Distributed File System

HDFS at load time

MapReduce - Funcionamento Geral

MapReduce na Pr atica - Entrada

MapReduce na Pr atica - Fase Map

Processamento Intermedi ario

MapReduce na Pr atica - Groupping

Figura : Cores diferentes representam chaves diferentes.

MapReduce na Pr atica - Fase Reduce

MapReduce e os Bancos de Dados Relacionais

MapReduce e os Bancos de Dados Relacionais

Diret orios-chave do projeto: /conf e /bin

mapred-site.xml: Propriedades do MapReduce

Comportamento do Hadoop no Cluster

Você também pode gostar