Você está na página 1de 45

Overview

Apache Hadoop

Refer encias

Hadoop
Arlley Vila Real <avrmattos@gmail.com> Thiago Nascimento <nascimenthiago@gmail.com> Thomas Souza <tssilva86@gmail.com>
Armazenamento de Dados em Redes

Mar co de 2013

Arlley Vila Real <avrmattos@gmail.com>, Thiago Nascimento <nascimenthiago@gmail.com>, Thomas Souza <tssilva86@gma Armazenamento de Dados em Redes Hadoop

Overview

Apache Hadoop

Refer encias

Overview
Overview Cen ario Big Data Apache Hadoop Vis ao Geral HDFS MapReduce Hadoop.tar.gz Refer encias

Arlley Vila Real <avrmattos@gmail.com>, Thiago Nascimento <nascimenthiago@gmail.com>, Thomas Souza <tssilva86@gma Armazenamento de Dados em Redes Hadoop

Overview

Apache Hadoop

Refer encias

Cen ario

Escopo do Problema
Crescente acesso ` a tecnologia culminando em coletas de dados numa escala sem precedentes. Sistemas convencionais de armazenamento e processamento de dados n ao atendendo demandas para lidar com grandes volumes de dados. Facebook, Yahoo! e Google compartilham solu c oes para manuseio de grandes volumes de dados (white papers).

Arlley Vila Real <avrmattos@gmail.com>, Thiago Nascimento <nascimenthiago@gmail.com>, Thomas Souza <tssilva86@gma Armazenamento de Dados em Redes Hadoop

Overview

Apache Hadoop

Refer encias

Cen ario

Facebook

Lida com cerca de 40 bilh oes de fotos geradas por seus usu arios. Mais de 350 milh oes de usu arios ativos acessam a rede social via dispositivos m oveis. Em mar co de 2008, a rede social coletava 200 GB de dados; atualmente coleta 15 TB.

Arlley Vila Real <avrmattos@gmail.com>, Thiago Nascimento <nascimenthiago@gmail.com>, Thomas Souza <tssilva86@gma Armazenamento de Dados em Redes Hadoop

Overview

Apache Hadoop

Refer encias

Cen ario

Large Hadron Collider (CERN)

Com menos de 0,001% dos sensores de dados (150 milh oes) em funcionamento, o uxo de dados dos experimentos do LHC representa uma taxa de 25 petabytes/ano com estimativas de alcan car 200 petabytes/ano. Com todos os sensores ativados, o uxo de dados excede a taxa de 150 milh oes de petabytes/ano, ou aproximadamente 500 exabytes/dia.

Arlley Vila Real <avrmattos@gmail.com>, Thiago Nascimento <nascimenthiago@gmail.com>, Thomas Souza <tssilva86@gma Armazenamento de Dados em Redes Hadoop

Overview

Apache Hadoop

Refer encias

Cen ario

Yahoo! Search Assist


Recurso de sugest oes de pesquisa em tempo real. Analisa terabytes de arquivos de log em apenas um dia. Analise centenas de terabytes dentro de um per odo de um ano. 26 dias para cria c ao da base de dados utilizada pelo Search Assist.

Arlley Vila Real <avrmattos@gmail.com>, Thiago Nascimento <nascimenthiago@gmail.com>, Thomas Souza <tssilva86@gma Armazenamento de Dados em Redes Hadoop

Overview

Apache Hadoop

Refer encias

Big Data

Big Data

Arlley Vila Real <avrmattos@gmail.com>, Thiago Nascimento <nascimenthiago@gmail.com>, Thomas Souza <tssilva86@gma Armazenamento de Dados em Redes Hadoop

Overview

Apache Hadoop

Refer encias

Big Data

Big Data is big


Conjunto de dados de grande volume, o qual e praticamente invi avel o manuseio por meio de ferramentas e t ecnicas convencionais.

Arlley Vila Real <avrmattos@gmail.com>, Thiago Nascimento <nascimenthiago@gmail.com>, Thomas Souza <tssilva86@gma Armazenamento de Dados em Redes Hadoop

Overview

Apache Hadoop

Refer encias

Big Data

Big Data 3 Vs - Volume


Processar o maior volume de dados poss vel para obten c ao de respostas mais precisas. Op c oes de ferramentas: data wharehouse, arquiteturas MPP (Massive Parallel Processing), banco de dados como Greenplum ou solu c oes como o Apache Hadoop. Solu c oes de data wharehouse envolvem o tratamento de estruturas (schemas) pr e-denidas. Apache Hadoop n ao imp oe qualquer condi c ao na estrutura dos dados que ser ao processados.
Hadoop

Arlley Vila Real <avrmattos@gmail.com>, Thiago Nascimento <nascimenthiago@gmail.com>, Thomas Souza <tssilva86@gma Armazenamento de Dados em Redes

Overview

Apache Hadoop

Refer encias

Big Data

Big Data 3 Vs - Velocidade


Possuir uma informa c ao precisa no momento errado n ao e grande vantagem, por em possuir uma informa c ao precisa no momento certo e a vantagem procurada pelo dono dos dados. Voc e atravessaria a rua se tudo que voc e tivesse fosse um snapshot do tr afego de 5 segundos atr as? Na busca pela velocidade foi estimulado o uso de armazenamento na forma de pares de valores (chave-valor) e de bancos de dados orientados a colunas.

Arlley Vila Real <avrmattos@gmail.com>, Thiago Nascimento <nascimenthiago@gmail.com>, Thomas Souza <tssilva86@gma Armazenamento de Dados em Redes Hadoop

Overview

Apache Hadoop

Refer encias

Big Data

Big Data 3 Vs - Variedade


Dados gerados nas mais diversas formas e estruturas, al em de serem providos por diferentes fontes. Dados podem surgir na forma de texto, audio, v deo, gerados por usu arios, gerados por m aquinas, RFID, etc. O objetivo e poder construir aplica c oes para explorar, de forma eciente, fontes de dados estruturadas, semiestruturadas e n ao-estruturadas, para que possam usufruir dessas fontes de dados armazenadas e auxiliar na tomada de decis ao.

Arlley Vila Real <avrmattos@gmail.com>, Thiago Nascimento <nascimenthiago@gmail.com>, Thomas Souza <tssilva86@gma Armazenamento de Dados em Redes Hadoop

Overview

Apache Hadoop

Refer encias

Apache Hadoop

Arlley Vila Real <avrmattos@gmail.com>, Thiago Nascimento <nascimenthiago@gmail.com>, Thomas Souza <tssilva86@gma Armazenamento de Dados em Redes Hadoop

Overview

Apache Hadoop

Refer encias

Vis ao Geral

Hist oria
Nasceu durante a concep c ao de outro projeto da Apache, denominado Nutch, que consistia em um mecanismo para pesquisas web. Grupo de desenvolvedores respons avel pelo projeto enfrentava diculdades para conseguir realizar processamentos de forma ecient, mesmo utilizando um conjunto signcativo de m aquinas. Google Labs publica white papersdivulgando o algoritmo MapReduce e o GFS (Google File System).

Arlley Vila Real <avrmattos@gmail.com>, Thiago Nascimento <nascimenthiago@gmail.com>, Thomas Souza <tssilva86@gma Armazenamento de Dados em Redes Hadoop

Overview

Apache Hadoop

Refer encias

Vis ao Geral

Apresenta c ao
Hadoop e um framework para desenvolver aplica c oes que processam grandes volumes de dados em paralelo sobre v arios n os (milhares) de hardware. Pertence ` a Apache e e uma solu c ao open source para trabalhar com big data. Pode ser utilizado para realizar uma consulta em um grande volume de dados e obter uma resposta r apida, utilizando a plataforma de computa c ao distribu da fornecida por ele.

Arlley Vila Real <avrmattos@gmail.com>, Thiago Nascimento <nascimenthiago@gmail.com>, Thomas Souza <tssilva86@gma Armazenamento de Dados em Redes Hadoop

Overview

Apache Hadoop

Refer encias

Vis ao Geral

Vantagens
Cada n o (do conjunto de servidores) realiza localmente tarefas de armazenamento e processamento. No m, todos os resultados processados localmente s ao consolidados. Ao inv es de executar a consulta em um u nico servidor, esta e distribu da para todos os n os participantes, e o resultado e consolidado. Servidores mais simples, com o custo mais baixo, pode ser u teis e participar do cluster.

Arlley Vila Real <avrmattos@gmail.com>, Thiago Nascimento <nascimenthiago@gmail.com>, Thomas Souza <tssilva86@gma Armazenamento de Dados em Redes Hadoop

Overview

Apache Hadoop

Refer encias

Vis ao Geral

Mais Vantagens
Maior toler ancia a falhas, conforme a dimens ao das m aquinas dispon veis. O cluster pode variar de uma composi c ao mais simples (apenas duas m aquinas), para milhares, sem nenhum esfor co adicional. Hadoop e escrito em Java, por isso e poss vel de ser executado em v arias plataformas.

Arlley Vila Real <avrmattos@gmail.com>, Thiago Nascimento <nascimenthiago@gmail.com>, Thomas Souza <tssilva86@gma Armazenamento de Dados em Redes Hadoop

Overview

Apache Hadoop

Refer encias

Vis ao Geral

Estrutura
Hadoop Common: S ao os utilit arios comuns, alicerce do funcionamento dos demais subprojetos do Hadoop. Hadoop Distributed File System (HDFS): Sistema de armazenamento utilizado pelo Hadoop, um sistema de projetado para fornecer um alto arquivos distribu do. E rendimento de acesso aos dados da aplica c ao. um framework que permite realizar Hadoop MapReduce: E processamento distribu do sob grandes volumes de dados em um grupo de computadores (cluster).

Arlley Vila Real <avrmattos@gmail.com>, Thiago Nascimento <nascimenthiago@gmail.com>, Thomas Souza <tssilva86@gma Armazenamento de Dados em Redes Hadoop

Overview

Apache Hadoop

Refer encias

Vis ao Geral

Derivados do Hadoop
Cassandra: Sistema de banco de dados distribu do, escrito em Java e criado inicialmente pela rede social Facebook. HBase: Banco de dados distribu do, n ao-relacional, orientado a colunas (pares e valores) e escrito em Java. Funciona sobre o sistema de arquivos do Hadoop. Hive: Infraestrutura de data wharehouse constru da sobre a plataforma do Hadoop que pode transformar consultas SQL em tarefas MapReduce e execut a-las no cluster. Alguns usu arios: Netix, Facebook.
Hadoop

Arlley Vila Real <avrmattos@gmail.com>, Thiago Nascimento <nascimenthiago@gmail.com>, Thomas Souza <tssilva86@gma Armazenamento de Dados em Redes

Overview

Apache Hadoop

Refer encias

Vis ao Geral

Outros derivados do Hadoop


Pig: Linguagem constru da sobre a plataforma Hadoop que simplica e agiliza as tarefas de an alise. A l ogica e escrita em uma linguagem de alto n vel chamada Pig Latin. Desenvolvido inicialmente pela Yahoo! Research. Zookeeper: Incialmente um subprojeto do Hadoop, seu objetivo e disponibilizar um servi co centralizado de informa c oes de congura c ao, sincroniza c ao, agrupamento de servi cos e registro de nomes para sistemas robustos distribu dos.

Arlley Vila Real <avrmattos@gmail.com>, Thiago Nascimento <nascimenthiago@gmail.com>, Thomas Souza <tssilva86@gma Armazenamento de Dados em Redes Hadoop

Overview

Apache Hadoop

Refer encias

Vis ao Geral

Processamento com Hadoop - Funcionamento Geral

1. Carregar os dados no HDFS; 2. Realizar as opera c oes MapReduce; e 3. Recuperar os resultados no HDFS

Resumidamente: o HDFS armazena e o MapReduce computa.

Arlley Vila Real <avrmattos@gmail.com>, Thiago Nascimento <nascimenthiago@gmail.com>, Thomas Souza <tssilva86@gma Armazenamento de Dados em Redes Hadoop

Overview

Apache Hadoop

Refer encias

HDFS

Hadoop Distributed File System

Arlley Vila Real <avrmattos@gmail.com>, Thiago Nascimento <nascimenthiago@gmail.com>, Thomas Souza <tssilva86@gma Armazenamento de Dados em Redes Hadoop

Overview

Apache Hadoop

Refer encias

HDFS

HDFS at load time

Cria m ultiplas c opias dos blocos de dados e os distribui entre os n os do cluster, provendo extrema velocidade ao processamento. Divide cada arquivo fornecido em peda cos de tamanho xo de 64 Mb (padr ao) a 128 Mb, chamados de blocos, e os envia para diferentes m aquinas do cluster, replicando cada bloco tr es vezes durante essa distribui c ao.

Arlley Vila Real <avrmattos@gmail.com>, Thiago Nascimento <nascimenthiago@gmail.com>, Thomas Souza <tssilva86@gma Armazenamento de Dados em Redes Hadoop

Overview

Apache Hadoop

Refer encias

HDFS

Distribui c ao de Dados

Arlley Vila Real <avrmattos@gmail.com>, Thiago Nascimento <nascimenthiago@gmail.com>, Thomas Souza <tssilva86@gma Armazenamento de Dados em Redes Hadoop

Overview

Apache Hadoop

Refer encias

HDFS

Padr ao Master/Workers
Namenode (master): gerencia o namespace do sistema de arquivos e os acessos aos arquivos pelos clientes. Datanode: onde se localizam os blocos que comp oem um arquivo. Uma arquivo de entrada, depois de dividido em blocos de dados, e armazenado em um conjunto de Datanodes que cam respons aveis pelo seu gerenciamento.

Arlley Vila Real <avrmattos@gmail.com>, Thiago Nascimento <nascimenthiago@gmail.com>, Thomas Souza <tssilva86@gma Armazenamento de Dados em Redes Hadoop

Overview

Apache Hadoop

Refer encias

HDFS

Namenode e Datanodes

Arlley Vila Real <avrmattos@gmail.com>, Thiago Nascimento <nascimenthiago@gmail.com>, Thomas Souza <tssilva86@gma Armazenamento de Dados em Redes Hadoop

Overview

Apache Hadoop

Refer encias

MapReduce

Hadoop MapReduce

Arlley Vila Real <avrmattos@gmail.com>, Thiago Nascimento <nascimenthiago@gmail.com>, Thomas Souza <tssilva86@gma Armazenamento de Dados em Redes Hadoop

Overview

Apache Hadoop

Refer encias

MapReduce

Vis ao Geral
um framework para simplicar o processamento de dados E em grande escala, tirando proveito do poder do processamento em paralelo. Processamento pode ser realizado sob dados aramazenados em sistemas de arquivos (n ao-estruturado) ou em banco de dados (estruturado). O processamento MapReduce fundamentalmente e realizado em duas fases: Map e Reduce.

Arlley Vila Real <avrmattos@gmail.com>, Thiago Nascimento <nascimenthiago@gmail.com>, Thomas Souza <tssilva86@gma Armazenamento de Dados em Redes Hadoop

Overview

Apache Hadoop

Refer encias

MapReduce

Fase Map
O n o principal (master) recebe a entrada, divide em problemas menores e distribui para os outros n os participantes. Os workers processam o subproblema que receberam e repassam o resultado para o seu master. Workers tamb em podem repassar subproblemas para outros workers, ramicando a estrutura em v arios n veis, em formato de arvore. A sa da da fun c ao Map e processada pelo framework MapReduce antes de ser repassada ` a fun c ao Reduce.
Hadoop

Arlley Vila Real <avrmattos@gmail.com>, Thiago Nascimento <nascimenthiago@gmail.com>, Thomas Souza <tssilva86@gma Armazenamento de Dados em Redes

Overview

Apache Hadoop

Refer encias

MapReduce

Fase Map em a c ao

Arlley Vila Real <avrmattos@gmail.com>, Thiago Nascimento <nascimenthiago@gmail.com>, Thomas Souza <tssilva86@gma Armazenamento de Dados em Redes Hadoop

Overview

Apache Hadoop

Refer encias

MapReduce

Fase Reduce
O n o principal (master) recebe a resposta de todos os n os e os combina para obter a resposta para o problema original.

Arlley Vila Real <avrmattos@gmail.com>, Thiago Nascimento <nascimenthiago@gmail.com>, Thomas Souza <tssilva86@gma Armazenamento de Dados em Redes Hadoop

Overview

Apache Hadoop

Refer encias

MapReduce

MapReduce - Funcionamento Geral

Arlley Vila Real <avrmattos@gmail.com>, Thiago Nascimento <nascimenthiago@gmail.com>, Thomas Souza <tssilva86@gma Armazenamento de Dados em Redes Hadoop

Overview

Apache Hadoop

Refer encias

MapReduce

MapReduce em A c ao

Arlley Vila Real <avrmattos@gmail.com>, Thiago Nascimento <nascimenthiago@gmail.com>, Thomas Souza <tssilva86@gma Armazenamento de Dados em Redes Hadoop

Overview

Apache Hadoop

Refer encias

MapReduce

Detalhes de Uso
Cada uma das fases possui uma entrada e uma sa da de dados no formato de pares de informa c oes. Cada sa da e entrada e composta por uma lista (com uma ou mais ocorr encias) do par chave e o seu valor (como HashMap java). O programador implementa a l ogica das fun c oes de Map e Reduce, para assim alimentar o funcionamento do framework.

Arlley Vila Real <avrmattos@gmail.com>, Thiago Nascimento <nascimenthiago@gmail.com>, Thomas Souza <tssilva86@gma Armazenamento de Dados em Redes Hadoop

Overview

Apache Hadoop

Refer encias

MapReduce

MapReduce na Pr atica - Entrada

Um arquivo simples de Log de acesso ao servidor composto pelo endere co de IP da m aquina, data e hora de acesso.

Arlley Vila Real <avrmattos@gmail.com>, Thiago Nascimento <nascimenthiago@gmail.com>, Thomas Souza <tssilva86@gma Armazenamento de Dados em Redes Hadoop

Overview

Apache Hadoop

Refer encias

MapReduce

MapReduce na Pr atica - Fase Map

O resultado da fase Map ser a o endere co IP como chave, e o valor como contador.

Arlley Vila Real <avrmattos@gmail.com>, Thiago Nascimento <nascimenthiago@gmail.com>, Thomas Souza <tssilva86@gma Armazenamento de Dados em Redes Hadoop

Overview

Apache Hadoop

Refer encias

MapReduce

Processamento Intermedi ario


Cada Mapper, localizado em um n o do cluster, grava seu resultado no disco local antes de envi a-lo atrav es da rede para o n o que realizar a a fun c ao Reduce. Antes de iniciar o Reduce, todos os Mappers executados no cluster ter ao seus resultados condensados e combinados. O framework MapReduce realiza o agrupamento e classica c ao das informa c oes pelo valor da chave, antes de repass a-la ao Reduce.

Arlley Vila Real <avrmattos@gmail.com>, Thiago Nascimento <nascimenthiago@gmail.com>, Thomas Souza <tssilva86@gma Armazenamento de Dados em Redes Hadoop

Overview

Apache Hadoop

Refer encias

MapReduce

MapReduce na Pr atica - Groupping


Todos valores com a mesma chave s ao enviados para uma u nica tarefa de Reduce

Figura : Cores diferentes representam chaves diferentes.


Hadoop

Arlley Vila Real <avrmattos@gmail.com>, Thiago Nascimento <nascimenthiago@gmail.com>, Thomas Souza <tssilva86@gma Armazenamento de Dados em Redes

Overview

Apache Hadoop

Refer encias

MapReduce

MapReduce na Pr atica - Fase Reduce

A fun c ao Reduce combina os resultados oriundos da fase anterior, e com base na chave (endere co de IP) e na soma dos valores (contador), obt em o total de acesso por m aquina.

Arlley Vila Real <avrmattos@gmail.com>, Thiago Nascimento <nascimenthiago@gmail.com>, Thomas Souza <tssilva86@gma Armazenamento de Dados em Redes Hadoop

Overview

Apache Hadoop

Refer encias

MapReduce

MapReduce e os Bancos de Dados Relacionais


O MapReduce n ao e considerado um substituto dos Bancos de Dados relacionais, mas apenas uma op c ao complementar. O MapReduce possui um melhor desempenho para consultas espec cas em lote sobre um grande volume de dados, que se encaixa na categoria de big data. O MapReduce funciona melhor em ocasi oes em que o dado e escrito uma vez e lido v arias vezes, enquanto o Banco de Dados Relacional e indicado quando os dados s ao frequentemente alterados.

Arlley Vila Real <avrmattos@gmail.com>, Thiago Nascimento <nascimenthiago@gmail.com>, Thomas Souza <tssilva86@gma Armazenamento de Dados em Redes Hadoop

Overview

Apache Hadoop

Refer encias

MapReduce

MapReduce e os Bancos de Dados Relacionais

Arlley Vila Real <avrmattos@gmail.com>, Thiago Nascimento <nascimenthiago@gmail.com>, Thomas Souza <tssilva86@gma Armazenamento de Dados em Redes Hadoop

Overview

Apache Hadoop

Refer encias

Hadoop.tar.gz

Hadoop.tar.gz

Arlley Vila Real <avrmattos@gmail.com>, Thiago Nascimento <nascimenthiago@gmail.com>, Thomas Souza <tssilva86@gma Armazenamento de Dados em Redes Hadoop

Overview

Apache Hadoop

Refer encias

Hadoop.tar.gz

Estrutura do hadoop-*.tar.gz

Diret orios-chave do projeto: /conf e /bin


core-site.xml: Propriedades comuns hdfs-site.xml: Propriedades do Hadoop Distributed File System

mapred-site.xml: Propriedades do MapReduce

Arlley Vila Real <avrmattos@gmail.com>, Thiago Nascimento <nascimenthiago@gmail.com>, Thomas Souza <tssilva86@gma Armazenamento de Dados em Redes Hadoop

Overview

Apache Hadoop

Refer encias

Hadoop.tar.gz

Comportamento do Hadoop no Cluster


executado somente em uma JVM. E adequado para Local: E executar programas MapReduce durante o seu desenvolvimento, j a que torna mais f acil a execu c ao de testes e depura c oes. Pseudo-distribu do: Os servi cos background (daemons) do Hadoop executam somente na m aquina local, simulando um cluster com apenas uma m aquina. Totalmente distribu do: Os servi cos background (daemons) do Hadoop executam em um grupo de computadores (cluster).

Arlley Vila Real <avrmattos@gmail.com>, Thiago Nascimento <nascimenthiago@gmail.com>, Thomas Souza <tssilva86@gma Armazenamento de Dados em Redes Hadoop

Overview

Apache Hadoop

Refer encias

Hadoop.tar.gz

Considera co es Finais
O que e Hadoop? Tom White, em Hadoop - The Denitive Guide: Hadoop e feito para criar solu c oes para desenvolvedores que por acaso tem muitos dados para armazenas, ou muitos dados para analisar, ou muitas m aquinas para coordenar, e que n ao t em tempo, habilidade, ou vontade de se tornar um especialista em sistemas distribu dos a ponto de preparar uma infraetrutura para lidar com isso.

Arlley Vila Real <avrmattos@gmail.com>, Thiago Nascimento <nascimenthiago@gmail.com>, Thomas Souza <tssilva86@gma Armazenamento de Dados em Redes Hadoop

Overview

Apache Hadoop

Refer encias

Refer encias

1 U. O. A. Junior, Big Data na plataforma Java, Revista Java Magazine 103 2 Hadoop Tutorial - Yahoo! Developer Network, http:// developer.yahoo.com/hadoop/tutorial/module1.html

Arlley Vila Real <avrmattos@gmail.com>, Thiago Nascimento <nascimenthiago@gmail.com>, Thomas Souza <tssilva86@gma Armazenamento de Dados em Redes Hadoop

Você também pode gostar