Escolar Documentos
Profissional Documentos
Cultura Documentos
Hadoop
Hadoop
Apache Hadoop
Refer encias
Hadoop
Arlley Vila Real <avrmattos@gmail.com> Thiago Nascimento <nascimenthiago@gmail.com> Thomas Souza <tssilva86@gmail.com>
Armazenamento de Dados em Redes
Mar co de 2013
Arlley Vila Real <avrmattos@gmail.com>, Thiago Nascimento <nascimenthiago@gmail.com>, Thomas Souza <tssilva86@gma Armazenamento de Dados em Redes Hadoop
Overview
Apache Hadoop
Refer encias
Overview
Overview Cen ario Big Data Apache Hadoop Vis ao Geral HDFS MapReduce Hadoop.tar.gz Refer encias
Arlley Vila Real <avrmattos@gmail.com>, Thiago Nascimento <nascimenthiago@gmail.com>, Thomas Souza <tssilva86@gma Armazenamento de Dados em Redes Hadoop
Overview
Apache Hadoop
Refer encias
Cen ario
Escopo do Problema
Crescente acesso ` a tecnologia culminando em coletas de dados numa escala sem precedentes. Sistemas convencionais de armazenamento e processamento de dados n ao atendendo demandas para lidar com grandes volumes de dados. Facebook, Yahoo! e Google compartilham solu c oes para manuseio de grandes volumes de dados (white papers).
Arlley Vila Real <avrmattos@gmail.com>, Thiago Nascimento <nascimenthiago@gmail.com>, Thomas Souza <tssilva86@gma Armazenamento de Dados em Redes Hadoop
Overview
Apache Hadoop
Refer encias
Cen ario
Lida com cerca de 40 bilh oes de fotos geradas por seus usu arios. Mais de 350 milh oes de usu arios ativos acessam a rede social via dispositivos m oveis. Em mar co de 2008, a rede social coletava 200 GB de dados; atualmente coleta 15 TB.
Arlley Vila Real <avrmattos@gmail.com>, Thiago Nascimento <nascimenthiago@gmail.com>, Thomas Souza <tssilva86@gma Armazenamento de Dados em Redes Hadoop
Overview
Apache Hadoop
Refer encias
Cen ario
Com menos de 0,001% dos sensores de dados (150 milh oes) em funcionamento, o uxo de dados dos experimentos do LHC representa uma taxa de 25 petabytes/ano com estimativas de alcan car 200 petabytes/ano. Com todos os sensores ativados, o uxo de dados excede a taxa de 150 milh oes de petabytes/ano, ou aproximadamente 500 exabytes/dia.
Arlley Vila Real <avrmattos@gmail.com>, Thiago Nascimento <nascimenthiago@gmail.com>, Thomas Souza <tssilva86@gma Armazenamento de Dados em Redes Hadoop
Overview
Apache Hadoop
Refer encias
Cen ario
Arlley Vila Real <avrmattos@gmail.com>, Thiago Nascimento <nascimenthiago@gmail.com>, Thomas Souza <tssilva86@gma Armazenamento de Dados em Redes Hadoop
Overview
Apache Hadoop
Refer encias
Big Data
Big Data
Arlley Vila Real <avrmattos@gmail.com>, Thiago Nascimento <nascimenthiago@gmail.com>, Thomas Souza <tssilva86@gma Armazenamento de Dados em Redes Hadoop
Overview
Apache Hadoop
Refer encias
Big Data
Arlley Vila Real <avrmattos@gmail.com>, Thiago Nascimento <nascimenthiago@gmail.com>, Thomas Souza <tssilva86@gma Armazenamento de Dados em Redes Hadoop
Overview
Apache Hadoop
Refer encias
Big Data
Arlley Vila Real <avrmattos@gmail.com>, Thiago Nascimento <nascimenthiago@gmail.com>, Thomas Souza <tssilva86@gma Armazenamento de Dados em Redes
Overview
Apache Hadoop
Refer encias
Big Data
Arlley Vila Real <avrmattos@gmail.com>, Thiago Nascimento <nascimenthiago@gmail.com>, Thomas Souza <tssilva86@gma Armazenamento de Dados em Redes Hadoop
Overview
Apache Hadoop
Refer encias
Big Data
Arlley Vila Real <avrmattos@gmail.com>, Thiago Nascimento <nascimenthiago@gmail.com>, Thomas Souza <tssilva86@gma Armazenamento de Dados em Redes Hadoop
Overview
Apache Hadoop
Refer encias
Apache Hadoop
Arlley Vila Real <avrmattos@gmail.com>, Thiago Nascimento <nascimenthiago@gmail.com>, Thomas Souza <tssilva86@gma Armazenamento de Dados em Redes Hadoop
Overview
Apache Hadoop
Refer encias
Vis ao Geral
Hist oria
Nasceu durante a concep c ao de outro projeto da Apache, denominado Nutch, que consistia em um mecanismo para pesquisas web. Grupo de desenvolvedores respons avel pelo projeto enfrentava diculdades para conseguir realizar processamentos de forma ecient, mesmo utilizando um conjunto signcativo de m aquinas. Google Labs publica white papersdivulgando o algoritmo MapReduce e o GFS (Google File System).
Arlley Vila Real <avrmattos@gmail.com>, Thiago Nascimento <nascimenthiago@gmail.com>, Thomas Souza <tssilva86@gma Armazenamento de Dados em Redes Hadoop
Overview
Apache Hadoop
Refer encias
Vis ao Geral
Apresenta c ao
Hadoop e um framework para desenvolver aplica c oes que processam grandes volumes de dados em paralelo sobre v arios n os (milhares) de hardware. Pertence ` a Apache e e uma solu c ao open source para trabalhar com big data. Pode ser utilizado para realizar uma consulta em um grande volume de dados e obter uma resposta r apida, utilizando a plataforma de computa c ao distribu da fornecida por ele.
Arlley Vila Real <avrmattos@gmail.com>, Thiago Nascimento <nascimenthiago@gmail.com>, Thomas Souza <tssilva86@gma Armazenamento de Dados em Redes Hadoop
Overview
Apache Hadoop
Refer encias
Vis ao Geral
Vantagens
Cada n o (do conjunto de servidores) realiza localmente tarefas de armazenamento e processamento. No m, todos os resultados processados localmente s ao consolidados. Ao inv es de executar a consulta em um u nico servidor, esta e distribu da para todos os n os participantes, e o resultado e consolidado. Servidores mais simples, com o custo mais baixo, pode ser u teis e participar do cluster.
Arlley Vila Real <avrmattos@gmail.com>, Thiago Nascimento <nascimenthiago@gmail.com>, Thomas Souza <tssilva86@gma Armazenamento de Dados em Redes Hadoop
Overview
Apache Hadoop
Refer encias
Vis ao Geral
Mais Vantagens
Maior toler ancia a falhas, conforme a dimens ao das m aquinas dispon veis. O cluster pode variar de uma composi c ao mais simples (apenas duas m aquinas), para milhares, sem nenhum esfor co adicional. Hadoop e escrito em Java, por isso e poss vel de ser executado em v arias plataformas.
Arlley Vila Real <avrmattos@gmail.com>, Thiago Nascimento <nascimenthiago@gmail.com>, Thomas Souza <tssilva86@gma Armazenamento de Dados em Redes Hadoop
Overview
Apache Hadoop
Refer encias
Vis ao Geral
Estrutura
Hadoop Common: S ao os utilit arios comuns, alicerce do funcionamento dos demais subprojetos do Hadoop. Hadoop Distributed File System (HDFS): Sistema de armazenamento utilizado pelo Hadoop, um sistema de projetado para fornecer um alto arquivos distribu do. E rendimento de acesso aos dados da aplica c ao. um framework que permite realizar Hadoop MapReduce: E processamento distribu do sob grandes volumes de dados em um grupo de computadores (cluster).
Arlley Vila Real <avrmattos@gmail.com>, Thiago Nascimento <nascimenthiago@gmail.com>, Thomas Souza <tssilva86@gma Armazenamento de Dados em Redes Hadoop
Overview
Apache Hadoop
Refer encias
Vis ao Geral
Derivados do Hadoop
Cassandra: Sistema de banco de dados distribu do, escrito em Java e criado inicialmente pela rede social Facebook. HBase: Banco de dados distribu do, n ao-relacional, orientado a colunas (pares e valores) e escrito em Java. Funciona sobre o sistema de arquivos do Hadoop. Hive: Infraestrutura de data wharehouse constru da sobre a plataforma do Hadoop que pode transformar consultas SQL em tarefas MapReduce e execut a-las no cluster. Alguns usu arios: Netix, Facebook.
Hadoop
Arlley Vila Real <avrmattos@gmail.com>, Thiago Nascimento <nascimenthiago@gmail.com>, Thomas Souza <tssilva86@gma Armazenamento de Dados em Redes
Overview
Apache Hadoop
Refer encias
Vis ao Geral
Arlley Vila Real <avrmattos@gmail.com>, Thiago Nascimento <nascimenthiago@gmail.com>, Thomas Souza <tssilva86@gma Armazenamento de Dados em Redes Hadoop
Overview
Apache Hadoop
Refer encias
Vis ao Geral
1. Carregar os dados no HDFS; 2. Realizar as opera c oes MapReduce; e 3. Recuperar os resultados no HDFS
Arlley Vila Real <avrmattos@gmail.com>, Thiago Nascimento <nascimenthiago@gmail.com>, Thomas Souza <tssilva86@gma Armazenamento de Dados em Redes Hadoop
Overview
Apache Hadoop
Refer encias
HDFS
Arlley Vila Real <avrmattos@gmail.com>, Thiago Nascimento <nascimenthiago@gmail.com>, Thomas Souza <tssilva86@gma Armazenamento de Dados em Redes Hadoop
Overview
Apache Hadoop
Refer encias
HDFS
Cria m ultiplas c opias dos blocos de dados e os distribui entre os n os do cluster, provendo extrema velocidade ao processamento. Divide cada arquivo fornecido em peda cos de tamanho xo de 64 Mb (padr ao) a 128 Mb, chamados de blocos, e os envia para diferentes m aquinas do cluster, replicando cada bloco tr es vezes durante essa distribui c ao.
Arlley Vila Real <avrmattos@gmail.com>, Thiago Nascimento <nascimenthiago@gmail.com>, Thomas Souza <tssilva86@gma Armazenamento de Dados em Redes Hadoop
Overview
Apache Hadoop
Refer encias
HDFS
Distribui c ao de Dados
Arlley Vila Real <avrmattos@gmail.com>, Thiago Nascimento <nascimenthiago@gmail.com>, Thomas Souza <tssilva86@gma Armazenamento de Dados em Redes Hadoop
Overview
Apache Hadoop
Refer encias
HDFS
Padr ao Master/Workers
Namenode (master): gerencia o namespace do sistema de arquivos e os acessos aos arquivos pelos clientes. Datanode: onde se localizam os blocos que comp oem um arquivo. Uma arquivo de entrada, depois de dividido em blocos de dados, e armazenado em um conjunto de Datanodes que cam respons aveis pelo seu gerenciamento.
Arlley Vila Real <avrmattos@gmail.com>, Thiago Nascimento <nascimenthiago@gmail.com>, Thomas Souza <tssilva86@gma Armazenamento de Dados em Redes Hadoop
Overview
Apache Hadoop
Refer encias
HDFS
Namenode e Datanodes
Arlley Vila Real <avrmattos@gmail.com>, Thiago Nascimento <nascimenthiago@gmail.com>, Thomas Souza <tssilva86@gma Armazenamento de Dados em Redes Hadoop
Overview
Apache Hadoop
Refer encias
MapReduce
Hadoop MapReduce
Arlley Vila Real <avrmattos@gmail.com>, Thiago Nascimento <nascimenthiago@gmail.com>, Thomas Souza <tssilva86@gma Armazenamento de Dados em Redes Hadoop
Overview
Apache Hadoop
Refer encias
MapReduce
Vis ao Geral
um framework para simplicar o processamento de dados E em grande escala, tirando proveito do poder do processamento em paralelo. Processamento pode ser realizado sob dados aramazenados em sistemas de arquivos (n ao-estruturado) ou em banco de dados (estruturado). O processamento MapReduce fundamentalmente e realizado em duas fases: Map e Reduce.
Arlley Vila Real <avrmattos@gmail.com>, Thiago Nascimento <nascimenthiago@gmail.com>, Thomas Souza <tssilva86@gma Armazenamento de Dados em Redes Hadoop
Overview
Apache Hadoop
Refer encias
MapReduce
Fase Map
O n o principal (master) recebe a entrada, divide em problemas menores e distribui para os outros n os participantes. Os workers processam o subproblema que receberam e repassam o resultado para o seu master. Workers tamb em podem repassar subproblemas para outros workers, ramicando a estrutura em v arios n veis, em formato de arvore. A sa da da fun c ao Map e processada pelo framework MapReduce antes de ser repassada ` a fun c ao Reduce.
Hadoop
Arlley Vila Real <avrmattos@gmail.com>, Thiago Nascimento <nascimenthiago@gmail.com>, Thomas Souza <tssilva86@gma Armazenamento de Dados em Redes
Overview
Apache Hadoop
Refer encias
MapReduce
Fase Map em a c ao
Arlley Vila Real <avrmattos@gmail.com>, Thiago Nascimento <nascimenthiago@gmail.com>, Thomas Souza <tssilva86@gma Armazenamento de Dados em Redes Hadoop
Overview
Apache Hadoop
Refer encias
MapReduce
Fase Reduce
O n o principal (master) recebe a resposta de todos os n os e os combina para obter a resposta para o problema original.
Arlley Vila Real <avrmattos@gmail.com>, Thiago Nascimento <nascimenthiago@gmail.com>, Thomas Souza <tssilva86@gma Armazenamento de Dados em Redes Hadoop
Overview
Apache Hadoop
Refer encias
MapReduce
Arlley Vila Real <avrmattos@gmail.com>, Thiago Nascimento <nascimenthiago@gmail.com>, Thomas Souza <tssilva86@gma Armazenamento de Dados em Redes Hadoop
Overview
Apache Hadoop
Refer encias
MapReduce
MapReduce em A c ao
Arlley Vila Real <avrmattos@gmail.com>, Thiago Nascimento <nascimenthiago@gmail.com>, Thomas Souza <tssilva86@gma Armazenamento de Dados em Redes Hadoop
Overview
Apache Hadoop
Refer encias
MapReduce
Detalhes de Uso
Cada uma das fases possui uma entrada e uma sa da de dados no formato de pares de informa c oes. Cada sa da e entrada e composta por uma lista (com uma ou mais ocorr encias) do par chave e o seu valor (como HashMap java). O programador implementa a l ogica das fun c oes de Map e Reduce, para assim alimentar o funcionamento do framework.
Arlley Vila Real <avrmattos@gmail.com>, Thiago Nascimento <nascimenthiago@gmail.com>, Thomas Souza <tssilva86@gma Armazenamento de Dados em Redes Hadoop
Overview
Apache Hadoop
Refer encias
MapReduce
Um arquivo simples de Log de acesso ao servidor composto pelo endere co de IP da m aquina, data e hora de acesso.
Arlley Vila Real <avrmattos@gmail.com>, Thiago Nascimento <nascimenthiago@gmail.com>, Thomas Souza <tssilva86@gma Armazenamento de Dados em Redes Hadoop
Overview
Apache Hadoop
Refer encias
MapReduce
O resultado da fase Map ser a o endere co IP como chave, e o valor como contador.
Arlley Vila Real <avrmattos@gmail.com>, Thiago Nascimento <nascimenthiago@gmail.com>, Thomas Souza <tssilva86@gma Armazenamento de Dados em Redes Hadoop
Overview
Apache Hadoop
Refer encias
MapReduce
Arlley Vila Real <avrmattos@gmail.com>, Thiago Nascimento <nascimenthiago@gmail.com>, Thomas Souza <tssilva86@gma Armazenamento de Dados em Redes Hadoop
Overview
Apache Hadoop
Refer encias
MapReduce
Arlley Vila Real <avrmattos@gmail.com>, Thiago Nascimento <nascimenthiago@gmail.com>, Thomas Souza <tssilva86@gma Armazenamento de Dados em Redes
Overview
Apache Hadoop
Refer encias
MapReduce
A fun c ao Reduce combina os resultados oriundos da fase anterior, e com base na chave (endere co de IP) e na soma dos valores (contador), obt em o total de acesso por m aquina.
Arlley Vila Real <avrmattos@gmail.com>, Thiago Nascimento <nascimenthiago@gmail.com>, Thomas Souza <tssilva86@gma Armazenamento de Dados em Redes Hadoop
Overview
Apache Hadoop
Refer encias
MapReduce
Arlley Vila Real <avrmattos@gmail.com>, Thiago Nascimento <nascimenthiago@gmail.com>, Thomas Souza <tssilva86@gma Armazenamento de Dados em Redes Hadoop
Overview
Apache Hadoop
Refer encias
MapReduce
Arlley Vila Real <avrmattos@gmail.com>, Thiago Nascimento <nascimenthiago@gmail.com>, Thomas Souza <tssilva86@gma Armazenamento de Dados em Redes Hadoop
Overview
Apache Hadoop
Refer encias
Hadoop.tar.gz
Hadoop.tar.gz
Arlley Vila Real <avrmattos@gmail.com>, Thiago Nascimento <nascimenthiago@gmail.com>, Thomas Souza <tssilva86@gma Armazenamento de Dados em Redes Hadoop
Overview
Apache Hadoop
Refer encias
Hadoop.tar.gz
Estrutura do hadoop-*.tar.gz
Arlley Vila Real <avrmattos@gmail.com>, Thiago Nascimento <nascimenthiago@gmail.com>, Thomas Souza <tssilva86@gma Armazenamento de Dados em Redes Hadoop
Overview
Apache Hadoop
Refer encias
Hadoop.tar.gz
Arlley Vila Real <avrmattos@gmail.com>, Thiago Nascimento <nascimenthiago@gmail.com>, Thomas Souza <tssilva86@gma Armazenamento de Dados em Redes Hadoop
Overview
Apache Hadoop
Refer encias
Hadoop.tar.gz
Considera co es Finais
O que e Hadoop? Tom White, em Hadoop - The Denitive Guide: Hadoop e feito para criar solu c oes para desenvolvedores que por acaso tem muitos dados para armazenas, ou muitos dados para analisar, ou muitas m aquinas para coordenar, e que n ao t em tempo, habilidade, ou vontade de se tornar um especialista em sistemas distribu dos a ponto de preparar uma infraetrutura para lidar com isso.
Arlley Vila Real <avrmattos@gmail.com>, Thiago Nascimento <nascimenthiago@gmail.com>, Thomas Souza <tssilva86@gma Armazenamento de Dados em Redes Hadoop
Overview
Apache Hadoop
Refer encias
Refer encias
1 U. O. A. Junior, Big Data na plataforma Java, Revista Java Magazine 103 2 Hadoop Tutorial - Yahoo! Developer Network, http:// developer.yahoo.com/hadoop/tutorial/module1.html
Arlley Vila Real <avrmattos@gmail.com>, Thiago Nascimento <nascimenthiago@gmail.com>, Thomas Souza <tssilva86@gma Armazenamento de Dados em Redes Hadoop