Você está na página 1de 9

HADOOP

JEANE A. MENEGUELI
HADOOP

• Plataforma de computação distribuída voltada para clusters e


processamentos de grandes volumes de dados.
• Código aberto
• Criado por Doug Cutting do Google Labs em 2005
• Criação motivada pelo desafio da escalabilidade para conseguir indexar
bilhões de páginas na web
• Foi projetado para paralelizar o processamento de dados através de nós de
computação, acelerar processamentos e esconder a latência (atraso no
tempo de resposta)
MÓDULOS DO HADOOP
• HADOOP HDSF e HADOO YARN:
• Componentes principais que implementam o armazenamento e o processamento
distribuído

• HADOOP DISTRIBUTED FILE SYSTEM (HDFS):


• Sistema de Arquivos distribuído que armazena dados em máquinas dentro do cluster,
sob demanda, permitindo uma largura de banda muito grande em todo o cluster.
Gerencia os dados armazenados em disco no cluster.

• HADOOP YARN:
• Plataforma de Gerenciamento de recursos do cluster. Aloca recursos computacionais
para aplicações que queiram fazer um processamento distribuído.

• HADOOP MAPREDUCE:
• modelo de programação paralela e distribuída para processamento em larga escala.
Todo o MapReduce original está implementado agora no HADOOP YARN.
MÓDULOS DO HADOOP
• HADOOP COMMOM
• Contém as bibliotecas e arquivos comuns e necessários para todos os módulos Hadoop.
• HADOOP DISTRIBUTED FILE SYSTEM (HDFS):
• Sistema de Arquivos distribuído que armazena dados em máquinas dentro do cluster, sob
demanda, permitindo uma largura de banda muito grande em todo o cluster. Gerencia os
dados armazenados em disco no cluster.
• HADOOP YARN:
• Plataforma de Gerenciamento de recursos do cluster. Aloca recursos computacionais para
aplicações que queiram fazer um processamento distribuído.
• HADOOP MAPREDUCE:
• modelo de programação paralela e distribuída para processamento em larga escala. Todo
o MapReduce original está implementado agora no HADOOP YARN.
• HADOOP HDSF e HADOO YARN:
• Componentes principais que implementam o armazenamento e o processamento
distribuído
HADOOP - INSTALAÇÃO

Formas de instalação e execução da plataforma:


• Modo local ou independente: útil para desenvolver e testar um
aplicativo
• Modo Pseudo distribuído: executa em um único nó em modo
pseudo distribuído (cada instância do processo Hadoop executa
como um processo Java diferente)
• Modo totalmente distribuído: hadoop é configurado em cluster
com máquinas físicas (ou virtualizadas), cada uma com um
endereço IP válido.
HADOOP - INSTALAÇÃO

• Windows
• https://cwiki.apache.org/confluence/display/HADOOP2/Hadoop2OnWindows
• Linux
• http://www.apache.org/dyn/closer.cgi/hadoop/common/
• https://www.youtube.com/watch?v=db_-JfTRKxQ
• Virtual Box
• https://www.youtube.com/watch?v=znC8S0H_7QQ
• Cluster de Nó único
• https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-
common/SingleCluster.html
• Cluster com alguns nós
• Cluster com milhares de nós
HADOOP – REQUISITOS

• Java / JDKs
• https://cwiki.apache.org/confluence/display/HADOOP2/HadoopJavaVers
ions

• Virtual Box (*)


HADOOP - DOWNLOAD

• hadoop.apache.org
• https://www.cloudera.com/downloads/cdp-private-cloud-trial.html
• Espelhos
• http://www.apache.org/dyn/closer.cgi/hadoop/common/
• Cloudera
• www.cloudera.com/downloads.html
HADOOP

• Instalação do Hadoop (instalação padrão do projeto Apache) – Passo a passo:


• https://www.devmedia.com.br/hadoop-fundamentos-e-instalacao/29466#ambiente
• Como baixar e instalar hadoop:
• https://www.youtube.com/watch?v=He7a8Qmq_AM
• https://medium.com/@rdrony43/como-instalar-e-configurar-apache-hadoop-2-9-0-38bebbbcfd8d
• Hadoop Cloudera – Baixar e instalar:
• https://www.youtube.com/watch?v=Swuf_t9N4jo&list=PLeFetwYAi-F_l-NP-
TUE2MqKeu_haMP79&index=3

• Hadoop Cloudera – Principais comandos


• https://www.youtube.com/watch?v=ydXsMSV6iLQ&list=PLeFetwYAi-F_l-NP-
TUE2MqKeu_haMP79&index=5

Você também pode gostar