Você está na página 1de 266

www.datascienceacademy.com.

br


Engenharia de Dados com Hadoop e
Spark



Instalação e Configuração do Ecosistema Hadoop


Instalação e Configuração do Ecosistema Hadoop

1. Versão ............................................................................................................................ 4
2. Configuração do Ambiente ............................................................................................. 5
2.1. Criação da Máquina Virtual no VirtualBox ............................................................................ 6
2.2. Instalação do Sistema Operacional ..................................................................................... 15
2.3. Instalação da Interface Gráfica Básica ................................................................................ 30
2.4. Instalação de Utilitários do Sistema Operacional ................................................................ 46
2.5. Instalação do MySQL .......................................................................................................... 57
3. Instalação do servidor ssh .............................................................................................. 67
4. Instalação do Java 8 ....................................................................................................... 81
4.1. Instalação do JRE ............................................................................................................... 81
4.2. Instalação do JDK ............................................................................................................... 84
5. Instalação e Configuração do Hadoop ............................................................................ 96
5.1. Desabilitando ipv6 ............................................................................................................. 96
5.2. Configuração do ssh ........................................................................................................... 98
5.3. Download e Instalação do Hadoop ................................................................................... 108
5.3.1. Editando o arquivo hosts ................................................................................................ 108
5.3.2. Download do Hadoop .................................................................................................... 110
5.4. Configuração do Hadoop .................................................................................................. 116
5.4.1. Editar arquivos de configuração do Hadoop .................................................................. 116
5.4.2. Formatando o Namenode .............................................................................................. 133
5.4.3. Iniciando o Hadoop ........................................................................................................ 135
5.4.4. Iniciando o Yarn .............................................................................................................. 138
5.5. Processando Big Data ....................................................................................................... 142
6. Instalação e Configuração do Zookeeper ...................................................................... 160
6.1. Download e Instalação do Zookeeper .............................................................................. 160
6.2. Configurando do Zookeeper ............................................................................................. 164
7. Instalação e Configuração do HBase ............................................................................. 176
7.1. Download e Instalação do HBase ..................................................................................... 176
7.2. Configurando o HBase ...................................................................................................... 180
8. Instalação e Configuração do Hive ............................................................................... 191
8.1. Download e Instalação do Hive ........................................................................................ 191
8.2. Configurando o Hive ........................................................................................................ 196
9. Instalação e Configuração do Pig .................................................................................. 207
9.1. Download e Instalação do Pig .......................................................................................... 207
9.2. Configurando do Pig ......................................................................................................... 212
10. Instalação e Configuração do Spark .......................................................................... 219
10.1. Download e Instalação do Spark ...................................................................................... 219
11. Instalação e Configuração do Sqoop ......................................................................... 229
11.1. Download do Sqoop ......................................................................................................... 229
11.2. Configuração do Sqoop .................................................................................................... 234

Data Science Academy 2


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop

12. Instalação e Configuração do Apache Flume ............................................................. 242
13. Instalação e Configuração do Ambari (Opcional) ...................................................... 252


Data Science Academy 3


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop

1. Versão

Este documento foi criado pela equipe Data Science Academy e pode ser distribuído
livremente, desde que se faça menção à fonte.

Versão Ação Data
1.0 Criação do documento 25/05/2016
1.1 Procedimento de instalação de mais aplicativos 29/06/2016
1.2 Procedimento de instalação do MySQL 15/07/2016
1.3 Atualização de versão de software 02/09/2016
1.4 Atualização de versão de software 25/09/2016
1.5 Revisão e correção de bugs 21/08/2017

Data Science Academy 4


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop

2. Configuração do Ambiente

Item Versão
Virtual Box 5.16
Sistema Operacional CentOS 7.2 (64 bits) ou CentOS 6.8 (32 bits)
Interface Gráfica Gnome
Firefox Web Browser 45.4
Java 1.8.0_102
Apache Hadoop 2.7.3
Apache Zookeeper 3.4.9
Apache Hbase 1.2.3
Apache Hive 2.1.0
Apache Pig 0.16.0
Apache Spark 2.0.0
Apache Sqoop 1.4.6-hadoop-2.0.4-alpha
Apache Flume 1.6.0
Apache Ambari 2.4.1

Data Science Academy 5


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop

2.1. Criação da Máquina Virtual no VirtualBox

O Oracle VM Virtual Box é gratuito e pode ser baixado em https://www.virtualbox.org.
Existem versões disponíveis para Windows, MAC, Linux e Solaris. Aqui utilizaremos a versão 5.0
e o tutorial será o mesmo independente do sistema operacional do seu computador. Caso você
não esteja usando máquina virtual, pode pular direto para o item 2.2.


Abrindo o Gerenciador do Oracle Virtual Box

Data Science Academy 6


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Definindo o nome da máquina virtual e a versão do sistema operacional

Data Science Academy 7


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


4 GB de memória são recomendados, mas não obrigatórios

Data Science Academy 8


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Criar um novo disco rígido virtual

Data Science Academy 9


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Selecionando a opção VMDK

Data Science Academy 10


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


O disco deve ser alocado dinamicamente

Data Science Academy 11


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Selecione 64 GB para o disco virtual

Data Science Academy 12


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Máquina virtual criada

Data Science Academy 13


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Selecione a mídia de instalação do sistema operacional

Utilizaremos o Cent OS versão 7. Recomendamos a mídia Minimal ISO, pois construiremos


nosso sistema a partir da instalação básica do sistema operacional


CentOS 64 bits (versão 7.2):
http://isoredirect.centos.org/centos/7/isos/x86_64/CentOS-7-x86_64-Minimal-1511.iso


CentOS 32 bits (versão 6.8):
http://centos.mirror.netelligent.ca/centos/



Data Science Academy 14


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop

2.2. Instalação do Sistema Operacional


Instalação do Sistema Operacional CentOS 7

Data Science Academy 15


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Seleção do idioma

Data Science Academy 16


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Opções de configuração

Data Science Academy 17


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Timezone

Data Science Academy 18


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Layout do teclado

Data Science Academy 19


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Idioma do sistema operacional

Data Science Academy 20


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Política de segurança padrão

Data Science Academy 21


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Instalação Mínima do Sistema Operacional – A interface gráfica será instalada manualmente

Data Science Academy 22


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Disco

Data Science Academy 23


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Configuração de Rede e nome do servidor – dataserver
Certifique-se de habilitar a opção de ativar a Ethernet (botão on)


Data Science Academy 24


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Definir senha do root – usuário administrador

Data Science Academy 25


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Definir senha do root – usuário administrador
Senha: dsacademy

Data Science Academy 26


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Criação de um usuário – Aluno
(username: aluno, senha: dsacademy)

Data Science Academy 27


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Conclusão da instalação

Data Science Academy 28


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop



Tela inicial de login

Data Science Academy 29


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


2.3. Instalação da Interface Gráfica Básica


yum groupinstall “X Window System”

Data Science Academy 30


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Concluído com sucesso

Data Science Academy 31


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


yum install gnome-classic-session

Data Science Academy 32


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Concluído com sucesso

Data Science Academy 33


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


yum install control-center gnome-terminal nautilus-open-terminal liberation-mono-fonts

Data Science Academy 34


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Concluído com sucesso

Data Science Academy 35


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


yum install kernel-devel

Data Science Academy 36


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Concluído com sucesso

Data Science Academy 37


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Atualização do sistema operacional

Data Science Academy 38


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Concluído

Data Science Academy 39


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


unlink /etc/systemd/system/default.target

Data Science Academy 40


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


ln –sf /lib/systemd/system/graphical.target /etc/systemd/system/default.target

Data Science Academy 41


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


reboot

Data Science Academy 42


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Login

Data Science Academy 43


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Senha

Data Science Academy 44


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Instalação concluída com sucesso




Primeiro checkpoint:

Clique no meu File – Export Appliance.
Será gerada uma cópia de segurança da sua máquina virtual.

à VM: DataServer-v1.0.ova (Apenas SO)

Data Science Academy 45


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop

2.4. Instalação de Utilitários do Sistema Operacional


Abrindo o terminal

Data Science Academy 46


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Efetuar login como root, usando o comando su

Data Science Academy 47


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Instalar o editor de texto gedit, com o comando yum install gedit

Data Science Academy 48


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


gedit instalado

Data Science Academy 49


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Editar o arquivo /etc/sudoers usando o gedit

Data Science Academy 50


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Incluir no arquivo, a linha marcada acima e salvar o arquivo. Isso permitirá o usuário aluno
executar comandos de administrador (root)

Data Science Academy 51


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Conectado como usuário aluno, instalar o Firefox com o comando: sudo yum install firefox

Data Science Academy 52


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Instalação concluída

Data Science Academy 53


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Firefox instalado

Data Science Academy 54


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Instalar outros aplicativos: bzip2, unzip, rsync, wget e net-tools

Data Science Academy 55


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Aplicativos instalados


















Data Science Academy 56


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop

2.5. Instalação do MySQL

Obs: O CentOS 7 substituiu o MySQL (banco de dados relacional) pelo MariaDB. Mas ainda é
possível usar comandos MySQL com o MariaDB, que na prática são muito parecidos. Usaremos
o MariaDB para fazer os testes de importação de dados de bancos de dados relacionais para o
Hadoop.


Instalação do MariaDB

Data Science Academy 57


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Instalação concluída

Data Science Academy 58


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Iniciando o serviço

Data Science Academy 59


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Habilitando a inicialização no boot

Data Science Academy 60


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Habilitado

Data Science Academy 61


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Definindo a senha do administrador (senha: dsacademy)

Data Science Academy 62


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Iniciando o console

Data Science Academy 63


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Sucesso!!!

Data Science Academy 64


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Executando uma query

Data Science Academy 65


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Query executada com sucesso

Data Science Academy 66


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop

3. Instalação do servidor ssh


Abrindo o terminal


Data Science Academy 67


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


sudo yum install openssh-server openssh-clients

Data Science Academy 68


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Concluído

Data Science Academy 69


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


sudo chkconfig sshd on

Data Science Academy 70


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Ok

Data Science Academy 71


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


sudo service sshd start

Data Science Academy 72


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Ok




Data Science Academy 73


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


sudo netstat –tulpn | grep :22

Data Science Academy 74


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Ok




Data Science Academy 75


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


sudo gedit /etc/ssh/sshd_config

Data Science Academy 76


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Primeira parte da configuração ssh. Remover o símbolo (#) de comentário das 3 linhas
marcadas acima

Data Science Academy 77


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Segunda parte da configuração do ssh

Data Science Academy 78


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


sudo service sshd restart

Data Science Academy 79


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Ok






Data Science Academy 80


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop

4. Instalação do Java 8

4.1. Instalação do JRE


Instalação do JRE – Comando sudo yum install java


Data Science Academy 81


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Concluído

Data Science Academy 82


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


java –version à Java instalado


Data Science Academy 83


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop

4.2. Instalação do JDK


No site da Oracle, fazer o download do JDK

Data Science Academy 84


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Download do arquivo











Data Science Academy 85


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Executar o comando tar para descompactar o arquivo: tar -xzf jdk-8u102-linux-x64.tar.gz


Data Science Academy 86


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Mover o diretório do JDK


Data Science Academy 87


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Criaremos links simbólicos para facilitar as configurações posteriores

Data Science Academy 88


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Link criado. O JDK agora aponta para /opt/jdk



Data Science Academy 89


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Vamos criar um link também para o JRE

Data Science Academy 90


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


O JRE agora aponta para /opt/jre







Data Science Academy 91


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


cd ~

Data Science Academy 92


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


gedit .bashrc

Data Science Academy 93


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Editar as variáveis de ambiente conforme acima e salvar o arquivo

Data Science Academy 94


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


source .bashrc






Segundo checkpoint:

Clique no meu File – Export Appliance.
Será gerada uma cópia de segurança da sua máquina virtual.


à VM: DataServer-v2.0.ova (SO e Utilitários)






Data Science Academy 95
www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop

5. Instalação e Configuração do Hadoop

5.1. Desabilitando ipv6


Editar o arquivo /etc/sysctl.conf para desabilitar o ipv6



Data Science Academy 96


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Incluir as linhas acima e salvar o arquivo


Data Science Academy 97


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


5.2. Configuração do ssh


ssh-keygen –t rsa

Data Science Academy 98


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Pressionar Enter

Data Science Academy 99


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Pressionar Enter

Data Science Academy 100


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Pressionar Enter

Data Science Academy 101


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Chave de segurança gerada

Data Science Academy 102


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


cat ˜/.ssh/id_rsa.pub >> ˜/.ssh/authorized_keys

Data Science Academy 103


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


chmod 0600 ˜/.ssh/authorized_keys

Data Science Academy 104


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


ssh localhost

Data Science Academy 105


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Yes

Data Science Academy 106


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Conexão ssh sem senha. Parabéns, seu servidor está pronto para receber o Hadoop!!













Data Science Academy 107


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop

5.3. Download e Instalação do Hadoop

5.3.1. Editando o arquivo hosts


Editar o arquivo hosts

Data Science Academy 108


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Incluir a última linha conforme acima


















Data Science Academy 109


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop

5.3.2. Download do Hadoop


Acessar a página de downloads do Hadoop e selecionar a opção binary. O arquivo será baixado
no diretório /home/aluno/Downloads

Data Science Academy 110


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Outra opção para fazer o download pela linha de comando

Data Science Academy 111


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Descompactar o arquivo

Data Science Academy 112


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Mover o diretório para /usr/local/hadoop-2.7.3

Data Science Academy 113


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Criar um link simbólico em /opt/hadoop

Data Science Academy 114


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Link simbólico criado

















Data Science Academy 115


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop

5.4. Configuração do Hadoop

5.4.1. Editar arquivos de configuração do Hadoop



Os arquivos de configuração do Hadoop estão em
[Diretório de instalação do Hadoop]/etc/hadoop
Nesse caso: /opt/hadoop/etc/hadoop

Data Science Academy 116


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Editar o arquivo hadoop-env.sh

Data Science Academy 117


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Editar/acrescentar as linhas acima

Data Science Academy 118


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Editar o arquivo core-site.xml

Data Science Academy 119


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Acrescentar as propriedades conforme acima e salvar o arquivo. Isso permite configurar o
Hadoop em modo Pseudo-distribuído

Data Science Academy 120


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Editar o arquivo hdfs-site.xml

Data Science Academy 121


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Acrescentar as propriedades conforme acima e salvar o arquivo

Data Science Academy 122


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Copiar o arquivo template e gerar o arquivo mapred-site.xml

Data Science Academy 123


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Editar mapred-site.xml

Data Science Academy 124


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Acrescentar as propriedades conforme acima e salvar o arquivo

Data Science Academy 125


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Editar o arquivo yarn-site.xml

Data Science Academy 126


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Acrescentar as propriedades conforme acima e salvar o arquivo

Data Science Academy 127


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Ir para o diretório home e limpar a tela

Data Science Academy 128


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Editar o arquivo .bashrc

Data Science Academy 129


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Acrescentar os executáveis do Hadoop no PATH e variáveis de ambiente

Data Science Academy 130


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


source .bashrc

Data Science Academy 131


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


hadoop version à Hadoop instalado com sucesso!! Parabéns!

















Data Science Academy 132


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop

5.4.2. Formatando o Namenode


hdfs namenode –format

Data Science Academy 133


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Formatação realizada com sucesso


















Data Science Academy 134


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop

5.4.3. Iniciando o Hadoop


start-dfs.sh

Data Science Academy 135


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Hadoop iniciado

Data Science Academy 136


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Checando os serviços inicializados com o comando jps

















Data Science Academy 137


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop

5.4.4. Iniciando o Yarn


start-yarn.sh

Data Science Academy 138


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Yarn iniciado

Data Science Academy 139


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Checando os serviços com o comando jps

Data Science Academy 140


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Visualizando jobs – http://localhost:8088

















Data Science Academy 141


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop

5.5. Processando Big Data


Criar o diretório bigdata mo HDFS

Data Science Academy 142


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Listar o HDFS e checar o diretório criado

Data Science Academy 143


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Acessar o portal de dados abertos do governo federal

Data Science Academy 144


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Clicar no link de compras públicas

Data Science Academy 145


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Baixar o arquivo de contratos em formato csv

Data Science Academy 146


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Copiar o arquivo para a pasta bigdata no HDFS

Data Science Academy 147


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Listar o diretório bigdata

Data Science Academy 148


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Ver o conteúdo do arquivo

Data Science Academy 149


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Conteúdo do arquivo já gravado no HDFS

Data Science Academy 150


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


A instalação do Hadoop possui um job chamado wordcount, que pode ser usado como exemplo
para processamento de Big Data. Basicamente, o job conta a ocorrência de cada palavra no
arquivo. Vamos executar com o comando acima.

Data Science Academy 151


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Job sendo processado

Data Science Academy 152


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


job processado com sucesso

Data Science Academy 153


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


job processado com sucesso

Data Science Academy 154


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Vamos ver o resultado do processamento

Data Science Academy 155


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Arquivo processado. Número de ocorrência de cada palavra/termo no arquivo.

Data Science Academy 156


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Acesso ao Hadoop pelo browser: http://dataserver:50070


Data Science Academy 157


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Acesso ao Hadoop pelo browser: http://dataserver:50075

Data Science Academy 158


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Acesso ao Hadoop pelo browser: http://dataserver:50090




Terceiro checkpoint:

Clique no meu File – Export Appliance.
Será gerada uma cópia de segurança da sua máquina virtual.

à VM: DataServer-3.0.ova (Hadoop)

Data Science Academy 159


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop

6. Instalação e Configuração do Zookeeper



6.1. Download e Instalação do Zookeeper


Download do Zookeeper – Versão 3.4.9


Data Science Academy 160


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Descompactar o arquivo

Data Science Academy 161


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Mover o diretório do Zookeeper para /usr/local

Data Science Academy 162


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Criar link simbólico no diretório /opt

















Data Science Academy 163


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop

6.2. Configurando do Zookeeper


Criar o diretório data dentro de /opt/zookeeper

Data Science Academy 164


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Acessar o diretório /opt/zookeeper/conf

Data Science Academy 165


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


A partir do arquivo template, gerar o arquivo zoo.cfg

Data Science Academy 166


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Editar o arquivo zoo.cfg

Data Science Academy 167


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Editar o arquivo conforme tela acima

Data Science Academy 168


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Incluir variáveis Zookeeper no /home/aluno/.bashrc

Data Science Academy 169


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Variáveis Zookeeper

Data Science Academy 170


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


source .bashrc

Data Science Academy 171


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Iniciar o zookeeper

Data Science Academy 172


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Serviço iniciado

Data Science Academy 173


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Iniciar o Zookeeper Command Line Interface (CLI)

Data Science Academy 174


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


CLI iniciado

Data Science Academy 175


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop

7. Instalação e Configuração do HBase

Podemos instalar HBase em qualquer um dos três modos: Standalone mode, Pseudo
Distributed mode e Fully Distributed mode.

7.1. Download e Instalação do HBase


Download do Hbase – Versão 1.2.3

Data Science Academy 176


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


tar –zxf hbase-1.2.3-bin.tar.gz

Data Science Academy 177


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Mover o diretório do HBase para /usr/local

Data Science Academy 178


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Criar um link simbólico em /opt

















Data Science Academy 179


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop

7.2. Configurando o HBase


No diretório /opt/hbase/conf, editar o arquivo hbase-env.sh

Data Science Academy 180


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Editar o PATH do Java e comentar as linhas do PermSize

Data Science Academy 181


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


No mesmo diretório conf, editar o arquivo hbase-site.xml

Data Science Academy 182


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Incluir as linhas entre as tags <configuration>

Data Science Academy 183


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Editar o arquivo .bashrc

Data Science Academy 184


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Variáveis HBase

Data Science Academy 185


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


source .bashrc

Data Science Academy 186


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Iniciar o Hbase - start-hbase.sh

Data Science Academy 187


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Hbase iniciado

Data Science Academy 188


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Abrir o shell do Hbase

Data Science Academy 189


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Shell iniciado

Data Science Academy 190


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop

8. Instalação e Configuração do Hive

8.1. Download e Instalação do Hive


Download do Hive – Versão 2.1.0


Data Science Academy 191


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Descompactando o arquivo

Data Science Academy 192


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Movendo o diretório do Hive para /usr/local

Data Science Academy 193


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Criando o link simbólico para o Hive no diretório /opt

Data Science Academy 194


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Link criado


















Data Science Academy 195


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop

8.2. Configurando o Hive


Editando o arquivo .bashrc

Data Science Academy 196


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Variáveis de ambiente do Hive

Data Science Academy 197


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


source .bashrc

Data Science Academy 198


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


A partir do arquivo template, gerar o arquivo hive-env.sh

Data Science Academy 199


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Editar o arquivo

Data Science Academy 200


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Incluir PATH do Hadoop, conforme tela acima

Data Science Academy 201


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


A partir do template, gerar o arquivo hive-site.xml

Data Science Academy 202


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Editar as linhas conforme cima



Data Science Academy 203


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Inicializar o schema do Hive
schematool -initSchema -dbType derby


Data Science Academy 204


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Executando o Hive (execute o comando jps para se certificar que o Hadoop está ativo)

Data Science Academy 205


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


O comando “show tables;” demonstra que o Hive foi instalado com sucesso




Data Science Academy 206


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop

9. Instalação e Configuração do Pig

9.1. Download e Instalação do Pig


Download do Pig – Versão 0.16.0


Data Science Academy 207


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Descompactando o arquivo

Data Science Academy 208


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Movendo a pasta do Pig para /usr/local

Data Science Academy 209


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Criar link simbólico para o diretório de instalação do Pig

Data Science Academy 210


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Link criado

















Data Science Academy 211


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop

9.2. Configurando do Pig


Editando o arquivo .bashrc

Data Science Academy 212


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Inserir variáveis de ambiente do Pig

Data Science Academy 213


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


source .bashrc

Data Science Academy 214


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Pig instalado com sucesso

Data Science Academy 215


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


O comando pig –h properties lista as variáveis configuradas

Data Science Academy 216


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Variáveis Pig

Data Science Academy 217


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Verificar a versão do Pig


Data Science Academy 218


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop

10. Instalação e Configuração do Spark


10.1. Download e Instalação do Spark


Download do Spark – Versão 2.0.0

Data Science Academy 219


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Descompactando o arquivo

Data Science Academy 220


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Copiando o diretório do Spark para /usr/local

Data Science Academy 221


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Criando o link simbólico

Data Science Academy 222


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Editando o arquivo .bashrc

Data Science Academy 223


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop



Incluir variáveis Spark

Data Science Academy 224


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


source .bashrc



Data Science Academy 225


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Se necessário chmod 777 /tmp/hive

Data Science Academy 226


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Spark shell

Data Science Academy 227


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Acessando o Apache Spark pelo browser em http://localhost:4040

Data Science Academy 228


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop

11. Instalação e Configuração do Sqoop



11.1. Download do Sqoop


Download do Sqoop – Versão 1.4.6-hadoop-2.0.4-alpha

Data Science Academy 229


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Download concluído

Data Science Academy 230


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Descompactar o arquivo e mover a pasta do Sqoop para /usr/local

Data Science Academy 231


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Criar um link simbólico na pasta /opt

Data Science Academy 232


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Link criado


















Data Science Academy 233


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop

11.2. Configuração do Sqoop


Editar arquivo .bashrc

Data Science Academy 234


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Incluir variáveis Sqoop

Data Science Academy 235


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


source .bashrc

Data Science Academy 236


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


A partir do template, criar o arquivo sqoop-env.sh e editá-lo

Data Science Academy 237


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Editar o arquivo

Data Science Academy 238


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Editar variáveis conforme tela acima

Data Science Academy 239


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


sqoop version

Data Science Academy 240


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Sqoop version


















Data Science Academy 241


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop

12. Instalação e Configuração do Apache Flume


Download do Apache Flume – Versão 1.6

Data Science Academy 242


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Decompactar o arquivo

Data Science Academy 243


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Mover o diretório para /usr/local

Data Science Academy 244


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Criar o link simbólico

Data Science Academy 245


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Editar as variáveis de ambiente

Data Science Academy 246


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Variáveis de ambiente para o Flume

Data Science Academy 247


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Editar o arquivo flume-env.sh

Data Science Academy 248


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Acrescentar o JAVA_HOME

Data Science Academy 249


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Testar a instalação

Data Science Academy 250


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Flume instalado com sucesso

Data Science Academy 251


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop

13. Instalação e Configuração do Ambari (Opcional)

Nota: No CentOS, o Ambari pode ser instalado mais facilmente através do gerenciador de
pacotes yum.


Conectado como root, acessar o diretório de repositórios do CentOS

Data Science Academy 252


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Download do arquivo de repositório do Ambari

Data Science Academy 253


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Como root, executar: yum install ambari-server

Data Science Academy 254


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Instalação do Ambari

Data Science Academy 255


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Instalação concluída com sucesso

Data Science Academy 256


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Configuração do Ambari

Data Science Academy 257


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Configuração do Ambari

Data Science Academy 258


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Configuração do Ambari

Data Science Academy 259


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Configuração em andamento

Data Science Academy 260


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Configuração concluída

Data Science Academy 261


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Inicializar o Ambari

Data Science Academy 262


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Inicializado

Data Science Academy 263


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Acessar o browser – http://dataserver:8080 - usuário: admin / senha: admin

Data Science Academy 264


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop


Pronto para configuração do cluster




Quarto checkpoint:

Clique no meu File – Export Appliance.
Será gerada uma cópia de segurança da sua máquina virtual.

à VM: DataServer-vFinal.ova (Completa)


Download disponível em :
http://datascienceacademy.com.br/blog/aluno/EngenhariaHadoopSpark/VMs

Data Science Academy 265


www.datascienceacademy.com.br
Instalação e Configuração do Ecosistema Hadoop



Parabéns!

Você tem um ambiente de testes para
armazenar e processar Big Data!

Data Science Academy 266


www.datascienceacademy.com.br

Você também pode gostar