Escolar Documentos
Profissional Documentos
Cultura Documentos
VirtualBox
Índice
1. Introdução
2. Requisitos
3. Preparar Virtual Machine
3.1 Criação de VM e instalação de sistema operacional convidado
3.2 Instalando Adicionais para Convidado
4. Criação de cluster de máquinas virtuais
4.1 Configurações de Rede VM
4.2 Clonagem do Virtual Machine
4.3 Testando os IPs de rede atribuídos para VMs
4.4 Convertendo para estático IPs para VMs
5. configurações de pré-requisitos do Hadoop
5.1 Criação do usuário
5.2 ipv6 Disable
5.3 Ligar as máquinas (SSH Access)
6. Configuração do Hadoop
6.1 Baixar Hadoop
6.2 Atualização bashrc
6.3 Configurando o Hadoop
6.4 Formatando o NameNode
6.5 Iniciar o sistema de formatação Distribuído
6.6 Teste de MapReduce Job
6.7 Parando o Sistema Formato Distribuído
7. Conclusão
8. arquivos de configuração de download
1. Introdução
Apache Hadoop é projetado para uma instalação de cluster multi-máquina. Embora
seja possível para rodar em uma única máquina também para fins de teste, mas a
implementação real é para clusters multi-máquina. Mesmo se quisermos experimentar
uma configuração multi-máquina teremos vários sistemas que estão ligados uns aos
outros através da rede que não é possível sempre; E se você não tem múltiplos sistemas
para experimentar o Hadoop Cluster?
As máquinas virtuais vem para solucionar esse problema. Usando várias máquinas
virtuais você pode configurar o Hadoop Cluster usando um único sistema. Neste exemplo,
vamos discutir como configurar o Apache Hadoop Cluster usando máquinas virtuais.
2. Requisitos
VirtualBox (ou qualquer outro ambiente VM)
Lubuntu 15,04 (ou qualquer outro sabor linux de sua preferência)
VBox Adições Clientes arquivo de imagem (VBoxGuestAdditions.iso)
Eu pessoalmente prefiro Lubuntu, é leve e tem o LXDE e desktop GUI, ele retira todos
os componentes adicionais que estão presentes no Ubuntu e é uma boa opção para
máquinas virtuais.
1 sh ./VBoxLinuxAdditions.run
Nota: Neste ponto precisa reiniciar o sistema e passar para a próxima etapa, onde
vamos definir as configurações de rede para a máquina virtual.
3. Uma vez que as configurações de rede são feitas e servidor DHCP pronto, no
VirtualBox Manager, botão direito do mouse na máquina virtual e a partir da lista
e selecione “Configurações” no menu suspenso. A partir do configurações de
pop-up, selecione “Rede” e depois “Adapter2 ‘ check ‘ Ativar adaptador de
rede” e, em seguida, em ‘Anexado ao ‘dropdown’ escolher ‘adaptador só-Host’.
Na segunda lista suspensa, nomes de todos os adaptadores estarão disponíveis,
incluindo o que criamos na etapa anterior. Selecione desde o ‘dropwdown’, no
nosso exemplo é nomes como ‘vboxnet0’ . Isto irá anexar a máquina virtual para
esta rede particualr.
Definições da Máquina Virtual.
Agora temos uma máquina virtual pronta, clonar esta máquina virtual para criar
máquinas idênticas, isso nos salva do incômodo de todas as etapas anteriores e podemos
facilmente ter várias máquinas virtuais com a mesma configuração. Segue abaixo:
1. Clique com o botão direito do mouse sobre a máquina virtual e no menu suspenso
selecione ‘Clone’ .
2. No pop-up clone, mudar o nome da VM para ‘Hadoop2’ e selecione ‘reinicializar
o endereço MAC de todas as placas de rede “ e clique em Continuar.
Clonagem do Virtual Machine
Portanto, agora temos 2 máquinas na mesma rede. Temos para testar se tanto as
máquinas estão ligadas à configuração que adaptador de rede para o cluster. A seguir
estão os passos para fazer isso:
2.
1 ifconfig
Nota: executar a mesma tarefa para ambas as máquinas e confirmar que está tudo
bem.
Haverá um problema com esta configuração embora. IPs são alocados aleatoriamente
para os sistemas e pode mudar no futuro reinicializações. Hadoop precisa IPs estáticos
para acessar as máquinas no cluster, por isso temos de corrigir os IPs das máquinas para
ser estático sempre e atribuir IPs específicos para ambas as máquinas. Os seguintes passos
devem ser realizados em ambas as máquinas.
Arquivo de interfaces.
Criar usuários Hadoop em todas as máquinas. Para isso abra o terminal e digite os
seguintes comandos:
1 #create um grupo de usuários para Hadoop
2 sudo addgroup hadoop
3 #create hduser de usuário e adicioná-lo ao grupo de usuários hadoop
4 sudo adduser --ingroup hduser hadoop
1 cat/proc/sys/net/ipv6/conf/all/desativar-ipv6
O comando irá retornar 0 ou 1 como uma saída e nós queremos que seja uma vez que
simboliza que o IPv6 está desativado.
Agora, nós temos que certificar-se de que as máquinas são capazes de alcançar um ao
outro através da rede utilizando endereços IP estáticos e SSH. Para este exemplo, vamos
considerar hadoop1 máquina que o nó mestre e hadoop1 e hadoop2 tanto como os nós
escravos. Então nós temos que certificar-se de:
hadoop1 (master) deve ser capaz de conectar-se a si próprio utilizando
1 hadoop1 ssh
1 ssh hduser@hadoop2
Para conseguir isso, temos de gerar chaves SSH em cada máquina. Então, faça o login
para hadoop1 e seguindo as etapas mencionadas abaixo no terminal:
O segundo comando irá criar um par de chaves RSA para a máquina. A senha
para essa chave estará vazia como mencionado no comando. Ele vai pedir para o
caminho para armazenar a chave com caminho padrão ser $HOME/.ssh/id-
rsa.pub , apenas pressione Enter quando for solicitado a manter o mesmo
caminho. Se você pretende mudar o caminho, em seguida, lembre-se que, uma
vez que serão necessários na próxima etapa.
2. Ative o acesso SSH para a máquina com a chave criada na etapa anterior. Para
isso, temos de acrescentar a chave para a lista de chaves autorizadas da máquina.
3. Agora temos que adicionar o hduser@hadoop1 chave SSH pública’s (nó mestre)
para o arquivo de chaves autorizadas da hadoop2 hduser@máquina. Isso pode
ser feito usando os seguintes comandos no terminal de hadoop1 :
1 ssh-copy-id -i $ HOME/ .ssh/ id-ras.pub hduser@hadoop2
1 hadoop1 ssh
Isto irá ligar hadoop1 a si mesmo, se conectado com êxito, saia da conexão e
tentar conectar-se ao hadoop2 máquina
1 ssh hduser@hadoop2
6. Configuração do Hadoop
Então, estamos no passo em que nós completamos toda a configuração inicial e agora
estamos prontos para Hadoop instalação no Cluster.
1 su - hduser
2 nano $HOME/ .bashrc
1 export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-i386
2. Em seguida, vamos configurar o core-site.xml na pasta
/usr/local/hadoop/etc/hadoop/ e adicione a seguinte propriedade.
1 <Configuration>
2 <Property>
3 <Nome> fs.default.FS </ name>
4 <Valor> hdfs: // hadoop1: 54310 </ value>
5 </Property>
6 </Configuration>
Isso também terá de ser editado em todas as máquinas, mas todos os valores
campos deve apontar para o nó mestre única que é hadoop1 neste exemplo.
Assim, para ambas as máquinas, a mesma propriedade com o mesmo nome e o
valor precisa ser adicionado.
1 <Configuration>
2 <Property>
3 <Name> dfs.replication </ name>
4 <Valor> 2 </ value>
5 </Property>
6 <Property>
7 <Name> dfs.namenode.name.dir </ name>
8 <Value> /usr/local/hadoop/hdfs/namenode</ value>>
9 </ Property>
10 <Property>
11 <Name> dfs.datanode.data.dir </ name>
12 <Value> /usr/local/hadoop/hdfs/DataNode </ value>
13 </ Property>
14 </ Configuration>
1 hadoop1
2 hadoop2
Como hadoop1 atua como mestre e escravo por isso vamos adicionar ambos os
nomes de host.
Estamos agora feito com toda a configuração, por isso antes de iniciar o cluster
precisamos formatar o namenode. Para fazer isso, use o comando a seguir no hadoop1
(master) terminal de nó
Uma vez que o dfs começa sem qualquer erro, podemos navegar na interface web para
o NameNode em http://localhost:50070 no nó principal
Se você notar na parte inferior da tela, há dois nós ao vivo no momento o que confirma
que nosso cluster tem dois nós que esteja funcionando corretamente.
Nós também pode acessar a interface web de qualquer um dos nós escravos, mas para
aqueles que temos de usar o nome do host mestre ou endereço IP. Por exemplo, de
hadoop2 (nó escravo), podemos usar o endereço http://hadoop1:50070 para acessar a
interface web.
Hadoop interface Web a partir do nó escravo.
Esses diretórios podem ser acessados a partir da interface web também. Para fazer
isso, vá até a interface web, a partir do menu, selecione ‘Utilities’ e de suspenso
selecione “Procurar o sistema de arquivos ‘
Acessando diretórios em HDFS usando a interface web.
2. Agora, podemos adicionar alguns arquivos manequim para o diretório, que serão
utilizados para a finalidade de teste.Deixa a bunda todos os arquivos da
etc/hadoop pasta
1 /usr/local/hadoop/sbin/stop-dfs.sh
7. Conclusão
Isso nos leva à conclusão deste exemplo. Espero que isso faz com que seja um pouco
mais clara sobre como configurar o cluster do Hadoop em várias máquinas. No caso, um
cluster precisa ser configurado em várias máquinas físicas em vez de máquinas virtuais,
as instruções são semelhantes, exceto passos contendo 4,1 configurações VM de Rede e
4,2 clonagem da máquina virtual. Para cluster de máquinas físicas, podemos realizar todos
os outros passos sobre as máquinas e tudo deve funcionar sem problemas.
1. arquivo hosts
2. arquivo sysctl.conf
3. Hadoop 1 pasta (contém arquivos nó mestre)
o núcleo-site.xml
o hdfs-site.xml
o mapred-site.xml
o escravos
4. Hadoop 2 pasta (contém arquivos de notas de escravos)
o núcleo-site.xml
o hdfs-site.xml
Baixar: Você pode baixar todos os arquivos acima mencionados deste exemplo aqui:
HadoopClusterSetup
**Nota do editor: Este post foi publicado originalmente em 11 de Janeiro de 2016
por Raman Jhajj no site https://examples.javacodegeeks.com em inglês e foi atualizado
para aumentar a precisão e a abrangência.