Escolar Documentos
Profissional Documentos
Cultura Documentos
2
Objetivos da aula
Introdução a Tecnologias
Importantes do Ecossistema
Hadoop
Preparação de Infraestrutura
com Hortonworks HDP
3
3
Hive
✔ Não existe um esquema predefinido para tabelas; ✔ Tabelas RDBMS têm esquema fixo, que
✔ Tabelas esparsas:
✔ Não desperdiça espaço
quando armazena dados
esparsos;
✔ Atributos dinâmicos:
✔ Atualizam os atributos
dinamicamente sem alterar a
estrutura de armazenamento;
✔ Você pode usar o Sqoop para importar dados do MySQL ou Oracle para o
HDFS, transformar os dados no MapReduce e, em seguida, exportar os
dados de volta para um RDBMS;
Hadoop File
RDBMS IMPORT System
(MySQL, Oracle,
PostgreSQL, DB2) (HDFS, Hive,
HBase)
EXPORT
20
Notebook Zeppelin
✔ O Oozie permite combinar vários trabalhos complexos para ser executado em uma
ordem sequencial para realizar uma tarefa maior;
✔ Dentro de uma sequência de tarefas, dois ou mais trabalhos também podem ser
programados para serem executados paralelamente ao outro;
✔ Suporta suporta vários trabalhos no Hadoop, como, por exemplo, Hive, Pig, Sqoop, além de
trabalhos específicos do sistema (Java e Shell).
23
Introdução ao Spark
✔ https://br.hortonworks.com/downloads/#sandbox
✔ Baixar a versão Hortonworks Data Platform (HDP®) 2.6.5 on Hortonworks
Sandbox para VirtualBox
31
32
33
34
35
36
37
Agora vire usuário root para executar o comando de alteração de senha do usuário admin
(defina a senha 4linux):
[maria_dev@sandbox ~]$ sudo -s
2 [root@sandbox ~]# ambari-admin-password-reset
[root@sandbox ~]# exit
[maria_dev@sandbox ~]$
38
Para baixar os arquivos que vamos usar no curso use o comando git:
[seuusuario@localhost ~]$ cd ~
[seuusuario@localhost ~]$ git clone
1 https://github.com/4linux/hadoop.git
[seuusuario@localhost ~]$ ls ~/hadoop
[seuusuario@localhost ~]$ ls ~/hadoop/ml-100k
39
Senha: maria_dev
(a senha é o login)
40
41
HDFS View
42
43
44
45