Disciplina 7 - Arquitetura de Big Data

PLANO DE ENSINO
Disciplina: Arquitetura de Big Data Carga Horária: 40h

Professor: Dr. Leonardo Afonso Amorim
Ementa
Instalação e configuração do ambiente Big Data com Hadoop;

Soluções para armazenamento de dados estruturados em ambientes
Big Data; Armazenamento colunar com ORC; Soluções para construir
um Data Lake. Atividades práticas nas ferramentas do ecossistema
hadoop, visando preparar profissionais para lidar com os desafios de
arquitetura de Big Data.
Objetivos
 Objetivo Geral
o Trabalhar com Apache Hadoop
 Objetivos Específicos
o Planejar a instalação de um cluster Hadoop
o Instalar e gerenciar um cluster Hadoop
o Executar comandos no HDFS
o Armazenar dados no formato estruturado com Hive
o Armazenar dados semiestruturados e estruturados com Hbase
o Executar jobs com PySpark
Conteúdo
Instalação e Gerenciamento de um cluster Hadoop
 Apache Ambari
 Instalação e gerenciamento de um cluster com Apache Ambari
 Adicionar e remover um nó do Cluster com Ambari
 Como adicionar e remover serviços com Ambari
 Definindo qual a infraestrutura necessária para criar um cluster Hadoop
Comandos Hadoop
 Conhecer e importar a sandbox HDP da Hortonworks para executar

laboratórios do Hadoop
 Comandos HDFS – Comandos básicos para gerenciamento de
arquivos / diretórios
ETL e Análise de Dados com Apache Pig
 Carregamento e armazenamento de Dados com o Pig

 Gerenciamento de Tabelas com o Pig
 Operações no Pig: Agrupamento, Filtragem, Ranqueamento
 Operações de Junções no Pig: Inner Join, left join e right join
 Execução do Pig com o Tez – Tez x MapReduce
Armazenando Dados Estruturados com Hive
 Introdução ao Hive / Criação de tabelas internas e externas

 Funções agregadas no Hive
 Gerenciamento de partições no Hive / Partições estáticas e dinâmicas
 Tabelas ORC e execução de consultas no Hive com Tez
Armazenando Dados Não Estruturados com Hbase
 Introdução ao Zookeeper
 Introdução ao Hbase
 CRUD e Trabalhando com Filtros Hbase
 Exportar dados do Hive para Hbase
Processamento de Dados com Spark
 Introdução ao Spark e a Linguagem PySpark

 RDDs, SparkSQL, DataFrame
 Executando Spark em um Cluster
 Introdução ao Spark Streaming
Metodologia
Estudos de caso e Hands on
Avaliação
Exercícios durante a aula.
Bibliografia
 Básica
Hadoop: The Definitive Guide - Tom White (Autor);
 Complementar
Expert Hadoop Administration - Sam R. Alapati
E-mail: leonardoafonso@gmail.com

Disciplina 7 - Arquitetura de Big Data

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Disciplina 7 - Arquitetura de Big Data

Enviado por

Direitos autorais:

Formatos disponíveis

PLANO DE ENSINO

Disciplina: Arquitetura de Big Data Carga Horária: 40h

Instalação e configuração do ambiente Big Data com Hadoop;

Instalação e Gerenciamento de um cluster Hadoop

 Conhecer e importar a sandbox HDP da Hortonworks para executar

 Carregamento e armazenamento de Dados com o Pig

Armazenando Dados Estruturados com Hive

 Introdução ao Hive / Criação de tabelas internas e externas

Armazenando Dados Não Estruturados com Hbase

Processamento de Dados com Spark

 Introdução ao Spark e a Linguagem PySpark

Estudos de caso e Hands on

Exercícios durante a aula.

Você também pode gostar