Você está na página 1de 2

PLANO DE ENSINO

Disciplina: Arquitetura de Big Data Carga Horária: 40h


Professor: Dr. Leonardo Afonso Amorim

Ementa

Instalação e configuração do ambiente Big Data com Hadoop;


Soluções para armazenamento de dados estruturados em ambientes
Big Data; Armazenamento colunar com ORC; Soluções para construir
um Data Lake. Atividades práticas nas ferramentas do ecossistema
hadoop, visando preparar profissionais para lidar com os desafios de
arquitetura de Big Data.

Objetivos

 Objetivo Geral
o Trabalhar com Apache Hadoop
 Objetivos Específicos
o Planejar a instalação de um cluster Hadoop
o Instalar e gerenciar um cluster Hadoop
o Executar comandos no HDFS
o Armazenar dados no formato estruturado com Hive
o Armazenar dados semiestruturados e estruturados com Hbase
o Executar jobs com PySpark

Conteúdo

Instalação e Gerenciamento de um cluster Hadoop

 Apache Ambari
 Instalação e gerenciamento de um cluster com Apache Ambari
 Adicionar e remover um nó do Cluster com Ambari
 Como adicionar e remover serviços com Ambari
 Definindo qual a infraestrutura necessária para criar um cluster Hadoop

Comandos Hadoop

 Conhecer e importar a sandbox HDP da Hortonworks para executar


laboratórios do Hadoop
 Comandos HDFS – Comandos básicos para gerenciamento de
arquivos / diretórios
ETL e Análise de Dados com Apache Pig

 Carregamento e armazenamento de Dados com o Pig


 Gerenciamento de Tabelas com o Pig
 Operações no Pig: Agrupamento, Filtragem, Ranqueamento
 Operações de Junções no Pig: Inner Join, left join e right join
 Execução do Pig com o Tez – Tez x MapReduce

Armazenando Dados Estruturados com Hive

 Introdução ao Hive / Criação de tabelas internas e externas


 Funções agregadas no Hive
 Gerenciamento de partições no Hive / Partições estáticas e dinâmicas
 Tabelas ORC e execução de consultas no Hive com Tez

Armazenando Dados Não Estruturados com Hbase

 Introdução ao Zookeeper
 Introdução ao Hbase
 CRUD e Trabalhando com Filtros Hbase
 Exportar dados do Hive para Hbase

Processamento de Dados com Spark

 Introdução ao Spark e a Linguagem PySpark


 RDDs, SparkSQL, DataFrame
 Executando Spark em um Cluster
 Introdução ao Spark Streaming

Metodologia

Estudos de caso e Hands on

Avaliação

Exercícios durante a aula.

Bibliografia

 Básica
Hadoop: The Definitive Guide - Tom White (Autor);

 Complementar
Expert Hadoop Administration - Sam R. Alapati

E-mail: leonardoafonso@gmail.com

Você também pode gostar