Escolar Documentos
Profissional Documentos
Cultura Documentos
AULA 01
1. Big Data
o Conceito de tratamento de uma grande quantidade e variedade de
dados.
o Desafios em gerenciar e extrair informações úteis desses dados.
2. Tipos de Dados
o Estruturados, semiestruturados e não estruturados.
o Big Data lida com todos esses tipos.
3. V’s do Big Data
o Volume, variedade, velocidade, entre outros.
o Características fundamentais dos dados e do processamento em Big
Data.
4. Pipeline de Dados
o Fluxo de processamento de dados desde sua geração até a obtenção de
informações.
5. Data Lake
o Conceito de armazenar dados brutos em seu formato original para
análises futuras.
6. ETL x ELT
o Processos de extração, transformação e carga de dados em
comparação.
7. NoSQL
o Abordagem de banco de dados não relacional, adequado para Big Data.
8. Hadoop
o Framework amplamente utilizado para lidar com grandes volumes de
dados.
9. Volume de Dados
o Exploração da imensa quantidade de dados gerados por dispositivos e
plataformas.
10. Valor dos Dados
o A importância de agilidade na análise para preservar o valor dos dados.
11. Dados vs. Informação
o Diferença entre dados brutos e informações processadas e úteis.
12. Características do Big Data
o Volume, velocidade e variedade como os três V’s do Big Data.
13. Desafios
o Inovação necessária devido à inadequação das ferramentas atuais.
o Demanda por formas inovadoras e eficientes de processamento de
dados.
Eixo Temático 5 - Apoio à Decisão, Inteligência Artificial e Métodos Quantitativos
Perguntas e Respostas:
AULA 02
Resumo em Tópicos:
1. Tipos de Dados:
o Estruturados:
Rígida estrutura com metadados definidos.
Exemplo: dados monetários em tabelas de bancos de dados.
Eixo Temático 5 - Apoio à Decisão, Inteligência Artificial e Métodos Quantitativos
4. Exemplos de Dados:
o Estruturados:
Bancos de dados com tabelas definidas.
o Semiestruturados:
XML e HTML com organização e tags semânticas.
o Não Estruturados:
Texto, imagem e vídeo sem organização específica.
Perguntas e Respostas:
AULA 03:
Resumo em Tópicos:
1. Conceito de Pipeline:
o Série de etapas de processamento de dados seguindo um caminho.
o Fluxo da fonte para o Data Lake através de uma lógica de
processamento.
o Similar a uma produção de cerveja, com diferentes etapas e operações.
2. Fatores Importantes:
o Velocidade ou taxa de transferência.
o Confiabilidade, incluindo tolerância a falhas e auditoria.
o Latência, representando o tempo necessário para um dado atravessar o
pipeline.
3. Etapas ou Operações em um Pipeline de Dados:
o Extração de dados da fonte.
o Junção de fontes diversas.
o Padronização e transformação de dados.
o Correção e carregamento de dados.
4. Data Preparation:
o Segunda fase do pipeline para refinar, orquestrar, virtualizar, preparar e
enriquecer dados.
o Prepara os dados para análises subsequentes.
5. Data Engineering, Data Preparation, Analytics:
o Responsabilidades de cada fase no pipeline.
Eixo Temático 5 - Apoio à Decisão, Inteligência Artificial e Métodos Quantitativos
Perguntas e Respostas:
AULA 04:
Perguntas e Respostas:
AULA 05:
Resumo:
1. Introdução ao Hadoop:
o Hadoop não é uma sigla, mas o nome do elefante de brinquedo do filho
do desenvolvedor inicial.
o Não é um banco de dados, mas um framework para processamento e
armazenamento de grandes quantidades de dados de Big Data.
2. O Principal Elemento: HDFS (Hadoop Distributed File System):
o O Hadoop não é um banco de dados, mas um framework com o HDFS
como principal elemento.
o O HDFS realiza o armazenamento distribuído de dados em vários nós do
sistema, garantindo escalabilidade.
o Utiliza vários hardwares, reduzindo custos ao juntar discos baratos para
suportar grandes volumes de dados.
3. Módulo MapReduce:
o MapReduce é um módulo original do Hadoop com comandos de
programação para processamento distribuído de dados.
o Permite o acesso distribuído aos dados, reduzindo a dimensionalidade
da quantidade de bancos de dados.
4. Projetos Paralelos:
o Existem diversos projetos em paralelo desenvolvidos para o Hadoop.
o Destaque para o HCatalog, serviço de metadados, e linguagens como
PIG e Hive.
5. Características do Hadoop:
o Capacidade de armazenar e processar grandes quantidades de dados
rapidamente.
o Poder computacional, tolerância a falhas com replicação tripla,
flexibilidade sem necessidade de pré-processamento.
o Custo baixo, sendo gratuito, embora haja versões comerciais.
6. Escalabilidade e Cluster Hadoop:
o Escalabilidade proporcionada pelo processamento distribuído.
Eixo Temático 5 - Apoio à Decisão, Inteligência Artificial e Métodos Quantitativos
Perguntas e Respostas:
1. O que é Hadoop?
o Hadoop é um framework para processamento e armazenamento de
grandes volumes de dados, não sendo um banco de dados.
2. Qual é o papel do HDFS no Hadoop?
o O HDFS (Hadoop Distributed File System) é o sistema de
armazenamento distribuído que gerencia dados em vários nós do
sistema, garantindo escalabilidade.
3. O que é MapReduce no contexto do Hadoop?
o MapReduce é um módulo original que permite o processamento
distribuído dos dados, acessando-os de maneira distribuída e reduzindo
a dimensionalidade da quantidade de bancos de dados.
4. Quais são as características do Hadoop?
o Capacidade de armazenar e processar grandes volumes de dados, poder
computacional, tolerância a falhas, flexibilidade, custo baixo e
escalabilidade.
5. Explique a estrutura do Cluster Hadoop.
o O Cluster Hadoop consiste em diversos nós, sendo o NameNode
responsável pelo gerenciamento e controle de acesso, enquanto o
DataNode armazena arquivos e executa operações conforme instruções
do NameNode.
6. Qual a importância do backup do NameNode?
o Recomenda-se o backup do NameNode para evitar a perda de dados do
cluster em caso de falhas, e pode haver uma réplica, o Secondary
DataNode, para minimizar as falhas.
7. Por que os DataNodes não necessitam de backup de dados?
o Devido à replicação tripla dos dados, os DataNodes não necessitam de
backup, pois há redundância para garantir a disponibilidade dos dados.
AULA 06
Eixo Temático 5 - Apoio à Decisão, Inteligência Artificial e Métodos Quantitativos
Resumo:
Perguntas e Respostas:
AULA 08
1. Ingestão de Dados:
2. Tipos de Dados:
Eixo Temático 5 - Apoio à Decisão, Inteligência Artificial e Métodos Quantitativos
3. Métodos de Ingestão:
Perguntas e Respostas:
Q1: O que é ingestão de dados? A1: Ingestão de dados é o processo de absorver dados
de várias fontes e transferi-los para um local de destino, como um Data Lake, para
análises futuras.
Q2: Quais são os tipos de dados mencionados? A2: Dados estruturados (tabelas de
banco de dados), não estruturados (documentos) e semiestruturados (com alguma
estrutura, mas flexível).
Q3: Quais são os métodos de ingestão de dados? A3: Batch (lote), Streaming
(transmissão contínua) e Lambda (combinação de lote e tempo real).
Q4: Qual a diferença entre ingestão Full e Incremental? A4: A ingestão Full carrega
todos os dados em uma carga única, sendo mais demorada e custosa. A ingestão
Incremental adiciona apenas novos registros periodicamente.
Q5: O que é Change Data Capture (CDC)? A5: CDC captura alterações adicionadas na
base de dados entre versões e transfere essas mudanças em tempo real para outro
destino, utilizando abordagens como logs e triggers.
Eixo Temático 5 - Apoio à Decisão, Inteligência Artificial e Métodos Quantitativos
AULA 9
Apache Spark:
Módulos:
1. Spark Core:
o Módulo principal.
2. Spark SQL:
o Processamento de dados estruturados.
o Extrai dados de bases estruturadas e relacionais.
3. MLlib (Machine Learning Library):
o Funcionalidades para aprendizado de máquina, redes neurais,
arquitetura de dados, etc.
4. GraphX:
o Processamento de grafos.
o Usado em mapeamentos geográficos, como Waze e Google Maps.
5. Spark Streaming:
o Processamento em tempo real.
6. SparkR:
o Processamento de dados com R.
7. PySpark:
o Processamento de dados com Python.
8. Panda API em Spark:
o Para trabalhos com a biblioteca Python Pandas.
9. BlinkDB:
o Consultas em SQL com amostragem.
Arquitetura Spark:
1. Driver Program:
o Aplicação principal.
o Inicia o SparkContext.
2. Cluster Manager:
o Administra as máquinas nos clusters.
Eixo Temático 5 - Apoio à Decisão, Inteligência Artificial e Métodos Quantitativos
3. Workers:
o Executam tarefas enviadas pelo Driver Program.
Perguntas e Respostas:
AULA 10
Operações em RDD:
DataFrames e Datasets:
Datasets:
Perguntas e Respostas: