Fundamentos Do Big Data - COMPLETO

Eixo Temático 5 - Apoio à Decisão, Inteligência Artificial e Métodos Quantitativos
AULA 01
Resumo em Tópicos: Fundamentos do Big Data
1. Big Data
o Conceito de tratamento de uma grande quantidade e variedade de
dados.
o Desafios em gerenciar e extrair informações úteis desses dados.
2. Tipos de Dados
o Estruturados, semiestruturados e não estruturados.
o Big Data lida com todos esses tipos.
3. V’s do Big Data
o Volume, variedade, velocidade, entre outros.
o Características fundamentais dos dados e do processamento em Big
Data.
4. Pipeline de Dados
o Fluxo de processamento de dados desde sua geração até a obtenção de
informações.
5. Data Lake
o Conceito de armazenar dados brutos em seu formato original para
análises futuras.
6. ETL x ELT
o Processos de extração, transformação e carga de dados em
comparação.
7. NoSQL
o Abordagem de banco de dados não relacional, adequado para Big Data.
8. Hadoop
o Framework amplamente utilizado para lidar com grandes volumes de
dados.
9. Volume de Dados
o Exploração da imensa quantidade de dados gerados por dispositivos e
plataformas.
10. Valor dos Dados
o A importância de agilidade na análise para preservar o valor dos dados.
11. Dados vs. Informação
o Diferença entre dados brutos e informações processadas e úteis.
12. Características do Big Data
o Volume, velocidade e variedade como os três V’s do Big Data.
13. Desafios
o Inovação necessária devido à inadequação das ferramentas atuais.
o Demanda por formas inovadoras e eficientes de processamento de
dados.
14. Exemplos de Fontes de Dados

o E-mails, web logs, dados de sensores, logs de call centers, imagens,
vídeos, dados RFID, dados de localização.
15. Aplicações Possíveis
o Machine Learning, análise de sentimentos, processamento de texto,
imagem, vídeo, análise de logs e e-mails.
Perguntas e Respostas:
1. O que é Big Data?

o Big Data refere-se ao tratamento de grandes volumes e variedades de
dados para obter informações valiosas.
2. Quais são os três V’s do Big Data?
o Volume, variedade e velocidade.
3. O que é um Data Lake?
o Um Data Lake é um repositório que armazena dados brutos em seu
formato original para análises futuras.
4. Qual é a diferença entre ETL e ELT?
o ETL (Extração, Transformação e Carga) é um processo sequencial,
enquanto ELT (Extração, Carga e Transformação) realiza a
transformação após o carregamento dos dados.
5. O que significa NoSQL no contexto de Big Data?
o NoSQL se refere a uma abordagem de banco de dados não relacional,
adequada para lidar com a diversidade de dados em Big Data.
6. Qual é a importância da velocidade na análise de dados em Big Data?
o O valor dos dados diminui com o tempo; portanto, análises rápidas
preservam a relevância das informações.
7. Quais são alguns exemplos de fontes de dados em Big Data?
o E-mails, web logs, dados de sensores, logs de call centers, imagens,
vídeos, dados RFID e dados de localização.
8. Quais são algumas aplicações possíveis de Big Data?
o Machine Learning, análise de sentimentos, processamento de texto,
imagem, vídeo, análise de logs e e-mails.
AULA 02
Resumo em Tópicos:
1. Tipos de Dados:
o Estruturados:
 Rígida estrutura com metadados definidos.
 Exemplo: dados monetários em tabelas de bancos de dados.
 Requer planejamento prévio para criação de tabelas e definição

de tipos de dados.
o Semiestruturados:
 Entre estruturados e não estruturados.
 Acompanhados de descrições e propriedades organizacionais.
 Exemplos: XML, HTML.
o Não Estruturados:
 Forma bruta, sem planejamento.
 Estrutura flexível, sem lógica prévia.
 Exemplos: texto, imagem, vídeo.
2. Características:
o Dados Estruturados:
 Requerem planejamento prévio.
 Definição de tipo de dado, formatação e organização.
o Dados Semiestruturados:
 Uso de propriedades organizacionais e descrições.
 Exemplos: XML, HTML.
o Dados Não Estruturados:
 Ausência de planejamento.
 Estrutura flexível, sem restrições.
3. Vs do Gib Data:
- 3Vs: Volume, Velocidade e Variedade
- 5 Vs: Veracidade, Valor
- 7 Vs: Viscosidade, Viralidade
4. Exemplos de Dados:
o Estruturados:
 Bancos de dados com tabelas definidas.
o Semiestruturados:
 XML e HTML com organização e tags semânticas.
o Não Estruturados:
 Texto, imagem e vídeo sem organização específica.
1. Como os dados estruturados se diferenciam dos semiestruturados?

o Resposta: Dados estruturados possuem uma estrutura rígida com
metadados definidos, enquanto dados semiestruturados estão entre os
estruturados e não estruturados, acompanhados de descrições e
propriedades organizacionais.
2. Qual é a principal característica dos dados não estruturados?
o Resposta: Dados não estruturados são encontrados em forma bruta,

sem nenhum planejamento prévio de organização ou armazenamento,
e têm uma estrutura flexível, sem lógica prévia.
3. Como os dados semiestruturados são organizados?
o Resposta: Dados semiestruturados são acompanhados de descrições e
propriedades organizacionais, utilizando metadados ou tags semânticas
para tornar os dados mais gerenciáveis. Exemplos incluem XML e HTML.
4. Por que os dados estruturados requerem planejamento prévio?
o Resposta: Dados estruturados precisam de planejamento prévio para
definir a estrutura da tabela, tipos de dados, formatação e organização,
antes de inserir dados.
5. Dê exemplos de dados não estruturados.
o Resposta: Exemplos de dados não estruturados incluem texto, imagem
e vídeo, pois não possuem organização específica e têm uma estrutura
flexível, permitindo liberdade na apresentação.
AULA 03:
Resumo em Tópicos:
1. Conceito de Pipeline:
o Série de etapas de processamento de dados seguindo um caminho.
o Fluxo da fonte para o Data Lake através de uma lógica de
processamento.
o Similar a uma produção de cerveja, com diferentes etapas e operações.
2. Fatores Importantes:
o Velocidade ou taxa de transferência.
o Confiabilidade, incluindo tolerância a falhas e auditoria.
o Latência, representando o tempo necessário para um dado atravessar o
pipeline.
3. Etapas ou Operações em um Pipeline de Dados:
o Extração de dados da fonte.
o Junção de fontes diversas.
o Padronização e transformação de dados.
o Correção e carregamento de dados.
4. Data Preparation:
o Segunda fase do pipeline para refinar, orquestrar, virtualizar, preparar e
enriquecer dados.
o Prepara os dados para análises subsequentes.
5. Data Engineering, Data Preparation, Analytics:
o Responsabilidades de cada fase no pipeline.
o Atividades, como limpeza, verificação de conformidade, transformação

e ingestão de dados.
6. Tipos de Pipeline de Dados:
o Pipeline em lote (batch): manipulação de blocos de dados armazenados
por um período.
o Pipeline em streaming: operações em dados em movimento ou em
tempo real.
7. O "Pulo do Gato":
o Uso de Data Lake em órgãos de controle do Brasil para armazenar bases
de dados governamentais.
o Mudança na lógica de tratamento de dados, invertendo a ordem de
extração e transformação.
8. Data Lake:
o Repositório centralizado para armazenar, processar e proteger grandes
quantidades de dados estruturados e não estruturados.
o Projetado para ingerir dados de qualquer sistema em qualquer
velocidade.
9. ETL x ELT:
o ETL (Extract, Transformation, Load): Processo tradicional de extração,
transformação e carregamento em data warehouse.
o ELT (Extract, Load, Transform): Processo moderno que utiliza Data
Lakes, com extração e carregamento direto no Data Lake.
o Vantagens do ELT: Velocidade de carregamento, transformação por
analistas de dados, seleção de dados ao fim do processo.
1. O que caracteriza um Pipeline de Dados?

o Resposta: É uma série de etapas de processamento de dados seguindo
um caminho lógico, similar a um "cano" que leva os dados da fonte para
o Data Lake.
2. Quais são os fatores importantes em um Pipeline de Dados?
o Resposta: Velocidade ou taxa de transferência, confiabilidade (com
tolerância a falhas e auditoria) e latência.
3. Quais são as etapas ou operações em um Pipeline de Dados?
o Resposta: Extração de dados da fonte, junção de fontes, padronização,
correção e carregamento de dados.
4. O que é a fase de Data Preparation em um pipeline?
o Resposta: É a segunda fase, responsável por refinar, orquestrar,
virtualizar, preparar e enriquecer os dados para análises subsequentes.
5. Quais são os tipos de Pipeline de Dados mencionados no texto?
o Resposta: Pipeline em lote (batch) e Pipeline em streaming.
6. Qual é o papel do Data Lake na Controladoria-Geral da União e em órgãos de

controle do Brasil?
o Resposta: Serve como repositório centralizado para armazenar,
processar e proteger grandes quantidades de dados governamentais de
fontes diversas.
7. Explique as diferenças entre ETL e ELT.
o Resposta: ETL é o processo tradicional de extração, transformação e
carregamento em data warehouse. ELT é mais moderno, utilizando Data
Lakes, com extração e carregamento direto, deixando a transformação
para ser feita posteriormente.
8. Quais são as vantagens do ELT em relação ao ETL?
o Resposta: Velocidade de carregamento, transformação realizada por
analistas de dados, e seleção de dados ao fim do processo.
AULA 04:
1. Introdução a NoSQL e Hadoop:

o NoSQL e Hadoop são tecnologias relacionadas a Big Data.
o NoSQL é uma abordagem para lidar com grandes massas de dados,
especialmente bancos de dados não relacionais.
2. Evolução do Big Data e Bancos de Dados Não Relacionais:

o Tecnologias anteriores não atendiam satisfatoriamente às grandes
massas de dados.
o Bancos de dados não relacionais foram desenvolvidos, tratando
elementos como objetos e utilizando a orientação a objetos.
3. Características do NoSQL:
o Esquemas dinâmicos permitem adição de informações durante a
execução.
o Manipulação por APIs orientadas a objeto.
o Maior escalabilidade, suportando a inserção de novas bases de dados

sem problemas.
o Armazena diversos tipos de dados, como vídeo, som, imagem, etc.
4. Modelos de Bancos de Dados NoSQL:
o Modelo Baseado em Grafos: Representação por meio de grafos e nós
(Exemplos: Neo4J e Titan).
o Modelo Chave-Valor: Associação de uma informação e um valor
(Exemplos: Amazon Dynamo DB, Cassandra, Oracle).
o Modelo Orientado a Colunas: Armazenamento em colunas (Exemplos:
Apache Hbase, Google Big Table).
o Modelo Orientado a Documentos: Armazenamento de documentos
(Exemplos: MongoDB, CouchDB).
5. Classificação de Alguns Bancos de Dados NoSQL:
o Cassandra: Pode ser classificado como Modelo Orientado a Colunas ou
em Chave-Valor.
o Neo4J: Modelo Baseado em Grafos.
o MongoDB: Modelo Orientado a Documentos.
o Redis: Modelo Chave-Valor.
1. Qual é a relação entre NoSQL, Hadoop e Big Data?

o NoSQL e Hadoop são tecnologias frequentemente associadas a Big Data,
tratando grandes volumes de dados de maneiras inovadoras.
2. Como os bancos de dados NoSQL lidam com esquemas?
o Bancos de dados NoSQL possuem esquemas dinâmicos, permitindo a
adição de informações durante a execução.
3. Quais são os benefícios da escalabilidade no contexto NoSQL?
o NoSQL oferece maior escalabilidade, permitindo a inserção de novas
bases de dados sem grandes problemas, devido ao armazenamento
distribuído dos dados.
4. Quais são os modelos de bancos de dados NoSQL mencionados?
o Modelo Baseado em Grafos, Modelo Chave-Valor, Modelo Orientado a
Colunas e Modelo Orientado a Documentos.
5. Dê exemplos de bancos de dados associados a cada modelo NoSQL.
o Modelo Baseado em Grafos: Neo4J e Titan.
o Modelo Chave-Valor: Amazon Dynamo DB, Cassandra, Oracle.
o Modelo Orientado a Colunas: Apache Hbase, Google Big Table.
o Modelo Orientado a Documentos: MongoDB, CouchDB.
6. Como o Cassandra pode ser classificado em termos de modelo NoSQL?
o O Cassandra pode ser classificado como Modelo Orientado a Colunas ou
em Chave-Valor, dependendo da abordagem da banca.
7. Quais são os modelos de alguns bancos de dados NoSQL específicos

mencionados em uma questão de concurso?
o Cassandra: Modelo Orientado a Colunas (ou em Chave-Valor,
dependendo da interpretação da banca).
o Neo4J: Modelo Baseado em Grafos.
o MongoDB: Modelo Orientado a Documentos.
o Redis: Modelo Chave-Valor
AULA 05:
Resumo:
1. Introdução ao Hadoop:
o Hadoop não é uma sigla, mas o nome do elefante de brinquedo do filho
do desenvolvedor inicial.
o Não é um banco de dados, mas um framework para processamento e
armazenamento de grandes quantidades de dados de Big Data.
2. O Principal Elemento: HDFS (Hadoop Distributed File System):
o O Hadoop não é um banco de dados, mas um framework com o HDFS
como principal elemento.
o O HDFS realiza o armazenamento distribuído de dados em vários nós do
sistema, garantindo escalabilidade.
o Utiliza vários hardwares, reduzindo custos ao juntar discos baratos para
suportar grandes volumes de dados.
3. Módulo MapReduce:
o MapReduce é um módulo original do Hadoop com comandos de
programação para processamento distribuído de dados.
o Permite o acesso distribuído aos dados, reduzindo a dimensionalidade
da quantidade de bancos de dados.
4. Projetos Paralelos:
o Existem diversos projetos em paralelo desenvolvidos para o Hadoop.
o Destaque para o HCatalog, serviço de metadados, e linguagens como
PIG e Hive.
5. Características do Hadoop:
o Capacidade de armazenar e processar grandes quantidades de dados
rapidamente.
o Poder computacional, tolerância a falhas com replicação tripla,
flexibilidade sem necessidade de pré-processamento.
o Custo baixo, sendo gratuito, embora haja versões comerciais.
6. Escalabilidade e Cluster Hadoop:
o Escalabilidade proporcionada pelo processamento distribuído.
oCluster Hadoop consiste em diversos nós, classificados em NameNode e

DataNode.
7. NameNode e DataNode:
o NameNode: Gerencia onde cada arquivo está armazenado, controla o
acesso. Recomenda-se backup de dados para evitar perdas.
o Secondary DataNode: Réplica para minimizar falhas.
o DataNode: Armazena arquivos, realiza leitura, gravação e operações
conforme instruções do NameNode. Não necessita de backup de dados
devido à replicação.
1. O que é Hadoop?
o Hadoop é um framework para processamento e armazenamento de
grandes volumes de dados, não sendo um banco de dados.
2. Qual é o papel do HDFS no Hadoop?
o O HDFS (Hadoop Distributed File System) é o sistema de
armazenamento distribuído que gerencia dados em vários nós do
sistema, garantindo escalabilidade.
3. O que é MapReduce no contexto do Hadoop?
o MapReduce é um módulo original que permite o processamento
distribuído dos dados, acessando-os de maneira distribuída e reduzindo
a dimensionalidade da quantidade de bancos de dados.
4. Quais são as características do Hadoop?
o Capacidade de armazenar e processar grandes volumes de dados, poder
computacional, tolerância a falhas, flexibilidade, custo baixo e
escalabilidade.
5. Explique a estrutura do Cluster Hadoop.
o O Cluster Hadoop consiste em diversos nós, sendo o NameNode
responsável pelo gerenciamento e controle de acesso, enquanto o
DataNode armazena arquivos e executa operações conforme instruções
do NameNode.
6. Qual a importância do backup do NameNode?
o Recomenda-se o backup do NameNode para evitar a perda de dados do
cluster em caso de falhas, e pode haver uma réplica, o Secondary
DataNode, para minimizar as falhas.
7. Por que os DataNodes não necessitam de backup de dados?
o Devido à replicação tripla dos dados, os DataNodes não necessitam de
backup, pois há redundância para garantir a disponibilidade dos dados.
AULA 06
Resumo:
1. Arquitetura de Big Data:

o Big Data refere-se a grandes bases de dados com dados não
estruturados, semiestruturados e estruturados, caracterizados por
variedade, volume e velocidade.
o A arquitetura de Big Data envolve processamento em batch e em tempo
real, começando pelas fontes de dados.
2. Processamento em Batch e em Tempo Real:
o Processamento em Batch ocorre em determinados períodos, visando
Ciência de Dados.
o Dois caminhos: processamento em lote (confiabilidade) e
processamento em tempo real (velocidade).
o Orquestração automatiza o processo.
3. Fontes e Armazenamento de Dados:
o Fontes incluem bancos de dados relacionais, arquivos diversos, IoT.
o Armazenamento em Data Lake, repositórios distribuídos e NoSQL.
4. Processamento em Lote:
o Envolvendo pré-processamento, agregações e filtragens.
o Utiliza ferramentas como Hive, Pig, Map-Reduce e programas em
Python.
o Dados são transferidos do Data Lake para a base de modelagem.
5. Ingestão de Mensagens em Tempo Real:
o Captura de dados em tempo real, com repositório de ingestão e
processamento de fluxo.
o Pré-processamento e armazenamento de dados analíticos.
6. Análise e Relatórios:
o Dados processados em formato estruturado para análise por
ferramentas de Analytics.
o Geração de resultados e insights para tomada de decisão.
7. Orquestração e Variações de Arquitetura:
o Orquestração automatiza fluxos de trabalho.
o Duas variações de arquitetura: Lambda (caminho frio e quente) e Kappa
(caminho único).
8. Papéis em Projetos de Big Data:
o Engenheiro de Big Data: Foco em dados e infraestrutura, implementa a
arquitetura.
9. Big Data em Relação a Outras Disciplinas:
o Relação com Banco de Dados, Aprendizado de Máquina, Business
Intelligence, Computação em Nuvem, Estatística, Engenharia de
Software e todas as áreas de conhecimento.
1. O que caracteriza Big Data em termos de dados?

o Big Data refere-se a grandes bases de dados com dados não
estruturados, semiestruturados e estruturados, com variedade, volume
e velocidade.
2. Quais são os caminhos principais na arquitetura de Big Data?
o Processamento em Batch e em Tempo Real.
3. O que envolve o processamento em lote em Big Data?
o Pré-processamento, agregações e filtragens em períodos determinados,
utilizando ferramentas como Hive, Pig, Map-Reduce e programas em
Python.
4. Qual é o papel do engenheiro de Big Data em projetos?
o O engenheiro de Big Data é responsável pela infraestrutura e
implementação da arquitetura de Big Data.
5. Explique as variações de arquitetura: Lambda e Kappa.
o Lambda possui caminhos frio e quente, consumindo mais recursos.
Kappa tem um caminho único mais rápido para chegar ao analytics em
tempo real, passando por um processo de lote antes de ir para o cliente.
6. Quais são as fontes de dados em um projeto de Big Data?
o Incluem bancos de dados relacionais, arquivos diversos, dados de IoT.
7. Como são armazenados os dados analíticos em Big Data?
o Armazenados em formato estruturado para serem consumidos por
ferramentas de Analytics.
8. Quais são as disciplinas relacionadas a Big Data?
o Banco de Dados, Aprendizado de Máquina, Business Intelligence,
Computação em Nuvem, Estatística, Engenharia de Software, entre
outras.
AULA 07 (SOMENTE EXERCÍCIOS)
AULA 08
1. Ingestão de Dados:
 Definição: Processo de incorporar dados de diversas fontes para um local de

destino, como um Data Lake.
 Diferença entre dados estruturados, semiestruturados e não estruturados.
2. Tipos de Dados:
 Estruturados: Tabelas de banco de dados com estrutura rígida.

 Não Estruturados: Documentos, ofícios, despachos, etc., sem planejamento
prévio.
 Semiestruturados: Têm alguma estrutura, mas não totalmente rígida.
3. Métodos de Ingestão:
 Batch (Lote): Movimentação de dados em intervalos agendados.

 Streaming (Transmissão Contínua): Processamento e armazenamento
imediatos para decisões em tempo real.
 Lambda: Combinação de processamento em lote e em tempo real.
4. Ingestão Full x Incremental:
 Full: Carregamento completo em uma carga única, mais demorado e custoso.

 Incremental: Apenas novos registros são adicionados periodicamente.
5. Ingestão CDC (Change Data Capture):
 Captura apenas as alterações adicionadas na base de dados entre versões,

transferindo em tempo real para outro destino.
 Abordagens: Logs e Triggers.
Q1: O que é ingestão de dados? A1: Ingestão de dados é o processo de absorver dados
de várias fontes e transferi-los para um local de destino, como um Data Lake, para
análises futuras.
Q2: Quais são os tipos de dados mencionados? A2: Dados estruturados (tabelas de
banco de dados), não estruturados (documentos) e semiestruturados (com alguma
estrutura, mas flexível).
Q3: Quais são os métodos de ingestão de dados? A3: Batch (lote), Streaming
(transmissão contínua) e Lambda (combinação de lote e tempo real).
Q4: Qual a diferença entre ingestão Full e Incremental? A4: A ingestão Full carrega
todos os dados em uma carga única, sendo mais demorada e custosa. A ingestão
Incremental adiciona apenas novos registros periodicamente.
Q5: O que é Change Data Capture (CDC)? A5: CDC captura alterações adicionadas na
base de dados entre versões e transfere essas mudanças em tempo real para outro
destino, utilizando abordagens como logs e triggers.
AULA 9
Apache Spark:
1. Não é um sistema de armazenamento, mas destaca-se pela eficiente utilização

da memória.
2. Framework para computação distribuída e processamento de dados em larga
escala.
3. Código aberto e escrito em Scala.
4. Oferece paralelismo de dados e tolerância a falhas.
Módulos:
1. Spark Core:
o Módulo principal.
2. Spark SQL:
o Processamento de dados estruturados.
o Extrai dados de bases estruturadas e relacionais.
3. MLlib (Machine Learning Library):
o Funcionalidades para aprendizado de máquina, redes neurais,
arquitetura de dados, etc.
4. GraphX:
o Processamento de grafos.
o Usado em mapeamentos geográficos, como Waze e Google Maps.
5. Spark Streaming:
o Processamento em tempo real.
6. SparkR:
o Processamento de dados com R.
7. PySpark:
o Processamento de dados com Python.
8. Panda API em Spark:
o Para trabalhos com a biblioteca Python Pandas.
9. BlinkDB:
o Consultas em SQL com amostragem.
Arquitetura Spark:
1. Driver Program:
o Aplicação principal.
o Inicia o SparkContext.
2. Cluster Manager:
o Administra as máquinas nos clusters.
3. Workers:
o Executam tarefas enviadas pelo Driver Program.
1. Qual é a principal vantagem do Apache Spark?

o A eficiente utilização da memória, permitindo a automação de muitas
operações.
2. Quais são os principais módulos do Spark e suas funções?
o Spark Core: Módulo principal.
o Spark SQL: Processamento de dados estruturados.
o MLlib: Funcionalidades para aprendizado de máquina.
o GraphX: Processamento de grafos.
o Spark Streaming: Processamento em tempo real.
o SparkR: Processamento de dados com R.
o PySpark: Processamento de dados com Python.
o Panda API em Spark: Trabalhos com a biblioteca Pandas.
o BlinkDB: Consultas em SQL com amostragem.
3. O que é o Driver Program no contexto do Apache Spark?
o O Driver Program é a aplicação principal que inicia o SparkContext e
envia tarefas para execução nos Workers.
4. Quais são os principais componentes da arquitetura do Spark?
o Driver Program, Cluster Manager e Workers.
5. Para que serve o módulo Spark Streaming?
o O Spark Streaming é usado para processamento em tempo real.
AULA 10
Resilient Distributed Datasets (RDD):
1. Abstraem conjunto de objetos distribuídos no cluster.

2. Armazenados em RDD nos clusters.
3. Funcionam em modo leitura; manipulação exige criar cópia.
4. Armazenamento pode ocorrer em sistemas tradicionais, HDFS, ou NoSQL como
Cassandra e HBase.
5. Principais objetos no modelo de programação do Spark.
Operações em RDD:
1. Transformações: agrupamentos, filtros, mapeamentos.

2. Ações: contagens, persistências.
Modelo de Programação - Gráfico Acíclico Direcionado (DAG):
1. Agenda tarefas e orquestra trabalhadores.

2. Rastreia tarefas e garante tolerância a falhas.
DataFrames e Datasets:
1. DataFrames: tabelas estruturadas em problemas de Aprendizado de Máquina.

2. Datasets: fortemente tipados, tipos de colunas bem definidos.
RDD (Resilient Distributed Datasets):
1. Resilientes, tolerantes a falhas; processamentos não perdidos mesmo com

danos no cluster.
2. Distribuído: armazenamento na memória por todo o cluster.
Datasets:
1. Conjuntos de dados provenientes de fontes.

2. Imutáveis.
Exemplos de Operações em RDD:
1. Transformações: map(function) cria novo RDD processando função em cada

registro. Filter(function) cria novo RDD incluindo ou excluindo elementos
conforme função booleana.
2. Ações: count() retorna número de elementos; take(n) retorna array com
primeiros n elementos; collect() retorna array com todos elementos;
saveAsTextFile(file) salva RDD no arquivo no HD.
3. Durante operações de ações, não há criação de novo RDD, ao contrário das
operações de transformações.
1. O que são RDDs (Resilient Distributed Datasets) e qual a sua principal

característica?
o RDDs são conjuntos de objetos distribuídos no cluster. Sua principal
característica é a tolerância a falhas, sendo resilientes, e os
processamentos não são perdidos mesmo em caso de danos no cluster.
2. Como o Spark gerencia o armazenamento de RDDs?
o O Spark não tem sistema próprio de armazenamento; os RDDs são
armazenados em sistemas auxiliares, como sistemas de arquivo
tradicionais, HDFS ou alguns Bancos de Dados NoSQL.
3. Quais são as principais operações realizadas em RDDs?

o As operações em RDDs incluem transformações, como agrupamentos,
filtros e mapeamentos, e ações, como contagens e persistências.
4. O que é o modelo de programação em Gráfico Acíclico Direcionado (DAG) no
contexto do Spark?
o O DAG agenda tarefas, orquestra trabalhadores, rastreia tarefas e
garante tolerância a falhas no Spark.
5. Quais são as características dos DataFrames e Datasets no Spark?
o DataFrames são tabelas estruturadas usadas em problemas de
Aprendizado de Máquina, enquanto Datasets são fortemente tipados,
com tipos de colunas bem definidos.
6. Explique como funcionam as operações de transformação e ação em RDDs.
o Operações de transformação, como map e filter, criam um novo RDD
processando os dados, enquanto operações de ação, como count e
collect, realizam ações sem criar um novo RDD.

Fundamentos Do Big Data - COMPLETO

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Fundamentos Do Big Data - COMPLETO

Enviado por

Direitos autorais:

Formatos disponíveis

Eixo Temático 5 - Apoio à Decisão, Inteligência Artificial e Métodos Quantitativos

Resumo em Tópicos: Fundamentos do Big Data

14. Exemplos de Fontes de Dados

1. O que é Big Data?

 Requer planejamento prévio para criação de tabelas e definição

1. Como os dados estruturados se diferenciam dos semiestruturados?

o Resposta: Dados não estruturados são encontrados em forma bruta,

o Atividades, como limpeza, verificação de conformidade, transformação

1. O que caracteriza um Pipeline de Dados?

6. Qual é o papel do Data Lake na Controladoria-Geral da União e em órgãos de

1. Introdução a NoSQL e Hadoop:

2. Evolução do Big Data e Bancos de Dados Não Relacionais:

o Maior escalabilidade, suportando a inserção de novas bases de dados

1. Qual é a relação entre NoSQL, Hadoop e Big Data?

7. Quais são os modelos de alguns bancos de dados NoSQL específicos

oCluster Hadoop consiste em diversos nós, classificados em NameNode e

1. Arquitetura de Big Data:

1. O que caracteriza Big Data em termos de dados?

AULA 07 (SOMENTE EXERCÍCIOS)

 Definição: Processo de incorporar dados de diversas fontes para um local de

 Estruturados: Tabelas de banco de dados com estrutura rígida.

 Batch (Lote): Movimentação de dados em intervalos agendados.

4. Ingestão Full x Incremental:

 Full: Carregamento completo em uma carga única, mais demorado e custoso.

5. Ingestão CDC (Change Data Capture):

 Captura apenas as alterações adicionadas na base de dados entre versões,

1. Não é um sistema de armazenamento, mas destaca-se pela eficiente utilização

1. Qual é a principal vantagem do Apache Spark?

Resilient Distributed Datasets (RDD):

1. Abstraem conjunto de objetos distribuídos no cluster.

1. Transformações: agrupamentos, filtros, mapeamentos.

Modelo de Programação - Gráfico Acíclico Direcionado (DAG):

1. Agenda tarefas e orquestra trabalhadores.

1. DataFrames: tabelas estruturadas em problemas de Aprendizado de Máquina.

RDD (Resilient Distributed Datasets):

1. Resilientes, tolerantes a falhas; processamentos não perdidos mesmo com

1. Conjuntos de dados provenientes de fontes.

Exemplos de Operações em RDD:

1. Transformações: map(function) cria novo RDD processando função em cada

1. O que são RDDs (Resilient Distributed Datasets) e qual a sua principal

3. Quais são as principais operações realizadas em RDDs?

Você também pode gostar