Você está na página 1de 16

Eixo Temático 5 - Apoio à Decisão, Inteligência Artificial e Métodos Quantitativos

AULA 01

Resumo em Tópicos: Fundamentos do Big Data

1. Big Data
o Conceito de tratamento de uma grande quantidade e variedade de
dados.
o Desafios em gerenciar e extrair informações úteis desses dados.
2. Tipos de Dados
o Estruturados, semiestruturados e não estruturados.
o Big Data lida com todos esses tipos.
3. V’s do Big Data
o Volume, variedade, velocidade, entre outros.
o Características fundamentais dos dados e do processamento em Big
Data.
4. Pipeline de Dados
o Fluxo de processamento de dados desde sua geração até a obtenção de
informações.
5. Data Lake
o Conceito de armazenar dados brutos em seu formato original para
análises futuras.
6. ETL x ELT
o Processos de extração, transformação e carga de dados em
comparação.
7. NoSQL
o Abordagem de banco de dados não relacional, adequado para Big Data.
8. Hadoop
o Framework amplamente utilizado para lidar com grandes volumes de
dados.
9. Volume de Dados
o Exploração da imensa quantidade de dados gerados por dispositivos e
plataformas.
10. Valor dos Dados
o A importância de agilidade na análise para preservar o valor dos dados.
11. Dados vs. Informação
o Diferença entre dados brutos e informações processadas e úteis.
12. Características do Big Data
o Volume, velocidade e variedade como os três V’s do Big Data.
13. Desafios
o Inovação necessária devido à inadequação das ferramentas atuais.
o Demanda por formas inovadoras e eficientes de processamento de
dados.
Eixo Temático 5 - Apoio à Decisão, Inteligência Artificial e Métodos Quantitativos

14. Exemplos de Fontes de Dados


o E-mails, web logs, dados de sensores, logs de call centers, imagens,
vídeos, dados RFID, dados de localização.
15. Aplicações Possíveis
o Machine Learning, análise de sentimentos, processamento de texto,
imagem, vídeo, análise de logs e e-mails.

Perguntas e Respostas:

1. O que é Big Data?


o Big Data refere-se ao tratamento de grandes volumes e variedades de
dados para obter informações valiosas.
2. Quais são os três V’s do Big Data?
o Volume, variedade e velocidade.
3. O que é um Data Lake?
o Um Data Lake é um repositório que armazena dados brutos em seu
formato original para análises futuras.
4. Qual é a diferença entre ETL e ELT?
o ETL (Extração, Transformação e Carga) é um processo sequencial,
enquanto ELT (Extração, Carga e Transformação) realiza a
transformação após o carregamento dos dados.
5. O que significa NoSQL no contexto de Big Data?
o NoSQL se refere a uma abordagem de banco de dados não relacional,
adequada para lidar com a diversidade de dados em Big Data.
6. Qual é a importância da velocidade na análise de dados em Big Data?
o O valor dos dados diminui com o tempo; portanto, análises rápidas
preservam a relevância das informações.
7. Quais são alguns exemplos de fontes de dados em Big Data?
o E-mails, web logs, dados de sensores, logs de call centers, imagens,
vídeos, dados RFID e dados de localização.
8. Quais são algumas aplicações possíveis de Big Data?
o Machine Learning, análise de sentimentos, processamento de texto,
imagem, vídeo, análise de logs e e-mails.

AULA 02

Resumo em Tópicos:

1. Tipos de Dados:
o Estruturados:
 Rígida estrutura com metadados definidos.
 Exemplo: dados monetários em tabelas de bancos de dados.
Eixo Temático 5 - Apoio à Decisão, Inteligência Artificial e Métodos Quantitativos

 Requer planejamento prévio para criação de tabelas e definição


de tipos de dados.
o Semiestruturados:
 Entre estruturados e não estruturados.
 Acompanhados de descrições e propriedades organizacionais.
 Exemplos: XML, HTML.
o Não Estruturados:
 Forma bruta, sem planejamento.
 Estrutura flexível, sem lógica prévia.
 Exemplos: texto, imagem, vídeo.
2. Características:
o Dados Estruturados:
 Requerem planejamento prévio.
 Definição de tipo de dado, formatação e organização.
o Dados Semiestruturados:
 Uso de propriedades organizacionais e descrições.
 Exemplos: XML, HTML.
o Dados Não Estruturados:
 Ausência de planejamento.
 Estrutura flexível, sem restrições.
3. Vs do Gib Data:
- 3Vs: Volume, Velocidade e Variedade
- 5 Vs: Veracidade, Valor
- 7 Vs: Viscosidade, Viralidade

4. Exemplos de Dados:
o Estruturados:
 Bancos de dados com tabelas definidas.
o Semiestruturados:
 XML e HTML com organização e tags semânticas.
o Não Estruturados:
 Texto, imagem e vídeo sem organização específica.

Perguntas e Respostas:

1. Como os dados estruturados se diferenciam dos semiestruturados?


o Resposta: Dados estruturados possuem uma estrutura rígida com
metadados definidos, enquanto dados semiestruturados estão entre os
estruturados e não estruturados, acompanhados de descrições e
propriedades organizacionais.
2. Qual é a principal característica dos dados não estruturados?
Eixo Temático 5 - Apoio à Decisão, Inteligência Artificial e Métodos Quantitativos

o Resposta: Dados não estruturados são encontrados em forma bruta,


sem nenhum planejamento prévio de organização ou armazenamento,
e têm uma estrutura flexível, sem lógica prévia.
3. Como os dados semiestruturados são organizados?
o Resposta: Dados semiestruturados são acompanhados de descrições e
propriedades organizacionais, utilizando metadados ou tags semânticas
para tornar os dados mais gerenciáveis. Exemplos incluem XML e HTML.
4. Por que os dados estruturados requerem planejamento prévio?
o Resposta: Dados estruturados precisam de planejamento prévio para
definir a estrutura da tabela, tipos de dados, formatação e organização,
antes de inserir dados.
5. Dê exemplos de dados não estruturados.
o Resposta: Exemplos de dados não estruturados incluem texto, imagem
e vídeo, pois não possuem organização específica e têm uma estrutura
flexível, permitindo liberdade na apresentação.

AULA 03:

Resumo em Tópicos:

1. Conceito de Pipeline:
o Série de etapas de processamento de dados seguindo um caminho.
o Fluxo da fonte para o Data Lake através de uma lógica de
processamento.
o Similar a uma produção de cerveja, com diferentes etapas e operações.
2. Fatores Importantes:
o Velocidade ou taxa de transferência.
o Confiabilidade, incluindo tolerância a falhas e auditoria.
o Latência, representando o tempo necessário para um dado atravessar o
pipeline.
3. Etapas ou Operações em um Pipeline de Dados:
o Extração de dados da fonte.
o Junção de fontes diversas.
o Padronização e transformação de dados.
o Correção e carregamento de dados.
4. Data Preparation:
o Segunda fase do pipeline para refinar, orquestrar, virtualizar, preparar e
enriquecer dados.
o Prepara os dados para análises subsequentes.
5. Data Engineering, Data Preparation, Analytics:
o Responsabilidades de cada fase no pipeline.
Eixo Temático 5 - Apoio à Decisão, Inteligência Artificial e Métodos Quantitativos

o Atividades, como limpeza, verificação de conformidade, transformação


e ingestão de dados.
6. Tipos de Pipeline de Dados:
o Pipeline em lote (batch): manipulação de blocos de dados armazenados
por um período.
o Pipeline em streaming: operações em dados em movimento ou em
tempo real.
7. O "Pulo do Gato":
o Uso de Data Lake em órgãos de controle do Brasil para armazenar bases
de dados governamentais.
o Mudança na lógica de tratamento de dados, invertendo a ordem de
extração e transformação.
8. Data Lake:
o Repositório centralizado para armazenar, processar e proteger grandes
quantidades de dados estruturados e não estruturados.
o Projetado para ingerir dados de qualquer sistema em qualquer
velocidade.
9. ETL x ELT:
o ETL (Extract, Transformation, Load): Processo tradicional de extração,
transformação e carregamento em data warehouse.
o ELT (Extract, Load, Transform): Processo moderno que utiliza Data
Lakes, com extração e carregamento direto no Data Lake.
o Vantagens do ELT: Velocidade de carregamento, transformação por
analistas de dados, seleção de dados ao fim do processo.

Perguntas e Respostas:

1. O que caracteriza um Pipeline de Dados?


o Resposta: É uma série de etapas de processamento de dados seguindo
um caminho lógico, similar a um "cano" que leva os dados da fonte para
o Data Lake.
2. Quais são os fatores importantes em um Pipeline de Dados?
o Resposta: Velocidade ou taxa de transferência, confiabilidade (com
tolerância a falhas e auditoria) e latência.
3. Quais são as etapas ou operações em um Pipeline de Dados?
o Resposta: Extração de dados da fonte, junção de fontes, padronização,
correção e carregamento de dados.
4. O que é a fase de Data Preparation em um pipeline?
o Resposta: É a segunda fase, responsável por refinar, orquestrar,
virtualizar, preparar e enriquecer os dados para análises subsequentes.
5. Quais são os tipos de Pipeline de Dados mencionados no texto?
o Resposta: Pipeline em lote (batch) e Pipeline em streaming.
Eixo Temático 5 - Apoio à Decisão, Inteligência Artificial e Métodos Quantitativos

6. Qual é o papel do Data Lake na Controladoria-Geral da União e em órgãos de


controle do Brasil?
o Resposta: Serve como repositório centralizado para armazenar,
processar e proteger grandes quantidades de dados governamentais de
fontes diversas.
7. Explique as diferenças entre ETL e ELT.
o Resposta: ETL é o processo tradicional de extração, transformação e
carregamento em data warehouse. ELT é mais moderno, utilizando Data
Lakes, com extração e carregamento direto, deixando a transformação
para ser feita posteriormente.
8. Quais são as vantagens do ELT em relação ao ETL?
o Resposta: Velocidade de carregamento, transformação realizada por
analistas de dados, e seleção de dados ao fim do processo.

AULA 04:

1. Introdução a NoSQL e Hadoop:


o NoSQL e Hadoop são tecnologias relacionadas a Big Data.
o NoSQL é uma abordagem para lidar com grandes massas de dados,
especialmente bancos de dados não relacionais.

2. Evolução do Big Data e Bancos de Dados Não Relacionais:


o Tecnologias anteriores não atendiam satisfatoriamente às grandes
massas de dados.
o Bancos de dados não relacionais foram desenvolvidos, tratando
elementos como objetos e utilizando a orientação a objetos.
3. Características do NoSQL:
o Esquemas dinâmicos permitem adição de informações durante a
execução.
o Manipulação por APIs orientadas a objeto.
Eixo Temático 5 - Apoio à Decisão, Inteligência Artificial e Métodos Quantitativos

o Maior escalabilidade, suportando a inserção de novas bases de dados


sem problemas.
o Armazena diversos tipos de dados, como vídeo, som, imagem, etc.
4. Modelos de Bancos de Dados NoSQL:
o Modelo Baseado em Grafos: Representação por meio de grafos e nós
(Exemplos: Neo4J e Titan).
o Modelo Chave-Valor: Associação de uma informação e um valor
(Exemplos: Amazon Dynamo DB, Cassandra, Oracle).
o Modelo Orientado a Colunas: Armazenamento em colunas (Exemplos:
Apache Hbase, Google Big Table).
o Modelo Orientado a Documentos: Armazenamento de documentos
(Exemplos: MongoDB, CouchDB).
5. Classificação de Alguns Bancos de Dados NoSQL:
o Cassandra: Pode ser classificado como Modelo Orientado a Colunas ou
em Chave-Valor.
o Neo4J: Modelo Baseado em Grafos.
o MongoDB: Modelo Orientado a Documentos.
o Redis: Modelo Chave-Valor.

Perguntas e Respostas:

1. Qual é a relação entre NoSQL, Hadoop e Big Data?


o NoSQL e Hadoop são tecnologias frequentemente associadas a Big Data,
tratando grandes volumes de dados de maneiras inovadoras.
2. Como os bancos de dados NoSQL lidam com esquemas?
o Bancos de dados NoSQL possuem esquemas dinâmicos, permitindo a
adição de informações durante a execução.
3. Quais são os benefícios da escalabilidade no contexto NoSQL?
o NoSQL oferece maior escalabilidade, permitindo a inserção de novas
bases de dados sem grandes problemas, devido ao armazenamento
distribuído dos dados.
4. Quais são os modelos de bancos de dados NoSQL mencionados?
o Modelo Baseado em Grafos, Modelo Chave-Valor, Modelo Orientado a
Colunas e Modelo Orientado a Documentos.
5. Dê exemplos de bancos de dados associados a cada modelo NoSQL.
o Modelo Baseado em Grafos: Neo4J e Titan.
o Modelo Chave-Valor: Amazon Dynamo DB, Cassandra, Oracle.
o Modelo Orientado a Colunas: Apache Hbase, Google Big Table.
o Modelo Orientado a Documentos: MongoDB, CouchDB.
6. Como o Cassandra pode ser classificado em termos de modelo NoSQL?
o O Cassandra pode ser classificado como Modelo Orientado a Colunas ou
em Chave-Valor, dependendo da abordagem da banca.
Eixo Temático 5 - Apoio à Decisão, Inteligência Artificial e Métodos Quantitativos

7. Quais são os modelos de alguns bancos de dados NoSQL específicos


mencionados em uma questão de concurso?
o Cassandra: Modelo Orientado a Colunas (ou em Chave-Valor,
dependendo da interpretação da banca).
o Neo4J: Modelo Baseado em Grafos.
o MongoDB: Modelo Orientado a Documentos.
o Redis: Modelo Chave-Valor

AULA 05:

Resumo:

1. Introdução ao Hadoop:
o Hadoop não é uma sigla, mas o nome do elefante de brinquedo do filho
do desenvolvedor inicial.
o Não é um banco de dados, mas um framework para processamento e
armazenamento de grandes quantidades de dados de Big Data.
2. O Principal Elemento: HDFS (Hadoop Distributed File System):
o O Hadoop não é um banco de dados, mas um framework com o HDFS
como principal elemento.
o O HDFS realiza o armazenamento distribuído de dados em vários nós do
sistema, garantindo escalabilidade.
o Utiliza vários hardwares, reduzindo custos ao juntar discos baratos para
suportar grandes volumes de dados.
3. Módulo MapReduce:
o MapReduce é um módulo original do Hadoop com comandos de
programação para processamento distribuído de dados.
o Permite o acesso distribuído aos dados, reduzindo a dimensionalidade
da quantidade de bancos de dados.
4. Projetos Paralelos:
o Existem diversos projetos em paralelo desenvolvidos para o Hadoop.
o Destaque para o HCatalog, serviço de metadados, e linguagens como
PIG e Hive.
5. Características do Hadoop:
o Capacidade de armazenar e processar grandes quantidades de dados
rapidamente.
o Poder computacional, tolerância a falhas com replicação tripla,
flexibilidade sem necessidade de pré-processamento.
o Custo baixo, sendo gratuito, embora haja versões comerciais.
6. Escalabilidade e Cluster Hadoop:
o Escalabilidade proporcionada pelo processamento distribuído.
Eixo Temático 5 - Apoio à Decisão, Inteligência Artificial e Métodos Quantitativos

oCluster Hadoop consiste em diversos nós, classificados em NameNode e


DataNode.
7. NameNode e DataNode:
o NameNode: Gerencia onde cada arquivo está armazenado, controla o
acesso. Recomenda-se backup de dados para evitar perdas.
o Secondary DataNode: Réplica para minimizar falhas.
o DataNode: Armazena arquivos, realiza leitura, gravação e operações
conforme instruções do NameNode. Não necessita de backup de dados
devido à replicação.

Perguntas e Respostas:

1. O que é Hadoop?
o Hadoop é um framework para processamento e armazenamento de
grandes volumes de dados, não sendo um banco de dados.
2. Qual é o papel do HDFS no Hadoop?
o O HDFS (Hadoop Distributed File System) é o sistema de
armazenamento distribuído que gerencia dados em vários nós do
sistema, garantindo escalabilidade.
3. O que é MapReduce no contexto do Hadoop?
o MapReduce é um módulo original que permite o processamento
distribuído dos dados, acessando-os de maneira distribuída e reduzindo
a dimensionalidade da quantidade de bancos de dados.
4. Quais são as características do Hadoop?
o Capacidade de armazenar e processar grandes volumes de dados, poder
computacional, tolerância a falhas, flexibilidade, custo baixo e
escalabilidade.
5. Explique a estrutura do Cluster Hadoop.
o O Cluster Hadoop consiste em diversos nós, sendo o NameNode
responsável pelo gerenciamento e controle de acesso, enquanto o
DataNode armazena arquivos e executa operações conforme instruções
do NameNode.
6. Qual a importância do backup do NameNode?
o Recomenda-se o backup do NameNode para evitar a perda de dados do
cluster em caso de falhas, e pode haver uma réplica, o Secondary
DataNode, para minimizar as falhas.
7. Por que os DataNodes não necessitam de backup de dados?
o Devido à replicação tripla dos dados, os DataNodes não necessitam de
backup, pois há redundância para garantir a disponibilidade dos dados.

AULA 06
Eixo Temático 5 - Apoio à Decisão, Inteligência Artificial e Métodos Quantitativos

Resumo:

1. Arquitetura de Big Data:


o Big Data refere-se a grandes bases de dados com dados não
estruturados, semiestruturados e estruturados, caracterizados por
variedade, volume e velocidade.
o A arquitetura de Big Data envolve processamento em batch e em tempo
real, começando pelas fontes de dados.
2. Processamento em Batch e em Tempo Real:
o Processamento em Batch ocorre em determinados períodos, visando
Ciência de Dados.
o Dois caminhos: processamento em lote (confiabilidade) e
processamento em tempo real (velocidade).
o Orquestração automatiza o processo.
3. Fontes e Armazenamento de Dados:
o Fontes incluem bancos de dados relacionais, arquivos diversos, IoT.
o Armazenamento em Data Lake, repositórios distribuídos e NoSQL.
4. Processamento em Lote:
o Envolvendo pré-processamento, agregações e filtragens.
o Utiliza ferramentas como Hive, Pig, Map-Reduce e programas em
Python.
o Dados são transferidos do Data Lake para a base de modelagem.
5. Ingestão de Mensagens em Tempo Real:
o Captura de dados em tempo real, com repositório de ingestão e
processamento de fluxo.
o Pré-processamento e armazenamento de dados analíticos.
6. Análise e Relatórios:
o Dados processados em formato estruturado para análise por
ferramentas de Analytics.
o Geração de resultados e insights para tomada de decisão.
7. Orquestração e Variações de Arquitetura:
o Orquestração automatiza fluxos de trabalho.
o Duas variações de arquitetura: Lambda (caminho frio e quente) e Kappa
(caminho único).
8. Papéis em Projetos de Big Data:
o Engenheiro de Big Data: Foco em dados e infraestrutura, implementa a
arquitetura.
9. Big Data em Relação a Outras Disciplinas:
o Relação com Banco de Dados, Aprendizado de Máquina, Business
Intelligence, Computação em Nuvem, Estatística, Engenharia de
Software e todas as áreas de conhecimento.
Eixo Temático 5 - Apoio à Decisão, Inteligência Artificial e Métodos Quantitativos

Perguntas e Respostas:

1. O que caracteriza Big Data em termos de dados?


o Big Data refere-se a grandes bases de dados com dados não
estruturados, semiestruturados e estruturados, com variedade, volume
e velocidade.
2. Quais são os caminhos principais na arquitetura de Big Data?
o Processamento em Batch e em Tempo Real.
3. O que envolve o processamento em lote em Big Data?
o Pré-processamento, agregações e filtragens em períodos determinados,
utilizando ferramentas como Hive, Pig, Map-Reduce e programas em
Python.
4. Qual é o papel do engenheiro de Big Data em projetos?
o O engenheiro de Big Data é responsável pela infraestrutura e
implementação da arquitetura de Big Data.
5. Explique as variações de arquitetura: Lambda e Kappa.
o Lambda possui caminhos frio e quente, consumindo mais recursos.
Kappa tem um caminho único mais rápido para chegar ao analytics em
tempo real, passando por um processo de lote antes de ir para o cliente.
6. Quais são as fontes de dados em um projeto de Big Data?
o Incluem bancos de dados relacionais, arquivos diversos, dados de IoT.
7. Como são armazenados os dados analíticos em Big Data?
o Armazenados em formato estruturado para serem consumidos por
ferramentas de Analytics.
8. Quais são as disciplinas relacionadas a Big Data?
o Banco de Dados, Aprendizado de Máquina, Business Intelligence,
Computação em Nuvem, Estatística, Engenharia de Software, entre
outras.

AULA 07 (SOMENTE EXERCÍCIOS)

AULA 08

1. Ingestão de Dados:

 Definição: Processo de incorporar dados de diversas fontes para um local de


destino, como um Data Lake.
 Diferença entre dados estruturados, semiestruturados e não estruturados.

2. Tipos de Dados:
Eixo Temático 5 - Apoio à Decisão, Inteligência Artificial e Métodos Quantitativos

 Estruturados: Tabelas de banco de dados com estrutura rígida.


 Não Estruturados: Documentos, ofícios, despachos, etc., sem planejamento
prévio.
 Semiestruturados: Têm alguma estrutura, mas não totalmente rígida.

3. Métodos de Ingestão:

 Batch (Lote): Movimentação de dados em intervalos agendados.


 Streaming (Transmissão Contínua): Processamento e armazenamento
imediatos para decisões em tempo real.
 Lambda: Combinação de processamento em lote e em tempo real.

4. Ingestão Full x Incremental:

 Full: Carregamento completo em uma carga única, mais demorado e custoso.


 Incremental: Apenas novos registros são adicionados periodicamente.

5. Ingestão CDC (Change Data Capture):

 Captura apenas as alterações adicionadas na base de dados entre versões,


transferindo em tempo real para outro destino.
 Abordagens: Logs e Triggers.

Perguntas e Respostas:

Q1: O que é ingestão de dados? A1: Ingestão de dados é o processo de absorver dados
de várias fontes e transferi-los para um local de destino, como um Data Lake, para
análises futuras.

Q2: Quais são os tipos de dados mencionados? A2: Dados estruturados (tabelas de
banco de dados), não estruturados (documentos) e semiestruturados (com alguma
estrutura, mas flexível).

Q3: Quais são os métodos de ingestão de dados? A3: Batch (lote), Streaming
(transmissão contínua) e Lambda (combinação de lote e tempo real).

Q4: Qual a diferença entre ingestão Full e Incremental? A4: A ingestão Full carrega
todos os dados em uma carga única, sendo mais demorada e custosa. A ingestão
Incremental adiciona apenas novos registros periodicamente.

Q5: O que é Change Data Capture (CDC)? A5: CDC captura alterações adicionadas na
base de dados entre versões e transfere essas mudanças em tempo real para outro
destino, utilizando abordagens como logs e triggers.
Eixo Temático 5 - Apoio à Decisão, Inteligência Artificial e Métodos Quantitativos

AULA 9

Apache Spark:

1. Não é um sistema de armazenamento, mas destaca-se pela eficiente utilização


da memória.
2. Framework para computação distribuída e processamento de dados em larga
escala.
3. Código aberto e escrito em Scala.
4. Oferece paralelismo de dados e tolerância a falhas.

Módulos:

1. Spark Core:
o Módulo principal.
2. Spark SQL:
o Processamento de dados estruturados.
o Extrai dados de bases estruturadas e relacionais.
3. MLlib (Machine Learning Library):
o Funcionalidades para aprendizado de máquina, redes neurais,
arquitetura de dados, etc.
4. GraphX:
o Processamento de grafos.
o Usado em mapeamentos geográficos, como Waze e Google Maps.
5. Spark Streaming:
o Processamento em tempo real.
6. SparkR:
o Processamento de dados com R.
7. PySpark:
o Processamento de dados com Python.
8. Panda API em Spark:
o Para trabalhos com a biblioteca Python Pandas.
9. BlinkDB:
o Consultas em SQL com amostragem.

Arquitetura Spark:

1. Driver Program:
o Aplicação principal.
o Inicia o SparkContext.
2. Cluster Manager:
o Administra as máquinas nos clusters.
Eixo Temático 5 - Apoio à Decisão, Inteligência Artificial e Métodos Quantitativos

3. Workers:
o Executam tarefas enviadas pelo Driver Program.

Perguntas e Respostas:

1. Qual é a principal vantagem do Apache Spark?


o A eficiente utilização da memória, permitindo a automação de muitas
operações.
2. Quais são os principais módulos do Spark e suas funções?
o Spark Core: Módulo principal.
o Spark SQL: Processamento de dados estruturados.
o MLlib: Funcionalidades para aprendizado de máquina.
o GraphX: Processamento de grafos.
o Spark Streaming: Processamento em tempo real.
o SparkR: Processamento de dados com R.
o PySpark: Processamento de dados com Python.
o Panda API em Spark: Trabalhos com a biblioteca Pandas.
o BlinkDB: Consultas em SQL com amostragem.
3. O que é o Driver Program no contexto do Apache Spark?
o O Driver Program é a aplicação principal que inicia o SparkContext e
envia tarefas para execução nos Workers.
4. Quais são os principais componentes da arquitetura do Spark?
o Driver Program, Cluster Manager e Workers.
5. Para que serve o módulo Spark Streaming?
o O Spark Streaming é usado para processamento em tempo real.

AULA 10

Resilient Distributed Datasets (RDD):

1. Abstraem conjunto de objetos distribuídos no cluster.


2. Armazenados em RDD nos clusters.
3. Funcionam em modo leitura; manipulação exige criar cópia.
4. Armazenamento pode ocorrer em sistemas tradicionais, HDFS, ou NoSQL como
Cassandra e HBase.
5. Principais objetos no modelo de programação do Spark.

Operações em RDD:

1. Transformações: agrupamentos, filtros, mapeamentos.


2. Ações: contagens, persistências.
Eixo Temático 5 - Apoio à Decisão, Inteligência Artificial e Métodos Quantitativos

Modelo de Programação - Gráfico Acíclico Direcionado (DAG):

1. Agenda tarefas e orquestra trabalhadores.


2. Rastreia tarefas e garante tolerância a falhas.

DataFrames e Datasets:

1. DataFrames: tabelas estruturadas em problemas de Aprendizado de Máquina.


2. Datasets: fortemente tipados, tipos de colunas bem definidos.

RDD (Resilient Distributed Datasets):

1. Resilientes, tolerantes a falhas; processamentos não perdidos mesmo com


danos no cluster.
2. Distribuído: armazenamento na memória por todo o cluster.

Datasets:

1. Conjuntos de dados provenientes de fontes.


2. Imutáveis.

Exemplos de Operações em RDD:

1. Transformações: map(function) cria novo RDD processando função em cada


registro. Filter(function) cria novo RDD incluindo ou excluindo elementos
conforme função booleana.
2. Ações: count() retorna número de elementos; take(n) retorna array com
primeiros n elementos; collect() retorna array com todos elementos;
saveAsTextFile(file) salva RDD no arquivo no HD.
3. Durante operações de ações, não há criação de novo RDD, ao contrário das
operações de transformações.

Perguntas e Respostas:

1. O que são RDDs (Resilient Distributed Datasets) e qual a sua principal


característica?
o RDDs são conjuntos de objetos distribuídos no cluster. Sua principal
característica é a tolerância a falhas, sendo resilientes, e os
processamentos não são perdidos mesmo em caso de danos no cluster.
2. Como o Spark gerencia o armazenamento de RDDs?
o O Spark não tem sistema próprio de armazenamento; os RDDs são
armazenados em sistemas auxiliares, como sistemas de arquivo
tradicionais, HDFS ou alguns Bancos de Dados NoSQL.
Eixo Temático 5 - Apoio à Decisão, Inteligência Artificial e Métodos Quantitativos

3. Quais são as principais operações realizadas em RDDs?


o As operações em RDDs incluem transformações, como agrupamentos,
filtros e mapeamentos, e ações, como contagens e persistências.
4. O que é o modelo de programação em Gráfico Acíclico Direcionado (DAG) no
contexto do Spark?
o O DAG agenda tarefas, orquestra trabalhadores, rastreia tarefas e
garante tolerância a falhas no Spark.
5. Quais são as características dos DataFrames e Datasets no Spark?
o DataFrames são tabelas estruturadas usadas em problemas de
Aprendizado de Máquina, enquanto Datasets são fortemente tipados,
com tipos de colunas bem definidos.
6. Explique como funcionam as operações de transformação e ação em RDDs.
o Operações de transformação, como map e filter, criam um novo RDD
processando os dados, enquanto operações de ação, como count e
collect, realizam ações sem criar um novo RDD.

Você também pode gostar