Apol Big Data 3

Questão 1/10 - Big Data
O nível de gerenciamento e governança de um Data Lake pode nos dar pistas para
definir seu nível de maturidade.
Avalie as seguintes afirmações sobre a maturidade de Data Lakes:
I – Data Swamp é o nível em que os dados de um Data Lake estão tão degradados
que não há mais como extrair informações úteis.
II – Data pond é o estágio inicial de um Data Lake, funciona de forma muito
semelhante a um Data Warehouse mal projetado. Sua construção e manutenção
exigem um alto envolvimento de uma equipe técnica.
III – Data puddle consiste em uma coleção de Data Marts para propósitos específicos.
Não é capaz de colaborar para melhorar o acesso aos dados.
IV – Em um Data Lake propriamente dito, os usuários são capazes de realizar buscas
e localizar dados diretamente.
V – Um Data Ocean é a aplicação de um Data Lake para toda uma organização.
Dessa forma é possível utilizar seus dados para tomar decisões estratégicas de
negócios.
Dentre essas afirmações estão INCORRETAS:
Nota: 10.0
A Todas, exceto IV
B I, IV e V
C Apenas III
D I, II e IV
E II e III
Você assinalou essa alternativa (E)
Você acertou!
Justificativa: O nível de maturidade descrito pela afirmação II não corresponde ao Data Pon
tal afirmação encontra-se INCORRETA. Enquanto que a afirmação III é verdadeira para u
Puddle. Portanto a afirmação está INCORRETA. As demais afirmações (I, IV e V) estão CO

O Spark Streaming oferece a capacidade de realizar transformações em janelas, o que
permite aplicar transformações em um conjunto de RDDs para computar os resultados
de um intervalo maior.
I – Transformações de janela acumulam RDDs em intervalos de tempo maior e os
processa conjuntamente produzindo um resultado acumulado.
II – O intervalo de slide é a quantidade de tempo entre cada captura de dados, ou seja,
a sua frequência.
III – O intervalo de batch é a quantidade de tempo entre cada aplicação das
transformações à janela. Ou seja, é a frequência em que estas são aplicadas e geram
resultados.
IV – O intervalo de janela, ou comprimento da janela, é a duração da janela.
V – O intervalo de batch a frequência em que os dados são capturados do fluxo pelo
DStream.
Nota: 10.0
A Todas, exceto V
B II, IV e V
C Todas
D I, III e V
E II e III
Você assinalou essa alternativa (E)
Você acertou!
Justificativa: O intervalo de slide é a quantidade de tempo que define a frequência em que a
janela e não a frequência de captura dos dados como alega INCORRETAMENTE a afi
de batch é a quantidade de tempo que define a frequência em que os dados são capturado
a quantidade de tempo entre cada captura de dados. Diferentemente do que diz ERRO
demais afirmações (I, IV e V) estão CORRETAS.

Avalie as seguintes afirmações sobre os componentes do Hadoop: Impala e
Accumulo:
I – Impala é um motor de consultas SQL capaz de realizar consultas de baixa latência

em HDFS ou Hive.
II – O Impapa foi projetado para consultas analíticas em Haddop utilizando SQL ou
ferramentas de business inteligence (BI).
III – Accumulo é um sistema de armazenamento distribuído baseado em chave-valor
que implementa segurança e nível de célula.
IV – Todos os dados armazenados no Accumulo devem possuir os mesmos requisitos
de segurança em uma mesma tabela.
V – O Accumulo permite realizar operações em pares de chave-valor assim que são
inseridos.
Dentre essas afirmações estão CORRETAS:
Nota: 10.0
A I, II e III
B Todas
C I, II e IV
D II, III e V
Você assinalou essa alternativa (D)
Você acertou!
Justificativa: Entre as principais características do Impala destaca-se a possibilidade de
latência de dados armazenados em HDFS e HBase. Dessa forma a afirmação I enc
principais características do Accumulo é a segurança em nível de célula, onde cada par
rótulo de segurança que tem a capacidade de limitar os resultados de uma consulta basea
usuário. Portanto a afirmação IV está INCORRETA. As afirmações II, III e V estão CORRET
E Apenas III

O Spark Streaming oferece uma abstração de alto nível conhecida como DStreams
(ou Discretized Streams) que representa um fluxo contínuo de dados.
Avalie as seguintes afirmações sobre os DStreams:
I – DStreams são representados em Spark como uma sequência de RDD.

II – Toda operação aplicada a um DStream é traduzida em operações em seus
respectivos RDDs.
III – DStreams podem possuir como fontes de dados tanto arquivos e conexões de
socket quanto fontes externas como Kafka, Kinesis, Flume e outros.
IV – Operações de saída permitem que os dados de um DStream sejam direcionados
a sistemas externos como um banco de dados ou um sistema de arquivos.
V – DStreams não armazenam estados. Dessa forma não é possível armazenar
informações entre o processamento de cada RDD.
Nota: 10.0
A Todas
B I, II e V
C I, IV e V
D Todas, exceto V
Você acertou!
Justificativa: Diferentemente do que diz INCORRETAMENTE afirmação V, é possível ma
DStream. Isso é muito útil para realizar operações que dependem de informações e
afirmações (I, II, III e IV) estão corretas.
E Apenas IV

Uma vez que conhecemos os conceitos que envolvem a arquitetura big data assim
como as aplicações que implementam suas características, podemos pensar em como
combinar todas essas tecnologias e ideias para o desenvolvimento de um produto
visando atender a alguma necessidade existente.
Avalie as seguintes afirmações a respeito do desenvolvimento e design de soluções

Big Data:
I – O desenvolvimento de aplicações Big Data possui grandes desafios em como

combinar todas as suas tecnologias e ideias para desenvolver novos produtos. Porém
a integração com tecnologias tradicionais é uma questão trivial atualmente.
II – Em muitos casos as soluções de Big Data têm como objetivo otimizar processos
de negócios, adquirir vantagens competitivas ou otimizar operações. Dessa forma
podem representar muitas vantagens para uma empresa.
III – O entendimento das necessidades que nossa aplicação busca atender é uma das
maneiras mais importantes de se obter as informações necessárias para guiar o
desenvolvimento
IV – A documentação de requisitos é capaz de evitar desperdícios e garantir que a
implementação está alinhada com as necessidades do usuário.
V – Working Backwards é uma abordagem de desenvolvimento de produtos que
prioriza o entendimento dos requisitos e o feedback do usuário antes mesmo do início
do desenvolvimento.
Nota: 10.0
A II, III e IV
B I, IV e V
C I, II e IV
D Todas, exceto I
Você acertou!
Todas exceto I
Justificativa: Existem desafios no que se trata da complexidade em integrar sistema
tradicionais existentes. Ao contrário do que alega a afirmação I que está INCORRETA. Tod
e V) estão CORRETAS.
E Todas

GraphX é o componente do Spark para computação de grafos em sistemas
distribuídos de larga escala. Ele foi desenvolvido através de um projeto de pesquisa
como forma de unificar o processamento de grafos e de sistemas paralelos até se
tornar uma parte integral do projeto Spark.
Avalie as seguintes afirmações a respeito do GraphX:
I – A API GraphX implementa abstrações de arestas e vértices baseados em

extensões de RDDs
II – A computação de grafos é importante em casos onde as relações entre os dados
são mais importantes que os dados em si.
III – Grafos são uma forma muito eficiente de representar dados de tabelas esparsas.
IV – O algoritmo Connected Components é um tipo de algoritmo paralelo de grafos
que é capaz de medir a coesão entre os seus dados (componentes).
V – O algoritmo PageRank desenvolvido pelo Google é capaz de classificar a
importância de sites através da quantidade de referências apontadas para um site.
Nota: 0.0Você não pontuou essa questão
A Todas, exceto IV
Justificativa: O algoritmo Connected Components busca encontrar todos os componentes d
entre si onde cada vértice (ou componente) dentro de um grupo pode ser alcançado a p
grupo. Além disso não deve haver nenhum caminho, ou seja, arestas, entre dois grupos
INCORRETAMENTE a afirmação IV. Todas as outras afirmações (I, II, III e V) estão CORR
B I, II e III
C II, III e IV
Você assinalou essa alternativa (C)
D IV e V
E Todas

Recomendações se baseiam nas previsões de preenchimento das avaliações
desconhecidas. Existem duas principais abordagens para isso: recomendações
baseadas em conteúdo (content-based recommendations) e filtragem colaborativa
(collaborative filtering).
Avalie as seguintes avaliações sobre as duas principais abordagens de

recomendações:
I – O sistema de recomendações baseadas em conteúdo possuem como estratégia a

recomendação de itens mais parecidos aos que o usuário avaliou.
II – Antes de recomendar um novo item, o sistema de recomendações baseadas em
conteúdo precisa que algum usuário avalie o novo item.
III – O cálculo de similaridade entre os usuários é utilizado por sistemas de filtragem
colaborativa para medir a chance de um par de usuários avaliar determinado item de
forma parecida.
IV – Métodos de filtragem colaborativa pode ser aplicado apenas para medir a
semelhança entre usuários.
V – É possível utilizar métodos de diferentes abordagens de recomendação de uma
forma híbrida para tentar melhorar a qualidade das predições.
Nota: 10.0
A Todas, exceto V
B I e III
C Nenhuma
D II e IV
Você acertou!
Justificativa: Na afirmação II, é incorreto dizer que o sistema de recomendações baseada
usuário avalie o novo item, pois este sistema se baseia nas características do item e n
afirmação IV diz que os métodos de filtragem colaborativa podem ser aplicados apenas
usuários, porém podemos aplicar o mesmo princípio para as avaliações entre itens (ou
Portanto tal afirmação está INCORRETA. As demais afirmações (I, III e V) estão corretas.
E II e V

Spark SQL é o módulo do Spark utilizado o processamento de dados estruturados.
Diferentemente da API básica de RDDs do Spark, a interface fornecida pelo Spark
SQL oferece mais informações sobre a estrutura tanto dos dados quanto da
computação a ser realizada. Internamente essa informação extra é utilizada para
otimizações adicionais.
Sobre os diferentes formatos de dados suportados pelo Spark SQL avalie as seguintes
afirmações:
I – O formato de dados padrão suportado pelo Spark SQL é o CSV, um formato de

arquivos que armazena texto em formato tabular que utiliza vírgulas para separar
valores.
II – O ORC é um formato de arquivos que busca otimizar o tempo de processamento e
reduzir o tamanho dos arquivos. É um formato de dados utilizado também pelo Hive e
é considerado uma forma altamente eficiente de armazenamento.
III – O Parquet é um formato de armazenamento baseado em chave-valor amplamente
utilizado por diversos sistemas. É um formato otimizado para suportar sistemas de
compressão muito eficientes.
IV – LibSVM é um formato de dados que implementa Support-Vector Machines e é
muito utilizado em modelos de aprendizagem.
V – O Spark SQL permite o uso de conectores JDBC e ODBC para atuar como um
motor de consultas distribuídas a tabelas de dados externas.
Nota: 10.0
A II, IV e V
Você assinalou essa alternativa (A)
Você acertou!
Justificativa: A fonte de dados padrão utilizada pelo Spark para todas as operações são
sejam configurados de outra forma. Diferentemente do que INCORRETAMENTE diz a afir
de armazenamento colunar, não é baseado em chave-valor como diz ERRONEAMENTE a
e V estão CORRETAS.
B I, II e IV
C Todas, exceto I
D II, III e IV
E Todas

Para que o valor dos dados contidos em um Data Lake não seja perdido, se faz
necessário criar uma solução de Data Lake que inclua as noções de gerenciamento,
acessibilidade e governança.
Avalie as seguintes afirmações a respeito do gerenciamento de Data Lake:
I – Um Data Lake oferece o mesmo nível de complexidade que outras estratégias de

armazenamento como Data Mart e Data Warehouse.
II – Uma das características que podem ser agregadas aos dados armazenados em
uma estratégia de Data Lake utilizando bons esquemas de governança é a
transparência no uso dos dados.
III – Entre as informações que se podem obter dos dados em um Data Lake podemos
destacar os metadados técnicos que fornecem informações sobre a qualidade, perfil,
origem, e a sua linhagem.
IV – Os metadados técnicos de um Data Lake podem fornecer informações a respeito
da forma ou estrutura dos dados tais como tamanho, tipo de dado ou esquema.
V – Os metadados de um Data Lake permitem buscar, localizar e aprender sobre os
dados armazenados.
Nota: 10.0
A II, IV e V
Você assinalou essa alternativa (A)
Você acertou!
Justificativa: A estratégia de armazenamento de dados Data Lake pode oferecer uma r
estratégias Data Warehouse e Data Mart não são capazes de oferecer. Dessa forma en
INCORRETA. Metadados técnicos são os metadados que fornecem informações a respeit
tais como: tamanho, tipo de dado, esquema. Portanto a afirmação III está INCORRETA.
estão CORRETAS.
B Todas, exceto IV
C I, II e V
D III, IV e V
E Todas

Os modelos de Cloud Computing podem ser observados como camadas de um
modelo de negócios. Dessa forma quando desejamos utilizar um sistema de Big Data
em Cloud Computing podemos definir variações de Big Data as a Service (BDaaS).
Avalie as seguintes afirmações sobre Big Data as a Service e os principais

fornecedores do mercado:
I – Em um serviço de Big Data implementado sobre uma pilha de modelos de Cloud

Computing, o Hadoop ou qualquer outra tecnologia de processamento e
armazenamento distribuído encontram-se na camada PaaS.
II – Um sistema de Big Data as a Service deve implementar as instâncias de IaaS,
PaaS, SaaS e BDaaS na mesma nuvem.
III – O Amazon Elastic MapReduce é um sistema baseado no Hadoop e permite
utilizar ferramentas como Spark, Hive, HBase, Flink e Presto, entre muitos outros
serviços
IV – O Cloud Dataproc além de fornecer serviços Spark e Hadoop, está integrado com
outros serviços do Google Cloud Platform, como BigQuery, Cloud Storage, Cloud
Bigtable, Stackdriver Logging e Stackdriver Monitoring.
V – O Microsoft Azure implementa serviços de armazenamento, CDN, serviço de
containers, processamento em lote, computação sem servidor, e um serviço para
permitir o uso e gerenciamento de clusters Hadoop e Spark.
Nota: 0.0Você não pontuou essa questão
A I, III e V
B II, III e IV
C Nenhuma
Você assinalou essa alternativa (C)
D IV e V
E II
Justificativa: Temos variações de BDaaS (Big Data as a Service) que podem implementar t
de SaaS ou ambas na mesma nuvem. Ou seja, as camadas não precisam necessariame
isso a afirmação II encontra-se INCORRETA. As demais afirmações (I, III, IV e V) estão CO

Apol Big Data 3

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Apol Big Data 3

Enviado por

Direitos autorais:

Formatos disponíveis

Questão 1/10 - Big Data

Avalie as seguintes afirmações sobre a maturidade de Data Lakes:

Questão 2/10 - Big Data

Questão 3/10 - Big Data

I – Impala é um motor de consultas SQL capaz de realizar consultas de baixa latência

Questão 4/10 - Big Data

Avalie as seguintes afirmações sobre os DStreams:

I – DStreams são representados em Spark como uma sequência de RDD.

Questão 5/10 - Big Data

Avalie as seguintes afirmações a respeito do desenvolvimento e design de soluções

I – O desenvolvimento de aplicações Big Data possui grandes desafios em como

Questão 6/10 - Big Data

Avalie as seguintes afirmações a respeito do GraphX:

I – A API GraphX implementa abstrações de arestas e vértices baseados em

Questão 7/10 - Big Data

Avalie as seguintes avaliações sobre as duas principais abordagens de

I – O sistema de recomendações baseadas em conteúdo possuem como estratégia a

Questão 8/10 - Big Data

I – O formato de dados padrão suportado pelo Spark SQL é o CSV, um formato de

Questão 9/10 - Big Data

Avalie as seguintes afirmações a respeito do gerenciamento de Data Lake:

I – Um Data Lake oferece o mesmo nível de complexidade que outras estratégias de

Questão 10/10 - Big Data

Avalie as seguintes afirmações sobre Big Data as a Service e os principais

I – Em um serviço de Big Data implementado sobre uma pilha de modelos de Cloud

Você também pode gostar