Gran Big Data

BIG DATA & ANALYTICS
Tipos de Dados e VS do Big Data

Viu algum erro neste material? Contate-nos em: degravacoes@grancursosonline. com. br
TIPOS DE DADOS E VS DO BIG DATA
TIPOS DE DADOS
Dados estruturados:
Possuem uma estrutura rígida, os metadados estão definidos. Exemplo: esse será um
dado do tipo decimal cujo nome será valor, porque é um dado de dinheiro.
Requer um planejamento prévio, pois para inserir dados em uma tabela antes será neces-
sário cria-la, dar o crédito.
Será necessário também estabelecer o tipo de dado (se é string, número, vídeo etc), a for-
matação, como ele será armazenado, tudo isso deverá ser previamente planejado. Exemplo:
se é um CPF ele terá 11 dígitos e será necessária uma fórmula para os últimos dois dígitos.
O exemplo mais comum é o Bancos de dados.
Dados semiestruturados:
São dados que estão entre os dados estruturados e os dados não estruturados. Quando
se fala de dados semiestruturados o que se tem é o dado acompanhado de uma certa
descrição.
Propriedades organizacionais como metadados ou tags semânticas são usadas para
tornar os dados mais gerenciáveis.
Exemplos: XML, HTML, pois existe uma organização nesses dados em que será possí-
vel pegar apenas pedaços de dados e colocar entre tags, mas não consegue controlar o que
está ali dentro. .
5m
Dados não estruturados:
É o dados presente em forma bruta, não existindo nenhuma espécie de planejamento de

como organizar e armazenar aquele dado.
A estrutura flexível, não tem uma lógica prévia.
Exemplos: texto, imagem, vídeo. Não é possível organizar a forma com que os pixels
aparecerão em uma imagem. Existe uma liberdade, pois qualquer coisa entre zero e dois,
cinco, cinco, em um pixel de 256 cores é possível colocar o que quiser.
ANOTAÇÕES
www. grancursosonline. com. br 1

DIRETO DO CONCURSO
01. (CESPE/2021/POLÍCIA FEDERAL/ESCRIVÃO DE POLÍCIA FEDERAL) Os dados
estruturados diferenciam-se dos dados não estruturados pela rigidez em seu formato e
pelo fato de poderem ser armazenados em campos de tabelas de um banco de dados
relacional.
COMENTÁRIO
Não são apenas essas as diferenças, pois pode existir dados estruturados em outro tipo de
formato que não seja banco de dados desde que ele seja previamente planejado. Pode ser
feito outro tipo de estrutura rígida dentro de arquivo binário, onde se descreve tudo direitinho
e se consegue organizar sem necessariamente estar em um banco de dados relacional.
ANOTAÇÕES

02. (CESPE/2020/MINISTÉRIO DA ECONOMIA/TECNOLOGIA DA INFORMAÇÃO -

CIÊNCIA DE DADOS) Embora com características particulares, dados não estrutura-
dos podem ser classificados em sua totalidade, assim como os dados estruturados.
COMENTÁRIO
É errado afirmar que os dados não estruturados podem ser classificados em sua totalida-
de, diferente dos dados estruturados que podem ser classificados em sua totalidade. .
10m
03. (FAURGS/2018/ TJ-RS/ADMINISTRADOR DE BANCO DE DADOS) Os dados

_______ são armazenados em ________. Os dados ________ misturam nomes de
tipos de dados e valores de dados, mas nem todos eles precisam seguir uma estrutura
predefinida fixa. Os dados ________ referem-se à informação exibida na Web, caso em
que a informação sobre os tipos dos itens de dados não existe.
Assinale a alternativa que completa, correta e respectivamente, as lacunas do
texto acima.
a. semiestruturados / bancos de dados tradicionais / estruturados / não estruturados
b. não estruturados / XML / semiestruturados /estruturados
c. estruturados / HTML / não estruturados / semiestruturados Big Data
d. estruturados / bancos de dados tradicionais / semiestruturados / não estruturados
e. semiestruturados / Web / estruturados / não estruturados
COMENTÁRIO
a. dados semiestruturados NÃO pode armazenados em bancos de dados tradicionais.
b. XML é semiestruturado.
c. HTML é estruturado porque tem tag.
d. Os dados estruturados são armazenados em bancos de dados tradicionais. Os dados se-
miestruturados misturam nomes de tipos de dados e valores de dados, mas nem todos eles
precisam seguir uma estrutura predefinida fixa. Os dados não estruturados referem-se à infor-
mação exibida na Web, caso em que a informação sobre os tipos dos itens de dados não existe.
e. De fato os dados semiestruturados são armazenados na web, mas quando a questão
afirma que Os dados estruturados misturam nomes de tipos de dados e valores de dados,
mas nem todos eles precisam seguir uma estrutura predefinida fixa torna a questão errada.
ANOTAÇÕES

04. (CESPE/2022/PETROBRAS/ANALISTA DE SISTEMAS – PROCESSOS DE NEGÓ-

CIO) Os dados não estruturados são utilizados por algoritmos de mineração e classifi-
cados em numéricos ou categóricos.
VS DO BIG DATA
3 V’s
São os principais e originais, que definem Big Data.
Volume: há um grande volume de dados.
Velocidade: os dados são transmitidos muito rápidos.
Variedade: analisa diferente tipos e formatos de dados (estruturados, não estruturados,
semiestruturados).
5Vs
Além dos 3 V’s originais são adicionados mais dois:
Veracidade: os dados são verdadeiros e confiáveis, se relaciona com a segurança.
Valor: os dados têm que trazer valor para a empresa.
7Vs
Além dos 5 V’s acima, são adicionados mais dois:
Viscosidade: dificuldade de navegar entre os dados (inércia), entre sair de uma base
que está de um jeito e pegar a informação em outra base que é completamente diferente.
Isso gera uma certa inconsistência nos dados, pois eles são de fontes e formatos diferentes.
Viralidade: os dados se espalham rapidamente. .
15m
O PULO DO GATO
Velocidade tem a ver com transmissão, enquanto viralidade se relaciona com o espalha-
mento dos dados.
O professor também encontrou na internet outros V’s, tais como: vastidão, volume, vigor,
verificação, variáveis, visualizados, velozes, atormentados e eloquentes.
ANOTAÇÕES

DIRETO DO CONCURSO
05. (FGV/2015/TJ-SC/ANALISTA DE SISTEMAS) Os termos Business Intelligence (BI) e
Big Data confundem-se em certos aspectos. Uma conhecida abordagem para identifi-
cação dos pontos críticos de cada paradigma é conhecida como 3V, e destaca:
a. variedade, visualização, volume;
b. velocidade, virtualização, volume;
c. variedade, velocidade, volume;
d. virtualização, visualização, volume;
e. variedade, visualização, virtualização.
COMENTÁRIO
Esses 3V são volume, pois trata de um grande volume de dados, velocidade, já que os
dados são transmitidos muito rápidos e variedade, uma vez que analisa diferente tipos e
formatos de dados (estruturados, não estruturados, semiestruturados).
O Business Intelligence (BI) se quebra quando chega no não estruturados, sendo neces-
sário organizar bem o banco de dados dimensional.
06. (FGV/2014/AL-BA/TÉCNICO DE NÍVEL SUPERIOR/ECONOMIA) A expressão Big

Data é utilizada para descrever o contexto da informação contemporânea, caracteriza-
da pelo volume, velocidade e variedade de dados disponíveis, em escala inédita. Com
relação às características do Big Data, analise as afirmativas a seguir.
I. O volume da informação se refere ao fato de que certas coleções de dados atingem
a faixa de gigabytes (bilhões de bytes), terabytes (trilhões), petabytes (milhares de tri-
lhões) ou mesmo exabytes (milhões de trilhões).
II. A velocidade está relacionada à rapidez com a qual os dados são produzidos e tra-
tados para atender á demanda, o que significa que não é possível armazená-los todos,
de modo que somos obrigados a escolher dados para guardar e outros para descartar.
III. A variedade significa que os dados de hoje aparecem em todos os tipos de formatos,
como, por exemplo, arquivos de texto, e-mail, medidores e sensores de coleta de da-
dos, vídeo, áudio, dados de ações do mercado ou transações financeiras. .
20m
ANOTAÇÕES

Assinale:
a. se somente a afirmativa I estiver correta.
b. se somente a afirmativa II estiver correta.
c. se somente a afirmativa III estiver correta.
d. se somente as afirmativas I e II estiverem corretas.
e. se todas as afirmativas estiverem corretas.
COMENTÁRIO
I. Certa. Já se descarta as alternativas B e C.
II. Certa. É correto dizer que a velocidade é tão grande, que não se consegue armazenar
no seu big data, todos os dados de forma que será necessário escolher alguns que são
mais importantes para a sua organização, já que não é possível processar os dados na
velocidade em que são criados.
III. Certa, a variedade significa que os dados de hoje aparecem em todos os tipos
de formatos.
07. (CESPE/2019/TCE-RO/AUDITOR DE CONTROLE EXTERNO/ECONOMIA) Com re-

lação a fundamentos e conceitos de Big Data, julgue os itens a seguir.
I O volume de dados é uma característica importante de Big Data.
II Em Big Data, a qualidade do dado não tem importância, porque a transformação dos
dados não impacta os negócios.
III A característica de velocidade de entrada dos dados impacta o modelo de processa-
mento e armazenamento.
IV A variedade dos dados não é característica intrínseca nos fundamentos de Big Data.
Estão certos apenas os itens
a. I e II.
b. I e III.
c. II e IV.
d. I, III e IV
e. II, III e IV.
ANOTAÇÕES

COMENTÁRIO
I. No big data, se armazena, e faz a fazer a transformação desses dados para tirar os dados
que necessários para fazer as análises. Se os dados estiverem com qualidade ruim isso vai
impactar o negócio, porque essa transformação vai ser proporcional à qualidade dos dados.
Então, quanto pior a qualidade, mais será necessário melhorar esse dado para poder utilizar
nas análises, então essa transformação vai ser mais letal. É por isso que impacta os negócios.
II. Se impacta, essa alternativa está errada.
III. A velocidade é proporcional ao modelo de processamento e armazenamento
IV. A variedade é um dos V’s do Big Data.
08. (CESPE/2017/TCE-PE) Com relação a Big Data, julgue o item subsequente. Além de
estar relacionado à grande quantidade de informações a serem analisadas, o Big Data
considera o volume, a velocidade e a variedade dos dados estruturados — dos quais
se conhece a estrutura de armazenamento — bem como dos não estruturados, como
imagens, vídeos, áudios e documentos.
COMENTÁRIO
A questão falou dos 3 V’s e ainda afirmou que o Big Data trabalha com estruturados e não
estruturados.
09. (INSTITUTO AOCP/2020/MJSP/CIENTISTA DE DADOS - BIG DATA) O Big Data é de-

finido como coleções de dados cuja sua quantidade é tão grande que é difícil armazenar,
gerenciar, processar e analisar esses dados por meio de bancos de dados tradicionais.
Nos últimos anos, houve um crescimento exponencial nos dados estruturados e não es-
truturados gerados pela tecnologia da informação da indústria e saúde por meio da in-
ternet das coisas (IoT), por exemplo. Sabendo disso, assinale a alternativa que apresen-
ta corretamente as cinco características, também conhecidas como os cinco “vês”, de
um big data.
a. Valor, viabilidade, visibilidade, velocidade, volume.
b. Volume, vertente, valor, virtualidade, vitabilidade.
c. Viabilidade, vitalício, virtual, velocidade, valor.
d. Velocidade, volume, veracidade, variedade, valor.
ANOTAÇÕES

e. Veracidade, viabilidade, volume, virtualidade, variedade.
COMENTÁRIO
a. Viabilidade e visibilidade não são.
b. vertente não é.
c. Vitalício e virtual não são.
d. São os 5 V’s.
e. viabilidade e virtualidade não são.
10. (CESPE/2021/TCE-RJ/ANALISTA DE CONTROLE EXTERNO/ ESPECIALIDADE:

CONTROLE EXTERNO) Com relação a noções de mineração de dados e Big Data,
julgue o item que se segue. Em Big Data, a premissa volume refere-se à capacidade de
processar, em um ambiente computacional, diferentes tipos e formatos de dados, como
fotos, vídeos e geolocalização.
COMENTÁRIO
Na verdade, esse é o conceito de variedade, e não de volume.
11. (CESPE/2021/SERPRO/ANALISTA - ESPECIALIZAÇÃO: CIÊNCIA DE DADOS) No

que se refere aos três Vs do big data, o termo volume refere-se a dados que, atualmen-
te, não são estruturados nem armazenados em tabelas relacionais, o que torna sua
análise mais complexa.
COMENTÁRIO
Na verdade, volume se refere à quantidade de dados, e não ao fato de que estão estrutu-
rados ou armazenados em tabelas relacionais. .
25m
12. (INSTITUTO AOCP/2020/MJSP/ANALISTA DE GOVERNANÇA DE DADOS – BIG

DATA) José está enfrentando problemas relacionados ao armazenamento em vários
formatos, com estrutura de dados geralmente inconsistente, e à dificuldade de integra-
ção. Esses problemas, conhecidos em Qualidade de Dados para Big Data, podem ser
respectivamente classificados como
ANOTAÇÕES

a. Variabilidade e Viscosidade.
b. Volatilidade e Variedade.
c. Veracidade e Variedade.
d. Volume e Volatilidade.
e. Velocidade e Variabilidade.
COMENTÁRIO
Como a questão aborda a dificuldade de integração e dados geralmente inconsistente, tra-
ta-se da viscosidade. Na parte que a questão fala de armazenamento em vários formatos,
trata-se de variabilidade.
13. (FAURGS/2022/SES-RS/ANALISTA DE DESENVOLVIMENTO DE SISTEMAS/EDI-

TAL N. 15) Associe os termos dos 5Vs de Big Data às suas respectivas características.
(1) Volume
(2) Velocidade
(3) Variedade
(4) Veracidade
(5) Valor
( ) Dados autênticos e verdadeiros.
( ) Processamento ágil.
( ) Utilidade dos dados.
( ) Fontes de dados muito heterogêneas.
( ) Grande quantidade de dados gerados.
A sequência correta de preenchimento dos parênteses, de cima para baixo, é
a. 5 – 3 – 2 – 1 – 4.
b. 4 – 1 – 2 – 5 – 3.
c. 1 – 5 – 4 – 2 – 3.
d. 2 – 1 – 3 – 4 – 5.
e. 4 – 2 – 5 – 3 – 1.
ANOTAÇÕES

COMENTÁRIO
Dados autênticos e verdadeiros é veracidade. Processamento ágil trata da velocidade.
Utilidade dos dados é o valor. Fontes de dados muito heterogêneas é a variedade. Grande
quantidade de dados gerados é o volume.
GABARITO
01. C
02. E
03. d
04. E
05. c
06. e
07. b
08. C
09. d
10. E
11. E
12. a
13. e
�Este material foi elaborado pela equipe pedagógica do Gran Cursos Online, de acordo com a aula
preparada e ministrada pelo professor Vitor Alexandre Kessler de Almeida.
A presente degravação tem como objetivo auxiliar no acompanhamento e na revisão do conteúdo
ministrado na videoaula. Não recomendamos a substituição do estudo em vídeo pela leitura exclu-
siva deste material.
ANOTAÇÕES

Pipeline, Data, Lake, ETL x ELT
Viu algum erro neste material? Contate-nos em: degravacoes@grancursosonline.com.br
PIPELINE, DATA, LAKE, ETL X ELT
Série de etapas de processamento de dados que vai seguir um “cano”, um caminho.

Vai sair da fonte, vai ser feito o processamento desses dados, e eles serão depositados no
Data Lake.
Fonte, uma ou mais etapas de processamento, destino.
Pipeline, tal qual uma produção de cervejas em que uma parte coloca a garrafa, depois
deposita-se o líquido, fecha a garrafa etc., segue uma lógica de processamento.
O dado tem uma origem, a pipeline é o “caminho” que vai levá-lo a seu destino.
Fatores importantes
• Velocidade ou taxa de transferência: analisa quantos kbytes por segundo o usuário

consegue processar nesse pipeline.
• Confiabilidade: pois se alguma parte desse processamento for “perdida” pelo cami-
nho, o backup deve estar disponível para “salvá-lo”. Dentro da confiabilidade estão
inseridas:
- Tolerância a falhas.
- Auditoria: possibilidade de avaliar o que ocorreu em cada etapa.
• Latência: tempo necessário para que um dado atravesse o pipeline. Enquanto a velo-
cidade trata de kbytes por segundo, na latência é só segundo, é só o tempo efetiva-
mente necessário para sair da fonte e chegar ao destino.
ANOTAÇÕES
www.grancursosonline.com.br 1
Etapas ou operações:
• Extração de dados da sua fonte.

• Junção, pois é comum juntas fontes diversas de informação.
• Estandardização, que consiste na transformação de dados para que fiquem na mesma
unidade. Exemplo: o usuário está trabalhando com uma base de dados de uma
empresa mundial e pretende fazer uma avaliação financeira. Ocorre que no Brasil se
utiliza o Real, enquanto na sede da empresa nos Estados Unidos se utiliza o Dólar.
Para fazer essa análise financeira das informações, é necessário converter para a
mesma moeda, no caso o Dólar.
5m
• Correção.
• Carregamento de dados.
Então existem várias atividades possíveis, entre elas: limpar, ver a conformidade e o for-
mato, transformar, fazer ingestão de dado, tudo isso na parte de Engenharia de Dados, que
é responsável por coletar e jogar para o Data Lake.
Data Preparation é a segunda fase de um pipeline em que vai refinar, orquestrar, virtua-
lizar, juntar, preparar e enriquecer (quando se pega dados de uma outra fonte e injeta em sua
base de dados original). Com isso o dado estará preparado para as análises.
Na Análise entra a inteligência artificial, análise, score, modelagem e visualização de
modelos e no final se tem a tomada de decisão.
Data Engineering Data Preparation Analytics
Responsável por fazer a coleta dos Refinamentos e enriquecimentos dos
dados. dados. Análise de dados.
Remover dados inconsistentes. Adicionar regras de negócio.
Ingerir no Data Lake
ANOTAÇÕES
Tipos de Pipeline de Dados
• Pipeline em lote (batch).
Envolve a manipulação de blocos de dados que já foram armazenados durante um deter-

minado período de tempo.
• Pipeline em Streaming.
Executa operações em dados em movimento ou em tempo real à medida em que são

organizados.
O PULO DO GATO
O professor não encontrou questões de concurso que questione diretamente sobre Pipeline.
Data Lake
Na Controladoria-Geral da União, no Tribunal de Contas da União e em diversos órgãos

de controle do Brasil, é comum ter bases de dados governamentais que vêm de fontes diver-
sas, de vários órgãos, cada um usando um banco de dados diferentes, cada um trabalhando
do seu jeito. Os órgãos de controle solicitam essas bases de dados existente em cada órgão
e setor de TI guarda esses dados no Data Lake.
Anteriormente, na época do BI, pegava o dado na fonte original, tratava o dado na própria
fonte, extraía, pensava-se na solução pretendida naquele banco de dados até então dimen-
sional, transformava todos esses dados ainda na fonte, selecionava e, só então, era “jogado”
para se trabalhar com o BI. Com esse serviço, gastava-se muito tempo extraindo e transfor-
mando. Atualmente, com o Data Lake, essa lógica foi invertida, pois pega todos os dados,
carrega tudo no Data Lake e, à medida que as demandas de informação vão surgindo, é
que se transforma esses dados inseridos no Data Lake para serem analisados e por fim ser
tomada a decisão.
10m
ANOTAÇÕES
Trata-se, portanto, de um repositório centralizado projetado para armazenar, processar e

proteger grandes quantidades de dados estruturados, semiestruturados e não estruturados.
Sua função é ingerir (trazer o dado para dentro do Data Lake) quaisquer dados de qualquer
sistema em qualquer velocidade, armazenar qualquer tipo ou volume de dados com total fide-
lidade, processar dados em tempo real ou em modo de lote e também analisar dados usando
SQL, Python, R etc.
Diferenças entre Data Lake e Data Warehouse:
15m
DIRETO DO CONCURSO
1. (COMPERVE/TJ-RN/ANALISTA DE SUPORTE PLENO/BANCO DE DADOS/2020) Big
Data surgiu a partir da necessidade de manipular um grande volume de dados e, com
isso, novos conceitos foram introduzidos, como o Data Lake, que
a. pode ser considerado um repositório de dados relacionados, sendo, portanto, um
armazém de dados orientado por assunto.
b. pode ser considerado um conjunto de bancos de dados relacionais e com relaciona-
mentos entre tabelas de diferentes esquemas de bancos de dados.
c. é o resultado de sucessivas operações de mineração de dados, sendo um ambiente
no qual é possível ter relatórios e dashboards de maneira amigável para os analistas
de negócio.
d. é projetado para armazenar dados de diversas fontes e formatos, não havendo a
necessidade da definição de um esquema de dados para inserir novos itens.
COMENTÁRIO
a) Não necessariamente os dados estão relacionados entre si. Pode ter uma base de
dados do setor Financeiro e também pode ter uma base de dados dos classificados dos
empregados da organização, todos no mesmo Data Lake.
b) Isso é um LGPD.
d) Vai jogando as bases de dados no Data Lake e depois é que vai trabalhar com isso.
2. (CESPE/PETROBRAS/ANALISTA DE SISTEMAS/PROCESSOS DE NEGÓCIO/2022)

Data lakes são grandes armazenadores de informações, vindas de diversas fontes, na
qual diversos usuários podem ter acesso para fazer a análise e coletar insights impor-
tantes para o negócio.
3. (IBADE/SEA-SC/ANALISTA DE INFORMÁTICA/2022) Há um tipo de repositório de da-

dos que centraliza e armazena todos os tipos de dados gerados pela e para a empresa.
Eles são depositados ali ainda em estado bruto, sem o processamento e análise. A esse
repositório chamamos:
a. Data Storage.
b. Data Wharehouse.
c. Data Mining.
d. Data Lake.
e. Data Trash.
4. (CESPE/CEBRASPE/2TJ-RJ/ANALISTA JUDICIÁRIO/ANALISTA DE GESTÃO DE

TIC/2021) Construído(a) em arquitetura distribuída em grande escala, com capacidade
de armazenar e processar conjuntos de dados não estruturados, a fim de agrega-los
sobre clientes de diferentes fontes, enriquecê-los, limpá-los e analisa-los para entender
melhor às jornadas dos clientes caracteriza um(a)
a. virtualização de dados.
b. storage de objetos.
c. data lake.
d. desktop como serviço (DaaS).
e. software como serviço (SaaS).
ANOTAÇÕES
ETL x ELT
Extract, Transformation and Load (ETL) é o processo de extração, transformação e car-
regamento utilizado em data warehouse:
Extração é extrair da base de dados os dados que estão sendo necessários.
Transformar é enriquecer, analisar, organizar, preparar e fazer todo o necessário para
que o dado entre em um Data Warehouse.
Carregar é pegar esse dado e depositar no BI e Data Warehouse. .
20m
Esse é um processo caro, uma vez que demandava o trabalho de um Engenheiro de

Dados já que o dado necessitava estar trabalhado para dar entrada no BI. Sendo assim,
com a crescente demanda, fez-se necessária a criação do ELT.
Extract, Load and Transform (ELT) é o processo mais moderno que se utiliza de data
lakes para fazer o processamento de dados. Nesse processo, extrai-se o dado de sua
fonte original e ele é carregado direto no Data Lake.
Vantagens do ELT:
• Velocidade de carregamento.
• Transformação de dados a cargo dos analistas de dados, e não por engenhei-
ros de dados.
• Seleção de dados a posteriori, apenas ao fim do processo.
Não é possível afirmar que um ou outro é melhor. Exemplo: quando se tratar apenas de
um dado relacional que já está todo estruturado, então não tem necessidade de joga-lo
no Data Lake se pode coloca-lo direto no BI. Então é importante analisar a característi-
ca do dado. De uma forma geral, porém, o ELT é o modelo ideal para lidar com Big Data.
25m
ANOTAÇÕES
DIRETO DO CONCURSO
5. (CESPE/CGM DE JOÃO PESSOA-PB/AUDITOR MUNICIPAL DE CONTROLE INTER-
NO/DESENVOLVIMENTO DE SISTEMAS/2018) Uma ferramenta de ETL deve ser
capaz de extrair dados de fontes heterogêneas, copiá-los para uma área de transição,
onde possam ser convertidos conforme o padrão estabelecido, e, ainda, realizar limpe-
za e correção nesses dados, de acordo com regras preestabelecidas.
COMENTÁRIO
Quando a questão “fala” de “ser convertidos conforme o padrão estabelecido”, isso pode
ser traduzido como a fase de transformação. Faltou o load (carregamento), mas isso não
torna a questão errada.
6. (CESPE/CEBRASPE/STM/TÉCNICO JUDICIÁRIO/PROGRAMAÇÃO DE SISTE-

MAS/2018) Em processos ligados a ETL, os dados são identificados e extraídos de
diferentes fontes, incluindo sistemas de banco de dados e aplicações.
7. (CESGRANRIO/TRANSPETRO/ANALISTA DE SISTEMAS JÚNIOR/SAP/2018) No pro-

cesso de extração, transformação e carga (ETL), uma característica da data staging
área é a de
a. aderir ao barramento de serviços da organização, de forma fisicamente des-
centralizada.
b. apresentar serviços de consulta e apresentação para usuários finais dos servi-
dores OLTP.
c. armazenar os dados selecionados provenientes das diversas fontes para serem
usados pelo processo.
d. criar uma estrutura normalizada em enterprise data warehouses para suportar apli-
cações OLAP.
e. suportar o processo de engenharia reversa interpretável pelo administrador de
banco de dados.
ANOTAÇÕES
COMENTÁRIO
Armazenar os dados selecionados provenientes das diversas fontes para serem usados
pelo processo para a etapa de transformação.
8. (VUNESP/PREFEITURA DE CAMPINAS-SP/ANALISTA DE TECNOLOGIA DA IN-

FORMAÇÃO/2019) No contexto de armazéns de dados (data warehouse), a área inter-
mediária na qual os dados coletados pelo processo de ETL são armazenados antes de
serem processados e transportados para o seu destino é chamada de
a. cubo OLAP.
b. dicionário de dados.
c. staging.
d. data vault.
e. data mart.
COMENTÁRIO
Armazém de dados é a mesma coisa de Data Warehouse. O que está entre o stract e o
transform é o staging area.
9. (AOCP/SUSIPE-PA/TÉCNICO EM GESTÃO DE INFRAESTRUTURA/TÉCNICO EM

GESTÃO DE INFORMÁTICA/20018) Sobre o processo de ETL (Extract, Transform,
Load), assinale a alternativa INCORRETA.
a. Na etapa de extração, os dados são convertidos para um único formato devido à
heterogeneidade dos sistemas organizacionais.
b. A etapa de extração envolve a extração dos dados dos sistemas organizacionais,
enquanto que, na etapa de transformação, os dados são convertidos para um
único formato.
c. A etapa de extração envolve também o tratamento das inconsistências dos dados.
d. Para realizar a etapa de load (carga), deve se garantir que os dados transformados
na etapa anterior estejam persistentes no Data Warehouse.
e. Após a etapa de extração, os dados são colocados em seu local definitivo no Data
Warehouse.
ANOTAÇÕES
COMENTÁRIO
a) É na transformação.
10. (CESPE/TCE-RJ/ANALISTA DE CONTROLE EXTERNO/ESPECIALIDADE: CIÊN-

CIAS CONTÁBEIS/2021) ETL (extract transform load) é uma ferramenta utilizada para
extrair informações e realizar análise multidimensional no data warehouse.
COMENTÁRIO
A análise é feita no data Warehouse. O ETL (extract transform load) é uma ferramenta utili-
zada para extrair informações da fonte original, transformar os dados e carregá-los no data
Warehouse. A partir do data Warehouse é que se tem a análise multidimensional.
11. (CESPE/MPE-AP/ANALISTA MINISTERIAL/ESPECIALIDADE: TECNOLOGIA DA IN-

FORMAÇÃO/2021) Tecnologias que recuperam dados de muitas fontes, limpando-os
e carregando-os em data warehouse, e que fazem parte de qualquer projeto centrado
em dados denominam-se
a. Depósitos de Dados Operacionais (ODS).
b. ETL (Extract, Transform and Load).
c. BPM (Business Performance Management).
d. OLTP (online transaction processing).
e. KPI (Key Performance Indicators).
COMENTÁRIO
O ETL faz parte de qualquer projeto centrado em dados.
ANOTAÇÕES
12. (FCC/DPE-AM/ANALISTA EM GESTÃO ESPECIALIZADO DE DEFENSORIA/ANA-

LISTA DE BANCO DE DADOS/2018) Sobre o processo de ETL, aplicado a data wa-
rehouse, é correto afirmar que
a. a fase de extração de dados consiste em obter os dados do servidor do data
warehouse.
b. a fase de transformação consiste em realizar modificações nos dados carregados,
adequando seus valores ao modelo definido para o data warehouse.
c. as fases de extração e carga de dados são realizadas de forma simultânea.
d. a fase de carga de dados visa eliminar valores nulos contidos nos bancos de dados
transacionais da empresa.
e. a fase de carga de dados consiste em inserir os dados transformados nos bancos de
dados transacionais da empresa.
COMENTÁRIO
a) Na verdade, consiste em obter os dados das fontes heterogêneas.
b) A fase de transformação consiste em realizar modificações nos dados carregados, ade-
quando seus valores ao modelo definido para o data warehouse.
30m
c) Extrai de fontes heterogêneas, transforma e carrega no data warehouse.
d) Isso é feito na extração.
e) Nos bancos de dados transacionais da empresa não, no data Warehouse.
13. (CESPE/SEFAZ-CE/AUDITOR FISCAL DE TECNOLOGIA DA INFORMAÇÃO DA RE-

CEITA ESTADUAL/2021) Comparado ao ETL, o ELT apresenta vantagens como tem-
pos menores de carregamento e de transformação de dados, e, consequentemente,
menor custo de manutenção.
COMENTÁRIO
De fato, o tempo de carregamento é menor no ELT, uma vez que não é necessário proces-
sar a transformação de todos os dados e também o menor custo de manutenção.
ANOTAÇÕES
14. (FGV/CGU/AUDITOR FEDERAL DE FINANÇAS E CONTROLE/TECNOLOGIA DA

INFORMAÇÃO/2022) Uma organização deseja implementar um pipeline de dados e
está avaliando a opção mais adequada para o seu contexto de operação. Em torno de
40% dos dados consumidos pela organização se encontram em planilhas eletrônicas
que contêm dados sensíveis, produzidas semanalmente por suas unidades de negócio.
Os outros 60% dos dados se encontram em alguns bancos de dados relacionais de
sistemas de produção da organização. O tamanho da base é de moderado a pequeno,
mas existe a necessidade de conformidade com normas de privacidade e confiden-
cialidade dos dados. O objetivo do pipeline é fornecer insumos para um departamento
que realiza análises de dados com métodos não supervisionados de aprendizagem de
máquina para elaborar relatórios periódicos mensais. A organização está avaliando a
construção de um Armazém de Dados (ETL) ou de um Lago de Dados (ELT).
A proposta de modelo adequada e corretamente justificada é
a. Armazém de Dados. Ambos os modelos são adequados, mas Lago de Dados tem
maior latência até a carga (L) e custo maior.
b. Armazém de Dados. Esse modelo possui menor latência até a carga (L) e, ao contrá-
rio do Lago de Dados, opera de forma eficiente com dados relacionais.
c. Armazém de Dados. O processo ETL é mais adequado para o tratamento dos dados
sensíveis e os casos de uso são bem conhecidos.
d. Lago de Dados. Esse modelo possui menor latência até a carga (L) e permite a extra-
ção (E) de dados semiestruturados e não estruturados.
e. Lago de Dados. Esse modelo não necessita de hardware especializado e, ao contrá-
rio do Armazém de Dados, possibilita tarefas de aprendizado de máquina.
35m
COMENTÁRIO
Como a questão afirma que não há grande volume, não será necessário o uso de Data
Lake. Então corta-se todas as assertivas que falam de Data Lake.
a) O custo do Lago de Dados é menor.
b) O Armazém de Dados possui MAIOR latência até a carga, porque torna-se necessário
fazer todo o processamento e transformação enquanto que no Lago de Dados dá a carga
e depois é que transforma.
ANOTAÇÕES
GABARITO
1. d
2. C
3. d
4. c
5. C
6. C
7. c
8. c
9. a
10. E
11. b
12. b
13. C
14. c
�Este material foi elaborado pela equipe pedagógica do Gran Cursos Online, de acordo com a aula prepa-
rada e ministrada pelo professor Vitor Alexandre Kessler de Almeida.
ANOTAÇÕES
A presente degravação tem como objetivo auxiliar no acompanhamento e na revisão do conteúdo minis-
trado na videoaula. Não recomendamos a substituição do estudo em vídeo pela leitura exclusiva deste
material.
NoSQL
NOSQL
Nessas aulas finais, os assuntos serão duas tecnologias muito relacionadas a Big
Data e que, normalmente, são cobradas juntamente com Big Data nos editais. São eles:
NoSQL e Hadoop.
RELEMBRANDO
Durante a explicação do tema Big Data foi apontado que as tecnologias atuais não conse-
guiam manipular satisfatoriamente as grandes massas de dados. Eram dados em grande
volume, com rápida velocidade de criação, de forma que se fez necessário inovar nas tec-
nologias para manipular esses dados em bases Big Data. Com isso, passaram a ser criados
alguns bancos de dados não relacionais. Esse banco de dados não tem a ideia de tabela
com campos, conjuntos em que cada linha é uma instância, e o retorno não era feito em
uma velocidade boa. Passaram a tratar os elementos que compunham esses bancos de
dados relacionais como objetos em vez de linhas de tabela. Para isso, foi utilizado o para-
digma a orientação de objetos.
O que está acontecendo hoje é que as bases de dados dos sistemas para tratar grandes
massas de dados são não relacionais. O fato de afirmar que é NoSQL não quer dizer que
não vai usar a linguagem SQL, algumas até a suportam. Na verdade, é um conceito criado
para classificar os bancos de dados não relacionais, que são flexíveis, que são escaláveis,
que utiliza o conceito de objetos. Os objetos são armazenados no banco de dados e não
linhas e tabelas.
NoSQL
Seus esquemas são dinâmicos, novas informações podem ser adicionadas durante
a execução.
Manipulação por meio de APIs orientadas a objeto. Exemplo: a informação de uma
pessoa que, normalmente, seria armazenada na tabela “Pessoa” de uma base dados relacio-
nal. Se um o usuário passa a ter objetos do tipo pessoa dentro da sua base de dados NoSQL
e quer acessar os atributos dessa pessoa, provavelmente vai usar os métodos gadgets que
estão definidos na linguagem do seu banco de dados NoSQL.
ANOTAÇÕES
NoSQL
Maior escalabilidade, pois o usuário permite que novas bases de dados sejam inseridas
nesses bancos sem grandes problemas, pois, geralmente, esses bancos têm um armaze-
namento distribuído dos dados, o que torna possível adicionar um disco e automaticamente
esse disco é mapeado pelo seu banco de dados e passa a ser utilizado para armazenar os
objetos do banco de dados.
Armazenam vários tipos de dados diferentes, o que significa que o usuário pode ter
objetos de vários tipos. Exemplo: vídeo, objeto de som, objeto de imagem, o objeto teste etc.
5m
ATENÇÃO
As questões de concurso, ao abordar esse tema, costumam cobrar mais acerca do concei-
to, tipos de bancos de dados NoSQL e as tecnologias relacionadas.
Tipos de NoSQL:
• Modelo Baseado em Grafos, em que as informações estão representadas por meio de

grafos e nós. Exemplos: Neo4J e Titan.
• Modelo Chave-Valor. É o caso da programação em que o usuário tem uma informação

e um valor {NOME:VICTOR}. Exemplo: Amazon Dynamo DB, Cassandra e Oracle.
• Modelo Orientado a Colunas: Apache Hbase e Google Big Table.
• Modelo Orientado a Documentos: MongoDB e CouchDB.
ANOTAÇÕES
NoSQL
Em uma questão de concurso foi cobrada a seguinte classificação:
• Cassandra: Modelo Orientado a Colunas. Então a depender da banca o Cassandra

pode ser um modelo baseado em colunas ou em chave-valor. Ressalta-se que origina-
riamente a maior parte dele é baseada em pares de chave-valor.
• Neo4J: Modelo Baseado em Grafos.
• MongoDB: Modelo Orientado a Documentos.
• Redis: Modelo Chave-Valor.
DIRETO DO CONCURSO
1. (INSTITUTO AOCP/MJ-SP/CIENTISTA DE DADOS/BIG DATA/2020) Um dos desafios
do Big Data é o volume de dados. Sabendo que um profissional de tecnologia da infor-
mação necessita utilizar um Big Data, assinale a alternativa que apresenta um tipo de
banco de dados que é utilizado em soluções baseadas em Big Data. .
10m
a. Banco de dados NoSQL.
b. Banco de dados Extensível.
c. Banco de dados Relacional.
d. Banco de dados Multivalorados.
e. Banco de dados Redimensional.
COMENTÁRIO
Questão que só cobra se o candidato consegue associar BigData a NoSQL.
2. (CESPE/SLU-DF/ANALISTA DE GESTÃO DE RESÍDUOS SÓLIDOS/INFORMÁTI-

CA/2019) Para uma empresa que necessite implantar uma base de dados altamente
escalável, com grande desempenho e cujo esquema de dados seja flexível, de modo
que suporte constantes mudanças de campos e valores armazenados, a melhor opção
é uma base de dados NoSQL.
ANOTAÇÕES
NoSQL
COMENTÁRIO
Escalável significa que se tem vários bancos com vários hardwares ou discos virtuais e
o usuário consegue facilmente adicionar o disco no banco de dados sem perder. É o au-
mento infinito da base de dados com a adição de novos hardwares de armazenamento no
sistema que está sendo desenvolvido.
Flexível porque se consegue criar e modificar objetos facilmente.
3. (CESPE/DPE-RO/ANALISTA DA DEFENSORIA PÚBLICA/PROGRAMAÇÃO/2022) A

respeito dos sistemas NoSQL, assinale a opção correta.
a. A No sistema NoSQL, um registro é uma coleção de campos, cada qual contendo
apenas um valor de dados; e uma ligação é uma associação entre exatamente dois
registros.
b. NoSQL são bancos de dados distribuídos ou sistemas de armazenamento distribu-
ídos, com foco no armazenamento de dados semiestruturados, alto desempenho,
disponibilidade, replicação de dados e escalabilidade.
c. Um sistema NoSQL armazena dados em tabelas, que são organizadas em colunas,
e cada coluna armazena um tipo de dados (inteiro, números reais, strings de carac-
teres e data).
d. No sistema NoSQL, cada informação é armazenada na forma de objetos e é utilizada
a estrutura de dados denominada orientação a objetos.
e. Arquivos de um sistema NoSQL são comumente chamados de delineados por vírgula.
COMENTÁRIO
a) Não se relaciona com o conceito de NoSQL. Normalmente, o que acontece em sistemas
NoSQL é que os registros são objetos.
b) Quando se tem pares de chave de valor, tem-se uma informação semiestruturada, mas,
a depender da situação, o sistema NoSQL consegue armazenar tantos dados estruturais
como não estruturais.
c) Trata-se do banco de dados não relacional.
d) Não existe essa estrutura de dados denominada orientação a objetos, pois a orientação
a objetos é um paradigma de programação, e não uma estrutura de dados.
ANOTAÇÕES
NoSQL
4. (CESPE/POLÍCIA FEDERAL/PERITO CRIMINAL FEDERAL/ÁREA 3/2018) NoSQL são

bancos de dados que não aceitam expressões SQL e devem ser armazenados na nuvem.
COMENTÁRIO
Alguns bancos de dados NoSQL aceitam expressões SQL. Não necessariamente deve-
rão ser armazenados na nuvem, pois é possível instalar um banco NoSQL no computa-
dor pessoal.
5. (CESPE/IBAMA/ANALISTA ADMINISTRATIVO/2022) Bancos de dados do modelo NoS-

QL são considerados orientados a objetos, pois armazenam os dados em formatos
distintos dos utilizados em bancos de dados relacionais.
COMENTÁRIO
Nos bancos de dados relacionais, os formatos são tabelas, enquanto do modelo NoSQL
são utilizados objetos.
6. (INSTITUTO AOCP/PRODEB/ESPECIALISTA DE TIC/CONSTRUÇÃO DE SOFTWA-

RE/2018) Referente a banco de dados não relacionais, normalmente denominados de
NoSQL, analise as assertivas e assinale a alternativa que aponte a(s) correta(s).
I –É projetado para realizar o armazenamento de dados não estruturados. .
15m
II –É projetado para ser utilizado em arquiteturas distribuídas em rede.
III –Possui suporte a propriedades transacionais ou formas normais.
IV –Em relação à normalização de dados, atende somente a 1FN (Primeira For-
ma Normal).
a. Apenas III.
b. Apenas III e IV
c. Apenas I e II.
d. Apenas I e III.
e. Apenas II, III e IV.
ANOTAÇÕES
NoSQL
COMENTÁRIO
I – A ideia principal do NoSQL é que sai da ideia de dados estruturados armazenados em
tabelas e passa a ter o poder computacional de armazenar dados semi estruturados e não
estruturados.
II – O usuário consegue pegar o seu banco de dados e distribuir pelos diversos nós da sua
rede, nos diversos hardware de armazenamento da sua rede.
As opções III e IV falam de normalização, o que é típico de bancos de dados relacionais e
não tem nada a ver com banco NoSQL.
7. (CCV-UFC/UFC/TÉCNICO DE TECNOLOGIA DA INFORMAÇÃO/DESENVOLVI-

MENTO DE SISTEMAS/2019) Sobre os banco de dados NoSQL, assinale a afirmati-
va correta.
a. Bancos de dados NoSQL não podem ser indexados.
b. Bancos de dados NoSQL são considerados banco de dados relacionais.
c. Nos bancos de dados NoSQL devem ser definidos um esquema de dados fixo antes
de qualquer operação.
d. São exemplos de bancos de dados NoSQL: MongoDB, Firebird, DynamoDB, SQLite,
Microsoft Access e Azure Table Storage.
e. Os bancos de dados NoSQL usam diversos modelos para acessar e gerenciar dados,
como documento, gráfico, chave-valor, em memória e, pesquisa.
COMENTÁRIO
a) Pode, sim, colocar indexes de objetos no Bancos de dados NoSQL.
b) Não são banco de dados relacionais.
c) Trata da flexibilidade. Na verdade consegue, sim, alterar os esquemas de dados com
facilidade.
d) São exemplos de bancos de dados NoSQL: MongoDB, DynamoDB, e Azure Table Sto-
rage. Já o Firebird, o SQLite e o Microsoft Access não são.
e) Os bancos de dados NoSQL usam diversos modelos para acessar e gerenciar dados,
como documento, gráfico, chave-valor, em memória e, pesquisa.
NoSQL
8. (INSTITUTO AOCP/UFFS/Analista de Tecnologia da Informação/2019) Bancos de Dados

não relacionais, também conhecidos como NoSQL, surgiram para armazenar dados
não estruturados, usando modelos de armazenamento específicos para os tipos de
dados que são armazenados, usualmente, fugindo do padrão de armazenamento de
linhas e colunas dos bancos de dados tradicionais. Em relação ao Banco de Dados
NoSQL, quais são as categorias consideradas para esse tipo de armazenamento? .
20m
a. Armazéns chave-valor; Banco de dados orientados a documentos; Banco de dados
de grafos.
b. Primeira forma normal; Banco de dados orientados a documentos; Normalização.
c. Armazéns chave-valor; Normalização; Banco de dados orientados a coluna.
d. Banco de dados de grafos; Banco de dados orientados a linha; Formas normais de
armazenamento.
e. Banco de dados orientados a linha; Normalização; Banco de dados orientados a coluna.
COMENTÁRIO
b) Primeira forma normal, não.

c) Normalização não.
d) Formas normais de armazenamento, não.
e) Banco de dados orientados a linha e Normalização, não.
9. (IBADE/PREFEITURA DE JARU/RO/TÉCNICO EM INFORMÁTICA/2019) Ultimamente

há um movimento que propõe novas estruturas de bancos de dados “não relacionais”,
chamado NoSql. O banco que pode ser considerado NoSql é:
a. Mysql.
b. Postgree.
c. Oracle.
d. MongoDB.
e. DB 2.
ANOTAÇÕES
NoSQL
COMENTÁRIO
a) Mysql é relacional.
b) Postgree é relacional.
c) Oracle é relacional.
d) MongoDB é NoSql.
e) DB 2 é relacional.
10. (CESPE/APEX BRASIL/ANALISTA/TECNOLOGIA DA INFORMAÇÃO E COMUNICA-

ÇÃO/2021) Assinale a opção que corresponde à solução de armazenamento de dados
NoSQL gerenciada para desenvolver aplicativos modernos no ambiente Azure da Mi-
crosoft, com escalabilidade automática e instantânea.
a. Azure Data Factory.
b. Azure Synapse.
c. Azure Cosmos DB.
d. Azure Data Brics.
11. (FUNDATEC/PGE-RS/TÉCNICO EM INFORMÁTICA/2021) Assinale a alternativa que

apresenta SOMENTE bancos de dados não relacionais (NoSQL).
a. Cassandra, MongoDB e Redis.
b. ElasticSearch, MongoDB e PostgreSQL.
c. ElasticSearch, MySQL e Redis.
d. MongoDB, Oracle e PostgreSQL.
e. Cassandra, Oracle e Redis.
COMENTÁRIO
a) Cassandra, MongoDB e Redis são NoSQL.
b) ElasticSearch o professor não tem certeza e PostgreSQL não é.
c) MySQL não é.
d) Oracle e PostgreSQL não são.
e) Oracle não é.
ANOTAÇÕES
NoSQL
12. (INSTITUTO AOCP/PRODEB/ESPECIALISTA DE TIC/CONSTRUÇÃO DE SOFTWA-

RE/2018) Com base nos sistemas de banco de dados NoSQL, assinale a alternativa
que correlaciona corretamente os SGBD`s no NoSQL e seus modelos estruturais.
a. MongoDB: Modelo Orientado a Colunas – Cassandra: Modelo Baseado em Grafos –
Neo4J: Modelo Orientado a Documentos – Redis: Modelo Chave-Valor.
b. Cassandra: Modelo Orientado a Colunas – Neo4J: Modelo Baseado em Grafos –
Redis: Modelo Orientado a Documentos – MongoDB: Modelo Chave-Valor.
c. Redis: Modelo Orientado a Colunas – Cassandra: Modelo Baseado em Grafos –
MongoDB: Modelo Orientado a Documentos – Neo4J: Modelo Chave-Valor.
d. Neo4J: Modelo Orientado a Colunas – Cassandra: Modelo Baseado em Grafos –
MongoDB: Modelo Orientado a Documentos – Redis: Modelo Chave-Valor.
e. Cassandra: Modelo Orientado a Colunas – Neo4J: Modelo Baseado em Grafos –
MongoDB: Modelo Orientado a Documentos – Redis: Modelo Chave-Valor.
COMENTÁRIO
a) MongoDB: Modelo Orientado a Documentos.
b) MongoDB: Modelo Orientado a Documentos.
c) Neo4J: Modelo Orientado a Grafos.
d) Neo4J: Modelo Orientado a Grafos
e) Cassandra: Modelo Orientado a Colunas, apesar de existir bibliografia afirmando que
ele é Orientado a Chave-Valor. Neo4J: Modelo Baseado em Grafos. MongoDB: Modelo
Orientado a Documentos. Redis: Modelo Chave-Valor.
ANOTAÇÕES
NoSQL
GABARITO
1. a
2. C
3. b
4. E
5. C
6. c
7. e
8. a
9. d
10. c
11. a
12. e
ANOTAÇÕES
material.
Hadoop
HADOOP
Obs.: Hadoop não é uma sigla, mas o nome do elefante de brinquedo do filho do respon-
sável pelo desenvolvimento da versão inicial do Hadoop.
Não é um banco de dados, mas um framework (uma estrutura de sistemas) para proces-
samento e armazenamento de grandes quantidades de dados de Big Data.
O PULO DO GATO
Hadoop NÃO É UM BANCO DE DADOS, mas um framework.
O principal elemento do Hadoop é o HDFS, que é o sistema de armazenamento de dados

distribuído. É aqui que se armazenam os dados de maneira distribuída em vários nós do sis-
tema, cada um podendo estar em máquinas virtuais ou reais distintas, e o HDFS consegue
distribuir os dados por esse sistema garantindo escalabilidade. Como estão sendo utilizados
vários hardwares, os custos diminuem porque é possível juntar vários discos baratos e fazer
um sistema que suporte uma grande massa de dados, em vez de comprar um único har-
dware caríssimo e utilizar um sistema monolítico.
ANOTAÇÕES
Hadoop
Outro módulo original é o MapReduce, que possui alguns comandos de programação

que permitem o processamento distribuído dos dados, ou seja, torna possível acessar os
dados de maneira distribuída por meio do MapReduce. O reduce significa que ele diminui a
dimensionalidade da quantidade de bancos de dados.
Além disso, existem diversos projetos em paralelo que foram desenvolvidos para o
Hadoop. Os principais estão na imagem acima.
O HCatalog é o serviço de metadados, que é a descrição dos dados que estão armaze-
nados. O metalizado nada mais é do que um dado sobre um dado, ou seja, uma descrição
de um dado.
5m
Tem uma linguagem de script chamada PIG. Tem o Hive (colmeia), que é utilizado para
fazer um Data Warehouse (DW) a partir dos dados armazenados no HDFS. O foco dele não
é o Query, mas sim o DW.
Características do Hadoop:
• Capacidade de armazenar e processar grandes quantidades de qualquer tipo de dado,

e rapidamente. Então se o usuário tiver vários núcleos, ele vai trabalhar rapidamente.
• Poder computacional.
• Tolerância a falhas, pois possui replicação tripla de dados.
• Flexibilidade, pois não precisa de pré-processamento dos dados. Os dados são proces-
sados dentro do Hadoop.
• Custo baixo, é gratuito, apesar de existirem algumas versões comerciais que se utiliza-
ram do código-fonte do Hadoop e fecharam o código.
• Escalabilidade, pois, com seu processamento distribuído, consegue adicionar facil-
mente novos hardwares para aumentar a capacidade de processamento e de armaze-
namento dos dados.
Cluster Hadoop:
Cluster são os diversos nós do Hadoop. É possível classificar esses nós em dois tipos:
NameNode:
• É o principal, responsável por gerenciar onde cada arquivo está armazenado e controlar
o acesso. O NameNode está associado ao sistema operacional.
ANOTAÇÕES
Hadoop
• Recomenda-se o backup dos dados do NameNode, pois, em caso de perda, todos os

dados do cluster são perdidos.
• Para minimizar as falhas, pode-se ter uma réplica, o Secondary DataNode.
DataNode:
•É onde estarão os diversos arquivos armazenados no Framework.

• Responsável pela leitura e gravação dos arquivos, além de executar operações de cria-
ção, exclusão e replicação de acordo com as instruções recebidas pelo NameNode.
• Como os dados são replicados, não necessitam de backup de dados.
10m
Exemplo de Cluster Hadoop
DIRETO DO CONCURSO
1. (CESPE/CEBRASPE/SERPRO/ANALISTA/ESPECIALIZAÇÃO: CIÊNCIA DE DA-
DOS/2021) Julgue o próximo item, relativo à tecnologia de big data e ao Hadoop.
Apesar de ser uma tecnologia de código aberto disponibilizada pela ASF (Apache Sof-
tware Foundation), o Hadoop também é oferecido por distribuidores comerciais, de ma-
neira que fornecedores oferecem distribuições específicas que incluem não só ferra-
mentas administrativas adicionais, mas também suporte técnico.
ANOTAÇÕES
Hadoop
COMENTÁRIO
É assim que se ganha dinheiro em cima de uma tecnologia de código aberto como o Ha-
doop. O agente se especializa nesse software aberto, depois fecha e vende como uma
solução corporativa com suporte técnico e ferramentas específicas.
2. (INSTITUTO AOCP/PRODEB/ESPECIALISTA DE TIC-B.I/2018) Big Data requer clusters

de servidores de apoio às ferramentas que processam grandes volumes, alta veloci-
dade e formatos variados de Big Data. Nesse sentido, é correto afirmar que Hadoop
refere-se a
a. um sistema de armazenamento e processamento de dados massivamente escalável
– não é um banco de dados.
b. uma estratégia baseada em tecnologia que permite a coleta de insights mais profun-
dos e relevantes dos clientes, parceiros e sobre o negócio.
c. um banco de dados com capacidade melhorada.
d. um equipamento de hardware que permite que sistemas administrem crescentes
cargas de processamento.
e. um banco de dados com tecnologia de virtualização.
COMENTÁRIO
b) Não é uma estratégia, mas um framework para armazenar dados de forma distribuída.
c) Não é um banco de dados.
d) Hadoop não é hardware.
e) Não é um banco de dados.
3. (INSTITUTO AOCP/MJSP/ENGENHEIRO DE DADOS/BIG DATA/2020) O HDFS é o sis-

tema de arquivos do Hadoop. Ele possui uma arquitetura mestre-escravo na qual um
servidor é responsável por fazer todo o gerenciamento de metadados do sistema. Den-
tro da arquitetura do Hadoop, como se denomina esse servidor?
a. NameNode.
b. DataNode.
c. HDFSnode.
d. LinkNode.
e. TraceNode.
ANOTAÇÕES
Hadoop
COMENTÁRIO
O mestre é o NameNode e os escravos são o DataNode. A arquitetura mestre-escravo
significa que o mestre manda e os escravos armazenam e cumprem as ordens do mestre.
4. (CESPE/PETROBRAS/CIÊNCIA DE DADOS/2022) O Hadoop Distributed File System

(HDFS) é construído usando a linguagem Java, o que permite que sua arquitetura mes-
tre/escravo seja implementada em uma ampla variedade de máquinas.
COMENTÁRIO
O Hadoop Distributed File System (HDFS) linguagem Java, arquitetura mestre/escravo e
pode ser utilizado em diversas máquinas.
5. (CESPE/SERPRO/ANALISTA/ESPECIALIZAÇÃO: CIÊNCIA DE DADOS/2021) Ao se-

rem armazenados no HDFS (Hadoop Distributed File System), os dados do Hadoop
são divididos em blocos e distribuídos em discos distintos de um mesmo servidor, o que
acelera o seu processamento, já que são pesquisados de forma simultânea, e não de
forma sequencial.
COMENTÁRIO
Os dados do Hadoop são divididos em blocos (ou nós): NameNode e DataNode. Não pre-
cisam estar no mesmo servidor.
15m
6. (CESPE/SERPRO/ANALISTA/ESPECIALIZAÇÃO: CIÊNCIA DE DADOS/2021) O Ha-

doop consiste em um único produto, ou seja, um software monolítico, que possibilita
análise de logs e outros dados da Web.
COMENTÁRIO
O software é um framework com diversos sistemas e projetos interligados. Sua função não
é a análise de logs e outros dados da Web, mas armazenar de forma distribuída e escalá-
vel grandes massas de dado e fazer o processamento dessas bases.
ANOTAÇÕES
Hadoop
7. (CESPE/SERPRO/ANALISTA/ESPECIALIZAÇÃO: CIÊNCIA DE DADOS/2021) Um

projeto relacionado ao Hadoop e mantido pela Apache é o Hive, que é uma camada de
data warehouse que roda em cima do Hadoop e que utiliza uma linguagem similar à
SQL, denominada Hive SQL.
8. (CESPE/SERPRO/ANALISTA/ESPECIALIZAÇÃO: CIÊNCIA DE DADOS/2021) O

subprojeto Sqoop atua na camada funcional de data warehouse e queries do Hadoop.
COMENTÁRIO
O Sqoop é um projeto para fazer SQL dentro do Hadoop.
Quem atua na camada funcional de data Warehouse é o Hive.
9. (CESPE/SEFAZ-CE/AUDITOR FISCAL DE TECNOLOGIA DA INFORMAÇÃO DA RE-

CEITA ESTADUAL/2021) Hive e Sqoop são subprojetos do Hadoop destinados a que-
ries e data warehousing, respectivamente.
COMENTÁRIO
Os conceitos estão invertidos. Na verdade, Sqoop é queries e Hive é warehousing.
GABARITO
1. CERTO
2. a
3. a
4. CERTO
5. ERRADO
6. ERRADO
7. CERTO
8. ERRADO
9. ERRADO
ANOTAÇÕES
material.

Gran Big Data

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Gran Big Data

Enviado por

Direitos autorais:

Formatos disponíveis

BIG DATA & ANALYTICS

Tipos de Dados e VS do Big Data

TIPOS DE DADOS E VS DO BIG DATA

Dados não estruturados:

É o dados presente em forma bruta, não existindo nenhuma espécie de planejamento de

www. grancursosonline. com. br 1

www. grancursosonline. com. br 2

02. (CESPE/2020/MINISTÉRIO DA ECONOMIA/TECNOLOGIA DA INFORMAÇÃO -

03. (FAURGS/2018/ TJ-RS/ADMINISTRADOR DE BANCO DE DADOS) Os dados

www. grancursosonline. com. br 3

04. (CESPE/2022/PETROBRAS/ANALISTA DE SISTEMAS – PROCESSOS DE NEGÓ-

www. grancursosonline. com. br 4

06. (FGV/2014/AL-BA/TÉCNICO DE NÍVEL SUPERIOR/ECONOMIA) A expressão Big

www. grancursosonline. com. br 5

07. (CESPE/2019/TCE-RO/AUDITOR DE CONTROLE EXTERNO/ECONOMIA) Com re-

www. grancursosonline. com. br 6

09. (INSTITUTO AOCP/2020/MJSP/CIENTISTA DE DADOS - BIG DATA) O Big Data é de-

www. grancursosonline. com. br 7

e. Veracidade, viabilidade, volume, virtualidade, variedade.

10. (CESPE/2021/TCE-RJ/ANALISTA DE CONTROLE EXTERNO/ ESPECIALIDADE:

11. (CESPE/2021/SERPRO/ANALISTA - ESPECIALIZAÇÃO: CIÊNCIA DE DADOS) No

12. (INSTITUTO AOCP/2020/MJSP/ANALISTA DE GOVERNANÇA DE DADOS – BIG

www. grancursosonline. com. br 8

13. (FAURGS/2022/SES-RS/ANALISTA DE DESENVOLVIMENTO DE SISTEMAS/EDI-

www. grancursosonline. com. br 9

www. grancursosonline. com. br 10

PIPELINE, DATA, LAKE, ETL X ELT

Série de etapas de processamento de dados que vai seguir um “cano”, um caminho.

• Velocidade ou taxa de transferência: analisa quantos kbytes por segundo o usuário

• Extração de dados da sua fonte.

Tipos de Pipeline de Dados

• Pipeline em lote (batch).

Envolve a manipulação de blocos de dados que já foram armazenados durante um deter-

Executa operações em dados em movimento ou em tempo real à medida em que são

Na Controladoria-Geral da União, no Tribunal de Contas da União e em diversos órgãos

Trata-se, portanto, de um repositório centralizado projetado para armazenar, processar e

2. (CESPE/PETROBRAS/ANALISTA DE SISTEMAS/PROCESSOS DE NEGÓCIO/2022)

3. (IBADE/SEA-SC/ANALISTA DE INFORMÁTICA/2022) Há um tipo de repositório de da-

4. (CESPE/CEBRASPE/2TJ-RJ/ANALISTA JUDICIÁRIO/ANALISTA DE GESTÃO DE

Esse é um processo caro, uma vez que demandava o trabalho de um Engenheiro de

6. (CESPE/CEBRASPE/STM/TÉCNICO JUDICIÁRIO/PROGRAMAÇÃO DE SISTE-

7. (CESGRANRIO/TRANSPETRO/ANALISTA DE SISTEMAS JÚNIOR/SAP/2018) No pro-

8. (VUNESP/PREFEITURA DE CAMPINAS-SP/ANALISTA DE TECNOLOGIA DA IN-

9. (AOCP/SUSIPE-PA/TÉCNICO EM GESTÃO DE INFRAESTRUTURA/TÉCNICO EM

10. (CESPE/TCE-RJ/ANALISTA DE CONTROLE EXTERNO/ESPECIALIDADE: CIÊN-

11. (CESPE/MPE-AP/ANALISTA MINISTERIAL/ESPECIALIDADE: TECNOLOGIA DA IN-

12. (FCC/DPE-AM/ANALISTA EM GESTÃO ESPECIALIZADO DE DEFENSORIA/ANA-

13. (CESPE/SEFAZ-CE/AUDITOR FISCAL DE TECNOLOGIA DA INFORMAÇÃO DA RE-

14. (FGV/CGU/AUDITOR FEDERAL DE FINANÇAS E CONTROLE/TECNOLOGIA DA

• Modelo Baseado em Grafos, em que as informações estão representadas por meio de

• Modelo Chave-Valor. É o caso da programação em que o usuário tem uma informação

Em uma questão de concurso foi cobrada a seguinte classificação:

• Cassandra: Modelo Orientado a Colunas. Então a depender da banca o Cassandra

2. (CESPE/SLU-DF/ANALISTA DE GESTÃO DE RESÍDUOS SÓLIDOS/INFORMÁTI-

3. (CESPE/DPE-RO/ANALISTA DA DEFENSORIA PÚBLICA/PROGRAMAÇÃO/2022) A

4. (CESPE/POLÍCIA FEDERAL/PERITO CRIMINAL FEDERAL/ÁREA 3/2018) NoSQL são

5. (CESPE/IBAMA/ANALISTA ADMINISTRATIVO/2022) Bancos de dados do modelo NoS-

6. (INSTITUTO AOCP/PRODEB/ESPECIALISTA DE TIC/CONSTRUÇÃO DE SOFTWA-

7. (CCV-UFC/UFC/TÉCNICO DE TECNOLOGIA DA INFORMAÇÃO/DESENVOLVI-

8. (INSTITUTO AOCP/UFFS/Analista de Tecnologia da Informação/2019) Bancos de Dados

b) Primeira forma normal, não.

9. (IBADE/PREFEITURA DE JARU/RO/TÉCNICO EM INFORMÁTICA/2019) Ultimamente

10. (CESPE/APEX BRASIL/ANALISTA/TECNOLOGIA DA INFORMAÇÃO E COMUNICA-