Escolar Documentos
Profissional Documentos
Cultura Documentos
TIPOS DE DADOS
Dados estruturados:
Possuem uma estrutura rígida, os metadados estão definidos. Exemplo: esse será um
dado do tipo decimal cujo nome será valor, porque é um dado de dinheiro.
Requer um planejamento prévio, pois para inserir dados em uma tabela antes será neces-
sário cria-la, dar o crédito.
Será necessário também estabelecer o tipo de dado (se é string, número, vídeo etc), a for-
matação, como ele será armazenado, tudo isso deverá ser previamente planejado. Exemplo:
se é um CPF ele terá 11 dígitos e será necessária uma fórmula para os últimos dois dígitos.
O exemplo mais comum é o Bancos de dados.
Dados semiestruturados:
São dados que estão entre os dados estruturados e os dados não estruturados. Quando
se fala de dados semiestruturados o que se tem é o dado acompanhado de uma certa
descrição.
Propriedades organizacionais como metadados ou tags semânticas são usadas para
tornar os dados mais gerenciáveis.
Exemplos: XML, HTML, pois existe uma organização nesses dados em que será possí-
vel pegar apenas pedaços de dados e colocar entre tags, mas não consegue controlar o que
está ali dentro. .
5m
DIRETO DO CONCURSO
01. (CESPE/2021/POLÍCIA FEDERAL/ESCRIVÃO DE POLÍCIA FEDERAL) Os dados
estruturados diferenciam-se dos dados não estruturados pela rigidez em seu formato e
pelo fato de poderem ser armazenados em campos de tabelas de um banco de dados
relacional.
COMENTÁRIO
Não são apenas essas as diferenças, pois pode existir dados estruturados em outro tipo de
formato que não seja banco de dados desde que ele seja previamente planejado. Pode ser
feito outro tipo de estrutura rígida dentro de arquivo binário, onde se descreve tudo direitinho
e se consegue organizar sem necessariamente estar em um banco de dados relacional.
ANOTAÇÕES
COMENTÁRIO
É errado afirmar que os dados não estruturados podem ser classificados em sua totalida-
de, diferente dos dados estruturados que podem ser classificados em sua totalidade. .
10m
COMENTÁRIO
a. dados semiestruturados NÃO pode armazenados em bancos de dados tradicionais.
b. XML é semiestruturado.
c. HTML é estruturado porque tem tag.
d. Os dados estruturados são armazenados em bancos de dados tradicionais. Os dados se-
miestruturados misturam nomes de tipos de dados e valores de dados, mas nem todos eles
precisam seguir uma estrutura predefinida fixa. Os dados não estruturados referem-se à infor-
mação exibida na Web, caso em que a informação sobre os tipos dos itens de dados não existe.
e. De fato os dados semiestruturados são armazenados na web, mas quando a questão
afirma que Os dados estruturados misturam nomes de tipos de dados e valores de dados,
mas nem todos eles precisam seguir uma estrutura predefinida fixa torna a questão errada.
ANOTAÇÕES
VS DO BIG DATA
3 V’s
São os principais e originais, que definem Big Data.
Volume: há um grande volume de dados.
Velocidade: os dados são transmitidos muito rápidos.
Variedade: analisa diferente tipos e formatos de dados (estruturados, não estruturados,
semiestruturados).
5Vs
Além dos 3 V’s originais são adicionados mais dois:
Veracidade: os dados são verdadeiros e confiáveis, se relaciona com a segurança.
Valor: os dados têm que trazer valor para a empresa.
7Vs
Além dos 5 V’s acima, são adicionados mais dois:
Viscosidade: dificuldade de navegar entre os dados (inércia), entre sair de uma base
que está de um jeito e pegar a informação em outra base que é completamente diferente.
Isso gera uma certa inconsistência nos dados, pois eles são de fontes e formatos diferentes.
Viralidade: os dados se espalham rapidamente. .
15m
O PULO DO GATO
Velocidade tem a ver com transmissão, enquanto viralidade se relaciona com o espalha-
mento dos dados.
O professor também encontrou na internet outros V’s, tais como: vastidão, volume, vigor,
verificação, variáveis, visualizados, velozes, atormentados e eloquentes.
ANOTAÇÕES
DIRETO DO CONCURSO
05. (FGV/2015/TJ-SC/ANALISTA DE SISTEMAS) Os termos Business Intelligence (BI) e
Big Data confundem-se em certos aspectos. Uma conhecida abordagem para identifi-
cação dos pontos críticos de cada paradigma é conhecida como 3V, e destaca:
a. variedade, visualização, volume;
b. velocidade, virtualização, volume;
c. variedade, velocidade, volume;
d. virtualização, visualização, volume;
e. variedade, visualização, virtualização.
COMENTÁRIO
Esses 3V são volume, pois trata de um grande volume de dados, velocidade, já que os
dados são transmitidos muito rápidos e variedade, uma vez que analisa diferente tipos e
formatos de dados (estruturados, não estruturados, semiestruturados).
O Business Intelligence (BI) se quebra quando chega no não estruturados, sendo neces-
sário organizar bem o banco de dados dimensional.
Assinale:
a. se somente a afirmativa I estiver correta.
b. se somente a afirmativa II estiver correta.
c. se somente a afirmativa III estiver correta.
d. se somente as afirmativas I e II estiverem corretas.
e. se todas as afirmativas estiverem corretas.
COMENTÁRIO
I. Certa. Já se descarta as alternativas B e C.
II. Certa. É correto dizer que a velocidade é tão grande, que não se consegue armazenar
no seu big data, todos os dados de forma que será necessário escolher alguns que são
mais importantes para a sua organização, já que não é possível processar os dados na
velocidade em que são criados.
III. Certa, a variedade significa que os dados de hoje aparecem em todos os tipos
de formatos.
COMENTÁRIO
I. No big data, se armazena, e faz a fazer a transformação desses dados para tirar os dados
que necessários para fazer as análises. Se os dados estiverem com qualidade ruim isso vai
impactar o negócio, porque essa transformação vai ser proporcional à qualidade dos dados.
Então, quanto pior a qualidade, mais será necessário melhorar esse dado para poder utilizar
nas análises, então essa transformação vai ser mais letal. É por isso que impacta os negócios.
II. Se impacta, essa alternativa está errada.
III. A velocidade é proporcional ao modelo de processamento e armazenamento
IV. A variedade é um dos V’s do Big Data.
08. (CESPE/2017/TCE-PE) Com relação a Big Data, julgue o item subsequente. Além de
estar relacionado à grande quantidade de informações a serem analisadas, o Big Data
considera o volume, a velocidade e a variedade dos dados estruturados — dos quais
se conhece a estrutura de armazenamento — bem como dos não estruturados, como
imagens, vídeos, áudios e documentos.
COMENTÁRIO
A questão falou dos 3 V’s e ainda afirmou que o Big Data trabalha com estruturados e não
estruturados.
COMENTÁRIO
a. Viabilidade e visibilidade não são.
b. vertente não é.
c. Vitalício e virtual não são.
d. São os 5 V’s.
e. viabilidade e virtualidade não são.
COMENTÁRIO
Na verdade, esse é o conceito de variedade, e não de volume.
COMENTÁRIO
Na verdade, volume se refere à quantidade de dados, e não ao fato de que estão estrutu-
rados ou armazenados em tabelas relacionais. .
25m
a. Variabilidade e Viscosidade.
b. Volatilidade e Variedade.
c. Veracidade e Variedade.
d. Volume e Volatilidade.
e. Velocidade e Variabilidade.
COMENTÁRIO
Como a questão aborda a dificuldade de integração e dados geralmente inconsistente, tra-
ta-se da viscosidade. Na parte que a questão fala de armazenamento em vários formatos,
trata-se de variabilidade.
COMENTÁRIO
Dados autênticos e verdadeiros é veracidade. Processamento ágil trata da velocidade.
Utilidade dos dados é o valor. Fontes de dados muito heterogêneas é a variedade. Grande
quantidade de dados gerados é o volume.
GABARITO
01. C
02. E
03. d
04. E
05. c
06. e
07. b
08. C
09. d
10. E
11. E
12. a
13. e
�Este material foi elaborado pela equipe pedagógica do Gran Cursos Online, de acordo com a aula
preparada e ministrada pelo professor Vitor Alexandre Kessler de Almeida.
A presente degravação tem como objetivo auxiliar no acompanhamento e na revisão do conteúdo
ministrado na videoaula. Não recomendamos a substituição do estudo em vídeo pela leitura exclu-
siva deste material.
ANOTAÇÕES
Pipeline, tal qual uma produção de cervejas em que uma parte coloca a garrafa, depois
deposita-se o líquido, fecha a garrafa etc., segue uma lógica de processamento.
O dado tem uma origem, a pipeline é o “caminho” que vai levá-lo a seu destino.
Fatores importantes
• Latência: tempo necessário para que um dado atravesse o pipeline. Enquanto a velo-
cidade trata de kbytes por segundo, na latência é só segundo, é só o tempo efetiva-
mente necessário para sair da fonte e chegar ao destino.
ANOTAÇÕES
www.grancursosonline.com.br 1
BIG DATA & ANALYTICS
Pipeline, Data, Lake, ETL x ELT
Viu algum erro neste material? Contate-nos em: degravacoes@grancursosonline.com.br
Etapas ou operações:
Então existem várias atividades possíveis, entre elas: limpar, ver a conformidade e o for-
mato, transformar, fazer ingestão de dado, tudo isso na parte de Engenharia de Dados, que
é responsável por coletar e jogar para o Data Lake.
Data Preparation é a segunda fase de um pipeline em que vai refinar, orquestrar, virtua-
lizar, juntar, preparar e enriquecer (quando se pega dados de uma outra fonte e injeta em sua
base de dados original). Com isso o dado estará preparado para as análises.
Na Análise entra a inteligência artificial, análise, score, modelagem e visualização de
modelos e no final se tem a tomada de decisão.
Data Engineering Data Preparation Analytics
Responsável por fazer a coleta dos Refinamentos e enriquecimentos dos
dados. dados. Análise de dados.
Remover dados inconsistentes. Adicionar regras de negócio.
Ingerir no Data Lake
ANOTAÇÕES
www.grancursosonline.com.br 2
BIG DATA & ANALYTICS
Pipeline, Data, Lake, ETL x ELT
Viu algum erro neste material? Contate-nos em: degravacoes@grancursosonline.com.br
• Pipeline em Streaming.
O PULO DO GATO
O professor não encontrou questões de concurso que questione diretamente sobre Pipeline.
Data Lake
www.grancursosonline.com.br 3
BIG DATA & ANALYTICS
Pipeline, Data, Lake, ETL x ELT
Viu algum erro neste material? Contate-nos em: degravacoes@grancursosonline.com.br
15m
DIRETO DO CONCURSO
1. (COMPERVE/TJ-RN/ANALISTA DE SUPORTE PLENO/BANCO DE DADOS/2020) Big
Data surgiu a partir da necessidade de manipular um grande volume de dados e, com
isso, novos conceitos foram introduzidos, como o Data Lake, que
a. pode ser considerado um repositório de dados relacionados, sendo, portanto, um
armazém de dados orientado por assunto.
b. pode ser considerado um conjunto de bancos de dados relacionais e com relaciona-
mentos entre tabelas de diferentes esquemas de bancos de dados.
c. é o resultado de sucessivas operações de mineração de dados, sendo um ambiente
no qual é possível ter relatórios e dashboards de maneira amigável para os analistas
de negócio.
d. é projetado para armazenar dados de diversas fontes e formatos, não havendo a
necessidade da definição de um esquema de dados para inserir novos itens.
www.grancursosonline.com.br 4
BIG DATA & ANALYTICS
Pipeline, Data, Lake, ETL x ELT
Viu algum erro neste material? Contate-nos em: degravacoes@grancursosonline.com.br
COMENTÁRIO
a) Não necessariamente os dados estão relacionados entre si. Pode ter uma base de
dados do setor Financeiro e também pode ter uma base de dados dos classificados dos
empregados da organização, todos no mesmo Data Lake.
b) Isso é um LGPD.
d) Vai jogando as bases de dados no Data Lake e depois é que vai trabalhar com isso.
www.grancursosonline.com.br 5
BIG DATA & ANALYTICS
Pipeline, Data, Lake, ETL x ELT
Viu algum erro neste material? Contate-nos em: degravacoes@grancursosonline.com.br
ETL x ELT
Extract, Transformation and Load (ETL) é o processo de extração, transformação e car-
regamento utilizado em data warehouse:
Extração é extrair da base de dados os dados que estão sendo necessários.
Transformar é enriquecer, analisar, organizar, preparar e fazer todo o necessário para
que o dado entre em um Data Warehouse.
Carregar é pegar esse dado e depositar no BI e Data Warehouse. .
20m
www.grancursosonline.com.br 6
BIG DATA & ANALYTICS
Pipeline, Data, Lake, ETL x ELT
Viu algum erro neste material? Contate-nos em: degravacoes@grancursosonline.com.br
DIRETO DO CONCURSO
5. (CESPE/CGM DE JOÃO PESSOA-PB/AUDITOR MUNICIPAL DE CONTROLE INTER-
NO/DESENVOLVIMENTO DE SISTEMAS/2018) Uma ferramenta de ETL deve ser
capaz de extrair dados de fontes heterogêneas, copiá-los para uma área de transição,
onde possam ser convertidos conforme o padrão estabelecido, e, ainda, realizar limpe-
za e correção nesses dados, de acordo com regras preestabelecidas.
COMENTÁRIO
Quando a questão “fala” de “ser convertidos conforme o padrão estabelecido”, isso pode
ser traduzido como a fase de transformação. Faltou o load (carregamento), mas isso não
torna a questão errada.
www.grancursosonline.com.br 7
BIG DATA & ANALYTICS
Pipeline, Data, Lake, ETL x ELT
Viu algum erro neste material? Contate-nos em: degravacoes@grancursosonline.com.br
COMENTÁRIO
Armazenar os dados selecionados provenientes das diversas fontes para serem usados
pelo processo para a etapa de transformação.
COMENTÁRIO
Armazém de dados é a mesma coisa de Data Warehouse. O que está entre o stract e o
transform é o staging area.
www.grancursosonline.com.br 8
BIG DATA & ANALYTICS
Pipeline, Data, Lake, ETL x ELT
Viu algum erro neste material? Contate-nos em: degravacoes@grancursosonline.com.br
COMENTÁRIO
a) É na transformação.
COMENTÁRIO
A análise é feita no data Warehouse. O ETL (extract transform load) é uma ferramenta utili-
zada para extrair informações da fonte original, transformar os dados e carregá-los no data
Warehouse. A partir do data Warehouse é que se tem a análise multidimensional.
COMENTÁRIO
O ETL faz parte de qualquer projeto centrado em dados.
ANOTAÇÕES
www.grancursosonline.com.br 9
BIG DATA & ANALYTICS
Pipeline, Data, Lake, ETL x ELT
Viu algum erro neste material? Contate-nos em: degravacoes@grancursosonline.com.br
COMENTÁRIO
a) Na verdade, consiste em obter os dados das fontes heterogêneas.
b) A fase de transformação consiste em realizar modificações nos dados carregados, ade-
quando seus valores ao modelo definido para o data warehouse.
30m
c) Extrai de fontes heterogêneas, transforma e carrega no data warehouse.
d) Isso é feito na extração.
e) Nos bancos de dados transacionais da empresa não, no data Warehouse.
COMENTÁRIO
De fato, o tempo de carregamento é menor no ELT, uma vez que não é necessário proces-
sar a transformação de todos os dados e também o menor custo de manutenção.
ANOTAÇÕES
www.grancursosonline.com.br 10
BIG DATA & ANALYTICS
Pipeline, Data, Lake, ETL x ELT
Viu algum erro neste material? Contate-nos em: degravacoes@grancursosonline.com.br
COMENTÁRIO
Como a questão afirma que não há grande volume, não será necessário o uso de Data
Lake. Então corta-se todas as assertivas que falam de Data Lake.
a) O custo do Lago de Dados é menor.
b) O Armazém de Dados possui MAIOR latência até a carga, porque torna-se necessário
fazer todo o processamento e transformação enquanto que no Lago de Dados dá a carga
e depois é que transforma.
ANOTAÇÕES
www.grancursosonline.com.br 11
BIG DATA & ANALYTICS
Pipeline, Data, Lake, ETL x ELT
Viu algum erro neste material? Contate-nos em: degravacoes@grancursosonline.com.br
GABARITO
1. d
2. C
3. d
4. c
5. C
6. C
7. c
8. c
9. a
10. E
11. b
12. b
13. C
14. c
�Este material foi elaborado pela equipe pedagógica do Gran Cursos Online, de acordo com a aula prepa-
rada e ministrada pelo professor Vitor Alexandre Kessler de Almeida.
ANOTAÇÕES
A presente degravação tem como objetivo auxiliar no acompanhamento e na revisão do conteúdo minis-
trado na videoaula. Não recomendamos a substituição do estudo em vídeo pela leitura exclusiva deste
material.
www.grancursosonline.com.br 12
BIG DATA & ANALYTICS
NoSQL
Viu algum erro neste material? Contate-nos em: degravacoes@grancursosonline.com.br
NOSQL
Nessas aulas finais, os assuntos serão duas tecnologias muito relacionadas a Big
Data e que, normalmente, são cobradas juntamente com Big Data nos editais. São eles:
NoSQL e Hadoop.
RELEMBRANDO
Durante a explicação do tema Big Data foi apontado que as tecnologias atuais não conse-
guiam manipular satisfatoriamente as grandes massas de dados. Eram dados em grande
volume, com rápida velocidade de criação, de forma que se fez necessário inovar nas tec-
nologias para manipular esses dados em bases Big Data. Com isso, passaram a ser criados
alguns bancos de dados não relacionais. Esse banco de dados não tem a ideia de tabela
com campos, conjuntos em que cada linha é uma instância, e o retorno não era feito em
uma velocidade boa. Passaram a tratar os elementos que compunham esses bancos de
dados relacionais como objetos em vez de linhas de tabela. Para isso, foi utilizado o para-
digma a orientação de objetos.
O que está acontecendo hoje é que as bases de dados dos sistemas para tratar grandes
massas de dados são não relacionais. O fato de afirmar que é NoSQL não quer dizer que
não vai usar a linguagem SQL, algumas até a suportam. Na verdade, é um conceito criado
para classificar os bancos de dados não relacionais, que são flexíveis, que são escaláveis,
que utiliza o conceito de objetos. Os objetos são armazenados no banco de dados e não
linhas e tabelas.
NoSQL
Seus esquemas são dinâmicos, novas informações podem ser adicionadas durante
a execução.
Manipulação por meio de APIs orientadas a objeto. Exemplo: a informação de uma
pessoa que, normalmente, seria armazenada na tabela “Pessoa” de uma base dados relacio-
nal. Se um o usuário passa a ter objetos do tipo pessoa dentro da sua base de dados NoSQL
e quer acessar os atributos dessa pessoa, provavelmente vai usar os métodos gadgets que
estão definidos na linguagem do seu banco de dados NoSQL.
ANOTAÇÕES
www.grancursosonline.com.br 1
BIG DATA & ANALYTICS
NoSQL
Viu algum erro neste material? Contate-nos em: degravacoes@grancursosonline.com.br
Maior escalabilidade, pois o usuário permite que novas bases de dados sejam inseridas
nesses bancos sem grandes problemas, pois, geralmente, esses bancos têm um armaze-
namento distribuído dos dados, o que torna possível adicionar um disco e automaticamente
esse disco é mapeado pelo seu banco de dados e passa a ser utilizado para armazenar os
objetos do banco de dados.
Armazenam vários tipos de dados diferentes, o que significa que o usuário pode ter
objetos de vários tipos. Exemplo: vídeo, objeto de som, objeto de imagem, o objeto teste etc.
5m
ATENÇÃO
As questões de concurso, ao abordar esse tema, costumam cobrar mais acerca do concei-
to, tipos de bancos de dados NoSQL e as tecnologias relacionadas.
Tipos de NoSQL:
www.grancursosonline.com.br 2
BIG DATA & ANALYTICS
NoSQL
Viu algum erro neste material? Contate-nos em: degravacoes@grancursosonline.com.br
DIRETO DO CONCURSO
1. (INSTITUTO AOCP/MJ-SP/CIENTISTA DE DADOS/BIG DATA/2020) Um dos desafios
do Big Data é o volume de dados. Sabendo que um profissional de tecnologia da infor-
mação necessita utilizar um Big Data, assinale a alternativa que apresenta um tipo de
banco de dados que é utilizado em soluções baseadas em Big Data. .
10m
a. Banco de dados NoSQL.
b. Banco de dados Extensível.
c. Banco de dados Relacional.
d. Banco de dados Multivalorados.
e. Banco de dados Redimensional.
COMENTÁRIO
Questão que só cobra se o candidato consegue associar BigData a NoSQL.
www.grancursosonline.com.br 3
BIG DATA & ANALYTICS
NoSQL
Viu algum erro neste material? Contate-nos em: degravacoes@grancursosonline.com.br
COMENTÁRIO
Escalável significa que se tem vários bancos com vários hardwares ou discos virtuais e
o usuário consegue facilmente adicionar o disco no banco de dados sem perder. É o au-
mento infinito da base de dados com a adição de novos hardwares de armazenamento no
sistema que está sendo desenvolvido.
Flexível porque se consegue criar e modificar objetos facilmente.
COMENTÁRIO
a) Não se relaciona com o conceito de NoSQL. Normalmente, o que acontece em sistemas
NoSQL é que os registros são objetos.
b) Quando se tem pares de chave de valor, tem-se uma informação semiestruturada, mas,
a depender da situação, o sistema NoSQL consegue armazenar tantos dados estruturais
como não estruturais.
c) Trata-se do banco de dados não relacional.
d) Não existe essa estrutura de dados denominada orientação a objetos, pois a orientação
a objetos é um paradigma de programação, e não uma estrutura de dados.
ANOTAÇÕES
www.grancursosonline.com.br 4
BIG DATA & ANALYTICS
NoSQL
Viu algum erro neste material? Contate-nos em: degravacoes@grancursosonline.com.br
COMENTÁRIO
Alguns bancos de dados NoSQL aceitam expressões SQL. Não necessariamente deve-
rão ser armazenados na nuvem, pois é possível instalar um banco NoSQL no computa-
dor pessoal.
COMENTÁRIO
Nos bancos de dados relacionais, os formatos são tabelas, enquanto do modelo NoSQL
são utilizados objetos.
www.grancursosonline.com.br 5
BIG DATA & ANALYTICS
NoSQL
Viu algum erro neste material? Contate-nos em: degravacoes@grancursosonline.com.br
COMENTÁRIO
I – A ideia principal do NoSQL é que sai da ideia de dados estruturados armazenados em
tabelas e passa a ter o poder computacional de armazenar dados semi estruturados e não
estruturados.
II – O usuário consegue pegar o seu banco de dados e distribuir pelos diversos nós da sua
rede, nos diversos hardware de armazenamento da sua rede.
As opções III e IV falam de normalização, o que é típico de bancos de dados relacionais e
não tem nada a ver com banco NoSQL.
COMENTÁRIO
a) Pode, sim, colocar indexes de objetos no Bancos de dados NoSQL.
b) Não são banco de dados relacionais.
c) Trata da flexibilidade. Na verdade consegue, sim, alterar os esquemas de dados com
facilidade.
d) São exemplos de bancos de dados NoSQL: MongoDB, DynamoDB, e Azure Table Sto-
rage. Já o Firebird, o SQLite e o Microsoft Access não são.
e) Os bancos de dados NoSQL usam diversos modelos para acessar e gerenciar dados,
como documento, gráfico, chave-valor, em memória e, pesquisa.
www.grancursosonline.com.br 6
BIG DATA & ANALYTICS
NoSQL
Viu algum erro neste material? Contate-nos em: degravacoes@grancursosonline.com.br
COMENTÁRIO
www.grancursosonline.com.br 7
BIG DATA & ANALYTICS
NoSQL
Viu algum erro neste material? Contate-nos em: degravacoes@grancursosonline.com.br
COMENTÁRIO
a) Mysql é relacional.
b) Postgree é relacional.
c) Oracle é relacional.
d) MongoDB é NoSql.
e) DB 2 é relacional.
COMENTÁRIO
a) Cassandra, MongoDB e Redis são NoSQL.
b) ElasticSearch o professor não tem certeza e PostgreSQL não é.
c) MySQL não é.
d) Oracle e PostgreSQL não são.
e) Oracle não é.
ANOTAÇÕES
www.grancursosonline.com.br 8
BIG DATA & ANALYTICS
NoSQL
Viu algum erro neste material? Contate-nos em: degravacoes@grancursosonline.com.br
COMENTÁRIO
a) MongoDB: Modelo Orientado a Documentos.
b) MongoDB: Modelo Orientado a Documentos.
c) Neo4J: Modelo Orientado a Grafos.
d) Neo4J: Modelo Orientado a Grafos
e) Cassandra: Modelo Orientado a Colunas, apesar de existir bibliografia afirmando que
ele é Orientado a Chave-Valor. Neo4J: Modelo Baseado em Grafos. MongoDB: Modelo
Orientado a Documentos. Redis: Modelo Chave-Valor.
ANOTAÇÕES
www.grancursosonline.com.br 9
BIG DATA & ANALYTICS
NoSQL
Viu algum erro neste material? Contate-nos em: degravacoes@grancursosonline.com.br
GABARITO
1. a
2. C
3. b
4. E
5. C
6. c
7. e
8. a
9. d
10. c
11. a
12. e
�Este material foi elaborado pela equipe pedagógica do Gran Cursos Online, de acordo com a aula prepa-
rada e ministrada pelo professor Vitor Alexandre Kessler de Almeida.
ANOTAÇÕES
A presente degravação tem como objetivo auxiliar no acompanhamento e na revisão do conteúdo minis-
trado na videoaula. Não recomendamos a substituição do estudo em vídeo pela leitura exclusiva deste
material.
www.grancursosonline.com.br 10
BIG DATA & ANALYTICS
Hadoop
Viu algum erro neste material? Contate-nos em: degravacoes@grancursosonline.com.br
HADOOP
Obs.: Hadoop não é uma sigla, mas o nome do elefante de brinquedo do filho do respon-
sável pelo desenvolvimento da versão inicial do Hadoop.
Não é um banco de dados, mas um framework (uma estrutura de sistemas) para proces-
samento e armazenamento de grandes quantidades de dados de Big Data.
O PULO DO GATO
Hadoop NÃO É UM BANCO DE DADOS, mas um framework.
www.grancursosonline.com.br 1
BIG DATA & ANALYTICS
Hadoop
Viu algum erro neste material? Contate-nos em: degravacoes@grancursosonline.com.br
Características do Hadoop:
Cluster Hadoop:
Cluster são os diversos nós do Hadoop. É possível classificar esses nós em dois tipos:
NameNode:
• É o principal, responsável por gerenciar onde cada arquivo está armazenado e controlar
o acesso. O NameNode está associado ao sistema operacional.
ANOTAÇÕES
www.grancursosonline.com.br 2
BIG DATA & ANALYTICS
Hadoop
Viu algum erro neste material? Contate-nos em: degravacoes@grancursosonline.com.br
DataNode:
DIRETO DO CONCURSO
1. (CESPE/CEBRASPE/SERPRO/ANALISTA/ESPECIALIZAÇÃO: CIÊNCIA DE DA-
DOS/2021) Julgue o próximo item, relativo à tecnologia de big data e ao Hadoop.
Apesar de ser uma tecnologia de código aberto disponibilizada pela ASF (Apache Sof-
tware Foundation), o Hadoop também é oferecido por distribuidores comerciais, de ma-
neira que fornecedores oferecem distribuições específicas que incluem não só ferra-
mentas administrativas adicionais, mas também suporte técnico.
ANOTAÇÕES
www.grancursosonline.com.br 3
BIG DATA & ANALYTICS
Hadoop
Viu algum erro neste material? Contate-nos em: degravacoes@grancursosonline.com.br
COMENTÁRIO
É assim que se ganha dinheiro em cima de uma tecnologia de código aberto como o Ha-
doop. O agente se especializa nesse software aberto, depois fecha e vende como uma
solução corporativa com suporte técnico e ferramentas específicas.
COMENTÁRIO
b) Não é uma estratégia, mas um framework para armazenar dados de forma distribuída.
c) Não é um banco de dados.
d) Hadoop não é hardware.
e) Não é um banco de dados.
www.grancursosonline.com.br 4
BIG DATA & ANALYTICS
Hadoop
Viu algum erro neste material? Contate-nos em: degravacoes@grancursosonline.com.br
COMENTÁRIO
O mestre é o NameNode e os escravos são o DataNode. A arquitetura mestre-escravo
significa que o mestre manda e os escravos armazenam e cumprem as ordens do mestre.
COMENTÁRIO
O Hadoop Distributed File System (HDFS) linguagem Java, arquitetura mestre/escravo e
pode ser utilizado em diversas máquinas.
COMENTÁRIO
Os dados do Hadoop são divididos em blocos (ou nós): NameNode e DataNode. Não pre-
cisam estar no mesmo servidor.
15m
COMENTÁRIO
O software é um framework com diversos sistemas e projetos interligados. Sua função não
é a análise de logs e outros dados da Web, mas armazenar de forma distribuída e escalá-
vel grandes massas de dado e fazer o processamento dessas bases.
ANOTAÇÕES
www.grancursosonline.com.br 5
BIG DATA & ANALYTICS
Hadoop
Viu algum erro neste material? Contate-nos em: degravacoes@grancursosonline.com.br
COMENTÁRIO
O Sqoop é um projeto para fazer SQL dentro do Hadoop.
Quem atua na camada funcional de data Warehouse é o Hive.
COMENTÁRIO
Os conceitos estão invertidos. Na verdade, Sqoop é queries e Hive é warehousing.
GABARITO
1. CERTO
2. a
3. a
4. CERTO
5. ERRADO
6. ERRADO
7. CERTO
8. ERRADO
9. ERRADO
�Este material foi elaborado pela equipe pedagógica do Gran Cursos Online, de acordo com a aula prepa-
rada e ministrada pelo professor Vitor Alexandre Kessler de Almeida.
ANOTAÇÕES
A presente degravação tem como objetivo auxiliar no acompanhamento e na revisão do conteúdo minis-
trado na videoaula. Não recomendamos a substituição do estudo em vídeo pela leitura exclusiva deste
material.
www.grancursosonline.com.br 6