9.8 Bigdata

OUSE PASSAR
BIG DATA
1. NOÇÕES DE BIGDATA Dados Estruturados Dados Não

Estruturados
1.1 CONCEITOS E PREMISSAS
Fáceis de serem Difíceis de serem
gerenciados gerenciados
a) DADOS ESTRUTURADOS E NÃO
ESTRUTURADOS Fácil recuperação e Difícil acesso e
acesso recuperação
Nos últimos anos, houve um crescimento
exponencial nos dados estruturados e não
estruturados gerados nas organizações modernas. Estrutura rígida e Sem estrutura, ou
Sem dúvidas, o surgimento da Internet influenciou projetada com estrutura flexível
diretamente no crescimento da quantidade de previamente (bancos e dinâmica.
dados produzidos. Imagine quantos vídeos são de dados relacionais)
enviados para o Youtube todos os dias, quantas
fotos são postadas no Instagram e quantas Os dados são
informações de compras são cadastradas por estruturados
grandes empresas como a rede de supermercados conforme a definição
WallMart. de um esquema que
define as tabelas,
O QUE SÃO DADOS ESTRUTURADOS E NÃO atributos e formatos.
ESTRUTURADOS?
Exemplos: um banco Exemplos: textos
Caro aluno, existem algumas organizações que
de dados com os diversos (e-mais,
apenas sentem a necessidade de armazenar
dados de clientes. páginas de internet,
informações sobre o seu cliente, como: nome,
mensagens no
telefone, endereço, pedidos e outros. Nesse caso,
Whatsapp), imagens
estamos falando de dados fáceis de serem
(fotos), vídeos (filmes,
organizados e tratados, um banco de dados
aulas no Youtube),
relacional (tabelas) seria suficiente para gerenciá-
áudios (músicas,
los de maneira eficiente. No exemplo acima
mensagens de voz).
estamos diante de dados estruturados.
Os dados não estruturados, são aqueles que não

possuem estruturas bem definidas, são difíceis de
serem gerenciados, como por exemplo: imagens, Professor, qual seria a diferença entre estrutura
vídeos e arquivos. Mais de 80% dos dados gerados flexível e rígida?
no mundo são desse tipo e muitas empresas
precisam armazená-los para consultas É uma dúvida recorrente, vamos lá!
posteriores.
Quando aprendemos sobre banco de dados
relacional, você lembra que toda tabela tinha uma
estrutura rígida? As tabelas possuem colunas
(campos) que só poderiam aceitar um tipo de
dados e um tamanho. Observe no próximo
desenho, a tabela oferta só aceita número no
Francisco Claudiel Alves dos Santos - claudiel1996@gmail.com - IP: 200.24.81.242

OUSE PASSAR
campo NrRegistro e no dia da semana apenas para conseguirmos trabalhar com dados semi-
texto de 3 caracteres. estruturados.
Vamos supor que precisamos armazenar os dados

abaixo:
Nome: Leandro Viana Matos
Telefone: 619992992992
Organizados em banco de dados relacional

Entendeu o que é rigidez na estrutura? Lembre-se ficaria:
também, que no modelo relacional de banco de
dados, aprendemos que é tudo planejado e
construído antes dos dados serem inseridos. Então
pense na seguinte situação: um sistema de banco
de dados já está pronto, mas você precisa
armazenar dados que não estavam no Tabela Clientes
planejamento inicial, como por exemplo a digital
ou foto de uma pessoa. Como o sistema não é Código Nome Telefone
flexível, não teria como fazer, a não ser que fizesse 1 Leandro Viana 619992992992
alterações no esquema do banco de dados. A Matos
estrutura de dados é rígida, por isso precisa ser
previamente pensada e não será alterada na hora, Esquema (descrição) da Tabela Clientes
em tempo real.
Campo Tipo de PK Restrições
A situação acima seria possível ser feita sem lógico dados
muitos problemas, caso a estrutura de dados fosse Código INT PK Não nulo
não estruturada. Por exemplo, você poderia Nome VARCHAR Não nulo
cadastrar os seus clientes em arquivos do Word, Telefone INT Não Nulo
depois no caso de surgir novos dados, bastaria
abrir os arquivos do Word e jogar os dados lá. O Organizados usando linguagem XML:
problema de ter dados armazenados de forma não
estruturada, será consultas posteriores. Imagine <?xml version=”1.0″ encoding=”UTF-8″ ?>
que você precisa saber quantos dados foram
inseridos nos últimos 20 dias, se fosse no banco de <clientes>
dados relacional seria muito simples através de
alguns comandos de consulta, já nos dados não <nome>Leandro Viana Matos</nome>
estruturados você precisaria fazer manualmente.
<telefone>619992992992</e-mail>
EXISTEM DADOS SEMI-ESTRUTURADOS? </clientes>
Não é comum de cair nas provas, mas os dados No exemplo acima, temos um arquivo em XML
semi-estruturados, são aqueles que apresentam que possui nós, que são rótulos de abertura e
uma representação heterogênea, possuem fechamento, este precedido com o símbolo “/”,
estrutura, mas ela é flexível. Assim, pensando no com os dados inseridos entre os nós. Nesse caso,
exemplo acima, ela agrega as vantagens e estamos diante de uma linguagem estrutura, mas
benefícios dos dois tipos de dados. Facilita o flexível. Nos dados semi-estruturados, o esquema
controle por ter um pouco de estrutura, mas é no próprio arquivo usando nós.
também permite uma maior flexibilidade. A
linguagem XML e JSON são amplamente utilizadas

OUSE PASSAR
caracterizados por arquivos de diversos tipos —

Dados Semi-Estruturados textos, imagens, vídeos, entre outros —, cujas
estruturas não são descritas implicitamente.
Estrutura flexível
Comentário: Dados estruturados que não
possuem esquemas (descrição do banco de
Cada campo de dados tem estrutura, mas não
dados). Gabarito: Certo.
existe imposição de formato como aprendemos
no modelo relacional. 4. (CESPE/TCE-PB/AUDITOR DE CONTAS
PÚBLICAS) Por padrão, documentos do tipo XML
O Esquema é criado com a definição de (eXtensible Markup Language) são estruturados.
elementos internos dos arquivos (nós).
Comentário: XML, JASON são dados semi-
estruturados. Gabarito: Errado.
5. (CESPE/TCE-PA/AUDITOR DE CONTROLE
EXTERNO) Em comparação aos dados não
estruturados, os dados estruturados demandam
mais espaço de armazenamento e um
QUESTÕES COMENTADAS gerenciamento mais cauteloso, uma vez que
constituem a maior parte dos dados corporativos.
1. (CESPE/TCE-SC) Em se tratando de dados Comentário: Os dados não estruturados que
estruturados, a informação de esquema está demandam maior espaço de armazenamento e o
mesclada aos valores dos dados, e cada objeto de seu gerenciamento é mais complicado. Gabarito:
dados pode ter atributos diferentes, que não são Errado.
conhecidos com antecedência. Essa característica
os diferencia de dados não estruturados.
Comentário: O conceito acima é referente aos B) BIGDATA E OS SEUS 5Vs

dados semi-estruturados. Gabarito: Errado.
Big data é um termo usado na área de tecnologia

para descrever um grande volume de dados
2. (CESPE/MINISTÉRIO DA ECONOMIA) Embora variados, dados estruturados e não-estruturados
com características particulares, dados não que não podem ser processados por ferramentas
estruturados podem ser classificados em sua convencionais. Para ficar mais claro o conceito de
totalidade, assim como os dados estruturados. BigData e suas características, vamos analisar a
forma como grandes empresas geram e
Comentário: Classificar é você criar faixas de armazenam dados todos os dias.
valores, por exemplo: de 1 a 10 (nota baixa), de 11
a 20 (nota média) e 21 a 30 (nota alta). • Volume: pense em todos os e-mails que são
Conseguimos classificar dados estruturados, mas armazenados todos os dias nos servidores Gmail,
dados não estruturados requer um tratamento todas as fotos e vídeos que circulam no Instagram.
mais especializado para que sejam classificados. Não são terabytes e sim zetabytes e brontobytes.
Uma das formas mais comuns, é transformar No Facebook são mais de 350 milhões de fotos
dados não estruturados em estruturados, antes de compartilhadas todos os dias. Será quantos vídeos
serem analisados. Gabarito: Errado. são enviados ao Youtube todos os dias e são
armazenados? O grande Volume de dados faz com
3. (CESPE/TCE-PB/AUDITOR DE CONTAS que essas grandes empresas tenham que usar
PÚBLICAS) Dados não estruturados podem ser tecnologias diferentes das tradicionais.

OUSE PASSAR
considerados data files.

• Velocidade: a velocidade com que são
produzidos dados a cada segundo é algo incrível. Comentário: O Bigdata consiste em uma grande
Imagine quantas mensagens de redes sociais estão quantidade de dados estruturados e não
sendo compartilhadas nesse momento? A rede de estruturados.
supermercados Wallmart gera 1 milhão de Gabarito: Errado.
transações de clientes a cada hora. O Big Data tem
tecnologia suficiente para analisar os dados no 7. (CESPE/POLÍCIA FEDERAL) Com relação a
instante em que são criados, sem ter de armazená- fundamentos e conceitos de Big Data, julgue os
itens a seguir.
los necessariamente.
I O volume de dados é uma característica
• Variedade: Como já vimos anteriormente, importante de Big Data.
muitas empresas apenas sentem a necessidade de
armazenar dados estruturados, mas que hoje, 80% II Em Big Data, a qualidade do dado não tem
dos dados produzidos no mundo são não importância, porque a transformação dos dados
estruturados. Um BigData deve ter tecnologia não impacta os negócios.
suficiente para administrar variados tipos de
dados, sejam eles estruturados ou (e) não III A característica de velocidade de entrada dos
estruturados. dados impacta o modelo de processamento e
armazenamento.
• Veracidade: O que adianta armazenar uma
grande variedade de dados se elas não forem IV A variedade dos dados não é característica
verdadeiras? Com o Big Data não é possível intrínseca nos fundamentos de Big Data.
controlar cada notícia falsa na internet, mas com
análises e estatísticas de grandes volumes de Estão certos apenas os itens
dados é possível identificar aquelas que não vão
A I e II.
trazer nenhuma informação importante para a
organização. B I e III.
• Valor: A informação é um ativo importante C II e IV.

para a organização, não temos dúvidas disso, mas
é importante que as organizações que entrem no D I, III e IV.
negócio do Big Data, lembrem dos custos e
benefícios, pois teremos que usar softwares E II, III e IV.
capazes de tratar esses dados e transformá-los em
Comentário:
e informações úteis.
I. Certo.
Agora que já aprendemos o conceito e os 5Vs de
BigDatas, vamos fazer algumas questões que II. Errado. Os dados de um BigData devem ter
falam sobre isso. veracidade e valor.
III. Certo. A velocidade com que os dados

fabricados em um Bigdata, existe que a
QUESTÕES COMENTADAS organização que investir nesse tipo de tecnologia
use ferramentas que atendam essa necessidade e
não as ferramentas tradicionais.
6. (CESPE/POLÍCIA FEDERAL) O big data consiste
de um grande depósito de dados estruturados, ao IV. Errado. Variedade é um dos 5Vs de um Bigdata.
passo que os dados não estruturados são

OUSE PASSAR
Gabarito: Letra “B” — dos quais se conhece a estrutura de

armazenamento — bem como dos não
estruturados, como imagens, vídeos, áudios e
documentos.
8. (CESPE/TJSE) Em soluções Big Data, a análise
dos dados comumente precisa ser precedida de Comentário: Certo. A questão fala sobre os 5Vs
uma transformação de dados não estruturados do BigData e ainda fala sobre a diferença entre os
em dados estruturados dados estruturados e não estruturados.
Gabarito: Certo.
Comentário: Não podemos afirmar que em todas
as soluções de bigdatas precisamos transformar
os dados não estruturados em estruturados, mas 1.2 APLICAÇÕES E SOLUÇÕES DE BIGDATA
muitas delas sim. Gabarito: Certo.
9. (CESPE/POLÍCIA FEDERAL) De maneira geral, big 1.2.1 CLUSTERS

data não se refere apenas aos dados, mas também
às soluções tecnológicas criadas para lidar com
dados em volume, variedade e velocidade Como vimos anteriormente, uma grande
significativos. quantidade de dados é gerada a cada segundo.
Esses dados, não são processados e armazenados
Comentário: Verdade, Bigdata se tornou um em computadores e servidores tradicionais. Uma
termo genérico, incluindo os dados e as suas solução de Big Data precisa saber para lidar com
soluções tecnológicas. Gabarito: Certo. esse volume de dados, podendo quando
necessário, guarda-los em diferentes localidades e
10. (CESPE/TCM/BA) O termo big data se baseia juntando-os através de software.
em cinco Vs: velocidade, virtuosidade, volume,
vantagem e valor. Você já imaginou como seria juntar a capacidade
de dois computadores para criar uma máquina
Comentário: Virtuosidade e vantagem não são muito mais potente? Cluster é um termo em inglês
características de um BigData. Estamos diante que significa “aglomerar” ou “aglomeração” e
dos 5Vs: velocidade, volume, valor, veracidade e pode ser aplicado em vários contextos, mas em
variedade. Gabarito: Errado. BigData, um Clusters é um sistema que relaciona
dois ou mais servidores para que estes trabalhem
11. (CESPE/POLÍCIA FEDERAL) Big data refere-se a de maneira conjunta no intuito de processar e
uma nova geração de tecnologias e arquiteturas armazenar mais dados do que computadores
projetadas para processar volumes muito grandes tradicionais. Estas máquinas dirão dividir entre si
e com grande variedade de dados, permitindo alta as atividades de processamento e executam este
velocidade de captura, descoberta e análise. trabalho de maneira simultânea.
Comentário: BigData realmente é uma nova
geração de tecnologias para análise e descoberta
de dados (mineração). Possui arquiteturas
diferentes das tradicionais que possibilitam o
processamento de grandes volumes de dados
estruturados ou não estruturados. Gabarito:
Certo.
12. (CESPE/TCE/PE) Além de estar relacionado à

grande quantidade de informações a serem
Imagem de um sistema Cluster
analisadas, o Big Data considera o volume, a
velocidade e a variedade dos dados estruturados

OUSE PASSAR
São características de um Cluster: 1.2.2 HADOOP
• Alto desempenho: combina os vários Agora que já conhecemos a infraestrutura física de

computadores para utilizar a soma do poder de um Cluster, vamos conhecer a parte lógica que faz
processamento de cada um deles. todo esse sistema funcionar.
• Alta disponibilidade: mantem a aplicação
sempre em funcionamento. Se ocorrer algum Hadoop é uma tecnologia open source (aberta),
problema em determinado nó, o mecanismo desenvolvida em Java, que oferece um conjunto
deverá continuar ativo como se nada tivesse de ferramentas para implementação do modelo
acontecido aos olhos do usuário. A disponibilidade MapReduce, responsável pelo processamento
não é 100%, mas caso aconteça uma paralisação, distribuído, e o Hadoop Distributed File System
ela deve ser a menor possível. (HDFS), para armazenamento de grandes
• Balanceamento de Carga (Load Balancing): se conjuntos de dados, também de forma distribuída.
preocupa em distribuir as tarefas de É a solução em software que utiliza as estruturas
processamento da forma mais equilibrada físicas de um cluster, tornando-o eficaz como
possível. Assim, cada máquina recebe e atende a solução de baixo custo de implantação.
uma requisição específica, mas todas estão
preparadas para atuar em conjunto. E, caso ocorra Embora recente, o Apache Hadoop tem se
alguma falha, as demandas podem ser destacado como uma ferramenta eficaz, sendo
redistribuídas entre os nós utilizado por grandes corporações como IBM,
• Processamento em Paralelo: divide as Oracle, Facebook, Yahoo!, entre outras.
requisições complexas em pequenas atividades
Os componentes chave do Hadoop são o modelo
mais simples, distribuídas e executadas
de programação MapReduce e o sistema de
paralelamente pelos seus nós.
arquivos distribuído HDFS.
• Escalabilidade Horizontal: envolve a adição de
mais nodes (ou seja, máquinas) à estrutura de um
sistema já existente para melhorar o desempenho. a) Sistema de arquivos HDFS (Hadoop
Distributed File System)
Antes de falarmos sobre o sistema de arquivos do

Hadoop, vamos lembrar como funciona o
armazenamento de dados em um computador
O que é Nó, Node ou Nodo? tradicional.
Cada servidor é denominado “nó, node ou nodo” Em um computador tradicional, você tem o
e, combinados, formam o cluster. Em alguns casos, hardware (computador) e os softwares
é possível ver referências como (aplicativos, sistema operacional, sistemas de
“supercomputadores” ou “computação em arquivos e outros). O hardware é controlado pelo
cluster” para o mesmo cenário. É importante sistema operacional, que fica encarregado de
destacar que, os nós de um cluster não gerenciar toda a parte física do computador. É
necessariamente precisam ser computadores papel do Sistema Operacional gerenciar o
potentes, pois um dos objetivos de utilizar clusters armazenamento de arquivos no HD (Disco Rígido).
é redução de custos decorrente do uso de Nesse caso, o sistema operacional organiza a
máquinas mais simples que alcançam um nível de estrutura do HD para receber os arquivos, através
processamento igual ou superior ao dos de um sistema de arquivos (conjunto de regras
mecanismos mais complexos. Logo, o uso ou não para alocação de arquivos). O Sistema operacional
de máquinas potentes, vai depender dos objetivos Windows, usa como sistema de arquivos padrão o
da empresa. NTFS. O desenho abaixo mostra um esquema para
você lembrar.

OUSE PASSAR
Sistema replicados em máquinas diferentes. Um DataNode

NTFS Hardware
Operacional poderá armazenar múltiplos blocos, inclusive de
diferentes arquivos, entretanto, eles precisam se
reportar constantemente ao NameNode,
informando-o sobre as operações que estão sendo
O HDFS atua como um sistema de arquivos realizadas nos blocos. Como em BigDatas, os
distribuído, sendo otimizado para alto dados são processados em paralelo e de forma
desempenho na leitura e escrita de grandes distribuída, os dados são processados várias vezes.
arquivos que estão localizados em computadores Nesse sentido, o HDFS foi construído sobre a regra
(nós) de um cluster. de armazenamento WORM (write-once, read-
many-times), ou seja, escrever uma vez, ler várias
Sistema vezes.
HDFS Cluster
Operacional
Dentre as características do HDFS estão a

escalabilidade e disponibilidade, ele faz à
replicação de dados para várias máquinas,
diferente dos sistemas de arquivos tradicionais,
que foram projetados para armazenar os arquivos
em um mesmo computador. O sistema HDFS se
encarrega de quebrar os arquivos em partes
menores e replicar os blocos um número
configurado de vezes em servidores diferentes, o
que torna o processo tolerante a falhas.
O HDFS foi projetado para trabalhar com a

seguinte estrutura lógica e física:
• Namenode (Administra os dados): responsável b) MapReduce

por gerenciar os arquivos armazenados no HDFS,
registrando as informações sobre quais datanodes
são responsáveis por quais blocos de dados de O MapReduce é um modelo de programação para
cada arquivo, organizando todas essas processamento paralelo das aplicações. Ele
informações em uma tabela de controle (tabela de abstrai dos programadores, dificuldades do
metadados). Suas funções incluem mapear a trabalho com dados distribuídos, eliminando
localização, realizar a divisão dos arquivos em quaisquer problemas que o compartilhamento de
blocos, encaminhar os blocos aos nós escravos informações pode trazer em um sistema dessa
(slaves nodes), obter os metadados dos arquivos natureza. Consiste das seguintes funções:
e controlar a localização de suas réplicas. Como o
NameNode é constantemente acessado, por • Map: Na primeira fase, chamada de Map
questões de desempenho, ele mantém todas as (mapeamento), os dados são separados em pares
suas informações em memória. Ele integra o de chave e valor, divididos em fragmentos e
sistema HDFS e fica localizado no nó mestre distribuídos para os nodes, onde serão
(Master Node) da aplicação. processados.
• Shuffle: A etapa de shuffle é responsável por
• Datanode (Armazena os dados): responsável organizar o retorno da função Map, atribuindo
pelo armazenamento do conteúdo dos arquivos para a entrada de cada Reduce todos os valores
nos computadores escravos. Como o HDFS é um associados a uma mesma chave. Esta etapa é
sistema de arquivos distribuído, é comum que os realizada pela biblioteca do MapReduce.
arquivos sejam particionados em blocos e

OUSE PASSAR
• Reduce: Depois disso, acontece a etapa de 15.(CESPE/EBSERH) As soluções de big data

Reduce (redução), que é a combinação dos focalizam dados que já existem, descartam dados
processamentos dos nodes por um master node. É não estruturados e disponibilizam os dados
ele que entregará uma resposta única à requisição estruturados.
realizada pelo usuário.
Comentário: Soluções de Bigdata não descartam
dados não estruturados. Gabarito: Errado.
16. (CESPE/ANATEL) No MapReduce, modelo de

processamento de dados paralelo para
processamento e análise de grandes volumes de
dados, os programas são escritos em um estilo de
programação funcional, no qual as funções Map e
Perceba na imagem acima: Reduce devem ser criadas.
1º Uma mensagem entra (input). Comentário: Correto, o Mapreduce é um modelo

2º A função Split quebra a mensagem em 3 partes de programação em que o desenvolvedor deve
para enviar uma para cada node. fazer o uso das funções MAP (mapeamento),
3º A função Map faz o mapeamento das 3 partes REDUCE (redução). Gabarito: Certo.
com o número 1, que identificará que todas as
partes são da mesma mensagem.
4º A função shuffle faz uma melhor organização 17. (CESPE/TCDF) Uma necessidade básica em
dessas partes mapeadas para enviar para a função uma topologia típica de ambientes de data center
reduce. é a busca de escalabilidade, tanto a horizontal
5º A função reduce faz a redução combinando os quanto a vertical. A primeira refere-se ao
valores e entregando a resposta ao usuário. incremento com novos hardwares para suportar o
aumento da demanda pelos usuários finais; a
QUESTÕES COMENTADAS segunda é alcançada pela substituição, quando
máquinas com maior capacidade de
processamento substituem as antigas.
13. (CESPE/TCE-PB) O MapReduce é considerado
Comentário: Correto. Na escalabilidade
um modelo de programação que permite o
Horizontal, que é usada em sistemas Cluster, o
processamento de dados massivos em um
incremento de recursos acontece quando
algoritmo paralelo e distribuído.
colocamos mais um computador no conglomerado
Comentário: Correto, o Mapreduce é um modelo de hosts. Na escalabilidade Vertical, o incremento
de programação para o processamento de grande de recursos é a substituição de peças do
quantidade de dados (BigDatas) de forma computador, como por exemplo o aumento de
distribuída. Gabarito: Certo. memória RAM. Gabarito: Certo.
14. (CESPE/TCE-PB) Em big data, o sistema de 18. (CESPE/POLÍCIA FEDERAL) MapReduce

arquivos HDFS é usado para armazenar arquivos permite o processamento de dados massivos
muito grandes de forma distribuída, tendo como usando um algoritmo paralelo, mas não
princípio o write-many, read-once. distribuído.
Comentário: Peguinha, mas o HDFS foi Comentário: MapReduce permite o

construído na ideia do write-once, read-many- processamento de dados massivos usando
times, ou seja, leia várias vezes e escreva apenas algoritmo paralelo e distribuído. Gabarito: Errado.
uma vez. Gabarito: Errado.

OUSE PASSAR
19. (CESPE/POLÍCIA FEDERAL) MapReduce processar grandes quantidades de dados

oferece um modelo de programação com distribuídos em muitas máquinas.
processamento por meio de uma combinação
entre chaves e valores
Comentário: Dentro do MapReduce, a função

Map separa os dados em pares de chave e valor,
divididos em fragmentos e distribuídos para os
nodes, onde serão processados. Gabarito: Certo.
1.2.3 NOSQL
Caro aluno, imagine o Facebook tendo que Orientado a colunas

armazenar todas as senhas e logins de usuários em
um banco de dados relacional? Para responder o
Características
questionamento, você precisa lembrar que o
Facebook utiliza BigDatas, necessitando soluções • Em termos práticos, a organização dos dados
que permitem escalabilidade horizontal, alto ocorre com base em colunas.
poder de processamento e desempenho. • As colunas armazenam os dados de vários
NOSQL (Not Only SQL) é uma solução alternativa registros.
para bancos de dados relacionais, possuem uma • Tolerância ao particionamento e
alta escalabilidade e desempenho. São bancos de disponibilidade.
dados usados para armazenar dados semi- • Um chave e muitas colunas.
estruturados. • SGBD livre e OpenSource.
• Foi desenvolvido pelo Facebook.
Características
Um exemplo de banco de dados do tipo Colunas é
• Não são relacionais, mas pode conter
o Cassandra.
relacionamentos.
• Não utiliza linguagem SQL, mas pode ter sua

b) Documentos
base acessada por linguagem SQL.
• Suporte a replicação de dados. Ideal para

O Bancos de Dados orientado a Documentos
sistemas clusters.
utiliza documentos autocontidos e auto
• Não possuem um esquema (descrição de banco descritivos, e isso implica que o documento em si
de dados) predefinido. Possui estrutura flexível. já define como ele deve ser apresentado e qual é
o significado dos dados armazenados na sua
• Diferentes modelos/formas de estrutura.
armazenamento (grafos, documentos,
chave/valor, colunas).
a) Coluna
Este tipo difere bastante do modelo relacional, em

que uma linha representa um conjunto de dados
relacionados. É utilizado para armazenar e

OUSE PASSAR
real. Temos as entidades chamadas de vértices (ou

nós) que são ligadas entre elas pelas arestas (ou
arcos) cada um podendo guardar dados entre os
relacionamentos e cada relacionamento pode ter
uma direção.
Bancos deste tipo empregam conceitos da teoria

de grafos para a representação de
relacionamentos entre diferentes conjuntos de
dados. Uma das soluções mais conhecidas
baseadas neste modelo é o Neo4j.
O mongo é um exemplo de banco de dados

orientado a documentos.
Os bancos de dados semi-estruturados são

armazenados com formatos como JSON e XML.
c) Chave e Valor
Como o próprio nome sugere, os bancos que se

encaixam nesta classificação são formados por
conjuntos de chaves e seus respectivos valores.
Cada um destes conjuntos, por sua vez, conta
ainda com uma chave que funciona como um
identificador único. Características
• Contém nós ou vertices (entidades) e arestas

ou arcos (relacionamentos).
• Os relacionamentos podem possuir dados,
como pode ser visto nas próximas imagens.
• Vários cenários e problemas do mundo real.
Como você pode ver nas próximas imagens.
Esse tipo de banco de dados é bastante utilizado

em perfis de usuários e senhas. Redis é um banco
de dados que utiliza orientação por chaves e valor.
d) Orientado a Grafos
Uma base relacional possui a tabelas, colunas,

tuplas (linhas), chaves e relacionamentos. Quando
temos um relacionamento entre uma tabela e
outra, uma das tabelas possui a indicação de
foreign key, chave estrangeira.
Em um banco de dados de grafos,

relacionamentos são mais parecidos com o mundo

OUSE PASSAR
23. (CESPE/CNJ) A escalabilidade dos bancos de

dados NoSQL é garantida pela ausência de um
esquema (scheme free).
Comentário: Bancos de dados NoSQL possui

esquema flexível, pois trabalha com dados semi-
estruturados. Vimos as características de dados
semi-estruturados em páginas anteriores.
Gabarito: Errado.
24. (CESPE/TJSE) Devido à escalabilidade esperada

QUESTÕES COMENTADAS para os bancos de dados NOSQL, a implementação
desses bancos utiliza modelos de armazenamento
de dados totalmente distintos dos utilizados em
20. (CESPE/TCU) Como forma de permitir as sistemas relacionais.
buscas em documentos semiestruturados, um
banco de dados NoSQL do tipo orientado a Comentário: Distintos sim, mas totalmente
documentos armazena objetos indexados por distintos não. Por exemplo, o modelo em coluna
chaves utilizando tabelas de hash distribuídas. tem funcionamento semelhante ao banco de
dados relacional. Gabarito: Errado.
Comentário: Os bancos de dados orientados a
documentos não armazenam chaves em tabelas.
As chaves são armazenadas dentro do próprio
documento. Gabarito: Errado. 25. (CESPE/CNJ) Uma característica de bancos de
dados NoSQL é o suporte à replicação de dados.
Entre as abordagens utilizadas para replicação,
inclui-se a mestre-escravo.
21. (CESPE/FUNPRESP-EXE) Em um banco de
dados NoSQL do tipo grafo, cada arco é definido Comentário: Certo, os bancos de dados NoSQL
por um identificador único e expresso como um foram desenvolvidos para garantir a escalabilidade
par chave/valor. e desempenho de soluções BigDatas. Gabarito:
Certo.
Comentário: Em banco de dados do tipo grafos,
os arcos (arestas) são os relacionamentos entre as
entidades. Os relacionamentos não possuem
identificadores únicos. Vale lembrar, que o 26. (CESPE/CNJ) Bancos de dados NOSQL
modelo grafo não utiliza par chave/valor. orientados a documentos são apropriados para o
Gabarito: Errado. armazenamento de dados semiestruturados.
Comentário: Certo. Inclusive utilizam XML e JSON

como formato de dados. Gabarito: Certo.
22. (CESPE/TRT - 7ª REGIÃO (CE)) O termo NoSQL
refere-se a bancos de dados que são acessados
sem utilização de SQL.
27. (CESPE/SLU) Para uma empresa que necessite
Comentário: Questão safada! O Termo NoSQL implantar uma base de dados altamente escalável,
(not only SQL) se refere a não utilizar somente com grande desempenho e cujo esquema de
SQL. Bancos de Dados NoSQL não usam modelo dados seja flexível, de modo que suporte
relacional, mas podem ser acessados por constantes mudanças de campos e valores
aplicações que usam SQL, já que aceitam vários armazenados, a melhor opção é uma base de
comandos. Gabarito: Errado. dados NoSQL.

OUSE PASSAR
Comentário: Correto. Características garantidas análises podem ser descritivas, diagnósticas,

pelos bancos NoSQL. Gabarito: Certo. preditivas e também prescritivas.
28. (CESPE/POLÍCIA FEDERAL) NoSQL são bancos

de dados que não aceitam expressões SQL e
devem ser armazenados na nuvem.
Comentário: Não usam o modelo relacional, não

se precisam utilizar a linguagem SQL, mas aceitam
vários comandos da linguagem SQL. Gabarito:
Errado.
São exemplos de soluções BigData Analitcs: Cluvio,
Statgraphics Centurion, Litmus Edge, EC2 Spot,
Salesforce Analytics Cloud, Google Cloud Platform.
29. (CESPE/STJ) Sistemas de bancos de dados
classificados como NoSQL permitem a inserção de
dados sem que haja um esquema predefinido.
Comentário: Correto, em dados semi-

estruturados, o esquema é flexível. Gabarito:
Certo
1.2.3 BIG DATA ANALYTICS
Big Data Analytics são soluções tecnológicas e

técnicas para a análise de aglomerações de dados
estruturados e não estruturados para extrair, Cluvio
armazenar e analisar os dados, de forma a auxiliar
na tomada das melhores decisões para que
organizações possam se beneficiar, tanto em
QUESTÕES COMENTADAS
questões internas com análises sobre o negócio,
ou externas como comportamento dos clientes.
30. (CESPE/ TCE-PE) O termo Big Data Analytics
Nas organizações, o Big Data Analytics pode
refere-se aos poderosos softwares que tratam
analisar dados estruturados, como registros de call
dados estruturados e não estruturados para
center, dados do sistema de CRM (Gestão de
transformá-los em informações úteis às
relacionamento com Cliente), ERP (Sistema de
organizações, permitindo-lhes analisar dados,
Gestão Empresarial) e arquivos XML (dados semi-
como registros de call center, postagens de redes
estruturados) em geral.
sociais, de blogs, dados de CRM e demonstrativos
Além disso, dados não estruturados, como de resultados.
documentos, publicações de redes sociais e
vídeos, também podem ser capturados e Comentário: Certo, conceito visto anteriormente.
organizados pelas novas tecnologias. Gabarito: Certo.
Vale lembrar que o Big Data Analytics não se

resume à tecnologia, pois a estratégia é
fundamental para reconhecer o valor dos dados e
traçar os caminhos ideais para gerar insight, em
resumo, depende da interferência humana. As

OUSE PASSAR

9.8 Bigdata

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

9.8 Bigdata

Enviado por

Direitos autorais:

Formatos disponíveis

OUSE PASSAR

1. NOÇÕES DE BIGDATA Dados Estruturados Dados Não

Os dados não estruturados, são aqueles que não

Francisco Claudiel Alves dos Santos - claudiel1996@gmail.com - IP: 200.24.81.242

Vamos supor que precisamos armazenar os dados

Organizados em banco de dados relacional

Francisco Claudiel Alves dos Santos - claudiel1996@gmail.com - IP: 200.24.81.242

caracterizados por arquivos de diversos tipos —

Comentário: O conceito acima é referente aos B) BIGDATA E OS SEUS 5Vs

Big data é um termo usado na área de tecnologia

Francisco Claudiel Alves dos Santos - claudiel1996@gmail.com - IP: 200.24.81.242

considerados data files.

• Valor: A informação é um ativo importante C II e IV.

III. Certo. A velocidade com que os dados

Francisco Claudiel Alves dos Santos - claudiel1996@gmail.com - IP: 200.24.81.242

Gabarito: Letra “B” — dos quais se conhece a estrutura de

9. (CESPE/POLÍCIA FEDERAL) De maneira geral, big 1.2.1 CLUSTERS

12. (CESPE/TCE/PE) Além de estar relacionado à

Francisco Claudiel Alves dos Santos - claudiel1996@gmail.com - IP: 200.24.81.242

São características de um Cluster: 1.2.2 HADOOP

• Alto desempenho: combina os vários Agora que já conhecemos a infraestrutura física de

Antes de falarmos sobre o sistema de arquivos do

Francisco Claudiel Alves dos Santos - claudiel1996@gmail.com - IP: 200.24.81.242

Sistema replicados em máquinas diferentes. Um DataNode

Dentre as características do HDFS estão a

O HDFS foi projetado para trabalhar com a

• Namenode (Administra os dados): responsável b) MapReduce

Francisco Claudiel Alves dos Santos - claudiel1996@gmail.com - IP: 200.24.81.242

• Reduce: Depois disso, acontece a etapa de 15.(CESPE/EBSERH) As soluções de big data

16. (CESPE/ANATEL) No MapReduce, modelo de

1º Uma mensagem entra (input). Comentário: Correto, o Mapreduce é um modelo

14. (CESPE/TCE-PB) Em big data, o sistema de 18. (CESPE/POLÍCIA FEDERAL) MapReduce

Comentário: Peguinha, mas o HDFS foi Comentário: MapReduce permite o

Francisco Claudiel Alves dos Santos - claudiel1996@gmail.com - IP: 200.24.81.242

19. (CESPE/POLÍCIA FEDERAL) MapReduce processar grandes quantidades de dados

Comentário: Dentro do MapReduce, a função

Caro aluno, imagine o Facebook tendo que Orientado a colunas

• Não utiliza linguagem SQL, mas pode ter sua

• Suporte a replicação de dados. Ideal para

Este tipo difere bastante do modelo relacional, em

Francisco Claudiel Alves dos Santos - claudiel1996@gmail.com - IP: 200.24.81.242

real. Temos as entidades chamadas de vértices (ou

Bancos deste tipo empregam conceitos da teoria

O mongo é um exemplo de banco de dados

Os bancos de dados semi-estruturados são

Como o próprio nome sugere, os bancos que se

• Contém nós ou vertices (entidades) e arestas

Esse tipo de banco de dados é bastante utilizado

Uma base relacional possui a tabelas, colunas,

Em um banco de dados de grafos,

Francisco Claudiel Alves dos Santos - claudiel1996@gmail.com - IP: 200.24.81.242

23. (CESPE/CNJ) A escalabilidade dos bancos de

Comentário: Bancos de dados NoSQL possui

24. (CESPE/TJSE) Devido à escalabilidade esperada

Comentário: Certo. Inclusive utilizam XML e JSON

Francisco Claudiel Alves dos Santos - claudiel1996@gmail.com - IP: 200.24.81.242

Comentário: Correto. Características garantidas análises podem ser descritivas, diagnósticas,

28. (CESPE/POLÍCIA FEDERAL) NoSQL são bancos

Comentário: Não usam o modelo relacional, não

Comentário: Correto, em dados semi-

1.2.3 BIG DATA ANALYTICS

Big Data Analytics são soluções tecnológicas e

Vale lembrar que o Big Data Analytics não se