Você está na página 1de 36

Arquitetura de Big Data

Turma dos Feras RFB


Professor Gabriel Pacheco
@professor.gabrielpacheco
• Data Science é o estudo disciplinado dos dados e informações inerentes ao
negócio e todas as visões que podem cercar um determinado assunto.

2
• Os Vs de Big Data.
• Volume:
• Atributo mais significativo do conceito de Big Data.
• Faz referência à dimensão sem precedentes do volume de
dados.
• O tamanho dos dados é algo relativo quando se fala em Big
Data.
• O que de fato define se o volume requer uma tecnologia de Big
Data é a limitação das ferramentas tradicionais para lidar com
determinado volume.

3
• Os Vs de Big Data.
• Variedade:
• Necessidade de trabalhar com dados estruturados (20%) e não
estruturados (80%).
• Velocidade:
• Velocidade com que os dados são coletados, analisados e
utilizados.
• Aumenta a competitividade de mercado (caso Amazon).
• O uso de Big Data trata de uma mudança qualitativa gerada pelo
uso dos 3 atributos.

4
•Os Vs de Big Data.
• Alguns pesquisadores consideram ainda o Valor e a Veracidade.
• Valor: quão valioso e significativo um dado pode ser em uma
solução.
• Veracidade: confiabilidade dos dados.

5
• Big Data Analytics análise de aglomerações de dados estruturados e não
estruturados que são gerados digitalmente a todo instante. O Big Data
Analytics tem por objetivo extrair, armazenar e analisar os dados, de forma
a auxiliar na tomada das melhores decisões para que organizações possam
se beneficiar, tanto em questões internas como análises sobre o negócio,
ou externas como comportamento dos clientes.

6
(IADES - 2018 - APEX Brasil - Analista - Prospecção de Projetos)
Assina/1 - le a alternativa que apresenta o conceito de Big Data.
A) Conjuntos de dados de grande volume que se utilizam de ferramentas especiais de
processamento, pesquisa e análise, e que podem ser aproveitados no tempo necessário, com
precisão e grande velocidade.
B) São bancos de dados de fácil acesso e rápida velocidade, operados como computadores
pessoais.
C) Manuseio de informações necessárias às empresas e aos negócios do mundo moderno, que
podem ser armazenadas em computadores pessoais, utilizando-se a técnica de nuvem de
dados.
D) São apenas grandes volumes de dados que precisam ainda ser mais bem aproveitados pelo
mundo corporativo.
E) Refere-se a um grande número de computadores pessoais (PC) interligados entre si em uma
grande rede de informação.

7
(FGV - 2022 - SEFAZ-AM - Analista de Tecnologia da Informação da Fazenda Estadual - Tarde)
2 - Leia o fragmento a seguir.
“Atualmente, no contexto do Big Data e Data Analytics, faz-se referência às características
enunciadas por pesquisadores e produtores de soluções como sendo um conjunto de cinco Vs.
Originalmente, a definição clássica de Big Data fez referência a três Vs fundamentais: _____,
_____ e _____ de dados que demandam formas inovadoras e rentáveis de processamento da
informação, para melhor percepção e tomada de decisão.”
Assinale a opção cujos itens completam corretamente as lacunas do fragmento acima, na
ordem apresentada.
A) valor – variança – veracidade.
B) validade – velocidade – vocabulário.
C) valor – variabilidade – viscosidade.
D) variedade – velocidade – volume.
E) valor – volatilidade – volume.
8
(FGV - 2015 - TJ-SC - Analista de Sistemas)
3 - Os termos Business Intelligence (BI) e Big Data confundem-se em certos
aspectos. Uma conhecida abordagem para identificação dos pontos críticos de
cada paradigma é conhecida como 3V, e destaca:
A) variedade, visualização, volume;
B) velocidade, virtualização, volume;
C) variedade, velocidade, volume;
D) virtualização, visualização, volume;
E) variedade, visualização, virtualização.

9
(FGV - 2014 - AL-BA - Técnico de Nível Superior - Economia )
4 - A expressão Big Data é utilizada para descrever o contexto da informação
contemporânea, caracterizada pelo volume, velocidade e variedade de dados disponíveis,
em escala inédita.
Com relação às características do Big Data, analise as afirmativas a seguir.
I. O volume da informação se refere ao fato de que certas coleções de dados atingem a
faixa de gigabytes (bilhões de bytes), terabytes (trilhões), petabytes (milhares de trilhões)
ou mesmo exabytes (milhões de trilhões).
II. A velocidade está relacionada à rapidez com a qual os dados são produzidos e tratados
para atender á demanda, o que significa que não é possível armazená-los todos,de modo
que somos obrigados a escolher dados para guardar e outros para descartar.
III. A variedade significa que os dados de hoje aparecem em todos os tipos de
formatos,como, por exemplo, arquivos de texto,e-mail,medidores e sensores de coleta de
dados, vídeo, áudio, dados de ações do mercado ou transações financeiras.

10
(FGV - 2014 - AL-BA - Técnico de Nível Superior - Economia )
Assinale:
A) se somente a afirmativa I estiver correta.
B) se somente a afirmativa II estiver correta.
C) se somente a afirmativa III estiver correta.
D) se somente as afirmativas I e II estiverem corretas.
E) se todas as afirmativas estiverem corretas.

11
•Etapas de um projeto de Big Data:
• Identificar quais perguntas se deseja responder com os dados.
• Captura e Armazenamento de Dados.
• Processamento e Análise.
• Visualização de Dados

12
•Origem dos Dados.
• Dados internos.
• Dados externos.
• Dados gerados por máquinas.
• Dados gerados por humanos.

13
(CESPE - 2016 - FUNPRESP-JUD - Analista - Tecnologia da Informação)
A respeito de banco de dados, julgue o próximo item.
5 - Uma big data não engloba dados não estruturados, mas inclui um imenso
volume de dados estruturados suportado por tecnologias como o DataMining e
o DataWarehouse para a obtenção de conhecimento a partir da manipulação
desses dados.

14
• Arquiteturas de Big Data.
• Uma arquitetura de Big Data foi projetada para lidar com
ingestão, processamento e análise de dados grandes ou
complexos demais para sistemas de banco de dados
tradicionais.
• O limite no qual as organizações trabalham depende da
capacidade dos usuários e de suas ferramentas.

15
16
• Arquiteturas Lambda.
• Resolve o problema da quantidade muito grande de dados sendo trabalhados
de forma paralela (comumente trabalhados com o uso de MapReduce).
• Cria dois caminhos para o fluxo de dados, onde todos os dados recebidos
deverão passar por esses dois caminhos:
• Uma camada de lote (caminho frio) armazena todos os dados de entrada
em sua forma bruta e executa o processamento em lotes nos dados. O
resultado desse processamento é armazenado como uma exibição de lote.
• Ela alimenta uma camada de serviço que indexa a exibição de lote para uma
consulta eficiente.
• Uma camada de velocidade (caminho quente) analisa os dados em tempo
real. Essa camada foi projetada para baixa latência, em detrimento da
precisão.
• Atualiza a camada de serviço com atualizações incrementais de acordo com os
dados mais recentes.

17
18
• Arquiteturas Kappa.
• Resolve o problema da complexidade da Arquitetura Lambda.
• Tem as mesmas metas da arquitetura lambda, mas com todos os dados
fluindo por um único caminho, usando um sistema de processamento de
fluxo.

19
(FCC - 2018 - SEFAZ-SC - Auditor-Fiscal da Receita Estadual - Tecnologia da Informação (Prova 3))
6 - As soluções em Big Data Analytics, usadas, por exemplo, pela Fazenda Pública principalmente para evitar
sonegações de tributos, trabalham com algoritmos complexos, agregando dados de origens diversas,
relacionando-os e gerando conclusões fundamentais para a tomada de decisões. Na execução dessas
análises pelos auditores, considere:
I. Dados estruturados.
II. Dados semiestruturados.
III. Dados não estruturados.
IV. Dados brutos, não processados.
V. Esquemas de dados gerados no momento da gravação.
Sobre um repositório de armazenamento, que contenha uma grande quantidade de dados a ser examinada,
deverão ser utilizados APENAS os que constam de
A) I, III e IV.
B) I, II, III e V.
C) III, IV e V.
D) I, II, III e IV.
E) I, II, IV e V.
(INSTITUTO AOCP - 2020 - MJSP - Cientista de Dados - Big Data)
7 - Um dos desafios do Big Data é o volume de dados. Sabendo que um profissional de
tecnologia da informação necessita utilizar um Big Data, assinale a alternativa que
apresenta um tipo de banco de dados que é utilizado em soluções baseadas em Big
Data.
A) Banco de dados NoSQL.
B) Banco de dados Extensível.
C) Banco de dados Relacional.
D) Banco de dados Multivalorados.
E) Banco de dados Redimensional.
(FGV - 2022 - SEFAZ-AM - Analista de Tecnologia da Informação da Fazenda Estadual
- Tarde)
Com relação às arquiteturas de big data, analise as afirmativas a seguir.
I. As arquiteturas de big data suportam um ou mais tipos de carga de trabalho, por exemplo,
processamento em lote de fontes de big data em repouso; processamento em tempo real de
big data em movimento; exploração interativa de big data e análise preditiva e aprendizado de
máquina.
II. A arquitetura kappa aborda o problema da baixa latência criando dois caminhos para o fluxo
de dados. Todos os dados que entram no sistema passam por dois caminhos: a camada de lote
(caminho frio) que armazena os dados de entrada em sua forma bruta e executa o
processamento os dados em lote, e a camada de velocidade (hot path) que analisa os dados em
tempo real. Essa camada é projetada para ter baixa latência, em detrimento da precisão.
III. A arquitetura lambda, posterior à kappa, foi proposta para ser uma alternativa para mitigar
os problemas da baixa latência. Lambda tem os mesmos objetivos da kappa, mas com uma
distinção importante: todos os dados fluem por um único caminho, usando um sistema de
processamento de fluxo de dados. Semelhante à camada de velocidade da arquitetura lambda,
todo o processamento de eventos é realizado através de um fluxo único de entrada.
8 - Está correto o que se afirma em
A) I, apenas.
B) II, apenas.
C) III, apenas.
D) I e II, apenas.
E) II e III, apenas.
(FGV - 2022 - SEAD-AP - Professor de Educação Básica – Sociologia)
9 - Com o crescente processo de digitalização da vida e da conectividade, tornou-se possível o
registro de uma altíssima quantidade de dados que, com a redução e simplificação da sua
dimensionalidade, criou um momento informacional novo sobre a realidade humana e natural. O Big
Data é fruto da digitalização massiva, da larga e crescente disponibilidade tecnológica em modo
online. A estatística e as técnicas de amostragem foram e ainda são um recurso amplamente
utilizados para pesquisa sociológica, mas a escala massiva de dados digitais está tensionando o
paradigma da amostra. Observações qualitativas, amostragem, coleta controlada de dados, testes e
generalizações são esquemas não são totalmente aplicáveis para o tipo de informação do big data.
Adaptado de ROBERTSON e TRAVAGLIA “Big Data Sociology: preparing for the brave new world”. In
The Sociological Review Blog, 2019.
A respeito dos desafios enfrentados pela sociologia na era do big data, analise as afirmativas a seguir.
I. Big data oferece uma nova classe de dados recolhidos de registros digitais de uma ampla gama de
fenômenos sociais.
II. Big data exige novos métodos para simplificar a dimensionalidade dos dados
III. Big data demanda novas metodologias do fazer sociológico e reflexões sobre as implicações dessa
nova era de informações na vida social.
(FGV - 2022 - SEAD-AP - Professor de Educação Básica – Sociologia)
Está correto o que se afirma em
A) I, apenas.
B) II, apenas.
C) I e II, apenas.
D) II e III, apenas.
E) I, II e III.
Computação nas Nuvens (Cloud Computing)
• Disponibilidade sob demanda de recursos do sistema de computador ,
especialmente armazenamento de dados e capacidade de computação , sem o
gerenciamento ativo direto do usuário.
• Computação em Servidores disponíveis na Internet.
• Servidor Cloud.
• Hospedagem de Sites em Cloud.
• E-mail em Cloud.
• Conhecidos:
• One-drive.
• Gdrive/Google Chrome OS.
• Icloud.
• IBM Cloud.
• Dropbox.
• Pode ser: Nuvem pública, Nuvem privada, Nuvem híbrida.
• Tipos:
• IAAS:
• Infraestrutura como Serviço.
• Capacidade de Hardware através de virtualização.
• Controle sobre máquinas virtuais.
• Custo variável.
• SAAS:
• Software como serviço.
• Última camada, onde o usuário tem acesso a aplicação disponibilizada na
nuvem.
• Gerenciamento de aplicações centralizado.
• Colaboração em tempo real.
• Possibilidade de integrações externas (APIs)
• Tipos:
• PAAS:
• Plataforma como Serviço.
• Plataforma completa para o desenvolvimento de aplicativos.
• Infraestrutura, armazenamento e comunicação.
• DAAS:
• Ferramentas de software baseadas em nuvem usadas para trabalhar
com dados, gerenciar dados em um DW ou analisar dados com BI.
(CESPE - 2015 - TCU - Auditor Federal de Controle Externo -
Conhecimentos Gerais)
No que concerne a data mining (mineração de dados) e big data, julgue o
seguinte item.
10 - Devido à quantidade de informações manipuladas, a (cloud computing)
computação em nuvem torna-se inviável para soluções de big data.
(FGV - 2022 - TJ-DFT - Analista Judiciário - Suporte em Tecnologia da
Informação)
O órgão XPTO do Poder Judiciário está implementando tecnologia em nuvem
para prover serviços para outros órgãos. Os serviços ofertados consistirão em
um ambiente no qual os clientes receberão máquinas virtuais, com suas áreas
de armazenamento definidas (storage) e as interfaces de rede de acordo com
os ambientes (produtivos ou não produtivos), nas quais poderão instalar os
sistemas operacionais e suas aplicações para disponibilizarem serviços para
seus clientes.
11 - De acordo com a NIST SP 800-145, o modelo de serviço de nuvem
implementado pelo órgão XPTO é o:
A) infrastructure as a service;
B) on-demand self-service;
C) software as a service;
D) platform as a service;
E) measured service.
(FGV - 2021 - TJ-RO - Analista Judiciário - Analista de Sistema – Desenvolvimento de
Sistemaciologia)
12 - João é um cientista de dados que iniciou o processo de estudo dos dados de sua empresa com o
objetivo de identificar um diferencial competitivo diante de seus concorrentes. Como resultado, João
decidiu implementar um Big Data e hospedá-lo em um ambiente de nuvem. Diante das possibilidades
dos serviços, considerando os requisitos de escalabilidade e elasticidade, em caso de aumento de
demanda pontual, aliados à tecnologia de Big Data, a alternativa que melhor descreve o tipo de serviço
em nuvem a ser contratado por João é:
A) infraestrutura como serviço (IaaS), que consiste na entrega de funções de computação, incluindo
hardware, redes, armazenamento e espaço de Datacenter com base em um modelo de aluguel;
B) plataforma como serviço (PaaS), que oferece um conjunto consistente de serviços que garantem que
os desenvolvedores tenham um modo integrado para a criação de aplicativos em nuvem;
C) software como serviço (SaaS), que consiste em um aplicativo de negócios criado e hospedado por um
provedor em um modelo de múltiplos usuários;
D) dados como serviço (DaaS), que é um serviço independente de plataforma que permite conexão à
nuvem para armazenar e recuperar informações;
E) infraestrutura como código (IaC), que consiste em uma abordagem baseada na agilidade para entregar
uma infraestrutura de forma muito mais rápida, com uma codificação objetiva e simples.
• Hadoop é uma plataforma de software em Java de computação distribuída
voltada para clusters e processamento de grandes volumes de dados, com
atenção a tolerância a falhas. Foi inspirada no MapReduce e no GoogleFS
(GFS). Trata-se de um projeto da Apache de alto nível, construído por uma
comunidade de contribuidores e utilizando a linguagem de programação
Java. Framework de código aberto.
• Hadoop Common - Contém as bibliotecas e arquivos comuns e necessários para
todos os módulos Hadoop.
• Hadoop Distributed File System (HDFS) - Sistema de arquivos distribuído que
armazena dados em máquinas dentro do cluster, sob demanda, permitindo uma
largura de banda muito grande em todo o cluster.
• Hadoop Yarn - Trata-se de uma plataforma de gerenciamento de recursos
responsável pelo gerenciamento dos recursos computacionais em cluster, assim
como pelo agendamento dos recursos.
• Hadoop MapReduce - Modelo de programação para processamento em larga
escala.
32
• Elasticsearch é um mecanismo de busca e análise de dados
distribuído, gratuito e aberto para todos os tipos de dados, incluindo
textuais, numéricos, geoespaciais, estruturados e não estruturados.

33
(FGV - 2013 - SUDENE-PE - Analista Técnico Administrativo - Ciência da Computação)
13 - Com relação à computação em nuvem, suas características, vantagens e desvantagens, assinale a
afirmativa incorreta:
A) Computação em Nuvem é o uso de um conjunto de servidores remotos, acessíveis via Internet, para
armazenar, gerenciar e processar dados de usuários, ao invés de servidores locais ou um computador
pessoal.
B) Na topologia mais simples da computação em nuvem, onde temos de um lado os servidores, do outro
lado os clientes e a Internet ligando os dois, é correto dizer que o cliente é o dispositivo usado pelo
usuário para gerenciar seus dados na nuvem, como um computador, um tablet e até um smartphone
C) O SaaS (Software-as-a-Service) é um tipo de computação em nuvem que fornece aplicativos através
do navegador para milhares de usuários conectados à Internet. Um exemplo é o Google Apps, que
oferece os aplicativos mais usados em negócios e escritórios, mantendo os softwares e os dados do
usuário armazenados em servidores da Google.
D) O HDFS (Hadoop Distributed File System) é uma solução de sistema de arquivos comumente utilizada
em computação em nuvem, por permitir uma maior segurança através da replicação automática dos
dados armazenados
E) Os serviços de armazenamento de dados na nuvem, ou cloud storage, podem ser acessados
unicamente através de uma Interface de Programação de Aplicações (API) para Web Services.
(FUNDATEC - 2022 - AGERGS - Técnico Superior Engenheiro de Dados)
14 - Sobre BIG Data, analise as assertivas abaixo e assinale a alternativa correta.
I. Hadoop e Elasticsearch são exemplos de tecnologias que permitem a computação em nuvem.
II. BIG Data é o termo em tecnologia da informação que tem a capacidade de trabalhar com grandes
conjuntos de dados.
III. O Conceito de BIG DATA pode ser subdividido em 5 categorias ou “5 v’s”, VOLUME, VALOR,
VELOCIDADE, VERACIDADE e VARIEDADE.
IV. Um dos maiores desafios em trabalhar com soluções de BIG DATA é o volume dos dados.
A) Todas estão corretas.
B) Todas estão incorretas.
C) Apenas I está correta.
D) Apenas I e II estão corretas.
E) Apenas III e IV estão corretas.
1-A 2-D 3-C 4-E 5-E
6-D 7-A 8-A 9-E 10-E
11-A 12-D 13-E 14-A

Você também pode gostar