Big Data e Inteligência Artificial

Aula 09
Informática para PRF – Pós edital
Prof. Victor Dalton

2021
Prof. Victor Dalton
Aula 09
Sumário
INTELIGÊNCIA ARTIFICIAL............................................................................................................................3
MACHINE LEARNING ..................................................................................................................................................... 4

Tipos de Aprendizado ............................................................................................................................................ 5
DEEP LEARNING .......................................................................................................................................................... 7
BIG DATA .................................................................................................................................................... 9
CONTEXTO................................................................................................................................................................. 9
CONCEITO................................................................................................................................................................ 10
OS 5VS DO BIG DATA ................................................................................................................................................ 12
TECNOLOGIAS ...........................................................................................................................................................13
NoSQL (ou Not Only SQL)................................................................................................................................... 14
Hadoop .............................................................................................................................................................. 17
QUESTÕES DE PROVA COMENTADAS ........................................................................................................ 21
Machine Learning ............................................................................................................................................... 21

Big Data ............................................................................................................................................................. 21
LISTA DE QUESTÕES .................................................................................................................................28

Big Data ............................................................................................................................................................. 28
GABARITO ................................................................................................................................................. 31
RESUMO DIRECIONADO ............................................................................................................................ 32
INTELIGÊNCIA ARTIFICIAL ............................................................................................................................................ 32

Deep Learning .................................................................................................................................................... 32
BIG DATA ................................................................................................................................................................ 32
2 de 34| www.direcaoconcursos.com.br
Prof. Victor Dalton
Aula 09
Inteligência Artificial
A inteligência artificial – também chamada de inteligência computacional –, como o próprio termo
designa, envolve técnicas e métodos que têm como ambição desenvolver máquinas capazes de se
comportarem, ou trabalharem, de forma tão inteligente quanto o ser humano. A inteligência
artificial possui uma aplicabilidade muito ampla, pois é possível utilizá-la em diversos contextos.
Esta é uma definição simples e esclarecedora que, acredite ou não, já é o suficiente para que você consiga
responder questões introdutórias acerca do assunto. Veja:
(QUADRIX – CFO DF – Analista de Desenvolvimento de Sistema de Informação – 2017) Julgue o item que se
segue acerca de engenharia de software e inteligência computacional.
Inteligência computacional é um conjunto de métodos e(ou) técnicas que procura desenvolver sistemas dotados
de comportamento semelhante a certos aspectos do comportamento inteligente.
◯ Certo ◯ Errado
RESOLUÇÃO:
Perfeito!
Resolução: Certo
(QUADRIX – CFO DF – Analista de Desenvolvimento de Sistema de Informação – 2017) Julgue o item que se
segue acerca de engenharia de software e inteligência computacional.
São exemplos de técnicas de inteligência computacional os algoritmos genéticos, as redes neurais e a lógica
nebulosa (fuzzy).
RESOLUÇÃO:
Vamos responder esta questão usando um pouco de raciocínio e lógica.
Os termos “algoritmos genéticos” e “redes neurais” dão a ideia de técnicas que visam alcançar um comportamento
que se assemelha aos genes e neurônios humanos.
A lógica nebulosa, ou lógica quântica, diz que um bit – uma informação – não necessariamente pode ser guardado
nos formatos 0 ou 1. Isto é algo que, para quem já estudou bits computacionais, parece ser confuso de entender.
Não iremos nos aprofundar, mas saiba que isso, de fato, existe.
Resolução: Certo
(CESPE/CEBRASPE – FUB – Técnico em Audiovisual – 2018) Com relação a tecnologias de ensino e ao seu uso,
julgue o item que se segue.
Existem programas semiautônomos, proativos e adaptativos, que utilizam recursos de inteligência artificial. Eles
são usados no ensino a distância porque possibilitam a recuperação de informações, a operação de programas, e
o monitoramento de recursos de rede utilizados pelos profissionais dessa modalidade de ensino.
Prof. Victor Dalton
Aula 09
RESOLUÇÃO:
Ao responder questões de prova acerca de inteligência artificial, saiba que é possível implementá-la em
praticamente qualquer contexto – exceto se for apresentando, pelo examinador, algo muito bizarro.
Resposta: Certo
À medida que a tecnologia foi avançando, tivemos desdobramentos e surgiram vários ramos da inteligência
artificial, como o Machine Learning e o Deep Learning.
Machine Learning
Machine Learning (traduzindo do inglês, “aprendizado de máquina”) é definido por um sistema computacional –
máquina – que busca realizar uma determinada tarefa, aprendendo a partir de uma experiência e procurando
melhorar a performance do trabalho desempenhado.
Em outras palavras, eu tenho uma tarefa para ser feita e eu quero que esta tarefa seja feita de forma cada vez
melhor, progredindo. Logo, a partir de uma experiência, eu coloco a máquina para aprender e progredir, visando
melhorar a performance e executar algo com cada vez mais empenho.
Exemplificando de forma hipotética:
Eu quero desenvolver um algoritmo para que uma máquina jogue xadrez, mas não somente isso, que ela também aprenda e
jogue cada vez melhor. Então, com Machine Learning, à medida que a máquina joga, ela aprende com seus erros e acertos.
Olha uma questão:
(CESPE/CEBRASPE – Polícia Federal – Escrivão – 2018)

Uma aplicação que reconheça o acesso de um usuário e forneça sugestões diferentes para cada tipo de usuário
pode ser considerada uma aplicação que usa machine learning.
RESOLUÇÃO:
Qualquer solução tecnológica que busque fazer uma tarefa melhor pode ser considerada Machine Learning.
Reconhecer o acesso de usuários e fornecer sugestões diferentes é o que a Netflix, Amazon Prime e outros serviços
de streaming fazem. A máquina oferece recomendações de filmes e, se der certo, continua oferecendo para outros.
Sistemas de sugestão, tal como este, são exemplos clássicos de implementação de Machine Learning.
Resposta: Certo
Prof. Victor Dalton
Aula 09
Tipos de Aprendizado
Aprendizado supervisionado
O aprendizado supervisionado é aquele no qual há a supervisão humana para dizer à máquina “faça isso” ou “siga
esse parâmetro”. Portanto, o sistema analisa os dados com base em variáveis de entrada.
Exemplificando:
Eu digo para a máquina tentar predizer o salário das pessoas utilizando como parâmetro os dados: anos de carreira, formação
e idade.
Na NFL – liga de futebol americano dos EUA –, utiliza-se Machine Learning para tentar predizer, com base em
estatísticas, quais jogadores serão os melhores jogadores da liga no futuro. Na temporada de 2019-2020, o jogador
Patrick Mahomes, com 24 anos de idade, foi considerado o melhor jogador. No final da temporada, o time Kansas
City assinou um contrato de 10 anos com ele, no valor de 450 milhões de dólares (quatrocentos e cinquenta
MILHÕES, você não leu errado).
Diante disso, muitos se assustaram com o exorbitante valor pago. Porém, muito provavelmente, utilizou-se um
sistema que, com base na idade, estatísticas da universidade e da liga, previu que Patrick será um dos melhores
jogadores da NFL pelos próximos anos, pois ele é muito jovem.
Em síntese, neste modelo, o homem diz à máquina como ela deve aprender, impondo as variáveis a serem
observadas.
Aprendizado não supervisionado
Diferentemente do anterior, neste modelo é dito para o sistema “se vira”. Portanto, o próprio sistema descobre as
variáveis que poderão chegar à informação desejada.
Exemplo hipotético:
Um banco desenvolve um sistema para detectar a possibilidade de ocorrência de fraude. Para tanto, é informado ao sistema
o que é uma fraude e ele próprio terá que entender e descobrir as variáveis que predizem fraude.
Prof. Victor Dalton
Aula 09
Olha uma questão de prova:
(CESPE/CEBRASPE – IPHAN – Analista – 2018)

Na busca de padrões no data mining, é comum a utilização do aprendizado não supervisionado, em que um agente
externo apresenta ao algoritmo alguns conjuntos de padrões de entrada e seus correspondentes padrões de saída,
comparando-se a resposta fornecida pelo algoritmo com a resposta esperada.
RESOLUÇÃO:
Se é informado ao sistema os padrões de entrada e de saída, trata-se, na verdade, do aprendizado supervisionado.
Resposta: Errado
Aprendizado por reforço
No aprendizado por reforço, o sistema “se vira”, mas recebe inputs externos ocasionais para lhe informar se algo
deu certo ou deu errado. Portanto, é o meio termo entre os dois modelos anteriores.
Exemplificando, no sistema financeiro, as corretoras de investimento utilizam vários algoritmos para descobrir
qual é a melhor hora para a compra e venda de ações. Estes algoritmos, muitas vezes, utilizam o aprendizado por
reforço, realizando operações enquanto o humano lhe informa quais foram bem sucedidas e quais não foram.
Diante disso, a máquina estuda para descobrir quais variáveis, nas transações, levaram ao sucesso ou fracasso.
Agora, vamos responder algumas questões:
(CESPE/CEBRASPE – Polícia Federal – Perito – 2018)
Descobrir conexões escondidas e prever tendências futuras é um dos objetivos da mineração de dados, que utiliza
a estatística, a inteligência artificial e os algoritmos de aprendizagem de máquina.
RESOLUÇÃO:
Este é exatamente o objetivo de todos ao utilizar a mineração de dados (Data Mining) e aprendizagem de máquinas
(Machine Learning): descobrir conexões escondidas e, por meio destas, prever tendências futuras.
Prof. Victor Dalton
Aula 09
Resposta: Certo

Pelo monitoramento do tráfego de rede no acesso ao sítio em questão, uma aplicação que utiliza machine learning
é capaz de identificar, por exemplo, que os acessos diminuíram 20% em relação ao padrão de acesso em horário
específico do dia da semana.
RESOLUÇÃO:
O Machine Learning é capaz de realizar tarefas bastantes complexas. Portanto, sem dúvidas, também é capaz de
realizar algo tão trivial como identificar diminuição de acessos.
Resposta: Certo
Deep Learning
Este é um outro ramo da inteligência artificial, ainda mais profundo do que o Machine Learning.
O Deep Learning (do inglês, “aprendizado profundo”) é a codificação de software que emula redes neurais
artificiais. Em outras palavras, objetiva literalmente programar cérebros.
Atenção !!
Acerca de Deep Learning, o termo chave, que provavelmente
aparecerá em uma questão acerca deste tema, é: redes neurais.
Atualmente, por exemplo, há sistemas capazes de ler placas de trânsito. Para nós humanos, pode parecer bem
fácil identificar o que é uma placa de pare. Contudo, nas ocasiões em que a placa está torta, pichada,
sob a incidência de sol ou chuva, não é tão fácil para um sistema reconhecer. Para que um sistema
saiba identificar uma placa independentemente da posição ou condições, é preciso milhões de
interações de código.
A Google desenvolveu uma rede neural (Google Brain) que, ao analisar 10
milhões de frames (quadros) de vídeos do Youtube, passou a ser capaz de
identificar sozinha três categorias de objetos: rostos humanos, corpos
humanos e gatos.
O que torna essa informação ainda mais interessante e relevante é que
este foi um aprendizado não supervisionado – isto é, o sistema aprendeu
sozinho o que é um gato.
Prof. Victor Dalton
Aula 09
Visando imitar o procedimento humano, no Deep Learning, o aprendizado acontece em camadas.
Agora, vamos responder algumas questões:
(CESPE/CEBRASPE – SLU DF – Analista de Gestão de Resíduos Sólidos – 2019) Com relação a atendimento ao
público, julgue o item subsecutivo.
O serviço de chatbot, um sistema que permite às grandes corporações oferecer um canal direto com o consumidor,
é um dos exemplos tecnológicos utilizado no atendimento ao público, tornando a comunicação entre empresa e
cliente mais próxima e personalizada, graças aos avanços da inteligência artificial.
RESOLUÇÃO:
Os chatbots são sistemas para o atendimento ao cliente visando ter uma comunicação similar ou próxima do
contato humana. É um exemplo claro do uso de inteligência artificial.
Resposta: Certo
(QUADRIX – CRQ 4ª Região SP – Técnico em Informática – 2018) Com relação a computadores, julgue o item.
Os computadores que dominam o mercado baseiam-se na arquitetura de Von Neumann, que tem a definição bem
clara de bits 0 e 1, distintos. Uma nova tendência, que vem de encontro à inteligência artificial, são os
computadores quânticos, que assumem valores além dos bits 0 e 1.
RESOLUÇÃO:
Isso mesmo, trata-se da lógica quântica – também chamada de lógica nebulosa ou fuzzy.
Resposta: Certo
(CESPE/CEBRASPE – EBSERH – Jornalista – 2018) Tendo o texto precedente como referência inicial, julgue o
item a seguir, relativos à teoria da imagem.
As novas tecnologias têm investido em experiências estéticas que sejam simulacros da realidade, incluindo-se
entre elas a realidade aumentada, que insere objetos virtuais em ambientes reais.
RESOLUÇÃO:
Isso é algo que está bombando atualmente. Há aplicativos, por exemplo, em que você aponta a câmera do celular
para o seu pé e ele lhe mostra uma simulação de como este tênis ficaria calçado em você.
Resposta: Certo
As questões acerca de inteligência artificial são bastante intuitivas, haja vista a sua ampla aplicação e que está em
constante mudança. Diante disso, não há muito o que o examinador possa fazer para tentar te engambelar. " %
$
#
Prof. Victor Dalton
Aula 09
Big Data
Big Data é um tema que, embora não seja tecnicamente trivial, creio ser bastante interessante. Porém, antes de
“mergulharmos” neste tema, é necessário contextualizar para uma melhor compreensão.
Contexto
No mundo atual, TUDO está gerando informação. Nós estamos, a todo momento, criando informações para as
grandes empresas.
Os GPS dos celulares informam nossa localização. Com isso, grandes empresas sabem por onde andamos, onde
moramos, onde trabalhamos, aonde vamos em momentos de lazer etc.
As bandeiras dos cartões de crédito, e também os bancos, registram nossos hábitos de consumo, até mesmo
classificando-os por categorias. Relacionando a entrada e saída de capital da sua conta corrente, conseguem saber
também o quão propenso alguém é a se endividar e os tipo de dívidas que tal pessoa contrai.
As redes sociais refletem diretamente o comportamento das pessoas, sem muito esforço, pois, hoje em dia, elas
compartilham, voluntariamente, seus sentimentos, opiniões, vontades e muito mais. Para exemplificar isso, leia o
seguinte trecho de um artigo:
Em 2012, com base em uma média de 68 likes do Facebook por usuário, era possível prever sua cor da pele
(95% de precisão), sua orientação sexual (88%) e sua filiação aos partidos Democrata ou Republicano (85%).
Inteligência, afiliação religiosa, bem como uso de álcool, cigarro e drogas, tudo poderia ser determinado. Com
esses dados era até possível deduzir se os pais de alguém eram divorciados.
70 curtidas eram suficientes para saber mais até do que os amigos de alguém, 150 mais do que os pais. Para
conhecer uma pessoa mais do que o seu parceiro, bastavam 300 curtidas. Com mais likes do que isso, era
possível conhecer mais até do que a própria pessoa sabia sobre si.
Já em 2012, veja o quão forte era isso. Tamanha é a exposição dos traços de personalidade, por parte das pessoas,
que essas empresas sabem mais sobre você do que você mesmo, por mais engraçado que isso possa parecer. Com
o crescimento exponencial de dados gerados, possivelmente, nos dias de hoje, isso está tremendamente maior e
mais acentuado. Em 2017, cerca de 3.8 bilhões de pessoas estavam conectadas à Internet. Nessa época, você tinha
algo em torno de 473 mil tweets, 50 mil postagens no Instagram e 4 milhões de vídeos visualizados POR MINUTO.
Portanto, é possível concluir, sem muita dificuldade, que as redes sociais detêm muita informação sobre bilhões
de pessoas ao redor mundo.
Em suma, a sociedade atual produz uma quantidade absurda de informação – isto é, dados. Contudo, 80% a 95%
são dados não estruturados.
Em linhas gerais, um dado estruturado é aquele que está “encaixado certinho” em uma estrutura, recheado de
metadados (informações sobre estes dados). Em um sistema de banco de dados relacional tradicional, como um
cadastro de funcionários de uma empresa – temos os códigos, nome, telefone, departamento dos funcionários,
tudo “bonitinho” – muito bem estruturado, organizado e preenchido em uma planilha.
Os dados não estruturados, por sua vez, são aqueles que carecem de informações para categorizá-los, classificá-
los e organizá-los. Exemplificando em uma situação hipotética:
Prof. Victor Dalton
Aula 09
No grupo de WhatsApp da família, seu tio envia um áudio de 7 minutos e uma mensagem dizendo “Escutem, é muito bom
&'
%
$
#
" ,-
+
*
)
( 34
2
1
0
/
. 6”. Apenas com isso, você não faz ideia de qual informação está sendo passada. Não há como saber o que aquele
5
áudio “solto” aborda – não existe um rótulo no áudio como “piada” para classificá-lo. Trata-se, portanto, de um dado não
estruturado.
Multimídia – como vídeos e áudios – são exemplos clássicos de dados não estruturados, porque muitas vezes
carecem de informações para categorizá-los e classificá-los. As hashtags, por exemplo, como #concursoPRF, são
uma forma de tentar classificar e organizar dados não estruturados.
Portanto, haja vista que temos uma quantidade absurda de informação sendo produzida e a maior parte são dados
não estruturados, é preciso ter uma forma de cuidar disso – e tem: o Big Data.
Conceito
“O que é Big Data?”
São tecnologias para a análise de grandes volumes de dados estruturados e não estruturados. Isto é feito por meio
do uso de algoritmos estatísticos avançados que fazem, entre outros, análises preditivas e análises de tendências.
Na rede social Twitter, por exemplo, temos uma aba que apresenta as tendências (assuntos mais comentados) do
momento. Os assuntos são separados em ordem hierárquica, do mais comentando ao menos comentado. Muitos
tem dúvidas do porquê que um assunto com muitas menções, às vezes, fica abaixo de outro com bem menos
menções.
No exemplo hipotético da imagem acima, meramente ilustrativo, os assuntos “E a PCDF?” e “Direção Concursos”
tem bem menos Tweets do que “PRF”, mas estão acima deste. Isto não é um bug. O que ocorre, na verdade, é que
o Twitter consegue entender, por meio da velocidade de produção de Tweets mencionando tal assunto, se este
assunto está crescendo ou declinando – um assunto novo, por exemplo, tem poucos Tweets ainda porque acabou
de entrar em tendência e só tende a crescer, enquanto um assunto “antigo” já tem muitos comentários, mas está
sendo cada vez menos comentado. O Big Data, portanto, tem essa capacidade de entender o que está em
tendência.
Prof. Victor Dalton
Aula 09
“O que não é Big Data?”

Tão importante quanto saber o que é Big Data é saber distingui-lo do que não é.
è Grandes volumes de dados, apenas.

Um grande volume de dados, por si só, não caracteriza um Big Data. A velocidade que os dados são produzidos
também é uma característica a ser observada. Exemplo hipotético:
Na PRF, eles têm um banco de dados com todos os motoristas do Brasil e as infrações cometidas por eles. Este banco de
dados, por si só, não necessariamente é suficiente para que seja um Big Data, pois isto é somente um grande volume de dados.
è Dados estruturados, apenas.

Se você tem um sistema “redondinho”, com dados bem organizados e estruturados, isto não necessariamente é
um Big Data, pois este está relacionado também com ter tecnologias capazes de lidar com dados não estruturados.
Veja como é cobrado em prova:
(CESPE/CEBRASPE – Polícia Federal – Agente – 2018)

Big data refere-se a uma nova geração de tecnologias e arquiteturas projetadas para processar volumes muito
grandes e com grande variedade de dados, permitindo alta velocidade de captura, descoberta e análise.
RESOLUÇÃO:
Uma definição geral, simples e “bonita”.
Resposta: Certo
Dados coletados de redes sociais podem ser armazenados, correlacionados e expostos com o uso de análises
preditivas.
RESOLUÇÃO:
Novamente, uma sentença genérica e correta. As redes sociais são o melhor exemplo de Big Data.
Resposta: Certo
O big data consiste de um grande depósito de dados estruturados, ao passo que os dados não estruturados são
considerados data files.
RESOLUÇÃO:
Prof. Victor Dalton
Aula 09
A definição de big data não é “um grande depósito de dados estruturados” (isto é, na verdade, um data warehouse).
Big Data trata-se de tecnologias, e não depósitos de dados.
Ademais, os data files não estão relacionados diretamente ao escopo do nosso estudo de Big Data.
Resposta: Errado
Os 5Vs do Big Data

O Big Data possui cinco características intrínsecas: volume, velocidade, variedade, veracidade e valor – os
chamados 5Vs do Big Data.
VOLUME
VALOR VELOCIDADE
BIG
DATA
VERACIDADE VARIEDADE
Necessariamente, é preciso ter um grande volume de dados. Além disso, é fundamental que a geração, entrada e
acumulação de dados aconteça de forma veloz – como nas redes sociais, em que os dados são gerados muito
rapidamente.
No Big Data, os dados devem possuir a característica da variedade, isto é, a capacidade de suportar e processar
diversos formatos diferentes de dados – como vídeos, fotos, texto, stories, tweets, posts, publicações etc.
Além dessas três características (volume, velocidade e variedade), que são consideradas as três principais e mais
marcantes, temos também duas outras características, que surgiram posteriormente, relacionadas ao lado mais
“burocrático”: veracidade e valor.
A veracidade está ligada à informação ser verdadeira e íntegra. Além disso, as informações têm que ter valor, de
forma que agreguem ao sistema.
Não é incomum que os examinadores tragam, nas questões, apenas as

Atenção !! características mais marcantes. Isso, por si só, não torna a questão
errada, exceto se for feita uma exclusão das demais características.
Prof. Victor Dalton
Aula 09
Vamos praticar? &

,
+
*
)
(
'
(CESPE/CEBRASPE – Polícia Federal – Perito – 2018)

A mineração de dados se caracteriza especialmente pela busca de informações em grandes volumes de dados,
tanto estruturados quanto não estruturados, alicerçados no conceito dos 4V’s: volume de mineração, variedade
de algoritmos, velocidade de aprendizado e veracidade dos padrões.
RESOLUÇÃO:
Primeiramente, a questão já inicia falando em “mineração de dados” quando, na verdade, o assunto abordado em
seguida é o Big Data. Além disso, ela cita 4Vs e os relaciona a complementos que não estão correlacionados. Essas
quatro características são referentes aos DADOS, e não à mineração, algoritmos, aprendizado e padrões. Os
complementos são, então, incoerentes.
Os 5Vs do Big Data estão sempre ligados aos dados. Logo, quando, na resolução de questões, for abordado o
significado e/ou conceito destas características, basta que você “pegue” quaisquer das características e
complemente-as com “dos dados”. Exemplificando:
• Volume dos dados;
• Velocidade dos dados;
• Variedade dos dados;
• Veracidade dos dados;
• Valor dos dados.

Resposta: Errado
(CESPE/CEBRASPE – Polícia Federal – Papiloscopista – 2018)

De maneira geral, big data não se refere apenas aos dados, mas também às soluções tecnológicas criadas para
lidar com dados em volume, variedade e velocidade significativos.
RESOLUÇÃO:
Exatamente! Além disso, embora a questão tenha citado somente os 3Vs mais marcantes, não houve exclusão dos
demais.
Resposta: Certo
Tecnologias
As tecnologias de Big Data já foram cobradas em provas de forma introdutória. Diante disso, há a possibilidade
dos examinadores quererem se aprofundar um pouco mais. Portanto, preste bastante atenção a partir de agora,
pois abordaremos o NoSQL e o Hadoop, duas das principais tecnologias de Big Data atualmente.
Prof. Victor Dalton
Aula 09
NoSQL (ou Not Only SQL)

Em linhas gerais, SQL é uma linguagem na qual se dá comandos para criar, gerenciar ou manipular banco de dados
relacionais. O NoSQL, por sua vez, (também chamado de Not Only SQL) é um termo que designa tecnologias
diferentes de natureza não relacional – isto é, bancos de dados não relacionais.
Um banco de dados relacional contém um esquema de dados em que é possível estabelecer relações entre eles.
Tabelas de uma empresa, por exemplo, nas quais é possível estabelecer relacionamentos (como, por exemplo,
tabelas contendo informações sobre funcionários, departamentos, projetos etc.). Diferentemente deste modelo
relacional, no NoSQL, não há esquema definido.
O NoSQL viola as propriedades ACID
As chamadas propriedades ACID (atomicidade, consistência, isolamento e durabilidade) são pertinentes aos
bancos de dados tradicionais – relacionais. Porém, no NoSQL, não há “tanta” preocupação com essas regras.
Contextualizando de forma hipotética:
Acaba de ser lançado o videogame Playstation 5 e você pretende o adquirir. Ao acessar o site de uma grande varejista, você
se depara com o alerta “última unidade disponível”. Logo, rapidamente, você, que está situado em São Paulo, clica no botão
para comprar e finaliza o seu pedido com sucesso.
Porém, concomitantemente, um outro consumidor, que está situado em Rio Branco (Acre), clica no botão para comprar
exatamente no mesmo segundo que você e também realiza a compra com sucesso.
Três dias depois, você recebe um e-mail informando que o produto que adquiriu estava esgotado e que receberá um estorno
do pagamento.
O site da grande varejista possui servidores espalhados por todo o Brasil, num banco de dados distribuído, visando oferecer
uma melhor experiência ao usuário. Você, ao acessar o site, está conectado a um banco de dados de São Paulo e o outro
consumidor está conectado a um banco de dados de Manaus. Porém, como os bancos de dados da varejista violam as
propriedades ACID, as bases não se comunicaram, o que permitiu que duas pessoas realizassem a compra de um produto que
só tinha uma unidade disponível.
Em um sistema que respeita às propriedades ACID, os bancos de dados seriam capazes de se comunicarem e verificariam, no
milésimo de segundo, quem comprou primeiro e informaria ao outro consumidor, antes mesmo dele finalizar a compra, que
o produto esgotou.
Teorema CAP
O NoSQL segue o chamado Teorema CAP (Consistency, Availability e Partition tolerance).

è Consistency (Consistência)
A consistência determina que deve haver cópias de um mesmo dado em todos os nós do banco de dados.
è Availability (Disponibilidade)
A disponibilidade diz respeito ao sistema estar sempre disponível para a realização de transações.
è Partition Tolerance (Tolerância a Partições)
A tolerância a partições é a possibilidade de o sistema continuar operando mesmo em caso de falha. Para tanto,
ele deve ser partido em subredes de modo que, se uma delas falhar, as outras continuem funcionando.
Prof. Victor Dalton
Aula 09
No Teorema CAP, a regra é que duas dessas propriedades sempre devem estar funcionando, porém nunca as três
ao mesmo tempo. Inclusive, se analisarmos, as três propriedades funcionando ao mesmo tempo conflitam entre
si.
Por exemplo, em um sistema em que as cópias estão em todos os lugares (consistency) e ele está sempre disponível
(availability), não há como ser tolerante a partições, pois se uma das partições para de funcionar, automaticamente
esta não está mais disponível e as cópias não estão mais em todos os nós.
Exemplo hipotético:
O Instagram é uma rede social que possui bancos de dados distribuídos por todo o mundo. O jogador Cristiano Ronaldo, com
um dos perfis mais seguidos, quando está na Itália, resolve publicar uma foto. Se esta publicação ficasse somente na Itália
para ser entregue para o mundo inteiro, isto poderia acarretar um sobrecarregamento e até mesmo queda do servidor, haja
vista as centenas de milhões de pessoas a quem a foto deve ser entregue.
Diante disso, quando o Cristiano Ronaldo faz uma publicação, isto é replicado para vários servidores localizados em vários
lugares diferentes do mundo. Portanto, a consistência (propriedade que diz que as cópias devem estar em todos os nós) não
acontece de imediato – alguns recebem a foto primeiro do que outros.
Portanto, em suma, no NoSQL, conforme o Teorema CAP, conclui-se que os bancos de dados devem ser flexíveis.
Propriedades BASE
As propriedades BASE (Basically Available, Soft-state and Eventually consistent), que norteiam o NoSQL, dizem
que um sistema deve estar basicamente disponível, em um estado leve e com consistência eventual.
Logo, há tolerância a falhas de consistência em um banco, que deve funcionar basicamente todo o tempo em um
estado leve, estando consistente nos momentos devidos.
Características dos sistemas distribuídos
Os sistemas NoSQL distribuídos pelo mundo inteiro devem ter:

è Escalabilidade (horizontal e vertical)
A escalabilidade, em linhas gerais, é a capacidade de estar preparado para crescer e suportar uma demanda maior.
Isto é, quando necessário, melhorar o processamento e/ou a quantidade de servidores. Exemplificando:
O portal de notícias do Direção Concursos possui um número consistente de acessos. Porém, quando sai, de repente, um
edital novo, o site recebe muitos acessos simultaneamente. Se o site do Direção não tivesse escalabilidade, iria sair do ar
nessas ocasiões.
A escalabilidade horizontal é a capacidade de alocar mais máquinas. (para memorizar, pense em uma máquina
uma do lado da outra, organizadas horizontalmente ⇾). A escalabilidade vertical, por sua vez, é a capacidade de
transportar um sistema de uma máquina para outra máquina com melhor processamento. (para memorizar, pense
em uma máquina acima da outra, em um nível “verticalmente superior” ↑).
è Disponibilidade
Os sistemas precisam estar disponíveis.
è Replicação
É a capacidade de replicar o que está numa máquina para as demais máquinas.
Prof. Victor Dalton
Aula 09
è Consistência eventual
Há flexibilidade quanto à consistência, com tolerância a falhas.
Implementação
Para implementar o NoSQL, existem algumas tecnologias, como:

è Chave-valor
Em uma tabela relacional, tudo é bem separado e organizado, não havendo tolerância quanto às informações a
serem preenchidas. Por exemplo, em uma tabela de projetos, na coluna “códigos”, só se aceitam os códigos; na
coluna “setor”, só se aceitam os nomes dos setores e, na coluna “responsável”, só se aceita o nome do responsável.
Exemplo:
CÓDIGOS SETOR RESPONSÁVEL

0001 Marketing Ronaldo
0002 Comercial Victor
0003 Financeiro Erick
Já no NoSQL, em um modelo baseado na técnica chave-valor, há maior flexibilidade. Logo, as colunas “chave” e
“valor” permitem várias entradas diferentes. Exemplo:
CHAVE VALOR
16 nome = NoSQL Essencial, ano - 2014
Arthur idade = 35, interesse = engenharia
2 nome = True Blood, gênero = fantasia, classificação = 16 anos
Mário ocupação = prático
Embora seja uma bagunça, esta flexibilidade é necessária para o pleno funcionamento do Big Data, pois você
nunca sabe qual será a próxima ação de um usuário. Se for um sistema muito “travadinho”, a coisa não anda.
è Documentos
Os documentos são uma forma de armazenamento no NoSQL. Aqui, segue o mesmo espírito da técnica anterior,
havendo flexibilidade para a entrada de dados. Cada novo registro aceita campos diferentes.
è Família de colunas
Em um banco de dados, há vários registros e dados atribuídos às colunas. Nas famílias de colunas, é permitido ter
colunas principais e colunas adicionais, voltadas ao funcionamento do sistema. Exemplo:
Prof. Victor Dalton
Aula 09
Além disso, existem sistemas que permitem também puxar dados de várias colunas de uma vez.
è Grafos
Os grafos são uma estrutura de armazenagem de dados. O exemplo mais clássico, das redes sociais, são as
relações feitas entre as pessoas – fulano segue beltrano, que segue ciclano etc.
Para armazenamentos como os do exemplo acima, geralmente utilizam-se os grafos.
Hadoop
O Hadoop é uma plataforma para desenvolvimento de soluções voltadas para Big Data. Nesta plataforma, é
possível criar uma estrutura para armazenamento e processamento de sistemas com Big Data.
Para desenvolver tais soluções, é preciso ter:
Prof. Victor Dalton
Aula 09
• Escalabilidade (horizontal)
• Processamento paralelo (possibilidade de espalhar o poder de processamento)
• Confiabilidade
• Flexibilidade (um sistema flexível)
• Baixo custo (se custar uma fortuna, pode ser inviável economicamente).
No Hadoop, utilizam-se vários módulos, mas os principais são o HDFS (Hadoop File System) e o MapReduce.
HDFS (Hadoop File System)
O HDFS é um sistema de armazenamento de arquivos voltado para os sistemas distribuídos por todo o mundo.
(sim, é um sistema de armazenamento tipo NTFS, FAT32). Ele foi originado no Google File System e tem como
principal premissa atender aos 3Vs principais do Big Data (volume, velocidade e variedade).
O principal foco do HDFS reside no armazenamento distribuído de arquivos muito grandes. Por exemplo:
Um vídeo de 1h, filmado em resolução de 4k, possui um tamanho gigantesco. Logo, é desejável que o armazenamento seja
feito de forma distribuída, espalhando pedaços de arquivos para vários servidores, pois, assim, o processamento ocorre de
forma mais célere.
O HDFS possui escalabilidade e tolerância a falhas. Diante disso, é preciso ter redundância de arquivos para, caso
um servidor venha falhar, seja possível fazer a reconstituição.
Ele tem como parâmetro a regra WORM (Write Once / Read Many), que dita que um dado deve ser escrito uma
única vez (write once) – sem poder ser modificado – e lido várias vezes (read many). Por exemplo:
Quando o Cristiano Ronaldo posta uma foto, ele não consegue modificar ela (write once), porém ela é visualizada por milhões
de pessoas (read many).
Para elucidar, vamos responder uma questão:
(CESPE/CEBRASPE – TCE PB – Auditor – 2018 - Adaptada)

Em big data, o sistema de arquivos HDFS é usado para armazenar arquivos muito grandes de forma distribuída,
tendo como princípio o write-many, read-once.
RESOLUÇÃO:
A questão fez uma inversão: o correto seria write once (o dado é escrito uma só vez) e read many (o dado será lido
muitas vezes) – e não o contrário.
Resposta: Errado
MapReduce
O MapReduce é uma aplicação que trabalha em cima do HDFS para conseguir oferecer um processamento
paralelo em um ambiente distribuído. Parte da premissa que, se os dados estão distribuídos em vários lugares
pelo mundo, é preciso ter uma forma de organizá-los posteriormente. Portanto, é preciso um sistema lógico,
organizado e estruturado para que a coisa funcione.
Prof. Victor Dalton
Aula 09
Para tanto, o MapReduce trabalha com agrupamento por chave-valor e transformação de dados maiores em
dados menores, fazendo um mapeamento das informações de forma descentralizada e espalhada. Exemplo:
Em uma rede social, desejam descobrir a quantidade de vezes que as palavras dog, cat, mouse e duck foram mencionadas.
Primeiramente, as palavras são separadas por região de onde vieram (como América, África e Ásia) e realiza-se uma contagem
separadamente em cada região.
Em seguida, após a contagem regionalizada, as palavras são ordenadas por grupo (junta todas as palavras “cat” em um grupo,
todas as palavras “dog” em outro etc.) e depois são reduzidas (ao invés de “dog, dog, dog”, reduz-se para “Dog, 3”).
Por fim, organiza-se todas as palavras e a incidência delas a nível mundial.
Perceba como, ao invés de ir direto contando a recorrência das palavras, ocorreu um processo espalhado e descentralizado.
Hora de praticar!

MapReduce oferece um modelo de programação com processamento por meio de uma combinação entre chaves
e valores.
RESOLUÇÃO:
Isso mesmo. O MapReduce trabalha com agrupamento por chave-valor.
Resposta: Certo
MapReduce permite o processamento de dados massivos usando um algoritmo paralelo mas não distribuído.
RESOLUÇÃO:
No Big Data, no geral, tudo ocorre de forma distribuída. O MapReduce, por sua vez, tem como premissa oferecer
processamento paralelo em ambiente distribuído.
Resposta: Errado
Prof. Victor Dalton
Aula 09
(CESPE/CEBRASPE – EBSERH – Analista – 2018)
As soluções de big data focalizam dados que já existem, descartam dados não estruturados e disponibilizam os
dados estruturados.
RESOLUÇÃO:
O Big Data trabalha com dados estruturados e principalmente dados não estruturados. Além disso,
diferentemente do que diz a questão, o foco não está nos dados que já existem somente, pois o sistema é
programado e ordenado para a chegada de novos dados.
Resposta: Errado
Prof. Victor Dalton
Aula 09
Questões de prova comentadas

Machine Learning
1. CESPE/CEBRASPE – TJ AM – Assistente Judiciário – 2019

A técnica machine learning pode ser utilizada para apoiar um processo de data mining.
RESOLUÇÃO:
O Machine Learning busca realizar uma determinada tarefa com uma performance cada vez melhor, através do
aprendizado de máquina. O Data Mining, por sua vez, analisa os dados visando extrair conhecimento.
Uma das principais técnicas utilizadas no Data Mining é o Machine Learning.
Resposta: Certo
2. CESPE/CEBRASPE – Ministério da Economia – Profissional de TI – 2020

Aprendizagem de máquina pode ajudar a clusterização na identificação de outliers, que são objetos
completamente diferentes do padrão da amostra.
RESOLUÇÃO:
A clusterização, ou agrupamento, diz respeito a uma técnica de dividir os dados em grupos, sendo um aprendizado
não supervisionado – sem intervenção humana. Os outliers são dados muito discrepantes do universo de dados
analisados. Nesse contexto, a implementação de Machine Learning pode, com certeza, auxiliar na identificação de
tais dados.
Resposta: Certo
Big Data
3. Instituto AOCP – MJSP – Analista – 2020

O Big Data é definido como coleções de dados cuja sua quantidade é tão grande que é difícil armazenar, gerenciar,
processar e analisar esses dados por meio de bancos de dados tradicionais. Nos últimos anos, houve um
crescimento exponencial nos dados estruturados e não estruturados gerados pela tecnologia da informação da
indústria e saúde por meio da internet das coisas (IoT), por exemplo. Sabendo disso, assinale a alternativa que
apresenta corretamente as cinco características, também conhecidas como os cinco “vês”, de um big data.
a) Valor, viabilidade, visiblidade, velocidade, volume.
b) Volume, vertente, valor, virtualidade, vitabilidade.
Prof. Victor Dalton
Aula 09
c) Viabilidade, vitalício, virtual, velocidade, valor.

d) Velocidade, volume, veracidade, variedade, valor.
e) Veracidade, viabilidade, volume, virtualidade, variedade
RESOLUÇÃO:
As cinco características intrínsecas (5Vs) do Big Data são: volume, velocidade, variedade, veracidade e valor.
Resposta: D
4. CESPE/CEBRASPE – TCE RO – Analista de TI – 2019

Com relação a fundamentos e conceitos de Big Data, julgue os itens a seguir.
I O volume de dados é uma característica importante de Big Data.
II Em Big Data, a qualidade do dado não tem importância, porque a transformação dos dados não impacta os
negócios.
III A característica de velocidade de entrada dos dados impacta o modelo de processamento e armazenamento.
IV A variedade dos dados não é característica intrínseca nos fundamentos de Big Data.
Estão certos apenas os itens
a) I e II.
b) I e III.
c) II e IV.
d) I, III e IV.
e) II, III e IV.
RESOLUÇÃO:
Vejamos:
I – Certo. O volume é uma das principais características do Big Data.
II – Errado. Duas características intrínsecas do Big Data são a veracidade (dados verdadeiros e íntegros) e valor dos
dados (dados que agreguem ao sistema).
Prof. Victor Dalton
Aula 09
III – Certo. É muito importante, para o Big Data, ter escalabilidade – isto é, estar preparado para crescer e suportar
uma demanda maior, como a entrada de mais dados, que exige um melhor processamento e armazenamento.
IV – Errado. A variedade dos dados é um dos 5Vs do Big Data. Relembre:
Resposta: B
5. CESGRANRIO – PETROBRAS – Analista – 2018

A principal definição de Big Data parte de três características, conhecidas como 3 V do Big Data, a saber:
velocidade, variedade e volume.
O termo velocidade refere-se, principalmente, à
a) necessidade das aplicações de gerar respostas rapidamente, a partir de grandes massas de dados.
b) existência de um alto fluxo de dados na entrada.
c) necessidade de gerar aplicações rapidamente, em função da demanda do negócio.
d) importância da facilidade de manipular cubos de visualização de dados, rapidamente.
e) rapidez com que os dados se tornam inválidos com o tempo.
RESOLUÇÃO:
A velocidade, uma das principais características do Big Data, está ligada à geração, entrada e acumulação veloz de
dados, como ocorre, por exemplo, nas redes sociais.
Portanto, a alternativa que melhor se encaixa é a B – alto fluxo de entrada de dados.
Prof. Victor Dalton
Aula 09
Resposta: B
6. FCC – TCE RS – Auditor Público Externo – 2018

Um sistema de Big Data costuma ser caracterizado pelos chamados 3 Vs, ou seja, volume, variedade e velocidade.
Por variedade entende-se que
a) há um grande número de tipos de dados suportados pelo sistema.
b) há um grande número de usuários distintos acessando o sistema.

c) os tempos de acesso ao sistema apresentam grande variação.
d) há um grande número de tipos de máquinas acessando o sistema.

e) os tamanhos das tabelas que compõem o sistema são muito variáveis.
RESOLUÇÃO:


Portanto, a variedade dos dados diz respeito à entrada de formatos diferentes (variáveis) de dados – como vídeos,
fotos, texto, stories, tweets, posts, publicações etc.
Resposta: A
7. FCC – SEF SC – Auditor Fiscal da Receita Estadual – 2018

No âmbito da ciência de dados na definição de Big Data, utilizam-se características ou atributos que alguns
pesquisadores adotam como sendo os cinco Vs. Porém, a base necessária para o reconhecimento de Big Data é
formada por três propriedades:
a) valor, velocidade e volume.
b) valor, veracidade e volume.
c) variedade, velocidade e volume.
d) variedade, valor e volume.
e) velocidade, veracidade e volume
Prof. Victor Dalton
Aula 09
RESOLUÇÃO:
O Big Data possui cinco características intrínsecas (os chamados 5Vs), porém, entre esses, há três características
consideradas as mais marcantes: volume, velocidade e variedade – alternativa C.
As características da veracidade e do valor surgiram posteriormente, relacionados ao lado mais “burocrático”.
Resposta: C
8. Instituto AOCP – PRODEB – Especialista de TIC – 2018

Big Data requer clusters de servidores de apoio às ferramentas que processam grandes volumes, alta velocidade e
formatos variados de Big Data. Nesse sentido, é correto afirmar que Hadoop refere-se a
a) um sistema de armazenamento e processamento de dados massivamente escalável – não é um banco de dados.
b) uma estratégia baseada em tecnologia que permite a coleta de insights mais profundos e relevantes dos
clientes, parceiros e sobre o negócio.
c) um banco de dados com capacidade melhorada.
d) um equipamento de hardware que permite que sistemas administrem crescentes cargas de processamento.
e) um banco de dados com tecnologia de virtualização.
RESOLUÇÃO:
O Hadoop é uma plataforma para desenvolvimento de soluções voltadas para Big Data. Entre os módulos
utilizados, destacam-se o HDFS (sistema de armazenamento distribuído de arquivos muito grandes) e o
MapReduce (aplicação para o fornecimento de processamento paralelo em um ambiente distribuído).
Portanto, a alternativa que melhor se encaixa é a A.
Resposta: A
9. FCC – CLDF – Consultor Técnico Legislativo – 2018

A proposta de uma solução de Big Data, oferecendo uma abordagem consistente no tratamento do constante
crescimento e da complexidade dos dados, deve considerar os 5 V’s do Big Data que envolvem APENAS os
conceitos de
a) volume, versionamento, variedade, velocidade e visibilidade.
b) velocidade, visibilidade, volume, veracidade e vencimento do dado.
c) volume, velocidade, variedade, veracidade e valor.
d) variedade, vencimento do dado, veracidade, valor e volume.
e) vulnerabilidade, velocidade, visibilidade, valor e veracidade.
RESOLUÇÃO:
As cinco características intrínsecas (5Vs) do Big Data são: volume, velocidade, variedade, veracidade e valor.
Prof. Victor Dalton
Aula 09
Resposta: C
10. CESPE/CEBRASPE – TCE PE – Auditoria de Contas Públicas – 2017

Além de estar relacionado à grande quantidade de informações a serem analisadas, o Big Data considera o volume,
a velocidade e a variedade dos dados estruturados — dos quais se conhece a estrutura de armazenamento — bem
como dos não estruturados, como imagens, vídeos, áudios e documentos.
RESOLUÇÃO:
Perfeitamente!
Resposta: Certo
11. FCC – DPE RS – Analista de TI – 2017

Os sistemas de Big Data costumam ser caracterizados pelos chamados 3 Vs, sendo que o V de
a) Veracidade corresponde à rapidez na geração e obtenção de dados.
b) Valor corresponde à grande quantidade de dados acumulada.
c) Volume corresponde à rapidez na geração e obtenção de dados.

d) Velocidade corresponde à confiança na geração e obtenção dos dados.
e) Variedade corresponde ao grande número de tipos ou formas de dados.

RESOLUÇÃO:
Vejamos as alternativas:
a) Errado. A veracidade corresponde à integridade da informação.
b) Errado. O valor diz respeito a dados que agreguem ao sistema.
c) Errado. Volume não é a rapidez, e sim a quantidade de dados acumulados.

d) Errado. Velocidade corresponde à geração, entrada e acumulação veloz de dados.
Prof. Victor Dalton
Aula 09
e) Certo. A variedade está ligada à entrada e processamento de dados variáveis.

Resposta: E
12. CESPE/CEBRASPE – TRE GO – Técnico Judiciário – 2015

A Big Data pode ser utilizada na EAD para se entender as preferências e necessidades de aprendizagem dos alunos
e, assim, contribuir para soluções mais eficientes de educação mediada por tecnologia.
RESOLUÇÃO:
São diversos os contextos em que se pode aplicar Big Data, haja vista que são tecnologias para a análise de grandes
volumes de dados, por meio de, entre outros, análises preditivas e análises de tendências.
Resposta: Certo
Prof. Victor Dalton
Aula 09
Lista de questões
Machine Learning
13. CESPE/CEBRASPE – TJ AM – Assistente Judiciário – 2019

A técnica machine learning pode ser utilizada para apoiar um processo de data mining.
14. CESPE/CEBRASPE – Ministério da Economia – Profissional de TI – 2020

Aprendizagem de máquina pode ajudar a clusterização na identificação de outliers, que são objetos
completamente diferentes do padrão da amostra.
Big Data
15. Instituto AOCP – MJSP – Analista – 2020

O Big Data é definido como coleções de dados cuja sua quantidade é tão grande que é difícil armazenar, gerenciar,
processar e analisar esses dados por meio de bancos de dados tradicionais. Nos últimos anos, houve um
crescimento exponencial nos dados estruturados e não estruturados gerados pela tecnologia da informação da
indústria e saúde por meio da internet das coisas (IoT), por exemplo. Sabendo disso, assinale a alternativa que
apresenta corretamente as cinco características, também conhecidas como os cinco “vês”, de um big data.
a) Valor, viabilidade, visiblidade, velocidade, volume.
b) Volume, vertente, valor, virtualidade, vitabilidade.
c) Viabilidade, vitalício, virtual, velocidade, valor.

d) Velocidade, volume, veracidade, variedade, valor.
e) Veracidade, viabilidade, volume, virtualidade, variedade
16. CESPE/CEBRASPE – TCE RO – Analista de TI – 2019

Com relação a fundamentos e conceitos de Big Data, julgue os itens a seguir.
I O volume de dados é uma característica importante de Big Data.
II Em Big Data, a qualidade do dado não tem importância, porque a transformação dos dados não impacta os
negócios.
III A característica de velocidade de entrada dos dados impacta o modelo de processamento e armazenamento.
Prof. Victor Dalton
Aula 09
IV A variedade dos dados não é característica intrínseca nos fundamentos de Big Data.
Estão certos apenas os itens
a) I e II.
b) I e III.
c) II e IV.
d) I, III e IV.
e) II, III e IV.
17. CESGRANRIO – PETROBRAS – Analista – 2018

A principal definição de Big Data parte de três características, conhecidas como 3 V do Big Data, a saber:
velocidade, variedade e volume.
O termo velocidade refere-se, principalmente, à
a) necessidade das aplicações de gerar respostas rapidamente, a partir de grandes massas de dados.
b) existência de um alto fluxo de dados na entrada.
c) necessidade de gerar aplicações rapidamente, em função da demanda do negócio.
d) importância da facilidade de manipular cubos de visualização de dados, rapidamente.
e) rapidez com que os dados se tornam inválidos com o tempo.
18. FCC – TCE RS – Auditor Público Externo – 2018

Um sistema de Big Data costuma ser caracterizado pelos chamados 3 Vs, ou seja, volume, variedade e velocidade.
Por variedade entende-se que
a) há um grande número de tipos de dados suportados pelo sistema.
b) há um grande número de usuários distintos acessando o sistema.

c) os tempos de acesso ao sistema apresentam grande variação.
d) há um grande número de tipos de máquinas acessando o sistema.

e) os tamanhos das tabelas que compõem o sistema são muito variáveis.
19. FCC – SEF SC – Auditor Fiscal da Receita Estadual – 2018

No âmbito da ciência de dados na definição de Big Data, utilizam-se características ou atributos que alguns
pesquisadores adotam como sendo os cinco Vs. Porém, a base necessária para o reconhecimento de Big Data é
formada por três propriedades:
Prof. Victor Dalton
Aula 09
a) valor, velocidade e volume.

b) valor, veracidade e volume.
c) variedade, velocidade e volume.
d) variedade, valor e volume.
e) velocidade, veracidade e volume
20. Instituto AOCP – PRODEB – Especialista de TIC – 2018

Big Data requer clusters de servidores de apoio às ferramentas que processam grandes volumes, alta velocidade e
formatos variados de Big Data. Nesse sentido, é correto afirmar que Hadoop refere-se a
a) um sistema de armazenamento e processamento de dados massivamente escalável – não é um banco de dados.
b) uma estratégia baseada em tecnologia que permite a coleta de insights mais profundos e relevantes dos
clientes, parceiros e sobre o negócio.
c) um banco de dados com capacidade melhorada.

d) um equipamento de hardware que permite que sistemas administrem crescentes cargas de processamento.
e) um banco de dados com tecnologia de virtualização.
21. FCC – CLDF – Consultor Técnico Legislativo – 2018

A proposta de uma solução de Big Data, oferecendo uma abordagem consistente no tratamento do constante
crescimento e da complexidade dos dados, deve considerar os 5 V’s do Big Data que envolvem APENAS os
conceitos de
a) volume, versionamento, variedade, velocidade e visibilidade.
b) velocidade, visibilidade, volume, veracidade e vencimento do dado.
c) volume, velocidade, variedade, veracidade e valor.

d) variedade, vencimento do dado, veracidade, valor e volume.
e) vulnerabilidade, velocidade, visibilidade, valor e veracidade.
22. CESPE/CEBRASPE – TCE PE – Auditoria de Contas Públicas – 2017

Além de estar relacionado à grande quantidade de informações a serem analisadas, o Big Data considera o volume,
a velocidade e a variedade dos dados estruturados — dos quais se conhece a estrutura de armazenamento — bem
como dos não estruturados, como imagens, vídeos, áudios e documentos.
Prof. Victor Dalton
Aula 09
23. FCC – DPE RS – Analista de TI – 2017

Os sistemas de Big Data costumam ser caracterizados pelos chamados 3 Vs, sendo que o V de
a) Veracidade corresponde à rapidez na geração e obtenção de dados.

b) Valor corresponde à grande quantidade de dados acumulada.
c) Volume corresponde à rapidez na geração e obtenção de dados.
d) Velocidade corresponde à confiança na geração e obtenção dos dados.
e) Variedade corresponde ao grande número de tipos ou formas de dados.
24. CESPE/CEBRASPE – TRE GO – Técnico Judiciário – 2015

A Big Data pode ser utilizada na EAD para se entender as preferências e necessidades de aprendizagem dos alunos
e, assim, contribuir para soluções mais eficientes de educação mediada por tecnologia.
Gabarito
Machine Learning 6. A
1. Certo 7. C
2. Certo 8. A
9. C
Big Data
10. Certo
3. D 11. E
4. B 12. Certo
5. B
Prof. Victor Dalton
Aula 09
Resumo direcionado
Inteligência Artificial
A inteligência artificial (ou computacional) envolve técnicas e métodos que têm como ambição desenvolver
máquinas capazes de se comportarem, ou trabalharem, de forma tão inteligente quanto o ser humano.
Machine Learning
Aprendizado de máquina (Machine Learning) é definido como um sistema que busca realizar determinada tarefa
de forma cada vez melhor, aprendendo a partir da experiência buscando uma melhor performance.
Tipos de Aprendizado
• Supervisionado: ocorre sob a supervisão humana, que determina os parâmetros de entrada.

• Não supervisionado: o próprio sistema descobre as variáveis para chegar à informação desejada, sem
intervenção humana.
• Por reforço: o sistema age por si só na busca das variáveis desejadas, recebendo inputs externos para lhe guiar
acerca de sucessos e fracassos.
Deep Learning
O aprendizado profundo (Deep Learning) busca emular redes neurais artificiais. Em outras palavras, objetiva
literalmente programar cérebros. Visando imitar o procedimento humano, o aprendizado acontece em camadas.
Big Data
São tecnologias para a análise de grandes volumes de dados estruturados e não estruturados. Para tanto, utilizam-
se algoritmos estatísticos avançados que fazem, entre outros, análises preditivas e análises de tendências.
O Big Data possui cinco características intrínsecas (chamadas de 5Vs do Big Data):
• Volume: É preciso ter um grande volume de dados.
Prof. Victor Dalton
Aula 09
• Velocidade: A geração, entrada e acumulação de dados deve acontecer de forma veloz.

• Variedade: O sistema precisa ser capaz de suportar e processar diversos formatos diferentes de dados.
• Veracidade: A informação deve ser verdadeira e íntegra.
• Valor: Os dados devem agregar ao sistema.
Técnicas de Big Data
NoSQL (ou Not Only SQL)
NoSQL é um termo que designa tecnologias de bancos de dados não relacionais – que não seguem um esquema
definido. Logo, não respeita às chamadas propriedades ACID (atomicidade, consistência, isolamento e
durabilidade), ao passo que segue as propriedades BASE, que dizem que um sistema deve estar basicamente
disponível, em um estado leve e com consistência eventual.
Além disso, o NoSQL respeita também o Teorema CAP, que traz as regras de consistência, disponibilidade e
tolerância a partições. Contudo, a regra é que duas dessas propriedades devem estar funcionando, porém nunca
as três ao mesmo tempo, pois conflitam entre si.
Os sistemas de NoSQL distribuídos devem ter: escalabilidade horizontal e vertical (possibilidade de crescimento
quando necessário, seja em quantidade de máquinas – horizontal – ou processamento – vertical), disponibilidade,
replicação (capacidade de replicar algo para outras máquinas) e consistência eventual, havendo tolerância a falhas.
Para a sua implementação, existem algumas tecnologias, como:
è Chave-valor: neste modelo, há uma maior flexibilidade nos dados de entrada. Isto é, as colunas “chave” e
“valor” aceitam tipos variados de dados. Exemplo:
CHAVE VALOR
16 nome = NoSQL Essencial, ano - 2014
Arthur idade = 35, interesse = engenharia
2 nome = True Blood, gênero = fantasia, classificação = 16 anos
Mário ocupação = prático
è Documentos: é uma das formas de armazenamento de dados, que também tem maior flexibilidade quanto à
entrada de dados. Cada novo registro aceita campos diferentes.
è Família de colunas: permite ter colunas principais e colunas adicionais, voltadas ao funcionamento do sistema.
Prof. Victor Dalton
Aula 09
è Grafos: é uma estrutura de armazenagem de dados. O exemplo mais clássico, das redes sociais, são as relações
feitas entre as pessoas.
Hadoop
É uma plataforma para desenvolvimento de soluções voltadas para Big Data. Nesta plataforma, é possível criar
uma estrutura para armazenamento e processamento de sistemas. Para tanto, é preciso ter:
• Escalabilidade (horizontal)
• Processamento paralelo (possibilidade de espalhar o poder de processamento)
• Confiabilidade
• Flexibilidade (um sistema flexível)
• Baixo custo (se custar uma fortuna, pode ser inviável economicamente).
Entre os módulos utilizados, destacam-se dois: HDFS (Hadoop File System) e MapReduce.
O HDFS é um sistema de armazenamento distribuído de arquivos muito grandes. Sua principal premissa é atender
aos 3Vs principais do Big Data. Nele, há escalabilidade e tolerância a falhas. Além disso, segue a regra WORM
(Write Once / Read Many), que dita que um dado deve ser escrito uma única vez (write once) – sem poder ser
modificado – e lido várias vezes (read many).
O MapReduce, por sua vez, é uma aplicação que trabalha em cima do HDFS para conseguir oferecer um
processamento paralelo em um ambiente distribuído. Para tanto, trabalha com agrupamento por chave-valor e
transformação de dados maiores em dados menores, fazendo um mapeamento das informações de forma
descentralizada e espalhada.

Big Data e Inteligência Artificial

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Big Data e Inteligência Artificial

Enviado por

Direitos autorais:

Formatos disponíveis

Aula 09

Informática para PRF – Pós edital

Prof. Victor Dalton

MACHINE LEARNING ..................................................................................................................................................... 4

BIG DATA .................................................................................................................................................... 9

QUESTÕES DE PROVA COMENTADAS ........................................................................................................ 21

Machine Learning ............................................................................................................................................... 21

LISTA DE QUESTÕES .................................................................................................................................28

Machine Learning ............................................................................................................................................... 28

RESUMO DIRECIONADO ............................................................................................................................ 32

INTELIGÊNCIA ARTIFICIAL ............................................................................................................................................ 32

Olha uma questão:

(CESPE/CEBRASPE – Polícia Federal – Escrivão – 2018)

Aprendizado não supervisionado

Olha uma questão de prova:

(CESPE/CEBRASPE – IPHAN – Analista – 2018)

Aprendizado por reforço

Agora, vamos responder algumas questões:

(CESPE/CEBRASPE – Polícia Federal – Perito – 2018)

(CESPE/CEBRASPE – Polícia Federal – Escrivão – 2018)

Visando imitar o procedimento humano, no Deep Learning, o aprendizado acontece em camadas.

Agora, vamos responder algumas questões:

“O que não é Big Data?”

è Grandes volumes de dados, apenas.

è Dados estruturados, apenas.

Veja como é cobrado em prova:

(CESPE/CEBRASPE – Polícia Federal – Agente – 2018)

(CESPE/CEBRASPE – Polícia Federal – Escrivão – 2018)

(CESPE/CEBRASPE – Polícia Federal – Escrivão – 2018)

Os 5Vs do Big Data

Não é incomum que os examinadores tragam, nas questões, apenas as

Vamos praticar? &

(CESPE/CEBRASPE – Polícia Federal – Perito – 2018)

• Valor dos dados.

(CESPE/CEBRASPE – Polícia Federal – Papiloscopista – 2018)

NoSQL (ou Not Only SQL)

O NoSQL viola as propriedades ACID

Contextualizando de forma hipotética:

O NoSQL segue o chamado Teorema CAP (Consistency, Availability e Partition tolerance).

Características dos sistemas distribuídos

Os sistemas NoSQL distribuídos pelo mundo inteiro devem ter:

Para implementar o NoSQL, existem algumas tecnologias, como:

CÓDIGOS SETOR RESPONSÁVEL

16 nome = NoSQL Essencial, ano - 2014

Arthur idade = 35, interesse = engenharia

2 nome = True Blood, gênero = fantasia, classificação = 16 anos

Mário ocupação = prático

Para desenvolver tais soluções, é preciso ter:

HDFS (Hadoop File System)

Para elucidar, vamos responder uma questão:

(CESPE/CEBRASPE – TCE PB – Auditor – 2018 - Adaptada)

Por fim, organiza-se todas as palavras e a incidência delas a nível mundial.

(CESPE/CEBRASPE – Polícia Federal – Papiloscopista – 2018)

(CESPE/CEBRASPE – Polícia Federal – Papiloscopista – 2018)

(CESPE/CEBRASPE – EBSERH – Analista – 2018)

Questões de prova comentadas

1. CESPE/CEBRASPE – TJ AM – Assistente Judiciário – 2019

2. CESPE/CEBRASPE – Ministério da Economia – Profissional de TI – 2020

3. Instituto AOCP – MJSP – Analista – 2020

b) Volume, vertente, valor, virtualidade, vitabilidade.

c) Viabilidade, vitalício, virtual, velocidade, valor.

4. CESPE/CEBRASPE – TCE RO – Analista de TI – 2019

5. CESGRANRIO – PETROBRAS – Analista – 2018

6. FCC – TCE RS – Auditor Público Externo – 2018