Você está na página 1de 9

1 A definição de big data parte de cinco características, conhecidas como 5 Vs do big data,

a saber: volume, velocidade, variedade, valor e veracidade.

Das alternativas a seguir, aponte aquela que apresenta circunstâncias em que a velocidade
é o motor principal e, assim, é preciso tomar decisões rápidas:

R:
C.

Caldeira com monitoramento de temperatura; dados de um vírus altamente contagioso; e


monitoramento de hashtags na ocorrência de desastre natural.

2.

Uma parte muito importante do contexto big data é a ingestão dos dados. A partir disso,
analise o seguinte cenário:

Uma empresa tem dados oriundos do sensor RFID do sistema de ponto eletrônico e
também diversas planilhas eletrônicas em cinco diferentes departamentos, totalizando mais
de 15 milhões de registros feitos nos últimos 20 anos. É necessário unificar esses dados em
um repositório único, a fim de que a análise e o processamento fiquem mais fáceis.

Diante do exposto, qual é a solução possível no contexto de big data?

R:

C.

É possível unir todos os arquivos em um repositório comum, em um sistema HDFS, inclusive, em


estrutura de cluster, a fim de compor a segurança, a replicação e a confiabilidade.

3.

O conjunto big data & analytics é uma denominação da IBM para a correlação entre big
data, mineração de dados e inteligência do negócio. No entanto, para que se tenha uma
mineração com êxito, precisa-se do conceito de veracidade no contexto do big data.

Considerando um cenário em que não há o controle de qualidade dos dados, o que pode ser
feito para garantir a veracidade?

R:

C.

Utilizar um padrão organizado de governança de dados, por meio do DAMA DMBok framework, e
realizar análises exploratórias para verificação dos dados e acompanhamento contínuo de
qualidade.
4 Analise o seguinte cenário:

Uma empresa fintech realiza empréstimo, prospecção de clientes, análise de fotos de perfis
e verificação de análise de sentimento em comentários do aplicativo; faz uso de bloco de
notas (arquivo CSV) para anotar registros em formato tabular dentro de departamentos; e
envia e-mails automáticos de marketing para bons perfis, de acordo com um sistema
de machine learning de análise de crédito.

Para iniciar o processo de organização dos dados dessa empresa, o que se pode afirmar
sobre os dados estruturados e não estruturados citados?

R:

C.

Os dados não estruturados são diferentes dos estruturados. Um exemplo de um contexto não
estruturado seria a ingestão de textos dos comentários em uma estrutura Hbase, dentro do Hadoop,
e a posterior análise de sentimento.

5.

A mineração de dados é um processo de aquisição de conhecimento por meio do que o big


data entrega como informação, ou seja, é a descoberta da informação por meio dos dados.

Considere uma empresa que precisa ter mais conhecimento para a melhoria de suas
vendas. Essa empresa tem vendas mensais de 50 peças, visitação de 10 clientes diários,
em média, e dispõe de dados pessoais do cliente, incluindo sexo, idade e frequência de
compra; dados completos do fornecedor; links das redes sociais de cada cliente, por meio
de um cadastro voluntário após a compra; e dados oriundos de um sensor que realiza a
contagem de quantas vezes o cliente passa por cada corredor. No entanto, não há nada
formal cadastrado em bancos de dados ou qualquer outra estrutura, além de planilhas e
anotações digitais.

Diante desse cenário, pode-se concluir que:

R:

B.

pelo relato, a empresa não tem um ambiente big data, e, portanto, é possível simplesmente organizar
dados estruturados em bancos relacionais e dados não estruturados em bancos NoSQL, a fim de
que, posteriormente, seja realizada alguma mineração.
1.

A visualização de dados, também chamada de DataViz, precisa ser muito bem


elaborada, pois ela é o produto do esforço do cientista de dados. Pensando nisso,
entre as bibliotecas a seguir, quais têm foco em visualização de dados?

Você acertou!
D.

Matplotlib e Seaborn.

2.

O RStudio é um ambiente de desenvolvimento integrado para a linguagem R. Nele


há áreas para editor de código, console, histórico, files, plots, packages, help, viewer,
etc. O que faz a aba packages?

Você acertou!
E.

Exibe as bibliotecas e a descrição e a versão de cada uma.

3.

Gráficos são recursos fundamentais em projetos de data science, pois ampliam a


capacidade de entendimento das pessoas sobre um conjunto de informações. Quais
características dos dados podem ser identificadas por meio de um gráfico?

Você acertou!
A.

Padrões entre elementos do dataset.

4.

O desempenho e a vasta gama de bibliotecas faz com que Python seja uma das
linguagem preferidas por cientistas de dados, sendo amplamente utilizada em todo o
mundo. Nesse contexto, qual é o propósito da biblioteca Pandas?

Você acertou!
C.

A biblioteca Panda apresenta recursos avançados para atuar com análise de dados.
5.

A linguagem R apresenta uma sintaxe bastante simples de ser compreendida e,


portanto, de fácil aprendizagem para um cientista de dados iniciante. Considerando
esse cenário, qual é o significado do comando getwd()?

Você acertou!
B.

Retorna o caminho no qual a linguagem R está sendo executada.


1.

Em um contexto geral, o Data Lake representa um repositório para grandes


quantidades de dados. Portanto, pode-se afirmar que o Data Lake é:

Você acertou!
A.

uma tecnologia para Big Data.

2.

O Apache Hadoop apresenta um ecossistema de tecnologias que auxiliam no


gerenciamento de dados. Quais dos nomes a seguir fazem parte desse ecossistema?

Você acertou!
C.

Apache Spark e Apache Sqoop.

Uma das ferramentas que ganhou mais notoriedade nos últimos anos é o Apache
Spark. Qual é o seu diferencial?

Você acertou!
A.

O Apache Spark tem como diferencial o uso da escrita em memória, em vez de fazer várias
chamadas ao disco rígido, aumentando sua velocidade no processamento dos dados.

4.

As camadas do ecossistema de Big Data são responsáveis por cuidar de todo o


processo que um dado percorre. Quais são essas camadas?

Você acertou!
D.

Camada ingestão, camada armazenamento, camada processamento, camada


apresentação e camada segurança.
5.

Data Lake e Data Warehouse apresentam diferenças significativas em seus conceitos.


Qual é a única coisa que ambos têm em comum?

Você acertou!
E.

Ambos funcionam como repositórios para grandes quantidades de dados.


1.

Os dados podem ser considerados recursos ativos gerados automaticamente em toda


atividade exercida; se tratados e analisados têm grande valor para o mercado.
Assinale a alternativa que contempla a definição correta sobre o dado.

Você acertou!
A.

É uma quantidade de fatos não analisados.

2.

A obtenção dos dados ocorre por meio de diversas fontes: e-mails, redes
sociais, smartphones, tablets, entre outros. Dessa forma, com o passar do tempo,
recursos computacionais se tornaram necessários para que tudo isso possa ser
aproveitado pelo mundo corporativo.

Assinale a alternativa que apresenta os passos percorridos pelo dado durante seu
uso na tomada de decisões corporativas.

Você acertou!
C.

Coleta dos dados, armazenamento, tratamento e análise.

3.

A ciência de dados traz a multidisciplinaridade para o mundo dos dados, e, agindo em


conjunto com tecnologias e ferramentas Big Data, pode contribuir para a geração e
diversificação de novos negócios.

Assinale a alternativa que traz algum princípio relacionado ao uso destes recursos
em relação ao uso dos dados.

Você acertou!
D.

A ciência dos dados aplica conceitos estatísticos nos dados em conjunto com
tecnologias Big Data.
4.

As grandes empresas corporativas investem em tecnologias para que possam obter


destes investimentos lucros financeiros. Assinale a alternativa que contém formas de
como as empresas obtêm os dados de seus clientes para uso da ciência de dados
e Big Data.

Você acertou!
E.

Por meio de aplicações de terceiros, identificação de dispositivo, perfil do usuário.

5.

As grandes companhias utilizam as ferramentas computacionais para atender a alta


demanda dos negócios, já que atualmente o comportamento social demonstra
claramente as transições que o mundo dos negócios está sempre percorrendo.
Assinale a alternativa que traz formas de como as empresas fazem uso dos dados de
seus usuários para obter sucesso em seus negócios.

Você acertou!
B.

Fornecimento de serviços personalizados.

Você também pode gostar