Big Data Analytic e A Tomada de Decisões

05/08/2021 AVA
Avaliação da Disciplina
Disciplina: Big Data Analytic e a Tomada de Decisões (17324)
Nota: 10
Prova:
Alterar modo de visualização
1
A definição de uma arquitetura que atenda às necessidades é algo central em projetos de Big Data e
pode ajudar diretamente gestores de negócio em suas tomadas de decisão.

Dessa forma, em termos de projetos: que requisitos e componentes principais uma arquitetura
tradicional deve ter? A partir das alternativas abaixo, assinale a CORRETA:
A) Alto investimento em infraestrutura para suportar as demandas de Big Data.

Implementação de um sólido mecanismo de coleta e armazenamento de dados no
Hadoop para processar grandes volumes de dados em tempo real e uma camada de
visualização que será útil para gestores de negócio extrair insights.
B) Lidar com dados de quaisquer naturezas obtidos a partir de diversas fontes (internas e
externas). Implementação de estrutura que suporte armazenamento e processamento em
larga escala tanto para dados em lote quanto em fluxo contínuo.
C) Capacidade para armazenar e processar grandes volumes de dados entregando a
informação certa no tempo certo. Para isso é necessário definir uma camada de extração
e ingestão de dados eficiente, política de armazenamento, definição do tipo de análise e
uma camada para apresentação de resultados.
D) Forte mecanismo de integração de dados para entregar ao gestor de negócios
informações de forma transparente e única. É necessário alto investimento em máquinas
que possam suportar o armazenamento e processamento paralelo a fim de que seja
possível analisar os dados e entregá-los à camada de apresentação.
2
As técnicas de Multi Machine Clustering surgiram para otimizar e melhorar a escalabilidade e o
desempenho das análises em cluster para atender às demandas do Big Data. Em relação às técnicas de
Multi Machine Clustering, o que é possível afirmar?

A partir das alternativas abaixo, assinale a CORRETA:
A) Apresentam como grande característica o alto poder de processamento com

implementação de baixa complexidade e algoritmos como PAM, DBSCAN e PIRBICH.
B) É constituída pelas técnicas de clusterização paralela e baseada em MapReduce que
tornam o processo de paralelização menos complexo para o desenvolvedor.
C) É composta pela clusterização paralela e pela clusterização baseada em MapReduce.
A segunda, inclusive, torna o processo de paralelização mais transparente para o
desenvolvedor.
D) São mais velozes que as abordagens tradicionais de agrupamento, no entanto, a alta
complexidade de implementação inviabiliza projetos de análises mais amplos.
https://ava.uniasselvi.com.br/academico/notas_e_avaliacaoes/gabarito/645387 1/10
05/08/2021 AVA
3
A clusterização é uma técnica de aprendizagem não supervisionada que visa classificar um conjunto de
dados semelhantes em um mesmo grupo.

No que se refere à clusterização é CORRETO afirmar que:
A) É empregada em situações onde não há conhecimento prévio de uma classe. A

classificação é feita mediante agrupamento através de alguma medida de distância.
B) Composto por várias medidas de distância, entre estas a distância Euclidiana que,
devido à sua popularidade, pode se aplicar a praticamente todas as classes de problemas.
C) É útil para classificar um grupo de objetos com classes já definidas, por exemplo,
prever a média de vendas de casas em uma determinada região.
D) Dados que fazem parte do mesmo grupo apresentam um grau de similaridade ou
dissimilaridade elevado.
4
Nossa mente processa tudo por meio de imagens, sons e sensações, registrados internamente. Embora
todos tenham os sistemas visual, auditivo e sinestésico, é comum que um deles seja mais desenvolvido
do que os outros.

Compreendido isso, analise e associe os itens que seguem:

I – Predominância sensorial visual.
II – Predominância sensorial auditiva.
III – Predominância sensorial sinestésica.

( ) As pessoas com desta predominância dizem muito "E então eu disse... Daí ele falou... Eu sempre falo
que...”, enquanto contam uma história, um fato ou uma lembrança.
( ) As pessoas desta predominância são capazes de falar durante meia hora sobre um almoço delicioso,
contando sobre a beleza dos pratos, da louça e dos talheres.
( ) As pessoas desta predominância estão sempre dizendo "Eu sinto...", “Pressinto que...”. Geralmente
são pessoas que gostam de tocar e abraçar as demais.

Assinale a alternativa que apresenta a sequência correta de respostas:
A) I – III – II.

B) III – I – II.
C) II – I – III.
D) I – II – III.
5
“Estruturas teóricas linguísticas como a Teoria Texto-Sentido (MTT) para a construção de modelos de
linguagem natural têm permitido que computadores possam processar a linguagem natural e começar
a compreender o significado sobre a linguagem humana.”
INBENTA. Disponível em: < https://www.inbenta.com/pt/tecnologia/tecnologia-de-linguagem-natural/ >.
05/08/2021 AVA

“Ainda que o processamento de linguagem natural não seja uma ciência nova, essa tecnologia está
avançando rapidamente graças ao interesse cada vez maior na comunicação homem-máquina,
paralelamente à disponibilidade de big data, computação mais poderosa e algoritmos aprimorados.”
SAS.
Disponível em: < https://www.sas.com/pt_br/insights/analytics/processamento-de-linguagem-

natural.html >.

Os textos acima expõem conceitos relacionados ao Processamento de Linguagem Natural (PLN), em
relação a esse conceito e suas aplicações é correto afirmar que:
A) Basicamente, realiza a análise de texto em grandes volumes de dados, por exemplo,
análise de posts no Facebook. A PLN é um campo definitivamente consolidado e,
portanto, a comunicação homem-máquina é perfeitamente compreendida.
B) Tem como fundamento compreender o contexto no qual um discurso foi empregado,
por meio de análises léxicas, sintáticas, semânticas, etc., como é caso quando deseja-se
converter voz em texto.
C) Um dos campos de aplicação é a análise de sentimentos, ao considerar a questão
subjetiva extraindo emoções de um discurso. É um tipo de aplicação ainda pouco
consolidada e não possui muitos cases, porém, apresenta grande potencial.
D) Pode ser aplicada tanto em análise de dados estruturados como não estruturados e
realiza algumas etapas, como a extração semântica no texto que observa padrões de
escrita em uma frase.
6
Existem dois tipos de comunicação: a verbal e a não verbal. A verbal se utiliza de palavras para
comunicar, como, por exemplo, a comunicação oral e a comunicação escrita. Já a comunicação não
verbal, utiliza-se de outras ferramentas para transmitir as informações.

Nesse sentido, assinale V para verdadeiro e F para falso nas afirmações que seguem:

( ) Comunicação por mímica: são os gestos das mãos, do corpo e da face.

( ) Comunicação por expressões faciais: é o olhar, a forma dos lábios e a contração dos músculos da
face.
( ) Comunicação pela postura: é o modo como sentamos, o corpo inclinado para trás ou para frente e
até mesmo a posição dos pés.
( ) Comunicação por gestos: pode ser voluntária, como um beijo ou um cumprimento, mas também
pode ser involuntária, como, por exemplo, mãos que não param de rabiscar ou de mexer em algo.

A) V – V – V – F.
B) F – V – V – F.
C) F – V – V – V.
D) V – V – V – V.
05/08/2021 AVA
Em métodos hierárquicos tradicionais a complexidade no espaço O(n²) e no tempo O(n³) é algo que
limita o poder de ação dos algoritmos. E, em muitos casos, algumas circunstâncias tornam o processo
de análise extremamente oneroso ou mesmo inviável. Essa limitação tem sido evidenciada por alguns
fatores, quais destes é possível destacar?

A) O modelo de gestão de dados que impôs o uso de algoritmos distribuídos para ganhos
de performance.
B) O volume intenso e variado de dados que estão sendo gerados e requeridos para
análise.
C) A exigência cada vez mais recorrente de aplicações voltadas para detecção de eventos
anômalos.
D) O crescente número de ferramentas voltadas para Big Data que substituem as formas
de análise tradicionais.
8
As limitações advindas de técnicas tradicionais de análise em cluster motivaram o surgimento de
propostas, especialmente para melhoria de desempenho. Dentre essas propostas surgiram as novas
técnicas de clusterização.

Tendo isso em mente, classifique V para as sentenças verdadeiras e F para as falsas:
( ) As técnicas de Single Machine Clustering (SMC) representaram uma das primeiras iniciativas para
análise de dados de grande volume.
( ) As técnicas de Multi Machine Clustering (MMC) processam e analisam grandes conjuntos de dados
de forma paralela e dessa forma são mais eficientes que técnicas de SMC.
( ) Embora as técnicas de MMC sejam mais eficientes que abordagens tradicionais, a complexidade do
seu uso é um fator determinante para apostar em técnicas de SCM.

A) V – V – V
B) F – V – V.
C) V – F – F.
D) V – V – F.
9
Uma das principais vantagens da clusterização baseada em MapReduce é, sem dúvida, a transparência
de toda complexidade de implementação envolvida com a distribuição dos dados entre os clusters ou
mesmo a capacidade para detectar e corrigir falhas que eventualmente possam ocorrer durante o
processo.

Relacione as técnicas com os algoritmos que as compõem, associando os itens, conforme o código
abaixo:

I – Clusterização Paralela.

05/08/2021 AVA
II – Clusterização baseada em MapReduce.

( ) GPMR.

( ) PBIRCH.

( ) MR-DBSCAN.

( ) G-DBSCAN.

A) I – II – II – I.
B) II – I – I – II.
C) I – II – I – II.
D) II – I – II – I.
10
Comunicação é o processo de transmissão de informação de uma pessoa para outra e compartilhada
por ambas.

Nesse sentido, assinale V para verdadeiro e F para falso acerca dos elementos que compõem o
processo de comunicação:

( ) Emissor ou fonte: é a pessoa, coisa ou processo para o qual a mensagem é enviada.

( ) Mensagem: é o uso de SMS e mensagens de Whatsapp.
( ) Canal: espaço situado entre emissor e receptor.
( ) Destino ou destinatário: é a pessoa, coisa ou processo que emite a mensagem.

A) F – V – V – F.
B) V – F – V – F.
C) F – F – V – F.
D) V – F – F – F.
11
As fontes de dados podem ser externas - quando se referem a fontes em que a organização não tem
total controle – ou internas, quando a organização possui total controle. Ambas são úteis para análise
em Big Data, visto que podem fornecer uma visão mais ampla de como o negócio está posicionado no
mercado. Sobre a estrutura dos dados contidos nas fontes, é possível classificar em: dados
estruturados, semiestruturados e não estruturados.
05/08/2021 AVA
Com base nisso, associe os itens I,II e III com as descrições correspondentes abaixo:
I – Dados estruturados.
II – Dados semiestruturados.
III – Dados não estruturados.
( ) São dados que apresentam uma estrutura flexível e autodescritiva.

( ) São dados que apresentam uma estrutura bem definida com tamanho fixo.
( ) São dados que não apresentam uma estrutura e são descritos em linguagem natural.

Assinale a alternativa que apresenta a sequência CORRETA dos itens:
A) I – III – II.

B) II – III – I.
C) I – II – III.
D) II – I – III.
12
O Apache Hadoop contém uma série de componentes que podem ser integrados ao framework. Esses
componentes podem ser úteis para as mais diversas finalidades, como armazenamento, transferência
de grandes volumes de dados ou até mesmo aplicação de algoritmos preditivos.

A partir das opções abaixo, classifique V para as sentenças verdadeiras e F para as falsas:

( ) O Apache Hive é um componente que pode ser integrado ao Hadoop para coletar dados de fontes
estruturadas.

( ) O Apache HBase é um banco de dados não relacional propício a ambientes Big Data, uma vez que
suporta um grande volume de dados mantendo alto desempenho.

( ) O Apache Sqoop permite mover grandes volumes de dados das fontes para o HDFS.

( ) O Apache Mahout é um componente responsável por trabalhar diretamente com os dados da fonte:
extraindo e coletando dados tanto para processamento em lote como em tempo real.

A) F – V – F – V.
B) F – F – V – V.
C) V – V – V – F.
D) V – V – F – F.
13
Apesar da possibilidade de aprender pelos sistemas auditivo, visual e sinestésico, de maneira
combinada, a maioria das pessoas utilizam um deles de forma predominante.
05/08/2021 AVA

Sobre os estilos de organização de acordo com a predominância sensorial, analise as sentenças que
seguem:

I – Visual: a percepção é global, ou seja, percebe o todo e, se necessário, decompõe em partes menores
a percepção inicial.
II – Sinestésico: depende de informações detalhadas e de instruções na forma de passo a passo.

III – Auditivo: organização gradual, criativa e divergente, que se caracteriza por conclusões diferentes da
maioria.

Assinale a alternativa que apresenta a resposta correta:
A) A sentença I está correta.

B) As sentenças I e III estão corretas.
C) As sentenças II e III estão corretas.
D) As sentenças I, II e III estão corretas.
14
As métricas de segmentação representam outra classe de medidas para análise de redes sociais.

Em relação a essas métricas, associe os itens, conforme o código abaixo:

I – Coeficiente de agrupamento.

II – Coesão.

III – Clique.

( ) É uma medida que representa o grau de ligação existente entre dois vértices.

( ) É uma medida que indica a probabilidade de formação de clusters entre os vértices.

( ) Quando um determinado vértice está diretamente conectado a todos os outros vértices.

A) II – III – I.

B) II – I – III.
C) I – II – III.
D) III – II – I.
15
05/08/2021 AVA
Empresas de muitos ramos têm investido em tecnologias e análise de dados para expandirem seus
negócios. Em geral, que circunstâncias-chave tem incentivado empresas a investirem parte de seus
recursos em análise de dados?


A) Algoritmos cada vez mais inteligentes, redução de mão de obra e incremento

tecnológico.
B) Mensurar retorno de investimentos, incentivos governamentais e garantia de lucro.
C) Automatização de processos, incentivos fiscais e mão de obra barata.
D) Melhoria dos processos de negócio, aumento de competitividade e o valor que pode
ser obtido.
16
A demanda por profissionais de análise de dados ampliou o escopo de exigências destes profissionais.
As empresas estão interessadas em profissionais capacitados e que tenham habilidades em trabalhar
com dados. Tendo isso em mente, quais são as principais habilidades requeridas para um profissional
de dados?
A) Capacidade para manipulação de dados, conhecimentos em estatística e aprendizado

de máquina, habilidades com ferramentas e/ou linguagens de programação e capacidade
para transmitir resultados.
B) Forte capacidade analítica, amplo conhecimento em ferramentas de visualização de
dados e frameworks de Big Data como Apache Spark e PowerBI e domínio de bancos de
dados não relacionais.
C) Domínio de técnicas de aprendizagem de máquina, amplo conhecimento em
matemática, experiência com todos os tipos de dados ou banco de dados (extração e
manipulação) e amplo conhecimento do negócio.
D) Raciocínio lógico apurado, capacidade para extrair insights de dados não estruturados,
experiência prévia em aprendizagem de máquina e pouco conhecimento do conceito de
Big Data.
17
Grande parte do sucesso do Spark está relacionado à sua estrutura, que é composta por alguns
componentes. O principal deles é o RDD.

Sobre este componente, classifique V para as sentenças verdadeiras e F para as falsas:
( ) É uma estrutura física do Spark que guarda informações dos objetos do Spark. Sua única limitação é
não possuir um mecanismo para tratamento de falhas.
( ) Possui uma estrutura similar a uma tabela, conhecida como dataset que pode armazenar dados de
diferentes tipos.
( ) Fornece suporte a dois tipos de operações: transformação e ação. Quando se aplica uma
transformação um novo RDD é criado, mas o conjunto de dados só é alterado se for aplicada uma etapa
de ação.
( ) Algumas operações de transformação são: SortByKey, FlatMap e GroupByKey enquanto que collect,
count e CountByKey são operações de ação.
05/08/2021 AVA

A) V – V – V – F.
B) F – F – V – V.
C) F – V – V – F.
D) F – V – V – V.
18
Apesar do grande crescimento, o Big Data é um conceito amplo que se refere à forma como lidamos
com a grande quantidade de dados disponível para uso. Além disso, a empresa precisa construir uma
infraestrutura para lidar com uma infinidade de fontes e processá-las em um tempo razoável.

Diante disso, em qual cenário uma empresa pode estar diante de um Big Data? A partir das alternativas
abaixo, assinale a CORRETA:
A) Em circunstâncias onde o volume de dados da organização aumente

significativamente, tornando-se necessário comprar novos servidores, o que poderia elevar
os custos com armazenamento.
B) Quando o conjunto de dados ultrapassar a casa dos 1PB e a empresa precise lidar com
dados estruturados, semiestruturados e/ou não estruturados.
C) Em situações onde a infraestrutura de dados da empresa apresenta elevada taxa de
latência e/ou inviabilidade para análises de dados de grande volume e em diferentes
formatos e estruturas.
D) Quando a análise de dados tradicional não estiver mais trazendo real valor para a
organização, o que poderia indicar a possibilidade de trazer inovação com novas formas
de analisar os dados.
19
Em épocas passadas as empresas conviviam com certas limitações, em termos de tecnologia, para que
pudessem analisar seus dados.
Por outro lado, nos dias atuais, as tecnologias possibilitaram e estimularam a produção de conteúdo.
Tendo isso em mente, classifique V para as sentenças verdadeiras e F para as falsas:

( ) As empresas precisam lidar com o alto volume e variedade de dados digitais propondo soluções
automáticas de análise a fim de se manterem competitivas.
( ) As empresas orientadas a dados têm à disposição uma massiva quantidade de dados, porém, em
muitos casos não sabem como gerenciá-los.
( ) A elevada produção de conteúdo implica em um problema de sobrecarga de informação,
evidenciando as limitações da ação humana para lidar com isso.

Assinale a alternativa correta:
A) V – F – V.
B) F – V – V.
C) V – V – V.
D) V – F – F.
05/08/2021 AVA
20
Os métodos tradicionais de agrupamento (clustering) podem ser implementados por uma diversidade
de algoritmos. Relacione a classe de algoritmos com os métodos, associando os itens, conforme o
código abaixo:

I – Algoritmos DIANA, ROCK.

II – Algoritmos DBSCAN, OPTICS.

III – Algoritmos Expectation-Maximization (EM), Self-Organization Map (SOM)

IV – Algoritmos K-Means, CLARANS.

V – Algoritmos STING, WAVECLUSTER.

( ) Métodos hierárquicos.

( ) Métodos baseados em grid.

( ) Métodos de particionamento.

( ) Métodos baseados em modelos.

( ) Métodos baseados em densidade.

Assinale a alternativa que apresenta a sequência CORRETA:
A) II – V – III – IV – I.

B) I – IV – V – II – III.
C) I – V – IV – III – II.
D) III – IV – II – I – V.

Big Data Analytic e A Tomada de Decisões

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Big Data Analytic e A Tomada de Decisões

Enviado por

Direitos autorais:

Formatos disponíveis

05/08/2021 AVA

A) Alto investimento em infraestrutura para suportar as demandas de Big Data.

A) Apresentam como grande característica o alto poder de processamento com

A) É empregada em situações onde não há conhecimento prévio de uma classe. A

III – Predominância sensorial sinestésica.

A) I – III – II.

Disponível em: < https://www.sas.com/pt_br/insights/analytics/processamento-de-linguagem-

( ) Comunicação por mímica: são os gestos das mãos, do corpo e da face.

A partir das alternativas abaixo, assinale a CORRETA:

II – Clusterização baseada em MapReduce.

( ) Emissor ou fonte: é a pessoa, coisa ou processo para o qual a mensagem é enviada.

( ) São dados que apresentam uma estrutura flexível e autodescritiva.

A) I – III – II.

II – Sinestésico: depende de informações detalhadas e de instruções na forma de passo a passo.

A) A sentença I está correta.

( ) É uma medida que indica a probabilidade de formação de clusters entre os vértices.

( ) Quando um determinado vértice está diretamente conectado a todos os outros vértices.

A) II – III – I.

A partir das alternativas abaixo, assinale a CORRETA:

A) Algoritmos cada vez mais inteligentes, redução de mão de obra e incremento

A) Capacidade para manipulação de dados, conhecimentos em estatística e aprendizado

A) Em circunstâncias onde o volume de dados da organização aumente

Tendo isso em mente, classifique V para as sentenças verdadeiras e F para as falsas:

I – Algoritmos DIANA, ROCK.

II – Algoritmos DBSCAN, OPTICS.

( ) Métodos baseados em densidade.

A) II – V – III – IV – I.

Você também pode gostar