Fichamento 2 Understanding Big Data Through A Systematic Literature Review The ITMI Model PT-BR

Machine Translated by Google
Veja discussões, estatísticas e perfis de autor para esta publicação em: https://www.researchgate.net/publication/334262532
Compreendendo o Big Data por meio de uma revisão sistemática da literatura: o ITMI
Modelo
Artigo no International Journal of Information Technology and Decision Making · Julho de 2019
DOI: 10.1142/S0219622019300040
CITAÇÕES LER
21 783
3 autores:
Andrea De Mauro Marco Greco
Universidade de Roma Tor Vergata Università degli studi di Cassino e del Lazio Meridionale
24 PUBLICAÇÕES 1.673 CITAÇÕES 56 PUBLICAÇÕES 2.976 CITAÇÕES
VER PERFIL VER PERFIL
Michele Grimaldi
Universidade de Cassino e Southern Lazio, Cassino, Itália
102 PUBLICAÇÕES 4.055 CITAÇÕES
VER PERFIL
Alguns dos autores desta publicação também estão trabalhando nos seguintes projetos relacionados:
COST Action Ecossistema Europeu de Aprendizagem Baseada em Jogos Ativos da Próxima Geração, ENGAGE. Ver projeto
Call for Papers: In (Big) Data we trust: Value Creation in Knowledge Organizations View project
Todo o conteúdo desta página foi carregado por Andrea De Mauro em 20 de setembro de 2020.
O usuário solicitou aprimoramento do arquivo baixado.

Compreendendo o Big Data por meio de uma literatura sistemática

Revisão: O Modelo ITMI
Andrea De Mauro*, Marco Greco† e Michele Grimaldi†
*Departamento de Engenharia Empresarial

Universidade de Roma Tor Vergata, Roma,
Itália †Departamento de Engenharia Civil e Mecânica
Universidade de Cassino e Sul do Lácio, Cassino (FR), Itália
Esta é a versão pré-impressa do artigo publicado em 17 de julho de 2019 no International Journal of

Information Technology & Decision Making, vol. 18, nº 04, pp. 1433-1461 (2019), DOI: https://doi.org/
10.1142/S0219622019300040 © copyright World Scientific Publishing Company
Resumo: O conceito de Big Data na literatura acadêmica e profissional tem se desenvolvido de forma eufórica, caótica e
desestruturada. A tomada de decisão depende cada vez mais de Big Data, recorrendo a novas metodologias analíticas
que são aplicadas em diversos setores. O presente estudo visa fornecer clareza sobre o fenômeno Big Data por meio de
uma revisão abrangente e sistemática da literatura, capaz de produzir uma descrição clara do que é Big Data hoje, uma
classificação estruturada dos vários fluxos de pesquisa atuais e uma lista de promissores tendências emergentes. Este estudo
analisa um corpus de 4327 artigos por meio de uma nova combinação de algoritmos não supervisionados que produz uma
estrutura hierárquica de tópicos que valida empiricamente e aprimora o modelo conceitual de 'Informação', 'Tecnologia',
'Métodos' e 'Impacto' (ITMI) de Big Dados, identificando 17 tópicos fundamentais e fornecendo aos pesquisadores e
profissionais uma visão geral significativa do corpo de conhecimento e uma agenda de pesquisa proposta.
Palavras-chave: Big Data; Inteligência de Negócios; Análise; Sistemas de informação; Revisão Sistemática da Literatura;
Mineração de texto.
1. Introdução
'Big Data' incorpora os fluxos de inovação mais promissores na moderna Tecnologia da Informação,
impactando os negócios e a sociedade de uma forma sem precedentes1 . Como observado por Gandomi,
e Haider2, o súbito aumento do Big Data fomentado pela aceitação eufórica do conceito pelos setores
público e privado deixou muitos despreparados. A pesquisa acadêmica falhou em sistematizar
prontamente o fenômeno quando ele foi detectado pela primeira vez. Como consequência, a pesquisa
ficou para trás das implementações corporativas que evoluíram tumultuosamente em várias direções.
Sem fundamentos teóricos e nomenclatura desenvolvidos, nem métodos de pesquisa disciplinados, a
evolução do conceito de Big Data resultou na ausência de um corpo de conhecimento estruturado dentro
da estrutura mais ampla de Gestão do Conhecimento3 . Além disso, o alto nível de entusiasmo dos
pesquisadores e profissionais da computação também baixou a atenção para os riscos morais e legais
associados a uma expansão errática de aplicações reais de Big Data4 . A consequência geral de tal
desenvolvimento incoerente é uma profunda ininteligibilidade da noção de Big Data que prejudica seu
progresso sustentável.
Para permitir um desenvolvimento mais sistemático do campo, é necessária mais clareza. Apesar da
quantidade substancial de estudos com o objetivo de descrever o fenômeno Big Data e as razões por
trás de seu sucesso, poucas tentativas foram feitas para revisar analiticamente a natureza de seu
desenvolvimento.
As revisões anteriores da literatura sobre Big Data trouxeram clareza sobre aspectos específicos do
fenômeno. Fosso Wamba et al. realizou uma revisão sistemática5 que identificou cinco impulsionadores
da criação de valor comercial a partir do Big Data, a saber: (i) criação de transparência; (ii) possibilitar a
experimentação; (iii) segmentar populações para diferenciar ativações de insights; (iv) substituir ou apoiar
a tomada de decisão humana; e, por fim, (v) inovar novos modelos de negócios, produtos e serviços.
Mishra et ai. avaliou 286 artigos que lidam com aplicações de gerenciamento da cadeia de suprimentos
de Big Data6 e propôs um agrupamento de áreas de pesquisa significativas dentro do campo. Van Altena
et ai. concentraram suas investigações na pesquisa biomédica7 e adotaram técnicas de modelagem de
tópicos para detectar tópicos recorrentes na interseção de Big Data e ciências biomédicas. Diferentemente,
nosso estudo tenta uma revisão holística de todo o domínio dos fatores facilitadores, inibidores e consequências
De Mauro, Andrea, Marco Greco e Michele Grimaldi. "Entendendo o Big Data por meio de uma revisão sistemática da literatura: o modelo
ITMI." Jornal Internacional de Tecnologia da Informação e Tomada de Decisões 18.04 (2019): 1433-1461.
percebido por pesquisadores e profissionais como conectado com Big Data e fornece uma visão agnóstica da
indústria do fenômeno.
O objetivo final deste artigo é descrever de forma coerente a estrutura essencial do tópico Big Data e suas
linhas de pesquisa mais promissoras. Dada a ampla gama de aplicações, realizamos uma pesquisa sistemática
e abrangente da literatura, incluindo o amplo espectro de artigos de conferências e periódicos que se referiam
diretamente a 'Big Data' em seus títulos. Nossa análise abrangente é baseada em uma combinação original de
algoritmos de Machine Learning não supervisionados, como Latent Dirichlet Allocation (LDA) e Hierarchical
Clustering.
Portanto, a novidade deste estudo está em sua análise abrangente e geral da literatura recente de Big Data,
em comparação com o foco mais restrito de outras revisões de literatura sobre o tema, e na combinação de
dois algoritmos não supervisionados que nos permitiram atingir tal objetivo.
A classificação de 4 categorias resultante valida e aprimora o modelo ITMI ('Informação', 'Tecnologia', 'Métodos'
e 'Impacto') de Big Data8 : esta classificação é discutida em profundidade no artigo para fornecer aos
pesquisadores e profissionais com informações úteis sobre Big Data.
O artigo está organizado da seguinte forma: primeiramente, apresentamos o conceito de Big Data, analisando
a evolução histórica de seu significado; em segundo lugar, explicamos a metodologia analítica adotada para
realizar esta revisão sistemática da literatura e apresentamos a saída resultante; em terceiro lugar, descrevemos
em detalhes os principais temas que identificamos na literatura, listando as direções significativas da pesquisa
e destacando as implicações para as organizações empresariais; finalmente concluímos o estudo resumindo os
componentes essenciais do Big Data e as áreas mais promissoras que precisam ser mais exploradas.
2. O Conceito de Big Data
Big Data é um termo relativamente recente que conheceu um aumento dramático na popularidade de artigos
acadêmicos e na web desde o início do ano de 2011. A noção de Big Data extrai suas origens de uma infinidade
de conceitos mais consolidados, como “ Analytics”, “Data Mining” e “Business Intelligence” e está
progressivamente abrindo caminho como um novo termo genérico que abrange vários aspectos de Tecnologia
da Informação, Sociologia, Negócios e Modelagem Estatística. A Tabela 1 mostra uma lista das múltiplas
gerações parcialmente sobrepostas de terminologia que caracterizaram o uso sistemático de dados para
melhorar a tomada de decisão, começando com os clássicos Sistemas de Apoio à Decisão e terminando com
Big Data9,10 .
9.
Tabela 1: Terminologia para uso e análise de dados. Adaptado da ref.
Prazo Prazo Significado específico
Sistemas de Suporte à Decisão 1970-1985 Uso de análise de dados para apoiar a tomada de decisão
Suporte Executivo 1980-1990 Foco em apoiar as decisões dos executivos seniores por meio da
análise de dados
Processamento Analítico Online 1990-2000 Ferramentas para analisar tabelas de dados multidimensionais interativamente
Inteligência de Negócios 1989-2005 Ferramentas para apoiar decisões baseadas em dados, com ênfase
em relatórios
Mineração de dados 1990-2010 Descobrindo padrões em grandes conjuntos de dados por meio de processos
computacionais
Análise 2005-2010 Foco em análises estatísticas e matemáticas para apoiar decisões
Big Data 2011-presente Concentre-se em dados muito grandes, não estruturados e que mudam rapidamente
A mineração de dados e o Analytics foram os predecessores conceituais mais recentes do Big Data e foram
superados em popularidade por este último por volta do ano de 2011. Em particular, a Fig. 1 mostra como o Big
Data progressivamente ultrapassou o conceito de Analytics na literatura acadêmica, enquanto a Fig. 2 demonstra
como o rápido crescimento de sua popularidade afetou também os usuários da Pesquisa Google de maneira
semelhante.
Como consequência de seu desenvolvimento rápido e caótico, não existe uma definição universalmente aceita,
embora muitas tentativas tenham sido feitas no passado. Big Data tem sido frequentemente descrito
Versão pré-impressa do artigo publicado em 17 de julho de 2019 no International Journal of Information Technology & Decision Making, vol.
18, nº 04, pp. 1433-1461 (2019), DOI: https:// doi.org/ 10.1142/ S0219622019300040 © copyright World Scientific Publishing Company
“implicitamente” através de histórias de sucesso ou anedotas, características, recursos tecnológicos, tendências emergentes
ou seu impacto na sociedade, organizações e processos de negócios.
Figura 1. Ocorrências de 'Big Data' e 'Analytics' na Literatura Acadêmica entre 2007 e 2016. Fonte: Scopus.
Fig. 2. Popularidade de 'Big Data' e 'Data Mining' entre os usuários da web entre 2007 e 2016. Os valores são proporcionais ao número
de consultas realizadas pelos usuários da Pesquisa Google, normalizados para o ponto mais alto do gráfico. Fonte: Google Trends.
Um estudo anterior observou que as principais definições de Big Data seguem quatro abordagens não mutuamente exclusivas8 :
• relatar atributos específicos
de dados que os tornam “grandes”, como “Volume”, “Velocidade” e
“Variedade”11,12;
• destacar algumas necessidades de tecnologia relacionadas à utilização de dados, por exemplo, poder de computação ou
capacidade de armazenamento13;
• aludindo à superação de algum tipo de limite, como a capacidade do banco de dados convencional
sistemas14
• descrevendo o impacto social resultante15,16 .
Para este estudo, adotamos uma definição que está encontrando um nível crescente de concordância na literatura e que “é
apoiada pelo entendimento atual expresso pelos autores quando eles usam o termo Big Data”
7 . Tal definição diz:
“Big Data representam os ativos de Informação caracterizados por um Volume, Velocidade e Variedade tão Altos que requerem
Tecnologia e Métodos Analíticos específicos para sua transformação em Valor.”8
3. Metodologia
A realização de uma revisão de literatura é uma atividade fundamental da pesquisa acadêmica. Uma análise bibliográfica
precisa leva a múltiplos benefícios. Em primeiro lugar, permite identificar os contributos seminais para o progresso científico
da matéria, aqueles que mais claramente inspiraram as investigações posteriores. Em segundo lugar, através da classificação
de trabalhos anteriores, os estudiosos podem entender a estrutura tópica do assunto e fazer uma escolha consciente da área
onde focar seus estudos.
esforço de pesquisa. Em terceiro lugar, uma revisão sistêmica de trabalhos anteriores abrangendo um longo período
de tempo permite a detecção de tendências históricas de tópicos específicos. Finalmente, permite que os
pesquisadores reconheçam as tendências emergentes mais promissoras e antecipem a importância futura de cada
linha de pesquisa.
Graças à natureza eletrônica da maioria das publicações científicas atuais, o número de documentos disponíveis
na Web tornou-se enorme. Além da relativa facilidade de acesso a artigos específicos, a criação de uma estrutura
que descreva toda a essência de um tema sem deixar de lado nenhuma contribuição importante é uma atividade
complexa e demorada. As revisões sistemáticas da literatura científica prometem dar sentido a um assunto
específico, considerando muitos artigos relevantes. Um procedimento popular para revisões sistemáticas é baseado
em técnicas de mineração de texto. Esses métodos usam um conjunto de dados não estruturados (como o corpo
do texto dos artigos, ou seus resumos ou apenas os títulos) para extrair uma descrição mais estruturada dos
tópicos tratados no conjunto de dados. Uma abordagem tradicional para revisões de literatura baseadas em
mineração de texto aplica algoritmos de agrupamento sobre uma matriz que descreve a presença relativa de
palavras-chave populares em um corpus de documentos (matriz de termos de documento), cuja saída será um
conjunto de N agrupamentos de documentos , cada um representando um tema tratado na literatura7,17–20. Essa
abordagem tem a vantagem de ser relativamente simples e dotada de mecanismos estabelecidos para a escolha
do número ótimo de clusters a serem utilizados, como os descritos por Milligan e Cooper21. A principal desvantagem
de usar clustering para extrair tópicos é que cada documento pode ser associado apenas a um único cluster (ou
seja, um único tópico).
No entanto, talvez o elemento mais inovador e estimulante de um trabalho científico seja estabelecer conexões –
muitas vezes inesperadas – entre diferentes domínios. Um modelo de tópico que não supõe que os artigos tratam
de vários tópicos ao mesmo tempo é parcial e incapaz de mostrar a complexidade estrutural de um domínio
científico. Por esse motivo, é necessário contar com modelos de associação mista22 onde a suposição de que uma
unidade pertence a um único cluster é violada23. De fato, os modelos de associação mista assumem que as
unidades individuais podem pertencer apenas parcialmente a categorias populacionais.
Para cada elemento, o grau de pertencimento a cada grupo pode ser representado por um vetor de variáveis
positivas somando 1 (proporção de pertencimento): esses valores podem ser lidos como uma descrição da mistura
de categorias às quais um elemento específico está associado. . Um dos modelos de associação mista mais
populares usados na mineração de texto é o LDA24 .
3.1. Alocação Dirichlet Latente
O LDA se baseia em Técnicas de Estimação Bayesiana para inferir vários parâmetros, incluindo o vetor que
representa o grau de pertinência (proporção de tópico) de cada elemento (documento) a cada grupo (tópico). Cada
tópico também pode ser caracterizado por uma distribuição de palavras e a lista das palavras mais prováveis em
um tópico (palavras-chave ou principais termos) pode dar uma indicação do significado central desse tópico.
Olhando para as palavras-chave do tópico e considerando os documentos que tratam do tópico no mais alto grau,
um usuário humano pode deduzir uma descrição significativa do tópico. É importante notar que a interpretabilidade
semântica das palavras-chave (coerência de tópico) pode ser aumentada com o uso de técnicas alternativas ao
LDA, como a fatoração de matriz não negativa, conforme observado por O'Callaghan et al . 25. A descrição dos
temas e das relações entre eles será o produto fundamental da revisão da literatura: de fato, esses elementos
podem oferecer uma imagem limpa e estruturada do conteúdo tópico do assunto em estudo.
As entradas do LDA são o corpus de documentos a serem analisados e o número de tópicos k a serem extraídos.
Decidimos usar como documentos os resumos de cada artigo. Diferentemente do que fizeram Vo e Ock26,
preferimos o uso de resumos ao invés de títulos, pois títulos de artigos científicos geralmente não possuem texto
suficiente para descrever completamente o conteúdo conceitual do trabalho. Não há um acordo consensual quanto
ao processo de seleção de um valor ótimo para o número de tópicos k. Ponweiser27 propôs uma revisão das
técnicas para encontrar o número ótimo de tópicos: uma delas é localizar o máximo da média harmônica de
verossimilhança em um conjunto de amostras geradas pelo amostrador de Gibbs como feito na Ref. 28. Uma
abordagem alternativa seria calcular a Verossimilhança Marginal do modelo de tópico, conforme proposto pela Ref.
29
e implementado no pacote R maptpx. No entanto, Chang et al. executar experimentos para validar como tais
30
técnicas de otimização de modelo se encaixam com o objetivo de produzir decomposição de corpora “interpretável
por humanos”. O resultado do estudo foi
que “modelos de tópicos que funcionam melhor em verossimilhança mantida podem inferir tópicos menos
significativos semanticamente” (p. 1). Os autores sugerem que os desenvolvedores de modelos de tópicos
devem adotar práticas de avaliação que dependam mais da tarefa do “mundo real” que o trabalho visa em
última análise, em vez de maximizar medidas baseadas em probabilidade. Esta opinião é também confirmada
por Blei24 que afirma não haver qualquer razão técnica para supor que a precisão do modelo corresponderia
a uma melhor organização ou a uma interpretação mais fácil do mesmo. Portanto, decidimos seguir o
julgamento humano para a seleção do modelo, em linha com nosso principal objetivo de pesquisa que era
produzir uma descrição clara e significativa do corpo de conhecimento relacionado ao Big Data.
Assim, evitamos o uso de uma medida de desempenho quantitativa que poderia ter falhado em identificar o
modelo mais compreensível por humanos.
Em nosso caso, o objetivo de obter uma descrição concisa dos tópicos mais relevantes da literatura pode
colidir com a escolha de um valor muito alto de k (por exemplo , k>>30), pois descrever a essência de uma
estrutura alistando um número alto de elementos pode ser impraticável. No entanto, um baixo valor de k
impediria o modelo de compreender a mistura variada de tópicos fundamentais que têm sido tratados na
literatura.
A análise das proporções dos tópicos para todos os artigos do corpus permite inferir a posteriori a relação
conceitual entre os tópicos. Para isso, calculamos o coeficiente de correlação de Pearson r entre proporções
de tópicos: a tendência de dois tópicos aparecerem com maior proporção nos mesmos documentos (ou seja,
maior r) é um sinal razoável da “conexão” intrínseca entre os dois tópicos. Em outras palavras, usamos o
coeficiente de correlação entre as proporções de tópicos r como uma medida de similaridade conceitual entre
os tópicos. A matriz de “semelhança” triangular R é construída calculando r para cada combinação de tópicos
(i,j):i,j ÿ [1,k], i<j.
Então, a fim de obter uma estrutura tópica que possa ser facilmente descrita e memorizada, agrupamos
tópicos semelhantes em “temas” usando um algoritmo de agrupamento hierárquico tradicional. Nesse caso, o
uso de agrupamento tradicional é aceitável, pois podemos assumir, para simplificar, que cada tópico
identificado pelo LDA pertence a um único tema “pai”. A matriz de dissimilaridade D dada como entrada da
função de agrupamento é calculada invertendo a medida de similaridade calculada na etapa anterior, conforme
sugerido por Glynn31, usando a fórmula D=1-R. O número de clusters t é escolhido minimizando o C-index,
conforme aconselhado por Milligan e Cooper21. O índice C tem a vantagem de ser computável usando
apenas a matriz de dissimilaridade, pois é baseado nas distâncias entre clusters acima dos elementos de
acordo com a Eq. 3.1:
(3.1)
onde:
• Smin/max é a soma das menores/maiores distâncias entre todos os pares de tópicos;
• Sw é a soma das distâncias dentro do cluster.
O valor do C-index, situado por definição dentro do intervalo (0,1), é calculado usando o pacote R NbClust As
32
relações entre .
tópicos e temas são então exibidas através de uma estrutura hierárquica que descreve a “taxonomia” do
domínio científico . As distâncias entre os tópicos são representadas por meio de um diagrama de rede, cujos
nós eram os tópicos e as arestas eram ponderadas em sua correlação.
3.2. Implementação da metodologia
3.2.1. Etapa 1 - Coleta e preparação de dados
A lista de entrada de documentos foi obtida da Elsevier Scopus, um banco de dados contendo mais de 60
milhões de registros de quase 5.000 editoras internacionais. Exportamos uma lista dos 5.412 artigos de
conferências e periódicos publicados entre 2011 (primeiro ano de aumento dramático na popularidade do Big
Data em artigos acadêmicos e na web, conforme mencionado na introdução) e 2016 (último ano completo
disponível quando iniciamos nosso análise em 2017) contendo o termo completo 'Big Data' no
título1 . Removemos as entradas para as quais o texto do resumo não foi fornecido e isso nos deixou com um corpus
de 4.327 documentos.
Antes de aplicar o modelo LDA ao corpus completo, executamos as seguintes etapas de preparação para os resumos
de entrada: •
Todos os espaços em branco e pontuação foram removidos. Assim, os tokens considerados para as etapas seguintes
foram palavras únicas, com exceção de palavras compostas com travessões intrapalavras, que foram preservadas.
• Todos os caps
foram convertidos em caps inferiores.
O corpus foi sintetizado por meio do algoritmo de Porter33, que retornava o radical de cada palavra com seus sufixos
removidos.
Palavras de parada comuns em inglês (como artigos e conjunções) e outras palavras não relevantes (como informações
de direitos autorais e anos) foram removidas dos resumos. Também removemos as palavras “big” e “data”, pois foram
incluídas por definição em todos os documentos.
3.2.2. Passo 2 – LDA
Posteriormente, executamos o LDA no corpus de 4327 artigos. Como parte de nossas tentativas preliminares ao
executar o LDA, descobrimos que, usando k <<15, teríamos negligenciado vertentes significativas da pesquisa de Big
Data, como o conceito crescente de cidades inteligentes ou a crescente importância de ferramentas para permitir o
acesso e visualização de grandes conjuntos de dados. Na verdade, esses tópicos são cobertos por um número menor
de artigos e, para valores menores de k, eles não seriam identificados como clusters autônomos, mesmo que tenham
uma importância crescente dentro da pesquisa de Big Data. Assim, escolhemos o número de tópicos selecionando o
modelo que forneceu a saída mais legível aos olhos dos autores, como já feito na literatura 17, fazendo várias tentativas
com variação de k dentro do intervalo [15,30]. Fizemos a seleção por meio do nosso julgamento humano: revisamos
múltiplos modelos com k variável e discutimos o nível de interpretabilidade de cada modelo conceitual, convergindo
para a decisão sobre o mais inteligível.
Para apoiar essa decisão, também realizamos verificações pontuais em todos os tópicos, lendo individualmente uma
amostra de artigos com alto nível de presença do tópico e validando se esses artigos realmente tratavam dele.
Como resultado, escolhemos o modelo com k=17, que garantiu a saída mais legível.
3.2.3. Etapa 3 - Análise hierárquica de agrupamento
Procedemos ao cálculo da matriz de correlação 17x17 R e aplicamos agrupamento hierárquico “ward” nas distâncias
especificadas na matriz de dissimilaridade resultante D=1-R. Usando o pacote R NbClust32, calculamos o índice C em
vários clusters entre o intervalo [2, 6]. Conforme aconselhado por Milligan e Cooper21, escolhemos o número de
clusters com o C-index mínimo, que em nosso caso correspondeu a t=4. Assim, os 17 tópicos identificados por meio
da LDA são agrupados em quatro temas. O dendrograma resultante mostra os quatro temas e os 17 tópicos nomeados
após as 3 principais palavras-chave que caracterizam cada um (Fig. 3). Adotamos a seguinte convenção de
nomenclatura padrão para tópicos. Por exemplo, “algorithm-method-clustering” refere-se ao tópico cujas principais
palavras-chave (as mais frequentes em seu dicionário) são “algoritmo”, “métodos” e “clustering”. Notavelmente, as 3
principais palavras-chave podem não conter necessariamente o significado conceitual completo de um tópico, mas as
consideramos uma convenção de nomenclatura aceitável a ser mantida ao longo do artigo. Os quatro clusters
resultantes do agrupamento Hierárquico podem ser convenientemente associados aos quatro temas do modelo ITMI:
Informação (cluster 4), Tecnologia (cluster 2), Métodos (cluster 1) e Impacto (cluster 3)8 .
1
Usamos a seguinte consulta de pesquisa no Scopus: ( TITLE ( "big data" ) ) AND ( LIMIT-TO ( SRCTYPE , "p") OR
LIMIT-TO ( SRCTYPE , "j" ) ) E ( LIMIT-TO ( PUBYEAR , 2016) OU LIMIT-TO (PUBYEAR , 2015) OU LIMITE
ATÉ ( ANO PÚBLICO , 2014) OU LIMIT-TO (PUBYEAR , 2013) OU LIMIT-TO (PUBYEAR , 2012 ) OU LIMIT-TO (
PUBYEAR , 2011)).
Fig. 3 Dendrograma resultante do agrupamento hierárquico de tópicos com K=17 em t=4 temas. Cada tópico é representado por suas palavras-
chave.
Fig. 4 Representação em rede da correlação intertópico. Cada nó é um tópico com o rótulo mostrando suas três principais palavras-chave. A linha
a largura de cada aresta é proporcional ao nível relativo de correlação. Linhas sólidas ligam tópicos mais correlacionados (quintil superior de
correlações) enquanto as linhas tracejadas ligam tópicos menos correlacionados (50º a 80º percentis).
Ao analisar a correlação entre os tópicos, construímos uma rede ponderada e não direcionada onde os nós
representam os tópicos enquanto as arestas mostram o nível de correlações mútuas entre os tópicos, por meio
da largura e do tipo da linha de borda (Fig. 4). Portanto, a Fig. 4 oferece uma visão sinóptica das conexões
conceituais entre os tópicos. Quando um determinado tópico é correlacionado com outros tópicos pertencentes
a um tema diferente (por exemplo, operações de alimentação de sensor versus banco de dados de design de
sistema e desempenho de armazenamento de rede), existe uma familiaridade do tópico com o tema diferente.
4. Resultados
O surgimento dos quatro temas Informação, Tecnologia, Métodos e Impacto confirma a adequação do modelo
ITMI para descrever a variedade de tópicos que se enquadram na literatura relacionada a Big Data. Os autores
perceberam que: • Tópicos de 'informação'
são aqueles que enfocam a aquisição, geração, manutenção e governança de conjuntos de dados, tratando das
diferentes origens e naturezas dos ativos informacionais. • Os tópicos de 'Tecnologia' tratam dos
dispositivos, das infra-estruturas e dos quadros que resultam da aplicação prática da ciência e da engenharia com
o propósito de lidar com a informação digital.
• 'Métodos' incluem os tópicos que enfocam as metodologias para transformar dados. Tais metodologias
normalmente estão dentro das disciplinas mais amplas de ciência da computação e matemática aplicada.
• Tópicos de 'Impacto' lidam com as consequências da aplicação de Big Data para negócios, sociedade e ciência,
e incluem a análise de aplicações práticas, desafios relacionados e benefícios percebidos.
Conforme ilustrado na Figura 4, cada tópico está claramente vinculado a muitos outros, em vários níveis.
Portanto, alguns tópicos podem estar conceitualmente na fronteira entre dois temas diferentes e sua alocação
final é certamente discutível. Ainda assim, os autores constataram que a grande maioria dos tópicos está
claramente associada a apenas um tema e que a saída do agrupamento hierárquico pode ser explicada, mesmo
no caso de temas parcialmente sobrepostos. Cada artigo em nossa amostra é caracterizado por 17 valores que
descrevem seu grau de pertinência para cada um dos 17 tópicos. Ao considerar o maior grau de valor de
associação como um sinal do tópico predominante do artigo, podemos entender a presença relativa de cada
tópico na literatura atual. A Tabela 2 apresenta o número de artigos que se enquadram em cada tema e tópico e
relata o grau médio de presença de cada tópico no período 2011-2016: notamos que os temas Informação,
Tecnologia e Métodos têm uma participação relativamente homogênea na literatura (~20 % cada) enquanto o
Impact tem uma presença mais prevalente (40%). A Tabela 2 também mostra sinopticamente as tendências2
quanto à presença relativa de temas e tópicos. Observamos tendências positivas para vários tópicos, como
método de predição de modelos, fatores de tráfego de eventos e saúde-pacientes-saúde, que estão cada vez
mais substituindo outros tópicos cuja presença na literatura está diminuindo, como processamento em nuvem de
computação, sistema -banco de dados de design e ferramentas de visualização grandes.
A próxima seção fornece uma breve descrição de cada um dos quatro temas do modelo ITMI conforme eles
surgiram da revisão sistemática da literatura e de cada um dos 17 tópicos.
2
Conforme mostrado na Figura 1 e na Tabela 2, o corpus da literatura indexada no Scopus sobre Big Data em 2011 compreendia muito
poucos artigos, em comparação com os anos subsequentes. Portanto, nossa descrição das tendências, conforme proposta na Tabela 2,
desconsidera a presença relativa dos temas para o ano de 2011.
De Mauro, Andrea, Marco Greco e Michele Grimaldi. "Entendendo o Big Data por meio de uma revisão sistemática da literatura: o modelo ITMI." Jornal Internacional de Tecnologia da Informação e Tomada de Decisões 18.04 (2019): 1433-1461.
Tabela 2: Presença relativa dos temas e tópicos do ITMI no corpus analisado de estudos de Big Data.
Tendência
Presença relativa ao longo dos Presença total
Tema/Tópico 2011 2012 anos 2013 2015 2014 2016 # Papéis Peso
Informação 14% 15% 20% 22% 23% 27% 976 23%
usuários sociais móveis 10% 9% 7% 6% 6% 8% 293 7%
sensores-poder-operações 5% 4% 5% 7% 7% 7% 274 6%
segurança-acesso-informações 0% 1% 4% 5% 6% 4% 219 5%
eventos-tráfego-fatores 0% 1% 3% 4% 5% 7% 190 4%
Tecnologia 43% 34% 22% 20% 18% 15% 826 19%
computação-nuvem-processamento 14% 15% 7% 8% 7% 4% 314 7%
desempenho de armazenamento de rede 10% 5% 7% 6% 6% 6% 277 6%
banco de dados de design do sistema 19% 13% 7% 5% 4% 5% 235 5%
Métodos 0% 12% 18% 17% 20% 21% 812 19%
algoritmo-método-clustering 0% 7% 5% 6% 8% 8% 307 7%
aprendizagem-problema-máquina 0% 4% 4% 5% 4% 5% 196 5%
modelo-predição-método 0% 1% 5% 3% 4% 5% 173 4%
abordagem-mine-set 0% 1% 4% 3% 3% 3% 136 3%
Impacto 43% 39% 41% 41% 39% 37% 1713 40%
pesquisa-projeto-análise 0% 11% 9% 9% 7% 11% 357 8%
humana-gerenciamento de negócios 5% 7% 8% 7% 9% 6% 345 8%
saúde-pacientes-saúde 10% 1% 6% 9% 8% 12% 344 8%
pesquisa-tecnologia-desafios 14% 9% 4% 6% 6% 4% 240 6%
ferramentas de visualização grande 14% 7% 7% 5% 5% 2% 217 5%
fontes de informação-conhecimento 0% 4% 7% 6% 5% 2% 210 5%
Número total de papéis 21 137 562 1068 1948 591 4327 100%
Versão pré-impressa do artigo publicado em 17 de julho de 2019 no International Journal of Information Technology & Decision Making, vol. 18, nº 04, pp. 1433-1461 (2019), DOI: https:// doi.org/ 10.1142/ S0219622019300040 © copyright World Scientific
Publishing Company
5. Discussão
Nos parágrafos seguintes, revisaremos todos os tópicos e destacaremos as tendências notáveis em sua
presença.
5.1. Informação
O fator vital na ascensão do Big Data tem sido a crescente disponibilidade de informações e a relativa
facilidade com que elas podem ser transferidas e armazenadas. Conforme observado por Hilbert34, nas ,
últimas duas décadas o mundo experimentou aumentos exponenciais tanto do fluxo quanto do estoque de
informações. A introdução de software de reconhecimento óptico de caracteres com o objetivo de minimizar
a intervenção humana35 permitiu a digitalização de enormes repositórios de informações analógicas.
Mayer-Schönberger e Cukier36 propuseram uma sutil diferenciação entre digitalização e seu próximo passo
natural, a datificação (isto é, colocar um fenômeno em um formato quantificado para que possa ser tabulado
e analisado). A diferença fundamental é que a digitalização permite que informações analógicas sejam
transferidas e armazenadas em um formato digital mais conveniente, enquanto a datificação visa organizar
uma versão digitalizada de sinais analógicos para gerar insights que não seriam inferidos enquanto os
sinais estivessem em sua forma original . Outra tendência fundamental é o nível crescente de
heterogeneidade dos ativos de informação atuais. Aos dados estruturados tradicionais (tipos de texto/
numéricos) juntam-se agora dados multimédia não estruturados (áudio, vídeo, imagens, texto e linguagem
humana) e dados semiestruturados, como XML e feeds RSS37 .
Os quatro tópicos que identificamos dentro do tema geral da Informação tratam das formas atuais mais
promissoras de aquisição de dados e seus desafios relacionados. O tópico mobile-social-users lida com a
recente disponibilidade generalizada de dispositivos pessoais conectados e equipados com sensores
digitais, como smartphones, tablets e wearables, todos contribuindo para a geração de dados pessoais.
Tais dispositivos permitem que seus usuários criem, transfiram e utilizem informações a um custo
relativamente baixo. Uma consequência da difusão de dispositivos pessoais é o crescente interesse em
como as pessoas interagem online por meio das mídias sociais. Plataformas como Facebook e Twitter são
capazes de registrar a interação dos usuários, bem como seus hábitos e interesses. A disponibilidade
dessas informações estimulou o desenvolvimento da Análise de Redes Sociais, que se mostra uma
metodologia eficaz para análise de Big Data Outra repercussão da crescente disponibilidade de dados
38–40 .
pessoais é o crescente desafio relacionado à sua proteção e, em
última instância, à privacidade dos indivíduos41 .
A Segurança da Informação é, de fato, uma área de interesse crescente dentro da pesquisa de Big Data e,
como parte de nossa classificação, é tratada dentro do tópico segurança-acesso à informação. Documentos
relacionados a este tópico tratam da configuração do estabelecimento de camadas de segurança da
informação dentro da infraestrutura de dados de uma empresa, esquemas para criptografar a
confidencialidade ou permitir o anonimato, implementação de leis e regulamentos relevantes42–44 .
Além disso, os dispositivos não pessoais têm um papel vital na abundante disponibilidade de dados de
hoje. A presença generalizada de objetos que são capazes de interagir uns com os outros e cooperar com
seus vizinhos para atingir objetivos comuns recebe o nome de Internet das Coisas, IoT45,46, conforme
tratado no tópico sensores- potência - operações. O aumento
a disponibilidade de dispositivos conectados habilitados para sensores está equipando as empresas

com amplos ativos de informações a partir dos quais é possível criar novos modelos de negócios,
melhorar processos de negócios, reduzir custos e riscos, aumentar a produtividade e oferecer suporte
a planejamento humano e tomada de decisões mais complexos e de longo alcance47 ,48. Vários
artigos incluídos nesses tópicos enfocam esses dispositivos não pessoais, como sensores climáticos,
etiquetas de identificação por radiofrequência (RFID) e medidores inteligentes, que têm sido cada vez
mais usados para criar informações que geram valor. Por exemplo, equipar a infraestrutura de energia
e água com sensores em rede (redes elétricas) tem se mostrado fundamental para atender a múltiplas
necessidades sociais, como medição e cobrança eficazes para uso eficiente e redução de vazamentos
e fraudes49,50 . A crescente disponibilidade de dados não pessoais gerados por sensores no contexto
urbano, abrangendo desde o tráfego de carros até as emissões de dióxido de carbono, desde o
gerenciamento da água até a utilização do transporte, é um facilitador do conceito de “cidade
inteligente”51, que é tratado no tópico eventos- fatores de tráfego.
5.2. Tecnologia
A tecnologia é, sem dúvida, um dos grandes temas relacionados ao Big Data. Ele representou um
facilitador claro do sucesso do Big Data e continua sendo um de seus ingredientes fundamentais. A
disponibilidade de ferramentas de TI com desempenho cada vez maior a um preço cada vez menor
catalisou o crescimento dos aplicativos de Big Data. Sem tais avanços tecnológicos, a exploração de
conjuntos de dados granulares teria ficado confinada em centros de supercomputação e não teria
impactado a sociedade e os negócios tanto quanto o atual fenômeno do Big Data.
Um driver tecnológico fundamental é a capacidade de armazenar uma quantidade maior de dados em

dispositivos físicos menores. A lei de Moore sugere que a capacidade de armazenamento aumenta ao
longo do tempo de maneira exponencial 52. No entanto, ainda requer esforço contínuo e caro de
pesquisa e desenvolvimento para acompanhar o ritmo em que o tamanho dos dados aumenta 53,
especialmente com a crescente participação de tipos de dados com fome de bytes como imagens, sons e vídeos.
Outra vertente da pesquisa de Big Data dentro do tema Tecnologia analisa a velocidade dos dados.
Essa necessidade é ditada tanto pelos requisitos rigorosos de tempo dos aplicativos de Big Data, que
geralmente criam valor por meio da análise ao vivo de fluxos de dados de alta velocidade, quanto pela
velocidade de transferência de dados que as infraestruturas de rede precisam garantir.
Esses aspectos são bem tratados pelo tópico network-storage-performance , que inclui trabalhos
voltados para a otimização de tecnologias de armazenamento, abrangendo desde escolhas de
hardware para módulos de memória 54,55 até códigos para correção de erros e redundância56. O
mesmo tópico também inclui artigos que tratam dos requisitos de redes device-to-device57 e das
questões tecnológicas que incorrem no projeto de sistemas de tempo real, como os sistemas de
processamento de fluxo descritos por Castro Fernandez et al.
58
.
O tópico computação-nuvem-processamento trata do processamento distribuído de dados. Esta é uma
das peculiaridades centrais do Big Data do ponto de vista tecnológico 59,60 Praticantes e codificadores.
sentem a necessidade de dominar as tecnologias de processamento distribuído e, de fato, a consulta
mais relacionada a “Big Data” no buscador Google passa a ser "Hadoop". Hadoop é uma estrutura de
código aberto que permite a versão pré-impressa distribuída do artigo publicado em 17 de julho de
2019 no International Journal of Information Technology & Decision Making, vol. 18, nº 04, pp.
1433-1461 (2019), DOI: https:// doi.org/ 10.1142/ S0219622019300040 © copyright World Scientific
Publishing Company
processamento de dados aproveitando clusters de máquinas dispersas e modelos especiais de programação

de computadores. Os principais componentes do Hadoop são seu sistema de arquivos distribuídos, HDFS,
que permite o acesso a dados disseminados por múltiplas máquinas sem ter que lidar com a complexidade
inerente à sua natureza dispersa; e MapReduce, um modelo de programação projetado para implementar
eficientemente algoritmos distribuídos e paralelos. Prova da centralidade do Google na iniciação do pensamento
atual sobre Big Data é o fato de que ambos os HDFS são a evolução de conceitos que foram originalmente
61
propostos pela empresa 63, antes de serem 62
edesenvolvidos
MapReduce como projetos de código aberto dentro do Hadoop.
O Hadoop contém múltiplos módulos e bibliotecas compatíveis com HDFS e MapReduce que permitem a
extensão de sua aplicabilidade às diversas necessidades de coordenação, análise, gerenciamento de
desempenho e design de fluxo de trabalho que normalmente ocorrem em aplicações de Big Data. O tópico
computação-nuvem-processamento também inclui manuscritos com foco nos elementos arquiteturais das
plataformas baseadas no conceito de Cloud 64. Tais plataformas permitem que o projetista do sistema delegue
a complexidade tecnológica a recursos externos. Ao usar essa abordagem, alguns elementos cruciais de um
sistema de Big Data, como armazenamento e poder computacional para processamento de dados, tornam-se
serviços que podem ser simplesmente comprados no mercado. A pesquisa sobre este tema trata das questões
de acesso a serviços em nuvem e gerenciamento de transações entre os diversos atores envolvidos . Uma
das abordagens emergentes nesta corrente de pesquisa é superar os sistemas de gerenciamento de banco
65 .
de dados relacionais bem estabelecidos com a implementação de sistemas alternativos que
não sejam baseados nas relações tabulares usadas em bancos de dados tradicionais. Os bancos de dados
NoSQL foram desenvolvidos a partir dos anos 2000 para lidar com as limitações dos bancos de dados SQL,
principalmente no que diz respeito à escala, replicação e armazenamento de dados não estruturados. Os
bancos de dados NoSQL usam modelos de dados não convencionais, como armazenamentos de valores-
chave, em que os dados são representados por meio de uma coleção de pares de valores-chave em vez de
tabelas; Orientado a colunas, onde o conceito de coluna é separado do de tabela; Armazenamentos de
66,67
documentos, onde os dados são representados em documentos semiestruturados em vez de tabelas. Tauro et
al. oferecem um estudo comparativo de bancos de dados NoSQL, destacando
68
diferenças versus seus equivalentes relacionais.

Para concluir, a tecnologia tem, sem dúvida, um importante papel capacitador a desempenhar em todas as
fases da utilização de Big Data.
5.3. Métodos
O advento do Big Data foi acompanhado pela crescente demanda por novos métodos e técnicas para fazer
uso de dados. A ampla disponibilidade de informações forçou os profissionais de dados a irem além das
estatísticas tradicionais, em busca de métodos capazes de identificar padrões a partir de uma infinidade de
traços deixados pelo comportamento dos indivíduos. O conhecimento de tais métodos, de seus procedimentos
de aplicação e, principalmente, de suas limitações exige habilidades específicas e difíceis de encontrar no
mercado de trabalho atual.
Muitos métodos analíticos de Big Data foram discutidos na literatura2,69–71 e associados aos tópicos algoritmo-
método-clustering e modelo-predição-método, que são parcialmente sobrepostos, conforme mostrado na Fig.
4. Uma lista mesclada de tais métodos Versão pré -impressa do artigo publicado em 17 de julho de 2019 no
International Journal of Information Technology & Decision Making, vol. 18, nº 04, pp. 1433-1461 (2019), DOI:
https:// doi.org/ 10.1142/ S0219622019300040 © copyright World Scientific Publishing Company
incluem (em ordem alfabética): teste A/B, detecção de anomalias, aprendizado de regras de
associação, classificação, análise de cluster, aprendizado profundo, aprendizado conjunto, teoria de
extensão, algoritmos genéticos, processamento de linguagem natural, redes neurais, reconhecimento
de padrões, modelagem preditiva, regressão , análise de sentimento, processamento de sinais,
análise de redes sociais, análise espacial, aprendizado supervisionado e não supervisionado,
simulação e análise de séries temporais.
Chen et ai. 70 relatam a crescente necessidade de as empresas investirem em inteligência de
negócios e educação analítica que seria “interdisciplinar e abrangeria habilidades analíticas e de TI
críticas, conhecimento de negócios e domínio e habilidades de comunicação necessárias em um
ambiente de negócios centrado em dados complexos” (p. 1183) . O investimento no conhecimento
analítico deveria vir acompanhado de uma mudança cultural que abrangesse todos os funcionários e
os estimulasse a gerenciar adequadamente os dados e incorporá-los ao processo decisório72,73.
Mayer-Schönberger e Cukier36 prevêem o surgimento de novas entidades profissionais específicas,
chamadas algoritmistas, que dominariam as áreas de ciência da computação, matemática e estatística
e seriam auditores imparciais ao revisar a precisão ou validade das previsões de Big Data. Também
Davenport e Patil74 descrevem o cientista de dados como um híbrido de “hacker de dados, analista,
comunicador e conselheiro de confiança”, tendo também as habilidades fundamentais para escrever
programas de computador e conduzir, quando necessário, pesquisas de estilo acadêmico. No entanto,
os cientistas de dados sozinhos não são suficientes para permitir que as organizações tenham uma
vantagem competitiva real usando o Big Data75. Várias famílias de funções foram identificadas como
relacionadas a uma exploração efetiva de Big Data, a saber: analistas de negócios, cientistas de
dados, desenvolvedores de big data e engenheiros de big data76 . A análise das lacunas de
competência e a criação de métodos de ensino eficazes para preenchê-las, tanto para os gerentes e
profissionais futuros quanto para os atuais, é uma área de pesquisa promissora que ainda tem muitas
oportunidades de crescer.
Além disso, a capacidade de tomar decisões baseadas em dados está mudando drasticamente. De
fato, Big Data pode forçar a mudança do pensamento lógico baseado em causalidade para o
reconhecimento de links de correlação entre eventos. Aproveitar os insights gerados pelo Big Data
Analytics em empresas, universidades e instituições implica a adaptação a novos quadros de tomada
de decisão77 e uma evolução do método científico tradicional78 oferecendo oportunidades claras ,
para pesquisas futuras.
Conhecer as possíveis limitações do uso de Big Data Methods e limitar a euforia relacionada ao seu
rápido avanço é vital para as organizações que desejam conduzir uma tomada de decisão eficaz
baseada em dados. Por exemplo, as previsões podem vir com um senso de precisão artificial e errado
que a aparente sofisticação de alguns aplicativos de Big Data ou a extensa quantidade de pontos de
dados de treinamento (“o mito do grande n”) podem evocar. Assim, as previsões devem ser sempre
acompanhadas de uma indicação do seu nível de confiança79. Os praticantes de Big Data também
devem saber evitar o overfitting de modelos, levando naturalmente à apofenia, ou seja, a tendência
do ser humano de ver “padrões onde na verdade não existem, simplesmente porque enormes
quantidades de dados podem oferecer conexões que irradiam em todas as direções”16 .
O tópico learning-problem-machine é destaque dentro deste tema e inclui todos os trabalhos que
tratam de aprendizado de máquina e metodologias de inteligência artificial para
Versão pré-impressa do artigo publicado em 17 de julho de 2019 no International Journal of Information Technology &
Decision Making, vol. 18, nº 04, pp. 1433-1461 (2019), DOI: https:// doi.org/ 10.1142/ S0219622019300040 © copyright
World Scientific Publishing Company
o reconhecimento de padrões e técnicas de modelagem preditiva80 . O aprendizado de máquina estuda os

algoritmos que permitem a detecção de padrões por meio da análise de dados.
Essa disciplina está nas pegadas da inteligência artificial e tem adquirido posição de destaque dentro dos
métodos de Big Data. Os especialistas em Machine Learning precisam ter uma sólida formação em programação
e matemática e sua competência é cada vez mais procurada.
O tópico abordagem-mina-conjunto inclui aqueles estudos focados em métodos para lidar com a complexidade
de conjuntos de Big Data, como compressão e redução de dimensionalidade81,82 e visualização de dados83 . ,
5.4. Impacto
A exploração de Big Data encontrou uso generalizado em uma miríade de campos para diversas aplicações,
abrangendo todas as facetas da ciência, economia e sociedade humana. O tema 'Impacto' engloba todos os
estudos que descrevem exemplos concretos de exploração de Big Data, muitas vezes acompanhados de
propostas de novos princípios metodológicos que implicam novos desenvolvimentos. Além disso, o tema inclui
reflexões sobre o impacto adverso que um desenvolvimento desenfreado de aplicações de Big Data pode ter
em nossas vidas.
O primeiro tópico de grande relevância é o analytics-business-management , que pesquisa as aplicações de

Big Data voltadas para negócios. O principal desafio dessa vertente da literatura é a transformação da informação
em valor econômico. Trabalhos que abordam esse tema relembram exemplos em que os dados foram utilizados
como arma comercial para a criação de vantagem competitiva84 ou para aumentar drasticamente a eficácia e
a eficiência dos processos de negócios9,85. Os exemplos são extraídos de vários setores, abrangendo desde
o varejo até a manufatura, bancos e seguros86 . O papel do Big Data na tomada de decisão dita a necessidade
de as empresas adquirirem tecnologias e competências especiais e as obriga a integrar facilmente
recomendações baseadas em dados derivadas de análises complexas em processos de negócios, buscando
mudanças drásticas na estrutura e na cultura da organização, e ao seu modelo de negócios subjacente, tão
74,87
rápido quanto necessário para evitar ser aniquilado pela . Como consequência, as empresas precisam
concorrência88 .
Um impulsionador proeminente do impacto do Big Data na tomada de decisões é a adoção de técnicas de

visualização83 e sonificação89 de dados para disponibilizar grandes quantidades de informações para consumo
humano. Conforme descrito no tópico ferramentas de visualização ampla, a visualização provou ser eficaz para
apresentar e analisar grandes volumes de dados e trouxe novas oportunidades de pesquisa para computação
gráfica e comunidade de visualização90, como a necessidade de um ambiente de decisão imersivo e interativo
onde os gerentes pode alcançar uma maior consciência dos dados através da realidade virtual ou aumentada91 .
O tópico saúde-pacientes-saúde inclui exemplos de aplicações biomédicas para Big Data92. As principais
razões por trás do interesse em Big Data na indústria da saúde foram a disponibilidade de dados de diagnóstico
granulares, provenientes de tecnologias como tomografia axial computadorizada e ressonância magnética
nuclear, juntamente com a versão Preprint do artigo publicado em 17 de julho de 2019 no International Journal
de Tecnologia da Informação e Tomada de Decisão, vol. 18, nº 04, pp. 1433-1461 (2019), DOI: https:// doi.org/
10.1142/ S0219622019300040 © copyright World Scientific Publishing Company
digitalização de processos clínicos e registros de saúde93 e recuperação de grandes quantidades de

dados de sequências genéticas94. O rápido envelhecimento dos países desenvolvidos exige esforços
de saúde cada vez mais caros: a busca por um fortalecimento sustentável do acompanhamento
médico contínuo e suporte à população idosa independente é outro campo notável de aplicação do Big
Data95, e vem apresentando um crescimento notável na literatura .
Big Data também pode ser usado para apoiar a tomada de decisões na área da saúde, por exemplo,
para melhorar a triagem e priorização96 .
Os cientistas modernos adotam tecnologias e métodos de Big Data para manipular dados empíricos
com vistas a produzir respostas de pesquisa, conforme indicado pela literatura dentro do tópico projeto
de pesquisa-humano. Um dos exemplos mais notórios dessa implementação pode ser encontrado no
CERN, a Organização Européia para Pesquisa Nuclear, com sede em Genebra, na Suíça. Ao
armazenar e processar uma extensa quantidade de dados, os pesquisadores foram capazes de
contribuir para nossa compreensão da origem da massa de partículas subatômicas, incluindo a prova
da existência do bóson de Higgs em 201297 . para construir uma compreensão do comportamento .
humano na sociedade. Conforme afirmado por Conte et al. 98, “a disponibilidade de quantidades sem
precedentes de dados sobre interações humanas [… ] novo campo interdisciplinar chamado Ciência
Social Computacional99. Lazer et ai. destacam a necessidade emergente do desenvolvimento de
conjuntos de habilidades complementares e sinérgicos abrangendo cientistas sociais e de computação.
Notavelmente, durante esta revisão da literatura, encontramos reflexões semelhantes aplicadas a
100
diferentes domínios70. Isso nos leva a afirmar que o desafio de desenvolver conjuntos de habilidades
interdisciplinares - incluindo ciência da computação, matemática e outras áreas específicas de
aplicação - é um fator comum entre as implementações de Big Data.
Por outras palavras, a exploração efetiva do Big Data para a criação de valor requer competências
intrinsecamente multidisciplinares. A oportunidade subjacente é que as universidades implementem
currículos de estudo relevantes e que as empresas desenvolvam carreiras significativas e caminhos
de aprendizado para gerentes com conhecimento de dados.
O setor público é outro terreno fértil para Big Data. Os governos podem neutralizar seu desempenho
altamente variável, aproveitando a enorme quantidade de dados transacionais e censitários coletados
dos cidadãos101 . A transparência, em particular, pode ser um facilitador crítico de maior eficiência e
produtividade para instituições públicas69. Ao abrir e compartilhar dados com os cidadãos, os governos
podem resistir à falta de pressão competitiva no setor e conter os gastos públicos, evitar fraudes e
aumentar o senso de propriedade dos cidadãos em relação aos bens e fundos de bem comum.
Big Data também é percebido como uma fonte potencial de impacto adverso em nossas ,
sociedades4,16,102 conforme descrito no tópico pesquisa-tecnologia-desafio. A tese mais popular
apresentada pelos detratores do Big Data é que ele é uma ameaça à privacidade do indivíduo: alguns
até levantaram a hipótese de que seu crescimento levará ao que pode ser chamado de 'fim da
privacidade' como o conhecemos atualmente103 . De fato, um conjunto de dados pode conter um
rastro de traços granulares deixados pelo comportamento de um indivíduo, incluindo sua posição no
espaço, a proximidade de lugares ou outras pessoas e os sinais de áudio/vídeo capturados naquele
ambiente. Embora o indivíduo concorde em compartilhar cada sinal individual, seu uso coletivo pode
revelar padrões inesperados que a pessoa pode não gostar de liberar. Além disso, o processo de
anonimização do conjunto de dados pode não impedir totalmente a identificabilidade do indivíduo pelo
processo inverso104. As ações de uma pessoa também podem se tornar previsíveis por aqueles que
possuem o nível correto de dados históricos e isso coloca a questão ética de proteger o livre arbítrio
dos seres humanos.
O tópico informações-conhecimento-fontes enfatiza a importância da mineração de dados para
descobrir conhecimento105 De
. fato, os pesquisadores identificaram vários desafios para uma exploração
de Big Data com criação de valor, como a harmonização de fontes de informação que evoluem de
forma autônoma e a natureza esparsa, incerta e incompleta da maioria dos dados106 . O tema também
aponta para o surgimento de uma nova divisão digital em função do acesso às fontes de conhecimento,
que divide as empresas entre ricas em informações e pobres em dados16 . A criação de perfil, a
segmentação, mas também a vigilância, estão se tornando excessivamente acessíveis para aquelas
poucas empresas de mídia social que atingiram uma base de usuários considerável e possuem dados
transacionais suficientes107,108. Esse risco está sendo alertado por pesquisadores que propõem
considerar os dados como uma nova dimensão dentro da regulamentação antitruste.
6. conclusões
A crescente exploração do Big Data como um ativo estratégico assumiu recentemente um papel
fundamental no desenvolvimento dos negócios e da sociedade. O Big Data rapidamente se moveu
para o centro de uma infinidade de domínios díspares, desde tecnologia da informação até
gerenciamento de negócios e ciências médicas, resultando em um desenvolvimento florescente, mas
muitas vezes desorganizado, de conhecimento metodológico, ferramentas técnicas e aplicações
práticas. Este artigo apresenta os resultados de uma revisão sistemática da literatura, obtida por meio
de uma combinação de técnicas de mineração de texto e modelagem estatística. A metodologia
analítica original adotada neste estudo produziu uma estrutura hierárquica de dois níveis que descreve
os componentes da pesquisa atual sobre este assunto de uma forma que é inteligível e explicativa.
Como resultado, pudemos classificar os artigos da comunidade epistêmica de Big Data, identificando
17 tópicos fundamentais e quatro grandes temas, que intuitivamente descrevem como a massa caótica
de estudos abordava o assunto. Essa abordagem nos permitiu superar alguns dos limites de outras
revisões recentes da literatura sobre Big Data, que se concentravam em subconjuntos mais restritos
da literatura de Big Data. Embora alguns artigos possam apresentar características de temas cruzados,
descobrimos que a maioria deles se encaixa bem em um dos quatro temas pertencentes ao modelo
ITMI de Big Data. Além disso, o presente estudo confirma o valor geral do modelo ITMI, também
observado por outros pesquisadores em áreas específicas (como a literatura biomédica7 ), e o aprimora
ao introduzir os 17 tópicos subjacentes nos 4 temas. O modelo de dois níveis resultante pode ser
descrito através dos seguintes fatos fundamentais que são ilustrados na literatura atual: • Tema da
informação (inclui 4 tópicos): Os dados são gerados em uma taxa exponencialmente crescente de
todos os tipos de
dados pessoais (móveis-sociais-usuários ) e dispositivos não pessoais (sensores-power-operações,
eventos-fatores de tráfego) e é caracterizado por um
maior grau de heterogeneidade em sua forma e conteúdo. A maior disponibilidade de dados acarreta
maiores riscos de segurança (segurança-acesso à informação).
• Tema de tecnologia (inclui 3 tópicos): processar e armazenar grandes volumes de dados dentro de
um prazo razoável implica em requisitos de desempenho rigorosos. Assim, algumas das questões
fundamentais que acompanham o Big Data estão relacionadas à tecnologia e incluem o design de
arquiteturas distribuídas (computação-nuvem-processamento), mecanismos eficientes para
armazenamento de dados (rede-armazenamento-desempenho) e modelos de dados não
convencionais (sistema-desempenho) . banco de dados de design).
• Tema de métodos (inclui 4 tópicos): a capacidade de transformar Big Data em insights significativos e
previsões de valor agregado pressupõe o conhecimento de métodos e técnicas apropriadas
(algoritmo-método-clustering, modelo-predição-método), muitas vezes com base em aprendizado de
máquina algoritmos (learning-problem-machine), capazes de lidar com as dimensões do Big Data
(approach-mine-set). • Tema de impacto (inclui 6 tópicos): o
advento do Big Data está afetando toda a sociedade, incluindo empresas (analytics-business-
management, large-visualization tools), comunidades científicas (pesquisa-projeto-humano),
governos e provedores de saúde (saúde-pacientes-saúde). Algumas implicações do uso generalizado
de dados também são percebidas como adversas: Big Data às vezes é visto como uma ameaça à
privacidade pessoal (desafios de tecnologia de pesquisa) e como uma barreira à livre concorrência
de mercado (fontes de conhecimento de informação).
O modelo ITMI proposto corrobora e amplia as estruturas de tópicos de Big Data já apresentadas na
literatura. Por exemplo, a classificação oferecida por Mishra et al. com foco no campo de gerenciamento
da cadeia de suprimentos6 confirma que a pesquisa de Big Data lida com: desafios relacionados a
dados, como qualidade de dados e acesso a feeds de mídia social (Informações), ferramentas para
gerenciar grandes conjuntos de dados e arquiteturas (Tecnologia), algoritmos e dados técnicas de
mineração (Métodos) e aplicações (Impacto).
Além disso, Van Altena et al.7 identificam 25 tópicos dentro de pesquisas biomédicas mais amplas e
concluem que os temas Informação, Tecnologia, Métodos e Impacto são os mais frequentemente
encontrados em tais tópicos.
O modelo conceitual hierárquico baseado em tópicos apresentado neste estudo pode apoiar pesquisas
futuras de três maneiras. Em primeiro lugar, os autores de Big Data entenderão claramente o
posicionamento de seus futuros artigos em relação a um ou mais tópicos dentro de um ou mais temas,
aprimorando sua capacidade de identificar seu embasamento teórico relevante. Em segundo lugar, a
classificação de dois níveis do ITMI ajudará a projetar pesquisas deliberadamente voltadas para o estudo
de Big Data em uma perspectiva multitemática, abrangendo a natureza multidisciplinar fisiológica do
assunto. Em terceiro lugar, a classificação do ITMI permitirá avaliar a evolução dos quatro temas,
incluindo a identificação de tópicos emergentes promissores. Mais precisamente, o presente estudo
identificou três direções de pesquisa que demonstraram um nível de interesse desenfreado nos últimos
anos e que devem continuar no futuro próximo: • a aplicação de Big Data no setor de saúde,
especialmente como suporte para
as crescentes necessidades da população idosa cada vez mais relevante para a demografia; • a
crescente utilização de dados captados por sensores dispersos, como consequência do
surgimento da Internet das Coisas;
• a necessidade imperiosa de as empresas estarem dotadas de recursos humanos adequados,

capazes de tirar o melhor partido das metodologias e técnicas analíticas de Big Data.
Encontramos uma confirmação quantitativa dessas promissoras vertentes de pesquisa, avaliando o
aumento da presença de cada tópico na literatura ao longo dos anos. Conforme mostrado na Figura
5, os três tópicos que mostram um aumento notável de presença ao longo dos anos estão relacionados
a aplicativos de saúde, IoT e métodos analíticos. É interessante notar que o tema Tecnologia é o que
mais está em declínio: os pesquisadores parecem diminuir o interesse por temas específicos de
tecnologia (como bancos de dados, ferramentas de visualização e soluções em nuvem) à medida que
as tecnologias de computação e armazenamento de Big Data parecem se tornar cada vez mais
disponíveis e comoditizado.
Tabela 3: Uma agenda de pesquisa baseada no modelo ITMI Possíveis

Tema tópicos de pesquisa Possíveis áreas de investigação Integração de fontes de
Informação dados Quais técnicas podem permitir que várias fontes de dados sejam efetivamente vinculadas de maneira a
preservar a privacidade109 ?
Como resolver de forma sustentável o processamento

de dados, a rede e a interoperabilidade dos feeds de dados da Internet
das Coisas110?
Estabelecimento de Big Data Como os dados podem ser precificados, negociados e protegidos
mercado para permitir um mercado de dados próspero e justo111?
Tecnologia Evolução das técnicas de armazenamento Como os bancos de dados relacionais tradicionais podem coexistir
com o NoSQL DB112?
Quais metodologias de design podem ser usadas para garantir
integridade e consistência aos bancos de dados NoSQL113?
Potência de computação como um serviço Como a potência de computação para aprendizado de máquina pode
ser fornecida de maneira escalável, em tempo real e orientada a
serviços114 ?
Métodos Novas técnicas para analisar dados As abordagens estatísticas significativas tradicionais (como valores-
p) ainda são formas válidas de avaliar a robustez dos
modelos de Big Data115?
Como lidar com o risco crescente de encontrar algum significado
em quase tudo16,36,115?
Como lidar efetivamente com o viés de amostragem e seleção em
fontes de Big Data, gerenciando o chamado “mito do grande n”
116?
Integração de pequenos e grandes Qual é o novo papel do Small Data no contexto da utilização massiva
Dados do Big Data Analytics e como as empresas devem se organizar
para integrar abordagens quantitativas e qualitativas para geração
efetiva de vantagem competitiva 117?
Como gerenciar sistematicamente o trade-off entre previsão e

explicação na análise de Big Data118?
Desenvolvimento analítico de Quais novas competências são necessárias para alavancar
recursos humanos efetivamente o Big Data e como as empresas devem se organizar
para reequipar, reter e adquirir talentos humanos experientes em
dados76?
Impacto Avaliação do impacto financeiro de Qual é o impacto financeiro real das iniciativas de Big Data e
Utilização de dados como o valor organizacional da implementação de Big Data pode
ser avaliado119?
Cultura e organização de tomada Quais práticas e cultura organizacional são necessárias para
de decisão orientada por afetar positivamente o desempenho de uma empresa ao alavancar o
Big Data Big Data120?
Como as empresas podem adotar uma estratégia de dados
abrangente e corrigir qualquer desalinhamento entre a estratégia
aspirações e autenticidade121?
Como a governança da informação pode apoiar e aumentar
o impacto das iniciativas de Big Data122,123?
Acreditamos que o modelo conceitual ITMI apresentado neste artigo, baseado nas vertentes de
pesquisa observadas na literatura, pode servir como um sólido framework para uma agenda de
pesquisa em Big Data. De fato, descobrimos que muitos dos desafios abertos reconhecidos na presente
revisão da literatura foram destacados por propostas recentes de agenda de pesquisa73,124,125. Na
Tabela 3, oferecemos uma cobertura ilustrativa das atuais áreas de investigação que acreditamos que
deveriam fazer parte da agenda de pesquisa sobre Big Data.
A classificação ITMI também é útil para os profissionais, que podem identificar intuitivamente os
aspectos fundamentais do Big Data que devem ser levados em consideração por qualquer empresa
que queira extrair informações do Big Data e melhorar seu desempenho. Além disso, as empresas
podem usar o modelo ITMI como uma estrutura conceitual para avaliar pontos fortes e oportunidades
em todas as dimensões relevantes e decidir as melhores estratégias de melhoria. Embora o desenho
de um modelo de maturidade rigoroso baseado na estrutura ITMI não esteja incluído no trabalho atual
de pesquisa, os gerentes já podem alavancar o modelo hierárquico resultante para organizar seu
planejamento estratégico. De fato, trabalhos existentes já apontaram como a disponibilidade de dados,
tecnologia e know-how metodológico dentro da organização são pré-requisitos para a criação de valor
com base em Big Data73,126,127
.
Este artigo propôs uma metodologia de revisão sistemática da literatura que pode ser aplicada
virtualmente a qualquer campo científico. A metodologia é baseada em uma combinação original de
dois algoritmos de aprendizado de máquina estabelecidos (LDA e agrupamento hierárquico) e pode
permitir o design de estruturas de tópicos que os especialistas podem usar para descrever de forma
abrangente uma área de assunto. A generalização dessa abordagem analítica tem o potencial de
simplificar enormemente a maneira como o conhecimento escrito pode ser ilustrado e é deixada para pesquisas futuras.
A investigação atual é afetada por várias limitações conhecidas que fornecem oportunidades
estimulantes para pesquisas futuras. Em primeiro lugar, o corpus de documentos utilizados para
a revisão da literatura é proveniente exclusivamente do Scopus, que é um repositório parcial,
embora extenso, de artigos de pesquisa. Essa limitação sugere a oportunidade de realizar novas
pesquisas utilizando fontes adicionais para a constituição do corpus de artigos a serem
analisados. Em segundo lugar, a análise foi baseada exclusivamente em documentos em inglês
e pode excluir alguns tópicos relevantes em países que não falam inglês. Em terceiro lugar,
estamos cientes de que futuras inovações tecnológicas disruptivas podem afetar muito os
principais tópicos da literatura de Big Data e até exigir um repensar abrangente dos temas ITMI.
Em quarto lugar, como a pesquisa começou em 2017, nosso conjunto de dados pode incluir
apenas estudos até 2016, futuros estudos de replicação poderão assumir a liderança deste artigo
e atualizar o entendimento da literatura de Big Data. Por fim, a escolha da hierarquia de tópicos
e a avaliação da precisão do modelo foram baseadas no julgamento humano de um número
limitado de especialistas e podem ser estendidas a uma versão Preprint baseada em consenso
do artigo publicado em 17 de julho de 2019 na International Jornal de Tecnologia da Informação
e Tomada de Decisões, vol. 18, nº 04, pp. 1433-1461 (2019), DOI: https:// doi.org/ 10.1142/
S0219622019300040 © copyright World Scientific Publishing Company
painel de reconhecidos profissionais e pesquisadores. Tal extensão da pesquisa possibilitaria

também a comparação quantitativa da inteligibilidade humana obtida por meio da abordagem
apresentada com outros métodos de agrupamento hierárquico.
Agradecimentos
Os autores gostariam de agradecer aos criadores de todos os pacotes R usados para

conduzir este estudo, em particular, Malika Charrad, que forneceu suporte imediato em seu
pacote NbClust32 .
Referências
1. V. Mayer-Schönberger e K. Cukier, Big Data: A Revolution That Will Transform How We Live, Work
and Think (John Murray, Londres, 2013).
2. A. Gandomi e M. Haider, Além do exagero: Conceitos, métodos e análises de big data, Int. J. Inf.
Gerenciar. 35 (2015) 137–144.
3. X. Tian, Big data e gestão do conhecimento: um caso de déjà vu ou de volta ao futuro?, J.
Knowl. Gerenciar 21 (2017) 113–131.
4. R. Clarke, Big data, grandes riscos, Inf. Sist. J. 26 (2016) 77–90.
5. S. Fosso Wamba, S. Akter, A. Edwards, G. Chopin e D. Gnanzou, Como 'big data' pode causar
grande impacto: Descobertas de uma revisão sistemática e um estudo de caso longitudinal, Int . j.
Prod. Econ. 165 (2015) 234–246.
6. D. Mishra, A. Gunasekaran, T. Papadopoulos e SJ Childe, Big Data e gerenciamento da cadeia de
suprimentos: uma revisão e análise bibliométrica, Ann. Operador Res. (2016) 1–24.
7. AJ van Altena, PD Moerland, AH Zwinderman e SD Olabarriaga, Compreendendo temas de big
data da literatura biomédica científica por meio da modelagem de tópicos, J. Big Data 3 (2016) 23.
8. A. De Mauro, M. Greco e M. Grimaldi, Uma definição formal de Big Data baseada em suas
características essenciais, Libr. Rev. 65 (2016) 122–135.
9. TH Davenport, Big Data no trabalho: dissipando os mitos, descobrindo as oportunidades (Harvard
Business Review Press, 2014).
10. DJ Power, Uma Breve História dos Sistemas de Apoio à Decisão, 2007. . Disponível em: http://
dssresources.com/history/dsshistory.html. [Acesso: 20-nov-2017].
11. MA Beyer e D. Laney, The Importance of “Big Data”: A Definition (Stamford, CT, 2012).
12. A. Zaslavsky, C. Perera e D. Georgakopoulos, Sensing as a service and big data, in Proc. Int. conf.
Adv. Computação em Nuvem. (Bangalore, 2012), pp. 21–29.
13. Grupo de Trabalho Público de Big Data do NIST, Estrutura de Interoperabilidade de Big Data:
Definições (rascunho) (Instituto Nacional de Padrões e Tecnologia, Gaithersburg, MD, 2014).
14. E. Dumbill, Making Sense of Big Data, Big Data 1 (2013) 1–2.
15. V. Mayer-Schönberger e K. Cukier, Big Data: A Revolution That Will Transform How We Live (2013).
16. D. Boyd e K. Crawford, Questões críticas para big data: Provocações para um fenômeno cultural,
tecnológico e acadêmico, Information, Commun. Sociedade 15 (2012) 662–679.
17. D. Delen e MD Crossland, Semeando a pesquisa e análise da literatura de pesquisa com mineração
de texto, Expert Syst. Appl. 34 (2008) 1707–1720.
18. BCM Fung, K. Wangy e M. Esterz, agrupamento hierárquico de documentos usando a versão pré-impressa
frequente do artigo publicado em 17 de julho de 2019 no International Journal of Information Technology & Decision
Making, vol. 18, nº 04, pp. 1433-1461 (2019), DOI: https:// doi.org/ 10.1142/ S0219622019300040 © copyright World
Scientific Publishing Company
conjuntos de itens, em Int. conf. Dados mín. (San Francisco, CA, 2003), pp. 59–70.
19. SMC Moro, PAR Cortez e PMRF Rita, Inteligência de negócios em bancos: uma análise da literatura de
2002 a 2013 usando mineração de texto e alocação latente de Dirichlet, Expert Syst. Appl. 42 (2014)
1314–1324.
20. A. Sunikka e J. Bragge, Aplicando a mineração de texto à literatura de pesquisa de personalização e
personalização – Quem, o quê e onde?, Expert Syst. Appl. 39 (2012) 10049–10058.
21. GW Milligan e MC Cooper, Um exame de procedimentos para determinar o número de grupos em um
conjunto de dados, Psychometrika 50 (1985) 159–179.
22. EM Airoldi, DM Blei, SE Fienberg e EP Xing, Modelos de blocos estocásticos de associação mista, J.
Mach. Aprender. Res. 9 (2008) 1981–2014.
23. EM Airoldi, DM Blei, EA Erosheva e SE Fienberg, Handbook of Mixed Membership Models and Their
Applications (CRC Press, 2014).
24. DM Blei, Introdução aos Modelos de Tópicos Probabilísticos, Commun. ACM 55 (2012) 77–84.
25. D. O'Callaghan, D. Greene, J. Carthy e P. Cunningham, Uma análise da coerência dos descritores na
modelagem de tópicos, Expert Syst. Appl. 42 (2015) 5645–5657.
26. D.-T. Vo e C.-Y. Ock, Aprendendo a classificar textos curtos de documentos científicos usando modelos
de tópicos com vários tipos de conhecimento, Expert Syst. Appl. 42 (2015) 1684-1698.
27. M. Ponweiser, Latent Dirichlet Allocation in R (Universidade de Economia e Negócios, Viena, 2012).
28. TL Griffiths e M. Steyvers, Encontrando tópicos científicos, em Proc. Nacional Acad. ciência EUA (2004),
pp. 5228–5235.
29. M. a Taddy, Sobre Estimativa e Seleção de Modelos de Tópicos, Proc. Décima Quinta Int. conf.
artif. Intel. Estado. (AISTATS 2012) (2012) 1184–1193.
30. J. Chang, S. Gerrish, C. Wang e DM Blei, Reading Tea Leaves: How Humans Interpret Topic Models,
Adv. Informação Neural Processo. Sist. 22 (2009) 288--296.
31. EF Glynn, “Distâncias” de correlação e agrupamento hierárquico, notas de pesquisa de efg, 2005. .
Disponível em: http://research.stowers-institute.org/mcm/efg/R/Visualization/cor cluster/index.htm.
[Acesso: 11-nov-2017].
32. M. Charrad, N. Ghazzali, V. Boiteau e A. Niknafs, NbClust: Um pacote R para determinar o número
relevante de clusters em um conjunto de dados, J. Stat. Softw. 61 (2014) 1–36.
33. MF Porter, Um algoritmo para remoção de sufixos, Programa 14 (1980) 130–137.

34. M. Hilbert, Big data para o desenvolvimento: Da informação às sociedades do conhecimento (2013).
35. K. Coyle, digitalização em massa de livros, J. Acad. Bibliotecário. 32 (2006) 641–645.
36. V. Mayer-Schönberger e K. Cukier, Big Data: A Revolution That Will Transform How We Live (2013).
37. P. Russom, Análise de Big Data (Renton, WA, 2011).

38. LC Freeman, O desenvolvimento da análise de redes sociais (ÿP Empirical Press, Vancouver, 2004).
39. M. Elshendy e AF Colladon, análise de big data de notícias econômicas: dicas para prever indicadores
macroeconômicos, Int. J. Eng. Ônibus. Gerenciar 9 (2017) 1–12.
40. A. La Bella, A. Fronzetti Colladon, E. Battistoni, S. Castellan e M. Francucci, Avaliação de estilos de
liderança organizacional percebidos por meio da mineração de texto no Twitter, J. Assoc. Inf. ciência
Tecnol. (2017).
41. DJ Pauleen, Davenport e Prusak sobre KM e big data/analytics: entrevista com David J. Pauleen, J.
Knowl. Gerenciar 21 (2017) 7–11.
42. DS Terzi, R. Terzi e S. Sagiroglu, Uma pesquisa sobre questões de segurança e privacidade em big data,
em 2015 10º Int. conf. Tecnologia da Internet. Seguro. Trans. (IEEE, 2015), pp. 202–207.
43. Y. Mengke, Z. Xiaoguang, Z. Jianqiu e X. Jianjian, Desafios e soluções de questões de segurança da
informação na era do big data, China Commun. 13 (2016) 193–202.
44. KE Greenaway, YE Chan e RE Crossler, Orientação para a privacidade das informações da empresa: uma
estrutura conceitual, Inf. Sist. J. 25 (2015) 579–606.
45. D. Estrin, D. Culler, K. Pister e G. Sukhatme, Conectando o mundo físico com redes pervasivas, IEEE
Pervasive Comput. 1 (2002) 59–69.
46. L. Atzori, A. Iera e G. Morabito, The Internet of Things: A survey, Comput. Redes 54 (2010) 2787–2805.
47. M. Chui, M. Löffler e R. Roberts, The Internet of Things, McKinsey Q. (2010) 1–9.
48. L. Uden e W. He, Como a Internet das Coisas pode ajudar a gestão do conhecimento: um estudo de caso
do domínio automotivo, J. Knowl. Gerenciar 21 (2017) 57–70.
49. J. Bughin, M. Chui e J. Manyika, Clouds, big data, and smart assets: Ten tech-enabled business trends to
watch, McKinsey Q. 56 (2010) 75–86.
50. J. Zhan, J. Huang, L. Niu, X. Peng, D. Deng e S. Cheng, Estudo das principais tecnologias de big data de
energia elétrica e suas perspectivas de aplicação em smart grid, em 2014 IEEE PES Asia-Pacific Power
Eng. de Energia conf. (2014), pp. 1–4.
51. E. Al Nuaimi, H. Al Neyadi, N. Mohamed e J. Al-Jaroodi, Applications of big data to smart cities, J. Internet
Serv. Appl. 6 (2015) 1–15.
52. GE Moore, Cramming mais componentes em circuitos integrados, Reprinted from Electronics, volume 38,
número 8, 19 de abril de 1965, pp.114 ff., IEEE Solid-State Circuits Newsl. 11 (2006) 33–35.
53. M. Hilbert e P. López, A capacidade tecnológica do mundo para armazenar, comunicar e computar
informações., Ciência (80-. ). 332 (2011) 60–65.
54. TC Xu e V. Leppanen, analisando tecnologias emergentes de memória para big data e aplicativos de
processamento de sinal, em 2015 Fifth Int. conf. Dígito Inf. Processo. Comum.
(IEEE, 2015), pp. 104–109.
55. S. Venkataraman, N. Tolia, P. Ranganathan e RH Campbell, Estruturas de dados consistentes e duráveis
para memória endereçável por byte não volátil, em Proc. 9ª USENIX Conf.
Tecnologia de armazenamento de arquivos. - FAST (2011), pp. 61–75.
56. M. Sathiamoorthy, M. Asteris, D. Papailiopoulos, AG Dimakis, R. Vadali, S. Chen e D. Borthakur, XORing
Elephants: Novel Erasure Codes for Big Data, in 39th Int. conf.
Bancos de Dados Muito Grandes, VLDB (2013), pp. 325–336.
57. L. Zhou, D2D Communication Meets Big Data: From Theory to Application, Mob.
Aplicativo de Redes 20 (2015) 783-792.
58. R. Castro Fernandez, M. Migliavacca, E. Kalyvianaki e P. Pietzuch, Integrando expansão e tolerância a
falhas no processamento de fluxo usando gerenciamento de estado do operador, em Proc.
2013 ACM SIGMOD Int. conf. Gerenciar Dados (2013), pp. 725–736.
59. C. Ji, Y. Li, W. Qiu, U. Awada e K. Li, Big Data Processing in Cloud Computing Environments, in 12th Int.
Simp. Sistema Pervasivo Algorithms Networks (San Marcos, TX, 2012), pp. 17–23.
60. L. Gu, D. Zeng, S. Guo, Y. Xiang e J. Hu, Uma Estrutura Geral de Otimização de Custos de Comunicação
para Processamento de Fluxo de Big Data em Data Centers Geo-Distribuídos, IEEE Trans . Comput. 65
(2016) 19–29.
61. K. Shvachko, H. Kuang, S. Radia e R. Chansler, O sistema de arquivos distribuído Hadoop, em IEEE 26º
Symp. Sistema de armazenamento em massa Tecnol. MSST2010 (IEEE, 2010), pp. 1–10.
J. Dean e S. Ghemawat, MapReduce: Processamento de Dados Simplificado em Grandes Clusters, 62.
Comum. ACM 51 (2008) 1–13.

63. S. Ghemawat, H. Gobioff e S.-T. Leung, O sistema de arquivos do Google, ACM SIGOPS Oper.
Sist. Rev. 37 (2003) 29–43.
64. IAT Hashem, I. Yaqoob, NB Anuar, S. Mokhtar, A. Gani e S. Ullah Khan, The rise of “big data” on cloud
computing: Review and open research issues, Inf. Sist. 47 (2015) 98–115.
65. D. Argawal, S. Das e A. El Abbadi, Big Data e Computação em Nuvem: Estado Atual e Oportunidades
Futuras, em Proc. Int. conf. Estendendo a tecnologia de banco de dados. (ACM Press, Uppsala, 2011), pp.
530–533.
66. Jing Han, Haihong E, Guan Le e Jian Du, Pesquisa sobre banco de dados NoSQL, em 2011 6º Int.
conf. Computação Pervasiva. Appl. (IEEE, 2011), pp. 363–366.
67. J. Bhogal e I. Choksi, Handling Big Data Using NoSQL, em 2015 IEEE 29th Int. conf.
Adv. Inf. Netw. Appl. Trabalhar. (IEEE, 2015), pp. 393–398.
68. CJ Tauro, S. Aravindh e AB Shreeharsha, Estudo Comparativo da Nova Geração, Ágil, Escalável, Bancos
de Dados NOSQL de Alto Desempenho, Int. J. Comput. Appl. 48 (2012) 1–4.
69. J. Manyika, M. Chui, B. Brown, J. Bughin, R. Dobbs, C. Roxburgh e A. Hung Byers, Big data: A próxima
fronteira para inovação, competição e produtividade (2011).
70. H. Chen, R. Chiang e V. Storey, Business Intelligence and Analytics: From Big Data to Big Impact, MIS Q.
36 (2012) 1165–1188.
71. X. Li, Y. Tian, F. Smarandache e R. Alex, Um Modelo de Inovação Colaborativa de Extensão no Contexto
de Big Data, Int. J. Inf. Tecnol. Decis. Mak. 14 (2015) 69–91.
72. HU Buhl, M. Röglinger, F. Moser e J. Heidemann, Big Data, Bus. Inf. Sist. Eng. 5 (2013) 65–69.
73. P. Mikalef, IO Pappas, J. Krogstie e M. Giannakos, Capacidades de análise de big data: uma revisão
sistemática da literatura e agenda de pesquisa, Inf. Sist. E-Bus. Gerenciar (2017) 1–32.
74. TH Davenport e DJ Patil, cientista de dados: o trabalho mais sexy do século 21, Harv.
Ônibus. Rev. 90 (2012) 70–76.
75. S. Miller, Abordagens colaborativas necessárias para fechar a lacuna de habilidades de big data, J. Organ.
Des. 3 (2014) 26–30.
76. A. De Mauro, M. Greco, M. Grimaldi e P. Ritala, Recursos humanos para profissões de Big Data: uma
classificação sistemática de funções de trabalho e conjuntos de habilidades necessárias, Inf. Processo.
Gerenciar 0 (2017) 1–11.
77. A. McAfee e E. Brynjolfsson, Big data: a revolução do gerenciamento, Harv. Ônibus. Rev. 90 (2012) 61–67.
78. C. Anderson, O Fim da Teoria: O Dilúvio de Dados Torna o Método Científico Obsoleto, Wired 16 (2007).
79. K. Seely-Gant e LM Frehill, Explorando Viés e Erro na Pesquisa de Big Data, Washingt. Acad. ciência J.
Washingt. Acad. ciência 101 (2015) 29.
80. CM Bishop, Reconhecimento de padrões e aprendizado de máquina (Springer, Nova York, NY, 2006).
81. D. Feldman, M. Schmidt e C. Sohler, Transformando dados grandes em dados minúsculos: conjuntos de
núcleos de tamanho constante para k-means, PCA e clustering projetivo, em Proc. Vigésimo quarto ano.
ACM SIAM Symp. Discreto. Algorithms (Society for Industrial and Applied Mathematics, Filadélfia, PA,
2013), pp. 1434–1453.
82. M. Song, H. Yang, SH Siadat e M. Pechenizkiy, Um estudo comparativo de técnicas de redução de
dimensionalidade para aprimorar desempenhos de agrupamento de traços, Expert Syst.
Appl. 40 (2013) 3722–3737.

83. L. Zhang, A. Stoffel, M. Behrisch, S. Mittelstädt, T. Schreck, R. Pompl, S. Weber, H. Last e D.
Keim, Visual analytics for the big data era - Uma revisão comparativa do estado- sistemas
comerciais de última geração, em IEEE Conf. Vis. Anal. ciência Tecnol. 2012, VAST 2012 - Proc.
(Universidade de Konstanz, Alemanha, 2012), pp. 173–182.
84. S. Erevelles, N. Fukawa e L. Swayne, Análise do consumidor de Big Data e a transformação do
marketing, J. Bus. Res. 69 (2016) 897–904.
85. TH Davenport e J. Dyché, Big Data in Big Companies (International Institute for Analytics, Portland,
OR, 2013).
86. B. Marr, Big Data in Practice (John Wiley & Sons, Ltd, Chichester, Reino Unido, 2016).
87. B. Marr, Big Data: Usando SMART Big Data, Analytics e Métricas para Tomar Melhores Decisões
e Melhorar o Desempenho (Wiley, 2015).
88. T. Pearson e R. Wegener, Big Data: O desafio organizacional, 2013. . Disponível em: http://
www.bain.com/publications/articles/big_data_the_organizational_challenge.aspx.
[Acesso: 20-nov-2017].
89. J. Rimland, M. Ballora e W. Shumaker, Além da visualização de big data: uma abordagem de
exploração de dados em vários estágios usando visualização, sonificação e armazenamento, em
Proc. SPIE - Int. Sociedade Optar. Eng. (Faculdade de Ciências e Tecnologia da Informação,
Penn State University, University Park, PA 16802-6822, Estados Unidos, 2013).
90. D. Keim, H. Qu e K.-L. Ma, Visualização de Big Data, IEEE Comput. Gráfico. Appl. 33 (2013) 20–
21.
91. A. Moran, V. Gadepally, M. Hubbell e J. Kepner, Melhorando a análise visual de Big Data com
realidade virtual interativa, em 2015 IEEE High Perform. Extremo. Comput. conf. (2015), pp. 1–6.
92. S. Bahri, N. Zoghlami, M. Abed e JMRS Tavares, Big Data for Healthcare: A Survey, IEEE Access
7 (2019) 7397–7408.
93. TB Murdoch e AS Detsky, A aplicação inevitável de big data aos cuidados de saúde, JAMA 309
(2013) 1351–1352.
94. CG Chute, M. Ullman-Cullere, GM Wood, SM Lin, M. He e J. Pathak, Algumas experiências e
oportunidades para big data em pesquisa translacional, Genet. Med. 15 (2013) 802-809.
95. P. Jiang, J. Winkley, C. Zhao, R. Munnoch, G. Min e LT Yang, um encaminhador de informações

inteligente para sistemas de big data de assistência médica com sensores vestíveis distribuídos,
IEEE Syst. J. (2014) 1–9.
96. OH Salman, AA Zaidan, BB Zaidan, Naserkalid e M. Hashim, Nova Metodologia para Triagem e
Priorização do Uso de “Big Data” de Pacientes com Doenças Cardíacas Crônicas Através da
Telemedicina Ambiental, Int . J. Inf. Tecnol. Decis. Mak. 16 (2017) 1211–1245.
97. J. Cao, Z. Heng, JM Yang e J. Zhu, Status de modelos SUSY de baixa energia confrontados com
os dados LHC 125 GeV Higgs, J. High Energy Phys. 2012 (2012) 79.
98. R. Conte, N. Gilbert, G. Bonelli, C. Cioffi-Revilla, G. Deffuant, J. Kertesz, V. Loreto, S.
Moat, JP Nadal, A. Sanchez, A. Nowak, A. Flache, M. San Miguel e D. Helbing, Manifesto de
ciência social computacional, Eur. Física J. Spec. Principal. 214 (2012) 325–346.
99. C. Cioffi-Revilla, Ciências sociais computacionais, Wiley Interdiscip. Rev. Comput. Estado. 2
(2010) 259–271.
100. D. Lazer, D. Brewer, N. Christakis, J. Fowler e G. King, Life in the network: the coming age of
computational social, Science (80-. ). 323 (2009) 721–723.
101. B. Brown, M. Chui e J. Manyika, Você está pronto para a era do 'big data'?, McKinsey Q. 4 (2011)
24–35.
102. M. Hilbert, Big Data para Desenvolvimento: Uma Revisão de Promessas e Desafios, Dev.
Política Rev. 34 (2016) 135–174.
103. P. Tubaro, A. a Casilli e Y. Sarabi, Contra a hipótese do fim da privacidade (2014).
104. A. Narayanan e V. Shmatikov, Robust de-anonimização de grandes conjuntos de dados esparsos,
em Proc. - IEEE Symp. Seguro. Priv. (2008), pp. 111–125.
105. Y. Peng, G. Kou, Y. Shi e Z. Chen, Uma estrutura descritiva para o campo de mineração de dados e
descoberta de conhecimento, Int. J. Inf. Tecnol. Decis. Mak. 07 (2008) 639–682.
106. Xindong Wu, Xingquan Zhu, Gong-Qing Wu e Wei Ding, mineração de dados com big data,
IEEE Trans. Knowl. Eng. de dados 26 (2014) 97–107.
107. A. Oboler, K. Welsh e L. Cruz, O perigo do big data: mídia social como ciência social computacional,
primeira segunda-feira, 17 (2012).
108. L. Manovich, Trending: The Promises and the Challenges of Big Social Data, in Debates Digit.
Humanit., ed. MK Gold (University of Minnesota Press, Minneapolis, MN, 2012), pp. 460–475.
109. D. Vatsalan, Z. Sehili, P. Christen e E. Rahm, vinculação de registros de preservação da privacidade

para big data: abordagens atuais e desafios de pesquisa, Handb. Tecnologia de Big Data. (2017)
851-895.
110. BL Risteska Stojkoska e KV Trivodaliev, Uma revisão da Internet das Coisas para casa inteligente:
Desafios e soluções, J. Clean. Prod. 140 (2017) 1454-1464.
111. F. Liang, W. Yu, D. An, Q. Yang, X. Fu e W. Zhao, A Survey on Big Data Market: Pricing, Trading
and Protection, IEEE Access 6 (2018) 15132–15154.
112. A. Corbellini, C. Mateos, A. Zunino, D. Godoy e S. Schiaffino, Persisting big data: The NoSQL
landscape, Inf. Sist. 63 (2017) 1–23.
113. VC Storey e IY Song, tecnologias de big data e gerenciamento: o que a modelagem conceitual pode
fazer, Data Knowl. Eng. 108 (2017) 50–67.
114. LE Li, E. Chen, J. Hermann, P. Zhang e L. Wang, Scaling Machine Learning as a Service, Proc.
Mach. Aprender. Res. 67 (2017) 14–29.
115. G. George, MR Haas e A. Pentland, Big Data and Management, Acad. Gerenciar J. 57 (2014) 321–
326.
116. K. Seely-Gant e LM Frehill, Explorando Viés e Erro na Pesquisa de Big Data, Washingt. Acad. ciência
J. Washingt. Acad. ciência 101 (2015) 29.
117. R. Kitchin e TP Lauriault, Pequenos dados na era dos grandes dados, GeoJournal 80 (2015) 463–
475.
118. J. Mahmoodi, M. Leckelt, MWH van Zalk, K. Geukes e MD Back, Abordagens de Big Data em ciências
sociais e comportamentais: quatro compensações principais e um apelo à integração, Curr . Opin.
Behav. ciência 18 (2017) 57–62.
119. V. Grover, RHL Chiang, T.-P. Liang e D. Zhang, Criando valor comercial estratégico a partir da análise
de big data: uma estrutura de pesquisa, J. Manag. Inf. Sist. 35 (2018) 388–423.
120. Y. Wang, L. Kung, WYC Wang e CG Cegielski, Um modelo integrado de transformação habilitada
para análise de big data: Application to health care, Inf. Gerenciar (2017) 1–16.
121. MJ Mazzei e D. Noble, sonhos de big data: uma estrutura para estratégia corporativa, Bus.
Horiz. 60 (2017) 405–414.
122. P. Mikalef e J. Krogstie, Governança de Big Data e Capacidades Dinâmicas: O efeito moderador da
incerteza ambiental, no Pacífico Asiático Conf. Inf. Sist.
(Yokohama, 2018).
123. P. Mikalef, G. Lekakos e J. Krogstie, Complementarities Between Information Governance and

Big Data Analytics, em Eur. conf. Inf. Sist. (Portsmouth, 2018).
124. A. Abbasi, S. Sarker e RHL Chiang, Big Data Research in Information Systems: Toward an
Inclusive Research Agenda, J. Assoc. Inf. Sist. 17 (2016) 1–32.
125. A. De Mauro, M. Greco, M. Grimaldi e P. Ritala, Em (Big) Data em que confiamos: Criação de
valor em organizações do conhecimento - Introdução à edição especial, Inf. Processo. Gerenciar
(2018).
126. M. Gupta e JF George, Toward the development of a big data analytics resource, Inf.
Gerenciar 53 (2016) 1049–1064.
127. R. Vidgen, S. Shaw e DB Grant, Desafios de gerenciamento na criação de valor a partir da
análise de negócios, Eur. J. Opera. Res. 261 (2017) 626–639.
Ver estatísticas de publicação

Fichamento 2 Understanding Big Data Through A Systematic Literature Review The ITMI Model PT-BR

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Fichamento 2 Understanding Big Data Through A Systematic Literature Review The ITMI Model PT-BR

Enviado por

Direitos autorais:

Formatos disponíveis

Machine Translated by Google

Andrea De Mauro Marco Greco

24 PUBLICAÇÕES 1.673 CITAÇÕES 56 PUBLICAÇÕES 2.976 CITAÇÕES

VER PERFIL VER PERFIL

Universidade de Cassino e Southern Lazio, Cassino, Itália

102 PUBLICAÇÕES 4.055 CITAÇÕES

O usuário solicitou aprimoramento do arquivo baixado.

Compreendendo o Big Data por meio de uma literatura sistemática

Andrea De Mauro*, Marco Greco† e Michele Grimaldi†

*Departamento de Engenharia Empresarial

Esta é a versão pré-impressa do artigo publicado em 17 de julho de 2019 no International Journal of

2. O Conceito de Big Data

Prazo Prazo Significado específico

Análise 2005-2010 Foco em análises estatísticas e matemáticas para apoiar decisões

3.1. Alocação Dirichlet Latente

• Sw é a soma das distâncias dentro do cluster.

3.2. Implementação da metodologia

3.2.1. Etapa 1 - Coleta e preparação de dados

3.2.2. Passo 2 – LDA

3.2.3. Etapa 3 - Análise hierárquica de agrupamento

usuários sociais móveis 10% 9% 7% 6% 6% 8% 293 7%

Tecnologia 43% 34% 22% 20% 18% 15% 826 19%

computação-nuvem-processamento 14% 15% 7% 8% 7% 4% 314 7%

desempenho de armazenamento de rede 10% 5% 7% 6% 6% 6% 277 6%

banco de dados de design do sistema 19% 13% 7% 5% 4% 5% 235 5%

Métodos 0% 12% 18% 17% 20% 21% 812 19%

Impacto 43% 39% 41% 41% 39% 37% 1713 40%

pesquisa-projeto-análise 0% 11% 9% 9% 7% 11% 357 8%

humana-gerenciamento de negócios 5% 7% 8% 7% 9% 6% 345 8%

saúde-pacientes-saúde 10% 1% 6% 9% 8% 12% 344 8%

pesquisa-tecnologia-desafios 14% 9% 4% 6% 6% 4% 240 6%

ferramentas de visualização grande 14% 7% 7% 5% 5% 2% 217 5%

fontes de informação-conhecimento 0% 4% 7% 6% 5% 2% 210 5%

a disponibilidade de dispositivos conectados habilitados para sensores está equipando as empresas

Um driver tecnológico fundamental é a capacidade de armazenar uma quantidade maior de dados em

processamento de dados aproveitando clusters de máquinas dispersas e modelos especiais de programação

diferenças versus seus equivalentes relacionais.

o reconhecimento de padrões e técnicas de modelagem preditiva80 . O aprendizado de máquina estuda os

O primeiro tópico de grande relevância é o analytics-business-management , que pesquisa as aplicações de

Um impulsionador proeminente do impacto do Big Data na tomada de decisões é a adoção de técnicas de

digitalização de processos clínicos e registros de saúde93 e recuperação de grandes quantidades de

• a necessidade imperiosa de as empresas estarem dotadas de recursos humanos adequados,

Tabela 3: Uma agenda de pesquisa baseada no modelo ITMI Possíveis

Como resolver de forma sustentável o processamento

Como gerenciar sistematicamente o trade-off entre previsão e

painel de reconhecidos profissionais e pesquisadores. Tal extensão da pesquisa possibilitaria

Os autores gostariam de agradecer aos criadores de todos os pacotes R usados para

33. MF Porter, Um algoritmo para remoção de sufixos, Programa 14 (1980) 130–137.

37. P. Russom, Análise de Big Data (Renton, WA, 2011).

Comum. ACM 51 (2008) 1–13.

Appl. 40 (2013) 3722–3737.

95. P. Jiang, J. Winkley, C. Zhao, R. Munnoch, G. Min e LT Yang, um encaminhador de informações

109. D. Vatsalan, Z. Sehili, P. Christen e E. Rahm, vinculação de registros de preservação da privacidade

123. P. Mikalef, G. Lekakos e J. Krogstie, Complementarities Between Information Governance and

Ver estatísticas de publicação

Você também pode gostar