Explorar E-books
Categorias
Explorar Audiolivros
Categorias
Explorar Revistas
Categorias
Explorar Documentos
Categorias
CIÊNCIA DE
DADOS
Introdução
Desde os primórdios, o homem armazenou dados para si e para outros,
por meio de desenhos nas rochas e arte rupestre. Esse registro era feito
com o objetivo de tomar alguma decisão ou possibilitar o acesso ao
conhecimento. À medida que as sociedades se tornavam mais comple-
xas, o volume de armazenamento de dados foi aumentando cada vez
mais. Isso levou à construção de bibliotecas e à posterior invenção da
imprensa, por Johannes Gutenberg, por volta de 1450. O próprio ábaco,
um instrumento mecânico de origem chinesa criado no século V a.C.,
armazenava informações sobre os números e ajudava na computação.
Posteriormente, o surgimento da internet para a troca de informações,
durante a Segunda Guerra Mundial e a Guerra Fria (1945–1991), tornou ainda
mais necessário o armazenamento de dados para uma análise posterior. Com
o tempo, foram sendo desenvolvidas várias maneiras de armazenar essas
informações: mainframes, disquetes, fitas, HDs, NAS (Network-Attached Storage),
ambiente cluster, pen drives, CDs, DVDs.
Na sociedade moderna, passou-se a produzir dados de diversas fontes,
seja em redes sociais (fotos, vídeos, mensagens), em compras on-line, em
aplicativos de entrega, em cursos EaD, em transações com moedas e ban-
cos digitais. Além disso, houve a substituição dos papéis, como agenda
física, prontuário médico, pedido de exames, para o contexto digital.
2 Introdução a big data
Volume
A referência ao tamanho dos dados produzidos e à necessidade de serem
armazenados engloba o volume do big data. Atualmente, não estamos falando
de Terabytes, mas sim de Zettabytes ou de Brotonbytes.
Velocidade
A velocidade na produção de dados pode ser vista, por exemplo, pela ótica
das redes sociais, em que temos milhões de trocas de mensagens por minuto.
Imagine que um milhão de pessoas enviassem 10 mensagens apenas pela
manhã, ou seja, nas primeiras seis horas do seu dia. Nesse caso, já teríamos
Introdução a big data 5
Variedade
A multiplicidade de tipos de arquivos dentro do big data é, de fato, uma
característica pontual. Quando passamos a produzir, em sua maioria, dados
digitais, transformamos tarefas físicas em dados on-line. Esses dados podem
ser agendas, pedidos de compras e entregas, envio de mensagem de texto,
áudio, vídeo e imagem. Essa variedade pode ser composta e armazenada, por
exemplo, na estrutura de arquivos HDFS do Apache Hadoop, e gerenciada
pelos seus diversos serviços, como Hive, Hbase, Spark, entre outros.
Veracidade
A composição da veracidade dos dados em big data é parte característica da
qualidade de dados e da melhoria contínua. Não podemos utilizar dados que
não representam o problema ou, ainda, que possuem viés. Nesse contexto, a
ciência de dados se ocupa de limpar e organizar os dados, de forma a aumentar
a confiabilidade da informação oriunda de um conjunto de dados. Um excelente
framework para o contexto da qualidade de dados vem do The Dama guide to
the data management body of knowledge (MOSLEY; BRACKETT; EARLEY,
2010). Nele você pode encontrar escopos, processos e a definição de papéis
que auxiliam na governança de dados.
Valor
O primeiro passo que ocorreu no big data foi a necessidade de armazenar os
dados, para só depois ver o que fazer com eles. Isso se deu porque se perce-
beu que, com a ascensão da análise preditiva, ter muitos dados a respeito de
determinado contexto poderia ter um valor inestimável. A regra geral atual é
“guarde, porque amanhã isso valerá muito”.
O uso de dados para as empresas já era utilizado no business intelligence,
que ficou conhecido pelas teorias do data warehouse e as respectivas especifi-
cidades, com técnicas para criar estruturas de dados e adentrar os dashboards.
Porém, a análise preditiva ganhou imensa importância, já que todos querem
prever o futuro com base nas diversas variáveis em um contexto.
6 Introdução a big data
Outros Vs
Segundo Taleb, Serhani e Dssouli (2019), há ainda outros Vs envolvidos.
Alguns deles são a variabilidade, que consiste na mudança constante dos
dados; a viscosidade, que se refere à dificuldade de trabalhar com a grande
variedade de dados envolvidos; a volatilidade, que ocorre quando os dados
podem ser perdidos; a validade, que permite verificar se o dado é verdadeiro
e verificável. Além disso, citam-se a visualização, como uma forma acessível
aos dados; a viralidade, como uma forma de um dado ficar em evidência em
toda a rede muito rápido; e a vulnerabilidade dos dados, pois há a latente
questão da segurança.
Para lidar com esses dados, poderíamos levar todos esses arquivos para dentro
do sistema de arquivos HDFS utilizando o serviço Sqoop do ecossistema Hadoop,
conforme a Figura 2. Para fazer a ingestão dos dados estruturados, poderíamos usar
o serviço Hive, ou, ainda, levar os dados não estruturados por meio de Flume, Kafka
ou Spark Streaming para a estrutura do Cassandra, Redis ou Hbase.
Introdução a big data 7
Assim, organizamos um data lake, isto é, um repositório central em que são arma-
zenados todos os tipos de dados: estruturados, semiestruturados e não estruturados.
Nesse repositório, os dados são depositados no seu estado bruto para uma análise
posterior (COUTO et al., 2019).
Os dados estruturados
Os dados estruturados são definidos como tendo o formato tabular, isto é, de
linhas e colunas, conforme mostra a Figura 3. As planilhas eletrônicas e as
tabelas dos bancos de dados são bons exemplos. Veja que, nesse tipo de dados,
há uma estrutura fixa e, normalmente, vários dados estão relacionados entre si.
CAETANO, J. A. Por que estudar preparação de dados? 2018. Disponível em: https://www.
igti.com.br/blog/por-que-estudar-preparacao-de-dados/. Acesso em: 19 abr. 2020.
CORBARI, E. Semantix: ecossistema hadoop. 2019. Disponível em: https://www.slideshare.
net/EdersonMoura1/semantix-ecossistema-hadoop-141345193. Acesso em: 19 abr. 2002.
COUTO, J. et al. A mapping study about data lakes: An improved definition and possible
architectures. In: INTERNATIONAL CONFERENCE ON SOFTWARE ENGINEERING AND
KNOWLEDGE ENGINEERING, 31., 2019, Lisbon. Proceedings [...]. Lisbon: KSIResearch Inc,
2019. p. 453–458, Disponível em: http://ksiresearchorg.ipage.com/seke/Proceedings/
seke/SEKE2019_Proceedings.pdf. Acesso em: 15 abr. 2020.
GUJ. Lógica na criação de tabelas no banco de dados. 2015. Disponível em: https://res-
postas.guj.com.br/43260-logica-na-criacao-de-tabelas-no-banco-de-dados. Acesso
em 19 abr. 2020.
MAURO, A.; GRECO, M.; GRIMALDI, M. What is big data? A consensual definition and
a review of key research topics. In: AIP CONFERENCE, 2015. Proceedings [...]. [S. l.]: AIP
Publishing, 2015. p. 97–104. Disponível em: https://pdfs.semanticscholar.org/ce1b/05
53c09b725f6fd1fc0b39f2dc7c428d3088.pdf. Acesso em: 15 abr. 2020.
MOSLEY, M.; BRACKETT, M.; EARLEY, S. (ed.). The Dama guide to the data management
body of knowledge. [S. l.]: Technics Publications, 2010.
TALEB, I.; SERHANI, M. A.; DSSOULI, R. Big data quality: a data quality profiling model. In:
2019. Disponível em: https://www.researchgate.net/publication/333831302_Big_Data_
Quality_A_Data_Quality_Profiling_Model. Acesso em: 15 abr. 2020.
10 Introdução a big data
Leituras recomendadas
AMARAL, F. Introdução à ciência de dados: mineração de dados e big data. Rio de
Janeiro: Alta Books, 2016.
KLEIN, G. H.; GUIDI NETO, P.; TEZZA, R. Big Data e mídias sociais: monitoramento das
redes como ferramenta de gestão. Saúde e Sociedade, São Paulo, v. 26, n. 1, p. 208–217,
2017. Disponível em: https://www.scielosp.org/article/sausoc/2017.v26n1/208-217/.
Acesso em: 15 abr. 2020.
MENDONÇA, C. M. C.; ANDRADE, A. M. V.; SOUSA NETO, M. V. Uso da IoT, big data
e inteligência artificial nas capacidades dinâmicas. Revista Pensamento Contempo-
râneo em Administração, Rio de Janeiro, v. 12, n. 1, p. 131–151, 2018. Disponível em:
http://200.135.161.12/~edsonh/Repositorio/bigdata_iot.pdf. Acesso em: 15 abr. 2020.
SHARDA, R.; DELEN, D.; TURBAN, E. Business Intelligence e análise de dados para gestão
do negócio. 4. ed. Porto Alegre: Bookman, 2019.
Os links para sites da web fornecidos neste capítulo foram todos testados, e seu fun-
cionamento foi comprovado no momento da publicação do material. No entanto, a
rede é extremamente dinâmica; suas páginas estão constantemente mudando de
local e conteúdo. Assim, os editores declaram não ter qualquer responsabilidade
sobre qualidade, precisão ou integralidade das informações referidas em tais links.