A General Introduction To Data Analytics (MOREIRA Et Al., 2018) - PT

1
What Can We Do With Data?
O que podemos fazer com os dados? Até recentemente, os pesquisadores que trabalhavam
com análise de dados lutavam para obter dados para seus experimentos. Os recentes avanços
na tecnologia de processamento de dados, armazenamento e transmissão de dados,
associados a softwares de computador avançados e inteligentes, reduzindo custos e
aumentando a capacidade, mudaram esse cenário. É o tempo da Internet das Coisas, onde o
objetivo é ter tudo ou quase tudo conectado. Os dados anteriormente produzidos em papel
estão agora online. A cada dia, uma quantidade maior de dados é gerada e consumida. Sempre
que coloca um comentário na sua rede social, carrega uma fotografia, alguma música ou um
vídeo, navega na Internet ou adiciona um comentário a um site de comércio eletrônico, está a
contribuir para o aumento dos dados. Além disso, máquinas, transações financeiras e sensores,
como câmeras de segurança, estão cada vez mais coletando dados de fontes muito diversas e
difundidas.
Em 2012, estimou-se que, a cada ano, a quantidade de dados disponíveis no mundo dobra [1].
Outra estimativa, de 2014, previu que até 2020 todas as informações serão digitalizadas,
eliminadas ou reinventadas em 80% dos processos e produtos da década anterior [2]. Em um
terceiro relatório, de 2015, foi previsto que o tráfego de dados móveis será quase 10 vezes
maior em 2020 [3]. O resultado de todos esses rápidos aumentos de dados é chamado por
alguns de “explosão de dados”.
Apesar da impressão que isso pode dar – de que estamos nos afogando dados – há vários
benefícios em ter acesso a todos esses dados. Esses dados fornecem uma fonte rica de
informações que podem ser transformadas em novos conhecimentos útil, válido e
compreensível pelo ser humano. Assim, há um crescente interesse em explorar esses dados
para extrair esse conhecimento, usando-o para apoiar tomada de decisão em uma ampla
variedade de campos: agricultura, comércio, educação, ambiente, finanças, governo, indústria,
medicina, transporte e assistência Social
Diversas empresas ao redor do mundo estão percebendo a mina de ouro que têm e o potencial
desses dados para apoiar seu trabalho, reduzir o desperdício e atividades de trabalho perigosas
e tediosas e aumentam o valor de seus produtos e seus lucros.
A análise desses dados para extrair tal conhecimento é objeto de uma vibrante área conhecida
como data analytics, ou simplesmente “analytics”. Você pode encontrar várias definições de
analytics na literatura. A definição aqui adotada é:
A análise desses dados para extrair tal conhecimento é assunto de uma área vibrante
conhecida como data analytics, ou simplesmente “analytics”. Você pode encontrar várias
definições de analytics na literatura. A definição adotada aqui é: Analytics A ciência que analisa
dados brutos para extrair conhecimento útil (padrões) deles.
Este processo também pode incluir coleta de dados, organização, pré-processamento,

transformação, modelagem e interpretação.
Analytics A ciência que analisa dados brutos para extrair conhecimento útil (padrões) deles.
Este processo também pode incluir coleta de dados, organização, pré-processamento,
transformação, modelagem e interpretação
Analytics como uma área de conhecimento envolve informações de muitas áreas diferentes. A
ideia de generalizar o conhecimento a partir de uma amostra de dados vem de um ramo da
estatística conhecido como aprendizado indutivo, uma área de pesquisa com uma longa
história. Com o avanço dos computadores pessoais, o uso de recursos computacionais para
resolução de problemas de aprendizagem indutiva torna-se cada vez mais popular. A
capacidade computacional tem sido utilizada para desenvolver novos métodos. Ao mesmo
tempo, surgiram novos problemas que exigem um bom conhecimento das ciências da
computação. Por exemplo, a capacidade de realizar uma determinada tarefa com maior
eficiência computacional tornou-se objeto de estudo para pessoas que trabalham com
estatística computacional.
Paralelamente, vários pesquisadores sonharam em poder reproduzir o comportamento

humano por meio de computadores. Eram pessoas da área de inteligência artificial. Eles
também usaram estatísticas para suas pesquisas, mas a ideia de reproduzir o comportamento
humano e biológico em computadores foi uma importante fonte de motivação. Por exemplo, a
reprodução de como o cérebro humano funciona com redes neurais artificiais tem sido
estudada desde a década de 1940; reproduzindo como as formigas trabalham com o algoritmo
de otimização de colônias de formigas desde a década de 1990. O termo aprendizado de
máquina (ML) surgiu nesse contexto como o “campo de estudo que dá aos computadores a
capacidade de aprender sem serem explicitamente programados”, segundo Arthur Samuel em
1959 [4].
Na década de 1990, um novo termo apareceu com um significado ligeiramente diferente:

mineração de dados (DM). A década de 1990 foi a década do surgimento das ferramentas de
business intelligence como consequência das instalações de dados terem maior capacidade e
menor custo. As empresas começam a recolher cada vez mais dados, com o objetivo de
resolver ou melhorar as operações comerciais, por exemplo, detectando fraudes com cartões
de crédito, alertando o público sobre os constrangimentos da rede viária nas cidades, ou
melhorando o relacionamento com os clientes através de técnicas de relacionamento mais
eficientes marketing. A questão era conseguir minerar os dados para extrair o conhecimento
necessário para uma determinada tarefa. Este é o objetivo da mineração de dados.
1.1Big Data and Data Science

Nos primeiros anos do século XX, surgiu o termo big data. Big data, uma tecnologia de
processamento de dados, foi inicialmente definido pelos “três Vs”, embora alguns outros Vs
tenham sido propostos desde então. Os três primeiros Vs nos permitem definir uma taxonomia
de big data. São eles: volume, variedade e velocidade. Volume está preocupado com a forma
de armazenar big data: repositórios de dados para grandes quantidades de dados. A variedade
está preocupada em como reunir dados de diferentes fontes. A velocidade diz respeito à
capacidade de lidar com dados que chegam muito rapidamente, em fluxos conhecidos como
fluxos de dados. Analytics também é descobrir conhecimento de fluxos de dados, indo além do
componente de velocidade de big data.
Outro termo que apareceu e às vezes é usado como sinônimo de big data é ciência de dados.
De acordo com Provost e Fawcett [5], big data são dados conjuntos muito grandes para serem
gerenciados por tecnologias convencionais de processamento de dados, exigindo o
desenvolvimento de novas técnicas e ferramentas para armazenamento de dados,
processamento e transmissão. Essas ferramentas incluem, por exemplo, MapReduce, Hadoop,
Spark e Storm. Mas o volume de dados não é a única caracterização de grandes dados. A
palavra “grande” pode se referir ao número de fontes de dados, à importância dos dados, à
necessidade de novas técnicas de processamento, à rapidez com que os dados chegam, à
combinação de diferentes conjuntos de dados para que possam ser analisados em tempo real,
e sua onipresença, já que qualquer empresa, organização sem fins lucrativos ou indivíduo tem
acesso aos dados agora.
Assim, o big data está mais preocupado com a tecnologia. Ele fornece um ambiente de
computação, não apenas para análises, mas também para outras tarefas de processamento de
dados. Essas tarefas incluem processamento de transações financeiras, processamento de
dados da web e processamento de dados georreferenciados.
A ciência de dados se preocupa com a criação de modelos capazes de extrair padrões de dados
complexos e o uso desses modelos em problemas da vida real. A ciência de dados extrai
conhecimento significativo e útil dos dados, com o apoio de tecnologias adequadas. Tem um
relacionamento próximo com análise e mineração de dados. A ciência de dados vai além da
mineração de dados, fornecendo uma estrutura de extração de conhecimento, incluindo
estatísticas e visualização.
Portanto, enquanto big data dá suporte à coleta e gerenciamento de dados, a ciência de dados
aplica técnicas a esses dados para descobrir conhecimento novo e útil: big data coleta e ciência
de dados descobre. Outros termos como descoberta ou extração de conhecimento,
reconhecimento de padrões, análise de dados, engenharia de dados e vários outros também
são usados. A definição que usamos de análise de dados abrange todas essas áreas que são
usadas para extrair conhecimento dos dados.
1.2Big Data Architectures

À medida que os dados aumentam em tamanho, velocidade e variedade, novas tecnologias de
computador tornam-se necessárias. Essas novas tecnologias, que incluem hardware e
software, devem ser facilmente expandidas à medida que mais dados são processados. Essa
propriedade é conhecida como escalabilidade. Uma forma de obter escalabilidade é
distribuindo as tarefas de processamento de dados em vários computadores, que podem ser
combinados em clusters de computadores. O leitor não deve confundir clusters de
computadores com clusters produzidos por técnicas de clustering, que são técnicas de análise
em que um conjunto de dados é particionado para encontrar grupos dentro dele.
Mesmo que o poder de processamento seja expandido pela combinação de vários

computadores em um cluster, criando um sistema distribuído, software convencional para
distribuição os sistemas geralmente não conseguem lidar com big data. Uma das limitações é a
distribuição eficiente de dados entre as diferentes unidades de processamento e
armazenamento. Para lidar com esses requisitos, novas ferramentas e técnicas de software
foram desenvolvidas.
Uma das primeiras técnicas desenvolvidas para processamento de big data usando clusters era
MapReduce. MapReduce é um modelo de programação que possui duas etapas: mapear e
reduzir. A implementação mais famosa do MapReduce é chamada de Hadoop.
O MapReduce divide o conjunto de dados em partes – blocos – e armazena na memória de

cada computador do cluster o bloco do conjunto de dados necessário para este computador
realize sua tarefa de processamento. Por exemplo, suponha que você precise calcular o salário
médio de 1 bilhão de pessoas e você tem um cluster com 1000 computadores, cada um com
uma unidade de processamento e uma memória de armazenamento. Pode ser dividido em
1000 blocos – subconjuntos – com dados de 1 milhão de pessoas cada. Cada pedaço pode ser
processado independentemente por um dos computadores.
Os resultados produzidos por cada um desses computadores (o salário médio de 1 milhão

pessoas) pode ser contínua a média, retornando a média salarial final.
Para resolver com eficiência um problema de big data, um sistema distribuído deve atender os
seguintes requisitos:
• Certifique-se de que nenhum pedaço de dados seja perdido e toda a tarefa seja concluída. Se
um ou mais computadores tem uma falha, suas tarefas e os dados correspondentes pedaço,
deve ser assumido por outro computador no cluster.
• Repita a mesma tarefa e o bloco de dados correspondente em mais de um computador de

cluster; isso é chamado de redundância. Assim, se um ou mais computadores falharem, o
computador redundante continua com a tarefa.
• Os computadores que tiveram falhas podem retornar ao cluster novamente quando forem
fixo.
• Os computadores podem ser facilmente removidos do cluster ou os extras incluídos no

conforme a demanda de processamento muda.
Uma solução que incorpora esses requisitos deve ocultar do analista de dados os detalhes de
como o software funciona, como os blocos de dados e as tarefas são divididos entre os
computadores do cluster.
1.3 Small Data

Na direção oposta às tecnologias e métodos de big data, há um movimento em direção a
análises mais pessoais e subjetivas de pedaços de dados, denominados “pequenos dados”.
Small data é um conjunto de dados cujo volume e formato permitem seu processamento e
análise por uma pessoa ou uma pequena organização. Assim, ao invés de coletar dados de
várias fontes, com formatos diferentes e gerados em velocidades crescentes, criando grandes
repositórios de dados e facilidades de processamento, o small data favorece a partição de um
problema em pequenos pacotes, que podem ser analisados por diferentes pessoas ou
pequenos grupos de forma distribuída e integrada.
As pessoas estão continuamente produzindo pequenos dados enquanto realizam suas

atividades diárias, seja navegar na web, comprar um produto em uma loja, fazer exames
médicos e usando aplicativos em seus celulares. Quando esses dados são coletados para serem
armazenados e processados em grandes servidores de dados, eles se tornam big data.
Para ser caracterizado como small data, um conjunto de dados deve ter um tamanho que
permita sua total compreensão por um usuário.
O tipo de conhecimento buscado em big e small data também é diferente, com o primeiro
procurando por correlações e o segundo por relações de causalidade. Enquanto big data
fornecem ferramentas que permitem às empresas entender seus clientes, small data
ferramentas de dados tentam ajudar os clientes a se entenderem. Assim, o big data é
preocupado com clientes, produtos e serviços, e small data está preocupado com os indivíduos
que produziram os dados.

A General Introduction To Data Analytics (MOREIRA Et Al., 2018) - PT

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

A General Introduction To Data Analytics (MOREIRA Et Al., 2018) - PT

Enviado por

Direitos autorais:

Formatos disponíveis

1

What Can We Do With Data?

Este processo também pode incluir coleta de dados, organização, pré-processamento,

Paralelamente, vários pesquisadores sonharam em poder reproduzir o comportamento

Na década de 1990, um novo termo apareceu com um significado ligeiramente diferente:

1.1Big Data and Data Science

1.2Big Data Architectures

Mesmo que o poder de processamento seja expandido pela combinação de vários

O MapReduce divide o conjunto de dados em partes – blocos – e armazena na memória de

Os resultados produzidos por cada um desses computadores (o salário médio de 1 milhão

• Repita a mesma tarefa e o bloco de dados correspondente em mais de um computador de

• Os computadores podem ser facilmente removidos do cluster ou os extras incluídos no

1.3 Small Data

As pessoas estão continuamente produzindo pequenos dados enquanto realizam suas

Você também pode gostar