Escolar Documentos
Profissional Documentos
Cultura Documentos
O que podemos fazer com os dados? Até recentemente, os pesquisadores que trabalhavam
com análise de dados lutavam para obter dados para seus experimentos. Os recentes avanços
na tecnologia de processamento de dados, armazenamento e transmissão de dados,
associados a softwares de computador avançados e inteligentes, reduzindo custos e
aumentando a capacidade, mudaram esse cenário. É o tempo da Internet das Coisas, onde o
objetivo é ter tudo ou quase tudo conectado. Os dados anteriormente produzidos em papel
estão agora online. A cada dia, uma quantidade maior de dados é gerada e consumida. Sempre
que coloca um comentário na sua rede social, carrega uma fotografia, alguma música ou um
vídeo, navega na Internet ou adiciona um comentário a um site de comércio eletrônico, está a
contribuir para o aumento dos dados. Além disso, máquinas, transações financeiras e sensores,
como câmeras de segurança, estão cada vez mais coletando dados de fontes muito diversas e
difundidas.
Em 2012, estimou-se que, a cada ano, a quantidade de dados disponíveis no mundo dobra [1].
Outra estimativa, de 2014, previu que até 2020 todas as informações serão digitalizadas,
eliminadas ou reinventadas em 80% dos processos e produtos da década anterior [2]. Em um
terceiro relatório, de 2015, foi previsto que o tráfego de dados móveis será quase 10 vezes
maior em 2020 [3]. O resultado de todos esses rápidos aumentos de dados é chamado por
alguns de “explosão de dados”.
Apesar da impressão que isso pode dar – de que estamos nos afogando dados – há vários
benefícios em ter acesso a todos esses dados. Esses dados fornecem uma fonte rica de
informações que podem ser transformadas em novos conhecimentos útil, válido e
compreensível pelo ser humano. Assim, há um crescente interesse em explorar esses dados
para extrair esse conhecimento, usando-o para apoiar tomada de decisão em uma ampla
variedade de campos: agricultura, comércio, educação, ambiente, finanças, governo, indústria,
medicina, transporte e assistência Social
Diversas empresas ao redor do mundo estão percebendo a mina de ouro que têm e o potencial
desses dados para apoiar seu trabalho, reduzir o desperdício e atividades de trabalho perigosas
e tediosas e aumentam o valor de seus produtos e seus lucros.
A análise desses dados para extrair tal conhecimento é objeto de uma vibrante área conhecida
como data analytics, ou simplesmente “analytics”. Você pode encontrar várias definições de
analytics na literatura. A definição aqui adotada é:
A análise desses dados para extrair tal conhecimento é assunto de uma área vibrante
conhecida como data analytics, ou simplesmente “analytics”. Você pode encontrar várias
definições de analytics na literatura. A definição adotada aqui é: Analytics A ciência que analisa
dados brutos para extrair conhecimento útil (padrões) deles.
Analytics A ciência que analisa dados brutos para extrair conhecimento útil (padrões) deles.
Este processo também pode incluir coleta de dados, organização, pré-processamento,
transformação, modelagem e interpretação
Analytics como uma área de conhecimento envolve informações de muitas áreas diferentes. A
ideia de generalizar o conhecimento a partir de uma amostra de dados vem de um ramo da
estatística conhecido como aprendizado indutivo, uma área de pesquisa com uma longa
história. Com o avanço dos computadores pessoais, o uso de recursos computacionais para
resolução de problemas de aprendizagem indutiva torna-se cada vez mais popular. A
capacidade computacional tem sido utilizada para desenvolver novos métodos. Ao mesmo
tempo, surgiram novos problemas que exigem um bom conhecimento das ciências da
computação. Por exemplo, a capacidade de realizar uma determinada tarefa com maior
eficiência computacional tornou-se objeto de estudo para pessoas que trabalham com
estatística computacional.
Outro termo que apareceu e às vezes é usado como sinônimo de big data é ciência de dados.
De acordo com Provost e Fawcett [5], big data são dados conjuntos muito grandes para serem
gerenciados por tecnologias convencionais de processamento de dados, exigindo o
desenvolvimento de novas técnicas e ferramentas para armazenamento de dados,
processamento e transmissão. Essas ferramentas incluem, por exemplo, MapReduce, Hadoop,
Spark e Storm. Mas o volume de dados não é a única caracterização de grandes dados. A
palavra “grande” pode se referir ao número de fontes de dados, à importância dos dados, à
necessidade de novas técnicas de processamento, à rapidez com que os dados chegam, à
combinação de diferentes conjuntos de dados para que possam ser analisados em tempo real,
e sua onipresença, já que qualquer empresa, organização sem fins lucrativos ou indivíduo tem
acesso aos dados agora.
Assim, o big data está mais preocupado com a tecnologia. Ele fornece um ambiente de
computação, não apenas para análises, mas também para outras tarefas de processamento de
dados. Essas tarefas incluem processamento de transações financeiras, processamento de
dados da web e processamento de dados georreferenciados.
A ciência de dados se preocupa com a criação de modelos capazes de extrair padrões de dados
complexos e o uso desses modelos em problemas da vida real. A ciência de dados extrai
conhecimento significativo e útil dos dados, com o apoio de tecnologias adequadas. Tem um
relacionamento próximo com análise e mineração de dados. A ciência de dados vai além da
mineração de dados, fornecendo uma estrutura de extração de conhecimento, incluindo
estatísticas e visualização.
Portanto, enquanto big data dá suporte à coleta e gerenciamento de dados, a ciência de dados
aplica técnicas a esses dados para descobrir conhecimento novo e útil: big data coleta e ciência
de dados descobre. Outros termos como descoberta ou extração de conhecimento,
reconhecimento de padrões, análise de dados, engenharia de dados e vários outros também
são usados. A definição que usamos de análise de dados abrange todas essas áreas que são
usadas para extrair conhecimento dos dados.
Para resolver com eficiência um problema de big data, um sistema distribuído deve atender os
seguintes requisitos:
• Certifique-se de que nenhum pedaço de dados seja perdido e toda a tarefa seja concluída. Se
um ou mais computadores tem uma falha, suas tarefas e os dados correspondentes pedaço,
deve ser assumido por outro computador no cluster.
• Os computadores que tiveram falhas podem retornar ao cluster novamente quando forem
fixo.
Uma solução que incorpora esses requisitos deve ocultar do analista de dados os detalhes de
como o software funciona, como os blocos de dados e as tarefas são divididos entre os
computadores do cluster.
O tipo de conhecimento buscado em big e small data também é diferente, com o primeiro
procurando por correlações e o segundo por relações de causalidade. Enquanto big data
fornecem ferramentas que permitem às empresas entender seus clientes, small data
ferramentas de dados tentam ajudar os clientes a se entenderem. Assim, o big data é
preocupado com clientes, produtos e serviços, e small data está preocupado com os indivíduos
que produziram os dados.