Você está na página 1de 6

Procedia Ciência da Computação

Volume 88 , 2016, Pages 300-305

7ª Conferência Internacional Anual sobre Biologicamente Inspirada


Arquiteturas cognitivas, BICA 2016

Big Data, rápida de dados e Lake conceitos dados

Natalia Miloslavskaya e Alexander Tolstoy


Universidade Mephi Nacional de Pesquisa Nuclear (Moscow Engenharia Física Instituto)
{NGMiloslavskaya, AITolstoj}@mephi.ru

Resumo
Hoje, testemunhamos o surgimento de dois adicionais aos conceitos de Big Data: lagos de dados e dados rápidos. eles são simplesmente os
novos rótulos de marketing para o velho Big Data TI ou realmente novas? Assim, o objectivo fundamental do papel é o de identificar a relação
entre estes três conceitos.

Palavras-chave: big data, dados rápidos, lago de dados

1 Introdução
Nas últimas décadas, as empresas ' dados utilizados para uma melhor tomada de decisões e operações mais eficientes está crescendo
tremendamente. Quase todas as empresas modernas obter uma enorme quantidade de dados sobre o estado atual de sua infra-estrutura
de TI (ITI). Esses dados precisam ser processados ​prontamente e corretamente para identificar informações úteis para as necessidades do
negócio. A maioria dos dados é desestruturado. De acordo com o estudo da IDC “ O Universo Digital de Oportunidades: Rich Data e o valor
crescente da Internet das Coisas ”, a quantidade de dados não estruturados em 2020 está prevista para ser cerca de 44 ZB (IDC, 2014).
Entre muitas outras grandes áreas de aplicação de dados há dois, onde amálgama de big data, mais visão do mundo real estão
trabalhando em conjunto: 1) Fornecer big data TI como serviços (módulos funcionais prontos) na implementação de outras TI (em particular,
a tecnologia de busca , análise de dados de profundidade para identificar padrões ocultos), as fontes primárias de pesquisa e recuperação
de informações do conteúdo principal (semântica) nas matrizes extra-grande de documentos sem a sua leitura direta por um ser humano,
etc .; e 2) de processamento analítico de dados sobre o estado do ITI para identificar anomalias no

o funcionamento do sistema, IS incidentes e prevenção de invasão, etc.


Todos estes dados não devem ser considerados como uma combinação de elementos de dados separados. É uma obrigação para manter
as relações gravados de cada execução de arquivos e modificação, modificação do registro, conexão de rede, executado binário em seu
ambiente, etc. Além disso, é um fluxo de dados com as seguintes características originais: o volume enorme ou possivelmente infinito, de forma
dinâmica mudando, fluindo para dentro e para fora em uma ordem fixa, exigindo rápido tempo de resposta (muitas vezes em tempo real), etc.
Exemplos típicos de fluxos de dados incluem vários tipos de dados de séries temporais e dados produzidos em ambiente ITI dinâmico, como o
tráfego de rede, telecomunicações , vigilância por vídeo, fluxos site clique, redes de sensores, etc.

A terminologia padrão no campo de big data ainda não foi desenvolvido no presente. Primeiro de tudo o que tínhamos de dados. Agora,
testemunhamos o surgimento de mais dois conceitos: lagos de dados e dados rápidos. Está

300 Seleção e peer-review sob responsabilidade do fi Scienti c Comité do Programa de BICA 2016
©c Os autores. Publicado por Elsevier BV

doi: 10.1016 / j.procs.2016.07.439


Big Data, rápida de dados e Lake conceitos dados Natalia Miloslavskaya e Alexander Tolstoy

eles simplesmente os novos rótulos de marketing para o velho Big Data TI ou realmente novas? Assim, o objectivo fundamental do papel é o de
identificar a relação entre estes três conceitos. Ele é organizado da seguinte forma. Três conceitos, nomeadamente dados grandes, lagos de dados
e dados rápidos, são consistentemente descrito nas Secções 2-4 correspondentemente. Suas inter-relações e área de pesquisas futuras concluir o
papel.

2 Conceito Big Data


A seguinte interpretação do conceito de dados grande pode ser oferecido. Isso é os conjuntos de dados de tal dimensão e estrutura que
excedam os recursos das ferramentas tradicionais de programação (bases de dados, software, etc.) para a coleta de dados, armazenamento e
processamento em um tempo razoável e a-fortiori excedem a capacidade da sua percepção por um ser humano. Os dados podem ser
estruturados, semi-estruturados e não estruturados, que faz com que seja impossível de gerir e processá-los de forma eficaz em uma forma
tradicional (Miloslavskaya, 2014). Os critérios para determinar a diferença entre big data TI e trad itional TI são três “V”: o volume -

muito grandes volumes de dados; velocidade - muito elevada taxa de transferência de dados; variedade - dados estruturados fracos, o que é principalmente
compreender como a estrutura de dados de irregularidade e dificuldade de extrair dados a partir de um fluxo homogéneos e identificação de algumas
correlações. Mais tarde quatro adicional “V” - veracidade, variabilidade, valor e visibilidade - foram adicionados a eles.

Existem três tipos de processamento de dados grande (Hornbeck, 2013):

1) O processamento em lote em pseudo-tempo real real ou macio, onde os dados já armazenados na não-volátil
memória são processados ​(apenas os dados armazenados estão processados) e de probabilidade e tempo características do processo
de conversão de dados são principalmente determinadas pelos requisitos dos problemas aplicadas. Este modelo proporciona benefícios
de desempenho, uma vez que pode usar mais dados e, por exemplo, realizar uma melhor formação de modelos preditivos;

2) processamento de fluxo em disco em tempo real, em que os dados recolhidos sem armazenar a não-volátil
meios de comunicação são processados ​(apenas as operações de processamento de resultados são armazenados) e de probabilidade e tempo
características do processo de conversão de dados são determinados principalmente pela taxa de dados de entrada, uma vez que a aparência das
filas para os nós de processamento conduz à perda irreversível de dados. Este modelo é apropriado para domínios onde um baixo tempo de resposta
é crítico;

3) processamento híbrido utilizando o modelo híbrido (também conhecido como Lambda Arquitectura (Marz, 2013))
com três princípios arquitectónicos: robustez (o sistema tem de ser capaz de gerenciar hardware, software e erros humanos); imutabilidade
de dados (dados brutos são armazenados para sempre e nunca é modificado) e recálculo (resultados sempre pode ser obtido por (re)
-computing os dados brutos armazenados) e implementado por um de quatro camadas arquitetura: camada de lote (contém o imutável,
constantemente crescendo mestre conjunto de dados armazenados em um sistema de arquivos distribuídos e calcula os pontos de vista de
lote a partir desses dados brutos); servindo camada (cargas e expõe os pontos de vista de lote em um armazenamento de dados para
posterior consulta), camada de velocidade (lida apenas com novos dados e compensa as atualizações de alta latência da camada de
serviço e calcula os pontos de vista em tempo real) e camada de combinação (para sincronização, composição resultados e outros
problemas não-triviais).

Big Data TI diferem fundamentalmente de TI tradicional para que se tornem centrada em dados, ou datadriven. Se para a TI tradicional um
dispositivo de processamento ou meio (computador, cluster, Cloud), que processa vários pedidos (ordens, etc.), é colocado no centro do processo
de processamento de dados, os dados grande é considerado principalmente como substância fluxo contínuo , mecanismos de processamento para
a qual deve ser construída nas próprias correntes. Em que uma taxa de jusante para os dados de entrada para processamento e uma taxa de
entrega resultados não deve ser menor que a taxa de fluxo, tal como de outro modo isso iria conduzir a um crescimento infinito ou filas ou
armazenamento inútil de infinitamente volumes crescentes de dados em bruto.

base teórica para big data TI é uma seção da computação, conhecido como a ciência de dados, incluindo o seguinte (Rajaraman, 2011):
Desenvolvimento de metodologia para sistemas de arquivos distribuídos e convertendo conjuntos de dados para criar procedimentos para
paralelo e processamento distribuído de muito grande de dados

301
Big Data, rápida de dados e Lake conceitos dados Natalia Miloslavskaya e Alexander Tolstoy

quantidades; pesquisa por similaridade, incluindo técnicas minhashing chaves e hashing sensíveis à localidade; Datastream
processamento e algoritmos especializados para chegar rápido dados que devem ser processados ​imediatamente; Pesquisa
tecnologia de motores para conjuntos de dados de grande escala e os resultados da pesquisa ranking, detecção de link-spam e a
centros-and-autoridades se aproximam; mineração de dados Frequent-itemset, incluindo regras associativas, mercado-cestas, o
algoritmo a priori e suas benfeitorias; Muito grande, high-dimensionais algoritmos de conjuntos de dados de agrupamento;
aplicações web problemas: gestão de sistemas de publicidade e recomendação; Algoritmos de análise e extracção da estrutura
de gráficos muito grandes (como socialnetworks); As técnicas para a obtenção das propriedades importantes de um grande
conjunto de dados por redução dimensionalidade, incluindo decomposição em valores singulares e indexação semântica latente;

Vamos formular algumas características importantes de big data: Ser preciso: dados precisa ser correta e começar a partir de uma fonte
confiável (de confiança); Seja pontual: dados deve ser atual e refletir-se-to- data ITI do
status, e, se necessário, os dados históricos devem ser adicionados no devido tempo; Ser abrangente: de dados precisa de ser recolhido
num modelo que apresenta um quadro completo, é flexível e facilmente integrado destilada em informação útil; Ser adaptados: dados devem
ser adaptada para um propósito comercial específico; Seja relevante: dados devem ser aplicáveis ​a e real para a organização de usá-lo.

Em geral, processamento de dados grande é destinado a mineração de dados refere-se a extrair ou «extracção» (descobrir)
conhecimento a partir de grandes quantidades de dados. mineração de dados integra várias técnicas de várias disciplinas, tais como bancos de
dados e data warehouses, estatísticas, aprendizagem de máquina, computação de alto desempenho, reconhecimento de padrões, redes neurais,
visualização de dados, recuperação de informação, imagem e processamento de sinais e análise de dados espacial ou temporal.

3 Lake Conceito de dados

Alguns anos atrás (em 2010) um novo conceito de «Lagos de dados» ou «centros de dados» foi exibida. O próprio termo foi introduzido
por James Dixon (Dixon, 2010), mas às vezes é menosprezado como sendo simplesmente um rótulo de marketing para um produto que
suporta Hadoop. Ou sabemos também uma outra visão: armazenamento unificado de ontem é lago de dados da empresa de hoje (McClure,
2016).
Um lago de dados refere-se a um depósito de armazenamento massivamente escalável que contém uma grande quantidade de dados em bruto no seu
formato nativo ( « como é ») até que seja necessário mais sistemas de processamento (motor) que podem processar dados sem comprometer a estrutura de
dados (Laskowski, 2016). Os lagos de dados são tipicamente construídas para lidar com grandes volumes e rapidamente chegada de dados não estruturados
(em contraste com a data warehouses ' dados altamente estruturados) a partir do qual são derivadas novas perspectivas. Assim, os lagos usar (não
pré-compilação estática como em armazéns de dados) aplicações analíticas dinâmicas. Os dados do lago torna-se acessível, logo que ele é criado
(novamente em contraste com armazéns de dados projetados para mudando lentamente de dados).

Os lagos de dados muitas vezes incluem um banco de dados semântico, um modelo conceitual que utiliza os mesmos padrões e
tecnologias utilizadas para criar hiperlinks Internet e adicionar uma camada de contexto sobre os dados que define o significado dos dados e
suas inter-relações com outros dados. As estratégias lago dados pode combinar abordagens SQL e banco de dados NoSQL e
processamento on-line de análise (OLAP) e processamento de transações on-line capacidades (OLTP).

Em contraste com um armazém de dados hierárquica com arquivos ou pastas de armazenamento de dados, o lago de dados usa uma arquitetura
plana, onde cada elemento de dado tem um identificador único e um conjunto de tags de metadados estendidos. O lago de dados não requer um
esquema rígido ou manipulação dos dados de todas as formas e tamanhos, mas requer manter a ordem da chegada de dados. Ele pode ser imaginado
como um grande conjunto de dados para trazer todos os dados históricos acumulados e novos dados (estruturados, não estruturados e
semi-estruturados, mais binário a partir de sensores, dispositivos e assim por diante) quase em tempo real em um único lugar, em que os requisitos de
esquema e de dados não são definidas até que os dados é consultado ( « -Schema-on ler » é usado).

302
Big Data, rápida de dados e Lake conceitos dados Natalia Miloslavskaya e Alexander Tolstoy

Se necessário, o lago de dados pode ser dividido em três camadas separadas: uma para dados brutos, um segundo para conjuntos de dados
diárias aumentadas e outra para informações de terceiros. Outra abordagem possível é dividir o lago de dados em três partições de acordo com a sua
vida: os dados que são menos de 6 meses de idade; mais velhos, mas ainda dados ativos e dados arquivados não são mais usados, mas precisa ser
retidos (esses dados obsoletos podem ser movidos para a mídia mais lenta, menos caro).

Assim, o lago de dados serve como um local de baixo custo para realizar uma análise preliminar de dados, enquanto estruturação de
dados flexível e orientada para a tarefa é implementada apenas quando e para o que é necessário (Stein, 2014). O fluxo de dados é o lago
dados analisados ​e que forma um componente-chave do ecossistema analítica estendida.

O lago de dados deve ser integrado com o resto do empreendimentos ITI. Isso exige a catalogação inicial e indexação dos dados, bem
como a segurança dos dados. Algumas características próprias de importação deve ser suporte para dados nos lagos de dados:

1) A arquitetura scale-out com alta disponibilidade que cresce com os dados;


2) Governança e políticas de execução para a retenção, disposição, identificação de dados para estar cansado;
3) Um catalogação centralizada e indexação do inventário de dados (e metadados) que está disponível,
incluindo fontes, versionamento, veracidade e precisão;
4) cardinalidade dados significa como se relaciona com outros dados;

5) transformação de dados linhagem (tracking) significa o que foi feito com ele, quando e de onde veio
de ( a avaliação de fontes de dados interno, externo e adquirida de terceiros), quem e por que mudou, o que versões são
existem, quanto tempo vai ser útil ou relevante, etc .;
6) Um único fácil de gerenciar e armazenar dados totalmente compartilhável ser acessível a todas as aplicações
(Em vez de criar silos para novo arquivo, móvel, os fluxos de trabalho de nuvem, e cópias de dados);
7) Um modelo de acesso compartilhado de modo que cada bit de dados seria simultaneamente acessível em múltiplos
formatos para eliminar o extracto, transformar e processo de carga e permitir a análise de dados no local, o fluxo de trabalho de
suporte acelerada entre aplicações diferentes, etc .;
8) Acesso a partir de qualquer dispositivo (um tablet, smartphone, laptop, desktop) para apoiar a força de trabalho móvel;

9) analytics ágeis de e para o lago dados usando várias abordagens e dados analíticos
fluxos de trabalho, bem como análise de sujeitos individuais com base em casos de uso muito específicas;

10) Algum nível de qualidade de serviço com segurança isolar fluxos de trabalho consolidados em sua própria
zonas dentro do sistema de garantia ou de desempenho;
11) A eficiência de codificação, incluindo o apagamento, de compressão, de redução de redundância;

12) Você nunca mover os dados como o processamento vai para os dados, e não o contrário, etc. Os dados que entram em um lago
contêm registros e dados do sensor (por exemplo, a partir da Internet of Things), o comportamento do cliente de baixo nível (por exemplo,
Site Click streams), mídia social, coleções de documentos de (por exemplo, e-mail e arquivos de clientes), geo-localização trilhas, imagens,
vídeo e áudio e outros dados úteis para a análise integrada. A governança lago de dados inclui estrutura de aplicativo para capturar e
contextualizar dados pela catalogação e indexação e mais avançado de gestão de metadados. Ela ajuda a criar colaborativamente modelos
(visitas) de dados e, em seguida, ganhar mais visibilidade e gerenciar melhorias incrementais para os metadados. E o gerenciamento
avançado de metadados combina trabalhar com estruturas de dados que mudam rapidamente, bem como sub-segunda resposta de
consulta em dados altamente estruturadas. E para o próprio lago de dados, pois é uma única loja de dados originais garantindo a sua
disponibilidade operacional, integridade, controle de acesso, autenticação e autorização, monitoramento e auditoria, continuidade de
negócios e recuperação de desastres é de grande importância.

4 Conceito de dados rápida

No atual mundo dinâmico da empreendimentos' dados está crescendo muito rápido. À medida que o fluxo de dados de sensores,
atuadores e comunicação máquina-a-máquina na Internet das Coisas e moderno

303
Big Data, rápida de dados e Lake conceitos dados Natalia Miloslavskaya e Alexander Tolstoy

redes é muito grande, tornou-se vital para as empresas a identificar quais dados são sensíveis ao tempo e deve ser posta em prática imediatamente e, vice-versa, o que os

dados podem se sentar em um banco de dados ou dados lago até que haja uma razão para mina dele ( Shalom, 2014). rápida de dados corresponde à aplicação de grandes

análise de dados para conjuntos de dados menores em tempo real quase real ou para resolver um problema particular. Eles desempenham um papel importante em

aplicações que requerem baixa latência e dependem da alta capacidade de entrada / saída para atualizações rápidas. O objetivo da análise de dados mais rápidas é reunir

rapidamente eo meu estruturados e não estruturados de dados para que medidas podem ser tomadas. dados rápidos muitas vezes entra em sistemas de dados em córregos

e é mais acentuado no processamento de fluxos de dados grandes em velocidade, e novas drives flash está pronto para quebrar o limite de velocidade atual, que é limitado

principalmente pelo desempenho dos dispositivos de disco rígido. A combinação das bases de dados em memória e grade de dados no topo dos dispositivos flash vai

permitir um aumento na capacidade de processamento de fluxo. Assim, os dados rápido requer duas tecnologias: um sistema de transmissão capaz de entregar eventos tão

rápido como eles entram e um armazenamento de dados capaz de processar cada item tão rápido como ele chega. Em seu rápido processamento de dados base pode ser

descrito como um sistema de transmissão capaz de entregar eventos tão rápido como eles entram e um armazenamento de dados capaz de processar cada item tão rápido

como ele chega. Em seu rápido processamento de dados base pode ser descrito como um sistema de transmissão capaz de entregar eventos tão rápido como eles entram e

um armazenamento de dados capaz de processar cada item tão rápido como ele chega. Em seu rápido processamento de dados base pode ser descrito como « Eu ngest

»(obter milhões de eventos por segundo),« d ecide »(tomar uma decisão baseada em dados em cada evento) e« uma nalyze em tempo real »

(Para permitir a tomada de decisões automatizada e fornecer visibilidade sobre as tendências operacionais dos eventos).
Algumas aplicações de dados mais rápidas dependem de dados em lote rápidas enquanto outros exigem fluxos em tempo real. casos de uso
potencial para rápida de dados incluem, por exemplo, câmeras de vigilância inteligentes que podem gravar continuamente eventos e usar análise
preditiva para identificar e anomalias de segurança marcar como eles ocorrem ou aplicações de redes inteligentes que podem analisar o consumo de
energia elétrica em tempo real em dezenas-de- milhares de locais e automaticamente iniciar corte de carga para equilibrar a oferta com a demanda
em áreas geográficas específicas.

Assim, podemos concluir que os dados rápida é uma abordagem complementar ao big data para o gerenciamento de grandes quantidades de « em voo »
dados. Interagindo com dados rápidos difere radicalmente de interagir com dados grandes em repouso e exige sistemas que são arquitetados de maneira
diferente.

5 Conclusão
Vamos repetir as ideias principais que são usados ​pelos conceitos discutidos. dados grandes podem ser estruturados, semi-estruturadas e não
estruturadas e caracteriza-se pelo volume, velocidade, variedade, veracidade, variabilidade, valor e visibilidade. Existem três tipos de processamento
de dados grande: lote em tempo real pseudo ou em tempo real suave, córrego em disco em tempo real e híbrido. Um lago de dados contém uma
grande quantidade de dados em bruto em seu formato nativo (estruturado, não estruturado e semi-estruturado) considerada de acordo com os
requisitos de reutilização até que seja necessário mais sistemas de processamento (motor) que podem processar dados sem comprometer a estrutura
de dados. Ele pode ser imaginado como um grande conjunto de dados para trazer todos os dados históricos acumulados e novos dados em tempo
quase real em um único lugar, em que os requisitos de esquema e de dados não são definidas até que os dados é consultado. Os lagos de dados são
bem geridos e protegidos, têm arquiteturas scale-out com alta disponibilidade, catalogação centralizada e indexação, o modelo de acesso
compartilhado a partir de qualquer dispositivo permitido moderno, use analytics ágeis e linhagem de dados avançada (tracking). rápida de dados é
sensível ao tempo estruturados e não estruturados “In-flight” de dados e deve ser recolhida e posta em prática de imediato (requer baixa latência e
processamento de fluxos de dados grandes na velocidade). Corresponde à aplicação de grandes análise de dados para conjuntos de dados menores
em tempo real quase real ou para resolver um problema particular. rápida de dados requer um sistema de streaming capaz de entregar eventos tão
rápido como eles entram e um armazenamento de dados capaz de processar cada item tão rápido como ele chega. Algumas aplicações de dados
mais rápidas dependem de dados em lote rápidas enquanto outros exigem fluxos em tempo real.

Assim, podemos concluir que nem todos os big data é rápido, assim como nem todos os dados rápido é grande. Consequentemente,
estes dois conceitos têm o cruzamento. Ao analisar os dados grandes e os lagos de dados, a conclusão é que o segundo conceito
evolutivo continua o primeiro em uma volta mais alta da espiral. A imagem final da inter-relação de três conceitos é mostrada na Figura 1.
A eventual nova área de investigação é a comparação em detalhe de arquitecturas que suportam estes conceitos.

304
Big Data, rápida de dados e Lake conceitos dados Natalia Miloslavskaya e Alexander Tolstoy

Figura 1: Inter-relação entre os dados grandes, dados rápidos e conceitos lago dados

6 Reconhecimento
Este trabalho foi apoiado pelo Programa Competitividade crescimento da instituição Autônoma Educacional Federal de
Ensino Superior Nacional de Pesquisa Nuclear Universidade Mephi (Moscovo Engenharia Física Instituto).

Referências
Dixon, J. (2015). Pentaho, Hadoop, e Lagos de dados. URL: https://jamesdixon.wordpress.com/ 2010/10/14 /
pentaho-hadoop-and-Data-lagos / (data de acesso 28/05/2016).
Shalom, N. (2014). Nas próximas grande coisa em big data: velozes dados. URL:
http://venturebeat.com/2014/06/25/the-next-big-disruption-in-big-data/ (data de acesso 28/05/2016).
Hornbeck, RL (2013). Batch Versus Streaming: Diferenciação entre tático e grandes Estratégico de dados do Google
Analytics. URL: http://datatactics.blogspot.ru/2013/02/batch-versus-streaming-
differentiating.html (data de acesso 28/05/2016).
Laskowski, N. (2016). lago dados governança: Um grande dados fazer ou morrer. URL: http: // searchcio.
techtarget.com/feature/Data-lake-governance-A-big-data-do-or-die (data de acesso 28/05/2016).
Marz, N., Warren, J. (2013). Big Data: Princípios e melhores práticas de sistemas de dados em tempo real escaláveis. Manning
Publicação Co.
McClure, T. (2016). armazenamento unificado de ontem é lago de dados empresariais de hoje. URL:
http://searchstorage.techtarget.com/opinion/Yesterdays-unified-storage-is-todays-enterprise-data-lake (data de acesso 28/05/2016).

Miloslavskaya, N., Senatorov, М., Tolstoy, А, Zapechnikov, S. (2014). Segurança da informação


Problemas de manutenção para Big Data Security-relacionados. Proceedings de 2014 Conferência Internacional sobre Futuro Internet das
Coisas e Cloud FiCloud 2014. Barcelona (Espanha). Pp. 361-366.
Rajamaran, A., Leskovec, J., Ullman, JD (2011). “A mineração de grandes conjuntos de dados”. Cambridge University Press. 326 p.

Stein, B., Morrison, A. (2014). Os dados lago empresa: melhor integração e análises mais profundas. PricewaterhouseCooper.
URL: http://www.pwc.com/us/en/technology-forecast/2014/cloud-
computação / ativos / pdf / pwc-tecnologia-forecast-data-lakes.pdf (data de acesso 28/05/2016).
O estudo da IDC (2014). O Universo Digital de Oportunidades: dados ricos e o valor crescente da Internet das Coisas. URL:
http://www.emc.com/leadership/digital-universe/2014iview/index.htm (data de acesso 28/05/2016).

305

Você também pode gostar