Escolar Documentos
Profissional Documentos
Cultura Documentos
Resumo:
Conforme pode ser visto na Figura 1.1 no contexto acadêmico algumas ques-
tões investigadas são inerentes a melhor forma para se armazenar dados, aperfeiçoar
o uso de recursos, a transferência de dados, encontrar os limites de processamento e
performance dentre outros. Por outro lado, para indústria é tipicamente interessante
avaliar a qualidade dos dados, as melhores estratégias para a mineração e monitora-
mento dos mesmos, a relevância dos resultados obtidos e o custo despendido para
esse fim. Além disso, independente da organização, seja ela acadêmica ou da in-
dústria, Big Data pode ser caracterizado por diferentes aspectos, características ou
dimensões, como pode ser visto a seguir.
• Valor: o dado no seu formato original possui pouco valor, porem quando o
mesmo for processado e analisado pode se tornar muito valioso, pois pode
oferecer informação estratégica ao negócio.
Lambda é basicamente formada por 3 camadas: (i) a camada de lote que ge-
rencia grandes conjuntos de dados (imutáveis), geralmente dados históricos. Os
mesmo são pré-processados em funções de consultas arbitrárias (views), tipica-
mente efetuadas por frameworks como o Hadoop [WHI 2009], Hive [HIV 2015],
Pig [PIG 2015] ou Spark [ZAH 2016]; (ii) a camada de velocidade ou tempo real
processa pequenos conjuntos de dados de acordo com uma janela de tempo (por
exemplo, 1 minuto). Essa estratégia permite o processamento em tempo real utili-
zando algoritmos incrementais, é importante ressaltar que a cada alteração é efetu-
ado o reprocessamento dos dados. Aqui pode-se usar, por exemplo, Flink, Spark ou
Storm; (iii) a camada de serviço combina os resultados da camada de processamento
em lote e em tempo real para permitir análises interativas rápidas (sem latência) por
usuários. Esta camada pode utilizar bases de dados relacionais, mas também bases
de dados não relacionais, como por exemplo o HBASE.
Já a arquitetura Kappa se concentra exclusivamente nas camadas de serviço
e de tempo real. Muito semelhante à arquitetura apresentada na Figura 1.3. Kappa
é uma simplificação da arquitetura Lambda, evita a duplicidade de bases de dados
e favorece o processamento de eventos. Geralmente, eventos são criados por dis-
positivos - Internet das Coisas (IoT), redes sociais, arquivos de logs ou sistemas de
processamento de transações.
Por fim e não menos importante, pode-se citar os sistemas de arquivos distri-
buídos e de armazenamento em tempo real (Figura 1.5). Esses sistemas fornecem o
aporte para o processamento das aplicações e frameworks sob os sistemas Big Data,
com por exemplo o Mesos e YARN.
1.5.1. A Aplicação
O fluxo de trabalho da aplicação proposta pode ser dividida em duas etapas,
sendo a primeira a coleta de informações sobre determinados assuntos de interesse
do usuário. Esta etapa faz a coleta de tweets de dois assuntos específicos (Classes
C1 e C2 ) - definidos pelo usuário, a partir de uma hashtag. Na segunda etapa é
feita a coleta de um terceiro dado (C3 ), a ser classificado, para assim determinar sua
tendência entre os assuntos das classes previamente coletadas.
Durante a coleta dos dados, na primeira etapa, a aplicação inicialmente faz a
Figura 1.6: Primeira Etapa da Aplicação.
1.6. Conclusão
1.7. Bibliografia
[ALE 2014] ALEXANDROV, A. et al. The Stratosphere platform for big data analytics.
VLBD Journal, v.23, n.6, p.939–964, 2014.
[AMA 2016] AMAZON. O que são dados em streaming? Acessado em: 06/02/2017.
[Apa 2014] Apache Spark. Spark streaming programming guide. Acessado em:
04/02/2017.
[ASS 2015] ASSUNCAO, M. D. et al. Big Data computing and clouds: trends and fu-
ture directions. Journal of Parallel and Distributed Computing, v.79–80,
p.3–15, 2015. Special Issue on Scalable Systems for Big Data Management
and Analytics.
[BOR 2016] BORDIN, M. V. et al. Trabalhando com big data em tempo real. XVI
ERAD 2016, 2016.
[CHA 2008] CHANG, F. et al. Bigtable: a distributed storage system for structured data.
ACM Transactions on Computer Systems, TOCS’2008, v.26, n.2, p.4,
2008.
[DOS 2015] DOS ANJOS, J. C. et al. Smart: an application framework for real time big
data analysis on heterogeneous cloud environments. Proceedings of the
IEEE International Conference on the Computer and Information Te-
chnology; Ubiquitous Computing and Communications; Dependable,
Autonomic and Secure Computing; Pervasive Intelligence and Compu-
ting (CIT/IUCC/DASC/PICOM)’2015, p.199–206, 2015.
[FAN 2013] FAN, W.; BIFET, A. Mining big data: current status, and forecast to the
future. ACM sIGKDD Explorations Newsletter, New York, NY, USA,
v.14, n.2, p.1–5, Apr. 2013.
[GEO 2011] GEORGE, L. Hbase: the definitive guide: random access to your planet-
size data. [S.l.]: "O’Reilly Media, Inc.", 2011.
[HIN 2011] HINDMAN, B. et al. Mesos: A Platform for Fine-Grained Resource Sha-
ring in the Data Center. Proceedings of the 8th USENIX Symposium
on Networked Systems Design and Implementation, NSDI’2011, v.11,
n.2011, p.22–22, 2011.
[IBM 2010] IBM, C. Mainframes working after hours: Batch processing. Acessado
em: 04/02/2017.
[MAR 2015] MARCOS D, A. et al. Big Data Computing and Clouds: Trends and Fu-
ture Directions. Parallel and Distributed Computing. Science Direct,
v.79–80, p.3–15, May 2015.
[MAT 2013] MATTEUSSI, K. J. Protótipo de interface web com php para gerenciamento
de banco de dados couchdb. Trabalho de Conclusão de Curso de Mes-
trado em Ciência da Computação, Unochapecó, 2013.
[MAT 2016] MATTEUSSI, K. Um Estudo Sobre a Contenção de Disco em Ambientes
Virtualizados Utilizando Contêineres e Seu Impacto Sobre Aplicações Ma-
pReduce. Dissertação de Mestrado, Programa de Pós-Graduação em
Ciência da Computação, PUCRS, p.94, 2016.
[MAY 2014] MAYER-SCHONBERGER, V.; CUKIER, K. Big data: como extrair vo-
lume, variedade, velocidade e valor da avalanche de informação cotidiana.
[S.l.]: Elsevier Brasil, 2014. v.1.
[VAV 2013] VAVILAPALLI, V. K. et al. Apache hadoop yarn: yet another resource
negotiator. Proceedings of the 4th annual Symposium on Cloud Com-
puting, p.5, 2013.
[WHI 2009] WHITE, T. Hadoop: The Definitive Guide. O’Reilly Media, Inc. 2009.
3rd. pp. 657, p.657, 2009.
[ZAH 2016] ZAHARIA, M. et al. Apache spark: a unified engine for big data pro-
cessing. Commun. ACM, New York, NY, USA, v.59, n.11, p.56–65,
Oct. 2016.