Escolar Documentos
Profissional Documentos
Cultura Documentos
Dissertao de Mestrado
RECIFE
2017
1/52
UMA PROPOSTA DE ARQUITETURA PARA TRATAMENTO DE DADOS NO
ESTRUTURADOS NO MBITO DOS INSTITUTOS FEDERAIS DE EDUCAO
Aluno:
GIOVANI FELIPE JAHN
Orientador:
Vinicius Cardoso Garcia
1. Introduo/Motivao
2. Objetivos
3. Abordagem Metodolgica
4. Referencial Terico
5. Arquitetura de Referncia
6. Aplicao da Arquitetura
7. Avaliao
8. Consideraes Finais
9. Referncias
Cenrio
Cenrio
dados podem fornecer insights e conhecimentos valiosos para as instituies de ensino (WASSANR 2015);
instituies de ensino esto usando dados analticos para melhorar os servios prestados;
5/52
1. Introduo/motivao
Pergunta de pesquisa:
6/52
2. Objetivos
Objetivo Geral
Objetivos especficos
7/52
2. Objetivos
Contribuio
8/52
3. Abordagem Metodolgica
9/52
3. Abordagem Metodolgica - Caracterizao da pesquisa
10/52
3. Abordagem Metodolgica - DSR
Cincia da Informao -> Cincia Aplicada -> Cincia de Projeto (VAKKARI, 1994);
Reviso da Literatura
ACM Digital
Google Scholar Scopus Web Of Science IEEE
Library
BigData 12.300 387 235 281 158
NoSQL 15.900 1.331 810 602 182
NoSQL database 7.920 1.201 623 538 80
NoSQL Clusters 71 122 83 74 1
NoSQL Engine 57 135 56 65 2
NoSQL Architecture 65 272 159 147 1
NoSQL Education 1 24 9 9 0
Hadoop + 28.300 4.964 3.183 2.961 510
MapReduce + 16.600 5.105 3.575 3.123 657
Arquiteturas BigData 0 0 0 282 0
BigData Analytics 322 78 53 61 11
Tabela 1: Relao de termos pesquisados em repositrios e quantidade retornada em nmero de artigos/dissertaes/teses 12/52
Fonte: Elaborado pelo autor
3. Abordagem Metodolgica
Reviso Sistemtica da Seleo de fontes de
Literatura informao literria
Elaborao de
questionrio
Classificao de Artigos Definio de palavras
e Publicaes de busca
Definio de
Definio de ndices e grupos alvos
Leitura dos resumos amplitude de tempo
Classificao e anlise
Redao dos captulos das publicaes
Figura 3: Plano de trabalho Figura 4: Sntese da coleta de dados em repositrios literrios 13/52
Fonte: Elaborado pelo autor Fonte: Elaborado pelo autor
3. Abordagem Metodolgica
Elaborao de cenrios
Proposio da soluo
Definio do pr-
Avaliao requisitos
Elaborao de
formulrio de avaliao
Definio de grupos
alvos
Envio de formulrio
15/52
4. Referencial Terico
Escalabilidade (horizontal)
Grandes Volumes
Distribudos
Simplicidade
BASE (Basic Availability, Soft State, Eventual Consistency) x ACID (Atmica, Consistente,
Isolada e Durvel) - Pritchett (2008);
Diponibilidade
17/52
4. Referencial Terico
Trabalhos relacionados
- Reference Architecture and Classification of Technologies, Products and Services for Big Data Systems
PKKNEN e PAKKALA (2016)
aborda casos de uso em arquiteturas de big data por grandes empresas como Facebool, LinkedIn
ou Netflix;
- BASIS: Uma Arquitetura de Big Data para Smart Cities COSTA (2015)
Prope uma arquitetura de Big Data para Smart Cities;
Integra componentes tecnolgicos de uma arquitetura em vrias camadas de abstrao, desde a
mais conceptual at a mais tecnolgica;
18/52
5. Arquitetura de referncia
19/52
5. Arquitetura de referncia
a) Extrair dados relacionados ao contexto educacional (mas no somente estes) postados por
usurios de redes sociais;
b) extrair dados relacionados ao contexto educacional (mas no somente estes) encontrados
na Internet;
c) extrair dados de sistemas utilizados pela instituio;
d) prover escalabilidade linear para a quantidade de registros que so armazenados;
e) analisar e classificar dados de contedo (funo analytic de acordo com os objetivos
especficos da instituio);
f) exibir para o usurio final um Dashboard ou aplicativos web para visualizao dos resultados
obtidos aps a anlise.
20/52
5. Arquitetura de referncia
22/52
5. Arquitetura de referncia
PROCESSAMENTO ANLISE
FONTE AQUISIO ARMAZENAMENTO VISUALIZAO
TRANSFORMAO
Estruturado
/ API
DASHBOARDS
E
T / /
L
Semi-Estr
/ REST
APLICATIVOS
WEB
No Estr
Fonte:
procuram identificar as diferentes origens e tipos de dados que podem ser utilizados;
redes sociais, arquivos de texto, vdeos, dados estruturados oriundos de sistemas locais.
24/52
5. Arquitetura de referncia
Aquisio:
capturar contedo web / postagens pblicas atravs de servios - REST (Representational State
Transfer - W3C);
responsvel pelo processo de Extract Transform and Load (ETL) - aes relativas extrao
dos dados (estruturados, semi-estruturados ou no estruturados), transformao e limpeza
(correes), posteriormente levados para o processo (rea) de armazenamento (CHAUDHURI
et al., 2011);
Aquisio:
quando extrados, dados podem ser armazenados temporariamente (base de dados TEMP) ou transferidos
e em dados Crus, exclusiva para dados no processados (PAAKKONEN e PAKKALA , 2014) ;
mesmo procedimento pode, a critrio, para aos dados de transmisso em fluxo contnuo;
a compresso dos dados extrados, pode melhorar a eficincia dos processos de tranferncia e carga;
dados crus podem ser limpos ou combinados e salvos em um novo armazenamento ou enviados
diretamente para a etapa de anlise;
26/52
5. Arquitetura de referncia
Processamento:
ocorre desde a extrao, podendo serem feitas anlises mais profundas de acordo com
solicitaes do usurio;
cloud computing nesse processo indicado para permitir que os dados sejam guardados,
acessados e utilizados em qualquer local.
28/52
5. Arquitetura de referncia
Visualizao:
fornece uma "interface humana" para estas informaes em relao ao usurio final;
29/52
5. Arquitetura de referncia
Consideraes
por meio da arquitetura - utilizao de dados de redes sociais - decises sobre a rea da
educao;
31/52
6. Uma proposta de utilizao de arquitetura para tratamento de dados
no estruturados no ambiente dos Institutos Federais de Educao
32/52
6. Uma proposta de utilizao de arquitetura para tratamento de dados
no estruturados no ambiente dos Institutos Federais de Educao
Dados no Estruturados n 8 7 4 1
e/ou Dados NoSQL
% 40,0% 35,0% 20,0% 5,0%
n 7 7 5 1
IoT
% 35,0% 35,0% 25,0% 5,0%
n 7 12 1 0
Big Data Analytics"
% 35,0% 60,0% 5,0% 0,0%
n 9 10 1 0
Open Data"
% 45,0% 50,0% 5,0% 0,0%
n 15 5 0 0
Smart Governance"
% 75,0% 25,0% 0,0% 0,0%
n 10 10 0 0
Social Big Data"
% 50,0% 50,0% 0,0% 0,0%
n 13 6 1 0
Data Science"
% 65,0% 30,0% 5,0% 0,0%
Tabela 2: Nvel de conhecimento acerca dos assuntos da pesquisa - Profissionais de TI/IFFar - 2016 33/52
Fonte: Elaborado pelo autor
6. Uma proposta de utilizao de arquitetura para tratamento de dados
no estruturados no ambiente dos Institutos Federais de Educao
Gestor
Analista de T.I. Tcnico de T.I. Professor
Administrativo
N % n % N % N %
Tabela 3: Nvel de importncia dos dados no estruturados de redes sociais x Cargo que ocupa - Profissionais de TI/IFFar - 2016
Fonte: Elaborado pelo autor
34/52
6. Uma proposta de utilizao de arquitetura para tratamento de dados
no estruturados no ambiente dos Institutos Federais de Educao
Tcnico de Gestor
Dados no estruturados Analista de T.I. Professor
T.I. Administrativo
n % n % n % n %
construo de software
35/52
6. Uma proposta de utilizao de arquitetura para tratamento de dados
no estruturados no ambiente dos Institutos Federais de Educao
Utilizou na construo de um
Leu a respeito
sistema
n % n %
Hadoop 3 15% 0 0%
MapReduce 1 5% 0 0%
Cassandra 1 5% 0 0%
MongoDb 2 10% 0 0%
Kafka 1 5% 1 5%
Hbase 1 5% 1 5%
Figura 11: Proposta de arquitetura de referncia com ferramentas open source para o IFFar baseada em anlise de literatura
Fonte: Elaborado pelo autor
38/52
6. Uma proposta de utilizao de arquitetura para tratamento de dados
no estruturados no ambiente dos Institutos Federais de Educao
Figura 12: Arquitetura proposta para tratamento de dados no estruturados para IFFAR
Fonte: Elaborado pelo autor 39/52
7. Avaliao
SAAM (Software Architecture Analysis Method) tem com principal objetivo auxiliar
arquitetos de software na escolha/comparao de proposies de solues
arquiteturais de sistema (KAZMAN et al., 1994);
SAAM adaptado.
40/52
7. Avaliao
Apresentar o
Passo 1
mtodo de avaliao
Passo 2
Apresentar os objetivos para o
desenvolvimento da arquitetura
Passo 3 Apresentar a
arquitetura proposta
Passo 4
Apresentar
cenrios
Requisitos Anlise Arquitetura de Avaliar
Passo 5
arquiteturais arquitetural referncia cenrios
Lista de Avaliadores Validao
cenrios externos
Passo 6 Validao
Figura 13: Anlise arquitetural para uma arquitetura de referncia Figura 13: Etapas do mtodo de avaliao da arquitetura (SAAM adaptado)
Fonte: Elaborado pelo autor Fonte: Elaborado pelo autor
41/52
7. Avaliao
Cenrios
Cenrio 1 Permitir a coleta de dados de diferentes fontes (sistemas, rede social, SGBDs);
Cenrio 2 Prover o carregamento de dados de formatos diversos (texto, imagem, logs, arquivos,
streaming);
Processo de avaliao
Pr-requisitos;
Descrio do mtodo;
Apresentao da arquitetura;
43/52
7. Avaliao
Equipe de avaliao
45/52
7. Avaliao
46/52
8. Consideraes finais
Trabalho realizado
referencial terico;
47/52
8. Consideraes finais
Resultados
48/52
8. Consideraes finais
Resultados
49/52
8. Consideraes finais
Dificuldades e limitaes
50/52
8. Consideraes finais
Trabalhos futuros
Aprofundar o estudo;
refinar a arquitetura;
51/52
9. Referncias
Nome do artigo Ano Autor Publicao
Composable architecture for rack scale big data computing 2017 Li, Chung-Sheng, et al Future Generation Computer Systems 67
Persisting big-data: The NoSQL landscape 2017 Corbellini, Alejandro, et al Information Systems 63
Big Data e Transparncia: Utilizando Funes de Mapreduce para incrementar a 2016 Eduardo de Paiva XII Brazilian Symposium on Information
transparncia dos Gast os Pblicos Kate Revoredo Systems, Florianpolis, SC, May 17-20, 2016
Reference Architecture for Big Data Systems in the National Security Domain 2016 John Klein Ross Buglak, David Blockow, Troy Wuttke, 2nd International Workshop on BIG Data
Brenton Cooper Software Engineering
An Effective NoSQL-Based Vector Map Tile Management Approach 2016 Wan, Lin, Zhou Huang, and Xia Peng ISPRS International Journal of Geo-Information
Anlise Comparativa dos Bancos Orientados a Grafos de Primeira e Segunda Gerao 2016 Alvarez, Guilherme M., Flvio Ceci, and Alexandre L. III Encontro de Inovao em SI, Florianpolis,
Uma Aplicao na Anlise Social Gonalves SC
Use a anlise de big data e de dados rpidos para usufruir da anlise como servio 2016 Chelliah Pethuru Raj, Skylab Vanga IBM Developer Works
(AaaS)
Forensic investigation framework for the document store NoSQL DBMS: MongoDB as a 2016 Yoon, Jongseong, et al. Digital Investigation 17
case study
NoSQL Injection: Data Security on Web Vulnerability 2016 Abdalla, Hemn B., et al. International Journal of Security and Its
Applications 10.9
RDBMS, NoSQL, Hadoop: A Performance-Based Empirical Analysis 2016 Yassien, Amal W., and Amr F. Desouky Proceedings of the 2nd Africa and Middle East
Conference on Software Engineering
A flexible and scalable architecture for real-time ANT+ sensor data acquisition and 2016 Mehmood, Nadeem Qaisar, Rosario Culmone, and Leonardo International Journal of Distributed Sensor
nosql storage Mostarda Networks 12.5
Design Assistant for NoSQL Technology Selection 2015 John Klein and Ian Gorton Proceedings of the 1st International Workshop
on Future of Software Architecture Design
Assistants
Big Data Design 2015 Alberto Abell In: Proceedings of the ACM Eighteenth
International Workshop on Data Warehousing
and OLAP