Proposta de Arquitetura para Tratamento de Dados Não Estruturados No Âmbito Dos Institutos Federais de Educação (Apresentação)

GIOVANI FELIPE JAHN
Dissertao de Mestrado
UNIVERSIDADE FEDERAL DE PERNAMBUCO

CIN CENTRO DE INFORMTICA
PS-GRADUO EM CINCIA DA COMPUTAO
posgraduacao@cin.ufpe.br
www.cin.ufpe.br/~posgraduacao
RECIFE
2017
1/52
UMA PROPOSTA DE ARQUITETURA PARA TRATAMENTO DE DADOS NO
ESTRUTURADOS NO MBITO DOS INSTITUTOS FEDERAIS DE EDUCAO
Aluno:
GIOVANI FELIPE JAHN
Orientador:
Vinicius Cardoso Garcia
Dissertao de Mestrado Profissional em Cincia da Computao 2/52

SUMRIO
1. Introduo/Motivao
2. Objetivos
3. Abordagem Metodolgica
4. Referencial Terico
5. Arquitetura de Referncia
6. Aplicao da Arquitetura
7. Avaliao
8. Consideraes Finais
9. Referncias
Dissertao de Mestrado Profissional em Cincia da Computao 3/52

1. Introduo/motivao
Cenrio
Figura 1: Dados produzidos pelas redes ligadas Internet

Fonte: Excelacom.com
4/52
1. Introduo/motivao
Cenrio
O tratamento destes dados, com finalidades analticas;
dados podem fornecer insights e conhecimentos valiosos para as instituies de ensino (WASSANR 2015);
instituies de ensino esto usando dados analticos para melhorar os servios prestados;
Big Data, Cloud, NoSQL, Open Source;
agregar as novas tendncias de tratamento de dados no estruturados realidade institucional?
uma anlise exploratria sobre estas tecnologias cabvel e muito til;
5/52
1. Introduo/motivao
Pergunta de pesquisa:
Como tratar dados no estruturados, visando o proveito

em uma instituio federal de ensino?
6/52
2. Objetivos
Objetivo Geral
Propor uma arquitetura de referncia para tratamento de dados no estruturados.
Objetivos especficos
Apresentar o estado da arte nos temas Big Data, Analytics, NoSQL;

caracterizar o papel das bases de dados NoSQL;
comparar as formas de tratamento de dados;
identificar as tcnicas e ferramentas empregadas para solues de tratamento de dados no estruturados;
propor uma arquitetura de tratamento de dados no estruturados (NoSQL), identificada com a realidade do
Instituto Federal de Educao Cincia e Tecnologia Farroupilha;
construir conhecimento no escopo dos Institutos Federais de Educao a partir do estudo de dados no
estruturados.
7/52
2. Objetivos
Contribuio
Propor uma arquitetura e propiciar crescimento tecnolgico

institucional e cientfico.
8/52
Terico-conceitual fundamentada em reviso da literatura
Objetiva explorar uma rea com escassez de conhecimento (VERGARA, 2005).
9/52
3. Abordagem Metodolgica - Caracterizao da pesquisa
Procedimento racional e sistemtico com o objetivo de buscar respostas

problemas (GIL, 2002);
soluo de problemas tericos ou prticos (CERVO E BERVIAN, 2002);
necessidade de modernizao dos mtodos de pesquisa e adequao ao problema

apresentado Design Science (DAFT e LEVIN, 1990; ROMME 2003).
10/52
3. Abordagem Metodolgica - DSR
Design Science Research
fenmenos artificiais (VAISHNAVI e KUECHLER, 2009);
Cincia da Informao -> Cincia Aplicada -> Cincia de Projeto (VAKKARI, 1994);
desenvolvedora de artefatos tecnolgicos para atender as necessidades prticas das
organizaes (VAN HAKEN, 2004).
Ponto de Partida da Observao da Metodo Cientfico Objetivos da

Pesquisa Realidade Pesquisa
Razes para Proposta/Projeto Hipottico- Propor

realizar a de um artefato dedutivo Projetar
pesquisa:
Resposta para
uma questo
importante
Figura 2: Demonstrativo sinttico da pesquisa, segundo o DSR

Fonte: Elaborado pelo autor
11/52
3. Abordagem Metodolgica - Pesquisa bibliogrfica exploratria
Reviso da Literatura
ACM Digital
Google Scholar Scopus Web Of Science IEEE
Library
BigData 12.300 387 235 281 158
NoSQL 15.900 1.331 810 602 182
NoSQL database 7.920 1.201 623 538 80
NoSQL Clusters 71 122 83 74 1
NoSQL Engine 57 135 56 65 2
NoSQL Architecture 65 272 159 147 1
NoSQL Education 1 24 9 9 0
Hadoop + 28.300 4.964 3.183 2.961 510
MapReduce + 16.600 5.105 3.575 3.123 657
Arquiteturas BigData 0 0 0 282 0
BigData Analytics 322 78 53 61 11
Tabela 1: Relao de termos pesquisados em repositrios e quantidade retornada em nmero de artigos/dissertaes/teses 12/52
Reviso Sistemtica da Seleo de fontes de
Literatura informao literria
Elaborao de
questionrio
Classificao de Artigos Definio de palavras
e Publicaes de busca
Definio de
Definio de ndices e grupos alvos
Leitura dos resumos amplitude de tempo
Classificao dos Envio de formulrio

Buscas
resumos por categorias
Leitura integral dos Analise sobre os ttulo Anlise dos

artigos e publicaes encontrados formularios e dados
Estruturao de Anlise sobre os Exibio dos

captulos resumos
resultados
Figura 5: Sntese da coleta de dados em instituies federais de ensino - survey
Pesquisa leitura das publicaes Fonte: Elaborado pelo autor
Classificao e anlise
Redao dos captulos das publicaes
Figura 3: Plano de trabalho Figura 4: Sntese da coleta de dados em repositrios literrios 13/52
Fonte: Elaborado pelo autor Fonte: Elaborado pelo autor
Elaborao de cenrios
Proposio da soluo
Definio do pr-
Avaliao requisitos
Elaborao de
formulrio de avaliao
Definio de grupos
alvos
Envio de formulrio
Anlise dos formularios

e dados
Exibio dos resultados
Figura 6: Etapas do processo de avaliao

14/52
Caractersticas - Big Data, tratamento de dados, dados no estruturados, NoSQL,

Analytics;
funcionalidades, fluxos de dados e armazenamento de dados de arquiteturas

dispostos na literatura;
conceitos de adoo de tecnologias NoSQL esto presentes em domnios de Big

Data (VIEIRA et. al., 2012);
15/52
Figura 7: Lista dos termos abordados no referencial terico 16/52

NoSQL
Escalabilidade (horizontal)
Grandes Volumes
Distribudos
Simplicidade
Flexibilidade Bancos de dados NoSQL so livres de imposio de um esquema.
BASE (Basic Availability, Soft State, Eventual Consistency) x ACID (Atmica, Consistente,
Isolada e Durvel) - Pritchett (2008);
Diponibilidade
17/52
Trabalhos relacionados
- Towards a Big Data Reference Architecture (MAIER, 2013)

Abordagem sobre tecnologias que podem ser usadas para implementar uma arquitetura de
referncia;
Como o ecossistema Apache Hadoop e bancos de dados "NoSQL podem compor arquitetura de
referncia;
- Reference Architecture and Classification of Technologies, Products and Services for Big Data Systems
PKKNEN e PAKKALA (2016)
aborda casos de uso em arquiteturas de big data por grandes empresas como Facebool, LinkedIn
ou Netflix;
- BASIS: Uma Arquitetura de Big Data para Smart Cities COSTA (2015)
Prope uma arquitetura de Big Data para Smart Cities;
Integra componentes tecnolgicos de uma arquitetura em vrias camadas de abstrao, desde a
mais conceptual at a mais tecnolgica;
18/52
5. Arquitetura de referncia
Propor um modelo de arquitetura de referncia:
Baseada na anlise de casos publicados em trabalhos sobre o uso de tecnologias e

arquiteturas heterogneas;
estudo sobre ferramentas e tcnicas de tratamento de dados;
facilita a criao de uma arquitetura de design mais elaborada e a seleo de tecnologias

ou solues comerciais;
construda indutivamente com base nos casos da literatura.
19/52
Deve prover a execuo das seguintes tarefas:
a) Extrair dados relacionados ao contexto educacional (mas no somente estes) postados por
usurios de redes sociais;
b) extrair dados relacionados ao contexto educacional (mas no somente estes) encontrados
na Internet;
c) extrair dados de sistemas utilizados pela instituio;
d) prover escalabilidade linear para a quantidade de registros que so armazenados;
e) analisar e classificar dados de contedo (funo analytic de acordo com os objetivos
especficos da instituio);
f) exibir para o usurio final um Dashboard ou aplicativos web para visualizao dos resultados
obtidos aps a anlise.
20/52
Figura 8: Resumo do aspecto conceitual da arquitetura de referncia proposta

21/52
Desenvolvimento da arquitetura de referncia dois modelos:
a) Arquitetura Conceitual: descreve os nveis que constituem a arquitetura e a explicao das

atividades que so realizadas em cada um dos nveis.
b) Arquitetura Funcional: descreve uma soluo tecnolgica, atravs da instanciao de

tecnologias para cada um dos nveis identificados na arquitetura conceitual.
22/52
PROCESSAMENTO ANLISE
FONTE AQUISIO ARMAZENAMENTO VISUALIZAO
TRANSFORMAO
Estruturado
/ API
DASHBOARDS
E
T / /
L
Semi-Estr
/ REST
APLICATIVOS
WEB
No Estr
Figura 9: Arquitetura de referncia - alto grau de abstrao

Fonte: Elaborado pelo autor 23/52
Fonte:
procuram identificar as diferentes origens e tipos de dados que podem ser utilizados;
redes sociais, arquivos de texto, vdeos, dados estruturados oriundos de sistemas locais.
24/52
Aquisio:
corresponde entrada de dados no sistema;
extrao atravs de APIs disponibilizadas;
capturar contedo web / postagens pblicas atravs de servios - REST (Representational State
Transfer - W3C);
responsvel pelo processo de Extract Transform and Load (ETL) - aes relativas extrao
dos dados (estruturados, semi-estruturados ou no estruturados), transformao e limpeza
(correes), posteriormente levados para o processo (rea) de armazenamento (CHAUDHURI
et al., 2011);
(ETL = pipeline de dados. A complexidade dos requisitos de coleta e transformao ir

depender dos objetivos do sistema).
25/52
Aquisio:
quando extrados, dados podem ser armazenados temporariamente (base de dados TEMP) ou transferidos
e em dados Crus, exclusiva para dados no processados (PAAKKONEN e PAKKALA , 2014) ;
mesmo procedimento pode, a critrio, para aos dados de transmisso em fluxo contnuo;
a compresso dos dados extrados, pode melhorar a eficincia dos processos de tranferncia e carga;
dados crus podem ser limpos ou combinados e salvos em um novo armazenamento ou enviados
diretamente para a etapa de anlise;
dados prontos podem ser replicados entre os armazenamentos de dados;
a extrao de informaes refere-se ao armazenamento de dados brutos em um formato estruturado;
dados prontos repositrio para dados processados e limpos.
26/52
Processamento:
Em uma arquitetura de referncia o mdulo de processamento deve focar sua responsabilidade

sobre a execuo eficiente, escalvel e confivel das etapas da arquitetura (Klein et. al 2016) ;
disseminar os dados por toda arquitetura;
implantar e gerenciar os mecanismos para atender os requisitos que o sistema quer satisfazer;
implantar e gerenciar a infraestrutura de distribuio dos dados entre os clusters;
prover escalabilidade - novos canais de dados quando necessrio;
configurar e combinar os outros mdulos de aes sobre os dados;
processamento distribudo (com rplicas) distribuir e manipular o armazenamento de dados
entre todas as mquinas do cluster;
armazenar os dados oriundos das diversas etapas e diferentes nveis da arquitetura;
possui escopo amplo, atuando tambm sobre a etapa que de ETL.
27/52
Anlise:
obteno eficiente do conhecimento a partir dos dados;
ocorre desde a extrao, podendo serem feitas anlises mais profundas de acordo com
solicitaes do usurio;
procedimentos analticos - algoritmos de Data Mining, Predictive Analysis, querys adhoc;
resultados da anlise podem ser armazenados novamente em dados prontos ou em um

armazenamento de resultados de anlise separado;
a anlise de tempo real - sinnimo para anlise de fluxo - OLAP;
cloud computing nesse processo indicado para permitir que os dados sejam guardados,
acessados e utilizados em qualquer local.
28/52
Visualizao:
apresentao dos dados processados em um formato que expresse conhecimento;
fornece uma "interface humana" para estas informaes em relao ao usurio final;
devem tambm permitir ao usurio publicar relatrios acessveis de plataformas

computadores/ smartphones.
29/52
Figura 10: Arquitetura de referncia

30/52
Consideraes
possibilita que o tratamento de dados no estruturados seja abordado
- para com futuras proposies de implementao de um sistema;
- para a composio de uma arquitetura mais refinada;
por meio da arquitetura - utilizao de dados de redes sociais - decises sobre a rea da
educao;
insigths para melhoria da gesto pblica.
31/52
6. Uma proposta de utilizao de arquitetura para tratamento de dados
no estruturados no ambiente dos Institutos Federais de Educao
Instituto Federal de Educao, Cincia e Tecnologia Farroupilha representando os

institutos federais de educao;
tentativa de prover uma soluo para o problema inicial;
utilizar preferencialmente tecnologias embasadas no formato de licenas open source;
apresentao da arquitetura elaborada - detalhamento de componentes.
32/52
"Nunca ouvi Meu trabalho na

falar" / Li a respeito Conheo o assunto Instituio inerente ao
Desconheo assunto
Dados no Estruturados n 8 7 4 1
e/ou Dados NoSQL
% 40,0% 35,0% 20,0% 5,0%
n 7 7 5 1
IoT
% 35,0% 35,0% 25,0% 5,0%
n 7 12 1 0
Big Data Analytics"
% 35,0% 60,0% 5,0% 0,0%
n 9 10 1 0
Open Data"
% 45,0% 50,0% 5,0% 0,0%
n 15 5 0 0
Smart Governance"
% 75,0% 25,0% 0,0% 0,0%
n 10 10 0 0
Social Big Data"
% 50,0% 50,0% 0,0% 0,0%
n 13 6 1 0
Data Science"
% 65,0% 30,0% 5,0% 0,0%
Tabela 2: Nvel de conhecimento acerca dos assuntos da pesquisa - Profissionais de TI/IFFar - 2016 33/52
Gestor
Analista de T.I. Tcnico de T.I. Professor
Administrativo
N % n % N % N %
Extremamente importante 0 0% 1 10% 3 60% 0 0%
Poderia ser til de alguma 1 33% 2 20% 0 0% 1 50%

forma
Irrelevante 0 0% 2 20% 0 0% 0 0%
Relevante 2 67% 5 50% 2 40% 1 50%
Total 3 100% 10 100% 5 100% 2 100%
Tabela 3: Nvel de importncia dos dados no estruturados de redes sociais x Cargo que ocupa - Profissionais de TI/IFFar - 2016
34/52
Tcnico de Gestor
Dados no estruturados Analista de T.I. Professor
T.I. Administrativo
n % n % n % n %
At o momento no obtive 2 67% 7 70% 4 100% 1 50%
contato com nenhum
J utilizei (como usurio) 1 33% 2 20% 0 0% 1 50%
J participei no processo de 0 0% 1 10% 0 0% 0 0%
construo de software
Total 3 100% 10 100% 4 100% 2 100%
Tabela 4: Utilizao de softwares no tratamento de dados no estruturados - Profissionais de TI/IFFar - 2016

35/52
Utilizou na construo de um
Leu a respeito
sistema
n % n %
Hadoop 3 15% 0 0%
MapReduce 1 5% 0 0%
Cassandra 1 5% 0 0%
MongoDb 2 10% 0 0%
Kafka 1 5% 1 5%
Hbase 1 5% 1 5%
Tabela 5: Conhecimento quanto a ferramentas especficas - Profissionais de TI/IFFar - 2016

36/52
Vantagens de se usar uma soluo open source para os institutos federais
Base de MapReduc Mtodo de

Tipo GPL API REST API Java
Dados e Distribuio
Famlia de Hashing
Cassandra sim Sim no sim
Colunas
CouchDB Documento sim Sim sim sim Hashing
Famlia de Range
HBase sim Sim sim sim
Colunas
MongoDB Documento sim Sim sim sim range
Neo4J Grafo parcial No sim sim no se aplica
Redis Chave/valor sim No no sim Hashing
Tabela 6: Caractersticas resumidas das bases de dados open source

37/52
Uma proposta de arquitetura baseada em ferramentas open source e de livre licena
Fonte de Dados Busca / Aquisio Carregamento Transformao Armazenamento Visualizao

(Extrao
Resultados)
Logs de Sistemas Kafka HBase Hadoop HDFS Tableau

Redes Sociais Storm Hive (SQL)
Internet* HBASE (NoSQL) ou
Cassandra
Figura 11: Proposta de arquitetura de referncia com ferramentas open source para o IFFar baseada em anlise de literatura
38/52
Figura 12: Arquitetura proposta para tratamento de dados no estruturados para IFFAR
Fonte: Elaborado pelo autor 39/52
7. Avaliao
SAAM (Software Architecture Analisys Method)
SAAM (Software Architecture Analysis Method) tem com principal objetivo auxiliar
arquitetos de software na escolha/comparao de proposies de solues
arquiteturais de sistema (KAZMAN et al., 1994);
ter na forma de resultados, a produo dos cenrios inerentes ao sistema;
mtodos de avaliao de arquiteturas como SAAM, no podem ser diretamente

aplicados a arquiteturas de referncia - diferenas entre arquiteturas concretas e
arquiteturas de referncia (BASS et al. 2003);
SAAM adaptado.
40/52
7. Avaliao
Metodologia de avaliao sugerida
Apresentar o
Passo 1
mtodo de avaliao
Passo 2
Apresentar os objetivos para o
desenvolvimento da arquitetura
Passo 3 Apresentar a
arquitetura proposta
Passo 4
Apresentar
cenrios
Requisitos Anlise Arquitetura de Avaliar
Passo 5
arquiteturais arquitetural referncia cenrios
Lista de Avaliadores Validao
cenrios externos
Passo 6 Validao
Figura 13: Anlise arquitetural para uma arquitetura de referncia Figura 13: Etapas do mtodo de avaliao da arquitetura (SAAM adaptado)
Fonte: Elaborado pelo autor Fonte: Elaborado pelo autor
41/52
7. Avaliao
Cenrios
Cenrio 1 Permitir a coleta de dados de diferentes fontes (sistemas, rede social, SGBDs);
Cenrio 2 Prover o carregamento de dados de formatos diversos (texto, imagem, logs, arquivos,
streaming);
Cenrio 3 Permitir armazenamento em larga escala;
Cenrio 4 Permitir a analise e transformao de dados de diferentes formatos;
Cenrio 5 Permitir escalabilidade;
Cenrio 6 Fornecer mecanismo para tolerncia a falhas;
Cenrio 7 Fornecer suporte para servios de Cloud;
Cenrio 8 Permitir a visualizao dos dados transformados;

42/52
7. Avaliao
Processo de avaliao
Montar equipe de avaliao (remotamente distribuda);
Pr-requisitos;
Descrio do mtodo;
Apresentao da arquitetura;
Contextualizar os cenrios para a equipe;
43/52
7. Avaliao
Equipe de avaliao
Doutor Docente em BD/ Data Mining 2

Mestre Docente em BD/Data Mining Atende
Doutor Docente em Desenvolvimento de Sistemas 14%
Mestre Docente em Desenvolvimento de Sistemas 3 0%
No
Doutor Docente em reas Correlatas 86% atende
Mestre Docente em reas Correlatas 2
Doutor Analista de T.I. em BD/ Data Mining Atende
com
Mestre Analista de T.I. em BD/Data Mining Restries
Doutor Analista de T.I. em Desenvolvimento de Sistemas
Figura 15: Avaliao dos especialistas quanto ao
Mestre Analista de T.I. em Desenvolvimento de Sistemas atendimento dos cenrios pela arquitetura de referncia
Doutor Analista de T.I. em reas Correlatas Fonte: Elaborado pelo autor
Mestre Analista de T.I. em reas Correlatas
Quadro 1: Quanto formao/cargo que exerce/ rea em que efetivamente atua

44/52
7. Avaliao
Consideraes da equipe de avaliao
cenrio C1 - um dos avaliadores observou que que adequado a proposta de arquitetura,

contudo usar um filtro (key words) para orientar a coleta;
cenrio C2 - deve ser observado e quantificado o esforo computacional - motores de busca;
idem para o cenrio C3;
cenrio C6 - considerar uma taxa de Main Time to Failure para o ambiente tolerante a falhas;
demais cenrios considerados adequados.
45/52
7. Avaliao
Ameaas ao processo de avaliao
pequeno nmero de avaliadores consultados;
no se pode assegurar atendidos os pr-requisitos, habilidades e conhecimentos;
no ter havido uma implementao efetiva.
46/52
8. Consideraes finais
Trabalho realizado
o problema de pesquisa questiona como tratar dados no estruturados IFs;
referencial terico;
survey - o grau de ineditismo do assunto NoSQL;
prospecto de arquitetura de referncia;
arquitetura funcional por meio de open source;
arquitetura respondeu positivamente avaliao.
47/52
Resultados
O problema teve uma resposta;
possvel estudar e produzir conhecimento quanto s tecnologias envolvidas -

importncia dos dados para educao;
caractersticas principais sobre as ferramentas candidatas de escolha, como Hbase,

Cassandra, MogoDB, Kafka, Tableau, entre tantas;
contribuies acadmicas - propiciado a novos pesquisadores uma viso sobre

tratamento de dados NoSQL, base para futuras implementaes;
48/52
Resultados
IFFar beneficiado pela pesquisa - anlise sobre si mesma e proposio de um

produto (mesmo que de implementao futura);
os gestores, enquanto responsveis um rgo governamental de educao,

pesquisa e extenso, beneficiam-se para tomadas de decises.
49/52
Dificuldades e limitaes
adentrar num campo relativamente novo;
pouca interao dos demais profissionais de TI da Instituio;
testar efetivamente, via implementao de um cluster, a arquitetura sugerida.
50/52
Trabalhos futuros
Aprofundar o estudo;
refinar a arquitetura;
implantar em um ambiente real a atual proposta;
papel analtico validado e prover utilidade;
explorar tcnicas e tecnologias voltadas a segurana deste presumido sistema.
51/52
9. Referncias
Nome do artigo Ano Autor Publicao
Composable architecture for rack scale big data computing 2017 Li, Chung-Sheng, et al Future Generation Computer Systems 67
Persisting big-data: The NoSQL landscape 2017 Corbellini, Alejandro, et al Information Systems 63
Big Data e Transparncia: Utilizando Funes de Mapreduce para incrementar a 2016 Eduardo de Paiva XII Brazilian Symposium on Information
transparncia dos Gast os Pblicos Kate Revoredo Systems, Florianpolis, SC, May 17-20, 2016
Reference Architecture for Big Data Systems in the National Security Domain 2016 John Klein Ross Buglak, David Blockow, Troy Wuttke, 2nd International Workshop on BIG Data
Brenton Cooper Software Engineering
An Effective NoSQL-Based Vector Map Tile Management Approach 2016 Wan, Lin, Zhou Huang, and Xia Peng ISPRS International Journal of Geo-Information
Anlise Comparativa dos Bancos Orientados a Grafos de Primeira e Segunda Gerao 2016 Alvarez, Guilherme M., Flvio Ceci, and Alexandre L. III Encontro de Inovao em SI, Florianpolis,
Uma Aplicao na Anlise Social Gonalves SC
Use a anlise de big data e de dados rpidos para usufruir da anlise como servio 2016 Chelliah Pethuru Raj, Skylab Vanga IBM Developer Works
(AaaS)
Forensic investigation framework for the document store NoSQL DBMS: MongoDB as a 2016 Yoon, Jongseong, et al. Digital Investigation 17
case study
NoSQL Injection: Data Security on Web Vulnerability 2016 Abdalla, Hemn B., et al. International Journal of Security and Its
Applications 10.9
RDBMS, NoSQL, Hadoop: A Performance-Based Empirical Analysis 2016 Yassien, Amal W., and Amr F. Desouky Proceedings of the 2nd Africa and Middle East
Conference on Software Engineering
A flexible and scalable architecture for real-time ANT+ sensor data acquisition and 2016 Mehmood, Nadeem Qaisar, Rosario Culmone, and Leonardo International Journal of Distributed Sensor
nosql storage Mostarda Networks 12.5
Design Assistant for NoSQL Technology Selection 2015 John Klein and Ian Gorton Proceedings of the 1st International Workshop
on Future of Software Architecture Design
Assistants
Big Data Design 2015 Alberto Abell In: Proceedings of the ACM Eighteenth
International Workshop on Data Warehousing
and OLAP
Quadro 2: Matriz de artigos utilizados

52/52
Muitssimo grato!
Foi um privilgio ter estado com vocs.

Proposta de Arquitetura para Tratamento de Dados Não Estruturados No Âmbito Dos Institutos Federais de Educação (Apresentação)

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Proposta de Arquitetura para Tratamento de Dados Não Estruturados No Âmbito Dos Institutos Federais de Educação (Apresentação)

Enviado por

Direitos autorais:

Formatos disponíveis

GIOVANI FELIPE JAHN

UNIVERSIDADE FEDERAL DE PERNAMBUCO

Dissertao de Mestrado Profissional em Cincia da Computao 2/52

Dissertao de Mestrado Profissional em Cincia da Computao 3/52

Figura 1: Dados produzidos pelas redes ligadas Internet

O tratamento destes dados, com finalidades analticas;

Big Data, Cloud, NoSQL, Open Source;

agregar as novas tendncias de tratamento de dados no estruturados realidade institucional?

uma anlise exploratria sobre estas tecnologias cabvel e muito til;

Como tratar dados no estruturados, visando o proveito

Propor uma arquitetura de referncia para tratamento de dados no estruturados.

Apresentar o estado da arte nos temas Big Data, Analytics, NoSQL;

Propor uma arquitetura e propiciar crescimento tecnolgico

Terico-conceitual fundamentada em reviso da literatura

Objetiva explorar uma rea com escassez de conhecimento (VERGARA, 2005).

Procedimento racional e sistemtico com o objetivo de buscar respostas

soluo de problemas tericos ou prticos (CERVO E BERVIAN, 2002);

necessidade de modernizao dos mtodos de pesquisa e adequao ao problema

Design Science Research

fenmenos artificiais (VAISHNAVI e KUECHLER, 2009);

desenvolvedora de artefatos tecnolgicos para atender as necessidades prticas das

organizaes (VAN HAKEN, 2004).

Ponto de Partida da Observao da Metodo Cientfico Objetivos da

Razes para Proposta/Projeto Hipottico- Propor

Figura 2: Demonstrativo sinttico da pesquisa, segundo o DSR

Classificao dos Envio de formulrio

Leitura integral dos Analise sobre os ttulo Anlise dos

Estruturao de Anlise sobre os Exibio dos

Anlise dos formularios

Exibio dos resultados

Figura 6: Etapas do processo de avaliao

Caractersticas - Big Data, tratamento de dados, dados no estruturados, NoSQL,

funcionalidades, fluxos de dados e armazenamento de dados de arquiteturas

conceitos de adoo de tecnologias NoSQL esto presentes em domnios de Big

Figura 7: Lista dos termos abordados no referencial terico 16/52

Flexibilidade Bancos de dados NoSQL so livres de imposio de um esquema.

- Towards a Big Data Reference Architecture (MAIER, 2013)

Propor um modelo de arquitetura de referncia:

Baseada na anlise de casos publicados em trabalhos sobre o uso de tecnologias e

estudo sobre ferramentas e tcnicas de tratamento de dados;

facilita a criao de uma arquitetura de design mais elaborada e a seleo de tecnologias

construda indutivamente com base nos casos da literatura.

Deve prover a execuo das seguintes tarefas:

Figura 8: Resumo do aspecto conceitual da arquitetura de referncia proposta

Desenvolvimento da arquitetura de referncia dois modelos:

a) Arquitetura Conceitual: descreve os nveis que constituem a arquitetura e a explicao das

b) Arquitetura Funcional: descreve uma soluo tecnolgica, atravs da instanciao de

Figura 9: Arquitetura de referncia - alto grau de abstrao

corresponde entrada de dados no sistema;

extrao atravs de APIs disponibilizadas;

(ETL = pipeline de dados. A complexidade dos requisitos de coleta e transformao ir

dados prontos podem ser replicados entre os armazenamentos de dados;

a extrao de informaes refere-se ao armazenamento de dados brutos em um formato estruturado;

dados prontos repositrio para dados processados e limpos.

Em uma arquitetura de referncia o mdulo de processamento deve focar sua responsabilidade

obteno eficiente do conhecimento a partir dos dados;

procedimentos analticos - algoritmos de Data Mining, Predictive Analysis, querys adhoc;

resultados da anlise podem ser armazenados novamente em dados prontos ou em um

a anlise de tempo real - sinnimo para anlise de fluxo - OLAP;

apresentao dos dados processados em um formato que expresse conhecimento;

devem tambm permitir ao usurio publicar relatrios acessveis de plataformas

Figura 10: Arquitetura de referncia

possibilita que o tratamento de dados no estruturados seja abordado