Você está na página 1de 4

Análisis y procesamiento de datos académicos de una

institución superior con herramientas para Big Data


Analysis and processing of academic data from a
higher institution with tools for Big Data
Juan-Pablo Ureña-Torres – Gladys-Alicia Tenesaca-Luna – María Belén Mora Arciniegas
Departamento de Ciencias de la Computación y Electrónica
Universidad Técnica Particular de Loja
Loja, Ecuador
jpurena@utpl.edu.ec, gtenesaca@utpl.edu.ec, mbmora@utpl.edu.ec

Resumen — Este artículo presenta un análisis de algunos presents a big data case study by of undergraduate enrollment
términos relacionados con Big Data, Hadoop, su arquitectura y information from academic system of UTPL by using the Hadoop
presenta los resultados del análisis de la información de framework. Consequently, it is concluded that Hadoop
matrículas de pregrado de la modalidad a distancia del sistema Framework helps us to process of big data sets, because it has
académico de la Universidad Técnica Particular de Loja (UTPL) Hadoop Distributed File System which provides an increased
utilizando el framework Hadoop como plataforma de performance for data, and MapReduce process the data in
procesamiento masivo de datos, para lo cual se ha diseñado y parallel with the integration of Hortonworks and Power View
probado una infraestructura de Big Data basada en Hortonworks tools which allow to analyze big data and to present reports in
complementada con la herramienta Power View para la maps in order to analyze UTPL students enrollment.
presentación de informes gráficos en mapas que ayuden a los
gerentes de las áreas a tener métricas para una mejor toma de Keywords - Big Data, Hadoop, Hive, Hortonworks, Power View.
decisiones. Para ello, se ha realizado una búsqueda minuciosa de
información que tenga relación con Big Data y el framework I. INTRODUCCIÓN
Hadoop, en el que se hizo una síntesis de los diferentes términos
importantes, llegando a determinar diferentes ámbitos de Hoy en día estamos en la era de generar, a un ritmo
aplicación, además se presenta un caso de estudio de un volumen exponencial gran cantidad de datos en tiempo real ya sea estos
de datos con Hadoop aplicado a información de matrículas del estructurados, semi-estructurados y no estructuradas,
sistema académico de UTPL. En este contexto se concluye que proveniente de diversos orígenes como las redes sociales,
con la ayuda del Framework Hadoop podemos procesar un gran tablets, celulares, sensores, entre otros, de allí surge el término
volumen de datos, ya que su arquitectura cuenta con el Hadoop Big Data que nos brinda la capacidad de generar, almacenar y
Distributed File System que proporciona un alto rendimiento de analizar un volumen grande de información para descubrir los
acceso a datos de la aplicación y Map/reduce que ejecuta los diversos comportamientos de los clientes y mejorar la toma de
procesos en paralelo con la integración de herramientas como decisiones por parte de los altos ejecutivos de la empresa.
Hortonworks y Power View el que permite analizar gran
cantidad de información y presentar reportes en forma de mapas Sin embargo el problema en la actualidad no es la
para análisis de matrículas de los estudiantes de UTPL. generación exagerada de datos, sino la forma en que se
almacenan, la velocidad en que se analizan y que resultados se
Palabras Clave - Big Data, Hadoop, Hive, Hortonworks, Power obtienen. El siguiente trabajo muestra cómo utilizar Big Data
View. con la herramienta Hortonworks cuya plataforma permitirá el
análisis de datos masivos. Se explicará que reportes gráficos en
forma de mapa se obtuvieron utilizando Power View de Excel
Abstract — This work presents an analysis of some terms related
2013, con los datos de matrículas de pregrado modalidad
to Big Data, Hadoop, and their architecture; in addition, it
presents the results of the analysis of undergraduate enrollment
distancia de la Universidad Técnica Particular de Loja. Los
information of the distance system of Universidad Tecnica mismos que facilitarán la toma decisiones a los gerentes de
Particular de Loja (UTPL), this information is extracted from área de forma más rápida y precisa, a partir del análisis de esa
academic system by using Hadoop framework as a big data información.
processing platform; for that, a big data infrastructure has been Los datos del sistema académico de la UTPL están
designing and tested which is based on Hortonworks and Power registrados en una base de datos Oracle 10 g, la misma que
View tools in order to present reports that helps managers to crece a un ritmo exponencial por cada semestre de estudios,
have metrics in order to improve their decision making. For this,
este sistema contiene datos de matrículas, material
a thorough search of information by using Hadoop framework, in
which a synthesis of the different important terms was made, it
bibliográfico, becas entre otros, de todos los centros
reaches to determine different areas of application; in addition it universitarios de Ecuador, Roma, Madrid y New York. El
desafío al utilizar Hadoop, Hortonworks complementada con
la herramienta Power View de Excel es novedoso ya que va C. Medidas de Almacenamiento de Big Data
ayudar a los gerentes académicos a tener un marco referencial En un estudio [9] propone que para almacenar los datos
en forma gráfica en mapas que ayudará a tomar las mejores han surgido nuevas unidades de almacenamiento de
decisiones. información digital que abarcan varios millones de bytes, a
La metodología de investigación sintetizada en este trabajo continuación se presenta la tabla 1 que hace referencia a las
consiste en el análisis de algunas de las definiciones de Big unidades básicas de Big Data.
Data, del framework Hadoop, su arquitectura y productos que
complementan el núcleo de Hadoop, además de diseñar y TABLE I. UNIDADES DE ALMACENAMIENTO DE BIG DATA
probar una infraestructura de Big Data basada en Hortonworks Unidades de almacenamiento
complementada con la herramienta Power View de Excel para Unidad Symbolo Potencia
el análisis de los datos de matrículas de pregrado modalidad a Gigabyte GB
distancia de la UTPL y mostrar informes ejecutivos en mapas
que ayuden a los jefes departamentales a tomar las mejores Terabyte TB
decisiones en beneficio de la institución . Petabyte PB

II. MARCO TEÓRICO Exabyte EB

A. Información Zettabyte ZB
En la actualidad la información es uno de los principales Yottabyte YB
activos de las organizaciones [1], es un nuevo recurso natural
Xerabyte XB
del mundo [2], una materia prima emergente que necesita ser
almacena y procesada a gran velocidad de tal manera que
permita a las organizaciones realizar predicciones apoyados en D. Defnción de Hadoop
herramientas tecnológicas, que permita tomar las mejores Hadoop es un framework que de manera transparente
decisiones a los altos ejecutivos. provee fiabilidad y manejo de grandes volúmenes de datos a las
aplicaciones, es accesible, escalable, robusto tolerante a fallos y
Esta información está compuesta de datos estructurados,
distribuido capaz de administrar cualquier tipo y volumen de
semi-estructurados y no estructurados. Cada día en el mundo se
datos [10]; provee un modelo confiable para ambientes
generan más de 2.5 exabytes de datos. Esto equivale a
distribuidos a gran escala por medio del procesamiento en
1.000.000 de terabytes. El crecimiento exponencial es tan
paralelo [11]. Incluye: MapReduce (motor de cálculo offline),
grande, que el 90% de los datos guardados en la actualidad, han
sido creados en los dos últimos años [3]. HDFS (sistema de ficheros distribuidos de Hadoop) y HBase
(acceso de datos online) [9].
B. Big Data
E. Arquitecutura de Hadoop
En la actualidad debido al creciente aumento de la
En la actualidad debido al creciente aumento de la
información que generan las diversas organizaciones, surge Big
información que generan las diversas organizaciones, surge Big
Data, que es un término nuevo aplicado a conjuntos de datos
que superan la capacidad del software habitual para ser Data, que es un término nuevo aplicado a conjuntos de datos
que superan la capacidad del software habitual para ser
capturados, gestionados y procesados en un tiempo razonable
capturados, gestionados y procesados en un tiempo razonable
[4], se refiere exactamente al tratamiento y análisis de enormes
[4], se refiere exactamente al tratamiento y análisis de enormes
repositorios de datos, tan desproporcionadamente grandes que
repositorios de datos, tan desproporcionadamente grandes que
resulta imposible tratarlos con las herramientas de bases de
resulta imposible tratarlos con las herramientas. Existen
datos y analíticas convencionales [5] ; gracias al Big Data, los
algunos productos que complementan el núcleo de Hadoop
administradores pueden medir, y por lo tanto conocer, mucho
como Hbase, Hive [13], como se indica en la Figura 2.
más sobre su empresa, son capaces directamente de traducir ese
conocimiento a una mejor toma de decisiones [6].
Big Data se compone de diferentes tipos de tecnologías
clave como Hadoop, HDFS, No SQL, MapReduce, MongoDB,
Pig, HIVE y HBase que trabajan juntos para lograr el objetivo
final que es el de extraer valor de los datos [7], posee cuatro
características fundamentales que son volumen, velocidad,
variedad y veracidad [8], a continuación en la Figura 1 se
indica algunas puntos importantes de estas dimensiones.

Figure 2. Ejemplo Arquitectura Hadoop

Figure 1. Dimensiones de Big Data


La arquitectura de Hadoop está compuesta por tres conocimiento técnico, una presentación atractiva que sustente
componentes principales [12] y [13]: a) Sistema de ficheros un análisis de negocio [19], además permite analizar y
HDFS: Un filesystem distribuido que proporciona un alto visualizar la información a través de un nuevo tipo de gráficos
rendimiento de acceso a datos de la aplicación, b) Hadoop que son los mapas [20].
MapReduce: El motor de Hadoop consta de un planificador de
trabajos MapReduce, y c) Hadoop Common: conjunto de III. CASO DE ESTUDIO
utilidades que posibilitan la integración de sub-proyectos de En el siguiente caso de estudio se analiza la información del
Hadoop. sistema académico de la UTPL referente a los estudiantes
matriculados en pregrado, por centro en un periodo de estudios;
F. Map Reduce
se ha utilizado dos tecnologías como es Hortonworks que tiene
Es un paradigma de programación dividido en dos fases: como tecnología base Hadoop y la herramienta de inteligencia
Map y Reduce. Fue creado en el año 2004 por Jeffrey Dean y de negocios Power View de Excel 2013 para analizar la
Sanjay Ghemawat en Google, tiene la capacidad de dividir una información y presentar reportes de forma gráfica.
petición por parte de un cliente en otros muchas partes y
encargar el trabajo a múltiples nodos que funcionan en Los componentes de Hadoop que intervienen de forma
paralelo. Según [14] MapReduce es el principal encargado de general son: a) HDFS en donde se carga los datos como por
la gestión de recursos y procesamiento de datos, su arquitectura ejemplo de twiter, sensores, transaccionales, entre otros, b)
general es de la forma: HCatalog en donde se crea las tablas, c) Hive para realizar las
consultas al HCatalog y d) MapReduce cuando Hive ejecuta
• Map: se trata de la función map () que consiste una consulta utiliza tareas de MapReduce para traer los datos.
básicamente en el mapeo de la información entrante.
Esta fase tiene como entrada la información y como Para la configuración, instalación, integración, análisis y
salida un par [clave: valor] que será la entrada de la presentación de informes de los datos de matrículas de
siguiente fase. Y. pregrado del sistema académico de la Universidad Técnica
Particular de Loja se ha realizado los siguientes pasos:
• Reduce: esta fase se trata de la función reduce (), que
es la encargada de realizar el procesamiento de la 1) Instalación de la máquina virtual de Sandbox para
información recibida, ya mapeada en el paso anterior. Hadoop: la misma que se puede ejecutar en diferentes
Tiene como entrada el par [clave: valor] obtenido de la plataformas.
fase anterior y como salida otro par [clave: valor]. 2) Subir los datos en Hortonworks Sandbox with HDP
G. HDFS 2.2: Datos de matrícula del sistema de gestión académico de
los estudiantes de la modalidad a distancia.
Hadoop Distributed File System, es un sistema de ficheros
3) Crear una nueva tabla con los datos de matrículas del
basado en la distribución de la información en distintas
máquinas que pueden ser geográficamente muy distantes, periodo de estudios Octubre 2015-Febrero 2016 en HCatalog.
conectadas entre sí mediante una red de modo transparente al 4) Consultar datos en Hive.
usuario [14], está construido alrededor de la idea de que el 5) Visualización de los datos de matrículas del sistema
patrón de procesamiento de datos más eficiente. El académico con Power View de Excel.
funcionamiento consiste en que un conjunto de información es 6) Reportes gráficos en mapas de los datos de matrículas
generado o copiado desde un origen y luego, sobre esos datos, del sistema académico.
se ejecutan varios procesos de análisis [15].
H. Hive • En la Figura 3 se ha generado un mapa mundial en
donde se muestra el número de estudiantes
Hive es una tecnología desarrollada en Facebook que matriculados en la modalidad a distancia pregrado de
convierte Hadoop en un almacén de datos completo con un la UTPL de los centros universitarios de Ecuador,
dialecto de SQL para realizar consultas, HiveQL es un lenguaje España, Italia y Estados Unidos.
declarativo. Hive se da cuenta de cómo construir un flujo de
datos para lograr que resultado, en Hive se requiere un • En la Figura 4 se ha generado un mapa mundial en
esquema, pero no se limitan a un solo esquema. Hive es una donde se muestra el número de estudiantes
tecnología para convertir el Hadoop en un almacén de datos, matriculados en la modalidad a distancia pregrado de
con el dialecto SQL para las consultas [16]. la UTPL de los centros universitarios de Ecuador,
Quito, Guayaquil, Loja, Cuenca, Zamora entre otros.
I. Hortonworks
Esta herramienta tiene como tecnología base el framework
de Hadoop [17], Hortonworks es una de las distribuciones más
recientes de Hadoop (HDP), es totalmente open source, incluye
las herramientas que forman el núcleo de Hadoop, y también
incorpora diferentes proyectos open-source de Apache [18], en
la Figura 3 se muestra la arquitectura de Hortonworks.
J. Power View
Es una tecnología que permite visualización intuitiva e
interactiva de cuadros, tableros, mapas y filtros “tipo cuadro de
mando”. Esto permite crear rápidamente, y con poco
Como trabajo futuro se recomienda utilizar Big Data,
Hadoop y las herramientas de Hortonworks, Power View en las
diversas aplicaciones informáticas de la universidad, de tal
forma que permitan obtener un valor agregado de los datos y
servicios académicos.
REFERENCIAS BIBLIOGRÁFICAS
[1] Fernández, Carlos. La norma ISO 27001 del Sistema de Gestión de la
Garantía de confidencialidad, integridad. Aenor [online]. 2012. P. 5.
Available from:
http://www.aec.es/c/document_library/get_file?uuid=a89e72de-d92b-
47cf-ba5e-5ea421fcbeb4&groupId=10128
[2] IBM. IBM Big Data and Analytics - TI - Argentina [online]. 2
November 2015. IBM Corporation. [Accessed 11 November 2015].
Available from: http://www.ibm.com/big-data/ar/es/big-data-and-
analytics/it-economics.html
[3] Puyol, Javier. una aproximación a big data. . 2014. P. 471–506.
Figure 3. Datos de matrículas de los centros universitarios de Ecuador,
España, Italia y Estados Unidos [4] Torres, Georgina Araceli And Arias Durá, Raquel. El cómputo ubicuo y
su importancia para la construcción del internet de las cosas y el big
data.2014. Vol. 24, p. 217–232.
[5] Dans, Enrique. Big Data: una pequeña introducción » Enrique Dans.
[online]. 2011. [Accessed 22 November 2015]. Available from:
http://www.enriquedans.com/2011/10/big-data-una-pequena-
introduccion.html
[6] Pedrajas, Pablo. Big data y su impacto en las empresas. . 2015.
[7] Harman, Keith. Issues in Information Systems Issues in Information
Systems. . 2013. Vol. 14, no. 2, p. 346–352.
[8] Schroeck, Michael; Shockley, Rebecca; Smart, Janet. Analytics: el uso
de big data en el mundo real. IBM. Informe ejecutivo [online]. 2012.
P. 22. Available from: http://www-
05.ibm.com/services/es/bcs/pdf/Big_Data_ES.PDF
[9] Schmidt, Eric. de análisis de datos. . 2014.
[10] M. Alcívar and E. Espinoza, “Análisis de la información de una Base de
Datos Transaccional usando Hive sobre Hadoop,” 2011.
[11] Tapia, Freddy. Facebook y su correlación con Big Data y Hive. . 2015.
No. 2, p. 1–2.
Figure 4. Datos de matrículas de los centros universitarios de Ecuador. [12] Palacios, Maria Carmen. Evaluación de la herramienta de código libre
Apache Hadoop. [online]. 2011. P. 153. Available from: http://e-
IV. CONCLUSIONES archivo.uc3m.es/bitstream/handle/10016/13533/MemoriaPFC_MCarme
nPalacios.pdf?sequence=1
Big Data proporcionar nuevas ideas de comportamiento del [13] Lopez, David. Análisis de las posibilidades de uso de Big Data en las
cliente e identificar las tendencias del mercado, lo que supone organizaciones Analysis of the possibilities of use of Big Data in
un desafío para los departamentos de IT, los mismos que organizations. . 2012.
siempre deben buscar nuevas tecnologías que permitan a las [14] Jiménez, Noelia. Big data: análisis y estudio de la plataforma hadoop. .
organizaciones hacer predicciones y facilite la toma de 2014.
decisiones a los altos ejecutivos. [15] García, Daniel. Procesamiento masivo de datos vía Hadoop. . 2014.
[16] Dhawan, Sanjeev and RATHEE, Sanjay. Big Data Analytics using
El análisis de Big Data puede revelar nuevas fuentes de Hadoop Components like Pig and Hive. . 2013. P. 88–93.
ingresos, nuevas estudios para crear nuevos centros [17] Cock, Geovanni. Big Data en las empresas: una nueva era de la
universitarios a distancia en donde la Universidad pueda información. [online]. 2014. Vol. XXXIII, no. 2, p. 81–87.
brindar los servicios de educación a personas que realmente no DOI 10.1007/s13398-014-0173-7.2. Available from:
pueden dejar sus obligaciones para asistir a una modalidad http://www.americanbanker.com/issues/179_124/which-city-is-the-next-
presencial y de esta forma crear estas oportunidades a los big-fintech-hub-new-york-stakes-its-claim-1068345-1.html
ciudadanos. [18] Mondragon Unibertsitatea. Investigación en TICs » Blog Archive » Big
Data y Hadoop. Cloudera vs Hortonworks. [online]. 2014.
En general para analizar gran volumen de datos [Accessed 2 December 2015]. Available from:
estructurados, semi-estructurados y no estructurados se puede http://mukom.mondragon.edu/ict/big-data-y-hadoop-cloudera-vs-
hortonworks/
realizar con el framework de Hadoop que posee en su
[19] Technet. ¿Qué es Power View? - Tecnología para todos - Site Home -
arquitectura un sistema de archivos distribuidos que TechNet Blogs. [online]. 2014. [Accessed 1 December 2015]. Available
proporciona un alto rendimiento de acceso a datos y un gestos from:
de recursos y procesamiento Map/Reduce que ejecuta los http://blogs.technet.com/b/jorge_aguinaga/archive/2014/05/03/191-qu-
procesos en paralelo con la integración de herramientas como 233-es-power-view.aspx
Hortonworks y Power View que permite analizar gran [20] Powerpivot. PowerPivot vs. Power View: What’s the Difference? -
cantidad de información y presentar reportes en forma de PowerPivotPro. [online]. 2013. [Accessed 3 December 2015]. Available
from: http://www.powerpivotpro.com/2013/06/powerpivot-vs-power-
mapas para el análisis de datos como logs, datos de sensores, view-whats-the-difference/.
datos de ventas, matriculas entre otros.

Você também pode gostar