Escolar Documentos
Profissional Documentos
Cultura Documentos
Resumen — Este artículo presenta un análisis de algunos presents a big data case study by of undergraduate enrollment
términos relacionados con Big Data, Hadoop, su arquitectura y information from academic system of UTPL by using the Hadoop
presenta los resultados del análisis de la información de framework. Consequently, it is concluded that Hadoop
matrículas de pregrado de la modalidad a distancia del sistema Framework helps us to process of big data sets, because it has
académico de la Universidad Técnica Particular de Loja (UTPL) Hadoop Distributed File System which provides an increased
utilizando el framework Hadoop como plataforma de performance for data, and MapReduce process the data in
procesamiento masivo de datos, para lo cual se ha diseñado y parallel with the integration of Hortonworks and Power View
probado una infraestructura de Big Data basada en Hortonworks tools which allow to analyze big data and to present reports in
complementada con la herramienta Power View para la maps in order to analyze UTPL students enrollment.
presentación de informes gráficos en mapas que ayuden a los
gerentes de las áreas a tener métricas para una mejor toma de Keywords - Big Data, Hadoop, Hive, Hortonworks, Power View.
decisiones. Para ello, se ha realizado una búsqueda minuciosa de
información que tenga relación con Big Data y el framework I. INTRODUCCIÓN
Hadoop, en el que se hizo una síntesis de los diferentes términos
importantes, llegando a determinar diferentes ámbitos de Hoy en día estamos en la era de generar, a un ritmo
aplicación, además se presenta un caso de estudio de un volumen exponencial gran cantidad de datos en tiempo real ya sea estos
de datos con Hadoop aplicado a información de matrículas del estructurados, semi-estructurados y no estructuradas,
sistema académico de UTPL. En este contexto se concluye que proveniente de diversos orígenes como las redes sociales,
con la ayuda del Framework Hadoop podemos procesar un gran tablets, celulares, sensores, entre otros, de allí surge el término
volumen de datos, ya que su arquitectura cuenta con el Hadoop Big Data que nos brinda la capacidad de generar, almacenar y
Distributed File System que proporciona un alto rendimiento de analizar un volumen grande de información para descubrir los
acceso a datos de la aplicación y Map/reduce que ejecuta los diversos comportamientos de los clientes y mejorar la toma de
procesos en paralelo con la integración de herramientas como decisiones por parte de los altos ejecutivos de la empresa.
Hortonworks y Power View el que permite analizar gran
cantidad de información y presentar reportes en forma de mapas Sin embargo el problema en la actualidad no es la
para análisis de matrículas de los estudiantes de UTPL. generación exagerada de datos, sino la forma en que se
almacenan, la velocidad en que se analizan y que resultados se
Palabras Clave - Big Data, Hadoop, Hive, Hortonworks, Power obtienen. El siguiente trabajo muestra cómo utilizar Big Data
View. con la herramienta Hortonworks cuya plataforma permitirá el
análisis de datos masivos. Se explicará que reportes gráficos en
forma de mapa se obtuvieron utilizando Power View de Excel
Abstract — This work presents an analysis of some terms related
2013, con los datos de matrículas de pregrado modalidad
to Big Data, Hadoop, and their architecture; in addition, it
presents the results of the analysis of undergraduate enrollment
distancia de la Universidad Técnica Particular de Loja. Los
information of the distance system of Universidad Tecnica mismos que facilitarán la toma decisiones a los gerentes de
Particular de Loja (UTPL), this information is extracted from área de forma más rápida y precisa, a partir del análisis de esa
academic system by using Hadoop framework as a big data información.
processing platform; for that, a big data infrastructure has been Los datos del sistema académico de la UTPL están
designing and tested which is based on Hortonworks and Power registrados en una base de datos Oracle 10 g, la misma que
View tools in order to present reports that helps managers to crece a un ritmo exponencial por cada semestre de estudios,
have metrics in order to improve their decision making. For this,
este sistema contiene datos de matrículas, material
a thorough search of information by using Hadoop framework, in
which a synthesis of the different important terms was made, it
bibliográfico, becas entre otros, de todos los centros
reaches to determine different areas of application; in addition it universitarios de Ecuador, Roma, Madrid y New York. El
desafío al utilizar Hadoop, Hortonworks complementada con
la herramienta Power View de Excel es novedoso ya que va C. Medidas de Almacenamiento de Big Data
ayudar a los gerentes académicos a tener un marco referencial En un estudio [9] propone que para almacenar los datos
en forma gráfica en mapas que ayudará a tomar las mejores han surgido nuevas unidades de almacenamiento de
decisiones. información digital que abarcan varios millones de bytes, a
La metodología de investigación sintetizada en este trabajo continuación se presenta la tabla 1 que hace referencia a las
consiste en el análisis de algunas de las definiciones de Big unidades básicas de Big Data.
Data, del framework Hadoop, su arquitectura y productos que
complementan el núcleo de Hadoop, además de diseñar y TABLE I. UNIDADES DE ALMACENAMIENTO DE BIG DATA
probar una infraestructura de Big Data basada en Hortonworks Unidades de almacenamiento
complementada con la herramienta Power View de Excel para Unidad Symbolo Potencia
el análisis de los datos de matrículas de pregrado modalidad a Gigabyte GB
distancia de la UTPL y mostrar informes ejecutivos en mapas
que ayuden a los jefes departamentales a tomar las mejores Terabyte TB
decisiones en beneficio de la institución . Petabyte PB
A. Información Zettabyte ZB
En la actualidad la información es uno de los principales Yottabyte YB
activos de las organizaciones [1], es un nuevo recurso natural
Xerabyte XB
del mundo [2], una materia prima emergente que necesita ser
almacena y procesada a gran velocidad de tal manera que
permita a las organizaciones realizar predicciones apoyados en D. Defnción de Hadoop
herramientas tecnológicas, que permita tomar las mejores Hadoop es un framework que de manera transparente
decisiones a los altos ejecutivos. provee fiabilidad y manejo de grandes volúmenes de datos a las
aplicaciones, es accesible, escalable, robusto tolerante a fallos y
Esta información está compuesta de datos estructurados,
distribuido capaz de administrar cualquier tipo y volumen de
semi-estructurados y no estructurados. Cada día en el mundo se
datos [10]; provee un modelo confiable para ambientes
generan más de 2.5 exabytes de datos. Esto equivale a
distribuidos a gran escala por medio del procesamiento en
1.000.000 de terabytes. El crecimiento exponencial es tan
paralelo [11]. Incluye: MapReduce (motor de cálculo offline),
grande, que el 90% de los datos guardados en la actualidad, han
sido creados en los dos últimos años [3]. HDFS (sistema de ficheros distribuidos de Hadoop) y HBase
(acceso de datos online) [9].
B. Big Data
E. Arquitecutura de Hadoop
En la actualidad debido al creciente aumento de la
En la actualidad debido al creciente aumento de la
información que generan las diversas organizaciones, surge Big
información que generan las diversas organizaciones, surge Big
Data, que es un término nuevo aplicado a conjuntos de datos
que superan la capacidad del software habitual para ser Data, que es un término nuevo aplicado a conjuntos de datos
que superan la capacidad del software habitual para ser
capturados, gestionados y procesados en un tiempo razonable
capturados, gestionados y procesados en un tiempo razonable
[4], se refiere exactamente al tratamiento y análisis de enormes
[4], se refiere exactamente al tratamiento y análisis de enormes
repositorios de datos, tan desproporcionadamente grandes que
repositorios de datos, tan desproporcionadamente grandes que
resulta imposible tratarlos con las herramientas de bases de
resulta imposible tratarlos con las herramientas. Existen
datos y analíticas convencionales [5] ; gracias al Big Data, los
algunos productos que complementan el núcleo de Hadoop
administradores pueden medir, y por lo tanto conocer, mucho
como Hbase, Hive [13], como se indica en la Figura 2.
más sobre su empresa, son capaces directamente de traducir ese
conocimiento a una mejor toma de decisiones [6].
Big Data se compone de diferentes tipos de tecnologías
clave como Hadoop, HDFS, No SQL, MapReduce, MongoDB,
Pig, HIVE y HBase que trabajan juntos para lograr el objetivo
final que es el de extraer valor de los datos [7], posee cuatro
características fundamentales que son volumen, velocidad,
variedad y veracidad [8], a continuación en la Figura 1 se
indica algunas puntos importantes de estas dimensiones.