Escolar Documentos
Profissional Documentos
Cultura Documentos
Índice de contenidos
1. ¿Qué es un Data Warehouse?
2. Pasado y presente del Data Warehouse
3. Data Warehouse en la nube
4. Data Warehouse vs Big Data vs BI: cuales son las diferencias
5. Material complementario
Estas son algunas diferencias clave entre data lake y data warehouse:
Datos: Un data warehouse sólo almacena datos que han sido modelados o
estructurados, mientras que un Data Lake no hace acepción de datos. Lo almacena
todo, estructurado, semiestructurado y no estructurado.
Procesamiento: Antes de que una empresa pueda cargar datos en un data
warehouse, primero debe darles forma y estructura, es decir, los datos deben ser
modelados. Eso se llama schema-on-write. Con un data lake, sólo se cargan los
datos sin procesar, tal y como están, y cuando esté listo para usar los datos, es
cuando se le da forma y estructura. Eso se llama schema-on-read. Dos enfoques
muy diferentes.
Almacenamiento: Una de las principales características de las tecnologías de big
data, como Hadoop, es que el coste de almacenamiento de datos es relativamente
bajo en comparación con el de un data warehouse. Hay dos razones principales
para esto: en primer lugar, Hadoop es software de código abierto, por lo que la
concesión de licencias y el soporte de la comunidad es gratuito. Y segundo, Hadoop
está diseñado para ser instalado en hardware de bajo coste.
Agilidad: Un almacén de datos es un repositorio altamente estructurado, por
definición. No es técnicamente difícil cambiar la estructura, pero puede tomar mucho
tiempo dado todos los procesos de negocio que están vinculados a ella. Un data
lake, por otro lado, carece de la estructura de un data warehouse, lo que da a los
desarrolladores y a los científicos de datos la capacidad de configurar y reconfigurar
fácilmente y en tiempo real sus modelos, consultas y aplicaciones.
Seguridad: La tecnología del data warehouse existe desde hace décadas, mientras
que la tecnología de big data (la base de un Data Lake) es relativamente nueva. Por
lo tanto, la capacidad de asegurar datos en un data warehouse es mucho más
madura que asegurar datos en un data lake. Cabe señalar, sin embargo, que se
está realizando un importante esfuerzo en materia de seguridad en la actualidad en
la industria de Big Data.
El data warehouse continúa evolucionando
Hay todavía un gran potencial en la evolución del data warehouse y su uso sigue
adelante.
Existen muchas otras formas de análisis que también son posibles. Estas formas
incluyen análisis predictivo y prescriptivo, así como tecnologías de machine learning
y otras que están cambiando la forma en que los datos son administrados y
analizados. El data warehouse ha sido durante mucho tiempo un elemento básico
de la arquitectura de datos empresarial y sigue teniendo tiene un gran futuro en el
nuevo mundo de Big Data y la analítica avanzada.
Los tres conceptos están interconectados y la perspectiva es que, cada vez más, la
mayoría de empresas utilicen el análisis generado por este tipo de tecnologías para
tener una visión más analítica de su negocio y así poder tomar las mejores
decisiones para crecer.
Big Data
Llamamos big data a un gran volumen de datos con una variedad, complejidad y velocidad de
crecimiento enorme y que además tienen la característica de no ser estructurados. Eso significa
que no son relacionales, estando además fuera del entorno corporativo. Es un tipo de tecnología
que te permite analizar los datos en tiempo real y puede provenir de diferentes fuentes y formas,
tales como mensajería instantánea, redes sociales, registros de grabaciones, imágenes,
mensajes de correo electrónico, etc.
Para tener una idea de la importancia del big data, este mercado está creciendo cada año,
alrededor de un 40%. La paradoja reside en el hecho de que cuanto mayor es la evolución del
big data, mayor es la escasez de profesionales cualificados para satisfacer esa demanda. La
expectativa es que en unos pocos años, haya un crecimiento aún más significativo para el uso
de big data y por lo tanto un aumento en la demanda mano de obra especializada y de partners
tecnológicos especializados en esta materia.
Data Warehouse
Por otro lado, un data warehouse almacena datos consolidados de diversas fuentes o sistemas
de la empresa. Se trata de datos estructurados, que tiene como objetivo principal ser precisos
y de alta calidad para de esta forma poder dar soporte a la toma de decisiones de la empresa.
Se trata de conseguir tener todos los datos juntos para después poder dividirlos para hacer un
análisis de determinados sectores o estrategias.
Business Intelligence
Un Business Intelligence (BI) es una especie de “cuello de botella” de los datos recogidos del
data warehouse, que llegan de forma exacta y útil para ayudar a la toma de decisiones. Business
Intelligence transforma los datos en información útil para analizar no sólo los negocios, sino
también las principales estrategias corporativas.
https://www.powerdata.es/data-warehouse
https://neoattack.com/neowiki/data-warehouse/
https://www.sinnexus.com/business_intelligence/datawarehouse.aspx
1.2.2 MINERIA DE DATOS
Buscar secuencias: analizar los artículos que los clientes han introducido en el carrito
de compra y predecir los posibles eventos.
Definir el problema
El siguiente diagrama describe las relaciones existentes entre cada paso del proceso
y las tecnologías de Microsoft SQL Server que se pueden usar para completar cada
paso.
La minería de datos de Microsoft SQL Server ofrece un entorno integrado para crear
y trabajar con modelos de minería de datos. Este entorno incluye SQL Server
Development Studio, que contiene algoritmos de minería de datos y herramientas
de consulta que facilitan la generación de una solución completa para una serie de
proyectos, y SQL Server Management Studio, que contiene herramientas que
permiten examinar modelos y administrar objetos de minería de datos. Para obtener
más información, vea Crear modelos multidimensionales al usar las herramientas de
datos de SQL Server (SSDT).
Si quiere ver un ejemplo de cómo las herramientas de SQL Server se pueden aplicar
en un escenario empresarial, vea Tutorial básico de minería de datos.
Definir el problema
El primer paso del proceso de minería de datos, tal como se resalta en el siguiente
diagrama, consiste en definir claramente el problema y considerar formas de usar los
datos para proporcionar una respuesta para el mismo.
Este paso incluye analizar los requisitos empresariales, definir el ámbito del
problema, definir las métricas por las que se evaluará el modelo y definir los objetivos
concretos del proyecto de minería de datos. Estas tareas se traducen en preguntas
como las siguientes:
¿Qué tipo de datos tiene y qué tipo de información hay en cada columna? En caso
de que haya varias tablas, ¿cómo se relacionan? ¿Necesita limpiar, agregar o
procesar los datos antes de poder usarlos?
¿Cómo se distribuyen los datos? ¿Los datos son estacionales? ¿Los datos
representan con precisión los procesos de la empresa?
Para responder a estas preguntas, puede que deba dirigir un estudio de
disponibilidad de datos para investigar las necesidades de los usuarios de la empresa
con respecto a los datos disponibles. Si los datos no abarcan las necesidades de los
usuarios, podría tener que volver a definir el proyecto.
También debe considerar las maneras en las que los resultados del modelo se
pueden incorporar en los indicadores de rendimiento clave (KPI) que se utilizan para
medir el progreso comercial.
Es importante tener en cuenta que los datos que se usan para la minería de datos
no necesitan almacenarse en un cubo de procesamiento analítico en línea (OLAP), ni
siquiera en una base de datos relacional, aunque puede usar ambos como orígenes
de datos. Puede realizar minería de datos mediante cualquier origen de datos
definido como origen de datos de Analysis Services . Por ejemplo, archivos de texto,
libros de Excel o datos de otros proveedores externos. Para obtener más
información, vea Orígenes de datos admitidos (SSAS - Multidimensionales).
Puede usar herramientas como Master Data Services para sondear los orígenes de
datos disponibles y determinar su disponibilidad para la minería de datos. Puede
usar herramientas como SQL Server Data Quality Services, o el generador de perfiles
de datos de Integration Services, para analizar la distribución de los datos y
solucionar problemas, como la existencia de datos incorrectos o la falta de datos.
Cuando tenga definido los orígenes, combínelos en una vista del origen de datos
con el Diseñador de vistas del origen de datos de SQL Server Data Tools. Para
obtener más información, vea Vistas del origen de datos en modelos
multidimensionales. Este diseñador también contiene algunas herramientas que
podrá usar para explorar los datos y comprobar que funcionarán a la hora de crear
un modelo. Para obtener más información, vea Explorar datos en una vista del origen
de datos (Analysis Services).
Generar modelos
Deberá definir qué columnas de datos desea que se usen; para ello, creará una
estructura de minería de datos. La estructura de minería de datos se vincula al origen
de datos, pero en realidad no contiene ningún dato hasta que se procesa. Al procesar
la estructura de minería de datos,Analysis Services genera agregados y otra
información estadística que se puede usar para el análisis.Cualquier modelo de
minería de datos que esté basado en la estructura puede utilizar esta
información. Para obtener más información sobre cómo se relacionan las estructuras
de minería de datos con los modelos de minería de datos, vea Arquitectura lógica
(Analysis Services - Minería de datos).
Antes de procesar la estructura y el modelo, un modelo de minería de datos
simplemente es un contenedor que especifica las columnas que se usan para la
entrada, el atributo que está prediciendo y parámetros que indican al algoritmo
cómo procesar los datos. El procesamiento de un modelo a menudo se
denomina entrenamiento. El entrenamiento hace referencia al proceso de aplicar un
algoritmo matemático concreto a los datos de la estructura para extraer
patrones. Los patrones que encuentre en el proceso de entrenamiento dependerán
de la selección de los datos de entrenamiento, el algoritmo que elija y cómo se haya
configurado el algoritmo. SQL Server 2017contiene muchos algoritmos diferentes.
Cada uno está preparado para un tipo diferente de tarea y crea un tipo distinto de
modelo. Para obtener una lista de los algoritmos proporcionados en SQL Server
2017, vea Algoritmos de minería de datos (Analysis Services: Minería de datos).
También puede utilizar los parámetros para ajustar cada algoritmo y puede aplicar
filtros a los datos de entrenamiento para utilizar un subconjunto de los datos,
creando resultados diferentes. Después de pasar los datos a través del modelo, el
objeto de modelo de minería de datos contiene los resúmenes y modelos que se
pueden consultar o utilizar para la predicción.
Puede definir un modelo nuevo mediante el Asistente para minería de datos de SQL
Server Data Tools o con el lenguaje DMX (Extensiones de minería de datos). Para
obtener más información sobre cómo usar el Asistente para minería de datos,
vea Asistente para minería de datos (Analysis Services - Minería de datos). Para
obtener más información sobre cómo usar DMX, vea Referencia de Extensiones de
minería de datos (DMX).
Es importante recordar que siempre que los datos cambian, debe actualizar la
estructura y el modelo de minería de datos. Al actualizar una estructura de minería
de datos volviéndola a procesar, Analysis Services recupera los datos del origen,
incluido cualquier dato nuevo si el origen se actualiza dinámicamente, y vuelve a
rellenar la estructura de minería de datos. Si tiene modelos que están basados en la
estructura, puede elegir actualizar estos, lo que significa que se vuelven a entrenar
con los nuevos datos, o puede dejar los modelos tal cual. Para más información,
vea Requisitos y consideraciones de procesamiento (minería de datos).
Puede explorar las tendencias y patrones que los algoritmos detectan mediante los
visores del diseñador de minería de datos de SQL Server Data Tools. Para obtener
más información, vea Visores de modelos de minería de datos. También puede
comprobar si los modelos crean predicciones correctamente mediante herramientas
del diseñador como el gráfico de mejora respecto al modelo predictivo y la matriz
de clasificación. Para comprobar si el modelo es específico de sus datos o se puede
usar para realizar inferencias en la población general, puede usar la técnica
estadística denominada validación cruzada para crear automáticamente
subconjuntos de los datos y probar el modelo con cada uno. Para obtener más
información, vea Prueba y validación (minería de datos).
Si ninguno de los modelos que ha creado en el paso Generar modelos funciona
correctamente, puede que deba volver a un paso anterior del proceso y volver a
definir el problema o volver a investigar los datos del conjunto de datos original.
Use los modelos para crear predicciones que luego podrá usar para tomar decisiones
comerciales. SQL Server pone a su disposición el lenguaje DMX, que podrá usar para
crear consultas de predicción, y el Generador de consultas de predicción, que le
ayudará a generar las consultas. Para más información, vea Referencia de
Extensiones de minería de datos (DMX).
https://www.muyinteresante.es/tecnologia/preguntas-respuestas/que-es-la-mineria-
de-datos-311477406441
https://docs.microsoft.com/es-es/sql/analysis-services/data-mining/data-mining-
concepts?view=sql-server-2017
https://ccc.inaoep.mx/~jagonzalez/AI/Sesion13_Data_Mining.pdf
https://www.tecnologias-informacion.com/mineria-de-datos.html
ADMINISTRACION DEL CONOCIMIENTO
https://sites.google.com/site/inteligenciadenegociossa/home/conceptos-basicos/1-
2-3
El Jasper Report es una librería para la generación de informes. Está escrita en java
y es libre. http://jasperforge.org/ El funcionamiento consiste en escribir un xml donde
se recogen las particularidades del informe. Este xml lo tratan las clases del Jasper
para obtener una salida. Esta salida puede ser un PDF, XML, HTML, CSV, XLS,
RTF, TXT. Otra ventaja de utilizar Jasper Report es que se integra perfectamente
con el JFreeChart que es una librería libre para la generación de todo tipo de
graficas.
El sistema de reportes jasper reports ofrece muchas herramientas que son de gran
utilidad proporciona todo lo necesario para diseñar informes de una complejidad
media, y la curva de aprendizaje para comenzar a tener resultados productivos no
es muy elevada. Además, el informe se puede realizar directamente sobre los xml
descriptores o podemos utilizar la herramienta ireport para diseñarlo gráficamente.
Un ejemplo básico:
Para generar un reporte con jasper report debemos seguir los siguientes
pasos:
Generar un fichero .jrxml en el que se configura cómo queremos el informe.
Compilar el fichero .jrxml para obtener un fichero .jasper.
Rellenar los datos del informe. Esto generará un fichero .jrprint.
Exportar el fichero .jrprint al formato que deseemos (pdf, etc). Esto generará el
fichero en cuestión.
Generar el fichero .jrxml
El fichero .jrxml se puede generar a mano con este DTD y esta referencia de
atributos. De todas formas, una opción mejor es usar la herramienta iReport, que
permite generar el fichero .jrxml de forma visual y más fácil.
En este fichero también se configura cual va a ser la fuente de datos (si es una base
de datos, un fichero, etc). Incluso si es base de datos, en este fichero se pone el
SELECT que devuelve los datos que queremos para el informe.
Compilado del fichero .jrxml
Para compilar el fichero .jrxml y generar el fichero .jasper, desde código podemos
poner algo como esto:
JasperReport report=
JasperCompileManager.compileReport("C:\\informesJAsper\\JRXML\\InformeMyS
ql.jrxml");
Rellenar el informe con datos
Ahora hay que rellenar el informe con datos. Desde código se hace con algo como
esto
JasperPrint print = JasperFillManager.fillReport(report, parameters, conn);
Donde conn es la conexión con la base de datos. No es necesario indicar el select
ni nada similar, puesto que esta información está incluida en el .jrxml.
Obtener el pdf (o el que sea)
Finalmente, para obtener el fichero .pdf, la línea es algo como esto
JasperExportManager.exportReportToPdfFile(print, "C:\\informes
JAsper\\PDF's\\InformePaisesMySQL.pdf");
Donde el parámetro es el fichero de salida que deseamos.
1.2.6 Sistemas de Reportes
un sistema de reportes le permite tener un conocimiento pleno de toda su empresa
a través de una gran cantidad amplia de datos manipulados de tal manera que
satisfaga las necesidades del usuario y pueda realizar un análisis coherente,
concreto y objetivo sobre los mismos.
un ejemplo de un sistema de reportes es el siguiente.
El SGR es un potente generador de informes que utiliza un cubo OLAP para mostrar
los datos que el usuario desea ver y a su vez estos datos se reflejan en distintos
gráficos ilustrativos.
Cuenta con la posibilidad de exportar el cubo OLAP a un archivo de Excel por si se
requiere manipular los datos en una hoja de cálculo o PDF si se desea imprimir.
También permite la posibilidad de armar un reporte con Título, logo de empresa,
descripción, autor, datos y gráficos. Con solo un clic obtendrá un reporte completo
y listo para presentar.
Ventajas:
El SGR es totalmente adaptable a cualquier universo de datos, lo cual lo hace
compatible con la gran variedad de sistemas del mercado actual. De cada informe,
el usuario puede realizar distintas combinaciones y guardarlas para luego utilizarlas
o imprimir un informe por cada configuración.
Si su informe posee muchos datos, el cubo OLAP que maneja el SGR está paginado
para aumentar así el rendimiento y orden de los datos. Cuenta con una sección para
realizar distintos tipos de filtros sobre el mismo de una manera rápida, ágil y fácil de
utilizar. También brinda la posibilidad de crear campos calculados en los informes,
podrá crear supuestas simulaciones en sus datos como saber en qué afectará un
aumento del 10% en el precio de un producto, en las ventas del mismo producto y
comparar la columna original con la columna que posee el aumento.
Los sistemas de reportes tienen como objetivo principal mostrar una visión general
de la situación de la empresa. Consecuentemente, estos muestran la situación de
las operaciones regulares de la empresa para que los directivos puedan controlar,
organizar, planear y dirigir. Los reportes se pueden visualizar, exportar a otros
formatos como PDF, HTML, XML, etc. y también se pueden imprimir en papel.
El valor de la gestión de datos
La Integración de Datos: otra Posibilidad de los Procesos ETL
Llega un momento en que las organizaciones, especialmente las grandes utilizan,
muchos sistemas y se nutren de un gran variedad de fuentes de datos, los cuales
funcionan en forma de retroalimentación mutua.
Cuando los sistemas y/o fuentes de datos que operan en una misma organización
y compañía superan un número razonable, por ejemplo de 1 a 3, esta
heterogeneidad les empieza a acarrear un considerable problema. Y esto ocurre a
menudo en compañías de un cierto tamaño.
Llegados a este punto, muchas empresas empiezan a utilizar los procesos ETL con
una objetivo distinto que el gerenciamiento o la optimización de datos. En estos
casos, la utilidad de la ETL se diversifica hacia laintegración y la migración de los
datos.
Más usos de los procesos ETL
Integración de datos. Como hemos visto, los procesos ETL tienen la capacidad de
leer y escribir en cualquier fuente o sistema. Por ello, no son pocas las empresas
que recurren a este tipo de procesos para integrar datos de diversos sistemas o
fuentes, muchos de ellos muy antiguos e incompatibles entre ellos. Si no existiera
la posibilidad de utilizar los sistemas ETL como integradores de datos, no cabría
otra opción de realizar esta tarea de forma manual y con multitud de errores.
Migración de datos. Se trata de, únicamente, trasladar la información de una base
de datos obsoleta a una nueva, realizando los cambios que sean precisos.
Se trata de procesos menos comunes pero cada vez más utilizados
Aunque la aplicación más común para un proceso ETL es la construcción y carga
de un data warehouse, cada vez más frecuentemente los procesos ETL son usados
para operaciones tales como la interacción y la migración de datos.
https://blog.powerdata.es/el-valor-de-la-gestion-de-datos/bid/312648/la-integraci-n-
de-datos-otra-posibilidad-de-los-procesos-etl
https://blog.powerdata.es/el-valor-de-la-gestion-de-datos/bid/387310/calidad-de-
datos-en-procesos-etl-las-metas-que-debes-fijarte
https://docs.microsoft.com/es-es/azure/architecture/data-guide/relational-data/etl
https://blog.bi-geek.com/que-es-una-etl/
https://pmqlinkedin.wordpress.com/about/tecnologias-emergentes-en-bi/