Você está na página 1de 4

Big Data

Segn Wikipedia, Big Data se refiere a conjuntos de datos que crecen tan rpidamente que no pueden ser manipulados por las
herramientas de gestin de bases de datos tradicionales. Sin embargo, el tamao no es el nico problema al que nos enfrentamos
si buscamos una solucin: adems de almacenarlo, es necesario capturar, consultar, gestionar y analizar toda esta informacin.
Al margen del anlisis de tendencias de negocio, los cientficos se encuentran regularmente con problemas generados por el
almacenamiento y procesamiento de Big Data en la investigacin biolgica, simulaciones fsicas complejas, meteorologa

Qu son los cubos OLAP?
Un cubo OLAP, OnLine Analytical Processing o Procesamiento Analtico en Lnea, trmino acuado por Edgar Frank Codd de EF
Codd and Associates, encargado por Arbor Software (en la actualidad Hyperion Solutions), es una base de datos multidimensional,
en la cual el almacenamiento fsico de los datos se realiza en un vector multidimensional. Los cubos OLAP se pueden considerar
como una ampliacin de las dos dimensiones de una hoja de clculo.

A menudo se pensaba que todo lo que los usuarios pueden querer de un sistema de informacin se podra hacer de una base de
datos relacional. No obstante Codd fue uno de los precursores de las bases de datos relacionales, por lo que sus opiniones fueron
y son respetadas. La propuesta de Codd consista en realizar una disposicin de los datos en vectores para permitir un anlisis
rpido. Estos vectores son llamados cubos. Disponer los datos en cubos evita una limitacin de las bases de datos relacionales, que
no son muy adecuadas para el anlisis instantneo de grandes cantidades de datos
Las bases de datos relacionales son ms adecuadas para registrar datos provenientes de transacciones (conocido como OLTP o
procesamiento de transacciones en lnea). Aunque existen muchas herramientas de generacin de informes para bases de datos
relacionales, stas son lentas cuando debe explorarse toda la base de datos. Por ejemplo, una empresa podra analizar algunos
datos financieros por producto, por perodo, por ciudad, por tipo de ingresos y de gastos, y mediante la comparacin de los datos
reales con un presupuesto. Estos parmetros en funcin de los cuales se analizan los datos se conocen como dimensiones Para
acceder a los datos slo es necesario indexarlos a partir de los valores de las dimensiones o ejes. El almacenar fsicamente los
datos de esta forma tiene sus pros y sus contras. Por ejemplo, en estas bases de datos las consultas de seleccin son muy rpidas
(de hecho, casi instantneas). Pero uno de los problemas ms grandes de esta forma de almacenamiento es que una vez poblada
la base de datos sta no puede recibir cambios en su estructura. Para ello sera necesario redisear el cubo.
Datawarehouse
Un Datawarehouse es una base de datos corporativa que se caracteriza por integrar y depurar informacin de una o ms fuentes
distintas, para luego procesarla permitiendo su anlisis desde infinidad de pespectivas y con grandes velocidades de respuesta. La
creacin de un datawarehouse representa en la mayora de las ocasiones el primer paso, desde el punto de vista tcnico, para
implantar una solucin completa y fiable de Business Intelligence.
La ventaja principal de este tipo de bases de datos radica en las estructuras en las que se almacena la informacin (modelos de
tablas en estrella, en copo de nieve, cubos relacionales... etc). Este tipo de persistencia de la informacin es homognea y fiable, y
permite la consulta y el tratamiento jerarquizado de la misma (siempre en un entorno diferente a los sistemas operacionales).

El trmino Datawarehouse fue acuado por primera vez por Bill Inmon, y se traduce literalmente como almacn de datos. No
obstante, y como cabe suponer, es mucho ms que eso. Segn defini el propio Bill Inmon, un datawarehouse se caracteriza por
ser:
Integrado: los datos almacenados en el datawarehouse deben integrarse en una estructura consistente, por lo que las
inconsistencias existentes entre los diversos sistemas operacionales deben ser eliminadas. La informacin suele estructurarse
tambin en distintos niveles de detalle para adecuarse a las distintas necesidades de los usuarios.
Temtico: slo los datos necesarios para el proceso de generacin del conocimiento del negocio se integran desde el entorno
operacional. Los datos se organizan por temas para facilitar su acceso y entendimiento por parte de los usuarios finales. Por
ejemplo, todos los datos sobre clientes pueden ser consolidados en una nica tabla del datawarehouse. De esta forma, las
peticiones de informacin sobre clientes sern ms fciles de responder dado que toda la informacin reside en el mismo lugar.
Histrico: el tiempo es parte implcita de la informacin contenida en un datawarehouse. En los sistemas operacionales, los
datos siempre reflejan el estado de la actividad del negocio en el momento presente. Por el contrario, la informacin almacenada
en el datawarehouse sirve, entre otras cosas, para realizar anlisis de tendencias. Por lo tanto, el datawarehouse se carga con los
distintos valores que toma una variable en el tiempo para permitir comparaciones.
No voltil: el almacn de informacin de un datawarehouse existe para ser ledo, pero no modificado. La informacin es por
tanto permanente, significando la actualizacin del datawarehouse la incorporacin de los ltimos valores que tomaron las
distintas variables contenidas en l sin ningn tipo de accin sobre lo que ya exista.
Otra caracterstica del datawarehouse es que contiene metadatos, es decir, datos sobre los datos. Los metadatos permiten saber
la procedencia de la informacin, su periodicidad de refresco, su fiabilidad, forma de clculo... etc.
Los metadatos sern los que permiten simplificar y automatizar la obtencin de la informacin desde los sistemas operacionales a
los sistemas informacionales.
Los objetivos que deben cumplir los metadatos, segn el colectivo al que va dirigido, son:
Dar soporte al usuario final, ayudndole a acceder al datawarehouse con su propio lenguaje de negocio, indicando qu
informacin hay y qu significado tiene. Ayudar a construir consultas, informes y anlisis, mediante herramientas de Business
Intelligence como DSS, EIS o CMI.
Dar soporte a los responsables tcnicos del datawarehouse en aspectos de auditora, gestin de la informacin histrica,
administracin del datawarehouse, elaboracin de programas de extraccin de la informacin, especificacin de las interfaces
para la realimentacin a los sistemas operacionales de los resultados obtenidos... etc.
Por ltimo, destacar que para comprender ntegramente el concepto de datawarehouse, es importante entender cual es el
proceso de construccin del mismo, denominado ETL (Extraccin, Transformacin y Carga), a partir de los sistemas operaciones de
una compaa:
Extraccin: obtencin de informacin de las distintas fuentes tanto internas como externas.
Transformacin: filtrado, limpieza, depuracin, homogeneizacin y agrupacin de la informacin.
Carga: organizacin y actualizacin de los datos y los metadatos en la base de datos.





Una de las claves del xito en la construccin de un datawarehouse es el desarrollo de forma gradual, seleccionando a un
departamento usuario como piloto y expandiendo progresivamente el almacn de datos a los dems usuarios. Por ello es
importante elegir este usuario inicial o piloto, siendo importante que sea un departamento con pocos usuarios, en el que la
necesidad de este tipo de sistemas es muy alta y se puedan obtener y medir resultados a corto plazo.
Estandares de la Ingenieria de software
FORMATO DE LAS REFERENCIAS DE FUENTES DE INFORMACIN:
IEEE (2.007). IEEE Standards Style Manual. Obtenido de:http://standards.ieee.org/guides/style/
APA. (2.007). American Psychological Asociation. Obtenido dehttp://apa.org
PLANES DE ASEGURAMIENTO DE LA CALIDAD EN LA INGENIERA DEL SOFTWARE:
IEEE (2.004). IEEE Std 730-1998. IEEE Standard for Software Quality Assurance Plans. Obtenido
de:http://standards.ieee.org/reading/iee/std_public/description/se/730-1998_desc.html
NASA SATC. (s.f.). A Software Quality Model and Metrics for Identifying Project Risk and Assessing Software Quality. Obtenido
dehttp://satc.gsfc.nasa.gov/support/STC_APR96/qualtiy/stc_qual.html
ISO (1.995). ISO/IEC 12207 Information Technology - Software Life Cycle Processes. Obtenido de: http://www.wikipedia.com
ISO (1.993). ISO/IEC 15504 Software Process Improvement and Capability dEtermination. Obtenido de: http://www.wikipedia.com

INTERFACES DE USUARIO:
ISO. (Enero de 1.997). User Interface Standards in the ISO. Obtenido de http://sigchi.org/bulletin/1997.1/standards.html
WEB SERVICES:
W3C. (2.007). Web Services. Obtenido dehttp://www.w3.org/TR/2002/ws
W3C. (2.004). SOAP Specifications. Obtenido dehttp://www.w3.org/TR/soap
IEEE Std. 610.12-1990 IEEE Standard Glossary of Software Engineering Terminology 1
IEEE Std. 1016-1998 IEEE Recommended Practice for Software Design Descriptions 1
IEEE Std. 1471-2000 IEEE Recommended Practice for Architectural Description of Software Systems 1
IEEE Std. 1012-1998 IEEE Standard for Software Verification and Validation 1
IEEE Std. 1008-2002 IEEE Standard for Software Unit Testing 1
IEEE Std. 1058-1998 IEEE Standard for Software Project Management Plans 1
IEEE Std. 730-1998 IEEE Standard for Software Quality Assurance Plans 1, 2
IEEE Std. 830-1998 IEEE Recommended Practice for Software Requirements Specifications

Você também pode gostar