Você está na página 1de 14

UNIVERSIDAD NACIONAL DE UCAYALI

FACULTAD DE INGENIERA DE SISTEMAS Y DE INGENIERA CIVIL ESCUELA PROFESIONAL DE INGENIERA DE SISTEMAS

Sistemas Distribidos
DATA WAREHOUSE

Alumna

GIOVANA CAIRA VARGAS

Docente

Ing. HIRAN DIAZ AREVALO

PUCALLPA-PER

INTRODUCCIN Debido a que es necesario recorrer grandes volmenes de datos para obtener unas pepitas de conocimiento se requiere un acceso optimo a los datos. Para lograr ese acceso ptimo los algoritmos de Data Mining deben poder examinar toda la informacin y esta debe estar almacenada con formato coherente.

Por otra parte, los entornos de soporte a las consultas de decisin son cambiantes da a da tanto en los datos manejados como en los requisitos que de ellos demandan. Solo aquellas organizaciones que sepan cmo enfrentarse al entorno competitivo y cambiante sobrevivirn. Data Mining daba respuesta a las tcnicas para extraccin de conocimiento en grandes volmenes de datos. No obstante sin una preparacin de los datos data mining no extraer informacin sino basura: GIGO. Los data warehouse van a permitir disear el soporte integrado de datos de la organizacin sobre los cuales la extraccin de conocimiento si tiene sentido. En esta leccin analizaremos en primer lugar la definicin de data warehouse que nos permitir estudiar los componentes bsicos de un data warehouse: su arquitectura, mdulos y diseo. Una vez analizados los componentes de la arquitectura en la seccin siguiente se analizar a la implantacin del mismo.

Definicin de Data warehouse: Segn Inmon, un Data Warehouse es: Una coleccin de datos que sirve de apoyo a la toma de decisiones, organizados por temas, integrados, no voltiles y en los que el concepto de tiempo varia respecto a los sistemas tradicionales. La organizacin por temas proviene de que los datos en el Data Warehouse no se organizan acorde con las aplicaciones que los usan, sino que lo hacen acorde con su semntica, independientemente de que aplicacin los utilice. Por ejemplo, una compaa podra tener datos organizados por clientes, proveedores, productos, etctera, independientemente de la aplicacin que los vaya a utilizar. Otra de las caractersticas que se citan en la definicin anterior, y que es, a juicio del propio autor, la mas importante de un Data Warehouse, es la de la integracin. Un Data Warehouse se construye a partir de los datos de las diversas fuentes de datos de una organizacin, lo que hace necesario un esfuerzo para poner en comn los datos de las diferentes fuentes. Cada una de las fuentes de datos de la organizacin tendr sus propios modelos de datos, sus propias polticas de asignacin de nombres a campos, de codificacin de valores, y un largo etctera de diferencias que hacen que el hecho de recolectar los datos de ellas para unirlos en un esquema comn suponga un gran esfuerzo, tanto computacional como humano. El esfuerzo computacional proviene del hecho que hay que recorrer todos los datos a integrar, y realizar una transformacin para que encaje con el esquema centralizado que se adopte para el Data Warehouse. El esfuerzo humano es debido a la necesidad de estudiar los modelos conceptuales, realizar uno comn, unificar todas las polticas de asignaciones, y, en definitiva, toda tarea no automatizable que genere el proceso de la recoleccin e integracin de los datos.

Otra caracterstica importante es la de la no volatilidad. Existen varias razones por las que los datos de un Data Warehouse no son voltiles. Las ms importantes son: Un Data Warehouse se construye para dar soporte a la toma de decisiones, y este tipo de tareas pueden requerir el anlisis de datos de diferentes momentos del tiempo, para realizar anlisis comparativos. Mantener diferentes versiones temporales de los datos permite recuperar el estado de los datos de la organizacin en cualquier instante, de modo que se pueden deshacer efectos indeseados de procesamientos errneos. Por tanto, los datos de un Data Warehouse no sufren actualizaciones. En l, se mantienen diferentes versiones temporales de dichos datos, y, por tanto, el proceso que se realiza en vez de una actualizacin de los datos es una insercin de los nuevos datos, a los que se aade una marca temporal que los distingue de las diferentes versiones temporales ya existentes de dichos datos. La siguiente caracterstica mencionada por Inmon en su definicin se refiere a que el tiempo es un factor diferenciador en los datos del Data Warehouse, y con ello se quiere decir que: En los sistemas tradicionales, la caducidad de los datos, o su validez no suele exceder de, como mucho, dos o tres meses. En muchos casos los datos varan todos los das. Mientras tanto, los datos del Data Warehouse tienen un horizonte temporal de anos. En los sistemas de gestin, los datos con los que se trabaja son los datos actuales, mientras que los datos del Data Warehouse pueden verse como una serie de snapshots tomados en un momento del tiempo, que no sufren actualizaciones. La estructura de los datos operacionales puede contener, o no, alguna referencia temporal. En cambio, la fecha siempre forma parte de la clave de los datos en el Data Warehouse, para distinguir las diferentes versiones de los datos, como ya se haba mencionado.

Por ltimo es importante resaltar que el Data Warehouse sirve de apoyo a la toma de decisiones. Esto hace referencia a que es necesario un modelo de almacenamiento de informacin que satisfaga las necesidades de las aplicaciones de anlisis, toda vez que los sistemas imperantes han sido optimizados para el campo operacional. Y es precisamente para este proposito por lo que surgi el Data Warehouse. Esta definicin es la que ms atencin presta a la naturaleza de los datos del Data Warehouse. Existen otras definiciones donde se profundiza en mayor grado en los propsitos que se plantean en la construccin de un Data Warehouse. Como resumen se puede establecer que: Un Data Warehouse es una base de datos que: Est organizada para servir de zona de almacenamiento de datos neutral Es usada por aplicaciones de Data Mining y otras Cumple una serie de requisitos especficos de la organizacin Usa datos que cumplen una serie de criterios de la organizacin predefinidos La primera de las caractersticas hace mencin al hecho de que el Data Warehouse, el sistema que lo gestiona, no produce nuevos datos, tan solo sirve de repositorio para informacin producida por otras aplicaciones, de ah su neutralidad. El segundo punto de la definicin hace referencia a la causa principal de la construccin de Data Warehouse. Lo primero que menciona la literatura al hablar del Data Warehouse son las herramientas de consulta amigables: Proceso analtico en lnea (OLAP, On Line Analytical Processing), y sistemas de ayuda a la toma de decisiones (DSS, Decision Support Systems), tambien llamadas aplicaciones de Data Mining. Precisamente esos son los requisitos especficos que cumple el Data Warehouse. El Data Warehouse no surge como soporte genrico de datos, sino especficamente para dar soporte de almacenamiento a estos procesos. Estos procesos tienen unos requisitos muy especficos para los datos que utilizan, y

el Data Warehouse surge para satisfacer esas necesidades: definicin clara, facilidad de acceso y un formato especifico de almacenamiento. En muchos casos, el Data Warehouse es simplemente una base de datos para dar soporte a las aplicaciones de Data Mining. En otros muchos casos esto no es as. El Data Warehouse ha venido para poner solucin al problema que surge como consecuencia de que muchas aplicaciones tengan diferentes versiones de la misma informacin distribuida en datos con diferentes formatos. Con el Data Warehouse se pone orden en el caos de datos reinante en dichas organizaciones. Hasta el momento se han presentado dos definiciones, en las que se ha profundizado en la naturaleza de los datos del Data Warehouse y en los propsitos para los que se construye este. A continuacin se presenta una tercera, que aborda la procedencia de los datos del Data Warehouse en ms profundidad. All, se define como un repositorio de informacin integrada proveniente de fuentes distribuidas, autnomas y posiblemente heterogneas. Se puede observar cmo el concepto de integracin, que se haba presentado como el ms destacable entre las caractersticas de un Data Warehouse, vuelve a aparecer, si bien esta vez se centra ms la discusin en la naturaleza de las fuentes de las que proceden los datos del Data Warehouse. De estas se destaca que suelen estar separadas, lo cual supone un esfuerzo para recolectar datos, ya que tienen que circular por un sistema de conexin de ordenadores. Tambin es importante su autonoma, ya que no existe una entidad central que genere polticas comunes, lo que supone que los datos sean muy heterogneos y supone esfuerzo para poner en comn dichos datos. Con esta definicin, se considera que se puede obtener una idea bastante clara de lo que es un Data Warehouse. Aun as, se estima necesario hacer un ultimo comentario acerca de una caracterstica de los Data Warehouse, que destaca que un Data Warehouse no es un producto y no puede, por tanto, comprarse. Debe ser construido, paso a paso. Es de vital importancia entender esto al plantearse implantar un Data Warehouse en una organizacin. No puede buscarse en el mercado un Data

Warehouse. Se pueden encontrar herramientas que ayuden a la construccin de este, o SGBDs que aporten facilidades para la construccin de un Data Warehouse. El hecho de que sea algo a construir implica que se requiere un periodo de tiempo que variara segn las necesidades de la organizacin hasta que el sistema est en perfecto funcionamiento. En resumen, podra decirse que un Data Warehouse es un almacn centralizado de informacin, que contiene datos que se integran de las diferentes fuentes de informacin de una organizacin, y que surge de la necesidad de un soporte de almacenamiento a las aplicaciones de anlisis de datos. Por ltimo es necesario destacar que la construccin de un Data Warehouse no es la solucin para todos los problemas de los sistemas de informacin de una organizacin. Habr que estudiar cada caso en particular. Diseo y construccin de un data warehouse De las definiciones vistas es sencillo extraer que el Data Warehouse recoge los datos de diferentes fuentes, en un proceso que se denominara adquisicin, los almacena en una base de datos relacional, y posteriormente los ofrece a los usuarios en la fase de acceso a los datos. Obsrvese la relacin con la definicin de Data Warehouse que deca que este era una base de datos cuyos datos se integran mediante un proceso de adquisicin. Este esquema da pie a pensar en tres mdulos principales a tener en cuenta a la hora de realizar un diseo de un sistema de Data Warehouse, que coincidirn con los tres bloques principales de la citada figura, que son: Componente de acceso Componente de almacenamiento Componente de adquisicin

Componente de Adquisicin Este componente supone el interfaz con los sistemas operacionales, ya que recoge los datos que estos usan, para que se almacenen en el Data Warehouse.

Su tarea es recoger los datos y hacerlos disponibles para el sistema de almacenamiento. Desde un punto de vista global, esta tarea parece simple: Identificar los datos que se quieren cargar en el Data Warehouse y cargarlos. Por desgracia, cuando se presta ms atencin a los detalles, esto no es tan simple, ya que surgen mltiples problemas cuando se trata de integrar datos de mltiples fuentes. Desde el momento en que se decide que datos formaran parte del Data Warehouse, empieza la tarea de integracin. Una vez establecido que datos se incluirn, se proceder a buscar en las fuentes de datos de la integracin dichos datos. El primer problema que se plantea al realizar esta tarea es la heterogeneidad de las fuentes, que dificultara la tarea de encontrar estos datos. Esta dificultad es debida a que un mismo dato en distintas bases de datos puede tener: Diferente nombre Diferentes tipos de almacenamiento Diferentes asignaciones de valores Diferente representacin interna, en el caso de que los datos estn almacenados en diferentes gestores. El primer problema, que puede denominarse problema de asignacin de nombres, se refiere al hecho de que, en las diversas fuentes de datos, las polticas de asignacin de nombres pueden ser diferentes. Esto da como resultado que tablas, atributos y dems elementos de una base de datos no puedan ser identificados de manera univoca por su nombre. No se puede suponer que dos elementos de diferentes fuentes son iguales por tener el mismo nombre, ni que son diferentes solo por tener nombres diferentes. Sera necesario consultar las descripciones de los datos para comprobar qu datos son los buscados. El siguiente punto hace notar que tampoco el tipo utilizado para representar un dato o no. Tambin, como ocurra en los dos casos anteriores la asignacin del mismo valor de atributo no quiere decir que se est hablando de la misma

informacin real. Se puede observar que no es sencillo definir un mtodo para automatizar la bsqueda de los datos a travs de la base de datos de la organizacin. Una vez se ha identificado qu datos de qu bases de datos pasaran a formar parte del Data Warehouse, se proceder con la integracin en s. Esta conlleva: tiene por qu ayudar a la tarea de encontrar atributos iguales. Dos datos equivalentes no tienen por qu estar almacenados bajo el mismo tipo de representacin. Y, anlogamente con lo que ocurra con el nombre, tampoco el hecho de que dos datos sean del mismo tipo quiere decir nada acerca de su igualdad. Por ltimo, la misma informacin puede estar representada con diferentes valores de atributos, sean del mismo tipo o no. Tambin, como ocurra en los dos casos anteriores la asignacin del mismo valor de atributo no quiere decir que se est hablando de la misma informacin real. Se puede observar que no es sencillo definir un mtodo para automatizar la bsqueda de los datos a travs de la base de datos de la organizacin. Una vez se ha identificado qu datos de qu bases de datos pasaran a formar parte del Data Warehouse, se proceder con la integracin en s. Esta conlleva: La recoleccin de los datos origen La traduccin de dichos datos al formato con el que se almacenaran en el Data Warehouse; El almacenamiento en el Data Warehouse.

La complejidad de esta tarea no se centra ya en la dificultad de recoleccin, ya que esta tarea suele ser susceptible de automatizacin. El problema en este caso es que es necesario traducir un gran volumen de datos de mltiples formatos y transportar dichos datos de su ubicacin original al Data Warehouse, lo cual puede requerir el uso de redes de ordenadores. No obstante el principal problema suele estar en la integracin. Una vez se realiza esta integracin, se dispone de los primeros datos en el Data Warehouse, por lo que estar disponible para su uso. Por tanto, las funciones del mdulo de adquisicin pueden resumirse en las siguientes:

Extraccin de datos: Este proceso contempla la recoleccin de datos de las fuentes seleccionadas, as como la planificacin de futuras extracciones que se realizarn una y otra vez durante la vida del Data Warehouse para refrescar el contenido de este. Limpieza de datos: Ocurre que muchos de los datos presentan impurezas, esto es, son inconsistentes, no estn presentes, no pueden leerse o simplemente son errneos. Existen mltiples causas por las que los datos pueden ser errneos: pueden ser inexactos, o puede que hagan referencia a datos inexistentes (un registro de venta con un nmero de cliente que no existe), o valores simplemente fuera de rango (una persona de 200 aos de edad). La limpieza de datos es una tarea ardua, que no puede realizarse de manera plena, ya que la cantidad de datos hace que no sea eficiente la comprobacin de todos y cada uno de los valores. En cambio, si pueden realizarse una serie de tareas automticas que evitaran que ciertos errores lleguen al Data Warehouse. As, puede comprobarse de manera automtica si los datos estn fuera de rango, o si no contienen valor alguno, y definir polticas para ambos casos. Formato de los datos: Una vez que los datos estn limpios, ser necesario amoldarlos a los formatos con los que se almacenaran en el Data Warehouse, ya que estos pueden diferir de los originales. Procesamiento de la mezcla: Si los datos provienen de una nica fuente, no existir este problema, pero en muchos casos, los datos provienen de fuentes diversas lo que hace necesario tratar las disparidades introducidas por cada fuente. Tratamiento de claves: Una de las necesidades bsicas de toda base de datos es el poder identificar los datos por una clave. Esto no es diferente en un Data Warehouse, as que debern definirse claves para todos los datos. El problema es que uno de los puntos en que ms suelen diferir los diferentes gestores es en el mtodo de identificacin de sus datos, por lo que ser necesario definir claves que puedan ser traducidas a partir de todas las claves origen. Este proceso puede parecer una particularizacin del anterior, pero por su importancia y complejidad suele requerir un tratamiento aparte.

Proceso de purga: Puede ocurrir que no se quiera almacenar todas las ocurrencias de datos en el Data Warehouse, y que se desee que datos que cumplan una serie de condiciones no estn presentes en este. Para ello, es necesario un proceso que filtre este tipo de informacin, buscando el patrn deseado, y excluyndolo de la lista a almacenar al Data Warehouse.

Carga de datos: Por ltimo, una vez que los datos han pasado por todo el proceso de adecuacin, solo resta almacenarlos en lo que ser su nuevo hogar, el Data Warehouse.

Adems, este componente debe encargarse de monitorizar los cambios que se produzcan en los datos fuente, para poder integrar estos en el Data Warehouse. Cada vez que se requiera una carga de nuevos datos, se realizara sobre estos el mismo proceso que se realiz la primera vez, por lo que debe almacenarse la informacin necesaria para repetir el proceso de manera automtica Cabe comentar que el orden de las tareas de preprocesador puede variar para cada caso, de modo que debe estudiarse en qu orden se produce una limpieza de los datos mejor y ms eficiente. Componente de almacenamiento Este mdulo es el que gestiona el Data Warehouse, entendiendo por Data Warehouse la base de datos que contiene los datos. Pero si bien el Data Warehouse es una base de datos relacional, hay que apuntar que tiene una serie de caractersticas especiales. Entre estas, se destacan a continuacin las ms relevantes de cara al desarrollo e implantacin de un Data Warehouse:. Gran nmero de tablas, proveniente de las diferentes fuentes de datos de la organizacin. Tablas extremadamente grandes, ya que albergan datos provenientes de toda la organizacin. Alto nivel de interdependencia Mtodo de acceso no predefinido, ya que cada tipo de usuario realiza peticiones bien diferenciadas.

Acceso en modo solo lectura para usuarios, ya que, como se ha indicado, el Data Warehouse surge para los propsitos de anlisis. Los cambios se siguen produciendo en las fuentes originales de datos.

Los datos se refrescan peridicamente de mltiples fuentes. Debido a que las fuentes de las que proviene el Data Warehouse sufren cambios, sera necesario incluir dichos cambios en el Data Warehouse para que estn disponibles para las tareas de anlisis.

Alto porcentaje de los datos histricos. Como se ha indicado, para permitir el anlisis temporal, en el Data Warehouse los datos no se modifican, sino que se mantienen diferentes versiones temporales de los datos. Esto hace que, tras cierto tiempo de funcionamiento del sistema, se hayan producido numerosas versiones y que, por tanto, la mayora de los datos sean datos histricos.

Las anteriores caractersticas se pueden agrupar en tres categoras, que tienen que tenerse en cuenta a medida que se construye el Data Warehouse: 1. Alto volumen de datos y accesos no predefinidos: Los expertos en bases de datos relacionales saben que la combinacin de grandes volmenes de datos y accesos no predefinidos es toxica para el rendimiento. Por tanto, se tendr un problema de rendimiento/flexibilidad, al que podrn darse las siguientes soluciones: Anticiparse al peor caso posible, lo cual puede tener excesivos requerimientos. Evitar que los usuarios tengan total libertad de accin, estableciendo monitorizacin para establecer tiempos y cargas Pre computar parte de las consultas, lo cual puede hacer que se necesite mucho espacio para las dichas consultas pre

computadas. Establecer patrones fijos de consulta, a costa de perder flexibilidad en el sistema. Cualquiera de estas soluciones tiene sus inconvenientes, ya sea para el usuario, que dispondr de menor flexibilidad a la hora de acceder al sistema, o para el desarrollador, que deber emplear tiempo en preparar

plantillas, o reservando espacio para datos pre computados, por citar alguna de las tareas. 2. Complejidad del entorno: Es una de las trampas de la construccin, debido a que muchos desarrolladores no se dan cuenta de la complejidad que se puede llegar a tener debido principalmente a: Numero de tablas. A medida que crece el nmero de tablas se torna ms complicado saber qu contiene cada tabla, por lo que ser necesario un catlogo de tablas ms sofisticado que una simple lista de contenidos. Este nuevo catlogo debe organizarse de tal modo que los nuevos usuarios puedan saber qu contiene. Interdependencia de tablas. Adems de saber qu contienen las tablas, ser necesario conocer las relaciones entre ellas. Como consecuencia directa de esto, el mencionado catalogo se complica. Esto ha llevado a que la mayora de productos se centran en proporcionar capacidades para gestionar catlogos de una manera ms sofisticada. 3. Tiempo: Se tendrn que mantener cientos de tablas cuyos datos son refrescados en momentos diferentes. Por lo tanto, es crucial para las consultas el momento en que los datos son actualizados, lo que hace necesario que existan monitores de tiempo y de sincronismo. Una de las partes principales de todo el sistema de Data Warehouse es aquel que proporciona a los usuarios el acceso a los datos que este alberga. Sin este componente, los datos del Data Warehouse no valdran para nada. Este mdulo debe ser capaz de entender las peticiones que los usuarios realicen, proporcionando una interfaz sencilla, clara y potente, que permita a los usuarios hacer un uso efectivo de los datos. Para ello, debe ser capaz de realizar peticiones al subsistema de almacenamiento. El diseo de interfaces de usuario cae fuera del mbito de este captulo, por lo que no se ahondara ms en ese sentido, pero s deben destacarse varios aspectos relacionados con el Data Warehouse: El sistema debe distinguir entre usuarios y los posibles permisos que estos tienen en el mbito del sistema, ya que de ello

depender el conjunto de acciones que pueda realizar el usuario sobre el Data Warehouse. Deber por tanto disponerse de informacin acerca de usuarios y permisos. El componente de acceso deber conocer de qu datos dispone el Data Warehouse, para poder proporcionar al usuario dicha informacin, y que este pueda realizar sus consultas. Sera necesario, por tanto, que se tenga acceso a un catlogo de los datos disponibles para cada tipo de usuario. Por otro lado, es necesario destacar que no son solo los usuarios los que acceden, sino que diversas aplicaciones pueden requerir el acceso al Data Warehouse. Aunque las aplicaciones de Data Mining son las ms frecuentes, debe tenerse en cuenta que pueden requerir acceso: Simples consultas de bases de datos Generadores de informes Aplicaciones personalizadas Paquetes de negocios Facilidades incluidas en productos (hojas de clculo, por ejemplo)

Você também pode gostar