Você está na página 1de 5

Universidad de San Carlos de Guatemala

Facultad de Ingeniera, Escuela Ciencias y Sistemas

Seminario de Sistemas 2
Escuela de vacaciones, Junio 2015

Proyecto, Fase 1 - ETL

Objetivos

Crear un datawarehouse para el negocio.

Comprender la diferencia entre un sistema OLTP y un sistema OLAP

Crear una solucin que integre y normalice datos


Conocer los procesos de negocio e implementar una solucin para inteligencia de negocios BI
Aplicar proceso de ETL usando las herramientas de Microsoft SQL Server Integration Services
(SSIS) y Oracle Warehouse Builder
Administrar paquetes de servicios de integracin para flujos de datos.

Save The Population


La eleccin de mximas autoridades en el ao 2015 para Guatemala marca una nueva poca tanto poltica
pero tambin tecnolgica, ya que las estrategias y metas para el pas son de suma importancia para una
buena administracin de los recursos del estado.
Save The Population (STP) es una ONG que tiene como meta plantear un plan de accin inmediata sobre
las estimaciones del crecimiento poblacional guatemalteco pero tambin necesita saber el
comportamiento a nivel mundial, de esa forma presentar un plan en la que se pueda captar ms fondos
econmicos de la cooperacin internacional e invertirlo en reas necesarias para nuestro pas.
El departamento estratgico le concede el proyecto para que monte la infraestructura necesaria para
hacer estudios sobre el comportamiento histrico de Vida Esperada de los distintos pases del mundo,
recordemos que si un pas tiene un alto valor en los aos que llega a vivir un habitante, puede servir
como ndice de la calidad de vida y servicios que presta el estado; en dado caso el valor de los aos que
llega a vivir un persona es bajo, implica que no hay inversin en los servicios que el gobierno como
mnimo debe garantizar. La primer Fase de este proyecto consiste en integrar toda la informacin
proveniente de distintos lugares, a continuacin se explican los orgenes de datos.

Origen de datos
El departamento de investigacin se ha encargado de recopilar informacin de distintos medios,
corresponde al Valor de Esperado de Vida por pas desde el ao 1963 al ao 2013, el cual ha sintetizado
en archivos de Excel y CSV; mediante un proceso de ETL se desea integrar y almacenar la informacin
que posteriormente sirva para hacer un anlisis de datos y crear reportes. El siguiente diagrama muestra
el flujo de datos de los orgenes:

Ilustracin 1: origen de informacin

Archivos de origen de datos


Se listan los archivos adjuntos, correspondiente a cada uno de los orgenes de datos:

Continente.xlsx
Demografia Anual.xlsx
Pais.csv
Posicionamiento.xlsx
Proyecciones.xlsx

Continente.xlsx
Este archivo es un listado general de continentes relacionados con sus pases:

Continente Pais

Continente
En esta columna, la primera palabra
corresponde al nombre del continente, el
resto de palabras corresponde al nombre
del pas. Se desea extraer los distintos
continentes del estudio

Demografia Anual.xlsx
Este archivo describe cada uno de los pases y cuanta poblacin tenia para el ao en mencin, tambin
contiene el valor de la vida esperada para los habitantes de dicho pas para el ao respectivo:

ID
Pais
Ao
Poblacion
Vida Esperada

Demografa Anual
identificador nico del estudio
nombre del pas en estudio
ao en que se realiz estudio
poblacin estimada para dicho ao
vida esperada para el ao en relacin

Pais.csv
Este archivo describe a los pases del estudio, tambin se incluye las coordenadas de su posicin en el
globo terrestre:

Pais
Latitud
Longitud

pas
nombre del pas
posicin geo referencial
posicin geo referencial

Posicionamiento.xlsx
Este archivo describe a cada uno de los pases y los distintos puestos que ha ocupado respecto al valor
de vida esperado:

ID
Pais
Ultimo Puesto
Puesto mas Largo
Puesto General

Posicionamiento
identificador nico del estudio
nombre del pas en estudio
ultimo puesto en el ranking mundial
Puesto en el que ha permanecido ms tiempo
Puesto general actual

Proyecciones.xlsx
Este archivo describe la proyeccin del valor esperado de Vida para el ao 2013 as como los
parmetros sobre porcentaje promedio de cambio y diferencia respecto a otros aos:

ID
Pais
Vida esperada para 2013
% cambio
% Diferencial

Proyecciones
identificador nico del estudio
nombre del pas en estudio
vida estimada para el ao 2013
Cuanto % de cambio anual en mtrica de vida
cuanto % diferencial anual en mtrica de vida

Departamento Demogrfico
En este departamento se administran todos los reportes referentes a la empresa, por lo cual ellos le
solicitan un medio para poder analizar y visualizar la informacin, teniendo como primera fase lo
siguiente:
1. Crear una base de datos relacional que centralice la informacin, esto ser en un Servidor
Microsoft SQL Server y otro en un Servidor de Oracle, debe contener toda la informacin que le
ha sido proporcionada segn los orgenes de datos anteriormente descritos (ver Ilustracin 1).
2. Proceso de ETL: la carga de datos debe ser mediante el paquete Integration Services de Microsoft
SQL Server (SSIS) y Oracle Warehouse Builder respectivamente.
3. Backup: se debe crear un backup de la base de datos antes de cargar cada uno de los archivos, esto
para poder restaurar la informacin si fuese necesario; recordar que en cualquier momento se puede
ir agregando progresivamente ms datos.
4. Log: crear un archivo de log donde se indique la cantidad de datos insertados y/o se han generado
errores a la hora de cargar informacin a la base de datos para cada una de las tablas (el archivo
queda a discrecin de usted, puede ser plano, Excel, etc.). Explcitamente debe de tener la
informacin necesaria que ayude a comprender el proceso de ETL y la cantidad de datos procesados
correctamente o fallidos.
5. Asegurar el procesamiento completo de todos los datos, y justificar porque no o si se procesaron,
esto se comprobara mediante los archivos de LOG (el log debe ser creado por el estudiante y no se
permite el log generado por los servidores).

Condiciones de Entrega

La realizacin de esta primer fase de proyecto es en parejas


El estudiante 1 realizara todo el proceso con las tecnologas BI de Microsoft(50 puntos de 100)
El estudiante 2 realizara todo el proceso con las tecnologas BI de Oracle(50 puntos de 100)
Copias de proyectos tendrn una nota de 0 y se reportaran al catedrtico y escuela
No habr prorroga
Se deber entregar la documentacin debidamente identificado con lo siguiente:
o Manual tcnico:
Descripcin de tecnologas que se usaron
Descripcin de como realizo la solucin
Diagramas de flujo de los distintos pasos que comprende ETL
Diagramas de Base de datos
Otros diagramas que considere
o Proyectos de Oracle y SQL Server
o Otros: Scripts necesarios para implementar la solucin.

Fecha de Entrega y calificacin

Sbado 201 de Junio

hora y lugar para calificacin ser indicado das previos a la fecha de entrega.

Você também pode gostar