Você está na página 1de 14

AA5-EV1-VALIDACION DE TECNICAS DE MIGRACION Y

HERRAMIENTAS ETCL

Presentado por:

ALBA RUBY MESA YEPES


GREISON DARIO PEMBERTY VELEZ
LUISA FERNANDA CANO

ESPECIALIZACION BASE DE DATOS


SENA
Mayo 30 de 2016
ALCALDIA DE SAN ANTONIO DEL SENA
MIGRACIN: SECRETARA DE HACIENDA
TCNICAS EXISTENTES
Existen varias tcnicas relacionadas con los procesos de migracin de datos, a
continuacin se relacionan las ms utilizadas en los procesos actuales.
SINCRONIZACIN DE BASE DE DATOS
Es una tcnica muy utilizada en procesos de migracin de datos, consiste en hacer que
dos bases de datos sean equivalentes en el mismo tiempo.
Se logra mediante la copia de datos y metadatos de una base de datos origen a una base
de datos destino mediante una herramienta tecnolgica. Los asistentes de sincronizacin
de los SMBD son configurados con las bases de datos origen y la base de datos destino,
parametrizando la ubicacin de particiones y mtodos de seguridad.
IMPORTACIN/EXPORTACIN DE ARCHIVOS (CSV) O XML A TRAVS DE
COMANDOS DE CONSOLA O INTERFAZ GRFICA
Para las actividades de migracin de datos es muy comn utilizar archivos para el
movimiento de los datos. Se pueden utilizar diferentes tipos de archivos, pero los formatos
ms usados son los archivos de texto, llamados archivos planos, que guardan la
informacin sin formato usando solo caracteres.
Los sistemas de codificacin ms comunes para estos archivos son: ASCII, ISO-8859-1 o
Latn-1 y Unicode.
Los archivos de texto pueden tener formato delimitado utilizando coma (,), punto y coma
(;) o Tabulaciones para delimitar los campos definiendo de esa forma columnas y filas.
Tambin pueden tener formato de ancho fijo para los campos, que se utiliza para delimitar
columnas y filas.
Un formato de archivo plano muy usado es el .CSV (Comma-Separated-Values, en
espaol Valores Separados por Coma), donde el delimitador usado es una coma. Muy
usado para movimientos de datos con hojas de clculo.
Otro formato til para la migracin de datos es el .XML (eXtensible Marckup Language),
que utiliza un metalenguaje extensible de etiquetas las cuales sirven como estndar para
intercambio de informacin estructurada entre distintas plataformas.
SENTENCIAS DML
Una posibilidad de los SMBD es la utilizacin de sentencias DML para generar scripts
SQL que permiten realizar migraciones de bases de datos existentes.
En un script SQL se pueden realizar las siguientes tareas:

Copia de seguridad para creacin de todos los usuarios, grupos, inicios de sesin
y permisos.
Creacin o actualizacin de cdigo para la implementacin de una base de datos.
Creacin de un entorno de pruebas.

Los procesos se orientan al uso de las sentencias DML, para realizar el paso de datos de
la base de datos de origen a la base de datos destino, a travs de los entornos
administrativos de los SMBD.

PROCEDIMIENTOS ETCL (EXTRACCIN, TRANSFORMACIN, LIMPIEZA Y CARGA)


Esta tcnica se basa en el diseo y construccin de procedimientos tcnicos para realizar
Extraccin, Transformacin, Limpieza y Cargue de Datos (ETCL). Los procedimientos o
pasos necesarios para el desarrollo de un proyecto de migracin de datos utilizando la
metodologa ETCL son:

En todo proceso de migracin, se ha de proceder a integrar dos o ms sistemas por lo


cual pueden usarse diferentes tcnicas, siendo las ms comunes:

Perfilado de datos: Permite explorar los propios datos, agregando a los de origen
las reglas necesarias. Esta tcnica hace posible tambin el obtener resultados
acerca de duplicidades o errores en los datos.
Limpieza de datos: Puede llevarse a cabo empleando para ello una herramienta
de Data Quality que ayude a eliminar errores, incorrecciones o duplicidades, entre
otras inconsistencias; y que, al mismo tiempo, enriquezca y homologue los datos,
preparndolos para el sistema de destino.
Conexin a distintas fuentes de datos: Tcnica que precisa de una herramienta
ad hoc que garantice el hacerlo en condiciones de simultaneidad.
Las ventajas que proporciona el usar estas tecnologas se traducen en un aumento de la
precisin, reduccin del ndice de errores, mayor agilidad y optimizacin del tiempo; ya
que su automatizacin evita los procesos manuales, algo que supone su principal
beneficio.
QU SE DEBE TENER EN CUENTA PARA LA ELECCIN DEL SOFTWARE DE ETL
Existen muchas herramientas de ETL diferentes, como tambin hay infinidad de bases de
datos, sistemas y organizaciones distintas. En el momento de seleccionar la que liderar
la migracin e integracin de datos pueden tomarse en consideracin las
recomendaciones de Gartner en cuanto a las cualidades que la herramienta ha de
presentar:

Adaptabilidad a distintos sistemas operativos y plataformas hardware.


Capacidades de gestin de datos: en cuanto a minera, perfilado y calidad.
Habilidades para monitorizar, gestionar y controlar los procesos de integracin de
datos: en lo relativo a gestin de errores, recoleccin de estadsticas de ejecucin,
controles de seguridad, etc.
Capacidades SOA.
Capacidades de diseo y entorno de desarrollo: como soporte para test,
representaciones grficas, modelos y flujos de datos y flujos de datos, etc.
Cualidades de arquitectura e integracin referidas al grado de interoperabilidad,
compactacin y consistencia de los diferentes componentes que la formen.
Aunque la eleccin de un software de ETL no es sencilla, su repercusin en el curso del
proyecto es decisiva. Una decisin correcta pasa por la automatizacin y en base a ella
quedan garantizados:

Un aumento en la velocidad de desarrollo del proyecto.


La descentralizacin del control de la ejecucin y de todos los procesos.
Una mayor agilidad en el negocio.
Mayor precisin.
Minimizacin de errores.
HERRAMIENTAS ETCL
APLICACIN DE USO LIBRE
Benetl: Es una herramienta ETL de uso libre, desarrollada entre los aos 2007 2014,
hecha en java y trabaja con base a lenguajes de base de datos PostgreSQL o MySQL.
Esta herramienta se cre para facilitar el trabajo con archivos TXT, CSV o archivos de
fuente de datos XML. Para recuperar los datos que tendrn que definir un dato de tiempo
y una entidad, que est representado por datos a calcular o para mostrar. Todos los
objetos tiles sern creados por Benetl dentro de una base de datos MySQL o
PostgreSQL. La aplicacin tambin es capaz de recuperar automticamente los datos
mediante el uso de diversas tareas planificadas de su sistema.
Mediante el uso de Benetl podr se ha podido recuperar fcilmente la informacin de los
archivos de datos planos, la organizacin y el filtrado de acuerdo con su dato de tiempo y
entidad.

Caracteristicas Benetl

Tecnologias:
Java 7 update 80
PostgreSQL 9.5.0 (con el apoyo plpgsql)
MySQL 5.6 con funcin de OLD_PASSWORD de inicio de sesin de
usuario (para controlador suministrado)
Con Windows (se utiliza "tareas programadas")
Benetl 4.7 funciona en Linux.
Requerimientos Tecnicos:
ejecucin de Java (JRE) 1.7
base de datos PostgreSQL 9.5 con soporte plpgsql
base de datos de MySQL 5.6 con OLD_PASSWORD la funcin de inicio de
sesin de usuario o el controlador oficial de MySQL (no incluido)
Probado en sistemas de 64 bits
Ejemplo: Nombre EtlTool Definir Nombre, Este nombre es tambin el nombre de
la tabla de PostgreSQL o tabla de MySQL donde se almacenan las lneas de
datos.
Un archivo llamado "EtlTool.bat" se crear en la carpeta de origen de datos.
Debe presionar enter para validar su nombre EtlTool, y luego se pueden guardar
los parmetros.

APLICACIN SMBD SELECCIONADO


1. SQL SERVER INTEGRATION SERVICES:
Microsoft Integration Services es una plataforma para la creacin de soluciones
empresariales de transformaciones de datos e integracin de datos. Integration Services
sirve para resolver complejos problemas empresariales mediante la copia o descarga de
archivos, el envo de mensajes de correo electrnico como respuesta a eventos, la
actualizacin de almacenamientos de datos, la limpieza y minera de datos, y la
administracin de objetos y datos de SQL Server. Los paquetes pueden funcionar en
solitario o junto con otros paquetes para hacer frente a las complejas necesidades de la
empresa. Integration Services puede extraer y transformar datos de diversos orgenes
como archivos de datos XML, archivos planos y orgenes de datos relacionales y,
despus, cargar los datos en uno o varios destinos.
Integration Services contiene un variado conjunto de tareas y transformaciones
integradas, herramientas para la creacin de paquetes y el servicio Integration Services
para ejecutar y administrar los paquetes. Las herramientas grficas de Integration
Services se pueden usar para crear soluciones sin escribir una sola lnea de cdigo.
Tambin se puede programar el amplio modelo de objetos de Integration Services para
crear paquetes mediante programacin y codificar tareas personalizadas y otros objetos
de paquete.
El SSIS Import/Export Wizard permite mover datos de origen a destino sin modificar los
datos del origen y permitiendo hacer iteraciones y cambios de informacin antes de llegar
al destino dentro de tablas de ETL. Se pueden importar datos de fuentes diferentes a SQL
Server.
Con la herramienta Business Intelligence Development Studio, se pueden realizar tareas
de migracin fcilmente usando tareas visuales. Si se desea crear nueva funcionalidad,
se pueden crear scripts en c# o VB.
Los paquetes, que son las unidades de almacenamiento de estas tareas de migracin se
pueden guardar en archivos dtsx o en la base de datos en formato XML.
Una vez implementado el paquete puede ser depurado.
Caracteristicas SSIS

Ultima Version: SQL Server 2014 Integration Services


Requerimientos Tcnicos:
Instalar en un equipo de 64 bits
Instalar en un servidor dedicado para ETL
Si requiere las caractersticas en tiempo de diseo de Integration Services,
tambin debe instalar Business Intelligence Development Studio.
Si necesita las versiones de 32 bits de las herramientas y del motor en tiempo de
ejecucin de Integration Services para ejecutar ciertos paquetes en modo de 32
bits, tambin debe instalar Business Intelligence Development Studio.

2. ORACLE WAREHOUSE BUILDER:


Es una complete herramienta para todos los aspectos de administracin de datos y
metadatos. Esta brinda caractersticas para asegurar la calidad de datos, que integran el
modelado relacional y multidimensional y que permiten la administracin de todo el ciclo
de vida de datos y metadatos
Enterprise ETL Option

La opcin empresarial ETL (Enterprise ETL Option) para Warehouse Builder es una
opcin que puede ser adquirida con Oracle Warehouse Builder como parte de la edicin
empresarial del motor de base de datos (Oracle DB Enterprise Edition).
Figura 1 Opciones de Warehouse Builder.
Este resumen ejecutivo cubre nicamente la ETL Enterprise Option como se muestra en la figura 1.

Opciones Avanzadas para Carga de Datos

En grandes implementaciones, ms y ms procesos se ejecutan en paralelo, agotando


los recursos debido a las grandes cantidades de datos que participan en la carga.

Como parte de la Enterprise ETL Option, Warehouse Builder permite ejecutar cargas de
datos usando mtodos rpidos y eficientes tales como el Oracle Data Pump y
transportable tablespaces. Esta es una aproximacin completamente diferente al
movimiento de datos que se realiza por medio de conjuntos de datos controlados por el
motor de base de datos. Los incrementos en velocidad de carga se deben entonces a la
omisin de las capas SQL tradicionales.

Soporte a Dimensiones Lentamente Cambiantes Integrado

En Warehouse Builder la lgica de dimensiones lentamente cambiantes es diseada en


los metadatos de la dimensin. La dimensin captura toda la lgica que ser aplicada a
los datos que se insertan dentro de la misma.

Figura 2. Dimensiones Lentamente Cambiantes

Una vez, los usuarios de negocio han decidido que atributos son importantes, el
modelador de datos disea la dimensin. Con los pasos de ETL el desarrollador ve esta
dimensin como cualquier otra. El siguiente paso es definir cmo efectuar los cambios y
actualizaciones en la dimensin. Warehouse Builder automatiza esto basado en la
definicin de la dimensin. La combinacin entre estos pasos, el diseo y la
estandarizacin hacen que los procesos relacionados con dimensiones lentamente
cambiantes presente un alto desempeo en su ejecucin.
Traza Lineal de Principio a Fin

Los servicios de administracin de dependencias (Warehouse Builder Dependency


Management ) le permiten prever el efecto que puedan tener los cambios que se hagan
en cualquier lugar de los metadatos del sistema ETL antes de que estos puedan afectarlo
y deteriralo.

Figura 3. Propagando cambios en el sistema.

Por primera vez, tendr la posibilidad de administrar los cambios de su sistema de


manera proactiva. Como un ejemplo (Figura 3), usted puede propagar los cambios a
travs de su sistema haciendo uso el Mapping Editor.
Administracin de Configuraciones Avanzadas

Tener que mover sistemas o aplicaciones de un ambiente a otro (por ejemplo de


desarrollo a produccin) es un problema frecuente.
Con la Enterprise ETL Option de Warehouse Builder, es posible generar un modelo para
configurar los ambientes de desarrollo, pruebas y produccin a niveles separados. Para
mover los cambios desde el ambiente de desarrollo a produccin, el cdigo generado en
desarrollo es modificado en produccin solo en reas especficas. Por ejemplo, la
informacin sobre las conexiones es substituida por la definida en desarrollo.

VENTAJAS, DESVENTAJAS, TIEMPOS Y COSTO DE LAS HERRAMIENTAS.

Tcnica Descripcin
Es una tcnica muy utilizada en procesos de migracin de datos, consiste en hacer que dos
bases de datos sean equivalentes en el mismo tiempo.
Se logra mediante la copia de datos y metadatos de una base de datos origen a una base
Sincronizacin de datos destino mediante una herramienta tecnolgica. Los asistentes de sincronizacin
de base de de los SMBD son configurados con las bases de datos origen y la base de datos destino,
datos parametrizando la ubicacin de particiones y mtodos de seguridad.

Requerimientos Ventajas Desventajas Tiempo


tcnicos
SQL SERVER Es un sistema de gestin Utiliza mucho la memoria RAM 3 semanas.
INTEGRATION SQL Server de base de datos. para las instalaciones y
Estndar Es til para manejar y utilizacin de software. Semana 1:
SERVICES Anlisis de
obtener datos de la red de No se puede utilizar como
redes. practicas porque se prohben datos
Nos permite olvidarnos de muchas cosas, tiene
los ficheros que forman la restricciones en lo particular. Semana 2:
base de datos. La relacin, calidad y el precio Migracin y
Si trabajamos en una red est muy debajo comparado con validacin de
social nos permite oracle. informacin
agregar otros servidores Tiene muchos bloqueos a nivel
de SQL Server. Por de pgina, un tamao de pgina Semana 3:
ejemplo, dos personas fijo y demasiado pequeo, una Optimizacin
que trabajan con SQL psima implementacin de los de proceso
Server, uno de ellos se tipos de datos variables.
puede conectar al
servidor de su otro
compaero y as se
puede ver las bases de
datos del otro compaero
con SQL Server.
SQL permite administrar
permisos a todo. Tambin
permite que alguien
conecte su SQLO al
nuestro, pero sin embargo
podemos decirle que no
puede ver esta base de
datos, pero otro s.
ORACLE Oracle Estndar Oracle es el motor de Las versiones ms recientes de 3 semanas.
WAREHOUSE base de datos objeto- Oracle son la 11g, 10g, 9g, 8g,
relacional ms usado a desde el lanzamiento original de Semana 1:
BUILDER Anlisis de
nivel mundial. la 8 se sucedieron varias
Puede ejecutarse en versiones con correcciones, datos
todas las plataformas, hasta alcanzar la estabilidad en
desde una Pc hasta un la 8.0.3. El motivo de tantos Semana 2:
supercomputador. fallos fue, al parecer, la Migracin y
Oracle soporta todas las remodelacin del sistema de validacin de
funciones que se esperan almacenamiento por causa de la informacin
de un servidor "serio": un introduccin de extensiones
lenguaje de diseo de orientadas a objetos. Semana 3:
bases de datos muy El mayor inconveniente de Optimizacin
completo (PL/SQL) que Oracle es quizs su precio. de proceso
permite implementar Incluso las licencias de Personal
diseos "activos", con Oracle son excesivamente caras,
triggers y procedimientos en mi opinin. Otro problema es
almacenados, con una la necesidad de ajustes. Un error
integridad referencial frecuente consiste en pensar que
declarativa bastante basta instalar el Oracle en un
potente. servidor y enchufar directamente
Permite el uso de las aplicaciones clientes. Un
particiones para la mejora Oracle mal configurado puede
de la eficiencia, de ser desesperantemente lento.
replicacin e incluso Tambin es elevado el coste de
ciertas versiones admiten la informacin, y slo
la administracin de ltimamente han comenzado a
bases de datos aparecer buenos libros sobre
distribuidas. asuntos tcnicos distintos de la
El software del servidor simple instalacin y
puede ejecutarse en administracin.
multitud de sistemas
operativos.
Existe incluso una versin
personal para Windows
9x, lo cual es un punto a
favor para los
desarrolladores que se
llevan trabajo a casa.
Oracle es la base de
datos con ms orientacin
haca INTERNET.
PRECIO LICENCIA SQL SERVER 2014

Ediciones
Precio de
de SQL Modelo de Disponibilidad de
Ideal para... Open NL
Server licencia canal
(USD)
2014
Enterprise Rendimiento confiable y completo Por ncleo** Licencias por volumen, $14,256***
para satisfacer los requisitos de hosting
base de datos y de Business
Intelligence ms exigentes. La
edicin Enterprise proporciona los
niveles de servicio y rendimiento
ms altos para las cargas de trabajo
de nivel 1.*
Business Una plataforma amplia que permite Servidor + Licencias por volumen, $8,908***
Intelligence a las organizaciones compilar e CAL**** hosting
implementar soluciones de BI
seguras, escalables y
administrables.
Standard Funcionalidad de Business Por ncleo** Licencias por volumen, $3,717***
Intelligence y administracin de hosting
datos bsica para cargas de trabajo
que no son crticas, con recursos de
TI mnimos.
Servidor + Licencias por volumen, $931***
CAL**** hosting, minorista (FPP)
Developer Versin completamente funcional de Por usuario Licencias por volumen, $38***
SQL Server que permite a los minorista (FPP)
desarrolladores compilar, probar y
demostrar aplicaciones con software
de SQL Server de una manera
rentable.

PRECIO LICENCIA ORACLE

http://www.oracle.com/us/corporate/pricing/price-lists/business-intelligence-price-list-
071347.pdf
BIBLIOGRAFIA.

http://blog.powerdata.es/el-valor-de-la-gestion-de-datos/bid/353132/ETL-t-cnicas-de-
migraci-n-y-tipos-de-software
https://platzi.com/blog/que-es-postgresql/
http://www.oracle.com/technology/products/warehouse/11gr1/datasheets/warehouse-
builder-11g-etldatasheet.pdf

Você também pode gostar