Você está na página 1de 21

Alcaldia de san antonio del sena migración: secretaría

de hacienda técnicas existentes

Existen varias técnicas relacionadas con los procesos de migración de datos, a continuación, se

relacionan las más utilizadas en los procesos actuales.

Sincronización de base de datos

Es una técnica muy utilizada en procesos de migración de datos, consiste en hacer que dos bases de

datos sean equivalentes en el mismo tiempo.

Se logra mediante la copia de datos y metadatos de una base de datos origen a una base de

datos destino mediante una herramienta tecnológica. Los asistentes de sincronización de los

smbd son configurados con las bases de datos origen y la base de datos destino, parametrizando la

ubicación de particiones y métodos de seguridad.

Importación/exportación de archivos (csv) o xml a través de comandos de

consola o interfaz gráfica

Para las actividades de migración de datos es muy común utilizar archivos para el movimiento

de los datos. Se pueden utilizar diferentes tipos de archivos, pero los formatos más usados son

los archivos de texto, llamados archivos planos, que guardan la información sin formato usando

solo caracteres.

Los sistemas de codificación más comunes para estos archivos son: ascii, iso-8859-1 o latín-1 y

unicode.

Los archivos de texto pueden tener formato delimitado utilizando coma (,), punto y coma (;) o

tabulaciones para delimitar los campos definiendo de esa forma columnas y filas. También

pueden tener formato de ancho fijo para los campos, que se utiliza para delimitar columnas y

filas.

Un formato de archivo plano muy usado es el “.csv” (comma-separated-values, en español

valores separados por coma), donde el delimitador usado es una coma. Muy usado para
movimientos de datos con hojas de cálculo.

Otro formato útil para la migración de datos es el “.xml” (extensible marckup language), que

utiliza un metalenguaje extensible de etiquetas las cuales sirven como estándar para

intercambio de información estructurada entre distintas plataformas.

Sentencias dml

Una posibilidad de los smbd es la utilización de sentencias dml para generar scripts sql que

permiten realizar migraciones de bases de datos existentes.

En un script sql se pueden realizar las siguientes tareas:

 Copia de seguridad para creación de todos los usuarios, grupos, inicios de

sesión y permisos.

 Creación o actualización de código para la implementación de una base de datos.

 Creación de un entorno de pruebas.


Los procesos se orientan al uso de las sentencias dml, para realizar el paso de datos de la base de

datos de origen a la base de datos destino, a través de los entornos administrativos de los

smbd.

Procedimientos etcl (extracción, transformación, limpieza y carga)

Esta técnica se basa en el diseño y construcción de procedimientos técnicos para realizar

extracción, transformación, limpieza y cargue de datos (etcl). Los procedimientos o pasos

necesarios para el desarrollo de un proyecto de migración de datos utilizando la metodología

etcl son:

En todo proceso de migración, se ha de proceder a integrar dos o más sistemas por lo cual

pueden usarse diferentes técnicas, siendo las más comunes:

 Perfilado de datos: permite explorar los propios datos, agregando a los de origen las

reglas necesarias. Esta técnica hace posible también el obtener resultados acerca de

duplicidades o errores en los datos.

 Limpieza de datos: puede llevarse a cabo empleando para ello una herramienta de data

quality que ayude a eliminar errores, incorrecciones o duplicidades, entre otras

inconsistencias; y que, al mismo tiempo, enriquezca y homologue los datos,

preparándolos para el sistema de destino.


 Conexión a distintas fuentes de datos: técnica que precisa de una herramienta ad hoc

que garantice el hacerlo en condiciones de simultaneidad.

Las ventajas que proporciona el usar estas tecnologías se traducen en un aumento de la

precisión, reducción del índice de errores, mayor agilidad y optimización del tiempo; ya que su

automatización evita los procesos manuales, algo que supone su principal beneficio.

Qué se debe tener en cuenta para la elección del software de etl

Existen muchas herramientas de etl diferentes, como también hay infinidad de bases de datos,

sistemas y organizaciones distintas. En el momento de seleccionar la que liderará la migración e

integración de datos pueden tomarse en consideración las recomendaciones de gartner en

cuanto a las cualidades que la herramienta ha de presentar:

 Adaptabilidad a distintos sistemas operativos y plataformas hardware.

 Capacidades de gestión de datos: en cuanto a minería, perfilado y calidad.


 Habilidades para monitorizar, gestionar y controlar los procesos de integración de datos:

en lo relativo a gestión de errores, recolección de estadísticas de ejecución, controles

de seguridad, etc.

 Capacidades soa.

 Capacidades de diseño y entorno de desarrollo: como soporte para test,

representaciones gráficas, modelos y flujos de datos y flujos de datos, etc.

 Cualidades de arquitectura e integración referidas al grado de interoperabilidad,

compactación y consistencia de los diferentes componentes que la formen.

Aunque la elección de un software de etl no es sencilla, su repercusión en el curso del proyecto es

decisiva. Una decisión correcta pasa por la automatización y en base a ella quedan

garantizados:

 Un aumento en la velocidad de desarrollo del proyecto.

 La descentralización del control de la ejecución y de todos los procesos.

 Una mayor agilidad en el negocio.

 Mayor precisión.

 Minimización de errores.

Herramientas etcl
Aplicación de uso libre

Benetl: es una herramienta etl de uso libre, desarrollada entre los años 2007 – 2014, hecha en java

y trabaja con base a lenguajes de base de datos postgresql o mysql.

Esta herramienta se creó para facilitar el trabajo con archivos txt, csv o archivos de fuente de

datos xml. Para recuperar los datos que tendrán que definir un dato de tiempo y una entidad,
Que está representado por datos a calcular o para mostrar. Todos los objetos útiles serán

creados por benetl dentro de una base de datos mysql o postgresql. La aplicación también es capaz

de recuperar automáticamente los datos mediante el uso de diversas tareas planificadas de su

sistema.

Mediante el uso de benetl podrá se ha podido recuperar fácilmente la información de los

archivos de datos planos, la organización y el filtrado de acuerdo con su dato de tiempo y

entidad.

Caracteristicas benetl

 Tecnologias:

o Java 7 update 80

o Postgresql 9.5.0 (con el apoyo plpgsql)

o Mysql 5.6 con función de old_password de inicio de sesión de usuario (para

controlador suministrado)

o Con windows (se utiliza "tareas programadas")

o Benetl 4.7 funciona en linux.

 Requerimientos tecnicos:

o Ejecución de java (jre) 1.7

o Base de datos postgresql 9.5 con soporte plpgsql

o Base de datos de mysql 5.6 con old_password la función de inicio de sesión de

usuario o el controlador oficial de mysql (no incluido)

o Probado en sistemas de 64 bits

 Ejemplo: nombre etltool… definir nombre, este nombre es también el nombre de la


tabla de postgresql o tabla de mysql donde se almacenan las líneas de datos.

Un archivo llamado "etltool.bat" se creará en la carpeta de origen de datos.

Debe presionar enter para validar su nombre etltool, y luego se pueden guardar los

parámetros.
Aplicación smbd seleccionado

Sql server integration services:

Microsoft integration services es una plataforma para la creación de soluciones empresariales

de transformaciones de datos e integración de datos. Integration services sirve para resolver

complejos problemas empresariales mediante la copia o descarga de archivos, el envío de

mensajes de correo electrónico como respuesta a eventos, la actualización de almacenamientos de

datos, la limpieza y minería de datos, y la administración de objetos y datos de sql server. Los

paquetes pueden funcionar en solitario o junto con otros paquetes para hacer frente a las

complejas necesidades de la empresa. Integration services puede extraer y transformar datos de

diversos orígenes como archivos de datos xml, archivos planos y orígenes de datos

relacionales y, después, cargar los datos en uno o varios destinos.

Integration services contiene un variado conjunto de tareas y transformaciones integradas,

herramientas para la creación de paquetes y el servicio integration services para ejecutar y

administrar los paquetes. Las herramientas gráficas de integration services se pueden usar para

crear soluciones sin escribir una sola línea de código. También se puede programar el amplio

modelo de objetos de integration services para crear paquetes mediante programación y

codificar tareas personalizadas y otros objetos de paquete.

El ssis import/export wizard permite mover datos de origen a destino sin modificar los datos

del origen y permitiendo hacer iteraciones y cambios de información antes de llegar al destino

dentro de tablas de etl. Se pueden importar datos de fuentes diferentes a sql server.

Con la herramienta business intelligence development studio, se pueden realizar tareas de

migración fácilmente usando tareas visuales. Si se desea crear nueva funcionalidad, se pueden

crear scripts en c# o vb.


Los paquetes, que son las unidades de almacenamiento de estas tareas de migración se pueden

guardar en archivos dtsx o en la base de datos en formato xml.

Una vez implementado el paquete puede ser depurado.

Caracteristicas ssis

 Ultima version: sql server 2014 integration services

 Requerimientos técnicos:

o Instalar en un equipo de 64 bits

o Instalar en un servidor dedicado para etl

o Si requiere las características en tiempo de diseño de integration services,

también debe instalar business intelligence development studio.

o Si necesita las versiones de 32 bits de las herramientas y del motor en tiempo

de ejecución de integration services para ejecutar ciertos paquetes en modo de 32

bits, también debe instalar business intelligence development studio

Oracle warehouse builder:

Es una complete herramienta para todos los aspectos de administración de datos y metadatos.

Esta brinda características para asegurar la calidad de datos, que integran el modelado relacional y

multidimensional y que permiten la administración de todo el ciclo de vida de datos y

metadatos
Enterprise etl option

La opción empresarial etl (enterprise etl option) para warehouse builder es una opción que puede

ser adquirida con oracle warehouse builder como parte de la edición empresarial del motor de

base de datos (oracle db enterprise edition).

Opciones avanzadas para carga de datos

En grandes implementaciones, más y más procesos se ejecutan en paralelo, agotando los

recursos debido a las grandes cantidades de datos que participan en la carga.

Como parte de la enterprise etl option, warehouse builder permite ejecutar cargas de datos

usando métodos rápidos y eficientes tales como el oracle data pump y transportable

tablespaces. Esta es una aproximación completamente diferente al movimiento de datos que se

realiza por medio de conjuntos de datos controlados por el motor de base de datos. Los

incrementos en velocidad de carga se deben entonces a la omisión de las capas sql

tradicionales.
Soporte a dimensiones lentamente cambiantes integrado

En warehouse builder la lógica de dimensiones lentamente cambiantes es diseñada en los

metadatos de la dimensión. La dimensión captura toda la lógica que será aplicada a los datos

que se insertan dentro de la misma.


Una vez, los usuarios de negocio han decidido que atributos son importantes, el modelador de

datos diseña la dimensión. Con los pasos de etl el desarrollador ve esta dimensión como

cualquier otra. El siguiente paso es definir cómo efectuar los cambios y actualizaciones en la

dimensión. Warehouse builder automatiza esto basado en la definición de la dimensión. La

combinación entre estos pasos, el diseño y la estandarización hacen que los procesos

relacionados con dimensiones lentamente cambiantes presente un alto desempeño en su

ejecución.

Traza lineal de principio a fin

Los servicios de administración de dependencias (warehouse builder dependency

management) le permiten prever el efecto que puedan tener los cambios que se hagan en

cualquier lugar de los metadatos del sistema etl antes de que estos puedan afectarlo y

deterióralo.
Por primera vez, tendrá la posibilidad de administrar los cambios de su sistema de manera

proactiva. Como un ejemplo (figura 3), usted puede propagar los cambios a través de su sistema

haciendo uso el mapping editor.


Administración de configuraciones avanzadas

Tener que mover sistemas o aplicaciones de un ambiente a otro (por ejemplo de desarrollo a

producción) es un problema frecuente.

Con la enterprise etl option de warehouse builder, es posible generar un modelo para

configurar los ambientes de desarrollo, pruebas y producción a niveles separados. Para mover

los cambios desde el ambiente de desarrollo a producción, el código generado en desarrollo es

modificado en producción solo en áreas específicas. Por ejemplo, la información sobre las

conexiones es substituida por la definida en desarrollo.

Ventajas, desventajas, tiempos y costo de las herramientas.

Tecnica Descripcion

Sincronizacion de Es una técnica muy utilizada en procesos de migración de datos, consiste en hacer que dos bases de

base de datos datos sean equivalentes en el mismo tiempo.

Se logra mediante la copia de datos y metadatos de una base de datos origen a una base de datos

destino mediante una herramienta tecnológica. Los asistentes de sincronización de los smbd son

configurados con las bases de datos origen y la base de datos destino,

Parametrizando la ubicación de particiones y métodos de seguridad.

Requerimientos Ventajas Desventajas Tiempo

Técnicos
Sql server Sql server standar  Es un sistema de  Utiliza mucho la 3 semanas.

gestión de base de memoria ram para las Semana 1:

datos. instalaciones Análisis de

 Es útil para manejar y y datos semana

obtener datos de la red Utilización de 2:

de redes. software. Migración y

 Nos permite olvidarnos  No se puede utilizar Validación de

de los ficheros que como practicas información

forman la base de porque se prohíben semana 3:

datos. muchas cosas, tiene optimización de

 Si trabajamos en una restricciones en lo proceso

red social nos permite particular.

agregar otros  La relación, calidad y

servidores de sql el precio está muy

server. Por ejemplo, debajo comparado

dos personas que con oracle.

trabajan con sql  Tiene muchos

server, uno de ellos se bloqueos a nivel de

puede conectar al página, un tamaño de

servidor de su otro página fijo y

compañero y así se demasiado pequeño,

puede ver las bases de una pésima

datos del otro Implementación de los

compañero con sql tipos de datos

server. variables.

 Sql permite

administrar permisos a
todo. También permite

Que alguien conecte su


Sqlo al nuestro, pero

sin embargo podemos

decirle que no puede

ver esta base de datos,

Pero otro sí.


Oracle warehouse Oracle estándar  Oracle es el motor de  Las versiones más 3 semanas.

builder base de datos objeto recientes de oracle Semana 1:

relacional más usado a son la 11g, 10g, 9g, 8g, análisis de datos

nivel mundial. desde el lanzamiento semana 2:

 Puede ejecutarse en original de la 8 se migración

todas las plataformas, sucedieron varias

desde una pc hasta un Versiones con y

supercomputador. correcciones, hasta Validación de

 Oracle soporta todas alcanzar la estabilidad información

las funciones que se en la 8.0.3. El semana 3:

esperan de un servidor motivo de tantos optimización de

"serio": un lenguaje de fallos fue, al parecer, proceso

diseño de bases de la

datos muy completo Remodelación del

(pl/sql) que permite Sistema de

implementar diseños Almacenamiento por

"activos", con triggers causa de la

y procedimientos Introducción de

almacenados, con una extensiones

integridad referencial orientadas a objetos.

declarativa bastante  El mayor

potente. Inconveniente de

 Permite el uso de oracle es quizás su

particiones para la precio. Incluso las

mejora de la eficiencia, licencias de personal

de replicación e incluso oracle son

ciertas versiones Excesivamente caras,


Admiten la en mi opinión. Otro

Administración de problema es la

Bases de datos necesidad de ajustes.

distribuidas. Un error frecuente

 El software del consiste en pensar

servidor puede que basta instalar el

ejecutarse en oracle en un servidor

multitud de sistemas y enchufar

operativos. Directamente las

 Existe incluso una aplicaciones clientes.

versión personal para Un oracle

windows 9x, lo cual es mal

un punto a favor para configurado puede ser

los desarrolladores que desesperantemente

se llevan trabajo a casa. lento.

 Oracle es la base de  También es elevado el

datos con más coste de la

Orientación hacía información, y sólo

internet. últimamente han

comenzado a aparecer

Buenos libros sobre


Asuntos técnicos

distintos de la simple

instalación

Administración.

Você também pode gostar