Escolar Documentos
Profissional Documentos
Cultura Documentos
Presentado por
Objetivo
Efectuar la migración de datos de acuerdo con los requerimientos de la organización”
Conceptualización sobre Técnicas de migración y herramientas ETCL esto entra del proceso de
planeación, una buena planeación comienza con buscar evaluar las técnicas de migración de datos y
las herramientas que serán usadas
PROCEDIMIENTOS ETCL
(EXTRACCIÓN, TRANSFORMACIÓN, LIMPIEZA Y CARGA)
Esta técnica se basa en el diseño y construcción de procedimientos técnicos para realizar Extracción,
Transformación, Limpieza y Cargue de Datos (ETCL). Los procedimientos o pasos necesarios para el
desarrollo de un proyecto de migración de datos utilizando la metodología ETCL son
En todo proceso de migración, se ha de proceder a integrar dos o más sistemas por lo cual pueden
usarse diferentes técnicas, siendo las más comunes: Perfilado de datos: Permite explorar los propios
datos, agregando a los de origen las reglas necesarias. Esta técnica hace posible también el obtener
resultados acerca de duplicidades o errores en los datos. Limpieza de datos: Puede llevarse a cabo
empleando para ello una herramienta de Data Quality que ayude a eliminar errores, incorrecciones o
duplicidades, entre otras inconsistencias; y que, al mismo tiempo, enriquezca y homologue los datos,
preparándolos para el sistema de destino. Conexión a distintas fuentes de datos: Técnica que precisa
de una herramienta ad hoc que garantice el hacerlo en condiciones de simultaneidad. Las ventajas que
proporciona el usar estas tecnologías se traducen en un aumento de la precisión, reducción del índice
de errores, mayor agilidad y optimización del tiempo; ya que su automatización evita los procesos
manuales, algo que supone su principal beneficio.
QUÉ SE DEBE TENER EN CUENTA PARA LA ELECCIÓN DEL SOFTWARE DE ETL
Existen muchas herramientas de ETL diferentes, como también hay infinidad de bases de datos,
sistemas y organizaciones distintas. En el momento de seleccionar la que liderará la migración e
integración de datos pueden tomarse en consideración las recomendaciones de Gartner en
cuanto a las cualidades que la herramienta ha de presentar:
Integration Services puede extraer y transformar datos de diversos orígenes como archivos de datos
XML, archivos planos y orígenes de datos relacionales y, después, cargar los datos en uno o varios
destinos.
Puede usar las herramientas gráficas Integration Services para crear soluciones sin escribir ni una
sola línea de código. También puede programar el amplio modelo de objeto Integration Servicespara
crear paquetes mediante programación y codificar tareas personalizadas y otros objetos de paquete.
os componentes de SSIS para Oracle no admiten todos los tipos de datos de Oracle. Las columnas con
tipos de datos no compatibles tendrán una advertencia al diseñar paquetes en SSDT y se eliminarán
de las columnas de asignación. Los datos no se pueden cargar en una columna con un tipo de datos
no compatible.
En la tabla siguiente se muestran los tipos de datos de bases de datos de Oracle y su asignación
predeterminada a los tipos de datos de SSIS. También se muestran los tipos de datos de Oracle no
compatibles.
VARCHAR2 DT_STR
NVARCHAR2 DT_WSTR
CHAR DT_STR
NUMBER(P, S) Si la escala es 0, de
acuerdo con la precisión
(P)
DT_I1
DT_I2
DT_I4
DT_NUMBERIC(P,0)
DT_NUMERIC(P,S)
DATE DT_DBTIMESTAMP
Tipo de datos de base
de datos de Oracle Tipo de datos de SSIS Comentarios
timestamp DT_STR
TIMESTAMP WITH
TIME ZONE
INTERVAL YEAR TO
MONTH
INTERVAL DAY TO
SECOND
TIMESTAMP WITH
LOCAL TIME ZONE
RAW DT_BYTES
NCLOB DT_NTEXT
BLOB DT_IMAGE
UROWID No admitida
REF No admitida
BFILE No admitida
LONG No admitida
ROWID No admitida
Para ver el formato de archivo de paquete actual DTSX, vea [MS-DTSX]: Especificación de formato
de archivo XML de paquete de servicios de transformación de datos.
En la lista siguiente se mencionan los cambios de formato de archivo. Para ver ejemplos de código de
estos cambios, vea Cambios de formato de paquetes en SQL Server 2012
Las convenciones de formato se han aplicado para que sea más fácil leer y comprender el
archivo .dtsx.
El formato es más conciso. Los elementos independientes de cada propiedad se han guardado
como atributos, excepto PackageFormatVersion. Los atributos se muestran en orden alfabético
y las propiedades que tienen valores predeterminados ya no se guardan.Finalmente, los
elementos que pueden aparecer varias veces, ahora se encuentran dentro de un elemento
primario.
La mayoría de los objetos dentro de un paquete al que se puede hacer referencia mediante
otros objetos ahora tienen un atributo refId definido en el paquete XML. En lugar los
identificadores de linaje de almacenamiento, ahora se guarda refID. Los identificadores de linaje
todavía se utilizan en tiempo de ejecución y se vuelven a generar al cargar el paquete.
El valor de refId es una cadena única que es legible y de fácil comprensión, comparará con
GUID o los valores enteros. La cadena es similar a los valores de ruta de acceso que se usan
para las configuraciones de paquetes en versiones anteriores de Integration Services.
Si se mezclan los cambios entre dos versiones de un paquete, refId se puede utilizar en
operaciones de búsqueda y reemplazo para asegurarse de que todas las referencias al objeto
se han actualizado correctamente.
SQL Server proporciona un único programa de instalación para instalar alguno de sus componentes o
todos, incluido Integration Services. Use el programa de instalación para instalar Integration
Services con o sin otros componentes de SQL Server en un único equipo.
Antes de instalar Microsoft SQL Server Integration Services, revise esta información:
Puede instalar SQL Server Integration Services en un equipo que no tenga ninguna instancia
anterior de SQL Server.
Puede instalar SQL Server 2017 Integration Services (SSIS) en paralelo con una instancia
existente de Integration Services.
Al actualizar a la versión más reciente de Integration Services en un equipo que tiene instalada una
versión anterior de Integration Services, la versión actual se instala en paralelo con la versión
anterior.
Para más información sobre cómo actualizar Integration Services, vea Actualizar Integration Services.
Si todavía no tiene Microsoft SQL Server, descargue una edición de evaluación gratuita o la
Developer Edition gratuita de las descargas de SQL Server. SSIS no se incluye en SQL Server
Express Edition.
Después de revisar los requisitos de instalación de SQL Server y asegurarse de que el equipo los
cumple, puede comenzar a instalar Integration Services.
Si está usando el Asistente para la instalación con el fin de instalar Integration Services, usará una
serie de páginas para especificar los componentes y las opciones.
Algunos componentes de SQL Server que puede seleccionar para instalarlos en la página Selección de
características del Asistente para la instalación instalan un subconjunto parcial de componentes
de Integration Services. Estos componentes resultan útiles para tareas específicas, pero las funciones
de Integration Services son limitadas. Por ejemplo, la opción Servicios de motor de base de
datos instala los componentes de Integration Servicesnecesarios para el Asistente para importación y
exportación de SQL Server . Para asegurarse de que la instalación de Integration Serviceses completa,
debe seleccionar Integration Services en la página Selección de características .
Para usar un servidor dedicado para los procesos de extracción, transformación y carga (ETL), instale
una instancia local de Motor de base de datos de SQL Server al instalar Integration Services.Integration
Services suele almacenar los paquetes en una instancia del Motor de base de datos y se basa en el
Agente SQL Server para programar estos paquetes. Si el servidor ETL no tiene ninguna instancia
de Motor de base de datos, tiene que programar o ejecutar los paquetes desde un servidor que sí
tenga una instancia de Motor de base de datos. El resultado es que los paquetes no se ejecutan en el
servidor ETL, sino en el servidor desde el que se inician. Como resultado, los recursos del servidor ETL
dedicado no se utilizan como se pretendía. Además, los procesos ETL en ejecución pueden agotar los
recursos de otros servidores.
De forma predeterminada, en una instalación nueva, Integration Services se configura para no registrar
en el registro de eventos de aplicación los eventos relacionados con la ejecución de paquetes. Esta
configuración impide la generación de demasiadas entradas en el registro de eventos al usar la
característica de recopilador de datos de SQL Server 2017. Los eventos que no se registran son
EventID 12288, "Se ha iniciado el paquete" y EventID 12289, "El paquete finalizó correctamente". Para
registrar estos eventos en el registro de eventos de aplicación, abra el Registro para editarlo. A
continuación, en el Registro, busque el nodo HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Microsoft
SQL Server\130\SSIS y cambie el valor DWORD de la opción LogPackageExecutionToEventLog de 0 a
1.
Para una instalación completa de Integration Services, seleccione los componentes que necesita en
esta lista:
Integration Services (SSIS) . Instale SSIS con el Asistente para la instalación de SQL Server.Al
seleccionar SSIS, se instala lo siguiente:
o Compatibilidad con el Catálogo de SSIS en el Motor de base de datos de SQL Server.
o Si lo prefiere, la característica Escalabilidad horizontal de SSIS, que consta de un patrón y los
trabajadores.
o Componentes SSIS de 32 bits y 64 bits.
o Al instalar SSIS no se instalan las herramientas necesarias para diseñar y desarrollar paquetes
SSIS.
Motor de base de datos de SQL Server. Instale el motor de base de datos con el Asistente para
la instalación de SQL Server. Al seleccionar el motor de base de datos, puede crear y hospedar la
base de datos del Catálogo de SSIS, SSISDB, para almacenar, administrar, ejecutar y supervisar los
paquetes SSIS.
SQL Server Data Tools (SSDT) . Para descargar e instalar SSDT, vea Descargar SQL Server Data
Tools (SSDT). Instalar SSDT le permite diseñar e implementar paquetes SSIS. SSDT instala lo
siguiente:
o Herramientas de diseño y desarrollo del paquete SSIS, incluido el Diseñador SSIS.
o Componentes SSIS de 32 bits solamente.
o Una versión limitada de Visual Studio (si no hay ya instalada una edición de Visual Studio).
o Visual Studio Tools for Applications (VSTA), el editor de scripts usado por la tarea de script y el
componente de script de SSIS.
o Asistentes de SSIS, incluido el Asistente para implementación y el Asistente para actualización
de paquetes.
o Asistente para importación y exportación de SQL Server.
Feature Pack de Integration Services para Azure. Para descargar e instalar el Feature Pack,
vea Microsoft SQL Server 2017 Integration Services Feature Pack for Azure (Feature Pack de
Microsoft SQL Server 2017 Integration Services para Azure). Al instalar el Feature Pack, los
paquetes se conectan a los servicios de almacenamiento y análisis de la nube de Azure, incluidos
los servicios siguientes:
o Almacenamiento de blobs de Azure.
o HDInsight de Azure.
o Azure Data Lake Store.
o Azure SQL Data Warehouse.
Componentes adicionales opcionales. Si lo prefiere, puede descargar otros componentes de
terceros desde el Feature Pack de SQL Server.
o Microsoft® Connector for SAP BW para Microsoft SQL Server®. Para obtener estos
componentes, visite Microsoft SQL Server 2017 Feature Pack.
o Microsoft Conector versión 5.0 para Oracle de Attunity y Microsoft Connector versión 5.0 para
Teradata de Attunity. Para obtener estos componentes, visite Microsoft Connectors v5.0 for
Oracle and Teradata (Microsoft Connectors v5.0 para Oracle y Teradata).
Oracle Warehouse Builder
En el 2009 Oracle definió ODI y OWB como dos componentes de ODI-EE (Oracle Data Integrator
Enterprise Edition) y declaró que los dos productos iban a ser fusionados en la misma plataforma de
integración. La estrategia de Oracle a largo plazo es reemplazar por completo OWB con ODI. En el
momento actual, OWB y ODI siguen formando parte de la oferta de Oracle como dos productos
independientes. La última versión de ODI es la 11g y está totalmente integrada en la plataforma Fusion
Middleware.
PAQUETES Oracle Warehouse Builder es parte integral de Oracle 11g Database. El producto funciona
en todas las versiones (Standard Edition, Standard Edition One, Enterprise Edition) y generalmente en
todas las plataformas certificadas o modificadas que se utilizan con la base de datos Oracle 11g. Las
principales características del producto se presentan como opción sin costo en la licencia de base de
datos. El precio de las opciones se establece por separado y se encuentra disponible únicamente con
la versión Enterprise Edition de la base de datos.
Características Principales Las principales características del producto fueron previstas para permitir el
modelado y la integración de datos en la mayoría de los entornos. Es el paso necesario para
introducirse al mundo de Warehouse Builder ya que puede comenzar a utilizarlo sin ningún costo
adicional y no pretende, bajo ningún concepto, satisfacer pequeñas implementaciones. Opción ETL
para la Empresa Esta opción está especialmente dirigida a aumentar el desempeño (permitiendo
realizar extracciones de alto desempeño) y la productividad, permitiendo aplicar grandes capacidades
de reutilización. Algunas características avanzadas para la administración de metadatos también se
incorporan en esta opción. Opción de Calidad de Datos Como parte totalmente integrada del producto
–lo cual constituye una ventaja muy distintiva por sobre las demás herramientas del mercado-, la opción
de calidad de datos brinda soporte a las características de creación de perfiles de datos, reglas de
datos (esencialmente reglas de negocio) y cumplimiento de la información. Debido a la integración, la
información recogida durante la creación de perfiles de datos puede utilizarse para generar
correcciones de datos de manera automática.
Conectores Los conectores permiten un mejor acceso y una integración más estrecha con las
aplicaciones empaquetadas de ERP y CRM. Para Warehouse Builder 11g, el conector Siebel es una
nueva incorporación a la familia de conectores de Warehouse Builder. La Integración es Clave Para
obtener el máximo beneficio de su herramienta, asegúrese de que el componente ETL se integre con
los demás pilares de la administración de información.
El modelado de datos, el cumplimiento de datos y la calidad de datos son las principales características
que debe tener su herramienta para la administración de información. Más allá de los reclamos de los
proveedores, intente comprender desde el comienzo cómo interactúan las herramientas, cómo se
integran, si son vendidas en conjunto o se crean como un producto único. Estas preguntas le mostrarán
el nivel de integración del producto. Ahora bien, ¿por qué la integración es clave? Durante años hemos
abordado (y algunos proveedores aún lo hacen) los temas de la Figura 2 como herramientas
individuales. Luego, como cliente, usted intenta descubrir cómo introducir el modelo de datos en la
herramienta ETL y probablemente termina adquiriendo el software de integración de algún tercero para
alcanzar ese objetivo. Actualmente, este es el caso más común. Al mirar hacia un futuro inmediato,
sabemos que los resultados de las herramientas para los perfiles de datos deberán comunicarse a los
desarrolladores ETL. ¿Cómo va a funcionar? ¿Cómo se va a incorporar la información de los perfiles
de datos en las transformaciones directas de calidad de datos requeridas para abordar los datos
erróneos? Todas estas preguntas deberían contestarse con una sola palabra: Integración.
Por lo tanto, para poder realmente obtener beneficios de las técnicas y herramientas disponibles, usted
debe encontrar una herramienta integrada que le permita realizar las tareas que necesita de la mejor
manera posible, así como la más rápida.
WAREHOUSE BUILDER AUMENTA LA CALIDAD DE INFORMACIÓN Como se mencionó en la
primera tendencia, brindar datos únicamente no es demasiado bueno para el panorama actual ni para
el futuro. Como proveedor de información o integrador, usted necesitará un conjunto de herramientas
que lo ayuden a elaborar información de calidad. Warehouse Builder es parte esencial de ese conjunto
de herramientas. Calidad de Metadatos En este punto, ya todos deben haber escuchado hablar sobre
la calidad de datos, y nos podemos dar cuenta de que la calidad de datos es importante. Lo que resulta
interesante es que los metadatos parecen invadir cualquier debate sobre calidad, y ni hablar sobre los
productos que brindan características de calidad de metadatos. El nuevo Warehouse Builder cambia
drásticamente esto. Por primera vez1, una herramienta lo ayudará a resolver verdaderamente algunos
de los problemas que surgen por los cambios en su entorno. Los nuevos servicios de Warehouse
Builder Dependency Management le permiten detectar el efecto expansivo de los cambios que se
producen en los metadatos de su sistema antes de que estos cambios destruyan su sistema.
WAREHOUSE BUILDER INCREMENTA EL VALOR DE LA INFORMACIÓN La segunda tendencia
trata sobre cómo permitir el análisis avanzado de los datos en un lugar central. Con todas las fuentes
a las que puede llegar Warehouse Builder y las características avanzadas de calidad de datos, usted
ahora puede brindar más información a sus usuarios finales. No obstante, los usuarios finales ahora
quieren tener análisis sofisticados y fáciles de usar para realizar análisis de simulación, extraer sus
datos de esquemas anteriormente ocultos y aplicar este conocimiento a sus problemas de negocio. El
nuevo Warehouse Builder le brindará la tecnología más reciente para poder cumplir con este requisito
de análisis sofisticado. El diseño de OLAP directo, los cálculos avanzados (distribución, clasificación y
series de tiempo) y ETL directamente en la base de datos Oracle OLAP son los nuevos componentes
más importantes dentro de las capacidades de Warehouse Builder. Aparte de OLAP, Warehouse
Builder permite otras capacidades más avanzadas que se presentan con la plataforma Oracle, como
Oracle Spatial y Oracle Data Mining. Estas tecnologías le permiten responder a preguntas como dónde
puedo ganar dinero y por qué los clientes nos dejan por la competencia. En otras palabras, nos muestra
información basada en la ubicación e investiga la información con más profundidad para comprender
realmente por qué suceden las cosas o por qué podrían suceder.
Permitir Más Fuentes de Datos Como las empresas implementan cada vez más aplicaciones estándar,
la conectividad con estas aplicaciones empaquetadas se vuelve más importante. La nueva versión de
Warehouse Builder incorpora funcionalidades para abordar esta situación al mejorar el conector SAP
ya presente y al agregar una cantidad de conectores de aplicaciones empaquetadas al producto.
Captura de Cambios La clave para brindar información en el momento adecuado es poder capturar la
información relevante de la fuente y propagarla al objeto de entrega. Con el nuevo Warehouse Builder
usted puede utilizar Oracle Change Data Capture (CDC) utilizando las técnicas de base de datos más
recientes.
VENTAJAS, DESVENTAJAS, TIEMPOS Y COSTO DE LAS HERRAMIENTAS.
Técnica Descripción
Sincronización de Es una técnica muy utilizada en procesos de migración de datos, consiste en hacer que dos bases
base de datos de datos sean equivalentes en el mismo tiempo.
Se logra mediante la copia de datos y metadatos de una base de datos origen a una base de datos
destino mediante una herramienta tecnológica. Los asistentes de sincronización de los SMBD son
configurados con las bases de datos origen y la base de datos destino,
parametrizando la ubicación de particiones y métodos de seguridad.