Data Stage

What is IBM WebSphere DataStage
Trabajos de diseo para la extraccin, transformacin y carga

(ETL).
Herramienta ideal para proyectos de integracin de datos, como data warehouses, data marts y migraciones de
sistemas.
Importar , expotar, crear y Administrar los metadatos para su uso en los trabajos
Programe, ejecute y supervise trabajos, todo dentro de DataStage.
Administrar su desarrollo y ejecucin de DataStage

Ambientes.
Cree trabajos por lotes (de control).
What is IBM Information Server ?
Conjunto de aplicaciones, incluyendo DataStage

- Compartir un repositorio comn
DB2, de forma predeterminada.
Comparten un conjunto comn de servicios de aplicaciones y funcionalidad
Proporcionado por los componentes del servidor de metadatos alojados por un servidor de aplicaciones.
- IBM WebSphere Application Server.
Los servicios proporcionados incluyen:
- Seguridad
- Repositorio
- Registro e informes
- Gestin de metadatos.
Gestionado mediante clientes de consola web

- Consola de administracin.
- Consola de informes.
IBM Information Server
Un dominio de Information Server, que consta de lo siguiente:

MetaData Server, alojado por una aplicacin de IBM WebSphere
Instancia del servidor.
Uno o ms servidores DataStage.
Una instancia de DB2 UDB que contiene la base de datos del repositorio.
Los clientes de Information Server
- Consola de administracin.
- Consola de informes.
- Clientes DataStage (Administrador, Diseador, Director).
Aplicaciones adicionales de Information Server
- Analizador de informacin.
- Glosario de Negocios.
- Rational Data Architect.
- Director del servidor de informacin.
- Servidor de federacin.
IIS - Everything on One Machine (todo e una sla maquina).
El Sistema de Gestin Facility Management de ISS juega un papel importante en las operaciones
diarias y los procesos de gestin. La entrega de FM es ms compleja que la prestacin de servicios
individuales y por lo tanto requiere de procesos de gestin y sistemas de apoyo ms rgidos.
Para que ISS cumpla nuestra visin de liderar la industria y contar con una ventaja competitiva,
tenemos un sistema de apoyo en el lugar que facilita mejores prcticas nacionales e
internacionales.
Aqu tenemos un solo dominio con las aplicaciones alojadas en una sola mquina
Las estaciones de trabajo adicionales del cliente pueden conectar con esta mquina usando tcp / ip
IIS DataStage on Separate Machine (DATASTAGE en una maquina

separada).
Aqu el dominio se divide entre dos mquinas
- Data stage server.
- Metadata server and db2 repository.
IIS MetaData Server and DB2 on Separate Machine (MetaData

Server y DB2 en una mquina separada).
Aqu el dominio est dividido entre tres mquinas
- Datastage server
- Metadata server
- Db2 repository
Arquitectura de datastage.
Clientes:
- Administrator client
- Designer client
- Director client.
-----------------------------------------------------------
parallel engine ( motor paralelo).
server engine (motor servidor)
shared repository (repositorio compartido)

User and Group Management (Gestin de usuarios y
grupos)
Las autorizaciones de la suite se pueden proporcionar al usuario o grupos.

Las autorizaciones se proporcionan en forma de funciones
- Dos tipos de roles
Roles de Suite: Aplicar a la Suite.
Funciones del componente Suite: Aplicar a un producto especfico
Roles de Suite - Administrador
Realizar tareas de administracin de usuarios y grupos.
Incluir todos los privilegios de la funcin de usuario de Suite. - Usuario
Crear vistas de tareas programadas y de mensajes registrados
Crear y ejecutar informes
Suite : es un conjunto de aplicaciones y herramientas de software incluidas en un solo paquete.
Roles de componentes de la suite

- Etapa de Datos
Usuario de DataStage
Los permisos se asignan dentro de DataStage
Desarrollador, Gerente
Operador
Super operador
Produccin
Administrador de DataStage
- Permisos completos para trabajar en DataStage Administrator, Designer y Director.
- Y as sucesivamente, para todos los productos de la Suite.
Creating a DataStage User ID

Creacin de un ID de usuario de DataStage
Despuesde esto se asignan los roles segn se configure en el software.
Usuarios dados Administrador de DataStage o usuario de DataStage
Funciones del producto en la consola de administracin de

Automticamente recibir las credenciales de DataStage.
Los usuarios con funciones de administrador de DataStage deben asignarse a un usuario vlido en la
mquina del servidor de DataStage.
Este usuario de DataStage debe tener permiso de acceso a archivos para los archivos del motor / proyecto de
DataStage o derechos de administrador en el sistema operativo.
Los usuarios con funciones de usuario de DataStage deben asignarse a un usuario vlido en la mquina del
servidor DataStage y necesitan permisos adicionales de DataStage asignados (desarrollador u operador ...).
La definicin ms concreta de los metadatos es datos acerca de los datos y sirven para
suministrar informacin sobre los datos producidos. Losmetadatos consisten en informacin que
caracteriza datos, describen el contenido, calidad, condiciones, historia, disponibilidad y otras
caractersticas de los datos.
DataStage Administrator
Dapositiva 34.
Environment Scoping (evaluacin ambiental)
APT Las variables ambientales son importantes en DS EE

Valores predeterminados de entorno establecidos en la instalacin para todos los usuarios
- El administrador puede anular la configuracin del usuario, de los proyectos
- Diseador puede anular en "Propiedades del trabajo" por base de trabajo
- Director puede anular propiedades de trabajo de una ejecucin a la siguiente, sin recompilar. Muy
prctico para seleccionar en el nivel de base de ejecucin
paralelismo Informes
Depuracin
Designer (configuracin de editor)

Utilice el Diseador para
Crear / Editar / Revisar
Archivos de configuracin
Los archivos de configuracin se guardan en la ruta del directorio de DataStage Server
Parameters sets
Almacenar una coleccin de parmetros e n objeto con nomre
Uno o mas archivos pueden ser Nombrados especificadamente }
Un archivo de valores almacena valores para los parmetros especificados.

- Los valores se recogen en tiempo de ejecucin
Parmetros Los conjuntos se pueden agregar a los parmetros de trabajo especificados en

La ficha Parmetros en propierties de trabajo.
Designer Work Area (rea de trabajo del dseador)

Compuesta por
Toolbar (barra de herramientas)

Repositorio
Canvas
Palette (paleta )
Men.
Funciones del repositorio
Tipo
Etc).
Creacin hace).
ltima modificacin
Donde usado
(Por ejemplo, un trabajo que utiliza
Dependencias de objetos
Tipo de objeto (job, Definicin de tabla).
Rango de fechas (por ejemplo, hasta una semana

Rango de fechas.
Objetos que utilizan objetos especificados Especificacin de tabla
(Por ejemplo, una definicin de tabla que se hace referencia en un trabajo especificado).
Opciones
Sensibilidad de la caja.
---------------------------------------------------------------------------------------------
Crear un administrador y un usuario de DataStage

Administrar datastage
Dia 2
Tradicional proecsaminto por lote
Transformar(disco) ----- limpieza (disco)------ cargar(una parte en disco entra sale al

target) -------- (target)
Data Pipelining
Pipelining de datos
Los procesos de transformacin, limpieza y carga se ejecutan simultneamente en el mismo procesador
Los registros avanzan a travs del flujo
Data Partitioning (Particionamiento de datos)
Divide grandes datos en particiones
Ejecutar una particin en cada procesador
4 veces ms rpido en 4 procesadores -

100 veces ms rpido en 100 procesadores
Esto es exactamente como el paralelo

Bases de datos de trabajo!
Putting It All Together: Parallel Dataflow
Ponerlo todo junto: flujo de datos paralelo

Putting It All Together:
Parallel Dataflow with Repartioning
Poniendolo todo junto:

Flujo de datos paralelo con la reparacin
CUSTOM
CUSTOMER LAST NAME : NOMBRE DEL CLIENTE
CUSTOMERZIP CODE : CODIGO ZIP (POSTAL) DEL CLIENTE
NUMERO DE TARJETA DE CREDITO
TARGET (OBJETIVO): DATA WAREHOUSE.
TRES TIPOS DE PARALELISMO
Paralelismo explcito
Implcito PIPELINE "paralelismo"
Paralelismo implcito de particin de datos.

LOOKUP : BUSCAR
SAMPLE : MUESTRA
CONSTRAINT : RESTRICCION
SORT: ORDENAR.
Partitioning and Collecting Data
Particin y recoleccin de datos
Para distribuir filas entre nodos, Enterprise Edition emplea un

Mtodo por defecto efectivo. El usuario puede anular el valor predeterminado con una seleccin de mtodos
alternativos. ((Partitioning))
Lo mismo se aplica a los programas que requieren agrupar las filas
En una corriente secuencial. (Collecting)

El particionamiento rompe el conjunto de datos en segmentos ms pequeos, lo que Entonces ser
procesado independientemente por cada nodo. Cada nodo ejecuta, en paralelo con otros nodos, su
propia instanciacin de las etapas.
La recopilacin devuelve las particiones de datos a una secuencia secuencial.
Para obtener los mejores resultados de escalabilidad y rendimiento, evite los colectores
METODS ED PARTICIONAMIENTO
AUTO - Enterprise Edition decide (predeterminado).

SAME-El particionamiento existente no se altera.
ROUND ROBIN - Las filas se alternan entre las particiones.
ENTIRE - Cada particin obtiene el conjunto de datos completo.
RANDOM - Filas asignadas al azar a las particiones.
HASH - Las filas con los mismos valores de columna clave van a la misma particin.
RANGE - Similar al hash, pero la asignacin de particiones es Determinado por el usuario y las particiones se
ordenan
MODULUS - Asigna cada fila de un dataset de entrada a una Particin, segn lo determinado por
unaColumna de clave numrica en el conjunto de datos de entrada
DB2 - Usa el algoritmo de hashing interno de DB2.
Same Conserva "cuidadosamente Particionado ".Rpido. No mueve datos entre nodos.
Round robin :Las filas se distribuyen uniformemente
ENTIRE : Cada particin obtiene una copia completa de los datos

tablas de bsqueda , til para distribuir
ADVERTENCIA:
Aumenta el volumen de datos
HASH :
Las filas se distribuyen segn los valores En una o ms columnas de clave definidas por el usuario.
Las filas con valores idnticos en columnas clave terminan en el mismo
dividir.
Evita que las filas "coincidentes" (como las buscadas por el Remove Duplicados, Particiones Parte
crucial del lenguaje "hash & sort"!
Por qu Hash primero y Ordenar 2nd

Debido a que la etapa de clasificacin de EE
Opera en paralelo y clasifica los datos en cada particin, los resultados ordenados no seran tiles si
No fueron previamente hash-particionado por la clave de ordenacin
CUIDADOS HASH
Asegrese de que los campos de clave toman suficientes valores para distribuir
Datos a travs de las particiones disponibles.
(Es decir, "gnero" sera una mala eleccin de la clave ...)
Algunas claves pueden producir una distribucin sesgada.
No vuelva a repartirla accidentalmente.
No confunda la particin hash con los archivos hash del lado del servidor,
No se relacionan.
RANGE Los registros se distribuyen segn los valores

Uno o ms campos clave, utilizando un mapa de rangos
Un refinamiento caro de Hash, que requiere dos pases

Sobre datos
Una particin dada contendr slo filas con valores de clave

Dentro de un cierto rango
Debe ejecutar primero el escenario "Escriba el mapa del rango". Sin embargo, Una vez creado, el
mapa de la gama es reutilizable!
Advertencia! Si los datos entrantes se ordenan en clave, se produce un procesamiento secuencial
Tips for Optimal Parallel Processing
Elija un mtodo de particin que cree un gran nmero de Particiones

El mtodo de particin debe crear particiones de tamao aproximadamente uniforme
El mtodo de particin debe coincidir con la accin de la etapa.
Collector

Data Stage

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Data Stage

Enviado por

Direitos autorais:

Formatos disponíveis

What is IBM WebSphere DataStage

Trabajos de diseo para la extraccin, transformacin y carga

Programe, ejecute y supervise trabajos, todo dentro de DataStage.

Administrar su desarrollo y ejecucin de DataStage

What is IBM Information Server ?

Conjunto de aplicaciones, incluyendo DataStage

Comparten un conjunto comn de servicios de aplicaciones y funcionalidad

Gestionado mediante clientes de consola web

Un dominio de Information Server, que consta de lo siguiente:

IIS - Everything on One Machine (todo e una sla maquina).

IIS DataStage on Separate Machine (DATASTAGE en una maquina

IIS MetaData Server and DB2 on Separate Machine (MetaData

Aqu el dominio est dividido entre tres mquinas

shared repository (repositorio compartido)

Las autorizaciones de la suite se pueden proporcionar al usuario o grupos.

Suite : es un conjunto de aplicaciones y herramientas de software incluidas en un solo paquete.

Roles de componentes de la suite

Creating a DataStage User ID

Despuesde esto se asignan los roles segn se configure en el software.

Usuarios dados Administrador de DataStage o usuario de DataStage

Funciones del producto en la consola de administracin de

Environment Scoping (evaluacin ambiental)

APT Las variables ambientales son importantes en DS EE

Designer (configuracin de editor)

Almacenar una coleccin de parmetros e n objeto con nomre

Uno o mas archivos pueden ser Nombrados especificadamente }

Un archivo de valores almacena valores para los parmetros especificados.

Parmetros Los conjuntos se pueden agregar a los parmetros de trabajo especificados en

Designer Work Area (rea de trabajo del dseador)

Toolbar (barra de herramientas)

Tipo de objeto (job, Definicin de tabla).

Rango de fechas (por ejemplo, hasta una semana

Crear un administrador y un usuario de DataStage

Tradicional proecsaminto por lote

Transformar(disco) ----- limpieza (disco)------ cargar(una parte en disco entra sale al

Data Partitioning (Particionamiento de datos)

Divide grandes datos en particiones

Ejecutar una particin en cada procesador

4 veces ms rpido en 4 procesadores -

Esto es exactamente como el paralelo

Putting It All Together: Parallel Dataflow

Ponerlo todo junto: flujo de datos paralelo

Poniendolo todo junto:

CUSTOMER LAST NAME : NOMBRE DEL CLIENTE

CUSTOMERZIP CODE : CODIGO ZIP (POSTAL) DEL CLIENTE

NUMERO DE TARJETA DE CREDITO

TARGET (OBJETIVO): DATA WAREHOUSE.

TRES TIPOS DE PARALELISMO

Implcito PIPELINE "paralelismo"

Paralelismo implcito de particin de datos.

Para distribuir filas entre nodos, Enterprise Edition emplea un

Lo mismo se aplica a los programas que requieren agrupar las filas

En una corriente secuencial. (Collecting)

La recopilacin devuelve las particiones de datos a una secuencia secuencial.

AUTO - Enterprise Edition decide (predeterminado).

Same Conserva "cuidadosamente Particionado ".Rpido. No mueve datos entre nodos.

Round robin :Las filas se distribuyen uniformemente

ENTIRE : Cada particin obtiene una copia completa de los datos

Por qu Hash primero y Ordenar 2nd

RANGE Los registros se distribuyen segn los valores

Un refinamiento caro de Hash, que requiere dos pases

Una particin dada contendr slo filas con valores de clave

Advertencia! Si los datos entrantes se ordenan en clave, se produce un procesamiento secuencial

Tips for Optimal Parallel Processing