Você está na página 1de 59

H 8 anos treinando os melhores profissionais de BI Open Source.

www.it4biz.com.br

Pentaho Data Integration

PDI
O Pentaho Data Integration ( PDI / Kettle) uma ferramenta para
integrao de dados, responsvel pelo processo de Extrao,
Transformao e Carga (ETL Extract, Transform, Load).
Pode ser usado como uma aplicao independente ou como parte da sute
do Pentaho.
Por se tratar de uma ferramenta de ETL, suas funcionalidades costumam
ser direcionadas para o desenvolvimento de Data Warehouse; porm
podem ser utilizadas nos seguintes aspectos:
Migrao de dados entre aplicaes ou base de dados;
Exportao de dados de banco para arquivos.
Limpeza de dados;
Integrao de aplicaes;
Automatizao de Processos.
www.it4biz.com.br

Instalao e Configuraes

ltima verso estvel


A verso utilizada neste treinamento a verso do PDI CE 5.3.0.0-213
Arquivo: pdi-ce-5.3.0.0-213.zip
Data:
2015-02-16
Tamanho: 535.5 MB

Local para baixar:


http://sourceforge.net/projects/pentaho/files/Data%20Integration/5.3/pdi-ce5.3.0.0-213.zip/download

www.it4biz.com.br

Instalao
Baixe e descompacte a verso compatvel com seu computador.

Para iniciar o PDI, execute o arquivo spoon.bat, se estiver usando


Windows ou o arquivo spoon.sh, se estiver usando o linux.

www.it4biz.com.br

Tela Inicial - PDI

Painel de Ferramentas

PAINEL DE
FERRAMENTAS

www.it4biz.com.br

rea de Desenvolvimento

rea de
Desenvolvimento

www.it4biz.com.br

Configurao do Repositrio
Ao abrir o PDI ser exibida a tela de conexo ao repositrio:
A conexo ao repositrio permite que voc salve suas Transformaes e Jobs
em um local de sua preferncia.
Caso no queira especificar um caminho neste momento, feche a janela de
conexo .
Esta ao, armazenar suas Transformaes e Jobs na mquina local.
Para adicionar o repositrio clique no sinal (+)

www.it4biz.com.br

Configurao do Repositrio

Existem duas maneiras de configurar seu repositrio.


1 Armazenar as transformaes e jobs dentro do banco de dados.
Kettle database repository
2 Definir uma pasta e us-la como repositrio.
Kettle file repository

Caso a tela repositrio no abra em sua pgina inicial, siga o seguinte


caminho para acess-lo:
Tools Repositrio Conectar a um Repositrio

www.it4biz.com.br

Configurao do
Repositrio
Selecione uma das duas opes e clique em Ok.

www.it4biz.com.br

Configurao do
Repositrio
Clique em Novo para configurar uma nova conexo com seu
servidor.

www.it4biz.com.br

Configurao do
Repositrio
O software permite conexo com os principais banco de dados: Oracle, SQL
Server, MySQL, PostgreSQL, Firebird , IBM DB2, entre outros.

www.it4biz.com.br

Configurao do Repositrio

Selecione o banco desejado e preencha os seguintes campos:


Connection Name: Nome da Conexo
Host Name: Nome do banco
Port Number: Porta do banco
User Name: usurio
Password: senha*

*Recomenda-se anotar a senha criada para possibilitar a


edio da conexo no futuro.

www.it4biz.com.br

Configurao do Repositrio
Clique em Ok, para prosseguir com a
configurao.

www.it4biz.com.br

Configurao do Repositrio

Nomeie a conexo preenchendo os campos ID e Name.


ID: id de identificao
Name: Nome da conexo

www.it4biz.com.br

Configurao do Repositrio
Clique em Create or upgrade para criar a estrutura necessria no
banco.
Clique em Execute Ok CancelOk

www.it4biz.com.br

Configurao do Repositrio
Clique em Create or upgrade para criar a estrutura necessria no
banco.
Clique em Execute Ok CancelOk

Repository: Repositrio criado


User Name: admin
Password: admin
www.it4biz.com.br

Organizando Pastas

Boto direito New Folder Nome da Pasta Ok

www.it4biz.com.br

Repositrio Texto
Selecione a opo, conforme a imagem abaixo para configurar o repositrio
no modo texto (.ktr e .ktb). Clique OK

www.it4biz.com.br

Exportando Repositrio
Clique em Tools Repositrio Export Repository...
Salve no local desejado

www.it4biz.com.br

Importando Repositrio

Clique em Tools Repositrio Import Repository.

www.it4biz.com.br

Importando Repositrio
Aps selecionar o arquivo a ser importado clique em Ok para informar o diretrio de
armazenamento do repositrio.

www.it4biz.com.br

Transformaes

Transformao uma rotina com uma


coleo de passos interligados
chamados de steps.

O primeiro step representa a fonte ou


os dados, e o ltimo representa a
sada dos dados.

www.it4biz.com.br

Jobs
O Job uma rotina que permite a execuo de uma ou mais transformaes
ou Jobs, alm de diversas outras aes.

www.it4biz.com.br

Step (Passo)
O step (passo) a unidade mnima dentro de uma Transformao.
Fundamentalmente existem trs tipos bsicos de passos:
1. Entrada;
2. Transformao;
3. Sada.
Os passos so facilmente criados utilizando o recurso de drag and drop
(arrastar e largar).
Uma lista agrupada em vrias categorias de passos, fica disponvel na rea
de ferramentas.

www.it4biz.com.br

Hop
Hop uma representao grfica do fluxo de dados entre dois passos.
A conexo entre dois steps pode ser criada clicando no passo de origem,
pressionando o boto shift, e arrastando o cursor at o passo destino.

www.it4biz.com.br

Transformaes e
Principais Steps (Passos)

Table Input
Crie sua conexo nomeie o step -- > Coloque sua consulta SQL (SQL Query)
Clique em Preview para verificar o resultado do select (Consulta SQL), Ok
para finalizar.

Get SQL select statement...


possvel selecionar a tabela no
banco e ele monta a query de select
automaticamente.
www.it4biz.com.br

Table Output

Target table: Informe a tabela de Destino ou o nome da tabela a ser criada,


caso no existe
Truncate: Limpa a tabela antes da insero dos dados. Desmarque essa
opo se o intuito for fazer carga incremental
** Caso a tabela no existe clique em SQL para criar a tabela.**
www.it4biz.com.br

Insert / Update
Configurar a conexo -- > informe que
tabela ser atualizada.
Dontt perform any update:
Se ativado, os valores no banco de
dados nunca sero atualizados, apenas
execuo de insert;
Informe a chave primria da tabela que
fonte dos dados e a chave primria da
tabela de destino;
Informe o nome do campo de origem e
o nome do campo que voc deseja
preencher com a informao.
Selecione Y ou N para configurar os
campos que sero atualizados
www.it4biz.com.br

Database Lookup
Configura a conexo, tabela de destino, chave e a condio para executar a
pesquisa no banco de dados.

Nome do campo na tabela


de destino, valor padro
para campo nulo e o tipo
de dados que ser
retornado.

Obter campos: Retorna uma lista de campos disponveis do fluxo de


entrada.
Obter campos lookup: Retorna uma lista de campos disponveis da tabela
de pesquisa que podem ser adicionados ao fluxo de sada.
www.it4biz.com.br

Switch / Case

www.it4biz.com.br

Frmula
Este step permite a criao de formulas como campos calculados, campos com
valores constantes, condies lgicas, formatao de string, data, operadores de
comparao, entre outros.

www.it4biz.com.br

Replace in String

In stream field: Campo base para pesquisa;


Use RegEx: Utilize expresses regulares e referncia de grupo;
Search: Valor a ser pesquisado e substitudo;
Replace with: Valor que ir subscrever o valor do Search;
Whole Word: Coloque Y caso queira substituir a palavra inteira ou N para
substituir determinado trecho;
Case sensitive: Infome se o campo case sensitive com Y ou N
www.it4biz.com.br

Java Script

rea de edio e desenvolvimento da programao


Funes pr-definidas
Campos de input e output
Resultado das variveis criadas
www.it4biz.com.br

Calculator

Novo Campo: Como ser chamado seu campo;


Clculo: Clculo que ser feito;
Campo A: Primeiro valor;
Campo B: Segundo valor;
Campo C: Terceiro valor;
Tipo do valor: Tipo de dados que retornaro do clculo;
Tamanho: Tamanho do campo;
Preciso: Quantidade de casas decimais.
www.it4biz.com.br

Call Procedure

Nome do Proc: Nome da Funo ou procedure


Nome do Resultado: Nome do resultado da Funo
Tipo do Resultado: Tipo de dados do resultado
Parmetros: Parmetro necessrio da funo
www.it4biz.com.br

Value Mapper

Step name: Como ser chamado o campo;


Fieldname to use: Campo a ser usado como fonte de mapeamento;
Target field name: Nome do Campo mapeado;
Default upon non-matching: Define um valor padro para situaes em
que o valor de origem no se enquadra no mapeamento;
Source value: Valor origem;
Target Value: Valor mapeado.
www.it4biz.com.br

Mapping (sub-transformation)

Mapping transformation: Referenciar a transformao ser usada para o


mapeamento;
Parameters: Permite definir variveis para o mapeamento;
Add Input: Cada uma das guias de entrada correspondem a um nico passo no
mapeamento;
Add Output: Cada uma das guias de sada correspondem a um nico passo no
mapeamento.
www.it4biz.com.br

Mapping (Input)

Input source step name: Nome do step de entrada na transformao Pai (No do
mapeamento);
Mapping target step name: Nome do step de entrada do mapeamento ( linha de
dados a ser mapeada);
Is this the main data path: Verifica se os campos acima esto vazios;
Ask these values to be renamed back on: Renomeia os arquivos antes de serem
enviados para o mapeamento.;
Step mapping description: Descrio do mapeamento.
www.it4biz.com.br

Mapping Output

Mapping source step name: Nome do step de entrada na transformao onde


sero lidos os dados;
Output target step name: Nome do step de entrada na transformao corrente;
Is this the main data path: Verifica se os campos acima esto vazios;
Ask these values to be renamed back on: Renomeia os arquivos antes de
serem enviados para o mapeamento;
Step mapping description: Descrio do mapeamento.
www.it4biz.com.br

Excel Input

Na aba Content, selecione o formato do arquivo ser importado (xls, xlsx ou ods).

www.it4biz.com.br

Excel Input

File or Directory: Informe o local de origem do arquivo ser usado no input .


-> V para aba !Sheets
www.it4biz.com.br

Excel Input

Get sheetname(s): Clique para informar em que aba esto os dados


-> V para a aba !Fields
www.it4biz.com.br

TXT Input

www.it4biz.com.br

TXT Output

Separador: Escolha o delimitador do arquivo.


Principais: TAB, Virgula( , ), ponto e virgula ( ; ) e Pipe( | )
-> V para abas Fields..
www.it4biz.com.br

TXT Output

Obtm Campos: Clique para indicar campos serem exportados, tipos de


campos e formatao.
-> Clique Ok e finalize.
www.it4biz.com.br

CSV Input

Filename: Informe o local de origem do arquivo de input;


Delimiter: Informe delimitador do arquivo .
-> Clique em Obtm campos, para selecionar e formatar os campos de
input.
www.it4biz.com.br

Select Values
Get fields to select:
Seleciona os dados
automaticamente

Select & Alter: Altera o nome e especfica a ordem exata que os campos devem
aparecer na sada;
Remove: Especifica os campos que no sero exibidos na sada do step;
Meta-data: Altera nome, tipo, comprimento e preciso dos campos
www.it4biz.com.br

Jobs

Start

Repeat: Marque se quiser repetir o agendamento automaticamente;


Type: Escolha o tipo de agendamento ( Dirio, Intervalos, Dia da semana ou dia
do Ms);
Interval in seconds: Informe o intervalo de segundos para repetir o processo;
Interval in minutes: Informe o intervalo de minutos para repetir o processo;
Time of day: Informe um horrio para rodar o processo;
Day of week: Informe um dia da semana para rodar o processo;
Day of month: Informe um dia do ms para rodar o processos.
www.it4biz.com.br

Transformation

Transformation filename: Informe o local de origem da transformao ser


exceutada.
www.it4biz.com.br

Job

Job filename: Informe o local de origem do job ser executado.

www.it4biz.com.br

File Exists

Step til para checar a existncia de arquivos ou Pastas.


1. Informe o local onde encontra-se o arquivo/ pasta;
2. Clique em adicionar;
3. Clique OK.
www.it4biz.com.br

File Exists

www.it4biz.com.br

Table Exists

Step til para checar a existncia de tabelas em determinado datasource.


1.
2.
3.
4.

Configure a conexo com o banco;


Informe o esquema ao qual pertence a tabela;
Informe a tabela;
Clique em OK.

www.it4biz.com.br

SQL

Connection: Informe a conexo;


SQL from file: Marque essa opo para executar um script
gravado localmente na mquina;
SQL Script: Informe a consulta ser executada.
www.it4biz.com.br