Você está na página 1de 78

1

Jarley Nóbrega – jpn@cin.ufpe.br

Pentaho Data Integration

Dezembro de 2009

Agenda O PDI e o Pentaho BI Suite Instalando o PDI Trabalhando com arquivos .

.

com IN1177 .Pentaho BI Suite  Coleção de Aplicações de Software  Criação e deployment de soluções para tomada de decisão  Open source  Enterprise /Community Editions  http://www.Banco de Dados para Suporte à Decisão Janeiro de 2010 .pentaho.

Pentaho BI Suite Análise multidimensional Integração de dados Funcionalidades Reporting Dashboards Mineração de dados IN1177 .Banco de Dados para Suporte à Decisão Janeiro de 2010 .

Banco de Dados para Suporte à Decisão Janeiro de 2010 .Pentaho BI Suite IN1177 .

2009) IN1177 .Arquitetura do Pentaho BI Camadas da arquitetura do Pentaho BI Suite (Bouman and Dongen.Banco de Dados para Suporte à Decisão Janeiro de 2010 .

cubos e dashboards  Base de dados Steel Wheels  Download  http://sourceforge.Banco de Dados para Suporte à Decisão Janeiro de 2010 .6.0.zip (~170MB) IN1177 .stable.Pentaho BI Suite  Pentaho BI Platform demo  Instalação pré-configurada da plataforma Pentaho  Demonstração do uso de relatórios.net/projects/pentaho/files/  Pasta Business Intelligence Server: arquivo biserver-ce-3.

Pentaho BI Suite  Um pequeno roteiro para rodar o BI Server  Baixar e descompactar o arquivo  Certifique-se que existe uma JVM instalada  Verifique a variável de ambiente JAVA_HOME  Se estiver no Linux.  sudo chmod 755 . dê acesso de gravação e leitura para a pasta do tomcat./tomcat/* IN1177 .Banco de Dados para Suporte à Decisão Janeiro de 2010 .

bat IN1177 .Banco de Dados para Suporte à Decisão Janeiro de 2010 .Pentaho BI Suite  Um pequeno roteiro para rodar o BI Server  Inicie o BI Server  Windows: <pasta>\bi-server-ce\start-pentaho.

Pentaho BI Suite  Um pequeno roteiro para rodar o BI Server  Inicie o BI Server  Linux: <pasta>/bi-server-ce/sh .sh IN1177 .Banco de Dados para Suporte à Decisão Janeiro de 2010 ./start-pentaho.

Pentaho BI Suite  Um pequeno roteiro para rodar o BI Server  Acesse a url http://localhost:8080/pentaho IN1177 .Banco de Dados para Suporte à Decisão Janeiro de 2010 .

Banco de Dados para Suporte à Decisão Janeiro de 2010 .Pentaho BI Suite  Um pequeno roteiro para rodar o BI Server  Entre com o usuário “joe” e navegue na aplicação IN1177 .

.

Banco de Dados para Suporte à Decisão Janeiro de 2010 . Transportation. Transformation and Loading Environment IN1177 .Pentaho Data Integration Uma das ferramentas de BI da plataforma Pentaho  Projeto open source encampado pelo Pentaho em 2006  Desenvolvido por Matt Casters  Anteriormente conhecido como Kettle  KDE Extraction.

Pentaho Data Integration Timeline do PDI IN1177 .Banco de Dados para Suporte à Decisão Janeiro de 2010 .

Banco de Dados para Suporte à Decisão Janeiro de 2010 .Pentaho Data Integration Principais funcionalidades do PDI Integração de Dados Processo de ETL IN1177 .

Pentaho Data Integration  Carregando dados em um DW ou datamart Extração Processo de ETL Transformação Carregamento IN1177 .Banco de Dados para Suporte à Decisão Janeiro de 2010 .

Pentaho Data Integration Validação e descarte de dados de acordo com regras e padrões Conversão dos tipos de dados.Banco de Dados para Suporte à Decisão Janeiro de 2010 . filtragem de dados. sumarização Extração de dados de diferentes fontes e formatos Transformação dos dados de acordo com requisitos técnicos e de negócio Carregamento dos dados transformados em uma base de dados Reescrita dos dados e adição de novas informações IN1177 .

Pentaho Data Integration Carregamento Extração Transformação IN1177 .Banco de Dados para Suporte à Decisão Janeiro de 2010 .

 Staging  Armazenamento temporário dos dados.Pentaho Data Integration  Atividades de Extração  Captura dos dados  Leitura a partir de diversas fontes  Identificação de mudanças desde a última extração. IN1177 .Banco de Dados para Suporte à Decisão Janeiro de 2010 .

Pentaho Data Integration Fontes de entrada de dados  Sistemas de gerenciamento de banco de dados IN1177 .Banco de Dados para Suporte à Decisão Janeiro de 2010 .

Pentaho Data Integration Fontes de entrada de dados  Planilhas IN1177 .Banco de Dados para Suporte à Decisão Janeiro de 2010 .

Banco de Dados para Suporte à Decisão Janeiro de 2010 .Pentaho Data Integration Fontes de entrada de dados  Arquivos texto ou XML IN1177 .

IN1177 . categóricos) para adequação a um padrão ou regra.  Decodificação  Conversão de atributos (numéricos.Pentaho Data Integration  Atividades de Transformação  Validação dos dados  Verificação se os dados estão corretos e precisos.Banco de Dados para Suporte à Decisão Janeiro de 2010 .  Limpeza dos dados  Correção de dados inválidos.  Agregação  Geração e gerenciamento de chaves  Dimensões identificadas por chaves substitutas (“surrogates”).  Filtragem de dados inválidos.

 Carregamento e manutenção das tabelas de dimensões  Adição e atualização de linhas das tabelas de dimensões.Banco de Dados para Suporte à Decisão Janeiro de 2010 .Pentaho Data Integration  Atividades de Carregamento  Carregamento das tabelas de fatos  Adição de linhas à tabela de fatos. IN1177 .  Atualização de atributos de status.

Instalando o PDI  Pré-requisito  JRE (ou JDK) 5.2.  Download  http://sourceforge.2 MB IN1177 .net/projects/pentaho/files/  Pasta “Data Integration”  Obter a última versão estável  4.2 MB  3.1 – 95.0.x ou superior.Banco de Dados para Suporte à Decisão Janeiro de 2010 .0 – 77.

exe (ou spoon.bat ou Kettle.Banco de Dados para Suporte à Decisão Janeiro de 2010 .Instalando o PDI  Após descompactar o arquivo  Executar spoon.sh no Linux) IN1177 .

Banco de Dados para Suporte à Decisão Janeiro de 2010 .Instalando o PDI  Clique no botão “No repository”  A interface gráfica do PDI (Spoon) será carregada. mostrando uma página de boas vindas. IN1177 .

.Banco de Dados para Suporte à Decisão Janeiro de 2010 .  Aba “Look-and-feel”  Preferred language  ....  As mudanças estarão visíveis após reiniciar o Spoon IN1177 .Instalando o PDI  Dicas de configuração da área de trabalho do Spoon (Menu Editar -> Opções)  Aba “General”  Show tips at startup?  Show welcome page at startup?  .

 Fontes de entrada e saída. IN1177 .Principais Componentes do PDI  O PDI trabalha com dois tipos básicos de componentes:  Transformações  Jobs  Características de transformações e jobs  Definem o fluxo do processo de ETL  Contém os metadados do processo de ETL  Descrição dos dados.  Scheduling.Banco de Dados para Suporte à Decisão Janeiro de 2010 .  Scripting.

Principais Componentes do PDI Como as transformações e jobs são executados?  Uma transformação ou job consiste de uma coleção de itens interconectados IN1177 .Banco de Dados para Suporte à Decisão Janeiro de 2010 .

Banco de Dados para Suporte à Decisão Janeiro de 2010 .Principais Componentes do PDI Conexões entre os itens das transformações e jobs  Hop’s  Pipeline do fluxo de registros IN1177 .

2009) IN1177 . hops e o fluxo de registros (Bouman and Dongen.Banco de Dados para Suporte à Decisão Janeiro de 2010 .Principais Componentes do PDI  Steps.

kjb Janeiro de 2010 .Banco de Dados para Suporte à Decisão transformações ou de steps de jobs Cada entrada do job denota uma tarefa do processo de ETL A saída de cada entrada do job produz um status de execução Fluxo dos steps do job ocorre de forma sequencial Arquivo .Principais Componetes do PDI Transformações  Consiste de uma coleção de    Jobs  Consiste de uma coleção de      steps de transformação Cada step denota uma operação do processo de ETL A saída de um step produz um conjunto de registros Fluxo dos steps da transformação ocorre de forma simultânea e assíncrona Arquivo .ktr IN1177 .

Banco de Dados para Suporte à Decisão Janeiro de 2010 .Metamodelo dos componentes do PDI IN1177 .

Banco de Dados para Suporte à Decisão Janeiro de 2010 .Principais Componentes do PDI  Outros componentes do PDI:  Repositórios  Os metadados das transformações e jobs podem ser persistidos em um banco de dados (repositório)  Ferramentas:  Spoon: IDE para desenvolvimento visual.  Kitchen: execução de jobs em linha de comando.  Pan: execução de transformações em linha de comando.  Carte: servidor de para execução remota de transformações e jobs. IN1177 .

Banco de Dados para Suporte à Decisão Janeiro de 2010 . 2009) IN1177 .Arquitetura do PDI (Bouman and Dongen.

Exercícios 1 e 2  Criando as primeiras transformações no PDI  Transformação simples  Processo de ETL  Extração de dados de uma fonte (arquivo texto)  Transformação dos dados  Carregamento dos dados transformados (arquivo texto) IN1177 .Banco de Dados para Suporte à Decisão Janeiro de 2010 .

Exercício 3  Criando uma conexão com um banco de dados IN1177 .Banco de Dados para Suporte à Decisão Janeiro de 2010 .

.

 ...  Informações do sistema. IN1177 .Banco de Dados para Suporte à Decisão Janeiro de 2010 .Extraindo dados no PDI  Vários steps para extrair dados  Banco de dados.  Arquivos texto.

codificação.  Depende do tipo do step  Campos  Filtros  Ex.: pular linhas em branco. ler as primeiras n linhas. IN1177 .Banco de Dados para Suporte à Decisão Janeiro de 2010 . etc. cabeçalho.Extraindo dados no PDI  Principais propriedades dos steps de extração  Nome do step  Obrigatório e único para cada step  Nome e localização do arquivo  Descrição do conteúdo  Separador. etc.

 Arquivos flat.Extraindo dados de arquivos  Modo “primitivo” de armazenar dados  Comma-separated values (CSV).  Planilhas. IN1177 .  XML.Banco de Dados para Suporte à Decisão Janeiro de 2010 .

XLS Texto de tamanho fixo Idem ao CSV + tratamento de erros + filtros Nós e atributos de tags no formato XML IN1177 .CSV Células de uma planilha .Banco de Dados para Suporte à Decisão Janeiro de 2010 .Extraindo dados de arquivos Nome do Step Fonte dos dados CSV File Input Excel Input Fixed file input Text file input Get data from XML Campos de um arquivo .

Banco de Dados para Suporte à Decisão Janeiro de 2010 . realizando uma transformação e carregando o resultado em um arquivo texto.Exercício 4  Extraindo dados de um arquivo texto. IN1177 .

Banco de Dados para Suporte à Decisão Janeiro de 2010 .Lendo vários arquivos  Até agora extraímos dados de um único arquivo texto  Extração de dados de vários arquivos:  Lista de arquivos  Expressões regulares IN1177 .

Banco de Dados para Suporte à Decisão Janeiro de 2010 .  Usando expressões regulares IN1177 .Exercícios 5 e 6  Adicionando uma lista de arquivos de entrada.

+\.txt começando com test escrito em maiúsculo ou minúsculo Exemplos Arquivo.txt TeSTcaseinsensitive. Qualquer arquivo ..txt test(19|20)\d\d-(0[19]|1[012])\.. seguido por uma data usando o formato yyyymm Qualquer arquivo .txt (?i)test.txt Qualquer arquivo começando com test.txt Combina com.txt test2009-01.*\.tXt IN1177 .Expressões regulares  Em vários steps do PDI podemos usar expressões regulares  Exemplos Expressão regular .txt test2009-12.Banco de Dados para Suporte à Decisão Janeiro de 2010 .

Expressões regulares  Para saber mais sobre expressões regulares  Regular Expression Quick Start: http://www.html  The Java Regular Expression Tutorial: http://java.com/javase/6/docs/api/java/util/reg ex/Pattern.com/docs/books/tutorial/essential/r egex/  Java Regular Expression Pattern Syntax: http://java.Banco de Dados para Suporte à Decisão Janeiro de 2010 .sun.sun.info/quickstart.regularexpressions.html IN1177 .

Banco de Dados para Suporte à Decisão Janeiro de 2010 .Enviando dados para arquivos  Vários steps para enviar dados para arquivos Nome do Step Destino dos dados Excel output SQL file output Text file output XML output Células de uma planilha no formato .xls Comandos SQL em arquivo texto Linhas em um arquivo texto (txt ou CSV) Nós e atributos de tags no formato XML IN1177 .

 Depende do tipo do step  Campos IN1177 . codificação. etc.Enviando dados para arquivos  Principais propriedades  Nome do step  Obrigatório e único para cada step  Nome e localização do arquivo  Opção Append  Descrição do conteúdo  Separador.Banco de Dados para Suporte à Decisão Janeiro de 2010 . cabeçalho.

Banco de Dados para Suporte à Decisão Janeiro de 2010 .Definições de dados do PDI Dois conceitos importantes de dados para o PDI Rowset Streams IN1177 .

Boolean. Date. Integer e Big Number  Cada linha corresponde a um membro do dataset IN1177 .Banco de Dados para Suporte à Decisão Janeiro de 2010 rowset de entrada e outro de saída  Botão direito -> Mostra campos de entrada/saída .Definições de dados do PDI Rowset  Dados representados de Streams  Dados enviados de um step forma tabular (datasets)  Cada coluna representa um campo  Nome (obrigatório)  Tipo: Number (float). para outro  Os hops apenas repassam o fluxo de dados  Cada step pode ter um String.

Banco de Dados para Suporte à Decisão Janeiro de 2010 .Definições de dados do PDI IN1177 .

Transformações no dataset de arquivos  A forma mais simples de fazer transformações no rowset de um arquivo  Step Select Values  Operações básicas  Selecionar e Alterar Campos  Remover Campos  Alterar metadados dos campos IN1177 .Banco de Dados para Suporte à Decisão Janeiro de 2010 .

Banco de Dados para Suporte à Decisão Janeiro de 2010 .Exercício 7  Alterando os campos do Exercício 6  Gerando a saída para uma planilha Excel IN1177 .

Extraindo informações do Ambiente  O que vimos até agora?  Extração dos dados de arquivos  Realizando transformações básicas  Carregando dados em arquivos  Como obter dados sem conhecer previamente o nome dos arquivos?  Lendo informações do ambiente  Step Get System Info IN1177 .Banco de Dados para Suporte à Decisão Janeiro de 2010 .

O.  Datas  Sistema de arquivos  Rede  Variáveis de ambiente do PDI IN1177 .Banco de Dados para Suporte à Decisão Janeiro de 2010 .Extraindo informações do Ambiente  Variáveis do S.

Banco de Dados para Suporte à Decisão Janeiro de 2010 .Exercício 8  Extraindo informações do sistema IN1177 .

Banco de Dados para Suporte à Decisão Janeiro de 2010 .Tipos de Dados  Todo campo de um dataset possui um tipo de dado  Tipos suportados pelo PDI  Number (float)  String  Date  Boolean  Integer  Big Number IN1177 .

Tipos de Dados  Date (padrão API Java) IN1177 .Banco de Dados para Suporte à Decisão Janeiro de 2010 .

Exemplos Formato padrão: yyyy/MM/dd IN1177 .Tipos de Dados  Date .Banco de Dados para Suporte à Decisão Janeiro de 2010 .

Tipos de Dados  Campos numéricos (padrão API Java)  O PDI tenta “interpretar” dados numéricos  Campos mais elaborados precisam de um formato  Formatos mais usados Símbolo Significado Dígito zero não é mostrado (pode arredondar) Se o dígito não estiver presente.Banco de Dados para Suporte à Decisão . % IN1177 . o zero é mostrado no lugar Separador decimal Sinal de menos Campo deve ser multiplicado por 100 e exibido como percentual Janeiro de 2010 # 0 .

000 100 (arredondamento) 100 (arredondamento) 99.55 Formato Resultado # 0 #.campo com valor 99.# #.Banco de Dados para Suporte à Decisão Janeiro de 2010 .Tipos de Dados  Campos numéricos (padrão API Java)  Exemplos .000 000.550 099.55 99.6 99.550 IN1177 .## #.

Banco de Dados para Suporte à Decisão Janeiro de 2010 .Tipos de Dados  Campos numéricos (padrão API Java)  Algumas considerações:  Se não especificar o formato -> informar tamanho e precisão  Por padrão. IN1177 . o PDI tenta “interpretar” o número e repassa pelo hop sem aplicar nenhum formato.

Exercício 9  Aplicando formatos para datas e números do Exercício 8 IN1177 .Banco de Dados para Suporte à Decisão Janeiro de 2010 .

Banco de Dados para Suporte à Decisão Janeiro de 2010 .Arquivos XML  Arquivos (ou documentos) XML são utilizados para:  Armazenar dados  Troca de dados entre sistemas heterogêneos  Entrada de dados XML  Step Get data from XML  Saída de dados XML  Step XML output IN1177 .

3</percentage> </language> </country> ..7</percentage> </language> <language isofficial="F"> <name>Indian Languages</name> <percentage>0.8</percentage> </language> <language isofficial="F"> <name>Italian</name> <percentage>1. <country> <name>Argentina</name> <capital>Buenos Aires</capital> <language isofficial="T"> <name>Spanish</name> <percentage>96..0" encoding="UTF-8"?> <world> .Banco de Dados para Suporte à Decisão Janeiro de 2010 . </world> elemento atributo IN1177 ..Arquivos XML  Como o PDI trata arquivos XML? <?xml version="1..

 Texto IN1177 .  Tipos de nós:  Elementos.Banco de Dados para Suporte à Decisão Janeiro de 2010 .Arquivos XML  Como o PDI trata arquivos XML?  Step Get data from XML  Notação Xpath: Conjunto de regras para recuperar informação de um documento XML  Documento XML tratado como uma árvore formada por nós.  Atributos.

Arquivos XML
 Como o PDI trata arquivos XML?
 Relacionamento entre os nós  Um nó tem um pai  Um nó tem zero ou mais filhos, irmãos, ancestrais ou descendentes

Arquivo de exemplo: country é o pai dos elementos name, capital e language. Os três elementos são filhos de country.

IN1177 - Banco de Dados para Suporte à Decisão

Janeiro de 2010

Arquivos XML
 Como o PDI trata arquivos XML?
 Para acessar um nó  Usar uma expressão no formato XPath relativa ao nó corrente.

IN1177 - Banco de Dados para Suporte à Decisão

Janeiro de 2010

Arquivos XML
 Exemplos XPath
Expressão node_name . .. @ Descrição Seleciona todos os nós filhos do nó node_name. Seleciona o nó corrente Seleciona o pai do nó corrente Seleciona um atributo

IN1177 - Banco de Dados para Suporte à Decisão

Janeiro de 2010

Exercício 10  Extraindo uma lista com dados de países em XML  Salvando o resultado em uma planilha IN1177 .Banco de Dados para Suporte à Decisão Janeiro de 2010 .

Banco de Dados para Suporte à Decisão Janeiro de 2010 .Resumo da Semana 1         Arquitetura do Pentaho BI server Instalação do PDI Arquitetura do PDI Extração de dados em arquivos texto (plain e XML) Carregamento de dados em arquivos texto e planilhas Extração de informação a partir de informações do ambiente Tipos de dados suportados pelo PDI Operações básicas de transformações IN1177 .

Bibliografia Site do PDI: http://kettle.com/ IN1177 .pentaho.Banco de Dados para Suporte à Decisão Janeiro de 2010 .