Escolar Documentos
Profissional Documentos
Cultura Documentos
Aula 01 Tutorial Pdi 101118063416 Phpapp01 PDF
Aula 01 Tutorial Pdi 101118063416 Phpapp01 PDF
Dezembro de 2009
Agenda
Pentaho BI Suite
Coleo de Aplicaes de Software
Criao e deployment de solues para
tomada de deciso
Open source
Enterprise /Community Editions
http://www.pentaho.com
Janeiro de 2010
Pentaho BI Suite
Anlise
multidimensional
Integrao
de dados
Reporting
Funcionalidades
Dashboards
Minerao
de dados
Janeiro de 2010
Pentaho BI Suite
Janeiro de 2010
Arquitetura do Pentaho BI
Janeiro de 2010
Pentaho BI Suite
Pentaho BI Platform demo
Instalao pr-configurada da plataforma Pentaho
Demonstrao do uso de relatrios, cubos e
dashboards
Base de dados Steel Wheels
Download
http://sourceforge.net/projects/pentaho/files/
Pasta Business Intelligence Server: arquivo
biserver-ce-3.6.0.stable.zip (~170MB)
Janeiro de 2010
Pentaho BI Suite
Um pequeno roteiro para rodar o BI Server
Baixar e descompactar o arquivo
Certifique-se que existe uma JVM instalada
Verifique a varivel de ambiente JAVA_HOME
Se estiver no Linux, d acesso de gravao e leitura
para a pasta do tomcat.
sudo chmod 755 ./tomcat/*
Janeiro de 2010
Pentaho BI Suite
Um pequeno roteiro para rodar o BI Server
Inicie o BI Server
Windows: <pasta>\bi-server-ce\start-pentaho.bat
Janeiro de 2010
Pentaho BI Suite
Um pequeno roteiro para rodar o BI Server
Inicie o BI Server
Linux: <pasta>/bi-server-ce/sh
./start-pentaho.sh
Janeiro de 2010
Pentaho BI Suite
Um pequeno roteiro para rodar o BI Server
Acesse a url
http://localhost:8080/pentaho
Janeiro de 2010
Pentaho BI Suite
Um pequeno roteiro para rodar o BI Server
Entre com o usurio joe e navegue na aplicao
Janeiro de 2010
Transportation,
Transformation and
Loading Environment
IN1177 - Banco de Dados para Suporte Deciso
Janeiro de 2010
Janeiro de 2010
Integrao
de Dados
Processo
de ETL
Janeiro de 2010
Transformao
Carregamento
Janeiro de 2010
Extrao
de dados de diferentes
fontes e formatos
Validao e descarte
de dados de acordo
com regras e padres
Transformao
Carregamento
dos dados
transformados em
uma base de dados
Janeiro de 2010
Carregamento
Extrao
Transformao
Janeiro de 2010
Janeiro de 2010
Sistemas de
gerenciamento de
banco de dados
Janeiro de 2010
Planilhas
Janeiro de 2010
Janeiro de 2010
Janeiro de 2010
dimenses
Adio e atualizao de linhas das tabelas de
dimenses.
Janeiro de 2010
Instalando o PDI
Pr-requisito
JRE (ou JDK) 5.x ou superior.
Download
http://sourceforge.net/projects/pentaho/files/
4.0.1 95.2 MB
3.2.0 77.2 MB
Janeiro de 2010
Instalando o PDI
Aps descompactar o arquivo
Executar spoon.bat ou Kettle.exe (ou spoon.sh no
Linux)
Janeiro de 2010
Instalando o PDI
Clique no boto No repository
A interface grfica do PDI (Spoon) ser carregada,
Janeiro de 2010
Instalando o PDI
Dicas de configurao da rea de trabalho do Spoon
Aba General
Show tips at startup?
Show welcome page at startup?
...
Aba Look-and-feel
Preferred language
...
Janeiro de 2010
componentes:
Transformaes
Jobs
Janeiro de 2010
Uma transformao ou
job consiste de uma
coleo de itens
interconectados
Janeiro de 2010
Hops
Pipeline do fluxo de
registros
Janeiro de 2010
Janeiro de 2010
Jobs
steps de transformao
Cada step denota uma
operao do processo de ETL
A sada de um step produz um
conjunto de registros
Fluxo dos steps da
transformao ocorre de
forma simultnea e
assncrona
Arquivo .ktr
IN1177 - Banco de Dados para Suporte Deciso
transformaes ou de steps
de jobs
Cada entrada do job denota
uma tarefa do processo de
ETL
A sada de cada entrada do
job produz um status de
execuo
Fluxo dos steps do job ocorre
de forma sequencial
Arquivo .kjb
Janeiro de 2010
Janeiro de 2010
Janeiro de 2010
Arquitetura do PDI
Janeiro de 2010
Exerccios 1 e 2
Criando as primeiras transformaes no PDI
Transformao simples
Processo de ETL
Extrao de dados de uma fonte (arquivo texto)
Transformao dos dados
Carregamento dos dados transformados (arquivo
texto)
Janeiro de 2010
Exerccio 3
Criando uma conexo com um banco de
dados
Janeiro de 2010
Janeiro de 2010
Janeiro de 2010
Janeiro de 2010
Excel Input
Janeiro de 2010
Exerccio 4
Extraindo dados de um arquivo texto,
Janeiro de 2010
arquivo texto
Extrao de dados de vrios arquivos:
Lista de arquivos
Expresses regulares
Janeiro de 2010
Exerccios 5 e 6
Adicionando uma lista de arquivos de
entrada.
Usando expresses regulares
Janeiro de 2010
Expresses regulares
Em vrios steps do PDI podemos usar
expresses regulares
Exemplos
Expresso regular
Combina com...
Exemplos
.*\.txt
Arquivo.txt
test(19|20)\d\d-(0[19]|1[012])\.txt
Qualquer arquivo
comeando com test,
seguido por uma data
usando o formato yyyymm
test2009-12.txt
test2009-01.txt
(?i)test.+\.txt
TeSTcaseinsensitive.tXt
Janeiro de 2010
Expresses regulares
Para saber mais sobre expresses regulares
Regular Expression Quick Start:
http://www.regularexpressions.info/quickstart.html
The Java Regular Expression Tutorial:
http://java.sun.com/docs/books/tutorial/essential/r
egex/
Java Regular Expression Pattern Syntax:
http://java.sun.com/javase/6/docs/api/java/util/reg
ex/Pattern.html
Janeiro de 2010
Excel output
XML output
Janeiro de 2010
Janeiro de 2010
Rowset
Streams
Janeiro de 2010
Streams
Dados representados de
um membro do dataset
para outro
Os hops apenas repassam o
fluxo de dados
Janeiro de 2010
Janeiro de 2010
Operaes bsicas
Selecionar e Alterar Campos
Remover Campos
Alterar metadados dos campos
Janeiro de 2010
Exerccio 7
Alterando os campos do Exerccio 6
Gerando a sada para uma planilha Excel
Janeiro de 2010
Janeiro de 2010
Variveis de ambiente
do PDI
Janeiro de 2010
Exerccio 8
Extraindo informaes do sistema
Janeiro de 2010
Tipos de Dados
Todo campo de um dataset possui um tipo de
dado
Tipos suportados pelo PDI
Number (float)
String
Date
Boolean
Integer
Big Number
IN1177 - Banco de Dados para Suporte Deciso
Janeiro de 2010
Tipos de Dados
Date (padro API Java)
Janeiro de 2010
Tipos de Dados
Date - Exemplos
Janeiro de 2010
Tipos de Dados
Campos numricos (padro API Java)
O PDI tenta interpretar dados numricos
Significado
Separador decimal
Sinal de menos
Janeiro de 2010
Tipos de Dados
Campos numricos (padro API Java)
Exemplos - campo com valor 99.55
Formato
Resultado
100 (arredondamento)
100 (arredondamento)
#.#
99.6
#.##
99.55
#.000
99.550
000.000
099.550
Janeiro de 2010
Tipos de Dados
Campos numricos (padro API Java)
Algumas consideraes:
Se no especificar o formato -> informar tamanho e
preciso
Por padro, o PDI tenta interpretar o nmero e
repassa pelo hop sem aplicar nenhum formato.
Janeiro de 2010
Exerccio 9
Aplicando formatos para datas e nmeros do
Exerccio 8
Janeiro de 2010
Arquivos XML
Arquivos (ou documentos) XML so utilizados
para:
Armazenar dados
Troca de dados entre sistemas heterogneos
Janeiro de 2010
Arquivos XML
Como o PDI trata arquivos XML?
<?xml version="1.0" encoding="UTF-8"?>
<world>
...
<country>
<name>Argentina</name>
<capital>Buenos Aires</capital>
<language isofficial="T">
<name>Spanish</name>
<percentage>96.8</percentage>
</language>
<language isofficial="F">
<name>Italian</name>
<percentage>1.7</percentage>
</language>
<language isofficial="F">
<name>Indian Languages</name>
<percentage>0.3</percentage>
</language>
</country>
...
</world>
elemento
atributo
Janeiro de 2010
Arquivos XML
Como o PDI trata arquivos XML?
Step Get data from XML
Notao Xpath: Conjunto de regras para recuperar
informao de um documento XML
Documento XML tratado como uma rvore formada
por ns.
Tipos de ns:
Elementos;
Atributos;
Texto
Janeiro de 2010
Arquivos XML
Como o PDI trata arquivos XML?
Relacionamento entre os ns
Um n tem um pai
Um n tem zero ou mais filhos, irmos, ancestrais
ou descendentes
Janeiro de 2010
Arquivos XML
Como o PDI trata arquivos XML?
Para acessar um n
Usar uma expresso no formato XPath relativa ao n
corrente.
Janeiro de 2010
Arquivos XML
Exemplos XPath
Expresso
Descrio
node_name
Seleciona o n corrente
..
Seleciona um atributo
Janeiro de 2010
Exerccio 10
Extraindo uma lista com dados de pases em
XML
Salvando o resultado em uma planilha
Janeiro de 2010
Resumo da Semana 1
Janeiro de 2010
Bibliografia
Janeiro de 2010