Escolar Documentos
Profissional Documentos
Cultura Documentos
Pentaho Material
Pentaho Material
Obs.: Voc tambm pode abrir o step para edio clicando com o boto direito e
escolhendo a opo Editar Step.
7 Na rvore de steps, expanda a opo Flow e arraste e solte o cone do step Dummy
para a rea de trabalho da transformao.
8 Vamos criar um hop para ligar os dois steps. Clique com o boto direito no step
Generate Rows, segure a tecla Shift e arraste o cursor do mouse para o step Dummy.
12 Aps carregar a janela de dilogo de Preview, clique no boto Quick Launch para
visualizar o resultado da transformao.
13 O que foi feito nessa transformao? O step Generate Rows simplesmente gera
vrias linhas de registros, de acordo com os parmetros informados. Experimente
editar o step para acrescentar outros campos e mudar o tamanho do conjunto de
registros gerados. O step Dummy apenas recebe os registros gerados e no faz nada.
14 Um pequeno detalhe: ns no executamos a transformao, apenas visualizamos
uma prvia de sua execuo. Para executar a transformao clique no boto Run e
aps abrir a janela de dilogo clique no boto Launch.
4 Adicione um step Add constants, do tipo Transform. Edite o step com as seguintes
informaes nos campos Nome, Tipo e valor:
- Nome: mensagem; Tipo: String; Valor=Hello World
- Nome: exclamao; Tipo: String; Valor=!
-Nome: espao; Tipo: String; Valor= (espao em branco)
6 Ainda nos steps do tipo Transform, adicione um Add Sequence. Em seguida, crie um
hop ligando o Add constants ao Add sequence. Edite esse step para ver os seus
parmetros (no vamos alter-los para esse exerccio).
7 Entre nas opes de steps do tipo Output e adicione um step Text file output. Em
seguida, crie um hop ligando o step Add sequence a Text file output. Edite as
configuraes do step:
- Na aba File, digite o caminho de um arquivo de texto com o nome resultado (o step
adiciona por default a extenso .txt) no campo Filename.
6 Clique no boto Test para verificar se a conexo com o banco est OK. Em seguida,
retire o texto ;create=true da Url de conexo (caso contrrio, as tabelas sero
apagadas e criadas a cada inicializao da conexo). Clique em OK.
6- Podemos tornar a conexo visvel para todas as transformaes e Jobs de nossa
instalao do PDI. Para isso, clique com o boto direito em cima da conexo criada
e escolha a opo Share. Note que o texto da conexo est em negrito agora.
7- O banco criado est vazio, sem nenhuma tabela. Mais adiante vamos utilizar essa e
outras conexes para a modelagem dimensional e a execuo do processo de ETL.
Exerccio 4 Extraindo dados de um arquivo texto, realizando uma transformao e
carregando o resultado em um arquivo texto.
1 Para realizar esse exerccio voc precisar de dois arquivos armazenados na pasta
Bases: capes.xls e ies.csv. O primeiro contm informaes sobre a avaliao dos
programas de Ps-Graduo das Instituies de Ensino Superior (IES) do pas. O
segundo arquivo uma tabela de lookup contendo o cdigo e a sigla das IESs. Vamos
mostrar a extrao de dados a partir de dois arquivos (Excel e CSV), uma pequena
transformao e o carregamento dos dados em um arquivo texto. Abra a planilha e
veja que o campo ies possui a sigla da instituio. Queremos gravar em um arquivo
texto parte dos dados da planilha e o cdigo da instituio no lugar de sua sigla.
Para iniciar, abra o Spoon e crie uma nova transformao.
2 Abra a categoria Input e adicione os steps Excel Input e CSV file input. Em seguida,
expanda a categoria Lookup e adicione o step Stream lookup. Da categoria Transform,
adicione o step Select values. Da categoria Output, adicione o step Text file output. Por
fim, crie os hops para conectar os steps, de acordo com a figura abaixo.
Na rea de trabalho, clique com o boto direito em cima do step Stream lookup
e escolha a opo Mostra campos de sada. Observe que temos agora 40
campos (o ltimo o campo que denota o id da instituio).
Aba Remove
o Clique no boto Get fields to remove e exclua os seguintes campos:
area, codigo_programa, ies, nome_programa, inicio_mestrado,
inicio_doutorado, conceito_recomendado e id_instituicao.
A lista de campos que queremos excluir dever ter a
configurao abaixo.
Salve a transformao e veja os campos de sada do step, clicando com o boto direito
em cima dele.
8 Vamos editar o step Text file output com os seguintes parmetros:
Aba File
o Filename: <path>\resultado
Aba Fields
o Clique no boto Obtm campos e veja os campos que sero gravados.
Alteraes de formato, tamanho, etc. podero ser feitas diretamente na
grade.
o Clique no boto Minimal width e veja que o step fornece um formato
padro para os campos.
9 - Salve a transformao. Na rea de trabalho, clique com o boto direito em cima do
step Text file output e escolha a opo Preview. Na janela de dilogo, marque a opo
Text file output, conforme a figura abaixo. Se tudo foi configurado corretamente, ser
mostrada uma amostra dos dados que sero gravados.
4 Para garantir que os arquivos sero lidos usando a expresso regular, clique no
boto Show filename(s) e veja a lista de arquivos que sero lidos. Salve a
transformao e execute-a, observando o arquivo gerado.
Exerccio 7 Selecionando, alterando campos e gerando a sada em uma planilha.
1 Vamos melhorar o cabealho do arquivo gerado. Abra o exerccio anterior e edite o
step Select values. Remova todos os campos selecionados nas abas Remove e Metadata.
2 Na aba Select & Alter digite os nomes dos campos, de acordo com a figura abaixo.
Salve a transformao e veja os campos de sada do step.
3 Clique no step File text output e apague-o. Da categoria Output, crie um step do
tipo Excel output. Crie um hop ligando os steps Select values e Excel output.
4 Edite o step Excel output com os seguintes parmetros:
Aba File
o Filename: o caminho e nome da planilha gerada.
Aba Fields
o Clique nos botes Obtm campos e Minimal Width
(opcional) Aba Content
o Explore as opes da aba (Split, sheet name, protect, templates)
5 Salve a transformao e veja a sua execuo.
4- Clique em Preview rows para visualizar uma prvia dos dados extrados.
5- Salve a transformao e edite o Step Excel output para gravar o resultado em uma
planilha.
6- Rode a transformao e veja os dados dos pases em formato de planilha.
3 Adicione um step Select values. Crie um hop ligando o Text file input ao Select
values. Edite esse ltimo step com os parmetros mostrados na figura abaixo. Esse
step necessrio para formatar os dados lidos no arquivo.
5 Crie um novo step Select values e hop ligando o Calculator ao novo step. Selecione
e altere os campos que sero enviados para o step de carregamento, de acordo com a
figura abaixo.
6 Crie um step Dummy apenas para visualizar os dados em modo de preview (se
preferir, salve o resultado em um arquivo texto ou planilha). O preview dos dados
dever ser semelhante ao da figura abaixo. Salve a transformao.
frmula
6 Edite o segundo step Select values para selecionar os campos que sero
armazenados, conforme a figura abaixo. Teste a transformao em preview. Salve a
transformao.
Faa um preview dos dados e veja se o step mapeou o valor arredondado da mdia
para um conceito, variando entre A e E.
2 Crie dois steps do tipo Dummy e dois hops, saindo simultaneamente do step Excel
input e conectados com cada Dummy, de acordo com a figura abaixo.
Ao aparecer a janela de dilogo, responda que voc quer realizar uma cpia.
2 Execute a transformao e veja o nmero de registros lidos por cada step Dummy.
Esse cdigo cria um campo Film e preenche o seu valor com o nome do filme. D um
preview no step e verifique se o campo ser preenchido corretamente.
3 Em seguida, crie um step do tipo Filter rows. Nosso objetivo agora filtrar todas as
linhas que esto com o campo descricao nulo. Edite esse step com a seguinte
condio:
4 O prximo passo fazer a converso dos dados de linhas para colunas. Para isso,
vamos criar um step do tipo Row denormalizer, da categoria Transform. Edite esse
step de acordo com a figura abaixo.
A partir do campo filme, a linhas com o contedo Ano, Gnero, Diretor e Atores so
convertidas em colunas, com o valor do campo descrio. D um preview na
transformao e veja os valores convertidos.
5 O ltimo passo preencher as colunas com valores vazios com a string n/a. Para
isso, vamos criar um step do tipo If field value is null, da categoria Utility. Edite o step
de acordo com os parmetros abaixo.
2 Crie uma nova transformao e adicione um step do tipo Execute SQL script, da
categoria Scripting. Edite o step, escolhendo a conexo pdi_labs_con no campo
Connection. Em seguida, abra o arquivo scripts-js.sql em um editor de texto, copie e
cole o seu contedo no campo SQLscript to execute. Salve a transformao e execute.
A base de dados do exemplo possui 9 tabelas, de acordo com uma breve descrio de
suas caractersticas abaixo:
Tabela
manufacturers
Descrio
Informaes sobre os fabricantes dos produtos
products
countries
cities
customers
buy_methods
payment_methods
Salve a transformao e repita esse passo para cada step Table output.
5 Para verificar se as tabelas foram realmente carregadas, clique na opo View,
expanda a rvore de conexes e clique com o boto direito em cima da conexo
pdi_labs_con, escolhendo a opo Explorar. Escolha uma tabela e clique na opo
Preview First 100 rows of <nome_da_tabela>.