Escolar Documentos
Profissional Documentos
Cultura Documentos
Apostila Data Analytics U2 m3 - Extração, Transformação e Carga
Apostila Data Analytics U2 m3 - Extração, Transformação e Carga
DATA
ANALYTICS
MÓDULO 2:
EXTRAÇÃO, TRANSFORMAÇÃO
E CARGA (ETL)
UNIDADE 3:
EXTRAÇÃO, TRANSFORMAÇÃO
E CARGA DE DADOS
Extração, Transformação e Carga - ETL
Extração, Transformação e Carga de Dados
Sumário
1. Introdução 04
4. Steps de Entrada 15
5. Steps de Saída 27
5.4. Insert/Update 34
5.5. Update 36
6. Steps de Transformação 39
6.4. Calculator 44
Sumário
02
Extração, Transformação e Carga - ETL
Extração, Transformação e Carga de Dados
Sumário
7. Steps fluxo 47
7.1 Dummy 48
7.3. Abort 51
8. Outros Steps 57
Sumário
03
Extração, Transformação e Carga - ETL
Extração, Transformação e Carga de Dados
1. Introdução
O Pentaho Data Integration (PDI) é o componente da suíte Pentaho usado para
criar processos de extração, transformação e carga (do inglês ETL – Extract,
Transform and Load) que alimentam um outro banco de dados, como, por
exemplo, um Data Warehouse. Com o Pentaho Data Integration é possível fazer
inúmeras operações de Integração de Dados, como:
Migração de dados;
Movimentação de grandes volumes de dados;
Transformação de dados;
Limpeza de dados;
Conformidade de dados.
Transformações
Uma transformação registra o passo a passo de como a extração ou leitura de
uma fonte de informação é realizada. É a transformação que opera sobre os
dados. Ela pode conter:
Leitura de dados de uma tabela, de um banco de dados;
Seleção de campos específicos de uma tabela;
Concatenação de valores de dois campos distintos de uma tabela;
Divisão de valores contidos em um único campo, gerando dois ou mais novos
campos ou linhas;
Merge de dados de tabelas contidas em bancos de dados diferentes;
Merge de dados originados em tabelas, arquivos XML, TXT ou CSV, dentre
outras fontes de dados;
Aplicação de expressões regulares em texto para limpeza.
Jobs
Um Job é uma sequência de operações. Ao contrário de uma transformação, que
opera sobre as linhas de dados em paralelo, um Job realiza operações completas,
uma por uma. Ele permite, por exemplo, combinar transformações em uma
sequência específica e, com isto, automatizar uma determinada tarefa. Por sua
natureza, ele não fornece muitos recursos técnicos para manusear os dados em
si, deixando isto a cargo das transformações.
Organização Transformação
Cálculos
Mover arquivos
Criar/apagar tabelas Carga de Dados
Testar condições
Aplicação de regras de negócio
Enquanto o Pan executa transformações, o Kitchen executa jobs. Tal qual ocorre
com o Pan, o Kitchen pode executar jobs a partir de um sistema de arquivos ou
de um repositório em banco de dados.
Novamente, tal qual o Pan, jobs são executados em modo batch por meio do
agendamento no modo batch para serem executados automaticamente em
intervalos regulares por alguma ferramenta de gerenciamento de tarefas, como o
crontab, por exemplo.
Instalação:
Instalação do Java
Figura 01
Figura 02
Instalação do PDI
Escolha um local no PC para armazenar o arquivo do PDI. Aqui, o local escolhido
foi dentro de “C:\pentaho”, dentro de “C:”. Foi criada a pasta Pentaho e o arquivo
de download foi descompactado. Crie também a pasta “KETTLE_HOME”. Nesta
pasta serão salvos os arquivos de inicialização da ferramenta. Em seguida, crie a
variável “KETTLE_HOME” e coloque como valor o caminho da pasta
KETTLE_HOME:
Figura 03
Feito isso, basta iniciar o arquivo Spoon.bat localizado dentro da pasta do PDI,
assim a ferramenta será inicializada.
Figura 04
Figura 05
O Pentaho Data Integration pode criar dois tipos de arquivos com as seguintes
terminações: “. ktr” e “. kjb”, respectivamente as “transformations” e os “Jobs”. Os
arquivos “ktr”, são responsáveis pelos processos de ETL propriamente ditos, e os
“Jobs” são usados para eventualmente coordenar a execução das
transformações. À esquerda da interface do Pentaho, você pode ver o painel
“Explorer”, que permite visualizar os arquivos de transformação e de execução
criados por você.
Figura 06
Observe que quando uma nova transformação é criada, a aba “Design” fica
imediatamente habilitada. Essa aba apresenta todos os componentes disponíveis
no Pentaho Data Integration, que podem ser empregados para importar,
converter e exportar dados entre diversas fontes e origens. Você ainda pode
adicionar componentes no Canvas, arrastando e soltando a opção desejada da
aba “design”.
Figura 07
Quando um JOB (.kjb) é criado, sua aba de Design se modifica, habilitando dessa
maneira as opções que são possíveis de se realizar num kjb.
4. Steps de Entrada
Os "steps de entrada" (ou "input steps") no Pentaho Data Integration (também
conhecido como PDI ou Kettle) são os componentes que permitem a leitura de
dados de diferentes fontes e formatos para serem processados pela ferramenta.
Esses steps incluem:
Cada step de entrada tem suas próprias configurações específicas, como o tipo
de arquivo, o delimitador de campo, o nome da tabela, a consulta SQL, entre
outros, dependendo do tipo de fonte de dados.
O Text File Input é configurado para ler um ou mais arquivos de texto e definir as
colunas que devem ser lidas. Para configurar esse step, são necessárias as
seguintes informações:
Um exemplo de uso do Text File Input seria para ler um arquivo CSV que contém
informações de vendas de uma loja. O arquivo tem as seguintes colunas: ID do
produto, nome do produto, quantidade vendida e preço unitário. O arquivo é
salvo com o nome "vendas.csv" e o separador de colunas é a vírgula.
Para ler esse arquivo com o Text File Input, seria necessário configurar o step
com as seguintes informações:
Arquivo de entrada: "vendas.csv";
Tipo de arquivo: CSV;
Opções de delimitação: vírgula;
Opções de codificação: UTF-8 (ou outro conjunto de caracteres, dependendo
do arquivo);
Opções de cabeçalho: o arquivo contém um cabeçalho com o nome das
colunas;
Configurações das colunas: nome do produto (string), quantidade vendida
(integer), preço unitário (float).
Figura 08
Um exemplo de uso do CSV File Input seria para ler um arquivo CSV que contém
informações de vendas de uma loja. O arquivo tem as seguintes colunas: ID do
produto, nome do produto, quantidade vendida e preço unitário. O arquivo é
salvo com o nome "vendas.csv" e o separador de colunas é a vírgula.
Para ler esse arquivo com o CSV File Input, seria necessário configurar o step com
as seguintes informações:
1. Arquivo de entrada: "vendas.csv".
2. Opções de delimitação: vírgula.
3. Opções de codificação: UTF-8 (ou outro conjunto de caracteres, dependendo
do arquivo).
4. Opções de cabeçalho: o arquivo contém um cabeçalho com o nome das
colunas.
5. Configurações das colunas: nome do produto (string), quantidade vendida
(integer), preço unitário (float).
Com essas configurações, o step CSV File Input leria o arquivo "vendas.csv" e
criaria uma saída com as colunas “nome do produto”, “quantidade vendida” e
“preço unitário”. Esses dados poderiam, então, ser processados e transformados
usando outros steps do Pentaho Data Integration.
Figura 09
O Microsoft Excel Input é configurado para ler uma ou mais planilhas e definir as
colunas que devem ser lidas. Para configurar esse step, são necessárias as
seguintes informações:
1. Arquivo de entrada: caminho e nome do arquivo que será lido;
2. Nome da planilha: nome da planilha que contém os dados a serem lidos;
3. Intervalo de células: intervalo de células que contém os dados a serem lidos;
4. Opções de cabeçalho: indica se a planilha contém um cabeçalho com o nome
das colunas;
5. Configurações das colunas: definição do nome, tipo e posição de cada coluna
na planilha.
Um exemplo de uso do Microsoft Excel Input seria para ler uma planilha do
Microsoft Excel que contém informações de vendas de uma loja. A planilha tem
as seguintes colunas: ID do produto, nome do produto, quantidade vendida e
preço unitário. A planilha é salva com o nome "vendas.xlsx" e a planilha com as
informações de vendas tem o nome "Planilha1".
Para ler essa planilha com o Microsoft Excel Input, seria necessário configurar o
step com as seguintes informações:
1. Arquivo de entrada: "vendas.xlsx";
2. Nome da planilha: "Planilha1";
3. Intervalo de células: "A1:D100" (por exemplo, se os dados estiverem nas
células de A1 a D100);
4. Opções de cabeçalho: a planilha contém um cabeçalho com o nome das
colunas;
5. Configurações das colunas: nome do produto (string), quantidade vendida
(integer), preço unitário (float).
Com essas configurações, o step Microsoft Excel Input leria a planilha "Planilha1"
do arquivo "vendas.xlsx" e criaria uma saída com as colunas “nome do produto”,
“quantidade vendida” e “preço unitário”. Esses dados poderiam, então” ser
processados e transformados usando outros steps do Pentaho Data Integration.
Figura 10
Figura 10
Um exemplo de uso do Table Input seria para ler dados de uma tabela de vendas
em um banco de dados MySQL. A tabela tem as seguintes colunas: ID da venda,
ID do produto, data da venda e quantidade vendida.
Para ler essa tabela com o Table Input, seria necessário configurar o step com as
seguintes informações:
1. Configurações de conexão: nome do host, porta, nome do banco de dados,
nome de usuário e senha;
2. SQL da consulta: "SELECT * FROM vendas" (ou outra consulta SQL que
selecione as colunas desejadas);
3. Opções de cache: habilitado ou desabilitado, dependendo do desempenho
desejado.
Com essas configurações, o step Table Input executaria a consulta SQL "SELECT *
FROM vendas" no banco de dados MySQL especificado e criaria uma saída com
as colunas ID da venda, ID do produto, data da venda e quantidade vendida.
Esses dados poderiam, então, ser processados e transformados usando outros
steps do Pentaho Data Integration.
Figura 11
O XML File Input é configurado para ler um arquivo XML e definir as tags que
devem ser lidas. Para configurar esse step, são necessárias as seguintes
informações:
1. Arquivo de entrada: caminho e nome do arquivo XML que será lido;
2. Nome do elemento raiz: nome do elemento raiz que contém os dados a
serem lidos;
3. Caminho de elementos: o caminho do elemento ou elementos que contêm os
dados a serem lidos;
4. Configurações dos campos: definição do nome, tipo e posição de cada campo
no arquivo XML.
Um exemplo de uso do XML File Input seria para ler um arquivo XML que contém
informações sobre produtos. O arquivo XML tem os seguintes elementos:
produto, nome, descrição, preço e categoria. O arquivo é salvo com o nome
"produtos.xml".
Para ler este arquivo XML com o XML File Input, seria necessário configurar o step
com as seguintes informações:
1. Arquivo de entrada: "produtos.xml";
2. Nome do elemento raiz: "produto";
3. Caminho de elementos: "/produto" (se o elemento raiz contiver apenas um
elemento "produto");
4. Configurações dos campos: nome (string), descrição (string), preço (float) e
categoria (string).
Com essas configurações, o step XML File Input leria o arquivo "produtos.xml" e
criaria uma saída com as colunas “nome”, “descrição”, “preço” e “categoria”. Esses
dados poderiam, então, ser processados e transformados usando outros steps
do Pentaho Data Integration.
Figura 12
Figura 12
5. Steps de Saída
Os "steps de saída" no Pentaho Data Integration são aqueles que permitem a
gravação dos dados processados em uma fonte externa. Eles são usados para
enviar dados de um processo de transformação do Pentaho para um destino
externo, como um arquivo, um banco de dados ou uma API.
Um exemplo de uso do Table Output seria para gravar dados em uma tabela
chamada "clientes" em um banco de dados MySQL. A tabela tem os seguintes
campos: ID, nome, endereço, cidade e telefone.
Para gravar dados nesta tabela usando o Table Output, seria necessário
configurar o step com as seguintes informações:
1. Nome da tabela: "clientes";
2. Configuração de conexão: nome do banco de dados, nome de usuário, senha
e outros parâmetros de conexão;
3. Tipo de operação: "Inserir" ou "Atualizar" (dependendo do objetivo);
4. Configurações dos campos: ID (int), nome (string), endereço (string), cidade
(string) e telefone (string).
Figura 13
Um exemplo de uso do Text File Output seria para gravar dados de um processo
de transformação em um arquivo CSV. Para fazer isso, seria necessário configurar
o step com as seguintes informações:
1. Nome do arquivo: nome do arquivo CSV que será criado ou atualizado;
2. Tipo de arquivo: CSV;
3. Codificação: UTF-8;
4. Separador de campo: ponto e vírgula (;);
5. Configurações dos campos: definição do nome e tipo de cada campo no
arquivo.
Com essas configurações, o step Text File Output criaria um arquivo CSV com os
dados processados e transformados no Pentaho, separados por ponto e vírgula
(;) e com a codificação UTF-8.
O Text File Output é útil para gerar arquivos de texto com dados processados e
transformados, que podem ser usados posteriormente em outras aplicações. Por
exemplo, pode ser usado para gerar relatórios em formato de arquivo de texto,
que podem ser facilmente importados em outras ferramentas de análise ou de
apresentação.
Figura 14
Figura 14
O CSV File Input é configurado para ler um arquivo CSV específico e transformar
os dados em um formato estruturado para serem usados em outros passos do
processo de transformação. Para configurar esse step, são necessárias as
seguintes informações:
1. Nome do arquivo: nome do arquivo CSV que será lido;
2. Delimitador: caractere que separa os valores no arquivo CSV (normalmente é
a vírgula, mas pode ser outro);
3. Codificação: codificação de caracteres que será usada para ler o arquivo;
4. Primeira linha como cabeçalho: indica se a primeira linha do arquivo contém
os nomes dos campos.
Um exemplo de uso do CSV File Input seria para ler dados de um arquivo CSV
chamado "clientes.csv" com os seguintes campos: ID, Nome, Endereço e Cidade.
Para fazer isso, seria necessário configurar o step com as seguintes informações:
1. Nome do arquivo: "clientes.csv";
2. Delimitador: vírgula (,);
3. Codificação: UTF-8;
4. Primeira linha como cabeçalho: sim.
Com essas configurações, o step CSV File Input lerá o arquivo "clientes.csv" e
transformará os dados em um formato estruturado que pode ser usado em
outros passos do processo de transformação. Os dados lidos serão organizados
em linhas e colunas, em que cada linha representará um registro e cada coluna
representará um campo.
O CSV File Input é um passo muito útil para importar dados de arquivos CSV e
transformá-los para uso em processos de ETL. Ele permite que os dados sejam
lidos de forma estruturada e organizada, tornando-os mais fáceis de manipular e
transformar em outras ferramentas do Pentaho.
5.4. Insert/Update
O "Insert/Update" é um passo de saída no Pentaho Data Integration que permite
inserir ou atualizar registros em uma tabela de banco de dados. Ele é usado para
realizar operações de carga em um banco de dados, permitindo que dados sejam
adicionados ou atualizados a partir de uma fonte externa.
Figura 15
5.5. Update
O "Update" é um passo de saída no Pentaho Data Integration que permite
atualizar registros em uma tabela de banco de dados. Ele é usado para realizar
operações de atualização em um banco de dados, permitindo que dados sejam
atualizados a partir de uma fonte externa.
Figura 16
6. Steps de Transformação
Os steps de transformação no Pentaho Data Integration (também conhecido
como Kettle) são componentes que permitem que os dados sejam transformados
de uma forma específica. Esses steps podem ser usados para realizar diversas
tarefas de transformação de dados, como limpeza de dados, filtragem de
registros, combinação de dados de diferentes fontes, cálculos de campo, dentre
outras.
Para usar o step Select Values, basta arrastá-lo para o design da transformação e
conectá-lo à fonte de dados de entrada. Em seguida, é preciso configurar o step,
indicando quais colunas devem ser selecionadas. É possível selecionar colunas
individuais ou selecionar um intervalo de colunas utilizando a sintaxe do SQL.
Além disso, é possível renomear as colunas selecionadas para que elas tenham
nomes mais descritivos. Para isso, basta clicar em "Edit" na caixa de diálogo do
step Select Values e selecionar a opção "Rename columns".
Figura 17
Para usar o step Filter Rows, basta arrastá-lo para o design da transformação e
conectá-lo à fonte de dados de entrada. Em seguida, é preciso configurar o step,
definindo a condição que deve ser usada para filtrar as linhas. A condição é
especificada usando a sintaxe do SQL, e pode incluir operadores lógicos (AND,
OR), operadores de comparação (=, >, <) e funções de texto (como UPPER ou
LOWER).
Outra situação possível seria filtrar apenas as linhas que contêm um determinado
valor em uma coluna específica. Por exemplo: podemos usar o step Filter Rows
para selecionar apenas as linhas que contêm a palavra "importante" na coluna
"Descrição".
Em resumo, o step Filter Rows é útil para filtrar linhas de dados com base em
uma condição especificada, o que pode ajudar a reduzir o tamanho de um
conjunto de dados e torná-lo mais relevante para a análise ou processamento
posterior.
Figura 18
Para usar o step String Cut, basta arrastá-lo para o design da transformação e
conectá-lo à fonte de dados de entrada. Em seguida, é preciso configurar o step,
indicando qual coluna contém a string a ser cortada e qual o ponto de início e de
fim do corte.
Por exemplo, se temos um conjunto de dados com uma coluna "Nome Completo"
que contém o nome e o sobrenome de uma pessoa, podemos usar o step String
Cut para extrair apenas o sobrenome. Para isso, devemos configurar o step para
cortar a string da coluna "Nome Completo" a partir do último espaço em branco
(que indica o final do nome) até o final da string.
Além disso, é possível renomear a nova coluna gerada pelo step para um nome
mais descritivo, como "Sobrenome".
Outro exemplo seria cortar apenas uma parte da string, como o código postal em
um endereço. Nesse caso, seria preciso configurar o step para cortar a string da
coluna "Endereço" a partir de um ponto específico, que pode ser determinado
pela posição ou pelo valor do caractere.
Em resumo, o step String Cut é útil para extrair uma parte específica de uma
string em uma coluna, o que pode ajudar a simplificar a análise ou
processamento de dados de texto.
Figura 19
6.4. Calculator
O step Calculator no Pentaho Data Integration (também conhecido como Kettle) é
um componente que permite realizar cálculos matemáticos e lógicos em colunas
de dados. Esse step é útil quando se precisa criar novas colunas com base em
cálculos a partir de colunas existentes.
Outro exemplo seria criar uma nova coluna com base em uma condição lógica.
Por exemplo, podemos usar o step Calculator para criar uma nova coluna "Venda
Bem sucedida" que contém um valor booleano (verdadeiro ou falso) indicando se
a venda foi bem sucedida ou não. Para isso, devemos configurar o step para criar
a nova coluna com base na coluna "Total", usando a expressão "Total > 1000".
Figura 20
Outro exemplo seria substituir um valor específico em uma coluna. Por exemplo,
podemos usar o step Operations para substituir todos os valores "N/A" na coluna
"Idade" por um valor padrão de "30". Para isso, devemos configurar o step para
substituir todos os valores "N/A" na coluna "Idade" pelo valor "30".
Além disso, o step Operations também pode ser usado para remover espaços em
branco ou outros caracteres especiais de uma coluna, o que pode ajudar a
padronizar os dados de entrada.
Figura 21
7. Steps fluxo
Os steps de fluxo no Pentaho Data Integration são componentes que permitem
controlar o fluxo de dados e executar operações específicas em uma
transformação. Esses steps são usados para conectar as etapas de uma
transformação, controlar a ordem de execução, realizar verificações condicionais
e executar ações adicionais, como atualizar variáveis ou gravar dados em um
arquivo de log.
1. Dummy: é usado para conectar steps, mas não faz nada além disso;
2. Block Until Steps Finish: aguarda a conclusão de determinados steps antes de
prosseguir para os próximos;
3. Failure: conecta um step de falha ao próximo passo no fluxo;
4. Filter Rows: filtra linhas com base em uma condição específica;
5. Group by: agrupa os dados com base em uma ou mais colunas de dados.
Além desses, existem vários outros steps de fluxo disponíveis no Pentaho Data
Integration. Esses steps permitem criar fluxos de trabalho personalizados para
processar e transformar dados de acordo com as necessidades específicas do
projeto. Em geral, os steps de fluxo são projetados para controlar a ordem de
execução dos steps em uma transformação e para realizar operações adicionais,
como filtragem, agrupamento ou espera condicional.
7.1. Dummy
O step Dummy é um componente simples e útil no Pentaho Data Integration que
não executa nenhuma operação real, mas é usado para conectar outros steps em
uma transformação. Ele pode ser usado como um "espaço reservado" para
conectar steps que ainda não foram definidos ou para criar fluxos alternativos na
transformação.
Em termos simples, o step Dummy é apenas uma etapa intermediária que não
faz nada. Quando uma transformação é executada, o step Dummy simplesmente
passa os dados de entrada para o próximo step sem modificar ou processar
esses dados.
Embora o step Dummy seja relativamente simples, ele pode ser uma ferramenta
poderosa para criar fluxos de trabalho mais complexos e para conectar
operações em uma transformação do Pentaho Data Integration. Ele é
especialmente útil para criar transformações mais modulares e flexíveis, que
podem ser facilmente modificadas ou expandidas conforme necessário.
Figura 22
Este step é particularmente útil quando há etapas que devem ser concluídas
antes que outras possam começar, como a etapa de carga de dados em um
banco de dados, que deve ser concluída antes que uma etapa de limpeza possa
ser executada. Usando o step "Block Until Steps Finish", é possível definir uma
dependência explícita entre as etapas, garantindo que cada etapa seja executada
na ordem correta.
Um exemplo prático de uso do step "Block Until Steps Finish" é quando você tem
uma transformação que processa dados em uma série de etapas. A última etapa
é a carga de dados em um banco de dados, que pode levar algum tempo para ser
concluída. Para garantir que a transformação seja executada corretamente, você
pode usar o step "Block Until Steps Finish" para garantir que todas as etapas
anteriores sejam concluídas antes que a etapa de carga de dados seja executada.
Dessa forma, você garante que os dados processados estejam corretos antes de
serem carregados no banco de dados.
Figura 23
7.3. Abort
O step Abort no Pentaho Data Integration é usado para interromper a execução
da transformação, seja devido a um erro ou a uma condição específica que
precisa ser atendida. Ele pode ser usado em situações em que você deseja parar
a execução da transformação devido a um problema, ou quando deseja
interromper a execução de uma maneira controlada.
O step Abort é configurado definindo a condição que deve ser atendida para que
a transformação seja interrompida. Essa condição pode ser um erro específico
que ocorreu em uma etapa anterior da transformação, ou pode ser uma
condição personalizada que você define usando variáveis ou expressões.
Um exemplo prático de uso do step Abort é quando uma transformação deve ser
interrompida se houver um erro em uma etapa específica. Nesse caso, o step
Abort pode ser configurado para interromper a execução da transformação se
houver um erro na etapa específica. Isso ajuda a evitar que erros sejam
propagados para etapas subsequentes da transformação, impedindo que dados
incorretos sejam processados.
Figura 24
O step Switch / Case consiste em duas partes: o step Switch e os steps Case. O
step Switch define a coluna de entrada na qual se baseará a rotação dos dados,
enquanto os steps Case definem as diferentes condições ou valores nos quais os
dados serão roteados.
Para fazer isso, você pode usar o step Switch / Case. Defina o campo "Country"
como a coluna de entrada do step Switch e adicione os steps Case para cada país
para o qual você deseja criar uma saída separada. Em cada step Case, defina a
condição correspondente para o país. Por exemplo, para os EUA, a condição seria
"Country = 'USA'". Em seguida, conecte a saída do step Switch aos steps Case
correspondentes e configure cada saída conforme necessário.
O step Switch / Case também pode ser usado para rotear dados com base em
outras condições, como o valor de uma coluna ou uma expressão. Por exemplo,
você pode criar diferentes saídas com base no valor de uma coluna de status, ou
rotear dados com base em uma combinação de colunas.
Figura 25
Um exemplo prático de uso do step Blocking Step é quando você tem uma
transformação que lê dados de um arquivo, faz algumas transformações e, em
seguida, carrega os dados em um banco de dados. Para garantir que os dados
sejam carregados na ordem correta, você pode usar o step Blocking Step para
bloquear a etapa de carregamento até que todas as transformações sejam
concluídas.
Por exemplo, imagine que você tem um arquivo de dados com informações de
vendas, incluindo o produto, o país e o valor da venda. Você deseja ler os dados
do arquivo, separar as vendas por país, calcular a receita total para cada país e,
em seguida, carregar os dados em um banco de dados. Você pode usar o step
Blocking Step para bloquear a etapa de carregamento até que as transformações
de separação e cálculo de receita sejam concluídas.
Figura 26
8. Outros Steps
8.1. Database lookup
O Database lookup é uma etapa (step) do Pentaho Data Integration (PDI) que
permite consultar informações em um banco de dados e inserir essas
informações em um fluxo de dados.
Figura 27
Um exemplo de uso do HTTP Client é o envio de dados para uma API RESTful.
Suponha que você tenha um arquivo CSV com informações de clientes e deseja
enviar esses dados para uma API que armazena essas informações em um banco
de dados. Você pode usar o HTTP Client para enviar uma solicitação POST para a
URL da API, com o corpo da solicitação contendo os dados do arquivo CSV. A API
receberá a solicitação, processará os dados e retornará uma resposta indicando
se a operação foi bem sucedida ou não.
Figura 28
Figura 29
Outro exemplo de uso do Rest Client é o envio de dados para um serviço web.
Suponha que você tenha um arquivo CSV com informações de vendas e deseje
enviar esses dados para um serviço web que armazena essas informações em
um banco de dados. Você pode usar o Rest Client para enviar uma solicitação
POST para a URL do serviço web, com o corpo da solicitação contendo os dados
do arquivo CSV. O serviço web receberá a solicitação, processará os dados e
retornará uma resposta indicando se a operação foi bem sucedida ou não.
Figura 30
Existem vários tipos de Join Rows disponíveis no PDI, incluindo Inner Join, Left
Outer Join, Right Outer Join e Full Outer Join. Cada tipo de junção tem uma função
diferente e é selecionado com base nas necessidades do seu projeto.
Para usar o Join Rows no PDI, é necessário especificar as fontes de dados que
você deseja combinar e a coluna em comum que será usada como chave de
junção. Você também pode selecionar as colunas que deseja incluir na tabela
resultante e definir as opções de junção, como o tipo de junção e as condições de
filtro.
Figura 31
O Merge Join usa uma estratégia de fusão (merge) para combinar as fontes de
dados. Isso significa que o Merge Join compara as colunas de junção nas
diferentes fontes de dados e, quando as colunas são iguais, adiciona a linha à
tabela resultante. O Merge Join é uma operação de junção de alta performance e
pode ser usado para combinar grandes conjuntos de dados.
Para usar o Merge Join no PDI, é necessário especificar as fontes de dados que
você deseja combinar e a coluna em comum que será usada como chave de
junção. Você também precisa garantir que as fontes de dados estejam ordenadas
pela coluna de junção. Você pode selecionar as colunas que deseja incluir na
tabela resultante e definir as opções de junção, como o tipo de junção e as
condições de filtro.
Figura 31
Referências
ELMASRI, R.; NAVATHE, S. Sistemas de Banco de Dados [BV:PE].. 7. ed.. São
Paulo: Pearson, 2018.
ALVES, William Pereira. Banco de Dados [BV:MB]. 1º Ed. São Paulo: Érica, 2014.
Referências bibliográficas
68
@digitalcollegebr
/school/digitalcollegebr
/digitalcollegebr
digitalcollege.com.br