Você está na página 1de 23

RESUMO

ETL o acrnimo de Extract, Transform e Load (Extrao, Transformao e Carga) e trata-se de um processo de extrao de dados de fontes de origem, transformao para atender as necessidades de negcio e carga dos dados em fontes de destino. H diversas ferramentas de ETL open-sources disponveis no mercado, como o Kettle, Talend, JasperETL, Clover ETL, etc. Estas ferramentas livres podem ter as mesmas caractersticas e oferecer os mesmos recursos entre si, mas podem se diferenciar no tocante a desempenho, ambiente de trabalho, linguagem na qual foi desenvolvida, na forma de desenvolver as migraes dos dados, na forma de exibio dos erros, entre outras. Este trabalho prope comparar as ferramentas de ETL open-source Kettle e Talend, tendo como base alguns critrios pr-definidos.

Palavras chave: Ferramentas ETL, ETL, Dados.

ABSTRACT
ETL stands for Extract, Transform and Load and it is a process of extracting data from source databases, transforming to meet the business needs and load the data into the target sources. There are several tools available open-source ETL market, such as Kettle, Talend, JasperETL, Clover ETL, etc.. These free tools can have the same features and offer the same features among themselves, but may differ in regard to performance, work environment, in which language was developed, in form to perform data migrations, display of errors, and others . This paper proposes to compare the open-source tools Kettle and Talend ETL, based on some predefined criteria. Keywords : ETL tools, ETL, data.

II

LISTA DE FIGURAS
Figura 1 Estrutura de um Data Warehouse ........................................... Error! Bookmark not defined. Figura 2 Estrutura de um Data Mart ...................................................... Error! Bookmark not defined. Figura 3 Processo de ETL por etapas .................................................................................................. 14 Figura 4 Transformao dos dados advindos de origens diferentes ................................................... 15 Figura 5 Ambiente do Kettle .............................................................................................................. 18 Figura 6 Transformao no Kettle ...................................................................................................... 19 Figura 7 GUI do Talend ........................................................................................................................ 20 Figura 8 Job no Talend........................................................................................................................ 21 Figura 9 Ambiente do JasperETL ........................................................................................................ 22 Figura 10 - Modelagem ER para migrar dados da tabela Fonte Pagadora .......... Error! Bookmark not defined. Figura 11 - Modelagem ER para migrar dados da tabela Produto ........ Error! Bookmark not defined. Figura 12 - Modelagem ER para migrar dados entre as tabelas Fornecedor e Pessoa ............. Error! Bookmark not defined. Figura 13 - Modelagem ER para migrar dados da tabela Historico Processos .... Error! Bookmark not defined. Figura 14 - Cenrio para comparar transformaes ou jobs, no Kettle e Talend ... Error! Bookmark not defined. Figura 15 - Step para leitura/seleo dos dados no Kettle conforme a simulao 1 ..... Error! Bookmark not defined. Figura 16 Parte da estrutura do Step para leitura/seleo dos dados no Talend conforme a simulao 1................................................................................................ Error! Bookmark not defined. Figura 17 Step de insero/atualizao com mapeamento de campos no Kettle conforme a simulao 1................................................................................................ Error! Bookmark not defined. Figura 18 - Parte do step com o mapeamento dos campos no Talend conforme a simulao 1 .... Error! Bookmark not defined. Figura 19 - Transformao executada no Kettle conforme simulao 1 .. Error! Bookmark not defined. Figura 20 - Job executado no Talend conforme a simulao 1 ................. Error! Bookmark not defined. Figura 21 - Step para leitura/seleo dos dados no Kettle conforme a simulao 2 ..... Error! Bookmark not defined. III

Figura 22 Parte do Step para leitura/seleo dos dados no Talend conforme a simulao 2 ...... Error! Bookmark not defined. Figura 23 - Step de insero/atualizao com mapeamento de campos no Kettle conforme a simulao 2................................................................................................ Error! Bookmark not defined. Figura 24 - Parte do step com o mapeamento dos campos no Talend conforme a simulao 2 .... Error! Bookmark not defined. Figura 25 - Transformao executada no Kettle conforme a simulao 2 Error! Bookmark not defined. Figura 26 - Job executado no Talend conforme simulao 2 .................... Error! Bookmark not defined. Figura 27 - Parte do step de insero/atualizao com mapeamento de campos no Kettle conforme a simulao 3................................................................................................ Error! Bookmark not defined. Figura 28 - Parte do step com o mapeamento dos campos no Talend conforme a simulao 2 .... Error! Bookmark not defined. Figura 29 - Transformao executada no Kettle conforme simulao 3 .. Error! Bookmark not defined. Figura 30 - Transformao da tabela Produto no Kettle ....................... Error! Bookmark not defined. Figura 31 - Monitoramento da transformao da tabela Produto no Kettle ...... Error! Bookmark not defined. Figura 32 - Transformao entre as tabelas Fornecedor Pessoa no Kettle ... Error! Bookmark not defined. Figura 33 - Monitoramento da transformao da tabela Pessoa no Kettle ........ Error! Bookmark not defined. Figura 34 - Transformao da tabela Historico Processos no Kettle ..... Error! Bookmark not defined. Figura 35 - Monitoramento da transformao da tabela Historico Processos no Kettle ............. Error! Bookmark not defined. Figura 36 - Job da tabela Produto no Talend ......................................... Error! Bookmark not defined. Figura 37 - Monitoramento do job da tabela Produto no Talend ......... Error! Bookmark not defined. Figura 38 - Job entre as tabelas Fornecedor Pessoa no Talend ...... Error! Bookmark not defined. Figura 39 - Monitoramento do job da tabela Pessoa no Talend ........... Error! Bookmark not defined. Figura 40 - Job da tabela Historico Processos no Talend ....................... Error! Bookmark not defined. Figura 41 - Monitoramento do job da tabela Historico Processos no Talend ..... Error! Bookmark not defined.

IV

LISTA DE TABELAS

LISTA DE SIGLAS BD BI DM DW ER ETL GUI IDE PDI SGBD Banco de Dados Business Intelligence Data Mart Data Warehouse Entidade-Relacionamento Extract Transform Load Graphical User Interface Integrated Development Environment Pentaho Data Integration Sistema de Gerenciamento de Banco de Dados

VI

VII

SUMRIO

RESUMO ................................................................................................................................................. I ABSTRACT ............................................................................................................................................ II LISTA DE FIGURAS ............................................................................................................................ III LISTA DE TABELAS ............................................................................................................................ V LISTA DE SIGLAS ............................................................................................................................... VI 1. 1.1. 1.1.1. 1.1.2. 1.1.3. 1.1.4. 1.1.5. 2. 2.1. 2.1.1. 2.1.2. 2.2. 2.2.1. 2.2.1.1. 2.2.1.2. 2.2.1.3. 3. 3.1. 3.2. 3.3. 4. 4.1. 4.2. INTRODUO ...................................................................................................................... 9 OBJETIVOS, METODOLOGIA E QUESTES DE PESQUISA ......................................... 9 Objetivo Geral ......................................................................................................................... 9 Objetivos Especficos .............................................................................................................. 9 Questes de Pesquisa ............................................................................................................ 10 Metodologia .......................................................................................................................... 10 Organizao do Trabalho ...................................................................................................... 10 FUNDAMENTAO TERICA ........................................................................................ 11 Plataformas de Informaes integradas ..................................... Error! Bookmark not defined. Data Warehouse .................................................................... Error! Bookmark not defined. Data Mart............................................................................... Error! Bookmark not defined. ETL ....................................................................................................................................... 13 Etapas de ETL ................................................................................................................... 14 Extrao......................................................................................................................... 14 Transformao............................................................................................................... 14 Carga ............................................................................................................................. 16

FERRAMENTAS ETL ............................................................................................................. 16 KETTLE ................................................................................................................................ 17 TALEND ............................................................................................................................... 19 JasperETL ............................................................................................................................. 21 ESTUDO DE CASO ..................................................................... Error! Bookmark not defined. Apresentao do ambiente ........................................................ Error! Bookmark not defined. Modelagem ER.......................................................................... Error! Bookmark not defined.

4.3. Definio dos mtodos para avaliao/comparao das ferramentas ...... Error! Bookmark not defined. 4.4. Desenvolvimento da Avaliao/comparao das ferramentas atravs dos mtodos prdefinidos ................................................................................................ Error! Bookmark not defined.

5. 5.1. 5.2. 6.

RESULTADOS OBTIDOS........................................................... Error! Bookmark not defined. Quanto a Forma de desenvolver transformaes ou jobs .......... Error! Bookmark not defined. Quanto ao Desempenho das Transformaes/Jobs ................... Error! Bookmark not defined. CONSIDERAES FINAIS ........................................................ Error! Bookmark not defined.

REFERNCIAS BIBLIOGRFICAS ...................................................... Error! Bookmark not defined.

1. INTRODUO

Com a difuso da internet e a evoluo da tecnologia da informao, a maioria das empresas utiliza de sistemas informatizados para realizar seus processos dirios. Com o passar do tempo, as empresas percebem a grande quantidade de dados gerados relacionados aos negcios, como por exemplo, pedidos, vendas, preos, custos, mquinas, entre outros. Porm, no ambiente competitivo que as empresas esto inseridas hoje em dia, preciso lidar com essa massa de dados como uma matria-prima para, ao relacionarem entre si, gerar informaes teis tomada de deciso da organizao. A anlise desse tipo de informao requerida a todo instante por executivos e gerentes, a fim de adaptarem rapidamente a empresa s tenses do mercado. Devido s empresas utilizarem diversos sistemas ao mesmo tempo, com dados em bases diferentes, uma anlise integrada dos dados de todos esses sistemas se torna custoso e de difcil soluo. Portanto, nesse contexto, a utilizao do Data Warehouse (DW) fundamental. Um Data Warehouse um conjunto de dados integrados no qual extrai e rene informaes de diversas fontes. Na criao de DWs, os mesmos sero carregados com dados provenientes de diversas fontes atravs do denominado processo de ETL(Extract, Transform, Load) (SEZES et al., 2006). Segundo Abreu (2008), este processo o cenrio mais crtico na construo de um Data Warehouse. Porm, o processo de ETL no apenas um sub-processo na construo de um DW, sua utilizao abrange outros cenrios como: migrar dados entre bases transacionais diferentes, exportar dados e carregar Data Marts.

1.1.

OBJETIVOS, METODOLOGIA E QUESTES DE PESQUISA

1.1.1.

Objetivo Geral

O objetivo geral do trabalho consiste em avaliar e comparar as caractersticas e funcionalidades das ferramentas de ETL open-source, Kettle e Talend, atravs de mtodos pr-definidos.

1.1.2. Objetivos Especficos Os objetivos especficos do trabalho so:


10

Descrever sobre as ferramentas de ETL open-source Kettle e Talend; Definir base de dados a ser utilizada para avaliao das ferramentas; Definir mtodos/critrios para a avaliao das ferramentas; Avaliar e comparar as ferramentas de ETL open-source, Kettle e Talend, atravs de mtodos pr-definidos.

1.1.3. Questes de Pesquisa

QP01. Quais as principais caractersticas e funcionalidades das ferramentas Kettle e Talend? QP02. Quais os critrios para avaliar as ferramentas de ETL Kettle e Talend? QP03. Que ferramenta tem mais vantagem no processo de ETL de acordo com os critrios pr-definidos? 1.1.4. Metodologia

Neste trabalho foram feitas pesquisas de carter bibliogrfico e um estudo de caso. Assim, o mesmo foi dividido nas seguintes etapas:

Etapa I Reviso Bibliogrfica: anlise de artigos, livros, revistas cientficas sobre banco de dados, ETL, ferramentas de ETL, entre outros; Etapa II Coleta de dados: levantamento de dados e ferramentas necessrias para aplicar o processo de ETL; Etapa III Anlise de metodologia: definir metodologia para avaliar as ferramentas de ETL; Etapa IV Anlise e apresentao dos resultados: analisar e apresentar os resultados da avaliao das ferramentas de ETL open-source.

1.1.5. Organizao do Trabalho

Este trabalho encontra-se estruturado da seguinte forma:

O Captulo dois apresenta a fundamentao terica, abordando temas como Banco de Dados (BD) e Extract, Transform, Load (ETL);
11

O Captulo trs aborda conceitos, caractersticas e funcionalidades de algumas ferramentas ETL open-source;

O Captulo quatro apresenta o estudo de caso no qual compe a metodologia de avaliao das ferramentas como tambm a comparao entre elas;

O Captulo cinco explora os resultados obtidos das comparaes feitas entre as ferramentas de ETL;

Por fim, o Captulo seis apresenta algumas consideraes finais sobre o trabalho e perspectivas para futuros trabalhos.

2. FUNDAMENTAO TERICA
Neste captulo ser apresentada a fundamentao terica na qual envolve o trabalho, onde abrange assuntos como o processo de KDD, as plataformas de informaes integradas e o processo de ETL, onde ser mais detalhado por ser o foco do trabalho.

2.1.

O Processo de KDD O Processo de KDD ou Descoberta de Conhecimento em Bases de Dados, definido

por Fayyad (1996) como sendo um processo no trivial de indentificao de padres vlidos, novos, potencialmente teis e compreensveis, embutidos nos dados. A extrao desse conhecimento um processo no qual incorpora tcnicas utilizadas em diversas reas como Banco de Dados, Inteligncia Artificial e Estatstica. Este processo caracterizado como sendo um processo interativo e iterativo, composto por vrias etapas interligadas (FAYYAD, 1996). As etapas do processo de KDD, conforme mostra a figura 1, so: seleo, pr-processamento, transformao, data mining e interpretao. A etapa inicial chamada de seleo, no qual, uma vez definido e compreendido o dominio sobre o qual se pretende executar o processo de descoberta, o primeiro passo a ser realizado selecionar um conjunto de dados que sejam relevantes para o processo de KDD. A etapa de pr-processamento representa a limpeza dos dados, podendo ocorrer a remoo de informaes julgadas desnecessrias ou tambm um processo de padronizao dos dados. Tambm adota-se estratgia para manusear dados ausentes e inconsistentes (DILLY, 1995; GONALVES, 2000).
12

A transformao dos dados consiste em desenvolver um modelo slido de dados de maneira que possam ser utilizados por um algoritmo de extrao de conhecimento. As transformaes so ditas pela operao e tcnica a ser adotada. So converses de um tipo de dados para outro, definio de novos atributos, adequao de um valor que esta fora do contexto, entre outros (GONALVES, 2000; IBM, 1997). A etapa de Data Mining o principal passo do processo de KDD. onde ocorre a minerao de dados no qual envolve um conjunto de tcnicas e ferramentas computacionais usadas para a identificao de padres (conhecimentos) embutidos em grande quantidade de dados, normalmente inclusos em uma base gerencial como um DW ou DM. Segundo Inmon (1997), um DW uma coleo de dados orientada por assuntos, integrada, variante no tempo e no voltil, que tem por objetivo dar suporte aos processos de tomada de deciso. E de acordo com Barbieri (2001), um Data Mart pode ser considerado uma especializao, uma espcie de Data Warehouse com um assunto-foco, que atende a reas especficas da empresa, porm voltado da mesma forma para os processos decisrios gerenciais. Por fim a etapa de Interpretao, onde aps identificar padres do sistema, estes so interpretados, gerando assim, conhecimentos no qual daro suporte a tomada de decises na empresa. Caso os resultados no forem satisfatrios, pode-se realizar todo o processo novamente ou parte do mesmo.

Figura 1 - Etapas do processo de KDD (Figura adaptada de Fayyad et al. (1996))

Observa-se que o processo de KDD composto por trs etapas iniciais, seleo, prprocessamento e transformao, e essas etapas compem todo o processo de ETL que
13

descreve toda a preparao dos dados para poderem posteriormente serem minerados e gerar descoberta de conhecimentos. Conforme dito anteriormente, este trabalho obtm um foco maior no processo de ETL, no qual correspondem as etapas 1,2 e 3 descritas no processo de KDD.

2.2.

ETL

ETL, do ingls Extract, Transform e Load (ou Extrao, Transformao e Carga), para Abreu (2008), um processo que tem como objetivo a extrao, transformao e carga dos dados de uma ou mais bases de dados de origem para uma ou mais bases de dados de destino. Conforme mostra a figura 3, o processo de ETL consiste em trs etapas fundamentais. A Etapa 1 (Extrao) o ponto de partida, onde primeiramente se define a origem dos dados que iro ser extrados, podendo ser de diversas fontes (planilhas, arquivos textos, sistemas transacionais, e etc.), e depois seleciona quais sero os dados relevantes para a organizao, para que em fim seja realizada a extrao. Aps ter definido os dados a serem extrados, na Etapa 2 (Transformao) os mesmos iro passar por um processo de tratamento, onde sero adaptados a regra de negcio e modelagem do sistema de destino. O tratamento o procedimento que requer mais ateno, para que dados errneos, inteis, ou at mesmo sem padronizao no dificulte na extrao da informao. Em seguida ocorre a Etapa 3 (Carga) onde se define a base de destino para onde iro os dados (DM, DW, BD transacional, etc.), faz o mapeamento dos campos relacionando ento as tabelas e campos de origem com os de destino, e por fim acontece a carga dos dados. As etapas sero mais detalhadas na seo a seguir.

14

Figura 2 Processo de ETL por etapas (Figura adaptada da fonte: http://www.cnpm.embrapa.br/projetos/georastro/conteudo/metodologia.html)

2.2.1. Etapas de ETL 2.2.1.1. Extrao

Nesta etapa inicial do processo de ETL, ocorre a extrao dos dados de origem. Esses dados podem ser provenientes de diversas fontes como os SGBDs (Sistemas de Gerenciamento de Banco de Dados), planilhas eletrnicas, arquivos textos, entre outros. A extrao deve se basear na busca pelos dados necessrios dos sistemas fontes ou externos e que estejam em conformidade com a modelagem do sistema de destino para que seja viabilizado o processo. Tal busca pode implicar em uma extrao de dados inteis ou at mesmo em um erro futuro ao carregar os dados devido diferena de tipo, tamanho, estrutura, etc.

2.2.1.2.

Transformao

Este o processo responsvel pelo tratamento e transformao dos dados. Esses dados podem ser decorrentes de fontes desconhecidas ou projetos com falhas de modelagem, por
15

isso natural encontrar problemas de inconsistncia como dados errneos ou invlidos, falta de padronizao, somatrios numricos inconsistentes, falta de normalizao e diversos outros problemas. Portanto, segundo Cielo (2010), todas as divergncias encontradas devem passar por um processo de excluso ou tratamento de acordo com as regras de negcio da aplicao de destino, solucionando-as para garantir confiabilidade ao processo de ETL. Neste processo de transformao dos dados, no qual prover a integrao dos mesmos, muitas divergncias encontradas podem ser solucionadas ao serem submetidas a uma converso, como por exemplo, padronizaes de unidades de medida, padronizaes de domnios e padronizaes de tipos de dados, conforme mostra a figura 4.

Figura 3 Transformao dos dados advindos de origens diferentes (Figura adaptada segundo Inmon, Terdeman, Imhoff (2001)

O tratamento dos dados ocorre sobre dados irrelevantes ou desnecessrios dos sistemas legados que no afetam a funcionalidade destes sistemas, e geralmente so inseridos somente para passar pela regra de negcio, sem acarretar valor algum para o sistema (Moss, 1998). Resumindo, o tratamento dos dados refere-se ento limpeza ou filtragem dos dados e a coloc-los em uma forma homognea. Esses dois processos so descritos a seguir. Limpeza ou Filtragem dos dados Identificar anomalias e garantir a integridade dos dados antes de serem carregados no seu destino final. Processo relacionado a correo de erro de digitao, violaes de integridade, substituio de caracteres desconhecidos;

16

Homogeneizao dos dados Tratamento responsvel por colocar os dados em uma forma homognea, ou seja, definir um nico formato sem que ocorram conflitos de modelagem. Esse tratamento aplicado para dar preciso aos dados, padronizar expresses, tipos de dados e etc..

No subprocesso de homogeneizao de dados podem ser encontrados vrios conflitos de modelagem semntica e estrutural. Segundo Gonalves (2003) e Abreu (2007), os conflitos semnticos so todos aqueles que envolvem o nome ou a palavra associada s estruturas de modelagem, por exemplo, mesmo nome para diferentes entidades ou diferentes nomes para a mesma entidade. J os conflitos estruturais englobam os conflitos relativos s estruturas de modelagem escolhidas, tanto no nvel de estrutura propriamente dita como no nvel de domnios. Os principais tipos de conflitos estruturais so aqueles de domnio de atributo que se caracterizam pelo uso de diferentes tipos de dados para os mesmos campos.

2.2.1.3.

Carga

Este processo consiste em gravar os dados, extrados e tratados nas etapas anteriores, em uma fonte de destino. Para tal procedimento, as ferramentas de ETL proporcionam ao usurio uma funcionalidade na qual automatiza a migrao dos dados entre todas as tabelas em um s processo, essa funcionalidade ocorre na criao dos chamados Jobs, componentes funcionais das ferramentas de ETL. Com a criao do Job, tambm se pode programar para que a carga dos dados ocorra, dependendo da necessidade do processo montado, de uma nica vez ou de forma peridica para atualizao de dados. Esta ltima opo a utilizada comumente em carga de dados em data warehouse (IBL, 2010).

3. FERRAMENTAS ETL
Atualmente no mercado, existem diversas ferramentas de ETL comerciais como o PowerCenter, Data Stage, Oracle Enterprise Data Integrator e etc. Tambm existem as opensources como Pentaho Data Integration (Kettle), JasperETL, Talend Open Studio & Integration, CloverETL, entre outras. As ferramentas de ETL open-sources foram criadas na dcada de 90 e vem evoluindo, se aperfeioando, apresentando novas verses, por isso j possuem um bom grau de maturidade para serem equiparadas s ferramentas proprietrias.
17

Suas principais caractersticas so: suporte a diversas plataformas, conectividade com diversos bancos, facilidade de uso, suporte a debugging, reutilizao de transformaes, interface grfica intuitiva, entre outras. Neste captulo ser abordado alguns conceitos e caractersticas das ferramentas Kettle, JasperETL e Talend.

3.1. KETTLE O Kettle, tambm chamado de Pentaho Data Integration (PDI), uma ferramenta de cdigo aberto voltado ao processo de ETL advindo da sute Pentaho. O propsito de sua utilizao est relacionado migrao de dados entre aplicaes ou base de dados, exportao de dados, integrao de aplicaes, e tambm como parte de um processo de BI(Business Intelligence). Segundo Bouman (2009), a arquitetura do Kettle baseada na linguagem Java, e consiste de quatro componentes bsicos:

Spoon: ferramenta de modelagem grfica direcionada ao usurio, onde se define a entrada, transformaes e sada de dados; Pan: aplicativo de linha de comando para executar as transformaes feitas no Spoon; Chef: ferramenta de modelagem grfica direcionada para criao de Jobs, que consiste em tarefas como transformao, downloads, etc., no qual so colocados em um fluxo de controle;

Kitchen: aplicativo de linha de comando para executar os Jobs criados no Chef.

Segundo a Pentaho (2011), o PDI/Kettle fcil de usar e todo processo criado com uma ferramenta grfica onde voc especifica o que fazer sem escrever cdigo para indicar como faz-lo; por isso pode-se dizer que o PDI/Kettle orientado por metadados. A figura 5 demonstra o ambiente de trabalho da ferramenta Kettle.

18

Figura 4 Ambiente do Kettle (Fonte: Autoria prpria)

A ferramenta trabalha com dois tipos de modelagem como jobs e transformaes. As transformaes so rotinas formadas por passos interligados, onde a principio capturado a entrada de dados e por final a sada dos mesmos. Os jobs so rotinas no qual servem para executar transformaes ou at mesmo outros jobs. Outros conceitos importantes so steps e hops. O step uma unidade mnima do processo, onde executa uma tarefa especifica, seja uma leitura ou transformao de algum dado. A ligao entre esses steps chamada de hop, no qual so representados graficamente demonstrando o fluxo dos dados (PENTAHO, 2010). A figura 6 ilustra a estrutura de uma transformao no Kettle e seus componentes grficos, steps e hops conceituados anteriormente, nos quais so responsveis pelo fluxo de dados da migrao.

19

Figura 5 Transformao no Kettle (Fonte: Autoria prpria)

3.2. TALEND O Talend Open Studio uma ferramenta de cdigo aberto que oferece servios de integrao de dados. Possui suporte para a maioria dos tipos de fonte de dados alm de vrios componentes para integrao, migrao e operaes de sincronizao de dados (TALEND, 2011). A ferramenta foi desenvolvida na linguagem Java e utiliza como base a Plataforma Eclipse, tendo como proveito todos os recursos que a IDE prover na hora de executar e depurar cdigo. Esta ferramenta oferece um ambiente de desenvolvimento amigvel, baseado na composio de componentes visuais. Isso favorece que usurios no familiarizados com a linguagem Java possam utilizar a ferramenta.. A figura 7 mostra a GUI do Talend.

20

Figura 6 GUI do Talend (Fonte: Autoria Prpria)

O repositrio local do Talend apresenta todos os elementos do projeto, organizados nas seguintes categorias:

Business Models: Utilizado para fins documentacional. Contm elementos para criao de fluxograma de sequncia, operaes representadas por processos, e tambm anexar arquivo; Job Designs (Desenho de trabalho): Local onde ficam as tarefas. Tem suporte at a criao de pastas para organizar as tarefas do projeto; Contexts (Contextos): Local onde so definidas as constantes e seus respectivos valores, agrupados em contextos; Code (Cdigo): Local onde pode escrever cdigo java nas classes incorporadas ao projeto para resolver situaes particulares. SQL Templates (Modelos de SQL): Local onde possvel definir comandos SQL para serem executados dentro do projeto; Metadata (Metadados): Conceito no qual permite definir e configurar os recursos que as tarefas vo necessitar no decorrer do projeto como: conexo com banco de dados, arquivos externos, etc;

Documentation (Documentao): Local para fins de documentao do projeto; Recycle bin (Lixeira): Local onde ficam os elementos apagados, dando a possibilidade de recuper-los. 21

Conforme mostra a figura 8, o Talend trabalha com o conceito de criao de Jobs, semelhante ao conceito de transformao no Kettle, onde so rotinas compostas por componentes grficos, que ligados, compem todo o fluxo dos dados no processo de ETL.
Estes componentes grficos so recursos no qual podem fazer leitura dos dados, tratamento dos dados, operaes matemticas, entre outras.

Figura 7 Job no Talend (Fonte: Autoria prpria)

3.3. JasperETL JasperETL uma ferramenta open-source da sute JasperSoft, na qual seu foco a integrao e tratamento de dados. Assim como o Talend, tambm uma ferramenta desenvolvida na linguagem Java, onde seu gerenciador grfico de processos ETL executado dentro do ambiente Eclipse. A figura 9 mostra o ambiente de trabalho da ferramenta.

22

Figura 8 Ambiente do JasperETL (Fonte: Autoria prpria)

O repositrio local do JasperETL, onde compe todos os elementos do projeto, tem a mesma arquitetura e conceito de criao de Jobs do Talend, conforme descrito na seo 3.2. O JasperETL, diferencia-se basicamente, na forma em que distribui alguns componentes (como por exemplo, o Rest e o Hive) em suas determinadas categorias na paleta, seo que abrange todos os componentes funcionais.

23

Você também pode gostar