Você está na página 1de 12

O processo de ETL (Extract,Transform and Load) destina-se extrao, transformao e carga dos dados de uma ou mais bases de dados

s de origem para uma ou mais bases de dados de destino(Data wareHouse). ETL o processo mais critico e demorado na construo de um Data WareHoruse. A extrao e a carga so obrigatrios para o processo, sendo a transformao /limpeza opcional.

Somente a extrao dos dados leva mais ou menos 60 por cento das horas de desenvolvimento de um DW (KIMBALL, 1998 apud ABREU, 2007).

Processo de extrao: Segundo PALMA(1998), o processo de aquisio de dados caro e complexo. A complexidade est em rastrear e mapear informaes de vrios bancos de dados, projetados por diferentes profissionais, em diferentes pocas, que podem estar em diferentes formatos, plataformas e tecnologias, espalhados por toda a organizao, s vezes sem documentao e geralmente redundantes. Fatores que atrasam a extrao dos dados: Ausncia de informao Valores invlidos Ausncia de integridade referencial Violaes de regras de negcios Clculos invlidos Formatos no padronizados Duplicao de informao e inconsistncia Falhas na modelagem das bases de dados operacionais Se esses fatores no forem corretamente trabalhados no processo de extrao, as informaes geradas atravs deles faram que as decises sejam tomadas erroneamente, podendo afetar diretamente o negocio da organizao. (criticidade do processo)

Vantagens Todas as ferramentas de ETL trazem consigo um fluxo visual das cargas e dos processos disponveis nas mesmas, obviamente de maneira diferente, mas normalmente de forma estruturada e lgica. Controle de cargas: A maioria das ferramentas de ETL disponveis no mercado traz consigo a capacidade no apenas de fornecer o monitoramento do sucesso ou no das cargas, mas uns nveis de detalhe de quais problemas ocorreram, em que tabelas, quais registros duplicados ou rejeitados. Algumas delas fornecem modelos prontos para relatrios de operao de cargas. Performance: As ferramentas com oferecem tuning para os processos de cargas, algumas delas caractersticos para atender a diferentes bancos de dados. Tratamento de Flat Files: A possibilidade de mapear arquivos csv"s, txt"s, dbf"s etc...sem grandes esforos tambm caracterstico das ferramentas de ETL.

Desvantagens:

Alto Custo: O preo de uma licena, dependendo da ferramenta pode chegar a 40% do custo total de um projeto de ETL. Tendo em vista que os patrocinadores de um projeto normalmente so usurio de negcio, justificar a compra de um ETL talvez fique invivel. Profissionais capacitados: Uma ferramenta de ETL deviria no demandar muito conhecimento de programao SQL, mas isso no bem verdade. Alm de termos que encontrar profissionais com conhecimento em SQL, algumas ferramentas so bastante complexas e precisamos de profissionais capacitados nas mesmas, o que pode encarecer o custo do recurso. Em alguns casos, mais eficiente termos um ETL baseado em SQL e contratarmos um bom profissional na linguagem. Reduz a flexibilidade: Uma soluo fornecida, obviamente fica dependente da capacidade de desenvolvimento de seu fabricante, assim como da dependncia na resoluo de problemas encontrados e atualizaes.

Requisitos para ferramentas ETL Para se obter uma boa ferramenta de ETL, esse documento apresenta um conjunto de requisitos considerados para ferramentas deste tipo. Em cada requisito citado, especificado o seu tipo, a fonte na qual ele teve procedncia, sua descrio e seu motivo .

Lista de requisitos para ferramentas ETL Requisitos Requisitos Funcionais RF1 RF2 RF3 RF4 RF5 Permitir extrao de dados de diversas fontes Detalhamento da execuo de uma transformao Permitir Schedule de tarefas Suportar funo de transformao Conter mdulo de administrao de modo a permitir um gerenciamento centralizado Requisitos no Funcionais RNF1 RNF2 Portabilidade: executar em ambiente multi-plataforma Usabilidade: flexibilidade de uso com ambiente grfico ou atravs de cdigo RNF3 Performance: permitir independncia quanto ao volume de dados para a carga RNF4 Confiabilidade: conter mecanismos de transmisso e retransmisso de dados RNF5 RNF6 RNF7 RNF8 Performance: permitir compactao de dados Segurana: permitir criptografia de dados Estrutura: possuir arquitetura aberta Usabilidade: facilidade de aquisio da ferramenta e sua documentao RNF9 Usabilidade: facilidade de instalao Descrio

Fonte: literatura tcnica sobre o domnio de ETL, atravs do livro Extrao de Dados para Data Warehouse (Gonalves, 2003).

RF1 - Permitir extrao de dados de diversas fontes de profunda importncia, por exemplo, que uma ferramenta de ETL possibilite a integrao com diversos tipos de arquivos da empresa, que consiga ler: arquivos de texto; planilhas; arquivos XML; bancos de dados (Oracle, SQL Server, PostgreeSQL, MySQL.).

Caso contrario a ferramenta perderia o conceito de ETL.

RF2 - Detalhamento da execuo de uma transformao Esse requisito est relacionado ao nvel de detalhamento que a ferramenta oferece no momento da execuo de uma transformao. Por exemplo: exibio do tempo de leitura da fonte, exibio do tempo de escrita no repositrio, permitir visualizao dos dados que esto sendo trafegado no momento da execuo, exibio da velocidade do trfego dos dados de leitura e de escrita.

RF3 - Permitir Schedule de tarefas Schedule o agendamento de tarefas ou atividades que devem ser disparadas no horrio programado. Com Schedule de tarefas pode-se programar que um determinado processo fique rodando por varias horas no necessitando do auxilio do desenvolvedor. Geralmente esses tipos de processo so postos para serem executado durante o perodo da noite, pois os recursos da mquina ficam disponveis para que o processo trabalhe com eficincia.

RF4 - Suportar funo de transformao A ferramenta deve conter um esquema de validao dos dados que esto sendo trabalhados e que vo ser persistidos em um banco de dados (ou outro meio de armazenamento). Essas funes devem fazer validaes tais como: verificao se uma tabela existe no banco que vai receber os dados, verificar se haver uma correspondncia de chave estrangeira ou primria, verificar se existe a coluna referente, ou at mesmo se o banco existe, evitando erros ou simplesmente podendo prev-los e trat-los. Com o uso dessas funes pode-se tambm ler um campo, executar um clculo sobre ela e inserir um valor alterado no repositrio.

RF5 - Conter mdulo de administrao de modo a permitir um gerenciamento centralizado um mdulo de administrao consiste em um conjunto de atividades onde se pode gerenciar e administrar um sistema. Para uma ferramenta de ETL importante se ter um mdulo de onde se pode administrar cada atividade, ou seja, um mdulo que gerencie desde o local de onde ser extrada uma informao determinada at como ela ser inserida ou trabalhada e de que forma ela se associar com as demais informaes.

Kettle Em sua traduo a Kettle (Kettle Extraction, Transformation, Transportation and Loading Environment). A Kettle uma ferramenta de ETL cdigo open source criada pela Pentaho em 2004 usada na construo de um Data Warehouse. Em julho de 2006, a Pentaho fez uma publicao na revista Intelligent Enterprise (2006) da qual sua plataforma de BI bateu o recorde de download mensal com mais de 55.000 tornando-se um cdigo open source mais baixado na rea de ETL. Com sua estrutura baseada em Java a Kettle possui algumas caractersticas prprias da ferramenta que so:

Spoon: a rea grfica onde os dados so modelados para a transformao adequada e se eles sero gravados no repositrio ou no;

Pan: comanda cada transformao que est sendo gerada no spoon; Chef: local onde as jobs so modelados; Kitchen: utilizado para executar as transformaes criadas no Chef.

Por seu ambiente no utiliza programao para modelar as transformaes, mas gera o cdigo da transformao, a Kettle conta principalmente de duas caractersticas sua a spoon e chef de grande importncia para seu funcionamento (Santos, 2006). Ao iniciar a ferramenta o usurio determina onde ser feita o armazenamento das transformaes se em um banco de dados ou arquivo XML, e esse repositrio ser usado por todo perodo em que a ferramenta for trabalhada ou gere um novo repositrio (Santos, 2006). A Kettle dispe de dois painis em seu ambiente de desenvolvimento como mostra a Figura 3:

O painel 1 - Localiza-se o Explorer onde ficam Transformation e Jobs para fazer a modelagem do cenrio.

O painel 2 - a parte do ambiente grfico a ser definido das transformaes que esto sendo geradas.

Talend A Talend Open Studio (TOS) uma ferramenta open source, que tambm auxilia na fase de desenvolvimento de data warehouse fazendo o processo de ETL. Seu ambiente grfico baseado no Eclipse (Talend, 2008). Desde o seu lanamento no final de 2006 a Talend Open Studio chegou a quinhentos mil downloads. Em 21 de outubro de 2008 a Talend anuncia a disponibilizao da mais nova Talend Open Studio verso 3.0 fazendo agora conexo com sistema SAP. A TOS possuir uma arquitetura distribuda se torna um diferencial entre as outras ferramentas de ETL fazendo com que a uma reduo do seu custo ao mesmo tempo melhoria no seu desempenho (Santos, 2006). Na TOS oferece a opo qual a linguagem de gerao sendo ela Java ou Perl. Alm disso, a TOS oferece conectividade:

Para pacote de aplicativos (ERP, CRM, etc.), base de dados, mainframes, Web Services, arquivos, para abordar disparidade das fontes;

Data warehouse, Data Marts, aplicaes OLAP- para fazer a analise, elaboraes de relatrios, dashboarding, scorecarding.

Built-in componente avanado para ETL, incluindo manipulao de string, movimentao automtica lookup e projetos em Java.

O ambiente da TOS composto por quatro painis, conforme pode ser visto na Figura.

Repositrio - a parte onde se localiza todos os componentes de armazenamento que sero usados na transformao;

rea grfica - a rea responsvel para editar o modelo a ser definido pelo usurio (pode ser por desenho ou via cdigo) das transformaes que esto sendo geradas. O lado direito do painel composto dos conectores que sero usados nas transformaes;

Outline/Code Viewer So as informaes dos jobs. A aba Outline mostra uma visualizao das estruturas do modelo a ser gerado. A aba Code Viewer mostra a linha de cdigo correspondente a cada job;

Configurao do sistema Nessa aba destaca vrias informaes a respeito da transformao a ser feita. Nela apresenta as propriedades dos Jobs, os erros das operaes, run e Schedule do job a ser trabalhado.

Apatar A Apatar-Open-Source-Data-Integrao uma ferramenta de ETL com cdigo open source, criada por Renat Khasanshyn em fevereiro de 2007, para fazer integrao das informaes dos clientes com diversas fontes de dados ou fontes hospedadas na web (Brodkin, 2007). A ferramenta Apatar est disponvel de duas maneiras Apatar open source da qual o cdigo livre para download e modificao para se adequar ao usurio. Nesse caso para um apoio e manuteno da ferramenta open source, se necessitar, h um suporte no valor de U$ 1.900 (um mil e novecentos dlares) anual. A outra forma, Apatar Enterprise Edition, dispem de todos os recursos adicionais at mesmo suporte (Feinman, 2007). O ambiente de desenvolvimento mostrado na Figura 5 dispe de dois painis para projeta as transformaes necessrias do projeto a ser executado. Aigura 5: Ambiente Apatar

O painel 1 - Localizam-se todos os conectores functions que a ferramenta disponibiliza para fazer a modelagem do cenrio.

O painel 2 - a parte do ambiente grfico a ser definido das transformaes que esto sendo geradas.

A Apatar por possui seu cdigo 100% open source onde disponibiliza seu cdigo fonte para alterao, oferecendo guias aos usurios para que possam criar novos conectores e funes a serem usados no ambiente de projeto. Alm disso, a Apatar pode tambm criar projetos atravs do IDE Eclipse (Apatar, 2008). As anotaes que foram feitas dizem respeito velocidade (em linhas por segundo rows for second). Com Base nos resultados da velocidade foi calculado a mdia e desvio padro, que est contida nas tabelas.

A Tabela abaixo mostra os resultados dos testes com leitura de arquivo TXT e repositrio PostgreSQL e na Figura 21 o seu grfico correspondente.

Entidade

Qtd. Registros 8 12 14 27 76 247 419 832 7909 63981 63981 3636705

Kettle M 57,73 70,93 75,37 112,93 224,03 303,07 208,97 278,10 220,23 3141,43 3335,83 107,80 D 2,38 2,27 5,10 2,54 2,97 0,85 3,05 0,20 2,41 2,72 6,05 M

TOS D 76,38 15,83 30,66 107,62 32,91 M

Apatar D 4,27 11,69 64,58 39,56 3,73 29,47 35,99 2,75 1,86 0,02 0,12 -

regimes situacoesorgaos instrucoes estados situacoes funcoes municipios bairros orgaos servidores dadospessoais financeiro

188,24 308,23 200,21 960,67 1118,29 2268,14 364,05 150,95 670,02 3463,47 3155,03 120,30

33,54 68,07 87,75 109,02 117,60

3006,78 582,75 40,49 3,03 18,48 59,13 26,62 154,58 140,82 857,81 16,08 16,76 -

dadospessoais servidores orgaos bairros municipios f uncoes situacoes estados instrucoes situacoesorgaos regimes 0,00 500,00 1000,00 1500,00 2000,00 2500,00 3000,00 3500,00

Ve locidade Kettle M TOS M Apatar M

PENTAHO KETTLE VS INFORMATICA

Informatica uma boa sute de integrao de dados comerciais. Foi fundada em 1993 , lder de mercado na integrao de dados (Gartner Dataquest) Ele tem 2600 clientes. Destes, h empresas da Fortune 100, empresas no Dow Jones e organizao do governo.

nico foco da empresa a integrao de dados. Tem um grande leque de empresas para integrar seus sistemas, limpar seus dados e pode se conectar a um vasto nmero de atual e sistemas legados. muito caro, ser necessrio ter funcionrios capacitados para us-lo e provavelmente exigir a contratao de consultores tambm. (Eu ouo consultores Informatica so bem pagos). muito rpido e pode ser escalado para grandes sistemas. Ele tem " Otimizao Pushdown ", que usa uma abordagem ELT que usa o banco de dados fonte para fazer a transformao -. Comparando Informatica vs Pentaho, informtica tem muito mais recursos corporativos, por exemplo, balanceamento de carga, entre servidores de banco de dados. O Pentaho requer menos treinamento que o Informatica. Penatho no exige custos iniciais enormes como Informatica . Informatica mais rpido que o Pentaho. Infromatica tem Optimization Pushdown, mas com alguns ajustes para Pentaho e algum conhecimento do banco de dados de origem, voc pode melhorar a velocidade de Pentaho. Voc pode colocar Pentaho Kettle em vrios servidores diferentes (J que de graa) e us-lo como um cluster. Informatica tem ferramentas de monitoramento muito melhores que o Pentaho. Resultado: realmente Informatica bem superior em empresas ETL suite, mas muito grande e caro. Se o sistema de pequeno/mdio porte, eu prefiro utilizar Pentaho como alternativa e h muitos e muitos casos de uso, onde as grandes empresas utilizadas Pentaho .

Algumas dessas empresas esto implementado conceitos atuais como a baixo: API Google de Geocodificao permitindo a validao de endereos. A API Google ir corrigir endereos e enriquecer os dados com informaes de geocodificao, como latitude e longitude.

Vivo economiza US$ 28 milhes com data warehouse


Projeto da operadora unificou dados de seis empresas, que transacionavam cerca de 2 bilhes de registros dirios.
Criada a partir de seis empresas de telecomunicaes, a operadora Vivo se viu diante de um grande desafio no processo de unificao das companhias: reunir, em um nico data warehouse corporativo (ou repositrio de dados), todas as informaes de seus mais de 46 milhes de clientes. O cenrio era complexo. As empresas reunidas contavam com ferramentas de diversos fornecedores de business intelligence (BI), diferentes processos e mais de mil usurios. Tudo isso gerava um tempo de resposta muito alto para a operadora. Para solucionar o problema, a empresa optou pela integrao de todos os sistemas na plataforma da teradata. Esta tarefa envolveu 40 reas de negcios e 100 usurios concentrados no projeto, focados em integrar 2 bilhes de registros dirios. Hoje, o tamanho do banco de dados de 100 terabytes. Para chegar receita ideal, a extrao e a anlise de dados ficou a cargo de soluo da MicroStrategy e todo o processo de desenvolvimento teve relao estreita com a rea de negcios. A ordem era no implementar nada que no partisse de uma necessidade dessas reas. Resultado: uma economia de 28 milhes de dlares. Deste valor, 15 milhes de dlares foram economizados com impostos, segundo Daniela calaes, gerente de sistemas de BI da Vivo, que falou em evento da teradata realizado esta semana em Washington (EUA). Alm disso, ao conseguir obter um retrato mais fiel dos consumidores com potencial para se tornarem devedores, a Vivo conseguiu reduzir em 13 milhes de dlares a receita perdida em situaes de clientes devedores. Outro benefcio, de acordo com Daniela, foi a possibilidade de dirigir melhor campanhas de marketing para incentivar o consumo de diferentes produtos por clientes com potencial para aumentar gastos. E a prpria rede e a cobertura tiveram melhorias. A partir das ferramentas de anlise, a Vivo avaliou comportamentos atuais e histricos da rede para otimizar seu uso, identificar falhas e ampliar a infraestrutura onde fosse necessrio. Assim, o custo da manuteno caiu em 20% e a capacidade da rede foi ampliada. Para o futuro, a empresa prepara a integrao com a Telemig Celular, cuja concluso da compra foi realizada em abril do ano passado, e a implementao de novos mdulos de informaes, que j esto sendo requeridos pelas reas de negcios. A rea de TI da companhia quer tambm o aumento da performance do data warehouse, buscando garantir a informao sempre em tempo real. Implementada a ferramenta, a meta agora transformar o data warehouse na nica fonte de dados da companhia, integrando todas as informaes isoladas que ainda persistem na corporao.

Fonte<http://computerworld.uol.com.br/tecnologia/2009/10/20/vivo-economiza-us-15milhoes-com-integracao-de-data-warehouse/>