O documento discute o processo de integração e fluxo de dados (ETL) e ferramentas ETL. Aborda o processo de ETL, critérios para selecionar ferramentas ETL e apresenta o SQL Server Integration Services (SSIS) como uma ferramenta ETL comum.
O documento discute o processo de integração e fluxo de dados (ETL) e ferramentas ETL. Aborda o processo de ETL, critérios para selecionar ferramentas ETL e apresenta o SQL Server Integration Services (SSIS) como uma ferramenta ETL comum.
O documento discute o processo de integração e fluxo de dados (ETL) e ferramentas ETL. Aborda o processo de ETL, critérios para selecionar ferramentas ETL e apresenta o SQL Server Integration Services (SSIS) como uma ferramenta ETL comum.
(ETL) Ferramentas de ETL Bloco 1 Washington H. C. Almeida Processo de integração de dados
• O processo de integração de dados envolve
práticas, técnicas arquiteturais e ferramentas para obter acesso consistente e para entregar dados em uma grande área de assuntos e tipos de estrutura em uma empresa. • A demanda de mercado cada vez mais diversificada. • O processo de carregar dados para um data warehouse pode ser realizado por meio de ferramentas de transformação de dados. Processo de ETL
Figura 1 - Processo de ETL
Fonte: Kimball e Caserta (2009, p. 18).
Aquisição de uma ferramenta
• Há várias questões determinarão a aquisição de
uma ferramenta de transformação de dados ou a construção de sua própria ferramenta, como: • Ferramentas de transformação de dados são caras. • Ferramentas de transformação de dados têm uma curva de aprendizado longa. • Medir o desempenho da organização de TI não é uma tarefa trivial de ser realizada. Critérios para selecionar a ferramenta ETL
• Capacidade de ler e gravar um número ilimitado
de arquiteturas de fontes de dados. • Captura e entrega automática de metadados. • Histórico de conformidade com padrões abertos. • Interface fácil de usar para o desenvolvedor e usuário final. Conclusão
• É notório que a demanda do mercado se torna cada vez mais
diversificada e os usuários buscam ferramentas que apoiem iniciativa de Business Intelligence.
• As ferramentas de transformação de dados, que
oferecem uma GUI (Graphical User Interface) para ajudar no desenvolvimento e na manutenção das regras de negócio. Ferramentas de ETL Bloco 2 Washington H. C. Almeida Subcategorias de ferramentas ETL
• Ferramentas ETL puras.
• Ferramentas ETL de base de dados integrada. • Ferramentas ETL de Business Intelligence integrada. • Ferramentas ETL de produto de nicho. SQL Server Integration Services (SSIS)
• Ferramenta que facilita a extração de dados,
consolidação e opções de carregamento (ETL), apresentando aprimoramentos de codificação do SQL Server e data warehousing. • Permite extrair e transformar uma grande variedade de fonte de dados, como arquivos simples, dados XML, fontes de dados relacionadas e transferir esses dados para um ou mais destinos. Arquitetura do SSIS
• A arquitetura do SSIS é formada por componente,
como Solution (solução), Project (projeto), Package (pacote), Tasks (tarefas) etc. • Pela hierarquia entre esses componentes, sendo que o de maior hierarquia, o Solution, é formado por um ou mais Projects, que são formados por um ou mais Packages e que incluem uma, ou mais, Tasks. Project: arquivos associados
• Arquivo “.dtproj”: com as configurações do
projeto de lista de pacotes. • Arquivo “.dtproj.user”: com as informações de preferências do desenvolvedor para usar o projeto. • Arquivo “.database”: com as informações necessárias para o Business Intelligence Development Studio. Control e Data Flow
• Control Flow são os principais componente do
pacote e seus itens são Containers ( utilizados para agrupar tarefas) e Tasks (tarefas). • Por meio do fluxo de controle é possível mover ou deletar arquivos, executar, consultar ou procedures em banco de dados. A principal tarefa é o Data Flow. • Data Flow é uma tarefa do fluxo de controle usada quando se necessita realizar transferência de dados. Hierarquia dos elementos dos SSIS
Figura 2 - Hierarquia dos elementos do SSIS
Fonte: elaborada pelo autor.
Conclusão
• SSIS é uma plataforma utilizada para integração de
dados em nível corporativo. • É uma solução para transformação de dados, sendo usado para solucionar problemas empresariais complexos, realizando carregamento de data warehouses. • SSIS tem muito importância os seus recursos de movimentação e limpeza de dados, sendo uma ferramenta ETL. Teoria em Prática Bloco 3 Washington H. C. Almeida Reflita sobre a seguinte situação
Imagine que você precisa fazer uma transformação de
dados para carregar novas informações em uma base que é utilizada para análise de crédito. Nesse cenário, qual ferramenta você utilizaria? Veja que a transformação de dados tem processos de limpeza e seleção dos dados minimamente. Então, qual seria o fluxo para realizar essa atividade? Norte para a resolução... • As ferramentas poderiam ser várias, mas o Pentaho tem uma ferramenta muito simples que é o Data Integration, que oferece uma série de elementos para realizar a seleção e limpeza dos dados. • Dependendo dos dados, às vezes, é necessário organizar informações que vem de várias bases, como o dado CPF de um cliente, em uma das bases esse dado pode estar no formato XXX.XXX.XXX-XX, com pontos e traço e, em outro sistema, no formato apenas numérico XXXXXXXXXX. Assim, para garantir o correto cruzamento dos dados, esse tipo de trabalho é realizado na etapa de limpeza. Dica do (a) Professor (a) Bloco 4 Washington H. C. Almeida Ferramenta – Microsoft Azure • O Microsoft Azure é uma plataforma destinada à execução de aplicativos e serviços, baseada nos conceitos da computação em nuvem.
Figura 3 - Tela de visualização padrão do Azure
Fonte: captura de tela Microsoft Docs.
Referências COTE, C.; LAH, M., SARKA, D. SQL Server 2017 Integration Services Cookbook: ETL techniques to load and transform data from various sources using SQL Server 2017 Integration Services. Birmingham: Packt Publishing, 2017. DEVMEDIA. Microsoft ETL: arquitetura SSIS. 2014. Disponível em: https://www.devmedia.com.br/microsoft-etl-arquitetura-ssis-sql-server- integrationservices/30862. Acesso em: 18 mar. 2019. IBM. IBM InfoSphere Information Server. Disponível em: https://www.ibm.com/us-en/marketplace/infosphere-information-server. Acesso em: 18 mar. 2019. KNIGHT, B. et al. Professional Microsoft SQL Server 2014 Integration Services. Indianapolis: John Wiley & Sons Inc., 2014. LAUDENSCHLAGER, D. SQL Server Integration Services. 2018. Disponível em: https://docs.microsoft.com/pt-br/sql/integration-services/sql-server- integration-services?view=sql-server-ver15. Acesso em: 18 mar. 2019. Referências MICROSOFT. Microsoft SQL Server 2017. Disponível em: https://www.microsoft.com/pt-br/sql-server/sql-server-downloads. Acesso em: 18 mar. 2019. ORACLE. Oracle Data Integrator. Disponível em: https://www.oracle.com/middleware/technologies/data-integrator.html. Acesso em: 18 mar. 2019. PALL, A. S.; KHAIRA, J. S. A comparative review of extraction, transformation and loading tools. Database Systems Journal, Jalandhar, v. 4, n. 2, p. 42-51, 14 fev. 2013. Disponível em: https://ideas.repec.org/a/aes/dbjour/v4y2013i2p42-51.html. Acesso em: 9 mar. 2021. TURBAN, E. et al. Business intelligence: um enfoque gerencial para a inteligência do negócio. Porto Alegre: Bookman, 2009. Bons estudos!