Você está na página 1de 9

Modelagem e Implementao de um Data Mart de Vendas de Exportao para Apoio Tomada de Deciso

Cristopher de Camargo (UNIOESTE) cristophercamargo@msn.com Marcio Seiji Oyamada (UNIOESTE) marcio.oyamada@unioeste.br Clodis Boscarioli (UNIOESTE) clodis.boscarioli@unioeste.br

Resumo:
Business Intelligence (BI) o processo que visa explorar e analisar dados estruturados e especficos de um domnio para encontrar tendncias ou padres e, atravs disto, produzir percepes e tirar concluses. Este artigo demonstra, em forma de estudo de caso, todo o processo de criao de um Data Mart no domnio de vendas para exportao de uma empresa de porte mdio da rea de agronegcio. Atualmente essa rea da empresa no possui relatrios nem ferramentas de gesto, dificultando a anlise e tomada de decises. O desenvolvimento desse estudo de caso evidenciou a utilidade de um Data Mart do ponto de vista gerencial, possibilitando a anlise de dados histricos, gerando estatsticas de vendas antes no mensuradas como: por regio geogrfica, por perodo de tempo, por cliente e por produto. Estas informaes auxiliaram no processo de tomada de decises por parte do especialista de domnio, que antes no estavam explcitas nos relatrios existentes. Palavras chave: Business Intelligence, Data Mart, Vendas.

Modeling and Implementation of a Sales Export Data Mart for Decision-Making Process
Abstract:
Business Intelligence (BI) is a process that explores and analyses structured data in a given domain in order to find tendencies and patterns, allowing the production of perceptions and conclusions. This paper presents the modeling and creation process of an export sales Data Mart, in an agribusiness enterprise. Nowadays this enterprise does not have any report or management tool, becoming difficult the decision making process. The development of this case study showed the applicability of a Data Mart as management tool, allowing the analysis of historical data and generation of statistics of export sales. These statistics include sales by geographical region, time period, customers, and products. The information provided by the Data Mart helped the decision making process. Key-words: Data Mart, Business Intelligence, Sales.

1 Introduo Em um mercado onde empresas do mundo todo disputam clientes como se no houvesse barreiras geogrficas, inovar se tornou um conceito fundamental para qualquer corporao e uma prtica muito necessria conquista de diferenciais competitivos. Nesse contexto, est inserido o conceito de Inteligncia de Negcios, ou BI Business Intelligence, (HAISTEN, 1999). Segundo BARBIERI (2001), BI representa a habilidade de se estruturar, acessar e explorar informaes, normalmente armazenadas em um Data Warehouse (DW - Armazm de Dados) ou Data Mart (DM), com o objetivo de desenvolver percepes, entendimentos, conhecimentos, os quais podem produzir um melhor processo de tomada de deciso. Nos dias de hoje, para uma empresa se tornar competitiva no mercado internacional, alm da busca por excelncia das suas atividades cotidianas necessrio que suas aes e decises sejam baseadas em uma profunda anlise, para que sua estratgia no mercado seja bem fundamentada. As tecnologias de BI auxiliam na definio destas estratgias trazendo benefcio organizao. Para que tais benefcios sejam alcanados faz-se necessrio um Data Mart bem estruturado, possibilitando esclarecer situaes e fatos que antes passavam despercebidos. Este artigo descreve um processo de modelagem, implementao e uso de um Data Mart para apoio a tomada de deciso na rea de vendas de exportao a partir de um banco de dados da Plataforma TOTVS. A empresa ora utilizada no estudo de caso est inserida no mercado internacional, porm no possua uma ferramenta de anlise gerencial de seus dados. O desenvolvimento de um Data Mart foi motivado porque, segundo a gerncia de Tecnologia da Informao (ou TI), foi realizada uma pesquisa de mercado e no foi encontrada nenhuma ferramenta integrada ao ERP utilizado pela empresa que fornea o tipo de anlise requerida. No aspecto organizacional, havia tambm uma demanda do departamento de exportao que segundo o gerente da rea, o trabalho da sua equipe era prejudicado por falta de ferramentas de apoio para auxiliar na tomada de deciso e na conquista de novos mercados. Esse artigo est dividido nas seguintes sees: na seo 2 apresentado o embasamento terico de Data Warehouse, Data Mart, modelagem multidimensional e ETL (Extrao, Transformao e Carga), elementos de base ao desenvolvimento do trabalho. Na Seo 3 o problema-alvo apresentado, descrevendo do processo de criao do Data Mart visualizao OLAP dos dados. A Seo 4 traz as concluses e indicao de trabalhos futuros. 2 Fundamentao Terica Para um melhor entendimento dos sistemas de BI, necessrio introduzir alguns conceitos, acerca de modelagem de um Data Warehouse ou Data Mart, bem como do processo de extrao, transformao e carga para esse repositrio, a partir de bases de dados transacionais de uma organizao. 2.1 Data Warehouse e seus Conceitos Os bancos de dados so conjuntos de registros dispostos em estrutura regular que possibilita o armazenamento, a re-organizao e a produo de informao (INMON 1997). Um Data Warehouse uma coleo de dados orientada por assuntos, integrada, no voltil e variante do tempo, que tem por objetivo ser um lugar onde as pessoas possam acessar seus dados (INMON 1997). Para (MONTEIRO, 2007), Data Warehouse um repositrio de dados provenientes dos dados operacionais, onde se cria um ambiente homogneo e padronizado, com finalidade de propiciar anlises de negcio concentradas em um s local. Para melhor entendimento sobre Data Warehouse pode-se fazer uma comparao entre este e bancos de dados transacionais ou operacionais, que armazenam as informaes das transaes dirias da empresa, e so utilizados por todos os funcionrios para registrar e executar operaes
2

pr-definidas, por isso seus dados podem sofrer constantes mudanas. J no DW so gerados dados analticos, destinados s necessidades da gerncia no processo de tomada de decises, o que pode envolver consultas complexas que necessitam acessar um grande nmero de registros. Um DW armazena informaes histricas de muitos anos, e por isso deve ter uma grande capacidade de processamento e armazenamento dos dados, detalhados ou resumidos. Um Data Mart (DM), foco deste estudo, subconjunto de dados de um DW que se referem a um assunto em especial como finanas, vendas e estoque, em diferentes nveis de sumarizao. Segundo (BARBIERI, 2001), um depsito de dados que atende a certas reas especficas da empresa e voltados para o processo decisrio gerencial. Para (KIMBALL, et al., 1998), modelagem multidimensional uma tcnica utilizada para a definio do projeto lgico de um Data Warehouse (ou de um Data Mart). Trs conceitos bsicos so importantes nesta modelagem: tabelas fatos que representam as transaes de negcios, as dimenses que so os diferentes tipos de vises que os usurios iro utilizar para analisar as mtricas e os indicadores ou mtricas que podem ser definidos como os atributos numricos de um fato representando o comportamento de um negcio para as dimenses. Nesse tipo de modelagem surgem dois padres principais: o Modelo Estrela (Star Schema) e o Modelo Floco de Neve (Snow Flake) (KIMBALL, 1996). Conforme THOMSEN (2002), um Modelo Estrela um arranjo de tabelas em um banco de dados relacional onde uma tabela de fatos central conectada a um conjunto de tabelas de dimenso, uma por dimenso. O nome estrela vem da representao diagramtica normal desse esquema, com a tabela de fatos no centro e cada tabela de dimenso mostrada ao seu redor, como as pontas em uma estrela. O outro padro para modelagem dimensional o modelo floco de neve, onde as tabelas dimensionais relacionam-se com a tabela de fatos, mas algumas dimenses relacionam-se apenas entre elas, isto ocorre para fins de normalizao das tabelas dimensionais, visando diminuir o espao em disco utilizado pelas tabelas de dimenses. Ento informaes como categoria, departamento e marca se tornam tabelas de dimenses auxiliares. Nesse modelo existem tabelas de dimenses auxiliares que normalizam as tabelas de dimenses principais. 2.1.1 Tabelas de fatos Uma tabela de Fatos a principal tabela que compe um modelo dimensional, armazenam medies (linha em uma tabela de fatos) numricas ou mtricas de desempenho que est relacionada a um assunto ou processo de negcio. Todo registro de uma tabela de fato est ligado a um conjunto de dimenses que indicam a granularidade dos fatos que esto armazenados e definem qual o alvo destas medidas. Quanto menor a granularidade de um fato, maior ser o nvel de detalhe armazenado (KIMBALL, 2002). 2.1.2 Tabelas de dimenso As tabelas de dimenso sempre acompanham uma tabela de fatos e possuem descritores textuais de um processo e so formadas por diversos atributos, que servem de base para definir regras de agrupamento e filtros para consultas em uma tabela de fatos. Os atributos nas tabelas de dimenso possuem um papel essencial, por ser a origem de todas as restries e rtulos de relatrios, e fundamentais para que modelo seja utilizado e compreendido. Os dados que esto armazenados nas dimenses foram carregados do banco de dados de origem e so utilizados para realizao de consultas e carga do DW ou DM. A granularidade se refere ao nvel de detalhamento das informaes armazenadas. A granularidade afeta o volume de informaes armazenadas e os tipos de consultas que podem ser
3

respondidas aos usurios: quanto menor o nvel de granularidade, mais informaes sero armazenadas, e o maior detalhamento possvel das consultas aos usurios; por outro lado, um alto nvel de granularidade possui um volume menor de informaes armazenadas e permite maior rapidez nas respostas das consultas, porm limita as mesmas quanto ao seu detalhamento. 2.2 ETL (Extract Transform and Load Extrao, Transformao e Carga) Em um ambiente de Data Warehouse, os dados so inicialmente extrados de grandes bases de dados e de fontes externas, posteriormente so integrados e transformados (limpos, eliminados, combinados, validados, consolidados, agregados e sumariados) antes de serem carregados (KIMBALL, 2002). Esta uma etapa crtica da construo de um DW ou DM, pois envolve toda a movimentao dos dados. A etapa de ETL se d basicamente em trs passos, so ferramentas para extrao, padronizao e limpeza, e carga de banco de dados. Mais precisamente, as ferramentas de ETL so utilizadas para carga do repositrio (MONTEIRO, 2007). A etapa de extrao envolve a leitura, compreenso e seleo dos dados de origem. A transformao a etapa na qual ocorre a filtragem de erros de digitao, tratamento de elementos ausentes, limpeza de campos preenchidos com nmeros seqenciais ou viciados e padronizao de campos com contedo no padronizado. Hoje existem algumas ferramentas que auxiliam o Processo de ETL, dentre elas pode-se citar Kettle (KETTLE, 2012), uma ferramenta de ETL do projeto de BI Pentaho. Porm, essa etapa tambm pode ser realizada de forma integral por meio de scripts desenvolvidos manualmente, abordagem utilizada nesse estudo, por questes de deciso de projeto. 3 Estudo de Caso Esta seo visa apresentar os materiais e mtodos utilizados nesse estudo. O trabalho inicial foi uma pesquisa bibliogrfica para melhor compreenso do problema e em seguida, partiu-se para um estudo de caso exploratrio, no qual foram definidas as ferramentas a serem utilizadas e uma soluo foi proposta, no intuito de averiguao da viabilidade da proposta. As decises de projeto e o levantamento de requisitos foram realizados por meio de reunies com o Departamento de Exportao da empresa. Na implementao deste estudo de caso foi utilizada como fonte de dados uma base de dados do ERP TOTVS. Os fatos a serem analisados no DM so as vendas de exportao de uma empresa do ramo de agronegcio, de mdio porte, com filiais em 15 estados brasileiros e 3 filiais no exterior, o principal foco de negcio da empresa a produo de ovos de postura e industrializao de carnes e embutidos. O DM foi construdo no Sistema Gerenciador de Banco de Dados (SGBD) MySQL por determinao da empresa. A fonte dados utilizada no projeto uma base de dados transacional normalizada e populada desde o ano de 1998. Essa base de dados armazenada atualmente em SGBD Oracle 10G sobre o Sistema Operacional Solaris e possui uma tablespace de 380 GigaBytes de dados, no incluindo o espao em disco usado para indexaes e uso temporrio. Visando um processo de ETL menos complexo, todo atributo e tabela utilizados no processo de ETL fazem parte de vises construdas no banco de dados relacional, sendo algumas dessas vises j esto desnormalizadas, com o intuito de agilizar o processo de Transformao e Carga dos dados. Foram utilizados dados pertinentes a nota fiscal, item de nota fiscal, produto, cliente e importador. A Figura 1 apresenta o modelo relacional das vises utilizado como origem dos dados.

Figura 1 Parte do modelo relacional de banco de dados do sistema ERP

3.1 Modelagem e implementao do Data Mart O Data Mart foi criado no SGBD MySQL verso 5.1 executando em plataforma Linux distribuio Debian (servidor j existente na empresa). A modelagem realizada nos moldes do modelo estrela, onde se tem as dimenses e a tabela fatos desnormalizadas. Criou-se a tabela de fatos vendas e como dimenses produtos, cliente, importador e tempo. A Figura 2 apresenta o modelo estrela do Data Mart:

Figura 2 Modelo estrela do Data Mart

Os atributos e as dimenses utilizadas foram escolhidos em sua maioria pelo gerente do departamento de exportao, usando como critrio a importncia de cada campo a ser
5

visualizado na anlise. No processo de definio das dimenses, foram considerados os nveis de anlise desejados pelo departamento beneficiado com o Data Mart. Esta fase de fundamental importncia, pois pelas dimenses que possvel fazer o agrupamento dos dados na camada de visualizao. Isso foi devidamente validado e acordado entre o Departamento de TI e o Departamento de Exportao. 3.2 O Processo de ETL O processo de ETL foi todo desenvolvido a partir de scritps PHP. Na base origem foi elaborado da seguinte forma: em toda tabela utilizada pelo DM, adicionou-se uma nova coluna e implementou-se uma trigger (gatilho) que para cada linha inserida ou que os campos utilizados no DM sofrerem alterao ou deleo essa nova coluna preenchida com a data e hora da incluso, alterao ou excluso. Os mecanismos que realizam a carga de dados foram hospedados no mesmo servidor em que est o DM. Foram desenvolvidos dois mecanismos, um para a carga inicial de dados e outro para a carga peridica de dados. Os dois mecanismos utilizam linguagem de programao PHP. Para a carga inicial foi desenvolvido um script PHP que se conecta na fonte de dados e realiza as consultas dos dados, esses dados so armazenados em arrays que so tratados linha a linha para serem inseridos na sua respectiva tabela na base de dados do DM. Esse script demorou aproximadamente cinco dias para construir toda a carga inicial dos dados. Para a carga peridica foi desenvolvido outro script disparado todo dia s 20 horas, que busca uma tabela auxiliar do DM que contm a data e hora da ultima execuo do mecanismo de carga inicial ou peridica. Baseado nessa data, uma consulta realizado na fonte de dados, buscandose apenas as linhas que foram includas ou alteradas aps essa ultima execuo. Desta forma, o script verifica registro a registro se ele j possui correspondncia no DM, se possuir o sistema faz a alterao do DM, caso o registro no conste na base do DM o mecanismo de ETL o insere. gravado tambm nessa tabela auxiliar a data e hora de incio e trmino de execuo dos scripts para monitoramento de interrupes e anlise de tempo gasto. O processo de atualizao de carga peridica demora, em mdia, cinco horas. Para a visualizao dos dados do DM, foi utilizada uma ferramenta web que mostra os dados e possui recursos de filtros, realocao, e ocultao de colunas de forma dinmica, ou seja, sem a necessidade de recarregar toda a tela no browser a cada ao do usurio, conforme apresentado na Figura 3. Esta ferramenta web no fornece recursos para a construo de cubo de dados e no possui os recursos de drill up e drill down que poderiam ser contemplados por ferramentas de visualizao OLAP existentes.

Figura 3 Ferramenta WEB de visualizao de dados do Data Mart

3.3 Desenvolvimento do Cubo de Dados Aps o processo de ETL foi necessrio para fins analticos, desenvolver o arquivo .xml do cubo de dados OLAP (On-line Analytical Processing), e para isso foi utilizado a ferramenta Schema Workbench do software Pentaho (2012). Nessa fase do projeto foram mapeadas as dimenses e definidas as mtricas da tabela de fatos a serem exibidas na ferramenta de visualizao. O modelo de um cubo desenvolvido apresentado na Figura 8.

Figura 4 Cubo OLAP

Com o cubo de dados desenvolvido, o prximo passo foi sua publicao no servidor Pentaho, ainda pela ferramenta Schema Workbench.

3.4 Visualizao OLAP A ferramenta de visualizao OLAP utilizada no estudo foi o JPivot, incluso no software Pentaho. Para acessar a visualizao do cubo necessrio criar uma nova anlise na pgina inicial da interface do servidor Pentaho, apontando para o cubo que foi publicado no servidor OLAP na ferramenta Schema Workbench. Quando o usurio analisa o cubo OLAP, o servidor OLAP internamente executa consultas MDX (Multidimensional Expressions) sobre um arquivo .xml, possibilitando assim a navegao de anlise do cubo. A Figura 9 exibe o modelo da visualizao OLAP desenvolvida, onde vrias operaes de manipulao dos dados, sob diferentes perspectivas so possibilitadas.

Figura 5 Visualizao OLAP

4 Concluses Aps seis meses de uso da ferramenta, foi colhido o depoimento do gerente de exportao o qual relatou que aps a implantao do Data Mart, foi possvel gerar estatsticas regionais e sazonais antes no mensuradas. Essas informaes possibilitaram tomadas de deciso estratgicas no departamento, fazendo com que a empresa fosse at o cliente com maior possibilidade de compra para um determinado perodo do ano. Por meio da ferramenta tambm foi gerado um ranking de maiores clientes por regio/pas do mundo, auxiliando na negociao e visando aumentar as vendas. Ainda no foi possvel uma anlise do benefcio quantitativo no setor de vendas da empresa, no
8

entanto, por depoimentos do setor beneficiado pelo Data Mart, foi constatado a aplicabilidade e viabilidade de uso dentro da organizao. O departamento de exportao se mostrou satisfeito com o resultado do estudo, pois pode obter informaes e estatsticas at ento desconhecidas e de extrema importncia para decises gerenciais futuras. O gerente de vendas j esboou desejo de ampliar o projeto, trazendo mais dados para anlise do DM e estendendo-o para outras reas da empresa. Os resultados tambm motivaram o estudo, o uso e a adoo de uma ferramenta de OLAP, a qual pode proporcionar um maior poder de anlise ao modelo de estudo que a empresa optou por usar. Com relao a trabalhos futuros, pode-se complementar os resultados obtidos com um estudo acerca das ferramentas OLAP e incorporao de dados de outros departamentos da empresa para o DM, alm de um estudo mais detalhado sobre o processo de ETL visando maior desempenho e flexibilidade. 5 Referncias BARBIERI, C. Business intelligence: modelagem e tecnologia. Rio de Janeiro: Axcel Books, 2001. HAISTEN, M. The next stage in data warehouse evolution, parts 1, 2 and 3. Junho, 1999. Disponvel em http://www.information-management.com/news/946-1.html, Acesso em 05 abril de 2012. INMON, W. H. Como Construir o Data Warehouse. 2 ed., Rio de Janeiro: Campus, 1997. KETTLE- Pentaho data integration. Disponvel em http://kettle.pentaho.com/. Acesso em 05 de maro de 2012. KIMBALL, R.; REEVES, L.; ROSS, M.; THORNTHWAITE, W. The Data Warehouse Lifecycle Toolkit: Expert Methods for Designing, Developing, and Deploying Data Warehouses. John Wiley & sons, New York, 1998. KIMBALL, R. The Data Warehouse Toolkit: Practical Techniques for Building Dimensional Data Warehouses, New York: J. Wiley, 1996. KIMBALL, R. The Data Warehouse Toolkit: Guia completo para modelagem dimensional. Traduo: Ana Beatriz Tavares, Daniela Lacerda. - Rio de Janeiro: Campus, 2002. MONTEIRO, A. V. G. Uma aplicao de Data Warehouse para apoiar negcios. Trabalho cientfico. Universidade do Estado do Rio de Janeiro, 2007. Pentaho. Disponvel em http://www.pentaho.com/. Acesso em 05 de maro de 2012. THOMSEN, E. OLAP: construindo sistemas de informaes multidimensionais. 2 Ed. Rio de Janeiro: Campus, 2002.

Você também pode gostar