Escolar Documentos
Profissional Documentos
Cultura Documentos
Londrina
2011
FLAVIO EDUARDO AOKI HORITA
LONDRINA
2011
FLAVIO EDUARDO AOKI HORITA
Primeiramente a Deus que me deu forças para concluir, mas esta etapa da minha
vida com excelência e sabedoria.
Aos meus pais, Carlos e Clarice, que desde a minha graduação me ensinaram que o
conhecimento é o único bem que ninguém tirar de nós e por isso sempre ofereceram
suporte, apoio e incentivo para que eu pudesse realizar mais este trabalho.
Ao meu orientador, Prof. Msc. Sergio Tanaka, que com toda paciência esteve
sempre corrigindo, auxiliando, orientando, ajudando com conselhos e conversas que
enriqueceram e muito este trabalho.
Aos meus grandes amigos, parceiros e irmãos, Guilherme Nunes Lobo e Fabio
Weiler Almeida, meu primo Vitor Daniel Horita e Willian Yudi Yagui, que estiveram
presentes durante o desenvolvimento do projeto com suas ideias mirabolantes,
porém muito estimulantes.
RESUMO
ABSTRACT
Business Intelligence (BI) is to use a set of technology tools for data processing
looking for information or identify technical standards in a timely manner for decision
making in an organization. Therefore, this work seeks to implement BI in a system
focused on agribusiness management to ensure that the information provided by it
are used to produce a comparative benchmarketing farmers calls Networks
Properties. With such information, a set of social references, technical and economic
will be identified to produce in performance indicators (KPI - Key Performance
Indicators) which served for the preparation of a primer with the best practices
among the network properties. This primer will be conducted with the aim of reducing
production costs, material waste and increase production at its core properties.
Moreover, this work presents a proposal for dimensional modeling for analysis of
financial information of the proposed environment, their routines of extraction,
transformation and loading of data found in production databases for the Data
Warehouse (DW) used by BI. For the application was used to the tools that the suite
Pentaho Open Source Community implemented in the database of the integrated
system GISAWEB that computerizes Networks Properties in Parana, coordinated
program by IAPAR EMATER-PR. With the development of this work was proposed a
data model to obtain relevant information to support decision in the agricultural
environment and also present a proposal for structuring the BI to the same
environment. The application of the structure and the data model proposed on the
case study was possible crossing some data to construct relevant information for
decision making, for example, crossing activities with time to discover what is the
activity better for the time.
1. Introdução ............................................................................................................... 14
1.1. Justificativa........................................................................................................ 16
1.2. Objetivos ........................................................................................................... 16
1.3. Objetivos gerais ................................................................................................ 16
1.4. Objetivos específicos ........................................................................................ 16
1.5. Metodologias utilizadas ..................................................................................... 17
2. Revisão de literatura .............................................................................................. 19
2.1. Business Inteligence ......................................................................................... 19
2.1.1. Ferramentas do BI.......................................................................................... 20
2.1.1.1. Ferramentas de Construção ........................................................................ 20
2.1.1.2. Ferramentas de Armazenamento ................................................................ 21
2.1.1.3. Ferramentas de Gerência ........................................................................... 21
2.1.1.4. Ferramentas de Uso.................................................................................... 22
2.2. Data warehouse (DW) e Datamart (DM) ........................................................... 23
2.3. Modelagem Dimensional (MD) .......................................................................... 25
2.3.1. Tabelas Fato .................................................................................................. 26
2.3.2. Tabelas Dimensão ......................................................................................... 27
2.3.3. Esquema Estrela (Star Join Schema) ............................................................ 28
2.4. Redes de Propriedades de Referências............................................................ 30
2.5. Benchmarketing ................................................................................................ 32
2.6. Considerações Finais ........................................................................................ 32
3. Aplicaçao do Business Intelligence (BI) no estudo de caso .............................. 35
3.1. Fundamentação teórica..................................................................................... 35
3.2. Contextualização do estudo de caso ................................................................ 36
3.2.1. Definição do escopo do Business Intelligence ............................................... 38
3.3. Modelagem dimensional do Data Warehouse................................................... 38
3.3.1. Dimensão Tempo ........................................................................................... 39
3.3.2. Dimensão Área .............................................................................................. 39
3.3.3. Dimensão Tipo ............................................................................................... 40
4. Resultados e discussão......................................................................................... 43
4.1. Kettle ................................................................................................................. 43
4.2. Schema Worchbench e Report Designer .......................................................... 45
5. Conclusões ............................................................................................................. 49
6. Referências ............................................................................................................. 51
APÊNDICE A ............................................................................................................... 54
14
1. INTRODUÇÃO
1
Cubo: Uma estrutura de dados que agrega as medidas pelos níveis e hierarquias de cada uma das
dimensões. Os cubos combinam várias dimensões (como hora, geografia e linhas de produtos) com
dados resumidos (como os números de vendas ou de registros). São dados materializados, em alguns
casos e é o meio que nos possibilita análises multidimensionais. (SODRÉ, 1997).
16
1.1. JUSTIFICATIVA
1.2. OBJETIVOS
ou que contribuem para a ocorrência dos fenômenos. Estes foram os tipos de estudo
escolhidos, pois pretende-se além de abordar e explicar o tema com mais clareza e
procura-se descrever os passos realizados para a elaboração da arquitetura do
Business Intelligence (BI).
E por está pesquisa também ser uma pesquisa descritiva, adotou-se como sua
natureza de pesquisa a qualitativa, pois ela além de não utilizar métodos e técnicas
estatísticas ela adota o processo e seu significado como os focos principais de sua
abordagem (SILVA & MENEZES, 2001, p.20).
19
2. REVISÃO DE LITERATURA
2.1.1. FERRAMENTAS DO BI
2
Granularidade tem a ver com o nível de detalhamento do comportamento de um objeto que é exposto.
Quão mais bem detalhado é o comportamento do seu objeto é exposto, mais fina é sua granularidade.
22
Com as ferramentas que o mercado oferece fica difícil definir qual conjunto ou
quais ferramentas devem ser utilizadas para implantar o BI em uma empresa. É
importante ressaltar que tudo irá depender da sua necessidade da empresa, ou seja,
esta deverá definir o conjunto de ferramenta que julgar necessário para atender suas
expectativas, porém este conjunto deve oferecer informações seguras, concretas com
o menor tempo e custo possível.
23
3
Os bancos de dados transacionais, ou operacionais, armazenam as informações das transações diárias da
empresa, são utilizados por todos os funcionários para registrar e executar operações pré-definidas, por isso seus
dados podem sofrer constantes mudanças. Por não ocorrer redundância nos dados e as informações históricas não
ficarem armazenadas por muito tempo, este tipo de banco de dados não exige grande capacidade de
armazenamento (SOLFA, 2008, p.16).
25
4
A normalização das tabelas procura eliminar a redundância de dados em suas tabelas, ou seja, uma
tabela Produtos deve ser composta unicamente por campos que estejam relacionados a produtos e não
por campos vinculados a pedidos, notas fiscais ou clientes. Maiores Informações em:
<http://phlonx.com/resources/nf3/>.
26
Porém para os ambientes gerenciais onde diversos dados são cruzados a fim
de obter informações importantes para o negócio, ambiente este em que o BI está
mais focado, a massa de dados em que as consultas são realizadas são maiores do
que no ambiente operacional e por este motivo o DER pode ser inapropriado. Para
Kimball (2002, p.12) a Modelagem Dimensional (MD) é mais recomendada para este
tipo de aplicação, pois este contém a mesma informação que no DER, mas agrupa os
dados em um formato que melhora a clareza do usuário e desempenho da consulta
através da diminuição do grau de normalização. A MD também é conhecida como Star
Join Scheme (Modelo Estrela).
Geralmente uma tabela fato apresenta poucas colunas, porém elas consomem
em media 90% do espaço de um DW devido à elevada quantidade de dados que elas
guardam. SOLFA (2005 apud LEME FILHO, 2004, p.176).
empresa podem ser estudadas pelas transportadoras, pelas seguradoras, por regiões
de destino ou por período de entregas. É possível medir a eficiência das
transportadoras, calcular o índice de sinistros com as seguradoras, analisar quais são
as regiões com maior (ou menor) volume de entregas ou ainda quais são os cúmulos
de entrega.
Estas tabelas são compostas basicamente por colunas que contêm elementos
textuais que descrevem o negócio e uma chave primária que irá compor a chave
composta de sua tabela fato. A identificação de uma tabela dimensão é facilmente
perceptível através da utilização da palavra “por”; por exemplo, quando desejamos
saber o a quantidade de venda de um determinado produto “por” vendedor e “por”
bairros, o a quantidade de venda representa um fato e o vendedor e os bairros
representam as dimensões. A Figura 6 representa um exemplo de tabela dimensão de
produto.
região, por que para esses não se trata somente de buscar o aumento da produção e
do rendimento dos produtos cultivados, mas, principalmente, o sistema de produção
que melhor se adapta às suas condições ecológicas e socioeconômicas (MIRANDA,
et. al., 2001) como apresentado na Figura 4.
2.5. BENCHMARKETING
Este capítulo fez uma breve descrição dos conceitos que foram abordados
neste trabalho.
Sobre os DW e DM é válido lembrar que sua grande maioria apresenta uma
estrutura dimensional ao contrário dos repositórios de produção que possuem uma
estrutura relacional isso por que a MD procura construir uma tabela que representa
essencialmente uma regra de negócio (vendas, compras, produção) com métricas e
dados aditivos sendo esta conhecida como tabela fato. Esta tabela se relaciona com as
tabelas dimensões que refere-se ao contexto onde acontece o fato, tais como tempo,
33
Este capítulo tem como objetivo apresentar como foi aplicado o BI no estudo
de caso, um sistema integrado para controle agropecuário. É apresentado um
processo para construção do DW utilizando a suíte Pentaho Open Source Community,
que exerce um papel de grande importância oferecendo as ferramentas para geração
de informação para a tomada de decisão. Para tanto a metodologia do trabalho segue
os seguintes passos:
Durante a fundamentação teórica deste trabalho foi estudado uma das formas
com que os produtores rurais de uma mesma região podem definir quais são as
práticas que melhor se adaptam para as determinadas atividades5 aplicadas, a esta
damos o nome de Redes de Propriedades de Referência6. Entretanto, para que esta
rede chegue ao sucesso é necessário que exista um sistema informatizado integrado
onde são inseridos dados quantitativos e qualitativos relacionados com a sua produção
e neste contexto a técnicas escolhidas e estuda para a definição dos índices que
melhor se adapta para a situação é através do benchmarketing.
5
Entende-se com atividades qualquer sistema de produção que componha o sistema produtivo da
propriedade como um todo. Como exemplo de atividades soja, milho, trigo, leite, bovinos de corte,
laranja, tomate, ervilha, melancia dentre outros.
6
Uma rede é um conjunto de propriedades representativas de determinado sistema de produção
familiar, que após um processo de otimização visando ampliação de sua eficiência e sustentabilidade,
servem como referência técnica e econômica para as outras unidades por ela representadas.
(MIRANDA e DOLIVEIRA, 2005)
36
pelo lucro e prejuízos gerados pela junção de despesas7 e receitas8, ou seja, o fator
determinante para o lucro da atividade em questão é a diferença entre a renda e os
custos. De posse desta informação o administrador consegue tomar as principais
decisões de uma empresa bem como saber sua viabilidade econômica ou definir o
benchmark para comparação com outras atividades.
O sistema GISAWEB apresenta todos os relacionamentos para que
proprietário ou responsável pela assistência técnica da propriedade possa chegar às
informações descritas no parágrafo anterior. O sistema realiza estas movimentações
de rendas e custos vinculadas com uma área da propriedade sendo a área vinculada
com uma atividade (uma vez que as propriedades podem ser divididas em áreas para
alocação de diferentes atividades como, por exemplo, criação de gado e cultivo de
soja) e vinculadas com um determinado produto devidamente categorizado (vacina de
aftosa como vacinas e medicamentos para bovinos, por exemplo); além disso, o
sistema separa as despesas em fixas e variáveis para oferecer uma analise mais
detalhada da composição das movimentações. Somente através destes
relacionamentos o administrador consegue responder algumas perguntas que serão
relevantes para uma possível tomada de decisão seguem exemplos:
sua chave;
o nome descritivo da área;
o nome da propriedade vinculada; e,
o nome do grupo.
40
a chave do tipo;
o tipo de custo: Receitas ou Despesas;
sua subclassificação: Fixa, Variável ou Despesas Administrativas.
Estes são apenas alguns dos exemplos de analises que podem ser extraídas
do modelo proposto. Entretanto, vale ressaltar que o nível de granularidade definido
para este modelo tem como objetivo apresentar informações claras e objetivas sobre
as movimentações financeiras de uma propriedade; caso seja necessário uma analise
mais aprofundada será necessário redefinir as granularidades que compõe as tabelas.
Todo o modelo dimensional descrito anteriormente é apresentado na Figura 10.
43
4. RESULTADOS E DISCUSSÃO
4.1. KETTLE
O Kettle (Pentaho Data Integration, PDI) é uma das ferramentas que compõe a
suíte open source do Pentaho. É uma ferramenta que oferece diversas funcionalidades
para elaboração do processo de ETL, desde a extração dos dados dos repositórios de
origem até a integração dos mesmos e carga no repositório de destino.
Para realização das funcionalidades citadas a ferramenta divide-se em dois
tipos de atividades, Jobs (Trabalhos) e Transformation (Transformações). Nas
transformações elaboramos o processo de transformação de dados; a extração dos
dados relevantes para construção de uma tabela dimensão, por exemplo. O processo
de transformação é composto por um conjunto de steps (passos) ligados entre si por
uma linha para representar seu fluxo (hops). Na ferramenta estes passos são
9
O termo código aberto, ou open source em inglês, foi criado pela OSI (Open Source Initiative) e
refere-se a software também conhecido por software livre.
44
agrupados por categorias e podem ser deste a leitura de um parâmetro até a validação
de um cartão de crédito. A Figura 11 apresenta como exemplo a transformação dos
dados desde a extração dos lançamentos financeiros no repositório de origem, no caso
o banco de dados do GISAWEB até o passo de inserção dos dados transformados no
DW utilizado pelo BI.
Figura 11 - Passos para transformação dos dados da tabela de fato Movimentação Financeira.
Esta transformação tem como objetivo gerar dados para a dimensão tempo.
Como se pode ver o processo inicia com a geração de registros para 20 anos a partir
de janeiro de 1997. No passo calculate dimension atributes através de funções Java
são gerados dados separados, ou seja, a partir de uma data extrai-se seu dia, ano, dia
da semana para que eles sejam gravados em suas respectivas colunas.
45
Para que o DW possa oferecer informações precisas em tempo real para seus
usuários é necessário que o processo de ETL seja executa periodicamente ou
automaticamente ou por um responsável. Em geral, este processo pode ser composto
por diversas transformações; por exemplo, geralmente os projetos de BI são
compostos por mais de uma tabela de dimensão e ao menos uma tabela de fato, ou
seja, para cada uma das tabelas pode ser necessário uma transformação sendo
necessário á execução individual de todas essas transformações.
Uma forma de facilitar e/ou automatizar este processo periódico é elaborando
um job (Trabalho). Este pode ser composto por um conjunto de transformações, ou
ações como enviar e-mail, transferir arquivos ou executar instruções em JavaScript,
SQL ou Shell. A Figura 13 apresenta o conjunto de transformações utilizadas no
estudo de caso.
Ressalta-se que assim como nas transformações os passos nos Jobs são
ligados entre si por linhas que representam seu fluxo de execução, também nomeados
de Hops.
administrativas que compõe as despesas e qual foi à receita por ano e através de um
drill-down podemos visualizar esses valores por meses.
5. CONCLUSÕES
6. REFERÊNCIAS
APÊNDICE A
1
Acadêmico do Curso de Especialização em Engenharia de Software com
UML do Centro Universitário Filadélfia – Unifil, Londrina-PR, Brasil
2
Docente do Curso de Especialização em Engenharia de Software com UML
do Centro Universitário Filadélfia – Unifil, Londrina-PR, Brasil
Resumo
Introdução
Entretanto, ressalta-se
que por se tratar de um
conjunto de ferramentas que
trabalham com transformações
de dados primitivos e geração
de informações, é mais
10
Os dados primitivos são os dados operacionais e podem ser atualizados.
11
Os dados derivados são dados resumidos ou calculados de forma a atender às necessidades da gerência da
empresa
57
Metodologia e Aplicação
Resultados
Antes da realização das etapas descritas pelo modelo concluiu-se que seria
necessária a realização de uma etapa adicional antes de iniciar a modelagem do
data warehouse. Nesta etapa objetivou-se saber quais os dados primitivos que
seriam transformados para derivados no data warehouse, ou seja, compreender
toda a estrutura de dados do sistema integrado disponível no ambiente de produção,
no caso sistema GISAWEB, e com base neste entedimento construir e estruturar o
processo de ETL14.
12
Suíte de ferramentas open source da empresa Pentaho (http://community.pentaho.com/).
13
Sistema de Gerenciamento Integrado de Sistemas Agropecuários na WEB
14
Sigla que significa Extract, Transform and Load, no português Extração, Transformação e Carga.
60
eficiência da pecuária passou a Figura 5 - Modelagem de Dados proposta para Análise das
Movimentações Financeiras em estudo.
ser representada pelo lucro e
prejuízos gerados pelas conjunção de despesas15 e receitas16, ou seja, o fator
determinante para o lucro da atividade em questão passou a ser representado pela
diferença entre a renda e os custos. E assim, obter informações para a correta
compreensão financeira da propriedade é de suma importância para o produtor
moderno.
Para isto, foi proposto a arquitetura de dados apresentada na Figura 5. Nela
pode-se observar a existência de 4 tabelas dimensão (Tipo, Área, Tempo, Atividade)
ligadas a uma tabela de fato (Movimentações Financeiras). A dimensão Tempo é
composta pelos dados descritivos com relação ao tempo do fato. Além dela, a
dimensão Tipo representa os tipos de movimentações financeiras que o fato pode
representar (custo fixo, variável, receita ou despesa); enquanto a dimensão
Atividade que traz todas as informações sobre as atividades que praticadas nas
propriedades (trigo, leite, bovinos de corte, laranja); e por fim a dimensão Área
engloba todas as informações de uma area de produção (sua propriedade e seu
grupo).
15
A soma dos valores de todos os recursos (insumos e serviços) utilizados no processo produtivo de uma atividade
agrícula, em um certo período de tempo representam os custos de produção [6].
16
Segundo Aguiar e Resende [6], a renda ou receita bruta é o fruto do somatório do volume vendido multiplicado
pelo preço unitário de cada produto.
61
Discussão e conclusões
Agradecimentos
Referências Bibliográficas
[1] PRISMAK, F. V. Decisões com B.I. (Business Intelligence). Rio de Janeiro: Ed. Ciencia
Moderna Ltda., 2008.
[2] MIRANDA, M., PASSINI, J. J., MIRANDA, G. M., RIBEIRO, M. F. S., SOARES
JÚNIOR, D. A busca de referências técnicas e econômicas para o desenvolvimento da
agricultura familiar no estado do Paraná através de uma rede de propriedades. In: IV Encontro
da Sociedade Brasileira de Sistemas de Produção, 2001, Belém. Anais. Belém: Sociedade
Brasileira de Sistemas de Produção, 2001.
[4] KIMBALL, R. The data warehouse toolkit: the complete guide to dimensional
modeling. 2 ed. New York: Wiley Computing Publishing, 2002.