Escolar Documentos
Profissional Documentos
Cultura Documentos
DO PARANÁ
PROGRAMA DE PÓS-
GRADUAÇÃO EM INFORMÁTICA
ESPECIALIZAÇÃO EM TECNOLOGIA JAVA
CAIO MORENO DE SOUZA
INTEGRAÇÃO DE FERRAMENTAS LIVRES
APLICADAS A
BUSINESS INTELLIGENCE:
LINUX, JAVA, PENTAHO, GOOGLE MAPS E
ANDROID.
MONOGRAFIA DE ESPECIALIZAÇÃO
CAIO MORENO DE SOUZA
INTEGRAÇÃO DE FERRAMENTAS LIVRES
APLICADAS A BUSINESS INTELLIGENCE:
LINUX, JAVA, PENTAHO, GOOGLE MAPS E
ANDROID.
RESUMO
Palavras-chave
: Data Warehouse; Business Intelligence; software livre;
estratégias competitivas, tecnologia java, descoberta de conhecimento, data
mining, mapas, sistemas de apoio a decisão, open source, google android.
ABSTRACT
Curitiba, 2010.
Any company that wants to compete intelligently must turn their eyes to its
internal data and to the data available on the market, arranging them in
order to transform this mass of data into relevant information for decision
making.
Keywords
: Data Warehouse; Business Intelligence; free software;
competitive strategies, java technology, knowledge discovery, data mining,
maps, systems decision support, open source, google android.
LISTA DE FIGURAS
Figura 1
Figura 2
Figura 3
Cubo OLAP
Figura 4
Figura 5
Servidor de BI Pentaho
Figura 6
–
Arquitetura Servidor de BI Pentaho
Figura 7
Figura 8
Figura 9
Figura 10
Tabela Fato_Venda
Figura 11
Tabela Dim_CanalVenda
Figura 12
Tabela Dim_Tempo
Figura 13
Tabela Dim_Cliente
Figura 14
–
Tabela Dim_Produto
Figura 15
Tabela Dim_Vendedor
Figura 16
Figura 17
Figura 18
Figura 19
Escolhendo as métricas
Figura 20
Figura 21
Figura 22
–
Figura 23
Figura 24
Figura 25
Figura 26
Figura 27
Figura 28
Figura 29
–
Recurso de Drill Through
Figura 30
Possibilidades JPivot.
Figura 31
Painel Faturamento
Figura 32
Figura 33
Figura 35
Figura 36
Figura 37
–
Figura 38
LISTA DE ABREVIATURAS
BD
Banco de Dados
JCP
DW
Data Warehouse
OLAP
OLTP
SGBD
SQL
PSW
Pentaho Schema Workbench
PDS
PRD
PDI
PUC
PAC
PME
WAQR
API
BI
Business Intelligence
ETL
ETC
JDBC
JNDI
Java Naming and Directory Interface
JRE
JVM
KETTLE
Multi-Dimensional Expressions
PCI
Pre-Configured Installation
PPL
XML
DDL
CEO
ABSTRACT.....................................................................................................
....................................5
LISTA DE
FIGURAS.........................................................................................................
..................6
LISTA DE
ABREVIATURAS...........................................................................................
...................7
1.
INTRODUÇÃO...............................................................................................
...............................10
1.1
Apresentação....................................................................................................
........................10
1.2 Descrição do
problema...........................................................................................................
.11
1.3
Justificativa......................................................................................................
........................11
1.4 Objetivo
geral..................................................................................................................
.........11
1.5 Objetivos
específicos........................................................................................................
.......11
1.6
Metodologia.....................................................................................................
........................12
2 BUSINESS
INTELLIGENCE.............................................................................................
...........13
2.1
Conceitos..........................................................................................................
.......................13
2.3.2 Linux
..........................................................................................................................
....14
3 DATA
WAREHOUSE.................................................................................................
...................21
3.1
Conceitos..........................................................................................................
.......................21
3.2.5 Ferramentas
OLAP..........................................................................................................23
4. BI COM
PENTAHO.......................................................................................................
...............26
4.1 História da
Pentaho.............................................................................................................
.....26
4.3
Licença.............................................................................................................
........................27
4.4
Possibiliades.....................................................................................................
........................28
4.5
Mobilidade.......................................................................................................
........................28
4.6
Vantagens.........................................................................................................
........................28
4.7 Pentaho BI
Suite.................................................................................................................
.....28
4.8 Pentaho BI
Server...............................................................................................................
.....29
5.2 Processos de
ETL..................................................................................................................
...35
5.2.2 Modelagem
Dimensional.................................................................................................35
5.3 Cubos
OLAP................................................................................................................
............41
5.5 Google
Android............................................................................................................
............56
6. CONCLUSÕES
..........................................................................................................................
...60
7.
BIBLIOGRAFIA.............................................................................................
...............................61
1. INTRODUÇÃO
1.1 Apresentação
1.3 Justificativa
Um projeto de
Business Intelligence baseado em ferramentas de código
aberto pode ser a
solução ideal para pequenas, médias e grandes empresas
devido ao baixo custo de investimento e a
alta qualidade, o que torna a
relação custo beneficio extremamente favorável.
•
Ajudar pequenas e médias empresas (privadas ou públicas) a desenvolver
com poucos
recursos financeiros uma solução de Business Intelligence, ou
pelo menos servir de material
de pesquisa para o planejamento de uma
futura implementação de Business Intelligence;
2 BUSINESS INTELLIGENCE
2.1 Conceitos
Com o passar dos anos muitas ferramentas foram criadas com o intuito de
ajudar na criação
de uma solução de Business Intelligence e o termo tornou-
se extremamente popular no mundo dos
negócios.
O termo
Open Source traduzido para o português significa código aberto,
porém também é
conhecido como software livre.
(liberdade 2).
2.3.2 Linux
Como pode em tão pouco tempo a tecnologia Java estar tão presente em
nossas vidas?
Recentemente a Sun Microsystems, empresa criadora da
tecnologia Java, divulgou uma propaganda
chamada Java is Everywhere e
nos fez refletir a influência que essa tecnologia tem em nossas vidas.
• Java Enterprise Edition (Java EE), Enterprise Java Beans (EJB) para
aplicações
corporativas;
• Java Server Pages, servlets, struts, JSF, etc para aplicações web;
Programa.java
API Java
Máquina virtual Java
Plataforma de hardware
Figura 1 – Funcionamento Tecnologia Java
Fonte: UTFPR – Slides das
Aulas de Linguagem Java
Exemplo.java
public class Exemplo
{
System.out.println(“Exemplo”);
System.exit(0);
}
Compilador Java
Exemplo.class
-------------------
------------------
-------------------
-------------------(bytecode Java)
Máquina virtual
Máquina virtual
Máquina virtual
Java
Java
Java
Código
nativo
PDA
Código nativo PC
Código nativo
celular
Figura 2 – Funcionamento
Tecnologia Java
Fonte: UTFPR – Slides das Aulas de Linguagem Java
A
frase mais importante no mundo Java idealizada por seus criadores é: “Write
once, run
everywhere.”. A tradução para o português é: “Escreva uma vez,
execute em qualquer lugar”.
2.3.5 Vantagens da Tecnologia Java
A cada dia a tecnologia Java apresenta mais e mais vantagens para sua
adoção, a maior
delas é a independência de plataforma, ou seja, um
programa feito em Java pode rodar em qualquer
plataforma, basta que o
dispositivo tenha uma JVM.
• Orientada a Objetos;
• Não existe “vendor lock-in”- caso você fique insatisfeito com seu
fornecedor, pode
procurar outro;
• Sun Microsystems;
• IBM;
• Oracle;
• BEA Systems;
• RedHat;
• Novell;
• Xerox;
• Comunidade Java.
3.1 Conceitos
Define-se
Data Warehouse (DW) como sendo o local onde são armazenados
os dados
importantes de uma empresa; esses dados são catalogados de forma
organizada e estruturada. Na
grande maioria das vezes utiliza-se a
modelagem multi-dimensional na construção de um DW.
•
Integrado: Através de um processo que chamamos de ETL (Extração,
Transformação e
Carga) os dados, oriundos de diversas fontes de dados, são
extraídos, combinados, limpos,
eliminados, desnormalizados, normalizados,
calculados, etc; então são enviados de forma
organizada e consolidada para o
DW, de forma que passa a ter um único significado perante a
empresa;
• Não volátil: Significa dizer que o Data Warehouse permite apenas a carga
inicial dos dados
e consultas a estes dados, ou seja, após serem integrados,
transformados e incluídos, os dados não
podem ser alterados.
3.2.2 Construção do Data Warehouse
De acordo com Kimball (1997) o
processo de construção de um Data Warehouse é composto
de nove etapas.
São elas:
1)
Selecionar o processo de negócio a ser modelado – por exemplo: analisar
o
faturamento da empresa medindo quantidade de produtos vendidos e valor
das
vendas;
3)
Escolher as dimensões que se aplicam à cada linha da tabela de fatos;
A) Fonte de dados
- Na grande maioria dos DW, os dados provêm de várias
fontes diferentes e
independentes, podendo ser essas fontes as bases de
dados dos sistemas transacionais, planilhas
excel, etc.
B) Extração
- Significa a leitura e entendimento das fontes de dados e a
cópia das partes
necessárias para a área de transformação de dados, com o
intuito de serem trabalhadas
posteriormente. Um grande desafio no processo
de extração é determinar quais dados são realmente
importantes e quais tipos
de filtros aplicar. Essa tarefa é uma das atividades que mais consome
tempo
na construção do DW. Uma dica é perguntar ao patrocinador do projeto
quais são as
informações relevantes ao projeto e simplificar ao máximo o
processo de extração, poupando
recursos e tempo. Não vale a pena ter
diversas informações no DW, o ideal é ter apenas as
informações mais
importantes ao negócio.
C) Transformação
– Esta etapa do processo de ETL é valiosa para o
negócio; consiste em realizar
uma série de atividades sobre os dados
extraídos, de modo a convertê-los em formato adequado
para carga no data
warehouse. Algumas etapas da transformação dos dados de origem são:
1) Limpeza
4) Desnormalização e Normalização
Figura 3
– Cubo OLAP
Fonte: IT4biz
Um cubo OLAP é composto de uma tabela fato
e algumas tabelas de dimensões. As
definições e exemplos desses termos
seguem abaixo:
1) Tabela Fato
– Tabela onde armazenam-se as chaves das dimensões e as
métricas.
Existem muitas outras ferramentas poderosas de Data Mining que podem ser
utilizadas a fim
de enriquecer as decisões tomadas pelas empresas. Um
exemplo clássico é o supermercado WalMart, que ao utilizar Data Mining
percebeu que colocar uma lata de cerveja perto das fraldas
aumentaria
consideravelmente as vendas, visto que a mesma pessoa que comprava
fralda na sextafeira comprava cerveja, pois provavelmente passaria a sexta-
feira cuidando do filho pequeno e
tomando cerveja em casa.
4. BI COM PENTAHO
4.1 História da Pentaho
Desde seu inicio a empresa possui sua sede em Orlando, Flórida, e conta
com colaboradores
vivendo em diversas partes do mundo. A Pentaho
Corporation é a desenvolvedora principal das
ferramentas de Business
Intelligence contidas em sua Suite.
Por exemplo, o Kettle, desenvolvido por Matt Casters, foi incorporado pela
Pentaho em
2006 e passou a chamar-se PDI (Pentaho Data Integration);
desta forma Matt Casters, o
desenvolvedor mais importante, começou a
trabalhar junto com a Pentaho.
Apenas uma curiosidade: em 2009, enquanto jantava com Matt,
conversamos um pouco a
respeito de sua vida pessoal e ele me informou que
ainda vivia na Bélgica e trabalhava nos projetos
da Pentaho de forma
remota, fazendo apenas algumas visitas à sede da empresa em Orlando.
Por fim, mais uma importante aquisição em 2006 foi o projeto WEKA. Um
dos principais
desenvolvedores deste projeto, o Sr. Mark Hall, incorporou-se
à Pentaho, tornando-se o Engenheiro
Sênior de Data Mining da Pentaho, e o
projeto WEKA passou a ser conhecido como Pentaho Data
Mining.
4.3 Licença
•
Projeto 100% Java;
• Escalável;
• Confiável;
• Open Source;
• Independente de Fornecedor;
4.12 WEKA
•
Sistema Operacional Linux;
• Pentaho BI Server.
Lista do que deve ser instalado nas maquinas dos desenvolvedores de BI:
•
Sistema Operacional;
•
Total (R$) e Quantidade de Produtos Vendidos;
◦ Por:
▪ Vendedor;
▪ Canal de Venda;
▪ Cliente;
▪ Produto;
▪ Tempo.
Métricas:
qtd_produtos = Quantidade de Produtos vendidos
total_venda =
Valor Total (R$) da Venda.
Figura 10 – Tabela Fato_Venda
Relacionamentos:
fato_venda.id_cliente → dim_cliente.id_cliente
fato_venda.id_canalvenda → dim_canalvenda.id_canalvenda
fato_venda.id_vendedor → dim_vendedor.id_vendedor
fato_venda.id_produto → dim_produto.id_produto
fato_venda.id_tempo →
dim_tempo.id_tempo
Tabela: dim_canalvenda
Figura 11 – Tabela
Dim_CanalVenda)
Fonte: Sistema Desenvolvido para a Monografia
Tabela: dim_tempo
ano → Ano
trimestre → Trimestre
mes → Mês
Tabela: dim_cliente
Figura 13 – Tabela Dim_Cliente
Fonte: Sistema Desenvolvido para a Monografia
Tabela: dim_vendedor
Figura 15 – Tabela
Dim_Vendedor
Fonte: Sistema Desenvolvido para a Monografia
Figura 16 – Exemplo de
ETL usando o PDI
Fonte: Sistema Desenvolvido para a Monografia
Componentes:
6. CONCLUSÕES
7. BIBLIOGRAFIA
KIMBALL, Ralph, The Data Warehouse Toolkit.
John Wiley & Sons,Inc, 1996.
BATES & SIERRA. Use a Cabeça! Java.
O'REILLY, 2009.
BOUMAN & DONGEN, Pentaho Solutions: Business
Intelligence and Data Warehousing with
Pentaho and MySQL. Wiley,
2009.
GORMAN, Will, Pentaho Reporting 3.5 for Java Developers. Packt
Publishing, 2009.
ROLDÁN, María. Pentaho 3.2 Data Integration:
Beginner's Guide. Packt Publishing, 2010.
Pentaho. Definições sobre o
Produto Pentaho BI Suite. Disponível em:
<http://www.pentaho.com>.
Acesso em: 16 de Junho de 2010.
DIXON,
James.
The
Beekeeper.
Disponível
em:
<http://wiki.pentaho.com/display/BEEKEEPER/The+Beekeeper>. Acesso
em: 16 de Junho de
2010.