Você está na página 1de 10

pentaho_

Open Source
Business
Intelligence com
Conheça o ambiente de BI livre mais
utilizado no Brasil e saiba como essa
poderosa ferramenta foi construída sobre
a plataforma Java

Givanildo Santana do Nascimento | gsnascimento@gmail.com


é graduado em Sistemas de Informação, especialista em Melhoria de Processos de Software e mestre em Ciência da Computação.
Possui as certificações Certified Function Point Specialist, Sun Certified Java 2 Platform Programmer e Sun Certified Web Component
Developer for J2EE Platform. Trabalha como analista de Sistemas na Petrobras, desenvolvendo soluções de TIC para Exploração e
Produção de Petróleo. É sócio-diretor da empresa MPS Soluções em Tecnologia da Informação, na qual atua como consultor em TI
e conduz um projeto de Bussiness Intelligence para o Poder Judiciário brasileiro. É membro da equipe técnica da Revista MundoJ,
escrevendo e revisando artigos e cobrindo eventos de tecnologia no Brasil e no exterior.

O termo Business Intelligence (BI) define um con-


junto de conceitos e métodos para melhorar a
tomada de decisão por meio de sistemas baseados
representa a habilidade de se estruturar, integrar e
explorar informações normalmente guardadas em
estruturas de Data Warehouse (DW) e Data Marts
em dados e informações. Trata-se de um termo am- (DM), com o objetivo de desenvolver percepções, en-
plo que combina arquitetura, ferramentas, bancos tendimentos e conhecimentos capazes de conduzir
de dados, aplicações, processos e metodologias, no organizações a um melhor processo de tomada de
contexto dos sistemas de suporte à decisão. O BI decisão (BARBIERI, 2011).

Aplicativos Data Mart


operacionais

Software de
automação de E
escritórios T OLAP
L
Dados externos

Data Mining
Equipamentos de
automação

EXTRAÇÃO, TRANSFORMA-
FONTES DE DADOS ÇÃO E CARREGAMENTO DATA WAREHOUSE EXPLORAÇÃO
Figura 1. Componentes de um ambiente BI. Fonte: Cazella (2011).

/ 20
Java
e Pentaho BI Suite
Community Edition
A maioria das ferramentas e aplicações de Business Intelligence são
tidas como custosas e complexas. De fato, integrar um grande volu-
me de dados e deles extrair informações que suportem a tomada de
decisões não é uma tarefa simples. Porém muitos projetos de BI não
dispõem de orçamentos capazes de patrocinar a aquisição de ferra-
mentas comerciais com custos expressos em quatro ou mais dígitos,
em dólares. Esses custos elevados impediriam o início de muitos pro-
jetos executados por empresas de pequeno e médio porte. Por outro
lado, os recursos de integração de dados e análise de informações
oferecidos pelas ferramentas comerciais são muito importantes no
desenvolvimento de aplicações de BI profissionais. A solução desse
problema técnico-econômico pode ser encontrada nas ferramentas
livres de BI. Este artigo apresenta o Pentaho BI Suite Community
Edition, a ferramenta de BI livre mais utilizada no Brasil, desenvol-
vida sobre a plataforma Java.

O ambiente de BI, ilustrado na figura 1, é com- em todo o mundo, de acordo com os relatórios anuais
posto pelas fontes de dados operacionais, pelos pro- do Gartner Group. A tabela 1 mostra que o BI integra
cessos de Extração, Transformação e Carregamento a lista das dez maiores prioridades em Tecnologia da
(ETL), pelo DW, DM e pelos métodos de exploração. Informação (TI) desde 2005 e esteve no topo dessa
Os dados operacionais são carregados nas bases DW lista por quatro anos consecutivos, de 2006 a 2009.
e DM por processos ETL. Durante a carga, os pro- De uma forma mais ampla, as empresas priorizaram
cessos ETL também realizam operações de limpeza, a melhoria dos processos de negócios, entendendo
preenchimento e correção nos dados. Após serem que as informações e o conhecimento fornecidos pe-
carregados no DW, os dados preenchem os DM mo- las aplicações de BI são elementos essenciais para
delados de forma dimensional, orientados a assun- o aumento da eficiência e da efetividade, suporte à
tos ou processos de negócio. O DW e os DM são en- competitividade e à inovação. Assim, investimen-
tão explorados pelo usuário utilizando ferramentas tos em aplicações de BI focadas em mineração de
de processamento analítico OLAP e técnicas de mi- dados aumentaram 4,8% de 2005 para 2006 e 11,2%
neração de dados (CAZELLA, 2011). de 2007 para 2008 (GARTNER GROUP, 2005a, 2005b,
O número de projetos de BI cresceu rapidamente 2006, 2007, 2008, 2009, 2010, 2011).

21 \
NEW ANALYSIS VIEW NEW REPORT MANAGE CONTENT NEW DATA SOURCE

Figura 2. Componentes do Pentaho integrados. Fonte: http://community.pentaho.com/.

Tabela 1. Prioridade das aplicações de BI de 2005 a 2011. aplicação desenvolvida não atenderia aos recursos de
informação e usabilidade do cliente.
PRIORIDADE MELHORAR
PRIORIDADE O Pentaho é uma plataforma de BI livre desen-
ANO PROCESSOS DE volvida em Java e mantida pela empresa Pentaho
BI
NEGÓCIO
Corporation, com o apoio de uma comunidade cres-
2005 1ª 2ª cente de desenvolvedores no Brasil e em todo o mun-
2006 1ª 1ª do. Os componentes do Pentaho contemplam ferra-
2007 1ª 1ª mentas de integração de dados (ETL) e metadados,
2008 1ª 1ª relatórios, dashboards, análises OLAP, gestão de con-
2009 1ª 1ª teúdo e mineração de dados. A figura 2 mostra como
esses componentes são combinados em um ambiente
2010 1ª 5ª
orientado à analise de dados e informações. Ao inte-
2011 5ª 5ª
grar esses componentes, a plataforma Pentaho possi-
Fonte: Gartner Group (2005b, 2006, 2007, 2008, 2009, 2010, 2011). bilita o desenvolvimento de soluções complexas para
Contudo, o agravamento da crise financeira in- problemas de negócios que demandam o processa-
ternacional provocou cortes significativos nos or- mento de grandes volumes de dados.
çamentos de TI a partir de 2009. Isto fez com que o O Pentaho é distribuído em três edições diferen-
BI deixasse de ocupar o primeiro lugar na lista das tes: Community Professional e Enterprise. A edição
maiores prioridades em TI e, em 2010 e 2011, caísse Community, está disponível gratuitamente no site
para a quinta posição. Em seu lugar, foram prioriza- http://community.pentaho.com/. As edições Profes-
das tecnologias de maior produtividade, menor risco sional e Enterprise possuem recursos adicionais e
e retorno de investimento mais rápido (GARTNER planos de suporte prestados pela Pentaho Corpora-
GROUP, 2005a, 2005b, 2006, 2007, 2008, 2009, 2010, tion e seus parceiros, mas são licenciadas mediante
2011). subscrição anual. Os recursos adicionais das edições
Nesse contexto, as ferramentas Open Source Bu- pagas incluem suporte a Mobile e ferramentas avan-
siness Intelligence (OSBI) desempenham um papel çadas de integração de dados e relatórios.
essencial para a viabilização de muitos projetos de Este artigo tem o objetivo de apresentar uma vi-
BI que não dispõem de dezenas ou centenas de mi- são geral do ambiente Pentaho BI Suite Community
lhares de dólares para investirem em ferramentas Edition, descrevendo os seus principais componen-
comerciais já em seu início. Os recursos poupados tes. Antes de descrever o ambiente Pentaho serão
podem ser investimentos em hardware, treinamento apresentadas as técnicas fundamentais de Data Wa-
e serviços de desenvolvimento. Porém não é possí- rehousing, as diferenças entre aplicações transacio-
vel abrir mão da qualidade, da funcionalidade, da ri- nais e analíticas e os fundamentos da mineração de
queza de recursos e da produtividade conferida pelas dados. O entendimento dessas técnicas é essencial
ferramentas tradicionais de BI. Sem esses atributos, a para o aprendizado pleno do Pentaho BI Suíte.

/ 22
OPERACIONAL DATA WAREHOUSE

INCLUIR ACESSAR

EXCLUIR
EXCLUIR

CARREGAR
ACESSAR
INCLUIR
ALTERAR
Carregamento e acesso a
Tratamento de dados registro grandes quantidades de dados
por registro

Figura 4. Operações sobre os dados no OLTP e no OLAP. Fonte: Cazella (2011).

Data Warehousing é a notação para o gênero (masculino ou feminino);


Os Sistemas de Online Transaction Processing nos sistemas operacionais, o gênero pode ser repre-
(OLTP) suportam a execução dos processos de negó- sentado por valores como “M” ou “F”, “m” ou “f”, “1”
cio, coletam e armazenam os dados em bancos de da- ou “2”. No DW esses valores precisam ser integrados
dos estruturados, na maior parte dos casos, de acordo em domínio único, por isso durante o processo de in-
com a modelagem relacional normalizada. Estruturas tegração eles são convertidos para um estado unifor-
de dados relacionais normalizadas são eficientes para me, como ilustra a figura 3.
a atualização e o armazenamento de dados, entre
AMBIENTE OPERACIONAL DATA WAREHOUSE
outros motivos, por minimizarem redundâncias. No
Aplicação A–M,F
entanto, na medida em que o volume de dados arma- Aplicação B–H,M M,F
zenados aumenta, a eficiência para a realização de Aplicação C–0,1
processamento analítico diminui, pois é necessário
obter as informações desejadas em múltiplas tabe-
Figura 3. Integração de dados de gênero no DW.
las, frequentemente localizadas em bancos de dados
distintos. As alternativas existentes para se melhorar Em geral, a passagem de dados das bases ope-
o desempenho da execução de consultas em bases racionais para o DW não é tão simples quanto uma
OLTP, como criação de índices e desnormalização de mera extração e carga de registros. Muitas vezes é
banco de dados, terminam por prejudicar o desempe- necessário realizar transformações, conversões, inte-
nho da atualização de dados (NASCIMENTO, 2012). gração e consolidação de dados. Os processos ETL são
Já os Sistemas OLAP normalmente acessam dados responsáveis pela realização dessas tarefas.
em estruturas informacionais como o DW, tendo como As operações realizadas nos bancos de dados
principais propriedades: operacionais incluem inserção, atualização, exclusão
1. orientação a assuntos ou processos de negócio; e consulta, geralmente de um registro por vez. Já no
2. integração; DW, são realizadas operações de carga e acesso aos
3. não volatilidade; dados em grandes lotes, como mostra a figura 4.
4. variação no tempo e A granularidade é o nível de detalhamento dos
5. suporte à decisão. dados no DW. Quanto maior for o nível de detalhes
A integração de dados é considerada a caracte- que se deseja armazenar, menor será a granularidade.
rística mais importante do DW. Esta característica O nível de granularidade afeta diretamente o volume
garante a unicidade na representação dos dados que de dados armazenados e o tipo de informações que
passam do ambiente operacional para o DW. Os da- poderão ser obtidas nas consultas. Quando se tem um
dos que populam o DW são originários de diversos nível de granularidade muito alto, há uma economia
sistemas operacionais, documentos semi-estrutura- de espaço de armazenamento, mas também há uma
dos e fontes de dados externas. Cada um desses am- limitação quanto à utilização dos dados para atender
bientes apresenta características específicas, como, a consultas mais detalhadas. Quando se tem um nível
por exemplo, tipos e domínios de dados, unidades de de granularidade muito baixo, há uma maior disponi-
medidas e convenções internas. Um exemplo clássico bilidade de dados para as operações de consulta, em

23 \
Um exemplo de modelo dimensional do DM Ven-
Data Mart
das é apresentado na figura 7. A tabela-fato represen-
ta as vendas de produtos. As dimensões representam
COMPRAS o cliente que comprou os produtos (Quem), os produ-
Data Mart Data Mart tos vendidos (O Quê), a data da venda (Quando) e o
armazém é o local onde os produtos foram vendidos
VENDAS ESTOQUE (Onde). As medidas são o valor e a quantidade de uni-
dades vendidas.
A modelagem dimensional se contrapõe à mo-
delagem normalizada, pois utiliza a redundância dos
DATA WAREHOUSE
dados como forma de facilitar e acelerar a recupera-
ção de informações.
Figura 5. Relação entre os Data Marts e o Data Warehouse cor-
porativo. Mineração de dados
A Descoberta de Conhecimento em Bases de Da-
detrimento de uma maior necessidade de espaço de dos (DCBD) é o processo de busca e extração de co-
armazenamento e recursos computacionais para pro- nhecimento em bases de dados. Fayyad et al. (1996)
cessamento. definiram DCBD como o processo não trivial de iden-
tificação de padrões válidos e potencialmente úteis,
Data Marts perceptíveis a partir dos dados. Nesta concepção, a
Na visão de Kimball e Ross (2002) um Data Mart DCBD refere-se a todo processo de extração de co-
constitui-se em um subconjunto lógico de um DW nhecimento útil oculto em bancos de dados. O co-
corporativo. Um DM também pode ser considerado nhecimento a ser descoberto deve satisfazer a três
um repositório de dados relacionados a um proces- propriedades: deve ser correto (tan­to quanto possí-
so de negócio ou a um elemento da cadeia de valor vel); compreensível por usuários humanos e também
organizacional, geralmente modelado de forma di- deve ser interessante, útil ou novo. Além disso, o mé-
mensional (BOUMAN e DONGEN, 2009). A figura 5 todo de descoberta do conhecimento deve apresen-
ilustra três Data Marts relacionados aos processos de tar três características: deve ser eficiente (acura­do),
Vendas, Compras e Estoque, extraídos de um DW cor- genérico (aplicável a vários tipos de dados) e flexível
porativo central. (facilmente modificável).
A modelagem dimensional é uma forma de mo- Já a Mineração de Dados (MD) é a busca por re-
delagem de dados em termos de fatos, dimensões e lacionamentos e padrões distintos que existem, mas
medidas, visando oferecer maior suporte à análise. A que estão ocultos em grandes volumes de dados. Até
figura 6 apresenta o esquema de um modelo dimen- 1995, muitos autores conside­ravam os termos DCBD e
sional composto por um fato e quatro dimensões. Os MD como sinônimos, mas a DCBD é mais abrangente
fatos representam eventos ou transações do negócio, do que a MD. A MD é o processo de pesquisa em gran-
como pedidos, compras, vendas, entre outros exem- des volumes de dados para extração de conhecimen-
plos. Dimensões são entidades envolvidas nos fatos, to utilizando técnicas de Estatística, Probabilidade e
descrevendo: o quê, quem, onde e quando um fato Inteligência Computacional, para procurar relações
aconteceu. Uma medida é um atributo ou variável de similaridade ou discordância entre dados, com o
numérica acerca de um fato que expressa grandezas objetivo de encontrar padrões, irregularidades e re-
como quantidade, valor e custo (KIMBALL e ROSS, gras. Seu intuito é transformar dados aparentemente
2002). desprovidos de conexão em informações relevantes
O QUÊ para a tomada de decisão e avaliação de resultados.
A principal motivação para a utilização de MD é
a grande disponibilidade de dados armazenados ele-
tronicamente, com informações úteis, porém ocultas,
podendo auxiliar na previsão de um conhecimento
QUEM FATO ONDE
futuro. Em outras palavras, a MD é utilizada para se
descobrir informações sem uma prévia formulação de
hipóteses e buscar por algo não intuitivo, tornando
dados inexpressivos em conhecimento valioso e es-
QUANDO tratégico.
Existem diversos métodos de MD para encontrar
Figura 6. Esquema estrela com um fato e suas dimensões.
respostas ou extrair conhecimento em repositórios
de dados, sendo os mais importantes para a DCBD:

/ 24
»» Descreve as características da dimensão
Dimensão tempo »» Chave primária simples Dimensão produto
»» Atributos textuais e discretos
Id_tempo (PK) »» Fontes de restrições às consultas Id_produto (PK)
dara_SQL codigo
dia_da_semana descricao
numero_semana Tabela fato marca
mes categoria
etc. Id_tempo (PK) etc.
Id_produto (FK)
Id_armazem(FK)
Dimensão cliente Id_cliente (FK) Dimensão armazém
venda_dolar
Id_cliente (PK) unidades_vendidas Id_armazem (PK)
nome_cliente custo_dolar nome_armazem
perfil_cliente endereço
endereço distrito
etc. »» Grande quantidade de dados etc.
»» Chave primária composta pelas FKs
»» Atributos numéricos e valores
»» Contém as medições do negócio

Figura 7. Modelo dimensional do DM Vendas. Fonte: Cazella (2011).

Classificação, Modelos de Relacionamento entre Va- Pentaho BI Suite Community Edition


riáveis, Análise de Agrupamento, Sumarização, Mo- O ambiente Pentaho BI Suite integra as princi-
delo de Dependência, Regras de Associação e Análise pais ferramentas, tecnologias e disciplinas do BI. O
de Séries Temporais (FAYYAD et al., 1996). alicerce de toda a suíte é a Plataforma Java Standard
As técnicas de Mineração de Dados desempe- Edition. Desta forma, o Pentaho roda sobre a má-
nham as tarefas de classificação ou agrupamento dos quina virtual Java, portanto se beneficia de todas as
dados e de descoberta de regras de associação entre vantagens conferidas pelo Java, como portabilidade
os dados. Entre os métodos de Mineração de Dados (write once, run anywhere), extensibilidade e robus-
capazes de fazer o re­conhecimento de padrões desta- tez. É possível integrar o Pentaho a outras aplicações
cam-se as árvores de decisão, as máquinas de vetores Java, executando processos ETL, acionando relatórios
de suporte, os métodos estatísticos, as redes neurais, e dashboards diretamente a partir de outras aplica-
os algoritmos genéticos e as meta-heurísticas de uma ções. Por exemplo, a Listagem 1 apresenta o código
forma geral. Estas técnicas vêm sendo amplamente Java para execução de uma transformação de dados
exploradas na literatura e são atualmente suportadas desenvolvida no Pentaho Data Integration.
por ferramentas que disponibilizam os diversos algo-
Listagem 1. Código Java para execução de uma trans-
ritmos já implementados, testados e otimizados, para formação de dados desenvolvida no Pentaho Data
uso em uma série de aplicações. Integration.
Tanto o BI quanto a DCBD têm como finalidade
transformar dados em informações e conhecimento, public static void runTransformation(String filename) {
visando dar suporte à tomada de decisão. Para isso, try {
StepLoader.init();
utilizam-se de técnicas como DW e DM para prepara- EnvUtil.environmentInit();
ção dos dados, para permitir que o usuário explore os TransMeta transMeta = new TransMeta(filename);
dados por meio de ferramentas de análise e realizam Trans trans = new Trans(transMeta);
MD para reconhecer padrões e regras por meio da In-
teligência Computacional. A disponibilidade de um trans.execute(null); // É possível passar parâmetros
DW ajuda no processo de DCBD porque: (1) os dados // para a transformação ao invés de null.
são submetidos a limpeza antes de serem carregados trans.waitUntilFinished();
if ( trans.getErrors() > 0 ) {
no DW e (2) o acesso aos dados no DW é muito mais
throw new RuntimeException( “Ocorreram erros
eficiente devido à forma como eles são estruturados. na execução da transformação.” );
Desta forma, uma tabela-fato de um DM dimensional }
tem condições favoráveis à DCBD, pois armazena da- } catch ( KettleException e ) {
dos limpos, íntegros e de acesso facilitado. A tabela- // TODO Tratar exceção.
-fato representa uma matriz multidimensional na System.out.println(e);
qual todas as variáveis que serão submetidas à MD }
}
encontram-se presentes.

25 \
zoavelmente integrado. O Pen-
taho Reporting foi desenvolvido
a partir do JfreeReport; o Pen-
taho Analysis engine a partir
do Mondrian; o Pentaho Analy-
sis client teve o projeto jPivot
como ponto de partida; Pentaho
Data Integration é o nome dado
à incorporação do Kettle à suíte
Pentaho; o Weka deu origem ao
Pentaho Data Mining; entre ou-
tros exemplos. Por isso, a políti-
ca de licenciamento do Pentaho
é complexa e confusa, composta
por uma miríade de licenças,
sendo umas pouco permissivas
e outras mais liberais. Entre as
principais licenças da suíte po-
de-se destacar:
»» Eclipse Public License Ver-
sion 1.0 (EPLv1)
»» Mozilla Public License 1.1
Figura 8. Componentes do ambiente em uma visão de camadas. (MPLv1.1)
»» GNU General Public Li-
cense Version 2 (GPLv2)
»» GNU Lesser General Public License Version 2.1
A figura 8 apresenta os componentes do ambiente
(LGPLv2.1)
em uma visão de camadas. A camada de integração
»» Eclipse Public License Version 1.0 (EPLv1)
de dados e aplicações oferece ferramentas ETL, ges-
»» Apache License, Version 2.0
tão de metadados e de integração entre aplicações.
»» GNU General Public License Version 3 (GPLv3)
A camada de Business Intelligence Plataform oferece
De forma geral, a política de licenciamento per-
os recursos de segurança, administração, lógica de
mite a utilização do Pentaho Community Edition
negócios e gestão de repositórios. Sobre essa camada para o desenvolvimento e execução de aplicações da
rodam os serviços de relatórios construídos em tem- mesma forma como se desenvolvem aplicações utili-
po de projeto, relatórios e análises ad-hoc criadas zando Eclipse, Tomcat, Hibernate e JFreeReport. Po-
pelo próprio usuário de acordo com as suas necessi- rém se qualquer alteração for feita nos componentes
dades de informação, análises (OLAP), mineração de da suíte, a aplicação desenvolvida passa a estar sujei-
dados, dashboards e gestão de processos. Esses ser- ta às mesmas regras de licenciamento do componen-
viços são expostos ao usuário final por uma camada te original, muitas vezes levando à necessidade de
de apresentação que suporta os navegadores Web, abertura do código-fonte. Mais informações sobre as
portais, suítes de escritórios, Web services e e-mail. licenças podem ser encontradas nos links disponíveis
Portanto o ambiente Pentaho compreende todos os nas referências deste artigo.
principais recursos esperados de um ambiente de BI
profissional. Pentaho BI Platform and Server
O primeiro passo para a utilização do Pentaho é O Pentaho BI Platform Community Edition é
baixar os seus componentes a partir do site http:// composto principalmente por duas aplicações Web, a
community.pentaho.com/. Como acontece com mui- Pentaho Administration Console (PAC) e a Pentaho
tas ferramentas gratuitas, o caminho entre o downlo- User Console (PUC). A PAC é a interface para o geren-
ad da ferramenta e o seu funcionamento pleno requer ciamento do status do servidor Pentaho, dos usuários
leituras de sites e fóruns especializados como o Pla- e perfis de acesso às aplicações. A PAC também per-
neta Pentaho (ver referências). Este artigo não tem a mite a configuração de Data Sources e o agendamen-
proposta de ser um tutorial detalhado sobre a confi- to de serviços de integração de dados e relatórios. Es-
guração do Pentaho, mas uma referência de alto nível sas funcionalidades da PAC estão ilustradas na figura
sobre os seus componentes. 9. Em sua distribuição padrão, a PAC é uma aplicação
A suíte Pentaho surgiu a partir da integração de Web empacotada como um WAR e publicada em um
diversos projetos open-source em um ambiente ra- container Web Jetty.

/ 26
ção, Transformação e Carga (ETL). O PDI admite uma
grande variedade de fontes de dados, oferece muitas
possibilidades de transformação, validação e saídas
para os dados transformados. A figura 12 ilustra um
processo ETL para uma tabela de produtos. Os dados
são extraídos de uma tabela de produtos e inseridos
no fluxo, no qual passam por cálculos, adição de ou-
tras informações, até serem inseridos ou atualiza-
dos na tabela de destino. Como se pode observar, o
processo é gráfico e bastante intuitivo. Os recursos
oferecidos gratuitamente pelo PDI são compatíveis
com os das ferramentas ETL comerciais disponíveis
no mercado.
Figura 9. Pentaho Administration Console (PAC). O PDI foi desenvolvido sobre a plataforma Eclip-
se. Ele oferece as perspectivas Data Integration,
Já a PUC é a interface por meio da qual o usuário
Model e Visualize (ver figura 12). Todo o desenvol-
tem acesso às aplicações de BI publicadas no servidor
vimento ETL é feito na perspectiva Data Integration.
Pentaho. A figura 10 apresenta a tela inicial do PUC. As perspectivas Model e Visualize são destinadas ao
Após a autenticação do usuário, a PUC apresenta as desenvolvimento na abordagem Agile BI. Esta abor-
aplicações de BI, análises OLAP e dashboards para dagem permite que uma transformação ETL seja
os quais lhe foram autorizados os acessos. A figura o ponto de partida para a construção de um Cubo
11 apresenta a PUC exibindo um conjunto de análi- OLAP, o Model, e a visualização das análises OLAP
ses OLAP disponíveis para o usuário e uma janela de diretamente no PDI (Visualize). O Pentaho Agile BI
boas-vindas. permite o desenvolvimento BI de uma forma muito
flexível, indo do dado bruto à informação agregada
com muita rapidez.

Figura 10. Pentaho User Console (PUC).


Figura 12. Pentaho Data Integration (PDI), também conhecido
como Kettle.

Pentaho Analysis Services (Mondrian)


O Mondrian é o servidor OLAP que permite aos
usuários do Pentaho analisarem grandes volumes de
informações. Ele oferece recursos de exploração de
dados tradicionais em OLAP como drill, slice e dice.
Na edição Community, a interface com o usuário é
provida pelos plugins JPivot e Saiku Analytics. As edi-
ções Professional e Enterprise possuem também um
Figura 11. Aplicações e arquivos apresentados na PUC. plugin proprietário que oferece uma experiência com
o usuário final superior à do JPivot e do Saiku, com-
parável à usabilidade encontrada nas ferramentas
Pentaho Data Integration (Kettle) comerciais líderes de mercado. A figura 13 apresenta
O Pentaho Data Integration (PDI), também co- uma janela de análise de lucros por país, utilizando
nhecido como Kettle, é uma ferramenta de integra- os recursos disponíveis nas versões comerciais do
ção de dados para construção de processos de Extra- Pentaho.

27 \
Figura 13. Pentaho Analysis Services (Mondrian).
Figura 15. Exemplo de dashboard interativo criado no Community
Dashboard Framework (CDF).
Pentaho Reporting
O Pentaho Reporting Community Edition inclui Pentaho Data Mining (Weka)
o Pentaho Report Designer (figura 14), o Pentaho Re- O Pentaho Data Mining corresponde à ferramen-
port Engine e o Pentaho Reporting SDK. Trata-se de ta a Waikato Environment for Knowledge Analysis
um ambiente completo para a construção de relató- (Weka). O Weka oferece uma série de algoritmos clás-
rios desenvolvido sobre o JFreeReport. Esse ambiente sicos de mineração de dados implementados e dispo-
suporta diversas fontes de dados e exporta os relató- níveis para realização de análises avançadas nos da-
rios para PDF, Excel, HTML, texto, texto formatado, dos. A figura 16 apresenta regras de associação entre
XML e csv. O funcionamento do Pentaho Report De- os dados reconhecidas por meio do algoritmo Apriori.
signer é parecido com o da maioria das ferramentas A figura 17 ilustra em um gráfico 3D as mesmas regras
de associação reconhecidas pelo algoritmo Apriori.
de construção de relatórios. Existem bandas especí-
ficas para as áreas de cabeçalho, corpo e rodapé dos
relatórios. O que chama a atenção é a fidelidade com
a qual os dados são exportados para os diversos for-
matos. Um relatório apresentado em HTML pode ser
visto em Excel ou PDF com a mesma formatação.

Figura 16. Regras de associação entre os dados reconhecidas por


meio do algoritmo Apriori.

Figura 14. Pentaho Report Designer.

Community Dashboard Framework


Um requisito muito comum em aplicações de BI
é a construção de painéis gerenciais (ou dashboards).
Para essa finalidade, o Pentaho utiliza do Community
Dashboard Framework (CDF). A figura 15 apresenta
um exemplo de dashboard interativo criado no CDF. Figura 17. Regras de associação exibidas em um gráfico 3D.

/ 28
Considerações Finais ção de ferramentas comerciais com custos elevados.
Este artigo apresentou uma visão geral do am- Por outro lado, os recursos de integração de dados e
biente Pentaho BI Suite Community Edition, des- análise de informações oferecidos pelas ferramentas
crevendo os seus principais componentes. Também comerciais são muito importantes no desenvolvi-
foram apresentados conceitos fundamentais de Data mento de aplicações de BI profissionais. O Pentaho
Warehousing, OLTP, OLAP e mineração de dados. BI Suite Community Edition apresenta-se como uma
Em tempos de crise financeira internacional, solução econômica e eficiente para esse problema. A
muitos projetos de BI, especialmente os executados comunidade Pentaho no Brasil é muito forte e exis-
por empresas de pequeno e médio porte, não dis- tem casos de sucesso muito significativos de aplica-
põem de orçamentos capazes de patrocinar a aquisi- ções profissionais desenvolvidas no Pentaho.

/referências
> BARBIERI, C. BI2 - Business Intelligence: modelagem e
qualidade. Rio de Janeiro: Campus, 2011.

> BOUMAN, R.; DONGEN, J. Pentaho Solutions: Business


Intelligence and Data Warehousing with Pentaho and
MySQL. Wiley Publishing. Indianapolis. 2009. > ______. Gartner EXP Worldwide Survey of Nearly 1,600
CIOs Shows IT Budgets in 2010 to be at 2005 Levels.
> CAZELLA, S. C. Tecnologias para Inteligência
2010. Disponível em http://www.gartner.com/it/page.
Competitiva. 1. ed. São Leopoldo: Editora Unisinos. 2011.
jsp?id=1283413. Acesso em 01 out. 2011.
> FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P.;
_> _____. Gartner Executive Programs Worldwide Survey of
UTHURUSAMY, R. Advances in Knowledge Discovery and
More Than 2,000 CIOs Identifies Cloud Computing as Top
Data Mining. 1996. AAAIPress, The Mit Press.
Technology Priority for CIOs in 2011. 2011. Disponível em
> GARTNER GROUP. Gartner says more than 50 percent http://www.gartner.com/it/page.jsp?id=1526414. Acesso
of data warehouse projects will have limited acceptance or em 01 out. 2011.
will be failures through 2007. 2005a. Disponível em http://
> KIMBALL, R.; ROSS, M. Data warehouse toolkit: o guia
www.gartner.com/press_releases/asset_121817_11.html.
completo para modelagem dimensional. Rio de Janeiro:
Acesso em 01 out. 2011.
Campus, 2002. 494p.
> ______. Gartner Survey of 1,300 CIOs Shows IT Budgets
> NASCIMENTO, GIVANILDO SANTANA. AgileKDD: um
to Increase by 2.5 Percent in 2005. 2005b. Disponível em
processo ágil para a engenharia de sistemas de descoberta
http://www.gartner.com/press_releases/asset_117739_11.
do conhecimento. Dissertação (Mestrado em Ciência da
html. Acesso em 01 out. 2011.
Computação) - Universidade Federal de Sergipe, 2012.
> ______. Gartner Survey of 1,400 CIOs Shows
> Pentaho Analysis Services (Mondrian) - http://
Transformation of IT Organisation is Accelerating. 2006.
mondrian.pentaho.com/
Disponível em http://www.gartner.com/press_releases/
asset_143678_11.html. Acesso em 01 out. 2011. > Pentaho BI Platform License FAQ - http://community.
pentaho.com/faq/platform_licensing.php
> ______. Gartner EXP Survey of More than 1,400 CIOs
Shows CIOs Must Create Leverage to Remain Relevant to > Pentaho BI Suite Community Edition - http://

the Business. 2007. Disponível em http://www.gartner.com/ community.pentaho.com/

it/page.jsp?id=501189. Acesso em 01 out. 2011. > Pentaho Data Integration (Kettle) - http://kettle.

> ______. Gartner EXP Worldwide Survey of 1,500 CIOs pentaho.com/

Shows 85 Percent of CIOs Expect “Significant Change” Over > Pentaho Data Mining (Weka) - http://weka.pentaho.
Next Three Years. 2008. Disponível em http://www.gartner. com/
com/it/page.jsp?id=587309. Acesso em 01 out. 2011.
> Pentaho Open Source Projects Licenses - http://www.
> ______. Gartner EXP Worldwide Survey of More than pentaho.com/license/
1,500 CIOs Shows IT Spending to Be Flat in 2009.
2009. Disponível em http://www.gartner.com/it/page. > Pentaho Reporting - http://reporting.pentaho.com/

jsp?id=855612. Acesso em 01 out. 2011. > Planeta Pentaho - http://planetapentaho.com.br/

29 \

Você também pode gostar