Escolar Documentos
Profissional Documentos
Cultura Documentos
Open Source
Business
Intelligence com
Conheça o ambiente de BI livre mais
utilizado no Brasil e saiba como essa
poderosa ferramenta foi construída sobre
a plataforma Java
Software de
automação de E
escritórios T OLAP
L
Dados externos
Data Mining
Equipamentos de
automação
EXTRAÇÃO, TRANSFORMA-
FONTES DE DADOS ÇÃO E CARREGAMENTO DATA WAREHOUSE EXPLORAÇÃO
Figura 1. Componentes de um ambiente BI. Fonte: Cazella (2011).
/ 20
Java
e Pentaho BI Suite
Community Edition
A maioria das ferramentas e aplicações de Business Intelligence são
tidas como custosas e complexas. De fato, integrar um grande volu-
me de dados e deles extrair informações que suportem a tomada de
decisões não é uma tarefa simples. Porém muitos projetos de BI não
dispõem de orçamentos capazes de patrocinar a aquisição de ferra-
mentas comerciais com custos expressos em quatro ou mais dígitos,
em dólares. Esses custos elevados impediriam o início de muitos pro-
jetos executados por empresas de pequeno e médio porte. Por outro
lado, os recursos de integração de dados e análise de informações
oferecidos pelas ferramentas comerciais são muito importantes no
desenvolvimento de aplicações de BI profissionais. A solução desse
problema técnico-econômico pode ser encontrada nas ferramentas
livres de BI. Este artigo apresenta o Pentaho BI Suite Community
Edition, a ferramenta de BI livre mais utilizada no Brasil, desenvol-
vida sobre a plataforma Java.
O ambiente de BI, ilustrado na figura 1, é com- em todo o mundo, de acordo com os relatórios anuais
posto pelas fontes de dados operacionais, pelos pro- do Gartner Group. A tabela 1 mostra que o BI integra
cessos de Extração, Transformação e Carregamento a lista das dez maiores prioridades em Tecnologia da
(ETL), pelo DW, DM e pelos métodos de exploração. Informação (TI) desde 2005 e esteve no topo dessa
Os dados operacionais são carregados nas bases DW lista por quatro anos consecutivos, de 2006 a 2009.
e DM por processos ETL. Durante a carga, os pro- De uma forma mais ampla, as empresas priorizaram
cessos ETL também realizam operações de limpeza, a melhoria dos processos de negócios, entendendo
preenchimento e correção nos dados. Após serem que as informações e o conhecimento fornecidos pe-
carregados no DW, os dados preenchem os DM mo- las aplicações de BI são elementos essenciais para
delados de forma dimensional, orientados a assun- o aumento da eficiência e da efetividade, suporte à
tos ou processos de negócio. O DW e os DM são en- competitividade e à inovação. Assim, investimen-
tão explorados pelo usuário utilizando ferramentas tos em aplicações de BI focadas em mineração de
de processamento analítico OLAP e técnicas de mi- dados aumentaram 4,8% de 2005 para 2006 e 11,2%
neração de dados (CAZELLA, 2011). de 2007 para 2008 (GARTNER GROUP, 2005a, 2005b,
O número de projetos de BI cresceu rapidamente 2006, 2007, 2008, 2009, 2010, 2011).
21 \
NEW ANALYSIS VIEW NEW REPORT MANAGE CONTENT NEW DATA SOURCE
Tabela 1. Prioridade das aplicações de BI de 2005 a 2011. aplicação desenvolvida não atenderia aos recursos de
informação e usabilidade do cliente.
PRIORIDADE MELHORAR
PRIORIDADE O Pentaho é uma plataforma de BI livre desen-
ANO PROCESSOS DE volvida em Java e mantida pela empresa Pentaho
BI
NEGÓCIO
Corporation, com o apoio de uma comunidade cres-
2005 1ª 2ª cente de desenvolvedores no Brasil e em todo o mun-
2006 1ª 1ª do. Os componentes do Pentaho contemplam ferra-
2007 1ª 1ª mentas de integração de dados (ETL) e metadados,
2008 1ª 1ª relatórios, dashboards, análises OLAP, gestão de con-
2009 1ª 1ª teúdo e mineração de dados. A figura 2 mostra como
esses componentes são combinados em um ambiente
2010 1ª 5ª
orientado à analise de dados e informações. Ao inte-
2011 5ª 5ª
grar esses componentes, a plataforma Pentaho possi-
Fonte: Gartner Group (2005b, 2006, 2007, 2008, 2009, 2010, 2011). bilita o desenvolvimento de soluções complexas para
Contudo, o agravamento da crise financeira in- problemas de negócios que demandam o processa-
ternacional provocou cortes significativos nos or- mento de grandes volumes de dados.
çamentos de TI a partir de 2009. Isto fez com que o O Pentaho é distribuído em três edições diferen-
BI deixasse de ocupar o primeiro lugar na lista das tes: Community Professional e Enterprise. A edição
maiores prioridades em TI e, em 2010 e 2011, caísse Community, está disponível gratuitamente no site
para a quinta posição. Em seu lugar, foram prioriza- http://community.pentaho.com/. As edições Profes-
das tecnologias de maior produtividade, menor risco sional e Enterprise possuem recursos adicionais e
e retorno de investimento mais rápido (GARTNER planos de suporte prestados pela Pentaho Corpora-
GROUP, 2005a, 2005b, 2006, 2007, 2008, 2009, 2010, tion e seus parceiros, mas são licenciadas mediante
2011). subscrição anual. Os recursos adicionais das edições
Nesse contexto, as ferramentas Open Source Bu- pagas incluem suporte a Mobile e ferramentas avan-
siness Intelligence (OSBI) desempenham um papel çadas de integração de dados e relatórios.
essencial para a viabilização de muitos projetos de Este artigo tem o objetivo de apresentar uma vi-
BI que não dispõem de dezenas ou centenas de mi- são geral do ambiente Pentaho BI Suite Community
lhares de dólares para investirem em ferramentas Edition, descrevendo os seus principais componen-
comerciais já em seu início. Os recursos poupados tes. Antes de descrever o ambiente Pentaho serão
podem ser investimentos em hardware, treinamento apresentadas as técnicas fundamentais de Data Wa-
e serviços de desenvolvimento. Porém não é possí- rehousing, as diferenças entre aplicações transacio-
vel abrir mão da qualidade, da funcionalidade, da ri- nais e analíticas e os fundamentos da mineração de
queza de recursos e da produtividade conferida pelas dados. O entendimento dessas técnicas é essencial
ferramentas tradicionais de BI. Sem esses atributos, a para o aprendizado pleno do Pentaho BI Suíte.
/ 22
OPERACIONAL DATA WAREHOUSE
INCLUIR ACESSAR
EXCLUIR
EXCLUIR
CARREGAR
ACESSAR
INCLUIR
ALTERAR
Carregamento e acesso a
Tratamento de dados registro grandes quantidades de dados
por registro
23 \
Um exemplo de modelo dimensional do DM Ven-
Data Mart
das é apresentado na figura 7. A tabela-fato represen-
ta as vendas de produtos. As dimensões representam
COMPRAS o cliente que comprou os produtos (Quem), os produ-
Data Mart Data Mart tos vendidos (O Quê), a data da venda (Quando) e o
armazém é o local onde os produtos foram vendidos
VENDAS ESTOQUE (Onde). As medidas são o valor e a quantidade de uni-
dades vendidas.
A modelagem dimensional se contrapõe à mo-
delagem normalizada, pois utiliza a redundância dos
DATA WAREHOUSE
dados como forma de facilitar e acelerar a recupera-
ção de informações.
Figura 5. Relação entre os Data Marts e o Data Warehouse cor-
porativo. Mineração de dados
A Descoberta de Conhecimento em Bases de Da-
detrimento de uma maior necessidade de espaço de dos (DCBD) é o processo de busca e extração de co-
armazenamento e recursos computacionais para pro- nhecimento em bases de dados. Fayyad et al. (1996)
cessamento. definiram DCBD como o processo não trivial de iden-
tificação de padrões válidos e potencialmente úteis,
Data Marts perceptíveis a partir dos dados. Nesta concepção, a
Na visão de Kimball e Ross (2002) um Data Mart DCBD refere-se a todo processo de extração de co-
constitui-se em um subconjunto lógico de um DW nhecimento útil oculto em bancos de dados. O co-
corporativo. Um DM também pode ser considerado nhecimento a ser descoberto deve satisfazer a três
um repositório de dados relacionados a um proces- propriedades: deve ser correto (tanto quanto possí-
so de negócio ou a um elemento da cadeia de valor vel); compreensível por usuários humanos e também
organizacional, geralmente modelado de forma di- deve ser interessante, útil ou novo. Além disso, o mé-
mensional (BOUMAN e DONGEN, 2009). A figura 5 todo de descoberta do conhecimento deve apresen-
ilustra três Data Marts relacionados aos processos de tar três características: deve ser eficiente (acurado),
Vendas, Compras e Estoque, extraídos de um DW cor- genérico (aplicável a vários tipos de dados) e flexível
porativo central. (facilmente modificável).
A modelagem dimensional é uma forma de mo- Já a Mineração de Dados (MD) é a busca por re-
delagem de dados em termos de fatos, dimensões e lacionamentos e padrões distintos que existem, mas
medidas, visando oferecer maior suporte à análise. A que estão ocultos em grandes volumes de dados. Até
figura 6 apresenta o esquema de um modelo dimen- 1995, muitos autores consideravam os termos DCBD e
sional composto por um fato e quatro dimensões. Os MD como sinônimos, mas a DCBD é mais abrangente
fatos representam eventos ou transações do negócio, do que a MD. A MD é o processo de pesquisa em gran-
como pedidos, compras, vendas, entre outros exem- des volumes de dados para extração de conhecimen-
plos. Dimensões são entidades envolvidas nos fatos, to utilizando técnicas de Estatística, Probabilidade e
descrevendo: o quê, quem, onde e quando um fato Inteligência Computacional, para procurar relações
aconteceu. Uma medida é um atributo ou variável de similaridade ou discordância entre dados, com o
numérica acerca de um fato que expressa grandezas objetivo de encontrar padrões, irregularidades e re-
como quantidade, valor e custo (KIMBALL e ROSS, gras. Seu intuito é transformar dados aparentemente
2002). desprovidos de conexão em informações relevantes
O QUÊ para a tomada de decisão e avaliação de resultados.
A principal motivação para a utilização de MD é
a grande disponibilidade de dados armazenados ele-
tronicamente, com informações úteis, porém ocultas,
podendo auxiliar na previsão de um conhecimento
QUEM FATO ONDE
futuro. Em outras palavras, a MD é utilizada para se
descobrir informações sem uma prévia formulação de
hipóteses e buscar por algo não intuitivo, tornando
dados inexpressivos em conhecimento valioso e es-
QUANDO tratégico.
Existem diversos métodos de MD para encontrar
Figura 6. Esquema estrela com um fato e suas dimensões.
respostas ou extrair conhecimento em repositórios
de dados, sendo os mais importantes para a DCBD:
/ 24
»» Descreve as características da dimensão
Dimensão tempo »» Chave primária simples Dimensão produto
»» Atributos textuais e discretos
Id_tempo (PK) »» Fontes de restrições às consultas Id_produto (PK)
dara_SQL codigo
dia_da_semana descricao
numero_semana Tabela fato marca
mes categoria
etc. Id_tempo (PK) etc.
Id_produto (FK)
Id_armazem(FK)
Dimensão cliente Id_cliente (FK) Dimensão armazém
venda_dolar
Id_cliente (PK) unidades_vendidas Id_armazem (PK)
nome_cliente custo_dolar nome_armazem
perfil_cliente endereço
endereço distrito
etc. »» Grande quantidade de dados etc.
»» Chave primária composta pelas FKs
»» Atributos numéricos e valores
»» Contém as medições do negócio
25 \
zoavelmente integrado. O Pen-
taho Reporting foi desenvolvido
a partir do JfreeReport; o Pen-
taho Analysis engine a partir
do Mondrian; o Pentaho Analy-
sis client teve o projeto jPivot
como ponto de partida; Pentaho
Data Integration é o nome dado
à incorporação do Kettle à suíte
Pentaho; o Weka deu origem ao
Pentaho Data Mining; entre ou-
tros exemplos. Por isso, a políti-
ca de licenciamento do Pentaho
é complexa e confusa, composta
por uma miríade de licenças,
sendo umas pouco permissivas
e outras mais liberais. Entre as
principais licenças da suíte po-
de-se destacar:
»» Eclipse Public License Ver-
sion 1.0 (EPLv1)
»» Mozilla Public License 1.1
Figura 8. Componentes do ambiente em uma visão de camadas. (MPLv1.1)
»» GNU General Public Li-
cense Version 2 (GPLv2)
»» GNU Lesser General Public License Version 2.1
A figura 8 apresenta os componentes do ambiente
(LGPLv2.1)
em uma visão de camadas. A camada de integração
»» Eclipse Public License Version 1.0 (EPLv1)
de dados e aplicações oferece ferramentas ETL, ges-
»» Apache License, Version 2.0
tão de metadados e de integração entre aplicações.
»» GNU General Public License Version 3 (GPLv3)
A camada de Business Intelligence Plataform oferece
De forma geral, a política de licenciamento per-
os recursos de segurança, administração, lógica de
mite a utilização do Pentaho Community Edition
negócios e gestão de repositórios. Sobre essa camada para o desenvolvimento e execução de aplicações da
rodam os serviços de relatórios construídos em tem- mesma forma como se desenvolvem aplicações utili-
po de projeto, relatórios e análises ad-hoc criadas zando Eclipse, Tomcat, Hibernate e JFreeReport. Po-
pelo próprio usuário de acordo com as suas necessi- rém se qualquer alteração for feita nos componentes
dades de informação, análises (OLAP), mineração de da suíte, a aplicação desenvolvida passa a estar sujei-
dados, dashboards e gestão de processos. Esses ser- ta às mesmas regras de licenciamento do componen-
viços são expostos ao usuário final por uma camada te original, muitas vezes levando à necessidade de
de apresentação que suporta os navegadores Web, abertura do código-fonte. Mais informações sobre as
portais, suítes de escritórios, Web services e e-mail. licenças podem ser encontradas nos links disponíveis
Portanto o ambiente Pentaho compreende todos os nas referências deste artigo.
principais recursos esperados de um ambiente de BI
profissional. Pentaho BI Platform and Server
O primeiro passo para a utilização do Pentaho é O Pentaho BI Platform Community Edition é
baixar os seus componentes a partir do site http:// composto principalmente por duas aplicações Web, a
community.pentaho.com/. Como acontece com mui- Pentaho Administration Console (PAC) e a Pentaho
tas ferramentas gratuitas, o caminho entre o downlo- User Console (PUC). A PAC é a interface para o geren-
ad da ferramenta e o seu funcionamento pleno requer ciamento do status do servidor Pentaho, dos usuários
leituras de sites e fóruns especializados como o Pla- e perfis de acesso às aplicações. A PAC também per-
neta Pentaho (ver referências). Este artigo não tem a mite a configuração de Data Sources e o agendamen-
proposta de ser um tutorial detalhado sobre a confi- to de serviços de integração de dados e relatórios. Es-
guração do Pentaho, mas uma referência de alto nível sas funcionalidades da PAC estão ilustradas na figura
sobre os seus componentes. 9. Em sua distribuição padrão, a PAC é uma aplicação
A suíte Pentaho surgiu a partir da integração de Web empacotada como um WAR e publicada em um
diversos projetos open-source em um ambiente ra- container Web Jetty.
/ 26
ção, Transformação e Carga (ETL). O PDI admite uma
grande variedade de fontes de dados, oferece muitas
possibilidades de transformação, validação e saídas
para os dados transformados. A figura 12 ilustra um
processo ETL para uma tabela de produtos. Os dados
são extraídos de uma tabela de produtos e inseridos
no fluxo, no qual passam por cálculos, adição de ou-
tras informações, até serem inseridos ou atualiza-
dos na tabela de destino. Como se pode observar, o
processo é gráfico e bastante intuitivo. Os recursos
oferecidos gratuitamente pelo PDI são compatíveis
com os das ferramentas ETL comerciais disponíveis
no mercado.
Figura 9. Pentaho Administration Console (PAC). O PDI foi desenvolvido sobre a plataforma Eclip-
se. Ele oferece as perspectivas Data Integration,
Já a PUC é a interface por meio da qual o usuário
Model e Visualize (ver figura 12). Todo o desenvol-
tem acesso às aplicações de BI publicadas no servidor
vimento ETL é feito na perspectiva Data Integration.
Pentaho. A figura 10 apresenta a tela inicial do PUC. As perspectivas Model e Visualize são destinadas ao
Após a autenticação do usuário, a PUC apresenta as desenvolvimento na abordagem Agile BI. Esta abor-
aplicações de BI, análises OLAP e dashboards para dagem permite que uma transformação ETL seja
os quais lhe foram autorizados os acessos. A figura o ponto de partida para a construção de um Cubo
11 apresenta a PUC exibindo um conjunto de análi- OLAP, o Model, e a visualização das análises OLAP
ses OLAP disponíveis para o usuário e uma janela de diretamente no PDI (Visualize). O Pentaho Agile BI
boas-vindas. permite o desenvolvimento BI de uma forma muito
flexível, indo do dado bruto à informação agregada
com muita rapidez.
27 \
Figura 13. Pentaho Analysis Services (Mondrian).
Figura 15. Exemplo de dashboard interativo criado no Community
Dashboard Framework (CDF).
Pentaho Reporting
O Pentaho Reporting Community Edition inclui Pentaho Data Mining (Weka)
o Pentaho Report Designer (figura 14), o Pentaho Re- O Pentaho Data Mining corresponde à ferramen-
port Engine e o Pentaho Reporting SDK. Trata-se de ta a Waikato Environment for Knowledge Analysis
um ambiente completo para a construção de relató- (Weka). O Weka oferece uma série de algoritmos clás-
rios desenvolvido sobre o JFreeReport. Esse ambiente sicos de mineração de dados implementados e dispo-
suporta diversas fontes de dados e exporta os relató- níveis para realização de análises avançadas nos da-
rios para PDF, Excel, HTML, texto, texto formatado, dos. A figura 16 apresenta regras de associação entre
XML e csv. O funcionamento do Pentaho Report De- os dados reconhecidas por meio do algoritmo Apriori.
signer é parecido com o da maioria das ferramentas A figura 17 ilustra em um gráfico 3D as mesmas regras
de associação reconhecidas pelo algoritmo Apriori.
de construção de relatórios. Existem bandas especí-
ficas para as áreas de cabeçalho, corpo e rodapé dos
relatórios. O que chama a atenção é a fidelidade com
a qual os dados são exportados para os diversos for-
matos. Um relatório apresentado em HTML pode ser
visto em Excel ou PDF com a mesma formatação.
/ 28
Considerações Finais ção de ferramentas comerciais com custos elevados.
Este artigo apresentou uma visão geral do am- Por outro lado, os recursos de integração de dados e
biente Pentaho BI Suite Community Edition, des- análise de informações oferecidos pelas ferramentas
crevendo os seus principais componentes. Também comerciais são muito importantes no desenvolvi-
foram apresentados conceitos fundamentais de Data mento de aplicações de BI profissionais. O Pentaho
Warehousing, OLTP, OLAP e mineração de dados. BI Suite Community Edition apresenta-se como uma
Em tempos de crise financeira internacional, solução econômica e eficiente para esse problema. A
muitos projetos de BI, especialmente os executados comunidade Pentaho no Brasil é muito forte e exis-
por empresas de pequeno e médio porte, não dis- tem casos de sucesso muito significativos de aplica-
põem de orçamentos capazes de patrocinar a aquisi- ções profissionais desenvolvidas no Pentaho.
/referências
> BARBIERI, C. BI2 - Business Intelligence: modelagem e
qualidade. Rio de Janeiro: Campus, 2011.
it/page.jsp?id=501189. Acesso em 01 out. 2011. > Pentaho Data Integration (Kettle) - http://kettle.
Shows 85 Percent of CIOs Expect “Significant Change” Over > Pentaho Data Mining (Weka) - http://weka.pentaho.
Next Three Years. 2008. Disponível em http://www.gartner. com/
com/it/page.jsp?id=587309. Acesso em 01 out. 2011.
> Pentaho Open Source Projects Licenses - http://www.
> ______. Gartner EXP Worldwide Survey of More than pentaho.com/license/
1,500 CIOs Shows IT Spending to Be Flat in 2009.
2009. Disponível em http://www.gartner.com/it/page. > Pentaho Reporting - http://reporting.pentaho.com/
29 \