Escolar Documentos
Profissional Documentos
Cultura Documentos
2020
Fundamentos do Bootcamp
Bootcamp: Desenvolvedor Business Intelligence
Daniel de Oliveira Capanema
© Copyright do Instituto de Gestão e Tecnologia da Informação.
Todos os direitos reservados.
Histórico .................................................................................................................. 7
Definição ................................................................................................................. 8
Arquitetura Básica................................................................................................. 10
O golfo .............................................................................................................. 17
O abismo ........................................................................................................... 19
Estágio 4 – Gerenciado..................................................................................... 20
Escopo .............................................................................................................. 22
Patrocinador ...................................................................................................... 23
Retorno ............................................................................................................. 24
Arquitetura ........................................................................................................ 24
Desenvolvimento............................................................................................... 25
Entrega ............................................................................................................. 26
Justificativa ........................................................................................................... 28
Planejamento ........................................................................................................ 29
Análise .................................................................................................................. 29
Design ................................................................................................................... 30
Construção............................................................................................................ 31
Implantação .......................................................................................................... 32
Premissas ......................................................................................................... 40
Atividades e tarefas........................................................................................... 43
Horários do projeto............................................................................................ 48
Relatórios padrão.................................................................................................. 55
BI Operacional ...................................................................................................... 56
Dashboards........................................................................................................... 59
Operadores ........................................................................................................... 67
Abordagem Kimball............................................................................................... 74
Referências........... ................................................................................................... 86
Histórico
Definição
Preferências de clientes.
Condições de mercado.
Fonte: wikimedia.org.
Um data warehouse une bancos de dados de toda uma empresa. Já um data
mart normalmente é menor e se concentra em um assunto ou departamento
específico. Um data mart é um subconjunto de um data warehouse que normalmente
consiste em uma única área temática (ex.: marketing, operações) e pode ser
dependente ou independente.
A maioria dos projetos de BI não obtém sucesso por não terem a maturidade
necessária. De acordo com pesquisa do IDC (2011), 70% das aplicações de BI no
Brasil ainda se referem à geração de relatórios, o que demonstra a falta de maturidade
e a falta de foco dos programas de BI.
Moore (2003) define modelo de maturidade como sendo uma estrutura para
caracterizar a evolução de um sistema de um estado menos ordenado e menos
efetivo para um estado mais ordenado e altamente eficaz. Isso evidencia que há
graus evolutivos de maturidade no processo.
O modelo TDWI
Estágio 1 – Inexistente
Este estágio é formado por duas fases que estão interligadas: relatórios
operacionais e spreadmarts.
O golfo
Estágio 2 – Preliminar
Estágio 3 – Repetido
Neste estágio, o trabalho passa a ser mais amplo, saindo de Data Marts não
integrados para um modelo mais consolidado em um único DW. Isso gera economia,
maior consistência nas informações utilizadas, maior análise do negócio e
consequentemente maior compreensão dos dados. Neste estágio é utilizado um
O abismo
Estágio 4 – Gerenciado
Entrega just in time: o DW integra-se com dados em tempo real para suportar
aplicações operacionais que requerem uma entrega just in time da informação
analítica.
Estágio 5 – Otimizado
Escopo
Patrocinador
Retorno
Arquitetura
Dados
Desenvolvimento
Entrega
Pode-se dizer que essa dimensão avalia o produto do programa de BI, dando
a ideia do grau de intensidade em que este é aplicado. Conforme Barbieri (2011),
A entrega dos dados também pode ser avaliada segundo o perfil de usuários.
A quantidade de usuários constantes ser maior do que os usuários casuais
demonstram a maturidade de um programa de BI. Além disso, o aumento do número
de usuários que utilizam o sistema acessando os dados ou mesmo recebendo
relatórios padrões ou dashboards parametrizados demonstra a intensidade com a
qual a empresa aplica o BI corporativo.
Justificativa
Análise
Definir o escopo é uma das tarefas mais difíceis nos projetos de suporte à
decisão de BI e um dos aspectos mais importantes da negociação dos requisitos para
Ter mais ferramentas significa ter mais metadados técnicos, além dos
metadados do negócio, que geralmente são capturados em uma ferramenta de
modelagem de engenharia de software auxiliada por computador. Os metadados
técnicos precisam ser mapeados para os metadados do negócio, e todas as
metadados devem ser armazenadas em um repositório de metadados.
Design
Construção
Implantação
Envolvimento do Negócio
Escopo do projeto
Análise de custo-benefício
A infraestrutura
Pessoal e Habilidades
Gerenciamento do Projeto de BI
Definição do Projeto de BI
Metas e objetivos
Escopo do Projeto
Riscos de projeto
Todo projeto está sujeito a alguns riscos, e os riscos são inevitáveis. Eles
podem afetar severamente o cronograma e os resultados do projeto, dependendo da
probabilidade de que os estes se materializem e do impacto que terão. Portanto, a
avaliação de risco deve ser revisada e expandida, se necessário. O gerente do projeto
deve identificar disparadores para cada risco e incorporar um plano de mitigação, bem
como um plano de contingência, no plano do projeto.
Restrições do projeto
Premissas
Existe um modelo mental tradicionalista que prega que "A mudança é ruim -
os empresários devem ser responsabilizados por suas decisões". Uma vez que os
aplicativos de BI devem ser catalisadores para uma melhor tomada de decisão, o
modelo mental deve mudar para "Mudança é boa - as pessoas de negócios devem
refinar e melhorar suas decisões". No entanto, mudanças descontroladas ainda
podem acabar com um projeto.
Para gerenciar uma mudança, você precisa começar com uma linha de base
- o acordo entre o patrocinador comercial e a equipe de TI, conforme documentado
na carta do projeto. Toda solicitação de alteração, uma vez registrada, passa por uma
análise de impacto de custo-benefício para determinar seus efeitos no projeto. As
mudanças, a menos que sejam minúsculas, terão sempre impacto nas restrições de
esforço, tempo, escopo e qualidade. Algumas também afetam as outras duas
Estender o prazo;
Planejamento do Projeto de BI
Atividades e tarefas
Os projetos de BI são compostos por muitas atividades, cada uma com uma
longa lista de tarefas. O gerente do projeto deve contar com uma lista pré-existente
que seja abrangente das atividades mais necessárias. Naturalmente, nem todas as
atividades devem ser realizadas em todos os projetos, e nem mesmo cada passo
Técnicas de estimativa
As três técnicas de estimativa listadas acima esperam que você tenha alguma
experiência anterior de projeto.
A técnica de estimativa intuitiva espera que você preveja, com base em sua
experiência, quanto tempo demorará para completar uma atividade, mas
possivelmente você nunca realizou uma atividade similar.
Atribuição de recursos
Dependências de tarefas
Término - Início: Nesta situação uma atividade é finalizada para outra ser
iniciada. A Atividade 2 para ser iniciada depende que a Atividade 1 seja finalizada.
Início - Término: Neste caso uma atividade não poderá ser finalizada até que
a outra atividade tenha sido começada. A Atividade 2 não pode ser finalizada até que
a Atividade 1 tenha sido iniciada.
Dependências de recursos
Horários do projeto
Esse ciclo deve ser explicitamente aplicado a cada aplicativo construído, sob
pena de não se ter os resultados esperados caso isso não seja realizado.
Um erro muito comum é acreditar que apenas essa fase é suficiente para uma
solução de BI, muitas vezes as implementações param nesse estágio e se julgam
bem-sucedidas.
É importante dar ênfase aos pontos mais relevantes das informações. Mais
importante do que mostrar todos os dados, nesse caso, é dar relevância aos que se
comportam de maneira diferente.
Modelagem de alternativas
Para que isso seja possível, pode ser necessário que o DW seja capaz de
acessar a linha operacional, de alterar os modelos dimensionais ou de criar bancos
de acompanhamento de desempenho para que sejam guardadas as decisões de
negócio tomadas e as métricas impactadas por elas para, então, serem definidas
aquelas que tiveram um resultado satisfatório ou aquelas que não atingiram seus
objetivos.
Existem três tipos de análise com diferentes propósitos, porém cada um deles
com sua devida importância.
Relatórios padrão
Aplicativos analíticos
Seu uso costuma ser mais complexo que os relatórios padrão. Aplicativos
analíticos podem incluir algoritmos ou modelos de mineração de dados para
encontrarem informações ocultas nos dados.
Gestão do conhecimento
Data Mining
Modelagem preditiva: criação de modelos para variável alvo como função das
variáveis independentes. Podemos prever, por exemplo, que o consumidor X
irá gastar 8000 este ano.
Dashboards
Figura 14 – Dashboards.
Balanced Scorecards
Como podemos ver na figura anterior, para cada perspectiva a ser analisada
é preciso definir os seguintes pontos:
Definição da granularidade.
Operadores
Outras ações também são possíveis mas menos usuais, nas ferramentas de
exibição de cubos:
Os Data Marts têm o escopo mais limitado e são mais identificados com grupos
de necessidades dos usuários, o que se traduz em esforço/equipe
concentrados.
Parte destes dados são então extraídos para BDs menores, criando BDs
departamentais denominadas Data Mart (DM), onde os utilizadores finais
exploram os dados e criam relatórios.
Abordagem Kimball
O modelo proposto por Kimball é o bottom up, onde são criados os DMs e
expandindo para o DW. Este é o modelo mais indicado e amplamente utilizado
atualmente.
Definição do grão
Cada grão de tabela de fatos proposto resulta em uma tabela física separada.
Grãos diferentes não devem ser misturados na mesma tabela de fatos.
Sempre que possível, uma dimensão deve ser de valor único quando
associada a uma determinada linha de fato. As tabelas de dimensão às vezes são
Para este exemplo serão criadas duas fontes de dados fictícias que
representarão uma base de dados em Mysql, que apresenta a estrutura de dados de
um sistema onde estão cadastrados alunos e cursos do IGTI e um arquivo CSV, que
representa um documento que foi exportado de um sistema de eventos onde alguns
destes alunos participaram de uma semana de palestras. Assim, será feita a
integração e tratamento destes dados para posteriormente serem analisados.
Para essa simulação serão utilizadas três ferramentas: Xampp, que irá
armazenar a base de dados Mysql, PDI do Pentaho, que irá realizar o ETL, e o Power
BI desktop da Microsoft, que fará a exibição dos dados. Tanto o Pentaho quanto o
Power BI realizam ambos trabalhos, porém serão utilizadas duas ferramentas devido
à popularidade e facilidade destas ferramentas para cada tarefa e para que os alunos
tenham contato com mais opções.
https://drive.google.com/drive/folders/1UEMm6fCMykWbULchpPp64yQGERTzmpb0
?usp=sharing.
Para cada uma das entradas iremos ordenar pelo CPF, utilizando o recurso
“Sort rows” da pasta transform, para posteriormente realizar a junção dos dados
através do recurso “Merge Join” da pasta Joins. Essa ordenação é fundamental para
que a junção através do Merge funcione corretamente e em nosso caso ambas foram
Agora só falta criar o arquivo de saída com o resultado da junção. Neste caso
iremos utilizar um arquivo do Excel, necessitando apenas escolher o recurso
“Microsoft Excel writer” na pasta Output, criando uma ligação entre o recurso merge
e escolhendo o local para os arquivos serem salvos. Agora basta rodar a aplicação
que todo processo será executado.
KIMBALL et al. The Data Warehouse Lifecycle Toolkit. 2. ed. Indianapolis: John Wiley
& Sons Inc., 2008.
KIMBALL, Ralph; ROSS, Margy. The Data Warehouse Toolkit: The Definitive Guide
to Dimensional Modeling, Third Edition. Indianapolis: John Wiley & Sons Inc., 2013.
MOSS, Larissa; ATRE, Shaku. Business Intelligence Roadmap: The Complete Project
Lifecycle for Decision-Support Applications. Addison-Wesley Professional, 2003.
XAVIER, Fabrício; PEREIRA, L. SQL dos conceitos. Rio de Janeiro: Ciência Moderna,
2009.