Você está na página 1de 27
Centro Federal de Educação Tecnológica de Minas Gerais Departamento de Computação Curso de Engenharia de Computação

Centro Federal de Educação Tecnológica de Minas Gerais Departamento de Computação

Curso de Engenharia de Computação

Sistema Provedor de Inteligência Empresarial Baseados em Modelagem Multidimensional e Processamento Analítico de Dados

Lipie Augusto de Alcântara Souza

Orientador: Prof. Ismael Santana Silva Centro Federal de Educação Tecnológica de Minas Gerais

Coorientadora: Profa. Glívia Angélica Rodrigues Barbosa Centro Federal de Educação Tecnológica de Minas Gerais

Belo Horizonte Julho de 2015

Lipie Augusto de Alcântara Souza

Sistema Provedor de Inteligência Empresarial Baseados em Modelagem Multidimensional e Processamento Analítico de Dados

Modelo canônico de trabalho monográfico acadêmico em conformidade com as normas ABNT apresentado à comunidade de usuários L A T E X.

Orientador:

Prof. Ismael Santana Silva

Centro Federal de Educação Tecnológica de Minas Gerais

Coorientadora: Profa. Glívia Angélica Rodrigues Bar- bosa

Centro Federal de Educação Tecnológica de Minas Gerais

Centro Federal de Educação Tecnológica de Minas Gerais Departamento de Computação Curso de Engenharia de Computação Belo Horizonte Julho de 2015

i

Lipie Augusto de Alcântara Souza

Sistema Provedor de Inteligência Empresarial Baseados em Modelagem Multidimensional e Processamento Analítico de Dados

Modelo canônico de trabalho monográfico acadêmico em conformidade com as normas ABNT apresentado à comunidade de usuários L A T E X.

Trabalho aprovado. Belo Horizonte, 06 de julho de 2015

Prof. Ismael Santana Silva

Orientador

Profa. Glívia Angélica Rodrigues Barbosa

Co-Orientadora

Centro Federal de Educação Tecnológica de Minas Gerais Departamento de Computação Curso de Engenharia de Computação Belo Horizonte Julho de 2015

ii

Lista de Figuras

Figura 1

Estrutura do Data Warehouse

 

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

7

Figura 2

Cubo de Dados

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

13

Figura 3 – Fluxograma do Processo Metodológico

 

.

16

iii

Lista de Quadros

Quadro 1 – Conceitos importantes da modelagem multidimensional

.

.

.

.

.

.

.

.

12

iv

Lista de Abreviaturas e Siglas

DW

Data Warehouse

BI

Business Intelligence {Inteligência de Negócio}

OLAP

On-line Analytical Processing {Processamento Analítico de Dados}

DM

Data Mart

SMD

Sistema de Medição de Desempenho

RDBMS

Relational Database Management System {Sistema de Gerenciamento de Banco de Dados Relacional}

ETL

Extract, transform and load {Extração, Transformação e Carregamento}

SAD

Sistema de Apoio a Decisão

BSC

Balanced Scoreboard {Balanceamento de Desempenho}

TI

Tecnologia da Informação

v

Sumário

1 – Introdução

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

1

Motivação

  • 1.1 .

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

2

  • 1.2 Objetivo

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

3

  • 1.3 Principais Contribuições

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

4

2 – Fundamentação Teórica

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

5

  • 2.1 Business Intelligence

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

5

  • 2.2 Data Warehousing

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

5

  • 2.2.1 Estrututra de um Data Warehouse

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

6

  • 2.2.2 Data Mart

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

7

  • 2.2.3 Data Mining

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

7

  • 2.3 Extração, Transformação e Carregamento

 

.

8

Tecnologias

  • 2.3.1 .

 

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

10

  • 2.4 Modelagem multidimensional com foco em BI

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

10

  • 2.5 Processamento Analítico de Dados

 

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

11

3 – Trabalhos Relacionados

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

14

4 –Metodologia

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

16

  • 4.1 Definição das Métricas e Indicadores

 

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

17

  • 4.2 Modelagem, Extração, e Adequação dos Dados

 

.

17

  • 4.3 Análise e Apresentação dos Dados

 

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

17

Referências .

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

18

vi

1

1 Introdução

A rápida dinâmica do cenário econômico mundial desafia as organizações a se adequarem à nova realidade de mercado, exigindo adaptações cada vez mais rápidas nas práticas de gestão, bem como na tomada de decisões estratégicas. A gestão inteligente da informação é fundamental para as organizações tornarem-se competitivas e exige o desen- volvimento de ações acertadas direcionadas à manutenção, reformulação e ao crescimento da organização. Nesse sentido, observa-se que, quanto melhor for a gestão estratégica da informação, maior será a chance da organização manter-se rentável (REZENDE, 2001).

A falta de estratégia e refinamento do conhecimento organizacional atravanca a agilidade e o sucesso dos negócios. Processos clássicos de análise de dados, baseados principalmente na apreciação direta dos dados pelo homem, não permitem a manipulação de uma rede volumosa de dados. Embora a tecnologia de banco de dados tenha nos proporcionado as ferramentas básicas para armazenar e pesquisar com rapidez grandes conjuntos de dados, a questão de como ajudar o homem a entender e analisar esses conjuntos permanece um problema em aberto (REZENDE, 2001).

Santos (2000) afirma que "o tomador de decisões necessita de informações relevantes, mas, antes de tudo, precisa de dispositivos de filtros, pois está exposto a uma massa infinita de informações irrelevantes, muitas delas, que ele mesmo solicitara". Para lidar com a supersaturação de dados, se faz necessária uma nova geração de ferramentas inteligentes adequadas ao fluxo de informações, motivações do negócio e outras especificidades.

Além de frisar a problemática gerada pelo adensamento de dados, Singh (2001) alerta para a urgência da implantação de tais dispositivos provedores de inteligência empresarial:

Esperar não é uma opção. À medida que o tempo disponível para tomada de decisões torna-se cada vez mais curto, aqueles que não se dispõem de meios proativos para analisar as informações do negócio não serão capazes de competir. Com o contínuo aumento dos dados disponíveis, o processo para localizar e extrair informações úteis fica cada vez mais complexo.

Embora muitas empresas ainda considerem o planejamento estratégico da infor- mação como uma tarefa inútil, que consome tempo e não leva a resultados efetivos, na realidade, em muitas organizações tem comprovado justamente o contrário, saber planejar é essencial para evitar gastos desnecessários em recursos, tecnologia e em tempo dos profissionais.

Capítulo 1. Introdução

2

1.1 Motivação

A análise e interpretação dos dados gerados pelos sistemas de informação é uma realidade para as organizações públicas e privadas. No setor público, a necessidade de modernizar a sua administração, recorrendo às tecnologias de informação como ferramenta crucial para a sua concretização surgiu das dificuldades em aceder em tempo útil à informação relevante por parte dos diversos órgãos Navarro (1996). As soluções de Business Intelligence (BI) são escolhas naturais para dar corpo à importante transformação gerencial destes setores, e são poderosas aliadas para essa urgente transição. Isto é feito de forma científica e organizada, utilizando ferramentas de gestão, entre as quais o BI, devem mostrar aos governos que é possível melhorar de forma significativa e continuada os sistemas e a maneira de governar existentes até então, objetivando sempre melhorias socioeconômicas.

Nessa linha de pensamento, Barquin (2008) atenta para a primordialidade de se adotar o BI na administração Obama no seu primeiro mandato:

The Obama Administration will surely have to rely on tried-and-true business intelligence to start peeling the onion on this broad range of issues. Not that there is much of a chance of solving them all in any one president’s term, but at least the analytic groundwork has to be started that will help us as a society make these decisions on an informed basis. There is no alternative to business intelligence.

No sentido de qualificar a governança surgiram instituições e empresas que buscam sistematizar dados e informações vindas de diversos sistemas existentes, sociais e econô- micos, e outros a serem construídos. Para exemplificar esta evolução, pode-se destacar a empresa B2T – Business to Technology, cujo surgimento vem aliado a esta nova demanda governamental. A atual carteira de clientes da empresa vai desde os Ministérios da Defesa, Fazenda e do Desenvolvimento, até mesmo grandes do setor privado como a Bradesco Promotora e a Unimed Paulistana (B2T - BUSSINESS TO TECHNOLOGY, 2015).

No setor privado, especialmente em grandes corporações, esta transição é evidente, destacando-se tendências de centralização dos dados. A Coca-Cola, por exemplo, por ser uma empresa de produção descentralizada, contou no decorrer de sua trajetória com diversos sistemas de análise das operações e negócios, um para cada fábrica ou região, e muitos deles baseados exclusivamente em planilhas de Excel. Entretanto, nenhum destes métodos eram compatíveis entre si, e impossibilitaram de certa forma, uma análise mais acertada da empresa como um todo, bem sua organização administrativa. Entre 2003 e 2013, a Coca-Cola implementou um grande processo com o intuito de alterar esse cenário. Este movimento foi considerado um grande salto de produtividade pelo vice-presidente de operações da empresa, que passou a contar, pela primeira vez, com um sistema centralizado de informações gerenciais (BURNS, 2013).

Capítulo 1. Introdução

3

Os Sistemas de Apoio a Decisão (SADs), produtos da aplicação de Business Intelligence, apresentam-se como ferramentas capazes de processar enormes quantidades de informação de carácter complexo e até mesmo possuir a capacidade de sugerir um conjunto de alternativas mediante a opção por determinados critérios de otimização. O auxílio na tomada de decisão é ainda mais notório quando a acompanhar cada sugestão forem apresentadas as justificativas que a fundamentam. Uma tomada de decisão acertada, apresenta-se como um ponto fundamental na capacidade competitiva de uma organização. Perante esta situação é desejável reunir toda informação relevante para ser possível efetuar uma análise ponderada e objetiva (TURBAN et al., 2006).

O BI, no entanto, não é milagre. É um conceito que abarca uma série de ferramentas de tecnologia de informação que, utilizadas em conjunto ou em separado, potencializam a capacidade da peça mais importante desse ciclo: o homem. Nas ultimas décadas, com o surgimento da era da informação e da Internet, e as expectativas em relação ao grande montante de informações produzidas e a nova economia, resultaram em uma revolução sem precedentes no mercado de trabalho. Diversas empresas investiram milhões em equipamentos e tecnologia, mas esqueceram da gestão do conhecimento e do capital humano. Com o BI, a gestão de pessoas passou a ser um ponto importante na engrenagem de um projeto de implementação porque é por intermédio das pessoas e da informação que a empresa adquire uma visão corporativa mais consistente (TURBAN et al., 2006).

1.2 Objetivo

O trabalho desenvolvido tem como objetivo a construção de um sistema provedor de inteligência empresarial, de forma a evidenciar todas as atividades necessárias para a especificação, o desenvolvimento, e a implantação deste sistema. A fonte de dados, e consequentemente o objeto de estudo do sistema a ser apresentado, são provenientes do setor de Gerencia de Tecnologia da Informação – América Latina de uma multinacional brasileira do setor de construção civil.

Nesse âmbito, este estudo tem como propósito geral a implementação de ferramentas de Business Intelligence para a área da Gerência da Tecnologia da Informação exercer sua função de apoio junto ao processo decisório. A intenção é proporcionar à esta área da empresa objeto do estudo, a estruturação de diversos controles que antes não existiam, o acompanhamento apropriado do desempenho das áreas, o provimento de informações em tempo real aos gestores da empresa.

Capítulo 1. Introdução

4

  • 1.3 Principais Contribuições

O contexto empresarial inclui uma rede de entidades cujas ações representam os parâmetros ambientais que, por sua vez, influenciam ou desenham a forma de atuação das organizações, criando um ciclo que passa a demandar dos administradores habilidades específicas para remodelar as suas atividades, de forma a reposicionar a organização frente ao seu meio, sempre que a preservação de seus objetivos reivindicar essa postura.

Tais parâmetros podem ter as mais variadas motivações econômicas, políticas, sociais e tecnológicas (WRIGHT et al., 2000). Este estudo de caso ressalta entretanto, apenas as de natureza econômica e tecnológica devido à influência que exercem nas organizações. As variáveis econômicas são um dos aspectos decisivos para o nível de desenvolvimento das organizações, pois conjunturas econômicas sólidas ou frágeis podem agir como fatores que encorajam ou impossibilitam a atuação e prosperidade dos negócios e por essa razão, convertem-se em autênticos indicadores de prioridades para a empresa (HALL, 1984).

As aplicações de BI podem provisionar uma avaliação sistêmica do negócio e ajudar o direcionamento e divisão uniforme dos dados entre os usuários, sendo sua finalidade principal transformar grandes quantidades de dados em informações de qualidade para a tomada de decisões. Através delas, é possível entrecruzar dados, apresentar informações em diferentes dimensões e analisar os principais indicadores de desempenho organizacional (BATISTA, 2013). Essa facilidade, considerando-se as propriedades dessas ferramentas, pode contribuir de modo direto para as funções da área de controladoria na extração, análise e apresentação do recurso informação aos gestores, além de permitir a esse setor uma contínua auditoria das atividades da empresa como um todo.

A partir desses instrumentos de BI que auxiliam a obtenção e a apresentação do recurso informação aos usuários, a empresa pode ter adaptabilidade e versatilidade em seus procedimentos, podendo até mesmo eliminar várias de suas deficiências e dispor um clima favorável ao seu sucessivo desenvolvimento e ao seu pleno controle organizacional.

5

2 Fundamentação Teórica

...

incluir

texto

  • 2.1 Business Intelligence

  • 2.2 Data Warehousing

A teoria de banco de dados, bem como os bancos de dados já estão disponíveis a bastante tempo. No inicio os dados ficavam concentrados em um único banco de dados que atendia tanto ao processamento de transações (sistema operacional), que era predominante, e processamento analítico (sistema informacional) (SINGH, 2001).

Segundo Haisten (1999), a origem do Data Warehouse vem dos estudos do MIT (Massachusetts Institute of Technology) nos anos 70 que focava o desenvolvimento de uma arquitetura técnica mais eficiente para sistemas de informação. Pela primeira vez foi feita uma distinção entre sistemas operacionais e aplicações analíticas e surgiu o princípio de separar esses dois tipos de processamento em projetos e bancos de dados diferentes.

Para Ballard e Herrreman (1998) e Teresko (1999), o conceito de Data Warehousing surgiu no início dos anos 80 quando os sistemas gerenciadores de bancos de dados (SGBD) emergiram como produtos comerciais com facilidades para a computação de apoio à decisão. Teresko (1999) comenta que Bill Immon, observou que estes repositórios de informação poderiam ser organizados em um bem corporativo que ele chamou de Data Warehouse e por causa disso Immon é considerado o "pai do Data Warehouse". No início, o DW consistia de instantâneos, ou subconjunto dos dados operacionais que eram carregados em bancos de dados de apoio à decisão em períodos regulares que costumavam ser semanais ou mensais (BALLARD; HERRREMAN, 1998).

Devlin e Murphy (1988 apud HAISTEN, 1999), ambos da IBM, passaram a cuidar do problema da integração e introduziram o termo "armazém de informação"(Information Warehouse) e o definiram como um "ambiente estruturado suportando usuários finais no gerenciamento do negócio completo e responsabilizando o departamento de TI (Tecnologia da Informação) à garantia de qualidade dos dados". Nessa mesma época a IBM passou a tratar de um problema relacionado ao gerenciamento da informação que era a proliferação dos RDBMS’s. As empresas passaram a enfrentar a difícil tarefa de integrar dados de muitos sistemas separados (HAISTEN, 1999).

Capítulo 2. Fundamentação Teórica

6

  • 2.2.1 Estrututra de um Data Warehouse

Os data warehouses possuem estruturas distintas. Há diferentes níveis de sumariza- ção e detalhe que descrevem o DW. A Figura 1 mostra os diversos componentes do data warehouse (ALDEMAN; MOSS, 2000):

Dados Atuais - Os dados atuais são, sem dúvidas, os que exigem mais atenção, pois eles refletem os acontecimentos mais recentes, sempre de grande interesse. São volumosos porque estão armazenados no menor nível de granularidade. Geralmente são armazenados em disco, o que facilita o acesso e torna o gerenciamento complexo e caro.

Dados Antigos - Os dados antigos são geralmente acessados com menor frequência e armazenados em um nível de detalhe consistente com o detalhe dos dados atuais. Embora não seja imprescindível o armazenamento em um meio alternativo, devido ao grande volume de dados conjugado ao raro acesso, o meio de armazenamento para dados antigos é usualmente removível, tal como uma biblioteca de fitas.

Dados Sumarizados - Há dois tipos de dados sumarizados, conforme a necessidade de processamento e armazenagem. Eles são:

Dados ligeiramente sumarizados: são encontratos no nível atual de detalhe, extraídos do nível mais baixo. Esse nível do data warehouse é quase sempre armazenado em disco.

Dados altamente sumarizados - são compactos e de fácil acesso. Às vezes os dados altamente sumarizados são encontrados dentro do ambiente do data warehouse e às vezes em um ambiente externo ao da tecnologia que abriga o data warehouse. (Em qualquer dos casos, os dados altamente sumarizados fazem parte do DW independente de onde residam.)

A granularidade afeta diretamente no volume de dados armazenados, na velocidade das consultas e no nível de detalhamento das informações do DW. Quanto maior for o detalhamento, maior será a flexibilidade para se obter respostas. Porém, maior será o volume e menor a velocidade das consultas. Já quanto menor for o detalhamento, menor será o volume, maior a sumarização dos dados e melhor será a performance. Entretanto, menor será a abrangência, ou seja, maior será as restrições das consultas às informações.

Note que nem todas as sumarizações realizadas são armazenadas no DW. Haverá muitas ocasiões em que a análise será feita e um tipo ou outro de sumário será produzido. Somente a sumarização de dados usados com frequência é permanentemente armazenada no DW. Em outras palavras, se você produzir um resultado sumarizado que provavelmente

Capítulo 2. Fundamentação Teórica

7

Figura 1 – Estrutura do Data Warehouse

Capítulo 2. Fundamentação Teórica 7 Figura 1 – Estrutura do Data Warehouse não reutilizará, a sumarização

não reutilizará, a sumarização não será armazenada no data warehouse (ALDEMAN; MOSS, 2000).

Metadado: Este é o componente mais importante do data warehouse. O metadado contém dados sobre os dados. Sob muitos aspectos o metadado situa-se em uma dimensão diferente de outros dados do DW porque seus dados não são retirados diretamente do ambiente operacional. Em uma implementação típica, a aplicação do DW está acoplada ao warehouse via metadado, permitindo que as mudanças feitas no DW sejam refletidas imediatamente na aplicação do usuário final de acesso aos dados. Por exemplo, se uma corporação se reestrutura e elimina um nível gerencial, logo que os dados correspondentes à nova hierarquia organizacional são adicionados ao DW a aplicação deve reconfigurar-se usando o metadado para refletir a nova hierarquia (ALDEMAN; MOSS, 2000).

  • 2.2.2 Data Mart

[FALTOU] - Próxima entrega

  • 2.2.3 Data Mining

[FALTOU] - Próxima entrega

Capítulo 2. Fundamentação Teórica

8

  • 2.3 Extração, Transformação e Carregamento

Um processo ETL (Extract, Tranform and Load) é fundamental em um data warehouse. Um sistema ETL bem desenhado extrai a informação dos sistemas fontes, reforça a sua qualidade e a consistência da informação, normaliza os dados num formato pronto para apresentação de tal forma que os programadores da aplicação possam construir aplicações e utilizadores finais possam tomar decisões(KIMBALL; CASERTA, 2004).

O sistema ETL adiciona um valor significante aos dados do data warehouse e não é só um meio de transferência de informação. De forma mais específica o sistema ETL tem como objetivos: remover os erros e corrigir dados em falta; disponibilizar medidas de confiança nos dados; capturar o fluxo de dados transacionais para salvaguardo; ajustar informação de múltiplas fontes de forma a poder ser usada em conjunto; disponibilizar estruturas de dados utilizáveis por meio meio de ferramentas de exploração dos dados(KIMBALL; CASERTA, 2004).

Cada passo do processo de ETL tem diferentes objetivos. A fase de extração inclui de forma geral:

Ler o modelo e dados de origem;

Conectar-se e extrair os dados;

Agendar a extração de dados do sistema fonte;

Detectar a atualização de dados;

Colocar os dados extraídos numa área de staging.

A área de staging armazena os dados que estão a caminho da área de apresentação final do DW. A decisão de colocar ou não os dados numa área de staging, a cada etapa depende, do ambiente e dos requisitos do negócio. Na maior parte dos casos, existe pelo menos uma área de staging no processo de ETL de um DW (KIMBALL; CASERTA,

2004).

Um dos aspectos mais complexos das tarefas descritas acima é a detecção da alteração dos dados. Tipicamente em um DW irá ocorrer um carregamento inicial de todos os dados do sistema fonte a um determinado ponto do tempo. Depois desse carregamento ocorrer, não é eficiente reprocessar dados que já foram carregados e não foram alterados. Desta forma, o processamento total dos dados do sistema fonte é uma tarefa com custo muito elevado e, geralmente, não é considerado na maior parte dos sistemas de BI. Uma solução para contornar este problema é detecção de atualização dos dados. Este mecanismo permite detectar quais registros foram alterados desde o último carregamento de forma a processar exclusivamente estes registros. Algumas das

Capítulo 2. Fundamentação Teórica

9

possibilidades de implementação de um mecanismo de detecção de alteração dos dados incluem a implementação de gatilhos (triggers) no sistema fonte, ou até mesmo, processos de eliminação (comparar as tabelas atuais com as últimas tabelas carregadas)(KIMBALL; CASERTA, 2004).

A fase de transformação envolve, principalmente, tarefas de limpeza e normaliza- ção dos dados, as principais tarefas correspondentes são:

Restrições da estrutura;

Restrições das regras de dados e valores;

Normalizar os conteúdos das dimensões;

Normalizar as métricas e indicadores (das tabelas "fato");

Eliminar redundância;

Colocar os dados transformados numa área de staging.

Por último a fase de carregamento envolve, na maior parte dos casos, as seguintes

tarefas:

Comparar os dados atualizados com os dados existentes nas slowly changing dimen- sions 1 (SCDs);

Comparar os dados atualizados com os dados existentes nas tabelas fatos;

Inserir dados novos nos fatos;

Atualizar dados já existentes nos fatos;

Cruzar as dimensões e tabelas de staging de fatos de forma a carregar as chaves primarias nas chaves estrangeiras das tabelas fato;

Carregar e atualizar as tabelas fato agregadas 2 ;

Colocar os dados transformados numa área de staging.

Uma das mais-valias possíveis da utilização das áreas de staging citadas acima, é a recuperação de dados. Na maior parte dos ambientes empresariais é uma boa prática

  • 1 Termo utilizado em teorias de Data Warehousing para grupos de dados lógicos como informações de produtos, clientes, etc que mudam lentamente ao longo do tempo.

  • 2 Tabelas fato agregadas são um complemento para as tabelas fato detalhadas relacionadas aos processos de negócio, são constituidas de regras de negócio a serem atendidas e não em informações operacionais da organização.

Capítulo 2. Fundamentação Teórica

10

guardar dados numa staging logo à seguir a sua extração do sistema fonte e a seguir a cada

transformação significante dos dados. Em áreas de staging, quer em uma base ou em um

sistema de arquivos, servem como pontos de recuperação. Implementados essas tabelas, o

processo não terá que consultar o sistema fonte novamente se uma transformação falhar.

2.3.1 Tecnologias

[FASE POSTERIOR] Falar um pouco sobre as tecnologias (mas somente quando

..

começar a implementação de fato, pois estarei apto a falar mais tecnicamente sobre estas

tecnologias ) ..

  • 2.4 Modelagem multidimensional com foco em BI A natureza do uso de bancos de dados multidimensionais torna sua modelagem

distinta daquela utilizada para sistemas transacionais 3 . Neste último aplicamos técnicas

de normalização a fim de obter o desempenho desejado ao reduzir o número de tabelas

em junções. No modelo multidimensional, deixamos de focar a coleta de dados para nos

ocuparmos com a consulta aos dados. Essa é uma mudança radical de foco. Observe que

o modelo multidimensional é usado em sistemas cujas bases de dados são atualizadas

periodicamente e em horários pré-agendados, pois tradicionalmente sistemas de BI não

requerem mais de uma atualização por dia. Além disso, a modelagem é importante, pois

importam-se transações que foram coletadas e armazenadas por outros sistemas, e por

isso precisam ser readequados (SINGH, 2001).

Um Data Warehouse é construído definindo um modelo de dados empresarial,

apresentando as principais entidades e seus relacionamentos. Mesmo que o preenchimento

de todas as entidades não seja feito de forma simultânea, o relacionamento entre elas já

estará definido, facilitando posteriormente o cruzamento de informações entre as áreas

de interesse. Neste modelo a apresentação de resultados aos usuários levará mais tempo,

pois a prioridade está em definir todos os relacionamentos, para depois montar os Data

Marts com os dados relevantes para cada departamento. Portanto, a diferença entre um

DM e um DW são apenas em relação ao tamanho e ao escopo do problema a ser resolvido.

As definições dos problemas e os requisitos de dados são essencialmente os mesmos para

ambos (ALDEMAN; MOSS, 2000).

Os Data Marts atendem às necessidades de unidades específicas de negócios, ao invés

do interesse da corporação como um todo. Eles otimizam o fornecimento de informações

de suporte à decisões, focando nos interesses particulares do departamento. A utilização

  • 3 São aqueles que, como o nome sugere, baseiam-se em transações. Os sistemas transacionais se caracterizam pela alta taxa de atualização, grandes volumes de dados e acessos pontuais, ou seja, pesquisas cujo resultado seja de pequeno volume (NARDI, 2007).

Capítulo 2. Fundamentação Teórica

11

do DM foi uma escolha natural para o desenvolvimento deste trabalho, tendo em vista

os dados analisados são provenientes do Service Desk do setor de TI com o intuito de

gerar indicadores de interesse próprio. Atentando para a diferença entre um DW e um DM

que se limita simplesmente ao escopo do problema, e adicionalmente, como a literatura

disponível na comunidade acadêmica, na sua grande maioria foca no DW, a sessão 2.1

deste trabalho é dedicada a este conceito.

  • 2.5 Processamento Analítico de Dados

Com o propósito de simplificar e otimizar o processo de consulta, os dados devem

ser mantidos de forma a ser possível dar respostas rápidas as necessidades dos usuários.

As ferramentas de análise e apresentação dos dados OLAP (Online Analytical Processing)

são importantes aliados para melhorar a organização da informação e consequentemente

auxiliar diretamente a tomada de decisões estratégicas.

É necessário também disponibilizar os meios necessários para visualização dos

conteúdos. Geralmente a informação é apresentada sobre a forma de relatórios (gráficos,

tabelas, quadros e imagens) ou balanced scorecards 4 que têm como objetivo traduzir as

missões e estratégias da organização de forma a monitorar o desempenho face a esses

objetivos. É nesta etapa que surgem os sistemas de apoio a decisão (SAD)(THOMSEN,

2002).

As ferramentas OLAP são popularmente conhecidas como cubo de dados em função

da alusão feita ao "cubo mágico", utilizado para demonstrar fisicamente a modelagem

dimensional. As estruturas multidimensionais tiram proveito de relações inerentes aos

dados, para modelar dados em matrizes multidimensionais nomeadas cubos de dados.

Porém, o número de dimensões, quando maior que três, sugere um hipercubo. Como a

construção gráfica de um hipercubo é difícil, a literatura utiliza geralmente como referência

apenas o cubo (KONCILIA; WREMBEL, 2006).

A Figura 2 apresenta um exemplo do cubo de dados descrevendo uma modelagem

tridimensional de fatos.

A visão multidimensional consiste de consultas que fornecem dados a respeito de

medidas de desempenho, decompostas por uma ou mais dimensões dessas medidas. Podendo

até ser filtradas pela dimensão e/ou pelo valor da medida. As visões multidimensionais

fornecem as técnicas básicas para cálculo e análises requeridos pelas aplicações de BI. Para

se obter a visão multidimensional é necessário compreender algumas características. O

Quadro 1 descreve estas propriedades.

  • 4 Balanced Scorecard (BSC) é uma metodologia de medição e gestão de desempenho desenvolvida pelos professores da Harvard Business School (HBS) Robert Kaplan e David Norton, em 1992. O principal objetivo do BSC é o alinhamento do planejamento estratégico com as ações operacionais da empresa (KAPLAN; NORTON, 2007).

Capítulo 2. Fundamentação Teórica

12

Quadro 1 – Conceitos importantes da modelagem multidimensional

Conceito

Descrição

Fonte de Dados Uma fonte de dados é a origem de todos os dados que

estão contidos em um cubo OLAP. Um cubo OLAP

conecta-se a uma fonte de dados para ler e processar

dados brutos a fim de executar agregações e cálculos

para as medidas associadas. A fonte de dados de todos

os cubos OLAP são os datamarts.

Cubos OLAP Um cubo OLAP é uma estrutura de dados que supera li-

mitações de bancos de dados relacionais, proporcionando

rápida análise de dados. Os cubos OLAP podem exibir e

somar grandes volumes de dados, embora também forne-

çam aos usuários acesso pesquisável a quaisquer pontos

de dados, para que os dados possam ser acumulados,

decompostos e analisados, conforme a necessidade para

tratar da maior variedade de questões relevantes à área

de interesse do usuário.

Dimensões As dimensões permitem filtrar, agrupar e rotular os dados.

Por exemplo, você pode filtrar computadores por sistema

operacional instalado e agrupar pessoas em categorias

por sexo ou idade. Em seguida, os dados podem ser

apresentados em um formato no qual são classificados

naturalmente por essas hierarquias e categorias, para

permitir uma análise mais aprofundada. As dimensões

também possuem hierarquias naturais para permitir que

os usuários façam “drill down” em níveis mais detalhados.

Por exemplo, a dimensão Data possui uma hierarquia que

pode ser detalhada sucessivamente por Ano, Trimestre,

Mês, Semana e Dia.

Grupo de Medidas Um grupo de medidas tem o mesmo conceito que um fato

em uma terminologia de data warehouse. Assim como

fatos contêm medidas numéricas em um data warehouse,

um grupo de medidas contém medidas para um cubo

OLAP. Todas as medidas em um cubo OLAP derivadas

de uma única tabela de fatos em uma exibição de fonte de

dados também podem ser consideradas como um grupo

de medidas. Pode haver ocasiões, entretanto, em que

haverá várias tabelas de fatos das quais se derivam as

medidas em um cubo OLAP.

Fonte: Microsoft (2014)

Capítulo 2. Fundamentação Teórica

13

Figura 2 – Cubo de Dados

Capítulo 2. Fundamentação Teórica 13 Figura 2 – Cubo de Dados

14

3 Trabalhos Relacionados

Existe uma grande variedade trabalhos acadêmicos publicados que referenciam ou

aprofundam o conceito de BI, inclusive muitos deles, assim com este trabalho, também

utilizam ferramentas de DW/DM e OLAP para modelar, processar e apresentar os dados

em estudo. Entretanto, as informações analisadas são de forma majoritária, ligadas à

produção, operação, marketing e vendas, quando se tratam de empresas, que é o caso dos

trabalhos publicados por Fortulan (2006) e Dias (2013) e indicadores sociais no caso de

organizações governamentais, como em Combs (2009) e Marques (2011). O objeto de estudo

do trabalho aqui proposto, por outro lado, tem foco na demanda por serviços internos à

empresa, isto é, no fluxo de solicitações entre diversos setores da mesma corporação de

forma a traçar um diagnóstico deste relacionamento intersetorial.

Dentre os trabalhos análogos publicados pela comunidade acadêmica lusófona, pode-

se destacar dois estudos de caso de grandes empresas: Dias (2013) foca na sensibilização da

organização em estudo para obter uma melhor eficiência de compras junto aos fornecedores

de forma a evitar rupturas e excessos de estoque. Fortulan (2006) foca na construção de

um Sistema de Medição de Desempenho (SMD) a partir dos dados históricos do chão-de-

fábrica de uma empresa de manufatura. É importante salientar que ambos os trabalhos

descrevem um grande interesse das empresas na implementação destes sistemas de BI,

frente a uma necessidade constante e maciça de relatórios demandadas por diversas áreas

dessas empresas que sobrecarregam seus setores de TI. Os profissionais desse setor aplicam

boa parte de seu tempo no desenvolvimento, customização e validação de relatórios para

atender a solicitações das outras, que eram usados, muitas vezes, para uma única decisão

ou simplesmente para a averiguação de determinadas situações pontuais.

Como consequência, a TI não pode atender a demanda de todas as outras áreas,

estimulando-as com isso, indiretamente, a criação de um armazém de inteligência para uso

próprio e para resolução de demandas externas. Estas áreas estão repletas de especialistas

que tem como função garimpar os dados nos vários sistemas da empresa e integrá-los e

formatá-los, usando-se, para tanto, planilhas eletrônicas de dados. Como ilustração, a

empresa avaliada por Dias (2013), em seu departamento de vendas, somando-se todas

as horas de garimpagem de dados, aplicava o tempo equivalente ao trabalho de pelo

menos duas pessoas nessa atividade. Esses dados eram retirados do sistema de forma não

integrada, formando várias ‘ilhas’ de informações, que nem sempre eram relacionados entre

si, causando uma grande desconfiança dos usuários acerca da qualidade das conclusões

retiradas (FORTULAN, 2006), (DIAS, 2013).

Estes trabalhos utilizam a modelagem multidimensional dos dados para estruturar

a base de informações. O Data Warehouse foi uma escolha natural, pois tratam-se dados

Capítulo 3. Trabalhos Relacionados

15

provenientes de diferentes setores da mesma empresa, e portanto de sistemas ou bases

distintas, o que caracteriza o conceito de DW. Em contrapartida, neste trabalho, a escolha

óbvia para estruturação dos dados foi a elaboração de uma base de Data Mart, pois são

usufruídos dados exclusivos do setor de Tecnologia da Informação.

Após uma análise criteriosa acerca da conclusão dos trabalhos relacionados, pode-se

destacar uma certa preocupação para garantir a qualidade dos dados. Dados sem qualidade

geram informações distorcidas e conduzem a tomadas de decisões equivocadas. Isto pode

colocar a área de uma empresa em risco, ou até mesmo a organização como um todo.

Outro aspecto discutido é a importância da análise do negócio da organização, de forma a

definir um conjunto de indicadores capazes de medir o desempenho sob várias perspetivas:

financeira, clientes, processos internos e crescimento e aprendizagem. A identificação de

indicadores exige que a organização estabeleça as bases para que o objetivo estratégico

seja alcançado. Assim, deve definir as metas ou resultados que pretende atingir e quais as

iniciativas estratégicas a implementar.

Na literatura internacional existem uma infinidade de pesquisas, artigos e trabalhos

relacionados a aplicação de BI com a utilização de DW/DM e OLAP, a maioria deles de

cunho prático, como em Kumar (2014) e Mohammed et al. (2012). As áreas de estudo

são as mais variadas: existem aplicações em hospitais, ONG’s, corporações, instituições

públicas, etc, como em Paterson (2003). A maioria destes trabalhos focam no desempenho

organizacional, que é a mesma "grande área"de estudo deste trabalho.

16

4 Metodologia

A metodologia é composta por três etapas e seus elementos compreendem desde

a mobilização dos stakeholders até a disponibilização da informação refinada para os

usuários finais. Para que tal procedimento seja executado de forma eficiente e gere uma

solução de qualidade, bem estruturada e definitiva, faz-se uso de técnicas de refinamento,

adequação e apresentação dos dados, que são comumente armazenadas em banco de dados

relacionais (Relational Database Management System (RDBMS)). Tecnologias e processos

como a Extract, transform and load (ETL), Data Warehouse/Data Mart e o On-line

Analytical Processing, permitem a construção de uma solução robusta, eficiente e definitiva

da apresentação de indicadores gerenciais, adotando técnicas de filtragem e modelagem da

estrutura de dados relacionando-as diretamente aos índices aos quais se pretende obter.

Os dados foram extraídos de tabelas relacionais contendo informações das so-

licitações de serviços dos setores de Tecnologia da Informação, Recursos Humanos e

Superintendência da multinacional em estudo. Estas tabelas armazenam todo tipo de soli-

citação interna e, portanto molda analiticamente o fluxo de demandas interorganizacionais

da controladoria desta empresa. Os dados compreendem todos os chamados abertos entre

o período de Janeiro de 2012 a Janeiro de 2015.

A gura 3 apresenta o fluxograma da metodologia adotada. Em seguida, os passos

previstos serão detalhados.

Figura 3 – Fluxograma do Processo Metodológico

16 4 Metodologia A metodologia é composta por três etapas e seus elementos compreendem desde a

Capítulo 4. Metodologia

17

  • 4.1 Definição das Métricas e Indicadores

A identificação das métricas e indicadores é uma fase vital do procedimento

metodológico. Nesta parte são definidas as informações que devem ser extraídas dos dados

brutos e que serão relevantes para o processo de tomada de decisão. O levantamento de

tais elementos deve ser feito na primeira etapa tendo em vista que são pré-requisitos

necessários para a fase de adequação dos dados, além de evitar que o sistema já nasça

defasado. As partes interessadas definem o que querem analisar, sempre do ponto de vista

dos tomadores de decisão da instituição e nunca operacionais.

  • 4.2 Modelagem, Extração, e Adequação dos Dados

Ao considerar a quantidade de dados brutos e as bases de cálculos para gerar os

indicadores pré-definidos, torna-se fundamental a utilização de tecnologias de banco de

dados para armazenamento e tratamento de dados, com a finalidade de gerar informações

precisas, confiáveis e no momento certo aos tomadores de decisão. O fundamental é entender

que os dados precisam ser estruturados de forma diferente do que ocorre nos sistemas

transacionais.

Os dados armazenados em um DM/DW são otimizados para a recuperação através

do processamento analítico e devem ser modelados de forma a apresentar os dados em uma

estrutura padronizada que permita alto desempenho de acesso. A adoção de um modelo

multidimensional faz com que os dados compostos de cubos e dimensões que podem ser

nomeadas e estendidas para oferecer suporte a construções de consultas complexas. Os

dados provenientes de vários sistemas de banco de dados podem conter redundâncias de

elementos e informações que são inúteis para obtenção dos indicadores preestabelecidos,

então antes de passá-los para o DM pode ser necessário tratar os dados, executando

ações de filtragem e posteriormente adequá-los à nova estrutura de dados. Este processo é

denominado de Extração, Transformação e Carga (ETL).

  • 4.3 Análise e Apresentação dos Dados

As empresas, em sua grande maioria, geram dados em sua forma bruta com

baixo poder informacional, em planilhas eletrônicas, sistemas de informação com foco

operacional e transacional que pouco ajudam no gerenciamento do processo produtivo,

e, por isso, precisam ser tratados e interpretados para que se possa extrair informações

relevantes. No mercado, existem diversas ferramentas comerciais específicas para esta

finalidade que são fornecidas por empresas como Microsoft e Oracle, que possibilitam a

geração dos chamados SAD (Sistemas de Apoio à Decisão) ou BI.

18

Referências

ALDEMAN, S.; MOSS, L. T. Data Warehouse Project Management. 1 a . ed. [S.l.]:

Addison-Wesley, 2000. Citado 3 vezes nas páginas 6, 7 e 10.

B2T - BUSSINESS TO TECHNOLOGY. Parceiros. 2015. Disponível em: <http://www.

b2t.com.br/parceiros/>. Acesso em: 15 de abril de 2015. Citado na página 2.

BALLARD, C.; HERRREMAN, D. Data Modeling Techniques for Data Wa-

rehousing. 1998. IBM, International Technical Suport Organization. Disponível em:

de 2015. Citado na página 5.

BARQUIN, R. C. Business intelligence in the new administration: Ramon barquin

explains why the obama administration will have to rely on tried-and-true business

intelligence. 2008. Disponível em: <http://searchbusinessanalytics.techtarget.com/news/

2015. Citado na página 2.

BATISTA, E. d. O. Sistemas de informação: o uso consciente da tecnologia para o

gerenciamento. 2. ed. [S.l.]: Saraiva, 2013. Citado na página 4.

BURNS, E. Coca-Cola overcomes challenges to seize BI opportuni-

ties: The coca-cola co. understands that analytics challenges can be over-

come and that a team approach helps businesses take advantage of bi oppor-

tunities. 2013. Disponível em: <http://searchbusinessanalytics.techtarget.com/tip/

de 2015. Citado na página 2.

COMBS, S. Business intelligence for government transparency: where the money goes:

the transparency and spending strategies adopted by the state of texas could serve as

templates for other government initiatives. Government Finance Review, Cengage

Learning, Inc., v. 25, p. 55, 2009. Citado na página 14.

DEVLIN, B. A.; MURPHY, P. T. An architecture for a business and information systems.

IBM System Journal, v. 27, n. 1, 1988. Citado na página 5.

DIAS, A. D. F. Sistema de apoio à decisão com base em Business Intelligence e

Data Warehouse na OCP Portugal – Produtos Farmacêuticos, SA. Dissertação

de Mestrado, Faculdade de Engenharia da Universidade do Porto, 2013. Citado na página

14.

FORTULAN, M. R. O uso de Business Intelligence para gerar indicadores de

desempenho no chão-de-fábrica: uma proposta de aplicação em uma empresa de

manufatura. Tese de Doutorado, Faculdade de Engenharia de São Carlos - Universidade

de São Paulo, 2006. Citado na página 14.

HAISTEN, M. The Real-Time Data Warehouse: The next stage in data warehouse

evolution, part 1. 1999. Disponível em: <http://www.damanconsulting.com/company/

Referências

19

HALL, R. Organizações, estrutura e processos. 3. ed. [S.l.]: Prentice-Hall, 1984.

Citado na página 4.

KAPLAN, R. S.; NORTON, D. P. Using the Balanced Scorecard as a Strategic

Management System. Harvard Business Review, 2007. Disponível em: <https://hbr.

em: 12 de maio de 2015. Citado na página 11.

KIMBALL, R.; CASERTA, J. Data Warehouse ETL Toolkit: Practical techniques for

extracting, cleaning, conforming, and delivering data. 1. ed. [S.l.]: Wiley, John and Sons,

Incorporated, 2004. Citado 2 vezes nas páginas 8 e 9.

KONCILIA, C.; WREMBEL, R. Data Warehouses and OLAP: Concepts, architectures

and solutions. 1. ed. [S.l.]: IGI Global, 2006. Citado na página 11.

KUMAR, M. Data warehouse in e-governance. International Journal of Engineering

Sciences and Research Technology, v. 3, p. 1768–1770, 2014. Citado na página 15.

MARQUES, E. Z. Uma proposta de utilização das tecnologias de business intel-

ligence para suporte a tomada de decisão no contexto de governo eletrônico.

Dissertação (Mestrado), 2011. Citado na página 14.

MICROSOFT. Sobre cubos OLAP. 2014. Disponível em: <https://technet.microsoft.

com/pt-br/library/hh916536.aspx>. Acesso em: 12 de maio de 2015. Citado na página 12.

MOHAMMED, M. A.; ANAD, M.; MZHER, A.; HASSON, A. Meta-data and data mart

solutions for better understanding for data and information in e-government monitoring.

International Journal of Computer Science, v. 9, p. 78–83, 2012. Citado na página

15.

NARDI, A. Fundamentos e Modelagem de Bancos de Dados Multidimensionais.

em: 20 de março 2015. Citado na página 10.

NAVARRO, M. C. D. A. O Que é Data Warehouse ? 1996. Disponível em: <http:

  • 30 de março de 2015. Citado na página 2.

PATERSON, A. The design and development of a social science data warehouse: A case

study of the human resources development data warehouse project of the human sciences

research council, south africa. Data Science Journal, v. 2, p. 12–24, 2003. Citado na

página 15.

REZENDE, D. A. A. A. F. Tecnologia da informação aplicada a sistemas de infor-

mação empresariais: O papel estratégico da informação e dos sistemas de informação

nas empresas. 9 a . ed. [S.l.: s.n.], 2001. Citado na página 1.

SANTOS, R. N. M. d. Métodos e ferramentas para gestão de inteligência e do

conhecimento: Perspectivas em ciência da informação. 2000. Disponível em: <http:

  • 25 de março de 2015. Citado na página 1.

SINGH, H. S. Data Warehouse: Conceitos, tecnologias, implementação e gerenciamento.

Referências

20

TERESKO, J. Information rich, knowledge poor? Industry Week, v. 248, n. 3, p. 19–24,

1999. Citado na página 5.

THOMSEN, E. Olap Solutions: Building multidimensional information systems. 2. ed.

[S.l.]: Wiley, 2002. Citado na página 11.

TURBAN, E.; ARONSON, J. E.; LIANG, T.-P.; SHARDA, R. Decision Support and

Business Intelligence Systems. 8. ed. [S.l.]: Prentice Hall, 2006. Citado na página 3.

WRIGHT, P.; KROLL, M. J.; PARNELL, J. Administração estratégica: Conceitos. 1.

ed. [S.l.]: Atlas, 2000. Citado na página 4.