Escolar Documentos
Profissional Documentos
Cultura Documentos
net/publication/232882251
Business Intelligence
CITATIONS READS
2 3,535
1 author:
Flávio Ceci
Universidade do Sul de Santa Catarina (Unisul)
30 PUBLICATIONS 155 CITATIONS
SEE PROFILE
Some of the authors of this publication are also working on these related projects:
All content following this page was uploaded by Flávio Ceci on 22 March 2017.
Business Intelligence
Livro Digital
Palhoça
UnisulVirtual
2012
Copyright © UnisulVirtual 2012
005.74
C38 Ceci, Flávio
Business intelligence : livro digital / Flávio Ceci ; design instrucional
Silvana Souza da Cruz Clasen ; João Marcos de Souza Alves. – Palhoça :
UnisulVirtual, 2012.
176 p. : il. ; 28 cm.
Inclui bibliografia.
ISBN 978-85-7817-465-1
Business Intelligence
Livro Digital
Designer instrucional
João Marcos de Souza Alves
Palhoça
UnisulVirtual
2012
Sumário
5 Sumário
7 Apresentação
9 Palavras do Professor
11 Plano de estudo
15 Unidade 1
O poder da informação e do conhecimento nas organizações
45 Unidade 2
Colocando inteligência nos negócios
63 Unidade 3
Data Warehouse
95 Unidade 4
Descobrindo o conhecimento
131 Unidade 5
Processo OLAP
169 Referências
Apresentação
Caro/a estudante,
Tais materiais didáticos foram construídos especialmente para este curso, levando
em consideração as necessidades da sua formação e aperfeiçoamento profissional.
Atenciosamente,
Equipe UnisulVirtual
Palavras do Professor
Na unidade 4 são abordadas as fases do BI, além de dar foco a algumas outras
áreas envolvidas, como por exemplo: descoberta de conhecimento e banco de
dados e descoberta de conhecimento em textos.
Por fim, são apresentados os conceitos relacionados com OLAP e como podem
ser consumidas as informações e os conhecimentos explicitados pela ferramenta
em questão.
Ótimos estudos!
Flávio Ceci
Plano de estudo
Objetivo geral
As empresas devem tomar decisões em todos os níveis organizacionais e em
todas suas áreas de atuação. Ter informação precisa e de qualidade pode ser
a diferença entre tomar decisões certas ou não. Nesse sentido, a qualidade
da informação é um diferencial competitivo nas empresas. Apenas armazenar
dados sobre clientes, fornecedores, vendas, compras e colaboradores, não é o
suficiente. As organizações buscam a qualidade dos dados e sua transformação
em informações que gerem conhecimento dentro da empresa, apoiando o
processo de tomada de decisão. O objetivo da disciplina é trazer para o aluno
conhecimento sobre conceitos, arquitetura e componentes dos sistemas de
BI (Business Inteligence). Os sistemas de BI fornecem uma arquitetura com a
visão do analista de negócios, permitindo às organizações a transformação e a
extração dos dados coletados em seus sistemas de informação, em informação e
conhecimento, para auxílio ao processo decisório das organizações.
Ementa
Informação e decisão nas organizações. Dados, informação e conhecimento.
Sistemas de Informação nas organizações: sistemas transacionais e de apoio à
decisão. Arquitetura e componentes de uma solução de BI-Business Intelligence.
Data Warehouse: motivação, conceitos, definição e características.
Modelo Dimensional: fatos, dimensões, medidas e granularidade. Sistemas ETL:
extração limpeza, transformação e carga de um modelo dimensional. Área de
apresentação: características das técnicas analíticas (OLAP) como ferramentas de
apresentação e extração de informação.
Conteúdo programático/objetivos
A seguir, as unidades que compõem o livro digital desta disciplina e os seus
respectivos objetivos. Estes se referem aos resultados que você deverá alcançar
ao final de uma etapa de estudo. Os objetivos de cada unidade definem o
conjunto de conhecimentos que você deverá possuir para o desenvolvimento de
habilidades e competências necessárias a este nível de estudo.
Unidades de estudo: 5
Pós-graduação
Unidade 3 – Data Warehouse
Business Intelligence
Unidade 1
O poder da informação e do
conhecimento nas organizações
Objetivos de Aprendizagem
•• Compreender o papel da informação e do conhecimento como
facilitadores para a tomada de decisões e planejamento em organizações.
•• Entender em que âmbito a tecnologia contribui no processo de tomada
de decisões.
•• Diferenciar sistemas de informação dentro de um ambiente organizacional.
Introdução
Não é novidade que as organizações estão cada vez mais utilizando recursos
computacionais para auxiliar nas suas operações. Com o uso indiscriminado
dos computadores, gera‑se, diariamente, uma quantidade enorme de dados
estruturados (em banco de dados), semiestruturados (e‑mails, logs, entre outros)
e não estruturados (texto livre como, por exemplo: relatórios, manuais, artigos,
entre outros).
Esses dados, de maneira isolada, não trazem vantagens para o gerenciamento das
operações e tomada de decisão, mas servem como matéria‑prima para a geração
de informações. Os sistemas de informação vêm com esse propósito, entregar
informações organizacionais a partir dos dados armazenados.
A cada dia mais e mais as pessoas estão produzindo dados de maneira involuntária,
seja efetuando compras, navegando pela internet, escutando músicas on‑line,
fazendo buscas em sites como Google, Yahoo e Bing, participando de redes sociais,
entre outras atividades. Esses dados de maneira bruta não revelam segredos,
apenas apresentam trajetórias e dados provenientes de operações, mas a partir
do seu processamento pode‑se chegar a valiosas informações.
Tendo esse cenário como atual, muitas empresas estão utilizando não apenas os
seus dados operacionais (dados provenientes de operações como, por exemplo,
uma venda ou compra de um determinado produto) e transacionais (dados em
nível de transação), mas também os disponíveis na web, como por exemplo,
textos publicados em microblogs, como o twitter, para identificar a opinião de
um grupo sobre um dos seus produtos ou serviços. Esses dados disponíveis na
web combinados com os internos da organização geram informações ainda mais
relevantes e estratégicas para a etapa da tomada de decisão.
Don Tapscott considerado por muitos como gênio das estratégias empresariais
em seu best‑seller Wikinomics, lançado em 2006, e escrito em parceria com seu
colega de trabalho Anthony D. Williams, fala sobre como a colaboração pode
auxiliar e muito as organizações. Nesse livro é apresentado um caso em que
uma organização tinha um problema que não conseguia encontrar uma solução
Pós-graduação
17
Processamento
Dados Informação
Vemos que a informação por si só não é apenas fato, instrução ou número de uma
tabela, informação é o significado expresso pelo ser humano, trazendo benefícios
à etapa de tomada de decisão (GOUVEIA; RANITO, 2004).
Imagina‑se que todas as notas dos alunos estão armazenadas numa mesma tabela,
no banco de dados, como apresentado abaixo:
Percebe‑se que a informação traz mais benefícios que os dados para a camada
tomadora de decisão de uma organização. Segundo Primak (2008), a informação
faz parte da base da construção do conhecimento. Para Fialho et al. (2006),
pode‑se definir conhecimento como um conjunto completo de informações,
dados e relações que auxiliam os indivíduos na tomada de decisão, à realização de
tarefas e a geração de novas informações e conhecimentos. Outra definição para
Pós-graduação
19
Pós-graduação
21
Pós-graduação
23
Referências
GHISI, Fernando B.; CECI, Flávio; SELL, Denilson. Aspectos relacionados com a eficácia
do processo de aquisição de conhecimento a partir de apresentação de informações
numéricas: sumários textuais podem ser mais adequados que representações gráficas?
5º CIDI – Congresso Internacional de Design da Informação. Florianópolis, 2011.
GOUVEIA, Luís B.; RANITO, João. Sistemas de informação de apoio à gestão. Porto,
Portugal: Sociedade Portuguesa de Inovação, 2004.
PRIMAK, Fábio Vinícius. Decisões com B.I. Rio de Janeiro: Editora Ciência Moderna, 2008.
TANCER, Bill. Click: O que milhões de pessoas estão fazendo on‑line e por que isso é
importante. Editora Globo S.A. São Paulo, 2009.
Sistemas de informação
Gláucio Adriano Fontana e Flávio Ceci
Pós-graduação
25
Qualidade
Compras Compras Fabricação Qualidade Fabricação
Marketing Marketing
Pessoal Vendas Vendas
Recepção Recebimento
Pós-graduação
27
Visão Estratégica
Engenharia da Informação
Dados Corporativos
Modularização
Priorização
Plano de Ação
Fonte: Almeida (1998).
Pós-graduação
29
Pessoas Gestão de
atividades
Sistema de
informação
Tecnologia
Referências
BIO, Sérgio Rodrigues. Sistemas de informação: um enfoque gerencial. São Paulo: Atlas, 1996.
CECI, Flavio. O conhecimento nas organizações como um sistema adaptativo complexo. In:
ROVER, Aires J.; CARVALHO Marisa A.. (Org.). O sujeito do conhecimento na sociedade em
rede. 001 ed. Florianópolis: Editora: Fundação José Arthur Boiteux, 2010, v. 001, p. 207‑2010
GORDON, Steven R.; GORDON, Judith. Sistemas de informação: uma abordagem gerencial.
3. ed. Rio de Janeiro: LTC, 2006.
GOUVEIA, Luís B.; RANITO, João. Sistemas de informação de apoio à gestão. Porto,
Portugal: Sociedade Portuguesa de Inovação, 2004.
MAÑAS, Antonio Vico. Administração de sistemas de informação. São Paulo: Érica, 1999.
Pós-graduação
31
Apoio às
Estratégias para
Vantagem Competitiva
Pós-graduação
33
Sistemas de
Informação
Sistemas de Apoio à
Apoio às Sistema de
Apoio às Tomada de
Operações Apoio Gerencial Decisão Gerencial
Operações
Esses sistemas têm por objetivo processar dados, isto é, fazer cálculos, armazenar
e recuperar dados (consultas simples), ordenar e apresentar de forma simples
dados para os usuários. Seu benefício principal é a agilização nas rotinas e tarefas,
incluindo documentação rápida e eficiente, busca acelerada de informações
e cálculos rápidos e precisos. Outros benefícios podem ser conseguidos com
esse tipo de sistema, como, por exemplo, confiabilidade, redução de pessoal e
custos e melhor comunicação (interna entre setores ou externa com clientes
e fornecedores). Incluem‑se entre eles: sistemas de cadastro em geral (inclusão,
exclusão, alteração e consulta), como de clientes, produtos e fornecedores;
os sistemas de contabilidade (contas a pagar e a receber, balanços, fluxo de caixa,
etc.); sistemas de vendas e distribuição (pedidos, entregas), folha de pagamento,
controle de estoque.
Pós-graduação
35
Como o próprio nome diz, os SIG’s surgiram com o intuito de auxiliar gerentes em
suas funções. Com o passar do tempo, esse tipo de sistema acabou sendo usado
por qualquer funcionário que tome decisões.
Eles atuam como um espelho de um setor, dando uma ideia das atividades
sumarizadas de um departamento.
A diferença para o SIG é que um SAD é interativo (o usuário pode entrar com
várias alternativas) e ainda avalia as alternativas por meio de técnicas de
what‑if (= e se eu fizer isso, o que acontecerá... é tipo de análise que testa
mudança das variáveis e suas consequências), tais como projeção e regressão.
Referências
OLIVEIRA, André Luis B.; CARREIRA, Marcio Luis; MORETI, Thiago Moura. Aprimorando a
gestão de negócios com a utilização de tecnologias de informação. Revista de Ciências
Gerenciais. Vol XIII, Nº 17, 2009.
Pós-graduação
37
Até aqui se fala muito em tomada de decisão, mas o que são decisões?
Para Bidgole (1989) e Mittra (1996) apud Barbosa e Almeida (2002), pode‑se
classificar decisões da seguinte forma:
•• Decisão estruturada: possui procedimentos operacionais padrão, bem
definidos e muito bem projetados. Conta com sistemas de informação
simples, programáveis e baseado em lógica clássica, fatos e resultados
bem definidos, voltados para camada mais de base da organização.
•• Decisão semiestruturada: não possui procedimento bem definidos, mas
inclui aspectos de estruturação. Pode‑se contar em partes com o apoio
de sistemas de informação.
•• Decisão não estruturada: não possuem qualquer padrão de procedimento
operacional. Conta fortemente com a intuição, experiência do tomador de
decisão. São difíceis de formalizar, envolvem heurísticas, tentativas e erro.
Reconhecimento
Desenho
Escolha
Pós-graduação
39
Gerenciador Gerenciador
de Dados de Modelos
Software
SAD
Interface
Usuário
Pós-graduação
41
Figura 3 - Arquitetura de BI
Data Mining
ERP Fonte de
dados
Sistema de Operacionais
Gestão da Empresa
Data
Warehouse
Fonte de
dados OLAP
Operacionais Metadados
Metadados
Metadados
Business Intelligence
Fonte: Fourlan; Gonçalves Filho, 2005.
Referências
BARBOSA, Gilka Rocha; ALMEIDA, Adiel Teixeira de. Sistemas de apoio à decisão sob o
enfoque de profissionais de TI e de decisores. XXII Encontro Nacional de Engenharia de
Produção. Curitiba, 2002.
GOUVEIA, Luís B.; RANITO, João. Sistemas de informação de apoio à gestão. Porto,
Portugal: Sociedade Portuguesa de Inovação, 2004.
Pós-graduação
43
Atividades de Autoaprendizagem
1) Levando em consideração o conteúdo apresentado nesta unidade, assinale as
alternativas verdadeiras com V e as falsas com F:
h. ( ) Uma organização pode ser vista como um sistema, desde que ela faça uso
de computadores.
Atividade colaborativa
Nesta unidade, você estudou uma série de conceitos relacionados com sistemas
de informação e de apoio à decisão. Responda à pergunta a seguir utilizando a
ferramenta Fórum, não se esqueça de comentar as respostas dos seus colegas.
Síntese
Nesta unidade foi apresentada uma visão geral entre dado, informação e
conhecimento, quais as suas fronteiras e sua aplicabilidade. Após isso, foi visto o
que são sistemas de informação, qual a sua utilidade e como se pode classificá‑los.
Por fim, foi apresentada uma visão geral sobre os sistemas de apoio à decisão e
como eles podem agregar valor à camada gerencial das organizações.
Saiba Mais
Artigos muito interessantes que valem a pena serem lidos para complementar o
estudo desta unidade.
Pós-graduação
Unidade 2
Objetivos de Aprendizagem
•• Assimilar conceitos básicos de Business Intelligence;
•• Examinar a arquitetura básica de um sistema de BI e suas partes;
•• Identificar o BI em diferentes meios.
Introdução
As organizações estão inseridas num cenário que está em constante modificação
e mutação. Teorias baseadas na ideia da complexidade são aplicadas sobre o
modelo organizacional, para ter‑se um melhor entendimento e uma possível
previsão de modificação em curto prazo.
Histórico
O termo Business Intelligence foi patenteado pela empresa Gartner, mas, na
prática, esse conceito já era aplicado muito antes do invento dos computadores,
pelos povos antigos. A sociedade do Oriente Médio antigo utilizava‑se dos
princípios básicos de BI quando cruzavam informações obtidas pela natureza
Pós-graduação
47
Alto 2002
Ação - BI
Interação com o usuário
Baixo Relatórios
Baixo Recursos analíticos Alto
Fonte: Adaptado de Rasmussen, Goldy e Solli (2002).
Os relatórios são utilizados até hoje pelas organizações, o seu uso possibilita a
apresentação de dados e informações de maneira estática, é basicamente uma
“fotografia” de um cenário ou situação. A interação com o usuário é muito baixa,
permitindo apenas o consumo do seu conteúdo.
Definição
Percebe‑se que as práticas de business intelligence representam uma das
abordagens mais modernas da evolução dos sistemas de apoio às decisões
tradicionais. Mas afinal, o que é business intelligence?
Pós-graduação
49
Objetivos
O foco de soluções de BI é facilitar o entendimento do negócio das organizações,
fornecendo a todos os níveis das organizações informações relevantes sobre
suas operações internas e o ambiente externo, incluindo clientes e competidores,
parceiros e fornecedores (SELL, 2006). O ambiente externo inclui ainda variáveis
independentes que possam impactar no negócio, como tecnologia, leis e
economia mundial, entre outros (BROHMAN et al., 2000 apud SELL 2006).
Evolução
A evolução das soluções de BI está relacionada com a evolução do papel dos
sistemas de informação nas organizações. Inicialmente, nos anos 70 e até
meados dos anos 80, soluções de processamento e impressão de relatórios em
lote dominavam a cena do processo de apoio à decisão. Os usuários tinham,
então, que trabalhar sobre extensos relatórios para extrair elementos básicos de
informação. Com a proliferação dos terminais de acesso aos mainframes, o acesso
aos relatórios digitais foi disseminado, mas o acesso à informação era dificultado
devido à complexidade dos sistemas da época (SELL, 2006).
Pós-graduação
51
O termo BI 2.0 vem sendo cada vez mais utilizados em notícias e artigos científicos,
ele se refere a uma próxima geração do BI que promete seguir a mesma linha da
web 2.0 e apostar nos dados colaborativos. Xavier e Pereira (2009) desenvolveram
o quadro a seguir, apresentando um comparativo entre BI 1.0 e BI 2.0:
BI BI 2.0
Comunidades de usuários dinâmicas,
Consumo estático de relatórios. colaboração ativa e compartilhamento
imediato das informações.
Fornecimento de informações dinâmicas
Envio e apresentação de relatórios e interativas, com usuários elaborando
estáticos para os usuários. seus próprios relatórios ou assinando
as informações de que necessitam.
Função de alto custo e considerada Soluções econômicas e rentáveis
um luxo dentro da organização. disponibilizadas para a empresa como um todo.
BI para todos dentro da organização,
BI para uns poucos usuários especializados.
na medida em que for necessário.
Aplicações de geração de relatórios
Relatórios orientados para a impressão.
interativas e baseadas na Web.
Gráficos com barras estatísticas e Visualização de dados intuitiva,
gráficos circulares segmentados. dinâmica e interativa.
OLAP junto a alternativas inovadoras,
OLAP para análise. menos complexas e de alto desempenho
e geração ad hoc de relatórios.
Instalação, upgrade e uso complexos
Instalação, upgrades e uso simplificados.
e de alto consumo de tempo.
Relatórios integrados com eventos e
Relatórios baseados no desktop
processos automatizados; relatórios
ou em HTML estáticos.
como serviços na Web (via XML).
BI BI 2.0
Aplicações baseadas na Web com
Aplicações de geração de relatórios para
ambientes de usuários ricos e interfaces
desktop, com Active‑X e smart client.
de usuários altamente interativas.
Pesquisas dinâmicas ou de estilo
Parâmetros de pesquisa predefinidos.
livre e exploração de dados.
Conjunto ampliado de tipos de dados
suportados, inclusive dados não
Dados estruturados.
estruturados e serviços XML da Web,
assim como mixagem de seu conteúdo.
Fonte: Xavier e Pereira (2009).
Pós-graduação
53
Gerenciador
de Análises
Módulos Funcionais
Gerenciador Gerenciador
de Serviços de Ontologias
Mecanismos
Infraestrutura WSS Reasoner
de Inferência
Ontologia
do Domínio Repositórios
de Ontologias
Ontologia Ontologia
de Serviços BI
Fonte: Sell (2006).
Existem trabalhos que utilizam o termo Business Intelligence 3.0 para arquiteturas
de BI que fazem uso de fontes de dados não estruturadas a partir de mídias sociais.
Essas informações são muito importantes para a organização e podem auxiliar
a inteligência competitiva, a análise de opinião sobre os produtos e serviços da
organização (LUNARDI, 2011).
Referências
GORDON, Steven R.; GORDON, Judith. Sistemas de informação: uma abordagem gerencial.
3. ed. Rio de Janeiro: LTC, 2006.
INMON, W. H. Como construir o Data Warehouse. Rio de Janeiro: Campus, 1997. 388 p.
KIMBALL, Ralph. Data warehouse toolkit. São Paulo: Makron Books, 1998. 379 p.
NAPOLI, Marcio. Aplicação de ontologias para apoiar operações analíticas sobre fontes
estruturadas e não estruturadas. 2011. Dissertação (Mestrado) ‑ Universidade Federal de
Santa Catarina, Programa de Pós‑Graduação em Engenharia e Gestão do Conhecimento,
Florianópolis, 2011.
Pós-graduação
55
PRIMAK, Fábio Vinícius. Decisões com B.I. Rio de Janeiro: Editora Ciência Moderna, 2008.
RASMUSSEN, Nils; GOLDY, Paul S.; SOLLI, Per O. Financial Business Intelligence – Trends,
Technology, Software Selection, and Implementation. John Wiley and Sons, Inc., New
York, 2002.
SILVA, Dhiogo Cardoso da. Uma arquitetura de business intelligence para processamento
analítico baseado em tecnologias semânticas e em linguagem natural. 2011.
Dissertação (Mestrado) – Universidade Federal de Santa Catarina, Programa de
Pós‑Graduação em Engenharia e Gestão do Conhecimento, Florianópolis, 2011.
XAVIER, Fabrício S. V.; PEREIRA, Leonardo Bruno R. SQL dos Conceitos às Consultas
Complexas. Editora Ciência Moderna, Rio de Janeiro, 2009.
Arquitetura típica de BI
Flávio Ceci
Muitas das práticas utilizadas no BI já eram utilizadas pelos povos antigos para
auxiliar na sua prática na agricultura e pecuária. O termo em si ganhou mais
representação quando suportado por ferramental computacional. À medida
que novas tendências surgem, as arquiteturas de BI se moldam para atender os
novos desafios e de modo a utilizar os novos recursos da organização. É possível
perceber essa linha de evolução olhando o surgimento do conceito de “Semantic
Business Intelligence”, junto à popularização e ascensão da área de Web Semântica,
ou ainda, com o surgimento e a grande utilização das redes sociais surgem
trabalhos que alguns autores utilizam o termo business intelligence 3.0, como
sendo os que utilizam os dados desse tipo de mídia para auxiliar a análise e
tomada de decisão nas organizações. Também são utilizadas técnicas avançadas
de processamento de linguagem natural, além dos componentes da arquitetura
típica (clássica) de BI.
Essa leitura está mais focada na aplicação das soluções de BI, bem como na sua
arquitetura clássica. Dando continuidade aos nossos estudos, é apresentado
abaixo um quadro adaptado por Sell (2006), que exibe as características de
utilização das soluções de BI:
Pós-graduação
57
Fonte: Silva (2011).
Pós-graduação
59
Iniciando um projeto de BI
A implantação de uma solução de BI em nível organizacional não é uma tarefa
fácil, nem tão pouco rápida! É necessário um bom planejamento e reservar uma
boa parcela de tempo para ter sucesso nesse processo. Segundo Primak (2008),
deve ficar claro que apesar desses projetos envolverem o uso de ferramentas e
soluções de Tecnologia da Informação (TI), é importante entender que BI é um
projeto de negócio aplicado para a empresa no contexto geral. O que o autor
quer dizer com a afirmação anterior é que o uso de uma solução de BI não é igual
ao uso de um sistema de informação comum, é necessário que a organização
esteja preparada para utilizar o sistema e saber como chegar às informações e aos
conhecimentos implícitos.
Para Primak (2008), existem dois tipos de planejamento que devem ser feitos para
a execução bem‑sucedida de um projeto de BI, que são:
•• Planejamento Estratégico Corporativo (PEC): explicitam as oportunidades,
os riscos, os pontos fortes e fracos da organização. Esse procedimento que
traça as principais metas e as estratégias para alcançá‑las.
•• Planejamento Estratégico da Informação (PEI): é de responsabilidade
da área de administração de dados e visa a identificar todos os sistemas
da organização, suas bases de dados, além da avaliação da qualidade
dos dados.
Após a construção do DW, é necessário criar rotinas para carga, para isso se
utilizam ferramentas ETL. Essas ferramentas devem ler os dados armazenados
nas várias bases operacionais da organização, processá‑los (de modo que os
agrupe de modo mais natural para a análise) e, posteriormente, carregá‑los nas
tabelas do DW.
Os próximos capítulos apresentam mais detalhes sobre cada uma das camadas da
arquitetura de business intelligence tradicional.
Referências
PRIMAK, Fábio Vinícius. Decisões com B.I. Rio de Janeiro: Editora Ciência Moderna, 2008.
SILVA, Dhiogo Cardoso da. Uma arquitetura de business intelligence para processamento
analítico baseado em tecnologias semânticas e em linguagem natural. 2011.
Dissertação (Mestrado) – Universidade Federal de Santa Catarina, Programa de
Pós‑Graduação em Engenharia e Gestão do Conhecimento, Florianópolis, 2011.
Pós-graduação
61
Atividades de Autoaprendizagem
1) Levando em consideração o conteúdo apresentado nesta unidade, assinale as
alternativas verdadeiras com V e as falsas com F:
Atividade colaborativa
Nesta unidade, você estudou uma série de conceitos relacionados com sistemas
de informação e sistemas de apoio à decisão. Responda à pergunta a seguir
utilizando a ferramenta Fórum, não se esqueça de comentar as respostas dos
seus colegas.
Síntese
Nesta unidade, é estudado com mais detalhes a arquitetura de BI, qual a sua
origem, seus fatores históricos, quais são os seus principais objetivos, como
se deu a sua evolução, quais as suas tendências (BI 2.0, BI 3.0...). Também é
apresentado como iniciar um projeto de BI e quais são os principais componentes
de uma arquitetura de BI.
Saiba Mais
O artigo abaixo foi publicado em 2012 e traz uma visão geral sobre BI e como as
tecnologias semânticas podem dar suporte as suas análises, vale muito a pena
esta leitura:
SELL, Denilson; SILVA, Dhiogo, C.; GHISI, Fernando B.; NAPOLI, Marcio; TODESCO,
José L. Adding Semantics to Business Intelligence: Towards a Smarter Generation
of Analytical Tools. In. Business Intelligence: Solution for Business Development.
InTech, 2012.Disponível em: <http://www.intechopen.com/articles/show/title/
adding-semantics-to-business-intelligence-towards-a-smarter-generation-of-
analytical-tools>.
Pós-graduação
Unidade 3
Data Warehouse
Objetivos de Aprendizagem
•• Compreender a construção e o funcionamento dos Data Warehouses,
como suporte ao armazenamento das informações das organizações;
•• Identificar as principais características de um Data Warehouses;
•• Entender o que é modelagem dimensional.
Introdução
A crescente produção de dados pelos sistemas transacionais da organização,
de maneira distribuída pelos vários setores e ferramentas, acaba dificultando a
visualização e a análise dos dados pela camada gerencial.
Componentes de um DW
Flávio Ceci e Gláucio Adriano Fontana
Com o aumento do uso dos sistemas de informações transacionais, cada vez mais
são armazenados dados em bases não centralizadas. O que funciona bem para o
controle operacional dos setores da organização apresenta um problema para a
camada gerencial, que atua transversalmente, pois não traz uma visão sistêmica
das operações organizacionais.
Além de não possuir uma visão integrada das operações da organização, esta
abordagem mantém todos os dados operacionais distribuídos entre vários
sistemas, o que dificulta a análise deles, além de não possuir uma garantia de que
estão corretos.
Os Data Warehouse (DW) têm como função atuar neste contexto. Segundo Teorey,
Lightstone e Nadeau (2007), um DW é um grande repositório de dados históricos
da organização, que podem ser integrados, a fim de apoiar o processo decisório.
Para Xavier e Pereira (2009), DW é uma grande base de dados que organiza e
armazena informações integradas a partir de bases de dados operacionais.
O DW permite ter uma base de dados integrada e histórica para análise dos dados,
isso pode e deve se tornar um diferencial competitivo para as empresas. Tendo
uma ferramenta desse porte na mão, o executivo pode decidir com muito mais
eficiência e eficácia. As decisões serão embasadas em fatos e não em intuições,
poderão ser descobertos novos mercados, novas oportunidades, novos produtos,
podem‑se criar relações melhores com clientes, por exemplo, conhecendo hábitos
mais a fundo e com mais detalhes do que se poderia imaginar.
Pós-graduação
65
Ano
Data Warehouse
66
Acesso
Remoção Carga
Remoção
Inserção Alteração Acesso
Registro por registro/ Carga em massa/
Manipulação de dados acesso aos dados
Fonte: Adaptado de Inmon (2007), p.34.
É importante destacar que a consolidação dos dados poderia ser feita sobre
outra unidade atômica de tempo que não seja dia. Poderia ser feita por mês ou
ano, caso tivesse muitas operações, seria por hora. Esse tipo de decisão deve ser
tomada pensando no tipo de análise que se pretende efetuar e da distribuição da
massa de dados.
Pós-graduação
67
A integração talvez seja a parte mais importante desse processo, pois ela será
responsável por sincronizar os dados de todos os sistemas existentes na empresa
e colocá‑los no mesmo padrão.
Data Warehouse
68
A Figura 4 representa como funciona a integração dos dados das tabelas azul,
vermelha e laranja, ou seja, registros em várias bases de dados distribuídos pelos
sistemas transacionais da organização. Nesse exemplo vê‑se que a informação
relacionada com o sexo é apresentada de três maneiras completamente
diferentes, no caso da tabela azul, está por extenso, na tabela vermelha é utilizado
M para masculino e F para feminino, já no caso da tabela laranja, o sexo masculino
é representado pelo número inteiro 0 e o feminino pelo 1. A tabela em verde
demonstra a integração dos dados, essa tabela representa uma dimensão “Sexo”
que possui um identificador padrão, ou seja, em todas as tabelas do DW que tiver
referência para sexo, será utilizado um identificador que, nesse caso, é M para
masculino e F para feminino.
Visão geral do DW
O uso dos Data Warehouse traz uma série de benefícios para a tomada de
decisão da camada gerencial da organização, os autores Teorey, Lightstone
e Nadeau (2007), desenvolveram uma tabela que compara os sistemas
transacionais (OLTP – on‑line transaction processing):
Pós-graduação
69
Data Warehouse
70
Muitos dos requisitos apresentados já haviam sido abordados nessa leitura, além
dos requisitos é importante identificar os principais componentes de um DW,
esses são apresentados a seguir.
Principais Componentes de um DW
Sabe‑se que os data warehouses são repositórios de dados, mas eles, por si só, não
trazem suporte às etapas de apoio à decisão. Para viabilizar um projeto de DW,
faz‑se necessária a presença de uma série de componentes. Turban et al (2009)
desenvolveram a seguinte figura para ilustrar esses componentes e suas interações:
Pós-graduação
71
Aplicações
Personalizadas
Acesso Ferramentas
A de produção
Replicação Data P de relatórios
Seleção Mart I
S
Legados Marketing Ferramenta
Extrair Relatórios de de consulta
metadados M relacional
Transformar i Visualização
Data d
OLTP Mart de Informação
Integrar Data d
warehouse Gestão l OLAP/ROLAP
Manter empresarial e
Externos de Risco
w
Preparação a
Sistemas Data r
Mart Navegadores
operacionais/ Banco de dados alvo e Web
dados (HDB, MDDB) Engenharia
Mineração
de Dados
Data Warehouse
72
Referências
CIELO, Ivã. Data Warehouse como diferencial competitivo. Artigo on line. Disponível em
<http://www.always.com.br/site2005/internet_clip07.html> Acesso em: julho de 2008.
INMON, W. H.; TERDEMAN, R. H.; IMHOFF, Claudia. Data Warehousing: como transformar
informações em oportunidades de negócios. São Paulo: Berkeley, 2001. 266 p.
INMON, W. H.. Como construir o Data Warehouse. Rio de Janeiro: Campus, 1997. 388 p.
KIMBALL, Ralph. Data warehouse toolkit. São Paulo: Makron Books, 1998. 379 p.
XAVIER, Fabrício S. V.; PEREIRA, Leonardo Bruno R. SQL dos Conceitos às Consultas
Complexas. Editora Ciência Moderna, Rio de Janeiro, 2009.
Pós-graduação
73
Data Warehouse
74
Tendo as duas primeiras etapas concluídas, parte‑se para a execução que está
dividida em três frentes:
•• Arquitetural: essa frente inicialmente está focada no projeto técnico
da arquitetura do DW, como é sua estrutura, tanto de carga quanto de
consumo de informação e defini‑se a interface de acesso. O próximo
passo é a identificação de ferramental que possa auxiliar esses processos.
Essa leitura trará mais detalhes sobre esta frente;
•• Modelagem de dados: nesta frente é concebida a modelagem dos dados
a partir dos assuntos levantados na etapa de “definição das necessidades
de negócios”. Nesta frente também são levantadas as dimensões de
análise para o cruzamento das informações;
•• Analítica: para esta frente, levantam‑se quais abordagens analíticas são
mais indicadas para responder às questões levantadas anteriormente.
Arquitetura
As implementações de Data Warehouse possuem algumas possíveis arquiteturas
para a sua implantação. Entende‑se como arquitetura de um DW, a estrutura física
dos componentes, como estão organizados e relacionados. Segundo Dill (2002),
uma arquitetura de DW é um conjunto de normas que possibilitam uma visão da
sua estrutura e auxilia no entendimento de como ocorre o fluxo dos dados ao
longo do processo.
Pós-graduação
75
Data Warehouse
76
Data
Fonte Warehouse
Corporativo Data Data
Warehouse Warehouse
Integração Departamental Departamental
Fonte de Dados
Transformação de Dados
Fonte
Usuários
Fonte: Dill (2002), p. 19
Pós-graduação
77
Data Warehouse
Integrador
BD BD BD
Data Warehouse
78
Integração de dados
O processo de integração de dados é uma dos mais importantes relacionados com
o ciclo de vida de um data warehouse, ele garante que os dados que alimentarão o
DW sejam de qualidade e representativos para os assuntos escolhidos.
Pós-graduação
79
Esse processo é mais complexo que apenas identificar as alterações nos dados.
Como já é sabido, a modelagem de dados utilizados pelos DWs os organizam
como “fotografias” de um período específico. Tendo em vista essas características,
deve‑se verificar todos os novos dados inseridos nas bases operacionais,
no intervalo de tempo escolhido para compor as “fotografias”. A seguir é
apresentado um exemplo:
Imagina‑se que a unidade mínima de tempo utilizada seja “um mês”, todos os
dados estariam agrupados por mês e distribuídos pelas dimensões. Caso os
gestores da organização tenham interesse apenas nos dados do mês “fechado”,
ou seja, do mês com todas as vendas e compras finalizadas, pode‑se configurar o
sistema de integração de dados para rodar a cada final de mês. Agora imagine se
os gestores dessa organização querem os dados agrupados por mês, mas no caso
do mês atual deseja‑se verificar as vendas até o momento, neste cenário o sistema
de integração de dados deve ser configurado para ter ciclos num intervalo menor
de tempo (por exemplo, a cada hora). Assim, as alterações que se devem levar
em conta seriam todas as operações feitas no período da primeira hora do mês
corrente, até o momento, inserir esses registros no repositório.
O processo de ETL é responsável pela carga das tabelas do DW. A Figura 5, a seguir,
elaborada por Turban et al (2009), ilustra este processo:
Data Warehouse
80
Fonte de dados
temporários
Aplicação
pronta
Data
warehouse
Pós-graduação
81
Referências
KIMBALL, Ralph; ROSS, Margy. The Data Warehouse Toolkit: The Complete Guide to
Dimensional Modeling. Wiley, 2002.
NAPOLI, Marcio. Aplicação de Ontologias para apoiar operações analíticas sobre fontes
estruturadas e não estruturadas. 2011. Dissertação (Mestrado) ‑ Universidade Federal de
Santa Catarina, Programa de Pós‑Graduação em Engenharia e Gestão do Conhecimento,
Florianópolis, 2011.
Data Warehouse
82
Modelagem Dimensional
Flávio Ceci
Pós-graduação
83
Data Warehouse
84
Sabe‑se que o DW trabalha com dados consolidados por tempo, isso leva a crer
que os sistemas de controle de processos das empresas armazenam os dados
direto na base operacional (relacional).
Pós-graduação
85
399 620 87
Loja
10 3
2
1
Período 01/2003 02/2003 03/2003
Fonte: Campos (2005).
Data Warehouse
86
Como base de dados para a carga do DW, existe um sistema transacional que
gerencia as operações diárias dessa biblioteca. A Figura 3 apresenta a modelagem
relacional da base de dados utilizados por esse sistema:
O modelo apresentado acima serve como base para a carga do DW, o sistema
transacional que o utiliza gerencia as operações diárias da biblioteca, como
por exemplo:
•• Gerenciamento de usuários;
•• Gerenciamento do acervo;
•• Controle das multas referente a atrasos na devolução de livros.
O que foi identificado junto aos gestores é que se deseja ganhar agilidade
na compra dos livros, para isso é necessário identificar quais títulos são mais
solicitados, para a compra de mais exemplares. Além desse ponto, deseja‑se
Pós-graduação
87
identificar quais assuntos são mais solicitados, distribuídos pelos meses do ano,
para facilitar a previsão na aquisição de novos títulos por assunto.
Como a universidade não para de crescer, é previsto que ela se expanda para as
cidades próximas, com isso, é importante saber se existem interesses em comum
entre os moradores da cidade em questão.
Como foi verificado que todas as decisões que se deseja tomar são relacionadas
aos valores dos empréstimos, não existe a necessidade de ter outras tabelas fato,
mas é importante lembrar que num modelo dimensional podem existir muitas
tabelas fato.
Data Warehouse
88
Pós-graduação
89
Data Warehouse
90
Alguns autores afirmam que é possível trabalhar com uma abordagem mista,
que utiliza vantagens específicas de cada modelo para o seu cenário em
questão (DILL, 2002).
Evolução do DW
A ideia do uso dos repositórios do tipo DW está cada vez mais presente nas
organizações, por conta dessa demanda, é comum novos trabalhos sobre esse
tema, o que é muito bom, pois faz com que essa abordagem acompanhe a
evolução dos cenários que as emprega.
Referências
INMON, W.; STRAUSS, D.; NEUSHLOSS, G. DW 2.0 The Architecture for the Next
Generation of Data Warehousing. 2007.
KIMBALL, Ralph; ROSS, Margy. The Data Warehouse Toolkit: The Complete Guide to
Dimensional Modeling. Wiley, 2002.
Pós-graduação
91
NAPOLI, Marcio. Aplicação de Ontologias para apoiar operações analíticas sobre fontes
estruturadas e não estruturadas. 2011. Dissertação (Mestrado) ‑ Universidade Federal de
Santa Catarina, Programa de Pós‑Graduação em Engenharia e Gestão do Conhecimento,
Florianópolis, 2011.
SILVA, Dhiogo Cardoso da. Uma arquitetura de business intelligence para processamento
analítico baseado em tecnologias semânticas e em linguagem natural. 2011.
Dissertação (Mestrado) – Universidade Federal de Santa Catarina, Programa de
Pós‑Graduação em Engenharia e Gestão do Conhecimento, Florianópolis, 2011.
Data Warehouse
92
Atividades de Autoaprendizagem
1) Levando em consideração o conteúdo apresentado nesta unidade, assinale as
alternativas verdadeiras com V e as falsas com F:
a. ( ) A utilização dos repositórios do tipo DW estão cada vez mais presentes nas
empresas.
Atividade colaborativa
Nesta unidade, você estudou uma série de conceitos relacionados com sistemas
de informação e sistemas de apoio à decisão. Responda à pergunta a seguir
utilizando a ferramenta Fórum, não se esqueça de comentar as respostas dos
seus colegas.
Nesta unidade, foi estudado sobre os repositórios data warehouse, também foi
visto que Inmon, considerado como um dos pais dessa abordagem já trabalha
com o conceito do DW2.0. Sendo assim, faça um paralelo dessa evolução com a
evolução do BI, BI 2.0 e BI 3.0.
Pós-graduação
93
Síntese
Nesta unidade, são estudados os componentes de um DW, bem como qual o
seu ciclo de vida de desenvolvimento, qual a sua importância para a tomada de
decisão, sua arquitetura básica, como se dá a integração e carga dos seus dados,
quais as suas possíveis abordagens e construções.
Saiba Mais
Bill Inmon apresenta um artigo para o site Information Management, falando
sobre as novas tendências dos Data Warehouse e mais detalhes sobre DW2.0;
é uma leitura bastante interessante, vale a pena:
http://www.information‑management.com/issues/20060401/1051111‑1.html
Data Warehouse
Unidade 4
Descobrindo o conhecimento
Objetivos de Aprendizagem
•• Compreender as fases do processo de descoberta de conhecimento
em volume de dados.
•• Conhecer técnicas de mineração existentes e aplicáveis em um sistema
de Business Intelligence.
••Julgar o uso de cada técnica levando em consideração o contexto
do problema.
Introdução
O conhecimento junto aos ativos intangíveis das organizações está cada vez
mais ganhando espaço como um dos bens mais valiosos para as chamadas
organizações do conhecimento. Os sistemas de apoio à decisão surgiram como
resposta à falta de sistemas focados em auxiliar a camada gerencial.
Entende‑se como dados estruturados aqueles que possuam uma estrutura que
facilite a sua organização, armazenamento e recuperação, pode‑se citar como
exemplo aqueles armazenados em bancos de dados, em arquivos XML, JSON,
entre outros.
Pós-graduação
97
Descoberta de
conhecimento
KDT KDD
Banco de
Dados
Documentos
não estruturados
Fonte: Elaboração do autor (2012).
Descobrindo o conhecimento
98
KDD
Data Mining
Fonte: Carvalho (2002).
Existem muitas áreas que dão apoio ao processo de tomada de decisão, veja a
Figura 3:
Sistema
Especialista
Aprendizado Estatística
de Máquina
Descoberta de
Conhecimento
Visualização Processamento de
Linguagem natural
Pós-graduação
99
Referências
ADRIAANS, P.; ZANTINGE, D. Data mining. Addison Wesley Longman, England, 1996.
GARCIA, Ana Cristina B.; VAREJÃO, Flávio M.; FERRAZ, Inhaúma N. Aquisição de
Conhecimento. In Sistemas Inteligentes: Fundamentos e Aplicações. Organização:
REZENDE, Solange O. Editora Manole, São Paulo, 2005.
Descobrindo o conhecimento
100
O processo de KDD
Flávio Ceci e Gláucio Adriano Fontana
Pós-graduação
101
Caso a organização não disponha, pode‑se utilizar uma base operacional, mas o
resultado pode não ser tão efetivo. Outro problema que pode ocorrer, utilizando
como base uma base operacional, é a falta de agilidade na resposta.
Descobrindo o conhecimento
102
Percebe‑se que são necessárias etapas para preprocessar esses dados antes de
submetê‑los aos algoritmos de mineração de dados. A seguir, são apresentadas as
etapas do processo KDD.
Pós-graduação
103
Descobrindo o conhecimento
104
Dados Dados
Integração
Conhecimento
Fonte: Romão (2002).
Pós-graduação
105
Descobrindo o conhecimento
106
Referências
Pós-graduação
107
O uso das técnicas de mineração de dados (em inglês Data Mining) com a criação
de repositórios de dados organizacionais representam processos imprescindíveis
para a descoberta de conhecimento. Para Rezende (2003), o uso de técnicas
de mineração de dados se dá pela combinação de uma série de algoritmos que
definem um paradigma de extração de conhecimento, é importante destacar que
para uma mesma técnica pode‑se utilizar mais de um algoritmo.
Descobrindo o conhecimento
108
Base de
Dados Bruta Visualiza
Assimilação do
Conhecimento
4ª Etapa de
Análise dos dados
Pós-graduação
109
Segundo Martinhago (2005), não existe uma só técnica que pode ser aplicada
a fim de solucionar um problema ou fazer uma análise, mas existem técnicas
que são mais eficientes para resolver melhor alguns problemas, por esse motivo
deve‑se conhecer bem as técnicas de mineração de dados, seus algoritmos e suas
possíveis aplicações.
Muitas são as técnicas utilizadas de mineração de dados para os mais variados fins,
as mais utilizadas são:
•• Classificação de dados (data classification): consiste no processo
de encontrar propriedades comuns e um determinado conjunto de
objetos de um banco de dados e classificá‑los em diferentes classes,
de acordo com um modelo de classificação. Para construir um modelo
de classificação, um banco de dados de exemplo é definido como o
conjunto de treinamento, onde cada tupla, que se pode definir com
uma linha de uma tabela do banco de dados, consiste em um conjunto
de múltiplos atributos comuns das tuplas de um grande banco de
dados e, adicionalmente, cada tupla contém um rótulo marcado com
a identificação de uma classe conhecida associada a ela. O objetivo da
classificação de dados é primeiro analisar o conjunto de treinamento e
desenvolver uma apurada descrição ou modelo para futuros testes, com
os dados de um grande banco de dados. Os passos básicos são: definição
de um conjunto de exemplos conhecidos (treinamento); treinamento
sobre esse conjunto; gerar regras de classificação ou descrição.
Descobrindo o conhecimento
110
Pós-graduação
111
Descobrindo o conhecimento
112
Nº de registros com X e Y
Confiança (R) =
Nº de registros com X
Pós-graduação
113
Quem leva mercúrio também leva gaze? Vale comentar aqui que essa relação nem
sempre é comutativa. Veja as linhas 3 e 4 da tabela. Ela contém valores diferentes
e regras inválidas e válidas, respectivamente, simplesmente modificando a ordem
dos produtos, como precedente e consequente. Como você pode notar, pode‑se
confiar que quem leva mercúrio, leva gaze (87% dos clientes), mas está abaixo do
limiar afirmar que quem leva gaze, leva mercúrio. O precedente normalmente será
o carro‑chefe das vendas, ele chamará o cliente para dentro do estabelecimento e
o fará consumir mais.
A distância euclidiana entre dois pontos p = (p1, p2,…, pm) e q = (q1, q2,…, qm) é
definida como:
m 2
dist ( p, q) =
i=1
( pi qi )
Descobrindo o conhecimento
114
Idade Renda
5 0,00
27 3.000,00
42 5.000,00
29 3.500,00
18 500,00
22 1.000,00
31 3.200,00
39 4.600,00
20 800,00
10 0,00
6 0,00
46 4.500,00
40 1.500,00
42 1.000,00
39 1.200,00
Fonte: Aragão (2008)
Para usar esses clusters como classes, precisamos antes identificá‑los e nomeá‑los
adequadamente. Por exemplo:
C1: “Crianças”. Nesses clusters temos apenas crianças, que não podem trabalhar,
portanto, sua renda é nula.
C2: “Jovens Iniciando a Carreira”. Nesses clusters temos pessoas com idade
próxima à mínima para poder trabalhar. Mas, como provavelmente não possuem
formação superior nem experiência, têm uma renda relativamente baixa.
C3: “Profissionais com Curso Superior”. Nesses clusters temos pessoas que
já têm experiência e pelo patamar salarial provavelmente também possuem
formação superior.
C4: “Altos Executivos”. Nesses clusters temos pessoas de certa idade que, para
ter uma renda tão alta em tal faixa etária, provavelmente fazem parte de alto
escalão gerencial.
Pós-graduação
115
3.000
2.000 C2 C5
1.000 C1
0
0 10 20 30 40 50
Idade
Fonte: Aragão (2008).
Pensar em agrupar pode ser muito útil se quisermos, por exemplo, conhecer
diferenças entre hábitos de consumo de diferentes clientes em uma loja que
vende diferentes produtos. Sazonalidade de compras, qual produto determinado
cliente leva e quem mais compra este produto, e onde vivem esses clientes com
gostos e comportamentos semelhantes. Talvez seja interessante abrir uma filial
próxima a eles, não? Criando classes, estamos prospectando negócios.
Conclusão
O uso das técnicas de mineração de dados para apoiar o processo de tomada de
decisão pela camada gerencial, possibilitaa descoberta de conhecimento a partir
dos seus repositórios de dados.
Descobrindo o conhecimento
116
Referências
BERGER, Gideon et al. Discovering Unexpected Patterns in Temporal Data using Temporal
Logic; Temporal Databases ‑ Research and Practice. Heidelberg: Ed Springer‑Verlag, 1998.
QUONIAM, Luc; et al. Inteligência obtida pela aplicação de data mining em base de teses
francesas sobre o Brasil. Ciência da Informação, v. 30, n.2, p, 20‑28. Brasília, 2001.
WITTEN, Ian H.; FRANK, Eibe. Data Mining – Practical Machine Learning Tools and
Techniques with Java Implementations. Morgan Kaufmann Publishers. 2000.
Pós-graduação
117
O processo KDT
Flávio Ceci
Descobrindo o conhecimento
118
Mineração de Textos
Conhecimento
Pré-processamento
Extração de
Informação
Padrões
Dado
Data set Pré-processado
Texto
Fonte: Gonçalves (2006).
Pós-graduação
119
Análise de mercado
Padrões sequenciais Estatística, teoria dos conjuntos.
sobre o tempo.
Fonte: Gonçalves (2006).
Descobrindo o conhecimento
120
Indexação
O processo de indexação é fundamental para a mineração de texto, pois organiza
os dados presentes no texto de uma forma que seja facilmente recuperado. Por
conta disso, a indexação é uma das tarefas mais importantes para a recuperação
de informação (CECI, 2010).
Pós-graduação
121
Uma das técnicas mais utilizadas é a baseada em índice invertido, de acordo com
Baeza‑Yates e Ribeiro‑Neto (1999 apud AIRES, 2005). A Técnica de Arquivo (ou
Índice) Invertido trabalha com uma lista de palavras‑chave ordenadas, onde cada
palavra está ligada ao documento que a possui. Esse documento é associado
a uma lista invertida de palavras‑chave, que passa a ser ordenada por ordem
alfabética. Essas palavras‑chave possuem um peso. Após o processamento, a lista
fica dividida em dois arquivos, um de vocabulário e outro de endereçamento.
A Figura 3 apresenta um exemplo de um índice invertido:
Pré‑processamento
Esta etapa não possui um único algoritmo ou técnica disponível, na verdade,
existem algumas operações que podem ser feitas dependendo diretamente do
contexto e da análise pretendida.
Descobrindo o conhecimento
122
Todas as técnicas apresentadas nessa seção têm como foco levantar informações
e preparar os dados para facilitar a descoberta de conhecimento a partir dos
documentos da organização. Na próxima seção são apresentados alguns
exemplos de técnicas de mineração para descoberta de conhecimento.
Mineração de texto
Como já foi afirmado anteriormente, as técnicas de mineração de texto são
baseadas em métodos estatísticos e algoritmos da área de inteligência artificial.
Nessa etapa, que é de fato descoberto novos conceitos e relacionamentos.
Pode‑se reparar que não existe uma única forma para trabalhar com mineração
de dados e texto, esse tipo de solução é diretamente dependente do contexto do
problema que se deseja resolver, ou do tipo de informação que pretende extrair.
Pós-graduação
123
Para exemplificar uma situação vamos imaginar que uma organização pretende
desenvolver um mapa de conhecimento baseado nos principais termos que a
representam, para isso pode‑se obter tais termos a partir da frequência que eles
ocorrem nos documentos relevantes para o contexto organizacional. Alguns
problemas que são encontrados inicialmente.
Descobrindo o conhecimento
124
Pelo fato do tamanho do texto não ser muito grande, não foi necessário construir
um índice textual, fazendo o levantamento dos termos em memória e numa
estrutura própria do modelo proposto pelos autores. O texto a seguir foi o
utilizado na pesquisa:
Pós-graduação
125
Descobrindo o conhecimento
126
Pós-graduação
127
Referências
AIRES, Rachel Virgínia Xavier. Uso de marcadores estilísticos para a busca na Web em
português. 2005. 202 f. Tese (Doutorado) Programa de Pós Graduação em Ciências da
Computação e Matemática Computacional – Instituto de Ciências e Matemáticas e de
Computação‑ICMC, Universidade de São Paulo‑USP, São Carlos (SP).
CECI, Flavio; SILVA, Dhiogo C.; SELL, Denilson; GONÇALVES, Alexandre L. Towards a
Semi‑Automatic Approach for Ontology Maintenance. 7 CONTECSI ‑ International
Conference on Information Systems and Technology Management. USP, São Paulo, 2010.
EBECKEN, Nelson F. F.; LOPES, Maria Celia S.; COSTA, Myrian C. A. Mineração de texto.
In: REZENDE, Solange O. (Coord.). Sistemas inteligentes: fundamentos e aplicações. São
Paulo: Manole, 2005.
KORFHAGE, Robert R. Information storage and retrieval. New York: Wiley Computer
Publishing, 1997.
Descobrindo o conhecimento
128
Atividades de Autoaprendizagem
1) Levando em consideração o conteúdo apresentado nesta unidade, assinale as
alternativas verdadeiras com V e as falsas com F:
Atividade colaborativa
Nesta unidade, foram estudados conceitos de descoberta de conhecimento em
bases de dados e em texto, sabendo que muito do conhecimento organizacional
está disponível em documentos não estruturados. Responda à pergunta a seguir
utilizando a ferramenta Fórum, não se esqueça de comentar as respostas dos
seus colegas.
Pós-graduação
129
Síntese
Nesta unidade, são estudados os processos de descoberta de conhecimento,
tanto utilizando como base repositórios DW quanto por meio da análise dos
seus documentos.
O processo KDT funciona igual ao processo KDD, são conjuntos de técnicas para
se obter conhecimento de uma determinada base de dados. O KDD utiliza bases
já estruturadas para descobrir informações e o KDT usa textos, normalmente em
Linguagem Natural, também para descobrir informações. No caso, os métodos mais
utilizados são a Extração de informação e o Processamento de Linguagem Natural.
Saiba Mais
Déborah Oliveira, da Computerworld, apresenta um artigo com o seguinte título:
“Data mining começa a conquistar espaço na estratégia empresarial”, leitura
bastante recomendada:
http://cio.uol.com.br/gestao/2012/03/19/data-mining-comeca-a-conquistar-espaco-na-
estrategia-empresarial/
Descobrindo o conhecimento
Unidade 5
Processo OLAP
Objetivos de Aprendizagem
•• Identificar o processo OLAP, bem como as suas características.
•• Examinar as funcionalidades exploratórias do processamento OLAP.
•• Entender qual a sua participação numa arquitetura de BI.
Introdução
As soluções de Business Intelligence são compostas por uma série de componentes
tecnológicos que possibilitam um ambiente propício à tomada de decisão. Essas
soluções podem combinar os componentes para cada situação, para a camada de
apresentação dos dados e das informações utilizam‑se as soluções OLAP.
A distinção entre OLAP e mineração de dados vai além das distinções entre dados
de resumo e detalhes. As funções ou algoritmos normalmente encontrados
em ferramentas OLAP são funções de modelagem descritiva, no caso da
mineração de dados, são funções de descoberta de padrão e modelagem
explicativa (THOMSEN, 2002).
Pós-graduação
133
•• produtos;
•• entre outros.
Processo OLAP
134
Para entender os conceitos por trás do cubo multidimensional, pode‑se fazer uma
analogia com o brinquedo “cubo mágico ou cubo de Rubik)”. Nesse brinquedo, a
pessoa deve mover as fases do cubo e chegar até a situação em que todas as fases
fiquem com a mesma cor. A Figura 2 apresenta este brinquedo.
Pós-graduação
135
Da mesma forma que quem manipula o brinquedo movendo uma das fases
tem uma nova visão sobre o mesmo brinquedo, no cubo dimensional, ao mover
uma das dimensões do cubo gera‑se uma nova visão sobre os mesmos dados
do repositório. Essa interação entre as dimensões possibilita uma análise muito
maior e chega a informações antes não conhecidas. Cada dimensão que o cubo
possui pode ser uma tabela de dimensão de um modelo dimensional como o
apresentado na Figura 3.
Processo OLAP
136
Pós-graduação
137
Concluindo
De maneira geral, pode‑se verificar que as soluções OLAP possuem uma grande
importância para a tomada de decisão, elas podem ser utilizadas de maneira
isolada numa arquitetura de Business Intelligence, ou combinadas com técnicas de
mineração de dados e texto.
Processo OLAP
138
Referências
CASTRO, Sergio A.; GONÇALVES, Pablo R.; CAZARINI, Edson W. O uso do OLAP na
estratégia de vendas em uma indústria de calçados alavancando a gestão de cadeia de
suprimentos. XXIV Encontro Nacional de Engenharia de Produção, Florianópolis, 2004.
VINCI, Wilson L.; NARCISO, Marcelo G. Integração Access‑Excel para produzir um sistema
de apoio à decisão que simula um Data Warehouse e OLAP. XIII SIMPEP, Simpósio de
Engenharia de Produção, Bauru, 2006.
Pós-graduação
139
As soluções de Business Intelligence tem ganhado cada vez mais espaço entre as
organizações, o motivo para tal é a falta de ferramentas eficientes e focadas na
tomada de decisão.
Processo OLAP
140
Percebe‑se que as soluções OLAP são muito utilizadas quando se deseja fazer
análise sobre dados organizados de maneira dimensional. Segundo Vinci e
Narciso (2006), a análise multidimensional representa uma das maiores utilidades
da tecnologia OLAP, permitindo ver determinados cubos de dados de diferentes
ângulos e faces, e de vários níveis de agregação.
Pós-graduação
141
4
Atributo 3
3 (3ª dimensão)
2 3
2
1 1
1 2 3 4
Atributo 2
(2ª dimensão)
Fonte: Silva e Saias (2011).
Processo OLAP
142
Pós-graduação
143
Característica Descrição
Possibilitar a ação direta sobre as células e os recursos
Manipulação de dados intuitiva
dos gráficos.
Acessibilidade Disponibiliza uma visão lógica única dos dados da empresa
Permite que a ferramenta OLAP rode em um cliente,
Arquitetura Cliente/Servidor
acesse dados e faça operações em um servidor.
Permite inserir as funcionalidades OLAP dentro do
Transparência
contexto de uma aplicação do domínio do usuário final.
Suporte para multiusuários Possibilitar operações simultâneas de leitura e escrita.
Fonte: Sell (2006).
Característica Descrição
Apresentar dimensões de um cubo por meio de
Relato flexível
diferentes combinações de linhas, colunas e páginas.
Preservar o desempenho da apresentação à medida
Desempenho coerente do relato
que o volume de dados e dimensões aumente.
Tratamento dinâmico A organização física dos dados deve ser sensível à mudança
de matriz esparsa das características dos dados ao longo do tempo.
Fonte: Sell (2006).
Característica Descrição
Visão conceitual A visão conceitual do usuário analista deve possibilitar
multidimensional a análise do negócio sobre diferentes perspectivas.
Cada dimensão deve ser equivalente tanto em sua estrutura
Dimensionalidade genérica
quando nas capacidades exploratórias aplicáveis.
A estrutura criada no servido deverá possibilitar a criação
Dimensões e níveis de
de tantas dimensões e cubos quanto necessário para se
agregação limitados
analisar o negócio.
Permitir cálculos e manipulação de dados por meio
Operações irrestritas de
de qualquer quantidade de dimensões e relacionamento
dimensão cruzada
de dados.
Fonte: Sell (2006)
Processo OLAP
144
Referências
DONALD, B. High performance Oracle Data Warehousing. USA: The Coriolis Group, 1997.
VINCI, Wilson L.; NARCISO, Marcelo G. Integração Access‑Excel para produzir um sistema
de apoio à decisão que simula um Data Warehouse e OLAP. XIII SIMPEP, Simpósio de
Engenharia de Produção, Bauru, 2006.
XAVIER, Fabrício S. V.; PEREIRA, Leonardo Bruno R. SQL dos Conceitos às Consultas
Complexas. Editora Ciência Moderna, Rio de Janeiro, 2009.
Pós-graduação
145
Esta seção não deve ser encarada como uma metodologia, mas sim como um
guia que explica as etapas práticas associadas ao projeto e implementação da
solução OLAP, ou ainda como o próprio autor explica essas orientações: “Elas
foram escritas para o projetista e o implementador do modelo OLAP“ (THONSEN,
2002, p.302).
Processo OLAP
146
O autor sugere que para identificar o ponto de partida, deve‑se procurar o ponto
em que o projetista se sinta mais à vontade e confiante sobre o que é feito ou que
precisa ser feito e trabalhar a partir disso. Por exemplo, caso ele tenha domínio
sobre os dados em questão, mas não tem certeza sobre todas as finalidades para
as quais os usuários finais irão utilizá‑los, nesse caso, pode‑se adotar um sequência
de passos de “baixo para cima”, ou seja, dos dados para a função.
Não importa as ferramentas específicas que estão sendo usada, você precisa
descobrir a respeito dos esquemas dos usuários e de quaisquer esquemas
relevantes aos dados de origem. Você também precisa entender as regras
comerciais relevantes, como as regras sobre limites de desempenho,
acesso aos dados ou a distribuição de informações baseada em evento.
As regras poderiam estar codificadas ou nas mentes do pessoal chave.
Pós-graduação
147
Processo OLAP
148
Pós-graduação
149
Projeto da solução
O primeiro passo para a definição do projeto da solução é a definição do modelo
lógico, essa definição nada mais é que a concepção do modelo multidimensional.
Para o desenvolvimento desse modelo pode‑se utilizar de qualquer metodologia já
conhecida para esta etapa.
Processo OLAP
150
Dados de entrada intermediária: esse caso gira em torno de análises que têm
dependência com dados de entrada vindos de outras fontes (dados operacionais),
mas caso não esteja preparad, pode gerar análises com erros para o usuário.
Referências
Pós-graduação
151
Processo OLAP
152
Esse tipo de ambiente traz uma série de benefícios, já que é bastante intuitivo e
permite que o seu usuário final não precise ser um especialista em computação,
bastando apenas ter um conhecimento médio em informática e, principalmente,
conhecer o domínio em questão.
Pós-graduação
153
Processo OLAP
154
Pós-graduação
155
As soluções OLAP são hoje uma das soluções gráficas mais utilizadas e efetivas
para apresentar os dados e informações contidos nos modelos dimensionais.
Vale lembrar que as soluções OLAP apresentam os dados históricos e para
acompanhamento em tempo real da situação da organização. A combinação
dessas soluções com as técnicas de descoberta de conhecimento possibilitam
a construção de previsões a partir dos dados passados, tanto para descobrir
informações implícitas quanto para montar simulações para a previsão de
situações futuras.
Referências
Processo OLAP
156
Atividades de Autoaprendizagem
1) Levando em consideração o conteúdo apresentado nesta unidade, assinale as
alternativas verdadeiras com V e as falsas com F:
c. ( ) Pode‑se fazer uma analogia das soluções OLAP com o brinquedo cubo mágico.
Atividade colaborativa
Nesta unidade, você estudou sobre as soluções OLAP. Responda à pergunta a
seguir utilizando a ferramenta Fórum, não se esqueça de comentar as respostas
dos seus colegas.
Pós-graduação
157
Síntese
Nesta unidade, são estudadas as soluções OLAP, os seus conceitos, como são
montadas, quais as suas dependências tecnológicas e exemplos.
Saiba Mais
A professora Cynthia Aurora Anzanello, da Universidade Federal do Rio Grande do
Sul, escreveu um ótimo artigo falando sobre OLAP e suas utilizações, vale a pena
ler este material:
http://www.fag.edu.br/professores/limanzke/Administra%E7%E3o%20de%20
Sistemas%20de%20Informa%E7%E3o/OLAP.pdf
Processo OLAP
Para concluir os estudos
Chegamos ao final deste livro sobre Business Inteligence, onde passamos pelas
principais áreas que estão relacionadas com essa proposta. Inicialmente, foi
abordada uma revisão sobre o conceito de dado, informação e conhecimento,
chegando aos sistemas de informação. Nesse tópico verificou‑se que não existe
uma classificação única, mas que iríamos nos concentrar no tipo de sistemas de
informação chamado de sistemas de apoio à decisão.
Pode‑se verificar que cada vez mais os dados não estruturados estão fazendo
parte das soluções de BI, o motivo para tal é que muito do conhecimento
organizacional está implícito nas bases de documentos. O cruzamento e
carga dessas informações é cada vez mais comum nos repositórios e bases de
conhecimento, além dos dados não estruturados provenientes dos documentos
da organização. Também, cada vez mais estão utilizando como base os dados
publicados em mídias sociais, que representam um canal direto do cliente com as
organizações, podendo auxiliar e muito no processo de tomada de decisão.
Pós-graduação
Minicurrículo
Unidade 1
Atividades de Autoaprendizagem
1) Gabarito: F – V – F – F – V – V – F – F
Comentário: Essa afirmação não está correta, até hoje os pesquisadores dessa
área ainda não chegaram em um consenso sobre a classificação dos sistemas
de informação.
h. ( F ) Uma organização pode ser vista como um sistema, desde que ela faça uso
de computadores.
Atividade colaborativa
O uso de dados disponíveis na Web (como por exemplo, em mídias sociais) pode
auxiliar os sistemas de apoio à decisão na entrega de uma informação mais
estratégica para a organização?
Unidade 2
Atividades de Autoaprendizagem:
1) Gabarito: F – F – F – V – F ‑ V
Comentário: O processo de ETL é responsável pela coleta dos dados das bases
operacionais, processamento, transformação e carga desses dados no DW.
Pós-graduação
165
Atividade colaborativa
Comentário: O uso de recursos semânticos está cada vez mais presente na web
(web semântica) e dentro das organizações. Os artifícios semânticos podem estar
presentes tanto no processamento das informações, podendo classificá‑las levando
em consideração o contexto do dado em questão, bem como na apresentação das
informações, sabendo qual a melhor maneira de apresentá‑la.
Unidade 3
Atividades de Autoaprendizagem:
1) Gabarito: V – F – V – V – V ‑ F
Atividade colaborativa
Business Intelligence
166
Unidade 4
Atividades de Autoaprendizagem:
1) Gabarito: F – F – V – F – V ‑ F
Comentário: O processo KDT utiliza como base textos e dados não estruturados,
diferente do processo KDD, que utiliza como base dados estruturados geralmente
provenientes de um DW.
Atividade colaborativa
Pós-graduação
167
As redes sociais são hoje um dos principais canais de comunicação das organizações
com o seu cliente final, é possível utilizar descoberta de conhecimento em
texto para extrair informações para contribuir para a base de conhecimento da
organização e auxilia no processo decisório?
Comentário: A resposta é sim, as redes sociais são hoje um dos principais canais
de comunicação entre pessoas e até mesmo entre organizações e seus clientes.
Por meio desses canais, é possível identificar opiniões e até mesmo cruzar essas
informações para auxiliar na predição de tendências, de forma a atuar diretamente
na tomada de decisão.
Unidade 5
Atividades de Autoaprendizagem:
1) Gabarito: F – V – V – F – F ‑ V
Atividade colaborativa
Business Intelligence
168
Pós-graduação
Referências
ADRIAANS, P.; ZANTINGE, D. Data mining. Addison Wesley Longman, England, 1996.
AIRES, Rachel Virgínia Xavier. Uso de marcadores estilísticos para a busca na Web em
português. 2005. 202 f. Tese (Doutorado) Programa de Pós Graduação em Ciências
da Computação e Matemática Computacional – Instituto de Ciências e Matemáticas e
de Computação-ICMC, Universidade de São Paulo-USP, São Carlos (SP).
BARBOSA, Gilka Rocha; ALMEIDA, Adiel Teixeira de. Sistemas de Apoio à Decisão
sob o enfoque de Profissionais de TI e de Decisores. XXII Encontro Nacional de
Engenharia de Produção. Curitiba, 2002.
CASTRO, Sergio A.; GONÇALVES, Pablo R.; CAZARINI, Edson W. O uso do OLAP
na estratégia de vendas em uma indústria de calçados alavancando a gestão
de cadeia de suprimentos. XXIV Encontro Nacional de Engenharia de Produção,
Florianópolis, 2004.
Pós-graduação
171
CECI, Flavio; SILVA, Dhiogo C.; SELL, Denilson; GONÇALVES, Alexandre L. Towards
a semiautomatic approach for ontology maintenance. 7 CONTECSI - International
Conference on Information Systems and Technology Management. USP, São
Paulo, 2010.
EBECKEN, Nelson F. F.; LOPES, Maria Celia S.; COSTA, Myrian C. A. Mineração de
texto. In: REZENDE, Solange O. (Coord.). Sistemas inteligentes: fundamentos e
aplicações. São Paulo: Manole, 2005.
Business Intelligence
172
GARCIA, Ana Cristina B.; VAREJÃO, Flávio M.; FERRAZ, Inhaúma N. Aquisição de
Conhecimento. In: Sistemas inteligentes: fundamentos e aplicações. Organização:
REZENDE, Solange O. Editora Manole, São Paulo, 2005.
GHISI, Fernando B.; CECI, Flávio; SELL, Denilson. Aspectos relacionados com a
eficácia do processo de aquisição de conhecimento a partir de apresentação
de informações numéricas: sumários textuais podem ser mais adequados
que representações gráficas? 5º CIDI – Congresso Internacional de Design da
Informação. Florianópolis, 2011.
Pós-graduação
173
INMON, W.; STRAUSS, D.; NEUSHLOSS, G. DW 2.0 The architecture for the next
generation of data warehousing. 2007.
KIMBALL, Ralph. Data warehouse toolkit. São Paulo: Makron Books, 1998. 379 p.
KIMBALL, Ralph; ROSS, Margy. The data warehouse toolkit: the Complete guide
to dimensional modeling. Wiley, 2002.
Business Intelligence
174
OLIVEIRA, André Luis B.; CARREIRA, Marcio Luis; MORETI, Thiago Moura.
Aprimorando a gestão de negócios com a utilização de Tecnologias de
Informação. Revista de Ciências Gerenciais. Vol XIII, Nº 17, 2009.
PRIMAK, Fábio Vinícius. Decisões com B.I. Rio de Janeiro: Editora Ciência
Moderna, 2008.
QUONIAM, Luc; et al. Inteligência obtida pela aplicação de data mining em base
de teses francesas sobre o Brasil. Ciência da Informação, v. 30, n.2, p, 20-28.
Brasília, 2001.
Pós-graduação
175
TANCER, Bill. Click: o que milhões de pessoas estão fazendo on-line e por que isso
é importante. Editora Globo S.A., São Paulo, 2009.
Business Intelligence
176
WITTEN, Ian H.; FRANK, Eibe. Data mining – practical machine learning tools and
techniques with Java implementations. Morgan Kaufmann Publishers. 2000.
Pós-graduação