Você está na página 1de 128

Business

Intelligence

Cludio Lcio

Business Intelligence
Apresentao
Cludio Lcio

Mestre em informtica PUC MG, Especialista em estatstica UFMG, Bacharel em


cincia da computao;

15 anos de experincia em BI/BA atuando em projetos para clientes do cenrio


nacional: Arcelor Mittal Tubaro, Banco Mercantil do Brasil, BDMG, BMG, CEMIG,
EDS, FIAT, GM do Brasil, Mendes Jnior, Localiza, SEBRAE-SC,SUDECAP,
Telefnica, Oi, Vale, VIVO, VMM Votorantim Minerao e Metais.

Treinamenos ministrados para vrias empresas: Assurant, Athos Pharma, Banco do


Brasil, Best Forecast, BM&F,Caixa Econmica, CEMIG, E-Lucid, GM do Brasil, HDI
Seguros, Mapfre, Martima Seguros, Telemar, Telemig Celular e Unibanco ;

Cludio Lcio

Pg.: 1

Business Intelligence
Agenda

Introduo conceitos e definies

Conceitos de DW e Modelagem

ETC e Integrao de dados e Conceitos OLAP

Novas tendncias: Big Data, Governana de dados, cincia


de dados
Inteligncia computacional: Minerao de dados e
Otimizao

Cludio Lcio

Business Intelligence
Avaliaes e Frequncia

Chamadas;

Trabalhos em sala valendo 30%

Estudo de caso de uso BI na indstria;

Modelagem Dimensional de dados ;

Exemplo de processo de carga de BI;

Restante dos pontos ser com um trabalho proposta,


idealmente, pelo prof. Barbieri.

Cludio Lcio

Pg.: 2

Business Intelligence
Avaliaes e Frequncia

Trabalho a ser desenvolvido off-class, valendo 70% , sobre


assunto a ser distribudo em aula: Resumo de entendimento, por
grupo sobre:
BI em dados no-estruturados;
BI em Gerncia de Projetos;
Big data e DW;
MDM;
BI-gil;
Requisitos em projetos de BI;
BI-Tempo real-BIRT;
Outro assunto relacionado, a ser aprovado com o
Professor;

Cludio Lcio

Business Intelligence
Avaliaes e Frequncia
RE-Resumo de entendimento:

Trabalho em Word com no mnimo 12 pginas, incluindo texto e


grficos. Contm identificao do curso, Grupo, nome completo dos
participantes do Grupo, ndice e referncias consultadas. Enviar em
digital um dia antes da ltima aula (ver slide seguinte).
Entregar um PPT, com o RE visando uma apresentao na ltima
aula. Enviar em digital um dia antes e entregar em papel na ltima
aula.

Cludio Lcio

Pg.: 3

Business Intelligence
Recomendaes de Bibliografia - Barbieri
Ver artigos no CD-distribudo:

Artigos de MDM

Artigos de Qualidade de Dados

Artigo de BI aplicado em GP

Ver outras referncias

Cludio Lcio

Business Intelligence
Recomendaes de Bibliografia - Barbieri

Livros de cabeceira:
Numerati-Stephen Baker-Ed.ARX
Fala sobre as diversas tcnicas em desenvolvimento, visando mapear os perfis,
atitudes, grupos, recursos humanos, clientes,etc atravs da anlise do
comportamento digital(internet) da sociedade
Final Jeopardy-Man versus Machine- Stephen Baker-Ed. HMH-ingls
Sistema desenvolvido pela IBM para reteno de informaes gerais e que
concorreu no programa de QUEST de maior audincia nos EUA (e venceu).
CLICK-Bill Tancer-Editora Globo
O que milhes de pessoas esto fazendo on-line e por que isso importante. O
comportamento do mundo na internet. Os dados e seus tratamentos
Livros tcnicos
Business Intelligence-Um enfoque gerencial para a inteligncia de negciosEfraim Turban,Ramesh Sharda,Jay Aronson e David King-Editora bookman
Data Quality-The Accuracy Dimension-Jack Olson (ingls)
Data Warehouse Design-Modern Principles and Methodologies-Matteo Golfarelli e
Stefano Rizzi(ingls)
Brandwashed-Martin Lindstrom, editora Crown Publishing Group, 2011

Cludio Lcio

Pg.: 4

Business Intelligence
Recomendaes de Bibliografia - Barbieri
Referncias
Prova ICCP-CDMP/DAMA/TDWI
Institute for Certification of Computing Professionals
Dama-Data Management Association
TDWI-The Data Warehousing Institue

Livros:
Improving Data Warehouse and Business Information Quality-Larry
English-Editora Wiley Publishing,1999
Management Information Systems for the Information Age-Stephen Haag
e Maeve Cummings, Editora McGraw Hill, 2010
A Managers Guide to Data Warehousing, Laura Reeves, Editora Wiley
Publishing, 2009
The New Era of Enterprise Business Intelligence, Mike Beere, Editora
IBM Press, 2011
The Dama Guide to Data Management Body of Knowledge(Dama
DMBOK Guide)
Modern Systems Analysis and Design, Jeffrey Hoffer,Joey George e Joe
Valacich-Pearson Education Inc, 2011
Cludio Lcio

Business Intelligence
Recomendaes de Bibliografia - Barbieri
Referncias
Novas tendncias BI

Livros:
BI2-Business Intelligence-Modelagem e Qualidade-Carlos
Barbieri-Editora Elsevier,2011
Agile Data Warehouse Design-Lawrence Corr e Jim StagnittoEditora Decision Press-2011
Agile DataWarehousing Project Management-BI systems using
Scrum-Ralph Hughes-Morgan Kauffman-2013
Agile DataWarehousing-Ralph Hughes-Editora iUniverse Inc,
2008
Agile Analytics-Ken Collier-Editora Addison Wesley, 2012
Star Schema- The complete reference-Christopher AdamsonEditora McGraw Hill, 2010
Cludio Lcio

10

Pg.: 5

Business Intelligence
Recomendaes de Bibliografia - Barbieri
Referncias
Novas tendncias BI

Livros:
BI2-Business Intelligence-Modelagem e Qualidade-Carlos
Barbieri-Editora Elsevier,2011
Agile Data Warehouse Design-Lawrence Corr e Jim StagnittoEditora Decision Press-2011
Agile DataWarehousing Project Management-BI systems using
Scrum-Ralph Hughes-Morgan Kauffman-2013
Agile DataWarehousing-Ralph Hughes-Editora iUniverse Inc,
2008
Agile Analytics-Ken Collier-Editora Addison Wesley, 2012
Star Schema- The complete reference-Christopher AdamsonEditora McGraw Hill, 2010
Cludio Lcio

11

Business Intelligence
Recomendaes de Bibliografia - Barbieri

Carlos Barbieri:
Blog do Barbi (Carlos Barbieri)
http://blogdobarbi.blogspot.com/
Twitter: CarlosBarbieri
FB:Carlos Barbieri

Cludio Lcio

12

Pg.: 6

Business Intelligence
Recomendaes de Bibliografia
Modelagem de dados, ETL e OLAP
Barbieri, Carlos. BI2-Business Intelligence, Modelagem e Qualidade. 2011.Ed.: Elsevier. Pag.:416.
Kimball, Ralph; Ross, Margy. Data Warehouse Toolkit (The): Guia Completo para Modelagem Dimensional;
2002; Ed.: Campus; ISBN:85-352-1129-2.
Metodologia para DW
Kimball, Ralph. The Data Warehouse Lifecycle Toolkit. Ed.: John Wiley & Sons. ISBN: 9780470149775; Pg.:
636.
Textos complemmentares do TDWI;
BI e Competitividade das empresas
Davenport, Thomas; Harris, Jeanne; Morison, Robert. Analytics at Work: Smarter Decisions, Better Results.
2010; Ed.: Harvard Business Press; ISBN: 978-1422177693; Pg.: 240;
Data Mining /Estatstica e Otimizao
Berthold, Michael; Borgelt, Christian; Hppner, Frank; Klawonn, Frank. Guide to Intelligent Data Analysis:
How to Intelligently Make Sense of Real Data. 2010. Ed.: Springer;ISBN: 978-1-84882-259-7. Pg. 398.
Pesquisa Operacional: 170 Aplicaes em Estratgia, Finanas, Logstica, Produo, Marketing e Vendas.
2007; Ed. LTC; ISBN: 139788521615590; Pg.:528.
Stevenson, William. Estatstica Aplicada a Administrao. 1997. Ed.:HARBRA.Pg.:498.
Cludio Lcio

13

Pg.: 7

Business
Intelligence
Introduo: conceitos
e definies
Cludio Lcio

Introduo: conceitos e definies


Agenda

Contexto do BI

Aplicao do BI

Utilizaes e Tecnologia

Componentes tpicos de uma soluo BI

Cludio Lcio

Pg.: 8

Introduo:conceitos
e definies
Contexto BI
Cludio Lcio

Introduo conceitos e definies


Ambiente de informao empresarial - tpico

Cludio Lcio

Pg.: 9

Introduo conceitos e definies


Ambiente de informao empresarial - tpico
Percentual do tempo consumido com:
Anlise dos dados

100%
80%

Transformao e
preparao dos
dados

60%
40%

Extrao dos dados


dos sistemas origem

20%
0%

Cludio Lcio

Introduo conceitos e definies


Sintomas que indicam quando o BI uma boa soluo:

Dificuldade na obteno de informaes estratgicas


atualizadas;
Dificuldade de apurar, acompanhar e comparar os indicadores
de desempenho empresarial;
Descrdito das informaes - os nmeros da empresa no
batem entre as reas;
No uniformidade de conceitos na organizao (produto,
margem, etc);
Dificuldade ou demora para obteno de informaes histricas;
Dificuldade de integrao e cruzamento das informaes
internas e externas organizao;
Manipulao excessiva de arquivos e planilhas para obteno
da informaes gerenciais;
Forte dependncia da rea de TI para a obteno de informao
para anlises gerenciais previstas ou no previstas.
Cludio Lcio

Pg.: 10

Introduo conceitos e definies


Ambiente de informao empresarial tpico
Como acontece o processo de obteno de
informao gerencial na sua empresa ???

Cludio Lcio

Introduo conceitos e definies


Business Intelligence o processo de transformar dados em
informaes para, atravs de anlises, transformar essas
informaes em conhecimento que contribui para uma efetiva
tomada de deciso.
Grupo Gartner
Mais pragmaticamente:
Informao na palma da sua mo, no formato que voc deseja
Informao correta, no tempo certo.
Deciso subsidiada por fatos e dados.

Cludio Lcio

Pg.: 11

Introduo conceitos e definies


Ambiente de informao empresarial Mudana de paradigma
Percentual do tempo consumido com:
Anlise dos dados

100%
80%

Transformao e
preparao dos
dados

60%
40%

Extrao dos dados


dos sistemas origem

20%
0%

Cludio Lcio

Introduo conceitos e definies


Ambiente de informao empresarial Mudana de paradigma
Aplicativos Operacionais

Business Intelligence

Viso do atual e do real

Viso histrica e de tendncia

Soluo para requisitos


conhecidos

Permitir a identificao de
fatos desconhecidos

Abrangncia restrita

Abrangncia ampla

Informao produzida por


profissionais de informtica

Informao produzida pelo


prprio usurio

Alto custo e tempo para


obteno da informao

Informao obtida com baixo


custo e em tempo real

Informao disponvel a
poucos usurios

Informao democratizada

Cludio Lcio

10

Pg.: 12

Introduo:conceitos
e definies
Aplicao do BI

Cludio Lcio

11

Aplicao do BI
- O contexto do negcio determina a natureza da aplicao do
BI.
- O contexto do negcio orienta sobre as formas de alinhar
resultados de um projeto de BI com os objetivos empresariais:

Diretrizes: Definies que so estrategicamente


importantes no posicionamento do negcio para atingir
objetivos de curto ou longo prazo;
A definio de diretrizes claras um dos fatores para o
sucesso de um projeto de BI;
Objetivos: Itens mensurveis que devem ser alcanados
para garantir a efetividade da diretriz estabelecida;
Estratgias: So planos de ao, ou seja, descrevem como
a empresa ir atingir os objetivos estabelecidos;

Cludio Lcio

12

Pg.: 13

Aplicao do BI

Cludio Lcio

13

Aplicao do BI
Diretrizes
Diretrizes

Objetivos

Estratgia

Resultados

Atuao de foras
que demandam
aes empresariais

Resultados
desejados a partir
de aes

Plano de aes
para alcanar os
objetivos

Resultados
obtidos com as
aes adotadas

Implementao da estratgia empresarial


ROI - Retorno sobre o Investimento

Valor
Agregado
ao Negcio

Objetivo da Aplicao do BI

TCO - Custo total de propriedade


Cultura analtica (decises baseadas em dados)

Diretrizes
Dados
Atuao
de foras
Descritivo,
que
demandam
qualitativo
ou
aes
empresariais
quantitativo.

Informao
Fatos e
medies

Conhecimento

Ao

Novas crenas,
experincias e
evidncias

Deciso,
Inovao,
insight

Cludio Lcio

14

Pg.: 14

Aplicao do BI
Mtricas de negcios e indicadores
Mtricas:
Refere-se uma medida numrica que representa um processo
ou assunto do negcio.
Normalmente visto em vrias ticas ou dimenses.

Indicadores:
Pode ser considerado uma mtrica com caractersticas
particulares (obrigatrias para um indicador);
Estas caractersticas so: meta e faixa de valores;
Outras caractersticas: forma de visualizao, tendncia e
alertas;
Vrios tipos, como: quanto maior melhor, quanto menor
melhor, intervalos dentre outros;

Apresentao de mtricas, indicadores e dashboards


Cludio Lcio

15

Aplicao do BI
Gerenciamento baseado em mtricas - Aplicao direta de BI
Alguns processos ou mtodos de gerenciamentos so aplicaes
diretas do uso de indicadores e mtricas. Este ambiente propcio
para o BI:
SCM (Supply Chain Management) = modelo de gesto que
utiliza medidas internas e externas de processos envolvendo
clientes e fornecedores.
EX.:
taxa de ocupao de mquina,qualidade do produto, qualidade
do material, previso de demanda, taxa de entrega, taxa de
devoluo.

BAM (Business Activity Monitoring/Management) = modelo


de gesto que utiliza mtricas de atividades em um negcio.
EX.:

Nmero de visitas a clientes,nmero de respostas de


campanhas de marketing, interrupes de servios, paradas da
linha de produo.
Cludio Lcio

16

Pg.: 15

Aplicao do BI
Gerenciamento baseado em mtricas - Aplicao direta de BI
CRM (Customer Relantionship Management) = modelo de
gesto que utiliza mtricas externas especficas para clientes
EX.:

Satisfao de cliente, valor do cliente, taxa de reteno do


cliente, itens de preferncias do cliente, fidelidade do cliente,
taxa de recompra, taxa de reconquista

BSC (Balanced Scorecard) = uma metodologia de medio


e gesto de desempenho.
EX.: Decomposto em objetivos, indicadores, metas e iniciativas,nas

quatro dimenses de negcio:


Financeira;
Clientes;
Processos internos;
Aprendizado e crescimento.

Cludio Lcio

17

Introduo:conceitos
e definies
Utilizaes e
Tecnologia
Cludio Lcio

18

Pg.: 16

Utilizaes e Tecnologia
Utilizaes
Utilizao

Descrio

Inteligncia aplicada em
clientes

Maximizar o valor do cliente, conhecer melhor o perfil dos


clientes, entender a satisfao e como reter os clientes.

Inteligncia aplicada em
Mercado

Entender o mercado de forma integrada: competidores, clientes,


fornecedores, produtos e metas.

Inteligncia aplicada em
Vendas

Planejar e implementar estratgias de vendas, aplicando controle


e garantindo melhoria contnua no processo de venda.

Inteligncia aplicada na
cadeia de suprimentos

Melhoria e monitorao de processos da cadeia, desde a entrada


do pedido at a entrega do produto/servio.

Inteligncia aplicada em
sistemas de e-commerce

Antecipar padres de comportamento, fazer recomendaes


automticas de produtos, indicar tendncias de compras

Inteligncia aplicada
sistemas produtivos

Auxiliar na previso de demanda e otimizao do sistema


produtivo, melhoria de estocagem, utilizao de matria-prima.

Cludio Lcio

19

Utilizaes e Tecnologia
Tecnologias
Tecnologia -Termos

Descrio

DSS Decision Support


Systems

Sistema para tomada de deciso. Utilizado para decises tticas.

EIS Executive information Deciso gerencial, baseado em indicadores e dashboards.


Systems
Implementao da mtodo baseado em mtricas.
OLAP Online Analytical
Processing

Ferramentas para suportar anlises multidimensionais, ou


mltiplas vises. Tipicamente utilizado por usurios chaves para
explorar dados.

Query & Reporting

Prover acesso rpido e fcil aos dados do negcio.


Funcionalidades de explorao de dados e compartilhamento.

ETC Extrao
transformao e carga

Ferramentas para manipular dados quanto a sua extrao,


transformao, limpeza, qualidade e carga.

ODS Operational Data


Store

Prover servios de dados com base nos processos de operao


para sistemas e para gerao de relatrios.

Minerao de dados

Descobrir padres de ocultos em um grande volume de dados,


fornecendo novas ideias e insights sobre o negcio.

Otimizao

Utilizao de modelos matemticas para obteno de solues


melhores ou timas.
Cludio Lcio

20

Pg.: 17

Utilizaes e Tecnologia

SAS e IBM Vdeos Cludio Lcio

21

Introduo:conceitos
e definies
Componentes
tpicos de uma
soluo BI
Cludio Lcio

22

Pg.: 18

Componentes tpicos de uma soluo BI

Fonte: TDWI
Cludio Lcio

23

Componentes tpicos de uma soluo BI

Fonte: TDWI
Cludio Lcio

24

Pg.: 19

Componentes tpicos de uma soluo BI


Componentes

Descrio

Processos ETL

Componente responsvel por todo os servios relacionados a


manipulao de dados: movimentao, extrao, carga, limpeza,
qualidade dentre outros;

Data Warehouse

Repositrio central de dados corporativos da organizao.


Contm tambm um estrutura que comporta metadados

Data mart

Repositrio especfico de dados, tambm integrado, mas que


mantm as particularidades especficas de um determinado
assunto.

Anlises/OLAP/Dashboard
/Indicadores

Camada da soluo responsvel por entregar/visualizao das


informaes para os diversos pblicos-alvo da soluo.

Portal Corporativo

Local de fcil acesso de informaes e dados. Congrega


funcionalidade de dados estruturados e dados no estruturados.
a 'ponta da pirmide' na apresentao de um soluo BI.

Modelos Mining

Camada analticas que prov novos insights a partir de um


grande volume de dados.

Cludio Lcio

25

Pg.: 20

Qualidade de dados e BI - Barbieri


A pergunta que se faz:
Como ter uma boa estratgia de negcios
num cenrio onde a qualidade dos
dados(insumos para a s informaes) no
controlada e garantida?
Ter Bancos de Dados, DataWarehousing,
DataMarts, Analytics, etc suficiente?
Casamento BI+Qualidade essencial!!

Cludio Lcio

28

Pg.: 21

Qualidade de dados e BI - Barbieri


QUALIDADE DOS DADOS
PESQUISA DA PWC-PRICE
WATERHOUSECOOPERS, REALIZADA
EM 600 CORPORAES EM TODO O
MUNDO, REVELA QUE APENAS

41%

DELAS ESTO CONFIANTES


NA QUALIDADE DE SEUS DADOS E

17%

CONFIA EM DADOS DE
TERCEIROS

Cludio Lcio

29

Qualidade de dados e BI - Barbieri


APLICAES
BI
VAREJO

9800 LOJAS-29 paises, 400 lojas/ano, US 5bi de impostos, > 2


MILHES EMPREGADOS-100.000.000 DE CLIENTE
FATURAMENTO:405 BI US$(2010), OU SEJA 2,4 %DO PIB DOS
USA. SE FOSSE UM PAIS O SEU PIB SERIA > QUE 90% DOS
PAISES.
LUCRO DE US$ 8 BI(3 * PETROBRS)
COMPRA 10% DE TUDO QUE A CHINA VENDE AOS USA
POSSUI O SEGUNDO MAIOR COMPUTADOR DO
PLANETA(MENOR QUE O PENTGONO)
X PETABYTES DE DADOS-DW
DESDE 1988-investe alto em Dados
SAM WALTON: TODAS AS COISAS MAIS SIGNIFICATIVAS DA
MINHA VIDA EU COPIEI DE ALGUM
DEVIDO AO KMART(J QUEBROU)
Novo modelo de negcios: espreme os fornecedores- 15 a 20% mais
barato que a concorrncia(repassa direto a diferena do que ganha com
FN, para os clientes). Reduz a inflao americana em 1%(deflao)
Cludio Lcio

30

Pg.: 22

Qualidade de dados e BI - Barbieri

GRANDE EXEMPLO DE USO DE BI


SEGREDO

GESTO COM TECNOLOGIA DE INFORMAO


CONTROLE DE LUCRATIVIDADE DE CADA ITEM
ACELERAO DA ROTAO DO ESTOQUE
ELIMINAO DE MERCADORIAS SEM SADAS

EXEMPLO;
COMPRA DE UMA LATA DE MASSA DE TOMATE EM
QUALQUER LOJA DO WAL-MART(INCLUSIVE AS 21 DO BR)
INFORMAO VIAJA 13.000 KM PARA O DB DE
ARKANSAS(BENTONVILLE)
ENVIO DE INFORMAO PARA O CENTRO DE
DISTRIBUIO EM SP-REPOSIO DAQUELE LATA

Cludio Lcio

31

Qualidade de dados e BI - Barbieri

GRANDE EXEMPLO DE USO DE BI


SEGREDO

GESTO COM TECNOLOGIA DE INFORMAO


CONTROLE DE LUCRATIVIDADE DE CADA ITEM
ACELERAO DA ROTAO DO ESTOQUE
ELIMINAO DE MERCADORIAS SEM SADAS

EXEMPLO;
COMPRA DE UMA LATA DE MASSA DE TOMATE EM
QUALQUER LOJA DO WAL-MART(INCLUSIVE AS 21 DO BR)
INFORMAO VIAJA 13.000 KM PARA O DB DE
ARKANSAS(BENTONVILLE)
ENVIO DE INFORMAO PARA O CENTRO DE
DISTRIBUIO EM SP-REPOSIO DAQUELE LATA

Cludio Lcio

32

Pg.: 23

Qualidade de dados e BI - Barbieri


GRANDE INVESTIMENTO EM TECNOLOGIA DE
INFORMAO
MAIOR DB DO PLANETA QUE GERA O MAIOR DW DO
PLANETA
30 X MAIOR QUE TODO O CONTEDO DA BIBLIOTECA DO
CONGRESSO DOS EUA
N TRILHES DE DADOS( n TERABYTES)
DW DO WAL-MART=600 Tb-1 Petabyte-TERADATA

INFORMAES GERENCIAIS
PERFIL DE CONSUMIDOR-SAMS CLUBE
DIAS MAIS PROPCIOS PARA COMPRA DE PRODUTO X POR
CONSUMIDOR TIPO Y

INVESTIMENTOS TOTAIS DE MAIS DE 2/3 BI DE DLARES


DESDE 88
S EM 2002 APLICOU 400 MI DE DLARES
Cludio Lcio

33

Qualidade de dados e BI - Barbieri


Rea lizara m um
movimento
giga ntesco de
logstica , com
desloca mento de
frotas de caminhes
giga ntes, contendo
esses dois produtos ,
para as reas
ameaadas.
Ganhara m muito
dinheiro!

Em setembro de 2004 , o
furaco Frances se
aproximava das costas da
Flrida

Verificaram que
havia tido um
consumo
extraordinrio de
E -m ails,
cerveja (fase
pr-Twitter, chamadas
telef n icas etc, DEFINEM
tufo) e deSUAS
tortaREDES
de
SOCIAIS
OUTLOOK(DE QUEM ,
morango(strawberry
PARA QUEM, CPIA
tarts, naOCULTA?,
fase ps NATUREZA DO
VNCULO
tufo. Essa tinha
sido consumida 7 x
mais que a mdia

A equipe de BI do Wal Ma rt
CV, anlises
especialista em
DOCUM ENT OS
preditivas a tpicas:
Quais
DE PROJET
OS, seriam
os produtosMOSTRAM
de ma ior SEUS
consumo e
PERFS DE
que mereceriam
cuidado E
da rea
HABILIDADES
EXPERINCIAS
de logstica
da empresa , nas
regies atingidas?

Poder da Informao
VIA
CEL UL ARES E
NOTE BOOKS

Verificaram
que o
CAPTURAM
SEUS
perfil de consumo
MOVIMENTOS
durante o furaco
DE
COMUNICAO
anterior(Charley)
EMPRESARIAL
apontava para dados
no bvios. No era
lanterna,
pregos,reforo de
portas e janelas,etc

Cludio Lcio

AS AGENDAS
ON-LINE
M OSTRANDO AS
Analisaram
os
SUAS
ATIVIDADES
dados de
PROFISSIONAIS
consumos,
E COM
QUEM SE
REUNEM no DW,
registrados

relativo passagem
do outro FuracoCharley, em agosto
de 2004

34

Pg.: 24

Atividade
1- Leitura do CASE FIAT

Discusses aps a leitura

Reflexo
Existe diferena entre sistemas operacionais e um sistema que apoia a
tomada de decises?
possvel compreender o que Business Intelligence?
possvel compreender as vantagens de uma soluo de Business
Intelligence?
possvel compreender e decidir quando aplicar uma soluo de Business
Intelligence?

Cludio Lcio

35

Pg.: 25

Business
Intelligence
Conceitos de DW
Cludio Lcio

Conceitos de DW
Agenda

Contexto do DW

Conceitos sobre DW

Componentes DW

Modelagem dimensional de dados

Comentrios e recomendaes sobre projetos de DW

Cludio Lcio

Pg.: 26

Introduo:conceitos
e definies
Contexto do DW
Cludio Lcio

Contexto do DW
Suporte a deciso 'Soluo comum adotada pelas empresas'
Forte acoplamento entre sistemas do nvel operacional e gerencial

Cludio Lcio

Pg.: 27

Contexto do DW
Suporte a deciso 'Soluo comum adotada pelas empresas'
Fatos comumente observados:
Dados no esto adequados para suporte
deciso;
Sistemas de suporte deciso
desenvolvidos ad-hoc;
Longo tempo de espera;
No apresentam histrico necessrio
(para analisar sazonalidades, por exemplo,
ou mesmo histrico de clientes);

Cludio Lcio

Contexto do DW
Ambiente de Aplicaes
Operacionais: Do suporte s funes associadas execuo
do negcio da empresa, como por exemplo:
- Sistemas ERPs;
- Sistemas supervisrios para aquisio de dados- SCADA;
- Sistemas de execuo de manufatura - MES
Fazem a roda dos negcios girar

Suporte Deciso: Do suporte ao processo de tomada de


deciso empresarial.
Auxiliam o entendimento sobre como a roda dos
negcios esta girando, ou como poderia girar melhor.

Cludio Lcio

Pg.: 28

Contexto do DW
Ambiente Operacional (Transacional)
Tipo de processamento: OLTP (On Line Transaction
Processing)
Baseado em transaes;
Voltado para velocidade e automao de funes
operativas. Ex.: Emitir notas fiscais, Faturar cliente,
Retirar material da expedio, dentre outros;
No prioridade mantes informaes histricas;
Atualizaes e consultas em grande nmero;
Trabalha com baixo nvel de detalhe(granularidade);

Cludio Lcio

Contexto do DW
Ambiente de Suporte Deciso (Analtico)

Tipo de processamento: OLAP(On Line Analytical Processing)


Necessidade de ver o dado sob diferentes perspectivas:
visualizaes dinmicas;
comum haver operaes de agregao e cruzamentos
de diversos tipos de dados;
Atualizao dos dados feito em 'lotes';
Dados histricos so relevantes;
Consistncia e qualidade dos dados fundamental;

Cludio Lcio

Pg.: 29

Contexto do DW
Requisitos de ambientes operacionais e analtico
OLTP
- Tempo de Resposta;
- ACID (Atomicidade, Consistncia, Isolamento e Durabilidade);
- Recuperao de Falhas;
- Muitos usurios concorrentes;
OLAP
- Consultas complexas, no antecipadas;
- Gerenciamento de 'enormes' volumes de dados;
- Necessidade de examinar o dado em diferentes nveis de
detalhe;
- Necessidade de acesso a dados de fontes de dados diversas;
- Flexibilidade, facilidade de navegao
Cludio Lcio

Contexto do DW
OLAP x OLTP

Cludio Lcio

10

Pg.: 30

Contexto do DW
Porque um ambiente de Data Warehouse?
Integrar dados de mltiplas fontes;
Facilitar o processo de anlise sem gerar impactos para o
ambiente de dados operacionais;
Melhor desempenho (tempo de resposta) para consultas e
anlises
Obter dados com qualidade e estrutura propcia para o
processo de anlise;
Atender diferentes tipos de necessidades dos usurios;
Flexibilidade e agilidade para atender novas anlises;
Reteno de dados histricos permitindo anlises
temporais (explorao de sazonalidade);

Cludio Lcio

11

Introduo:conceitos
e definies
Conceitos sobre DW
Cludio Lcio

12

Pg.: 31

Conceitos sobre DW
Conceito: Data Warehouse
O Data Warehouse uma estrutura de dados que
otimizada para a distribuio. uma coleo de
dados integrados e histricos oriundas de mltiplas
sistemas operacionais. Tambm prov acesso para
os usurios finais para suportar uma viso
corporativas de dados.
TDWI

Cludio Lcio

13

Conceitos sobre DW
Conceito: Data Warehouse
Um data warehouse uma coleo de dados
orientada por assunto, integrada, varivel no tempo,
e no-voltil, usada no apoio aos processos de
tomada de deciso gerenciais.
W.H. Inmon

Cludio Lcio

14

Pg.: 32

Conceitos sobre DW
Conceito: Data Warehouse
Orientada por assunto: organizada em torno dos principais
assuntos (temas, entidades) do negcio, tais como financeiro,
suprimentos, vendas, etc;
Integrada: construda a partir de mltiplas fontes, potencialmente
Heterogneas;
Varivel no tempo:o tempo sempre uma dimenso importante
para o DW, que geralmente acumula dados de um perodo histrico
mais longo;
No voltil: os dados no DW no sofrem atualizaes constantes.
Via de regra, dados carregados no DW no so (constantemente)
alterados.
Cludio Lcio

15

Conceitos sobre DW
Pragmaticamente: Data Warehouse
Banco de dados com informaes gerenciais;
Carregado a partir de bancos de dados transacionais, fontes de
dados externas e/ou no estruturadas;
Dividido por assunto;
Modelado de uma nova maneira, objetivando facilitar a
elaborao de consultas;
No consiste apenas em dados, mas tambm em um conjunto de
ferramentas para consultar, analisar e apresentar informaes;
Geralmente utiliza o perodo da noite como janela de carga;
Cludio Lcio

16

Pg.: 33

Conceitos sobre DW
Data Mart
um sub-conjunto de dados de um Data Warehouse, referentes a
um assunto em especial ou diferentes nveis de sumarizao que
focalizam uma ou mais reas especficas.
O Data Warehouse no nada mais do que a unio dos data marts
que o constituem.
Ralph Kimball et al.

Cludio Lcio

17

Conceitos sobre DW
Data Warehouse Diferenas conceituais

Fonte: TDWI
Cludio Lcio

18

Pg.: 34

Conceitos sobre DW
Data Warehouse Abordagens para construo
- Top-down: criao de um DW contendo todos os dados
corporativos e, posteriormente, feita a segmentao do
DW em reas menores por assunto, gerando assim os Data
Marts.
- Botton-up: inicia-se a construo por uma rea, ou Data
Mart. A partir da visualizao dos primeiros resultados,
parte para outra rea e assim sucessivamente, at resultar
em um Data Warehouse.
- Planejar corporativamente e construo incremental;

Cludio Lcio

19

Introduo:conceitos
e definies
Componentes DW
Cludio Lcio

20

Pg.: 35

Conceitos sobre DW
Staging Area - Conceito
- rea onde os dados so colocados aps a extrao a partir
dos sistemas de origem;
- Mantm apenas uma foto parcial, temporria ou
permanente dos dados dos sistemas fontes;
- Dedicada para a integrao de dados e no disponvel para
os usurios finais do DW;
- Isolamento de dados brutos que so extrados das fontes e
so acessveis para o processo de extrao ou talvez para
analistas de negcios;

Cludio Lcio

22

Pg.: 36

Conceitos sobre DW
Staging Area - Motivaes para uso
- Reduzir a sobrecarga de acessos aos sistemas fontes.
Acesso ao sistema fonte pode ser feito uma nica vez, as
leituras necessrias para o armazenamento dos dados do
DW so realizadas a partir da Staging Area;
- Recuperao de falhas sem reiniciar todo processo. Aps a
gravao dos dados na Staging Area no necessrio
acessar o sistema fonte novamente no caso de falha.
- Os dados da Staging Area so teis para validar a
integridade da informao do DW quando o sistema fonte
sobrescreve o histrico.
Cludio Lcio

23

Conceitos sobre DW
Operational Data Store ODS - Conceito
- Base de dados que integra dados de mltiplas fontes,para
facilitar anlises e relatrios. Ou mesmo para facilitar a
integrao entre sistemas legados;
- ODS semelhante ao DW: ambos so orientados por
assunto e integrados;
- Pode ser uma base separada do DW ou pode ser um
componente do mesmo.

Cludio Lcio

24

Pg.: 37

Conceitos sobre DW
Operational Data Store ODS - Diferenas DW
Volatilidade
Transaes no sistema transacional so replicados no ODS.
ODS voltil prpria para o conceito near real time;

Frequncia da informao
O ODS possui dados correntes, que no ultrapassem as ltimas
24 horas ou 1 ms, por exemplo;

Granularidade e detalhes de campos


O ODS possui dados detalhados (telefone, endereo) com
estruturao no dimensional e DW possui dados
sumarizados;
Relatrios
Utilizado para gerar relatrios operacionais, como por
exemplo, listagens detalhadas .
Cludio Lcio

25

Conceitos sobre DW
ODS - Motivaes de uso
- Necessidade de uma base para consultas em tempo
quase real;
- Necessidade de uma base acessvel no ambiente
organizacional que no orientada para aplicaes e
possui aspecto relativo a integrao;
- Necessidade de relatrios para decises tticas que
envolvem diferentes bases de dados e que devem ser
near real time ;

Cludio Lcio

26

Pg.: 38

Introduo:conceitos
e definies
Modelagem
Multidimensional
de dados
Cludio Lcio

27

Modelagem Multidimensional de dados


Contexto Modelagem multidimensional para BI

Requisitos de informao definidos

Modelagem de dados
Cludio Lcio

28

Pg.: 39

Modelagem Multidimensional de dados


Modelagem Tpica para dados ER (Entidade
Relacionamento)
- Facilita a atualizao de registros;
- Alta desempenho para processamento transacional;
- Torna as transaes simples e determinsticas;
- Foi responsvel pelo sucesso dos sistemas transacionais
com os SGBDR;
- Modelos de dados corporativos tendem a possuir
centenas e at milhares de tabelas.

Cludio Lcio

29

Modelagem Multidimensional de dados


Porque no usar a modelagem ER para o DW?
- Modelo de dados de difcil entendimento e
memorizao pelo usurio;
- Dificuldade dos programas de consulta para suporte a
deciso em Modelos ER genricos (ferramentas OLAP
ou Query/Reporting);
- A modelagem ER vai contra uma das premissas do DW:
Recuperao de dados intuitiva e com alto desempenho

Cludio Lcio

30

Pg.: 40

Modelagem Multidimensional de dados


Modelagem Dimensional
- uma tcnica que visa apresentar os dados de forma
padronizada, intuitiva, permitindo a sua recuperao com
alto desempenho;
- Voltado para a flexibilidade e alta performance para
extrao de informaes;
- de simples entendimento pelos usurios;
- mais sintonizado com o negcio;
- composto por uma tabela de FATO cercada por um
conjunto de tabelas chamadas DIMENSES;
Cludio Lcio

31

Modelagem Multidimensional de dados


Modelagem Dimensional

Cludio Lcio

32

Pg.: 41

Modelagem Multidimensional de dados


Modelagem Dimensional - Dimenses
Dimenses so perspectivas ou entidades sobre as quais
a organizao deseja avaliar os dados;
- Correspondem aproximadamente a diferentes
aspectos do problema, ou a temas segundo os quais
os dados podem ser sumarizados e apresentados;
- Seus atributos so usados como restries para as
consultas;
- Possui relacionamentos hierrquicos;
- Exemplos: Tempo, Loja/filial, Produto, Cliente, Local
Cludio Lcio

33

Modelagem Multidimensional de dados


Modelagem Dimensional - Fatos
Os fatos so medidas que indicam combinaes de
elementos das dimenses;
- Objeto de curiosidade do usurio ou aquilo que de
foco da ateno do usurio;
- Fatos so tipicamente numricos e aditivos;
- Fatos so recuperados em conjunto de centenas,
milhares ou at milhes de registros atravs de
funes estatstica descritiva (soma, mdia, mx.,
min., etc.);
- Exemplos: Vendas, preos, custo, Clientes atendidos,
etc.
Cludio Lcio

34

Pg.: 42

Modelagem Multidimensional de dados


Modelagem Dimensional - Exemplo

Cludio Lcio

35

Modelagem Multidimensional de dados


Modelagem Dimensional - Fatos
- O modelo dimensional organizado em torno de um
tema central: mtricas ou indicadores. No exemplo,
venda (valor, quantidade, custo);
- A granularidade da tabela de fatos a deciso mais
importante a tomar na construo do DW:
Dimenso tempo: Dia? Ms? Trimestre? Dia da semana?
Dimenso
produto: Produtos individuais? Famlias de
produtos?
Dimenso local: Cidade? Estado?

- A granularidade das tabelas de fatos iro determinar o


volume de dados no DW ;
Cludio Lcio

36

Pg.: 43

Modelagem Multidimensional de dados


Modelagem Dimensional - Exemplo

- Dimenses: Local, Item, Tempo


- Fato: valor das vendas, em milhares de R$
- Granularidade: tempo-> trimestre; local-> cidade; item->
tipo

Cludio Lcio

37

Modelagem Multidimensional de dados


Modelagem Dimensional - Hierarquias
- Uma hierarquia de conceitos define uma sequncia de
mapeamentos entre um conjunto de conceitos mais
especficos para conceitos mais gerais
- Permite obter fatos em mltiplos nveis de granularidade:

- Podem existir mltiplas hierarquias para cada dimenso


Cludio Lcio

38

Pg.: 44

Modelagem Multidimensional de dados


Modelagem Dimensional - Hierarquias

Cludio Lcio

39

Modelagem Multidimensional de dados


Modelagem Dimensional - viso multidimensional
- O cubo apenas uma metfora visual;

Cludio Lcio

40

Pg.: 45

Modelagem Multidimensional de dados


Modelagem Dimensional - viso multidimensional
- uma representao intuitiva. Todas as dimenses coexistem
para todo ponto no cubo e so independentes umas das outras;

Cludio Lcio

41

Modelagem Multidimensional de dados


Modelagem Dimensional - Agregaes
- Os cubos pressupes dados pr-calculados , ou seja, no h
necessidade de nenhuma computao no momento de
consumo dos dados;

Cludio Lcio

42

Pg.: 46

Modelagem Multidimensional de dados


Modelagem Dimensional - Exemplo
1 - Identificar o Processo de Negcio;
Para o Processo de Negcio voc deve ser capaz de:
2 - Identificar as Dimenses;
3 - Identificar a granularidade;
4 - Identificar os fatos;

Caso do Supermercado
- Cadeia de mais de 300 lojas espalhadas por 5 estados;
- Os produtos esto agrupados por Departamento;
- Nmero mdio de Itens expostos nas prateleiras por loja: 60.000;
- Os produtos esto identificados por Cdigo de Barra e os Caixas
possuem leitores para eles;
- Promoes de Produtos podem ser feitas atravs de cupons,
anncio nas gndolas, etc.
Cludio Lcio

43

Modelagem Multidimensional de dados


Modelagem Dimensional - Exemplo
Necessidade
- Conhecer as vendas dirias de cada loja, para avaliar a
movimentao dos produtos, bem como avaliar o impacto das
promoes ou ajustes de preos nas vendas.

2 - Identificar as Dimenses;
.

Dimenso DATA

Dimenso Loja

Dimenso Promoo

Dimenso Produto
Cludio Lcio

44

Pg.: 47

Modelagem Multidimensional de dados


Modelagem Dimensional - Exemplo
3 - Identificar a granularidade
.

Cludio Lcio

45

Modelagem Multidimensional de dados


Modelagem Dimensional - Exemplo
4 - Identificao dos fatos
Quais foram as vendas semanais para a categoria Cerveja durante a Promoo das Finais
do Campeonato Brasileiro, no estado de M.G., no ms de Dezembro ?

Cludio Lcio

46

Pg.: 48

Business
Intelligence
Comentrios e
recomendaes sobre
projetos de DW
Cludio Lcio

47

Comentrios e recom. sobre projetos de DW


Projeto - Estruturao
- A construo de um Data Warehouse deve ser visto como
um Projeto, ou seja, preciso avaliar custo, tempo, prazo,
riscos, escopo:
- necessrio um conjunto de atividades bem definidas;
- Ppeis e responsabilidades devem ser claramente
comunicados e definidos?
- importante definir e acompanhar um plano de
comunicao. Todo projeto dever ser alinhado com a
estratgia do negcio ;
- Existem algumas empresas que definem um estrutura o
BICC(Business Intelligence Competence Center);
Cludio Lcio

48

Pg.: 49

Comentrios e recom. sobre projetos de DW


Projeto Resumo de fases simplificado
- 1. Planejamento: Definir o escopo, planejamento,
recursos necessrios, tarefas e entregas, prazos;
- 2. Levantamento e definio dos requisitos de dados:
Entendimento do negcio do cliente e de duas
necessidades, definio de quais informaes sero
fornecidas no DW;
-3 Modelagem dimensional e criao do banco de dados
fsico: Gera um modelo final formado por tabelas fato e
tabelas dimenso;

Cludio Lcio

49

Comentrios e recom. sobre projetos de DW


Projeto Resumo de fases simplificado
- 4. Mapeamento de dados e suas transformaes:
Identificar os sistemas fonte, mapear a fonte para o
destino, especificar as transformaes necessrias,
definir a estratgia e periodicidade de atualizao das
informaes;
- 5. Extrao e carga de dados: Construo e teste dos
procedimentos de extrao, transformao e carga de
dados;
-6. Automatizar os processos do DW: Automatizar
processos de carga, rotinas de backup, etc;

Cludio Lcio

50

Pg.: 50

Comentrios e recom. sobre projetos de DW


Projeto Resumo de fases simplificado
- 7. Criar o conjunto inicial de relatrios: Definir,
construir e testar os relatrios;
- 8. Teste e validao de dados: envolvimento intensivo
dos usurios
- 9. Treinamento: vrios tipos de treinamentos, usurios
avanados e bsico
- 10. Implantao e suporte ao usurio final: apoio a
novas questes no negcio (suporte e centro de
informao)
- 11. Manuteno e crescimento: definio de equipe de
sustentao e acoplamento com as mudanas no negcio
Cludio Lcio

51

Comentrios e recom. sobre projetos de DW


Projeto Fatores de sucesso
O sucesso do DW pode ser facilitado por:
- Patrocinadores
- Metodologia
- Boa seleo de dados ou poltica de qualidade de dados
- Abordagem e ambiente adequados
- Plataforma de hardware e software
- Treinamento da Equipe de TI

- interessante que os primeiros resultados estejam


disponveis a curto prazo. importante traduzir rapidamente
as necessidades do negcio em uma especificao que possa
ser construda em etapas;
- Construir um DW que possa ser expandido, mantendo nveis
aceitveis de desempenho para grandes volumes de dados;
- Video : Droga Raia e Volks
Cludio Lcio

52

Pg.: 51

Gerncia de projetos - Barbieri


FCS de Projetos de BI
Requisitos
poucos
claros

Falha em GPR
Recursos Financeiros

Falha em GRE
Reqtos de BI: KPI,Indicadores, aspectos analticos,etc

Dados
Incorretos
incompletos

Oramento
inadequado

Falha GD/DQ

Falha em GRE
Baixa participao do FN de Reqtos
Falha em GPR
Recursos de HDW

Falha em GPR
Documentao

Baixo
envolvimento
dos
Usurios finais

Projeto de
Hardware
inadequado

Resultados
tardios

Falha na
documentao

Projetos monolticos
Resultados somente no final

Falha de abordagem de ciclos do


Projetos-GPR

Falha em GRE

54

Requisitos NFC
No funcionais

Aderncia e
privacidade
negligenciados

Gerncia de
Mudanas
falha

FCS= Fatores crticos de sucesso


Cludio Lcio

Falha em GPR
Gerncia de Riscos (GRI)
Adaptado de
Dez razes mais frequentes para o fracasso do BI
Manuel de Pino-IB Ibria
CIO-28/06/11-cio.uol.com.br/gesto

54

Pg.: 52

Pg.: 53

Pg.: 54

Atividade
1- Entrega de trabalho

Discusses aps a leitura

Reflexo
Os componentes de um DW so uma forma para estruturar os dados de um
projeto de BI?
possvel compreender os componentes de um DW?
A modelagem dimensional uma representao mais simples para o
processo de extrao de informao por parte do usurio?

Cludio Lcio

60

Pg.: 55

Business
Intelligence
Processos ETL e
OLAP
Cludio Lcio

Processos ETL e OLAP


Agenda

ETL

Introduo

Projeto ETL

Documentao ETL

Ferramentas de ETL e suas caractersticas

OLAP

Introduo

Funcionalidades e facilidades OLAP

Ferramentas OLAP e suas caractersticas

Cludio Lcio

Pg.: 56

Processos ETL
Introduo
Cludio Lcio

Introduo
- Um dos desafios da implantao de um DW a integrao
dos dados de fontes heterogneas e complexas, padronizando
informaes, mantendo sua consistncia;
- A maioria dos projetos gasta a maior parte do tempo e dos
esforos nessa fase (cerca de 70% do tempo);
- O sucesso do DW depende, em grande parte, da eficincia e
eficcia do processo de ETL;
- Tipicamente os processos ETL mantm e possuem regras de
negcio -> implicam na confiabilidade e assertividade dos
dados no DW ou BI;

Cludio Lcio

Pg.: 57

Introduo
ETL ou ETC Extrair, transformar e carregar
- Processo em Data Warehouse que involve:
- Extrair dados de fontes externas;
- Transform-los para adequar s necessidades do negcio
ou implementar as regras do negcio;
- Carreg-los para dentro do Data Warehouse;

Cludio Lcio

Introduo
ETC - Extrao
- A primeira parte do processo ETL extrair os dados dos
sistemas origem;
- muito comum que o processo de extrao leia os dados
do sistema fonte e grave na Staging Area;
- Na grande maioria existem diferentes fontes de
informao. Exemplo: SAP-ECC, ORACLE, DB2, SQL SERVER,
XML, dentre outros;
- Fontes comuns so bases de dados relacionais, flat-files
(arquivos textos contendo os dados das tabelas) ou at
mesmo planilhas eletrnicas;
Cludio Lcio

Pg.: 58

Introduo
ETC - Transformao
- A fase de transformao consiste em aplicar uma srie de
regras ou funes sobre os dados extrados.
- Pode acontecer de no ser necessrio a realizao de
transformaes a partir de uma fonte de dados.
- Exemplo de transformaes:
- Traduzir valores codificados (ex: M para Masculino e F para Feminino e
no DW ser 1 para Masculino e 2 para Feminino);
- Criar um novo valor calculado (ex. Valor_venda = qtd * preo_unitrio);
- Realizar joins cruzando dados de mltiplas origens (lookup, merge, etc);
- Sumarizando mltiplas linhas de dados (ex. total de vendas para cada
regio);
- Pivot: transformar mltiplas colunas em mltiplas linhas ou vice versa;
Cludio Lcio

Introduo
ETC - Carga
- Nesta fase os dados so gravados no Data Warehouse.
- Pode-se carregar os dados no DW, utilizando a forma de
atualizao mais adequada:
Inicial carga de histrico at chegar no perodo atual;
Incremental acontece de acordo com a periodicidade de
atualizao (granularidade) diariamente, semanalmente,
hora em hora;
Completa acontece somente uma vez;

Cludio Lcio

Pg.: 59

Processos ETL
Projeto ETL
Cludio Lcio

Projeto ETL
Processamento de dimenses
- Ocorre antes da carga das tabelas de fatos, uma vez que
estas so dependentes ;
- Algumas dimenses so carregadas simplesmente
sobrescrevendo os dados antigos com dados atuais;
- Dimenses mais complexas podem necessitar da gesto de
histricos, bem como ter um rastreamento de todas das
alteraes que os dados sofreram;
- Somente alguns tipos especiais de dimenses necessitam
de tratamento para grandes volumes de dados;

Cludio Lcio

10

Pg.: 60

Projeto ETL
Processamento de fatos
- So mais demoradas devido ao volume de dados;
- Exigem programas de carga mais eficientes: projeto
orientado para estrutura de arquivos correta;
- Recuperam os dados das dimenses para consistncia
de chaves primrias;
- Ocorre depois da carga das tabelas de dimenses das
quais depende;
- Na maioria das vezes sofrem insero. Operaes de
update so usadas para acertos e devem ser evitadas na
medida do possvel;
Cludio Lcio

11

Projeto ETL
Dicas Projeto ETL
- Analisar os dados fontes;
- Identificar os mapeamentos de dados;
- Especificar as rotinas de ETL determinando a lgica de
converso dos dados;
- Determinar o melhor caminho para o transporte dos dados
fontes para o DW antes de iniciar a construo das rotinas
de ETL .Possibilitar maior produtividade, evitando atrasos e
retrabalho;

Cludio Lcio

12

Pg.: 61

Processos ETL
Documentao ETL
Cludio Lcio

13

Documentao ETL
ETL Disponibilizao dos dados
- Para a aumentar a chance de sucesso do processo ETL,
documentao extremamente recomendvel;
- O mapa de carga o documento que congrega as
transformaes que sero implementadas e as regras de
negcio utilizadas nas cargas dos dados;
- Outra documentao importante a estratgia de carga
que alm de descrever especificidades de cada processo,
tambm auxilia na encadeamento lgico dos vrios
processos de carga;

Cludio Lcio

14

Pg.: 62

Documentao ETL
Mapa de carga

Cludio Lcio

15

Documentao ETL
Mapa de carga

Cludio Lcio

16

Pg.: 63

Processos ETL
Ferramentas de ETL e
suas caractersticas
Cludio Lcio

17

Ferramentas de ETL e suas caractersticas


Ferramentas ETL - Caractersticas
- Existem ferramentas que proporcionam mais produtividade
e qualidade ao processo de integrao. ;
- O processo ETL trabalhoso, complexo e detalhado,
mesmo com o auxlio das melhores ferramentas de ETL;
- Para que a integrao de dados seja bem sucedida,
preciso escolher uma ferramenta que oferea
funcionalidades capazes de atender os requisitos do
processo de ETL;
- Para escolher a ferramenta adequada, necessrio fazer
um comparativo entre as opes para identificar aquela que
melhor atende o projeto(melhor custo/benefcio);
Cludio Lcio

18

Pg.: 64

Ferramentas de ETL e suas caractersticas


Ferramentas ETL - Caractersticas
- H solues com custo zero de aquisio, pois vm
embutidas em um SGBD, como por exemplo o SSIS no SQL
Server ou Data Integrator no ORACLE; Para estes casos ETL
ou ELT ?
- Pode tambm ser utilzados os recursos dos prprios banco
de dados, como PL/SQL (Oracle) ou T-SQL(SQL SERVER). No
entanto, estes podem ser limitados, exigindo uma maior
codificao dos processos;
- Alm disso, podem ser restritas, j que geralmente
fornecido suporte apenas ao SGBD que as acompanham,
enquanto as ferramentas ETL completas podem fornecer
suporte a diversos tipos de arquivos e SGBDR;
Cludio Lcio

19

Ferramentas de ETL e suas caractersticas


Ferramentas ETL - Mercado

Informatica Power Center

IBM Data Stage

ORACLE Data Integrator


MS SSIS
Cludio Lcio

20

Pg.: 65

Ferramentas de ETL e suas caractersticas


Pontos a considerar em uma ferramenta ETL
- Arquitetura Geral: Plataforma de execuo do produto:
pode restringir a capacidade de expanso sem adicionar
mais servidores quando houver crescimento do volume de
dados;
- Extrao e Carga de Dados: Suporte nativo aos principais
SGBDs, bem como suporte a conexo via drivers no
nativos(OLE/DB; ODBC; JDBC) para um vasto conjunto de
bancos de dados;
- Integrao de Dados: Suporte a diversos formatos de
dados, incluindo COBOL, ASCII, Excel e XML. Nvel de
integrao com aplicaes de terceiros, incluindo sistemas
de ERP;
Cludio Lcio

21

Ferramentas de ETL e suas caractersticas


Pontos a considerar em uma ferramenta ETL
-Administrao: Apresentar administrao centralizada, ou
seja, preciso ter um nico lugar para visualizar o processo
ETL, mesmo se as tarefas estiverem executando em
diferentes plataformas de origem e destino e diferentes
sistemas operacionais;
- Ambientes grficos de interface com o usurio;
- Concorrncia e Segurana: Nmero de possveis usurios e
desenvolvedores concorrentes;
-Tratamento de Erros: Recuperao de falhas: se ocorrer
algum erro a ferramenta ETL capaz de voltar o sistema a
um estado consistente conhecido;
Cludio Lcio

22

Pg.: 66

Ferramentas de ETL e suas caractersticas


Pontos a considerar em uma ferramenta ETL
-Gerenciamento de Metadados: Repositrio de metadados
centralizado contendo no mnimo informaes relativas a
fontes de dados, destinos e transformaes;
- Performance: Caractersticas que permitem processamento
distribudo e particionado para obter uma performance
melhor;
- Programao de Execuo de Tarefas: Habilidade de
programar a execuo de sesses ETL em um determinado
tempo ou evento;

Cludio Lcio

23

Ferramentas de ETL e suas caractersticas


Pontos a considerar em uma ferramenta ETL
- Continuidade
-Capacidade de suportar o nvel de processamento em
caso de crescimento de origens, destinos e volumes de
dados;
-Facilidade de desenvolver e modificar tarefas e rotinas;
-Frequncia e complexidade das atualizaes do produto;
-Capacidade de suporte para o crescimento da
plataforma.;
- Performance: Caractersticas que permitem processamento
distribudo e particionado para obter uma performance
melhor;
Cludio Lcio

24

Pg.: 67

Atividade
1- Entrega de trabalho

Discusses aps a leitura e atividade

Reflexo
Quais pontos so importantes para considerar na escolha de uma ferramenta
ETL?
Qual a importncia da documentao em um projeto ETL?
Performance em um projeto ETL, pode ser um fator preponderante para o
sucesso? Imagine um projeto de carga com atualizaes de 15 em 15
minutos;
Qualidade de dados importante?

Cludio Lcio

25

Business
Intelligence
OLAP Acesso a
dados
Cludio Lcio

26

Pg.: 68

OLAP Acesso a dados


Agenda

Introduo

Funcionalidades e facilidades OLAP

Ferramentas OLAP e suas caractersticas

Cludio Lcio

27

OLAP Acesso a
dados
Introduo
Cludio Lcio

28

Pg.: 69

Introduo
Definio
- OLAP (OnLine Analytical Processing) uma categoria de
tecnologia de software que possibilita a visualizao dos dados
armazenados, segundo um grande nmero de pontos de vista,
atravs de acessos rpidos, consistentes e interativos;
- Processa os dados de um DW ou DM fornecendo respostas
rpidas para consultas analticas complexas;
- A ferramenta OLAP, ou de acesso a dados, o que realmente
d vida ao DW. Outras ferramentas: Business Discovery,Query e
Reporting;

Cludio Lcio

29

Introduo
OLAP
- O DW a base para os servios OLAP;
- OLAP transforma os dados de um DW em estruturas multidimensionais

- Permite a anlise de dados fazendo operaes como um


cubo mgico
Cludio Lcio

30

Pg.: 70

Introduo
Cubos
- Cubos so estruturas multidimensionais que armazenam
dados para componente OLAP;
- Uma variedade de cruzamentos dimensionais, clculos e
agregaes so possveis com os cubos, e as dimenses so
utilizadas para o 'pivot' dos relatrios;

Cludio Lcio

31

Introduo
Cubos
- Uma das vantagens do modelo OLAP o uso 'abusivo' de
agregaes;
- Denomina-se agregao ao processo de pr-calcular os
dados atravs dos nveis das hierarquias para diminuir os
tempos de resposta nos processos de busca de
informao;
- Em resumo: As agregaes so resumos de dados prcalculados que melhoram o tempo de resposta pelo
simples motivo de ter as respostas prontas antes de
receber as perguntas.

Cludio Lcio

32

Pg.: 71

Introduo
Cubos
- A porcentagem de agregao determina a proporo ou
profundidade at onde so realizados os pr-clculos;

Cludio Lcio

33

Introduo
Cubos
- Caractersticas das agregaes:
- As agregaes permitem melhorar os tempos de resposta
- Requerem armazenamento adicional
- Caso no forem controladas podem provocar uma
exploso nos requisitos de armazenamento

Cludio Lcio

34

Pg.: 72

OLAP Acesso a
dados
Funcionalidades e
facilidades OLAP
Cludio Lcio

35

Funcionalidades e facilidades OLAP


Consultas e o acesso
- Aps montar o cubo, os usurios podem realizar diferentes
operaes para poder visualizar e analisar seus dados;
- As ferramentas apresentam as seguintes funcionalidades:
Drill - Down
Drill - Up
Slice e Dice (Filtro)
Rotao
Consolidao

Cludio Lcio

36

Pg.: 73

Funcionalidades e facilidades OLAP


Funcionalidades
- Drill - Down e Up
- uma tcnica pela qual o usurio pode navegar entre as
hierarquias de uma dimenso agrupando (Drill-up) ou
desagrupando (Drill-down) os dados.
- O drill down e o dril up servem para navegar pelas
dimenses do cubo;
- Drill up vai do detalhe para o geral e Drill down do geral
para o detalhe.

Cludio Lcio

37

Funcionalidades e facilidades OLAP


Funcionalidades
- Slice and Dice
- O Slice acontece ao selecionar um membro em particular
de uma dimenso. Cria-se uma espcie de "fatia" (slice) do
cubo original;

- O Dice acontece ao selecionar vrios membros de vrias


dimenses forma-se um sub-cubo, cubo menor (dice).

- Tanto o Slice quanto o Dice so formas particulares de


Filtro. ;
Cludio Lcio

38

Pg.: 74

Funcionalidades e facilidades OLAP


Funcionalidades
- Pivot and Unpivot
- Rotao: Seleciona a ordem de visualizao das
dimenses, gira o cubo de acordo com as suas dimenses;

- Na ferramentas de visualizao transforma: linhas


colunas ou colunas linhas;
Cludio Lcio

39

Funcionalidades e facilidades OLAP


Funcionalidades
- Roll-up
- Consolidao (Roll-Up): Calcula as medidas em funo de
agrupamentos, realiza o reclculo da medida de acordo
com os nveis das hierarquias;

Cludio Lcio

40

Pg.: 75

Funcionalidades e facilidades OLAP


Funcionalidades
- Exemplo de funcionalidades tabela dinmica - MS-EXCEL

Cludio Lcio

41

OLAP Acesso a
dados
Ferramentas OLAP e
suas caractersticas
Cludio Lcio

42

Pg.: 76

Ferramentas OLAP e suas caractersticas


Formas de armazenamento
- As ferramentas podem ser classificadas pela forma como
armazenam os cubos. Os conceitos de armazenamento
existentes so MOLAP, ROLAP e HOLAP:
- MOLAP - OLAP Multidimensional;
- ROLAP - OLAP Relacional;
- HOLAP - OLAP hbrido;

Cludio Lcio

43

Ferramentas OLAP e suas caractersticas


Formas de armazenamento
MOLAP
- No modo de armazenamento MOLAP (OLAP
Multidimensional) uma cpia dos dados de origem do cubo,
junto com as suas agregaes armazenam-se em uma
estrutura multidimensional;
- Oferece excelente rendimento e compresso de dados.
- Apresenta melhor tempo de resposta, dependendo apenas
da porcentagem das agregaes do cubo;
-Apresenta estrutura otimizada para maximizar o
rendimento das consultas;
- Geralmente este mtodo muito apropriado para cubos
com uso frequente devido sua rpida resposta.
Cludio Lcio

44

Pg.: 77

Ferramentas OLAP e suas caractersticas


Formas de armazenamento
ROLAP
- No modelo ROLAP toda a informao do cubo, dados, e
agregaes so armazenadas em um banco de dados
relacional;
- utilizado para economizar espao de armazenamento
quando se trabalha com grandes conjuntos de dados
consultados com pouca frequncia;
- considerado quando existe a necessidade de captar
mudanas imediatamente;
- Tambm considerado quando h grandes conjuntos de
dados que no so consultados frequentemente.

Cludio Lcio

45

Ferramentas OLAP e suas caractersticas


Formas de armazenamento
HOLAP
- HOLAP (OLAP hbrido) combina atributos do MOLAP e do
ROLAP;
- Da mesma forma que o MOLAP, o HOLAP armazena as
agregaes em uma estrutura multidimensional e os
dados detalhados em um banco de dados relacional, da
mesma forma que no armazenamento ROLAP;
Usos comuns de HOLAP:
- Cubos que requerem resposta rpida;
- Quando existem sumarizaes baseadas em uma grande quantidade
de dados de origem;
- Soluo com o compromisso de reduzir o espao ocupado sem
prejudicar totalmente o rendimento das consultas.
Cludio Lcio

46

Pg.: 78

Ferramentas OLAP e suas caractersticas


Formas de armazenamento
Comparaes

Cludio Lcio

47

Ferramentas OLAP e suas caractersticas


Formas de armazenamento
Comparaes

Cludio Lcio

48

Pg.: 79

Ferramentas OLAP e suas caractersticas


Ferramentas OLAP - Mercado

SAS Web Report Studio e Portal

SAP-BO

IBM - Cognos
MS Reporting Services e
Analysis Services

Cludio Lcio

49

OLAP Acesso a dados


Reflexo
Quais so as funcionalidades que uma ferramenta OLAP proporciona para o
usurio ?
Porque as ferramentas OLAP apresentam , via de regra, um excelente
desempenho para consulta?
Quais as formas de armazenamento dos dados nas ferramentas OLAP? E
quais so suas diferenas?
As agregaes so importantes para as ferramentas OLAP?

Cludio Lcio

50

Pg.: 80

Business
Intelligence
Business Analytics Minerao de dados
e Otimizao
Cludio Lcio

Data Mining
Agenda

Definies

Tarefas de Data Mining

Tcnicas para Data Mining e Anlise Estatstica

Aplicaes Genricas e Ferramentas

Otimizao

Cludio Lcio

Pg.: 81

Business Analytics Minerao de dados


Definies
Cludio Lcio

Definies
Processo de KDD (Knowledge Discovery in Databases)

Cludio Lcio

Pg.: 82

Definies
Data Mining
- Explorao de dados de quaisquer naturezas por meio de
tcnicas quantitativas em busca de padres e/ou regras
significativas.

Cludio Lcio

Definies
Data Mining
- Encontrar regras (modelos) para prever o comportamento
futuro ;
- Baseado no comportamento passado (histrico, fatores/
variveis que influenciam);
- As regras so aplicadas sobre novos dados (scoring).

Cludio Lcio

Pg.: 83

Definies
Etapas do processo de Data Mining

Cludio Lcio

Business Analytics Minerao de dados


Tarefas de Data Mining
Cludio Lcio

Pg.: 84

Tarefas de Data Mining


Data Mining
- Associao
- Classificao
- Segmentao (clustering)
- Estimao
- Predio (forecast)
- Sumarizao e visualizao
Cludio Lcio

Tarefas de Data Mining


Data Mining
- Associao
- Classificao
- Segmentao (clustering)
- Estimao
- Predio (forecast)
- Sumarizao e visualizao
Cludio Lcio

10

Pg.: 85

Tarefas de Data Mining


Data Mining
- Associao
- Classificao
- Segmentao (clustering)
- Estimao
- Predio (forecast)
- Sumarizao e visualizao
Cludio Lcio

11

Tarefas de Data Mining


Data Mining
- Associao
- Classificao
- Segmentao (clustering)
- Estimao
- Predio (forecast)
- Sumarizao e visualizao
Cludio Lcio

12

Pg.: 86

Tarefas de Data Mining


Data Mining
- Associao
- Classificao
- Segmentao (clustering)
- Estimao
- Predio (forecast)
- Sumarizao e visualizao
Cludio Lcio

13

Tarefas de Data Mining


Data Mining
- Associao
- Classificao
- Segmentao (clustering)
- Estimao
- Predio (forecast)
- Sumarizao e visualizao
Cludio Lcio

14

Pg.: 87

Business Analytics Minerao de dados


Tcnicas para Data
Mining e Anlise
Estatstica
Cludio Lcio

15

Tcnicas para Data Mining e Anlise Estatstica


Data Mining
-Anlise de Cluster
- Anlise de Sries Temporais
- rvores de Deciso
- Redes Neurais Artificiais
- Outras

Cludio Lcio

16

Pg.: 88

Tcnicas para Data Mining e Anlise Estatstica


Anlise de Cluster
- A Anlise de Cluster consiste em identificar parties
naturais do conjunto de dados a partir de medidas de
associao ou distncia entre os elementos da populao.
Tarefas:
Segmentao
Associao
Classificao
Sumarizao e visualizao

Cludio Lcio

17

Tcnicas para Data Mining e Anlise Estatstica


Anlise de Cluster

Cludio Lcio

18

Pg.: 89

Tcnicas para Data Mining e Anlise Estatstica


Anlise de Cluster: K-Mdias

Cludio Lcio

19

Tcnicas para Data Mining e Anlise Estatstica


Anlise de Cluster: K-Mdias

RapidMiner
Cludio Lcio

20

Pg.: 90

Tcnicas para Data Mining e Anlise Estatstica


Modelos de previso
- Modelos matemticos capazes de prover estimativas pontuais
e intervalares para demandas futuras com base no histrico de
demandas, levando em conta tendncias e sazonalidades.
Tarefas:
Previso

nmero de itens vendidos

40

30

20

10

0
10

20

30

40

meses

Cludio Lcio

21

Tcnicas para Data Mining e Anlise Estatstica


Modelos de previso - Exemplo
- Histrico de vendas dos ltimos 50 meses do item X.

Cludio Lcio

22

Pg.: 91

Tcnicas para Data Mining e Anlise Estatstica


Modelos de previso - Exemplo
- Histrico de vendas dos ltimos 50 meses do item X.

Cludio Lcio

23

Tcnicas para Data Mining e Anlise Estatstica


Modelos de previso - Exemplo
- Serie temporal com previso e intervalo de confiana

Cludio Lcio

24

Pg.: 92

Tcnicas para Data Mining e Anlise Estatstica


rvores de deciso
- As rvores de deciso so usadas para prever a associao /
classificao de entidades em classes com base em variveis
explicativas categricas.
Tarefas:
Classificao
Associao
Segmentao

Cludio Lcio

25

Tcnicas para Data Mining e Anlise Estatstica


rvores de deciso - Exemplo
- Y = 1 Responderam a campanha
0 No Responderam a campanha

RapidMiner
Cludio Lcio

26

Pg.: 93

Tcnicas para Data Mining e Anlise Estatstica


Tcnicas Consideraes
- Existem vrios outras tcnicas como:
- SVM
- Deteco de anomalias
- Regresso Linear e Logstica
- Anlise de associao
- Text Mining

- Cada tcnica especfica os algoritmos que so utilizados para


conduzir operaes de Data Mining e adapta-se melhor a
alguns problemas que a outros
- impossvel a existncia de um mtodo de Data Mining
universalmente melhor.
- Um mesmo problema pode ser resolvido com a utilizao de
duas tcnicas diferentes, e uma mesma tcnica pode ser
aplicada a tarefas ou problemas distintos;
Cludio Lcio

27

Business Analytics Minerao de dados


Aplicaes genricas
e Ferramentas
Cludio Lcio

28

Pg.: 94

Aplicaes genricas e Ferramentas


Alguns exemplos de uso:
- Controle de risco de crdito e inadimplncia;
- Previso de demandas / estoques;
- Segmentao de mercado;
- Deteco de fraudes;
- Sistemas de recomendao;
- Anlise de sentimentos na Web;
- Minerao de textos (anlise de satisfao dos clientes);
Alguns outros exemplos da Inteligncia Artificial
e Aprendizagem de mquina
- Watson - IBM;
- Deciso automatizada com redes neuronais artificiais;

Cludio Lcio

29

Aplicaes genricas e Ferramentas


Ferramentas para Minerao de dados e Aprendizado de
mquina:

Fonte:
http://www.kdnuggets.c
om/polls/2011/toolsanalytics-datamining.html
Cludio Lcio

30

Pg.: 95

Business Analytics Otimizao


Viso Geral
Cludio Lcio

31

Melhoria de deciso com otimizao


Agenda

O que a Pesquisa Operacional?

Histria da PO

Exemplos da utilizao

Classes de problemas

Mas o que um modelo de otimizao??

Cludio Lcio

32

Pg.: 96

Melhoria de deciso com otimizao


O que a Pesquisa Operacional?

Segundo o INFORMS

A disciplina de aplicao de mtodos analticos avanados que


ajudam na tomada de melhores decises. A Cincia do Melhor

Em outras palavras

Atravs da aplicao de mtodos cientficos, tais como anlise de


dados, criao de modelos matemticos e propostas inovadoras,
profissionais de Pesquisa Operacional desenvolvem informaes
com base cientfica que fornecem insight e ajudam na tomada de
decises.

Cludio Lcio

33

Melhoria de deciso com otimizao


Histria da PO

Nasceu na Segunda Guerra Mundial

Lderes militares britnicos convidaram matemticos,


estatsticos, fsicos e engenheiros a resolverem
problemas militares;
Estes, atravs da aplicao da matemtica e do mtodo
cientfico, forneceram respostas inovadoras que
auxiliaram os militares britnicos em vrios aspectos;

Cludio Lcio

34

Pg.: 97

Melhoria de deciso com otimizao


Histria da PO
Principais contribuies durante a guerra

Na Inglaterra:

Tamanho de comboios martimos

Reforo na proteo das aeronaves

Estratgias para ataques noturnos

Nos EUA:

Logstica do exrcito

Escalonagem de treinamentos

Cludio Lcio

35

Melhoria de deciso com otimizao


Histria da PO
Aps Segunda Guerra Mundial

Boom econmico

Similaridade entre problemas militares e de negcio

Aplicao bem-sucedida na indstria e no governo

Expanses tcnicas e metodolgicas

Surgimento do computador

Cludio Lcio

36

Pg.: 98

Melhoria de deciso com otimizao


Exemplos da utilizao
Sears, Roebuck & Co. (EUA)

Servio de entrega

1.000 veculos de entrega

4 milhes de entregas por ano

21.000 produtos (mveis, eletrodomsticos)

Servio de manuteno

12.000 veculos de manuteno

15 milhes de chamadas por ano

Cludio Lcio

37

Melhoria de deciso com otimizao


Exemplos da utilizao

Requisitos da soluo:

Respeitar horrio dos clientes

Minimizar custos

Maximizar diversas mtricas, incluindo satisfao do


cliente

Numa receita anual de $3 bilhes, economia inicial


de $9 milhes, economias anuais de $42 milhes

Cludio Lcio

38

Pg.: 99

Melhoria de deciso com otimizao


Classes de problemas
Problemas de roteamento, ou seja, qual a melhor rota para:

Entrega de mercadorias?

Entrega de carros?

Entrega de containers?

Problemas de rede, ou seja, qual a melhor rede (desenho)


para :

Rede de dados?

Transporte pblico?

Cadeia de suprimentos?

Cludio Lcio

39

Melhoria de deciso com otimizao


Classes de problemas
Problema de localizao, ou seja, onde localizar:

Um ponto de venda ?

Agncias de carros ?

Centros de distribuio ?

Problema de agendamento e sequncia, ou seja, qual o melhor


agendamento em :

Para atendentes em um call center ?

Operrios em uma indstria?

Tarefas uma industria ?

Cludio Lcio

40

Pg.: 100

Melhoria de deciso com otimizao


Classes de problemas
Outros tipos de mtodos utilizados:

Teoria da deciso

Modelos de competio;

Modelos de substituio (reposio);

Modelos de estoque (teoria dos estoques);

Modelos de filas;

Tcnicas de simulao;

Mtodos heursticos.

Cludio Lcio

41

Melhoria de deciso com otimizao


Classes de problemas
A busca de uma soluo envolve

Formular o problema

Observar o sistema

Formular o modelo matemtico do problema

Verificar o modelo e us-lo para predio

Selecionar uma alternativa conveniente

Apresentar resultados e concluses organizao

Implementar e avaliar recomendaes

Cludio Lcio

42

Pg.: 101

Melhoria de deciso com otimizao


Mas o que um modelo de otimizao??

Variveis de deciso

Objetivo

Restries

Problema da Fbrica de Automveis


Seucarro Inc. deve produzir 1000 automveis Beta. A empresa tem quatro
fbricas. Devido a diferenas na mo de obra e avanos tecnolgicos, as plantas
diferem no custo de produo unitrio de cada carro.
Elas tambm utilizam diferentes quantidades de matria-prima e mo de obra O
custo de operao, o tempo necessrio de mo de obra e o custo de matriaprima para produzir uma unidade de cada carro em cada uma das fbricas esto
evidenciados na tabela a seguir.
Cludio Lcio

43

Melhoria de deciso com otimizao


Mas o que um modelo de otimizao??
Problema da Fbrica de Automveis

No entanto existem a seguintes restries:

Existem 3200 horas de mo de obra no total;

Existem 4000 unidades de material que podem ser alocados s quatro fbricas;

Um acordo trabalhista assinado requer que pelo menos 250 carros sejam produzidas
na fbrica 3

Deciso: Como produzir os 1000 carros com o menor custo??

Cludio Lcio

44

Pg.: 102

Melhoria de deciso com otimizao


Mas o que um modelo de otimizao??
Problema da Fbrica de Automveis

Alguns detalhes da soluo:

Cada xi representa a quantidade de carros em cada fbrica;

Existem 3200 horas de mo de obra no total;

Existem 4000 unidades de material que podem ser alocados s quatro fbricas;

Um acordo trabalhista assinado requer que pelo menos 250 carros sejam produzidas na fbrica
3;
Este modelo pode ser resolvido no Excel - SOLVER
Solver Excel
Cludio Lcio

45

Pg.: 103

Business
Intelligence
Novas Tendncias
Cludio Lcio

Novas Tendncias
Agenda

Big Data

Cincia de dados

No SQL/New SQL

BIRT (Barbieri)

MDM (Barbieri)

Cludio Lcio

Pg.: 104

Novas Tendncias
Big Data
Cludio Lcio

Big Data
BigData:

Cludio Lcio

Pg.: 105

Big Data
BigData:

Cludio Lcio

Big Data
BigData:

Pesquisa da IDC/EMC apontam um volume de


dados na web em 2020 de 35 Zettabytes;

3 ou 4 Vs: Variedade, Velocidade, Volume


+
Valor para os negcios

Cludio Lcio

Pg.: 106

Big Data
Big Data, valor agregado para os negcios:

Uma rede de supermercados manter todo o histrico de compras de clientes


por produtos, assim como sua rota (RFID) de compra nas lojas;
Uma rede de locadoras de carro ir reter dados do GPS existente em seus
carros. A ideia entender como os clientes utilizam os carros e oferecer pacotes
de descontos de acordo com o uso;
O Tribunal de Justia do estado deseja estruturar todos os seus processos,
permitindo buscas por advogado, juzes, relatores, redatores, palavras chaves,
tipo de causa e outros;
Um atacadista deseja cruzar o histrico de 5 anos de compras de cada um de
seus clientes por produto(novas oportunidades de vendas): 5.000 produtos *
100.000 clientes * 1825 dias = 912.500.000.000

Cludio Lcio

Big Data
Big Data, valor agregado para os negcios:

McKinsey, Maio de 2011. Artigo: Big Data: The next frontier for innovation, competition, and productivity. Fonte:
http://www.mckinsey.com/insights/mgi/research/technology_and_innovation/big_data_the_next_frontier_for_innovation
Cludio Lcio

Pg.: 107

Big Data
Big Data Desafios - Negcios:

Mudana de cultura

Pesquisa da Capgemini indica que 60% do CEOs usam anlise de


dados para auxiliar a tomada de deciso
Governana por 'instinto' Governana baseada em dados;

Valor para os dados

Reter e armazenar dados massivos no traz retorno para os negcios;

No basta ferramentas bonitas...

necessrio achar o valor dos dados produtos de dados;

Cludio Lcio

Big Data
Big Data Desafios - Tcnico:

Processamento de volume de dados em milissegundos;


Armazenar e acessar grandes quantidades de dados.
Adicionalmente: tolerncia a falhas e poltica de backups
aceitveis;
Manipulao eficiente de grandes volumes de dados envolve
processamento paralelo e recuperao de falhas em curto
espao de tempo;
Gerenciamento e manuteno de metadados para dados
semi-estruturados e no estruturados gerados de forma
contnua por diversos tipos de fontes;

Cludio Lcio

10

Pg.: 108

Big Data

Big Data Definio


So dados em uma escala, distribuio, diversidade e
velocidade que necessitam novas arquiteturas
tecnolgicas e novas formas de anlises para ento
propiciar insights que so fontes de valor para o negcio;

McKinsey, Maio de 2011. Artigo: Big Data: The next frontier for innovation, competition, and productivity. Fonte:
http://www.mckinsey.com/insights/mgi/research/technology_and_innovation/big_data_the_next_frontier_for_innovation

Cludio Lcio

11

Big Data - Hadoop


Histrico:

Processamento intensivo era feito em hardware especializado


(processadores, cache, discos e memria);
A Web e o Big Data exigem processamento intensivo, mas em
outra estrutura de hardware:

Centenas ou milhares de computadores em rede (ns);

Operao destes computadores de forma mais ou menos


independente;

Cada um dos ns um 'commodity hardware' custo reduzido;

A estrutura em geral tolerante a falhas;

Utilizam sistemas de arquivos especializados;


Cludio Lcio

12

Pg.: 109

Big Data - Hadoop


Organizao fsica da estrutura:

A organizao fsica destas mquinas pode seguir este


exemplo:

Ns so armazenados em racks (8-64 em um rack);

Os ns em um rack so conectados via rede (gigabit Ethernet);

Conjuntos de racks so disponveis na estrutura formando uma


espcie de cluster;

A conexo entre os racks tambm pode ser otimizada;

Quanto maior o nmero de racks ou ns, maior a probabilidade


falha (de um dos ns);

Cludio Lcio

13

Big Data - Hadoop


Organizao fsica da estrutura:

A organizao fsica destas mquinas pode seguir este


exemplo:

Cludio Lcio

14

Pg.: 110

Big Data - Hadoop


Computao nesta estrutura:

Clculos computacionais nesta estrutura podem levar minutos


ou mesmo horas;
Os clculos no podem ser reiniciados toda vez que um
componente (rack ou n de execuo) falha;
Proposta de soluo:

Arquivos armazenados de forma redundante (Distributed File


System - DFS);

Clculos devem ser divididos entre os ns, de forma que se


algum n falhar, somente o trabalho atribudo ao n deve ser

Cludio Lcio

15

Big Data - Hadoop

Sistemas de arquivos distribudos - DFS:

Caractersticas DFS:

As informaes dos blocos e replicas controlado utilizando


metadados e com um figura central no cluster: 'name node' ou
'master node';
Name node:

Gerencia o sistema de arquivos(rplicas, blocos, ns e racks): abrir,


fechar, renomear arquivos;

Gerencia o acesso dos clientes ao arquivos;

Os outros ns do cluster so chamados de 'data node' ou 'slave


node':

Executam as operaes enviados pelo 'Name node': criao, excluso e


replicao de blocos;
Cludio Lcio

16

Pg.: 111

Big Data - Hadoop

Sistemas de arquivos distribudos - DFS:

Caractersticas DFS:

Cludio Lcio

17

Big Data - Hadoop

Sistemas de arquivos distribudos - DFS:

Caractersticas DFS:

Possuem regras de sistemas de arquivos: rack, 'data


node',namespaces, diretrios e arquivos;
Alm disto o DFS gerencia os blocos e sua distribuio/replicao
nos 'data nodes';
Padro de rplicas 1/3(fora do rack) e 2/3(no rack);
O 'name node' periodicamente recebe um relatrio de blocos do
'data node';

Cludio Lcio

18

Pg.: 112

Big Data - Hadoop

Sistemas de arquivos distribudos - DFS:

Caractersticas DFS:

Cludio Lcio

19

Big Data - Hadoop

O Algoritmo Map Reduce

Origens:

Patente original do Google, mas utilizado em vrias outros


sistemas de computao paralela;
A ideia derivada da programao funcional:

Map e reduce so dois tipos de funes comuns;

Map:

Aplica um funo ou operao para cada elemento em uma lista; Ex.:


multiplicao por 2;
[1,2,3,4] Map function [2,4,6,8,]

No altera o dado original. Evita o principio 'Shared Data';

Pode ser executado de forma paralela;


Cludio Lcio

20

Pg.: 113

Big Data - Hadoop

O Algoritmo Map Reduce

Origens:

A ideia derivada da programao funcional:

Reduce:

uma funo de agrupamento ou compresso;

Aplica uma funo em conjunto de dados reduzindo para um simples


valor;

Pode ser executado de forma paralela;

Ex.: [2,4,6,8,] Reduce function [20]

Cludio Lcio

21

Big Data - Hadoop

O Algoritmo Map Reduce

Origens:
De forma geral:

O algoritmo pode ser usado sempre que houver uma lista;

Para cada elemento da lista uma funo que a transforme;

Outra funo que possa ser aplicada ao conjunto de dados


transformados de forma a agreg-los;

Cludio Lcio

22

Pg.: 114

Big Data - Hadoop

O Algoritmo Map Reduce

Detalhes de funcionamento:

A implementao do algoritmo utilizada para realizar


computao no DFS para arquivos 'grandes' e com execuo
tolerante a falha;

necessrio escrever as duas funes: Map e reduce;

O sistema lida com os demais detalhes:

Execuo paralela;

Coordenao de tarefas (Map e reduce);

Lidar com a tolerncia a falhas;

Cludio Lcio

23

Big Data - Hadoop

O Algoritmo Map Reduce

Detalhes de funcionamento:

Cludio Lcio

24

Pg.: 115

Novas Tendncias
NoSQL/ NewSQL
Cludio Lcio

25

NoSQL/NewSQL

Bancos de dados NoSQL

mais adequada para BigData:

Alto desempenho;

Escalabilidade para web;

Anlise de grande volume de dados;

Aderente a computao nas nuvens:

Escalabilidade ao custo acessvel a medida que o volume de


dados aumenta;

Solues NoSQL so oferecidas como servios web ;

Cludio Lcio

26

Pg.: 116

NoSQL/NewSQL
Bancos de dados NoSQL

NoSQL - Definio:

Not Only SQL (not only RDBMS);

Um conjunto de produtos e tecnologias para lidar com o


paradigma de dados da Web;

Cludio Lcio

27

NoSQL/NewSQL

Bancos de dados NoSQL

NoSQL Mudana de paradigma:


SQL

NoSQL

Dados organizados em tabelas

Dados no so organizados apenas em tabelas:


rvores, grafos, pares chave-valor. Melhor
estrutura para resolver o problema.

Foco no servidor: I/O, memria, cache e CPU.


Abordagem principal: Escalabilidade vertical.

Problema distribudo. Nmero de CPUs de


acordo com problema. Abordagem principal:
Escalabilidade horizontal.

Utiliza cdigo procedural e gerenciamento de


estado para gerenciamento de transaes.

Utiliza programao funcional e algoritmos Map


Reduce para particionar o problema em tarefas
independentes.

Analistas de dados fazem modelos lgicos e


fsicos para construir esquemas de dados
precisos de acordo com os padres da
corporao.

Analistas esto preparados para carregar dados a


medida que eles surgem e adaptam esquemas de
acordo com a necessidade.

Todas as transaes seguem o preceito ACID.


Todos os relatrios so consistentes

Utiliza o preceito ACID quando necessrio mas o


foco no bloquear escritas. O sistema
eventualmente consistente (dados em
processamento).

Cludio Lcio

28

Pg.: 117

Novas Tendncias
Cincia de dados
Cludio Lcio

29

Cincia de dados

Definio

Tambm conhecida com Business Analytics ou


Competitive Intelligence;
uma rea que busca extrair valor agregado (significado) a
partir de dados e apresent-los de maneira clara e simples
para tomada de decises;

Cincia de dados Estatstica ???

Envolve outras reas de conhecimento

Cludio Lcio

30

Pg.: 118

Cincia de dados

Fonte: http://en.wikipedia.org/wiki/Data_science
Acesso em: 27/02/2013

Cludio Lcio

31

Cincia de dados

Cludio Lcio

32

Pg.: 119

Cincia de dados

Definio

muito difcil encontrar uma pessoa com todas as habilidade


necessrias;
A cincia de dados deve ento ser praticada como um time
multidisciplinar;
Alguns acreditam que o cientista de dados uma evoluo
para os analistas de informao;

Cludio Lcio

33

Cincia de dados

Fonte: http://emcbigdataschool.nce.ufrj.br/index.php/speakers-and-schedule/slides.html
Acesso em: 27/02/2013

Cludio Lcio

34

Pg.: 120

Cincia de dados
A certificao da EMC2

E20-007 Data Science and Big Data Analytics

Tpicos:

Cludio Lcio

35

Cincia de dados
A certificao da EMC2

Tpicos

Cludio Lcio

36

Pg.: 121

Cincia de dados
Resumo:

uma evoluo do analista de informaes:


rumo a uma cultura de tomada de deciso
baseada em fatos e dados;

Deve ser feita por um time;

O termo ainda esta se materializando....

Cludio Lcio

37

Novas Tendncias
BIRT (Barbieri)
Cludio Lcio

38

Pg.: 122

BIRT (Barbieri)

BIRT
Nova tendncia de anlise de streams de
dados
Produo de big data e necessidade de anlise
em tempo real
Pedgios, Controle de trnsito, controles de
movimentao de mercadorias por RFID
Aplicado tambm na indstria de telecom,
mercado financeiro(bolsas), Sade,etc
Cludio Lcio

39

Pg.: 123

Novas Tendncias
MDM (Barbieri)
Cludio Lcio

42

Pg.: 124

MDM (Barbieri)

MDM

Planeja
r

Agir
correti
vament
e

GD

Execut
ar

Verific
ar

Conceito relacionado aos Dados Mestres,


encontrados em todas as empresas
Clientes , Produtos, Locais, Contas,etc
Viso de AD sobre esses dados(rebate dos anos
80)
Viso de ABD sobre os dados(rebate dos anos 70)
Integrao e Qualidade dos dados fundamentais da
empresa
Parte da GD
Cludio Lcio

43

MDM (Barbieri)

MDM-Conceito
Aplicativo 1

Aplicativo 2

D1

D1

Cenrio 1: Redundncia:
a)Vrios aplicativos lem e atualizam o Dado
Mestre 1 redundado nos seus domnios
b)Ambiente sem controle e gerncia de DM e sem
poltica de GD
c)Sabor de redundncia de antigamente
Cludio Lcio

44

Pg.: 125

MDM (Barbieri)

Planeja
r

MDM-Arquiteturas
Consolidao

Da do n o m estre

Aplicativo 1

Aplicativo 2

Aplicativo 3

DM1

DM1

DM1

Agir
correti
vament
e

GD

Execut
ar

Verific
ar

Consolidao

Arquitetura:
a)Faz importao batch para um ambiente integrador
b)Realiza a consolid ao e integrao
c)Exporta batch para ambientes d esejados(targets)
d)No envolve replicao(subscrio)
e)Normalmente usado para BI(sabor ETC,ETL)
Importao

Ambiente Integrador

Consolid ao e
Integrao

DM1

Exporta para sistemas targets

Viso consolidad a

Cludio Lcio

45

MDM (Barbieri)

MDM-Arquiteturas
Diretrio/Registry

Viso virtual montada dinamicamente(RO)

Aplicativo 1

Aplicativo
Mantenedor do
diretrio

Aplicativo 2

Diretrio

Arquitetura: Diretrio/Registry:
a)Um diretrio contm informaes das Entidades e atributos do
DM nas diversas fontes
b)No diretrio existem apontadores globais para cada DM, com servios de
pesquisa e busca
c)Permite a criao de uma viso virtual dinamicamente montada e normalmente
read-only, realizada via consulta federada(sabor EII-Enterprise Information
Integration)

Cludio Lcio

46

Pg.: 126

MDM (Barbieri)
MDM-Arquiteturas
Coexistncia
Aplicativo 1

DM1

Aplicativo 2

Aplicativo 3

DM2

DM3
Arquitetura :Coexistncia
a) Cada Sistema mantm os seus dados
b) Permite referncia cruzadas entre eles e possibilita
a pesquisa e busca de outros dados mestres em outras fontes,
atravs de SOA-servios
c)No caso o aplicativo 1, l e atualiza os seus DM e pode
buscar outro DM em outro aplicativo(x)
d)Vulnervel se houver redundncia no controlada entre os DM
e)Funciona se tiver sabor de BD particionados

Aplicativo x

DMx
Cludio Lcio

47

MDM (Barbieri)
MDM-Arquiteturas
Centralizao/Transao

Aplicativo 1

Aplicativo 2

Aplicativo 3

Arquitetura:
Aplicativo x
mantened or

Centralizao/Transao:
DM1

Cludio Lcio

a)Vrios aplicativos lem o Dado Mestre 1


via servios
b)Um aplicativo Mantenedor l e atualiza
c)Garante uma poltica centralizada d e MD,
com autorizao concedid a via GD
d )Permite o conceito d e transao, com
integrid ad e transacional entre diversos
processos
e)Sabor: BD centralizado
OBS: Impacto na alterao de tod as as
interfaces d os aplicativos, para lerem
o DM ao invs de lerem seus arquivos

48

Pg.: 127

MDM (Barbieri)

MDM

Termos,classificao de domnio,
relacionamentos entre
Termos,owners-gestores de info(DG),
Busca de metadados por palavras,pedaos,etc
Rastreabilidade(Data Lineage)

FONTES-MDM-DADOS OPERACIONAIS

ERP

Servidor MDM

EXTRAO
Transformao:
Profiling: Limpeza, Combinao, Classificao, Acerto
Banco de Regras, Padronizao, Regras probabilsticas,
analisadores fonticos

Clericals,Zona cinzenta

Catlogo

Governana

Metadados
Glossrio

CARGA

Distribuio
Relatrios
ETL d o BI(Dim)

MDM

DATA
Golden Records
MART
Cludio Lcio

49

MDM (Barbieri)
DADOS OPERACIONAIS

EXTRAO

REA DE STAGING

MDM

ODS
Modelo relacional

Transformao:
Limpeza
Combinao
Classificao
Acerto

CARGA

Mining

DW-Corporativo
Assunto1

Assunto3

Assunto2

Modelo relacional-granular, R3N

ESTOQUE

FINANCEIRO

DATA
Data
Mart
MART

DATA
Data
Mart
MART

VENDAS

Data Mart
Modelo dim ensiona l

Modelo dimensiona l

Modelo dimensiona l

QUERY/REPORT
OLAP;
MINING

FERRAMENTAS
TRABALHAM NOS
DMARTS

DataWarehouse Corporativo

R3N=relacional na 3 forma normal


Cludio Lcio

50

Pg.: 128