Você está na página 1de 30

FACULDADE DE TECNOLOGIA DE SOROCABA

JOS CRESPO GONZALES




CURSO SUPERIOR DE TECNOLOLIA EM
ANLISE E DESENVOLVIMENTO DE SISTEMAS






Business Inteligence








25 de Novembro de 2013








Disciplina: Tpicos Especiais em Informtica
Professor: Jos Roberto Bordieri










Claudio Carvalho Mariano AN082328
Diego Armando Marcelino AN102326
Fbio Henrique Rodrigues Godinho AN101332
Jefferson S. Dos Santos AN101341
Larcio Claro Jnior AN102338
Marcos Tadeu Carmona AN101347

ndice

1. Introduo .................................................................................................... 4
2. Origens e Conceitos .................................................................................... 1
3. Data Warehouse .......................................................................................... 3
3.1. Extraindo informaes do Data Warehouse .......................................... 5
3.2. Big Data ................................................................................................ 5
3.3. Importncia do Big Data ........................................................................ 6
3.4. 'Vs' do Big Data: volume, velocidade, variedade, veracidade e valor.... 8
3.5. Solues de Big Data ............................................................................ 9
4. Data Mining ................................................................................................ 11
4.1. Ferramentas Data Mining .................................................................... 14
5. Sistemas OLAP X OLTP ............................................................................ 14
5.4. MOLAP ............................................................................................ 18
5.5. ROLAP ............................................................................................. 20
5.6. HOLAP ............................................................................................. 21
5.7. DOLAP ............................................................................................. 22
5.8. Formas (esquemas) de armazenamento ROLAP ............................ 23
5.9. Viso geral das aplicaes OLAP x OLTP ....................................... 24
6. Concluso .................................................................................................. 25
Referncias Bibliogrficas ................................................................................ 26











1. Introduo


O presente trabalho tem como objetivo apresentar de forma introdutria,
os conceitos e as principais ferramentas de BI (Business Inteligence).
O conceito de Inteligncia Empresarial, ou Business Intelligence, surgiu
na dcada de 80 e descreve as habilidades das corporaes/empresas em
explorar as informaes contidas em suas bases de dados, analisando-as e
desenvolvendo percepes e entendimentos de forma a oferecer suporte
gesto de negcios e tomada de deciso.


1

2. Origens e Conceitos
A necessidade de cruzar e analisar informaes para realizar uma
gesto empresarial eficiente e o aumento na capacidade de armazenamento de
dados propiciou o surgimento de uma nova rea denominada Business
Intelligence (BI).
O interesse por BI vem crescendo na medida em que seu emprego
possibilita s corporaes realizar uma srie de anlises e projees, de forma
a agilizar os processos relacionados s tomadas de deciso.
Do ponto de vista tecnolgico, a era pr-BI situa-se em um passado
no muito distante, algo entre trinta e quarenta anos atrs, anos 60 e 70 do
sculo XX. Nessa poca, os computadores, reduzidos, deixaram de ocupar
salas gigantescas enquanto as empresas passavam a perceber os dados como
uma possvel e importante fonte para informaes decisrias.
Ainda no existiam, porm, recursos eficientes para a anlise
consistente desses dados. Era possvel reunir informaes de maneira
integrada com sistemas transacionais estabelecidos com predominncia em
dados hierrquicos. Reunidas em blocos fechados de informao, permitiam
uma viso da empresa, mas no ofereciam ganhos decisrios ou negociais.
O panorama comeou a mudar na dcada de 70, com o surgimento das
tecnologias de armazenamento e acesso a dados DASD (Direct Access
Storage Device dispositivo de armazenamento de acesso direto), e SGBD
(Sistema Gerenciador de Banco de Dados), duas siglas cujo principal
significado era o de estabelecer uma nica fonte de dados para todo o
processamento. A partir da, o computador passou a ser visto como um
coordenador central para atividades corporativas e o banco de dados foi
considerado um recurso bsico para a vantagem competitiva.
A criao do termo BI(Business Intelligence) deve-se a Howard Dresner,
em 1989, quando era analista do Instituto Gartner.
No incio dos anos 90, a maioria das grandes empresas contava
somente com Centros de Informao (CI), que embora mantivessem estoque
2

de dados, propiciavam pequena disponibilidade de informao. Mesmo assim,
os CIs supriam de certa forma, as necessidades dos tomadores deciso, ao
fornecer relatrios e informaes gerenciais. O mercado se tornava mais
complexo e a Tecnologia da Informao aprimorava os softwares, que geravam
informaes no apenas mais precisas e como no momento adequado para
definir aes que melhorassem o desempenho das empresas.
Entre 1992 e 1993 surgiu o Data Warehouse, uma grande base de
dados informativos, ou seja, um repositrio nico de dados consolidados,
limpos e uniformizados.
Com o passar dos anos, o termo BI ganhou abrangncia e envolveu
diversas ferramentas como, por exemplo, Planilhas Eletrnicas, Geradores de
Consultas e de Relatrios, Data Marts, Data Mining, Ferramentas OLAP
(Online Analytical Process), entre outras. Todas buscando promover agilidade
comercial, dinamizar a tomada de decises e refinar estratgias de
relacionamento com clientes.
A rea de BI est profundamente atrelada ao termo ERP (Enterprise
Resource Planning), ou seja, sistemas integrados de gesto empresarial cuja
funo facilitar a operao das empresas. Esses sistemas processam,
registram e documentam cada fato que ocorre diariamente nas empresas e as
informaes so distribuda de forma clara e segura, em tempo real.
O termo BI, inicialmente pertencia apenas ao domnio do pessoal de TI
os quais eram responsveis pela extrao de dados, implementao de
processos e divulgao dos resultados aos altos executivos. Porm, com o
crescimento da utilizao da Internet esse panorama foi ampliado. O novo
consumidor, ou seja, o consumidor virtual fez com que as empresas
precisassem cada vez mais de agilidade comercial, capacidade de tomar
decises e refinar suas estratgias para esses novos clientes.
Atualmente qualquer empresa seja ele a de pequeno, mdio ou grande
porte pode necessitar de um projeto de BI para diversas situaes como, por
exemplo: tomada de deciso; otimizao do trabalho; reduo de custos;
previso de crescimento; elaborao de estratgias. Porm, a empresa deve
3

levar em conta a questo de custo/benefcio alm de, analisar o tempo de
resposta para se obter o resultado desejado.
No Brasil, diversos setores como, por exemplo, bancos de varejo,
empresas de telecomunicaes, seguradores, etc, tiram proveito das
ferramentas de BI. O retorno de um sistema de BI depende das prioridades de
cada empresa, porm as empresas que possuem este tipo de sistemas tornam-
se diferenciadas uma vez que, nos dias atuais, a sobrevivncia no mercado
medida pela capacidade de gerar conhecimento e, apenas uma boa gesto
baseada em uma estratgia eficaz ser capaz de prover essa sobrevivncia.




3. Data Warehouse
Segundo W.H.Inmon, considerado um pioneiro no tema, um data
warehouse uma coleo de dados orientada por assuntos, integrada, variante
no tempo, que tem por objetivo dar suporte aos processos de tomada de
deciso.
O data warehouse um banco de dados contendo dados extrados do
ambiente de produo da empresa, que foram selecionados e depurados,
tendo sido otimizados para processamento de consulta e no para
processamento de transaes. Em geral, um data warehouse requer a
consolidao de outros recursos de dados alm dos armazenados em base de
dados relacionais, incluindo informaes provenientes de planilhas eletrnicas,
documentos textuais, etc. O processo de armazenamento em um
datawarehouse conhecido como ETL (Extraction, Transformation and Load),
e ser melhor abordado a seguir.

4



De acordo com Richard Hackathorn (outro pioneiro no tema), o objetivo
de um data warehouse fornecer uma "imagem nica da realidade do
negcio". De uma forma geral, sistemas de data warehouse compreendem um
conjunto de programas que extraem dados do ambiente de dados operacionais
da empresa, um banco de dados que os mantm, e sistemas que fornecem
estes dados aos seus usurios.
Sistemas de Data Warehouse revitalizam os sistemas da empresa, pois:
Permitem que sistemas mais antigos continuem em operao;
Consolidam dados inconsistentes dos sistemas mais antigos em
conjuntos coerentes;
Extraem benefcios de novas informaes oriundas das operaes
correntes;
Provm ambiente para o planejamento e arquitetura de novos
sistemas de cunho operacional.
Como se v, existem diferentes vises do que seria um data warehouse:
uma arquitetura, um conjunto de dados semanticamente consistente com o
objetivo de atender diferentes necessidades de acesso a dados e extrao de
relatrios, ou ainda, um processo em constante evoluo, que utiliza dados de
diversas fontes heterogneas para dar suporte a consultas ad-hoc, relatrios
analticos e tomada de deciso.

5

3.1. Extraindo informaes do Data Warehouse

Existem vrias maneiras de recuperar informaes de um data
warehouse, as formas de extrao mais comuns no mercado hoje so:
Ferramentas de consulta e emisso de relatrios;
EIS (Executive Information Systems);
Ferramentas OLAP;
Ferramentas Data mining.
A nova tendncia dessas solues a integrao com o ambiente Web,
permitindo maior agilidade em consultas estticas e dinmicas.
Nesta pesquisa veremos de forma bsica e separadamente os conceitos
das tecnologias OLAP e Data mining. A diferena bsica entre ferramentas
OLAP e data mining est na maneira como a explorao dos dados
abordada. Com ferramentas OLAP a explorao feita na base da verificao,
isto , o analista conhece a questo, elabora uma hiptese e utiliza a
ferramenta para confirm-la.
Com data mining, a questo total ou parcialmente desconhecida e a
ferramenta utilizada para a busca de conhecimento.

3.2. Big Data
A princpio, pode-se definir o conceito de Big Data como sendo
conjuntos de dados extremamente grandes e que, por este motivo, necessitam
de ferramentas especialmente preparadas para lidar com grandes volumes, de
forma que toda e qualquer informao nestes meios possa ser encontrada,
analisada e aproveitada em tempo hbil.
No difcil entender este cenrio: troca-se milhes de e-mails por dia;
milhares de transaes bancrias acontecem no mundo a cada segundo;
solues sofisticadas gerenciam a cadeia de suprimentos de vrias fbricas
6

neste exato momento; operadoras registram a todo instante chamadas e
trfego de dados do crescente nmero de linhas celulares no mundo todo;
sistemas de ERP coordenam os setores de inmeras companhias; enfim,
exemplos no faltam - se te perguntarem, voc certamente ser capaz de
apontar outros sem fazer esforo.
Informao poder, logo, se uma empresa souber como utilizar os
dados que tem em mos, poder saber como melhorar um produto, como criar
uma estratgia de marketing mais eficiente, como cortar gastos, como produzir
mais, como evitar o desperdcio de recursos, como superar um concorrente,
como disponibilizar um servio a um cliente de maneira satisfatria e assim por
diante.
Pode-se perceber que se trata de fatores que podem inclusive ser
decisivos para o futuro de uma companhia. Mas, Big Data um nome
relativamente recente (ou, ao menos, comeou a aparecer na mdia
recentemente)
H tempos que os departamentos de TI contemplam aplicaes de Data
Mining, Business Intelligence e CRM (Customer Relationship Management),
por exemplo, para tratar justamente de anlise de dados, tomadas de decises
e outros aspectos relacionados ao negcio.
A proposta de uma soluo de Big Data a de oferecer uma abordagem
ampla no tratamento do aspecto cada vez mais "catico" dos dados para tornar
as referidas aplicaes e todas as outras mais eficientes e precisas. Para tanto,
o conceito considera no somente grandes quantidades de dados, a velocidade
de anlise e a disponibilizao destes, como tambm a relao com e entre os
volumes.

3.3. Importncia do Big Data
Lidamos com dados desde os primrdios da humanidade. Acontece que,
nos tempos atuais, os avanos computacionais nos permitem guardar,
7

organizar e analisar dados muito mais facilmente e com frequncia muito
maior.
Este cenrio est longe de deixar de ser crescente. Basta imaginar, por
exemplo, que vrios dispositivos em nossas casas - geladeiras, TVs, lavadoras
de roupa, cafeteiras, entre outros - devero estar conectados internet em um
futuro no muito distante. Esta previso est dentro do que se conhece como
Internet das Coisas.
Se olharmos para o que temos agora, j veremos uma grande mudana
em relao s dcadas anteriores: tomando como base apenas a internet,
pense na quantidade de dados que so gerados diariamente somente nas
redes sociais; repare na imensa quantidade de sites na Web; perceba que voc
capaz de fazer compras on-line por meio at do seu celular, quando o
mximo de informatizao que as lojas tinham em um passado no muito
distante eram sistemas isolados para gerenciar os seus estabelecimentos
fsicos.
As tecnologias atuais nos permitiram - e permitem - aumentar
exponencialmente a quantidade de informaes no mundo e, agora, empresas,
governos e outras instituies precisam saber lidar com esta "exploso" de
dados. O Big Data se prope a ajudar nesta tarefa, uma vez que as
ferramentas computacionais usadas at ento para gesto de dados, por si s,
j no podem faz-lo satisfatoriamente.
A quantidade de dados gerada e armazenada diariamente chegou a tal
ponto que, hoje, uma estrutura centralizada de processamento de dados j no
faz mais sentido para a maioria absoluta das grandes entidades. O Google, por
exemplo, possui vrios data centers para dar conta de suas operaes, mas
trata todos de maneira integrada. Este "particionamento estrutural", bom
destacar, no uma barreira para o Big Data - em tempos de computao nas
nuvens, nada mas trivial.


8

3.4. 'Vs' do Big Data: volume, velocidade, variedade, veracidade e
valor
No intuito de deixar a ideia de Big Data mais clara, alguns especialistas
passaram a resumir o assunto em aspectos que conseguem descrever
satisfatoriamente a base do conceito: os cincos 'Vs' - volume, velocidade e
variedade, com os fatores veracidade e valor aparecendo posteriormente.
O aspecto do volume (volume) voc j conhece. Estamos falando de
quantidades de dados realmente grandes, que crescem exponencialmente e
que, no raramente, so subutilizados justamente por estarem nestas
condies.
Velocidade (velocity) outro ponto que voc j assimilou. Para dar conta
de determinados problemas, o tratamento dos dados (obteno, gravao,
atualizao, enfim) deve ser feito em tempo hbil - muitas vezes em tempo
real. Se o tamanho do banco de dados for um fator limitante, o negcio pode
ser prejudicado: imagine, por exemplo, o transtorno que uma operadora de
carto de crdito teria - e causaria - se demorasse horas para aprovar um
transao de um cliente pelo fato de o seu sistema de segurana no
conseguir analisar rapidamente todos os dados que podem indicar uma fraude.
Variedade (variety) outro aspecto importante. Os volume de dados que
temos hoje so consequncia tambm da diversidade de informaes. Temos
dados em formato estruturados, isto , armazenados em bancos como
PostgreSQL e Oracle, e dados no estruturados oriundos de inmeras fontes,
como documentos, imagens, udios, vdeos e assim por diante. necessrio
saber tratar a variedade como parte de um todo - um tipo de dado pode ser
intil se no for associado a outros.
O ponto de vista da veracidade (veracity) tambm pode ser considerado,
pois no adianta muita coisa lidar com a combinao "volume + velocidade +
variedade" se houver dados no confiveis. necessrio que haja processos
que garantam o mximo possvel a consistncia dos dados. Voltando ao
exemplo da operadora de carto de crdito, imagine o problema que a empresa
9

teria se o seu sistema bloqueasse uma transao genuna por analisar dados
no condizentes com a realidade.
Informao poder, informao patrimnio. A combinao "volume +
velocidade + variedade + veracidade", alm de todo e qualquer outro aspecto
que caracteriza uma soluo de Big Data, se mostrar invivel se o resultado
no trouxer benefcios significativos e que compensem o investimento. Este o
aspecto do valor (value).
claro que estes cinco aspectos no precisam ser tomados como a
definio perfeita. H quem acredite, por exemplo, que a combinao "volume
+ velocidade + variedade" seja suficiente para transmitir uma noo aceitvel
do Big Data. Sob esta ptica, os aspectos da veracidade e do valor seriam
desnecessrios, porque j esto implcitos no negcio - qualquer entidade sria
sabe que precisa de dados consistentes; nenhuma entidade toma decises e
investe se no houver expectativa de retorno.
O destaque para estes dois pontos talvez seja mesmo desnecessrio
por fazer referncia ao que parece bvio. Por outro lado, a sua considerao
pode ser relevante porque refora os cuidados necessrios a estes aspectos:
uma empresa pode estar analisando redes sociais para obter uma avaliao da
imagem que os clientes tm de seus produtos, mas ser que estas informaes
so confiveis ao ponto de no ser necessrio a adoo de procedimentos
mais criteriosos? Ser que no se faz necessrio um estudo mais profundo
para diminuir os riscos de um investimento antes de efetu-lo?
De qualquer forma, os trs primeiros 'Vs' - volume, velocidade e
variedade - podem at no oferecer a melhor definio do conceito, mas no
esto longe de faz-lo. Entende-se que Big Data trata apenas de enormes
quantidades de dados, todavia, voc pode ter um volume no muito grande,
mas que ainda se encaixa no contexto por causa dos fatores velocidade e
variedade.

3.5. Solues de Big Data
10

Alm de lidar com volumes extremamente grandes de dados dos mais
variados tipos, solues de Big Data tambm precisam trabalhar com
distribuio de processamento e elasticidade, isto , suportar aplicaes com
volumes de dados que crescem substancialmente em pouco tempo.
O problema que os bancos de dados "tradicionais", especialmente
aqueles que exploram o modelo relacional, como o MySQL, o PostgreSQL e o
Oracle, no se mostram adequados a estes requisitos, j que so menos
flexveis.
Isso acontece porque bancos de dados relacionais normalmente se
baseiam em quatro propriedades que tornam a sua adoo segura e eficiente,
razo pela qual solues do tipo so to populares: Atomicidade, Consistncia,
Isolamento e Durabilidade. Esta combinao conhecida como ACID, sigla
para o uso destes termos em ingls: Atomicity,Consistency, Isolation e
Durability. Vejamos uma breve descrio de cada uma:
Atomicidade: toda transao deve ser atmica, isto , s pode ser
considerada efetivada se executada completamente;
Consistncia: todas as regras aplicadas ao banco de dados devem ser
seguidas;
Isolamento: nenhuma transao pode interferir em outra que esteja em
andamento ao mesmo tempo;
Durabilidade: uma vez que a transao esteja concluda, os dados
consequentes no podem ser perdidos.
O problema que este conjunto de propriedades por demais
restritivo para uma soluo de Big Data. A elasticidade, por exemplo, pode ser
inviabilizada pela atomicidade e pela consistncia. neste ponto que entra em
cena o conceito deNoSQL, denominao que muitos atribuem expresso em
ingls "Not only SQL", que em traduo livre significa "No apenas SQL" (SQL
- Structured Query Language - , em poucas palavras, uma linguagem prpria
para se trabalhar com bancos de dados relacionais).
11

O NoSQL faz referncia s solues de bancos de dados que
possibilitam armazenamento de diversas formas, no se limitando ao modelo
relacional tradicional. Bancos do tipo so mais flexveis, sendo inclusive
compatveis com um grupo de premissas que "compete" com as propriedades
ACID: a BASE (Basically Available, Soft state, Eventually consistency-
Basicamente disponvel, Estado Leve, Eventualmente consistente).
No que bancos de dados relacionais tenham ficado ultrapassados -
eles so e continuaro por muito tempo sendo teis a uma srie de aplicaes.
O que acontece que, geralmente, quanto maior um banco de dados se torna,
mais custoso e trabalhoso ele fica: preciso otimizar, acrescentar novos
servidores, empregar mais especialistas em sua manuteno, enfim.
Via de regra, escalar (torn-lo maior) um bancos de dados NoSQL
mais fcil e menos custoso. Isso possvel porque, alm de contar com
propriedades mais flexveis, bancos do tipo j so otimizados para trabalhar
com processamento paralelo, distribuio global (vrios data centers), aumento
imediato de sua capacidade e outros.
Alm disso, h mais de uma categoria de banco de dados NoSQL,
fazendo com que solues do tipo possam atender grande variedade de
dados que existe, tanto estrurados, quanto no estruturados: bancos de dados
orientados a documentos, bancos de dados chave/valor, bancos de dados de
grafos, enfim.
Exemplos de bancos de dado NoSQL so o Cassandra, o MongoDB, o
HBase, o CouchDB e o Redis. Mas, quando o assunto Big Data, apenas um
banco de dados do tipo no basta. necessrio tambm contar com
ferramentas que permitam o tratamento dos volumes. Neste ponto, o Hadoop
, de longe, a principal referncia.

4. Data Mining
Data mining ou minerao de dados o processo de explorar grandes
quantidades de dados procura de padres consistentes, como regras de
12

associao ou sequncias temporais, para detectar relacionamentos
sistemticos entre variveis, detectando assim novos subconjuntos de dados.
Esse um tpico recente em cincia da computao, mas utiliza vrias
tcnicas da estatstica, recuperao de informao, inteligncia artificial e
reconhecimento de padres.
A minerao de dados formada por um conjunto de ferramentas e
tcnicas que atravs do uso de algoritmos de aprendizagem ou classificao
baseados em redes neurais e estatstica, so capazes de explorar um conjunto
de dados, extraindo ou ajudando a evidenciar padres nestes dados e
auxiliando na descoberta de conhecimento. Esse conhecimento pode ser
apresentado por essas ferramentas de diversas formas: agrupamentos,
hipteses, regras, rvores de deciso, grafos, ou dendrogramas.
O ser humano sempre aprendeu observando padres, formulando
hipteses e testando-as para descobrir regras. A novidade da era do
computador o volume enorme de dados que no pode mais ser examinado
procura de padres em um prazo razovel. A soluo instrumentalizar o
prprio computador para detectar relaes que sejam novas e teis. A
minerao de dados (MD) surge para essa finalidade e pode ser aplicada tanto
para a pesquisa cientifica como para impulsionar a lucratividade da empresa
madura, inovadora e competitiva.
Diariamente as empresas acumulam grande volume de dados em seus
aplicativos operacionais. So dados brutos que dizem quem comprou o qu,
onde, quando e em que quantidade. a informao vital para o dia-a-dia da
empresa. Se fizermos estatstica ao final do dia para repor estoques e detectar
tendncias de compra, estaremos praticando business intelligence (BI). Se
analisarmos os dados com estatstica de modo mais refinado, procura de
padres de vinculaes entre as variveis registradas, ento estaremos
fazendo minerao de dados. Buscamos com a MD conhecer melhor os
clientes, seus padres de consumo e motivaes. A MD resgata em
organizaes grandes o papel do dono atendendo no balco e conhecendo sua
clientela. Atravs da MD, esses dados agora podem agregar valor s decises
13

da empresa, sugerir tendncias, desvendar particularidades dela e de seu meio
ambiente e permitir aes melhor informadas aos seus gestores.
Pode-se ento diferenciar o business inteligence (BI) da minerao de
dados (MD) como dois patamares distintos de atuao. O primeiro busca
subsidiar a empresa com conhecimento novo e til acerca do seu meio
ambiente e funciona no plano estratgico. O Segundo visa obter a partir dos
dados operativos brutos, informao til para subsidiar a tomada de deciso
nos escales mdios e altos da empresa e funciona no plano tctico.
Os passos fundamentais de uma minerao bem sucedida a partir de
fontes de dados (bancos de dados, relatrios, logs de acesso, transaes, etc.)
consistem de uma limpeza (consistncia, preenchimento de informaes,
remoo de rudo e redundncias, etc.). Disto nascem os repositrios
organizados (Data Marts e Data Warehouses).
a partir deles que se pode selecionar algumas colunas para
atravessarem o processo de minerao. Tipicamente, este processo no o
final da histria: de forma interativa e frequentemente usando visualizao
grfica, um analista refina e conduz o processo at que os padres apaream.
Observe que todo esse processo parece indicar uma hierarquia, algo que
comea em instncias elementares (embora volumosas) e terminam em um
ponto relativamente concentrado.
Encontrar padres requer que os dados brutos sejam sistematicamente
"simplificados" de forma a desconsiderar aquilo que especfico e privilegiar
aquilo que genrico. Faz-se isso porque no parece haver muito
conhecimento a extrair de eventos isolados. Uma loja de sua rede que tenha
vendido a um cliente uma quantidade impressionante de um determinado
produto em uma nica data pode apenas significar que esse cliente em
particular procurava grande quantidade desse produto naquele exato momento.
Mas isso provavelmente no indica nenhuma tendncia de mercado.


14

4.1 Ferramentas Data Mining
Nos primrdios do data warehouse, data mining era visto como um
subconjunto das atividades associadas com o warehouse. Mas atualmente os
caminhos do warehouse e do mining esto divergindo. Enquanto o warehouse
pode ser uma boa fonte de dados para minerar, o data mining foi reconhecido
como uma tarefa genuna, e no mais como uma colnia do warehouse.
Apesar de o termo data mining ter se tornado bastante popular nos
ltimos anos, existe ainda certa confuso quanto sua definio. Data mining
(ou minerao de dados) o processo de extrair informao vlida,
previamente desconhecida e de mxima abrangncia a partir de grandes bases
de dados, usando-as para efetuar decises cruciais.
Data mining vai muito alm da simples consulta a um banco de dados,
no sentido de que permite aos usurios explorar e inferir informao til a partir
dos dados, descobrindo relacionamentos escondidos no banco de dados. Pode
ser considerada uma forma de descobrimento de conhecimento em bancos de
dados (KDD - Knowledge Discovery in Databases), rea de pesquisa de
bastante evidncia no momento, envolvendo Inteligncia Artificial e Banco de
Dados.
Um ambiente de apoio tomada de decises, integrando tcnicas de
data mining sobre um ambiente de data warehousing, possibilita um grande
nmero de aplicaes, que j vm sendo implementadas em diversos
segmentos de negcios, como manufatura, automao de pedido de remessas,
varejo, gerenciamento de inventrios, financeiro, anlise de risco, transporte,
gerenciamento de frotas, telecomunicao, anlise de chamadas, sade,
analise de resultados, markenting, estabelecimento do perfil dos consumidores,
seguros, deteco de fraude, dentre outros.

5. Sistemas OLAP X OLTP
Os recursos OLAP (On-Line Analytic Processing) e OLTP (On-Line
Transaction Processing) constituem-se em uma recente abordagem do que se
15

pode fazer com relao aos SI como suporte a tomada de deciso. O recurso
OLTP suporta as operaes cotidianas dos negcios empresariais atravs de
processamento operacional e o OLAP suporta a anlise da tendncia, cenrios
e projees de negcios, como instrumento de suporte as decises gerenciais
e estratgicas. Enquanto que o OLTP trabalha com dados que movimentam o
negcio em tempo real, o OLAP trabalha com dados histricos no sentido de
gerar informaes e conhecimentos para analisar o negcio. O OLTP tem a
funo de alimentar a base de dados que o OLAP utilizar para a
transformao do contedo em informaes e conhecimentos capazes de
agregar valor para toda a empresa. O OLAP normalmente executa cinco
funes bsicas: interface, consulta, processo, formato e exibio

5.1. OLTP (On-Line Transactional Processing)
OLTP (On- line Transactional Processing) um sistema utilizado como
base de SGBD (Sistema Gerenciador de Banco de Dados) transacionais ele
permite que a realizao de comandos bsicos como insert, update e delete.
utilizado pela maior parte das empresas em pequenas transaes em tempo
real e de forma rpida, como no salvam histrico de dados no so ideais
para utilizao em suporte a tomada de deciso.
O ambiente OLTP operacional, para leitura e gravao de dados. O
acesso aos dados atmico, ou seja, no possvel maior detalhamento de
dados do que ele j apresenta e estes so normalizados.
Seus principais pontos fortes so:
Eficincia: A possibilidade da reduo de documentos e maior
velocidade na resposta dos clculos de despesas ou retornos so
exemplos de como esse sistema pode beneficiar a empresa que o tem
como base de seu SGBD.
Simplicidade: Ele permite que o acesso aos dados seja mais fcil, rpido
e organizado, fazendo com que sua utilizao aperfeioe processos.

16

5.2. OLAP (On-Line Analytic Processing)
A aplicao OLAP soluciona o problema de sntese, anlise e consolidao
de dados, pois o processamento analtico online dos dados. Tem capacidade
de visualizaes das informaes a partir de muitas perspectivas diferentes,
enquanto mantm uma estrutura de dados adequada e eficiente. A visualizao
realizada em dados agregados, e no em dados operacionais porque a
aplicao OLAP tem por finalidade apoiar os usurios finais a tomar decises
estratgicas. Os dados so apresentados em termos de medidas e dimenso,
a maior parte das dimenses hierrquica. Considerando as aplicaes
bancrias utilizadas diariamente no controle de contas correntes, na qual so
efetuados saques ou depsitos pelos correntistas, se tem o exemplo tpico de
sistema de OLTP. O interesse destes usurios criar, atualizar e recuperar
informaes sobre registros individuais. J para o Gerente de Conta Corrente
os requisitos de uso de informaes dos dados das contas tem por finalidade a
anlise global de contas correntes com diversas vises. Por exemplo, o
Gerente de Contas pode requer uma anlise sobre o desempenho de contas
correntes que tenham cheque especial e tenham utilizado o valor mximo dos
mesmos em um determinado perodo de tempo em algumas regies. Obter a
resposta a esta consulta mais complexa fazendo uso de ferramentas
relacionais padro, no fornece soluo requerida. Para resolver este gap so
utilizadas as aplicaes OLAP.
A principal caracterstica de uma aplicao OLAP a viso
multidimensional, que so as consultas que fornecem informaes sobre os
dados presentes em uma ou mais dimenses, mas para entender esse
conceito vamos falar sobre outras caractersticas:
Cubo: uma estrutura que armazena os dados de negcio em
formato multidimensional, tornando-os mais fcil de analisar.
Dimenso: uma unidade de anlise que agrupa dados de
negcio relacionados. As dimenses se tornam cabealho de
colunas e linhas, como exemplo linhas de produto, regies de
venda ou perodos de tempo.
17

Hierarquia: composta por todos os nveis de uma dimenso,
podendo ser balanceada ou no. Na hierarquia balanceada os
nveis mais baixo so equivalentes, porm, isto no ocorre nas
hierarquias no balanceadas onde a equivalncia hierrquica no
existe. Por exemplo, em uma dimenso geogrfica o nvel pas
no possui o subnvel Estado para um determinado membro e
possui para outro.
Membro: um subconjunto de uma dimenso. Cada nvel
hierrquico tem membros apropriados aquele nvel. Por exemplo,
em uma dimenso geogrfica existe o nvel e seus membros.

Medida: uma dimenso especial utilizada para realizar
comparaes. Ela inclui membros tais como: custos, lucros ou
taxas.
5.3. Arquiteturas OLAP

Conforme o mtodo de armazenamento de dados utilizado para uma
aplicao OLAP, ser elaborada a arquitetura da aplicao. Os mtodos de
armazenamento de dados so MOLAP, ROLAP, DOLAP e HOLAP. Cada um
deles tem uma funo especfica e deve ser utilizada quando melhor atender
s necessidades de anlise pela ferramenta de OLAP.
No MOLAP (Multidimensional On-Line Analytical Processing) os dados
so armazenados de forma multidimensional, sua implementao varia de
acordo com a sua ferramenta de OLAP, mas freqentemente implementado
em um banco de dados relacional, porm no na terceira forma normal. Alm
disto o acesso aos dados ocorre diretamente no banco de dados do servidor
multidimensional. Os gerenciadores de banco de dados tm um limite prtico
quanto ao tamanho fsico de dados que eles podem manipular. As restries de
armazenamento e desempenho limitaro o tamanho do banco de dados, no
18

esquecendo o limite das dimenses que tambm restrigem sua manipulao. A
complexidade que existe no processo de carga de um banco de dados
multidimensional, pode acarretar a demora no processo. O processo de carga
complexo devido a srie de clculos que devem ser realizados para agregar os
dados s dimenses e preencher as estruturas do banco. Depois do processo
concludo, ainda realizado uma srie de mencanismos para melhorar a
capacidade de pesquisa.
J no ROLAP ( Relational On-Line Analytical Processing) os dados so
armazenados no modelo relacional como tambm suas consultas so
processadas pelo gerenciador do banco relacional.
Por outro lado, o DOLAP ( Desktop On-Line Analytical Processing)
uma variao que existe para fornecer portabilidade dos dados. A vantagem
que oferece esta arquitetura a reduo do trfico na rede.
A arquitetura mais recente a HOLAP ( Hybrid On-Line Analytical
Processing), na qual ocorre uma combinao entre ROLAP e MOLAP. A
vantagem que com a mistura de tecnologias pode-se extrair o que h de
melhor de cada uma, a alta performance do MOLAP e a escalabilidade do
ROLAP.
5.4. MOLAP

Caractersticas:

Arquitetura OLAP tradicional;

Os dados so armazenados em cubos dimensionais, em formatos
proprietrios, e no em banco de dados relacionais;

O usurio trabalha, monta e manipula os dados do cubo
diretamente no servidor.



19

Vantagens:

Alto desempenho: os cubos so construdos para uma rpida
recuperao de dados;

Pode executar clculos complexos: todos os clculos so pr-
gerados quando o cubo criado e podem ser facilmente aplicados no
momento da pesquisa de dados.


Desvantagens:

Baixa escalabilidade: sua vantagem de conseguir alto desempenho
com a pr-gerao de todos os clculos no momento da criao dos
cubos, faz com que o MOLAP seja limitado a uma pouca quantidade de
dados. Esta deficincia pode ser contornada pela incluso apenas do
resumo dos clculos quando se construir o cubo;

Investimentos altos: este modelo exige enormes investimentos
adicionais como cubo de tecnologia proprietria.


Termos-chave:

Armazenamento dos dados em cubos dimensionais e em formato
proprietrio;

Alto desempenho;

Execuo de clculos complexos;

Baixa escalabilidade;

20

Investimentos altos.

5.5. ROLAP

Caractersticas:

Os dados so armazenados em banco de dados relacionais;

A manipulao dos dados armazenados no banco de dados
relacional feita para dar a aparncia de operao Slice/Dice
tradicional;


Na essncia, cada ao de Slice/Dice equivalente a adicionar uma
clusula WHERE em uma declarao SQL.

Vantagens:

Alta escalabilidade: usando a arquitetura ROLAP, no h nenhuma
restrio na limitao da quantidade dados a serem analisados,
cabendo essa limitao sendo do prprio banco de dados relacional
utilizado;

Pode alavancar as funcionalidades inerentes do banco de dados
relacional: Muitos bancos de dados relacionais j vm com uma srie
de funcionalidades e a arquitetura ROLAP pode alavancar estas
funcionalidades.


Desvantagens:

Baixo desempenho: cada relatrio ROLAP basicamente uma
consulta SQL (ou vrias consultas SQL) na banco de dados relacional
21

e uma consulta pode ser consumir muito tempo se houver uma grande
quantidade de dados;

Limitado pelas funcionalidades SQL: ROLAP se baseia
principalmente na gerao instrues SQL para consultar a base de
dados relacional, porm essas instrues no suprem todas as
necessidades (por exemplo, difcil de realizar clculos complexos
utilizando SQL). Portanto, usar ROLAP se limitar ao que instrues
SQL podem fazer.

Termos-chave:

Alta escalabilidade;

Pode alavancar as funcionalidades inerentes do banco de dados
relacional;

Baixo desempenho;

Limitado pelas funcionalidades SQL.

5.6. HOLAP

Caractersticas:

HOLAP tenta combinar as vantagens de MOLAP e ROLAP, extraindo
o que h de melhor de cada uma, ou seja, a alta performance do
MOLAP com a melhor escalabilidade do ROLAP;

Para informaes do tipo sntese, HOLAP utiliza cubos dimensionais
para um desempenho mais rpido;


22

Quando for necessrio mais detalhe de uma informao, HOLAP
pode ir alm do cubo multidimensional para o banco de dados
relacional utilizado no armazenamento dos detalhes.

Vantagens:

Alto desempenho: os cubos dimensionais apenas armazenam
sntese das informaes;

Alta escalabilidade: os detalhes das informaes so armazenados
em um banco de dados relacional.

Desvantagens:

Arquitetura de o maior custo: modelo que possui o maior custo de
aquisio.

Termos-chave:

Alto desempenho;

Alta escalabilidade;

Arquitetura de o maior custo.

5.7. DOLAP

Caracterstica:

So as ferramentas que, a partir de um cliente qualquer, emitem uma
consulta para o servidor e recebem o cubo de informaes de volta
para ser analisado na estao cliente.

Vantagens:
23

Pouco trfego que na rede: todo o processamento OLAP acontece na
mquina cliente;

Sem sobrecarregar o servidor de banco de dados: como todo o
processamento acontece na mquina cliente, o servidor fica menos
sobrecarregado.

Desvantagem:

Limitao do cubo de dados: o tamanho do cubo de dados no pode
ser muito grande, caso contrrio, a anlise passa a ser demorada e/ou
a mquina do cliente pode no suportar em funo de sua
configurao.
Termos-chave:

Pouco trfego que na rede;

Sem sobrecarregar o servidor de banco de dados;

Limitao do cubo de dados.

5.8. Formas (esquemas) de armazenamento ROLAP

Quanto ao modelo de armazenamento ROLAP temos as seguintes
formas (esquemas) de armazenamento:

Modelo de dados Star Schema (Estrela):

O modelo de dados Star Schema possui uma tabela Fato contendo
no mnimo uma coluna por medida agregada e uma coluna por chave
de dimenso. Tabelas de dimenso contendo uma coluna para cada
atributo descrevendo a dimenso e geralmente uma coluna por
24

hierarquia. No se preocupe com redundncias, pois haver j que o
modelo no possui normalizao.

Modelo Snow Flake (Floco de Neve)

O modelo Snow Flake parecido como o Star Schema. A diferena
principal est na normalizao das tabelas dimenses. Isso facilita a
evoluo das dimenses e ajuda a desocupar algum espao antes
utilizado pelas prprias, porm como passa a existir a necessidade de
junes para acessar dados normalizados o tempo de resposta acaba
ficando maior e talvez at mesmo pela velocidade e facilidade o
modelo Estrela seja mais popular.

5.9. Viso geral das aplicaes OLAP x OLTP


Comparativo:
OLTP OLAP
Voltado para operaes dia a dia Voltado para performance analtica
Baixa performance em consultas Alta Performance em consultas
Modelagem ramificada Modelagem simplificada (star)
Histrico de operaes inexistente Armazm de dados (Histrico existente)
Voltil No voltil

25

6. Concluso

A extensa quantidade de dados que, cada vez mais, so gerados pelas
empresas torna necessria a utilizao de ferramentas adequadas para sua
extrao, de forma a gerar informaes fundamentais e que ofeream
qualidade para a tomada de deciso.
dentro deste contexto que se tem o BI (Business Intelligence), ou
seja, inteligncia do negcio que, quando implantado com os corretos sistemas
informatizados, so uma mina de ouro para as empresas.
As ferramentas de BI continuam evoluindo e tornando-se um diferencial
paras as empresas que as possuem. Porm, o retorno que se espera de um
sistema de BI depende das prioridades de cada empresa.
Tais sistemas constituem um auxlio inestimvel no processo de tomada de
deciso, pois, tornam as empresas aptas a se anteciparem s mudanas no
mercado, principalmente em relao aos seus competidores, a conhecerem
melhor seus possveis parceiros ou aquisies, a dominarem novas
tecnologias, produtos ou processos que tenham impacto no seu negcio e a
reverem criticamente suas prprias prticas.








26


Referncias Bibliogrficas

BISPO, Carlos Alberto F. & CAZARINI, Edson Walmir. Anlises sofisticadas
com o On-Line Analytical Processing. Developers Magazine, So Paulo, n.32,
p.28-31, abr de 1999.
GONSOWSKI, Dean: Analysing data: Why a bigger is better mentality may be
at odds with intelligent information governance. Disponvel em:
http://www.insidecounsel.com. Acesso em: 31/08/2013.
HILBERT, Martin: Big Data for Development: From Information- to Knowledge
Societies. Disponvel em: http://papers.ssrn.com. Acesso em: 03/09/2013.
KUMAR, Vipin; STEINBACH,Michael; TAN, Pang-Ning. Introduo ao Data
Mining: Minerao de Dados. Cincia Moderna, 2009.
OLIVEIRA, Dr. Jos Palazzo de, Modelos de Estruturao de Aplicaes
Distribudas. UFRGS - Instituto de Informtica, 2004.
PENTLAND, Alex: Reinventing Society in the Wake of Big Data .Disponvel em:
http://www.edge.org/conversation. Acesso em: 03/09/2013.
PRIMARK, Fbio Vincius. Decises com B.I.: Bussiness Intelligence. 1
ed.Ciencia Moderna, 2008.
TURBAN, Efraim ET al. Business Intelligence: Um enfoque gerencial para a
inteligncia do negcio. 1 ed. Bookman, 2009.
VIEIRA, Marcos Rodrigues. et al.: Banco de dados NoSQL: Conceitos,
ferramentas, Linguagens, e Estudo de Casos no Contexto de Big Data.
Disponvel em: http://data.ime.usp.br. Acesso em: 04/09/2013.