Você está na página 1de 14

Data Mining, Data Warehousing e OLAP

Kamila T. Lyra
Karina C. S. Nishimura
Thiago P. Colonhezi
William S. Soares

Curso de Tecnologia em Anlise e Desenvolvimento de Sistemas


Universidade Tecnolgica Federal do Paran

Sumrio
Data Mining, Data Warehousing e OLAP....................................................................................2
Introduo................................................................................................................................2
Data warehousing.....................................................................................................................2
Data mining..............................................................................................................................2
OLAP.......................................................................................................................................2

Data Mining, Data Warehousing e OLAP


Introduo
Hoje em dia uma organizao precisa utilizar toda informao disponvel para criar e
manter vantagem competitiva. Sai na frente a organizao que consegue tomar decises
corretas e rpidas.
A idia de data warehouse integrar os dados internos e externos de uma organizao
em uma estrutura nica permitindo uma melhor utilizao dos dados pelos analistas,
gerentes e executivos. Uma vez obtida a integrao, sistemas como OLAP (On-Line
Analytical Processing) e data mining fornecem mecanismos sofisticados para anlise
dos dados.
Estudar e conhecer a tecnologia de data warehouse pode ajudar os empresrios a
descobrir novas formas de competir em uma economia globalizada, trazendo melhores
produtos ou servios para o mercado, mais rpida do que os concorrentes, sem aumentar
o custo do produto ou do servio.
Nas ltimas dcadas, a tecnologia da informao evoluiu consideravelmente, dos
primeiros computadores centrais at os atuais sistemas distribudos. Essa viso moderna
e descentralizada busca obter vantagens, principalmente em termos de acessibilidade,
disponibilidade e custo.

Data warehousing
OLAP
Com o surgimento de sistemas para gerenciamento de diversas reas do
mercado, surgiu a necessidade de se gerar relatrios com dados sobre o
foco de gesto ou modelo de negocio da empresa. Ento, quando existia a
necessidade de se produzir um relatrio era necessrio a solicitao para o
ncleo de informtica da empresa. Um

"Online analytical processing", ou OLAP fornece para


organizaes um mtodo de acessar, visualizar, e analisar
dados corporativos com alta flexibilidade e performance.

Data mining
Minerao de dados o processo de explorar grandes quantidades de dados procura de
padres consistentes, como regras de associao ou sequncias temporais, para detectar
relacionamentos sistemticos entre variveis, detectando assim novos subconjuntos de
dados utilizando as seguintes etapas bsicas:

1.
2.
3.
4.

Explorao
Construo do modelo
Definio do padro
Validao e verificao

A minerao de dados formada por um conjunto de ferramentas e tcnicas que atravs


do uso de algoritmos de aprendizagem ou classificao baseados em redes
neurais e estatstica, so capazes de explorar um conjunto de dados, extraindo ou
ajudando a evidenciar padres nestes dados e auxiliando na descoberta de
conhecimento. Esse conhecimento pode ser apresentado por essas ferramentas de
diversas formas: agrupamentos, hipteses, regras, rvores de deciso, grafos,
ou dendrogramas.
O ser humano sempre aprendeu observando padres, formulando hipteses e testandoas para descobrir regras. A novidade da era do computador o volume enorme de dados
que no pode mais ser examinado procura de padres em um prazo razovel. A
soluo instrumentalizar o prprio computador para detectar relaes que sejam novas
e teis. A minerao de dados (MD) surge para essa finalidade e pode ser aplicada tanto
para a pesquisa cientifica como para impulsionar a lucratividade da empresa madura,
inovadora e competitiva.
Diariamente as empresas acumulam grande volume de dados em seus aplicativos
operacionais. So dados brutos que dizem quem comprou o qu, onde, quando e em que
quantidade. a informao vital para o dia-a-dia da empresa. Se fizermos estatstica ao
final do dia para repor estoques e detectar tendncias de compra, estaremos
praticando business intelligence (BI). Se analisarmos os dados com estatstica de modo
mais refinado, procura de padres de vinculaes entre as variveis registradas, ento
estaremos fazendo minerao de dados. Buscamos com a MD conhecer melhor
os clientes, seus padres de consumo e motivaes. A MD resgata em organizaes
grandes o papel do dono atendendo no balco e conhecendo sua clientela. Atravs da
MD, esses dados agora podem agregar valor s decises da empresa, sugerir tendncias,
desvendar particularidades dela e de seu meio ambiente e permitir aes melhor
informadas aos seus gestores.
Pode-se ento diferenciar o business inteligence (BI) da minerao de dados (MD)
como dois patamares distintos de atuao. O primeiro busca subsidiar a empresa com
conhecimento novo e til acerca do seu meio ambiente e funciona no plano estratgico.
O Segundo visa obter a partir dos dados operativos brutos, informao til para
subsidiar a tomada de deciso nos escales mdios e altos da empresa e funciona no
plano tctico.
Como ferramentas de data mining busca por padres, informaes teis para a tomada
de deciso, essas ferramentas podem prever futuras tendncias e comportamentos,
baseado principalmente no conhecimento acumulado o qual frequentemente
desprezado, contido em seus prprios bancos de dados.
Os mtodos tradicionais de Data Mining so:

Classificao: associa ou classifica um item a uma ou vrias classes categricas


pr-definidas. Uma tcnica estatstica apropriada para classificao a anlise
discriminante. Os objetivos dessa tcnica envolvem a descrio grfica ou
algbrica das caractersticas diferenciais das observaes de vrias populaes,
alm da classificao das observaes em uma ou mais classes predeterminadas.
A ideia derivar uma regra que possa ser usada para classificar, de forma
otimizada, uma nova observao a uma classe j rotulada. A anlise
discriminante permite que dois ou mais grupos possam ser comparados, com o
objetivo de determinar se diferem uns dos outros e, tambm, a natureza da
diferena, de forma que, com base em um conjunto de variveis independentes,
seja possvel classificar indivduos ou objetos em duas ou mais categorias
mutuamente exclusivas.
Modelos de Relacionamento entre Variveis: associa um item a uma ou mais
variveis de predio de valores reais, consideradas variveis independentes ou
exploratrias. Tcnicas estatsticas como regresso linear simples, mltipla e
modelos lineares por transformao so utilizadas para verificar o
relacionamento funcional que, eventualmente, possa existir entre duas variveis
quantitativas, ou seja, constatar se h uma relao funcional entre X e Y
Anlise de Agrupamento (Cluster): associa um item a uma ou vrias classes
categricas (ou clusters), em que as classes so determinadas pelos dados,
diversamente da classificao em que as classes so pr-definidas. Os clusters
so definidos por meio do agrupamento de dados baseados em medidas de
similaridade ou modelos probabilsticos. A anlise de cluster (ou agrupamento)
uma tcnica que visa detectar a existncia de diferentes grupos dentro de um
determinado conjunto de dados e, em caso de sua existncia, determinar quais
so eles. Nesse tipo de anlise, o procedimento inicia com o clculo das
distncias entre os objetos estudados dentro do espao multiplano constitudo
por eixos de todas as medidas realizadas (variveis), sendo, a seguir, os objetos
agrupados conforme a proximidade entre eles. Na sequncia, efetuam-se os
agrupamentos por proximidade geomtrica, o que permite o reconhecimento dos
passos de agrupamento para a correta identificao de grupos dentro do universo
dos objetos estudados.
Sumarizao: determina uma descrio compacta para um dado subconjunto. As
medidas de posio e variabilidade so exemplos simples de sumarizao.
Funes mais sofisticadas envolvem tcnicas de visualizao e a determinao
de relaes funcionais entre variveis. As funes de sumarizao so
frequentemente usadas na anlise exploratria de dados com gerao
automatizada de relatrios, sendo responsveis pela descrio compacta de um
conjunto de dados. A sumarizao utilizada, principalmente, no prprocessamento dos dados, quando valores invlidos so determinados por meio
do clculo de medidas estatsticas como mnimo, mximo, mdia, moda,
mediana e desvio padro amostral , no caso de variveis quantitativas, e, no
caso de variveis categricas, por meio da distribuio de frequncia dos
valores. Tcnicas de sumarizao mais sosticadas so chamadas de

visualizao, que so de extrema importncia e imprescindveis para se obter um


entendimento, muitas vezes intuitivo, do conjunto de dados. Exemplos de
tcnicas de visualizao de dados incluem diagramas baseados em propores,
diagramas de disperso, histogramas e boxplots, entre outros.
Modelo de Dependncia: descreve dependncias signicativas entre variveis.
Modelos de dependncia existem em dois nveis: estruturado e quantitativo. O
nvel estruturado especifca, geralmente em forma de grco, quais variveis so
localmente dependentes. O nvel quantitativo especica o grau de dependncia,
usando alguma escala numrica. Segundo Padovani (2000), anlises de
dependncia so aquelas que tm por objetivo o estudo da dependncia de uma
ou mais variveis em relao a outras, sendo procedimentos metodolgicos para
tanto a anlise discriminante, a de medidas repetidas, a de correlao cannica, a
de regresso multivariada e a de varincia multivariada.
Regras de Associao: determinam relaes entre campos de um banco de
dados. A ideia a derivao de correlaes multivariadas que permitam
subsidiar as tomadas de deciso. A busca de associao entre variveis ,
frequentemente, um dos propsitos das pesquisas empricas. A possvel
existncia de relao entre variveis orienta anlises, concluses e evidenciao
de achados da investigao. Uma regra de associao denida como se X ento
Y, ou X Y, onde X e Y so conjuntos de itens e X Y = . Diz-se que X o
antecedente da regra, enquanto Y o seu consequente. Medidas estatsticas
como correlao e testes de hipteses apropriados revelam a freqncia de uma
regra no universo dos dados minerados.
Anlise de Sries Temporais: determina caractersticas sequenciais, como dados
com dependncia no tempo. Seu objetivo modelar o estado do processo
extraindo e registrando desvios e tendncias no tempo. Correlaes entre dois
instantes de tempo, ou seja, as observaes de interesse, so obtidas em instantes
sucessivos de tempo por exemplo, a cada hora, durante 24 horas ou so
registradas por algum equipamento de forma contnua, como um traado
eletrocardiogrco. As sries so compostas por quatro padres: tendncia,
variaes cclicas, variaes sazonais e variaes irregulares. H vrios modelos
estatsticos que podem ser aplicados a essas situaes, desde os de regresso
linear (simples e mltiplos), os lineares por transformao e regresses
assintticas, alm de modelos com defasagem, como os auto regressivos (AR) e
outros deles derivados.

Software WEKA

A ferramenta Weka possui como ponto forte a extrao de classificadores em bases de


dados. Um classificador (ou modelo de classificao) utilizado para identificar a
classe qual pertence uma determinada observao de uma base de dados, a partir de
suas caractersticas (seus atributos).
A minerao de modelos de classificao em bases de dados um processo composto
por duas fases: aprendizado e teste. Na fase de aprendizado, um algoritmo classificador

aplicado sobre um conjunto de dados de treinamento. Como resultado, obtem-se a


construo do classificador propriamente dito. Tipicamente, o conjunto de treinamento
corresponde a um subconjunto de observaes selecionadas de maneira aleatria a partir
da base de dados que se deseja analisar. Cada observao do conjunto de treinamento
caracterizada por dois tipos de atributo: o atributo classe, que indica a classe a qual a
observao pertence; e os atributos preditivos, cujos valores sero analisados para que
seja descoberto o modo como eles se relacionam com o atributo classe.
Para exemplificar estes conceitos, considere o conjunto de dados de treinamento
apresentado na Tabela 1. Neste exemplo, o conjunto de dados composto por
observaes selecionadas a partir de uma base hipottica de informaes censitrias.
Cada observao contm os dados de uma pessoa entrevistada. Observe que o atributo
Rico - utilizado para indicar se uma pessoa possui renda anual igual ou superior a R$
50.000,00 - representa o atributo classe, enquanto os atributos escolaridade e idade
so preditivos.
Tabela 1 Base de dados
Escolaridade

Mestrado
Doutorado
Mestrado
Doutorado
Graduacao
Graduacao
Mestrado
Mestrado
Doutorado

Idade

>30
<=30
<=30
>30
<=30
>30
>30
<=30
>30

Classe
Renda superior a
R$ 50.000,00
Sim
Sim
Nao
Sim
Nao
Nao
Sim
Nao
Sim

Aps o classificador ser construdo, inicia-se a etapa de teste, que visa avaliar a sua
acurcia atravs do emprego de um conjunto de dados de teste. O conjunto de teste
contm observaes que tambm so selecionadas aleatoriamente a partir da base de
dados. No entanto, estas observaes devem ser diferentes das que foram selecionadas
para compor o conjunto de treinamento. A acurcia do classificador representa a
porcentagem de observaes do conjunto de teste que so corretamente classificadas por
ele. Caso a acurcia seja alta, o modelo de classificao considerado eficiente e pode
ser utilizado para classificar novos casos.
Diversas tcnicas podem ser utilizadas para a construo de classificadores, tais como
redes neurais, mtodos Bayesianos e rvores de deciso, entre outros. As rvores de
deciso tm sido muito utilizadas pelos softwares de minerao de dados. Isto
justificado pelo fato delas possurem uma representao intuitiva, que torna o modelo de
classificao fcil de ser interpretado.

Figura 1 Arvore de deciso

A ferramenta Weka trabalha com arquivos de entrada no formato ARFF, que


corresponde a um arquivo texto contendo um conjunto de observaes, precedido por
um pequeno cabealho. O cabealho utilizado para fornecer informaes a respeito
dos campos que compem o conjunto de observaes. Dessa forma, antes da minerao
de dados, a ferramenta pode verificar alguma inconsistncia na base de dados e sinalizla. A Figura 2 ilustra um exemplo de arquivo ARFF, contendo um cabealho e um
conjunto de 8 registros que representam a base de dados apresentada na Tabela 1.
Observe que o cabealho contm a declarao da relao que o arquivo representa
(comando @relation), uma lista de atributos (comando @attribute) e a relao de
valores que os mesmos podem assumir. O conjunto de observaes precedido por um
comando @data. Cada observao representada por uma linha. Os valores dos campos
dentro de uma observao devem ser separados utilizando a vrgula.
Um exemplo pode ser encontrado no quadro abaixo:
@relation Censo
@attribute Escolaridade {Graduacao, Mestrado, Doutorado}
@attribute Idade {>30, <=30}
@attribute Rido {Sim, Nao}
@data
Mestrado,>30,Sim
Doutorado,<=30,Sim
Mestrado,<=30,Nao
Doutorado,>30,Sim
Graduacao,<=30,Nao
Graduacao,>30,Nao

OLAP

Apesar do elevado nvel de informatizao e automao existentes em


algumas empresas, a maioria no possui sistemas ou ferramentas que
possibilitam informaes teis aos executivos. Um Data Warehouse fornece
dados integrados que auxiliam a alta direo, que precisa de informaes mais
detalhadas, e auxiliam tambm o nvel baixo da empresa, onde os dados
resumidos possibilitam a observao de aspectos mais tticos da empresa. As
ferramentas OLAP permitem a gerao de relatrios, a anlise de um grande
volume de dados e a obteno de informaes estratgicas que podem facilitar
a tomada de deciso.
A sua principal caracterstica a possibilidade de fazer qualquer consulta,
atendendo melhor os usurios que no tm um escopo de anlise bem
definido. Essa ferramenta tem a vantagem de utilizar tecnologia estabelecida,
de arquitetura aberta e padronizada, beneficiando-se da diversidade de
plataformas, escalabilidade e paralelismo de hardware.
Sua desvantagem o conjunto pobre de funes para anlises dimensionais e
o baixo desempenho da linguagem SQL na execuo de consultas pesadas.
A tecnologia OLAP permite que o usurio trabalhe com clculos complexos,
atravs de consultas com maior flexibilidade e funcionalidade. Seu uso
proporciona um bom andamento e um excelente gerenciamento de uma
empresa. A essncia das ferramentas OLAP a rapidez, a sumarizao e a
anlise flexvel dos dados. As aplicaes bem sucedidas de OLAP tendem a
aumentar a produtividade de gerentes, desenvolvedores e at da organizao
como um todo. As ferramentas OLAP aliadas, Data Warehouse revolucionaram
o modo de se fazer negcios, garantindo agilidade e flexibilidade nas
investigaes e anlise de dados para os usurios finais, isto , aqueles que
realmente fazem parte do processo de tomada de decises.

Caractersticas.
Uma das caractersticas que devem estar presentes em ferramentas OLAP a
capacidade de efetuar algumas operaes, como:
drill Across: ocorre quando o usurio pula um nvel intermedirio dentro de
uma mesma dimenso. Por exemplo, a dimenso tempo composta por ano,
semestre, trimestre, ms e dia. A operao Drill Across executada
quando o usurio passa de ano direto para trimestre ou ms;
drill Down: ocorre quando o usurio aumenta o nvel de detalhe da
informao, diminuindo a granularidade (A granularidade determina quais os
tipos de consultas podem ser feitas no DW. Ela influencia diretamente na
velocidade do acesso s informaes e no volume de dados
armazenados );
drill Up: o contrrio do Drill Down, ocorre quando o usurio aumenta a
granularidade, diminuindo o nvel de detalhamento da informao;
drill Throught: ocorre quando o usurio passa de uma informao contida em
uma dimenso para uma outra. Por exemplo: Inicia na dimenso do tempo e no
prximo passo analisa a informao por regio;
dlice and Dice: uma das principais caractersticas de uma ferramenta OLAP.
Como a ferramenta OLAP recupera o microcubo (No OLAP, as informaes so
armazenadas em cubos multidimensionais, que gravam valores quantitativos e
medidas, permitindo visualizao atravs de diversos ngulos. Estas medidas
so organizadas em categorias descritivas, chamadas de dimenses e formam,
assim, a estrutura do cubo), surgiu a necessidade de criar um mdulo, que se
convencionou de Slice and Dice, para ficar responsvel por trabalhar esta
informao. Ele serve para modificar a posio de uma informao, trocar
linhas por colunas de maneira a facilitar a compreenso dos usurios e girar o
cubo sempre que tiver necessidade.

Componentes de software que voc precisa para acessar as


fontes de dados OLAP
Um provedor OLAP

Para configurar as fontes de dados OLAP para o

Excel, voc precisa de um dos seguintes provedores OLAP:

Provedor Microsoft OLAP

O Excel inclui o driver de fonte de dadose

o software cliente que voc precisa para acessar bancos de dados criados com o
Servios OLAP do Microsoft SQL Server verso 7.0, Servios OLAP do Microsoft
SQL Server verso 2000 (8.0), e Microsoft SQL Server Analysis Services verso
2005 (9.0).

Provedores OLAP de terceiros

Para outros produtos OLAP, voc

precisa instalar drivers adicionais e software cliente. Para usar os recursos do


Excel para trabalhar com dados OLAP, o produto de terceiros deve estar em
conformidade com o padro OLE-DB para OLAP e ser compatvel com o Microsoft
Office. Para obter informaes sobre como instalar e usar um provedor OLAP de
terceiros, consulte o administrador de sistema ou o fornecedor do produto OLAP.
Bancos de dados do servidor e arquivos de cubo

O software cliente

OLAP do Excel d suporte a conexes com dois tipos de bancos de dados


OLAP. Se um banco de dados em um servidor OLAP estiver disponvel na rede,
voc poder recuperar os dados de origem diretamente dessa rede. Caso
tenha um arquivo de cubo offline que contenha dados OLAP ou um arquivo
de definio de cubo, voc poder conectar-se a esse arquivo e recuperar
dados de origem dele.
Fontes de dados

Uma fonte de dados fornece acesso a todos os dados no

banco de dados OLAP ou no arquivo de cubo offline. Aps criar uma fonte de
dados OLAP, voc pode basear os relatrios nela e retornar os dados OLAP
para o Excel na forma de um relatrio de Tabela Dinmica ou de Grfico
Dinmico ou em uma funo de planilha convertida em um relatrio de Tabela
Dinmica.
Microsoft Query

possvel usar o Query para recuperar dados de um

banco de dados externo, por exemplo, o Microsoft SQL ou o Microsoft Access.

No necessrio usar o Query para recuperar dados de uma Tabela Dinmica


OLAP conectada a um arquivo de cubo. Para obter mais informaes,
consulte Usar o Microsoft Query para recuperar dados externos.

Diferenas de recursos entre dados de origem OLAP e noOLAP


Se trabalhar com relatrios de tabela e grfico dinmicos de dados de
origem OLAP e de outros tipos de dados de origem, voc notar
algumas diferenas de recursos.
Recuperao de dados

Um servidor OLAP retorna dados novos

para o Excel sempre que o layout do relatrio for alterado. Com


outros tipos de dados de origem externa, consulte todos os dados de
origem de uma s vez ou voc pode definir opes para consultar
apenas quando exibir itens de campo de filtro de relatrio diferentes.
Voc tambm tem outras opes para atualizar o relatrio.
Em relatrios baseados em dados de origem OLAP, as configuraes
de campo de filtro de relatrio, a consulta em segundo plano e a
configurao de otimizao de memria no esto disponveis.
OBSERVAO

A configurao de memria otimizada tambm no

est disponvel para origens de dados OLEDB e para relatrios de


tabela dinmica baseados em um intervalo de clulas.
Tipos

de

campo

de dimenso podem

Dados
ser

de

origem
usados

OLAP,

campos
somente

como linha (srie),coluna (categoria), ou campos de pgina. Campos


de medida podem ser usados somente como campos de valor. Para
outros tipos de dados de origem, todos os campos podem ser usados
em qualquer parte de um relatrio.
Acesso a dados de detalhes

Para dados de origem OLAP, o

servidor determina que nveis de detalhes esto disponveis e calcula

os valores de resumo, para que os registros de detalhes que formam


os valores de resumo no estejam disponveis. No entanto, o servidor
pode fornecer campos de propriedade que podem ser exibidos.
Outros

tipos

de

dados

de

origem

no

possuem

campos

de

propriedade, mas voc poder exibir o detalhe de base para os


valores de campo de dados e para itens e exibir itens sem dados.
Talvez os campos de filtro de relatrio OLAP no tenham um
item Todos e

comando Mostrar

Pginas

do

Filtro

de

Relatrio no esteja disponvel.


Ordem de classificao inicial

Para dados de origem OLAP, os

itens aparecem primeiro na ordem em que o servidor OLAP os


retorna.

Voc

pode

ento

classific-los

ou

reorganiz-los

manualmente. Para outros tipos de dados de origem, os itens em um


novo relatrio aparecem primeiro classificados na ordem crescente
por nome de item.
Clculos

Os

servidores

OLAP

fornecem

valores

resumidos

diretamente para um relatrio de modo que voc no pode alterar


as funes de resumo para campos de valor. Para outros tipos da
dados de origem, voc pode alterar a funo de resumo para um
campo de dados e usar vrias funes de resumo para o mesmo
campo de valor. Voc no pode criar campos calculados ou itens
calculados em relatrios com dados de origem OLAP.
Subtotais

Em relatrios com dados de origem OLAP, voc no

pode alterar a funo de resumo para subtotais. Com outros tipos de


dados de origem, voc pode alterar funes de resumo para subtotais
e exibir ou ocultar subtotais para todos os campos de linha e coluna.
Para dados de origem OLAP, possvel incluir ou excluir itens ocultos
quando voc calcula subtotais e totais gerais. Para outros tipos de
dados de origem, voc pode incluir itens de campo filtro de relatrio

ocultos em subtotais, mas itens ocultos em outros campos so


excludos por padro.