Você está na página 1de 71

SmartContentProvider | Entidade Promotora:

Parceiros:

01/02/2013

Estado da Arte sobre


Business Analytics e
perspectivas futuras

2/2
Projeto em curso com o apoio de:

SmartContentProvider | Entidade Promotora:

Parceiros:

ndice
ndice de Figuras......................................................................................................................................... 2
ndice de Tabelas ........................................................................................................................................ 4
Introduo .................................................................................................................................................. 5
O que so Business Analytics ..................................................................................................................... 7
reas de utilizao de Business Analytics ................................................................................................ 11
Business Analytics, diferentes tipos ......................................................................................................... 12
Descrio .............................................................................................................................................. 12
Perspectiva ........................................................................................................................................... 12
Preditivos .............................................................................................................................................. 13
Anlise a diferentes abordagens em Business Analytics .......................................................................... 19
1 Abordagem Workflows simples e dashboards ............................................................................. 19
2 Abordagem Workflows complexos, Pivot Tables e Dashboards................................................... 23
3 Abordagem Pivot Tables Complexas, rvores de deciso e clusterizao de dados .................... 30
4 Abordagem Validao cruzada e tabelas de contingncia ........................................................... 40
5 Abordagem Filtragem interactiva de dados e grficos de disperso............................................ 48
Perspectivas Futuras ................................................................................................................................ 54

2/2
Projeto em curso com o apoio de:

SmartContentProvider | Entidade Promotora:

Parceiros:

ndice de Figuras
Figura 1: rvore de deciso simples ......................................................................................................... 15
Figura 2: Seleco de modelo e de workflow de processamento ............................................................ 20
Figura 3: Visualizao por variveis dos modelos utilizados no modelo ................................................. 21
Figura 4: Dashboard interactivo para manipulao das variveis e obteno de alteraes imediatas . 22
Figura 5: Obteno dos dados a partir de operaes elementares e tabelas de bases de dados ........... 23
Figura 6: Criao de relaes que no existam j nas diversas tabelas associadas ................................. 24
Figura 7: Deteco de erros ou inconsistncias nas operaes pretendidas........................................... 25
Figura 8: Fluxo completo de processamento ........................................................................................... 26
Figura 9: Observao de resultados ......................................................................................................... 26
Figura 10: Visualizao alternativa em Dashboard dos dados processados ............................................ 27
Figura 11: Reutilizao do fluxo anterior como um componente de um novo fluxo............................... 29
Figura 12: Insero de dados atravs de um pivot table ......................................................................... 30
Figura 13: Tabela em bruto e ordenao ................................................................................................. 31
Figura 14: Segunda ordenao e primeira filtragem ................................................................................ 32
Figura 15: Resultado final das ordenaes e filtragens............................................................................ 33
Figura 16: Eliminao de outliners e valores aberrante........................................................................... 33
Figura 17: Diversas visualizaes dos dados ............................................................................................ 35
Figura 18: Alterao manual e de fine-tuning das rvores de deciso .................................................... 36
Figura 19: Criao automtica de cluster a partir dos dados ................................................................... 37
Figura 20: Comparao dos resultados obtidos pelos diversos modelos ................................................ 39
Figura 21: Diagrama geral desta abordagem de business analytics ........................................................ 40
Figura 22: Definio dos conjuntos para validao cruzada .................................................................... 41
Figura 23: Modelao avanada baseada na validao cruzada.............................................................. 42
Figura 24:rea de comparao entro os diversos modelos aplicados ao mesma tema .......................... 43
Figura 25: Testes de contingncia e no paramtricos ............................................................................ 44
Figura 26: Anlise estatstica aos dados finais obtidos ............................................................................ 45
Figura 27: Insero/edio e remoo dos dados com visualizao imediata ........................................ 49
Figura 28: Viso expandida de anlise dos dados .................................................................................... 50
Figura 29: Exemplo de possveis resultados em grficos de disperso.................................................... 51
Figura 30: Viso mista de visualizao e de interaco ........................................................................... 53

2/2
Projeto em curso com o apoio de:

SmartContentProvider | Entidade Promotora:

Parceiros:

Figura 31: Representao temporal de grafo com background geogrfico ............................................. 56


Figura 32: Visualizao de classes e subclasses de dados em anis ........................................................ 57
Figura 33: Conjugao de diferentes formas de visualizao e de interaco ........................................ 58
Figura 34: Zoom com capacidade de viso geral e de detalhe ................................................................ 58
Figura 35: Deteco de relaes entre as variveis ................................................................................. 60
Figura 36: Visualizao de classes e subclasses dos dados em mosaicos ................................................ 61
Figura 37: Outra forma de conjugao de diferentes formas de visualizar dados .................................. 62
Figura 38: Grafo com muitos dados e confuso ........................................................................................ 63
Figura 39: O mesmo grafo com interactividade e destaques .................................................................. 64
Figura 40: Filtragem de diversas variveis ............................................................................................... 65
Figura 41: Associao de nmero ou importncia de eventos por dia .................................................... 66
Figura 42: Representao de classes e subclasses de dados em estruturas circulares ........................... 66
Figura 43: Grficos interactivos de evoluo com noo temporal ......................................................... 67
Figura 44: Sliders mltiplos em grficos para filtragens dinmicas em tempo real ................................ 67
Figura 45: Grfico com dados reais e dados futuros estimados .............................................................. 68
Figura 46: Grfico interactivo com filtragem de dados e mapeamento para grfico circular ................. 69
Figura 47: Grfico interactivo com definio do intervalo e das variveis de anlise ............................. 70

2/2
Projeto em curso com o apoio de:

SmartContentProvider | Entidade Promotora:

Parceiros:

ndice de Tabelas

Tabela 1: Exemplo de tabela de contingncia.......................................................................................... 45


Tabela 2: Exemplo de tabela de confuso................................................................................................ 46

2/2
Projeto em curso com o apoio de:

SmartContentProvider | Entidade Promotora:

Parceiros:

Introduo
O presente documento Estado da Arte sobre Business Analytics e Perspectivas Futuras constitui um
dos resultados da fase de Estudos Preliminares do projecto SmartCP. Em particular sumariza o
trabalho realizado no contexto das tarefas Levantamento do estado da arte, estudo e experimentao
sobre business analytics e Tendncias e evolues futuras na rea de business analytics.

Com este estudo, pretende-se ganhar conhecimento e uma viso geral do panorama referente s
diversas abordagens e tcnicas de Business Analytics, nomeadamente das suas capacidades, abordagens
/ funcionalidades e interfaces com o utilizador. Desta forma, pretende-se apreender ao mximo as
metodologias e tecnologias utilizadas nas diferentes abordagens de representar e interagir com
informao / dados para a extrao de conhecimento. pretendido ainda identificar pontos fortes e
pontos fracos nas diversas abordagens.
ainda de salientar, que o foco do presente documento no analisar aplicaes e ferramentas
concretas dedicadas a Business Analytics, mas sim, obter uma viso transversal dos vrios tipos de
Analytics que se encontram disponveis.
Por fim, com este documento e aps o seu estudo inicial de estado da arte na rea de Business Analytics,
pretende-se ainda inferir possveis evolues futuras no domnio dos Business Analytics e das suas
funcionalidades.

O documento encontra-se dividido em 5 seces. Sendo elas:

O que so Business Analytics onde se faz uma introduo e explicao dos principais conceitos,
funcionalidades e objectivos dos Business Analytics

reas de utilizao dos Business Analytics, nesta seco so apresentadas as diversas reas de
aplicao dos Business Analytics e so apresentados alguns exemplos concretos para cada rea
com o objectivo de melhor elucidar sobre as suas aplicaes prticas.

2/2
Projeto em curso com o apoio de:

SmartContentProvider | Entidade Promotora:

Parceiros:

Business Analytics, diferentes tipos Esta seco dedica-se a apresentar e a aprofundar os


diferentes subtipos de Business Analytics, nomeadamente os de Descrio, de Perspectiva e os
Predictivos. No subtipo de Business Analytics preditivos so ainda aprofundados alguns
conceitos tericos do seu funcionamento.

Anlise das diferentes abordagens em Business Analytics, esta seco faz uma anlise genrica
s diferentes formas e abordagens de executar processos de Business Analytics. Desde as mais
simplistas s mais complexas. Nesta seco existe uma subseco para cada abordagem,
nomeadamente:
o Workflows simples e dashboards
o Workflows complexos, Pivot Tables e Dashboards
o Pivot Tables Complexas, rvores de deciso e clusterizao de dados
o Validao cruzada e tabelas de contingncia
o Filtragem interactiva de dados e grficos de disperso

Perspectivas Futuras a ltima seco do presente documento e dedica-se a registar e a relectir


sobre eventuais melhorias e evolues que os Business Analytics possam sofrer nos prximos
tempos. no entanto dada uma especial ateno parte das interfaces ricas que permitam uma
melhor percepo e interaco exploratria do utilizador com os dados.

2/2
Projeto em curso com o apoio de:

SmartContentProvider | Entidade Promotora:

Parceiros:

O que so Business Analytics


O conceito de Business Analytics remete para um conjunto de tcnicas, tecnologias, aplicaes e prticas
que permitam de uma forma iterativa e interactiva, explorar e investigar dados referentes ao processo
e fluxo de negcio. Este conceito aplicado a este tipo de dados, tem o objectivo e.g. incrementar a
eficcia e margens associadas a um modelo de negcio, expondo os pontos mais e menos eficientes
(com um destaque sobretudo nos menos eficientes de forma a poderem ser aplicadas medidas
corretivas) e analisar as correlaes (e suas consequncias) no modelo de negcio. Estas medidas tanto
podem ser aplicadas em dados em bruto, como em dados indirectos obtidos previamente a partir de
mtodos e modelos estatsticos (sendo que com uma maior taxa de erro associado).
Os Business Analytics, para alm de efectuarem uma utilizao intensiva de dados em bruto, dados
estatsticos e de anlises quantitativas, tm sempre uma forte componente exploratria e por vezes
tambm de modelao preditiva.
A sua componente exploratria, remete para o facto de o utilizador ter sempre um papel bastante
importante na manipulao, combinao e arranjo dos dados de modo a que consiga obter novas
mtricas e concluses. Por norma, esta interaco com o utilizador segue sempre a via de interfaces
muito visuais, tanto para a insero das operaes desencadeadas pelo utilizador, como para o obteno
e visualizao dos dados e concluses finais obtidas.
A modelao predictiva outra funcionalidade importante dos sistemas e aplicaes de Business
Analytics. Esta remete para o conceito anteriormente apresentado de manipulao, combinao e
arranjo dos dados, de modo a conseguir-se obter novas mtricas e concluses, mas por via automtica
ou parcialmente automtica, ao invs de ser inteiramente manual e dependente do utilizador.
Estes automatismos predictivos que recorrem a tcnicas de inteligncia artificial e aprendizagem
automtica, tanto podem ser utilizados para a anlise dos dados manipulados pelo utilizador e
apresentar concluses automaticamente extradas da, ou podem ser utilizados para inferir e sugerir
operaes e manipulaes nos dados que o utilizador pode ou no acatar.
Outra vertente ainda importante dentro dos Business Analytics a justificao da anlise exploratria,
das relaes descobertas e das concluses obtidas. Esta etapa bastante importante, pois se o utilizador
(por via manual ou semiautomtica) obter concluses teis e interessantes, ser til tambm, perceber
o porqu e o que levou a obter essas concluses.

2/2
Projeto em curso com o apoio de:

SmartContentProvider | Entidade Promotora:

2/2
Projeto em curso com o apoio de:

Parceiros:

SmartContentProvider | Entidade Promotora:

Parceiros:

Os Business Analytics, de uma forma mais objectiva, podem ainda ajudar na obteno de perguntas e
respostas do tipo:

O que aconteceu para

Quantos influenciaram

Quantas vezes ocorreu

Onde est o problema

O elemento restritivo do fluxo

Quais as aces para melhorar uma limitao

Qual a melhor aco para um problema

Porque que aconteceu

Ser que esta tendncia contnua

O que ocorrer a seguir

Se tomarmos estas medidas, o que ocorrer

Como optimizar o fluxo

Do ponto de vista histrico, os Business Analytics esto intimamente ligados aos processos de
industrializao iniciados no fim do seculo XIX. Com o surgimento de linhas de produo, fluxos
industriais, de distribuio e de retalho complexos, surgiu ento a necessidade de colectar dados sobre
as diversas etapas dos processos e efectuar estudos e concluses sobre esses mesmos dados. Tendo em
conta que essas necessidades surgiram antes do surgimento e massificao dos sistemas
computacionais, essas anlises e cruzamento de dados para obter novas concluses, eram efectuadas
manualmente, desde o registo manuscrito dos dados, ao seu tratamento, processamento e
apresentao de resultados em tabelas e grficos. Com essas ferramentas bastante rudimentares
tambm podiam ser efectuados estudos predictivos recorrendo a amostragens estatsticas. No entanto
tais aces eram pouco utilizadas devido a serem um processo moroso, dispendioso e inteiramente
manual.
Dos nomes mais sonantes dos pioneiros da utilizao destes estudos sobre as primeiras linhas de
montagem esto nomes como o de Frederick Taylor e de Henry Ford. Frederick Taylor desenvolveu
vrios conceitos tericos sobre a optimizao dos processos de trabalho das indstrias e o seu

2/2
Projeto em curso com o apoio de:

SmartContentProvider | Entidade Promotora:

Parceiros:

consequente aumento de eficincia, para tal recorrendo recolha de dados de todas as etapas e
consequente anlise e optimizao. Por sua vez, Henry Ford foi um dos pioneiros que primeiro aplicou
estas medidas na prtica, optimizando de um maneira nunca antes vista todo o processo das linhas de
montagem do fabrico de automveis.
Esse processo de anlise e de estudo, s se tornou mais gil, inteligente e sobretudo rpido a partir da
dcada de 1960, em que a utilizao dos computadores se massificou tanto para uso empresarial como
para uso pessoal. At aos dias de hoje, estes processos tm sofrido inmeras evolues devido ao
aumento da capacidade de processamento e de armazenamento de dados. No entanto, as evolues
principais tm ocorrido na rea de novos algoritmos matemticos e na criao de novos interfaces
grficos que permitiram revolucionar a interaco e visualizao dos dados com o utilizador.

2/2
Projeto em curso com o apoio de:

SmartContentProvider | Entidade Promotora:

Parceiros:

reas de utilizao de Business Analytics


As diversas tcnicas e abordagens de Business Analytics podem ser utilizadas em diversas reas e
contextos aplicacionais, nomeadamente:

Gesto de stock

Cadeias de transporte

Telecomunicaes

Preveno e deteco de fraudes

Anlise de preos

Deteco de comportamentos

Deteco de coleces

Anlise na rea de Marketing

Anlise ao risco financeiro e ao crdito

Apoio a decises financeiras

Anlise de trfego web

2/2
Projeto em curso com o apoio de:

SmartContentProvider | Entidade Promotora:

Parceiros:

Business Analytics, diferentes tipos


Os Business Analytics podem ser divididos em trs sub-tipos distintos tendo em conta os seus fins e
objectivos principais.
Nomeadamente, esses tipos so de:

Descrio

Perspectiva

Predictivos

Descrio
Os Business Analytics de Descrio, como o nome indica, so destinados principalmente a obter e retirar
novo conhecimento ou concluses a partir de dados armazenados ao longo do tempo. Este tipo de
aces, recorre fortemente a grandes quantidades de dados armazenados em bases de dados. A sua
aco, muitas vezes semelhante a tcnicas de data-warehousing e de clustering. Este tipo de Business
Analytics so utilizados para quantificar e qualificar relaes nem sempre explcitas.
Um exemplo concreto de utilizao deste tipo de Business Analytics a anlise e classificao de clientes
de acordo com as suas preferncias, gostos, historial e hbitos de consumo.

Perspectiva
J os Business Analytics de Perspectiva so os destinados a auxiliar em decises, baseando-se em
tcnicas de optimizao e de simulao. Esta abordagem tem conhecimento de todas as variveis que
envolvem e contextualizam uma deciso. Essas variveis, podem at incluir outros resultados
provenientes de tcnicas de Business Analytics Preditivos.

2/2
Projeto em curso com o apoio de:

SmartContentProvider | Entidade Promotora:

Parceiros:

Todos estes modelos de apoio deciso so optimizados no sentido de maximizar algumas variveis e
frequentemente de em simultneo, minimizar outras.
Um exemplo concreto na tomada de deciso sobre a compra ou no de determinados ttulos de aces
em bolsa, fundos de investimento ou mercado primrio de obrigaes. Nestes casos, a principal varivel
de maximizao a probabilidade de ganhos. J a varivel de minimizao ser o factor risco, por
desvalorizao das aces, fundos de investimento ou no caso das obrigaes, do risco associado ao
incumprimento por parte da entidade emissora das obrigaes. No entanto, podem existir variveis
secundrias, como por exemplo, ndices de conjectura econmica, volatilidade, ou reas de preferncia
como por exemplo mercados emergentes.

Preditivos
Os Business Analytics Preditivos so utilizados em conjunto com modelos de previso estatstica,
modelos predictivos e tcnicas de inteligncia artificial, mais concretamente, aprendizagem e
classificao automtica.
A fronteira de separao entre os Business Analytics Preditivos e os Business Analytics de Perspectiva
muito tnue, pois embora tenham fins e objectivos diferentes, um acaba por utilizar o outro e vice versa
durante as suas operaes.
O objectivo dos Business Analytics Preditivos tentar encontrar padres em dados e identificar e
antever riscos ou oportunidades. So mais frequentemente utilizadas estas tcnicas nas reas de
marketing, de servios financeiros, em seguradoras, na rea de telecomunicaes, de retalho e de
farmcia e sade.

Existem diversas tcnicas para obter resultados esperados nos Business Analytics preditivos, os mais
utilizados so:
A aprendizagem Bayesiana, uma grande famlia de algoritmos de aprendizagem automtica. Todos os
algoritmos pertencentes a esta famlia se baseiam em clculos probabilsticos que tm como base o
teorema de Bayes. Dentro desta famlia destaca-se o Naive Bayes. Este algoritmo um dos algoritmos
de aprendizagem automtica mais conhecido e utilizado. A sua designao de "Naive" provm do
algoritmo pressupor que os vrios atributos que descrevem os objectos so independentes, o que na

2/2
Projeto em curso com o apoio de:

SmartContentProvider | Entidade Promotora:

Parceiros:

realidade raramente acontece. Assim, entre os vrios atributos que discriminam a classe do objecto,
cada atributo contribui independentemente para a probabilidade do objecto fazer parte de uma classe
ou outra, no havendo qualquer correlao entre os diversos atributos na hora de decidir a classe do
objecto.
No entanto, o facto do algoritmo fazer essa simplificao no implica que ele obtenha maus resultados.
Pelo contrrio, o algoritmo Naive Bayes um algoritmo que na maior parte dos domnios apresenta
bons resultados.

SVMs, Suport Vector Machines, so uma famlia de algoritmos de aprendizagem automtica


desenvolvida inicialmente por Vapnik e Chervonenkis. De uma maneira muito simplista, temos os
objectos da nossa coleco que pretendemos classificar. Esses objectos podem ser classificados de modo
binrio e sendo caracterizados por n atributos presentes em todos os objectos em anlise.
Cada objecto pode ser representado na estrutura de SVM's como sendo um vector n-dimensional num
espao vectorial de dimenso n obtendo uma determinada disposio geogrfica consoante os valores
dos seus atributos.
O classificador dos SVM's surge como um algoritmo que vai obter e optimizar um hiperplano de
dimenso n-1 dentro do nosso espao n-dimensional, que separa as duas classes. Esse hiperplano pode
ser visto como uma fronteira, mas ao invs de ser uma fronteira bidimensional como a dos mapas,
uma fronteira de dimenso n-1.
Quando qualquer novo objecto for adicionado coleco e se pretender efectuar a sua classificao
referente classe a que pertence, basta representar esse objecto no espao vectorial n-dimensional e
ver se a sua representao ocorre de um lado ou de outro da "fronteira" que separa as classes.
No entanto, no espao vectorial pode existir uma infinidade de hiperplanos capazes de dividir as duas
classes de objectos, levantando a questo de qual hiperplano se adequa melhor. Sendo o algoritmo
SVM's responsvel por essa deciso.
Essa deciso baseada numa optimizao matemtica, que por norma, tenta obter o hiperplano que
consegue maximizar a separao entre as classes, de modo a que a distncia mdia do hiperplano aos
elementos das classes seja a maior possvel.

Uma das maiores famlias de algoritmos de aprendizagem a famlia dos algoritmos baseados em
rvores de deciso. Esta tambm uma das famlias mais fceis de perceber conceptualmente o seu

2/2
Projeto em curso com o apoio de:

SmartContentProvider | Entidade Promotora:

Parceiros:

funcionamento. Simplesmente baseiam-se em simples rvores de deciso onde cada n uma condio
e cada folha um resultado final. A Figura 1 apresenta um exemplo para determinar se um dia indicado
ou no para jogar tnis.

Figura 1: rvore de deciso simples

O funcionamento da rvore muito simples. Parte-se da raiz, que o primeiro n e onde se encontra a
primeira condio, depois segue-se caminho conforme o atributo que cumpre essa condio. Cada ramo
da rvore corresponde a um dos valores possveis do atributo do n de onde partem esses ramos. Seguese sucessivamente para o n seguinte at chegar s folhas da rvore. Cada folha tem a classificao final,
podendo haver vrias folhas com o mesmo resultado.
Desta descrio possvel concluir que uma rvore de deciso no passa de uma disjuno de
conjunes lgicas sendo os ramos as conjunes e os ns as disjunes.
Como se pode verificar, o funcionamento dos algoritmos de aprendizagem baseados em rvores de
deciso bastante simples. No entanto, a construo da rvore em si, um processo mais complicado
e a, que geralmente residem as diferenas entre os vrios algoritmos concretos desta famlia.
Uma das principais caractersticas utilizadas para construir a rvore, saber obter a deciso em cada n
que permita ter uma entropia mnima, o que equivalente a dizer, obter a deciso em cada n com o

2/2
Projeto em curso com o apoio de:

SmartContentProvider | Entidade Promotora:

Parceiros:

maior ganho de informao possvel. Isto com o objectivo de tornar a rvore o mais pequena possvel e
consequentemente com menos testes condicionais para se chegar aos resultados finais.
Os algoritmos de rvores de aprendizagem mais largamente utilizados so o ID3 e o C4.5
O algoritmo de aprendizagem automtica ID3 foi inventado por Ross Quinlan e considerado um marco
e um ponto de partida nos algoritmos de rvores de deciso, pois um dos mais simples e fceis de
compreender. O seu modo de criao da rvore de deciso baseado no clculo da entropia e do ganho
de informao j anteriormente referidos. Simplesmente ele calcula o ganho de informao para todas
as disjunes de atributos sobre o nosso conjunto. O atributo/disjuno que apresentar maior ganho de
informao ser imediatamente colocado na raiz da rvore. Depois disto todo o processo repetido
iterativamente para cada sub-ramo da rvore, at esgotar os atributos diferenciadores dos nossos
elementos do conjunto em estudo.
No entanto, o algoritmo ID3, devido a seguir a regra da escolha dos ns sempre em funo da menor
entropia possvel, resulta num algoritmo com tendncias para sobre-ajustamento. Assim obtm bons
resultados a classificar o conjunto de treino usado para a sua aprendizagem, mas os resultados so
fracos quando testado sobre um novo conjunto de dados diferentes dos dados utilizados durante a
aprendizagem.
Para superar este problema e permitir que o algoritmo consiga mais facilmente identificar e classificar
correctamente novos casos foram implementadas varias melhorias, culminando no algoritmo de
aprendizagem automtica C4.5.
A diferenciao do C4.5 e o que o torna numa verso melhorada do ID3 que conta com nova
abordagem e regras na construo da rvore, para que ela no seja sobre-ajustada aos casos de treino.
Este algoritmo tambm foi desenvolvido pelo mesmo autor do ID3, Ross Quinlan.
Tanto o algoritmo ID3 como o C4.5 so algoritmos open source e livres o que explica em parte a sua
grande adopo pelos mais diversos sistemas e ferramentas. No entanto, existe uma verso comercial
do C4.5 com alguns melhoramentos matemticos chamada de C5.0.
Todo o processo de construo da rvore de deciso do C4.5 igual ao do algoritmo ID3. A principal
diferena e melhoria que o C4.5 aps efectuar a construo da rvore de deciso, efectua a chamada
poda da rvore, com o objectivo de cortar da rvore os ramos demasiado longos. Esses ramos
demasiado longos so ao mesmo tempo ramos demasiado especficos e que so responsveis por sobre
ajustar a rvore ao conjunto de aprendizagem.

2/2
Projeto em curso com o apoio de:

SmartContentProvider | Entidade Promotora:

Parceiros:

Esta tcnica chamada de ps-poda, pois ocorre aps a rvore estar toda criada. Existem tambm
outros algoritmos da famlia das rvores de deciso que usam outra tcnica apelidada de pr-poda, que
consiste em restringir o crescimento da rvore logo durante a sua criao, tornando o algoritmo mais
gil e rpido.
A ps-poda do C4.5 tem como objectivo reduzir a complexidade da rvore, que implica eliminar algumas
das suas sub-rvores, reduzindo assim a altura da rvore e aproximar as folhas raiz.
Para ser efectuada uma determinada poda efectuada uma avaliao estatstica. Para cada n so
avaliados os erros de classificao que resultam desse n e dos seus ns descendentes; s efectuada
a poda do n se esta no implicar uma reduo no desempenho da rvore. Neste aspecto o C4.5 um
pouco conservador, pois esta avaliao pessimista, de modo a que no se corra o risco de reduzir a
eficcia da rvore. Existem outros algoritmos que "ariscam" mais e efectuam uma poda mais drstica da
rvore.
Outra caracterstica e melhoria do C4.5 em relao ao ID3, que este permite trabalhar com atributos
contnuos ou discretos, enquanto o ID3 apenas permite atributos discretos. Para trabalhar com esses
valores contnuos o C4.5 estima um parmetro de deciso, e consoante o valor da varivel contnua for
superior ou inferior a esse valor assim convertida em valores discretos.
O C4.5, ao contrario do ID3, permite ainda usar atributos desconhecidos durante a criao da rvore, e
que os atributos tenham diferentes pesos entre si.

As redes neuronais tambm so outra famlia bastante utilizada. O seu nome deve-se ao facto de
conceptualmente imitarem as ligaes e a forma com que os neurnios interagem uns com os outros
no crebro humano. Do ponto de vista puramente matemtico, elas so simplesmente modelos
estatsticos de modelao no linear. A principal utilidade e vantagem desta famlia de algoritmos que
ao contrrio das anteriormente referidas, nesta podem ser criados modelos sem que se conhea ou
perceba as relaes entre os dados de input e de output. As redes neuronais tanto podem ser analgicas
ou discretas. Nas redes neuronais analgicas, todos os dados processados so contnuos. J nas redes
neuronais discretas processam valores de natureza discreta, por norma valores lgicos booleanos. Este
segundo tipo por norma o mais amplamente utilizado nos contextos de business Analytics.

2/2
Projeto em curso com o apoio de:

SmartContentProvider | Entidade Promotora:

2/2
Projeto em curso com o apoio de:

Parceiros:

SmartContentProvider | Entidade Promotora:

Parceiros:

Anlise a diferentes abordagens em Business Analytics


No presente captulo sero apresentados diversos conceitos e abordagens que so utilizados em
Business Analytics. Os conceitos apresentados tero sempre como foco de anlise, as interfaces grficas
utilizadas, assim como os procedimentos para interagir com os dados e efectuar as diferentes
experincias combinatrias para se obter novas concluses ou observaes sobre esses mesmos dados.

1 Abordagem Workflows simples e dashboards


Na primeira abordagem apresentada (Figura 2, Figura 3 e Figura 4) apresentado um menu onde so
seleccionados os dados que vo ser utilizados para efectuar Business Analytics de Descrio, isto ,
estudo e cruzamento de dados j existentes com o objectivo de descobri novas concluses ou relaes
implcitas nos dados.
Para alm de ser indicada a origem dos dados, tambm so seleccionados os modelos de anlise (ex.
regresso, logisitc, championFilter, etc.)

2/2
Projeto em curso com o apoio de:

SmartContentProvider | Entidade Promotora:

Parceiros:

Figura 2: Seleco de modelo e de workflow de processamento

A Figura 3 j apresenta a segunda etapa deste procedimento em que possvel analisar individualmente
ou em conjunto as diversas variveis obtidas pela insero dos dados e dos modelos na etapa anterior.
Esta etapa destina-se a que o utilizador possa efectuar um estudo prvio, e que adquira conhecimento
sobre os dados e variveis com que est a manipular.

2/2
Projeto em curso com o apoio de:

SmartContentProvider | Entidade Promotora:

Parceiros:

Figura 3: Visualizao por variveis dos modelos utilizados no modelo

Na Figura 4 apresentado um Dashboard criado automaticamente em relao aos dados, modelos e


variveis inseridas nas etapas anteriores. Como possvel visualizar, existem diversos switches de
controlo, um para cada tipo de variveis que podem ser manipuladas para a obteno de novas
combinaes e resultados. Em algumas variveis, apenas possvel escolher estados discretos, noutras
existe um slider que permite efectuar um controlo mais continuo dessa varivel. Aps efectuar as
alteraes nas variveis, o utilizador, pode sempre observar os novos grficos obtidos na Figura 3 e
tentar obter nova informao a partir do rearranjar das diversas variveis.

2/2
Projeto em curso com o apoio de:

SmartContentProvider | Entidade Promotora:

Parceiros:

Figura 4: Dashboard interactivo para manipulao das variveis e obteno de alteraes imediatas

2/2
Projeto em curso com o apoio de:

SmartContentProvider | Entidade Promotora:

Parceiros:

2 Abordagem Workflows complexos, Pivot Tables e Dashboards


Outra abordagem possvel, a definio de fluxos ou workflows sequenciais sobre os diversos dados
analisados. Desta forma, o utilizador pode facilmente adicionar funcionalidades ou mdulos de
processamento a esses workflows de dados. Assim, fcil e rpido aplicar novas combinaes e observar
os efeitos nos dados e tentar depreender novas concluses.
Essa abordagem tambm comea com a insero de dados que sero analisados. Na Figura 5
apresentada a obteno desses dados. Onde foram seleccionadas diferentes tabelas de bases de dados
semelhantes, neste caso, com informaes sobre clientes. So ainda adicionadas algumas operaes a
algumas tabelas, neste caso concerto, operaes de ordenao e por fim a unio dessas tabelas para se
obter um conjunto nico onde se ir efectuar a explorao dos dados. ainda possvel observar, a
notificao de erros sobre as operaes ou associaes que se pretendem efectuar nos dados.
A Figura 6 apresenta por sua vez, uma ferramenta onde efectuada a seleco de detalhe da unio
entre diferentes tabelas. Esta ferramenta assegura que o utilizador mantenha a coerncia das diversas
fontes de dados, na criao da nova coleco.

Figura 5: Obteno dos dados a partir de operaes elementares e tabelas de bases de dados

2/2
Projeto em curso com o apoio de:

SmartContentProvider | Entidade Promotora:

Parceiros:

Figura 6: Criao de relaes que no existam j nas diversas tabelas associadas

Na Figura 7, ento efectuada a utilizao dos dados anteriormente obtidos em conjunto com
workflows de algumas ferramentas que vo produzir concluses sobre os dados em bruto. No exemplo
concreto da Figura 7, a castanho, so apresentados os dados e a azul todos os mecanismos / ferramentas
que vo permitir a extraco de Business Analytics. Neste caso concreto, funcionalidades de ranking, de
filtragem e de anlise.
Ainda nesta fase de construo do fluxo, so tambm indicados imediatamente, os erros presentes no
fluxo (vermelho), isto acontece porque ou o mdulo utilizado no aplicvel ao tipo de dados ou porque
os atributos do mdulo no se encontram correctamente configurados.

2/2
Projeto em curso com o apoio de:

SmartContentProvider | Entidade Promotora:

Parceiros:

Figura 7: Deteco de erros ou inconsistncias nas operaes pretendidas

2/2
Projeto em curso com o apoio de:

SmartContentProvider | Entidade Promotora:

Parceiros:

Figura 8: Fluxo completo de processamento

Figura 9: Observao de resultados

2/2
Projeto em curso com o apoio de:

SmartContentProvider | Entidade Promotora:

Parceiros:

A Figura 8 j apresenta todo o fluxo devidamente configurado, operacional e pronto a obter dados e
mtricas de anlise sobre o processamento efectuado. J a Figura 9, apresenta alguns desses resultados
simplesmente na forma grfica. No entanto, estes dois ltimos passos so iterativos e o utilizador pode
voltar aos mdulos de processamento (Figura 8) sempre que desejar alterar os blocos de processamento
e anlise, e assim, efectuar a experimentao e recombinao de dados para simplesmente navegar de
diferentes formas na informao ou para obter novas concluses.

Figura 10: Visualizao alternativa em Dashboard dos dados processados

Na Figura 10 apresentada outra forma de visualizao dos mesmos dados j processados pelo fluxo
anterior. No caso concreto da Figura 10, apresentado um dashboard com trs elementos distintos, um
mostrador analgico, um grfico e por fim uma tabela. Esta forma mais elstica e enriquecida de

2/2
Projeto em curso com o apoio de:

SmartContentProvider | Entidade Promotora:

Parceiros:

visualizar os dados com recurso a um dashboard pretende tambm facultar ao utilizador novas formas
de visualizar e oportunidades de obter novas concluses.

2/2
Projeto em curso com o apoio de:

SmartContentProvider | Entidade Promotora:

Parceiros:

Na Figura 11 possvel observar a reutilizao do fluxo anteriormente construdo como um simples


elemento de um novo fluxo mais completo / complexo. Desta forma os fluxos de processamento sobre
os dados, podem ser combinados uns com os outros no sentido de permitir novas associaes e novas
concluses sobre os dados.

Figura 11: Reutilizao do fluxo anterior como um componente de um novo fluxo

2/2
Projeto em curso com o apoio de:

SmartContentProvider | Entidade Promotora:

Parceiros:

3 Abordagem Pivot Tables Complexas, rvores de deciso e clusterizao de


dados
A abordagem apresentada de seguida destinada principalmente a Business Analytics Predictivos. Esta
abordagem consiste numa primeira fase em obter os dados de aprendizagem ou de estudo. Na segunda
fase, so filtrados os valores aberrantes da amostra de dados, ou tambm designados por outliars,
valores atpicos. Esses valores so descartados pois por serem to afastados da populao normal so
considerados erros. Na terceira etapa criado o modelo de aprendizagem propriamente dito. So ainda
efectuadas aces de fine tuning para ajustar o modelo o mais possvel ao pretendido, e por fim, os
resultados so apresentados com hiptese de iterar e voltar aos passos de fine-tuning do modelo e gerar
novos resultados.

Figura 12: Insero de dados atravs de um pivot table

2/2
Projeto em curso com o apoio de:

SmartContentProvider | Entidade Promotora:

Parceiros:

A Figura 12 apresenta o primeiro passo destinado obteno dos dados. Como ponto de partida temse uma pivot table (fundo da Figura 12). As vantagens de uma pivot table em relao a uma tabela
normal so inmeras, nomeadamente a facilidade em filtrar dados, ordenar, efectuar contagens e obter
contagens estatsticas. A Figura 12, primeiro plano, j apresenta um menu de seleco das colunas que
sero importadas para o modelo de Business Analytics preditivo.
A titulo de exemplo das vantagens de utilizar pivot tables de seguida apresentado um exemplo
concreto da sua utilizao.

Figura 13: Tabela em bruto e ordenao

2/2
Projeto em curso com o apoio de:

SmartContentProvider | Entidade Promotora:

Parceiros:

Figura 14: Segunda ordenao e primeira filtragem

Na Figura 13 do lado esquerdo, apresentada uma tabela de dados em bruto sem qualquer filtragem
ou ordenao. A mesma Figura 13 do lado direito, j apresenta a mesma tabela ordenada por ordem
alfabtica do atributo da localidade. Na Figura 14, apresentada uma segunda ordenao sobre a
primeira j efectuada. Desta forma possvel observar que para cada localidade (que j se encontram
ordenadas) efectuado um sub-ordenamento no escalo.
Aps estas ordenaes, so ento efectuadas filtagens. Na Figura 14 apresentada a aco de filtrar
apenas por um tipo de localidade, sendo o resultado apresentado na Figura 15 (lado esquerdo). Ainda
na Figura 15 apresentado o resultado de outra filtragem sobre a anterior, nomeadamente a filtragem
por localidade de vora e com propina paga.

Desta forma possvel observar que com poucos passos possvel com um pivot table, ordenar e filtrar
mltiplas vezes obtendo de uma forma rpida e intuitiva um sub conjunto especifico e eliminar assim a
informao suprflua que no pretendida. Este mecanismo muito importante como primeiro passo
de qualquer mecanismo de Business Analytics, pois permite que sejam analisados apenas os dados
interessantes, excluindo assim os que iriam gerar entropia sem adicionar valor ou concluses.

2/2
Projeto em curso com o apoio de:

SmartContentProvider | Entidade Promotora:

Parceiros:

Figura 15: Resultado final das ordenaes e filtragens

Figura 16: Eliminao de outliners e valores aberrante

2/2
Projeto em curso com o apoio de:

SmartContentProvider | Entidade Promotora:

Parceiros:

Aps os dados serem importados a partir da pivot table, pode ser efectuado um aprimoramento dos
dados. A Figura 16 apresenta a remoo de valores outliners ou aberrantes. Este tipo de valores so
registos que se destacam anormalmente da distribuio normal dos dados e por isso so considerados
aberrantes. A eliminao destes valores de extrema importncia, porque iriam ter efeitos bastante
negativos no modelo e nos resultados preditivos no sistema de Business Analytics.
Para tal ser efectuado, o utilizador apenas tem de seleccionar uma linha da tabela da Figura 16, sendo
imediatamente apresentado um grfico da distribuio dessa varivel num grfico. Nela, o utilizador
apenas tem de marcar a amarelo, como visvel na Figura 16, a zona que pretende que os valores sejam
excludos.

2/2
Projeto em curso com o apoio de:

SmartContentProvider | Entidade Promotora:

Parceiros:

Figura 17: Diversas visualizaes dos dados

Aps os dados serem inseridos a partir de pivot tables e eliminados os valores aberrantes, existe a
possibilidade (Figura 17) de visualizar os dados em diversos grficos e tabelas de disperso onde
possvel obter um apanhado geral dos dados que vo alimentar o modelo de aprendizagem.
Na Figura 17 possvel encontrar diferentes tipos de grficos para permitirem uma melhor anlise dos
dados. Alguns so dedicados apenas a uma varivel, outros exibem vrias, no entanto alguns ainda
mostram os relacionamentos entre diversas variveis. Do lado esquerdo so apresentados trs grficos.
O primeiro (topo), uma simples frequncia de contagem de uma nica varivel binria. Por baixo,
encontra-se outro grfico de frequncia de uma varivel discreta. Em baixo, um grfico circular que
efectua a contagem e comparao da frequncia de diversas variveis.

2/2
Projeto em curso com o apoio de:

SmartContentProvider | Entidade Promotora:

Parceiros:

Do lado esquerdo da Figura 17, no topo, est presente um dos grficos mais importantes da figura. Esse
grfico faz um cruzamento das variveis entre si, em todas as combinaes possveis, sendo uma ptima
maneira de identificar relaes entre os diferentes pares de variveis.
Do lado direito, centro da Figura 17 aparece um grfico de box plot para cada varivel, estando aqui
tambm latente o sentido de comparao e de obteno de similaridades entre as diversas variveis
envolvidas.
Por fim, no lado direito inferior da Figura 17 so apresentadas as tabelas com as diversas variveis e com
os diversos resultados em cada varivel.

Figura 18: Alterao manual e de fine-tuning das rvores de deciso

2/2
Projeto em curso com o apoio de:

SmartContentProvider | Entidade Promotora:

Parceiros:

Na Figura 18 apresenta j a definio da rvore de deciso que vai ser utilizada para apresentar os dados
de Business Analytics Preditivos. Neste passo, o utilizador pode manualmente alterar os diferentes ns
de deciso da rvore e observar imediatamente o efeito dessas alteraes nos grficos que representam
a amostragem de uma ou vrias variveis.
Para uma maior informao sobre a constituio e funcionamento das rvores de deciso, assim como
obter os melhores resultados delas a partir de ns de mnima entropia, consultar a Seco de Business
Analytics Preditivos na pgina 13.

Figura 19: Criao automtica de cluster a partir dos dados

2/2
Projeto em curso com o apoio de:

SmartContentProvider | Entidade Promotora:

Parceiros:

A Figura 19, apresenta os resultados de clusterizao a partir dos dados. Essa aco tem como por
objectivo segmentar os dados e determinar os quais so relevantes, ou no, para a rvore de deciso
anteriormente definida.
No topo esquerdo da Figura 19 apresentado novamente um grfico circular onde possvel observar
o peso de cada varivel para o modelo construdo tendo em conta a rvore de deciso definido
anteriormente. No canto inferior esquerdo da Figura 19 apresentado um diagrama onde possvel
visualizar as separaes dos dados num determinado n da rvore para os dados de teste em questo.
J do lado direito da Figura 19, no topo apresentada uma simples tabela com os valores das diversas
variveis. No entanto os grficos mais importantes da Figura 19 so os que ocupam toda a parte direita
inferior da figura. Eles so gerados automaticamente e atravs de algoritmos de clustering, Nestes
grficos possvel observar a criao de grupos dentro de cada varivel. Isto bastante til para quando
se pretende identificar grupos, famlias ou relaes que priori no se sabia que existiam.
Por fim a Figura 20 apresenta os resultados finais do modelo utilizado. Permite ainda que sejam
efectuadas comparaes com os dados de aprendizagem e com outros modelos previamente
construdos. Assim e tendo sempre como referencia os dados de aprendizagem, o utilizador por via de
comparaes, pode seleccionar qual o modelo com melhor resultados e assim optimizar os resultados
finais da aplicao deste tipo de ferramentas de Bussines Analytics. No canto superior esquerdo da
Figura 20 e no lado direito possvel efectuar a comparao entre o modelo de treino o resultado dos
diversos modelos obtidos. Nesses grficos possvel efectuar essas comparaes na preciso, cobertura,
erro, medida-F e ROC (Rate Of Change). No canto inferior direito da Figura 20 so apresentados os
mesmos dados mas na forma de simples tabela.

2/2
Projeto em curso com o apoio de:

SmartContentProvider | Entidade Promotora:

Parceiros:

Figura 20: Comparao dos resultados obtidos pelos diversos modelos

2/2
Projeto em curso com o apoio de:

SmartContentProvider | Entidade Promotora:

Parceiros:

4 Abordagem Validao cruzada e tabelas de contingncia


Esta abordagem tambm se destina a fins de Business Analytics preditivos semelhana da anterior, no
entanto mais complexa e com hiptese de apresentar melhor os resultados pretendidos, pois permite
efectuar os testes com diferentes modelos e/ou diferentes abordagens, assim como efectuar
comparaes visuais entre os resultados.
A Figura 21 apresenta as cinco etapas principais desta abordagem.

Figura 21: Diagrama geral desta abordagem de business analytics

2/2
Projeto em curso com o apoio de:

SmartContentProvider | Entidade Promotora:

Parceiros:

Figura 22: Definio dos conjuntos para validao cruzada

As etapas desta abordagem, so elas, a obteno dos dados, a etapa de treino, validao e teste por via
de tcnicas de validao cruzada, a etapa de modelao avanada, onde podem ser efectuadas
optimizaes e alteraes no funcionamento do modelo criado. Depois, surge ainda, a etapa de
comparao entre os modelo e por fim a gerao de relatrios grficos e tabelas para ajudar
interpretao dos resultados finais.
A validao cruzada uma tcnica para avaliar a eficcia de um modelo de aprendizagem, a partir de
um conjunto de dados. Esta tcnica amplamente aplicada a problemas com o objectivo de criar um
modelo de aprendizagem ou de efectuar predies.
O conceito central das tcnicas de validao cruzada a partio do conjunto de dados em subconjuntos
exclusivos. Posteriormente, utiliza-se alguns destes subconjuntos para a aprendizagem do modelo
(dados de treino) e os restantes subconjuntos sero utilizados para validao ou teste do modelo criado.
Existem diversas formas de realizar o particionamento dos dados, no entanto, a mais utilizada a k-fold.
Este tipo de validao cruzada, consiste em dividir o conjunto total de dados em k subconjuntos
exclusivos do mesmo tamanho. A partir deste ponto, um subconjunto utilizado para teste e os k-1
restantes, so utilizados para a aprendizagem do modelo. Este processo realizado k vezes alternando

2/2
Projeto em curso com o apoio de:

SmartContentProvider | Entidade Promotora:

Parceiros:

de forma circular o subconjunto de teste. No final das k iteraes, calculam-se ento mtricas de
preciso e de cobertura sobre os testes efectuados.
A Figura 22 apresenta a obteno dos dados partindo de uma pivot table para melhor flexibilidade, na
Figura 13 e na Figura 14 na Pgina 32 so apresentados em maior detalhe os benefcios das pivot tables.
De seguida, ocorre a definio dos subconjuntos da amostra, que serviro para o treino, validao e
testes dos modelos que sero gerados e utilizados no processo de Business Analytics. A prpria
aplicao, apresenta inicialmente intervalos para esses subconjuntos que serviro de base para a
validao cruzada. No entanto, o utilizador pode manualmente e com uma aco de tipo slide, alterar a
dimenso desses conjuntos e assim obter conjuntos de aprendizagem, teste e validao maiores ou mais
pequenos.

Figura 23: Modelao avanada baseada na validao cruzada

2/2
Projeto em curso com o apoio de:

SmartContentProvider | Entidade Promotora:

Parceiros:

Na Figura 23, apresenta-se onde so definidas as medidas de modelao avanadas que iro ser
aplicadas na criao do modelo. Ainda referente Figura 23, no topo esquerdo, so apresentados
parmetros e propriedades referentes ao algoritmo utilizado por via de uma interface grfica. No topo
direito, so apresentados os mesmos atributos, mas em ficheiro de configuraes sem a interface
grfica. Por fim, na mesma figura na parte inferior, so apresentadas as distribuies das variveis
consoante as alteraes efectuadas.

Figura 24:rea de comparao entro os diversos modelos aplicados ao mesma tema

A Figura 24 j apresenta a etapa seguinte, em que possvel comparar os resultados dos diversos
modelos construdos. Cada coluna representa uma nica varivel, mas com os resultados obtidos nos
diferentes modelos. Desta forma, o utilizador pode facilmente escolher o melhor modelo ou detectar

2/2
Projeto em curso com o apoio de:

SmartContentProvider | Entidade Promotora:

Parceiros:

incongruncias que tm de ser corrigidas iterativamente na fase anterior do fine-tuning dos diversos
modelos.

Figura 25: Testes de contingncia e no paramtricos

2/2
Projeto em curso com o apoio de:

SmartContentProvider | Entidade Promotora:

Parceiros:

Figura 26: Anlise estatstica aos dados finais obtidos

Na Figura 25 e na Figura 26 so apresentados diversas formas de anlise aos resultados obtidos. Os


resultados so sempre apresentados de forma a permitir, por um lado, uma noo geral e abrangente
dos conjuntos e permitir ento obter novas concluses ou previses. Tambm so orientados no sentido
para facilitar que o utilizador identifique pontos que preciso de ser melhorados.
Na Figura 25, por exemplo, so apresentadas matrizes de contingncia e de confuso, assim como
representaes grficas em mosaico das diversas variveis envolvidas.
Quando se refere a matrizes ou tabelas de contingncia estamos a falar de tabelas que permitem
analisar o relacionamento entre diferentes variveis. De seguida apresentado um exemplo simples de
uma tabela de contingncia de comparao de duas variveis, a varivel se destro ou esquerdino e a
varivel se gnero masculino ou feminino

Tabela 1: Exemplo de tabela de contingncia

Destro

2/2
Projeto em curso com o apoio de:

Masculino
21

Feminino
23

Total
44

SmartContentProvider | Entidade Promotora:

Parceiros:

Esquerdino
Total

8
29

6
29

14
58

J a matriz confuso uma matriz que permite avaliar o desempenho de um determinado algoritmo de
aprendizagem automtica, pois para um domnio de testes, relaciona a classificao realizada pelo
algoritmo com a classificao verdadeira desse domnio de testes, dando assim no s a quantidade de
erros e acertos, mas tambm os tipos de erros.

Tabela 2: Exemplo de tabela de confuso

Valores
Estimados

A
B

Valores Reais
A
B
VP
FP
FN
VN

Na tabela/matriz de confuso possvel identificar os seguintes valores:

VP - O nmero de verdadeiros positivos, isto , exemplos positivos que foram correctamente


classificados como positivos.

VN - O nmero de verdadeiros negativos, isto , exemplos negativos que foram correctamente


classificados como negativos.

FP - O nmero de falsos positivos, isto , exemplos negativos que foram erradamente


classificados como positivos. Este tipo de erro tambm conhecido por erro de tipo 1, ou erro
.

FN - O nmero de falsos negativos, isto , exemplos positivos que foram erradamente


classificados como negativos. Este tipo de erro tambm conhecido por erro de tipo 2, ou erro
.

Por sua vez, quando referido o conceito de testes no paramtricos est-se a referir a todos os
problemas de anlise ou de predio de uma varivel em que essa varivel no segue uma amostragem

2/2
Projeto em curso com o apoio de:

SmartContentProvider | Entidade Promotora:

Parceiros:

ou distribuio normal e a sua varincia no homognea. Por norma quando se utiliza o termo de
testes no paramtricos no contexto da anlise e predio em Business Analytics, pretende-se passar a
ideia qua as ferramentas e mecanismos de anlise no funcionam apenas em casos simples, mas
tambm em casos complexos de dados que podem seguir qualquer distribuio.

J na Figura 26 so apresentadas medidas de anlise estatstica sobre os conjuntos de dados. Desde


mnimos, mximos, medias, modas, medianas, percentis e quartis, assim como mais grficos das
distribuies dos dados que foram previstos. Desta forma encerrado o fluxo deste processo de
Business Analytics Preditivo.

2/2
Projeto em curso com o apoio de:

SmartContentProvider | Entidade Promotora:

Parceiros:

5 Abordagem Filtragem interactiva de dados e grficos de disperso


Neste subcaptulo vai ser apresentada outra abordagem de Business Analytics destinada essencialmente
rea de descrio. Ou seja, que permita ao utilizador interagir com informao j existente, navegar e
explorar essa informao por via de interfaces grficas ricas e interactivas.
Esta abordagem tem como ponto de partida os conceitos afectos a diversas aplicaes comerciais e
open source na rea do data mining e de data visualization. Ferramentas essas, que por esta via
oferecem aos utilizadores, meios de anlise de dados e de pesquisa. O resultado dessas anlises
apresentado de forma grfica para permitir uma rpida compreenso do que se pretende encontrar nos
dados analisados.

2/2
Projeto em curso com o apoio de:

SmartContentProvider | Entidade Promotora:

Parceiros:

Figura 27: Insero/edio e remoo dos dados com visualizao imediata

A Figura 27 apresenta o conceito de importao de dados em bruto de outras fontes. No mesmo ecr
possvel efectuar edies e remoes sobre esses dados e visualizar de imediato, as alteraes nos
grficos que representam essas mesmas variveis no lado direito da Figura 27.
Esta abordagem, torna possvel a anlise de dados complexos, reconhecimento de relaes entre
classes, definio de grupos alvo e suporte tomada de decises. Isto tudo sem que o utilizador que
interage com a ferramenta, tenha conhecimentos avanados em estatstica.

2/2
Projeto em curso com o apoio de:

SmartContentProvider | Entidade Promotora:

Parceiros:

Figura 28: Viso expandida de anlise dos dados

Tanto a Figura 28 como a Figura 30 apresentam j a anlise e interaco em simultneo com os dados
previamente inseridos. Na Figura 28, para alm dos grficos de diferentes formatos, existem algumas
tabelas interactivas, ou seja, no so apenas de visualizao, o utilizador pode seleccionar diferentes
opes e editar os valores que dizem respeito forma como os grficos so mapeados a partir dos dados
em bruto. Desta forma, torna-se bastante acessvel para o utilizador, efectuar diversas experimentaes
e combinaes para obter novas interpretaes dos dados.

2/2
Projeto em curso com o apoio de:

SmartContentProvider | Entidade Promotora:

Parceiros:

A Figura 30 j apresenta outra visualizao, em que a dominar todo o lado esquerdo da figura so
apresentados grficos multivariveis de disperso.
Um grfico de disperso efectua a representao de duas ou mais variveis que so organizadas num
nico grfico, em que uma das variveis est em funo da outra. Uma das variveis representada no
eixo dos x e a outra no eixo dos y no grfico.
Quando uma varivel aumenta com o aumento da outra diz-se que esto positivamente relacionadas.
Por exemplo, quanto maior o ordenado mdio, mais cara a viatura automvel adquirida.
Quando uma das varivel tem o seu valor diminudo com o aumento da outra, diz-se que elas so
negativamente correlacionadas. Por exemplo, a venda de carros menor com o aumento do
desemprego.

Figura 29: Exemplo de possveis resultados em grficos de disperso

2/2
Projeto em curso com o apoio de:

SmartContentProvider | Entidade Promotora:

Parceiros:

Na Figura 29 so apresentados diversos exemplos de correlao, nomeadamente a correlao forte


positiva, moderada positiva, sem correlao, moderada negativa, forte correlao negativa e correlao
curvilnea.

Este tipo de grfico, permite ainda que seja efectuada uma regresso linear e determinada uma recta,
que mostra o relacionamento mdio linear entre as duas variveis. Com essa recta, acha-se a funo
que nos d o "comportamento" da relao entre as duas variveis, que por sua vez utilizada em
diversos algoritmos de predio utilizados em Business Analytics.
Muitas ferramentas de Business Analytics efectuam este tipo de anlise entre todas as variveis
envolvidas num problema, numa tentativa de evidenciar novas possveis relaes entre certas variveis,
relaes essas que podem ser importantes para tirar concluses sobre os dados.

Do lado direito, aparece um conjunto de grficos para cada varivel. As barras apresentadas nesse
grfico servem para representar a contagem ou frequncia, consoante o contexto, de cada varivel. No
entanto, as barras de cada grfico so interactivas e podem ser arrastadas como se fossem um controlo
de slider. Dessa forma, o utilizador ao mov-las, obtm em tempo real, a respectiva actualizao nos
grficos do lado direito.

2/2
Projeto em curso com o apoio de:

SmartContentProvider | Entidade Promotora:

Parceiros:

Figura 30: Viso mista de visualizao e de interaco

Para concluir, todos estes elementos grficos de visualizao e de manipulao so pensados no sentido
de apresentar e utilizar o mximo de informao relativa a um conjunto de dados e auxiliar o utilizador
na tomada de decises. Com este tipo de abordagem, a manipulao dos dados rpida e intuitiva e
especialmente interactiva.

2/2
Projeto em curso com o apoio de:

SmartContentProvider | Entidade Promotora:

Parceiros:

Perspectivas Futuras
A nvel de perspectivas futuras na rea de Business Analytics esperado uma forte evoluo, tanto no
sentido da eficincia e da interactividade com o utilizador. ainda esperado um aumento da propagao
destas tecnologias para ambiente mobile e tablet.

Ao nvel da eficincia, essas evolues sero em parte, devidas ao aumento das capacidades de
performance computacional, tanto por incremento das capacidades de hardware e de software. Ao nvel
de hardware as melhorias esperadas sero na rea do processamento, das memrias e capacidade de
armazenamento. Ao nvel do software esperado que surjam novos algoritmos matemticos ou a
melhoria dos algoritmos j existentes e que so aplicados nos contextos de Business Analytics. Esses
algoritmos matemticos so muito importantes, pois so a base de todo o Business Analytics no que diz
respeito deteco de padres ou coleces nos dados, deduo de concluses e predio de novos
resultados ou cenrios.
A evoluo nesta rea algo que decorre essencialmente em contextos acadmicos muito especficos e
complicado antever quais os desenvolvimentos acadmicos que esto a ser desenvolvidos mas que
ainda no foram publicados nem validados pela comunidade acadmica.

A propagao as tecnologias moveis e tablet algo que j esta a decorrer a grande velocidade nos dias
de hoje. No entanto, o peso dos dados e a complexidade dos processamentos inerentes aos Business
Analytics ainda algo demasiado complexo para ser inteiramente efectuado em ambiente mobile e
tablet. Assim, necessrio continuar a desenvolver mecanismos inteligentes que mantenham a carga
da maior parte dos dados e do processamentos em servidores centrais e passar apenas o essencial para
o dispositivo mvel, de acordo com as suas capacidades de processamento e de largura de banda.
Tambm necessrio ter em conta, que a vertente dos Business Analytics com mais relevo e interesse
de ser utilizada em dispositivos mveis a de visualizao e explorao dos dados finais do processo de
Business Analytics.

2/2
Projeto em curso com o apoio de:

SmartContentProvider | Entidade Promotora:

Parceiros:

A vertente de Business Analytics que pode mais facilmente ser antecipada e vista com exemplos
concretos de perspectiva futura a rea de visualizao, anlise, explorao e de interaco com os
dados finais dos diversos processos de Business Analytics. Desta forma, esta vertente ser a mais
explorada e aprofundada no que diz respeito s perspectivas futuras na rea de Business Analytics.

de salientar que o factor visual e interactivo muito importante para o utilizador conseguir observar,
apreender, analisar e concluir sobre os dados apresentados. Para esse processo ser eficaz, no basta
recorrer apenas a simples grficos de barras ou simples tabelas. necessrio utilizar mtodos disruptivos
de visualizao e de interaco para garantir que o utilizador obtm valor acrescentado na utilizao de
sistemas e plataformas de Business Analytics de descrio.
De seguida sero apresentados um conjunto de vrias ideias, conceitos e abordagens de visualizao
e/ou interaco com dados e que facilmente poder ser implementada e adaptada num futuro prximo
aos contextos de utilizao dos Business Analytics.

2/2
Projeto em curso com o apoio de:

SmartContentProvider | Entidade Promotora:

Parceiros:

Figura 31: Representao temporal de grafo com background geogrfico

Na Figura 31 apresentada uma forma de visualizao e de interaco com os dados relacionados entre
si. Essa relao entre os elementos assume a forma de um grafo, no entanto, os ns do mesmo
encontram-se sobre reas que se interceptam entre si. Por exemplo, no lado direito da figura possvel
observar uma regio maior referente Europa que por sua vez engloba vrios pases e no caso do Reino
Unido ainda apresenta subconjuntos referentes a algumas cidades. Desta forma, todas as relaes
existentes e ns existentes no grafo, esto contextualizadas geograficamente, informao que seria
perdida se fosse apresentado um grafo simples.
Para completar a interaco com o utilizador, existe na parte inferior um slider referente escala
temporal e que ao ser arrastada permite ver em tempo real a evoluo das ligaes e o surgimento de
novos ns ao longo do tempo. Desta forma, este grafo enriquecido em relao aos grafos normais,
oferece mais interaco e o ganho da informao espacial/geogrfica e a informao temporal que
seriam impossveis de obter com um grafo simples.

2/2
Projeto em curso com o apoio de:

SmartContentProvider | Entidade Promotora:

Parceiros:

Figura 32: Visualizao de classes e subclasses de dados em anis

A Figura 32 apresenta um mtodo de visualizao em que por um lado se pode ter a noo hierrquica
das diferentes classes de dados. Por outro lado tambm se pode obter facilmente a noo de proporo
das classes de cada nvel. No exemplo apresentado na Figura 32 apenas so apresentados os dados a
dois nveis, no entanto, esta metodologia pode ser aplica a diversos nveis sem que o diagrama se torne
confuso.

2/2
Projeto em curso com o apoio de:

SmartContentProvider | Entidade Promotora:

Parceiros:

Figura 33: Conjugao de diferentes formas de visualizao e de interaco

Figura 34: Zoom com capacidade de viso geral e de detalhe

2/2
Projeto em curso com o apoio de:

SmartContentProvider | Entidade Promotora:

Parceiros:

A Figura 33 apresenta outra conjugao de diversas formas de visualizao e de interaco com diversos
dados. Nesta abordagem apresentada informao geogrfica, assinalada em destaque no mapa,
grficos de barras com informao referente aos diversos pases da regio previamente assinalada no
mapa. Ainda sobreposto sobre o mapa um misto de grfico de radar/circular com percentagens. Cada
uma dessas percentagens tem uma cor que equivale/representa os diversos logotipos apresentados na
parte inferior da imagem.
Ao nvel da interactividade, o utilizador pode escolher a zona geogrfica (no lado esquerdo da figura) e
o logotipo apresentado na parte inferior da figura. Com estas aces todo o diagrama readaptado e
reorganizado de modo a exibir a informao pretendida.

Em certas situaes que necessrio observar grandes quantidades de dados e ao mesmo tempo poder
ter-se muito detalhe e foco sobre esses mesmos dados so geradas situaes de compromisso. Em que
ao ter-se uma viso geral perdemos detalhe. Por outro lado se tivermos bastante detalhe acabamos por
perder a viso geral do conjunto de dados.
A Figura 34 apresenta um soluo grfica para tentar solucionar ou pelo menos para minimizar esse
problema. So apresentados dois grficos, o inferior apresenta-nos a viso geral de todos os dados, onde
possvel ter uma viso clara de todo o conjunto. Ainda sobre esse grfico inferior, existe uma janela de
seleco que permite ser arrastada ao longo desse grfico. Toda a rea abrangida por essa janela
representada em pormenor e detalhe no grfico superior.
Assim desta forma consegue-se minimizar a problemtica de ter uma viso global em simultneo com a
viso detalhada.

Na Figura 35 apresentado um mtodo alternativo de visualizao de dados e sobretudo de cruzamento


de dados para tentar antever relaes e efeitos entre as diversas variveis. Neste exemplo da Figura 35
apresentada uma legenda sobre o tipo de dados de cada cor. Na diagonal principal da matriz de
resultados, encontram-se as variveis que vo ser cruzadas entre si. Este cruzamento uma mistura
entre as tabelas de contingncia e os grficos de disperso, anteriormente introduzidos na pgina 45 e
51, respectivamente. Desta associao de grficos de disperso numa tabela de contingncia consegue-

2/2
Projeto em curso com o apoio de:

SmartContentProvider | Entidade Promotora:

Parceiros:

se obter um novo grau de observao e deteco visual de relaes ou efeitos colaterais entre as
diversas variveis presentes nos dados.

Figura 35: Deteco de relaes entre as variveis

2/2
Projeto em curso com o apoio de:

SmartContentProvider | Entidade Promotora:

Parceiros:

Figura 36: Visualizao de classes e subclasses dos dados em mosaicos

A Figura 36 apresenta um simples, mas interessante mapeamento do nmero de ocorrncias de cada


varivel para uma representao de rea. Desta forma, possvel observar quais so as variveis
dominantes, e mais importante ainda, relacionar a ordem de grandeza entre elas.

2/2
Projeto em curso com o apoio de:

SmartContentProvider | Entidade Promotora:

Parceiros:

Figura 37: Outra forma de conjugao de diferentes formas de visualizar dados

Na Figura 37 tambm so conjugadas diversas formas de visualizar e de interagir com os dados. Aqui a
interaco do utilizador resume-se a seleccionar um pais para obter sua a informao especifica, ou a
clicar nas zonas de oceano para obter informaes ao nvel global. Sobre cada pais representada um
circulo que representa os dados assinalados, consoante o tamanho desse circulo assim representada
a sua ordem de grandeza, possibilitando a comparao entre pases. Sempre que o utilizador selecciona
uma regio diferente, obtm imediatamente os grficos por sector (parte inferior direita da figura) assim
como o histrico ao longo do tempo (parte inferior esquerda da figura).

2/2
Projeto em curso com o apoio de:

SmartContentProvider | Entidade Promotora:

Parceiros:

Figura 38: Grafo com muitos dados e confuso

2/2
Projeto em curso com o apoio de:

SmartContentProvider | Entidade Promotora:

Parceiros:

Figura 39: O mesmo grafo com interactividade e destaques

A Figura 38 e a Figura 39 representam uma situao de melhoria de visualizao e de interaco com


grafos. Na Figura 38 apresentado um exemplo infelizmente muito frequente, de um grafo que por
conter muitos dados, se encontra saturado e a sua legibilidade e interpretao dos dados
comprometida. Uma das formas de contornar esse problema aplicar interactividade ao grafo e quando
o utilizador selecciona um dos ns so destacadas todas as ligaes desse n com os seus imediatos,
como possvel observar na Figura 39. Outra soluo era esbater/desvanecer as restantes ligaes e
ns que no faziam parte da malha de proximidade do n seleccionado.

2/2
Projeto em curso com o apoio de:

SmartContentProvider | Entidade Promotora:

Parceiros:

Figura 40: Filtragem de diversas variveis

Na Figura 40 apresentado um mecanismo de filtrar dados atravs de filtros visuais em diferentes


variveis. Do lado esquerdo, so apresentadas as variveis de filtro e que o utilizador pode adicionar ou
remover. No exemplo so apresentados as Vendas a Quantidade e o Lucro. Seguidamente na
Figura 40 do lado direito so apresentados os trs filtros, sendo cada um uma recta vertical. Do lado
esquerdo para o direito surge as Vendas, Quantidade e Lucro. O utilizador em cada linha/varivel
vertical pode seleccionar o valor mximo e mnimo do intervalo de dados que so mostrados. Cada linha
vertical passa a funcionar como um slider duplo. Desta forma, consegue-se obter conjuntos de dados
que obedeam interseco dos intervalos dos filtros seleccionados.

A Figura 41 apresenta uma abordagem para mapear num calendrio diferentes tipos de
eventos/ocorrncias e a sua severidade ou contagem num determinado dia. Por exemplo, poder-se-ia
associar a cor verde aos dias em que se obtm receitas, a vermelho os dias com despesas. O tamanho
dos crculos assinalados no mapa iram ser valores relativos e representariam com diferentes tamanhos
os diferentes valores de receitas e despesas.

2/2
Projeto em curso com o apoio de:

SmartContentProvider | Entidade Promotora:

Parceiros:

Figura 41: Associao de nmero ou importncia de eventos por dia

Figura 42: Representao de classes e subclasses de dados em estruturas circulares

A Figura 42 apresenta uma visualizao destinada representao de hierarquias de dados e onde


determinadas classes de dados sejam superclasses ou subclasses de outros dados. Por exemplo, uma
aplicao desta visualizao seria na organizao de uma empresa, onde se poderia observar as diversas
sucursais, por sua vez, dentro de cada uma, visualizar os diferentes departamentos e por fim, dentro de
cada departamento os diversos funcionrios afectos.

2/2
Projeto em curso com o apoio de:

SmartContentProvider | Entidade Promotora:

Parceiros:

Figura 43: Grficos interactivos de evoluo com noo temporal

Figura 44: Sliders mltiplos em grficos para filtragens dinmicas em tempo real

2/2
Projeto em curso com o apoio de:

SmartContentProvider | Entidade Promotora:

Parceiros:

A Figura 43 apresenta um conjunto de dados que por norma seriam apresentados num simples grfico
de barras como o somatrio da pontuao de cada jogador. No entanto, nesta representao foi
adicionada a noo temporal, obtendo assim, o percurso e evoluo de cada jogador ao longo do tempo.
Este conceito de grfico extremamente importante para o contexto dos Business Analytics pois muitas
vezes os dados so representados em totais ou somatrios, perdendo-se informao sobre esses valores
ao longo do tempo, sendo um desperdcio, pois essa informao temporal est quase sempre presente
nas bases de dados que do suporte aos Business Analytics.

J na Figura 44 apresentado outra abordagem de filtros dinmicos, em que no topo so apresentados


diversos grficos sobre os dados e em baixo apresentada a tabela com os dados. No entanto, possvel
utilizar sliders duplos sobre os grficos e definir assim intervalos de visualizao. A interseco dos
intervalos desses vrios grficos vai, em tempo real, actualizar o contedo da tabela. Desta forma o
utilizador consegue explorar e filtrar os dados de uma forma rpida e ao mesmo tempo visual e
apelativa.

Figura 45: Grfico com dados reais e dados futuros estimados

2/2
Projeto em curso com o apoio de:

SmartContentProvider | Entidade Promotora:

Parceiros:

Nas vertentes preditivas do Business Analytics existe tambm a necessidade de criar novas formas de
representar os dados preditivos. Na Figura 45 apresentado um grfico que em parte um grfico
completamente normal, mas depois a partir de certo ponto, a sua recta representativa dos dados, deixa
de ser um simples segmento de recta e passa a ser uma rea com diverso tons da mesma cor do
segmento de recta.
A interpretao deste grfico preditivo efectuada com os dados concretos registados no passado, na
rea a branco e com o segmento de recta. Na rea a cinzento, passam a ser exibidos os dados preditivos.
Esses dados preditivos so apresentados com tons diferentes consoante o grau de certeza do algoritmo
preditivo, isto , o tom mais escuro representa dados com probabilidade elevada de ocorrerem, os tons
claros representam zonas de pouca probabilidade da recta vir a assumir esses valores.
No caso concreto da figura, so apresentados dez tons, sendo o tom mais escuro representante de uma
probabilidade superior a 90%, os seguintes tons representam decrementos de 10% na probabilidade
dessas previso ocorrer.

Figura 46: Grfico interactivo com filtragem de dados e mapeamento para grfico circular

2/2
Projeto em curso com o apoio de:

SmartContentProvider | Entidade Promotora:

Parceiros:

A Figura 46 apresenta outro grfico interactivo que permite ao utilizador seleccionar a rea que
pretende analisar em maior pormenor. Ao ser efectuada essa seleco, as 4 variveis apresentadas neste
exemplo, so imediatamente calculadas e mapeadas para um grfico circular para permitir que o
utilizador analise mais facilmente a proporo entre elas.

Figura 47: Grfico interactivo com definio do intervalo e das variveis de anlise

A Figura 47 apresenta um grfico interactivo relativamente simples, mas que permite ao utilizador
explorar os dados e tentar descobrir relaes e efeitos entre as diversas variveis envolvidas. Para tal,
possvel escolher (do lado direito) as diversas variveis que quer visualizar em simultneo, evitando
excesso de informao e confuso no grfico, ao mesmo tempo que permite apresentar apenas as
variveis em comparao. Para alm disso, ainda possvel limitar o intervalo de observao. Esse
intervalo de observao acaba por funcionar tambm como zoom e permitir a anlise de pontos
concretos.

2/2
Projeto em curso com o apoio de: