Escolar Documentos
Profissional Documentos
Cultura Documentos
Parceiros:
01/02/2013
2/2
Projeto em curso com o apoio de:
Parceiros:
ndice
ndice de Figuras......................................................................................................................................... 2
ndice de Tabelas ........................................................................................................................................ 4
Introduo .................................................................................................................................................. 5
O que so Business Analytics ..................................................................................................................... 7
reas de utilizao de Business Analytics ................................................................................................ 11
Business Analytics, diferentes tipos ......................................................................................................... 12
Descrio .............................................................................................................................................. 12
Perspectiva ........................................................................................................................................... 12
Preditivos .............................................................................................................................................. 13
Anlise a diferentes abordagens em Business Analytics .......................................................................... 19
1 Abordagem Workflows simples e dashboards ............................................................................. 19
2 Abordagem Workflows complexos, Pivot Tables e Dashboards................................................... 23
3 Abordagem Pivot Tables Complexas, rvores de deciso e clusterizao de dados .................... 30
4 Abordagem Validao cruzada e tabelas de contingncia ........................................................... 40
5 Abordagem Filtragem interactiva de dados e grficos de disperso............................................ 48
Perspectivas Futuras ................................................................................................................................ 54
2/2
Projeto em curso com o apoio de:
Parceiros:
ndice de Figuras
Figura 1: rvore de deciso simples ......................................................................................................... 15
Figura 2: Seleco de modelo e de workflow de processamento ............................................................ 20
Figura 3: Visualizao por variveis dos modelos utilizados no modelo ................................................. 21
Figura 4: Dashboard interactivo para manipulao das variveis e obteno de alteraes imediatas . 22
Figura 5: Obteno dos dados a partir de operaes elementares e tabelas de bases de dados ........... 23
Figura 6: Criao de relaes que no existam j nas diversas tabelas associadas ................................. 24
Figura 7: Deteco de erros ou inconsistncias nas operaes pretendidas........................................... 25
Figura 8: Fluxo completo de processamento ........................................................................................... 26
Figura 9: Observao de resultados ......................................................................................................... 26
Figura 10: Visualizao alternativa em Dashboard dos dados processados ............................................ 27
Figura 11: Reutilizao do fluxo anterior como um componente de um novo fluxo............................... 29
Figura 12: Insero de dados atravs de um pivot table ......................................................................... 30
Figura 13: Tabela em bruto e ordenao ................................................................................................. 31
Figura 14: Segunda ordenao e primeira filtragem ................................................................................ 32
Figura 15: Resultado final das ordenaes e filtragens............................................................................ 33
Figura 16: Eliminao de outliners e valores aberrante........................................................................... 33
Figura 17: Diversas visualizaes dos dados ............................................................................................ 35
Figura 18: Alterao manual e de fine-tuning das rvores de deciso .................................................... 36
Figura 19: Criao automtica de cluster a partir dos dados ................................................................... 37
Figura 20: Comparao dos resultados obtidos pelos diversos modelos ................................................ 39
Figura 21: Diagrama geral desta abordagem de business analytics ........................................................ 40
Figura 22: Definio dos conjuntos para validao cruzada .................................................................... 41
Figura 23: Modelao avanada baseada na validao cruzada.............................................................. 42
Figura 24:rea de comparao entro os diversos modelos aplicados ao mesma tema .......................... 43
Figura 25: Testes de contingncia e no paramtricos ............................................................................ 44
Figura 26: Anlise estatstica aos dados finais obtidos ............................................................................ 45
Figura 27: Insero/edio e remoo dos dados com visualizao imediata ........................................ 49
Figura 28: Viso expandida de anlise dos dados .................................................................................... 50
Figura 29: Exemplo de possveis resultados em grficos de disperso.................................................... 51
Figura 30: Viso mista de visualizao e de interaco ........................................................................... 53
2/2
Projeto em curso com o apoio de:
Parceiros:
2/2
Projeto em curso com o apoio de:
Parceiros:
ndice de Tabelas
2/2
Projeto em curso com o apoio de:
Parceiros:
Introduo
O presente documento Estado da Arte sobre Business Analytics e Perspectivas Futuras constitui um
dos resultados da fase de Estudos Preliminares do projecto SmartCP. Em particular sumariza o
trabalho realizado no contexto das tarefas Levantamento do estado da arte, estudo e experimentao
sobre business analytics e Tendncias e evolues futuras na rea de business analytics.
Com este estudo, pretende-se ganhar conhecimento e uma viso geral do panorama referente s
diversas abordagens e tcnicas de Business Analytics, nomeadamente das suas capacidades, abordagens
/ funcionalidades e interfaces com o utilizador. Desta forma, pretende-se apreender ao mximo as
metodologias e tecnologias utilizadas nas diferentes abordagens de representar e interagir com
informao / dados para a extrao de conhecimento. pretendido ainda identificar pontos fortes e
pontos fracos nas diversas abordagens.
ainda de salientar, que o foco do presente documento no analisar aplicaes e ferramentas
concretas dedicadas a Business Analytics, mas sim, obter uma viso transversal dos vrios tipos de
Analytics que se encontram disponveis.
Por fim, com este documento e aps o seu estudo inicial de estado da arte na rea de Business Analytics,
pretende-se ainda inferir possveis evolues futuras no domnio dos Business Analytics e das suas
funcionalidades.
O que so Business Analytics onde se faz uma introduo e explicao dos principais conceitos,
funcionalidades e objectivos dos Business Analytics
reas de utilizao dos Business Analytics, nesta seco so apresentadas as diversas reas de
aplicao dos Business Analytics e so apresentados alguns exemplos concretos para cada rea
com o objectivo de melhor elucidar sobre as suas aplicaes prticas.
2/2
Projeto em curso com o apoio de:
Parceiros:
Anlise das diferentes abordagens em Business Analytics, esta seco faz uma anlise genrica
s diferentes formas e abordagens de executar processos de Business Analytics. Desde as mais
simplistas s mais complexas. Nesta seco existe uma subseco para cada abordagem,
nomeadamente:
o Workflows simples e dashboards
o Workflows complexos, Pivot Tables e Dashboards
o Pivot Tables Complexas, rvores de deciso e clusterizao de dados
o Validao cruzada e tabelas de contingncia
o Filtragem interactiva de dados e grficos de disperso
2/2
Projeto em curso com o apoio de:
Parceiros:
2/2
Projeto em curso com o apoio de:
2/2
Projeto em curso com o apoio de:
Parceiros:
Parceiros:
Os Business Analytics, de uma forma mais objectiva, podem ainda ajudar na obteno de perguntas e
respostas do tipo:
Quantos influenciaram
Do ponto de vista histrico, os Business Analytics esto intimamente ligados aos processos de
industrializao iniciados no fim do seculo XIX. Com o surgimento de linhas de produo, fluxos
industriais, de distribuio e de retalho complexos, surgiu ento a necessidade de colectar dados sobre
as diversas etapas dos processos e efectuar estudos e concluses sobre esses mesmos dados. Tendo em
conta que essas necessidades surgiram antes do surgimento e massificao dos sistemas
computacionais, essas anlises e cruzamento de dados para obter novas concluses, eram efectuadas
manualmente, desde o registo manuscrito dos dados, ao seu tratamento, processamento e
apresentao de resultados em tabelas e grficos. Com essas ferramentas bastante rudimentares
tambm podiam ser efectuados estudos predictivos recorrendo a amostragens estatsticas. No entanto
tais aces eram pouco utilizadas devido a serem um processo moroso, dispendioso e inteiramente
manual.
Dos nomes mais sonantes dos pioneiros da utilizao destes estudos sobre as primeiras linhas de
montagem esto nomes como o de Frederick Taylor e de Henry Ford. Frederick Taylor desenvolveu
vrios conceitos tericos sobre a optimizao dos processos de trabalho das indstrias e o seu
2/2
Projeto em curso com o apoio de:
Parceiros:
consequente aumento de eficincia, para tal recorrendo recolha de dados de todas as etapas e
consequente anlise e optimizao. Por sua vez, Henry Ford foi um dos pioneiros que primeiro aplicou
estas medidas na prtica, optimizando de um maneira nunca antes vista todo o processo das linhas de
montagem do fabrico de automveis.
Esse processo de anlise e de estudo, s se tornou mais gil, inteligente e sobretudo rpido a partir da
dcada de 1960, em que a utilizao dos computadores se massificou tanto para uso empresarial como
para uso pessoal. At aos dias de hoje, estes processos tm sofrido inmeras evolues devido ao
aumento da capacidade de processamento e de armazenamento de dados. No entanto, as evolues
principais tm ocorrido na rea de novos algoritmos matemticos e na criao de novos interfaces
grficos que permitiram revolucionar a interaco e visualizao dos dados com o utilizador.
2/2
Projeto em curso com o apoio de:
Parceiros:
Gesto de stock
Cadeias de transporte
Telecomunicaes
Anlise de preos
Deteco de comportamentos
Deteco de coleces
2/2
Projeto em curso com o apoio de:
Parceiros:
Descrio
Perspectiva
Predictivos
Descrio
Os Business Analytics de Descrio, como o nome indica, so destinados principalmente a obter e retirar
novo conhecimento ou concluses a partir de dados armazenados ao longo do tempo. Este tipo de
aces, recorre fortemente a grandes quantidades de dados armazenados em bases de dados. A sua
aco, muitas vezes semelhante a tcnicas de data-warehousing e de clustering. Este tipo de Business
Analytics so utilizados para quantificar e qualificar relaes nem sempre explcitas.
Um exemplo concreto de utilizao deste tipo de Business Analytics a anlise e classificao de clientes
de acordo com as suas preferncias, gostos, historial e hbitos de consumo.
Perspectiva
J os Business Analytics de Perspectiva so os destinados a auxiliar em decises, baseando-se em
tcnicas de optimizao e de simulao. Esta abordagem tem conhecimento de todas as variveis que
envolvem e contextualizam uma deciso. Essas variveis, podem at incluir outros resultados
provenientes de tcnicas de Business Analytics Preditivos.
2/2
Projeto em curso com o apoio de:
Parceiros:
Todos estes modelos de apoio deciso so optimizados no sentido de maximizar algumas variveis e
frequentemente de em simultneo, minimizar outras.
Um exemplo concreto na tomada de deciso sobre a compra ou no de determinados ttulos de aces
em bolsa, fundos de investimento ou mercado primrio de obrigaes. Nestes casos, a principal varivel
de maximizao a probabilidade de ganhos. J a varivel de minimizao ser o factor risco, por
desvalorizao das aces, fundos de investimento ou no caso das obrigaes, do risco associado ao
incumprimento por parte da entidade emissora das obrigaes. No entanto, podem existir variveis
secundrias, como por exemplo, ndices de conjectura econmica, volatilidade, ou reas de preferncia
como por exemplo mercados emergentes.
Preditivos
Os Business Analytics Preditivos so utilizados em conjunto com modelos de previso estatstica,
modelos predictivos e tcnicas de inteligncia artificial, mais concretamente, aprendizagem e
classificao automtica.
A fronteira de separao entre os Business Analytics Preditivos e os Business Analytics de Perspectiva
muito tnue, pois embora tenham fins e objectivos diferentes, um acaba por utilizar o outro e vice versa
durante as suas operaes.
O objectivo dos Business Analytics Preditivos tentar encontrar padres em dados e identificar e
antever riscos ou oportunidades. So mais frequentemente utilizadas estas tcnicas nas reas de
marketing, de servios financeiros, em seguradoras, na rea de telecomunicaes, de retalho e de
farmcia e sade.
Existem diversas tcnicas para obter resultados esperados nos Business Analytics preditivos, os mais
utilizados so:
A aprendizagem Bayesiana, uma grande famlia de algoritmos de aprendizagem automtica. Todos os
algoritmos pertencentes a esta famlia se baseiam em clculos probabilsticos que tm como base o
teorema de Bayes. Dentro desta famlia destaca-se o Naive Bayes. Este algoritmo um dos algoritmos
de aprendizagem automtica mais conhecido e utilizado. A sua designao de "Naive" provm do
algoritmo pressupor que os vrios atributos que descrevem os objectos so independentes, o que na
2/2
Projeto em curso com o apoio de:
Parceiros:
realidade raramente acontece. Assim, entre os vrios atributos que discriminam a classe do objecto,
cada atributo contribui independentemente para a probabilidade do objecto fazer parte de uma classe
ou outra, no havendo qualquer correlao entre os diversos atributos na hora de decidir a classe do
objecto.
No entanto, o facto do algoritmo fazer essa simplificao no implica que ele obtenha maus resultados.
Pelo contrrio, o algoritmo Naive Bayes um algoritmo que na maior parte dos domnios apresenta
bons resultados.
Uma das maiores famlias de algoritmos de aprendizagem a famlia dos algoritmos baseados em
rvores de deciso. Esta tambm uma das famlias mais fceis de perceber conceptualmente o seu
2/2
Projeto em curso com o apoio de:
Parceiros:
funcionamento. Simplesmente baseiam-se em simples rvores de deciso onde cada n uma condio
e cada folha um resultado final. A Figura 1 apresenta um exemplo para determinar se um dia indicado
ou no para jogar tnis.
O funcionamento da rvore muito simples. Parte-se da raiz, que o primeiro n e onde se encontra a
primeira condio, depois segue-se caminho conforme o atributo que cumpre essa condio. Cada ramo
da rvore corresponde a um dos valores possveis do atributo do n de onde partem esses ramos. Seguese sucessivamente para o n seguinte at chegar s folhas da rvore. Cada folha tem a classificao final,
podendo haver vrias folhas com o mesmo resultado.
Desta descrio possvel concluir que uma rvore de deciso no passa de uma disjuno de
conjunes lgicas sendo os ramos as conjunes e os ns as disjunes.
Como se pode verificar, o funcionamento dos algoritmos de aprendizagem baseados em rvores de
deciso bastante simples. No entanto, a construo da rvore em si, um processo mais complicado
e a, que geralmente residem as diferenas entre os vrios algoritmos concretos desta famlia.
Uma das principais caractersticas utilizadas para construir a rvore, saber obter a deciso em cada n
que permita ter uma entropia mnima, o que equivalente a dizer, obter a deciso em cada n com o
2/2
Projeto em curso com o apoio de:
Parceiros:
maior ganho de informao possvel. Isto com o objectivo de tornar a rvore o mais pequena possvel e
consequentemente com menos testes condicionais para se chegar aos resultados finais.
Os algoritmos de rvores de aprendizagem mais largamente utilizados so o ID3 e o C4.5
O algoritmo de aprendizagem automtica ID3 foi inventado por Ross Quinlan e considerado um marco
e um ponto de partida nos algoritmos de rvores de deciso, pois um dos mais simples e fceis de
compreender. O seu modo de criao da rvore de deciso baseado no clculo da entropia e do ganho
de informao j anteriormente referidos. Simplesmente ele calcula o ganho de informao para todas
as disjunes de atributos sobre o nosso conjunto. O atributo/disjuno que apresentar maior ganho de
informao ser imediatamente colocado na raiz da rvore. Depois disto todo o processo repetido
iterativamente para cada sub-ramo da rvore, at esgotar os atributos diferenciadores dos nossos
elementos do conjunto em estudo.
No entanto, o algoritmo ID3, devido a seguir a regra da escolha dos ns sempre em funo da menor
entropia possvel, resulta num algoritmo com tendncias para sobre-ajustamento. Assim obtm bons
resultados a classificar o conjunto de treino usado para a sua aprendizagem, mas os resultados so
fracos quando testado sobre um novo conjunto de dados diferentes dos dados utilizados durante a
aprendizagem.
Para superar este problema e permitir que o algoritmo consiga mais facilmente identificar e classificar
correctamente novos casos foram implementadas varias melhorias, culminando no algoritmo de
aprendizagem automtica C4.5.
A diferenciao do C4.5 e o que o torna numa verso melhorada do ID3 que conta com nova
abordagem e regras na construo da rvore, para que ela no seja sobre-ajustada aos casos de treino.
Este algoritmo tambm foi desenvolvido pelo mesmo autor do ID3, Ross Quinlan.
Tanto o algoritmo ID3 como o C4.5 so algoritmos open source e livres o que explica em parte a sua
grande adopo pelos mais diversos sistemas e ferramentas. No entanto, existe uma verso comercial
do C4.5 com alguns melhoramentos matemticos chamada de C5.0.
Todo o processo de construo da rvore de deciso do C4.5 igual ao do algoritmo ID3. A principal
diferena e melhoria que o C4.5 aps efectuar a construo da rvore de deciso, efectua a chamada
poda da rvore, com o objectivo de cortar da rvore os ramos demasiado longos. Esses ramos
demasiado longos so ao mesmo tempo ramos demasiado especficos e que so responsveis por sobre
ajustar a rvore ao conjunto de aprendizagem.
2/2
Projeto em curso com o apoio de:
Parceiros:
Esta tcnica chamada de ps-poda, pois ocorre aps a rvore estar toda criada. Existem tambm
outros algoritmos da famlia das rvores de deciso que usam outra tcnica apelidada de pr-poda, que
consiste em restringir o crescimento da rvore logo durante a sua criao, tornando o algoritmo mais
gil e rpido.
A ps-poda do C4.5 tem como objectivo reduzir a complexidade da rvore, que implica eliminar algumas
das suas sub-rvores, reduzindo assim a altura da rvore e aproximar as folhas raiz.
Para ser efectuada uma determinada poda efectuada uma avaliao estatstica. Para cada n so
avaliados os erros de classificao que resultam desse n e dos seus ns descendentes; s efectuada
a poda do n se esta no implicar uma reduo no desempenho da rvore. Neste aspecto o C4.5 um
pouco conservador, pois esta avaliao pessimista, de modo a que no se corra o risco de reduzir a
eficcia da rvore. Existem outros algoritmos que "ariscam" mais e efectuam uma poda mais drstica da
rvore.
Outra caracterstica e melhoria do C4.5 em relao ao ID3, que este permite trabalhar com atributos
contnuos ou discretos, enquanto o ID3 apenas permite atributos discretos. Para trabalhar com esses
valores contnuos o C4.5 estima um parmetro de deciso, e consoante o valor da varivel contnua for
superior ou inferior a esse valor assim convertida em valores discretos.
O C4.5, ao contrario do ID3, permite ainda usar atributos desconhecidos durante a criao da rvore, e
que os atributos tenham diferentes pesos entre si.
As redes neuronais tambm so outra famlia bastante utilizada. O seu nome deve-se ao facto de
conceptualmente imitarem as ligaes e a forma com que os neurnios interagem uns com os outros
no crebro humano. Do ponto de vista puramente matemtico, elas so simplesmente modelos
estatsticos de modelao no linear. A principal utilidade e vantagem desta famlia de algoritmos que
ao contrrio das anteriormente referidas, nesta podem ser criados modelos sem que se conhea ou
perceba as relaes entre os dados de input e de output. As redes neuronais tanto podem ser analgicas
ou discretas. Nas redes neuronais analgicas, todos os dados processados so contnuos. J nas redes
neuronais discretas processam valores de natureza discreta, por norma valores lgicos booleanos. Este
segundo tipo por norma o mais amplamente utilizado nos contextos de business Analytics.
2/2
Projeto em curso com o apoio de:
2/2
Projeto em curso com o apoio de:
Parceiros:
Parceiros:
2/2
Projeto em curso com o apoio de:
Parceiros:
A Figura 3 j apresenta a segunda etapa deste procedimento em que possvel analisar individualmente
ou em conjunto as diversas variveis obtidas pela insero dos dados e dos modelos na etapa anterior.
Esta etapa destina-se a que o utilizador possa efectuar um estudo prvio, e que adquira conhecimento
sobre os dados e variveis com que est a manipular.
2/2
Projeto em curso com o apoio de:
Parceiros:
2/2
Projeto em curso com o apoio de:
Parceiros:
Figura 4: Dashboard interactivo para manipulao das variveis e obteno de alteraes imediatas
2/2
Projeto em curso com o apoio de:
Parceiros:
Figura 5: Obteno dos dados a partir de operaes elementares e tabelas de bases de dados
2/2
Projeto em curso com o apoio de:
Parceiros:
Na Figura 7, ento efectuada a utilizao dos dados anteriormente obtidos em conjunto com
workflows de algumas ferramentas que vo produzir concluses sobre os dados em bruto. No exemplo
concreto da Figura 7, a castanho, so apresentados os dados e a azul todos os mecanismos / ferramentas
que vo permitir a extraco de Business Analytics. Neste caso concreto, funcionalidades de ranking, de
filtragem e de anlise.
Ainda nesta fase de construo do fluxo, so tambm indicados imediatamente, os erros presentes no
fluxo (vermelho), isto acontece porque ou o mdulo utilizado no aplicvel ao tipo de dados ou porque
os atributos do mdulo no se encontram correctamente configurados.
2/2
Projeto em curso com o apoio de:
Parceiros:
2/2
Projeto em curso com o apoio de:
Parceiros:
2/2
Projeto em curso com o apoio de:
Parceiros:
A Figura 8 j apresenta todo o fluxo devidamente configurado, operacional e pronto a obter dados e
mtricas de anlise sobre o processamento efectuado. J a Figura 9, apresenta alguns desses resultados
simplesmente na forma grfica. No entanto, estes dois ltimos passos so iterativos e o utilizador pode
voltar aos mdulos de processamento (Figura 8) sempre que desejar alterar os blocos de processamento
e anlise, e assim, efectuar a experimentao e recombinao de dados para simplesmente navegar de
diferentes formas na informao ou para obter novas concluses.
Na Figura 10 apresentada outra forma de visualizao dos mesmos dados j processados pelo fluxo
anterior. No caso concreto da Figura 10, apresentado um dashboard com trs elementos distintos, um
mostrador analgico, um grfico e por fim uma tabela. Esta forma mais elstica e enriquecida de
2/2
Projeto em curso com o apoio de:
Parceiros:
visualizar os dados com recurso a um dashboard pretende tambm facultar ao utilizador novas formas
de visualizar e oportunidades de obter novas concluses.
2/2
Projeto em curso com o apoio de:
Parceiros:
2/2
Projeto em curso com o apoio de:
Parceiros:
2/2
Projeto em curso com o apoio de:
Parceiros:
A Figura 12 apresenta o primeiro passo destinado obteno dos dados. Como ponto de partida temse uma pivot table (fundo da Figura 12). As vantagens de uma pivot table em relao a uma tabela
normal so inmeras, nomeadamente a facilidade em filtrar dados, ordenar, efectuar contagens e obter
contagens estatsticas. A Figura 12, primeiro plano, j apresenta um menu de seleco das colunas que
sero importadas para o modelo de Business Analytics preditivo.
A titulo de exemplo das vantagens de utilizar pivot tables de seguida apresentado um exemplo
concreto da sua utilizao.
2/2
Projeto em curso com o apoio de:
Parceiros:
Na Figura 13 do lado esquerdo, apresentada uma tabela de dados em bruto sem qualquer filtragem
ou ordenao. A mesma Figura 13 do lado direito, j apresenta a mesma tabela ordenada por ordem
alfabtica do atributo da localidade. Na Figura 14, apresentada uma segunda ordenao sobre a
primeira j efectuada. Desta forma possvel observar que para cada localidade (que j se encontram
ordenadas) efectuado um sub-ordenamento no escalo.
Aps estas ordenaes, so ento efectuadas filtagens. Na Figura 14 apresentada a aco de filtrar
apenas por um tipo de localidade, sendo o resultado apresentado na Figura 15 (lado esquerdo). Ainda
na Figura 15 apresentado o resultado de outra filtragem sobre a anterior, nomeadamente a filtragem
por localidade de vora e com propina paga.
Desta forma possvel observar que com poucos passos possvel com um pivot table, ordenar e filtrar
mltiplas vezes obtendo de uma forma rpida e intuitiva um sub conjunto especifico e eliminar assim a
informao suprflua que no pretendida. Este mecanismo muito importante como primeiro passo
de qualquer mecanismo de Business Analytics, pois permite que sejam analisados apenas os dados
interessantes, excluindo assim os que iriam gerar entropia sem adicionar valor ou concluses.
2/2
Projeto em curso com o apoio de:
Parceiros:
2/2
Projeto em curso com o apoio de:
Parceiros:
Aps os dados serem importados a partir da pivot table, pode ser efectuado um aprimoramento dos
dados. A Figura 16 apresenta a remoo de valores outliners ou aberrantes. Este tipo de valores so
registos que se destacam anormalmente da distribuio normal dos dados e por isso so considerados
aberrantes. A eliminao destes valores de extrema importncia, porque iriam ter efeitos bastante
negativos no modelo e nos resultados preditivos no sistema de Business Analytics.
Para tal ser efectuado, o utilizador apenas tem de seleccionar uma linha da tabela da Figura 16, sendo
imediatamente apresentado um grfico da distribuio dessa varivel num grfico. Nela, o utilizador
apenas tem de marcar a amarelo, como visvel na Figura 16, a zona que pretende que os valores sejam
excludos.
2/2
Projeto em curso com o apoio de:
Parceiros:
Aps os dados serem inseridos a partir de pivot tables e eliminados os valores aberrantes, existe a
possibilidade (Figura 17) de visualizar os dados em diversos grficos e tabelas de disperso onde
possvel obter um apanhado geral dos dados que vo alimentar o modelo de aprendizagem.
Na Figura 17 possvel encontrar diferentes tipos de grficos para permitirem uma melhor anlise dos
dados. Alguns so dedicados apenas a uma varivel, outros exibem vrias, no entanto alguns ainda
mostram os relacionamentos entre diversas variveis. Do lado esquerdo so apresentados trs grficos.
O primeiro (topo), uma simples frequncia de contagem de uma nica varivel binria. Por baixo,
encontra-se outro grfico de frequncia de uma varivel discreta. Em baixo, um grfico circular que
efectua a contagem e comparao da frequncia de diversas variveis.
2/2
Projeto em curso com o apoio de:
Parceiros:
Do lado esquerdo da Figura 17, no topo, est presente um dos grficos mais importantes da figura. Esse
grfico faz um cruzamento das variveis entre si, em todas as combinaes possveis, sendo uma ptima
maneira de identificar relaes entre os diferentes pares de variveis.
Do lado direito, centro da Figura 17 aparece um grfico de box plot para cada varivel, estando aqui
tambm latente o sentido de comparao e de obteno de similaridades entre as diversas variveis
envolvidas.
Por fim, no lado direito inferior da Figura 17 so apresentadas as tabelas com as diversas variveis e com
os diversos resultados em cada varivel.
2/2
Projeto em curso com o apoio de:
Parceiros:
Na Figura 18 apresenta j a definio da rvore de deciso que vai ser utilizada para apresentar os dados
de Business Analytics Preditivos. Neste passo, o utilizador pode manualmente alterar os diferentes ns
de deciso da rvore e observar imediatamente o efeito dessas alteraes nos grficos que representam
a amostragem de uma ou vrias variveis.
Para uma maior informao sobre a constituio e funcionamento das rvores de deciso, assim como
obter os melhores resultados delas a partir de ns de mnima entropia, consultar a Seco de Business
Analytics Preditivos na pgina 13.
2/2
Projeto em curso com o apoio de:
Parceiros:
A Figura 19, apresenta os resultados de clusterizao a partir dos dados. Essa aco tem como por
objectivo segmentar os dados e determinar os quais so relevantes, ou no, para a rvore de deciso
anteriormente definida.
No topo esquerdo da Figura 19 apresentado novamente um grfico circular onde possvel observar
o peso de cada varivel para o modelo construdo tendo em conta a rvore de deciso definido
anteriormente. No canto inferior esquerdo da Figura 19 apresentado um diagrama onde possvel
visualizar as separaes dos dados num determinado n da rvore para os dados de teste em questo.
J do lado direito da Figura 19, no topo apresentada uma simples tabela com os valores das diversas
variveis. No entanto os grficos mais importantes da Figura 19 so os que ocupam toda a parte direita
inferior da figura. Eles so gerados automaticamente e atravs de algoritmos de clustering, Nestes
grficos possvel observar a criao de grupos dentro de cada varivel. Isto bastante til para quando
se pretende identificar grupos, famlias ou relaes que priori no se sabia que existiam.
Por fim a Figura 20 apresenta os resultados finais do modelo utilizado. Permite ainda que sejam
efectuadas comparaes com os dados de aprendizagem e com outros modelos previamente
construdos. Assim e tendo sempre como referencia os dados de aprendizagem, o utilizador por via de
comparaes, pode seleccionar qual o modelo com melhor resultados e assim optimizar os resultados
finais da aplicao deste tipo de ferramentas de Bussines Analytics. No canto superior esquerdo da
Figura 20 e no lado direito possvel efectuar a comparao entre o modelo de treino o resultado dos
diversos modelos obtidos. Nesses grficos possvel efectuar essas comparaes na preciso, cobertura,
erro, medida-F e ROC (Rate Of Change). No canto inferior direito da Figura 20 so apresentados os
mesmos dados mas na forma de simples tabela.
2/2
Projeto em curso com o apoio de:
Parceiros:
2/2
Projeto em curso com o apoio de:
Parceiros:
2/2
Projeto em curso com o apoio de:
Parceiros:
As etapas desta abordagem, so elas, a obteno dos dados, a etapa de treino, validao e teste por via
de tcnicas de validao cruzada, a etapa de modelao avanada, onde podem ser efectuadas
optimizaes e alteraes no funcionamento do modelo criado. Depois, surge ainda, a etapa de
comparao entre os modelo e por fim a gerao de relatrios grficos e tabelas para ajudar
interpretao dos resultados finais.
A validao cruzada uma tcnica para avaliar a eficcia de um modelo de aprendizagem, a partir de
um conjunto de dados. Esta tcnica amplamente aplicada a problemas com o objectivo de criar um
modelo de aprendizagem ou de efectuar predies.
O conceito central das tcnicas de validao cruzada a partio do conjunto de dados em subconjuntos
exclusivos. Posteriormente, utiliza-se alguns destes subconjuntos para a aprendizagem do modelo
(dados de treino) e os restantes subconjuntos sero utilizados para validao ou teste do modelo criado.
Existem diversas formas de realizar o particionamento dos dados, no entanto, a mais utilizada a k-fold.
Este tipo de validao cruzada, consiste em dividir o conjunto total de dados em k subconjuntos
exclusivos do mesmo tamanho. A partir deste ponto, um subconjunto utilizado para teste e os k-1
restantes, so utilizados para a aprendizagem do modelo. Este processo realizado k vezes alternando
2/2
Projeto em curso com o apoio de:
Parceiros:
de forma circular o subconjunto de teste. No final das k iteraes, calculam-se ento mtricas de
preciso e de cobertura sobre os testes efectuados.
A Figura 22 apresenta a obteno dos dados partindo de uma pivot table para melhor flexibilidade, na
Figura 13 e na Figura 14 na Pgina 32 so apresentados em maior detalhe os benefcios das pivot tables.
De seguida, ocorre a definio dos subconjuntos da amostra, que serviro para o treino, validao e
testes dos modelos que sero gerados e utilizados no processo de Business Analytics. A prpria
aplicao, apresenta inicialmente intervalos para esses subconjuntos que serviro de base para a
validao cruzada. No entanto, o utilizador pode manualmente e com uma aco de tipo slide, alterar a
dimenso desses conjuntos e assim obter conjuntos de aprendizagem, teste e validao maiores ou mais
pequenos.
2/2
Projeto em curso com o apoio de:
Parceiros:
Na Figura 23, apresenta-se onde so definidas as medidas de modelao avanadas que iro ser
aplicadas na criao do modelo. Ainda referente Figura 23, no topo esquerdo, so apresentados
parmetros e propriedades referentes ao algoritmo utilizado por via de uma interface grfica. No topo
direito, so apresentados os mesmos atributos, mas em ficheiro de configuraes sem a interface
grfica. Por fim, na mesma figura na parte inferior, so apresentadas as distribuies das variveis
consoante as alteraes efectuadas.
A Figura 24 j apresenta a etapa seguinte, em que possvel comparar os resultados dos diversos
modelos construdos. Cada coluna representa uma nica varivel, mas com os resultados obtidos nos
diferentes modelos. Desta forma, o utilizador pode facilmente escolher o melhor modelo ou detectar
2/2
Projeto em curso com o apoio de:
Parceiros:
incongruncias que tm de ser corrigidas iterativamente na fase anterior do fine-tuning dos diversos
modelos.
2/2
Projeto em curso com o apoio de:
Parceiros:
Destro
2/2
Projeto em curso com o apoio de:
Masculino
21
Feminino
23
Total
44
Parceiros:
Esquerdino
Total
8
29
6
29
14
58
J a matriz confuso uma matriz que permite avaliar o desempenho de um determinado algoritmo de
aprendizagem automtica, pois para um domnio de testes, relaciona a classificao realizada pelo
algoritmo com a classificao verdadeira desse domnio de testes, dando assim no s a quantidade de
erros e acertos, mas tambm os tipos de erros.
Valores
Estimados
A
B
Valores Reais
A
B
VP
FP
FN
VN
Por sua vez, quando referido o conceito de testes no paramtricos est-se a referir a todos os
problemas de anlise ou de predio de uma varivel em que essa varivel no segue uma amostragem
2/2
Projeto em curso com o apoio de:
Parceiros:
ou distribuio normal e a sua varincia no homognea. Por norma quando se utiliza o termo de
testes no paramtricos no contexto da anlise e predio em Business Analytics, pretende-se passar a
ideia qua as ferramentas e mecanismos de anlise no funcionam apenas em casos simples, mas
tambm em casos complexos de dados que podem seguir qualquer distribuio.
2/2
Projeto em curso com o apoio de:
Parceiros:
2/2
Projeto em curso com o apoio de:
Parceiros:
A Figura 27 apresenta o conceito de importao de dados em bruto de outras fontes. No mesmo ecr
possvel efectuar edies e remoes sobre esses dados e visualizar de imediato, as alteraes nos
grficos que representam essas mesmas variveis no lado direito da Figura 27.
Esta abordagem, torna possvel a anlise de dados complexos, reconhecimento de relaes entre
classes, definio de grupos alvo e suporte tomada de decises. Isto tudo sem que o utilizador que
interage com a ferramenta, tenha conhecimentos avanados em estatstica.
2/2
Projeto em curso com o apoio de:
Parceiros:
Tanto a Figura 28 como a Figura 30 apresentam j a anlise e interaco em simultneo com os dados
previamente inseridos. Na Figura 28, para alm dos grficos de diferentes formatos, existem algumas
tabelas interactivas, ou seja, no so apenas de visualizao, o utilizador pode seleccionar diferentes
opes e editar os valores que dizem respeito forma como os grficos so mapeados a partir dos dados
em bruto. Desta forma, torna-se bastante acessvel para o utilizador, efectuar diversas experimentaes
e combinaes para obter novas interpretaes dos dados.
2/2
Projeto em curso com o apoio de:
Parceiros:
A Figura 30 j apresenta outra visualizao, em que a dominar todo o lado esquerdo da figura so
apresentados grficos multivariveis de disperso.
Um grfico de disperso efectua a representao de duas ou mais variveis que so organizadas num
nico grfico, em que uma das variveis est em funo da outra. Uma das variveis representada no
eixo dos x e a outra no eixo dos y no grfico.
Quando uma varivel aumenta com o aumento da outra diz-se que esto positivamente relacionadas.
Por exemplo, quanto maior o ordenado mdio, mais cara a viatura automvel adquirida.
Quando uma das varivel tem o seu valor diminudo com o aumento da outra, diz-se que elas so
negativamente correlacionadas. Por exemplo, a venda de carros menor com o aumento do
desemprego.
2/2
Projeto em curso com o apoio de:
Parceiros:
Este tipo de grfico, permite ainda que seja efectuada uma regresso linear e determinada uma recta,
que mostra o relacionamento mdio linear entre as duas variveis. Com essa recta, acha-se a funo
que nos d o "comportamento" da relao entre as duas variveis, que por sua vez utilizada em
diversos algoritmos de predio utilizados em Business Analytics.
Muitas ferramentas de Business Analytics efectuam este tipo de anlise entre todas as variveis
envolvidas num problema, numa tentativa de evidenciar novas possveis relaes entre certas variveis,
relaes essas que podem ser importantes para tirar concluses sobre os dados.
Do lado direito, aparece um conjunto de grficos para cada varivel. As barras apresentadas nesse
grfico servem para representar a contagem ou frequncia, consoante o contexto, de cada varivel. No
entanto, as barras de cada grfico so interactivas e podem ser arrastadas como se fossem um controlo
de slider. Dessa forma, o utilizador ao mov-las, obtm em tempo real, a respectiva actualizao nos
grficos do lado direito.
2/2
Projeto em curso com o apoio de:
Parceiros:
Para concluir, todos estes elementos grficos de visualizao e de manipulao so pensados no sentido
de apresentar e utilizar o mximo de informao relativa a um conjunto de dados e auxiliar o utilizador
na tomada de decises. Com este tipo de abordagem, a manipulao dos dados rpida e intuitiva e
especialmente interactiva.
2/2
Projeto em curso com o apoio de:
Parceiros:
Perspectivas Futuras
A nvel de perspectivas futuras na rea de Business Analytics esperado uma forte evoluo, tanto no
sentido da eficincia e da interactividade com o utilizador. ainda esperado um aumento da propagao
destas tecnologias para ambiente mobile e tablet.
Ao nvel da eficincia, essas evolues sero em parte, devidas ao aumento das capacidades de
performance computacional, tanto por incremento das capacidades de hardware e de software. Ao nvel
de hardware as melhorias esperadas sero na rea do processamento, das memrias e capacidade de
armazenamento. Ao nvel do software esperado que surjam novos algoritmos matemticos ou a
melhoria dos algoritmos j existentes e que so aplicados nos contextos de Business Analytics. Esses
algoritmos matemticos so muito importantes, pois so a base de todo o Business Analytics no que diz
respeito deteco de padres ou coleces nos dados, deduo de concluses e predio de novos
resultados ou cenrios.
A evoluo nesta rea algo que decorre essencialmente em contextos acadmicos muito especficos e
complicado antever quais os desenvolvimentos acadmicos que esto a ser desenvolvidos mas que
ainda no foram publicados nem validados pela comunidade acadmica.
A propagao as tecnologias moveis e tablet algo que j esta a decorrer a grande velocidade nos dias
de hoje. No entanto, o peso dos dados e a complexidade dos processamentos inerentes aos Business
Analytics ainda algo demasiado complexo para ser inteiramente efectuado em ambiente mobile e
tablet. Assim, necessrio continuar a desenvolver mecanismos inteligentes que mantenham a carga
da maior parte dos dados e do processamentos em servidores centrais e passar apenas o essencial para
o dispositivo mvel, de acordo com as suas capacidades de processamento e de largura de banda.
Tambm necessrio ter em conta, que a vertente dos Business Analytics com mais relevo e interesse
de ser utilizada em dispositivos mveis a de visualizao e explorao dos dados finais do processo de
Business Analytics.
2/2
Projeto em curso com o apoio de:
Parceiros:
A vertente de Business Analytics que pode mais facilmente ser antecipada e vista com exemplos
concretos de perspectiva futura a rea de visualizao, anlise, explorao e de interaco com os
dados finais dos diversos processos de Business Analytics. Desta forma, esta vertente ser a mais
explorada e aprofundada no que diz respeito s perspectivas futuras na rea de Business Analytics.
de salientar que o factor visual e interactivo muito importante para o utilizador conseguir observar,
apreender, analisar e concluir sobre os dados apresentados. Para esse processo ser eficaz, no basta
recorrer apenas a simples grficos de barras ou simples tabelas. necessrio utilizar mtodos disruptivos
de visualizao e de interaco para garantir que o utilizador obtm valor acrescentado na utilizao de
sistemas e plataformas de Business Analytics de descrio.
De seguida sero apresentados um conjunto de vrias ideias, conceitos e abordagens de visualizao
e/ou interaco com dados e que facilmente poder ser implementada e adaptada num futuro prximo
aos contextos de utilizao dos Business Analytics.
2/2
Projeto em curso com o apoio de:
Parceiros:
Na Figura 31 apresentada uma forma de visualizao e de interaco com os dados relacionados entre
si. Essa relao entre os elementos assume a forma de um grafo, no entanto, os ns do mesmo
encontram-se sobre reas que se interceptam entre si. Por exemplo, no lado direito da figura possvel
observar uma regio maior referente Europa que por sua vez engloba vrios pases e no caso do Reino
Unido ainda apresenta subconjuntos referentes a algumas cidades. Desta forma, todas as relaes
existentes e ns existentes no grafo, esto contextualizadas geograficamente, informao que seria
perdida se fosse apresentado um grafo simples.
Para completar a interaco com o utilizador, existe na parte inferior um slider referente escala
temporal e que ao ser arrastada permite ver em tempo real a evoluo das ligaes e o surgimento de
novos ns ao longo do tempo. Desta forma, este grafo enriquecido em relao aos grafos normais,
oferece mais interaco e o ganho da informao espacial/geogrfica e a informao temporal que
seriam impossveis de obter com um grafo simples.
2/2
Projeto em curso com o apoio de:
Parceiros:
A Figura 32 apresenta um mtodo de visualizao em que por um lado se pode ter a noo hierrquica
das diferentes classes de dados. Por outro lado tambm se pode obter facilmente a noo de proporo
das classes de cada nvel. No exemplo apresentado na Figura 32 apenas so apresentados os dados a
dois nveis, no entanto, esta metodologia pode ser aplica a diversos nveis sem que o diagrama se torne
confuso.
2/2
Projeto em curso com o apoio de:
Parceiros:
2/2
Projeto em curso com o apoio de:
Parceiros:
A Figura 33 apresenta outra conjugao de diversas formas de visualizao e de interaco com diversos
dados. Nesta abordagem apresentada informao geogrfica, assinalada em destaque no mapa,
grficos de barras com informao referente aos diversos pases da regio previamente assinalada no
mapa. Ainda sobreposto sobre o mapa um misto de grfico de radar/circular com percentagens. Cada
uma dessas percentagens tem uma cor que equivale/representa os diversos logotipos apresentados na
parte inferior da imagem.
Ao nvel da interactividade, o utilizador pode escolher a zona geogrfica (no lado esquerdo da figura) e
o logotipo apresentado na parte inferior da figura. Com estas aces todo o diagrama readaptado e
reorganizado de modo a exibir a informao pretendida.
Em certas situaes que necessrio observar grandes quantidades de dados e ao mesmo tempo poder
ter-se muito detalhe e foco sobre esses mesmos dados so geradas situaes de compromisso. Em que
ao ter-se uma viso geral perdemos detalhe. Por outro lado se tivermos bastante detalhe acabamos por
perder a viso geral do conjunto de dados.
A Figura 34 apresenta um soluo grfica para tentar solucionar ou pelo menos para minimizar esse
problema. So apresentados dois grficos, o inferior apresenta-nos a viso geral de todos os dados, onde
possvel ter uma viso clara de todo o conjunto. Ainda sobre esse grfico inferior, existe uma janela de
seleco que permite ser arrastada ao longo desse grfico. Toda a rea abrangida por essa janela
representada em pormenor e detalhe no grfico superior.
Assim desta forma consegue-se minimizar a problemtica de ter uma viso global em simultneo com a
viso detalhada.
2/2
Projeto em curso com o apoio de:
Parceiros:
se obter um novo grau de observao e deteco visual de relaes ou efeitos colaterais entre as
diversas variveis presentes nos dados.
2/2
Projeto em curso com o apoio de:
Parceiros:
2/2
Projeto em curso com o apoio de:
Parceiros:
Na Figura 37 tambm so conjugadas diversas formas de visualizar e de interagir com os dados. Aqui a
interaco do utilizador resume-se a seleccionar um pais para obter sua a informao especifica, ou a
clicar nas zonas de oceano para obter informaes ao nvel global. Sobre cada pais representada um
circulo que representa os dados assinalados, consoante o tamanho desse circulo assim representada
a sua ordem de grandeza, possibilitando a comparao entre pases. Sempre que o utilizador selecciona
uma regio diferente, obtm imediatamente os grficos por sector (parte inferior direita da figura) assim
como o histrico ao longo do tempo (parte inferior esquerda da figura).
2/2
Projeto em curso com o apoio de:
Parceiros:
2/2
Projeto em curso com o apoio de:
Parceiros:
2/2
Projeto em curso com o apoio de:
Parceiros:
A Figura 41 apresenta uma abordagem para mapear num calendrio diferentes tipos de
eventos/ocorrncias e a sua severidade ou contagem num determinado dia. Por exemplo, poder-se-ia
associar a cor verde aos dias em que se obtm receitas, a vermelho os dias com despesas. O tamanho
dos crculos assinalados no mapa iram ser valores relativos e representariam com diferentes tamanhos
os diferentes valores de receitas e despesas.
2/2
Projeto em curso com o apoio de:
Parceiros:
2/2
Projeto em curso com o apoio de:
Parceiros:
Figura 44: Sliders mltiplos em grficos para filtragens dinmicas em tempo real
2/2
Projeto em curso com o apoio de:
Parceiros:
A Figura 43 apresenta um conjunto de dados que por norma seriam apresentados num simples grfico
de barras como o somatrio da pontuao de cada jogador. No entanto, nesta representao foi
adicionada a noo temporal, obtendo assim, o percurso e evoluo de cada jogador ao longo do tempo.
Este conceito de grfico extremamente importante para o contexto dos Business Analytics pois muitas
vezes os dados so representados em totais ou somatrios, perdendo-se informao sobre esses valores
ao longo do tempo, sendo um desperdcio, pois essa informao temporal est quase sempre presente
nas bases de dados que do suporte aos Business Analytics.
2/2
Projeto em curso com o apoio de:
Parceiros:
Nas vertentes preditivas do Business Analytics existe tambm a necessidade de criar novas formas de
representar os dados preditivos. Na Figura 45 apresentado um grfico que em parte um grfico
completamente normal, mas depois a partir de certo ponto, a sua recta representativa dos dados, deixa
de ser um simples segmento de recta e passa a ser uma rea com diverso tons da mesma cor do
segmento de recta.
A interpretao deste grfico preditivo efectuada com os dados concretos registados no passado, na
rea a branco e com o segmento de recta. Na rea a cinzento, passam a ser exibidos os dados preditivos.
Esses dados preditivos so apresentados com tons diferentes consoante o grau de certeza do algoritmo
preditivo, isto , o tom mais escuro representa dados com probabilidade elevada de ocorrerem, os tons
claros representam zonas de pouca probabilidade da recta vir a assumir esses valores.
No caso concreto da figura, so apresentados dez tons, sendo o tom mais escuro representante de uma
probabilidade superior a 90%, os seguintes tons representam decrementos de 10% na probabilidade
dessas previso ocorrer.
Figura 46: Grfico interactivo com filtragem de dados e mapeamento para grfico circular
2/2
Projeto em curso com o apoio de:
Parceiros:
A Figura 46 apresenta outro grfico interactivo que permite ao utilizador seleccionar a rea que
pretende analisar em maior pormenor. Ao ser efectuada essa seleco, as 4 variveis apresentadas neste
exemplo, so imediatamente calculadas e mapeadas para um grfico circular para permitir que o
utilizador analise mais facilmente a proporo entre elas.
Figura 47: Grfico interactivo com definio do intervalo e das variveis de anlise
A Figura 47 apresenta um grfico interactivo relativamente simples, mas que permite ao utilizador
explorar os dados e tentar descobrir relaes e efeitos entre as diversas variveis envolvidas. Para tal,
possvel escolher (do lado direito) as diversas variveis que quer visualizar em simultneo, evitando
excesso de informao e confuso no grfico, ao mesmo tempo que permite apresentar apenas as
variveis em comparao. Para alm disso, ainda possvel limitar o intervalo de observao. Esse
intervalo de observao acaba por funcionar tambm como zoom e permitir a anlise de pontos
concretos.
2/2
Projeto em curso com o apoio de: