Mineração Visual

ALINE LINHARES,
DIEGO COSTA,
RAMON MERCÊS,
RICARDO MATOS
MINERAÇÃO VISUAL
SALVADOR, 29 DE MARÇO DE 2017

Introdução 3
Questão Histórica 3
Principais Fundamentos 5
Aplicabilidade da Tecnologia 7
Tendências 8
Exemplo Prático 9
Conclusão 16
Referências 16
Abstract.
1. Introdução
O avanço das tecnologias de armazenamento proporcionaram um aumento substancial
na produção de informações, tanto em volume, quando em complexidade. Apesar desse
crescimento ser produtivo, a capacidade das pessoas de abstração das informações é limitada
e incompatível com a multiplicidade dos dados, é a chamada “sobrecarga de informação”. O
número de dados armazenado é inversamente proporcional à capacidade humana de
interpretação.
A porta voz para sintetizar os dados e apresentá-los ao usuário de maneira
compreensiva e passível de interpretação é a Mineração Visual de Dados, responsável por
identificar padrões nos conjuntos de informações e, a partir daí, gerar relatórios dos
acontecimentos passados e modelos preditivos. É dividida em Knowledge Discovery in
Databases, que é o processo de retirar informação útil dos dados não processados, e em
Visualização de Informação, que consiste em elaborar métodos visuais que representem essas
informações.
Este trabalho consiste na elaboração e descrição dos principais conceitos ligados à
essa área e a implementação prática de exemplos de mineração visual através de plataformas
de tratamento de dados, o Microsoft Power BI e o Microsoft Excel. Ambos os softwares são
da Microsoft mas requerem, ao usuário, níveis de conhecimento prévio de manipulação de
dados diferentes.
A proposta para a implementação do trabalho é uma análise comparativa entre duas
ferramentas de tratamento de dados que oferece uma Visualização da Informação para o
usuário. As duas ferramentas são o Microsoft Excel 2016 e Microsoft Power BI.
O estudo pretende, levando em consideração as exigências de conhecimento prévio de
cada plataforma, comparar os serviços que eles oferecem ao usuário, com suas metáforas
gráficas, a possibilidade de escalabilidade e os resultados obtidos para determinado conceito e
a usabilidade para clientes leigos e cientistas de dados. Além disso, de maneira mais direta, o
projeto quer entender as metáforas e perceber, de forma ampla, aplicações mais diretas para
cada uma.
2. Questão Histórica
Quando pensamos na visualização de dados pensamos no tema como fruto do
desenvolvimento moderno da estatística. Entretanto, as raízes da visualização de dados são
mais profundas. Desde os mapas mais antigos, a representação visual de dados representa um
artefato de elevada importância para as tantas áreas do conhecimento que surgiram e
evoluíram durante nossa história. Com o tempo, os desenvolvimentos em tecnologia , teoria e
prática matemática e observação empírica permitiram o uso mais amplo de gráficos e novos
avanços na forma e apresentação do conteúdo.
Tabelas das posições das estrelas e outros corpos celestes, diagramas geométricos e
mapas de ajuda à navegação e exploração são alguns dos primeiros artefatos conhecidos que
tem como base a representação de dados afim de transmitir, a quem visualiza, uma forma
abstrata e mais concisa de visualizar dados do mundo real. Os primeiros diagramas e mapas
surgiram até o século XVII. Tais representações se tornaram um marco, à época, na
compreensão de determinados fenômenos bem como na orientação e navegação em um
território ou no mar. As representações tinham como matéria prima fenômenos e
características da natureza e do mundo real, como observações da posição em deslocamento
de corpos celestes e representações gráficas de territórios onde os elementos da representação
serviam como referência espacial para os indivíduos que dela se utilizavam.
No período entre 1600 - 1699 áreas como a astronomia e a física se desenvolviam e
um dos problemas dessa época era a medição. Na física, espaço e tempo, na astronomia,
topografia e expansão territorial. É nesse período que as aplicações, experimentos práticos e
teorias científicas começaram a surgir. Como exemplo, um gráfico (Fig 1) de Michael Florent
Van Langren, em que acredita-se ter sido a primeira representação visual de dados
estatísticos. Michael, baseado na falta de um meio confiável de determinar a longitude no
mar, o qual dificultava a navegação e exploração, desenvolveu um gráfico de linha que mostra
todas as estimativas conhecidas da diferença de longitude entre Toledo e Roma.
Figura 1: Gráfico de Langren determinando a distância, em longitude, de Toledo a Roma.

Fonte: Handbook of Data Visualization, p. 21.
Até 1900 a área de gráficos e representação visual de dados teve um crescimento

exponencial em tipos e formas. Em 1801, os primeiros mapas geológicos foram introduzidos
na Inglaterra por William Smith [1769-1839]. Na década de 1820, o Barão Charles Dupin
(1784-1873) inventou o uso de sombras contínuas (do branco ao preto) para mostrar a
distribuição e o grau de analfabetismo na França. Estes casos demonstram o desenvolvimento
da análise, com base na estatística, de fenômenos sociais e da medicina onde fora utilizado
dados para descobrir, até mesmo, padrões de contaminação de doenças. Um caso importante
foi o do Dr. John Snow, que produziu seu famoso mapa de pontos mostrando mortes por
cólera agrupados em torno da bomba da rua Broad Street, em Londres. Tal elaboração
possibilitou descobrir algo que até então não se sabia.
Um importante nome na evolução da visualização de dados é Francis Galton (1822-1911) que
foi responsável por sofisticar os métodos de elaboração de gráficos estatísticos. Galton era
Meteorologista, Matemático, antropologista e Estatístico e um resumo de seus trabalhos sobre
padrões climáticos que começou em 1861 é encontrado em Meteorographica (1963) . A obra
continha mais de 600 ilustrações de gráficos bem elaborados e mapas contendo dados como
observações sobre pressão barométrica, direção do vento, chuva e temperatura de acordo com
horas do dias durante vários dias seguidos.
De 1950 até a atualidade, a representação de dados passou por uma nova evolução
devido aos avanços tecnológicos inerentes ao desenvolvimento da computação e dos novos
meios de comunicação e visualização de informações. É difícil, dado o contexto histórico da
representação de dados, definir objetivamente responsáveis pela ascensão e criação das
técnicas de visualização de dados. É nítido que muitos foram os contribuintes que trouxeram
algum benefício às técnicas hoje utilizadas e também as diversas áreas. Na atualidade, os
dados não se resumem apenas a determinados fenômenos da natureza, medição de fenômenos
físicos ou distâncias entre locais. Os dados são criados a todo momento em diversas áreas,
todas, direta ou indiretamente, auxiliadas por algum recurso computacional. Desta forma,
áreas como matemática, data mining, estatísticas e interface humano-computador se tornam
imprescindível na análise, extração, representação e interação com representações visuais de
dados tendo impacto profundo na inferência em grandes quantidades de dados hoje gerados.
Em apoio à grande quantidade de dados surgiu por volta da década de 90 o Data Mining ou
Mineração de Dados. Usama Fayyad Fayyad et al. 1996 define Mineração de dados como
“…o processo não-trivial de identificar, em dados, padrões válidos, novos, potencialmente
úteis e ultimamente compreensíveis”.
Por mais que a partir dos anos 90 o Data Mining tenha iniciado sua popularidade como
ferramenta os elementos que serviram como base surgiram por volta de 1763. Neste ano uma
publicação póstuma de um artigo de Thomas Bayes a respeito de um teorema para relacionar
a probabilidade atual com a probabilidade prévia chamada teorema de Bayes é publicado. É
fundamental para a mineração de dados e probabilidade, uma vez que permite a compreensão
de realidades complexas com base em probabilidades estimadas. Já em 1805 Adrien-Marie
Legendre e Carl Friedrich Gauss aplicam regressão para determinar as órbitas de corpos sob o
Sol (cometas e planetas). A regressão é uma das principais ferramentas, hoje, na mineração
de dados. Em 1943 Warren McCulloch e Walter Pitts foram os primeiros a criar um modelo
conceitual de uma rede neural. Em 1965 Lawrence J. Fogel formou uma nova empresa
chamada Decision Science, Inc. para aplicações de programação evolutiva. Sendo a primeira
empresa a aplicar especificamente a computação evolutiva para resolver problemas do mundo
real. Em 1989 O termo "Knowledge Discovery in Database" (KDD) é cunhado por Gregory
Piatetsky-Shapiro. É também neste momento que ele co-funda o primeiro workshop também
chamado KDD. Em 2001 embora o termo ciência dos dados tenha existido desde 1960, foi a
partir de 2001 que William S. Cleveland introduziu-o como uma disciplina independente.
Esses são alguns fatos que tem profunda importância e impacto no desenvolvimento
da Representação Visual de Dados e Mineração de Dados.
3. Principais Fundamentos
A definição de Data Mining consiste numa análise indutiva de dados, através de uma
interação Humano-Computador, onde os usuários se propõe a preencher os banco de dados,
definem seus objetivos e problemas e o computador identifica regras ou padrões valiosos e
entrega a análise desses padrões de forma clara.
A Mineração Visual é estabelecida por duas idéias importantes que, apesar de muitas vezes
serem confundidas e consideradas uma só, possuem definições distintas e igualmente
indispensáveis para a área. Essas definições são os conceitos de Knowledge Discovery in
Database (KDD) e de Visualização de Informação (VI), que costumam ser aplicados nessa
respectiva ordem.
O Knowledge Discovery in Database (KDD) ou Busca de Conhecimento em Banco
de Dados é o processo global no qual os conhecimentos de busca de informação são
aplicados. É neste processo que se dá a identificação dos padrões e de uma estrutura válida
interpretável. Este é um conceito que vem da área de Inteligência Artificial que se define por
retirar informações de um volume grande de dados e que utiliza técnicas complexas como as
de redes neurais e de tabelas de decisões.
Este processo acontece em algumas etapas importantes A primeira delas é a limpeza
dos dados, nesta que acontece a remoção de qualquer desordem e inconsistência que venha
alterar a integridade dos dados. Então os dados são integrados, na segunda fase, para que
sejam padronizados, retirando duplicidades e as várias fontes são unificadas. Com os dados
integrados e uma base única e bem definida, acontece o processo de determinar os campos
pertinentes à análise dos dados e recuperar as bases.
Esses primeiros processos são referentes a extração dos dados. Quando estes
acontecem, o repositório está pronto para as fases de tratamento e a carga dos dados. Esses
três estágios são referentes ao conceito de ETL, que veremos posteriormente.
Com os dados prontos, os softwares vão transformá-los para que estejam numa
estrutura viável à manipulação e às operações de mineração. Aí então são aplicados os
algoritmos de mineração para detectar os modelos e comportamentos, estes serão avaliados de
maneira a ponderar suas consistência e quão relevantes e necessários são ao contexto
organizacional. Assim, os dados estarão prontos para a fase de Visualização de Informação.
O Conceito de ETL (Extract, Transform, Loading) não é um conceito que o usuário
final precisa saber, mas é fundamental no processo de Mineração Visual de Dados. É
chamado de ETL o processo de extração de dados de qualquer fonte, seja ela um banco de
dados ou uma planilha, a manipulação desses dados e carregamento do produto final em um
outro repositório ou a transformação deles em informação visual. É uma definição importante
e diretamente ligada a BI (Business Intelligence) e DW (Data Warehouse).
É indispensável citar que para esta metodologia de mapeamento dos padrões e
comportamentos, podem ser usadas cinco técnicas. O agrupamento consiste na separação dos
dados em classes conforme suas características e que farão parte de um conjunto maior de
itens. A técnica de classificação é baseada em princípios parecidos, mas as classes são
pré-estabelecidas antes da separação dos itens. A regressão também parte da idéia de separar
em conjuntos, mas são verificadas as dependências entre os itens e aponta-se os componentes
originais dos grupos. A associação é, além da separação em conjuntos, a identificação dos
relacionamentos entre os atributos destes grupos. Destas técnicas, a previsão é a única que não
é definida pela divisão dos itens em ajuntamentos. Ela refere-se à avaliação de cada item e a
tentativa de prever o comportamento futuro de cada um e dos semelhantes.
Assim, pode-se definir que o primeiro conceito de Mineração Visual refere-se pela busca e
descoberta dos papéis e procedimentos dos dados no contexto organizacional, a estruturação
destes e a preparação para a próxima fase: Visualização de Informação.
Representação gráfica sempre foi uma maneira simples e clara de representar
informações. A ciência passou a fazer uso disto para que o significado por trás fosse mais
robusto, complexo e carregado de informações mais concisas. Historicamente, temos a
evolução dos mapas como exemplo. Desenhar ruas, cidades ou territórios sempre simplificou
mais que descrições ou marcações de latitude e longitude. O Google Maps é um exemplo de
um mapa que carrega muitas informações numa plataforma preparada para interagir com o
usuário.
No contexto deste trabalho, as representações gráficas são usadas na Visualização de
Informação. Este é o processo em que o mapeamento dos dados é transformado em gráficos e
figuras com o objetivo de ampliar a compreensão e a abstração das informações ao usuário.
Visualização pode ser definido como um “...processo de mapeamento de dados e
informações em um formato gráfico, baseando-se em representações visuais e em
mecanismos de interação, fazendo uso de suporte computacional e objetivando a ampliação da
cognição” (Card et al., 1999)[8], por meio da percepção, com a finalidade da descoberta, da
tomada de decisões e do entendimento. A visão se torna o principal meio para obtenção de
conhecimento pois visualizar é algo feito naturalmente, sendo a visão o sentido com maior
capacidade de captação de informações por unidade de tempo, é rápido e paralelo e
naturalmente treinado para reconhecer padrões.
Informações descrevem os processos ou entidades que são objetos de estudo ou
análise. Correspondem a atributos que podem ser caracterizados de acordo com diferentes
critérios. O ponto inicial na escolha de uma técnica de visualização para uma determinada
aplicação é a identificação destas características. Para caracterizar uma atributo é necessário
identificar o tipo de informação que o atributo representa. o tipo de dado ou, ainda, a
dimensão e natureza do domínio, ou seja, dados podem estar relacionados a um domínio
unidimensional, bidimensional, tridimensional ou n-dimensional, contínuo, contínuo-discreto
ou discreto, por exemplo. Outra abordagem utilizada é analisar os dados de acordo com a
estrutura de dados utilizado para representá-lo como listas e tabelas, árvores e grafos..
A Visualização de Informação possibilita reunir milhares de dados em uma imagem,
revelando determinados padrões que eventualmente poderiam estar ocultos. Os métodos
disponíveis nos permite ter uma visão mais compreensível, com abstração de certos detalhes
sem prejudicar a real compreensão e significado dos dados. A escolha de uma das técnicas de
Visualização de Informações tem como objetivo a busca pela maior compreensão do usuário.
Deste modo, as informações devem estar o mais claro possível, porém, simplificadas. O
impacto de um resultado que altere a interpretação do usuário pode ter grande efeito negativo,
como em áreas científicas e financeira.
O processo de elaboração de Visualizações se dá por meio de (1) transformação de
dados brutos em tabelas de dados através do processo de transformação de dados, (2)
modificação da tabela de dados para estruturas visuais através do método de mapeamento
visual e (3) criação da visualização modificando e estendendo as estruturas visuais. O método
de transformação de dados consiste em modificar dados brutos, que são de difícil
compreensão humana, para assumirem relações lógicas que são mais estruturadas, sendo mais
fáceis de serem visualizadas. Neste método há a inclusão de novos dados (dados estatísticos) e
remoção de outros dados (redundância, erros, incompletos). O mapeamento visual transforma
os dados que estão em tabelas em estruturas visuais, que são compostas de substrato espacial,
marcas, e propriedades gráficas das marcas.
Os aspectos fundamentais inerentes à aplicação de uma Visualização Efetiva são a
expressividade, onde apenas os dados existentes na tabela devem ser representados na
visualização, e a efetividade, que ocorre quando a visualização deve ser de rápida
interpretação. As principais técnicas disponíveis são a Bifocal Display, Flip Zooming,
Perspective Wall e Hyperbolic Tree.
3.1. Aplicabilidade da Tecnologia

Recentemente, as técnicas de visualização de dados vem sendo amplamente utilizadas em
Mineração de dados, seja através de visualização de modelos ou na exploração visual dos dados, sendo
a segunda caracterizada por explorar interativamente um conjunto de dados utilizando-se de
ferramentas gráficas, sem uma grande influência de modelos preexistentes a fim de identificar padrões
de interesse não conhecidos previamente.
Desta forma a exploração visual desses dados, pode ser visto como um processo onde se gera
uma hipótese, podendo estas serem comprovadas ou rejeitadas. Além disso comparada com outras
técnicas de Mineração de dados em máquinas de estatísticas e máquinas de aprendizado, a exploração
visual lida mais facilmente com dados heterogêneos e não requer compreensão de algoritmos
complexos ou modelos matemáticos ou estatísticos.
A aplicação dessa tecnologia e em quais casos devem ser aplicados é algo relativo, mas em
qualquer situação onde, de acordo com [referencia 1], quando técnicas de mineração de dados
necessitam de interação com o usuário e essa interação se mostra complexa é quando técnicas de
visualização devem ser empregadas, sobre tudo para tomadas de decisão.
A aplicação da MV pode apenas em partes da análise ou durante todo o projeto como fica
exemplificado na figura 2.
Figura 2: Modelo de funcionamento da Mineração de Visual
3.2. Tendências
A Mineração de Dados atrelado à visualização de dados é uma das ferramentas mais
importantes da atualidade na estratégias de negócios, descoberta de padrões em grandes
coleções de dados diversos e simplificação visual de grandes e complexas relações entre os
dados. Mesmo com as técnicas relativas às áreas, a mineração visual de dados tem grande
dependência com a percepção e visão humana do que os dados podem representar para ele e
quais relações ou inferências ele espera da mineração dos dados. Tal característica se torna
essencial na modelagem e implementação de sistemas que provêm serviços de mineração
visual. O desafio atual relacionado à mineração visual de dados está na utilização de Deep
Learn, onde uma maior complexidade de análise e maior autonomia computacional na
identificação, relacionamento e representação visual de dados de quaisquer coleção de dados
por meio de Data Mining, IA, Redes Neurais e Aprendizado de Máquina. As principais
tendências para o futuro da Mineração Visual de Dados e Mineração de Dados são:
● Mineração e Visualização de dados ubíqua: Neste método o objetivo é a

extração de dados de dispositivos móveis para obter informações sobre
indivíduos. Apesar de ter vários desafios este método tem diversas
oportunidades como no estudo de interações homem-computador.
● Mineração e Visualização de dados multimídia: É um método mais recentes
que se aproveita da crescente capacidade de captura de dados úteis com
precisão. O objetivo é extrair dados de diferentes tipos de fontes multimídia,
como áudio, texto, hipertexto, vídeo e imagens, convertendo os dados em uma
representação numérica em diferentes formatos. Esse método pode ser usado
em agrupamentos e classificações, realizando verificações de similaridade e
também para identificar associações.
● Mineração e Visualização de Dados Espaciais e Geográficos: Este é um
novo tipo de tendência de mineração de dados, que inclui a extração de
informações de dados ambientais, astronômicos e geográficos, que também
inclui imagens tiradas do espaço. Este tipo de mineração de dados pode revelar
vários aspectos, tais como distância e topologia, que é usado principalmente
em sistemas de informação geográfica e outras aplicações de navegação.
● Mineração e Visualização de dados distribuídas: Este tipo de mineração de
dados está ganhando popularidade, pois envolve a mineração de grande
quantidade de informações armazenadas em diferentes locais da empresa ou
em diferentes organizações. Algoritmos altamente sofisticados são usados para
extrair dados de diferentes locais e fornecer insights e relatórios adequados
com base neles.
● Séries temporais e Mineração e Visualização de Dados de Seqüência: A
aplicação principal deste tipo de mineração de dados é o estudo das tendências
cíclicas e sazonais. Esta prática também é útil na análise de eventos mesmo
aleatórios que ocorrem fora da série normal de eventos. Este método está sendo
usado principalmente por empresas de varejo para acessar padrões de compra
do cliente e seus comportamentos.
4. Exemplo Prático
Visto que o principal objetivo deste trabalho é demonstrar a implementação da

mineração visual, esta sessão pretende descrever o funcionamento de algumas metáforas, e
comparar as possibilidades de duas ferramentas importantes da Microsoft: Microsoft Excel
2016 e Microsoft Power BI.
O Microsoft Excel é, de maneira básica, um editor de planilha, mas que oferece
recursos interessantes de manipulação de dados e mineração visual. Desenvolvido a partir da
década de 80, como o que costumava ser somente uma ferramenta de manipulação simples de
tabela, onde os dados eram inseridos, foi o que colocou a Microsoft como um competidor
forte no desenvolvimento de aplicações para PC’s. Hoje o Excel não é somente um
instrumentos para editar tabelas, mas é um grande manipulador de dados.
Algumas opções simples foram evoluindo o excel, como é o exemplo do
preenchimento automático que, na última versão, pode obedecer a padrões que sejam
identificados e completar as colunas a partir dali. É famoso também por suas fórmulas que
permitem que o usuário informe a maneira como ele vai se comportar em determinadas
células a partir da inserção de dados.
Para este trabalho, a parte mais interessante da ferramenta é a manipulação dos dados
para transformação e aplicação em metáforas visuais. Sendo assim, vamos acompanhar o
desenvolvimento com a utilização de algumas imagens que são um resumo da implementação
prática desenvolvida.
Na figura 3, podemos observar uma tabela de informações sobre as vendas numa loja
fictícia. Na primeira coluna, temos os nomes dos vendedores, e a partir da segunda, os valores
de quanto eles conseguiram vender no mês correspondente.
Figura 3: Tabela de Vendas
Por ser uma tabela simples e pequena, é possível fazer análises sem metáforas, mas se
formos considerar que o excel aceita tabelas com dezenas de milhares de linhas, seria inviável
identificar alguns comportamentos sem as visualizações.
Na figura 4, começamos com uma metáfora simples, na qual a aplicação identifica um
valor máximo, que é o valor de $2480,00 para Alexandre no mês de Fevereiro, e o valor
mínimo, referentes a Larissa em Janeiro e Pedro em Fevereiro, ambos com $1200,00 em
vendas. A partir daí, o programa determina um preenchimento das lacunas, referentes ao valor
em cada uma comparado ao piso e ao teto, essa formatação é chamada de Barra de Dados.
Com ela podemos perceber, por exemplo, que o mês de fevereiro foi o mês de maior
constância na venda entre todos os funcionário e que no mês de março o comportamento seria
parecido se o funcionário Alexandre não tivesse se destacado.
Figura 4: Aplicação da “Barra de Dados” na Tabela de Vendas
Essas análises ainda não oferecem informações suficientes para que a gerência desta
loja tome decisões, mas o conjunto delas é crucial para deliberações assertivas. A imagem 5,
demonstra a Escala de Cores, metáfora visual que, como o nome diz, demonstra determinadas
informações a partir das cores representadas. Por padrão, se tratando de números, ela
identificou um média X do valor das vendas, representada nas células brancas, e classificou
cada valor sendo maior que ou menor que X. A figura 7 oferece um comportamento parecido,
mas, ao invés de escala de cores, o Conjunto de Ícones oferece informações a partir dos
símbolos à esquerda das células.
Com essas duas imagens, percebemos que, apesar do mês de Fevereiro e Março terem
tido uma regularidade, como concluímos na figura 6, as células em vermelho demonstram que
as vendas foram abaixo da média para todos os vendedores no mês 02 e para Larissa e
Anderson no mês 03. Percebemos também que o melhor período para as vendas foi o mês de
Maio, em que somente um vendedor não conseguiu alcançar a média. Se observar o
comportamento individual de cada vendedor, identificamos uma queda na produtividade de
Douglas, que se manteve na média no primeiro e no terceiro mês, mas tem perdido
rendimento. Essas informações já oferecem base para algumas decisões
Figura 5: “Escala de Cores”
Figura 6: “Conjunto de Ícones”
É importante perceber que o uso de uma metáfora apresenta um entendimento que é

verdadeiro, mas o complemento de uma a outra vai definir a qualidade das decisões tomadas.
Provavelmente, a metáfora mais famosa seja o gráfico de barras, que vai demonstrar, a
relação entre tempo, no eixo x, e valor, no eixo y, de cada vendedor, representado por cores,
como mostra a figura 7. Ainda que, neste caso, por ser uma tabela pequena, ele não diga mais
que a própria tabela, em caso de uma maior quantidade de dados, é muito mais simples, por
exemplo, analisar o crescimento ou decrescimento no tempo através desta metáfora.
Figura 7: Gráfico de Colunas
O Excel pode não ser um ferramenta robusta para manipulação de dados, mas
podemos perceber que ele cumpre bem o papel no tratamento dos dados das planilhas,
proporcionando ao usuário perspectivas diferentes dos dados registrados.
O Microsoft Power BI é uma ferramenta de manipulação de dados que permite a
criação de painel e relatórios que direcionam a criatividade e a produtividade na direção e na
administração. O Power BI pode unificar dados de algumas fontes, identificando padrões e
transformar isso em informações útil através de cada parecer.
Para demonstrar a aplicação e o usa da ferramenta, vamos manipular um modelo de
dados, representado na figura 8, que possui informações de vendas fictícias, em três tabelas
dados e uma tabela fato. As tabelas dClientes, dVendedor e dProduto, são as tabelas com
dados descritivos para “objetos”, a tabela fVenda representa o relacionamento entre elas e
comportamento dos objetos.
Figura 8: Esquema do registro de dados Perfil_Venda
Assim como no Excel, o Power BI possibilita a manipulação dos dados através de

fórmulas, criação de colunas, etc. As habilidades do usuário em entender as metáforas e quais
conceito são necessários para o manejo de cada uma delas segundo seus próprios objetivos é
que vai definir o que ele deve acrescentar ao esquema já existente.
A figura 9 demonstra a criação de uma medida para a tabela fVendas que, chamada de
Receita, essa variável é o resultado do uso de uma fórmula de soma aplicada à coluna de valor
da venda e que tem o valor total de vendas inferido a ela. Essa medida é importante no
processo desse trabalho porque, a partir dela, manipulamos algumas metáforas visuais.
Figura 9: Criação de medida para a tabela fVendas
A figura 9 demonstra a criação de uma medida para a tabela fVendas que, chamada de
Receita, essa variável é o resultado do uso de uma fórmula de soma aplicada à coluna de valor
da venda e que tem o valor total de vendas inferido a ela. Essa medida é importante no
processo desse trabalho porque, a partir dela, manipulamos algumas metáforas visuais.
Podemos definir duas criações importantes para o tratamento dos dados no Power BI:
medidas e colunas. As medidas são variáveis que tem seu valor inferido a partir da aplicação
de uma fórmula sobre todas as linhas de uma tabela em determinada coluna, como no
exemplo que já citamos, a soma de todos os valores. Uma nova coluna cria valores linha a
linha, que são diferentes a partir dos valores já existentes nas respectivas linhas. A figura 10
demonstra a criação de uma nova coluna chama “Mês” a partir do registro de data da venda na
coluna Dt_Venda e que será importante também para a manipulação futura dos dadosjá que
teremos um registro simples sobre o mês de cada venda.
Figura 10: Criação de coluna “Mês”
Depois que os dados estão organizados e conceitos importantes, como os de mês e

receita, estão bem representados e definidos, a próxima fase é de fato tratar da visualização
dessas informações. A figura 11 é a representação clara do painel do Microsoft Power BI em
que as metáforas são editadas e os relatórios são criados. Na figura 12, temos um zoom sobre
a parte referente às metáforas visuais, as quais são nativas à plataforma em grande maioria
com exceção aos dois últimos símbolos e quem foram importadas do site da aplicação que
permite o compartilhamento de novas representações pelos usuários.
Figura 11: Painel principal do Microsoft Power BI
Figura 12: Menu de modelo de Visualizações do Power BI

Ao definirmos qual a metáfora usada, para que ela esteja disponível no relatório é
preciso definir as variáveis. Isso vai estabelecer a perspectiva sobre a qual o analista de dados
quer instituir seu relatório. Na figura 13, vemos que o Eixo foi definido para o gráfico de
colunas a partir do Departamento e do Produto, segundo o segundo aninhado ao primeiro, e
quando definimos o Valor com a medida Receita criada anteriormente o gráfico está definido.
Podemos ver na imagem, então, um gráfico de receita por departamento.
Figura 13: Gráfico de Receita por Departamento
Diferente do Microsoft Excel, o Microsoft Power BI não é uma ferramenta com metáforas
estáticas. Para que os gráficos do Excel sejam alterados, é necessária a modificação dos
dados. Já nesta aplicação, as visualizações são dinâmicas sem que os dados sejam alterados.
Quando aninhamos os valores de Produtos dentro de Departamentos no eixo, por exemplo,
permitimos que ao clicar em cada coluna de departamento vejamos os produto referentes a
cada um ou todos os produtos ambos comparados a suas respectivas receitas, como mostra na
figura 14 e na figura 15. Essa diferença na manipulação é possível graças a uma função que
preserva os níveis de hierarquia mas é habilitada ou não para mostrar todos os produtos no
nível inferior ou só os produtos referentes ao departamento selecionado.
Figura 14: Gráfico de Produtos por Receita

Figura 15: Gráfico de Produtos por Receita do Departamento Infantil
Quando mais de uma visualização é selecionada no mesmo painel, para o mesmo

relatório, podemos observar um outro comportamento dinâmico que o Power BI oferece ao
usuário. Ao selecionar níveis de hierarquia em uma visualização A, ele mostra os dados
referentes a aquelas informações na visualização B.
Podemos observar na, figura 16, um painel com mais de um relatório criado. No canto
superior temos uma visualização de receita por loja, assim como na figura 17, que quanto
mais distante do centro, maior a receita, e no canto direito temos um gráfico em barras
referente aos meses e a receita.
Figura 16: Painel com mais de uma visualização
Figura 17: Visualização de relatório de Receita por Loja

Por fim, na figura 18, podemos observar então esse comportamento dinâmico
acontecer no qual, quando clicado em uma das colunas, todo o relatório é “alterado” para que
o analista perceba o comportamento referente só a aquelas informações selecionadas.
Podemos observar, por exemplo, que não houve venda do produto “Camisa dos Minions” em
alguns dos meses.
Figura 18: Painel com as visualizações de maneira dinâmica
Neste processo de desenvolvimento, entendemos que o Excel é um facilitador

importante com uma simplicidade e intuitividade maior que o Power BI. Ele oferece
ferramentas suficientes para pequenas análises em tabelas com dezenas de milhares de linhas,
mas tem seu poder reduzido se comparado ao Power BI. Este já é uma ferramenta mais
robusta, com um número crescente de visualizações criadas pela comunidade, mas que não
tem uma interface tão intuitiva para usuários comuns. Ele também exige um entendimento
maior do que cada situação quer exigir para a criação de medidas ou colunas, mas é um ponto
a mais comparada a outra aplicação já que possui uso limitado.
5. Conclusão
A tendência é que o volume de dados continue a crescer cada vez mais desta forma a
utilização de ferramentas inteligentes para mineração de dados torna-se indispensável no
ambiente de negócios competitivo de hoje. Conceito de Business Intelligence de mineração de
dados é amplamente utilizado pelas principais casas corporativas para ficar à frente de seus
concorrentes. A mineração visual de Dados pode ajudar a fornecer informações mais recentes
e que seriam de difícil visualização por humanos para análise de concorrência, pesquisa de
mercado, tendências econômicas, comportamento de consumo, pesquisa da indústria, análise
de informações geográficas e assim por diante.
6. Referências
● [1] BOTELHO, Glenda Michele. Seleção de características apoiada por mineração
visual de dados. 2011. Tese de Doutorado. Universidade de São Paulo.
● [2] PAULOVICH, Fernando Vieira. Mapeamento de dados
multi-dimensionais-integrando mineração e visualização. 2008. Tese de
Doutorado. Universidade de São Paulo.
● [3] DA COSTA CÔRTES, Sérgio; PORCARO, Rosa Maria; LIFSCHITZ, Sérgio.
Mineração de dados-funcionalidades, técnicas e abordagens. PUC, 2002.
● [4] WINSTON, Wayne. Microsoft Excel data analysis and business modeling.
Microsoft press, 2016.
● [5] FLORIANO, Amanda Cristina. Análise de ferramentas de Business Intelligence.
2016.
● [6] REVISTABW. Conceitos de Knowledge Discovery in Databases e Data
Warehousing. Revista Brasileira de Web: Tecnologia. Disponível em
http://www.revistabw.com.br/revistabw/conceitos-de-knowledge-discovery-in-databas
es-e-datawarehousing/. Criado em: 02/01/2013. Última atualização: 24/07/2015.
Visitado em: 17/03/2017
● [7] CHEN, Chun-houh ; HÄRDLE, Wolfgang ; UNWIN, Antony. Handbook of Data
Visualization. Berlin Heidelberg. Springer-Verlag. 2008. 936 p.
● [8][Card et al., 1999] Card, S. and Mackinlay, J. and Shneiderman, B., Readings in
Information Visualization: Using Vision to Think, Morgan Kaufmann Publishers,
1999.
● [9] Paidi, Annan Naidu. Data Mining: Future Trends and Applications.
International
Journal of Modern Engineering Research (IJMER). Vol.2, Issue.6, Nov-Dec. 2012
pp-4657-4663.

Mineração Visual

Enviado por

Dados do documento

Descrição original:

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Mineração Visual

Enviado por

Direitos autorais:

Formatos disponíveis

ALINE LINHARES,

SALVADOR, 29 DE MARÇO DE 2017

Figura 1: ​Gráfico de Langren determinando a distância, em longitude, de Toledo a Roma.

Até 1900 a área de gráficos e representação visual de dados teve um crescimento

3.1. Aplicabilidade da Tecnologia

Figura 2: Modelo de funcionamento da Mineração de Visual

● Mineração e Visualização de dados ubíqua: ​Neste método o objetivo é a

Visto que o principal objetivo deste trabalho é demonstrar a implementação da

Figura 3: Tabela de Vendas

Figura 4: Aplicação da “Barra de Dados” na Tabela de Vendas

Figura 5: “Escala de Cores”

Figura 6: “Conjunto de Ícones”

É importante perceber que o uso de uma metáfora apresenta um entendimento que é

Figura 7: Gráfico de Colunas

Assim como no Excel, o Power BI possibilita a manipulação dos dados através de

Figura 9: Criação de medida para a tabela fVendas

Figura 10: Criação de coluna “Mês”

Depois que os dados estão organizados e conceitos importantes, como os de mês e

Figura 11: Painel principal do Microsoft Power BI

Figura 12: Menu de modelo de Visualizações do Power BI

Figura 13: Gráfico de Receita por Departamento

Figura 14: Gráfico de Produtos por Receita

Quando mais de uma visualização é selecionada no mesmo painel, para o mesmo

Figura 16: Painel com mais de uma visualização

Figura 17: Visualização de relatório de Receita por Loja

Figura 18: Painel com as visualizações de maneira dinâmica

Neste processo de desenvolvimento, entendemos que o Excel é um facilitador

Você também pode gostar

Figura 1: Gráfico de Langren determinando a distância, em longitude, de Toledo a Roma.

● Mineração e Visualização de dados ubíqua: Neste método o objetivo é a