Escolar Documentos
Profissional Documentos
Cultura Documentos
DIEGO COSTA,
RAMON MERCÊS,
RICARDO MATOS
MINERAÇÃO VISUAL
Questão Histórica 3
Principais Fundamentos 5
Aplicabilidade da Tecnologia 7
Tendências 8
Exemplo Prático 9
Conclusão 16
Referências 16
Abstract.
1. Introdução
O avanço das tecnologias de armazenamento proporcionaram um aumento substancial
na produção de informações, tanto em volume, quando em complexidade. Apesar desse
crescimento ser produtivo, a capacidade das pessoas de abstração das informações é limitada
e incompatível com a multiplicidade dos dados, é a chamada “sobrecarga de informação”. O
número de dados armazenado é inversamente proporcional à capacidade humana de
interpretação.
A porta voz para sintetizar os dados e apresentá-los ao usuário de maneira
compreensiva e passível de interpretação é a Mineração Visual de Dados, responsável por
identificar padrões nos conjuntos de informações e, a partir daí, gerar relatórios dos
acontecimentos passados e modelos preditivos. É dividida em Knowledge Discovery in
Databases, que é o processo de retirar informação útil dos dados não processados, e em
Visualização de Informação, que consiste em elaborar métodos visuais que representem essas
informações.
Este trabalho consiste na elaboração e descrição dos principais conceitos ligados à
essa área e a implementação prática de exemplos de mineração visual através de plataformas
de tratamento de dados, o Microsoft Power BI e o Microsoft Excel. Ambos os softwares são
da Microsoft mas requerem, ao usuário, níveis de conhecimento prévio de manipulação de
dados diferentes.
A proposta para a implementação do trabalho é uma análise comparativa entre duas
ferramentas de tratamento de dados que oferece uma Visualização da Informação para o
usuário. As duas ferramentas são o Microsoft Excel 2016 e Microsoft Power BI.
O estudo pretende, levando em consideração as exigências de conhecimento prévio de
cada plataforma, comparar os serviços que eles oferecem ao usuário, com suas metáforas
gráficas, a possibilidade de escalabilidade e os resultados obtidos para determinado conceito e
a usabilidade para clientes leigos e cientistas de dados. Além disso, de maneira mais direta, o
projeto quer entender as metáforas e perceber, de forma ampla, aplicações mais diretas para
cada uma.
2. Questão Histórica
Quando pensamos na visualização de dados pensamos no tema como fruto do
desenvolvimento moderno da estatística. Entretanto, as raízes da visualização de dados são
mais profundas. Desde os mapas mais antigos, a representação visual de dados representa um
artefato de elevada importância para as tantas áreas do conhecimento que surgiram e
evoluíram durante nossa história. Com o tempo, os desenvolvimentos em tecnologia , teoria e
prática matemática e observação empírica permitiram o uso mais amplo de gráficos e novos
avanços na forma e apresentação do conteúdo.
Tabelas das posições das estrelas e outros corpos celestes, diagramas geométricos e
mapas de ajuda à navegação e exploração são alguns dos primeiros artefatos conhecidos que
tem como base a representação de dados afim de transmitir, a quem visualiza, uma forma
abstrata e mais concisa de visualizar dados do mundo real. Os primeiros diagramas e mapas
surgiram até o século XVII. Tais representações se tornaram um marco, à época, na
compreensão de determinados fenômenos bem como na orientação e navegação em um
território ou no mar. As representações tinham como matéria prima fenômenos e
características da natureza e do mundo real, como observações da posição em deslocamento
de corpos celestes e representações gráficas de territórios onde os elementos da representação
serviam como referência espacial para os indivíduos que dela se utilizavam.
No período entre 1600 - 1699 áreas como a astronomia e a física se desenvolviam e
um dos problemas dessa época era a medição. Na física, espaço e tempo, na astronomia,
topografia e expansão territorial. É nesse período que as aplicações, experimentos práticos e
teorias científicas começaram a surgir. Como exemplo, um gráfico (Fig 1) de Michael Florent
Van Langren, em que acredita-se ter sido a primeira representação visual de dados
estatísticos. Michael, baseado na falta de um meio confiável de determinar a longitude no
mar, o qual dificultava a navegação e exploração, desenvolveu um gráfico de linha que mostra
todas as estimativas conhecidas da diferença de longitude entre Toledo e Roma.
3. Principais Fundamentos
A definição de Data Mining consiste numa análise indutiva de dados, através de uma
interação Humano-Computador, onde os usuários se propõe a preencher os banco de dados,
definem seus objetivos e problemas e o computador identifica regras ou padrões valiosos e
entrega a análise desses padrões de forma clara.
A Mineração Visual é estabelecida por duas idéias importantes que, apesar de muitas vezes
serem confundidas e consideradas uma só, possuem definições distintas e igualmente
indispensáveis para a área. Essas definições são os conceitos de Knowledge Discovery in
Database (KDD) e de Visualização de Informação (VI), que costumam ser aplicados nessa
respectiva ordem.
O Knowledge Discovery in Database (KDD) ou Busca de Conhecimento em Banco
de Dados é o processo global no qual os conhecimentos de busca de informação são
aplicados. É neste processo que se dá a identificação dos padrões e de uma estrutura válida
interpretável. Este é um conceito que vem da área de Inteligência Artificial que se define por
retirar informações de um volume grande de dados e que utiliza técnicas complexas como as
de redes neurais e de tabelas de decisões.
Este processo acontece em algumas etapas importantes A primeira delas é a limpeza
dos dados, nesta que acontece a remoção de qualquer desordem e inconsistência que venha
alterar a integridade dos dados. Então os dados são integrados, na segunda fase, para que
sejam padronizados, retirando duplicidades e as várias fontes são unificadas. Com os dados
integrados e uma base única e bem definida, acontece o processo de determinar os campos
pertinentes à análise dos dados e recuperar as bases.
Esses primeiros processos são referentes a extração dos dados. Quando estes
acontecem, o repositório está pronto para as fases de tratamento e a carga dos dados. Esses
três estágios são referentes ao conceito de ETL, que veremos posteriormente.
Com os dados prontos, os softwares vão transformá-los para que estejam numa
estrutura viável à manipulação e às operações de mineração. Aí então são aplicados os
algoritmos de mineração para detectar os modelos e comportamentos, estes serão avaliados de
maneira a ponderar suas consistência e quão relevantes e necessários são ao contexto
organizacional. Assim, os dados estarão prontos para a fase de Visualização de Informação.
O Conceito de ETL (Extract, Transform, Loading) não é um conceito que o usuário
final precisa saber, mas é fundamental no processo de Mineração Visual de Dados. É
chamado de ETL o processo de extração de dados de qualquer fonte, seja ela um banco de
dados ou uma planilha, a manipulação desses dados e carregamento do produto final em um
outro repositório ou a transformação deles em informação visual. É uma definição importante
e diretamente ligada a BI (Business Intelligence) e DW (Data Warehouse).
É indispensável citar que para esta metodologia de mapeamento dos padrões e
comportamentos, podem ser usadas cinco técnicas. O agrupamento consiste na separação dos
dados em classes conforme suas características e que farão parte de um conjunto maior de
itens. A técnica de classificação é baseada em princípios parecidos, mas as classes são
pré-estabelecidas antes da separação dos itens. A regressão também parte da idéia de separar
em conjuntos, mas são verificadas as dependências entre os itens e aponta-se os componentes
originais dos grupos. A associação é, além da separação em conjuntos, a identificação dos
relacionamentos entre os atributos destes grupos. Destas técnicas, a previsão é a única que não
é definida pela divisão dos itens em ajuntamentos. Ela refere-se à avaliação de cada item e a
tentativa de prever o comportamento futuro de cada um e dos semelhantes.
Assim, pode-se definir que o primeiro conceito de Mineração Visual refere-se pela busca e
descoberta dos papéis e procedimentos dos dados no contexto organizacional, a estruturação
destes e a preparação para a próxima fase: Visualização de Informação.
Representação gráfica sempre foi uma maneira simples e clara de representar
informações. A ciência passou a fazer uso disto para que o significado por trás fosse mais
robusto, complexo e carregado de informações mais concisas. Historicamente, temos a
evolução dos mapas como exemplo. Desenhar ruas, cidades ou territórios sempre simplificou
mais que descrições ou marcações de latitude e longitude. O Google Maps é um exemplo de
um mapa que carrega muitas informações numa plataforma preparada para interagir com o
usuário.
No contexto deste trabalho, as representações gráficas são usadas na Visualização de
Informação. Este é o processo em que o mapeamento dos dados é transformado em gráficos e
figuras com o objetivo de ampliar a compreensão e a abstração das informações ao usuário.
Visualização pode ser definido como um “...processo de mapeamento de dados e
informações em um formato gráfico, baseando-se em representações visuais e em
mecanismos de interação, fazendo uso de suporte computacional e objetivando a ampliação da
cognição” (Card et al., 1999)[8], por meio da percepção, com a finalidade da descoberta, da
tomada de decisões e do entendimento. A visão se torna o principal meio para obtenção de
conhecimento pois visualizar é algo feito naturalmente, sendo a visão o sentido com maior
capacidade de captação de informações por unidade de tempo, é rápido e paralelo e
naturalmente treinado para reconhecer padrões.
Informações descrevem os processos ou entidades que são objetos de estudo ou
análise. Correspondem a atributos que podem ser caracterizados de acordo com diferentes
critérios. O ponto inicial na escolha de uma técnica de visualização para uma determinada
aplicação é a identificação destas características. Para caracterizar uma atributo é necessário
identificar o tipo de informação que o atributo representa. o tipo de dado ou, ainda, a
dimensão e natureza do domínio, ou seja, dados podem estar relacionados a um domínio
unidimensional, bidimensional, tridimensional ou n-dimensional, contínuo, contínuo-discreto
ou discreto, por exemplo. Outra abordagem utilizada é analisar os dados de acordo com a
estrutura de dados utilizado para representá-lo como listas e tabelas, árvores e grafos..
A Visualização de Informação possibilita reunir milhares de dados em uma imagem,
revelando determinados padrões que eventualmente poderiam estar ocultos. Os métodos
disponíveis nos permite ter uma visão mais compreensível, com abstração de certos detalhes
sem prejudicar a real compreensão e significado dos dados. A escolha de uma das técnicas de
Visualização de Informações tem como objetivo a busca pela maior compreensão do usuário.
Deste modo, as informações devem estar o mais claro possível, porém, simplificadas. O
impacto de um resultado que altere a interpretação do usuário pode ter grande efeito negativo,
como em áreas científicas e financeira.
O processo de elaboração de Visualizações se dá por meio de (1) transformação de
dados brutos em tabelas de dados através do processo de transformação de dados, (2)
modificação da tabela de dados para estruturas visuais através do método de mapeamento
visual e (3) criação da visualização modificando e estendendo as estruturas visuais. O método
de transformação de dados consiste em modificar dados brutos, que são de difícil
compreensão humana, para assumirem relações lógicas que são mais estruturadas, sendo mais
fáceis de serem visualizadas. Neste método há a inclusão de novos dados (dados estatísticos) e
remoção de outros dados (redundância, erros, incompletos). O mapeamento visual transforma
os dados que estão em tabelas em estruturas visuais, que são compostas de substrato espacial,
marcas, e propriedades gráficas das marcas.
Os aspectos fundamentais inerentes à aplicação de uma Visualização Efetiva são a
expressividade, onde apenas os dados existentes na tabela devem ser representados na
visualização, e a efetividade, que ocorre quando a visualização deve ser de rápida
interpretação. As principais técnicas disponíveis são a Bifocal Display, Flip Zooming,
Perspective Wall e Hyperbolic Tree.
3.2. Tendências
A Mineração de Dados atrelado à visualização de dados é uma das ferramentas mais
importantes da atualidade na estratégias de negócios, descoberta de padrões em grandes
coleções de dados diversos e simplificação visual de grandes e complexas relações entre os
dados. Mesmo com as técnicas relativas às áreas, a mineração visual de dados tem grande
dependência com a percepção e visão humana do que os dados podem representar para ele e
quais relações ou inferências ele espera da mineração dos dados. Tal característica se torna
essencial na modelagem e implementação de sistemas que provêm serviços de mineração
visual. O desafio atual relacionado à mineração visual de dados está na utilização de Deep
Learn, onde uma maior complexidade de análise e maior autonomia computacional na
identificação, relacionamento e representação visual de dados de quaisquer coleção de dados
por meio de Data Mining, IA, Redes Neurais e Aprendizado de Máquina. As principais
tendências para o futuro da Mineração Visual de Dados e Mineração de Dados são:
4. Exemplo Prático
Por ser uma tabela simples e pequena, é possível fazer análises sem metáforas, mas se
formos considerar que o excel aceita tabelas com dezenas de milhares de linhas, seria inviável
identificar alguns comportamentos sem as visualizações.
Na figura 4, começamos com uma metáfora simples, na qual a aplicação identifica um
valor máximo, que é o valor de $2480,00 para Alexandre no mês de Fevereiro, e o valor
mínimo, referentes a Larissa em Janeiro e Pedro em Fevereiro, ambos com $1200,00 em
vendas. A partir daí, o programa determina um preenchimento das lacunas, referentes ao valor
em cada uma comparado ao piso e ao teto, essa formatação é chamada de Barra de Dados.
Com ela podemos perceber, por exemplo, que o mês de fevereiro foi o mês de maior
constância na venda entre todos os funcionário e que no mês de março o comportamento seria
parecido se o funcionário Alexandre não tivesse se destacado.
Essas análises ainda não oferecem informações suficientes para que a gerência desta
loja tome decisões, mas o conjunto delas é crucial para deliberações assertivas. A imagem 5,
demonstra a Escala de Cores, metáfora visual que, como o nome diz, demonstra determinadas
informações a partir das cores representadas. Por padrão, se tratando de números, ela
identificou um média X do valor das vendas, representada nas células brancas, e classificou
cada valor sendo maior que ou menor que X. A figura 7 oferece um comportamento parecido,
mas, ao invés de escala de cores, o Conjunto de Ícones oferece informações a partir dos
símbolos à esquerda das células.
Com essas duas imagens, percebemos que, apesar do mês de Fevereiro e Março terem
tido uma regularidade, como concluímos na figura 6, as células em vermelho demonstram que
as vendas foram abaixo da média para todos os vendedores no mês 02 e para Larissa e
Anderson no mês 03. Percebemos também que o melhor período para as vendas foi o mês de
Maio, em que somente um vendedor não conseguiu alcançar a média. Se observar o
comportamento individual de cada vendedor, identificamos uma queda na produtividade de
Douglas, que se manteve na média no primeiro e no terceiro mês, mas tem perdido
rendimento. Essas informações já oferecem base para algumas decisões
O Excel pode não ser um ferramenta robusta para manipulação de dados, mas
podemos perceber que ele cumpre bem o papel no tratamento dos dados das planilhas,
proporcionando ao usuário perspectivas diferentes dos dados registrados.
O Microsoft Power BI é uma ferramenta de manipulação de dados que permite a
criação de painel e relatórios que direcionam a criatividade e a produtividade na direção e na
administração. O Power BI pode unificar dados de algumas fontes, identificando padrões e
transformar isso em informações útil através de cada parecer.
Para demonstrar a aplicação e o usa da ferramenta, vamos manipular um modelo de
dados, representado na figura 8, que possui informações de vendas fictícias, em três tabelas
dados e uma tabela fato. As tabelas dClientes, dVendedor e dProduto, são as tabelas com
dados descritivos para “objetos”, a tabela fVenda representa o relacionamento entre elas e
comportamento dos objetos.
Figura 8: Esquema do registro de dados Perfil_Venda
A figura 9 demonstra a criação de uma medida para a tabela fVendas que, chamada de
Receita, essa variável é o resultado do uso de uma fórmula de soma aplicada à coluna de valor
da venda e que tem o valor total de vendas inferido a ela. Essa medida é importante no
processo desse trabalho porque, a partir dela, manipulamos algumas metáforas visuais.
Podemos definir duas criações importantes para o tratamento dos dados no Power BI:
medidas e colunas. As medidas são variáveis que tem seu valor inferido a partir da aplicação
de uma fórmula sobre todas as linhas de uma tabela em determinada coluna, como no
exemplo que já citamos, a soma de todos os valores. Uma nova coluna cria valores linha a
linha, que são diferentes a partir dos valores já existentes nas respectivas linhas. A figura 10
demonstra a criação de uma nova coluna chama “Mês” a partir do registro de data da venda na
coluna Dt_Venda e que será importante também para a manipulação futura dos dadosjá que
teremos um registro simples sobre o mês de cada venda.
Diferente do Microsoft Excel, o Microsoft Power BI não é uma ferramenta com metáforas
estáticas. Para que os gráficos do Excel sejam alterados, é necessária a modificação dos
dados. Já nesta aplicação, as visualizações são dinâmicas sem que os dados sejam alterados.
Quando aninhamos os valores de Produtos dentro de Departamentos no eixo, por exemplo,
permitimos que ao clicar em cada coluna de departamento vejamos os produto referentes a
cada um ou todos os produtos ambos comparados a suas respectivas receitas, como mostra na
figura 14 e na figura 15. Essa diferença na manipulação é possível graças a uma função que
preserva os níveis de hierarquia mas é habilitada ou não para mostrar todos os produtos no
nível inferior ou só os produtos referentes ao departamento selecionado.
5. Conclusão
A tendência é que o volume de dados continue a crescer cada vez mais desta forma a
utilização de ferramentas inteligentes para mineração de dados torna-se indispensável no
ambiente de negócios competitivo de hoje. Conceito de Business Intelligence de mineração de
dados é amplamente utilizado pelas principais casas corporativas para ficar à frente de seus
concorrentes. A mineração visual de Dados pode ajudar a fornecer informações mais recentes
e que seriam de difícil visualização por humanos para análise de concorrência, pesquisa de
mercado, tendências econômicas, comportamento de consumo, pesquisa da indústria, análise
de informações geográficas e assim por diante.
6. Referências
● [1] BOTELHO, Glenda Michele. Seleção de características apoiada por mineração
visual de dados. 2011. Tese de Doutorado. Universidade de São Paulo.
● [2] PAULOVICH, Fernando Vieira. Mapeamento de dados
multi-dimensionais-integrando mineração e visualização. 2008. Tese de
Doutorado. Universidade de São Paulo.
● [3] DA COSTA CÔRTES, Sérgio; PORCARO, Rosa Maria; LIFSCHITZ, Sérgio.
Mineração de dados-funcionalidades, técnicas e abordagens. PUC, 2002.
● [4] WINSTON, Wayne. Microsoft Excel data analysis and business modeling.
Microsoft press, 2016.
● [5] FLORIANO, Amanda Cristina. Análise de ferramentas de Business Intelligence.
2016.
● [6] REVISTABW. Conceitos de Knowledge Discovery in Databases e Data
Warehousing. Revista Brasileira de Web: Tecnologia. Disponível em
http://www.revistabw.com.br/revistabw/conceitos-de-knowledge-discovery-in-databas
es-e-datawarehousing/. Criado em: 02/01/2013. Última atualização: 24/07/2015.
Visitado em: 17/03/2017
● [7] CHEN, Chun-houh ; HÄRDLE, Wolfgang ; UNWIN, Antony. Handbook of Data
Visualization. Berlin Heidelberg. Springer-Verlag. 2008. 936 p.
● [8][Card et al., 1999] Card, S. and Mackinlay, J. and Shneiderman, B., Readings in
Information Visualization: Using Vision to Think, Morgan Kaufmann Publishers,
1999.
● [9] Paidi, Annan Naidu. Data Mining: Future Trends and Applications.
International
Journal of Modern Engineering Research (IJMER). Vol.2, Issue.6, Nov-Dec. 2012
pp-4657-4663.