2013 - 2sem - Anderson Donizete Ferreira Leonardi PDF

Anderson Donizete Ferreira Leonardi
ESTUDO E APLICAÇÃO DE METODOLOGIA DE MINERAÇÃO DE

DADOS FAZENDO USO DE FERRAMENTA AUTOMATIZADA
Trabalho de conclusão de curso

apresentado ao Instituto Federal de São Paulo,
como parte dos requisitos para a obtenção do
grau de Tecnólogo em Sistemas para Internet.
Área de Concentração: Banco de Dados
Orientador: Prof. Ricardo Alexandre Neves

Coorientadora: Prof.ª Fernanda O. Prado
São João da Boa Vista

2013
Autorizo a reprodução e divulgação total ou parcial deste trabalho, por
qualquer meio convencional ou eletrônico, para fins de estudo e pesquisa, desde
que citada a fonte.
Ficha catalográfica preparada pela Seção de Tratamento

da Informação do Serviço de Biblioteca – IFSP
Leonardi, Anderson D. F.
Estudo e Aplicação de metodologia de mineração de
dados fazendo uso de ferramenta automatizada. Anderson
Donizete Ferreira Leonardi / Orientador Professor
Ricardo Alexandre Neves; Coorientadora Professora
Fernanda Carla de Oliveira Prado. São João da Boa
Vista,2013.
Trabalho de Conclusão de Curso, IFSP, 2013.
1. Mineração de dados. 2. Descoberta de conhecimento

em bases de dados. 3. Ferramenta Kira. 4.CRISP-DM.
I. Estudo e Aplicação de metodologia de

mineração de dados fazendo uso de
ferramenta automatizada.
AGRADECIMENTOS
Agradeço primeiramente meus pais pelo apoio que sempre me deram,

por em momento algum deixar que eu desanimasse e por toda a estrutura que
me deram desde pequeno, para que eu pudesse me dedicar aos estudos.
Agradeço também as minhas irmãs Bárbaras e Amanda pelo apoio e por
sempre estarem ao meu lado. Agradeço o professor Ricardo por estar ao meu
lado, me direcionando em todo o trabalho e pela paciência em me auxiliar
nesta pesquisa e também a professora Fernanda pela atenção que me foi dada
desde antes do início desta pesquisa. Agradeço a empresa Mira Distribuidora
de Produtos Alimentícios LTDA pelo apoio e por ceder suas informações para
este trabalho, e por fim agradecer a todos que me apoiaram e me ajudaram de
alguma maneira, não só neste trabalho mais em todo o curso, em especial aos
professores e amigos.
RESUMO
LEONARDI, A. D. F. (2013). Estudo e aplicação de metodologia de mineração de

dados fazendo uso de ferramenta automatizada. Trabalho de Conclusão de Curso - Instituto
Federal de São Paulo, São João da Boa Vista, 2013.
Este trabalho apresenta como resultado trinta regras obtidas a partir da análise de uma
massa de dados fornecida por uma determinada empresa, com o objetivo de contribuir para a
tomada de decisão gerencial, de modo a tratar problemas pontuais da empresa. Para este estudo
de caso propõe-se o estudo e aplicação de uma metodologia de Mineração de Dados, que
contempla o estudo do processo de descoberta de conhecimento em banco de dados (KDD), as
fases do processo de Data Mining, a metodologia CRISP-DM, as tarefas de Mineração de dados
e suas respectivas técnicas. Foi utilizada a Regra de Associação para a descoberta do
conhecimento, por conta da escolha da Ferramenta Case (i.e. Ferramenta computacional para
auxílio em atividades de engenharia de software) Kira, objeto de estudo incluído também nesta
proposta, no sentido de auxiliar na análise da massa de dados e na apresentação de um resultado
satisfatório à empresa. Ao fim do estudo foi concluído que as regras obtidas foram consideradas
insatisfatórias do ponto de vista da empresa, por outro lado, com este trabalho pode-se
identificar as dificuldades encontradas no desenvolvimento do processo KDD e também
comprovar que a ferramenta Kira cumpre sua proposta de diminuir a complexidade encontrada
durante a Mineração de Dados.
Palavras-chave: Mineração de dados. Descoberta de conhecimento em base de dados.

Ferramenta Kira. CRISP-DM.
ABSTRACT
LEONARDI, A. D. F. (2013). Study and application of data mining methodology

making use of automated tool. Course Conclusion Project – Instituto Federal de São Paulo,
São João da Boa Vista, 2012.
This paper presents as a result thirty rules obtained from the analysis of a mass of data
provided by a specific company, aiming to contribute to the managerial decision-making, in
order to address specific business problems. For this case study is proposed to study and
application of a methodology for Data Mining, which includes the study of knowledge
discovery in databases (KDD), the phases of the data mining process make the methodology
CRISP-DM tasks in data Mining and their techniques. Was used the Rule of Association for
the discovery of knowledge, due to the choice of tool case (i.e. Computational tool to aid in
software engineering activities) Kira, object of study also included in this proposal, in order to
assist in analyzing the mass of data and presentation of a satisfactory outcome to the company.
At the end of the study it was concluded that the rules obtained were considered unsatisfactory
from the point of view of business, On the other hand, this work can identify the difficulties
encountered in developing the KDD process and prove that Kira tool fulfills its proposal to
reduce the complexity found in the Data Mining.
Keywords: Data Mining. Knowledge Discovery in Databases. Tool Kira. CRISP-DM.

LISTA DE FIGURAS
Figura 1: Mineração de Dados como passo no Processo de Descoberta de
Conhecimento................................................................................ 21
Figura 2: Representação do processo CRISP-DM ........................................... 22
Figura 3: Construção de um K-itemset candidato a partir de dois frequentes
de tamanho K-1 ............................................................................. 27
Figura 4: Exemplo de árvore de decisão assinatura de revista ........................ 29
Figura 5: Registros agrupados em três clusters ............................................... 30
Figura 6: Exemplo de agrupamento de baralho em 2 e 4 clusters ................... 31
Figura 7: Interface do usuário do WEKA Explorer ........................................... 34
Figura 8: O GUI Seletor .................................................................................... 34
Figura 9: ODM - Comparação de Agrupamentos ............................................. 35
Figura 10: Kira – Identificação da Tarefa de Mineração ................................... 37
Figura 11: Kira – Preparação dos Dados: Seleção .......................................... 37
Figura 12: Kira - Preparação dos Dados: Transformação ................................ 38
Figura 13: Kira – Análise dos dados: Mineração .............................................. 38
Figura 14: Análise dos dados: Avaliação ......................................................... 39
Figura 15: Arquitetura da Ferramenta Kira ....................................................... 40
Figura 16: Metodologia Adotada na Proposta .................................................. 42
Figura 17: Modelo Entidade Relacionamento (MER) das Tabelas Relacionas
ao Problema. ................................................................................. 43
Figura 18: Configurar o Banco de Dados ......................................................... 44
Figura 19: Importação dos dados (1) ............................................................... 45
Figura 22: Definir o projeto ............................................................................... 47
Figura 23: Lógica de negócio da empresa. ...................................................... 48
Figura 24: Definição do problema/objetivo ....................................................... 49
Figura 25: Tarefa de Mineração ....................................................................... 50
Figura 26: Seleção do dados............................................................................ 52
Figura 27: Definição do suporte ....................................................................... 54
Figura 28: Regras obtidas ................................................................................ 54
Figura 29: Definição do suporte com filtro ........................................................ 55
Figura 31: Seleção do dados ............................................................................ 56
Figura 32: Definição do suporte ........................................................................ 57
Figura 33: Itens frequentes descartados .......................................................... 57
Figura 35: Seleção do dados ............................................................................ 59
Figura 36: Transformação dos dados ............................................................... 59
Figura 37: Transformação dos dados ............................................................... 60
Figura 38: Avaliação das regras geradas ......................................................... 61
LISTA DE TABELAS
Tabela 1: Transações de itens comprados ...................................................... 26
Tabela 2: Exemplo de banco de dados de treinamento para assinatura de
revista (LAWRENCE ERLBAUM ASSOCIATES, 2004). ............... 29
Tabela 3: Relação de Custo da Entrega .......................................................... 49
Tabela 4: Classificação dos Pedidos ................................................................ 51
Tabela 5: Regras obtidas ................................................................................. 64
LISTA DE SIGLAS
CRISP-DM Cross Industry Standard Process for Data Mining (Processo Padrão
Interindustriais para Mineração de Dados)
DM Data Mining (Mineração de Dados)
GUI Graphical User Interface (Interface Gráfica ao Usuário)
KDD Knowledge Discovery in Databases (Descoberta de Conhecimento em
Bases de Dados)
ODM Oracle Data Mining
SQL Structured Query Language (Linguagem de Consulta Estruturada)
MER Modelo Entidade Relacionamento
SGBD Sistema Gerenciador de Banco de Dados
SUMÁRIO
1 INTRODUÇÃO ............................................................................................... 17
1.1 Motivação.............................................................................................................. 17
1.2 Objetivos ............................................................................................................... 18
1.3 Organização deste trabalho ................................................................................... 18
2 CONCEITOS BÁSICOS DE MINERAÇÃO DE DADOS ........................................19
2.1 Processo de Descoberta de Conhecimento ............................................................ 19
2.2 Definição de Problema (Mineração de Dados) ..................................................... 20
2.3 O processo Knowledge Discovery in Databases (KDD)....................................... 20
3 TAREFAS E TÉCNICAS DE MINERAÇÃO DE DADOS .......................................25
3.1 Regras de Associação ............................................................................................ 25
3.2 Algoritmo para regras de Associações: Apriori .................................................... 26
3.3 Classificação e Regressão ..................................................................................... 28
3.4 Algoritmo de Classificação: Árvore de decisão .................................................... 28
3.5 Agrupamento ......................................................................................................... 30
3.6 Algoritmo para agrupamento: Método de Particionamento .................................. 31
4 FERRAMENTAS DE MINERAÇÃO DE DADOS ..................................................33
4.1 Waikato Environment for Knowledge Analysis (WEKA) .................................... 33
4.2 Oracle Data Mining ............................................................................................... 35
4.3 Kira........................................................................................................................ 36
5 METODOLOGIA............................................................................................ 41
5.1 Entendimento do negócio ...................................................................................... 47
5.2 Tarefa de Mineração.............................................................................................. 50
5.3 Preparação dos Dados ........................................................................................... 50
5.4 Mineração dos Dados ............................................................................................ 51
5.4.1 Primeira tentativa ............................................................................................... 52
5.4.1.1 Seleção dos dados .............................................................................................. 52
5.4.1.2 Mineração........................................................................................................... 53
5.4.2 Segunda tentativa ............................................................................................... 56
5.4.2.2 Mineração........................................................................................................... 56
5.4.3 Terceira tentativa ................................................................................................ 58
5.4.3.2 Mineração........................................................................................................... 60
5.5 Avaliação............................................................................................................... 60
6 RESULTADOS ............................................................................................... 63
7 CONCLUSÕES .............................................................................................. 67
REFERÊNCIAS ................................................................................................... 69
Capítulo
17
1 Introdução
O avanço das tecnologias e a queda no custo de armazenamento dos dados, nos últimos
anos, têm gerado uma enorme massa de dados, a todo instante, nas empresas (REZENDE,
2005). O principal objetivo de se manter os dados armazenados, segundo Camilo e Silva (2009),
é auxiliar os administradores das empresas em suas tomadas de decisão. Porém com o aumento
do volume dos dados ficou inviável utilizar as técnicas tradicionais para tratar estes repositórios,
tornando estas empresas, “ricas em dados, mas pobres em informação” (HAN; KAMBER; PEI,
2012).
Com a clara necessidade da evolução dos processos de análise de dados, surgiu no fim
da década de oitenta, o conceito de Descoberta de Conhecimento, onde o foco principal é a
extração do conhecimento, por meio de grandes bases de dados (REZENDE, 2005).
A descoberta de conhecimento consiste na busca por padrões em grandes volumes de
dados. Tal busca é definida por mineração de dados, assim como o termo Descoberta de
Conhecimento em banco de dados. Tal definição se refere a todo o processo de descoberta de
conhecimento útil a partir de dados, enquanto a mineração de dados é uma determinada etapa
deste processo (FAYYAD; PIATETESKY-SHAPIRO; SMYTH, 1996). A mineração de dados
consiste na aplicação de algoritmos específicos para a extração de padrões de dados,
considerada por (REZENDE, 2005) como a principal etapa do processo de descoberta de
conhecimento.
Segundo Fayyad, Piatetesky-Shapiro e Smyth (1996), o processo de descoberta de
conhecimento pode ser aplicado nas principais áreas de negócios incluindo, marketing, finanças
(especialmente investimentos), detecção de fraudes, manufaturas, telecomunicações e agentes
de internet (ie. Ferramentas computacionais que percorrem a internet executando uma tarefa
específica).
1.1 Motivação
O processo de descoberta de conhecimento em Bases de Dados requer um alto grau de
conhecimento para que seja feita a escolha correta do algoritmo a ser utilizado e que os
parâmetros sejam configurados corretamente para que o processo consiga alcançar o objetivo
esperado. Com isso faltam profissionais capacitados para auxiliar os analistas de dados na
execução de tal processo (MENDES, 2009).
18
A motivação deste trabalho está na identificação e na aplicação de uma metodologia de

mineração de dados, de forma a atender os requisitos, a serem analisados, e que o processo de
descoberta do conhecimento, de modo a ser aplicado da melhor forma possível. O trabalho é
motivado também pelo uso de uma ferramenta automatizada, pois esta irá proporcionar uma
experiência prática para o trabalho que enriquecerá, ainda mais, os conceitos estudados.
1.2 Objetivos
Este trabalho tem como objetivo estudar e aplicar uma metodologia de mineração de
dados com o auxílio da ferramenta automatizada Kira, desenvolvida para reduzir a
complexidade nos processos KDD tornando-os mais intuitivos (Mendes, 2009). Desenvolver
cada fase do processo de descoberta de conhecimento a partir de uma base de dados real,
fornecida pela empresa Mira Distribuidora de Alimentos LTDA, de forma que estes dados
possam ser preparados para a mineração, por meio da Regra de Associação, na busca por
padrões que atendam a necessidade da empresa e auxilie nas tomadas de decisão.
1.3 Organização deste trabalho

Este trabalho está organizado da seguinte maneira: no capítulo 2 estão descritos os
conceitos básicos de Mineração de Dados com foco no processo de descoberta de conhecimento
em Base de Dados e o detalhamento de cada etapa existente neste processo. O capítulo 3
conceitua as tarefas, regras e técnicas e como tais tarefas tratam a busca por padrões nas bases
de dados. O capítulo 4 apresenta três ferramentas existentes para auxiliar no processo de
Mineração de Dados. No capítulo 5 é descrita a metodologia de desenvolvimento do trabalho,
baseada nas etapas do processo de descoberta de conhecimento. No capítulo 6 são apresentados
os resultados obtidos e, por fim, no capítulo 7 são descritas as conclusões.
Capítulo
19
2 Conceitos Básicos de Mineração de Dados

Este capítulo tem por objetivo mostrar os motivos que levam a busca pelo
conhecimento, assim como descrever os conceitos básicos de mineração de dados para o
entendimento do processo de descoberta de conhecimento, a fim de identificar o problema, de
acordo com o domínio da aplicação. Será considerada também, neste capítulo, a importância
da clareza, na definição do problema, para que o resultado obtido pelo processo de descoberta
do conhecimento seja adequado e bem conduzido durante as fases do processo de KDD
(Knowledge Discovery in Databases).
2.1 Processo de Descoberta de Conhecimento

Segundo Camilo e Silva (2009), o principal objetivo das empresas tem sido armazenar
dados. Para Rezende (2005) esta prática se tornou comum e essencial, levando em consideração
a queda no custo de armazenamento e o avanço das tecnologias utilizadas nas empresas,
motivos pelos quais é gerada uma enorme massa de dados a todo instante.
As empresas dependem da análise manual de seus dados por especialistas para a geração
de relatórios, os quais serão analisados pela gerência para auxiliar nas tomadas de decisão. Mas
com o passar dos anos, alguns meses ou talvez até dias, a massa de dados se torna tão grande
que fica inviável a utilização de técnicas tradicionais para tratar estes repositórios, segundo
Camilo, Silva (2009), o que torna estas bases, como diz Han, Kamber e Pei (2012) “ricas em
dados, mas pobre em informação”.
Pode ser citado como exemplo a rede de lojas WalMart, espalhadas por todo o mundo,
e que lidam, todas as semanas, com centenas de milhares de transações. Essas transações são
fruto de registros como vendas, movimentações de estoque, descrição de produtos, registros de
empresas e clientes (HAN; KAMBER; PEI, 2012).
Como mostrado na Figura 1, surge o problema: o que fazer com os dados armazenados,
já que todos estes se tornam inúteis se não forem tratados?
Segundo Rezende (2005), no fim da década de oitenta, surge o processo de Mineração
de dados (Data Mining) que foca, justamente, a extração de conhecimento a partir de grandes
volumes de dados utilizando de ferramentas computacionais.
Para Fayyad, Piatetesky-Shapiro e Smyth (1996) a descoberta de conhecimento é um
processo não trivial de identificação de novos padrões válidos, úteis e compreensíveis.
20
O foco central da mineração de dados é transformar dados armazenados (puros e

quantificáveis) em conhecimento (REZENDE, 2005).
Santos (2007) apresenta dois exemplos clássicos da aplicação da técnica de Data
Mining. O primeiro é a aplicação em redes de supermercados, onde podem ser identificados os
perfis dos clientes e a relação destes com as vendas de produtos, o que auxilia na organização
das prateleiras e distribuição dos produtos dentro das lojas. O segundo exemplo são os sites de
comércio eletrônico que, com o recurso de DW (Data Warehouse), sugerem alguns produtos
que podem interessar ao cliente, baseado em compras similares.
2.2 Definição de Problema (Mineração de Dados)

Para Mendes (2009) o processo de descoberta de conhecimento começa com a definição
do problema a ser resolvido pela mineração de dados. Para isso é necessária a compressão do
domínio da aplicação e os objetivos que se deseja alcançar no fim do processo. Caso o problema
seja mal formulado todo o processo fica comprometido, por isso um dos maiores desafios do
processo de KDD é identificar o que o usuário realmente deseja (BRAGA, 2005).
Para formular o problema, Braga (2005) destaca algumas tarefas a serem realizadas, são
elas:
 Entrevistar o usuário final;
 Entrevistar o responsável pela manutenção dos dados;
 Compilar documentação;
 Selecionar mídia e meios de armazenamento;
 E identificar ferramentas.
Um exemplo de um problema bem formulado é destaque, de acordo com Gurovits
(1997), onde uma das maiores redes de varejo dos Estados Unidos procurou por uma relação
entre a venda de seus produtos e descobriu que, em geral, os compradores eram homens que
saiam à noite para comprar fraldas e aproveitam para levar um pouco de cerveja. Colocando os
dois produtos lado a lado as vendas dispararam.
2.3 O processo Knowledge Discovery in Databases (KDD)

O processo de descoberta de conhecimento é dividido em fases interativas e iterativas,
onde várias destas etapas envolvem decisões tomadas pelo usuário (FAYYAD; PIATETESKY-
SHAPIRO; SMYTH, 1996).
21
Hoje existem diversas metodologias que definem e padronizam as etapas do processo

KDD. Apesar de cada metodologia possuir sua particularidade, em geral todas possuem a
mesma estrutura (CAMILO; SILVA, 2009).
Segundo Han, Kamber e Pei (2012) o KDD é composto de sete passos iterativos,
conforme mostrado na Figura 1.
Figura 1: Mineração de Dados como passo no Processo de Descoberta de

Conhecimento
Fonte: HAN, KAMBER e PEI (2012)
1- Limpeza dos Dados: Consiste em Remover ruídos e dados inconsistentes;

2- Integração dos Dados: Etapa necessária quando várias fontes de dados são
utilizadas;
3- Seleção dos Dados: Extrair os dados relevantes para a tarefa de análise da base
de dados;
4- Transformação dos Dados: Os dados são transformados e consolidados de
forma a estarem prontos para a tarefa de Mineração;
22
5- Mineração dos Dados: Trata-se da etapa mais importante do processo KDD,

onde algoritmos específicos são aplicados para extração de padrões dos dados;
6- Avaliação dos Padrões: Identificar quais dos padrões encontrados na tarefa de
Mineração de dados são verdadeiramente interessantes;
7- Apresentação do Conhecimento: É a última etapa do processo KDD onde os
resultados são apresentados aos usuários através de técnicas de apresentação do
conhecimento.
Resumidamente os dados são submetidos à preparação, referente aos passos de 1 a 4,
para serem utilizados na mineração de dados, onde são encontrados os padrões, que serão
analisados para identificar quais realmente representam conhecimento. Por fim, os resultados
são apresentados ao usuário.
Segundo Camilo e Silva (2009), a metodologia mais aceita é a CRISP-DM composta
por seis fases organizadas de maneira cíclica e com fluxo não unidimensional, como é mostrado
na Figura 2:
Figura 2: Representação do processo CRISP-DM

Fonte: LAROSE (2005)
23
Segundo Larose (2005) as fases do processo CRISP-DM são:

 Entendimento do Negócio: Entender qual o objetivo a ser atingido com a
mineração de dados (Definição do Problema);
 Entendimento dos Dados: Conhecer os dados, que podem ser extraídos de
diversas bases, os quais podem possuir vários formatos. É necessário para
identificar os dados relevantes para o problema;
 Preparação dos dados: Normalmente os dados não estão preparados para que
os métodos de Data Mining, devido a possíveis divergências causadas pela
diferença de origem destes dados ou inconsistências como, por exemplo, valores
nulos;
 Modelagem: Fase onde são aplicados os algoritmos de mineração. As técnicas
a serem utilizadas dependem dos objetivos do processo;
 Avaliação: Conta com a participação de especialistas nos dados, conhecedores
do negócio e tomadores de decisão para avaliarem os resultados objetivos na
fase anterior com o auxílio de ferramentas gráficas;
 Implantação: Ao concluir as tarefas anteriores os resultados são apresentados
a todos os envolvidos.
Em geral, o processo KDD consiste em interpretar e avaliar os padrões extraídos das
bases de dados, para determinar, dentre eles, quais podem realmente ser considerados novos
conhecimentos (FAYYAD; PIATETESKY-SHAPIRO; SMYTH, 1996).
Capítulo
25
3 Tarefas e Técnicas de Mineração de Dados

Este Capítulo apresenta as tarefas de mineração de dados e suas respectivas técnicas.
As tarefas consistem em especificar o que se deseja encontrar nos dados, tais como os tipos de
regularidade ou categorias de padrões que são consideradas interessantes. As técnicas
especificam os métodos que irão garantir como os padrões considerados interessantes serão
encontrados (AMO, 2004).
3.1 Regras de Associação

Esta tarefa consiste em identificar relações entre atributos das bases de dados de modo
que SE X está presente em uma operação, ENTÃO o Y também estará presente (CAMILO;
SILVA, 2009). Um exemplo de regra de associação pode ser encontrado nos supermercados,
onde clientes que compram pão também compram leite. Este padrão reflete o comportamento
dos clientes do supermercado. Descobrir estes padrões é importante, por exemplo, para
melhorar a organização das prateleiras e induzir os clientes a comprar mais (AMO, 2004).
Cada relação entre os atributos da base de dados é considerada uma regra de associação.
Como o número de regras geradas pode ser necessário filtrar os resultados, a fim de descartar
todos os resultados que não são considerados interessantes. Para classificar as regras duas
medidas são utilizadas: suporte e confiança (LAWRENCE ERLBAUM ASSOCIATES, 2004).
Agrawal; Imielinski e Swami (1993) definem que o suporte, sup (X → Y), se refere ao
número de transações T que atendem a uma regra, ou seja, é a frequência com que as transações
T, satisfazem a união de itens definida por uma regra que ocorrem em relação ao total de
transações da base de dados, conforme mostrado na Equação (1):
𝑂𝑐𝑜𝑟𝑟ê𝑛𝑐𝑖𝑎𝑠 𝑑𝑒 𝑋 ∪𝑌
sup(𝑋 → 𝑌) = (1)
𝑇𝑜𝑡𝑎𝑙 𝑑𝑒 𝑂𝑐𝑜𝑟𝑟ê𝑛𝑐𝑖𝑎𝑠
Amo (2004) define que confiança, conf (X → Y), é a porcentagem de transações que
suportam Y dentre todas as ocorrências que suportam X, conforme mostrada na Equação (2):
𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑡𝑟𝑎𝑛𝑠𝑎çõ𝑒𝑠 𝑞𝑢𝑒 𝑠𝑢𝑝𝑜𝑟𝑡𝑎𝑚 (𝑋 ∪𝑌)
𝑐𝑜𝑛𝑓(𝐴 → 𝐵) = (2)
𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑡𝑟𝑎𝑛𝑠𝑎çõ𝑒𝑠 𝑞𝑢𝑒 𝑠𝑢𝑝𝑜𝑟𝑡𝑎𝑚 (𝑋)
Segundo Gonçalves (2005), o modelo baseado no suporte e na confiança consiste em

encontrar todas as regras que possuam suporte e confiança iguais ou superiores a um suporte
mínimo, ou SupMin, e uma confiança mínima, ou ConfMin, especificada pelo usuário. O
26
exemplo a seguir mostra a aplicação do modelo Suporte/Confiança para filtrar as Regras de

Associação, como mostrado na Tabela 1.
Tabela 1: Transações de itens comprados

Transação Itens
1 {Pão, leite, açúcar, café}
2 {Pão, geleia}
3 {Pão, Manteiga, leite}
4 {Açucar, café, leite}
5 {Pão, leite, manteiga}
Considerando que o usuário possa definir, neste exemplo, o SupMin como 60% e
ConfMin como 75%, este irá encontrar a regra de associação pão → leite que que atende aos
limites de suporte e confiança, sendo que o sup (pão → leite) = 60%, pois pão e leite estão em
3 das 5 transações existentes, e a conf (pão → leite) = 75%, onde o leite está presente em 3 das
4 transações que contém o pão.
3.2 Algoritmo para regras de Associações: Apriori

O algoritmo Apriori foi proposto pela equipe de pesquisa do Projeto QUEST da IBM
que originou o software Intelligent Miner em 1994. O algoritmo tem por objetivo encontrar
todos os itemsets frequentes (ie. Conjunto de itens frequentes) em um banco de dados (D)
respeitando um nível mínimo de suporte (β). Itemset é um conjunto de itens e um itemset
formado por K elementos é chamado de K-itemset (AMO, 2004).
Segundo Amo (2004) o algoritmo Apriori é composto de três fases principais: geração1,
poda2 e validação3.
Partindo do princípio que foram obtidos todos os itemsets frequentes em relação a D e
β, a primeira fase consiste em gerar os itemsets candidatos, não necessariamente frequentes, de
tamanho K a partir do conjunto 𝐿𝐾−1 , sendo L cada itemset frequente, como mostra a Figura 3.
Somente os itemsets candidatos que tenham chances de serem frequentes são interessantes para
o algoritmo, apoiando-se na propriedade Apriori, que diz, segundo AMO (2004): que dois
itemsets, 𝐼 e 𝐽, tais que 𝐼 ⊆ 𝐽, se 𝐽 é frequente então 𝐼 também é frequente. Sabe-se que todos
1
Geração: gerar os itemsets candidatos, não necessariamente frequentes.
2
Poda: São descartados todos os itemsets candidatos que não tem chances de ser frequentes.
3
Validação: Verifica quais os candidatos que possui suporte maior que o definido.
27
os itemsets de tamanho K-1 contidos nos candidatos de tamanho K devem ser frequentes. Sendo
assim, é formado o conjunto 𝐶𝑘′ de itemsets candidatos de tamanho K, unindo itemsets de
tamanho K-1 que tenham K-2 elementos em comum. Assim, garante-se que, pelo menos, dois
subconjuntos de tamanho K-1 contidos no itemset são frequentes.
Figura 3: Construção de um K-itemset candidato a partir de dois frequentes de

tamanho K-1
Fonte: AMO (2004)
Como exemplo, segue a baixo um conjunto de itemsets frequentes de tamanho 2:

𝐿2 = {{1,3},{1,5},{1,4},{2,3},{3,4},{2,4}}
A partir deste conjunto obtemos o seguinte conjunto dos pré-candidatos 𝐶𝑘𝑙 :

𝐶𝐾′ ={{1,3,5},{1,3,4},{1,4,5},{2,3,4}}
Com os pré-candidatos preparados passa-se então para a segunda fase. Nesta fase,
chamada de Fase da Poda dos Candidatos, alguns dos candidatos poderão ser descartados
baseando-se na propriedade do algoritmo Apriori que define: se um itemset do conjunto 𝐶𝐾′
possuir um subconjunto de itens de tamanho K-1 que não estiver contido em 𝐿𝐾−1 . Este poderá
ser descartado, pois ele não tem chance de ser frequente. Portanto, nesta fase calcula-se o
conjunto 𝐶𝐾 = 𝐶𝐾′ − {𝐼| 𝑒𝑥𝑖𝑠𝑡𝑒 𝐽 ⊆ 𝐼 𝑡𝑎𝑙 𝑞𝑢𝑒 | 𝐽 | = 𝐾 − 1 𝑒 𝐽 ∉ 𝐿𝐾−1}. A notação |𝐽|
significa o número de elementos do itemset 𝐽. Na sequência, na segunda fase, é apresentada a
Equação (3).
𝐶3 = 𝐶3′ − {{1,4,5}, {1,3,5}} = {{1,3,4}, {2,3,4}} (3)
Nesta etapa os itemsets {1,4,5} e o {1,3,5} foram descartados por conter 2 itemsets, o
{4,5} e o {3,5}, respectivamente, que não são frequentes, pois não aparecem no conjunto 𝐿2 .
28
Na fase final é calculado o suporte de cada itemset do conjunto 𝐶𝐾 . Ao percorrer o banco

de dados 𝐷, uma única vez, verificou-se que para cada transação quais são os candidatos
suportados e para estes candidatos é incrementado o contador de suporte.
3.3 Classificação e Regressão

A tarefa de classificação tem por objetivo identificar a que grupo o objeto em análise
pertence. Classificar os dados se torna útil tanto para compreender os dados existentes, quanto
para prever como novas instancias irão se comportar. Esta tarefa pode ser utilizada para
classificar em um contexto, por exemplo, de clientes com tendência a se transferirem para um
serviço de telefonia concorrente ou identificar pacientes propícios a serem submetidos a
procedimentos cirúrgicos (TWO CROWS CORPORATION, 1999).
Para classificação de registros é analisado um conjunto de registros, que segundo Amo
(2004) são chamados de dados de amostragem ou dados de treinamento. Portanto, cada registro
já contém a indicação da classe que pertence. O objetivo desta análise é “aprender” como
classificar novos registros, então este processo é chamado de aprendizado supervisionado
(CAMILO; SILVA, 2009).
3.4 Algoritmo de Classificação: Árvore de decisão

Árvores de decisão funcionam como fluxogramas em forma de árvore, a fim de
classificar registros de uma base de dados. Cada nó, não folha, da estrutura da árvore representa
um teste, como por exemplo idade > 70. As ligações entre os nós representam os possíveis
valores do teste do nó superior. Seguindo o exemplo do teste “idade > 70”, as ligações
representam valores correspondentes a “Sim” e “Não”. Os nós folha indicam a que classe o
registro pertence. Com a árvore montada basta percorrê-la, partindo do nó raiz, até atingir
alguma das folhas, classificando, assim, um novo registro. Pela estrutura que é formada as
árvores de decisão podem ser convertidas em Regras de Classificação (CAMILO; SILVA,
2009).
A fim de exemplificar uma árvore de decisão são considerados os dados de treinamento,
como mostrado na Tabela 1. Estes dados representam perfis de pessoas que assinam ou não
uma determina revista. O objetivo da árvore de decisão é identificar os perfis de prováveis
novos assinantes, o resultado pode ser observado na Figura 4.
29
Tabela 2: Exemplo de banco de dados de treinamento para assinatura de revista

(LAWRENCE ERLBAUM ASSOCIATES, 2004).
Id Carro Idade Crianças Assinatura

1 Sedan 23 0 Sim
2 Esporte 31 1 Não
3 Sedan 36 1 Não
4 Caminhão 25 2 Não
5 Esporte 30 0 Não
6 Sedan 36 0 Não
7 Sedan 25 0 Sim
8 Caminhão 36 1 Não
9 Sedan 30 2 Sim
10 Sedan 31 1 Sim
11 Esporte 25 0 Não
12 Sedan 45 1 Sim
13 Esporte 23 2 Não
14 Caminhão 45 0 Sim
Figura 4: Exemplo de árvore de decisão assinatura de revista

Fonte: LAWRENCE ERLBAUM ASSOCIATES (2004)
30
3.5 Agrupamento
A tarefa de agrupamento busca identificar registros similares e aproxima-los formando
grupos. Segundo Camilo e Silva os registros são similares a outros registros do mesmo grupo e
diferentes dos registros de outros grupos.
Para Amo (2004) a tarefa de agrupamento tem comportamento parecido com a tarefa de
classificação, a diferença está na tarefa de agrupamento por não ter as classes previamente
classificadas, como ocorre na tarefa de classificação. Outra diferença entre eles está em seus
objetivos, ao contrário da tarefa de classificação o agrupamento ou cluster busca apenas
identificar grupos de registros similares, como mostrado na Figura 5, e não classificar, estimar
ou predizer valores (CAMILO; SILVA, 2009).
Para Camilo e Silva (2009) as aplicações da tarefa de agrupamento são as mais variadas
possíveis, ela pode ser aplicada, por exemplo, em pesquisa de mercado, reconhecimento de
padrões, processamento de imagens, pesquisas geográficas, classificação de documento da
internet, detecção de fraudes e diversas outras. Na maioria das vezes esta tarefa é combinada
com outras.
Figura 5: Registros agrupados em três clusters

Fonte: CAMILO, SILVA (2009)
31
3.6 Algoritmo para agrupamento: Método de Particionamento
Dado um conjunto de dados D com n registros, sendo k o número de agrupamentos

desejados, os algoritmos de particionamento irão dividir os registros em k agrupamentos, de
forma que 𝑘 ≤ 𝑛 (CAMILO; SILVA, 2009).
O método K-means utiliza o conceito de centroide4 (CAMILO; SILVA, 2009). Dado
um banco de dados o algoritmo de particionamento seleciona k registros, sendo cada k um
agrupamento, assumindo o valor de centro do cluster. Para cada registro restante é calculado a
similaridade entre ele e o centro do cluster. Este é inserido no agrupamento quando obtêm a
maior similaridade, ou seja, a menor distância. Para cada novo elemento inserido o centro do
cluster é recalculado através da média de distância entre os registros (CAMILO; SILVA, 2009).
Sendo k uma variável, diferentes valores assumidos por ela podem resultar em diferentes
agrupamentos na mesma base de dados. Os agrupamentos são igualmente válidos, porém é
necessário avaliar qual será mais útil, de acordo com o objetivo a ser alcançado. Na Figura 6 é
mostrado o agrupamento de um baralho, onde a variável k assume os valores 2 e 4. No caso em
que 𝑘 = 2 , o baralho foi agrupado em cartas vermelhas e pretas. Já com k = 4 o baralho foi
agrupado de acordo com seu naipe. Os dois resultados são válidos, o objetivo que definirá qual
dos dois é o melhor neste caso (BERRY; LINOFF, 2004).
Figura 6: Exemplo de agrupamento de baralho em 2 e 4 clusters

Fonte: BERRY, LINOFF (2004)
4
Centroide: Ponto cujas coordenadas são as médias das coordenadas das coordenadas dos pontos de uma
figura geométrica.
Capítulo
33
4 Ferramentas de Mineração de Dados

Como a Mineração de dados está cada vez mais difundida e as suas respectivas tarefas
são amplas e diversificadas observou-se, por meio de estudos, a existência de ferramentas com
interfaces flexíveis e interativas, as quais podem ser utilizadas para auxiliar no processo de
KDD. O problema identificado na maioria destas ferramentas, seja gratuita ou não, é a
dificuldade em eliminar o alto grau de conhecimento sobre Mineração de dados exigido do
usuário ao utilizar tais ferramentas (MENDES, 2009).
A seguir serão apresentadas algumas opções abordando ferramentas para automatização
dos processos de KDD, as quais atendem melhor o objetivo deste trabalho. Este capítulo não
tem por objetivo de aprofundar o estudo de tais ferramentas, apenas apresentar uma breve
descrição de algumas ferramentas de Data Mining.
4.1 Waikato Environment for Knowledge Analysis (WEKA)

A ferramenta WEKA (Waikato Environment for Knowledge Analysis) é um projeto que
teve início em 1992. Trata-se de um software de código aberto desenvolvido em Java composto
por uma coleção de algoritmos de aprendizado de máquina para mineração de dados e
ferramentas de pré-processamento dos dados que podem ser aplicadas diretamente a uma base
de dados ou integradas a uma aplicação Java (HALL et al., 2009).
A WEKA inclui algoritmos de regressão, classificação, agrupamento, mineração por
regras de associação e seleção dos atributos. A ferramenta explora desde a preparação dos dados
até a avaliação dos resultados, suportando as metodologias de mineração de dados como o
CRISP-DM (HALL et al., 2009).
Na Figura 7 é mostrada a principal interface gráfica da ferramenta WEKA. Esta
interface, denominada “Explorer” é baseada em painéis, onde cada painel corresponde a
diferentes tarefas de DM. O primeiro painel, chamado de “Pré-processador”, permite carregar
e transformar os dados utilizando as ferramentas de pré-processamento de dados da WEKA
chamadas de filtros (HALL et al., 2009).
34
Figura 7: Interface do usuário do WEKA Explorer

Fonte: HALL et al. (2009)
Na Figura 8 é mostrada a interface que fornece acesso a várias interfaces de usuário e

as principais aplicações da ferramenta, além de fornecer informações do sistema e de registro
do WEKA.
Figura 8: O GUI5 Seletor

Fonte: HALL et al. (2009)
5
GUI (Graphical User Interface): Interface que facilita a interação entre o usuário e o computador.
35
4.2 Oracle Data Mining

O Oracle Data Mining (ODM) fornece funcionalidades de mineração de dados com
funções SQL (i.e Structured Query Language) nativas do banco de dados Oracle. Esta
ferramenta permite aos analistas de dados o desenvolvimento e a inclusão de modelos de
mineração de dados em consultas SQL. O ODM permite a criação e aplicação de modelos
preditivos6 para oferecer uma maior “inteligência” de negócios aos usuários da ferramenta,
possibilitando, por exemplo, o desenvolvimento de perfis detalhados de clientes, encontrar e
prevenir fraudes nas organizações. Como a ferramenta trabalha diretamente com o banco de
dados Oracle, o movimento de dados7 é eliminado, a latência das informações8 é minimizada e
a segurança dos dados é mantida (ORACLE, 2013). Na Figura 9 é mostrada a ferramenta ODM
atuando no auxílio ao analista na comparação de dois clusters.
Figura 9: ODM - Comparação de Agrupamentos

Fonte: HABERSTROH (2008)
6
Modelo criado para prever a probabilidade de um resultado.
7
Transferência de dados entre sistemas computacionais.
8
Tempo de espera da resposta.
36
4.3 Kira
A ferramenta foi desenvolvida por Mendes (2009), baseando-se em “Guias” que ele
próprio desenvolveu, com o objetivo de reduzir o nível de complexidade envolvida no processo
KDD, tornando as tarefas de regras de associação mais intuitivas (MENDES, 2009). Os guias
são utilizados para orientar na execução das tarefas, de acordo com as regras de associação,
mesmo que alguns guias sejam gerais para qualquer tarefa de DM (Data Mining) (MENDES,
2009). São sete os guias propostos: o primeiro guia auxilia o analista de dados a definir o
problema a ser trabalhado, ou seja, minerado; o segundo guia auxilia na definição do objetivo
que deseja cumprir ao resolver o problema de DM; o terceiro guia tem por objetivo de auxiliar
na identificação da tarefa de Data Mining, a qual será utilizada para resolver o problema
proposto e alcançar o objetivo da mineração. Na Figura 10 é mostrada como a ferramenta Kira
aplica os três primeiros guias. O quarto guia ajuda o analista na identificação e seleção dos
dados relevantes ao problema. Na Figura 11 é mostrado este guia sendo executado, pelo usuário,
na ferramenta; o quinto guia auxilia na avaliação de cada coluna da tabela, escolhida no passo
anterior, utilizada para análise. Neste passo o guia sugere o que deve ser feito para deixar os
dados aptos a ser minerados. Na Figura 12 é mostrado este guia; o sexto guia dá suporte ao
analista de dados na parametrização do algoritmo Apriori, adotado pela ferramenta Kira para
as tarefas de associação, que será utilizado para a execução da DM. Na Figura 13 é mostrado
este guia; o sétimo e último guia, mostrado na Figura 14, auxilia na leitura, interpretação e
avaliação da qualidade das regras encontradas. Seguindo os guias propostos o analista de dados
executa os passos necessários para realização da mineração de dados com facilidade, de modo
intuitivo e sem a necessidade de ter conhecimentos aprofundados no assunto (MENDES, 2009).
37
Figura 10: Kira – Identificação da Tarefa de Mineração

Fonte: MENDES (2009)
Figura 11: Kira – Preparação dos Dados: Seleção

38
Figura 12: Kira - Preparação dos Dados: Transformação

Figura 13: Kira – Análise dos dados: Mineração

39
Figura 14: Análise dos dados: Avaliação

A arquitetura da Ferramenta é composta por três módulos principais: Módulo de Apoio

à Origem, Módulo de Apoio à Preparação e Módulo de Apoio à Análise. Estes módulos
implementam os sete guias citados anteriormente.
O Módulo de Apoio a Origem auxilia o analista na seleção dos dados que serão
utilizados em todo o processo de DM. Este módulo utiliza os guias 1, 2 e 3.
O Módulo de Apoio à Preparação dá suporte ao analista para deixar os dados prontos
para a Mineração. Este Módulo é formado por Apoio à Limpeza, Apoio a Seleção e Apoio à
Transformação. Este módulo utiliza os guias 4 e 5.
E, por fim, o Módulo de Apoio à Análise. Este módulo auxilia nas atividades de
Mineração de dados e na avaliação dos resultados. Este módulo utiliza os guias 6 e 7. A
arquitetura da ferramenta é mostrada na Figura 15.
40
Figura 15: Arquitetura da Ferramenta Kira

Capítulo
41
5 Metodologia
A proposta deste trabalho consiste no desenvolvimento de um estudo de caso com o

objetivo de estudar e aplicar as etapas de uma metodologia para projetos de mineração de dados,
utilizando uma base de dados real e uma ferramenta case para automatização do processo de
descoberta do conhecimento.
De acordo com o levantamento bibliográfico realizado a ferramenta acadêmica Kira, de
Mendes (2009), se mostrou mais adequada para a utilização neste trabalho. Esta ferramenta foi
escolhida pelos seguintes aspectos: por ser mais intuitiva e reduzir a complexidade do processo
KDD, de forma a não exigir experiência em processos de mineração de dados do usuário; por
ter apresentado um diferencial em relação a outras ferramentas estudas, tratando-se do uso de
Guias para auxiliar no processo de descoberta do conhecimento; por apresentar a opção de
trabalhar com bases de dados convertidas para o formato “.csv”, formato de arquivo que a
ferramenta importa e trabalha com muita facilidade.
A base de dados utilizada foi cedida pela empresa Mira Distribuidora de Produtos
Alimentícios LTDA. A empresa trabalha na distribuição de produtos destinados a panificação,
bem como na distribuição dos produtos Big B na região de São João da Boa Vista - SP.
Foi constatada, por meio de entrevista com os representantes da empresa, uma grande
preocupação na redução dos custos com a entrega (distribuição) dos produtos. Por esta razão
definiu-se que o estudo de caso, objetivo deste trabalho, seria aplicado com este foco.
De acordo com os estudos do Capítulo 2, que trata dos conceitos básicos de mineração
de dados, o objetivo principal do DM é a descoberta de novos padrões válidos, úteis e
compreensíveis em uma grande massa de dados (FAYYAD, PIATETESKY-SHAPIRO,
SMUTH; 1996). Tendo em vista este objetivo e levando em consideração que a empresa deseja
reduzir os custos com a entrega da mercadoria, este trabalho buscou encontrar os padrões de
itens frequentes, na massa de dados analisada, os quais serão utilizados pela gerência da
empresa em forma de conhecimento na tomada de decisões, a fim de conseguir reduzir os
custos.
O processo de descoberta de conhecimento foi iniciado a partir da necessidade da
empresa. Cada etapa do processo KDD foi desenvolvida, utilizando a ferramenta Kira e
42
utilizando as regras de associação, por meio do algoritmo Apriori. A avaliação dos resultados
foi baseada nas fases propostas por Han, Kamber e Pei (2012) e na metodologia CRISP-DM
apresentados no Capítulo 2.3. Foi escolhido o uso de regras de associação, para a mineração
dos dados, devido ser a única regra implementada na ferramenta Kira (MENDES, 2009).
A metodologia deste trabalho foi dividida nas atividades listadas, em ordem sequencial,
baseando-se na metodologia proposta pela ferramenta Kira, como mostrado na Figura 16:
• Configurar o banco de dados

Definir a fonte • Importação dos dados
de dados
• Entendimento do negócio
• Definir do problema
Definir o
projeto • Definir o objetivo
• Selecionar a tarefa de mineração

Tarefa de
Mineração
• Classificação dos pedidos

Preparação
dos Dados
• Definição das Tabelas/Colunas a serem utilizadas

Seleção
• Execução do algoritmo minerador

Mineração
• Análise das regras obtidas

Avaliação
Figura 16: Metodologia Adotada na Proposta

Fonte: Elaboração do Autor
43
A primeira atividade realizada, de acordo com a metodologia proposta, foi a definição

da fonte de dados. Foi necessário o apoio do analista de negócio, o administrador de banco de
dados da empresa, pois este tem conhecimento e experiência no negócio e pôde contribuir para
que as análises pudessem ocorrer da melhor forma, selecionando os dados adequados que,
segundo ele, possuem relação com o problema. O relacionamento das tabelas está representado
pelo Modelo Entidade Relacionamento (MER) na Figura 17.
Figura 17: Modelo Entidade Relacionamento (MER) das Tabelas Relacionas ao

Problema.
Apesar destas tabelas do banco de dados de origem possuírem uma grande quantidade
de registros (tuplas) armazenados, a quantidade de colunas (atributos), que as compõe, é
reduzida, o que limitou a combinação resultante de regras de associação. Tal limitação trouxe,
para as demais fases do projeto, dificuldades na obtenção de padrões que pudessem agregar
novos conhecimentos para a empresa.
A partir da fonte dos dados selecionada foi executada a configuração do banco de dados
junto à ferramenta. Neste trabalho foi utilizado o Gerenciador de Banco de Dados (SGBD)
Firebird. Para a configuração do banco de dados da ferramenta foram necessários inserir os
seguintes parâmetros:
 Descrição: TCC;
 Tipo: Firebird;
 Servidor: embedded
44
 Banco de dados: C:\...\TCC.FBD;

 Usuário: SYSDBA;
 Senha: masterkey;
 URI: jdbc:firebirdsql:embedded:C:\...\TCC.FDB;
As configurações na Ferramenta Kira podem ser melhor observadas na Figura 18.
Figura 18: Configurar o Banco de Dados

Fonte: Ferramenta Kira
Como a base de dados, da empresa, está armazenada em um SGBD Dataflex, formato

não suportado pela ferramenta Kira, os dados foram convertidos para o formato “.csv” e
importados para a ferramenta Kira. Para realizar a importação junto ao Kira, foi necessário
selecionar o arquivo a ser importado, pressionando o botão “Importar Arquivo CSV”. Na
sequência é aberta uma janela de navegação que auxilia o usuário a localizar o arquivo, como
mostrado na Figura 19. Em seguida é necessário nomear a nova tabela que será criada, etapa
mostrada na Figura 20. Por fim, pressiona-se o botão “Importar Metadados”, se nenhum erro
ocorrer será apresentada a confirmação, conforme mostrado na Figura 21.
45
Figura 19: Importação dos dados (1)

Fonte: Ferramenta KRA

46

Com os dados devidamente importados para a ferramenta, o próximo passo foi definir
o projeto, conforme demonstrado na Figura 22. As informações fornecidas, nesta etapa, foram
as seguintes:
 Nome do projeto: TCC: Despesas Mira;
 Área envolvida: Transporte;
 Responsável: Anderson Donizeti Ferreira Leonardi;
 Data início: 01/07/2013;
 Data término: 25/11/2013;
 Custo estimado: 0.
A parametrização da qualidade das colunas por percentual de valores distintos será
utilizada no processo de seleção, onde as colunas selecionadas são avaliadas, de acordo com o
percentual definido. Neste trabalho foi mantido os valores pré-definidos pela ferramenta, onde
para uma coluna ser considerada ruim o percentual de valores distintos deve ser maior que 30%,
assim como para regular o percentual deve estar entre 20% e 30%, para bom deve estar entre
10% e 20% e, para ser avaliada ótima deve ser abaixo de 10%. Foram mantidos estes valores
por serem sugeridos por Mendes (2009) e por se adequarem à base de dados utilizada. Os
parâmetros podem ser alterados de acordo com a necessidade.
47
Figura 22: Definir o projeto

5.1 Entendimento do negócio

Foram estabelecidos vários contatos com a empresa, a fim de definir, o propósito da
realização do estudo de caso, obter as orientações do analista de negócio e compreender melhor
o problema a ser trabalhado com a mineração de dados. De acordo com o Capítulo 2.2, a
atividade que compreende a definição do problema é crucial para todo o processo, pois a partir
de um problema mal definido os resultados obtidos não serão os esperados (BRAGA, 2005).
Por esta razão, foi dada a devida importância nas reuniões, junto à empresa, para que fosse
esclarecido cada detalhe do entendimento da proposta deste trabalho. A partir desta
preocupação, a lógica de negócio da empresa, a ser trabalhada, pôde ser detalhada. Na Figura
23 este ciclo lógico é mostrado.
48
Figura 23: Lógica de negócio da empresa.

Em resumo, a empresa atua na distribuição de produtos destinados a panificação, onde

o vendedor visita o cliente e envia, à empresa, o pedido. Os pedidos são agrupados em
romaneios, a fim de organizar os pedidos, seguindo a logística de entrega definida pela empresa.
Após a separação das mercadorias estas são carregadas nos caminhões que farão as entregas
dos produtos aos respectivos clientes.
A partir da compreensão da lógica de negócio foi definido, junto ao gerente da empresa,
o problema a ser trabalhado, bem como a decisão de como seria tratada, no projeto, a redução
das despesas com as entregas das mercadorias para os clientes. O objetivo também foi
confirmado, o qual se trata da identificação das causas que possam provocar o aumento dos
custos com relação aos pedidos. A solução razoável, aplicada no momento, é o agrupamento
destes pedidos para que a entrega destes seja financeiramente viável, considerando a relação
custo x benefício entre o valor entregue e o custo de realizar esta entrega.
A definição do problema foi documentado, com o auxílio da ferramenta Kira, como
mostrado na Figura 24.
49
Figura 24: Definição do problema/objetivo

Por meio de reunião com a empresa foram definidos parâmetros para enquadrar a
situação dos pedidos, a serem analisados, como excelente, bom, regular ou ruim, levando em
consideração a relação custo x benefício. O principal parâmetro definido pela empresa foi
“Relação de Custo da Entrega”, o qual possibilitou analisar quais situações, na busca pela
redução dos custos da empresa, se estes são interessantes ou não. Este parâmetro também foi
de suma importância para que fossem escolhidos os dados para análise, a partir da massa de
dados disponibilizada pela empresa. Na Tabela 3 é mostrada relação de custo da entrega.
Tabela 3: Relação de Custo da Entrega

Qualidade Porcentagem: Custo da Entrega x Total Pedido
Excelente Menor ou igual a 1%

Bom Maior que 1% e Menor ou igual a 1%
Regular Maior que 3% e Menor ou igual a 5%
Ruim Maior que 5%
50
5.2 Tarefa de Mineração

Após o entendimento do negócio é necessário selecionar, na ferramenta Kira, qual tarefa
de mineração será utilizada. Na atual versão da ferramenta Kira está implementada, somente, a
regra de associação. A regra de associação se apresenta adequada para tratar o problema
proposto no estudo de caso. Na Figura 25 é mostrada as diversas formas de análise das regras
geradas, como visto no Capitulo 3.1.
Figura 25: Tarefa de Mineração

5.3 Preparação dos Dados

Após definir a tarefa de mineração trabalhou-se na preparação dos dados, os quais foram
utilizados nas tarefas de DM. A etapa de preparação seguiu as etapas de apoio à limpeza, seleção
e transformação, segundo Mendes (2009). Na etapa de transformação o pedido foi classificado
em ótimo, bom, regular ou ruim, levando-se em consideração os parâmetros fornecidos pela
empresa na primeira fase deste processo.
Para realizar a classificação dos pedidos foi necessário efetuar um cálculo, o qual foi
dividido em três etapas, são elas: na primeira etapa foi necessário quantificar, em porcentagem,
a relação entre o total de cada pedido e o total geral da entrega na viagem. A proporção
encontrada foi utilizada para obter o quanto “custou” cada pedido ao ser entregue, considerando
51
que os custos são calculados por viagem e não por pedido. Em seguida foi calculado, em
porcentagem, a relação entre o custo do pedido e o valor total do pedido classificando, desta
forma, o pedido de acordo com o percentual encontrado. O valor proporcional encontrado não
corresponde ao valor real e sim aproximado. Porém, segundo a empresa, pôde-se trabalhar com
esta proporção pois, em teoria, um pedido mais lucrativo tem de compensar frente aos outros
menos lucrativos. Na prática a empresa considera a classificação da viagem como excelente,
boa, regular ou ruim. Portanto, todos os pedidos, que compõem cada viagem, são classificados
da mesma forma.
Os cálculos realizados, com o auxílio do Microsoft Excel, para a classificação das
viagens foram realizados, previamente, à importação dos dados para a ferramenta Kira. Na
Tabela 4 é mostrada um exemplo de classificação das viagens. A seguir estão listadas as
equações 4, 5 e 6 utilizadas para o cálculo.
𝑃𝑟𝑜𝑝𝑜𝑟çã𝑜 = 𝑉𝑎𝑙𝑜𝑟 𝑑𝑜 𝑝𝑒𝑑𝑖𝑑𝑜 ÷ 𝑇𝑜𝑡𝑎𝑙 𝑑𝑎𝑠 𝑒𝑛𝑡𝑟𝑒𝑔𝑎𝑠 (4)

𝐶𝑢𝑠𝑡𝑜 𝑑𝑜 𝑝𝑒𝑑𝑖𝑑𝑜 = 𝑇𝑜𝑡𝑎𝑙 𝑑𝑎𝑠 𝑑𝑒𝑠𝑝𝑒𝑠𝑎 × 𝑃𝑟𝑜𝑝𝑜𝑟çã𝑜 (5)
𝑃𝑜𝑟𝑐𝑒𝑛𝑡𝑎𝑔𝑒𝑚 = 𝐶𝑢𝑠𝑡𝑜 𝑑𝑜 𝑝𝑒𝑑𝑖𝑑𝑜 ÷ 𝑉𝑎𝑙𝑜𝑟 𝑑𝑜 𝑃𝐸𝑑𝑖𝑑𝑜 (6)
Tabela 4: Classificação dos Pedidos

Total das Total das Valor do Proporção Custo do Porcentagem Qualidade
despesas entregas pedido pedido
R$ 68,18 R$ 6.741,42 R$ 1.172,41 17% R$ 11,86 1,01% BOM
R$ 123,19 R$ 12.326,70 R$ 1.106,57 9% R$ 11,06 1,00% EXCELENTE
R$ 522,57 R$ 17.118,70 R$ 517,68 3% R$ 15,80 3,05% REGULAR
R$ 393,90 R$ 7.673,67 R$ 636,61 8% R$ 32,68 5,13% RUIM
Observou-se que os dados utilizados para os cálculos, da Tabela 4, não apresentaram

problemas com inconsistências e com dados nulos, pois estes foram extraídos do mesmo
repositório, o qual já havia sido tratado na etapa de definição da base de dados.
5.4 Mineração dos Dados

Com os dados devidamente preparados passou-se então à mineração, etapa mais
importante do processo KDD, cuja fase exige maior conhecimento sobre DM. Nesta etapa a
ferramenta Kira forneceu um grande suporte permitindo a execução do algoritmo Apriori, tendo
em vista a possibilidade de variar os percentuais de suporte e confiança e filtrar as regras
encontradas por atributos, conforme a etapa de mineração acorria. Ao final da execução do
algoritmo minerador, em cada ciclo de mineração, a ferramenta gerou o conjunto de regras
52
correspondente dando a opção, ao analista, de ajustar os parâmetros passados ao algoritmo até

que os resultados encontrados fossem considerados satisfatórios. Os resultados obtidos, nestes
ciclos, com a execução do algoritmo de DM foram avaliados junto com a empresa, a fim de
observar os padrões encontrados. As regras geradas foram classificadas, de acordo com sua
importância. As regras não consideradas importantes, de acordo com a análise, foram excluídas.
Foram feitas diversas tentativas para encontrar regras que fossem realmente
interessantes, de modo que novos conhecimentos sobre a empresa fossem encontrados. Para
cada tentativa foram utilizadas diferentes estratégias, trabalhando de modo a variar as
combinações de dados (colunas), a fim de explorar toda a base de dados.
5.4.1 Primeira tentativa

A primeira tentativa buscou encontrar padrões utilizando-se de informações de
motoristas, caminhões e a qualidade das entregas, buscando descobrir se o custo das viagens
poderia estar relacionado com os motoristas, bem como com o caminhão utilizado.
5.4.1.1 Seleção dos dados

Os dados selecionados nesta fase do projeto foram: Motorista, Placa (identificador do
caminhão), e Qualidade (calculada na etapa de preparação dos dados, no Capitulo 5.3). Ao
selecionar os dados na ferramenta Kira é necessário criar uma nova tabela, a qual foi utilizada
nas etapas posteriores do projeto. A seleção dos dados e a criação da nova tabela está
representada na Figura 26.
Figura 26: Seleção do dados

53
Como mostrado na Figura 26 a ferramenta possui a opção de visualizar o script de

criação da nova tabela.
Com a tabela criada a próxima tarefa foi trabalhar com transformação dos dados. A
transformação é importante para garantir que todos as colunas selecionadas possuem qualidade
boa, ou ótima ou será bloqueada a execução da próxima atividade, ou seja, etapa de mineração
(MENDES, 2009). Para uma coluna ser considerada boa ela deve ter um porcentual de repetição
abaixo de 20% e superior a 10%, e para ser considerada ótima o porcentual deve ser inferior a
10% (os parâmetros de análise das colunas foram definidos na criação do projeto). Caso seja
necessário, o analista tem a possibilidade de alterar os dados que desejar. No caso dos dados
que foram selecionados para esta tentativa não houve necessidade de nenhuma alteração, onde
todas as colunas foram classificadas como ótimas.
5.4.1.2 Mineração
Na fase de Mineração, o primeiro passo foi definir o porcentual de suporte utilizado na
Mineração das Regras de Associação. Foi definido, então, 2% para o suporte, pois como a
quantidade de viagens classificadas como regulares ou ruins são minoria na base de dados, ou
seja, aproximadamente 15%. Caso fosse utilizado um suporte mais elevado, tais viagens
regulares ou ruins, que são o foco deste trabalho, não serão avaliadas. Com este percentual de
suporte foram geradas 71 regras, como mostrado na Figura 27.
Em seguida, foi definida a porcentagem de confiança a ser utilizada na execução do
algoritmo minerador. Foram realizadas três tentativas com a valores de confiança definidos em
90%, 80% e 70%. O valor que retornou o melhor resultado foi confiança igual a 70%, pois
foram gerados 23 itens frequentes. Tais regras são mostradas na Figura 28. Com a confiança
definida em 90% e 80% o número de itens foi muito baixo.
Como não foram encontrados itens frequentes com viagens avaliadas como ruins, foi
necessário abaixar o valor do suporte, executado novamente o algoritmo minerador. Desta vez
com o suporte foi ajustado para 0,3%. Devido ao grande número de itens frequentes
encontrados, com um suporte tão baixo, foram filtrados apenas os itens frequentes que possuíam
qualidade ruim, como mostrado na Figura 29. O porcentual de confiança foi mantido em 70%
e assim foram obtidos dois itens frequente, os quais são mostrado na Figura 30.
54
Figura 27: Definição do suporte

Figura 28: Regras obtidas

55
.
Figura 29: Definição do suporte com filtro

56
5.4.2 Segunda tentativa

Na segunda tentativa foram utilizadas, na busca por padrões, as colunas: Motoristas,
Vendedores, Cidades e Qualidade das entregas.

Entre as colunas disponíveis para seleção na ferramenta, nesta fase do projeto, foram
escolhidas Cidade_Pedido, Motorista, Vendedor e Qualidade. A seleção do dados, a criação da
nova tabela e o respectivo script de criação é mostrado na Figura 31.

Assim como ocorreu na tentativa anterior todas as colunas utilizadas foram classificadas
como ótimas. Desta forma, não foi necessário realizar nenhum tratamento na fase de
transformação.
5.4.2.2 Mineração
Nesta fase, foi definido um porcentual de suporte baixo para ser utilizado na mineração
por regras de associação. Foi definido o uso este suporte para que os itens frequentes com a
qualidade de entrega ruins ou regulares pudessem ser gerados. A exemplo do que ocorreu na
primeira tentativa, será aplicado um filtro devido à grande quantidade de itens frequentes
encontrados. Primeiro foram filtradas as entregas classificadas como regulares, utilizando
suporte de 1%. Foram gerados 11 itens frequentes, como mostrado na Figura 32.
57
Figura 32: Definição do suporte

Em seguida, foi definido como 70% a confiança a ser utilizada na execução do algoritmo
minerador. Nenhum item frequente foi encontrado com este percentual de confiança. Assim,
foi necessário reduzir a confiança. Foram testados valores para o parâmetro de confiança, tais
como: 60%, 40% e 20%. O resultado foi a geração de 11 itens frequentes. Como os percentuais
de confiança são muito baixos estas regras foram descartadas. As regras descartadas estão
representadas na Figura 33.
Figura 33: Itens frequentes descartados

58
Como a tentativa de filtrar viagens classificadas como regulares, na etapa anterior, não
resultaram em nenhum item frequente, para a segunda tentativa utilizou-se a mesma seleção de
dados com o valor de suporte igual a 0.3% e a confiança em 70%. Como na etapa anterior foi
novamente aplicado um filtro nos resultados, desta vez foram filtrado os resultados com
qualidade ruim. Para estes níveis de suporte e confiança foi gerado 1 item frequente, conforme
mostrado na Figura 34.

5.4.3 Terceira tentativa

Na terceira tentativa foram utilizadas, na busca por padrões, as colunas: Vendedores,
Cidades, Quilômetros rodados e a Qualidade das entregas.

Entre as colunas disponíveis para seleção na ferramenta, nesta fase do projeto, foram
escolhidas Cidade_Pedido, Cliente_Pedido, KM_Rodados, Vendedor e Qualidade. A seleção
do dados, a criação da nova tabela e o respectivo script de criação são mostrados na Figura 35.
59

Nesta tentativa de obter o melhor resultado do algoritmo de mineração foi necessário a

conversão da coluna KM_Rodados do tipo String para inteiro. Para efetuar a conversão foi
utilizada as funções “CAST()” (do Firebird) e “Discretizar” (da ferramenta Kira), como
mostrado na Figura 36. Com isso, todos os dados da coluna KM_Rodados são convertidos de
texto para inteiro.
Figura 36: Transformação dos dados

60
5.4.3.2 Mineração
Nesta fase, foi definido um porcentual de 0,3% para o suporte. A exemplo das tentativas
anteriores foi definido este percentual de suporte para encontrar o maior número de itens
frequentes com qualidade de entrega regular. Mais uma vez será utilizado o filtro de qualidade
para obter apenas os itens frequentes com qualidade regular. O suporte para esta execução do
algoritmo minerador foi definido como 70%. Este valor foi definido como 70% baseado na
experiência da tentativas anteriores. Para este percentual de suporte e confiança foram geradas
4 itens frequentes, como mostrado na Figura 37.
Figura 37: Transformação dos dados

Fonte: Ferramenta Kira.
5.5 Avaliação
Por fim, todas as regras obtidas com a mineração dos dados, considerando as três
tentativas relatadas anteriormente, foram avaliadas pelo projetista em conjunto com o analista
de negócio da empresa, de acordo com os critérios: grau de interesse, se as regras estão de
61
acordo com a realidade da empresa. A ferramenta Kira possui uma interface para auxiliar nesta
tarefa, como mostrado na Figura 38.
Figura 38: Avaliação das regras geradas

Capítulo
63
6 Resultados
Ao final deste trabalho foram selecionadas 30 regras consideradas válidas para atender
ao objetivo proposto. As regras foram geradas a partir da execução de um processo de
descoberta de conhecimento em banco de dados, conforme a metodologia e ferramenta adotada.
Na Tabela 5 são mostradas as regras, bem como a classificação de cada uma delas.
Os critérios utilizados para avaliação das regras classificadas como ótimas foram os
seguintes: corresponder a todos os itens da avaliação, ou seja, esta deve contribuir na descoberta
de um novo conhecimento para empresa, estar relacionadas ao problema levantado no processo
de DM e estar de acordo com a realidade da empresa. Infelizmente nenhuma regra pôde ser
classificada como ótima.
Para classificar as regras como boas foram utilizados os seguintes critérios: estar de
acordo com a realidade da empresa, estar relacionada ao problema levantado pelo processo
KDD, porém não devem agregar novos conhecimentos à empresa. Na Tabela 5, a regra 1, por
exemplo, foi classificada como boa pois os pedidos que são entregues na cidade de Cambuí
possuem um custo mais elevado, por conta da distância elevada que tem de ser percorrida, e os
pedidos são sempre emitidos pelo vendedor 2. Portanto, as informações referentes a esta regra
representam a realidade da empresa e estão relacionados ao problema definido no processo de
DM, porém estas informações já são de conhecimento da empresa, sendo assim, não representa
um novo conhecimento para a empresa.
Para as regras classificadas como regulares os critérios foram: estar de acordo com a
realidade da empresa, não fornecer novos conhecimentos à empresa e também não possuir
relação direta ao problema definido no processo de Data Mining. Observando a regra 8 presente
na Tabela 5, percebe-se que na maioria das entregas do motorista 111 os pedidos são
classificados como bons. Esta regra representa a realidade da empresa, porém não possui
relevância ao processo de Mineração e nem representa uma nova informação a empresa.
64
Tabela 5: Regras obtidas

Regra Sup (%) Conf (%) Qualidade
1 Qualidade=regular; cidade_pedido=cambui ==> vendedor=2 0,31 83,33 Boa
2 Placa=eaw8043; qualidade=ruim ==> motorista=105 0,78 87,2 Boa
3 Motorista=105; qualidade=ruim ==> placa=eaw8043 0,78 85,14 Boa
4 Vendedor=38; qualidade=ruim ==> motorista=105 0,33 96,62 Boa
5 Qualidade=regular; cidade_pedido=itajuba ==> 0,52 88,02 Boa
vendedor=27
6 Qualidade=regular; cidade_pedido=pouso alegre ==> 0,43 84,74 Boa
vendedor=2
7 Qualidade=regular; cidade_pedido=guaxupe ==> 0,32 88,99 Boa
vendedor=1
8 Motorista=111 ==> qualidade=bom 5,94 71,05 Regular
10 Motorista=102; qualidade=bom ==> placa=dfh2644 2,43 73,54 Regular
11 Motorista=102; placa=dfh2644 ==> qualidade=bom 2,43 76,75 Regular
14 Placa=dfh2644 ==> qualidade=bom 8,9 77,76 Regular
15 Placa=cxe2113 ==> qualidade=bom 6,74 79,4 Regular
16 Placa=dbi9074 ==> qualidade=bom 10,19 80,2 Regular
17 Motorista=100; placa=eil0523 ==> qualidade=bom 3,44 81,71 Regular
18 Motorista=106; placa=dfh8429 ==> qualidade=bom 3,26 82,92 Regular

19 Motorista=104; placa=dbi9074 ==> qualidade=bom 6,54 84,94 Regular
21 Placa=eil0523 ==> qualidade=bom 11,25 86,68 Regular

23 Motorista=106; placa=cxe2113 ==> qualidade=bom 2,61 87,65 Regular
24 Motorista=100; qualidade=bom ==> placa=eil0523 3,44 87,7 Regular
25 Motorista=104; placa=eil0523 ==> qualidade=bom 4,43 92,37 Regular
26 Motorista=106; placa=eaw8063 ==> qualidade=bom 3,15 93,36 Regular
27 Motorista=102 ==> placa=dfh2644 3,17 70,05 Ruim
28 Placa=kin2824 ==> qualidade=bom 7,36 70,08 Ruim
29 Placa=eaw8063 ==> qualidade=bom 8,76 72,67 Ruim
30 Motorista=100 ==> placa=eil0523 4,22 83,42 Ruim
65
As regras classificadas como ruins não atenderam a nenhum dos itens de avaliação ou
foram consideradas óbvias demais, ou seja, não faz-se necessário a realização um processo de
descoberta de conhecimento para chegar às regras obtidas. Como exemplo, a regra 27
apresentada na Tabela 5, mostra que a maioria das viagens realizadas pelo motorista 102 são
feitas utilizando o caminhão com a placa “dfh2644”. Estas informações podem ser obtidas pela
empresa através de controle simples, não necessitando de um processo de Mineração de Dados para
isso, por esta causa foi classificada como ruim.
A análise dos resultados obtidos foi considerada insatisfatória, visto que, nenhuma das
regras geradas pôde fornecer uma solução, mesmo que parcial, para o problema da empresa.
67
7 Conclusões
Após a análise dos resultados pôde-se concluir que estes não alcançaram o objetivo
esperado. As regras de associação geradas, ao final do processo de cada tentativa trabalhada,
não forneceram novos conhecimentos relevantes à empresa.
Conclui-se também que a proposta deste trabalho não foi atingida em relação à
expectativa da empresa. Não foi possível obter resultados melhores devido ao fato de não ter
acesso ao banco de dados completo da empresa. A empresa não pôde liberar algumas tabelas
do banco de dados por conter informações sigilosas. Portanto, considera-se este fato como
principal limitação deste trabalho, pois a base de dados não forneceu subsídios suficientes para
o cruzamento de informações consideradas relevantes para a resolução do problema proposto,
tais como: informações sobre a manutenção dos veículos utilizados nas entregas, retorno de
mercadorias que saíram para entrega, entre outras. Tais informações são interessantes, pois se
referem ao estabelecimento de rotas fixas; às condições das estradas por onde trafegam os
caminhões, considerando cada motorista; e aos registros de eventos não cotidianos que geram
gastos imprevistos durante as viagens.
Observou-se que os resultados fornecidos pela ferramenta Kira, levando em
consideração a metodologia que esta segue, foram satisfatórios e contribuíram no aprendizado
dos conceitos de KDD. É importante ressaltar o auxílio dos guias desenvolvidos por Mendes
(2009), pois estes tornaram as etapas do processo de descoberta de conhecimento, em bases de
dados, mais intuitivas, não necessitando de conhecimentos avançados no desenvolvimento das
atividades propostas.
As regras geradas pela ferramenta foram consideradas válidas, de acordo com a
realidade da empresa, mesmo que a maioria delas já fossem de conhecimento prévio a este
projeto.
Foi observado também, conforme (Gonçalves, 2005), que a tarefa Regras de Associação
geram um grande número de itens frequentes que são, em sua maioria, óbvias, redundantes ou
até mesmo contraditórias.
Com este trabalho foi possível compreender que o processo de descoberta de
conhecimento em banco de dados (KDD) é complexo e oneroso. E, por mais que a Kira tenha
auxiliado no desenvolvimento de todo o processo, algumas etapas dependem do analista de
dados da empresa, frente à metodologia aplicada ou do técnico que está trabalhando no projeto.
A exemplo pode ser citada a etapa de seleção dos dados, onde o conhecimento e experiência no
68
negócio são essenciais. O desenvolvimento deste trabalho agregou conhecimentos técnicos

específicos tanto em KDD, quanto em banco de dados de forma geral.
Foi observado também que quando uma empresa faz opção por iniciar um trabalho, por
meio do processo de KDD, é de suma importância que esta esteja disposta a disponibilizar o
máximo de informações possível para o projeto, caso contrário o resultado não será de acordo
com o esperado.
Ficou claro também a necessidade de uma boa comunicação entre o projetista e o
analista de negócio. A comunicação é um requisito fundamental para o desenvolvimento deste
tipo de trabalho, pois este precisa ser bem definido, organizado e justificado, a fim de obter
menos imprevistos e atingir os objetivos esperados. Acredita-se que durante a execução deste
trabalho não tenha ficado claro para a empresa o benefício que este trabalho poderia trazer,
frente à redução dos custos, demanda atual, e demais demandas que pudessem ser analisadas
posteriormente. Porém, frente às conclusões deste trabalho, a empresa entendeu que é
necessário investir em seus sistemas, de modo que estes possam trazer retorno ao negócio. Ficou
claro também a necessidade de exploração do conhecimento acumulado, em suas bases de
dados, para a obtenção de apoio às decisões gerenciais. Desta forma, ficou acordado com a
empresa a possibilidade da realização de novas tentativas para a busca de conhecimentos, a fim
de dar sequência no projeto de Data Mining, afinal é de interesse da empresa continuar
buscando soluções para a redução de custos de entrega.
Conclui-se, por fim, que o processo KDD tem como tendência ser cada vez mais
utilizado nos ambientes corporativos, visto que, com o desenvolvimento tecnológico e o
crescente volume de dados torna-se difícil a obtenção de conhecimento para uso em tomadas
de decisão.
Como proposta para trabalhos futuros, o processo poderá ser repetido, utilizando-se de
uma base de dados maior e preparada, e também utilizar de diferentes tarefas de mineração, que
podem se adequar melhor ao problema levantado, podendo assim atingir resultados mais
significativos.
69
Referências
AGRAWAL, Rakesh; IMIELIńSKI, Tomasz; SWAMI, Arun. Mining association rules
between sets of items in large databases. Acm Sigmod Record, New York, Ny, Usa, v. 22, n.
2, p.207-216, 01 jul. 1993.
AMO, Sandra de. Técnicas de Mineração de Dados. In: CONGRESSO DA SOCIEDADE

BRASILEIRA DE COMPUTAÇÃO, 24., 2004, Salvador, Ba. Jornada de Atualização em
Informatica. Salvador, Ba: Sbc, 2004.
BERRY, Michael J. A.; LINOFF, Gordon S.. Data Mining Techniques: For Marketing,
Sales, and Customer Relationship Management. 3. ed. Indianapolis, Indiana: Wiley
Publishing, Inc., 2004. 643 p.
BRAGA, Luis Paulo Vieira. Introdução a Mineração de Dados. 2. ed. Rio de Janeiro: E-
papers Serviços Editoriais, 2005. 212 p.
CAMILO, Cássio Oliveira; SILVA, João Carlos da. Mineração de Dados: Conceitos,
Tarefas, Métodos e Ferramentas. Goiânia, Go: Instituto de Informática Universidade
Federal de Goiás, 2009. 28 p.
FAYYAD, Usama; PIATETSKY-SHAPIRO, Gregory; SMYTH, Padhraic. From Data

Mining to Knowledge Discovery in Databases. Advances In Knowledge Discovery and
Data Mining, Cambridge, Ma, p.37-54, 1996.
GEHRKE, Johannes. Decision Trees. In: LAWRENCE ERLBAUM ASSOCIATES (New

Jersey). The handbook of data mining. Arizona: Nong Ye, 2003. p. 3-24.
GONÇALVES, Eduardo Corrêa. Regras de Associação e suas Medidas de Interesse

Objetivas e Subjetivas. INFOCOMP Journal of Computer Science, Niterói, v. 4, n. 1, p.26-
35, 2005.
GUROVITZ, Helio. O que cerveja tem a ver com fraldas? Disponível em:
<http://exame.abril.com.br/revista-exame/edicoes/0633/noticias/o-que-cerveja-tem-a-ver-
com-fraldas-m0053931>. Acesso em: 05 abr. 2013.
HABERSTROH, Robert. Oracle Data Mining Tutorial: for Oracle Data Mining 10g
Release 2, Oracle Data Mining 11g Release 1. Redwood Shores, Ca: Oracle, 2008.
HALL, Mark. et al. The WEKA data mining software: an update. ACM SIGKDD
Explorations, New York, v. 2, n.1, p. 10 – 18, jun. 2009.
70
HAN, Jiawei; KAMBER, Michelini; PEI, Jian. Data Mining Concepts and Techniques. 3.
ed. Waltham, Ma: Morgan Kaufmann, 2012. 708 p.
LAROSE, Daniel T.. DISCOVERING KNOWLEDGE IN DATA: An Introduction to

Data Mining. Hoboken, Nj: John Wiley & Sons, 2005. 222 p.
MENDES, Eduardo Fernando. Automatização da Técnica de Mineração de dados

auxiliada por guias. 2009. 101 f. Dissertação (Mestrado) - Curso de Ciência da Computação,
Metodista de Piracicaba, Piracicaba, 2009.
ORACLE. Oracle Data Mining: Powering Next-Generation Predictive Applications.

Disponível em: <http://www.oracle.com/technetwork/database/options/advanced-
analytics/odm/index.html>. Acesso em: 21 maio 2013.
REZENDE, Solange Oliveira. Mineração de Dados. In: Congresso da sociedade Brasileira de

Computação, 25., 2005, São Leopoldo, Rs. A Universidade da Computação: Um agente de
inovação e Conhecimento. São Leopoldo, Rs: Unisinos, 2005. p. 397 - 433.
SANTOS, Daiana Pereira dos. Uso de Data Mining em Base de Dados de Empresa
Calçadista. 2007. 49 f. Trabalho de Conclusão de Curso (Graduação) - Curso de Ciências da
Computação, Centro Universitário Feevale, Novo Hamburgo, Rs, 2007.
TWO CROWS CORPORATION. Introduction to Data Mining and Knowledge Discovery. 3.

ed. Potomac, Maryland, 1999. 40 p.
WEBB, Geoffrey I.. Association Rules. In: LAWRENCE ERLBAUM ASSOCIATES (New
Jersey). The handbook of data mining. Arizona: Nong Ye, 2003. p. 25-40.

2013 - 2sem - Anderson Donizete Ferreira Leonardi PDF

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

2013 - 2sem - Anderson Donizete Ferreira Leonardi PDF

Enviado por

Direitos autorais:

Formatos disponíveis

Anderson Donizete Ferreira Leonardi

ESTUDO E APLICAÇÃO DE METODOLOGIA DE MINERAÇÃO DE

Trabalho de conclusão de curso

Área de Concentração: Banco de Dados

Orientador: Prof. Ricardo Alexandre Neves

São João da Boa Vista

Ficha catalográfica preparada pela Seção de Tratamento

Trabalho de Conclusão de Curso, IFSP, 2013.

1. Mineração de dados. 2. Descoberta de conhecimento

I. Estudo e Aplicação de metodologia de

Agradeço primeiramente meus pais pelo apoio que sempre me deram,

LEONARDI, A. D. F. (2013). Estudo e aplicação de metodologia de mineração de

Palavras-chave: Mineração de dados. Descoberta de conhecimento em base de dados.

LEONARDI, A. D. F. (2013). Study and application of data mining methodology

Keywords: Data Mining. Knowledge Discovery in Databases. Tool Kira. CRISP-DM.

A motivação deste trabalho está na identificação e na aplicação de uma metodologia de

1.3 Organização deste trabalho

2 Conceitos Básicos de Mineração de Dados

2.1 Processo de Descoberta de Conhecimento

O foco central da mineração de dados é transformar dados armazenados (puros e

2.2 Definição de Problema (Mineração de Dados)

2.3 O processo Knowledge Discovery in Databases (KDD)

Hoje existem diversas metodologias que definem e padronizam as etapas do processo

Figura 1: Mineração de Dados como passo no Processo de Descoberta de

1- Limpeza dos Dados: Consiste em Remover ruídos e dados inconsistentes;

5- Mineração dos Dados: Trata-se da etapa mais importante do processo KDD,

Figura 2: Representação do processo CRISP-DM

Segundo Larose (2005) as fases do processo CRISP-DM são:

3 Tarefas e Técnicas de Mineração de Dados

3.1 Regras de Associação

Segundo Gonçalves (2005), o modelo baseado no suporte e na confiança consiste em

exemplo a seguir mostra a aplicação do modelo Suporte/Confiança para filtrar as Regras de

Tabela 1: Transações de itens comprados

3.2 Algoritmo para regras de Associações: Apriori

Figura 3: Construção de um K-itemset candidato a partir de dois frequentes de

Como exemplo, segue a baixo um conjunto de itemsets frequentes de tamanho 2:

A partir deste conjunto obtemos o seguinte conjunto dos pré-candidatos 𝐶𝑘𝑙 :

Na fase final é calculado o suporte de cada itemset do conjunto 𝐶𝐾 . Ao percorrer o banco

3.3 Classificação e Regressão

3.4 Algoritmo de Classificação: Árvore de decisão

Tabela 2: Exemplo de banco de dados de treinamento para assinatura de revista

Id Carro Idade Crianças Assinatura

Figura 4: Exemplo de árvore de decisão assinatura de revista

Figura 5: Registros agrupados em três clusters

3.6 Algoritmo para agrupamento: Método de Particionamento

Dado um conjunto de dados D com n registros, sendo k o número de agrupamentos

Figura 6: Exemplo de agrupamento de baralho em 2 e 4 clusters

4 Ferramentas de Mineração de Dados

4.1 Waikato Environment for Knowledge Analysis (WEKA)

Figura 7: Interface do usuário do WEKA Explorer

Na Figura 8 é mostrada a interface que fornece acesso a várias interfaces de usuário e

Figura 8: O GUI5 Seletor

4.2 Oracle Data Mining

Figura 9: ODM - Comparação de Agrupamentos

Figura 10: Kira – Identificação da Tarefa de Mineração

Figura 11: Kira – Preparação dos Dados: Seleção

Figura 12: Kira - Preparação dos Dados: Transformação

Figura 13: Kira – Análise dos dados: Mineração

Figura 14: Análise dos dados: Avaliação

A arquitetura da Ferramenta é composta por três módulos principais: Módulo de Apoio

Figura 15: Arquitetura da Ferramenta Kira

A proposta deste trabalho consiste no desenvolvimento de um estudo de caso com o

• Configurar o banco de dados