Escolar Documentos
Profissional Documentos
Cultura Documentos
Leonardi, Anderson D. F.
Estudo e Aplicação de metodologia de mineração de
dados fazendo uso de ferramenta automatizada. Anderson
Donizete Ferreira Leonardi / Orientador Professor
Ricardo Alexandre Neves; Coorientadora Professora
Fernanda Carla de Oliveira Prado. São João da Boa
Vista,2013.
Este trabalho apresenta como resultado trinta regras obtidas a partir da análise de uma
massa de dados fornecida por uma determinada empresa, com o objetivo de contribuir para a
tomada de decisão gerencial, de modo a tratar problemas pontuais da empresa. Para este estudo
de caso propõe-se o estudo e aplicação de uma metodologia de Mineração de Dados, que
contempla o estudo do processo de descoberta de conhecimento em banco de dados (KDD), as
fases do processo de Data Mining, a metodologia CRISP-DM, as tarefas de Mineração de dados
e suas respectivas técnicas. Foi utilizada a Regra de Associação para a descoberta do
conhecimento, por conta da escolha da Ferramenta Case (i.e. Ferramenta computacional para
auxílio em atividades de engenharia de software) Kira, objeto de estudo incluído também nesta
proposta, no sentido de auxiliar na análise da massa de dados e na apresentação de um resultado
satisfatório à empresa. Ao fim do estudo foi concluído que as regras obtidas foram consideradas
insatisfatórias do ponto de vista da empresa, por outro lado, com este trabalho pode-se
identificar as dificuldades encontradas no desenvolvimento do processo KDD e também
comprovar que a ferramenta Kira cumpre sua proposta de diminuir a complexidade encontrada
durante a Mineração de Dados.
This paper presents as a result thirty rules obtained from the analysis of a mass of data
provided by a specific company, aiming to contribute to the managerial decision-making, in
order to address specific business problems. For this case study is proposed to study and
application of a methodology for Data Mining, which includes the study of knowledge
discovery in databases (KDD), the phases of the data mining process make the methodology
CRISP-DM tasks in data Mining and their techniques. Was used the Rule of Association for
the discovery of knowledge, due to the choice of tool case (i.e. Computational tool to aid in
software engineering activities) Kira, object of study also included in this proposal, in order to
assist in analyzing the mass of data and presentation of a satisfactory outcome to the company.
At the end of the study it was concluded that the rules obtained were considered unsatisfactory
from the point of view of business, On the other hand, this work can identify the difficulties
encountered in developing the KDD process and prove that Kira tool fulfills its proposal to
reduce the complexity found in the Data Mining.
CRISP-DM Cross Industry Standard Process for Data Mining (Processo Padrão
Interindustriais para Mineração de Dados)
DM Data Mining (Mineração de Dados)
GUI Graphical User Interface (Interface Gráfica ao Usuário)
KDD Knowledge Discovery in Databases (Descoberta de Conhecimento em
Bases de Dados)
ODM Oracle Data Mining
SQL Structured Query Language (Linguagem de Consulta Estruturada)
MER Modelo Entidade Relacionamento
SGBD Sistema Gerenciador de Banco de Dados
SUMÁRIO
1 INTRODUÇÃO ............................................................................................... 17
1.1 Motivação.............................................................................................................. 17
1.2 Objetivos ............................................................................................................... 18
1.3 Organização deste trabalho ................................................................................... 18
2 CONCEITOS BÁSICOS DE MINERAÇÃO DE DADOS ........................................19
2.1 Processo de Descoberta de Conhecimento ............................................................ 19
2.2 Definição de Problema (Mineração de Dados) ..................................................... 20
2.3 O processo Knowledge Discovery in Databases (KDD)....................................... 20
3 TAREFAS E TÉCNICAS DE MINERAÇÃO DE DADOS .......................................25
3.1 Regras de Associação ............................................................................................ 25
3.2 Algoritmo para regras de Associações: Apriori .................................................... 26
3.3 Classificação e Regressão ..................................................................................... 28
3.4 Algoritmo de Classificação: Árvore de decisão .................................................... 28
3.5 Agrupamento ......................................................................................................... 30
3.6 Algoritmo para agrupamento: Método de Particionamento .................................. 31
4 FERRAMENTAS DE MINERAÇÃO DE DADOS ..................................................33
4.1 Waikato Environment for Knowledge Analysis (WEKA) .................................... 33
4.2 Oracle Data Mining ............................................................................................... 35
4.3 Kira........................................................................................................................ 36
5 METODOLOGIA............................................................................................ 41
5.1 Entendimento do negócio ...................................................................................... 47
5.2 Tarefa de Mineração.............................................................................................. 50
5.3 Preparação dos Dados ........................................................................................... 50
5.4 Mineração dos Dados ............................................................................................ 51
5.4.1 Primeira tentativa ............................................................................................... 52
5.4.1.1 Seleção dos dados .............................................................................................. 52
5.4.1.2 Mineração........................................................................................................... 53
5.4.2 Segunda tentativa ............................................................................................... 56
5.4.2.1 Seleção dos dados .............................................................................................. 56
5.4.2.2 Mineração........................................................................................................... 56
5.4.3 Terceira tentativa ................................................................................................ 58
5.4.3.1 Seleção dos dados .............................................................................................. 58
5.4.3.2 Mineração........................................................................................................... 60
5.5 Avaliação............................................................................................................... 60
6 RESULTADOS ............................................................................................... 63
7 CONCLUSÕES .............................................................................................. 67
REFERÊNCIAS ................................................................................................... 69
Capítulo
17
1 Introdução
O avanço das tecnologias e a queda no custo de armazenamento dos dados, nos últimos
anos, têm gerado uma enorme massa de dados, a todo instante, nas empresas (REZENDE,
2005). O principal objetivo de se manter os dados armazenados, segundo Camilo e Silva (2009),
é auxiliar os administradores das empresas em suas tomadas de decisão. Porém com o aumento
do volume dos dados ficou inviável utilizar as técnicas tradicionais para tratar estes repositórios,
tornando estas empresas, “ricas em dados, mas pobres em informação” (HAN; KAMBER; PEI,
2012).
Com a clara necessidade da evolução dos processos de análise de dados, surgiu no fim
da década de oitenta, o conceito de Descoberta de Conhecimento, onde o foco principal é a
extração do conhecimento, por meio de grandes bases de dados (REZENDE, 2005).
A descoberta de conhecimento consiste na busca por padrões em grandes volumes de
dados. Tal busca é definida por mineração de dados, assim como o termo Descoberta de
Conhecimento em banco de dados. Tal definição se refere a todo o processo de descoberta de
conhecimento útil a partir de dados, enquanto a mineração de dados é uma determinada etapa
deste processo (FAYYAD; PIATETESKY-SHAPIRO; SMYTH, 1996). A mineração de dados
consiste na aplicação de algoritmos específicos para a extração de padrões de dados,
considerada por (REZENDE, 2005) como a principal etapa do processo de descoberta de
conhecimento.
Segundo Fayyad, Piatetesky-Shapiro e Smyth (1996), o processo de descoberta de
conhecimento pode ser aplicado nas principais áreas de negócios incluindo, marketing, finanças
(especialmente investimentos), detecção de fraudes, manufaturas, telecomunicações e agentes
de internet (ie. Ferramentas computacionais que percorrem a internet executando uma tarefa
específica).
1.1 Motivação
O processo de descoberta de conhecimento em Bases de Dados requer um alto grau de
conhecimento para que seja feita a escolha correta do algoritmo a ser utilizado e que os
parâmetros sejam configurados corretamente para que o processo consiga alcançar o objetivo
esperado. Com isso faltam profissionais capacitados para auxiliar os analistas de dados na
execução de tal processo (MENDES, 2009).
18
1.2 Objetivos
Este trabalho tem como objetivo estudar e aplicar uma metodologia de mineração de
dados com o auxílio da ferramenta automatizada Kira, desenvolvida para reduzir a
complexidade nos processos KDD tornando-os mais intuitivos (Mendes, 2009). Desenvolver
cada fase do processo de descoberta de conhecimento a partir de uma base de dados real,
fornecida pela empresa Mira Distribuidora de Alimentos LTDA, de forma que estes dados
possam ser preparados para a mineração, por meio da Regra de Associação, na busca por
padrões que atendam a necessidade da empresa e auxilie nas tomadas de decisão.
19
25
Amo (2004) define que confiança, conf (X → Y), é a porcentagem de transações que
suportam Y dentre todas as ocorrências que suportam X, conforme mostrada na Equação (2):
𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑡𝑟𝑎𝑛𝑠𝑎çõ𝑒𝑠 𝑞𝑢𝑒 𝑠𝑢𝑝𝑜𝑟𝑡𝑎𝑚 (𝑋 ∪𝑌)
𝑐𝑜𝑛𝑓(𝐴 → 𝐵) = (2)
𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑡𝑟𝑎𝑛𝑠𝑎çõ𝑒𝑠 𝑞𝑢𝑒 𝑠𝑢𝑝𝑜𝑟𝑡𝑎𝑚 (𝑋)
Considerando que o usuário possa definir, neste exemplo, o SupMin como 60% e
ConfMin como 75%, este irá encontrar a regra de associação pão → leite que que atende aos
limites de suporte e confiança, sendo que o sup (pão → leite) = 60%, pois pão e leite estão em
3 das 5 transações existentes, e a conf (pão → leite) = 75%, onde o leite está presente em 3 das
4 transações que contém o pão.
1
Geração: gerar os itemsets candidatos, não necessariamente frequentes.
2
Poda: São descartados todos os itemsets candidatos que não tem chances de ser frequentes.
3
Validação: Verifica quais os candidatos que possui suporte maior que o definido.
27
os itemsets de tamanho K-1 contidos nos candidatos de tamanho K devem ser frequentes. Sendo
assim, é formado o conjunto 𝐶𝑘′ de itemsets candidatos de tamanho K, unindo itemsets de
tamanho K-1 que tenham K-2 elementos em comum. Assim, garante-se que, pelo menos, dois
subconjuntos de tamanho K-1 contidos no itemset são frequentes.
Com os pré-candidatos preparados passa-se então para a segunda fase. Nesta fase,
chamada de Fase da Poda dos Candidatos, alguns dos candidatos poderão ser descartados
baseando-se na propriedade do algoritmo Apriori que define: se um itemset do conjunto 𝐶𝐾′
possuir um subconjunto de itens de tamanho K-1 que não estiver contido em 𝐿𝐾−1 . Este poderá
ser descartado, pois ele não tem chance de ser frequente. Portanto, nesta fase calcula-se o
conjunto 𝐶𝐾 = 𝐶𝐾′ − {𝐼| 𝑒𝑥𝑖𝑠𝑡𝑒 𝐽 ⊆ 𝐼 𝑡𝑎𝑙 𝑞𝑢𝑒 | 𝐽 | = 𝐾 − 1 𝑒 𝐽 ∉ 𝐿𝐾−1}. A notação |𝐽|
significa o número de elementos do itemset 𝐽. Na sequência, na segunda fase, é apresentada a
Equação (3).
𝐶3 = 𝐶3′ − {{1,4,5}, {1,3,5}} = {{1,3,4}, {2,3,4}} (3)
Nesta etapa os itemsets {1,4,5} e o {1,3,5} foram descartados por conter 2 itemsets, o
{4,5} e o {3,5}, respectivamente, que não são frequentes, pois não aparecem no conjunto 𝐿2 .
28
3.5 Agrupamento
A tarefa de agrupamento busca identificar registros similares e aproxima-los formando
grupos. Segundo Camilo e Silva os registros são similares a outros registros do mesmo grupo e
diferentes dos registros de outros grupos.
Para Amo (2004) a tarefa de agrupamento tem comportamento parecido com a tarefa de
classificação, a diferença está na tarefa de agrupamento por não ter as classes previamente
classificadas, como ocorre na tarefa de classificação. Outra diferença entre eles está em seus
objetivos, ao contrário da tarefa de classificação o agrupamento ou cluster busca apenas
identificar grupos de registros similares, como mostrado na Figura 5, e não classificar, estimar
ou predizer valores (CAMILO; SILVA, 2009).
Para Camilo e Silva (2009) as aplicações da tarefa de agrupamento são as mais variadas
possíveis, ela pode ser aplicada, por exemplo, em pesquisa de mercado, reconhecimento de
padrões, processamento de imagens, pesquisas geográficas, classificação de documento da
internet, detecção de fraudes e diversas outras. Na maioria das vezes esta tarefa é combinada
com outras.
4
Centroide: Ponto cujas coordenadas são as médias das coordenadas das coordenadas dos pontos de uma
figura geométrica.
Capítulo
33
5
GUI (Graphical User Interface): Interface que facilita a interação entre o usuário e o computador.
35
6
Modelo criado para prever a probabilidade de um resultado.
7
Transferência de dados entre sistemas computacionais.
8
Tempo de espera da resposta.
36
4.3 Kira
A ferramenta foi desenvolvida por Mendes (2009), baseando-se em “Guias” que ele
próprio desenvolveu, com o objetivo de reduzir o nível de complexidade envolvida no processo
KDD, tornando as tarefas de regras de associação mais intuitivas (MENDES, 2009). Os guias
são utilizados para orientar na execução das tarefas, de acordo com as regras de associação,
mesmo que alguns guias sejam gerais para qualquer tarefa de DM (Data Mining) (MENDES,
2009). São sete os guias propostos: o primeiro guia auxilia o analista de dados a definir o
problema a ser trabalhado, ou seja, minerado; o segundo guia auxilia na definição do objetivo
que deseja cumprir ao resolver o problema de DM; o terceiro guia tem por objetivo de auxiliar
na identificação da tarefa de Data Mining, a qual será utilizada para resolver o problema
proposto e alcançar o objetivo da mineração. Na Figura 10 é mostrada como a ferramenta Kira
aplica os três primeiros guias. O quarto guia ajuda o analista na identificação e seleção dos
dados relevantes ao problema. Na Figura 11 é mostrado este guia sendo executado, pelo usuário,
na ferramenta; o quinto guia auxilia na avaliação de cada coluna da tabela, escolhida no passo
anterior, utilizada para análise. Neste passo o guia sugere o que deve ser feito para deixar os
dados aptos a ser minerados. Na Figura 12 é mostrado este guia; o sexto guia dá suporte ao
analista de dados na parametrização do algoritmo Apriori, adotado pela ferramenta Kira para
as tarefas de associação, que será utilizado para a execução da DM. Na Figura 13 é mostrado
este guia; o sétimo e último guia, mostrado na Figura 14, auxilia na leitura, interpretação e
avaliação da qualidade das regras encontradas. Seguindo os guias propostos o analista de dados
executa os passos necessários para realização da mineração de dados com facilidade, de modo
intuitivo e sem a necessidade de ter conhecimentos aprofundados no assunto (MENDES, 2009).
37
41
5 Metodologia
utilizando as regras de associação, por meio do algoritmo Apriori. A avaliação dos resultados
foi baseada nas fases propostas por Han, Kamber e Pei (2012) e na metodologia CRISP-DM
apresentados no Capítulo 2.3. Foi escolhido o uso de regras de associação, para a mineração
dos dados, devido ser a única regra implementada na ferramenta Kira (MENDES, 2009).
A metodologia deste trabalho foi dividida nas atividades listadas, em ordem sequencial,
baseando-se na metodologia proposta pela ferramenta Kira, como mostrado na Figura 16:
• Entendimento do negócio
• Definir do problema
Definir o
projeto • Definir o objetivo
Apesar destas tabelas do banco de dados de origem possuírem uma grande quantidade
de registros (tuplas) armazenados, a quantidade de colunas (atributos), que as compõe, é
reduzida, o que limitou a combinação resultante de regras de associação. Tal limitação trouxe,
para as demais fases do projeto, dificuldades na obtenção de padrões que pudessem agregar
novos conhecimentos para a empresa.
A partir da fonte dos dados selecionada foi executada a configuração do banco de dados
junto à ferramenta. Neste trabalho foi utilizado o Gerenciador de Banco de Dados (SGBD)
Firebird. Para a configuração do banco de dados da ferramenta foram necessários inserir os
seguintes parâmetros:
Descrição: TCC;
Tipo: Firebird;
Servidor: embedded
44
Com os dados devidamente importados para a ferramenta, o próximo passo foi definir
o projeto, conforme demonstrado na Figura 22. As informações fornecidas, nesta etapa, foram
as seguintes:
Nome do projeto: TCC: Despesas Mira;
Área envolvida: Transporte;
Responsável: Anderson Donizeti Ferreira Leonardi;
Data início: 01/07/2013;
Data término: 25/11/2013;
Custo estimado: 0.
A parametrização da qualidade das colunas por percentual de valores distintos será
utilizada no processo de seleção, onde as colunas selecionadas são avaliadas, de acordo com o
percentual definido. Neste trabalho foi mantido os valores pré-definidos pela ferramenta, onde
para uma coluna ser considerada ruim o percentual de valores distintos deve ser maior que 30%,
assim como para regular o percentual deve estar entre 20% e 30%, para bom deve estar entre
10% e 20% e, para ser avaliada ótima deve ser abaixo de 10%. Foram mantidos estes valores
por serem sugeridos por Mendes (2009) e por se adequarem à base de dados utilizada. Os
parâmetros podem ser alterados de acordo com a necessidade.
47
Por meio de reunião com a empresa foram definidos parâmetros para enquadrar a
situação dos pedidos, a serem analisados, como excelente, bom, regular ou ruim, levando em
consideração a relação custo x benefício. O principal parâmetro definido pela empresa foi
“Relação de Custo da Entrega”, o qual possibilitou analisar quais situações, na busca pela
redução dos custos da empresa, se estes são interessantes ou não. Este parâmetro também foi
de suma importância para que fossem escolhidos os dados para análise, a partir da massa de
dados disponibilizada pela empresa. Na Tabela 3 é mostrada relação de custo da entrega.
que os custos são calculados por viagem e não por pedido. Em seguida foi calculado, em
porcentagem, a relação entre o custo do pedido e o valor total do pedido classificando, desta
forma, o pedido de acordo com o percentual encontrado. O valor proporcional encontrado não
corresponde ao valor real e sim aproximado. Porém, segundo a empresa, pôde-se trabalhar com
esta proporção pois, em teoria, um pedido mais lucrativo tem de compensar frente aos outros
menos lucrativos. Na prática a empresa considera a classificação da viagem como excelente,
boa, regular ou ruim. Portanto, todos os pedidos, que compõem cada viagem, são classificados
da mesma forma.
Os cálculos realizados, com o auxílio do Microsoft Excel, para a classificação das
viagens foram realizados, previamente, à importação dos dados para a ferramenta Kira. Na
Tabela 4 é mostrada um exemplo de classificação das viagens. A seguir estão listadas as
equações 4, 5 e 6 utilizadas para o cálculo.
5.4.1.2 Mineração
Na fase de Mineração, o primeiro passo foi definir o porcentual de suporte utilizado na
Mineração das Regras de Associação. Foi definido, então, 2% para o suporte, pois como a
quantidade de viagens classificadas como regulares ou ruins são minoria na base de dados, ou
seja, aproximadamente 15%. Caso fosse utilizado um suporte mais elevado, tais viagens
regulares ou ruins, que são o foco deste trabalho, não serão avaliadas. Com este percentual de
suporte foram geradas 71 regras, como mostrado na Figura 27.
Em seguida, foi definida a porcentagem de confiança a ser utilizada na execução do
algoritmo minerador. Foram realizadas três tentativas com a valores de confiança definidos em
90%, 80% e 70%. O valor que retornou o melhor resultado foi confiança igual a 70%, pois
foram gerados 23 itens frequentes. Tais regras são mostradas na Figura 28. Com a confiança
definida em 90% e 80% o número de itens foi muito baixo.
Como não foram encontrados itens frequentes com viagens avaliadas como ruins, foi
necessário abaixar o valor do suporte, executado novamente o algoritmo minerador. Desta vez
com o suporte foi ajustado para 0,3%. Devido ao grande número de itens frequentes
encontrados, com um suporte tão baixo, foram filtrados apenas os itens frequentes que possuíam
qualidade ruim, como mostrado na Figura 29. O porcentual de confiança foi mantido em 70%
e assim foram obtidos dois itens frequente, os quais são mostrado na Figura 30.
54
.
Figura 29: Definição do suporte com filtro
Fonte: Ferramenta Kira
Assim como ocorreu na tentativa anterior todas as colunas utilizadas foram classificadas
como ótimas. Desta forma, não foi necessário realizar nenhum tratamento na fase de
transformação.
5.4.2.2 Mineração
Nesta fase, foi definido um porcentual de suporte baixo para ser utilizado na mineração
por regras de associação. Foi definido o uso este suporte para que os itens frequentes com a
qualidade de entrega ruins ou regulares pudessem ser gerados. A exemplo do que ocorreu na
primeira tentativa, será aplicado um filtro devido à grande quantidade de itens frequentes
encontrados. Primeiro foram filtradas as entregas classificadas como regulares, utilizando
suporte de 1%. Foram gerados 11 itens frequentes, como mostrado na Figura 32.
57
Em seguida, foi definido como 70% a confiança a ser utilizada na execução do algoritmo
minerador. Nenhum item frequente foi encontrado com este percentual de confiança. Assim,
foi necessário reduzir a confiança. Foram testados valores para o parâmetro de confiança, tais
como: 60%, 40% e 20%. O resultado foi a geração de 11 itens frequentes. Como os percentuais
de confiança são muito baixos estas regras foram descartadas. As regras descartadas estão
representadas na Figura 33.
Como a tentativa de filtrar viagens classificadas como regulares, na etapa anterior, não
resultaram em nenhum item frequente, para a segunda tentativa utilizou-se a mesma seleção de
dados com o valor de suporte igual a 0.3% e a confiança em 70%. Como na etapa anterior foi
novamente aplicado um filtro nos resultados, desta vez foram filtrado os resultados com
qualidade ruim. Para estes níveis de suporte e confiança foi gerado 1 item frequente, conforme
mostrado na Figura 34.
5.4.3.2 Mineração
Nesta fase, foi definido um porcentual de 0,3% para o suporte. A exemplo das tentativas
anteriores foi definido este percentual de suporte para encontrar o maior número de itens
frequentes com qualidade de entrega regular. Mais uma vez será utilizado o filtro de qualidade
para obter apenas os itens frequentes com qualidade regular. O suporte para esta execução do
algoritmo minerador foi definido como 70%. Este valor foi definido como 70% baseado na
experiência da tentativas anteriores. Para este percentual de suporte e confiança foram geradas
4 itens frequentes, como mostrado na Figura 37.
5.5 Avaliação
Por fim, todas as regras obtidas com a mineração dos dados, considerando as três
tentativas relatadas anteriormente, foram avaliadas pelo projetista em conjunto com o analista
de negócio da empresa, de acordo com os critérios: grau de interesse, se as regras estão de
61
acordo com a realidade da empresa. A ferramenta Kira possui uma interface para auxiliar nesta
tarefa, como mostrado na Figura 38.
63
6 Resultados
Ao final deste trabalho foram selecionadas 30 regras consideradas válidas para atender
ao objetivo proposto. As regras foram geradas a partir da execução de um processo de
descoberta de conhecimento em banco de dados, conforme a metodologia e ferramenta adotada.
Na Tabela 5 são mostradas as regras, bem como a classificação de cada uma delas.
Os critérios utilizados para avaliação das regras classificadas como ótimas foram os
seguintes: corresponder a todos os itens da avaliação, ou seja, esta deve contribuir na descoberta
de um novo conhecimento para empresa, estar relacionadas ao problema levantado no processo
de DM e estar de acordo com a realidade da empresa. Infelizmente nenhuma regra pôde ser
classificada como ótima.
Para classificar as regras como boas foram utilizados os seguintes critérios: estar de
acordo com a realidade da empresa, estar relacionada ao problema levantado pelo processo
KDD, porém não devem agregar novos conhecimentos à empresa. Na Tabela 5, a regra 1, por
exemplo, foi classificada como boa pois os pedidos que são entregues na cidade de Cambuí
possuem um custo mais elevado, por conta da distância elevada que tem de ser percorrida, e os
pedidos são sempre emitidos pelo vendedor 2. Portanto, as informações referentes a esta regra
representam a realidade da empresa e estão relacionados ao problema definido no processo de
DM, porém estas informações já são de conhecimento da empresa, sendo assim, não representa
um novo conhecimento para a empresa.
Para as regras classificadas como regulares os critérios foram: estar de acordo com a
realidade da empresa, não fornecer novos conhecimentos à empresa e também não possuir
relação direta ao problema definido no processo de Data Mining. Observando a regra 8 presente
na Tabela 5, percebe-se que na maioria das entregas do motorista 111 os pedidos são
classificados como bons. Esta regra representa a realidade da empresa, porém não possui
relevância ao processo de Mineração e nem representa uma nova informação a empresa.
64
As regras classificadas como ruins não atenderam a nenhum dos itens de avaliação ou
foram consideradas óbvias demais, ou seja, não faz-se necessário a realização um processo de
descoberta de conhecimento para chegar às regras obtidas. Como exemplo, a regra 27
apresentada na Tabela 5, mostra que a maioria das viagens realizadas pelo motorista 102 são
feitas utilizando o caminhão com a placa “dfh2644”. Estas informações podem ser obtidas pela
empresa através de controle simples, não necessitando de um processo de Mineração de Dados para
isso, por esta causa foi classificada como ruim.
A análise dos resultados obtidos foi considerada insatisfatória, visto que, nenhuma das
regras geradas pôde fornecer uma solução, mesmo que parcial, para o problema da empresa.
67
7 Conclusões
Após a análise dos resultados pôde-se concluir que estes não alcançaram o objetivo
esperado. As regras de associação geradas, ao final do processo de cada tentativa trabalhada,
não forneceram novos conhecimentos relevantes à empresa.
Conclui-se também que a proposta deste trabalho não foi atingida em relação à
expectativa da empresa. Não foi possível obter resultados melhores devido ao fato de não ter
acesso ao banco de dados completo da empresa. A empresa não pôde liberar algumas tabelas
do banco de dados por conter informações sigilosas. Portanto, considera-se este fato como
principal limitação deste trabalho, pois a base de dados não forneceu subsídios suficientes para
o cruzamento de informações consideradas relevantes para a resolução do problema proposto,
tais como: informações sobre a manutenção dos veículos utilizados nas entregas, retorno de
mercadorias que saíram para entrega, entre outras. Tais informações são interessantes, pois se
referem ao estabelecimento de rotas fixas; às condições das estradas por onde trafegam os
caminhões, considerando cada motorista; e aos registros de eventos não cotidianos que geram
gastos imprevistos durante as viagens.
Observou-se que os resultados fornecidos pela ferramenta Kira, levando em
consideração a metodologia que esta segue, foram satisfatórios e contribuíram no aprendizado
dos conceitos de KDD. É importante ressaltar o auxílio dos guias desenvolvidos por Mendes
(2009), pois estes tornaram as etapas do processo de descoberta de conhecimento, em bases de
dados, mais intuitivas, não necessitando de conhecimentos avançados no desenvolvimento das
atividades propostas.
As regras geradas pela ferramenta foram consideradas válidas, de acordo com a
realidade da empresa, mesmo que a maioria delas já fossem de conhecimento prévio a este
projeto.
Foi observado também, conforme (Gonçalves, 2005), que a tarefa Regras de Associação
geram um grande número de itens frequentes que são, em sua maioria, óbvias, redundantes ou
até mesmo contraditórias.
Com este trabalho foi possível compreender que o processo de descoberta de
conhecimento em banco de dados (KDD) é complexo e oneroso. E, por mais que a Kira tenha
auxiliado no desenvolvimento de todo o processo, algumas etapas dependem do analista de
dados da empresa, frente à metodologia aplicada ou do técnico que está trabalhando no projeto.
A exemplo pode ser citada a etapa de seleção dos dados, onde o conhecimento e experiência no
68
Referências
AGRAWAL, Rakesh; IMIELIńSKI, Tomasz; SWAMI, Arun. Mining association rules
between sets of items in large databases. Acm Sigmod Record, New York, Ny, Usa, v. 22, n.
2, p.207-216, 01 jul. 1993.
BERRY, Michael J. A.; LINOFF, Gordon S.. Data Mining Techniques: For Marketing,
Sales, and Customer Relationship Management. 3. ed. Indianapolis, Indiana: Wiley
Publishing, Inc., 2004. 643 p.
BRAGA, Luis Paulo Vieira. Introdução a Mineração de Dados. 2. ed. Rio de Janeiro: E-
papers Serviços Editoriais, 2005. 212 p.
CAMILO, Cássio Oliveira; SILVA, João Carlos da. Mineração de Dados: Conceitos,
Tarefas, Métodos e Ferramentas. Goiânia, Go: Instituto de Informática Universidade
Federal de Goiás, 2009. 28 p.
GUROVITZ, Helio. O que cerveja tem a ver com fraldas? Disponível em:
<http://exame.abril.com.br/revista-exame/edicoes/0633/noticias/o-que-cerveja-tem-a-ver-
com-fraldas-m0053931>. Acesso em: 05 abr. 2013.
HABERSTROH, Robert. Oracle Data Mining Tutorial: for Oracle Data Mining 10g
Release 2, Oracle Data Mining 11g Release 1. Redwood Shores, Ca: Oracle, 2008.
HALL, Mark. et al. The WEKA data mining software: an update. ACM SIGKDD
Explorations, New York, v. 2, n.1, p. 10 – 18, jun. 2009.
70
HAN, Jiawei; KAMBER, Michelini; PEI, Jian. Data Mining Concepts and Techniques. 3.
ed. Waltham, Ma: Morgan Kaufmann, 2012. 708 p.
SANTOS, Daiana Pereira dos. Uso de Data Mining em Base de Dados de Empresa
Calçadista. 2007. 49 f. Trabalho de Conclusão de Curso (Graduação) - Curso de Ciências da
Computação, Centro Universitário Feevale, Novo Hamburgo, Rs, 2007.
WEBB, Geoffrey I.. Association Rules. In: LAWRENCE ERLBAUM ASSOCIATES (New
Jersey). The handbook of data mining. Arizona: Nong Ye, 2003. p. 25-40.