TN Sto 263 509 36492

XXXVIII ENCONTRO NACIONAL DE ENGENHARIA DE PRODUCAO
“A Engenharia de Produção e suas contribuições para o desenvolvimento do Brasil”

Maceió, Alagoas, Brasil, 16 a 19 de outubro de 2018.
KNOWLEDGE DISCOVERY IN
DATABASE E DATA MINING: UMA
CONTRIBUIÇÃO BIBLIOMÉTRICA
Júlio César Ferreira
ferreira.julio@pucpr.edu.br
Carla Regina Mazia Rosa
carla_mazia@ufpr.br
Maria Teresinha Arns Steiner
maria.steiner@pucpr.br
Este estudo tem a finalidade de analisar quantitativamente em relação

ao tema Knowledge Discovery in Database e Data Mining. O estudo
foi realizado com aplicações das técnicas bibliométricas, por meio da
consulta à base SCOPUS e seu tratamento dos dados pelo software
Microsoft Excel® 2013. Para a pesquisa utilizou-se como expressões-
chave e definição dos termos de busca “Knowledge Discovery in
Database” e “Data Mining”, além de outros critérios na definição da
amostra, constituída por 190 artigos publicados. Os resultados do
estudo foram apresentados por meio de estatística descritiva, com a
identificação dos autores, artigos e periódicos mais referenciados nos
artigos analisados, entre outras informações que tornam este trabalho
importante para o desenvolvimento e tratativa das perspectivas de
abordagens sobre o KDD e o DM em diversas áreas.
Palavras-chave: Bibliometria, Knowledge Discovery in Database

(KDD), Data Mining (DM)
.
1. Introdução
A capacidade de gerar e armazenar dados tem aumentado consideravelmente no decorrer dos
últimos anos, gerando amplas bases de dados nos mais diversos ramos de atividades. Esse
crescimento na quantidade de dados armazenados, por sua vez, tem gerado a necessidade por
novas técnicas e ferramentas que possam auxiliar na transformação desses dados em
informação útil e conhecimento.
Nesse contexto, surge o processo de Descoberta de Conhecimento em Banco de

Dados/Knowledge Discovey in Databases (KDD), com a finalidade de encontrar uma maneira
automatizada de explorar essas bases de dados e reconhecer os padrões existentes através da
modelagem. A Mineração de dados/Data Mining (DM), explora e analisa uma grandes
quantidades de dados com a finalidade de encontrar padrões, regras e relações interessantes e
significativas para algum fim, e isto engloba as mais variadas áreas do conhecimento e é
válida (BERRY, 2000).
Segundo Tan et al, (2009) é importante não confundir DM e KDD, visto que KDD é todo o
processo até que se chegue ao resultado de um padrão de comportamento das variáveis e o
DM é uma das atividades do processo.
Choudhary et al, (2009) associam o DM como uma etapa no processo KDD, como já
mostrado, que consiste na realização da análise dos dados e na aplicação de algoritmos de
descoberta que, sob certas limitações computacionais, determinam um conjunto de atributos
de exatos dados.
O objetivo do presente artigo é identificar o cenário atual do KDD e do DM no contexto da

Engenharia de Produção, visando compreender a evolução das contribuições científicas nesta
área específica.
2. Revisão bibliográfica
O processo KDD tem sido utilizado pelos tomadores de decisão na busca de informação
relevante de difícil detecção por métodos tradicionais de análise. Além disto, é um processo
2
.
não trivial e estruturado de identificação de padrões, com a finalidade de extrair informações e

conhecimentos potencialmente úteis e implicitamente contidos em bases de dados.
2.1. Etapas do KDD

As etapas do KDD contêm uma sequência de passos que auxiliam nas mais variadas decisões
a serem tomadas. Toda fase possui uma interseção com as demais, melhorando assim a cada
resultado (RELICH e MUSZYNSKI, 2014). O processo KDD é composto por cinco etapas, a
seguir: seleção dos dados; pré-processamento dos dados; transformação dos dados; mineração
de dados e interpretação e avaliação dos resultados. Estas etapas estão ilustradas na Figura 1 a
seguir, representando suas várias fases.
Figura 1 - Etapas do Processo KDD
Fonte: Fayyad et al, (1996c)
Seleção de Dados
Segundo Rosa (2017) esta etapa é também conhecida como “Redução de Dados”. É a
primeira etapa no processo de descoberta de informação e possui papel fundamental no
resultado final, uma vez que nesta etapa é definido o conjunto de dados contendo todas as
possíveis variáveis (atributos) e registros (instâncias ou casos ou observações ou padrões) que
se pretende analisar. Em sua grande maioria, esta seleção é realizada por um especialista da
área, ou seja, alguém que realmente entende do assunto em questão.
Pré-processamento e Limpeza dos Dados

Nesta etapa são realizadas tarefas que excluem dados redundantes e inconsistentes, recuperam
dados incompletos e avaliam possíveis discrepâncias nos dados. O auxílio do especialista do
3
.
domínio é fundamental, pois é o mesmo que definirá se os atributos adquiridos são

interessantes, se o conhecimento é válido, novo e útil, ou se será necessário retornar a alguma
das etapas anteriores (ANUMALLA, 2007).
Além disto, nesta etapa é verificada a possibilidade de diminuir o número de variáveis

envolvidas no processo, compreende a identificação de quais informações, dentre as bases de
dados existentes, devem ser analisadas durante o processo KDD, visando melhorar o
desempenho dos algoritmos de análise (GOLDSCHMIDT e PASSOS, 2005; PADHY et al.,
2012).
Transformação dos Dados

A etapa de transformação dos dados ou codificação dos dados tem como objetivo principal
converter o conjunto bruto de dados em uma forma padrão de uso (GOLDSCHMIDT e
PASSOS, 2005). Esta etapa é implementada através de um processamento dos dados, visando
organizar os dados para auxiliar o trabalho sucedido pelas fases posteriores do processo KDD.
Esta transformação dos dados se refere a uma transformação que seja aplicada a todos os
valores de um determinado atributo para todos os atributos. No entanto, não existe um critério
único de transformação dos dados e diversas técnicas podem ser usadas de acordo com os
objetivos pretendidos (ROSA, 2017).
Mineração dos Dados

Xiao e Fan (2014) afirmam que o DM é dada por meio de um campo interdisciplinar que
reuni técnicas de máquinas de conhecimentos, reconhecimento de padrões, estatísticas, banco
de dados e visualização, que consigam extrair informações de amplas bases de dados.
Witten et al, (2011) consideram que as técnicas de DM se referem a extração automatizada ou

conveniente de padrões, representando conhecimento implicitamente armazenado em bases de
dados amplas, armazéns de dados, e outros repositórios de informação de grande porte.
Interpretação e Avaliação dos Resultados

Segundo Rosa (2017), esta etapa também é conhecida como pós-processamento e envolve
todos os participantes que avaliam de forma criteriosa os resultados proporcionando uma
4
.
interpretação para o modelo, de onde se extrai o conhecimento. Caso o resultado não seja
satisfatório, o processo pode retornar a qualquer uma das etapas anteriores.
Essa interpretação deve ser incluída no algoritmo minerador, mas determinadas vezes é
proveitosa a implementação separadamente. Desta forma, a principal finalidade dessa etapa é
garantir um bom grau de compreensão do conhecimento descoberto pelo algoritmo
minerador, validando-o por meio de medidas da qualidade da solução e da percepção de um
analista de dados (NGAI et al., 2011).
2.2. Tarefas do KDD

As tarefas do KDD funcionam com base nas técnicas de DM. Estas técnicas podem ser
abordadas na forma de preditiva e descritiva (HAN et al., 2011). As tarefas mais comuns,
segundo Relich e Muszynski (2014), são associação, classificação, regressão, clustering e
visualização de dados, conforme ilustradas na Figura 2.
Figura 2 - Algumas tarefas do processo KDD e suas técnicas na MD
Fonte: Adaptado de Maimon e Rokach (2010) e Rezende (2005)
Observa- se que cada tarefa do processo KDD possui técnicas diferentes associadas a DM e as
mais conhecidas, segundo Witten et al, (2011), são: Árvores de Decisão, Regras de
Classificação, Redes Neurais, Vizinhos Mais Próximos, Regressão Linear ou Não Linear e
AGs. Existem ainda abordagens híbridas, que aplicam duas ou mais técnicas em conjunto.
5
.
Não se pode dizer que existe uma melhor técnica, já que o desempenho de cada uma delas
dependerá do problema abordado.
2.3. Classificação
Para Kamsu-Foguem et al, (2013), a classificação é a tarefa mais estudada no processo KDD
e tem como objetivo encontrar um conhecimento que possa ser empregado para prever a
classe de um determinado registro. Assim sendo, a classificação procura estudar um conjunto
de registros históricos (atributos) e elaborar descrições de suas características em cada uma
das classes.
Os métodos de classificação têm aplicação em diversas áreas tais como análise de crédito;
ações de marketing; detecção de fraudes; telecomunicações; segmentação de clientes;
modelagem de negócios; e em diagnósticos médicos (NGAI et al., 2011).
2.4. Regressão
Segundo Alzghoul et al, (2012), a regressão trata de “aprender” uma função que mapeia um
item de dado para uma variável de predição real estimada. Pode ser utilizada para executar
uma tarefa de classificação, convencionando-se que diferentes faixas de valores contínuos
correspondem a diferentes classes.
A regressão é utilizada para definir um valor para alguma variável contínua desconhecida
como, por exemplo, receita, altura, ou saldo de cartão de crédito; estimar a renda total de uma
família; estimar o valor em tempo de vida de um cliente; estimar a probabilidade de um
paciente morrer baseando-se nos resultados de um conjunto de diagnósticos médicos (HAN et
al., 2011; VIAENE et al., 2007).
2.5. Associação
Datta et al. (2006) definem que a tarefa de associação pode ser considerada como uma tarefa
bem definida, determinística e relativamente simples, que não envolve predição da mesma
forma que a tarefa de classificação.
6
.
A tarefa de associação permite relacionar a ocorrência de um determinado conjunto de itens

com a ocorrência de outro conjunto de itens. Segundo Yoo et al. (2012), regras de associações
buscam identificar semelhanças entre registros de um subconjunto de dados, sendo que essas
semelhanças/associações são expressas na forma de regras.
2.6. Clusterização ou Agrupamento

Segundo Xiao e Fan (2014), o agrupamento é uma tarefa onde se busca identificar um
conjunto finito de categorias ou agrupamentos para descrever os dados. O agrupamento
assegura que a similaridade inter-segmentos seja baixa, enquanto que a similaridade intra-
segmentos seja alta (SANTOS e AZEVEDO, 2005).
Desta forma, a clusterização identifica possíveis agrupamentos nos dados, tal que os
elementos de uma classe tenham alta similaridade entre si e sejam muito diferentes dos
elementos das outras classes. Por exemplo, podem-se agrupar as casas de uma área de acordo
com sua categoria, área construída e localização geográfica (HAN et al., 2011; SHIUE et al.,
2012).
2.7. Sumarização
Segundo Fayyad et al. (1996d), a tarefa de sumarização envolve métodos para encontrar uma
descrição compacta para um subconjunto de dados. Para Goldschmidt e Passos (2005)
consiste em procurar identificar e indicar características comuns entre conjuntos de dados. A
tarefa de sumarização deve buscar por características que sejam adequadas a uma parte
significativa de clientes.
3. Metodologia
Segundo Endler et al, (2016) a bibliometria trata de uma técnica de investigação em relação a
análise do tamanho, distribuição e crescimento da bibliografia em uma determinada área do
conhecimento, a mesma foi desenvolvida por Pitchard (1969). Além de possuir amplas
aplicações, pode-se analisar dados como fontes de pesquisa, auditoria, citações, cocitações,
origens demográficas, fontes de pesquisa e temas com a finalidade de aumentar o desempenho
da pesquisa, ou também de avaliar as suas tendências. Para o desenvolvimento do presente
estudo foi necessário desenvolver o protocolo de busca, conforme a Figura 3.
7
.
Figura 3 – Etapas para a definição da amostra
Fonte: Os autores
A base da Scopus demonstra-se muito útil para as pesquisas relacionadas aos estudos
bibliométricos, justamente por ofertar a análise dos dados e a opção de salvar as informações
pertinentes em formatos para posterior análises, tanto em softwares comuns, como o
Microsoft Excel®, quanto em softwares específicos.
Com o protocolo definido, pode-se definir o tamanho da amostra, conforme Figura 4.
Figura 4 – Fluxograma referente ao processo da amostra (Maio de 2018)
Fonte: Os autores
Com a primeira etapa concluída, selecionado a base de dados, no caso a Scopus, o tratamento
seguiu com a busca geral pelo termo Knowledge Discovery in Database que resultou em
135.166 resultados encontrados. Foi definido este mesmo termo como palavras chaves, com
1019 resultados. Então adicionou-se o terno Data Mining as palavras chaves, que resultou em
680. Restringiu-se o trabalho a artigos, que resultou em 206. Por fim, inglês, o idioma
8
.
estabelecido, o que resultou no tamanho final da amostra em 190 artigos. Não houve artigos
excluídos.
4. Apresentação dos resultados

A amostra adquirida pela Scopus está organizada da seguinte forma:
a) A quantidade de publicações;
b) Os autores com maior número de trabalhos publicados no período estabelecido;
c) Os periódicos mais utilizados para os temas propostos;
d) Os países que mais contribuíram com a área;
e) As afiliações mais relevantes;
f) Os trabalhos mais citados;
g) As áreas do conhecimento dominantes;
h) Os 20 trabalhos mais citados da amostra.
A Figura 4 apresenta a quantidade de publicações realizadas nos últimos anos. Pode-se

observar a linha de tendência linear de crescimento em relação as pesquisas sobre KDD e
DM, o que demonstra sua relevância.
Figura 4 – Quantidade de publicações
Fonte: Os autores
9
.
A Figura 5 ilustra os 12 autores que obtiveram o maior número de publicações no período da

amostra. Aris e Othman, foram os autores que mais publicaram.
Figura 5 - Autores que mais publicaram na amostra utilizada
Fonte: Os autores
A Figura 6 mostra o gráfico com a quantidade de publicações por periódico (os mais
relevantes) encontrado no período definido pela amostra.
Figura 6 – Quantidade de publicações por periódico
10
.
Fonte: Scopus. Acesso em: maio de 2018
A partir da Figura 6, pode-se observar que os periódicos Lecture Notes in Computer Science
apresentaram o maior número de publicações.
A Figura 7 ilustram os países que apresentaram maior número de publicações da presente

amostra. Os artigos produzidos em território americano lideram em relação aos demais com
38 trabalhos, seguido da Índia e do Reino Unido, com 15 e 14 respectivamente. O Brasil
aparece na sexta posição, com 10 trabalhos publicados.
11
.
Figura 7 – Países com maior número de publicação
Fonte: Os autores
As instituições mais relevantes estão dispostas na Figura 8. A Universiti Putra Malaysia foi a
instituição que teve o maior número de publicações, seguido da KU Leuven e Tenaga
Nasional Berhad.
Figura 8 – Documentos por Afiliação
Fonte: Os autores
12
.
As principais Áreas do Conhecimento são apresentadas na Figura 9. O destaque se dá para a

Ciência da Computação, Engenharia e Matemática. Vale lembrar que uma publicação pode ter
mais de uma área do conhecimento.
13
.
Figura 9 – Áreas do conhecimento
Fonte: Os autores
Os 20 trabalhos mais citados estão apresentados na Tabela 1.
Tabela 1 – Os 20 artigos mais citados

Periódico Periódico Ano Citação
The KDD Process for Extracting Useful Knowledge Comunications of the ACM 1996b 800
from Volumes of Data
Mining multiple-level association rules in large IEEE Transactions on Knowledge 1999 241
databases and Data Engineering
Using evolutionary algorithms as instance selection IEEE Transactions on 2003 210
for data reduction in KDD: An experimental study Evolutionary Computation
Data Mining and Knowledge Discovery in Databases Communications of the ACM 1996e 187
Clausal Discovery Machine Learning 1997 151
Data mining for customer service support Information and Management 2000 109
Data mining and KDD: Promise and challenges Future Generation Computer 1997 100
Systems
Methodological and practical aspects of data mining Information and Management 2000 88
Tree structures for mining association rules Data Mining and Knowledge 2004 78
Discovery
A data mining approach for spatial modeling in small IEEE Transactions on Power 2002 76
area load forecast Systems
Data mining and machine learning in astronomy International Journal of Modern 2010 74
Physics D
Mining Scientific Data Communications of the ACM 1996a 66
A statistical theory for quantitative association rules Journal of Inteligent Information 2003 65
Systems
DIVA: A visualization system for exploring document Computers and Industrial 2002 63
databases for technology forecasting Engineering
Granular computing: A rough set approach Computational Inteligence 2001 62
EDM: A general framework for Data Mining based on Data and Knowledge Engineering 1996 56
Evidence Theory
Extraction of experts' decision rules from clinical Intelligent Data Analysis 1998 56
databases using rough set model
Mining association rules with multiple minimum International Journal of 2005 55
supports using maximum constraints Approximate Reasoning
QTIP: Quick technology intelligence processes Technological Forecasting and 2005 49
14
.
Social Change
Generalization-based data mining in object-oriented Data and Knowledge Engineering 1998 46
databases using an object cube model
Fonte: Os autores
O artigo intitulado de The KDD Process for Extracting Useful Knowledge from Volumes of
Data, publicado em 1996, na Communications of the ACM, foi a referência mais citada da
amostra, com uma quantidade de 800 citações. Este foi três vezes mais influente que o
segundo artigo mais citado, publicado três anos depois.
5. Considerações Finais
Este trabalho teve o intuito de realizar uma sutil análise bibliométria sobre KDD e DM. A
pesquisa realizada foi baseada na revisão sistemática da literatura, com o uso da base de dados
da Scopus, critérios de busca, filtros e softwares para mensurar os dados obtidos. A amostra
apresentou uma proporção ascendente, visto que foram 190 artigos nos últimos 23 anos.
Aris e Othman, foram os autores que mais publicaram. Os periódicos Lecture Notes in
Computer Science apresentaram o maior número de publicações. O artigo “The KDD Process
for Extracting Useful Knowledge from Volumes of Data” desenvolvido pelos autores Fayyad,
Piatetsky-Shapiro e Simth, em 1996, publicado na Communications of the ACM apresentou o
maior número de citações, com 800.
O USA foi o país que mais publicou sobre o tema. A Universiti Putra Malaysia, na Malásia,
foi a instituição que teve o maior número de publicações, seguido da KU Leuven, na Bélgica e
Tenaga Nasional Berhad, na Malásia. Por fim, a Ciência da Computação, Engenharia e
Matemática demonstraram-se ser as áreas do conhecimento mais relevante.
A bibliometria demonstrou ser uma relevante ferramenta para obter informações de diferentes
objetivos. Atualmente existem diversas bases de dados e softwares disponíveis, tanto
gratuitamente como pagos para buscar e interpretar dados, ou melhor o material científico
adquirido. Porém, precisa-se de atenção para que a análise bibliométrica seja realizada a partir
de um protocolo de busca estruturado, para obter maior coerência e veracidade por parte da
pesquisa e do pesquisador.
15
.
Em relação a trabalhos futuros, fica a sugestão de novas estratificações a fim de encontrar

lacunas a serem exploradas, para que possa ser definido um novo direcionamento aos estudos
de técnicas da análise multicritério.
REFERÊNCIAS
ALZGHOUL, A., LÖFSTRAND, M., BACKE, B. Data stream forecasting for system fault prediction.
Computers & Industrial Engineering, v. 62, n. 4, p. 972-978, 2012.
ANAND, S.S., BELL, D.A., HUGHES, J.G. EDM. A general framework for Data Mining based on Evidence
Theory. Data and Knowledge Engineering, v. 18, n. 3, p. 189-223, 1996.
ANUMALLA, K. Sistema de Gestão da Pré-Processamento de Dados (Dissertação de Mestrado). USA:

Universidade de Akron, 2007.
AUMANN, Y., LINDELL, Y. A statistical theory for quantitative association rules. Journal of Inteligent
Information Systems, v. 20, n. 3, p. 255-283, 2003.
BALL, N.M., BRUNNER, R.J. Data mining and machine learning in astronomy. International Journal of
Modern Physics D, v. 19, p. 1049-1106, 2010.
BERRY, M., LINOFF, G. Mastering Data Mining: the art and science of customer relationship management.
John Wiley & Sons, 2000.
CANO, J.R., HERRERA, F., LOZANO, M. Using evolutionary algorithms as instance selection for data
reduction in DKK: An experimental study. IEEE Transactions on Evolutionary Computation, v. 7, n. 6, p.
561-575, 2003.
CHOUDHARY, A.K., HARDING, J.A., TIWARI, M.K. Data mining in manufacturing: a review based on the
kind of knowledge. Journal Intelligent Manufacturing, v. 20, n. 5, p. 501-521, 2009.
COENEN, F., GOULBOURNE, G., LENG, P. Tree structures for mining association rules. Data Mining and
Knowledge Discovery, v. 8, n. 1, p. 25-51, 2004.
COUSSEMENT, K., VAN DEN BOSSCHE, F.A.M., DE BOCK, K.W. Data accuracy's impact on segmentation
performance: benchmarking RFM analysis, logistic regression, and decision trees. Journal of Business
Research, v. 67, p. 2751-2758, 2014.
DATTA, S., BHADURI, K., GIANNELLA, C., WOLFF, R., KARGUPTA H. Distributed Data Mining in Peer-
to-Peer Networks. IEEE Internet Computing special issue on Distributed Data Mining, v. 10, n. 4, p. 18-26,
2006.
DE RAEDT, L., DEHASPE, L., CLAUSAL DISCOVERY. Machine Learning, v. 26, n. 2, p. 99-146, 1997.
ENDLER, K. D., BOURSCHEIDT, L. E., SCARPIN, C. T., STEINER, M. T. A., GARBUIO, P. A. R. Lean seis
sigma: uma contribuição bibliométrica dos últimos 15 anos. Produção online. Florianópolis, SC, v. 16, n. 2, p.
575-605, 2016.
FAYYAD, U.M., HAUSSLER, D., STOLORZ, P. Mining Scientific Data. Communications of the ACM, v.
39, n. 11, p. 51-57, 1996a.
FAYYAD, U.M., PIATETSKY-SHAPIRO, G., SIMTH, P. The KDD Process for Extracting Useful Knowledge
from Volumes of Data. Comunications of the ACM, v. 39, n. 11, p. 27-34, 1996b.
16
.
FAYYAD, U.M., PIATETSKY-SHAPIRO, G., SMYTH, P. From data mining to knowledge discovery in
databases. Artificial Intelligence Magazine, v. 17, n. 3, p. 37-54, 1996c.
FAYYAD, U.M., PIATETSKY-SHAPIRO, G., SMYTH, P., UTHURUSAMY, R. Advances in Knowledge

Discovery & Data Mining. 1 ed. American Association for Artificial Intelligence, Menlo Park, Califórnia,
1996d.
FAYYAD, U.M., UTHURUSAMY, R. Data mining and knowledge discovery in databases. Communications
of the ACM, v. 39, n. 11, p. 24-26, 1996e.
FAYYD, U.M. Data mining and KDD: promise and challenges. Future Generation Computer Systems, v. 13,
n. 2-3, p. 99-115, 1997.
FEELDERS, A., DANIELS, H., HOLSHEIMER, M. Methodological and practical aspects of data mining.
Information and Management, vol. 37, n. 5, p. 271-281, 2000.
GOLDSCHMIDT, R., PASSOS, E. Data Mining um Guia Prático. Conceitos, Técnicas, Ferramentas,
Orientações e Aplicações. Ed. Campus, Rio de Janeiro, 2005.
HAN, J., NISHIO, S., KAWANO, H., WANG, W. Generalization-based data mining in object-oriented
databases using an object cube model. Data and Knowledge Engineering, v. 25, n. 1-2, p. 55-97, 1998.
HAN, J., KAMBER M., PEI, J. Data Mining: concepts and techniques. 3nd ed. Amsterdam; Boston: Elsevier:
Morgan Kaufmann, 2011.
HAN. J., FU, Y. Mining multiple-level association rules in large databases. IEEE Transactions on Knowledge
and Data Engineering, v. 11, n. 5, p. 798-805, 1999.
HUI, S.C., JHA, G. Data mining for customer service support. Information and Management, v. 38, n. 1, p. 1-
13, 2000.
KAMSU-FOGUEM, B., RIGAL, F., MAUGET, F. Mining association rules for the quality improvement of the
production process. Expert Systems with Applications, v. 40, p. 1034-1045, 2013.
LEE, Y.-C., HONG, T.-P., LIN, W.-Y. Mining association rules with multiple minimum support using
maximum constraints. International Journal of Approximate Reasoning, v. 40, n. 1-2, p. 44-54, 2005.
MAIMON, O., ROKACH, L. Data Mining and Knowledge Discovery Handbook. 2nd ed., Springer, New
York, 2010.
MORRIS, S., DEYOUNG, C., WU, Z.; SALMAN, S., YEMENU, D. DIVA. A visualization system for
exploring document databases for technology forecasting. Computers and Industrial Engineering, v. 43, n. 4,
p. 841-862, 2002.
NGAI, E.W.T., HU, Y., WONG, Y.H., CHEN. Y., SUN, X. The application of data mining techniques in
financial fraud detection: A classification framework and an academic review of literature. Decision Support
Systems, v. 50, p. 559-569, 2011.
NGUYEN, S.H., SKOWRON, A., STEPANIUK, J. Granular computing: A rough set approach. Computational
Inteligence, v. 17, n. 3, p. 514-544, 2001.
PADHY, N., MISHRA, P., PANIGRAHI. R. The Survey of Data Mining Applications and Feature Scope.
International Journal of Computer Science, Engineering and Information Technology, v. 2, n. 3, p. 43-58,
2012.
Porter, A.L. QTIP. Quick technology intelligence processes. Technological Forecasting and Social Change,
vol. 72, n. 9, p. 1070-1081. 2005.
17
.
PRITCHARD, J. Statistical bibliography or bibliometrics? J. Doc., v. 25, n. 4, p. 348–349, 1969.
RELICH, M., MUSZYNSKI, W. The use of intelligent systems for planning and scheduling of product
development projects. Procedia Computer Science, v. 35, p. 1586-1595, 2014.
REZENDE, S. O. Sistemas Inteligentes: fundamentos e aplicações, Barueri: Editora Manole, 2003.
ROSA, C.R.M. Uma metodologia para a descoberta de conhecimento em bases de dados visando a classificação
de padrões. Curitiba: PUCPR, 2017. 158 p. Tese (Doutorado) – Programa de Pós-Graduação em
Engenharia de Produção e Sistemas, Pontifícia Universidade Católica do Paraná, Curitiba, 2017.
SANTOS, M.F., AZEVEDO, C.S. Data Mining - descoberta de conhecimento em bases de dados. Lisboa,
Portugal: FCA – ed. Informática – Coleção: Sistema de informação, 2005.
SHIUE, Y-R., GUH, R-S., TSENG, T-Y. Study on shop floor control system in semiconductor fabrication by
self-organizing map-based intelligent multicontroller. Computers & Industrial Engineering, v. 62, n. 4, p.
1119-1129, 2012.
TAN, P.N., STEINBACH, M., KUMAR, V. Introdução ao Data Mining (Mineração de Dados). Rio de
Janeiro: Ciência Moderna, 2009.
TSUMOTO, S. Extraction of expert’s decision rules from clinical databases using rough set model. Intelligent
Data Analysis, v. 2, n. 1-4, p. 215-227, 1998.
VIAENE, S., AYUSO, M., GUILLÉN, M., GHEEL, D.V., DEDENE, G. Strategies for detecting fraudulent
claims in the automobile insurance industry. European Journal of Operational Research, v. 176, n. 1, p. 565–
583, 2007.
WITTEN, I.H., FRANK, E., HALL, M.A. Data Mining: practical machine learning tools and techniques, 3rd
ed. Morgan Kaufmann Publishers is an imprint of Elsevier, 2011.
WU, H.-C., LU, C.-N. A data mining approach for spatial modeling in small area load forecast. IEEE
Transactions on Power Systems, v. 17, n. 2, p. 516-521, 2002.
XIAO, F., FAN, C. Data mining in building automation system for improving building operational performance.
Energy and Buildings, v. 75, p. 109-118, 2014.
YOO, I., ALAFAIREET, P., MARINOV, M., PENA-HERNANDEZ, K., GOPIDI, R., CHANG, J., HUA, L.
Data mining in healthcare and biomedicine: a survey of the literature. Journal of Medical Systems, v. 36, p.
2431-2448, 2012.
18

TN Sto 263 509 36492

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

TN Sto 263 509 36492

Enviado por

Direitos autorais:

Formatos disponíveis

XXXVIII ENCONTRO NACIONAL DE ENGENHARIA DE PRODUCAO

“A Engenharia de Produção e suas contribuições para o desenvolvimento do Brasil”

Este estudo tem a finalidade de analisar quantitativamente em relação

Palavras-chave: Bibliometria, Knowledge Discovery in Database

Nesse contexto, surge o processo de Descoberta de Conhecimento em Banco de

O objetivo do presente artigo é identificar o cenário atual do KDD e do DM no contexto da

não trivial e estruturado de identificação de padrões, com a finalidade de extrair informações e

2.1. Etapas do KDD

Figura 1 - Etapas do Processo KDD

Fonte: Fayyad et al, (1996c)

Pré-processamento e Limpeza dos Dados

domínio é fundamental, pois é o mesmo que definirá se os atributos adquiridos são

Além disto, nesta etapa é verificada a possibilidade de diminuir o número de variáveis

Transformação dos Dados

Mineração dos Dados

Witten et al, (2011) consideram que as técnicas de DM se referem a extração automatizada ou

Interpretação e Avaliação dos Resultados

2.2. Tarefas do KDD

Figura 2 - Algumas tarefas do processo KDD e suas técnicas na MD

Fonte: Adaptado de Maimon e Rokach (2010) e Rezende (2005)

A tarefa de associação permite relacionar a ocorrência de um determinado conjunto de itens

2.6. Clusterização ou Agrupamento

Figura 3 – Etapas para a definição da amostra

Com o protocolo definido, pode-se definir o tamanho da amostra, conforme Figura 4.

Figura 4 – Fluxograma referente ao processo da amostra (Maio de 2018)

4. Apresentação dos resultados

A Figura 4 apresenta a quantidade de publicações realizadas nos últimos anos. Pode-se

Figura 4 – Quantidade de publicações

A Figura 5 ilustra os 12 autores que obtiveram o maior número de publicações no período da

Figura 5 - Autores que mais publicaram na amostra utilizada

Figura 6 – Quantidade de publicações por periódico

Fonte: Scopus. Acesso em: maio de 2018

A Figura 7 ilustram os países que apresentaram maior número de publicações da presente

Figura 7 – Países com maior número de publicação

Figura 8 – Documentos por Afiliação

As principais Áreas do Conhecimento são apresentadas na Figura 9. O destaque se dá para a

Figura 9 – Áreas do conhecimento

Os 20 trabalhos mais citados estão apresentados na Tabela 1.

Tabela 1 – Os 20 artigos mais citados

Em relação a trabalhos futuros, fica a sugestão de novas estratificações a fim de encontrar

ANUMALLA, K. Sistema de Gestão da Pré-Processamento de Dados (Dissertação de Mestrado). USA:

FAYYAD, U.M., PIATETSKY-SHAPIRO, G., SMYTH, P., UTHURUSAMY, R. Advances in Knowledge

PRITCHARD, J. Statistical bibliography or bibliometrics? J. Doc., v. 25, n. 4, p. 348–349, 1969.

REZENDE, S. O. Sistemas Inteligentes: fundamentos e aplicações, Barueri: Editora Manole, 2003.

Você também pode gostar