Mazia Rosa 2018

IEEE LATIN AMERICA TRANSACTIONS, VOL. 16, NO.
7, JULY 2018 2027
Knowledge Discovery in Data Bases: a Case Study

in a Private Institution of Higher Education

C. R. M. Rosa, M. T. A. Steiner and P. J. Steiner Neto

1
Abstract— This paper aims to present a methodology to prestados, visando a melhoraria de seus pontos mais críticos e,
discover knowledge in databases (Knowledge Discovery in consequentemente, aumentando a retenção de alunos. Desta
Databases; KDD) which can be used in several areas in order to forma, os coordenadores dos referidos cursos terão condições
classify new instances. This methodology detects what are the de saber onde estão “acertando” ou “errando” além de ter um
most important variables (attributes, information) and realized respaldo adicional para a correta classificação (alunos
the classification of new instances in an automatized way, “satisfeitos” ou “insatisfeitos”) e, consequentemente, a
maximizing its accuracy. Its application is shown in courses of a
classificação automática de novas instâncias.
private institution of higher education in order to verify the
students’ satisfaction related to the quality and to the services
offered. Based on the KDD process, it was initially realized a data II. FUNDAMENTAÇÃO TEÓRICA
exploratory analysis and, after that, it was applied three Data
Mining techniques: Logistic Regression Binary (LRB), O processo KDD é utilizado para a identificação de
Generation of Surface that minimizes errors through a Linear padrões acessíveis, válidos, inéditos e potencialmente úteis.
Programming mathematical model (GSME-PL) and Fisher Por ser um processo exploratório, é importante que o KDD
Discriminant Linear Function (FDLF). It was analyzed 885 produza respostas rápidas. Porém, devido à ampla quantidade
instances, with 12 variables and an output (satisfaction). Through de dados e ao alto custo computacional dos algoritmos na
the results obtained, it can be concluded that the attributes
extração de conhecimento, isto nem sempre é possível. Desta
relating to "teachers" are the most important, and for the case
addressed, RLB was the technique with the highest accuracy rate forma, esta ocorrência torna muitas vezes uma resposta
(92.2%). aproximada e rápida mais interessante do que uma resposta
Keywords— KDD process, Exploratory Data Analysis, Data exata e demorada [5-7].
Mining, Multivariate Analysis. O processo KDD possui forte relação com o aprendizado
de máquina, com o Reconhecimento de Padrões, com a
I. INTRODUÇÃO Estatística e com a Visualização de dados, objetivando
descobrir os padrões nos dados [8]. O KDD pode ser visto
AS ORGANIZAÇÕES possuem grandes quantidades de como a confluência dessas disciplinas [9]. A Estatística
informações e cada vez mais necessitam de auxílio técnico proporciona métodos de quantificação da incerteza inerente,
computacional apropriado para realizar a análise, a bem como procura inferir padrões gerais a partir de amostras
interpretação e o relacionamento dessas informações em busca de uma população. As técnicas de Visualização de Dados
de conhecimento. estimulam naturalmente a percepção e a inteligência,
O processo KDD (Knowledge Discovery in Databases ou aumentando a capacidade de entendimento e de associação de
Descoberta de Conhecimento em Bases de Dados) é uma das novos padrões [10]. Assim, é preciso entender todas as etapas
áreas de pesquisa altamente dinâmicas, na qual novos métodos do processo KDD e saber como aplicar as técnicas para obter
e aplicações são propostos a cada dia e tem se demostrado os melhores resultados possíveis. São apresentadas
efetivo na gestão de informações, tentando determinar as mais sucintamente nesta seção, as técnicas utilizadas na
relevantes e transformá-las em conhecimento útil à tomada de metodologia proposta (seção IV).
decisão. O processo KDD inclui ainda análises, interpretações
e uso do conhecimento extraído do banco de dados por meio TESTE T2 DE HOTELLING
de técnicas de DM (Data Mining ou Mineração de Dados) [1-
4]. A estatística do teste T2 de Hotelling é baseada em
O presente artigo tem como objetivo analisar e discriminar estimativas amostrais da matriz de covariância e é aplicada
os dados relativos junto a cursos de Pós-Graduação (PG) Lato para verificar a igualdade dos vetores médios de duas
Sensu de uma Instituição de Ensino Superior (IES) privada, amostras multivariadas A e B, conforme (1) e (2) a seguir.
com o intuito de medir a satisfação e a qualidade dos serviços
~𝐹 , (1)
Corresponding author: C. R. M. Rosa, Pontifícia Universidade Católica do
Paraná (PUCPR), Curitiba, Paraná, Brasil, carla.rosa@pucpr.br
M. T. A. Steiner, Pontifícia Universidade Católica do Paraná (PUCPR), onde:
Curitiba, Paraná, Brasil, maria.steiner@pucpr.br
P. J. Steiner Neto, Universidade Positivo (UP), Curitiba, Paraná, Brasil,
pedrosteiner@ufpr.br
𝑇 𝑋 𝑋 ′ 𝑆 𝑋 𝑋 (2)
1
2028 IEEE LATIN AMERICA TRANSACTIONS, VOL. 16, NO. 7, JULY 2018
O resultado é comparado com a distribuição Fn, m+k-n 1 (0.95) onde: η = g(x) é obtido em um ajuste linear.
(distribuição F de Snedecor a uma probabilidade de 95%). Nas
expressões (1) e (2) têm-se que: m e k = número de atributos GERAÇÃO DE UMA SUPERFÍCIE QUE MINIMIZA
das amostras A e B, respectivamente; n = número de variáveis ERROS (GSME-PL)
covariância amostral conjunta, sabendo-se que Sp é dada por
meio de (3). O problema de Programação Linear proposto por [16] apud
[17], apresentado em (6), a seguir, gera um plano que
𝑆 (3) minimiza a média ponderada da soma das violações das
instâncias dos conjuntos A e B que estão do “lado errado” do
plano separador. Neste modelo ek e em ∈ Rk e Rm,
onde: SA = matriz de covariância da amostra A; SB = matriz de respectivamente; w é o vetor “peso” ∈ Rn, normal ao plano
covariância da amostra B. No teste (4), a seguir, se: separador ótimo e γ ∈ R, fornece a localização da superfície
separadora ótima wx = γ.
𝐹 , 0,95 (4)
𝑀𝑖𝑛 (6)
, , , ,
rejeita-se, fortemente, com uma probabilidade de 95%, a s.a.: Aw – em γ + y ≥ em
hipótese de que as amostras estejam centradas no mesmo vetor - Bw + ek γ + z ≥ ek
de médias. y ≥ 0, y ∈ Rm
z ≥ 0, z ∈ Rk
ANÁLISE DOS COMPONENTES PRINCIPAIS (ACP)
FUNÇÃO DISCRIMINANTE LINEAR DE FISHER (FDLF)
A ACP permite identificar novas variáveis, em menor
número que o conjunto inicial, mas sem perda significativa da A ideia de Fisher foi transformar observações
informação contida neste conjunto. Para a determinação dos multivariadas X’s em observações univariadas Y’s oriundas
componentes principais, é necessário calcular a matriz de das populações π1 e π2 de tal modo que estas apresentassem o
variância-covariância (Ʃ) ou a matriz de correlação (R), maior grau de separação (desvio padrão) possível [18].
encontrar os autovalores e os autovetores e, por fim, escrever A combinação linear do vetor x, Y= (α') x, em cada
as combinações lineares que serão as novas variáveis, população, de maneira que seja máxima a relação do quadrado
denominadas de componentes principais. A Fig. 1 apresenta da diferença de médias dos conjuntos A e B (xA e xB) em
um esquema de aplicação da ACP [11-13]. relação a sua variância Y. Neste contexto, a FDLF amostral, é
dada a seguir pela equação (7).
𝑌 𝑥 𝑥 𝑆 𝑥 (7)
em que x = vetor das variáveis aleatórias correspondentes às

características amostrais observadas.
Se x0 ∈ A, então:
1
𝑦 𝑥 𝑥 𝑆 𝑥 𝑞 𝑥 𝑥 𝑆 𝑥 𝑥
2
Figura 1. Esquema da aplicação da ACP.
Se x0 ∈ B, então:
REGRESSÃO LOGÍSTICA BINÁRIA (RLB) 1
𝑦 𝑥 𝑥 𝑆 𝑥 𝑞 𝑥 𝑥 𝑆 𝑥 𝑥
2
A RLB consiste em relacionar, por meio de um modelo, a
variável resposta (alunos “satisfeitos” ou “insatisfeitos”) com III. DESCRIÇÃO DO PROBLEMA
os atributos que influenciam em sua ocorrência (variáveis
pertencentes ao conjunto A ou B) [14]. As IES vêm sofrendo pressões do mercado, por um
As premissas básicas a serem atendidas são: a) a média aperfeiçoamento de seus cursos de PG Lato Sensu, ou seja, em
condicional da equação da RLB será um valor definido entre nível de Especialização, ocasionando a concorrência entre as
“0” e “1”; b) os erros da equação seguirão a distribuição mesmas. O aumento significativo no número de cursos de PG
binária; e c) os resultados obtidos podem ser entendidos na tem exigido que as instituições se empenhem para alcançar
forma de probabilidades [15]. níveis cada vez mais elevados de eficiência em sua gestão,
O modelo de RLB, conforme apresentado por [15], assume tendo como objetivo fundamental a satisfação de seus alunos.
a relação exposta na equação (5), também conhecida como A fim de atender as demandas dos cursos, as IES têm buscado
função logística. Assim sendo, no modelo de RLB, a variável por informações sobre os fatores que atraem estudantes para
resposta Yi é binária, ou seja, poderá assumir dois valores, Yi = seus cursos.
0 ou Yi = 1 Diante deste contexto, o egresso da Instituição em estudo, é
um profissional comprometido com a vida e com o progresso
Y = f (x) = (1 + e–ƞ)–1, x ∈ Rn (5)
ROSA : KNOWLEDGE DISCOVERY IN DATA BASES: A CASE 2029
sustentável da sociedade, atuando como cidadãos éticos e rejeita-se fortemente a hipótese de que as duas amostras
comprometidos com o desenvolvimento sustentável. Desta (“satisfeitos” e “insatisfeitos”) estejam centradas no mesmo
maneira, estes fatores podem influenciar profundamente o vetor de médias. Assim sendo, o conjunto de alunos
desempenho de suas atividades profissionais. “satisfeitos” com o curso é distinto do de alunos
Para o presente trabalho foi realizada a análise de 68 cursos “insatisfeitos” com o curso.
de PG de uma IES privada, cada um deles com 13 módulos. Na sequência foi realizada a análise descritiva das 885
As variáveis independentes (atributos) deste problema, instâncias (Tabela I), por meio da aplicação do software SPSS
utilizadas nesse estudo, foram em um total de 12: “domínio do 13.0. Nesta Tabela I tem-se na 1ª. coluna, os 12 atributos
conteúdo” pelo docente; “didática e clareza na condução do analisados; na 2ª. coluna está o número de instâncias válidas
módulo”; “capacidade de despertar a motivação”; “aderência (885); na 3ª. coluna está a amplitude de cada um dos atributos;
do conteúdo à proposta do curso”; “relacionamento do na 4ª., 5ª. e 6ª. colunas estão os valores mínimos, máximos e
professor com os alunos”; “planejamento e organização médios, respectivamente, de cada um dos atributos; na 7ª., 8ª.
geral”; “sala de aula”; “Eureka & intranet”, onde Eureka é um e 9ª. colunas estão os erros padrão, os desvios padrão e as
sistema computacional utilizado para inserir arquivos e outros; variâncias, respectivamente, de cada um dos atributos.
“estrutura cantinas e banheiros”; “tutor”; “supervisão
acadêmica”; “coordenação do curso” e uma variável TABELA I
ESTATÍSTICA DESCRITIVA DAS 885 INSTÂNCIAS
dependente (resposta), referente ao índice de satisfação
(alunos “satisfeitos” ou “insatisfeitos”). Erro Desvio
Variáveis N Amplitude Mínimo Máximo Média Variância
Foram coletados 885 dados, por meio de um questionário, Padrão padrão
Domínio do
sendo que cada um deles é a média de 25 alunos por módulo Conteúdo 885 3,25 6,75 10,00 9,43 0,02 0,49 0,24
Didática e Clareza
(total 1.626 alunos). Cada uma destas 885 instâncias ficou na Condução do 885 4,50 5,50 10,00 9,18 0,02 0,66 0,43
Módulo
com 12 atributos definidos pelas respostas dos questionários, Capacidade de
Despertar a 885 6,21 4,38 10,58 8,93 0,03 0,82 0,67
dos quais 322 ficaram enquadrados na classe “satisfeitos” e Motivação
563 apresentaram na classe “insatisfeitos”. Aderência do

Conteúdo à 885 4,50 5,50 10,00 9,21 0,02 0,58 0,34
Proposta do curso
Relacionamento
IV. METODOLOGIA ADOTADA do Professor com 885 3,38 6,63 10,00 9,49 0,02 0,48 0,23
os Alunos
Planejamento e
Organização geral 885 3,88 6,13 10,00 9,19 0,02 0,60 0,36
Sala de Aula
A metodologia proposta ficou dividida em duas fases 885 6,00 4,00 10,00 8,27 0,02 0,72 0,52
Eureka e intranet
enquadradas no processo KDD. A 1ª. fase, que envolve a 885 5,75 3,75 9,50 7,59 0,03 0,84 0,71
Estrutura Cantinas
análise exploratória de dados e a 2ª. fase, que envolve DM. e Banheiros 885 5,93 4,07 10,00 7,91 0,03 0,76 0,58
Resumidamente, a metodologia descrita pode ser visualizada Tutor
885 5,14 4,86 10,00 8,07 0,02 0,69 0,48
na Fig. 2, a seguir. O detalhamento da aplicação ao problema Supervisão
Acadêmica 885 5,14 4,86 10,00 8,18 0,02 0,62 0,38
aqui abordado é apresentado na sequência. Coordenação do
Curso 885 5,85 4,15 10,00 8,36 0,02 0,66 0,44
Classe
885 1,00 0,00 1,00 0,36 0,02 0,48 0,23
N válido (de lista)
1ª. FASE: Análise Exploratória dos 885
Dados
• Teste T2 de Hotelling Também por meio software SPSS 13.0, pode-se observar
• Estatística Descritiva dos 885 Dados que muitos dos atributos estão correlacionados. O atributo
• Análise de Correlação entre os 12 Atributos
“domínio do conteúdo”, por exemplo, apresenta uma
• Análise das Componentes Principais
correlação de 0,875 em relação ao atributo “didática e clareza
na condução do módulo” e assim tem-se que os seis primeiros
2ª. FASE: Técnicas de DM
atributos estão altamente correlacionados entre si.
• Aplicação da RLB Desta forma, para que haja uma melhor interpretação dos
• Aplicação da GSME-PL dados, foi aplicada ACP sobre os 12 atributos, cujos
• Aplicação da FDLF resultados estão apresentados na Tabela II a seguir, obtendo-se
4 Componentes Principais. O 1º. Componente ficou composto
Figura 2. Metodologia Proposta pelos 6 primeiros atributos e poderia ser chamado, por
exemplo, de “Docente”; o 2º. Componente reuniu os atributos
V. OBTENÇÃO E DISCUSSÃO DOS RESULTADOS 7, 8 e 9, podendo ser chamado de “Apoio Didático”; o 3º.
Componente ficou formado pelos atributos 10 e 12,
A análise exploratória dos dados foi aplicada, conforme “Infraestrutura” e finalmente, o 4º. Componente ficou
já mencionado, com o intuito de “melhor entender” os constituído apenas do atributo 11, “Eureka & internet”, aqui
atributos e “melhorar a qualidade” das instâncias obtendo-se, chamado de “Tecnologia e Informação (TI)”. Já a correlação
como consequência, a relevância (ou não) dos atributos, assim para os 4 Componentes mostra que os componentes estão
como uma maior acurácia das técnicas de DM. fracamente correlacionados, ou seja, estão adequados para a
O teste T2 de Hotelling, programado no software continuidade do processo. Uma interpretação gráfica para o
MATLAB, foi aplicado à amostra (885 instâncias e 12 problema pode ser visualizada nas Figuras 3 e 4 a seguir.
atributos), com a obtenção dos seguintes valores: Amostra(885 Em seguida, a técnica de RLB foi aplicada, inicialmente, às
instâncias): 83,7381 > 1,793 = F12,872 (0,95). Por conseguinte,
855 instâncias com 4 Componentes Principais, com o auxílio
do software SPSS 13.0 utilizando o método “Entrada Forçada”
(comando “Enter” no SPSS), que consiste na entrada Os testes de coeficientes do modelo Omnibus (ou, também
simultânea de todos os componentes para definir o modelo chamado, de teste do ajustamento) que fornece uma indicação
final. geral do desempenho do modelo com a inclusão das variáveis.
Os resultados iniciais da análise foram obtidos sem que Observa-se que todos os valores de Sig. (Significância) estão
qualquer variável independente do modelo tenha sido usada. em 0,000 (ou seja, p < 0,0005). Pode-se concluir que o modelo
As variáveis serão usadas mais adiante para que os resultados com a inclusão das variáveis é melhor do que o anterior. O
lá obtidos possam ser comparados. No presente teste, todo valor de χ2 (chi-quadrado) é 799,916, com 4 graus de
aluno seria classificado como “insatisfeito” (porque houve um liberdade (df, ou seja, degrees of fredom).
maior número de alunos respondendo como “insatisfeitos”) e a Após 8 iterações na 1ª etapa, o modelo final selecionou os
taxa de acerto seria de 63,6%. 4 Componentes Principais. A Tabela III mostra que no 1º.
Passo, o índice “R2 de Cox e Snell” situou-se no patamar de
TABELA II 59% e o “R2 Nagelkerke” ficou em 81%. O “R2 Cox e Snell”
ANÁLISE DOS COMPONENTES PRINCIPAIS
indica que 59% das variações ocorridas na RLB são
explicadas pelo conjunto dos 4 Componentes Principais, ou
Componente
Variáveis
1 2 3 4 seja, este índice apresenta um alto índice de explicação. O
Domínio do Conteúdo 0,97 índice “R2 Nagelkerke” indica que 81% das variações
Didática e Clareza na Condução do Módulo 0,93 registradas na variável dependente (Classe: “insatisfeitos” ou
Capacidade de despertar a motivação 0,92 “satisfeitos”) são ocasionadas pelos Componentes Principais.
Aderência do Conteúdo à Proposta do curso 0,92 Ou seja, este índice também apresenta uma alta explicação. As
Relacionamento do Professor com os Alunos 0,91 magnitudes das duas estatísticas são consideráveis.
Planejamento e Organização Geral 0,91
Coordenação do Curso 0,94
TABELA III
Supervisão Acadêmica 0,93
TESTES PARA A VERIFICAÇÃO DO AJUSTE DO MODELO RLB
Tutor 0,92
Estrutura Cantinas e Banheiros 0,89
Sala de Aula 0,89 Verossimilhança R quadrado R quadrado
Etapa
Eureka e intranet 0,99 de log -2 Cox & Snell Nagelkerke
1,00 360,49a 0,59 0,81
Já a Tabela IV mostra o teste “Hosmer e Lemeshow” que

também dá suporte ao modelo. Este teste, considerado por
muitos como o mais confiável disponível para a avaliação do
ajustamento do modelo. Para o teste de ajustamento Hosmer e
Lemeshow, um ajustamento pobre é indicado por um valor p
(ou Sig.) < 0,05, ou seja, para que o ajustamento seja
considerado adequado o valor p (ou Sig.) ≥ 0,05. No nosso
caso o valor p (ou Sig.) = 0,87, ou seja, o modelo proposto
está bem suportado.
TABELA IV
TESTE DE HOSMER E LEMESHOW
Etapa Qui-quadrado df Sig.

1 3,82 8 0,87
Figura 3. Interpretação Gráfica para a obtenção dos 4 Componentes Principais
A Tabela V mostra os coeficientes B (2ª. coluna) que fazem

a discriminação entre as duas classes. Assim, tem-se que ƞ da
equação (5) apresentada na seção II, possui a forma mostrada
em (8) para o problema apresentado.
Ƞ(885 instâncias) = 6,97X1 + 2,12X2 + 3,96X3 + 1,20X4 (8)
onde: as variáveis Xi são os Componentes Principais (X1 =

Docente; X2 = Infraestrutura; X3 = Apoio; X4 = TI), sendo que
todas elas são extremamente significativas, pois possuem o
valor p (Sig.) ≤ 0,05. Pela Tabela II já vista, considerando-se
os 12 atributos do problema, tem-se que o relacionamento
entre as variáveis originais e os componentes principais ocorre
da forma mostrada em (9).
Figura 4. Interpretação Gráfica para a obtenção dos 4 Componentes Principais X1 = [0,968 (atributo 1) + 0,928 (atributo 2) + 0,922 (atributo
3) + 0,922 (atributo 4) + 0,914 (atributo 5) + 0,914 (atributo
ROSA : KNOWLEDGE DISCOVERY IN DATA BASES: A CASE 2031
6)]; X2 = [0,94 (atributo 7) + 0,93 (atributo 8) + 0,92 (atributo do “lado errado” do hiperplano separador: w1x1 + w2x2 + w3x3
9)]; X3 = 0,90 [(atributo 10) + 0,89 (atributo 11)]; X4 = 0,99 + w4x4 = γ, considerando os 4 Componente Principais.
[(atributo 12)] (9) Os resultados apresentados em (10) mostra o valor da
função objetivo e, também a equação discriminante para a
TABELA V amostra com 885 instâncias, respectivamente.
COEFICIENTES DA RLB CONSIDERANDO AS 885 INSTÂNCIAS
Função Objetivo(885 instâncias) = 1,33;
95% C.I. para
Equação Minimiza Erros(885 instâncias) = 4,69X1 + 1,62X2 +
Variáveis B S.E. Wald df Sig. Exp(B) EXP(B) 2,61X3 + 0,83X4 = 85,65 (10)
Inferior Superior
Docente 6,97 0,62 127,37 1,00 0,00 1067,87 318,10 3584,83
Estrutura 2,12 0,29 54,80 1,00 0,00 8,35 4,76 14,65
A matriz de classificação para o GSME-PL está
Etapa
1a
Apoio 3,96 0,43 86,69 1,00 0,00 52,45 22,79 120,72 apresentada na Tabela VII a seguir.
TI 1,20 0,20 37,22 1,00 0,00 3,30 2,25 4,85
Constante -125,83 9,96 159,55 1,00 0,00 0,00
a. Variáveis inseridas na etapa 1: Docente, Estrutura, Apoio, TI. TABELA VII
CLASSIFICAÇÃO DAS 885 INSTÂNCIAS (GSME-PL)
Para cada valor apontado na 6ª coluna da Tabela V,
(Exp(B)), também conhecido como odds ratio, existe um Satisfeito Insatisfeito Porcentagem
intervalo de confiança de 95% (7ª. e 8ª. colunas), fornecendo Satisfeito 299 23 92,86%
um valor inferior e superior para (Exp(B)). De acordo com Insatisfeito 54 509 90,41%
Porcentagem Global 91,3%
[19], odds ratio representa “a chance de estar em uma das
categorias quando o valor da variável preditora (independente)
aumenta em uma unidade”. O valor Exp(B) é uma estimativa A matriz de classificação mostra uma taxa de acerto
pontual do valor real, baseado em uma amostra. Como pode- extremamente alta de instâncias classificadas corretamente
se observar nesta Tabela V, o preditor mais forte para o para o modelo. Na Tabela VII, a taxa de acerto geral (885
reporte é o Componente Principal “Docente”, com Exp(B) de instâncias) foi de 91,3% e, de forma adicional, as taxas de
1.067,87, mostrando que a cada 1 aluno que avalie acerto de grupos individuais foram: para a classe “satisfeitos”,
satisfatoriamente o componente “Docente”, aumentará em de 92,86% e para a classe “insatisfeitos”, de 90,41%. Assim,
1.067,87 as chances dele estar satisfeito com o curso. Da das 322 instâncias da classe “satisfeitos”, apenas 23 foram
mesma forma, tem-se a interpretação para os demais valores erroneamente classificados como sendo da classe
da coluna de Exp(B). “insatisfeitos” e das 563 instâncias consideradas como
Já a matriz de classificação para o RLB mostra uma taxa de “insatisfeitos”, 54 detinham instâncias como “satisfeitos”.
acerto extremamente alta de instâncias classificadas A FDLF possui função discriminante Y = b1x1 + b2x2 + b3x3
corretamente para o modelo. Na Tabela VI, a taxa de acerto + b4x4, em que xi, com i = 1; ... ; 4 representando cada um dos
geral é de 92% e, de forma adicional, as taxas de acerto de 4 Componentes Principais, onde bi, com i = 1; ... ; 4 são os
grupos individuais foram: para a classe “satisfeitos”, de 89,8% seus coeficientes ou pesos. Desta forma, para verificar se x0 ∈
e para a classe “insatisfeitos”, de 93,3%. Assim, das 322 A ou se x0 ∈ B, é necessário comparar o valor de Y com q =
instâncias consideradas como “satisfeitos”, o modelo ½(xA – xB)’ 𝑆 (xA – xB).
classificou erroneamente 33 instâncias como “insatisfeitos” e Os resultados apresentados em (11), a seguir, mostram a
das 563 instâncias da classe “insatisfeitos”, apenas 38 foram equação para a amostra com 885 instâncias, para os
erroneamente classificados como sendo da classe “satisfeitos”. “satisfeitos” e “insatisfeitos”, respectivamente.
TABELA VI Y(885 instâncias) = 3,17X1 + 1,03X2 + 2,20X3 + 1,00X4 < q = 63,86

CLASSIFICAÇÃO DAS 885 INSTÂNCIAS (RLB) e Y(885 instâncias) = 3,17X1 + 1,03X2 + 2,20X3 + 1,00X4 ≥ q =
63,86 (11)
Previsto
Observado Classe Porcentagem
Satisfeito Insatisfeito A matriz de classificação para esta técnica (FDLF) está
Satisfeito 289 33 89,8 apresentada na Tabela VIII a seguir.
Etapa Classe
Insatisfeito 38 525 93,3
1
Porcentagem global 92,0 TABELA VIII
CLASSIFICAÇÃO DAS 885 INSTÂNCIAS (FDLF)
A técnica GSME-PL constrói um modelo matemático que
permite ajustar as variáveis do processo, no índice de Satisfeito Insatisfeito Porcentagem
satisfação, de forma a classificar alunos como “satisfeitos” ou Satisfeito 309 13 95,96%
“insatisfeitos” em relação ao curso com um menor erro Insatisfeito 81 482 85,61%
possível. Porcentagem Global 89,38%
Foram classificados os alunos “satisfeitos” (classe A)
através da GSME-PL, aqueles que atendem a inequação wx ≥ γ Conforme o resultado apresentado na Tabela VIII tem-se
e alunos “insatisfeitos”, (Classe B) aqueles que atendem a wx que a taxa de acerto geral foi de 89,38% e, de forma adicional,
< γ. Deste modo, foi utilizada a amostra (885 instâncias), para as taxas de acerto de grupos individuais foram: para a classe
construir um modelo que minimiza a média ponderada da “satisfeitos”, de 95,96% e para a classe “insatisfeitos”, de
soma das violações dos dados dos conjuntos A e B que estão 85,61%. Assim, das 322 instâncias da classe “satisfeitos”,
apenas 13 foram erroneamente classificados como
“insatisfeitos” e das 563 instâncias “insatisfeitos”, 81 foram [4] X. Wu; X. Zhu; G.Q. Wu; W. Ding. Data mining with big data. IEEE
Latin America Transactions, v. 26, n. 1, p. 97-107, 2014.
classificados erroneamente como “satisfeitos”. No Tabela IX a [5] B.E.V. Comendador; L.W Rabago; B.T. Tanguilig. An educational model
seguir, tem-se o desempenho comparativo entre as três based on Knowledge Discovery in Databases (KDD) to predict learner's
técnicas analisadas. behavior using classification techniques. IEEE Latin America Transactions, p.
1-6, 2016.
TABELA IX [6] D.C. Macedo; S.N. Matos. Extração de Conhecimento através da
COMPARAÇÃO DO DESEMPENHO DAS TÉCNICAS PARA O ESTUDO Mineração de Dados. Revista de Engenharia e Tecnologia, v. 2, n. 2, p. 22-30,
DE CASO APRESENTADO 2010.
[7] A.B. Tronchoni; M.A. Rosa; C.O. Pretto; F.A.B. Lemos. Descoberta de
Conhecimento em Base de Dados de Eventos de Desligamentos de Empresas
Amostra RLB GSME-PL FDLF de Distribuição. Revista Controle & Automação, v. 21, n. 2, p. 185-200, 2010.
[8] F. Xiao; C. Fan. “Data mining in building automation system for
885 92,00% 91,30% 89,38%
improving building operational performance”. Energy and Buildings, v. 75, p.
109-118, 2014.
VI. CONCLUSÕES [9] N. Padhy; P. Mishra; R. Panigrahi. “The Survey of Data Mining
Applications and Feature Scope”. International Journal of Computer Science,
Engineering and Information Technology, v. 2, n. 3, p. 43-58, 2012.
O presente trabalho utilizou algumas técnicas da área de [10] D.W. Hosmer; S. Lemeshow. “Applied Logistic Regression”. New York:
Inteligência Artificial para a análise exploratória e para a Wiley & Sons, 2000.
mineração dos dados, enquadradas no processo KDD, tendo [11] N. Padhy; P. Mishra; R. Panigrahi. “The Survey of Data Mining
Applications and Feature Scope”. International Journal of Computer Science,
em vista a análise dos atributos e a classificação de padrões, Engineering and Information Technology, v. 2, n. 3, p. 43-58, 2012.
respectivamente. Tais técnicas foram aplicadas visando [12] S.O. Rezende; J.B. Pugliesi; E.A. Melanda; M.F. Paula. “Mineração de
identificar quais são os atributos mais relevantes e também a Dados”, In: REZENDE. S. O. (Org.). Sistemas Inteligentes: fundamentos e
acurácia das técnicas quanto a classificação de alunos (como aplicações. Barueri: Editora Manole, v.1, p. 307-355, 2003.
[13] C.R.M. Rosa; M.T.A. Steiner; P.J. Steiner Neto. “Técnicas de mineração
“satisfeitos” ou “insatisfeitos”). de dados aplicadas à um problema de diagnóstico médico”. Espacios, v. 37,
Com o auxílio de um especialista foram identificadas as n.8, p. 15, 2016.
variáveis que poderiam interferir no índice de satisfação dos [14] S.C. Silva; A.F. Sbrissia. “Análise de componentes principais entre
alunos e, então, foi construído um questionário que foi características morfogênicas e estruturais em capim-marandu sob lotação
contínua”. Ciência Rural, Santa Maria, v. 40, n. 3, p. 690-693, 2010.
respondido pelos alunos que participaram dos cursos de [15] A.M. Souza. “Monitoração e ajuste de realimentação em processos
especialização a serem avaliados. Tais variáveis foram produtivos multivariados”. Tese (Doutorado Engenharia de Produção) -
analisadas e, além disso, serviram como entradas para o Universidade Federal Santa Catarina, 2000.
procedimento de classificação e previsão de instâncias (alunos [16] A.M. Souza; R.J. Poppi. “Experimento didático de quimiometria para
análise exploratória de óleos vegetais comestíveis por espectroscopia no
“satisfeitos” ou “insatisfeitos”). infravermelho médio e análise de componentes principais: um tutorial, parte
Na 1ª fase do trabalho foi aplicada uma análise exploratória I”. Quim. Nova, v. 35, n. 1, p. 223-229, 2012.
dos dados (teste T2 de Hotelling; análise descritiva aos dados; [17] M.T.A. Steiner; N.Y. Soma; T. Shimizu; J.C. Nievola; P.J. Steiner, Neto.
ACP) visando a análise dos atributos e a maximização da “Abordagem de um problema médico por meio do processo de KDD com
ênfase à análise exploratória dos dados”. Revista Gestão & Produção, v. 13,
acurácia das técnicas utilizadas na 2ª fase (RLB; GSME-PL e n. 2, p. 325-337, 2006.
FDLF). [18] B.G. Tabachnick; L.S. Fidell. “Using Multivariate Statistics”. 6a(th) ed.,
Na 2ª fase, com a utilização das técnicas de DM, obteve-se California State University – Northridge. Boston: Pearson, 2013.
as suas acurácias, de forma comparativa, apresentadas na [19] F. Xiao; C. Fan. “Data mining in building automation system for
improving building operational performance”. Energy and Buildings, v. 75, p.
Tabela IX anterior. Todas as três técnicas apresentaram 109-118, 2014.
excelentes percentuais de acurácia, sendo que a técnica RLB
(92%) foi a que apresentou um percentual um pouco mais Carla Regina Mazia Rosa Possui Mestrado pelo PPGEPS-
elevado, podendo ser considerada a mais eficiente para o PUCPR (2011) e é atualmente Doutoranda deste programa.
problema aqui apresentado. Desta forma, dada uma nova Atua na Sociesc, na área de Planejamento e Controle da
Produção, desde 2016.
instância, com as 12 variáveis, o especialista deverá
primeiramente transformá-las em 4 Componentes Principais, Maria Teresinha Arns Steiner Possui Pós-Doutorado pelo
por meio da equação (9), que fornecerão os coeficientes de ƞ ITA (2005) e pelo IST de Lisboa (2014). Atua no PPGEPS da
apresentados na equação (5) para obter a sua classe PUCPR desde 2011. Tem experiência em temas da área de
Pesquisa Operacional.
(“satisfeitos” ou “insatisfeitos”), conforme equação (8). Vale
enfatizar que as técnicas aqui abordadas servem apenas para
respaldar as decisões/conclusões do especialista, sem nunca Pedro José Steiner Neto Possui Pós-Doutorado pelo IST de
para substitui-lo. Lisboa (2014). Atua no PMDA da UP desde2015. Tem
experiência em Análise Multivariada e em temas da área de
Administração.
REFERÊNCIAS
[1] O.N.P. Cardoso; R.T.M. Machado. “Gestão do conhecimento usando data
mining: estudo de caso na Universidade Federal de Lavras”. Revista de
Administração Pública, v. 42, n. 3, p. 495-528, 2008.
[2] S.O. Fonseca; A.A. Namen. “Mineração em bases de dados do INEP: uma
análise exploratória para nortear melhorias no sistema educacional brasileiro”.
Educação em Revista Belo Horizonte, v. 32, n. 1, p. 133-157, 2016.
[3] C.R.M. Rosa; M.T.A. Steiner; P.J. Steiner Neto. “Técnicas de mineração
de dados aplicadas à um problema de diagnóstico médico”. Espacios, v. 37,
n.8, p. 15, 2016.

Mazia Rosa 2018

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Mazia Rosa 2018

Enviado por

Direitos autorais:

Formatos disponíveis

IEEE LATIN AMERICA TRANSACTIONS, VOL. 16, NO.

7, JULY 2018 2027

Knowledge Discovery in Data Bases: a Case Study

C. R. M. Rosa, M. T. A. Steiner and P. J. Steiner Neto

em que x = vetor das variáveis aleatórias correspondentes às

563 apresentaram na classe “insatisfeitos”. Aderência do

Já a Tabela IV mostra o teste “Hosmer e Lemeshow” que

Etapa Qui-quadrado df Sig.

A Tabela V mostra os coeficientes B (2ª. coluna) que fazem

Ƞ(885 instâncias) = 6,97X1 + 2,12X2 + 3,96X3 + 1,20X4 (8)

onde: as variáveis Xi são os Componentes Principais (X1 =

TABELA VI Y(885 instâncias) = 3,17X1 + 1,03X2 + 2,20X3 + 1,00X4 < q = 63,86

Você também pode gostar