Escolar Documentos
Profissional Documentos
Cultura Documentos
O resultado é comparado com a distribuição Fn, m+k-n 1 (0.95) onde: η = g(x) é obtido em um ajuste linear.
(distribuição F de Snedecor a uma probabilidade de 95%). Nas
expressões (1) e (2) têm-se que: m e k = número de atributos GERAÇÃO DE UMA SUPERFÍCIE QUE MINIMIZA
das amostras A e B, respectivamente; n = número de variáveis ERROS (GSME-PL)
covariância amostral conjunta, sabendo-se que Sp é dada por
meio de (3). O problema de Programação Linear proposto por [16] apud
[17], apresentado em (6), a seguir, gera um plano que
𝑆 (3) minimiza a média ponderada da soma das violações das
instâncias dos conjuntos A e B que estão do “lado errado” do
plano separador. Neste modelo ek e em ∈ Rk e Rm,
onde: SA = matriz de covariância da amostra A; SB = matriz de respectivamente; w é o vetor “peso” ∈ Rn, normal ao plano
covariância da amostra B. No teste (4), a seguir, se: separador ótimo e γ ∈ R, fornece a localização da superfície
separadora ótima wx = γ.
𝐹 , 0,95 (4)
𝑀𝑖𝑛 (6)
, , , ,
rejeita-se, fortemente, com uma probabilidade de 95%, a s.a.: Aw – em γ + y ≥ em
hipótese de que as amostras estejam centradas no mesmo vetor - Bw + ek γ + z ≥ ek
de médias. y ≥ 0, y ∈ Rm
z ≥ 0, z ∈ Rk
ANÁLISE DOS COMPONENTES PRINCIPAIS (ACP)
FUNÇÃO DISCRIMINANTE LINEAR DE FISHER (FDLF)
A ACP permite identificar novas variáveis, em menor
número que o conjunto inicial, mas sem perda significativa da A ideia de Fisher foi transformar observações
informação contida neste conjunto. Para a determinação dos multivariadas X’s em observações univariadas Y’s oriundas
componentes principais, é necessário calcular a matriz de das populações π1 e π2 de tal modo que estas apresentassem o
variância-covariância (Ʃ) ou a matriz de correlação (R), maior grau de separação (desvio padrão) possível [18].
encontrar os autovalores e os autovetores e, por fim, escrever A combinação linear do vetor x, Y= (α') x, em cada
as combinações lineares que serão as novas variáveis, população, de maneira que seja máxima a relação do quadrado
denominadas de componentes principais. A Fig. 1 apresenta da diferença de médias dos conjuntos A e B (xA e xB) em
um esquema de aplicação da ACP [11-13]. relação a sua variância Y. Neste contexto, a FDLF amostral, é
dada a seguir pela equação (7).
𝑌 𝑥 𝑥 𝑆 𝑥 (7)
Se x0 ∈ A, então:
1
𝑦 𝑥 𝑥 𝑆 𝑥 𝑞 𝑥 𝑥 𝑆 𝑥 𝑥
2
Figura 1. Esquema da aplicação da ACP.
Se x0 ∈ B, então:
REGRESSÃO LOGÍSTICA BINÁRIA (RLB) 1
𝑦 𝑥 𝑥 𝑆 𝑥 𝑞 𝑥 𝑥 𝑆 𝑥 𝑥
2
A RLB consiste em relacionar, por meio de um modelo, a
variável resposta (alunos “satisfeitos” ou “insatisfeitos”) com III. DESCRIÇÃO DO PROBLEMA
os atributos que influenciam em sua ocorrência (variáveis
pertencentes ao conjunto A ou B) [14]. As IES vêm sofrendo pressões do mercado, por um
As premissas básicas a serem atendidas são: a) a média aperfeiçoamento de seus cursos de PG Lato Sensu, ou seja, em
condicional da equação da RLB será um valor definido entre nível de Especialização, ocasionando a concorrência entre as
“0” e “1”; b) os erros da equação seguirão a distribuição mesmas. O aumento significativo no número de cursos de PG
binária; e c) os resultados obtidos podem ser entendidos na tem exigido que as instituições se empenhem para alcançar
forma de probabilidades [15]. níveis cada vez mais elevados de eficiência em sua gestão,
O modelo de RLB, conforme apresentado por [15], assume tendo como objetivo fundamental a satisfação de seus alunos.
a relação exposta na equação (5), também conhecida como A fim de atender as demandas dos cursos, as IES têm buscado
função logística. Assim sendo, no modelo de RLB, a variável por informações sobre os fatores que atraem estudantes para
resposta Yi é binária, ou seja, poderá assumir dois valores, Yi = seus cursos.
0 ou Yi = 1 Diante deste contexto, o egresso da Instituição em estudo, é
um profissional comprometido com a vida e com o progresso
Y = f (x) = (1 + e–ƞ)–1, x ∈ Rn (5)
ROSA : KNOWLEDGE DISCOVERY IN DATA BASES: A CASE 2029
sustentável da sociedade, atuando como cidadãos éticos e rejeita-se fortemente a hipótese de que as duas amostras
comprometidos com o desenvolvimento sustentável. Desta (“satisfeitos” e “insatisfeitos”) estejam centradas no mesmo
maneira, estes fatores podem influenciar profundamente o vetor de médias. Assim sendo, o conjunto de alunos
desempenho de suas atividades profissionais. “satisfeitos” com o curso é distinto do de alunos
Para o presente trabalho foi realizada a análise de 68 cursos “insatisfeitos” com o curso.
de PG de uma IES privada, cada um deles com 13 módulos. Na sequência foi realizada a análise descritiva das 885
As variáveis independentes (atributos) deste problema, instâncias (Tabela I), por meio da aplicação do software SPSS
utilizadas nesse estudo, foram em um total de 12: “domínio do 13.0. Nesta Tabela I tem-se na 1ª. coluna, os 12 atributos
conteúdo” pelo docente; “didática e clareza na condução do analisados; na 2ª. coluna está o número de instâncias válidas
módulo”; “capacidade de despertar a motivação”; “aderência (885); na 3ª. coluna está a amplitude de cada um dos atributos;
do conteúdo à proposta do curso”; “relacionamento do na 4ª., 5ª. e 6ª. colunas estão os valores mínimos, máximos e
professor com os alunos”; “planejamento e organização médios, respectivamente, de cada um dos atributos; na 7ª., 8ª.
geral”; “sala de aula”; “Eureka & intranet”, onde Eureka é um e 9ª. colunas estão os erros padrão, os desvios padrão e as
sistema computacional utilizado para inserir arquivos e outros; variâncias, respectivamente, de cada um dos atributos.
“estrutura cantinas e banheiros”; “tutor”; “supervisão
acadêmica”; “coordenação do curso” e uma variável TABELA I
ESTATÍSTICA DESCRITIVA DAS 885 INSTÂNCIAS
dependente (resposta), referente ao índice de satisfação
(alunos “satisfeitos” ou “insatisfeitos”). Erro Desvio
Variáveis N Amplitude Mínimo Máximo Média Variância
Foram coletados 885 dados, por meio de um questionário, Padrão padrão
Domínio do
sendo que cada um deles é a média de 25 alunos por módulo Conteúdo 885 3,25 6,75 10,00 9,43 0,02 0,49 0,24
Didática e Clareza
(total 1.626 alunos). Cada uma destas 885 instâncias ficou na Condução do 885 4,50 5,50 10,00 9,18 0,02 0,66 0,43
Módulo
com 12 atributos definidos pelas respostas dos questionários, Capacidade de
Despertar a 885 6,21 4,38 10,58 8,93 0,03 0,82 0,67
dos quais 322 ficaram enquadrados na classe “satisfeitos” e Motivação
(comando “Enter” no SPSS), que consiste na entrada Os testes de coeficientes do modelo Omnibus (ou, também
simultânea de todos os componentes para definir o modelo chamado, de teste do ajustamento) que fornece uma indicação
final. geral do desempenho do modelo com a inclusão das variáveis.
Os resultados iniciais da análise foram obtidos sem que Observa-se que todos os valores de Sig. (Significância) estão
qualquer variável independente do modelo tenha sido usada. em 0,000 (ou seja, p < 0,0005). Pode-se concluir que o modelo
As variáveis serão usadas mais adiante para que os resultados com a inclusão das variáveis é melhor do que o anterior. O
lá obtidos possam ser comparados. No presente teste, todo valor de χ2 (chi-quadrado) é 799,916, com 4 graus de
aluno seria classificado como “insatisfeito” (porque houve um liberdade (df, ou seja, degrees of fredom).
maior número de alunos respondendo como “insatisfeitos”) e a Após 8 iterações na 1ª etapa, o modelo final selecionou os
taxa de acerto seria de 63,6%. 4 Componentes Principais. A Tabela III mostra que no 1º.
Passo, o índice “R2 de Cox e Snell” situou-se no patamar de
TABELA II 59% e o “R2 Nagelkerke” ficou em 81%. O “R2 Cox e Snell”
ANÁLISE DOS COMPONENTES PRINCIPAIS
indica que 59% das variações ocorridas na RLB são
explicadas pelo conjunto dos 4 Componentes Principais, ou
Componente
Variáveis
1 2 3 4 seja, este índice apresenta um alto índice de explicação. O
Domínio do Conteúdo 0,97 índice “R2 Nagelkerke” indica que 81% das variações
Didática e Clareza na Condução do Módulo 0,93 registradas na variável dependente (Classe: “insatisfeitos” ou
Capacidade de despertar a motivação 0,92 “satisfeitos”) são ocasionadas pelos Componentes Principais.
Aderência do Conteúdo à Proposta do curso 0,92 Ou seja, este índice também apresenta uma alta explicação. As
Relacionamento do Professor com os Alunos 0,91 magnitudes das duas estatísticas são consideráveis.
Planejamento e Organização Geral 0,91
Coordenação do Curso 0,94
TABELA III
Supervisão Acadêmica 0,93
TESTES PARA A VERIFICAÇÃO DO AJUSTE DO MODELO RLB
Tutor 0,92
Estrutura Cantinas e Banheiros 0,89
Sala de Aula 0,89 Verossimilhança R quadrado R quadrado
Etapa
Eureka e intranet 0,99 de log -2 Cox & Snell Nagelkerke
1,00 360,49a 0,59 0,81
TABELA IV
TESTE DE HOSMER E LEMESHOW
Figura 4. Interpretação Gráfica para a obtenção dos 4 Componentes Principais X1 = [0,968 (atributo 1) + 0,928 (atributo 2) + 0,922 (atributo
3) + 0,922 (atributo 4) + 0,914 (atributo 5) + 0,914 (atributo
ROSA : KNOWLEDGE DISCOVERY IN DATA BASES: A CASE 2031
6)]; X2 = [0,94 (atributo 7) + 0,93 (atributo 8) + 0,92 (atributo do “lado errado” do hiperplano separador: w1x1 + w2x2 + w3x3
9)]; X3 = 0,90 [(atributo 10) + 0,89 (atributo 11)]; X4 = 0,99 + w4x4 = γ, considerando os 4 Componente Principais.
[(atributo 12)] (9) Os resultados apresentados em (10) mostra o valor da
função objetivo e, também a equação discriminante para a
TABELA V amostra com 885 instâncias, respectivamente.
COEFICIENTES DA RLB CONSIDERANDO AS 885 INSTÂNCIAS
Função Objetivo(885 instâncias) = 1,33;
95% C.I. para
Equação Minimiza Erros(885 instâncias) = 4,69X1 + 1,62X2 +
Variáveis B S.E. Wald df Sig. Exp(B) EXP(B) 2,61X3 + 0,83X4 = 85,65 (10)
Inferior Superior
Docente 6,97 0,62 127,37 1,00 0,00 1067,87 318,10 3584,83
Estrutura 2,12 0,29 54,80 1,00 0,00 8,35 4,76 14,65
A matriz de classificação para o GSME-PL está
Etapa
1a
Apoio 3,96 0,43 86,69 1,00 0,00 52,45 22,79 120,72 apresentada na Tabela VII a seguir.
TI 1,20 0,20 37,22 1,00 0,00 3,30 2,25 4,85
Constante -125,83 9,96 159,55 1,00 0,00 0,00
a. Variáveis inseridas na etapa 1: Docente, Estrutura, Apoio, TI. TABELA VII
CLASSIFICAÇÃO DAS 885 INSTÂNCIAS (GSME-PL)
Para cada valor apontado na 6ª coluna da Tabela V,
(Exp(B)), também conhecido como odds ratio, existe um Satisfeito Insatisfeito Porcentagem
intervalo de confiança de 95% (7ª. e 8ª. colunas), fornecendo Satisfeito 299 23 92,86%
um valor inferior e superior para (Exp(B)). De acordo com Insatisfeito 54 509 90,41%
Porcentagem Global 91,3%
[19], odds ratio representa “a chance de estar em uma das
categorias quando o valor da variável preditora (independente)
aumenta em uma unidade”. O valor Exp(B) é uma estimativa A matriz de classificação mostra uma taxa de acerto
pontual do valor real, baseado em uma amostra. Como pode- extremamente alta de instâncias classificadas corretamente
se observar nesta Tabela V, o preditor mais forte para o para o modelo. Na Tabela VII, a taxa de acerto geral (885
reporte é o Componente Principal “Docente”, com Exp(B) de instâncias) foi de 91,3% e, de forma adicional, as taxas de
1.067,87, mostrando que a cada 1 aluno que avalie acerto de grupos individuais foram: para a classe “satisfeitos”,
satisfatoriamente o componente “Docente”, aumentará em de 92,86% e para a classe “insatisfeitos”, de 90,41%. Assim,
1.067,87 as chances dele estar satisfeito com o curso. Da das 322 instâncias da classe “satisfeitos”, apenas 23 foram
mesma forma, tem-se a interpretação para os demais valores erroneamente classificados como sendo da classe
da coluna de Exp(B). “insatisfeitos” e das 563 instâncias consideradas como
Já a matriz de classificação para o RLB mostra uma taxa de “insatisfeitos”, 54 detinham instâncias como “satisfeitos”.
acerto extremamente alta de instâncias classificadas A FDLF possui função discriminante Y = b1x1 + b2x2 + b3x3
corretamente para o modelo. Na Tabela VI, a taxa de acerto + b4x4, em que xi, com i = 1; ... ; 4 representando cada um dos
geral é de 92% e, de forma adicional, as taxas de acerto de 4 Componentes Principais, onde bi, com i = 1; ... ; 4 são os
grupos individuais foram: para a classe “satisfeitos”, de 89,8% seus coeficientes ou pesos. Desta forma, para verificar se x0 ∈
e para a classe “insatisfeitos”, de 93,3%. Assim, das 322 A ou se x0 ∈ B, é necessário comparar o valor de Y com q =
instâncias consideradas como “satisfeitos”, o modelo ½(xA – xB)’ 𝑆 (xA – xB).
classificou erroneamente 33 instâncias como “insatisfeitos” e Os resultados apresentados em (11), a seguir, mostram a
das 563 instâncias da classe “insatisfeitos”, apenas 38 foram equação para a amostra com 885 instâncias, para os
erroneamente classificados como sendo da classe “satisfeitos”. “satisfeitos” e “insatisfeitos”, respectivamente.
“insatisfeitos” e das 563 instâncias “insatisfeitos”, 81 foram [4] X. Wu; X. Zhu; G.Q. Wu; W. Ding. Data mining with big data. IEEE
Latin America Transactions, v. 26, n. 1, p. 97-107, 2014.
classificados erroneamente como “satisfeitos”. No Tabela IX a [5] B.E.V. Comendador; L.W Rabago; B.T. Tanguilig. An educational model
seguir, tem-se o desempenho comparativo entre as três based on Knowledge Discovery in Databases (KDD) to predict learner's
técnicas analisadas. behavior using classification techniques. IEEE Latin America Transactions, p.
1-6, 2016.
TABELA IX [6] D.C. Macedo; S.N. Matos. Extração de Conhecimento através da
COMPARAÇÃO DO DESEMPENHO DAS TÉCNICAS PARA O ESTUDO Mineração de Dados. Revista de Engenharia e Tecnologia, v. 2, n. 2, p. 22-30,
DE CASO APRESENTADO 2010.
[7] A.B. Tronchoni; M.A. Rosa; C.O. Pretto; F.A.B. Lemos. Descoberta de
Conhecimento em Base de Dados de Eventos de Desligamentos de Empresas
Amostra RLB GSME-PL FDLF de Distribuição. Revista Controle & Automação, v. 21, n. 2, p. 185-200, 2010.
[8] F. Xiao; C. Fan. “Data mining in building automation system for
885 92,00% 91,30% 89,38%
improving building operational performance”. Energy and Buildings, v. 75, p.
109-118, 2014.
VI. CONCLUSÕES [9] N. Padhy; P. Mishra; R. Panigrahi. “The Survey of Data Mining
Applications and Feature Scope”. International Journal of Computer Science,
Engineering and Information Technology, v. 2, n. 3, p. 43-58, 2012.
O presente trabalho utilizou algumas técnicas da área de [10] D.W. Hosmer; S. Lemeshow. “Applied Logistic Regression”. New York:
Inteligência Artificial para a análise exploratória e para a Wiley & Sons, 2000.
mineração dos dados, enquadradas no processo KDD, tendo [11] N. Padhy; P. Mishra; R. Panigrahi. “The Survey of Data Mining
Applications and Feature Scope”. International Journal of Computer Science,
em vista a análise dos atributos e a classificação de padrões, Engineering and Information Technology, v. 2, n. 3, p. 43-58, 2012.
respectivamente. Tais técnicas foram aplicadas visando [12] S.O. Rezende; J.B. Pugliesi; E.A. Melanda; M.F. Paula. “Mineração de
identificar quais são os atributos mais relevantes e também a Dados”, In: REZENDE. S. O. (Org.). Sistemas Inteligentes: fundamentos e
acurácia das técnicas quanto a classificação de alunos (como aplicações. Barueri: Editora Manole, v.1, p. 307-355, 2003.
[13] C.R.M. Rosa; M.T.A. Steiner; P.J. Steiner Neto. “Técnicas de mineração
“satisfeitos” ou “insatisfeitos”). de dados aplicadas à um problema de diagnóstico médico”. Espacios, v. 37,
Com o auxílio de um especialista foram identificadas as n.8, p. 15, 2016.
variáveis que poderiam interferir no índice de satisfação dos [14] S.C. Silva; A.F. Sbrissia. “Análise de componentes principais entre
alunos e, então, foi construído um questionário que foi características morfogênicas e estruturais em capim-marandu sob lotação
contínua”. Ciência Rural, Santa Maria, v. 40, n. 3, p. 690-693, 2010.
respondido pelos alunos que participaram dos cursos de [15] A.M. Souza. “Monitoração e ajuste de realimentação em processos
especialização a serem avaliados. Tais variáveis foram produtivos multivariados”. Tese (Doutorado Engenharia de Produção) -
analisadas e, além disso, serviram como entradas para o Universidade Federal Santa Catarina, 2000.
procedimento de classificação e previsão de instâncias (alunos [16] A.M. Souza; R.J. Poppi. “Experimento didático de quimiometria para
análise exploratória de óleos vegetais comestíveis por espectroscopia no
“satisfeitos” ou “insatisfeitos”). infravermelho médio e análise de componentes principais: um tutorial, parte
Na 1ª fase do trabalho foi aplicada uma análise exploratória I”. Quim. Nova, v. 35, n. 1, p. 223-229, 2012.
dos dados (teste T2 de Hotelling; análise descritiva aos dados; [17] M.T.A. Steiner; N.Y. Soma; T. Shimizu; J.C. Nievola; P.J. Steiner, Neto.
ACP) visando a análise dos atributos e a maximização da “Abordagem de um problema médico por meio do processo de KDD com
ênfase à análise exploratória dos dados”. Revista Gestão & Produção, v. 13,
acurácia das técnicas utilizadas na 2ª fase (RLB; GSME-PL e n. 2, p. 325-337, 2006.
FDLF). [18] B.G. Tabachnick; L.S. Fidell. “Using Multivariate Statistics”. 6a(th) ed.,
Na 2ª fase, com a utilização das técnicas de DM, obteve-se California State University – Northridge. Boston: Pearson, 2013.
as suas acurácias, de forma comparativa, apresentadas na [19] F. Xiao; C. Fan. “Data mining in building automation system for
improving building operational performance”. Energy and Buildings, v. 75, p.
Tabela IX anterior. Todas as três técnicas apresentaram 109-118, 2014.
excelentes percentuais de acurácia, sendo que a técnica RLB
(92%) foi a que apresentou um percentual um pouco mais Carla Regina Mazia Rosa Possui Mestrado pelo PPGEPS-
elevado, podendo ser considerada a mais eficiente para o PUCPR (2011) e é atualmente Doutoranda deste programa.
problema aqui apresentado. Desta forma, dada uma nova Atua na Sociesc, na área de Planejamento e Controle da
Produção, desde 2016.
instância, com as 12 variáveis, o especialista deverá
primeiramente transformá-las em 4 Componentes Principais, Maria Teresinha Arns Steiner Possui Pós-Doutorado pelo
por meio da equação (9), que fornecerão os coeficientes de ƞ ITA (2005) e pelo IST de Lisboa (2014). Atua no PPGEPS da
apresentados na equação (5) para obter a sua classe PUCPR desde 2011. Tem experiência em temas da área de
Pesquisa Operacional.
(“satisfeitos” ou “insatisfeitos”), conforme equação (8). Vale
enfatizar que as técnicas aqui abordadas servem apenas para
respaldar as decisões/conclusões do especialista, sem nunca Pedro José Steiner Neto Possui Pós-Doutorado pelo IST de
para substitui-lo. Lisboa (2014). Atua no PMDA da UP desde2015. Tem
experiência em Análise Multivariada e em temas da área de
Administração.
REFERÊNCIAS
[1] O.N.P. Cardoso; R.T.M. Machado. “Gestão do conhecimento usando data
mining: estudo de caso na Universidade Federal de Lavras”. Revista de
Administração Pública, v. 42, n. 3, p. 495-528, 2008.
[2] S.O. Fonseca; A.A. Namen. “Mineração em bases de dados do INEP: uma
análise exploratória para nortear melhorias no sistema educacional brasileiro”.
Educação em Revista Belo Horizonte, v. 32, n. 1, p. 133-157, 2016.
[3] C.R.M. Rosa; M.T.A. Steiner; P.J. Steiner Neto. “Técnicas de mineração
de dados aplicadas à um problema de diagnóstico médico”. Espacios, v. 37,
n.8, p. 15, 2016.