Dayana Thalita Santos Viana PROCESSO DE KDD APLICADO AOS MICRODADOS DO CENSO DA EDUCAO SUPERIOR DO INEP Belo Horizonte 2012 Dayana Thalita Santos Viana PROCESSO DE KDD APLICADO AOS MICRODADOS DO CENSO DA EDUCAO SUPERIOR DO INEP Monograa apresentada ao Curso de Sistemas de Informao da Pontifcia Universidade Ca- tlica de Minas Gerais, como requisito parcial para obteno do ttulo de Bacharel Sistemas de Informao. Orientador: Hugo Bastos de Paula Belo Horizonte 2012 Dayana Thalita Santos Viana PROCESSO DE KDD APLICADO AOS MICRODADOS DO CENSO DA EDUCAO SUPERIOR DO INEP Monograa apresentada ao Curso de Sistemas de Informao da Pontifcia Universidade Ca- tlica de Minas Gerais, como requisito parcial para obteno do ttulo de Bacharel Sistemas de Informao. Professor 1 (Orientador) PUC Minas Professor 2 PUC Minas Professor 3 Universidade Belo Horizonte, 26 de Novembro de 2012. A toda minha famlia e principalmente ao meu pai, por ter me dado todo carinho e a melhor educao possvel, e por ser um grande exemplo de boa pessoa. AGRADECIMENTOS Ao Prof. Hugo Bastos, pela orientao neste trabalho de concluso de curso. Aos demais professores, que compartilharam seus conhecimentos e experincias. Aos colegas do curso de Sistemas de Informao da PUC Minas. E a minha famlia pelo apoio e compreenso durante todo esse perodo. Suba o primeiro degrau com f. No necessrio que voc veja toda a escada. Apenas d o primeiro passo. Martin Luther King RESUMO O Knowledge Discovery in Databases (KDD) um processo composto de vrias etapas para compreenso de padres nos dados. Dada a divulgao pblica dos dados do Censo da Educao Superior realizada anualmente pelo Instituto Nacional de Estudos e Pesquisas Edu- cacionais Ansio Teixeira (Inep) temos uma base de dados para desenvolver o processo. Foi utilizada Minerao de Dados, com o auxlio de ferramentas como o SQL Server e Excel para descoberta de conhecimento nessa base de dados. Visto que um dos maiores desaos que o ensino superior enfrenta hoje prever as decises dos alunos, a utilizao desse processo e ferramentas pode ajudar a tomada de decises da Universidade PUC Minas. Os resultados trouxeram informaes e previses sobre ingressos e evases; anlises sobre a quantidade de candidatos vaga; a importncia do curso de Sistemas de Informao dentro e fora da PUC Mi- nas; inuenciadores da taxa de ocupao, principais cursos que aparecem juntos com grande ocupao e recomendaes. Palavras-chave: Processo KDD. SQL Server. Excel. ETL. Minerao de Dados. Censo da Educao Superior. LISTA DE FIGURAS FIGURA 1 Processo KDD (Traduo por Dayana Viana) . . . . . . . . . . . . . . . . . . . . . . . . . 6 FIGURA 2 Minerao de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 FIGURA 3 rvores de Deciso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 FIGURA 4 Clusterizao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 FIGURA 5 Vizinho mais prximo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 FIGURA 6 Redes Neurais e Regresso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 FIGURA 7 Arquitetura de um Data Warehouse (Traduo por Dayana Viana) . . . . 11 FIGURA 8 Composio do Banco de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 FIGURA 9 Estruturas do SQL Server . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 FIGURA 10 Modelo de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 FIGURA 11 Modelo de Dados modicado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 FIGURA 12 Ferramenta de Anlise de Tabela . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 FIGURA 13 Evoluo do Nmero de Instituies por Rede Administrativa - MG (2001-2008) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 FIGURA 14 Evoluo de Ingressantes por Rede Administrativa - MG (2001-2008) 23 FIGURA 15 Evoluo de Ingressantes na PUC Minas (2001-2008) . . . . . . . . . . . . . . . 23 FIGURA 16 Evoluo de Ingressantes por Rede Administrativa nos Cursos de Siste- mas de Informao - MG (2001-2008) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 FIGURA 17 Evoluo de Ingressantes na PUC Minas no Curso de Sistemas de Infor- mao (2001-2008) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 FIGURA 18 Participao dos 10 maiores Cursos em relao ao total de Ingressantes - MG (2008) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 FIGURA 19 Participao dos 10 maiores Cursos em relao ao total de Ingressantes na PUC Minas (2008) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 FIGURA 20 Previso para Ingressantes e Evaso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 FIGURA 21 Previso para Ingressantes e Evaso no Curso de Sistemas de Informa- o da PUC Minas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 FIGURA 22 Deteco de Categorias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 FIGURA23 Evoluo Candidatos/Vaga nos Cursos de Sistemas de Informao (2001- 2008) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 FIGURA24 Evoluo Candidatos/Vaga no Curso de Sistemas de Informao da PUC Minas(2001-2008) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 FIGURA25 Inuenciadores-chave e seu impacto sobre os valores de Tx_Ocupacao. 29 FIGURA 26 Associao entre itens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 FIGURA 27 Recomendaes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 LISTA DE TABELAS TABELA 1 Evoluo do Nmero de Ingressos por Categoria Administrativa. . . . . . . . 1 LISTA DE ABREVIATURAS E SIGLAS BI Business Inteligence DCBD Descoberta de Conhecimento em Banco de Dados DW Data Warehouse ETL Extract Transform Load GTI Gerncia de Tecnologia de Informao IES Instituies de Ensino Superior Inep Instituto Nacional de Estudos e Pesquisas Educacionais Ansio Teixeira KDD Knowledge Discovery in Databases OLAP On-Line Analytical Processing PUC Minas Pontifcia Universidade Catlica de Minas Gerais SGBD Sistema Gerenciador de Banco de Dados S2B Students to Business SUMRIO 1 INTRODUO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.1 Objetivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 2 KDD. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 3 MINERAO DE DADOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 4 DATA WAREHOUSE. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 5 SQL SERVER. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 6 MICRODADOS DO CENSO DA EDUCAO SUPERIOR. . . . . . . . . . . . . . . . . . . . . 16 7 DESENVOLVIMENTO. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 7.1 Processo KDD. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 7.1.1 Seleo de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 7.1.2 Pr-Processamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 7.1.3 Transformao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 7.1.4 Minerao de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 7.1.5 Interpretao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 8 CONCLUSO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 8.1 Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 REFERNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 1 1 INTRODUO A questo do acesso ao ensino superior brasileiro vm sendo discutida como uma ques- to poltica brasileira. A partir dos anos 90 vm se expandindo a quantidade de estudantes que concluemo ensino mdio. Esse crescimento deve-se rede privada e as polticas implementadas no setor pblico pelo estado de Minas Gerais visando maior ecincia no ensino fundamental. Acrescido a isso, aes de mbito universitrio, como criao de novos cursos, aumento de va- gas e facilidades nas inscries ou realizao das provas de vestibular estimulam a procura pela educao superior (MENDES, 1997). Como consequncia, percebe-se um aumento na quanti- dade de ingressantes no ensino superior, conforme podemos ver na Tabela 1. Tabela 1: Evoluo do Nmero de Ingressos por Categoria Administrativa Brasil (2001-2010) Fonte: (INEP, 2012). Um dos maiores desaos que o ensino superior enfrenta hoje prever as decises dos alunos. Instituies gostariam de saber, por exemplo, quais alunos iro se inscrever em cursos particulares, ou se existem alunos mais propensos realizar transferncias do que outros. Alm disso, a questo da gesto de inscrio continua a motivar as instituies de ensino superior procurar melhores solues (LUAN, 2002). Am de oferecer informaes detalhadas e tendncias do setor, o Inep realiza regu- larmente a coleta dos dados sobre a educao superior. Dentre os dados coletados podemos encontrar informaes sobre as instituies de ensino superior, seus cursos, vagas ofertadas, nmero de inscries, matrculas, ingressantes e concluintes. Esses dados so coletados atravs 2 de questionrios respondidos pelas Instituies de Ensino Superior (IES). Ento, so publicados apenas como informaes estatsticas mostrando, como exemplo, percentuais de crescimento do nmero de matrculas (INEP, 2011). Somente a coleta de dados no ajuda nas decises das instituies. Para que exista me- lhoria no processo necessrio analisar os dados coletados e estabelecer indicadores, para ento descobrir padres que estavam escondidos entre os dados. Dada a quantidade e frequncia de dados coletados necessrio despender um alto custo para se realizar toda anlise em tempo hbil, sendo necessria a busca por ferramentas que automatizem esse processo. Am de solu- cionar este problema, oportuno utilizar-se a metodologia de Descoberta de Conhecimento em Banco de Dados (DCBD) ou do termo mais conhecido em ingls KDD. Com a utilizao de tc- nicas como a minerao de dados, possvel explicitar o conhecimento antes oculto em grandes quantidades de informaes. Atravs dessas tcnicas podemos realizar anlises dos dados, per- mitindo a previso de tendncias e comportamentos. Assim gerentes estratgicos podem tomar suas decises baseadas nesses fatos descobertos e no mais em premissas (CARDOSO, 2008). O KDD possui vrias etapas como: seleo de dados, limpeza e preparao dos dados, identicao de dados relevantes, data mining, avaliao de padres e apresentao de resulta- dos. A minerao de dados apenas uma etapa do processo de descoberta, que por sua vez dividido em tarefas como: anlise de regras de associao, classicao e predio, anlise de padres sequenciais, anlise de agrupamentos e anlise de excees. Essas tarefas consistem respectivamente em encontrar itens que determinem a presena de outros, denir classes para objetos que ainda no foram analisados, encontrar comportamentos que ocorrem em sequncia, identicar grupos com caracterstica iguais e determinar itens que fogem do comportamento padro da maioria (CARDOSO, 2008). A demanda por cursos e a evaso estudantil so problemas que atingem instituies de ensino superior em geral (MENDES, 1997; FILHO, 2007). Apesar da abundncia de dados for- necida pelo Inep, no possvel conhecer imediatamente as razes que geram esses problemas, para assim aplicar uma soluo satisfatria de gesto. Tal quantidade de informaes precisam passar por umprocesso de descoberta de conhecimento para trazerem tona relaes atualmente desconhecidas. Diversas universidades j realizaram minerao de dados em seus dados educacionais. Mendes (1997) elaborou um artigo analisando a demanda de vagas nos vestibulares da UFMG nos anos 90. Nesse estudo ele observou aspectos socioeconmicos dos candidatos, rea de co- nhecimento mais aquecida no mercado e aes de mbito universitrio. Apesar de analisar os dados relativos s quantidade de alunos inscritos no vestibular, Mendes no analisa informa- 3 es ps vestibular, como a quantidade de alunos efetivamente matriculados e valores relativos alunos que conseguem concluir os cursos. J Beatriz (2007) avana no ponto criticado ante- riormente e publica seu trabalho sobre evaso brasileira no ensino superior. Ela correlaciona evaso e demanda, candidatos por vaga, em diversas reas de conhecimento, regies do pas e categorias administrativas (pbico/privado). Apesar da relevncia das informaes, no in- cludo no estudo uma proposta ou mesmo uma soluo para o problema apresentado. Ramos (1996) teve como objeto de estudo a evaso dos cursos de graduao em IES pblicas. Classi- cou as evases em nvel de curso, instituio e evaso a nvel de sistema superior. Ele indica as possveis causas das evases classicado-as em trs ordens: as que se relacionam ao estudante, ao curso e instituio ou a fatores scio-culturais e econmicos externos. Apesar de ofere- cer disgnsticos rigorosos no apresenta relatrios dimensionando as causa. Christine (2009), semelhante a proposta anterior, analisa os dados referente aos alunos de uma turma e conclui apresentando os motivos das evases e as solues cabveis. Ao observar as solues existentes para anlise de dados educacionais percebemos que no existe um mtodo automatizado para isso. So organizadas tabelas e grcos como tcnicas de descoberta de dados. Atualmente possvel a aplicao de ferramentas automticas para ex- trao de informaes relevantes, como por exemplo, a extrao de dados da plataforma Lattes realizada por Cardoso (2008), que utilizou tcnicas de data mining. Juntamente necessidade de automatizao da descoberta de dados na rea escolar percebemos que a PUC Minas ainda no possui um sistema para anlise de demandas e evases. V-se a um timo cenrio para su- plantar as solues existentes acrescentando o uso de uma metodologia automatizada visando um aumento ecaz de produtividade. 1.1 Objetivo O objetivo desse trabalho aplicar as diversas etapas do processo de KDD em um banco com dados recebido pelo Inep. Como foco desse banco teremos os alunos de sistema de infor- mao da Pontifcia Universidade Catlica de Minas Gerais (PUC Minas). Assim ser possvel extrair conhecimento referente ao processo decisrio da universidade quanto a esse curso. Ser possvel at mesmo estabelecer um modelo de gesto instituio mencionada. Esse trabalho auxiliar no processo de descoberta do conhecimento, que pode servir de apoio tomada de deciso, possibilitando aperfeioamento do sistema de ensino superior da instituio. Frequentemente ms decises so tomadas pela indisponibilidade do conhecimento para se escolher a melhor deciso (CARDOSO, 2008). Obter uma reexo sobre demanda e eva- 4 so nos ltimos anos torna-se extremamente importante, permitindo a avaliao e possivelmente reformulao dos processos de seleo. Como tambm poder ser possvel dar mais suporte aos alunos, am de que eles no abandonem o curso. Os estudantes sero qualicados garantindo bons resultados com a maior quantidade de diplomados. Portanto, as capacidades do data mi- ning aplicadas ao dados do ensino superior economizaro recursos, maximizaro a ecincia e aumentaro a produtividade sem aumentar os custos da instituio (LUAN, 2002). 5 2 KDD Diversas notaes para encontrar padres teis nos dados j foram usadas. Entre elas, o termo data mining foi o mais comum. A expresso Knowledge discovery in database (KDD) apenas comeou a ser usada em um workshop em 1989 para enfatizar que o conhecimento (knowledge) era o produto nal da procura. KDD representa todo processo de descoberta de conhecimento. Inclui como os dados sero armazenados, acessados, como os algoritmos sero aplicados, como os resultados sero interpretados e visualizados. Porm a nfase maior se d ao entendimento dos padres que podem ser interpretados como conhecimento til. J data mining a aplicao de algoritmos aos dados para obteno de regras. a modelagem de algoritmos para uma grande quantidade de dados inconsistentes (FAYYAD, 1996). KDD um processo no trivial de identicao vlida, tima, til e de fcil compreen- so dos padres nos dados. O termo processo implica que o KDD possui diversos passos como a preparao dos dados, busca de padres, avaliao do conhecimento e renamento em mlti- plas iteraes em que podem conter revises a cada dois passos. No trivial signica que so necessrias pesquisas em cima dos dados e no somente computao com valores predenidos. til induz dizer que trar algum benefcio ao usurio ou suas tarefas (FAYYAD, 1996). O KDD um processo interativo e iterativo que envolve diversos passos envolvendo decises feitas pelo usurio. Primeiramente feito um estudo do domnio da aplicao iden- ticando qual o conhecimento relevante para se atingir o objetivo. Em seguida, os dados coletados so selecionados focando em um subconjunto em que a descoberta ser focada. O terceiro passo trabalha com a limpeza e processamento dos dados. Nesse passo as informaes erradas, inconsistentes e at mesmo inexistentes so manipuladas. A reduo e projeo fazem parte do quarto passo, onde caractersticas que representam os dados de acordo com o objetivo so encontradas. O quinto passo consiste em casar os objetivos do processo de KDD a um pro- cesso de data mining, como por exemplo, clusterizao, classicao, sumarizao, regresso e etc. O sexto passo consiste na anlise, modelagem e hiptese, onde so analisados os modelos e parmetros mais apropriados. Os resultados so interpretados possibilitando o retorno aos passos 1 a 6 para mais iteraes. Finalmente o stimo passo consiste na busca por padres de interesse representado em tabelas ou outros tipos de exibies. Como resultado podemos ter uma ao usando o conhecimento adquirido, ou simplesmente produo de uma documentao a ser mostrada s partes interessadas. Mesmo considerando todos os passos muito importantes, 6 a parte mais trabalhosa do KDD est no passo 5, o data mining (FAYYAD, 1996). Figura 1: Processo KDD (Traduo por Dayana Viana) Fonte: (FAYYAD, 1996) 7 3 MINERAO DE DADOS Assim como na minerao geolgica (carvo, ouro, etc), no h a garantia da obteno de resultados signicativos pela simples aplicao das ferramentas ao terreno. Uma enorme preparao necessria. Primeiramente, os dados devem estar preparados. A partir da poss- vel fazer a modelagem a m de transform-los em informaes capazes de serem interpretadas pelos seres humanos. Modelar signica encontrar relaes, fazer previses dos dados para des- crever a situao atual. Os fundamentos dos mtodos utilizados para minerao so fceis de entender, porm sua implementao j requer poderosos e sosticados algoritmos para fazer com que esses mtodos funcionem na prtica (PYLE, 1999). Atravs da observao da Figura 2 possvel percebermos grupos formados pelos pon- tos. As ferramentas de modelagem tem como tarefa separar e agrupar os dados, nesse caso representado como pontos, de maneira com que tenham signicado. Cada algoritmo realiza essa tarefa utilizando abordagens ligeiramente diferentes (PYLE, 1999). Figura 2: Minerao de Dados Fonte: (PYLE, 1999). A minerao de dados, componente do processo KDD, envolve aplicao iterativa e re- petida de um mtodo particular. Ajustando os modelos obtm-se padres a partir dos dados observados. A maioria dos mtodos de data mining baseada em experincias e tcnicas de testes das mquinas de aprendizado, reconhecimento de padres e estatsticas. Algumas tc- nicas de minerao de dados so: rvores de deciso, clusterizao, vizinho mais prximo e 8 regresso (FAYYAD, 1996). rvores de Deciso: Algoritmo baseado no processo de partio. As parties visando a separao dos pontos so feitas atravs de pontos de decises at algum critrio de parada ou at no ser mais possvel realizar separaes (Figura 3) (PYLE, 1999). Figura 3: rvores de Deciso Fonte: (PYLE, 1999). Clusterizao: Tambm particionam os espaos, porm agrupando pontos que com- partilham as mesmas caractersticas. Existem diferentes mtodos de clusterizao, mas todos produzem esse tipo de arranjo. Uma grande diferena desse mtodo que ele no separa os grupos linearmente, o que facilita o encontro de similaridades (Figura 4) (PYLE, 1999). Figura 4: Clusterizao Fonte: (PYLE, 1999). Vizinho mais prximo: Um tipo de classicao utilizado para descrever interaes. 9 Esse mtodo seleciona um nmero especco de vizinhos e para cada ponto calcula a vizi- nhana. A Figura 5 ilustra como os vizinhos podem ser selecionados. Para cada ponto foi calculado os quatro vizinhos mais prximos (PYLE, 1999). Figura 5: Vizinho mais prximo Fonte: (PYLE, 1999). Redes Neurais e Regresso: Esses mtodos funcionam atravs da criao de uma ex- presso matemtica representando uma linha ajustada aos pontos. No caso da regresso linear, para a predio usado o ponto mais prximo da inferncia para o ponto a ser previsto (Figura 6) (PYLE, 1999). Figura 6: Redes Neurais e Regresso Fonte: (PYLE, 1999). 10 4 DATA WAREHOUSE Data Warehouse (DW), ou armazm de dados, consolidam dados em espaos multi- dimensionais. Eles podem ser vistos como uma etapa importante para a minerao de dados. Alm disso prov integrao com ferramentas On-Line Analytical Processing (OLAP) para an- lise interativa dos dados. O DW prov ferramentas e arquitetura para que os responsveis pelos negcios organizem, entendam e usem seus dados para tomarem decises estratgicas (HAN, 2005). O Data Warehouse orientado a um assunto especco, integrado, no voltil e com tempo variante para o suporte do processo de tomada de decises. Ele organizado em torno de um objetivo principal, como relaes nas vendas, ao invs de se concentrar em operaes e tran- saes dirias. Dizemos que o DW integrado por ser construdo atravs de mltiplas fontes, como banco de dados relacionais diversos, planilhas e outros sistemas. Refere-se a um banco de dados que mantido separado do banco de dados das operaes organizacionais. Ento no re- quer processamento de transaes, backups contnuos e mecanismos de controle. Basicamente o DW realiza apenas duas operaes: carregamento inicial e acesso aos dados. Todas as infor- maes armazenadas dizem respeito a um perodo de tempo denido normalmente entre 5 a 10 anos (HAN, 2005). Para permitir modelar e visualizar as mltiplas dimenses do DW utiliza-se os CUBOS. Os Cubos so denidos por dimenses e fato. O fato signica o tema do modelo, representado por uma tabela principal. J as dimenses so as entidades que dizem respeito aquilo que a organizao deseja armazenar, as tabelas ao redor do fato. Apesar de pensarmos no Cubo como uma estrutura 3D, no data warehousing ele n-dimensional. possvel ver no cubo, por exemplo, dados de acordo com o tempo, item, localizao e fornecedor. Ou seja, uma visualizao 4D (HAN, 2005). Assim como o fato e as dimenses, a hierarquia uma caracterstica do DW. O conceito de hierarquia dene a sequncia do mapeamento dos mais baixos aos mais altos conceitos. Um exemplo dessa hierarquia pode ser visto na dimenso Tempo, onde tem-se as horas como conceitos mais baixos e os anos como conceitos mais altos. Essa hierarquia prov ao usurios a exibilidade de acordo com suas necessidades (HAN, 2005). Para o modelo entidade-relacionamento desenhado um modelo de relaes entre as en- 11 tidades. Entretanto, para o DW utilizado um modelo multidimensional como o estrela, oco de neve ou mesmo constelao. O esquema estrela contm uma grande tabela central, o fato, com uma srie de tabelas menores em volta, as dimenses. O esquema oco de neve uma variao do esquema estrela, porm as tabelas de dimenses so normalizadas. Ento as tabelas existentes so divididas resultando em uma forma nal similar a um oco de neve. A maior diferena entre esses dois esquemas que o segundo modelo reduz as redundncias no banco, reduzindo tambm o espao de armazenamento. Porm apesar dessa reduo, esse esquema perde performance por ter que executar mais joins em suas consultas. O ltimo esquema, cons- telao, especica duas tabelas fatos. Assim permitido s dimenses serem compartilhadas entre os fatos (HAN, 2005). A arquitetura de um DW pode ser representada de acordo com a Figura 7. No centro da imagem est o repositrio, composto pelos dados e metadados. Para alimentar esse banco so usadas fontes externas, ferramentas de back-end e utilitrias. Essas ferramentas executam a ex- trao dos dados das diferentes fontes, assim como sua limpeza e transformao. Essa camada conhecida como Extrao, Transformao e Carga, do ingls Extract Transform Load (ETL). A Camada OLAP mapeia as operaes nos dados multidimensionais. No topo da arquitetura a camada do cliente, front-end. Essa camada contm as ferramentas de consultas, relatrios, anlises e minerao de dados (HAN, 2005). Figura 7: Arquitetura de um Data Warehouse (Traduo por Dayana Viana) Fonte: (REBOUAS, 2010). 12 As informaes processadas so baseadas em consultas. Apesar de retornarem informa- es teis, reetem diretamente as informaes armazenadas. Ou seja, no reetem os padres do banco de dados. Uma vez que a minerao de dados envolve uma anlise mais profunda do que a OLAP, a utilizao da minerao permitir aplicaes mais amplas do conhecimento obtido. 13 5 SQL SERVER Um banco de dados um sistema computacional para armazenamento de registros. Ou seja, um repositrio de dados que pode at mesmo ser comparado a um armrio de arquivos. Os dados armazenados representam qualquer coisa que tenha sentido organizao. So tudo aquilo que necessrio para auxiliar a tomada de decises. Intermediando o banco de dados e seus usurios existe uma camada conhecida como Sistema Gerenciador de Banco de Dados (SGBD). Todas as alteraes solicitadas ao banco de dados so realizadas pelo SGBD (Figura 8). Uma grande vantagem desse ambiente que o sistema de banco de dados proporciona um controle centralizado dos dados (DATE, 2000). Basicamente podemos aplicar o banco de dados em qualquer cenrio que necessite armazenar informaes como, por exemplo, em softwares de gesto e Data Warehouse. Figura 8: Composio do Banco de Dados Fonte: (DATE, 2000). O SQL Server mais que um banco de dados, ele uma plataforma de dados. Alm de persistir os dados ele tambm possui todas as ferramentas necessrias para preparao de um Sistema de Business Inteligence (BI). Esse tipo de sistema facilita a transformao dos dados em informaes para auxiliar as tomadas de decises. Os componentes do SQL Server 14 so o SQL Server Management Studio e SQL Server Bussiness Inteligence Development Studio incluindo Reporting Services, Analysis Services e Integration Services. A interface mais utili- zada da plataforma SQL Server o SQL Server Management Studio, um software com foco na administrao do banco de dados. A outra interface do produto, usada com foco no desenvol- vimento, oSQL Server Bussiness Inteligence Development Studio. Essa interface inclui outras ferramentas (Figura 9) como por exemplo geradores de relatrios (Reporting Services), ope- rador de banco de dados multidimensionais (Analysis Services) e ferramenta ETL (Integration Services). Figura 9: Estruturas do SQL Server Fonte: Tutorial Students to Business (S2B) - Componentes do Banco de Dados. O Analysis Services uma ferramenta de Data Mining para apoiar as estratgias. A ferramenta possibilita obteno de informaes importantes que podem auxiliar no processo decisrio da instituio. O Analysis Services oferece diversas solues para implantar banco de dados analticos usados para apoio deciso em aplicativos de BI e at mesmo Excel. A partir de dados histricos j coletados so criados metadados que permitem medir, manipular e comparar esses dados. A partir da criao de um modelo dos dados, ele ento implantado em um servidor do Analysis Services como um banco de dados e disponibilizado para conexes externas como Excel ou outras ferramentas (MSDN, 2012). Uma opo de ferramenta de apresentao para analisar os dados persistentes no Analy- sis Services o Microsoft Ofce Excel. O Excel alm de criar tabelas e realizar clculos o tambm um software de anlise de dados. Para isso necessita do Data Mining Add-in, uma 15 exteno da ferramenta que instalada separadamente. Aps a instalao deve-se conectar a uma fonte de dados de Processamento Analtico Online (OLAP), disponibilizada pelo SQL Server. Atravs dessa conexo possvel exibir os dados como relatrio de tabelas ou grcos dinmicos (MICROSOFT, 2012). 16 6 MICRODADOS DO CENSO DA EDUCAO SUPERIOR Desde 1988, nossa Constituio da Repblica Federativa disps a necessidade de arma- zenar dados estatsticos. As informaes obtidas atravs desses dados contribuem para nortear polticas pblicas e educacionais. Essa necessidade foi reforada pelo art. 9 o da Lei n o 9.394 em 1996. Surgiram ento decretos que culminaram na criao do Decreto no 6.425 em 2008. Esse decreto prev a obrigatoriedade de Instituies de Ensino Superior (IES) para responderem ao Censo (INEP, 2012). Anualmente realizado pelo Inep uma coleta dos dados sobre a educao superior. Um Questionrio enviado para as IES responderem perguntas sobre seus cursos, alunos e sua prpria estrutura (Decreto no 6.425). Os dados coletados nos questionrios renem informaes sobre os diversos cursos oferecidos, vagas, inscries, evases, etc. Esses dados so ento disponibilizados sociedade em geral para manipulaes estatsticas, porm mantendo sigilo quanto as informaes dos alunos e instituies. Com os dados podemos obter informaes como a situao atual e as tendncias das IES e da comunidade (INEP, 2011). Os microdados coletados cam disponveis no portal do Inep: <http://portal.inep.gov- .br/basica-levantamentos-acessar> e so organizados em arquivos separados por ano. Os for- matos para download so Texto ASCII, que permite a leitura por diversos softwares, e inputs para a leitura utilizando softwares SAS e SPSS. Para esse trabalho a base de dados utilizada foi manipulada e disponibilizada em formato excel, com as informaes acumuladas entre o perodo de 2001 a 2008. Os dados obtidos esto organizados em 7 planilhas: Turno, Municpio, Tipo Curso, Instituio, Categoria Administrativa, Curso e Dados MG. A planilha Turno armazena os tur- nos disponveis dos cursos, so eles Diurno e Noturno. Em Municpio temos listados os 853 municpios de Minas Gerais. Para Tipo de Curso, os dados so divididos entre Graduao e cursos Tecnlogos. Em Instituies temos uma lista de 2217 estabelecimentos onde o nome dos mesmos foi preservado em sigilo. Categoria Administrativa classica as instituies como Pblicas ou Privadas. Na planilha Curso, alm da listagem de 600 nomes de cursos, temos tambm informaes sobre a rea de cada curso. Finalmente em Dados MG feita referncia a todas planilhas citadas anteriormente, ordenadas por ano e semestre, juntamente com mais alguns dados adicionais como Ano de Incio do Curso, Quantidade de Vagas, Quantidade de 17 Inscritos, Quantidade de Calouros, Quantidade de Transferncia Interna, Quantidade de Trans- ferncia Externa, Quantidade de Portador de Diploma, Quantidade de Reingresso, Quantidade de Outros Ingressos, Quantidade de Matriculados, Quantidade de Concluintes, Quantidade de Matrculas Trancadas, Quantidade de Desistentes, Quantidade que Mudou de Curso e Quanti- dade que Mudou de Instituio. Observando essas planilhas possvel abstrair um modelo de dados, representado pela Figura 10. Figura 10: Modelo de Dados Fonte: Criao da autora. 18 7 DESENVOLVIMENTO 7.1 Processo KDD Este captulo tem como objetivo apresentar o processo de KDD que foi aplicado sobre os Microdados do Censo da Educao Superior. Ser explicado como foi executada cada etapa desse processo. 7.1.1 Seleo de Dados Os microdados do Censo da Educao Superior apresentam informaes coletadas por todo o pas desde 1995. Porm nesse trabalho delimitou-se o escopo nos dados sobre Minas Gerais entre o perodo de 2001 a 2008. O Gerncia de Tecnologia de Informao (GTI) j disponibiliza uma base, em formato Excel, com as informaes do portal do Inep agrupadas dentro desse intervalo temporal. O que auxilia no processo de seleo, pois originalmente os dados de cada ano so disponibilizados separadamente. Apesar de trabalhar nessa base selecionada pelo GTI, dentro dela tem ainda um foco maior sobre as informaes relacionadas PUC Minas e ao curso de Sistemas de Informao da PUC Minas. 7.1.2 Pr-Processamento Em relao aos relacionamentos, os dados trabalhados j estavam organizados de forma eciente. Garantem agilidade e esforo reduzido nas anlises das consultas por manter os cam- pos que sero relacionados com o tipo inteiro. O maior problema encontrado na base de dados foi a ausncia de informao na planilha Dados_MG. Aplicando a funo CONTAR.VAZIO do Excel, percebe-se que no havia falhas entre as colunas cujo os cdigos se relacionam com as outras planilhas. Porm, observando as outras colunas, com os dados relativos s quantidades foi encontrado uma mdia de 53% dos campos vazios. Substituir os valores ausentes em um conjunto de dados muito importante. Os valores ausentes devem ser substitudos de forma que os valores inseridos no modiquem os padres j 19 existentes nos dados (PYLE, 1999). Pensando nisso e observando que o tipo de dados das colunas com valores ausentes eram nmeros inteiros positivos, foi ento preenchido estrategicamente os campos com o valor zero. Assim os padres das quantidades atuais no foram alterados. Nessa etapa foi identicado o cdigo da Instituio foco do trabalho. Foi alterado o nome de Instituio 1934 para PUC Minas. Para identicar a Instituio foram ltrados os dados selecionando o Municpio de Arcos (cdigo 310420) e o curso de Sistemas de Informa- o (cdigo 518). Como resultado tivemos apenas o cdigo de instituio 1934, indicando a comprovao do fato de que apenas a PUC Minas tem o curso de Sistemas de Informao no municpio de Arcos e que seu cdigo nessa base o 1934. Foram tambm criados dois novos campos: Ano e Semestre, Am de suprir a neces- sidade de anlises anuais. A base de dados original apresenta esses valores juntos limitando assim as anlises por semestre. 7.1.3 Transformao Nessa etapa foi realizado o enriquecimento dos dados. Analisando, pode-se perceber que existem informaes ocultas que poderiam ser explicitadas. Foram adicionadas ento qua- tro novas colunas ao documento am de agregar valor ao trabalho. Essas colunas informam a Quantidades de Ingressantes, Quantidades de Evaso, Relao Candidato Vaga e Taxa de Ocupao. Quantidade de Ingressantes (Qt_Ing) obtida a partir do somatrios das colunas de Quantidade de Calouros (Qt_Cal), Quantidade de Transferncia Interna (Qt_Trans f Int), Quan- tidade de Transferncia Externa (Qt_Trans f Ext), Quantidade de Reingresso (Qt_Reing) e Quan- tidade de Outros Ingressos (Qt_Outros), conforme equao a seguir. Qt Ing =Qt Cal +Qt Trans f Int +Qt Trans f Ext +Qt Reing +Qt Outros A Quantidade de Evaso (Qt_Ev) obtida a partir do somatrio das colunas Quantidade de Matrculas Trancadas (Qt_Tranc), Quantidade de Desistentes (Qt_Deist), Quantidade que Mudou de Curso (Qt_MudCurso) e Quantidade que Mudou de Instituio (Qt_MudInst). Qt Ev =Qt Tranc +Qt Deist +Qt MudCurso +Qt MudInst A relao Candidato Vaga (Cand_vaga) obtida dividindo-se a Quantidade de Inscritos (Qt_Insc) pela Quantidade de Vagas (Qt_Vagas). Cand_vaga = Qt Insc Qt Vagas 20 Por ltimo, a Taxa de Ocupao (Qt_TxOcup) representada em porcentagem e o resultado da diviso entre a soma da Quantidade de Calouros (Qt_Cal), Quantidade de Transfe- rncia Interna (Qt_Trans f Int), Quantidade de Transferncia Externa (Qt_Trans f Ext), Quanti- dade de Reingresso (Qt_Reing), e Quantidade de Outros Ingressos (Qt_Outros) sobre a Quan- tidade de Vagas (Qt_Vagas). Qt TxOcup = Qt Cal +Qt Trans f Int +Qt Trans f Ext +Qt Reing +Qt Outros Qt Vagas Aps todo esse processo chegou-se ao modelo de dados representado pela Figura 11. Com o arquivo fonte tratado, foi feita a importao para o SQL Server 2012. Aps isso o cubo foi criado utilizando-se o Analysis Services. Figura 11: Modelo de Dados modicado Fonte: Criao da autora. 21 7.1.4 Minerao de Dados Na Minerao de Dados foi utilizado o Excel 2010 juntamente com o Data Mining Add- In para SQL Server 2012. Com o Excel possvel fazer uma Anlise Descritiva dos Dados, ou seja, apresentar o que os dados atuais trazem de informaes. O uso do Add-In viabiliza a an- lise de modelos aplicando os algortimos de Minerao de Dados e visualizando os resultados em forma de grcos. Para gerar as Anlises Descritivas dos Dados foi realizada uma conexo entre o Excel e o banco de dados. Ento cria-se Grcos Dinmicos, utilizando essa conexo, selecionando os dados nas quais deseja que a anlise seja feita. Nas Anlises de Modelo de Dados a co- nexo realizada com o Analysis Services, assim so aplicados os algoritmos ao cubo criado anteriormente. O Add-In possui diversos mtodos que podemos utilizar para realizar as anlises (Figura 12), porm foram utilizados apenas os mtodos de prever, detectar categorias, anlise de inuncias e anlise da cesta de compras. Figura 12: Ferramenta de Anlise de Tabela Fonte: Add-in Excel 2010. O mtodo Prever executa a previso dos valores das colunas que forem selecionadas. Como padro a quantidade de unidade de tempo a ser prevista 5, porm esse valor pode ser modicado. Os valores gerados so adicionado ao nal da tabela que foi utilizada. Tambm gerado um grco mostrando em tracejados a evoluo dos dados atuais para a previso. Em Anlise de Inuncias selecionamos uma coluna para anlise. Ento detectado quais colunas interferem nos valores da coluna desejada. O resultado apresentado na forma de relatrio, mostrando a porcentagem que cada elemento interfere na coluna destino. O prximo mtodo pode ser denominado como clusterizao devido a sua semelhana nos resultados obtidos. Para Detectar Categorias selecionamos as colunas nas quais desejamos detectar alguma caracterstica semelhante entre seus elementos. possvel tambm escolher a quantidade de categorias que se deseja criar ou deixar a deteco automtica. Como resultado so apresentadas categorias de elementos com caractersticas semelhantes. Na Anlise da Cesta de Compras verica-se itens que costumam aparecer juntos e expe regras que podem servir em recomendaes. Para esse mtodo selecionamos a coluna que 22 representa o ID da Transao, outra para representar o item e opcionalmente uma coluna para Valor do Item. Em conguraes avanadas pode-se ainda denir o suporte mnimo, que a quantidade mnima de ocorrncias da regra no cenrio atual, e tambm pode-se denir a probabilidade de regra mnima, que a probabilidade daquela regra acontecer. 7.1.5 Interpretao Aps aplicar os diversos mtodos citados anteriormente obtm-se os resultados. As primeiras anlises foram feitas atravs de Grcos Dinmicos no Excel. Na Figura 13 conta-se a quantidade de instituies durante o intervalo de anos denido nesse trabalho. Com base nisso, pode-se observar que a quantidade de instituies privadas veio aumentando linearmente, porm a partir de 2007 deu uma desacelerada. J as instituies pbli- cas mantiveram suas quantidades de instituies basicamente inalterada, com um crescimento irrisrio comparado rede administrativa oposta. Figura 13: Evoluo do Nmero de Instituies por Rede Administrativa - MG (2001-2008) Fonte: Dados da Pesquisa. Contamos tambm a quantidade de Ingressantes nas instituies (Figura 14). O Resul- tado foi bem semelhante ao observado anteriormente. A quantidade de ingressantes aumentou consideravelmente na rede privada e se manteve constante na rede pblica. Podemos concluir com isso que devido ao aumento do nmero de instituies privadas, o nmero de ingressan- tes nessas instituies tambm aumentou. Comparando essa concluso com os dados da PUC Minas (Figura 15) percebe-se que o mesmo no ocorre nessa instituio. O nmero de ingres- santes se mantm praticamente inalterado durante os anos, aumentando apenas a partir de 2007. Analisando-se tambm os ingressos no curso de Sistemas de Informao (Figura 16), obser- vamos um grande aumento da procura entre os anos de 2001 e 2003. Aps 2003 houve uma desacelerao na procura por esse curso, porm seu crescimento no parou, apenas reduziu. Por 23 m, analisamos a evoluo dos ingressantes no curso de Sistemas de Informao da PUC Minas (Figura 17). Diferentemente do desempenho geral do curso, nessa instituio a quantidade de ingressantes aumentou consideravelmente at 2005, porm apresentou uma regresso em 2007. Aps esse perodo voltou a crescer novamente. Figura 14: Evoluo de Ingressantes por Rede Administrativa - MG (2001-2008) Fonte: Dados da Pesquisa. Figura 15: Evoluo de Ingressantes na PUC Minas (2001-2008) Fonte: Dados da Pesquisa. Am de observar o quo representativo o curso de Sistemas de Informao comparado aos outros, foram geradas as Figuras 18 e Figura 19. Nelas podemos observar que dentre os cursos de todas a instituies de Minas Gerais, Sistemas de Informao est posicionado entre os top 10. Considerando apenas a PUC Minas, o curso sobe para a posio de quarto lugar em nmero de ingressantes em 2008. Am de prever a quantidade de ingressantes para os prximos 6 semestres, foi utilizado o algoritmo de previso do Add-in no Excel demonstrado na Figura 20. Com isso verica-se uma queda na quantidade de ingressantes, tanto para os primeiros, quanto para os segundos se- mestres. Nesse mesmo grco aproveita-se para colocar tambm a representao da Quantidade 24 Figura 16: Evoluo de Ingressantes por Rede Administrativa nos Cursos de Sistemas de Informao - MG (2001-2008) Fonte: Dados da Pesquisa. Figura 17: Evoluo de Ingressantes na PUC Minas no Curso de Sistemas de Informao (2001-2008) Fonte: Dados da Pesquisa. de Evaso. Essa se mantm em constante crescimento. Focando esses resultados no Curso de Sistemas de Informao da PUC Minas Figura (21) verica-se uma previso de instabilidade, com variao entre autos e baixos, na quantidade de ingressos e um ligeiro aumento na taxa de evaso. O prximo algoritmo a ser utilizado o de Deteco de Categorias. Nesse Algoritmo selecionamos as colunas que possivelmente tero caractersticas em comum e ento realizado o agrupamento de todos os seus elementos. Como resultado foram geradas 3 categorias: Categoria 1: Categoria com maior quantidade de elementos. Apresenta a quantidade de Candidatos/Vaga muito baixa, menor do que 1,1. A rede administrativa privada, turno noturno, rea Educao, semestre 2 e instituio 2098 possuem relevncia para que um elemento seja classicado nesse grupo. Categoria 2: Nessa categoria a relao candidato/vaga apresenta valores entre 1 e 5. Os 25 Figura 18: Participao dos 10 maiores Cursos em relao ao total de Ingressantes - MG (2008) Fonte: Dados da Pesquisa. fatores que inuenciam os itens a pertencerem a essa categoria so: municpio de Belo Horizonte, rede administrativa privada, rea geral em Cincias sociais, negcios e direito, curso de Direito, instituio PUC Minas, e semestre 1. Categoria 3: Para essa categoria entram os valores maiores que 5 na relao candida- to/vaga. Tambm esto inclusos como inuenciadores rede administrativa pblica, turno diurno, municpios de viosa e Ouro Preto, cursos de fsica e histria, instituies 2047, 2058, dentre outros que podem ser visualizados na Figura 22. Analisando os Grcos Dinmicos gerados pelo Excel possvel perceber que a evolu- o da quantidade de candidatos por vaga em mdia se mantm entre 1 e 2. Tanto para o curso de Sistemas de Informao da PUC Minas (Figura 24), quanto para os cursos de Sistemas de Informao em geral(Figura 23). Assim conclui-se que os padres gerais para os cursos de Sis- tema de Informao podem ser aplicados ao mesmo curso na PUC Minas devido ao seu estreito ndice de correlao. Usando o algoritmo Anlise de Inuncias sobre o Tx_Ocupcao temos como resultado a Figura 25. Nessa gura so apresentadas as colunas que interferem no resultado do campo escolhido. Observando a barra de impacto vemos que o fato de ser o segundo semestre do ano favorece uma ocupao menor que 50%. J o fato de ser o primeiro semestre, turno noturno e IES privada favorece a ocupao apresentar probabilidades de 50% a 100%. J a instituio PUC Minas, o municpio Belo Horizonte e o curso de Direito favorecem para que a ocupao utrapassar seu limite. Aplicando o algoritmo Anlise da Cesta de Compras (Associao) obtemos relao de 26 Figura 19: Participao dos 10 maiores Cursos em relao ao total de Ingressantes na PUC Minas (2008) Fonte: Dados da Pesquisa. itens que acontecem em conjunto juntamente com recomendaes. Para esse trabalho deniu-se como premissa que a taxa de ocupao seja maior que 50%. Como ID foi selecionado a insti- tuio e como item os cursos. Para os resultados foi denido um suporte de 40% e conana de 80%. O resultado disso apresentado pela Figura 26 e Figura 27. Nelas observamos, por exemplo, que os cursos de Direito e Administrao aparecem constantemente juntos quando a taxa de ocupao maior que 50% nas suas instituies. O algortmo tambm realiza recomen- daes, ou seja, observando a Figura 27, vemos que ela nos recomenda Enfermagem dado o ocorrncia de Fisioterapia com 91% de preciso. 27 Figura 20: Previso para Ingressantes e Evaso Fonte: Dados da Pesquisa. Figura 21: Previso para Ingressantes e Evaso no Curso de Sistemas de Informao da PUC Minas Fonte: Dados da Pesquisa. 28 Figura 22: Deteco de Categorias Fonte: Dados da Pesquisa. Figura 23: Evoluo Candidatos/Vaga nos Cursos de Sistemas de Informao (2001-2008) Fonte: Dados da Pesquisa. 29 Figura 24: Evoluo Candidatos/Vaga no Curso de Sistemas de Informao da PUC Minas(2001-2008) Fonte: Dados da Pesquisa. Figura 25: Inuenciadores-chave e seu impacto sobre os valores de Tx_Ocupacao. Fonte: Dados da Pesquisa. 30 Figura 26: Associao entre itens Fonte: Dados da Pesquisa. Figura 27: Recomendaes Fonte: Dados da Pesquisa. 31 8 CONCLUSO De acordo com o trabalho apresentado conclui-se que o principal objetivo foi atingido. Foram aplicadas todas as etapas do processo de KDD em uma base com dados recebidos pelo Inep. Foram comparados resultados gerais com resultados obtidos pela PUC Minas e mais especicamente com o curso de Sistemas de Informao. Assim obtemos informaes capazes de interferir no processo decisrio da Universidade. Os resultados apresentados durante o desenvolvimento trouxeram informaes sobre como e porque a quantidade de ingressantes est evoluindo; quais fatores classicam em de- terminado grupo a Instituio, principalmente em relao aos seus candidatos/vaga; anlises e evoluo da quantidade de candidatos vaga; qual a importncia do curso de Sistemas de In- formao dentro e fora da PUC Minas, considerando sua procura; previses para ingressos e evases gerais e para o curso de Sistemas de Informao na PUC Minas; quais so os inuen- ciadores da taxa de ocupao, quais so os principais cursos que aparecem juntos com grande ocupao nas instituies e nalmente recomendaes de um curso dada a presena de outro. Com esse estudo pudemos observar alguns comportamentos atuais dos estudantes, assim como prever a quantidade de ingressos e evases para os prximos trs anos. Observar essa tendncia pode ajudar a PUC Minas a no tomar decises erradas quanto s sua expectativas. Ou seja, a Universidade pode estar esperando um aumento de alunos, quando na verdades as previses mostram uma recesso para os prximos dois anos (2009 e 2010) principalmente para o curso de Sistemas de Informao. Durante a construo desse trabalho percebeu-se diculdade quanto a ausncia de dados, muitos campos como a quantidade de vagas, alunos matriculados e ingressantes por exemplo eram simplesmente apresentadas em branco dicultando assim as anlises e fazendo com que essas ausncias fossem tratadas manualmente. Outra diculdade foi encontrada tambm ao desenvolver perguntas para que ento fosse buscada suas respostas nos dados, no se sabia a real necessidade de informaes da Universidade, ento trazer resultados de forma clara e objetiva para a anlise se tornou um grande desao. Por no se saber a real necessidade de informaes da PUC Minas o resultados apre- sentados podem deixar a desejar nas suas necessidades no processo decisrio. Existe muita informao que ainda pode ser obtida da base de dados utilizada. 32 8.1 Trabalhos Futuros Espera-se que esse trabalho no seja apenas o nal de uma pesquisa, mas sim o incio de um grande projeto. Como proposta para trabalhos futuros propem-se a utilizao de dados diretamente da fonte, o Inep. Assim ser possvel obter dados mais atualizados, uma vez que no ser necessrio esperar o GTI trabalhar e distribuir esses dados. Entrevistas com gestores da Universidade tambm so indicadas para que se conhea as reais necessidades de conhecimento desejada. Assim pode-se concentrar os esforos em obter apenas as informaes necessrias. Um estudo de caso aprofundado nesses dados poderiam mostrar na ntegra a complexi- dade das situaes reais e apresentar resultados explanatrios e descritivos para as IES de forma geral. REFERNCIAS CARDOSO, O. N. P. et al. Gesto do conhecimento usando data mining : estudo de caso na Universidade Federal de Lavras *. v. 42, n. 3, p. 495528, 2008. DATE, C. J. Introduo a Sistemas de Banco de Dados. [S.l.: s.n.], 2000. ISBN 8535205608. FAYYAD et al. From Data Mining to Knowledge Discovery in Databases. p. 3754, 1996. FILHO, R. L. L. e. S. et al. A evaso no ensino superior Brasileiro. Higher Education, p. 641659, 2007. HAN et al. Data Mining Concepts and Techniques. [S.l.: s.n.], 2005. ISBN 9781558609013. INEP. Censo da educao superior: 2010 resumo tcnico. Braslia: [s.n.], 2012. ISBN 9788578630188. INEP, M. Censo da Educao Superior. 2011. Disponvel em: <http://portal.inep.gov.br/web/censo-da-educacao-superior>. LUAN, J. Data mining applications in higher education. SPSS Executive Report, 2002. Disponvel em: <http://www.insol.lt/media/collateral/modeling/education.pdf>. MENDES, M. A demanda por vagas no ensino superior: anlise dos vestibulares da ufmg na dcada de 90. p. 126, 1997. MICROSOFT. Viso geral do OLAP. 2012. Disponvel em: <http://ofce.microsoft.com/pt- br/excel-help/visao-geral-do-olap-processamento-analitico-online-HP010177437.aspx>. MSDN, M. Analysis Services. 2012. Disponvel em: <http://msdn.microsoft.com/pt- br/library/bb522607.aspx>. PYLE et al. Data Preparation for Data Mining. [S.l.: s.n.], 1999. ISBN 4159822665. REBOUAS, F. Data Warehouse. 2010. Disponvel em: <http://www.infoescola.com/informatica/data-warehouse>.