Você está na página 1de 14

Um Estudo de Caso da Aplicao de Minerao de Dados em uma Instituio de Ensino Superior

Douglas Preto, Sidnei Renato Silveira douglaspreto@gmail.com,sidnei@uniritter.edu.br Faculdade de Informtica, Curso de Bacharelado em Sistemas de Informao Centro Universitrio Ritter dos Reis Resumo. Com o grande acmulo de dados gerados pela tecnologia, passa-se despercebido como estes dados podem ser utilizados de maneira a tornar isso em um bem para a empresa. Busca-se atravs deste trabalho, auxiliar as Instituies de Ensino Superior na abertura de turmas, mostrando como utilizar os dados de suas bases de forma positiva. Isso se dar atravs da minerao dos dados contidos em seu prprio banco de dados, tentando traar um perfil para a realizao de matrculas. Abstract. Due to the large amount of data generated by technology, it is not perceived how this data may use it in order to become an asset for the company. Through this work we aim to help Institutions of Higher Education when opening new classes, showing how to use the data from its bases in a positive way. That will be done through data contained in its own base, trying to outline a profile to be used for the accomplishment of registrations. 1. Introduo Muitas Instituies de Ensino pecam por aberturas demasiadas de cursos e/ou turmas. Esse comportamento acaba acarretando diversos transtornos, tanto para o aluno, quanto para a Instituio. Se o aluno efetua sua matrcula e a turma no atinge o nmero mnimo de matrculas necessrias, a mesma cancelada, ocasionando prejuzo para a Instituio que contava com o valor daquela turma e que teve gastos com a divulgao. Entretanto, no somente a Instituio que sai prejudicada. O aluno que buscava realizar aquele curso, frequentar aquela turma, naquele semestre, no o far, quem sabe atrasando at um projeto futuro, o qual j estava programando h algum tempo, ou deixando de realizar outro projeto, na espera que este se realize. As turmas, por vrias vezes, so canceladas at com um nmero expressivo de alunos, mas no o suficiente, pois no se tem uma expectativa da quantidade de alunos que iro se matricular s vsperas ou no dia do incio do curso. A maioria das Instituies no possui um levantamento ou um nmero como base para este tipo de ocorrncia. Neste sentido, este artigo apresenta o estudo e a aplicao de tcnicas de Minerao de Dados que possam apoiar a deciso dos gestores quanto oferta de turmas e/ou cursos. Para a validao desta proposta, foram utilizados os dados de uma Instituio de Ensino Superior (IES) da Regio Metropolitana de Porto Alegre que, como muitas Instituies de Ensino, oferece cursos e/ou turmas que, por algum tipo de deficincia, seja ela por ter sido aberta na hora errada ou por falta de divulgao, no sairo do papel. Neste contexto, este artigo est dividido nas seguintes sees: a seo 2 apresenta um breve referencial terico sobre as reas envolvidas; a seo 3 apresenta algumas ferramentas que podem ser aplicadas na minerao de dados. Na seo 4 detalha-se o estudo de caso realizado. Finalizando o artigo, apresentam-se as consideraes finais e as referncias

bibliogrficas. 2. Referencial Terico A minerao de dados pode ser considerada como uma parte do processo de Descoberta de Conhecimento em Banco de Dados (KDD Knowledge Discovery in Databases). Segundo (Goebel e Gruenwald, 1999), o termo KDD usado para representar o processo de tornar dados de baixo nvel em conhecimento de alto nvel, enquanto minerao de dados pode ser definida como a extrao de padres ou modelos de dados observados. Conforme Fayyad (Fayyad et. al., 1996) o KDD - Knowledge Discovery in Databases - um processo, de vrias etapas, no trivial, interativo e iterativo, para identificao de padres compreensveis, vlidos, novos e potencialmente teis a partir de grandes conjuntos de dados. Como existe vasta literatura sobre o assunto e pela semelhana desta definio de KDD com a definio de minerao de dados, estes dois termos se confundem e muitas vezes so utilizados de forma indistinta. Esta viso foi assumida por Resende (2005) em sua obra para referenciar o processo de extrair conhecimento a partir de grandes bases de dados. De fato, de acordo com Han e Kamber (2001), o termo minerao de dados ou data mining deveria ter um nome mais apropriado, indicando conhecimento atravs da minerao de dados. No entanto, por ser este um termo longo no to utilizado. Mas, ainda segundo Han e Kamber (2001), a descoberta de conhecimento em bases de dados um processo mais amplo que a minerao de dados. Envolve vrias etapas onde a minerao de dados parte deste processo. A Figura 1 mostra as etapas do processo de Descoberta de Conhecimento em Banco de Dados (KDD), onde a minerao de dados uma delas.

Figura 1 Etapas do Processo de Descoberta de Conhecimento (FAYYAD et. al., 1996).

No trabalho aqui apresentado, pretende-se abordar todas as etapas apresentadas na figura 1. Este processo ser detalhado na seo 4 deste artigo. 2.1 Conceitos de Minerao de Dados O computador que antes servia apenas para automatizar tarefas rotineiras passou a ocupar um lugar muito mais expressivo no dia-a-dia das pessoas e das empresas. Com o grande avano
2

da tecnologia houve tambm um grande aumento no nmero de informaes que so armazenadas. Segundo Figueira (1998), o avano da tecnologia tornou relativamente fcil o acmulo de dados e ao mesmo tempo a informao valorizada como nunca antes na histria, o que faz com que estes dados sejam vasculhados sempre em busca de tendncias e padres. Esta busca um dos objetivos da minerao de dados. Groth (1998) cita trs razes para a minerao de dados ter se tornado to popular, consequentemente acessvel ao usurio final: 1 O valor do computador tem cado de maneira que todos podem ter um bom equipamento para utilizao dos softwares de minerao; 2 As metodologias utilizadas esto tornando-se cada dia mais poderosas e fceis de utilizar; 3 Os softwares existentes no mercado esto oferecendo a minerao de dados de maneira clara e objetiva, auxiliando assim os administradores a escolher qual rumo seguir. Atravs do aumento dessas tecnologias podem ser realizadas tarefas de buscas avanadas, alm de relacionamento e interpretao dos dados. A minerao de dados permite que se definam regras de negcio para auxiliar nas tomadas de decises. Busca-se com isso criar um planejamento das atividades que podem ser desenvolvidas e pensadas a mdio e longo prazo, tentando fazer assim uma previso de tendncias futuras baseada no passado (Polito, 1997). Conforme Polito (1997), minerao de dados a tcnica que permite buscar informaes que estejam, aparentemente, escondidas e ajudam a agilizar e/ou fortalecer as tomadas de decises. Ele ainda afirma que as empresas que empregam minerao de dados (data mining), esto muito a frente das outras, pois so capazes de: (1) Criar parmetros para entender o comportamento dos consumidores; (2) Identificar afinidades entre as escolhas de produtos e servios; (3) Prever hbitos de compras; (4) Analisar comportamentos habituais para se evitar fraudes. Para Berry e Linoff, minerao de dados a explorao e a anlise, por meio automtico ou semiautomtico, de grandes quantidades de dados, a fim de descobrir padres e regras significativos (1997, p.5). Os resultados obtidos com a minerao de dados podem ser usados no gerenciamento de informao, processamento de pedidos de informao, tomada de deciso, controle de processo e muitas outras aplicaes. A minerao de dados pode ser aplicada de duas formas: como um processo de verificao e como um processo de descoberta (Groth, 1998). No processo de verificao, o usurio sugere uma hiptese acerca da relao entre os dados e tenta prov-la aplicando tcnicas como anlises estatstica e multidimensional sobre um banco de dados contendo informaes passadas. No processo de descoberta no feita nenhuma suposio antecipada. Essa minerao de dados, to poderosa e que pode auxiliar no processo evolutivo das empresas pode ser realizada atravs de vrias tcnicas existentes hoje no mercado. Algumas destas tcnicas so descritas na prxima seo. 2.2 Tcnicas de Minerao Entre as tcnicas de minerao de dados existentes, destacam-se as tcnicas de classificao, regresso, segmentao, associao, rvore de deciso, comportamento natural, sries temporais, redes neurais e minerao de texto.
3

2.2.1 Classificao A tcnica de classificao permite identificar, entre um conjunto pr-definido de classes, aquela a qual pertence um elemento, a partir de seus atributos. As regras de classificao so extradas a partir de uma base de treinamento. A tarefa de classificao consiste em construir um modelo de algum tipo que possa ser aplicado a dados no classificados visando categoriz-los em classes. Um objeto examinado e classificado de acordo com uma classe definida (Harrison, 1998). So exemplos de tarefas de classificao (Goebel e Gruenwald, 1999): classificar pedidos de crditos como de baixo, mdio e alto risco; esclarecer pedidos de seguros fraudulentos; identificar a forma de tratamento na qual um paciente est mais propcio a responder, baseando-se em classes de pacientes que respondem bem a determinado tipo de tratamento mdico. 2.2.2 Regresso A regresso usada para definir um valor para alguma varivel contnua desconhecida como, por exemplo, receita, altura ou saldo de carto de crdito (Harrison, 1998). Esta tcnica trabalha com resultados contnuos, enquanto que a classificao lida com resultados discretos. Ela pode ser usada para executar uma tarefa de classificao, convencionando-se que diferentes faixas (intervalos) de valores contnuos correspondem a diferentes classes. Como exemplos de tarefas de estimativa tm-se (Fayyad et. al., 1996; Harrison, 1998): estimar o nmero de filhos em uma famlia; estimar a renda total de uma famlia; estimar o valor em tempo de vida de um cliente; estimar a probabilidade de que um paciente morrer baseando-se nos resultados de um conjunto de diagnsticos mdicos; prever a demanda de um consumidor para um novo produto, entre outros.

2.2.3 Segmentao A segmentao um processo de partio de uma populao heterognea em vrios subgrupos ou clusters mais homogneos (Harrison, 1998). Na segmentao, no h classes predefinidas, os registros so agrupados de acordo com a semelhana, o que a diferencia da tarefa de classificao. Entre os exemplos de segmentao pode-se agrupar os clientes por regio do pas ou agrupar clientes com comportamento de compra similar (Goebel e Gruenwald, 1999) 2.2.4 Associao A tcnica de associao consiste em determinar quais itens tendem a ocorrer (no caso de compras, serem adquiridos juntos) em uma mesma transao. Um exemplo clssico determinar quais produtos costumam ser colocados juntos em um carrinho de supermercado, no contexto da anlise de market basket . (Harrison, 1998). Esta tcnica analisa as compras associadas, ou seja, um cliente que comprou um produto x e tambm comprou um produto y. Pode-se verificar se esta associao se confirma em uma grande parte da base de dados, verificando sua validade. As cadeias de varejo usam associao para planejar a disposio dos produtos nas prateleiras das lojas ou em um catlogo, de modo que os itens geralmente adquiridos na mesma compra sejam vistos prximos entre si (Harrison, 1998).
4

2.2.5 rvore de Deciso Uma rvore de deciso uma rvore onde cada n no terminal representa um teste ou deciso sobre o item de dado considerado (Goebel e Gruenwald, 1999). O objetivo principal separar as classes; tuplas de classes diferentes tendem a ser alocadas em subconjuntos diferentes, cada um descrito por regra simples em um ou mais itens de dados. Essas regras podem ser expressas como declaraes lgicas, em uma linguagem como SQL, de modo que possam ser aplicadas diretamente a novas tuplas. Uma das vantagens principais das rvores de deciso o fato de que o modelo bem explicvel, uma vez que tem a forma de regras explcitas (Harrison, 1998). O algoritmo rvores de deciso calcula as probabilidades de um resultado com base nos valores de um conjunto de treinamento. Por exemplo, uma pessoa na faixa etria de 20 a 30 anos, que ganha mais de R$ 60.000,00 reais/ano e possui uma casa mais provvel que necessite de um servio de jardinagem do que algum na faixa etria de 15 a 19 anos que no possui uma casa. Com base na idade, renda e posse de casa, o algoritmo de rvores de Deciso pode calcular as chances de que a pessoa necessita de um servio de jardinagem com base em valores histricos (Microsoft, 2009a). 2.2.6 Comportamento Natural O algoritmo de Comportamento Natural usado para mostrar as diferenas de uma varivel especfica para vrios elementos de dados. Por exemplo, renda familiar diferente para cada cliente no banco de dados, e pode ser usado como um item para prever uma compra futura. Este modelo destaca-se por mostrar as diferenas entre determinados grupos de clientes (Microsoft, 2009a). 2.2.7 Sries Temporais O algoritmo de Sries Temporais utilizado para a anlise e previso do tempo baseada em dados. As vendas normalmente so os itens mais analisados. Este algoritmo procura padres em vrias sries de dados de modo a encontrar tendncias para que as empresas determinem como diferentes elementos afetam a srie analisada (as vendas) (Microsoft, 2009a). 2.2.8 Redes Neurais As Redes Neurais procuram descobrir as relaes em dados que outros algoritmos no conseguem obter. Enquanto o algoritmo de Redes Neurais tende a ser mais lento do que os outros algoritmos, ele encontra relaes que podem ser no intuitivas, ou seja, alm de demonstrar itens que so previstos atravs de dados anteriores, tende-se a exibir resultados para itens em que no se observou nenhuma tendncia (Microsoft, 2009a). 2.2.9 Minerao de Texto O algoritmo de Minerao de Texto analisa dados de texto no estruturados. Isto permite s empresas analisar dados como um "comentrio" descrito na seo de uma pesquisa de satisfao do cliente (Microsoft, 2009a). As tcnicas escolhidas para a aplicao da minerao de dados neste trabalho so descritas na seo 4.2.

3. Estado da Arte Nesta seo so apresentadas algumas das ferramentas de minerao de dados disponveis no mercado, gratuitas ou no. Foram estudadas as ferramentas Weka, Tanagra e Microsoft SQL Server. 3.1 Weka O cdigo-fonte da ferramenta Weka aberto, sendo liberado pela empresa de software de Business Intelligence Pentaho. Inicialmente esta ferramenta foi desenvolvida pela Universidade de Waikato, na Nova Zelndia. Weka uma coleo de algoritmos de aprendizado de mquina para tarefas de minerao de dados. Os algoritmos podem ser aplicados diretamente a um conjunto de dados ou chamados a partir do seu prprio cdigo Java. Esto contidas nela tambm ferramentas para o pr-processamento de dados, classificao, regresso, clustering, regras de associao e visualizao. uma ferramenta gratuita que pode ser executada em diversas plataformas, entre elas, Windows, MAC Os X e Linux. O nico requisito que o computador possua a mquina virtual Java instalada e seu download pode ser realizado atravs do site da prpria ferramenta (Weka, 2009). Todas as tcnicas aplicadas na ferramenta Weka partem da premissa de que os dados esto disponveis como um arquivo simples ou uma relao, onde cada ponto de dados descrito por um nmero fixo de atributos (normalmente numrica ou nominal, mas alguns outros tipos de atributo tambm so suportados). A ferramenta fornece acesso a bases de dados SQL (Structured Query Language) utilizando Java Database Connectivity e pode processar o resultado retornado por uma consulta de banco de dados. 3.2 Tanagra A ferramenta Tanagra um software de uso livre para explorao de dados, aprendizado de mquina e minerao de dados, desenvolvido na linguagem Delphi por Ricco Rakotomalala da Universidade de Lumire Lyon 2, na Frana, tendo sido desenvolvida para fins acadmicos e/ou de pesquisa. Possui uma excelente interface grfica, de uso intuitivo e fcil aprendizado. A ferramenta tem funes para trabalhar com clustering, estatstica noparamtrica, regresso, regras de associao, entre outras. Desta forma, esta ferramenta abrange a maior de todas as categorias de mtodos de minerao, indo alm dos mtodos de aprendizado supervisionado, integrao de mtodos de agrupamento, anlise fatorial, de modo a ser capaz de faz-los cooperar entre si (Rakotomalala, 2009). O principal objetivo do projeto proporcionar que pesquisadores e estudantes tenham uma ferramenta de fcil utilizao para minerao de dados, em conformidade com as normas atuais de desenvolvimento de software e permitindo a anlise de dados reais ou fictcios. O segundo objetivo propor aos utilizadores uma arquitetura que lhes permita facilmente adicionar seus prprios mtodos de minerao de dados, para comparar seus desempenhos (Rakotomalala, 2009). 3.3 Microsoft SQL Server O Sistema Gerenciador de Bancos de Dados Microsoft SQL Server possui a possibilidade de criar uma plataforma de business intelligence acessvel e extensvel. Atravs desta plataforma busca-se a explorao dos dados, permitindo a descoberta de padres de dados corporativos. Esta uma ferramenta proprietria, existindo uma verso freeware denominada SQL Express, que no inclui as ferramentas de minerao de dados (Microsoft, 2009b).
6

O Microsoft SQL Server Data Mining faz parte da famlia de tecnologias de business intelligence que podem ser usadas juntas para aprimorar e desenvolver uma nova gerao de aplicaes inteligentes. Estas tecnologias incluem (Microsoft, 2009b): SQL Server 2005 Integration Services: possibilita a criao de um fluxo de processamento de dados na organizao, atravs de uma robusta aplicao de integrao de dados; SQL Server 2005 Analysis Services: esta ferramenta proporciona uma viso integrada dos dados, apoiando a confeco de relatrios, anlise OLAP (Online Analytical Processing), indicadores-chave de desempenho (KPI) e minerao de dados; SQL Server Reporting Services: capacidade de criar, gerir e disponibilizar relatrios tradicionais (em papel) ou relatrios interativos, baseados na web.

Utilizando-se o assistente e Designer do Data Mining embutido, pode-se construir modelos sofisticados de minerao. Integrado diretamente ao Microsoft Visual Studio, o conjunto de ferramentas do SQL Server Data Mining permite explorar e manipular dados, bem como criar e editar seus modelos. O SQL Server Data Mining oferece mais do que uma dzia de visualizaes interativas para ajudar a compreender os padres que o data mining pode descobrir (Microsoft, 2009b). O SQL Server Data Mining totalmente extensvel atravs dos procedimentos armazenados no Microsoft .NET e dos algoritmos e visualizadores plug-in que se encaixam de forma contnua para tirarem vantagem da integrao e de todas as habilidades da plataforma (Microsoft, 2009b). 3.4 Escolha da Ferramenta A ferramenta escolhida para utilizao neste trabalho foi a Tanagra, por se tratar de uma ferramenta aberta e gratuita e de utilizao mais intuitiva em relao ao SQL Server da Microsoft ou a Weka. Apesar da escolha da ferramenta Tanagra, os dados foram transferidos para o SQL Server para realizao de um pr-processamento a fim de retirar dados nulos e/ou invlidos que poderiam comprometer o resultado final. Esta fase de pr-processamento uma das etapas que despende mais tempo na execuo da minerao de dados. Buscou-se assim garantir a integridade dos dados, com uma soluo no muito onerosa para a Instituio, como o caso do Oracle, j que a IES onde a minerao de dados foi empregada j possua licena para utilizao do SQL Server. 4. Estudo de Caso Esta seo apresenta o estudo de caso realizado, visando aplicao de tcnicas de minerao de dados na base de dados da IES selecionada. O estudo de caso um dos vrios modos de realizar uma pesquisa slida. Outras modalidades incluem experincias vividas, histrias e a anlise de informao de arquivo (como em estudos econmicos). Cada estratgia tem vantagens e desvantagens que dependem de trs condies: (1) o tipo de foco da pesquisa; (2) o controle que o investigador tem sobre eventos comportamentais atuais e (3) o enfoque no contemporneo ao invs de fenmenos histricos (YIN, 2001). Em geral, estudos de casos se constituem na estratgia preferida quando o "como" e/ou o "por que" so as perguntas centrais, tendo o investigador um pequeno controle sobre os eventos, e quando o enfoque est em um fenmeno contemporneo dentro de algum contexto
7

de vida real. Estudos de casos podem ser classificados de vrias maneiras, entre elas: explicativos, cognitivos, expositivos (YIN, 2001). Neste trabalho utilizou-se o mtodo de estudo de caso expositivo, onde dados foram interpretados e apresentados Instituio, para que auxiliem nas tomadas das decises. 4.1 Detalhamento do Estudo de Caso Proposto Tendo-se estabelecido os conceitos referentes ao estudo de caso, deu-se incio ao trabalho com o banco de dados da IES. O banco de dados utiliza o SGBD (Sistema Gerenciador de Bancos de Dados) Firebird, sendo utilizado pela Instituio h 6 anos, ou seja, as primeiras informaes foram inseridas atravs da migrao de um sistema executado no sistema operacional MS-DOS (Microsoft - Disk Operating System) para um sistema desenvolvido dentro da prpria Instituio, em 2003. Nesta ocasio o tamanho do banco de dados atingido em funo das informaes constantes foi de alguns Megabytes (em torno de 100 Megabytes). Atualmente, a base de dados encontra-se com 1.57 Gigabytes. O estudo de caso foi dividido nas seguintes etapas: (1) Estudo do banco de dados; (2) Descrio das tabelas e dos campos constantes nas tabelas (detalhamento atravs do modelo ER); (3) Migrao do banco de dados Firebird para SQL Server; (4) Definio das tcnicas de minerao a serem adotadas; (5) Pr-processamento dos dados; (6) Aplicao das tcnicas de minerao, atravs da ferramenta Tanagra; (7) Disponibilizao dos resultados aos gerentes da Instituio e (8) Validao dos resultados obtidos. Para aplicar as tcnicas de minerao de dados, que a proposta do trabalho, o banco de dados foi migrado do SGBD Firebird para o SQL Server. Aps serem realizadas pesquisas de ferramentas para esta migrao, constatou-se que no existe, atualmente, uma ferramenta gratuita (free) que faa a converso satisfatoriamente. Foram realizados testes com as seguintes ferramentas: conexo ODBC (Open DataBase Connectivity ou Conectividade Aberta de Banco de Dados), Microsoft Access (Trial - licena por tempo determinado e com limitaes), Full Convert Enterprise (trial), Navicat Lite, Eva/3 Universal Database Converter (trial). Para que a aplicao das tcnicas de minerao de dados fosse possvel, de forma que os dados a serem trabalhados fossem confiveis, a ferramenta escolhida foi a Full Convert Enterprise v. 5.1, pois se adaptou melhor importao e para tal foi adquirida pelo valor de U$ 259,00 (duzentos e cinquenta e nove dlares), aproximadamente R$ 478,00 (quatrocentos e setenta e oito reais). Com relao base de dados da IES, existem 155 tabelas, sendo selecionadas 4 para o referido estudo de caso. As mesmas foram escolhidas por conterem os dados necessrios para a minerao proposta neste trabalho, ou seja, descoberta de padres que ocorrem sobre as matrculas dos alunos nas turmas e/ou cursos oferecidos. As tabelas utilizadas no trabalho de minerao foram as seguintes (de acordo com a etapa 1 da KDD (Fayyad et. al., 1996)): Tabela Cliente: onde ficam registrados todos os dados pessoais e informaes que se fazem necessrias em relao ao aluno; Tabela FichaInscrio: os dados mantidos nesta tabela referem-se s informaes que se fazem necessrias no momento da matrcula do cliente (aluno), gravando dados como: nmero do recibo, valor do recibo, data da ficha de inscrio, valor pago, entre outros;

Tabela FichaTurma: armazena os dados referentes ao cliente e tabela FichaInscricao e informaes pertinentes em relao inscrio, se a mesmo ainda est ativa ou se foi cancelada por exemplo; Tabela Turma: contendo dados referentes turma, esta tabela dispe das seguintes informaes: data de incio e trmino, projeto, professor coordenador, sala onde sero ministradas as aulas, entre outras informaes. 4.2 Tcnicas de minerao escolhidas A partir do estudo da base de dados da IES, foram selecionadas para aplicao neste projeto as tcnicas de segmentao e rvores de deciso. A seguir so descritas as funcionalidades de cada tcnica em relao ao banco de dados utilizado: Segmentao Esta tcnica permite a descoberta de classes/grupos. Por exemplo, agrupar os alunos de acordo com as cidades onde residem, turnos de realizao dos cursos, sexo, etc.; rvores de Deciso Atravs de rvores de deciso, so geradas regras que podem ser teis na tomada de deciso, tais como verificar os bairros onde os alunos residem, para focar as aes de divulgao dos cursos, por exemplo. Essas tcnicas de minerao foram escolhidas porque so as que mais se adaptam s informaes que se pretende obter do banco de dados. O processo de pr-processamento (etapa 2 da KDD, (Fayyad et. al., 1996)) deu-se atravs da construo de um script no Microsoft SQL Server (Figura 2), atravs do qual foram retiradas informaes de dados nulos e inconsistentes. Aps a realizao do pr-processamento os dados foram convertidos para o formato XLS (formato do Microsoft Excel) para serem utilizados na ferramenta Tanagra (etapa 3 da KDD). Com o arquivo no formato adequado, realizou-se a importao dos dados e os seguintes algoritmos foram aplicados (etapa 4 da KDD): Statistics Univariate Discrete Stat; SPV - Learning C-RT (rvores de deciso); Statistics Group Characterization (segmentao).

SELECT FICHAINSCRICAO.CLIEICOD, FICHAINSCRICAO.DATAFICHA, CLIENTE.CLIEA60NOME, CLIENTE.CLIEA30BAI, CLIENTE.CLIEA60CIDADE, CLIENTE.CLIEA2UF, CLIENTE.CLIECSEXO, TURMA.TURMICOD, TURMA.CURSICOD, TURMA.DATAINICIO_TURMA, TURMA.DATATERMINOTURMA, TURMA.DESCR_TURMA, TURMA.TURMITURNODESC, CURSO.CURSA60DESCR FROM FICHAINSCRICAO INNER JOIN CLIENTE ON CLIENTE.CLIEICOD = FICHAINSCRICAO.CLIEICOD INNER JOIN FICHATURMA ON FICHATURMA.COD_FICHA = FICHAINSCRICAO.COD_FICHA INNER JOIN TURMA ON TURMA.TURMICOD = FICHATURMA.TURMICOD INNER JOIN CURSO ON CURSO.CURSICOD = TURMA.CURSICOD WHERE FICHAINSCRICAO.DATAFICHA IS NOT NULL AND CLIENTE.CLIEA30BAI IS NOT NULL AND CLIENTE.CLIEA60CIDADE IS NOT NULL AND CLIENTE.CLIECSEXO IS NOT NULL AND TURMA.TURMITURNODESC IS NOT NULL ORDER BY FICHAINSCRICAO.DATAFICHA Figura 2 Script utilizado no Microsoft SQL Server para o pr-processamento dos dados

Os gestores da Instituio visualizaram os resultados obtidos atravs de uma pgina HTML (Hyper Text Markup Language) que a prpria ferramenta gera, conforme mostra a Figura 3 (etapa 5 da KDD).

Figura 3 Interface dos resultados Tanagra (HTML)

10

Com base nos resultados da aplicao destes algoritmos, realizada com a ferramenta Tanagra, os gestores da IES receberam os dados extrados atravs da minerao. Em posse destes dados eles possuem subsdios para auxiliar nas decises referentes abertura de turmas e/ou cursos tornando, assim, a Instituio mais slida e confivel para todos, principalmente para os alunos. De acordo com o resultado da aplicao do algoritmo de minerao SPV Learning C-RT, pde-se observar qual o turno que os moradores de determinados bairros preferem para realizar os cursos. Assim a Instituio poder realizar uma divulgao focada no interesse de seus possveis alunos, com base na preferncia conhecida da regio. Observaram-se outros resultados relevantes para a tomada de decises dos gestores, tais como: - Alunos por cidade: Alvorada, So Leopoldo, Canoas, Viamo e Guaba destacam-se por possurem um nmero expressivo de alunos. Assim a Instituio poder intensificar a divulgao de seus cursos, havendo uma maior probabilidade de retorno e diminuindo o risco de gastos desnecessrios. Esta busca tambm pode ser realizada com o parmetro de bairro no lugar de cidade; - Alunos que realizaram outros cursos: Verificou-se que alguns alunos retornaram Instituio para realizao de outros cursos. A Tabela 1 apresenta estes resultados, a partir da aplicao da minerao SPV Learning C-RT por meio da ferramenta Tanagra;

11

Tabela 1 Alunos que realizaram outros cursos


Especializao Direito Especializao MBA em Especializao Processual Direito Direito Processo Civil Civil Previdencirio Empresarial Especializao Processo Penal Especializao Processo Civil Especializao Direito Processual Civil Especializao Direito Previdencirio Especializao Direito do Trabalho Especializao Processo do Trabalho MBA em Direito Empresarial OAB - Mdulo Civil OAB - Mdulo Trabalho, Tributrio, Comercial e tica OAB - Intensivo OAB - Mdulo Penal, Processo Penal Oficial de Justia Soma 1 8 1 34 1 1 20 1 3 3 1 34 3 OAB Mdulo Penal 1 2 1 2 Oficial de Justia 3 4 1 4 2 6

Soma 5 15 34 24 7 3 34 15

1 2 12

2 1 1 21 62

2 3 3 24 56

4 4 5 30 84

2 4

14 12 17 215 395

6 4 20

1 134 161

- Alunos por sexo: verifica-se aqui que mais de 66% dos alunos da Instituio pertencem ao sexo feminino. Sendo assim, devem-se intensificar as campanhas promocionais direcionadas a este grupo ou ainda, criar uma campanha promocional para buscar a ateno tambm do sexo masculino. Estes resultados so apresentados na Figura 4; Sexo F M Quantidade 1245 616 % 66,90 % 33,10 %

Figura 4 Alunos Por Sexo

12

- Alunos por turno: na criao de turmas observam-se os turnos de maior interesse, noite com 51,16% e manh com 36,59%. Com estes dados podem ser criadas polticas de descontos ou outros tipos de atrativos, buscando aumentar a captao de alunos para o turno da tarde. Estes resultados so apresentados na Figura 5;

Turnos MANHA NOITE TARDE

Quantidade de alunos

% 36,59 % 51,16 % 12,25 %

681 952 228

Figura 5- Alunos por Turno

Todos os resultados foram exportados em formato HTML (HyperText Markup Language) para a sua utilizao pelos gestores da Instituio. 5. Validao De posse dos resultados da minerao realizada, exportados em formato HTML, realizou-se uma reunio realizada na sede da IES selecionada para o estudo de caso. Foram apresentados os resultados da minerao de dados realizada e os mesmos aprovados e confirmados pelos gestores, uma vez que auxiliaro nos processos de divulgao e criao de novos cursos. 6. Consideraes Finais Acredita-se que os objetivos propostos para o presente trabalho foram alcanados, tendo-se em vista que todas as etapas previstas foram realizadas: (1) estudo do banco de dados; (2) descrio das tabelas e dos campos constantes nas tabelas (detalhamento atravs do modelo ER); (3) Migrao do banco de dados Firebird para SQL Server; e (4) Definio das tcnicas de minerao a serem adotadas; (5) Pr-processamento dos dados; (6) Aplicao das tcnicas de minerao, atravs da ferramenta Tanagra; (7) Disponibilizao dos resultados aos gerentes da Instituio e (8) Validao dos resultados obtidos. Algumas dificuldades foram encontradas, principalmente no que diz respeito migrao dos dados da base atual, que est em Firebird para o SQL Server. Para a migrao dos dados entre os diferentes sistemas tornou-se necessria a aquisio de um software para que se pudesse dar continuidade ao trabalho de forma precisa. Devido s dificuldades encontradas para a criao dos cubos e dimenses dentro do Analysis Services e ao curto espao de tempo para a realizao dos mesmos, a ideia inicial de utilizar o SQL Server para realizar a minerao de dados no logrou xito. Para que o trabalho mantivesse uma continuidade optou-se pela utilizao da ferramenta Tanagra. Apesar da praticidade na utilizao, a interface de resultados da ferramenta escolhida carece de melhorias para a disponibilizao de seus relatrios, pois no apresenta os resultados de forma simples e intuitiva, dificultando assim o entendimento dos mesmos pelos gestores da Instituio. Desta forma, tm-se como objetivo futuro a melhoria da interface de apresentao dos resultados.

13

Referncias Bibliogrficas BERRY, M. J. A., LINOFF, G. (1997). Data mining techniques. USA: John Wiley. FAYYAD, U. M.; SHAPIRO, G. P.; SMYTH, P. (1996) Knowledge Discovery and Data Mining:Towards a Unifying Framework. Proceeding of theSecond International Conference on KnowledgeDiscovery and Data Mining (KDD-96), Portland, Oregon, august. FIGUEIRA, Rafael. (1998) Minerao de Dados e Bancos de Dados Orientados a Objetos. Rio de Janeiro: UFRJ, Dissertao, Mestrado, Cincia da Computao. GOEBEL, M.; GRUENWALD L. (1999) A survey of data mining and knowledge discovery software tools. In: ACM SIGKDD Explorations Newsletter. 1. ed. vol. 1. GROTH, Robert. (1998) Data Mining: a Hands on Approach for Business Professionals. Prentice-Hall. HAN, Jiawei, KAMBER, Micheline (2001) Data Mining : Concepts and Techniques. San Diego. Academic Press. HARRISON, Thomas H. (1998) Intranet Data Warehouse: ferramentas e tcnicas para a utilizao do data warehouse na intranet. So Paulo: Berkeley Brasil. MICROSOFT. (2009a). Introduction to SQL Server Data Mining. Disponvel em: <http://technet.microsoft.com/pt-br/library/ms345131(en-us,SQL.90).aspx>. Acesso em 15 de outubro de 2009. MICROSOFT. (2009b) Microsoft SQL Server 2008. Disponvel em: <http://www.microsoft.com/sqlserver/2008/en/us/default.aspx>. Acesso em 15 de outubro de 2009. POLITO, M. (1997). Data Mining. Trabalho apresentado na disciplina de Banco de Dados do Curso de Anlise de Sistemas da UERJ Rio de Janeiro. RAKOTOMALALA, R. (2009). Tanagra. Disponvel em: <http://chirouble.univlyon2.fr/~ricco/tanagra/en/tanagra.html>. Acesso em 5 de setembro de 2009. RESENDE, Solange Oliveira (2005). Sistemas Inteligentes. So Paulo: Manole WEKA. (2009). Weka: Data Mining Software in Java. Disponvel <http://www.cs.waikato.ac.nz/ml/weka>. Acesso em 15 de setembro de 2009. em:

YIN, Robert K. (2001). Estudo de Caso: Planejamento e Mtodos. Bookman.

14

Você também pode gostar