Você está na página 1de 8

Anlise Espacial do Perl dos Alunos do IFPI Campus Floriano usando Tcnicas de Minerao de Dados

Thiago Reis da Silva1, Diego Grosmann1, Artur Luiz T de Oliveira1, Anglica Flix de Castro1, Marcelino Pereira dos Santos Silva1
1

Programa de Ps-Graduao em Cincia da Computao MCC Universidade do Estado do Rio Grande do Norte UERN/ Universidade Federal Rural do Semi-rido UFERSA BR 110 Km 46 Bairro Costa e Silva Campus Central 59.625-620 Mossor RN, Brasil

{trsilva.si, diegogrosmann}@gmail.com, tuca_jampa@hotmail.com, angelica@ufersa.edu.br, marcelinopereira@uern.br

Abstract: The economy of Piau is characterized by its fragility, as evidenced by the behavior of some of its indicators. The IFPI - the Federal Institute of Piau assume social responsibilities in the face of dire need to develop knowledge and technologies for exploitation and value adding. In this context the present article is a study on the profile of students in the IFPI - Campus Floriano. For this we used data mining techniques and geographic information systems. Resumo: A economia do Piau caracteriza-se por sua fragilidade, evidenciada pelo comportamento de alguns de seus indicadores. O IFPI - Instituto Federal do Piau assume responsabilidades sociais diante da extrema necessidade de desenvolver conhecimentos e tecnologias de aproveitamento e agregao de valores. Nesse contexto o presente artigo faz um estudo sobre o perfil dos estudantes do IFPI - Campus Floriano. Para isso foram utilizadas tcnicas de minerao de dados e sistemas de informao geogrficos.

1. Introduo
Os Institutos Federais de Educao, Cincia e Tecnologia so instituies que produzem, disseminam e aplicam o conhecimento tecnolgico e acadmico para formao da cidadania, por meio do Ensino, da Pesquisa e da Extenso, contribuindo para o progresso socioeconmico local, regional e nacional. A implantao dos campi, no interior do Estado, atende a meta do Programa de Expanso da Rede Federal de Educao Tecnolgica e prpria natureza dos Institutos Federais de Educao, Cincia e Tecnologia, no que diz respeito descentralizao de qualicao prossional, levando em conta as necessidades socioeconmicas de cada regio. Com isso, pretendese evitar o xodo de jovens estudantes para a capital. O Instituto Federal de Educao Cincia e Tecnologia do Piau (IFPI) uma instituio com atuao no Estado do Piau, detentora de autonomia administrativa, patrimonial, financeira, didtico-pedaggica e disciplinar. instituio pblica de Educao Superior, Bsica e Profissional, pluricurricular e multicampi, est presente em dez municpios do estado, especializada na oferta de Educao Profissional e

Tecnolgica, em diferentes modalidades de ensino, conjugando os conhecimentos humanos, tcnicos e tecnolgicos com as suas prticas pedaggicas, nos termos da Lei (PDI, 2009). Nesse contexto, o IFPI assume responsabilidades sociais, diante da extrema necessidade de desenvolver conhecimentos e tecnologias de aproveitamento e agregao de valores, de nvel tecnolgico, de produtos e subprodutos, oriundos das vocaes do estado, a exemplo da carnaba, do caju, da castanha do caju e do mel, dentre outros (PDI, 2009). Assim, o presente trabalho faz uma avaliao da base de dados do controle acadmico do IFPI Campus Floriano a fim de identificar o padro dos estudantes da instituio. Neste contexto, este artigo encontra-se organizado da seguinte forma: a seo 2 apresenta uma reviso de literatura, abordando em subsees os Sistemas de Informao Geogrficos, Descoberta do Conhecimento em Banco de Dados, Tcnicas de Minerao e Minerao de Dados Geogrficos. apresentada na seo 3 a Metodologia utilizada. A seo 4 apresenta os Resultados e as Concluses Finais e Trabalhos Futuros so apresentados na seo 5.

2. Reviso de Literatura
A seguir apresentamos uma reviso de literatura sobre os conceitos e tcnicas utilizados para o desenvolvimento deste trabalho. 2.1. Sistema de Informao Geogrfico O Sistema de Informao Geogrfico (SIG) um tipo especial de sistema de informaes. Por denio pode-se dizer que um SIG um sistema de informao baseado em computador que permite capturar, modelar, manipular, recuperar, consultar, analisar e apresentar dados geogracamente referenciados (CMARA; CASANOVA, 1995). A tecnologia de SIG pode trazer enormes benefcios devido sua capacidade de manipular a informao espacial de forma precisa, rpida e sosticada (WRIGHT, 1997). Um SIG integra dados espaciais com outros tipos de dados em nico sistema. Isso permite combinar dados de diferentes fontes e tipos, provenientes de muitos bancos de dados. O processo de converter mapas e outros tipos de informaes espaciais numa forma digital via SIG, torna possveis mtodos novos e inovadores para a manipulao e exibio de dados geogrcos (BRETRNITZ, 2010). 2.2. Descoberta do Conhecimento em Banco de Dados A Descoberta do Conhecimento em Banco de Dados, do ingls, Knowledge Discovery in Databases (KDD) o processo, no trivial, de extrao de informaes implcitas, previamente desconhecidas e potencialmente teis, a partir dos dados armazenados em um banco de dados (FAYYAD et al, 1996). O termo no trivial torna clara a existncia de alguma tcnica de busca ou inferncia. Previamente desconhecidas indica que a informao deve ser nova para o sistema e de preferncia tambm para o usurio. E, por ltimo, potencialmente teis, deixa claro que esta informao deve trazer consigo algum benefcio, em outras palavras, dever possibilitar ao usurio algum ganho.

O processo de KDD contm uma srie de passos, tais como: Seleo, Prprocessamento e Limpeza, Transformao, Minerao de Dados (datamining) e Interpretao/Avaliao (MILLER; HAN, 2001). Como se pode ver, o processo compreende, na verdade, todo o ciclo que o dado percorre at virar conhecimento ou informao. O processo em si possui duas caractersticas relevantes: interativo e iterativo. Interativo, pois o usurio pode intervir e controlar o curso das atividades. Iterativo, por ser uma sequncia nita de operaes onde o resultado de cada uma dependente dos resultados das que a precedem. Dentre estas, a minerao de dados se destaca bastante, pois a fase responsvel pela transformao de dados em informaes. A minerao de dados est relacionada com a descoberta de novos fatos, regularidades, restries, padres e relacionamentos e no apenas consultas complexas e elaboradas com a nalidade de conrmar uma hiptese em funo dos relacionamentos existentes. A minerao de dados, portanto, uma descoberta eficiente de informaes vlidas e no bvias de uma grande coleo de dados (OLIVEIRA et al, 2011). 2.3. Tcnicas de Minerao Segundo Prass (2004), as tcnicas de minerao consistem na especificao de mtodos que nos garantam descobrir os padres que nos interessam. Para cada tcnica utilizada, uma srie de algoritmos esto disponveis na literatura. Nas subsees a seguir so descritas as tcnicas utilizadas neste trabalho. 2.3.1 Classificao e Predio Segundo Amo (2004), classificao o processo de buscar modelos (funes) que descrevem e distinguem classes ou conceitos, com o propsito de utilizar os modelos para predizer ou explicar o contexto. Geralmente, o modelo baseia-se em dados de amostragem ou de treinamento. No caso da predio, o objetivo inferir valores no conjunto de dados. 2.3.2 Associao As regras de associao consistem em padres do tipo A B, onde A e B so conjuntos de valores antecedentes e consequentes. Consideremos um exemplo de supermercado. O padro Cliente que compra po tambm compra leite representa um padro de comportamento dos clientes do supermercado. Essa organizao pode ser vlida na organizao dos produtos na prateleira visando o aumento das vendas.

3. Metodologia
Para o desenvolvimento desta pesquisa foi utilizada a base de dados de matricula do IFPI Campus Floriano, que contem dados dos estudantes matriculados entre o ano de 1998 e o ano de 2010, totalizando 4348 registros. Para a extrao do conhecimento foram seguidos os passos do KDD: Seleo dos dados, Pr-Processamento, Transformao, Minerao de Dados, e interpretao/avaliao. Os softwares utilizados para o desenvolvimento deste trabalho foram: o banco de dados MySql Server v5.0 e sua Interface Grfica do Usurio v1.2, o software de Minerao de Dados Weka v3.7.4 e o SIG TerraView v5.1. Os software MySql, TerraView e o Weka GNU possui licena GNU/GPL (General Public License).

3.1 Seleo de dados A base de dados do IFPI formada por 53 campos e est salva no formato de arquivo Excel. Destes foram escolhidos 10 campos: sexo, etnia, data de nascimento, cidade do nascimento, estado do nascimento, estado civil, renda familiar, financiamento da instituio de origem, curso e perodo de ingresso. 3.2 Pr-processamento Como citado anteriormente base de dados estava no formato de arquivo Excel, para facilitar esta fase todos os dados das tabelas foram exportados com o formato de arquivo csv e posteriormente importados no banco de dados MySql. Para a importao primeiro criou-se uma base de dados e um tabela com todos os campos existentes no arquivo csv. Nesta fase foram utilizadas duas rotinas de limpeza de dados para suprir valores ausentes: (a) suprir valores ausentes manualmente e (b) ignorar tuplas. A primeira tcnica (a), foi utilizada para o campo sexo, nos dados inexistentes foram inseridos manualmente utilizando o campo nome como base, o campo estado de origem tambm utilizou essa mesma tcnica usando como base a cidade de origem. Para os demais campos, foi utilizada a segunda tcnica (b), realizando um processo de adequao dos dados retirando espaos em branco antes e depois dos dados e caracteres invlidos e como tratamento das linhas sem dados simplesmente s ignoramos. 3.3 Transformao dos dados Nesta fase foram gerados dados a partir dos dados existentes. Tendo a data de nascimento como base, geramos o campo idade. J a renda foi dividida para refletir as classes sociais, a criao das classes se deu de acordo com as regras propostas pela consultoria Target (2011), que dividiu as classes em: A1: inclui as famlias com renda mensal maior que R$ 14.400; A2: maior que R$ 8.100; B1: maior que R$ 4.600; B2: maior que R$ 2.300; C1: maior que R$ 1.400; C2: maior que R$ 950; D: maior que R$ 600; E: maior que R$ 400; F: menor que R$ 200. Para simplificar a consulta, as classes proposta pela Target sofreram algumas alteraes. Os dados da classe A1 e A2 foram juntos na classe A, e os dados da classe E e F foram juntos na classe E. 3.4 Minerao de Dados Algumas ferramentas foram analisadas e o Weka (Waikato Environment for Knowledge Analysis) foi escolhida para a tarefa de Minerao de Dados. A escolha se deu pelo fato de ser uma ferramenta robusta, bem aceita no mercado, pela facilidade de uso e pelo poder de exposio dos resultados da minerao com clareza. Para a manipulao dos dados pelo Weka primeiro devemos coloc-los em um formato aceito pelo mesmo, esse formato o ARFF (Attribute-Relation File Forma). Para gerar o arquivo arff primeiro exportamos os dados do banco de dados utilizando separao por vrgula, e posteriormente inserimos o cabealho com os metadados referentes s colunas. Com o objetivo de uma anlise precisa dos dados, os mesmos foram submetidos a duas de tcnicas de minerao de dados. Eles foram submetidos classificao atravs dos algoritmos RandomTree, J48 e REPTree e associao pelo algoritmo JRIPA.

3.5 Interpretao/Avaliao Nesta fase os dados foram analisados e os padres e as caractersticas foram identificados, sendo apresentados os resultados na prxima seo. Para uma melhor apresentao dos dados em forma de mapas utilizamos o software TerraView e as malhas digitais municipais e estaduais disponveis no site do IBGE (IBGE, 2011).

4. rea de Estudo
O presente trabalho faz uma avaliao dos dados dos alunos que estudam e estudaram no IFPI Campus Floriano. O Instituto Federal do Piau foi criado mediante transformao do Centro Federal de Educao Tecnolgica do Piau (CEFET/PI). Sua Reitoria est instalada em Teresina PI. O Piau est localizado a noroeste da regio Nordeste do Brasil ocupa uma rea de 251.576 km (pouco maior que o Reino Unido) e tem 3.118.360 habitantes. Sua capital a cidade de Teresina (IBGE, 2011). A economia do estado baseada no setor de servios (comrcio), na indstria (qumica, txtil, de bebidas), na agricultura (soja, algodo, arroz, cana-de-acar, mandioca) e na pecuria extensiva. A Figura 1 ilustra a localizao da rea de estudos (municpio de Floriano) em relao ao mapa do Brasil e ao estado do Piau, do qual o municpio de Floriano faz parte. O municpio de Floriano situa-se na Zona do Mdio Parnaba, margem direita desse mesmo Rio, em frente cidade de Baro de Graja, Maranho. A cidade fica a 253 km da capital do Estado do Piau, Teresina. Tem uma populao de 57.690 e ocupa uma rea de 3.409 km2 (IBGE, 2011). O municpio possui um IDH de 0,711 que considerado mdio (HDR, 2011).

Figura 1 - Localizao da rea de estudos em relao ao territrio do Brasil.

4. 1. Resultados
Nesta seo sero apresentadas as informaes obtidas na fase de anlise de dados do KDD. A Figura 2 apresenta a distribuio dos estudantes no territrio nacional e em relao ao estado do Piau. Notamos que das 27 unidades distritais (contando com o Distrito Federal) o IFPI conta com alunos de 22 desses distritos, o que mostra a importncia do mesmo no contesto nacional. J no contexto do estado do Piau sua

atuao ficou limitada a regio sul e sudoeste. A Figura 2 ainda ilustra que a maioria dos alunos do IFPI, vem das cidades de: Floriano, Guadalupe, Jerumenha, Canto do Buriti, Oeiras, Amarante e Teresina.

Figura 2. A esquerda temos a distribuio dos alunos em cada estado do Brasil e a direita temos a distribuio dentro do estado do Piau.

Com a inteno de avaliar se a renda dos estudantes tem uma influncia direta na distribuio geogrfica, foi gerado o mapa apresentado na Figura 3, nesse mapa apresentamos a classe social predominante dos discentes por estado e por cidade. Nela podemos constatar que estudantes de regies mais distantes do polo educacional apresentam uma classe social mais elevada que os nascidos na microrregio de Floriano. Isso pode se dar devido dificuldade que pessoas de classe social mais baixa tm de se transportar at lugares mais distantes e de sustentar-se.

Figura 3. Mapa com a distribuio das classes sociais dos alunos por estado e por cidade.

Tendo como base o contexto social em nosso pas, no qual afrodescendentes ainda so muito discriminados, utilizamos o algoritmo de classificao RandomTree para avaliar a influncia da cor da pele na classe social e obtivemos a rvore apresentada

na Figura 4. Constatamos que alunos de pele clara e alunos de pele negra apresentam a mesma classe social, todos enquadrados na classe E, assim no constatamos uma desigualdade gerada pela cor da pele.

Figura 4. rvore gerada pelo RandomTree comparando a classe social com a cor da pele.

Avaliamos tambm que a classe social e a cor da pele tm influencia direta sobre a instituio de origem dos alunos (privada, pblica ou filantrpica). Identificamos que a cor da pele em nada influncia a instituio de origem sendo que para todas as etnias a maioria dos alunos foi proveniente de escola pblica. J a classe social C1 apresentou uma predominncia em instituies filantrpicas, para as instituies pblicas e privadas a predominncia continua sendo de alunos da classe E. A classe social apresentou relao direta com o curso escolhido. Identificamos aps classificao realizada pelo algoritmo RandomTree que alunos de classe social mais altas do preferncia a cursos na rea de tcnico em edificaes e informtica, e concomitante em edificaes. Com o algoritmo J48 identificamos tambm que a classe social tem relao direta com a idade dos alunos. Alunos com idade inferior a 21 pertencem a classes sociais mais altas. Atravs da anlise da rvore gerada pelo algoritmo REPTree identificamos que os alunos que ingressaram at o ano de 1999 eram provenientes de escola privada j nos anos posteriores, o nmero alunos de escola pblica superaram o nmero de alunos de escola privada. Com o uso do algoritmo JRIP que identifica as regras pressentes na base de dados identificamos cinco regras predominantes. Das quais as trs seguintes se destacam. 1. Alunos que ingressaram antes de 2008 e tem idade maior que 20 anos, escolheram o curso de Matemtica, so locais, tm classe social C1 e so da etnia negra; 2. Os alunos que ingressaram depois de 2008 vindos de escola particular escolheram o curso de Anlise e Desenvolvimento de Sistemas e tem etnia branca; 3. O curso de Biologia at o ano de 2005 foi mais escolhido por mulheres de classe social C1 e etnia branca; 5. Concluses e Trabalhos Futuros Atravs da pesquisa acima apresentada conclumos que a minerao de dados um processo de fundamental importncia para a obteno de informaes de grandes bases

de dados. Constatamos que o IFPI, de fato, cumprindo o seu papel de incluso social, pois no apresentou uma disparidade em seus alunos referentes classe e a etnia. Como trabalho futuro prope-se a explorao desta base de dados utilizando outras tcnicas de minerao de dados como a Clusterizao e a utilizao de outras ferramentas de minerao.

Agradecimentos
Os autores agradecem a CAPES pela concesso das bolsas de pesquisa e ao IFPI Campus Floriano pela disponibilizao da base de dados.

Referncias Bibliogrficas
Amo, S. A. (2004) Tcnicas de Minerao de Dados. In: Sociedade Brasileira de Computao, UFBA. Jornadas de Atualizao em Informtica. Salvador BA, Universidade Federal da Bahia, 2004, v.2, p195-236. Breternitz, V. J. (2010) Sistemas de informaes geogrficas: uma viso para administradores e profissionais de tecnologia da informao, 2010. Cmara, G.; Casanova, M. A. (1995) Fields and objects algebras for gis operations operations. vol. 1, pp. 407 420, 1995. Fayyad, U. M.; Shapiro, G. P.; Smyth, P. (1996) From data mining to knowledge discovery: An overview, AI Magazine pp. 3754, 1996. HDR (2011). Human Development Report. Disponvel em: <http://hdr.undp.org/en/>. Acesso em set. 2011. IBGE (2011). Instituto Brasileiro de Geografia e Estatsticas. Disponvel em: <http://ibge.gov.br>. Acesso em set. 2011. Miller, H. J.; Han, J. (2001) Geographic data mining and knowledge discovery: An overview. London: Taylor and Francis, in press, B., 2001. Oliveira, A. T.; Vidal Filho, J. N.; Lima, D. R.; Castro, A. F.; Silva, M. P. S. (2011) Spatial analysis of the student profile of federal techical school of piaui. In: ISTI: Conferncia Ibrica de Sistemas e Tecnologias de Informao. Portugal, 2011. V II, p. 368-373. Prass, F. S. (2004) Kdd: Processo de descoberta de conhecimento em bancos de dados vol. 1, pp. 10 14, 2004. PDI (2009) Plano de Desenvolvimento Institucional. Disponvel em: < http://www.ifpi.edu.br/arquivos/PDI_IFPI_PROPOSTA_FINAL.pdf>. Acesso em set. 2011. Target (2011) Disponvel em: <http://www.target.com.br/portal_new/Home.aspx>. Acesso em set. 2011. Wright, D. J.; Goodchild M. F.; Proctor J. D. (1997) Demystifying the persistent ambiguity of gis as Tool Versus Science The Annals of the Association of American Geographes, 87(2): 346-362, 1997.