Você está na página 1de 79

LEVI LOPES TEIXEIRA

O USO DE TCNICAS DE ESTATSTICA MULTIVARIADA NO PROGNSTICO DE DESISTNCIA DE ALUNOS EM IES PRIVADAS: UM ESTUDO DE CASO NA CIDADE DE FOZ DO IGUAU-PR.

Dissertao apresentada como requisito parcial obteno do grau de Mestre em Cincias, Curso de Ps-Graduao em Mtodos Numricos em Engenharia Programao Matemtica, Setores de Tecnologia e Cincias Exatas, Universidade Federal do Paran.

Orientador: Prof. Dr. Celso Carnieri.

CURITIBA-2006

TERMO DE APROVAO

Levi Lopes Teixeira O Uso de Tcnicas de Estatstica Multivariada no Prognstico de Desistncia de Alunos em IES Privadas: Um Estudo de Caso na Cidade de Foz do Iguau-Pr
Dissertao aprovada como requisito parcial para obteno do grau de Mestre no Curso de Ps-Graduao em Mtodos Numricos em Engenharia rea de Concentrao em Programao Matemtica, Setores de Tecnologia e de Cincias Exatas da Universidade Federal do Paran, pela seguinte banca examinadora:

_______________________________________
Orientador: Prof. Celso Carnieri, D. Eng.
Programa de Ps-graduao em Mtodos Numricos em Engenharia - UFPR

____________________________________________ Prof. Jair Mendes Marques, D. Sc.


Programa de Ps-graduao em Mtodos Numricos em Engenharia - UFPR

_________________________________________ Prof. Angela Olandoski Barboza, D. Sc.


Departamento de Matemtica da Universidade Tecnolgica Federal do Paran - UTFPR

__________________________________________ Prof. Neida Maria Patias Volpi, D. Eng.


Departamento de Matemtica da Universidade Federal do Paran - UFPR

Curitiba, 13 de dezembro de 2006.

iii

Dedico este trabalho minha me Antnia gerou-me, educou-me e soube imprimir em meu corao o sentido maior da vida o amor

iv

AGRADECIMENTOS Ao professor Celso Carnieri pelas orientaes, conhecimentos repassados, e por ser um exemplo, seja na pesquisa, na educao ou como pessoa possuidora de valores imprescindveis ao ser humano. Ao professor Anselmo Chaves Neto, pelos ensinamentos, incentivos e pelos momentos de descontrao nesta rdua caminhada. Ao professor Jair Mendes Marques, pela sua didtica, clareza, e ensinamentos que contriburam de forma significativa para o desenvolvimento deste trabalho. professora Maria Terezinha Arns Steiner pela maneira de ser e ensinar. Aos professores Liliana Madalena Gramani Cumin, Arinei Carlos Lindbeck da Silva, Neida Maria Patias Volpi e Volmir Eugnio Wilhem, pelos ensinamentos. FECILCAM e Universidade Federal do Paran que juntas viabilizaram a realizao do Mestrado. minha famlia, especialmente minha esposa Lcia Celina, aos meus filhos Vitria, Joo Levi e Raquel por entenderem a minha ausncia durante o curso. Aos amigos e colegas que, de alguma maneira, contriburam com a minha caminhada.

Jamais considere seus estudos como uma obrigao, mas como uma oportunidade invejvel para aprender a conhecer a influncia libertadora da beleza do esprito, para seu prprio prazer pessoal e para proveito da comunidade qual seu futuro trabalho pertencer. Alberto Einstein

vi

SUMRIO

LISTA DE GRFICOS ...............................................................................................viii LISTA DE QUADROS................................................................................................viii LISTA DE TABELAS ...................................................................................................ix LISTA DE SIGLAS........................................................................................................x RESUMO......................................................................................................................xi ABSTRACT.................................................................................................................xii 1 INTRODUO.......................................................................................................13 1.1 O PROBLEMA ....................................................................................................13 1.2 OBJETIVOS ........................................................................................................14 1.3 JUSTIFICATIVA ..................................................................................................14 1.4 ESTRUTURA DO TRABALHO ...........................................................................15 2 REVISO DE LITERATURA.................................................................................16 2.1 EDUCAO SUPERIOR NO BRASIL................................................................16 2.2 EVASO ESCOLAR ...........................................................................................17 2.3 MINERAO DE DADOS OU DATA MINING ...................................................18 2.4 ANLISE FATORIAL ..........................................................................................18 2.5 ANLISE DISCRIMINANTE ...............................................................................19 2.6 REGRESSO LOGSTICA .................................................................................20 3 TCNICAS ESTATSTICAS UTILIZADAS...........................................................22 3.1 COMPARAO ENTRE VETORES MDIOS DE 2 POPULAES ................22 3.1.1 Matrizes de Covarincias Diferentes 1 2 ..................................................24 3.2 MANOVA.............................................................................................................24 3.3 ANLISE DISCRIMINANTE - MODELOS ..........................................................26 3.3.1 Funo Discriminante de Fisher. .....................................................................26 3.3.2 Estimando a Probabilidade de Erro na Classificao. .....................................27 3.3.3 Mtodo de Lachenbruch...................................................................................28 3.4 REGRESSO LOGSTICA - MODELO ..............................................................29 3.4.1 O Modelo Logit .................................................................................................30 3.4.2 Estimao o Parmetro .................................................................................31 3.5 ANLISE FATORIAL - MODELOS .....................................................................33 3.5.1 Modelo de Anlise Fatorial...............................................................................33 3.5.2 Modelo de Fatores Ortogonais.........................................................................34 3.5.3 Estimando o Nmero de Fatores .....................................................................35 3.5.4 Estimando as Matrizes Lpxm e pxp ...................................................................35 3.5.5 Estimao dos Escores Fatoriais .....................................................................35 4 DELIMITAO DA PESQUISA E METODOLOGIA ............................................37 4.1 REA DE ABRANGNCIA .................................................................................37 4.2 POPULAO PESQUISADA .............................................................................37 4.3 DADOS................................................................................................................40 4.4 INSTRUMENTO DE COLETA DE DADOS. .......................................................40 4.5 CARACTERIZAO DOS GRUPOS .................................................................41 4.6 IDENTIFICAO DAS VARIVEIS...................................................................41 5 RESULTADOS OBTIDOS.....................................................................................43 5.1 COMPARAO ENTRE AS MDIAS DOS GRUPOS 1 E 2 ............................43 5.1.1 Comparao Entre Mdias Para 1 2 .........................................................43

vii

5.1.2 Comparao entre mdias MANOVA ...........................................................44 5.2 ESTATSTICAS DESCRITIVAS .........................................................................44 5.3 CLASSIFICAO DE FISHER PARA OS GRUPOS 1 E 2................................48 5.3.1 Construo da FDL de Fisher ..........................................................................49 5.3.2 Porcentagem de Classificaes Incorretas - Mtodo de Lachenbruch ...........51 5.4 CLASSIFICAO A PARTIR DA REGRESSO LOGSTICA ...........................52 5.4.1 Resultados Para o Conjunto A .........................................................................52 5.4.2 Resultados Para o Conjunto B .........................................................................53 5.5 CLASSIFICAO A PARTIR DE ESCORES FATORIAIS.................................54 5.5.1 Determinao dos Escores Fatoriais ...............................................................55 5.5.2 Escores Fatoriais na FDL de Fisher.................................................................56 5.5.3 Escores Fatoriais na Funo Logit...................................................................57 5.6 COMPARAO ENTRE OS MTODOS ...........................................................58 5.7 CLASSIFICAO DE UM NOVO INDIVDUO ...................................................59 6 CONCLUSES......................................................................................................60 6.1 SUGESTES PARA TRABALHOS FUTUROS .................................................61 REFERNCIAS...........................................................................................................62 APNDICE A PROGRAMA PARA A FDL DE FISHER .........................................64 APNDICE B MTODO DE LACHENBRUCH PROGRAMA .............................65 APNDICE C PARMETROS DA FUNO LOGIT PROGRAMA....................68 APNDICE D MANOVA PARA 2 GRUPOS PROGRAMA .................................71 APNDICE E PROGRAMA PARA INFERNCIA SOBRE MDIAS ....................73 APNDICE F - QUESTIONRIO ...............................................................................75 ANEXO I - TEOREMA DA DECOMPOSIO ESPECTRAL....................................77 ANEXO II - ESTIMADORES DE MXIMA VEROSIMILHANA ...............................78 ANEXO III IGUALDADE ENTRE MATRIZES DE COVARINCIAS .....................79

viii

LISTA DE GRFICOS Grfico 1. Curva Logit .................................................................................................30 Grfico 2. Com relao ao curso escolhido ...............................................................45 Grfico 3. Satisfao com relao infra-estrutura ...................................................46

LISTA DE QUADROS Quadro 1. Quadro 2. Quadro 3. Matriz de Confuso Genrica................................................................28 Variveis ................................................................................................42 Porcentagem de classificao errada ...................................................58

ix

LISTA DE TABELAS

Tabela 1. CESUFOZ: Alunos matriculados por curso ..............................................38 Tabela 2. UDC : Alunos matriculados por curso.......................................................38 Tabela 3. UNIAMRICA : Alunos matriculados por curso........................................39 Tabela 4. Anglo-Americano: Alunos matriculados por curso....................................39 Tabela 5. UNIFOZ : Alunos matriculados por curso .................................................39 Tabela 6. Com relao ao curso escolhido...............................................................44 Tabela 7. Objetivo ao fazer um curso superior .........................................................45 Tabela 8. Tempo destinado para os estudos............................................................47 Tabela 9. Nota mdia no vestibular ..........................................................................47 Tabela 10. Grupo 2 - Motivo do afastamento do curso.............................................48 Tabela 11. Resultados da FDL de Fisher para o Conjunto A ....................................49 Tabela 12. Resultados da FDL de Fisher para o conjunto B.....................................50 Tabela 13. Matriz de Confuso Lachenbruch (Conjunto A)....................................51 Tabela 14. Matriz de Confuso Lachenbruch (Conjunto B)....................................51 Tabela 15. Matriz de confuso Logit (Conjunto A)..................................................52 Tabela 16. Resultados da Logit para o conjunto A ....................................................53 Tabela 17. Matriz de confuso Logit (Conjunto B)..................................................53 Tabela 18. Resultados da Logit para o Conjunto B. ..................................................54 Tabela 19. Autovalores e Varincia Explicada ..........................................................55 Tabela 20. Matriz de Pesos........................................................................................55 Tabela 21. Resultados da FDL de Fisher para Escores Fatoriais .............................57 Tabela 22. Resultados da Funo Logit para Escores Fatoriais ...............................57

LISTA DE SIGLAS

IES INEP FDL

Instituio de Ensino Superior. Instituto Nacional de Estudos e Pesquisas Educacionais. Funo Discriminante Linear

xi

RESUMO

As Instituies de Ensino Superior (IES) privadas e pblicas do Brasil tm pela frente um grande desafio: diminuir a evaso escolar. Este trabalho procura contribuir com as discusses que envolvem esse problema to complexo, dadas as circunstncias nas quais ele est inserido . Investigou-se variveis que pudessem discriminar dois grupos, um deles formado por alunos que possuem maiores chances de sarem da IES com a titulao e, o outro, formado por alunos que deixaram a IES sem a titulao. Na busca deste objetivo, aplicou-se um questionrio a fim de extrair possveis diferenas entre os grupos e, para determinar quais variveis possuam diferenas significativas. Para tanto, foram utilizadas tcnicas estatsticas como a MANOVA. Determinadas as variveis discriminantes, passou-se para a classificao de indivduos em um dos dois grupos, com a aplicao da Funo Discriminante Linear de Fisher e da Regresso Logstica. Por melhor que sejam esses mtodos, sempre ocorrem erros de classificao, os quais foram estimados. Um dos mtodos aplicados foi o de Lachenbruch. Alm das variveis discriminantes, as funes classificatrias tambm foram alimentadas por escores fatoriais, comparando-se os resultados obtidos com os dois tipos de dados. A pesquisa foi realizada em uma IES de Foz do Iguau Pr de tamanho mdio em comparao com outras Instituies da cidade e, mesmo investigando um universo reduzido, muitos dos resultados obtidos podem ser expandidos para outras instituies. Escores fatoriais e variveis discriminantes, tais como: tempo para estudos e decepo com o curso escolhido, permitiram a construo de funes para predizer em que grupo um novo indivduo vai pertencer.

Palavras Chaves: Evaso Escolar, Funo Discriminante Linear de Fisher, Regresso Logstica, Lachenbruch e Escores Fatoriais.

xii

ABSTRACT

The Brazilian private and public colleges and universities (IES) have a great challenge ahead: diminishing the university evasion. This paper tries to contribute to the discussions which implicate such a complex problem, given the circumstances in which it is inserted. It was investigated variables which could discriminate two groups, one of them formed by students who have better chances to graduate and, the other one, formed by students who left the IES without graduating. In search of this goal, a questionnaire was applied in order to extract possible differences between the groups and, to determine which variables had significant differences. For so much statistical techniques were used, such as the MANOVA. After determining the discriminating variables, happened the individual classification in one of the groups and, with the application of the Fisher Linear Discriminating Function and the Logistics Regression. As good as these methods might be, classification mistakes always happen, which were estimated. One of the methods used was the Lachenbruchs. Besides the discriminating variables, the classificatory functions were also fed on factorial scores, comparing the results obtained with the two kinds of data. The research was performed at one medium size IES in Foz do Iguau PR, compared to other institutions in the city and, even investigating a reduced universe, a lot of the results obtained can be expanded to other institutions. Factorial scores and discriminating variables, such as: time to study and deception with the chosen course, let us build functions to predict to which group a new individual will belong. Key words: School Evasion, Fisher Linear Discriminating Function, Logistics Regression, Lachenbruch and Factorial Scores.

13

INTRODUO H alguns anos, o Brasil era chamado de pas do futuro. Pois bem, o futuro

chegou e o Brasil no conseguiu diminuir os seus problemas sociais. Especialistas afirmam que um dos componentes desta problemtica a baixa escolaridade do povo brasileiro. Governo e educadores procuram estratgias que diminuam a evaso escolar. Tentou-se a amenizao do problema promovendo automaticamente o aluno para a srie seguinte, reduzindo a mdia de aprovao e transferindo toda a culpa da reprovao para o professor. As altas taxas de evaso escolar no so provocadas exclusivamente pela suposta ineficincia do ensino oferecido pelas escolas brasileiras. Aspectos sociais, psicolgicos e outros, tambm devem ser considerados. As Instituies de Ensino Superior, particularmente as privadas, vem encontrando grandes dificuldades nesta questo que, muitas vezes, acarretam o fechamento de cursos. A estatstica uma ferramenta de grande valor nesta discusso, dado o elevado nmero de elementos e informaes das populaes envolvidas. Garimpar dados e analis-los com mtodos apropriados , com certeza, uma forma de contribuir com as discusses desta problemtica. 1.1 O PROBLEMA inequvoca a existncia dos problemas educacionais no Brasil, haja vista o ltimo teste do PISA1 no qual o pas ficou com a ltima classificao. O teste avaliou alunos do Ensino Fundamental, mostrando a precariedade do nosso sistema de ensino. Como no poderia deixar de ser, o problema chegou s universidades. As pblicas tentam se preservar a partir dos testes seletivos, j as privadas se vem sem sada para o problema; ou aceitam alunos despreparados ou no pagam as contas no final do ms. O resultado deste despreparo e de outros fatores um alto ndice de desistncia. A discusso deste problema passa, entre outras anlises, pela identificao dos alunos mais propensos desistncia. Uma questo que se apresenta a possibilidade de identificar alunos que deixaro o curso sem titulao. Diante deste problema, buscou-se analisar se mtodos estatsticos podem estimar,

Programa Internacional de Avaliao Comparada.

14

com uma certa margem de erro, o nmero de alunos que se incluiro no grupo dos desistentes? 1.2 OBJETIVOS OBJETIVO GERAL Identificar de deciso. OBJETIVOS ESPECFICOS Aplicar tcnicas de Estatstica Multivariada. Estudar a situao, no que tange as desistncias, das IES privadas. Apresentar alternativas que contribuam com a minimizao do problema de desistncias nas IES privadas. Analisar o caso de uma IES da regio de Foz do Iguau-Pr. alunos de IES privadas com propenso desistncia,

proporcionando aos administradores elementos auxiliadores nas eventuais tomadas

1.3

JUSTIFICATIVA Nos ltimos dez anos, houve no Brasil um aumento significativo no nmero de

IES privadas. Particularmente na regio de Foz do Iguau-Pr, que de duas, passou a ter sete, um aumento de 250%. Um aumento desta magnitude implica em distores, pois h sinais de que o mercado no exigia tal aumento e uma das evidncias a dificuldade na formao de turmas. Muitas IES possuem cursos autorizados pelo MEC, mas que no funcionam devido a no formao de turmas. So vrias as estratgias usadas na montagem das turmas iniciais, acarretando, muitas vezes, na matrcula de alunos que no sabem o que esto fazendo naquela IES e naquele curso. Os discentes foram, de certa forma, levados pelas estratgias de marketing. No prudente condenar as IES privadas, este um processo natural pela sobrevivncia, mas um procedimento que, quando agressivo, agrava as desistncias. O aluno, em um primeiro momento, coloca-se como possuidor das

15

capacidades necessrias para ingressar naquela instituio e naquele curso. Com o passar dos meses, ele comea a constatar as suas deficincias na formao escolar, certifica-se das dificuldades financeiras, conclui que no tem afinidade com o curso e que a instituio no lhe oferece elementos que possam convenc-lo do contrrio. A desistncia um fator a ser analisado e minimizado, pois o problema da evaso escolar nas IES privadas no est associado apenas s questes financeiras, no mbito mais restrito das instituies, mas tambm qualidade dos profissionais formados. Diminuir as desistncias um objetivo, mas o uso de estratgias erradas, tais como distribuio de notas diminuindo as reprovaes e em conseqncia as desistncias - provoca a diminuio da qualidade dos cursos e implica na formao de profissionais que no esto preparados para o mercado de trabalho. Novamente voltamos questo econmica, j que este um custo que ser arcado pela sociedade. Portanto, fazer a predio de alunos propensos desistncia, com o uso de tcnicas de Estatstica Multivariada uma maneira de oferecer subsdios para a diminuio da evaso escolar um problema com vrias implicaes negativas.

1.4

ESTRUTURA DO TRABALHO Este tpico abordar as distribuies dos captulos que comporo o trabalho . Primeiro captulo: formado pela descrio do problema, objetivos gerais e

especficos, justificativas e a atual seo. Segundo captulo: neste captulo faz-se uma reviso bibliogrfica, abordando tcnicas estatsticas e as possveis fontes de pesquisa. Terceiro captulo: trata-se dos mtodos utilizados no trabalho. Quarto captulo: delimita-se a rea da pesquisa, descreve-se a populao alvo e a metodologia. Quinto captulo: usam-se as tcnicas apresentadas no captulo trs para o tratamento dos dados e anlises. Sexto captulo: concluses e sugestes para trabalhos futuros.

16

REVISO DE LITERATURA A seguir encontra-se uma reviso bibliogrfica dos contedos tratados neste

trabalho, tais como: Educao Superior no Brasil, Evaso Escolar e Estatstica. 2.1 EDUCAO SUPERIOR NO BRASIL Segundo o Instituto Nacional de Estudos e Pesquisas Educacionais (INEP) Censo de 2004 - existem 2.013 instituies de ensino superior no Brasil , sendo 224 pblicas e 1.789 privadas. O nmero de vagas oferecidas nas pblicas de 308.492, j as privadas oferecem um total de 2.011.929, mostrando uma predominncia com relao ao nmero de vagas do ensino superior privado sobre o pblico. Informa o censo que o nmero de candidatos inscritos no processo seletivo das instituies pblicas 2.431.388, sendo assim, a relao candidatos por vaga igual a 7,9 aproximadamente. As instituies privadas tiveram 2.622.604 candidatos inscritos nos vestibulares, ficando a relao candidatos por vaga na ordem de 1,3 . O nmero de matrculas efetivadas nas pblicas igual a 287.242, isto significa que 93% das vagas ofertadas foram preenchidas. J nas instituies privadas, o nmero de ingressos foi de 1.015.868, tendo sido preenchidas 50% das vagas. Os nmeros mostram a dificuldade das instituies privadas na formao de turmas iniciais, pois apenas 50% das vagas so preenchidas e subtraindo deste nmero as desistncias que ocorrero nos primeiros perodos, deslumbra-se uma situao no mnimo desconfortvel. As IES privadas que sofrem os efeitos desta realidade, procuram minimizar custos com prejuzo na qualidade de seus cursos. SCHWARTZMAN (1999), conclui que a crescente demanda por vagas no Ensino Superior est sendo atendida pelo setor privado, j que as pblicas esto estagnadas neste quesito. Observa tambm, as dificuldades em promover um ensino de qualidade em massa; um ensino de qualidade exigiria uma taxa relativamente alta de professores por aluno. SCHWARTMAN (2003) escreve que o crescimento do setor privado fundamental para o atendimento da demanda e ser decisivo para se atingir as metas do Plano Decenal de Educao de prover at o final desta dcada, educao superior para pelo menos 30% da populao na faixa etria de 18 a 24 anos. Isto porque no se espera investimento significativo do setor pblico federal e estadual , seja pela crise fiscal por que passam, seja pelas insuficincias ainda existentes no

17

ensino mdio e no pr-escolar. A proviso de crdito educativo e outras formas de ajuda a alunos carentes sero decisivas para se atingir a meta para o sistema. Os novos estudantes sero, cada vez mais, oriundos das classes econmicas mais baixas e no podero arcar com as mensalidades vigentes. 2.2 EVASO ESCOLAR A evaso escolar um problema que tem preocupado os profissionais ligados educao de todo o mundo, mormente no Brasil, onde as mazelas sociais e sistema de ensino deficiente agravam o problema. As razes da evaso escolar so as mais diversas segundo os estudiosos da rea, desde motivos econmicos at os psicolgicos. BAKER e SIRYK (1989), identificaram quatro dimenses relacionadas integrao do estudante universidade: (a) o ajustamento acadmico ; (b) o ajustamento relacional-social; (c) o ajustamento pessoal-emocional; e (d) o comprometimento com a instituio/aderncia. DIAZ (1996) e GONALVES (1997), citados por GAIOSO (2005), fundamentados no modelo terico de TINTO (1975), afirmam ser possvel identificar cinco categorias de causas da evaso: as psicolgicas, as sociolgicas, as organizacionais, as interacionais e as econmicas. As psicolgicas, resultantes das condies individuais como imaturidade, rebeldia, dentre outras, desconsideram o impacto que fatores externos podem ter sobre a personalidade, ocasionando uma predisposio evaso. GAIOSO (2005), escreve que a maioria dos estudos consultados sobre o referido tema se refere s causas da evaso. Tais estudos podem ser agrupados, conforme as principais razes apontadas pelos autores, como as responsveis pela evaso, tais como: a repetncia; a desistncia do curso em uma IES por haver conquistado nova vaga na mesma ou em outra instituio, atravs de vestibular; a falta de orientao educacional no ensino mdio; o desprestgio da profisso; a (des)motivao e o horrio de trabalho incompatvel com o do estudo.

18

2.3

MINERAO DE DADOS OU DATA MINING a obteno de informaes desconhecidas de grandes bancos de dados.

Para tanto so usadas diversas tcnicas, tais como: ferramentas estatsticas multivariadas , rvores de deciso, redes neurais, entre outras. O armazenamento e minerao de dados passam a ser mais valorizados a partir da expanso da automao e informatizao. A crescente quantidade de informaes que as organizaes tm a sua disposio no seria de utilidade sem o uso das tcnicas de armazenamento e minerao de dados. HAIR et al., (2005) , explicam que armazenamento e minerao de dados so elementos complementares no melhoramento do acesso a dados para tomadas de decises. Armazenamento de dados o mecanismo facilitador para sistemas de apoio a decises, guardando os dados de uma organizao em uma nica e integrada base de dados e fornecendo uma perspectiva histrica. Minerao de dados, tambm conhecida como descoberta do conhecimento em bases de dados, a busca por relaes e padres em grandes bases de dados. Como sugere o termo, minerao de dados tem uma orientao exploratria de busca por conhecimento obscurecido pelos complexos padres de associao e grandes quantias de dados. So diversas as tcnicas de minerao de dados. A seguir apresentamos algumas delas, tais como: anlise fatorial, anlise discriminante e regresso logstica. 2.4 ANLISE FATORIAL Tem a finalidade de descrever, se possvel, as relaes de covarincia entre diversas variveis em funo de poucas, no observveis, chamadas de fatores. Com a anlise fatorial pode-se resumir um conjunto de variveis observveis em um conjunto menor, com uma pequena perda de informaes. POLYDORO, PRIMI, et al., (2001), fizeram um estudo da evaso escolar no mbito psicolgico, desenvolvendo uma escala de integrao ao Ensino Superior. A pesquisa envolveu 46 itens e para agrup-los foi usada a anlise fatorial. O estudo apontou a existncia de dois grandes fatores relacionados integrao ao ensino superior: (a) o primeiro associado sobretudo aos aspectos externos do indivduo, relacionados ao ambiente universitrio, de satisfao com o curso e, portanto, aderncia ao mesmo e, (b) o segundo, sobretudo, os aspectos internos do indivduo,

19

de capacidade de enfrentamento, reaes fsicas psicossomticas e estado de humor. CUNICO (2005), usou anlise fatorial na predio da satisfao dos

funcionrios de uma grande rede varejista onde procurou, a partir da anlise dos componentes principais identificar as variveis mais importantes para a sua pesquisa. Tais variveis foram usadas em funes classificatrias, possibilitando a identificao dos funcionrios satisfeitos e dos insatisfeitos. PEREIRA (2003), em sua tese de doutorado estudou a evaso de alunos e os custos ocultos para as Instituies de Ensino Superior. A anlise fatorial indicou os motivos que mais influenciaram na escolha do curso e na desistncia do mesmo. Notou-se que os fatores que influenciam a deciso do aluno em abandonar o curso e a IES consistem de fatores internos instituio (infra-estrutura deficitria, acervo desatualizado, mtodos de avaliao docente, deficincia didtico pedaggica dos professores) e inerentes ao estudante (dificuldades financeiras, escolha equivocada do curso, falta de base para acompanhar o curso escolhido e o fato de ser admitido em um curso que no foi a sua primeira opo). 2.5 ANLISE DISCRIMINANTE Com a Anlise Discriminante procura-se classificar objetos em populaes previamente definidas. Em primeiro lugar, importante determinar as variveis que diferenciam as populaes, para em seguida utilizar a Funo Discriminante de Fisher para alocar, com uma certa margem de erro, o indivduo na populao com caractersticas mais prximas a dele. Para resolver o problema proposto, foi usada a MANOVA para determinar as variveis que discriminam as populaes de desistentes e no-desistentes. Em seguida, com as variveis identificadas, aplicouse a Funo Linear Discriminante de Fisher para classificar os indivduos em uma destas populaes. CUNICO Discriminante (2005), trabalhou, entre outras tcnicas, com a Anlise

para a classificao de funcionrios de uma loja varejista em

satisfeitos e insatisfeitos. A partir da aplicao de questionrios, ele levantou as populaes de satisfeitos e insatisfeitos e, em seguida, utilizou a Funo Discriminante de Fisher para alocar um novo indivduo em uma das populaes satisfeito ou insatisfeito.

20

PIZZOL (2004) , discutiu um mtodo de tipificao de sistemas de produo dividido em duas etapas. Na primeira, foram usados grupos focais e, na segunda, empregou-se a Anlise Discriminante para validar os resultados obtidos nas entrevistas em grupos. O mtodo foi aplicado na identificao de sistemas de produo de caf para a regio de Marlia, no Estado de So Paulo. MARTEL et al., (2003), estudou as pupunheiras ao longo dos rios Amazonas e Solimes. Nesse estudo, foram aplicadas tcnicas estatsticas multivariadas a 15 descritores morfolgicos numa tentativa de caracterizar, morfometricamente, trs raas existentes ao longo da Bacia desses rios. As trs anlises em conjunto permitiram uma discriminao das raas, mostrando os descritores mais importantes. 2.6 REGRESSO LOGSTICA A relao entre variveis pode ser descrita por mtodos de regresso, sendo esses os mais diversos regresso linear, quadrtica, exponencial, entre outras. A regresso logstica caracterizada por possuir varivel resposta (dependente) binria ou dicotmica. Neste trabalho, a varivel resposta dicotmica indica a desistncia ou a no-desistncia. Este mtodo foi usado em paralelo com a FDL de Fisher e os resultados comparados. SANTOS, et al. (2005), usou regresso logstica e redes neurais para a predio da soroprevalncia da Hepatite A. O desempenho de tais modelos foi medido atravs da taxa de classificao incorreta em uma amostra do municpio de Duque de Caxias, Rio de Janeiro. Resultados mostram que o modelo neural, aplicado sobre a informao relevante extrada do modelo de regresso logstica, apresenta um bom desempenho, alcanando uma eficincia de classificao geral acima de 88%. CUNICO (2005), buscando classificar funcionrios de uma rede varejista em satisfeitos ou insatisfeitos, comparou os resultados obtidos a partir da FDL de Fisher e a regresso logstica. Concluiu que para o problema estudado a regresso logstica mostrou-se mais eficiente do que FDL de Fisher. Os resultados obtidos com a regresso logstica foram bastante prximos tanto para o treinamento, quanto para teste, sendo alcanado um percentual de acerto de 71,4% .

21

GIMENO e SOUZA (1995), utilizaram a anlise multivariada por estratificao e com regresso logstica, utilizando dados de um estudo de caso-controle sobre cncer de esfago. Oitenta e cinco casos e 292 controles foram classificados segundo sexo, idade e os hbitos de beber e de fumar. As estimativas mostraram que as duas tcnicas so complementares.

TCNICAS ESTATSTICAS UTILIZADAS Este captulo tratar de forma mais especfica dos mtodos que conduziram

execuo do trabalho proposto. 3.1 COMPARAO ENTRE VETORES MDIOS DE 2 POPULAES No caso univariado, utiliza-se uma estatstica com distribuio t de Student para testar a igualdade de mdias entre duas populaes, para o caso multivariado possvel desenvolver uma estatstica com distribuio T2 de Hotelling para testar a igualdade de dois vetores de mdias. Esta estatstica apropriada para testar a igualdade de dois vetores de mdias quando alguns pressupostos so verificados. Considerem-se duas amostras aleatrias de dimenses n1 e n2 retiradas de duas populaes 1 e 2 , respectivamente. Para as observaes sobre p variveis podem ser calculadas as estatsticas mdia X e matriz de covarincia S, segundo as frmulas :

X1 =

1 n1 X 1j n1 j =1

e a

S1 =
partir

1 n1 ( X 1j X 1 )( X 1j X 1 )' para uma amostra n1 1 j =1


da populao 1;
X2 = 1 n2 X 2j n2 j =1

X 11 , X 12 ,..., X 1n1
S2 =

obtida

1 n2 ( X 2j X 2 )( X 2j X 2 )' para uma amostra X 21 , X 22 ,..., X 2n2 retirada da n2 1 j =1

populao 2. Os valores X 1 e amostrais. Em X 11 , X 12 ,..., X 1n1

X 2 so os vetores de mdias das amostras


e X 21 , X 22 ,..., X 2n2 o primeiro subscrito indica a

provenientes das populaes 1 e 2 . S1 e S2 so as matrizes de covarincias

populao de onde foi retirada a amostra e o segundo a observao, sendo que cada observao possui p variveis. Inferncias acerca das mdias das populaes ( 1 e 2 ), devero ser efetuadas para verificar se 1 = 2 . Nesta discusso, os pressupostos a seguir, relativos estrutura dos dados devem ser observados. 1- A amostra X 11 , X 12 ,..., X 1n1 uma amostra aleatria de dimenso n1 retirada de uma populao com vetor de mdias 1 e matriz de covarincia 1 .

23

2- A amostra

X 21 , X 22 ,..., X 2n2 uma amostra aleatria de dimenso n2

retirada de uma populao com vetor de mdias 2 e matriz de covarincia 2 . 3- As duas amostras X 11 , X 12 ,..., X 1n1 e X 21 , X 22 ,..., X 2n2 so independentes. Para pequenas amostras, pressupostos: 4- As duas populaes seguem uma distribuio normal multivariada. 5- As matrizes de covarincia das duas populaes so iguais (1 = 2). Quando as duas matrizes 1 e para encontrar um estimador Sp para . 2 so desconhecidas, mas se pressupe serem iguais a , necessrio combinar as matrizes amostrais S1 e S2 necessrio acrescentar os seguintes

Sp =

(n1 1) S1 + (n2 1) S 2 n1 + n2 2
e H1: 1 - 2 0, usa-se a

Para testar as hipteses H0: 1 - 2 =0 estatstica a seguir:


1

1 1 T = ( X 1 X 2 ) . + .S p .( X 1 X 2 ) n1 n2
2 '

sendo X 1 e X 2 os estimadores de 1 e 2 se:


T 2.

A hiptese H0 ser rejeitada

n1 + n2 p 1 > Fp , n1 + n 2 p 1 ( ) (n1 + n2 2). p

onde Fp , n1 + n2 p 1 ( ) obtido da distribuio F de Snedecor com p e (n1 + n2 p 1) graus de liberdade e nvel de significncia igual a . Quando os vetores de mdias X 1 e X 2 so considerados diferentes, pode-se determinar quais as componentes desses vetores apresentam diferenas significativas. Segundo JOHNSON e WICHERN (1998), a comparao das componentes de X 1 e X 2 pode ser feita a partir dos intervalos:

1 1 ( X 1i X 2i ) c. + .sii n n 2 1

para i = 1,2,...,p e

onde sii pertence a diagonal principal da matriz Sp

c2 =

(n1 + n2 2). p .Fp , n1 + n2 p 1 ( ) n1 + n2 p 1

24

3.1.1 Matrizes de Covarincias Diferentes 1 2 Sejam 1 e 2 as mdias das populaes 1 e 2, respectivamente. Desejase testar as hipteses H0: 1 - 2 =0 e H1: 1 - 2 0 , considerando as matrizes de covarincias diferentes. Considere amostras de tamanhos n1 e n2 com p variveis tais que n1 - p e n2 - p sejam grandes. Segundo JOHNSON e WICHERN (1998), devemos rejeitar a hipteses H0 se:
S S 2 ( X 1 X 2 ) . 1 + 2 .( X 1 X 2 ) > p ( ) n n 2 1
'
2 onde p ( ) proveniente da distribuio qui-quadrado com graus de

liberdade p e nvel de significncia . Observando-se que tanto S1 como S2 so matrizes do tipo pxp e X 1 X 2 um vetor coluna px1 . Para a comparao entre as componentes dos vetores de mdias X 1 e X 2 , obtm-se os intervalos:
2 ( X 1i X 2i ) p ( ) sii

para i = 1,2,...,p ,

sendo sii o elemento da diagonal principal da matriz

1 1 n S1 + n S 2 , X 1i e 2 1

X 2i representam o i-simo elemento dos vetores

X 1 e X 2 . As componentes sero

consideradas diferentes caso os extremos dos intervalos apresentem sinais iguais. Intervalos com sinais diferentes nos extremos indicam que as diferenas entre as componentes no so significativas. 3.2 MANOVA A anlise de varincia multivariada (MANOVA) faz a comparao entre mdias para diferentes variveis simultaneamente. Utilizam-se dois passos seqenciais: no primeiro, testa-se a hiptese de igualdade de mdias entre os grupos; no segundo passo, se o resultado do passo anterior apresentar diferenas significativas entre as mdias, utilizam-se testes adicionais no sentido de explicar as diferenas entre os grupos. A hiptese nula de igualdade de mdias testada para um conjunto de p variveis simultaneamente. A hiptese nula a ser testada na MANOVA a seguinte:

25

H0: 1 = 2 = ... = g

com

1 j 2j j = ... pj

j = 1, 2,..., g

isto , as mdias

populacionais dos g grupos so todas iguais. Suposies para o uso da MANOVA: (1) Independncia (as amostras aleatrias devem ser independentes) (2) Homocedasticidade (todas as populaes devem ter mesma matriz covarincia ) (3) Todas as populaes devem ser normalmente distribudas. A condio (3) tem relevncia diminuda quando as amostras so de grande dimenso. O teste de hipteses segue a forma: H0: 1 = 2 = ... = g H1: pelo menos uma das mdias i (i = 1, 2, ... , g) diferente das demais. Onde 1 = 2 = ... = g so as mdias das populaes 1, 2, ..., g. Para n = ni grande, rejeita-se a hiptese H0 ao nvel de significncia se
i =1 g

p + g det(W ) 2 > p ( g 1) ( ) n 1 . ln 2 det( B + W )


g g ni

com onde:

B = ni ( X i X ).( X i X )' e
i =1

W = ( X ij X i ).( X ij X i )'
i =1 j =1

X ij = j-sima observao da i-sima amostra (ou i-simo tratamento) X i = mdia da i-sima amostra (ou i-simo tratamento)
X = mdia global (todas as amostras)

Quando a hiptese H0 rejeitada, pode-se identificar qual ou quais componentes dos vetores de mdias diferem significativamente dos demais. Seja n = ni . Para o modelo de MANOVA descrito, com confiana de no
i =1 g

mnimo ( 1- ), kj - lj pertence ao intervalo

26

(X

w jj 1 1 + X ) tn g kj lj pg ( g 1) n g n n l k

para todas as componentes j = 1, 2, ... , p e todas as diferenas l < k = 1, 2,...,

g. Aqui wjj o j-simo elemento da diagonal de W. Caso os extremos do intervalo


apresentem sinais diferentes, descarta-se a hiptese de igualdade entre as componentes. 3.3 ANLISE DISCRIMINANTE - MODELOS De acordo com HAIR et al., (2005), a anlise discriminante aplicvel a qualquer pesquisa com o objetivo de entender a pertinncia a grupos, seja de indivduos (p.ex., clientes versus no-clientes) , empresas (p. ex., lucrativas versus no-lucrativas), produtos (p. ex., de sucesso versus sem sucesso) ou qualquer outro objeto que possa ser avaliado em uma srie de variveis independentes. A funo discriminante constitui em uma combinao linear de variveis independentes, sendo os seus principais pressupostos a normalidade multivariada e a igualdade das matrizes de covarincias. Pode-se construir uma funo discriminante a partir das caractersticas de dois grupos de indivduos e com essa funo classificar um novo indivduo em um dos grupos. 3.3.1 Funo Discriminante de Fisher. Dentro da anlise discriminante, um tpico de grande relevncia a funo discriminante linear de Fisher , apresentada a seguir. Segundo JOHNSON e WICHERN (1998), a idia de Fisher foi transformar as observaes multivariadas X nas observaes univariadas Y tal que os Ys nas populaes 1 e 2 fossem separadas tanto quanto possvel. A FDL de Fisher dada pela combinao linear Y = a' .X Considerando os

estimadores S e X de e , respectivamente, a funo discriminante de Fisher estimada para dois grupos dada por:

Y = a' .X

27

onde

a' = ( X 1 X 2 ) S p 1

Sp =

(n1 1) S1 + (n2 1) S2 , X 1 a mdia n1 + n2 2

amostral do primeiro grupo e X 2 do segundo grupo. A regra para alocao de uma observao X 0 a seguinte: Aloca-se X 0 no grupo 1 se:
Y +Y 1 Y0 = a' X 0 m = a' ( X 1 + X 2 ) = 1 2 2 2

Aloca-se X 0 no grupo 2 se:


Y0 < m

3.3.2 Estimando a Probabilidade de Erro na Classificao. So dois tipos de erros que podem ocorrer quando se trabalha com duas populaes. Quando o elemento amostral pertence populao 1, mas a funo discriminante o classifica como sendo da populao 2, tem-se o erro tipo 1. J o erro tipo 2 deriva da classificao de um elemento amostral como sendo da populao 1, quando este proveniente da populao 2. Denominando p(2/1) e p(1/2) as probabilidades de ocorrncia dos erros 1 e 2 , respectivamente. Logo: p(2/1) = a probabilidade de classificar erradamente um elemento em 2 quando ele de 1; p(1/2) = a probabilidade de classificar erradamente um elemento em 1 quando ele de 2. Para a diminuio do erro na classificao de um indivduo em uma das populaes, importante que estas probabilidades sejam a menor possvel. O mtodo de estimao das probabilidades p(2/1) e p(1/2) que ser visto a seguir denominado de Mtodo da Resubstituio. MINGOTI (2005), escreve que neste mtodo, os escores de cada elemento amostral observado das populaes 1 e 2 so calculados, sendo a regra de discriminao utilizada para classificar os n = n1 + n2 elementos da amostra conjunta. Quando a funo discriminante de boa qualidade, espera-se que ela apresente uma grande porcentagem de acerto na classificao dos elementos amostrais em relao populao a que de fato pertencem. Portanto, neste mtodo, os mesmos elementos amostrais participam da estimao da regra de classificao e de estimao dos erros de classificao. As

28

freqncias de classificaes corretas e incorretas podem ser sumarizadas em uma matriz de confuso, como mostra o quadro 1.

Populao classificada pela regra 1 Populao de origem 1 2 2 Total

n11 n21

n12 n22

N1 N2

Quadro 1. Matriz de Confuso Genrica

sendo nij o nmero de elementos pertencentes populao de origem i e que so classificados pela funo discriminante como pertencentes populao j. Quando i = j, tem-se o nmero de classificaes corretas, e quando i j, tem-se o nmero de classificaes incorretas. Com base nesses dados, as estimativas das probabilidades de ocorrncia dos erros 1 e 2 so dados respectivamente por

n ) p(2 / 1) = 12 n1

n ) p(1 / 2) = 21 n2

Este procedimento de estimao do erro aparente de classificao (APER) consistente, mas viciado (Johson; Wichern, 1998), e tende a subestimar os verdadeiros valores de p(2/1) e p(1/2) para elementos que no pertencem amostra conjunta utilizada para a construo da funo discriminante, isto , novos elementos amostrais.

3.3.3 Mtodo de Lachenbruch uma forma de avaliar a eficincia da regra de classificao. Esta tcnica segue os passos apresentados abaixo: (1) Escolher um dos grupos (amostras). (2) Descartar uma observao do grupo. (3) Construir uma funo discriminante para as (n1 1) observaes restantes do grupo escolhido e para as n2 observaes do segundo grupo, ou seja, para (n1 1 + n2) observaes.

29

(4) Classificar

observao

descartada

usando

funo

obtida

anteriormente. (5) Realocar a observao descartada e repetir os passos 1 e 2 para todas as observaes do primeiro grupo. (6) Repetir os passos 1 a 5 para o segundo grupo.

n n ) ) Pode-se obter ento: p(2 / 1) = 12 , p(1 / 2) = 21 e n1 n2


que a proporo total esperada de erro.

E ( APER ) =

+ n 12 21 n + n 1 2

Desta forma obtm-se uma regra de reconhecimento e classificao construda com as n observaes amostrais e testada com todas as referidas observaes, mas sempre com a observao em teste fora do ajuste. Isto equivale a ter um grupo com

n observaes para o ajuste e outro grupo, tambm de tamanho n, para testar a


eficincia do procedimento. 3.4 REGRESSO LOGSTICA - MODELO Neste tipo de regresso a varivel dependente dicotmica ou binria e de maneira geral se assemelha regresso linear. O modelo da regresso logstica exponencial. Para que a funo obtida tenha propriedades da regresso linear, aplica-se a transformao denominada de logit. Como a varivel resposta na regresso logstica dicotmica, podemos utiliz-la na classificao de objetos em duas populaes distintas, semelhante funo discriminante de Fisher para duas populaes. A curva logstica tem a forma de um S e segundo HAIR et al., (2005), a forma em S no-linear porque a probabilidade de um evento deve se aproximar de 0 e 1, porm jamais ser maior. Assim, medida que as probabilidades se aproximam dos limites inferior e superior de probabilidade (0 e 1), elas devem se amenizar e ficar assintticas nesses limites. A taxa de aproximao de zero igual taxa de aproximao de 1. A curva em forma de S pode ser observada no grfico 1 , onde x so as observaes e a probabilidade.

1
30

0
Grfico 1. Curva Logit

3.4.1 O Modelo Logit Em diversos problemas a varivel resposta apresenta apenas duas categorias. Em especial, pode-se citar o diagnstico de uma doena, onde os casos observados podem ser classificados como sucesso ou fracasso. Uma varivel aleatria Y tem uma distribuio de Bernoulli com parmetro quando assume apenas os valores 1 e 0 com probabilidade e (1 ), respectivamente. O nmero 1, em geral, representa sucesso. Para Y = 1 e Y = 0 temos as probabilidades P(Y = 1) = e P(Y = 0) = 1 . Quando Yi tem distribuio de Bernoulli com parmetro i , a funo de probabilidade dada por:
yi

f ( yi ; i ) = iy i (1 i )1 yi = (1 i ) i . 1 i
Usando a propriedade dos logaritmos: a log a N = N , pode-se escrever

f ( yi ; i ) = (1 i ).e

y i ln i 1 i

para yi = 0 e 1. A funo ln i chamada de logit de (AGRESTI, 1 i

1990). Na distribuio de Bernoulli a esperana matemtica de Y E(Y) = P(Y = 1) = (x) , representando a dependncia da varivel explicativa X = (x1, ..., xp). Para resposta binria o modelo de probabilidade linear dado por E(Y) = (x) = + x. Para as curvas em forma de S, que o caso da curva Logit, a funo mais apropriada dada por

( x) =
chamada de funo regresso logstica.

e + x , 1 + e + x

31

Aplicando

logaritmo

em

( x) =

e + x 1 + e + x

fazendo

as

devidas

transformaes, encontra-se a funo logit

( x) ln 1 ( x) = + x .
Para p variveis explicativas, tem-se:

( x) ln 1 ( x) = + 1 x1 + 2 x2 + ... + p x p

3.4.2 Estimao o Parmetro Para p variveis explicativas xi e n observaes, com i= 1,...,n, o modelo de regresso logstica pode ser escrito na forma:
p

( xi ) =
com 0 = e xi0 = 1.

e j =0

j xij j xij
p

1 ( xi ) =

1 1 + e j =0 j xij
p

1 + e j =0

Considere a classificao binria , com os grupos Gi = 1 e Gi = 2. Se Gi = 1, denota-se

yi = 1

se

Gi = 2,

denota-se

yi = 0.

Fazendo

1(x) = (x) ,

tem-se 2(x) = 1 - 1(x) = 1 - (x) . Se yi = 1 e Gi = 1, ento ln Gi(x) = ln 1(x) = 1.ln (x) = yi.ln (x) . Se yi = 0 e Gi = 2, ento ln Gi(x) = ln 2(x) = 1.ln (1- (x)) = (1- yi).ln (1- (x)). Sendo yi = 0 ou 1 - yi = 0, tem-se ln Gi(x) = yi.ln (x) + (1- yi).ln (1- (x)). Seja uma amostra de tamanho n, para obter-se necessrio maximizar a funo de verossimilhana:
n n

l ( ) = ln( Gi ( xi ) = [ yi . ln( ( xi )) + (1 yi ).ln(1 ( xi ))] , onde possui p+1


i =1 i =1

0 1 parmetros = 2 ... p

1 x1 Tx x . Como ( x ) = e e x= 2 T 1 + e x ... x p

1 ( x) =

1 , T 1 + e x

substituindo em l() vem:

32

l ( ) = [ yi T xi ln(1 + e
i =1

xi

)] .

Para a maximizao de l() faz-se as derivadas parciais, resultando em:

l ( ) n = xi ( yi ( xi )) . i =1
Para resolver o conjunto de p + 1 equaes no-lineares
l ( ) = 0 , j = 0, j

1,...,p, usa-se o algoritmo de Newton-Raphson, que possibilita o clculo de . Na forma matricial e considerando um inicial, tem-se: ~ = + ( XX ) 1 X (Y P)
T ( x1 )(1 ( x1 )) x1 T ( x2 )(1 ( x2 )) x2 ~ T X = ( x3 )(1 ( x3 )) x3 ... T ( xn )(1 ( xn )) xn

onde:

( x1 ) ( x2 ) P = ( x3 ) ... ( x ) n

Tendo os valores de , constri-se a funo logit


g ( x) = 0 + 1 x1 + 2 x2 + ... + p x p .

A regra para classificar um indivduo em um dos grupos a seguinte:

se g ( x) 0 , ento x pertence ao grupo 1, ou seja y = 1; se g ( x) < 0 , ento x pertence ao grupo 2, ou seja y = 0.

3.4.3 Algoritmo Para o Clculo de Passo 1: fazer = 0. Passo 2: Calcular os elementos de Y , onde: yi = 1 , se Gi = 1 (grupo1); yi = 0 , se Gi = 0 (grupo 2). Sendo i = 1,2,...,n. Passo 3: Calcular os elementos de P, sendo ( xi ) = coluna com (p+1) linhas.
e
T

xi
T

1 + e

xi

, xi um vetor

33

~ Passo 4: Calcular a matriz X de ordem n x (p+1) fazendo a multiplicao da


i-sima linha de X (matriz de entrada) por (xi)(1- (xi)), i = 1,2,...,n.
T ( x1 )(1 ( x1 )) x1 T ( x2 )(1 ( x2 )) x2 ~ T X = ( x3 )(1 ( x3 )) x3 ... T ( xn )(1 ( xn )) xn ~ Passo 5: + ( XX ) 1 X (Y P) ,sendo T x1 T x2 T T X = x3 ... T xn

~ ( ( p +1) x1 ), ( X ( p +1) xn ), ( X nx ( p +1) ), (Ynx1 )e( Pnx1 )

Passo 6: Se o critrio de parada estiver satisfeito, parar. Caso contrrio voltar ao passo 3. A anlise da qualidade de ajuste do modelo logstico feita de forma similar ao que foi apresentado na seo 3.3.2, usando-se a matriz de confuso. 3.5 ANLISE FATORIAL - MODELOS O objetivo da anlise fatorial representar um nmero de variveis iniciais observveis em um nmero menor de variveis hipotticas no observveis, denominadas de fatores. A partir do momento em que os fatores so identificados, seus valores numricos, chamados de escores, podem ser utilizados em outras anlises, como por exemplo a anlise de regresso. 3.5.1 Modelo de Anlise Fatorial Seja o vetor aleatrio X px1 com vetor de mdias . Usando notao matricial o modelo pode ser expresso por:

D( X ) = L F + , onde
X 1 1 1 l11 l12 F1 X l F l22 2 2 2 21 , px1 = , F mx1 = 2 , L pxm = ( X ) px1 = ... ... ... ... ... X p p p l p1 l p 2 Fm ... l1m ... l2 m e ... ... ... l pm

34

D pxp

0 0 1 / 1 0 1/ 0 2 0 1/ 3 = 0 ... ... ... 0 0 0

... ... ... ... 0

0 0 0 , sendo: ... 1/ p

F = vetor aleatrio contendo m fatores, com 1 m p e p o nmero de variveis iniciais. Lpxm = matriz de parmetros que precisam ser estimados. lij = peso ou carregamento na i-sima varivel Xi do j-simo fator Fj px1 = vetor de erros aleatrios

3.5.2 Modelo de Fatores Ortogonais Para a apresentao do modelo ortogonal algumas suposies fazemse necessrias. So elas:
os fatores tm mdia igual a zero; os fatores no so correlacionados e tm varincias iguais a 1; os erros no so correlacionados entre si e no necessariamente tem a

mesma varincia, sendo que a varincia de dada pela matriz


1 0 ... 0 0 ... 0 2 ; = ... ... ... ... 0 0 0 p

pxp

os vetores F e so independentes, ou seja, cov ( , F ) = 0 A partir destas suposies e do modelo modelo ortogonal:
Cov( X ) = LL+ V ( X i ) = li2 + li22 + ... + l12m + i 1 Cov( X i , X k ) = li1lk1 + li 2lk 2 + ... + limlkm Cov( X i , F j ) = lij ( X ) = L F + tem-se o

35

3.5.3 Estimando o Nmero m de Fatores Para a obteno de m, devemos extrair os autovalores () da matriz de correlao a fim de determinar quais os autovalores so mais importantes. Pode-se seguir um dos seguintes critrios:
escolher os autovalores que representam maiores propores da varincia

total (i/p , i=1,2,...p). Assim, m (nmero de fatores) igual ao nmero de autovalores escolhidos;
o valor de m ser igual ao nmero de autovalores maiores ou iguais a 1,

critrio proposto por Kaiser (1958).

3.5.4 Estimando as Matrizes Lpxm e pxp Supondo a varivel X padronizada, substitui-se S (matriz de covarincia) pela matriz de correlao R. O mtodo das componentes principais consiste em para cada autovalor i , i = 1,2,...,m retido na estimao de m, encontra-se o autovetor
normalizado correspondente e i , onde e i = (ei1 ... eip )' . Desta forma, as matrizes Lpxm

e pxp so definidas por:

L pxm = [ 1 e 1

2 e 2 ...

m e m ]

pxp = diag ( R pxp L pxm L'mxp ) , onde pxp uma matriz diagonal.

3.5.5 Estimao dos Escores Fatoriais Aps identificar e interpretar os fatores Fj , j=1,2,...,m, relacionados com as variveis padronizadas Zi , i=1,2,...,p, necessrio calcular os escores (valores numricos) para cada elemento amostral, de modo a utilizar esses valores para outras anlises. Para cada elemento amostral k, k = 1,2,...,n, o seu escore no fator Fj dado por:

F jk = w j1Z1k + w j 2 Z 2 k + ... + w jp Z pk
onde (Z1k Z2k ... Zpk) so os valores observados das variveis padronizadas Zi, para o k-simo elemento amostral e os coeficientes wji , i=1,2,...,p so os pesos de ponderao de cada varivel Zi no Fator Fj. Em um dos mtodos usados para a

determinao do escore fatorial, tem-se que F jk dado por:

36
1 1 F jk = ( L`` pxp L pxm ) 1 L`` pxp Z k = Wmxp Z k mxp mxp

onde Wmxp a matriz de ponderao que gera os coeficientes wji , j=1,2,...,m,

i=1,2,...,p

DELIMITAO DA PESQUISA E METODOLOGIA Neste captulo, procurou-se descrever a regio, e os elementos que compem

a pesquisa. Tambm ser mostrado como os dados foram levantados. 4.1 REA DE ABRANGNCIA O projeto foi executado em uma IES da cidade de Foz do Iguau-Pr, situada no extremo-oeste do Estado, fronteira com Paraguai e Argentina, tendo como divisa os rios Paran e Iguau. Os limites de Foz do Iguau so: ao norte com o municpio de Itaipulndia; ao sul com a Argentina; a leste com os municpios de Santa Terezinha de Itaipu, So Miguel do Iguau e Medianeira e a oeste com o Paraguai. A vocao econmica de Foz do Iguau o turismo, motivado pelas Cataratas do Iguau, compras na Argentina e Paraguai, Itaipu e grandes hotis que propiciam o turismo de eventos. Os municpios prximos a Foz do Iguau-Pr tem como atividade principal a agricultura e algumas indstrias, estas com maior concentrao em Medianeira-Pr. Segundo o IBGE, estimativa populacional de 2004, Foz do Iguau-Pr possui 279.620 habitantes; destes, mais de 117 mil tem idade superior a 19 anos e 21.380 esto concluindo ou j possuem o ensino mdio, enquanto que as matrculas no Ensino Superior no ultrapassam 8.000 ingressos. O motivo de tal diferena seria uma opo ou um impedimento por exemplo de ordem econmica pois dizer que a oferta no est suprindo a demanda no verdade, j que as faculdades possuem inmeras vagas sem preenchimento. Talvez seja um problema de ordem econmica ou os cursos oferecidos no so de interesse para a regio. Essas questes, entre outras, devem ser discutidas pelo setor do ensino superior privado na busca do crescimento. Com relao renda familiar da populao economicamente ativa, o IBGE -2004 - informa que apenas 10,4% das famlias possuem renda acima de 10 salrios mnimos. 4.2 POPULAO PESQUISADA So sete as IES privadas existentes em Foz do Iguau e cidades prximas, sendo que cinco delas esto localizadas em Foz do Iguau-Pr, uma em So Miguel do Iguau-Pr e uma em Medianeira-Pr. Por razes operacionais, esta pesquisa desenrolou-se em uma nica IES de Foz do Iguau-Pr.

38

As tabelas seguintes, 1, 2, 3, 4 e 5, mostram a distribuio dos cursos e nmero de alunos matriculados para cada IES de Foz do Iguau.

Tabela 1. CESUFOZ: Alunos matriculados por curso CURSOS Administrao Cincia da Computao Cincias Contbeis Cincias Econmicas Educao Fsica Direito Processamento de Dados Total Fonte: CESUFOZ Centro de Ensino Superior de Foz do Iguau 2003 232 167 41 70 253 93 160 1.016

Tabela 2. UDC : Alunos matriculados por curso CURSOS Administrao Gesto de Qualidade Administrao Negcios e Marketing Internacional Administrao Pblica Arquitetura e Urbanismo Comunicao Social (Jornalismo) Comunicao Social (Publicidade e Propaganda) Comunicao Social (Relaes Pblicas) Direito Engenharia Civil Letras Normal Superior Pedagogia Sistemas de Informao Turismo Total Fonte: UDC Faculdade Unio Dinmica Cataratas 2003 171 219 48 201 185 165 28 263 115 114 46 248 150 187 2.140

39 Tabela 3. UNIAMRICA : Alunos matriculados por curso CURSOS Administrao em Finanas Administrao em Marketing Biomedicina Cincias Biolgicas Educao Fsica Enfermagem Engenharia Ambiental Fisioterapia Histria Nutrio Secretariado Executivo Trilngue Servio Social Psicologia Normal Superior Total Fonte: UNIAMRICA Faculdade Unio das Amricas 2003 104 118 68 177 99 243 76 196 113 158 68 119 67 19 1.625

Tabela 4.

Anglo-Americano: Alunos matriculados por curso. 2003 44 66 67 177

CURSOS Administrao/Gesto de Negcios Fisioterapia Normal Superior Total Fonte: Faculdade Anglo-Americano

Tabela 5. CURSOS Administrao / Comrcio Exterior Direito Tecnologia em Hotelaria

UNIFOZ : Alunos matriculados por curso 2003 162 867 62 1.091

Total Fonte: UNIFOZ Faculdades Unificadas de Foz do Iguau

4.3

DADOS Os dados levantados por esta pesquisa tm por finalidade o estudo de

caractersticas dos elementos formadores de duas populaes: uma constituda por alunos que permanecem na faculdade at a titulao e, a outra, por alunos que deixam a faculdade antes de alcanarem a titulao. Foram levantados dados relativos a sexo, renda familiar, nota no vestibular, nvel de instruo dos pais, idade, estado civil e nveis de satisfao com relao ao curso e IES escolhida, objetivando encontrar as variveis que diferenciam as duas populaes para, ento, classificar um novo indivduo em uma delas.

4.4

INSTRUMENTO DE COLETA DE DADOS. Um dos procedimentos para a coleta de informaes foi a consulta ao banco

de dados da IES, buscando o cadastro dos ex-alunos (alunos desistentes sem titulao). O banco de dados das IES oferece o endereo , o telefone e a nota obtida no vestibular do aluno evadido. De posse destas primeiras informaes, passou-se segunda fase da coleta de dados, que foi feita atravs da aplicao de um questionrio (ver Apndice F) elaborado com base nos objetivos desta pesquisa. Esse questionrio foi aplicado aos alunos e ex-alunos. Os alunos matriculados foram solicitados a responder o questionrio durante o perodo de aulas em suas respectivas salas. A amostra formada pelos alunos foi denominada de grupo 1. Esses alunos estavam cursando um dos ltimos quatro perodos de seu curso. Pois a experincia e estatsticas da IES pesquisada mostram que alunos dos ltimos perodos raramente abandonam o curso antes da titulao. A amostra formada pelos ex-alunos, aqueles que se afastam do curso sem a titulao, foi denominada de grupo 2. Para formar este grupo , foi feita uma pesquisa nos arquivos da IES, de forma a encontrar os alunos que cancelaram matrcula, abandonaram o curso, transferiram-se para outra instituio ou trancaram matrcula nos ltimos 3 anos. Os elementos do grupo 2 receberam os questionrios em suas casas via correio tradicional ou eletrnico e, uma outra alternativa usada, foi o contato telefnico. Inicialmente deu-se preferncia para o uso dos correios, a fim

41

de que dessa forma o ex-aluno fosse o mais verdadeiro possvel em suas respostas, no ficando assim constrangido pela figura do pesquisador. Outro fator que pesou na escolha dos correios foi o econmico. Infelizmente, dos 148 questionrios enviados pelos correios (tradicional e eletrnico), somente 41 questionrios retornaram preenchidos e 16 devolvidos pela no localizao do destinatrio. Usou-se ento o contato telefnico, mas, mesmo assim, muitos no foram localizados devido mudana do nmero do telefone e no divulgao do novo nmero. Assim conseguiu-se formar o grupo 1 com 172 elementos e o grupo 2 com 109, todos originrios dos cursos Cincia da Computao, Administrao, Educao Fsica e Cincias Contbeis.

4.5

CARACTERIZAO DOS GRUPOS Como j mencionado anteriormente, foram pesquisados para formar o grupo

1, 172 alunos dos ltimos quatro perodos, estes foram extrados de um total de 320 alunos para os quatro cursos pesquisados. Dispensou-se a estimativa para o tamanho da amostra, j que o grupo 1 foi formado com 54% da populao definida. Da mesma forma, procedeu-se para o grupo 2. Nos ltimos 3 anos, os arquivos da IES registravam 268 ex-alunos, de onde extraiu-se o grupo 2, com 109 elementos, que corresponde a 40% da populao definida. A definio da populao dos exalunos a partir dos ltimos 3 anos (desde 2003) conseqncia de vrios fatores. Um deles foi a dificuldade em localizar estes ex-alunos; outro, as possveis mudanas nas caractersticas do aluno desistente. Estas por sua vez, podem ser determinadas pela evoluo da IES, surgimento de concorrentes e transformaes sociais e econmicas.

4.6

IDENTIFICAO DAS VARIVEIS No quadro 2 esto as correspondncias entre as perguntas do questionrio

do Apndice F e as respectivas variveis. A vigsima primeira varivel (VAR21) foi extrada dos arquivos da IES pesquisada.

42

Pergunta 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 Qual o seu sexo? Qual a sua idade?

Descrio

Varivel VAR1 VAR2 VAR3 VAR4 VAR5 VAR6 VAR7 VAR8 VAR9 VAR10 VAR11 VAR12 VAR13 VAR14 VAR15 VAR16 VAR17 VAR18 VAR19 VAR20 VAR21

Qual o seu estado civil? Com relao a sua moradia? Voc tem trabalho remunerado? Qual o nvel de instruo do seu pai? Qual o nvel de instruo da sua me? Qual a renda familiar? Com relao ao curso escolhido...... Onde voc fez o ensino mdio? Em qual turno voc fez o ensino mdio? Indique a sua principal razo na escolha da faculdade. Indique o seu principal motivo na escolha do curso. Classifique o seu relacionamento afetivo c/ os colegas. Qual o seu principal motivo ao fazer um curso superior? Indique o nvel de satisfao c/ a infra-estrutura da IES. D sua opinio c/ relao a capacidade dos professores Classifique o atendimento oferecido pelos setores da IES Indique a sua satisfao c/ relao ao curso escolhido Com relao ao tempo destinado aos estudos..... Nota mdia no vestibular Quadro 2. Variveis

RESULTADOS OBTIDOS A seguir, sero aplicadas as tcnicas apresentadas no captulo 3 para

analisar os dados levantados para os grupos 1 e 2.

5.1

COMPARAO ENTRE AS MDIAS DOS GRUPOS 1 E 2 Inicialmente introduziu-se no software Excel duas matrizes, uma para o grupo

1(n1 x p) e outra para o grupo 2 (n2 x p), sendo n1 = 172 , n2 = 109 e p = 21, onde n1 e n2 representam as observaes e p o total de variveis. Do questionrio do Apndice F, retiram-se p-1 variveis, iniciando pela questo 04. Assim a primeira varivel representa o sexo, a segunda indica a idade, at a questo 23 (tempo destinado para os estudos). A vigsima primeira varivel representa a nota mdia no vestibular, obtida no banco de dados da IES. Na segunda etapa, so usados dois mtodos para verificar se os vetores de mdias provenientes dos grupos 1 e 2 so estatisticamente diferentes. O primeiro mtodo considera matrizes de covarincias diferentes(1 2) e o segundo matrizes iguais (1 = 2), neste caso o mtodo a MANOVA.

5.1.1 Comparao Entre Mdias Para 1 2 Na seo 3.1.1 foi apresentado o mtodo aqui utilizado e no Apndice E pode-se encontrar o programa PGR05 que efetua os clculos. Executando o programa PGR05 para os grupos 1 e 2 (matrizes: 172x21 e 109x21) determinou-se que os vetores de mdias dos grupos 1 e 2 apresentam diferenas significativas. O mesmo programa determina quais as componentes dos vetores que diferem significativamente e ele indicou as variveis: VAR9, VAR16, VAR18 e VAR20. Obtidas a partir das questes 12, 19, 21 e 23 do questionrio do Apndice F, sendo o nvel de significncia de 5%. A questo 12 do questionrio (Apndice F) , procura captar a impresso do aluno ou ex-aluno com relao ao curso escolhido, a questo 19 trata da satisfao do aluno ou ex-aluno com relao a infra-estrutura oferecida pela IES, a questo 21 busca classificar o atendimento oferecido pelos setores da IES e a questo 23 procura uma impresso dos alunos ou ex-alunos com relao ao tempo destinado aos estudos.

44

5.1.2 Comparao entre mdias MANOVA O segundo mtodo utilizado para comparar vetores de mdias a MANOVA, mtodo executado pelo programa PGR04 (Apndice D). O mtodo, atravs de PGR04, mostrou que os vetores de mdias dos grupos 1 e 2 so estatisticamente diferentes, sendo sete as componentes dos vetores com diferenas significativas ao nvel de 5% . Das sete, quatro j foram devidamente identificadas na seo anterior. Entre as outras trs variveis, duas representam as questes 18 (VAR15) e 22 (VAR19) do questionrio do Apndice F e a outra (VAR21) carrega a nota mdia no vestibular. A questo 18 aborda o objetivo de se fazer um curso superior, j a questo 22 trata da satisfao do aluno ou ex-aluno com relao ao curso escolhido. 5.2 ESTATSTICAS DESCRITIVAS A seguir sero descritas as variveis com diferenas significativas determinadas nas duas ltimas sees. A varivel que representa a questo 12 do questionrio (Apndice F) apresenta mediana e moda igual a 2 para ambos os grupos, indicando que a resposta era o que voc esperava foi a que apresentou maior freqncia. Observando a tabela 6 pode-se verificar que 33,9% dos entrevistados do grupo 2 ficaram decepcionados com o curso escolhido contra 17,4% do grupo 1. Estar decepcionado com o curso escolhido , com certeza, um fator muito importante na deciso do aluno abandonar ou no um curso de graduao.
Tabela 6. Com relao ao curso escolhido RESPOSTAS 1-Voc ficou decepcionado 2-Era o que voc esperava 3-Superou as suas expectativas 4-No sabe dizer TOTAL Fonte: Autor GRUPO 1 Freqncia(%) 30(17,4%) 87(50,6%) 21(12,2%) 34(19,8%) 172(100%) Acumulada(%) 30(17,4%) 117(68,0%) 138(80,2%) 172(100%) GRUPO 2 Freqncia(%) 37(33,9%) 67(61,5%) 3(2,8%) 2(1,8%) 109(100%) Acumulada(%) 37(33,9%) 104(95,4%) 107(98,2%) 109(100%)

No grfico 2 visualizam-se as diferenas. O setor que representa a resposta voc ficou decepcionado maior no grupo 2 , j o setor que representa a resposta superou as suas expectativas maior no grupo 1.

45

G U R PO 1

G U R PO 2

70 60 50

(%) PORCENTAGEM

40 30 20 10 0 1-V oc ficou decepcionado 2-Era o que voc 3-superou as suas 4-N sabe dizer o esperava expectativas RESPO STA S

Grfico 2. Com relao ao curso escolhido

A tabela 7 apresenta as respostas para a pergunta qual o seu principal objetivo ao fazer um curso superior? . Analisados os dados foi constatado que as respostas emprego, aumento salarial e diploma de nvel superior acumulam porcentagem de 22,1% para o grupo 1 e 42,2% para o grupo 2, enquanto formao profissional totaliza 75,6% no grupo 1 e 56,9% no grupo 2, mostrando que o grupo dos ex-alunos tem forte preferncia pelas respostas 1, 2 e 3 , j os alunos (grupo 1) esto mais voltados para a resposta 5. Os resultados apontam para uma clara diferena entre os grupos, mostrando, por exemplo, que o objetivo diploma de nvel superior no suficientemente forte para manter o estudante em um curso que no lhe satisfaz. Os resultados podem ser conferidos na tabela 7 apresentada a seguir.
Tabela 7. Objetivo ao fazer um curso superior RESPOSTAS 1-Emprego 2-Aumento salarial 3-Diploma de nvel superior 4-Formao terica 5-Formao profissional TOTAL Fonte: autor GRUPO 1 Freqncia(%) 14(8,10%) 11(6,40%) 13(7,60%) 4(2,30%) 130(75,6%) 172(100%) Acumulada(%) 14(8,10%) 25(14,5%) 38(22,1%) 42(24,4%) 172(100%) GRUPO 2 Freqncia(%) 21(19,3%) 8(7,30%) 17(15,6%) 1(0,90%) 62(56,9%) 109(100%) Acumulada(%) 21(19,3%) 29(26,6%) 46(42,2%) 47(43,1%) 109(100%)

46

A prxima varivel a ser descrita indica o nvel de satisfao do aluno ou exaluno com relao infra-estrutura da IES. Estranhamente os entrevistados do grupo 2 se mostraram mais satisfeitos com a estrutura da IES do que os entrevistados do grupo 1. Algumas conjecturas poderiam ser levantadas com o objetivo de explicar este resultado. Talvez, o reduzido tempo de permanncia dos desistentes na IES, o fato de muitos se afastarem do curso ainda no primeiro perodo. J os indivduos do grupo 1, que pretendem concluir o curso, lutam por melhorias e fazem questo de declarar a sua insatisfao. Conforme ilustra o grfico 3.
G U 1 R PO G U R PO 2

60 50
(%) PORCENTAGEM

40 30 20 10 0 1-N enhuma satisfao 2-Pouco satisfeito 3-Satisfao moderada RESPOSTA S


Grfico 3. Satisfao com relao infra-estrutura

4-M uito satisfeito

5-Plenamente satisfeito

A varivel que representa a classificao do atendimento oferecido pelas coordenaes e secretarias se apresenta com resultado semelhante varivel discutida anteriormente, ou seja, os elementos do grupo 2 mostraram-se mais satisfeitos com a qualidade dos servios prestados por estes setores da IES do que os elementos do grupo 1. O acumulado das respostas desinteressados, fraco e moderado de 61% para o grupo dos alunos e 30,3% para o grupo dos ex-alunos. No sero descritos os resultados para a questo 22, por ser uma complementao da questo 12, j descrita no incio desta seo. Para melhor entendimento dos resultados relativos questo com relao ao tempo destinado

47

para os seus estudos, voc diria que..., tem-se a tabela 8. A resposta tempo satisfatrio tem 34,3% no grupo 1 e 22,9% no grupo 2, mas a maior diferena se encontra na porcentagem acumulada para as respostas 1 e 2, totalizando 15,7% para o primeiro grupo e 45,9% para o segundo grupo, conforme a tabela 8.
Tabela 8. Tempo destinado para os estudos RESPOSTAS 1-No h tempo 2-Tempo insuficiente 3-H pouco tempo 4-Tempo satisfatrio 5-Tempo mais que satisfatrio TOTAL Fonte: autor GRUPO 1 Freqncia(%) 4(2,30%) 23(13,4%) 66(38,4%) 59(34,3%) 20(11,6%) 172(100%) Acumulada(%) 4(2,30%) 27(15,7%) 93(54,1%) 152(88,4%) 172(100%) GRUPO 2 Freqncia(%) 19(17,4%) 31(28,4%) 33(30,3%) 25(22,9%) 1(0,90%) 109(100%) Acumulada(%) 19(17,4%) 50(45,9%) 83(76,1%) 108(99,1%) 109(100%)

Para a nota mdia no vestibular, foram calculadas as estatsticas mdia, mediana, desvio padro e moda. Para o grupo 1, foi encontrada mdia igual a 3,69, mediana 3,71, moda 4 e desvio padro 0,70. No grupo 2 obteve-se mdia igual a 3,15, mediana 3,14, moda 3,28 e desvio padro 0,96. No princpio, esperava-se uma maior diferena para as mdias dos grupos 1 e 2 em relao nota no vestibular, expectativa que no se confirmou. Mesmo assim, um dos testes de inferncia ao nvel de significncia de 5% classificou a nota mdia no vestibular como uma varivel discriminante. A distribuio das notas pode ser observada na tabela 9.
Tabela 9. Nota mdia no vestibular NOTAS 1 | 2 2 | 3 3 | 4 4 | 5 5 | 6 TOTAL GRUPO 1 Freqncia(%) 1(0,58%) 24(14,0%) 81(47,1%) 58(33,7%) 8(4,62%) 172(100%) Acumulada(%) 1(0,580%) 25(14,58%) 106(61,68%) 164(95,38%) 172(100%) GRUPO 2 Freqncia(%) 13(11,9%) 37(34,0%) 36(33,0%) 17(15,6%) 6(5,50%) 109(100%) Acumulada(%) 13(11,9%) 50(45,9%) 86(78,9%) 103(94,6%) 109(100%)

Fonte: autor

48

Analisando a tabela 9, nota-se semelhanas entre os grupos, mostrando que os candidatos esto, de maneira geral, nivelados.Os resultados tambm mostram o estado lastimvel da educao no Brasil. Visto que, numa prova de nvel bsico os postulantes a uma vaga em uma IES privada, em sua maioria, no alcanam nota mdia igual a 5,0 pontos - numa escala de zero a 10,0. A questo 24 do questionrio (Apndice F) foi direcionada apenas aos exalunos com o intuito de identificar os motivos do afastamento do curso. A alternativa com maior freqncia a nmero 2 dificuldades financeiras , seguido por 1 escolha errada do curso. O motivo 2 no foi identificado pelos questionrios como uma varivel discriminante. Pensou-se, inicialmente, que a renda familiar poderia auxiliar neste quesito. Ocorre que os entrevistados ficam constrangidos diante da questo 11 qual a renda familiar?. Muitos relutam em responder e quando o fazem passam a impresso de que no esto sendo verdadeiros. Ainda deve-se considerar que dificuldades financeiras so determinadas por vrias componentes, no somente pela renda familiar. A tabela 10 apresenta os resultados obtidos para a questo 24.
Tabela 10. Grupo 2 - Motivo do afastamento do curso. Respostas 1-Escolha errada do curso. 2-Dificuldades financeiras. 3-No ter conseguido conciliar estudo e trabalho. 4-Dificuldades p/ acompanhar o curso. 5-Professores despreparados. 6-Infra-estrutura da IES deficiente. 7-Mudana de cidade. 8-Outra. TOTAL
Fonte: autor

Freqncia 19 29 12 11 1 13 12 12 109

Porcentagem(%) 17,4 26,6 11,0 10,1 0,9 11,9 11,0 11,0 100,0

(%) Acumulada 17,4 44,0 55,0 65,1 66,1 66,1 78,0 89,0 100,00

5.3

CLASSIFICAO DE FISHER PARA OS GRUPOS 1 E 2 Selecionadas as variveis discriminantes, foi construda a partir destas uma

funo que classifique os indivduos em um dos dois grupos. Para tanto foi utilizouse a FDL de Fisher e em seguida as probabilidades de classificaes incorretas foram calculadas atravs do mtodo de Lachenbruch.

49

5.3.1 Construo da FDL de Fisher Nesta seo foi construda a FDL de Fisher para classificar indivduos no grupo 1 ou 2. De incio foram formados dois grupos de controle: para cri-los utilizou-se a amostragem sistemtica iniciando pela primeira linha da matriz (primeira observao) e, a cada 5 linhas (cinco observaes), uma era retirada para compor o grupo de controle. Desta forma, conseguiu-se um grupo de controle de alunos com 34 elementos e um grupo de controle de ex-alunos com 21 elementos. Conseqentemente, os grupos 1 e 2 tiveram uma reduo no nmero de indivduos, passando para 138 e 88, respectivamente. Para classificar os indivduos segundo a FDL de Fisher, foi utilizado o programa PGR01 Apndice A. Esse programa utiliza trs matrizes de entrada (x1, x2 e xc), sendo as duas primeiras obtidas com a reduo dos grupos 1 e 2 e a terceira formada pelo grupo de controle originrio do grupo 1 ou 2. Nos itens 5.1.1 e 5.1.2, foram aplicados dois mtodos para a obteno das variveis que discriminam os dois grupos; no primeiro, foram encontradas quatro e no segundo sete variveis discriminantes. O primeiro conjunto de variveis ser denominado de A e o segundo de B. O programa PGR01 (Apndice A) foi alimentado com as matrizes x1, x2 e xc. Considerando o conjunto A, as matrizes de entrada so x1138x4 , x288x4 e xc34x4 (grupo de controle de alunos). Num segundo momento, a matriz xc34x4 foi substituda por xc21x4 (grupo de controle de ex-alunos). Aps a execuo do aplicativo, foram obtidos os resultados:
Tabela 11. Resultados da FDL de Fisher para o Conjunto A Grupo classificado pela regra 1 2 Grupo de controle Fonte: Autor 1 (xc34x4) 2 (xc21x4) 26 4 8 17 Total 34 21

Ou seja, 24% (8/34) dos indivduos pertencentes ao grupo 1 foram classificados erradamente no grupo 2 e 19% (4/21) dos indivduos pertencentes ao grupo 2 foram classificados erradamente no grupo 1. A FDL de Fisher foi obtida a partir das matrizes x1138x4 e x288x4 , a funo encontrada expressa por:

50

VAR9 VAR16 , com mdia univariada(ym) y = (0,8459 0,7131 0,5912 0,7850 ) VAR18 VAR 20 VAR9 VAR16 igual a -0,0966. Assim, se y ym, aloca-se a observao no grupo 1. Caso VAR18 VAR 20
contrrio, aloca-se no grupo 2. O mesmo procedimento foi aplicado ao conjunto de variveis B, sendo x1138x7 , x288x7 e xc34x7 ou xc21x7 . A tabela 12 exibe os resultados obtidos .

Tabela 12. Resultados da FDL de Fisher para o conjunto B Grupo classificado pela regra 1 2 Grupo de controle Fonte: Autor 1 (xc34x7) 2 (xc21x7) 27 6 7 15 Total 34 21

Neste caso, os elementos classificados erradamente no grupo 2 sendo de 1 foram de 21%(7/34) e os classificados erradamente em 1 sendo de 2, 29%(6/21). A FDL de Fisher obtida a seguinte:

VAR9 VAR15 VAR16 y = (0,5934 0,4823 1,4537 0,7235 1,0263 0,7653 0,8888) VAR18 VAR19 VAR 20 VAR 21

51

sendo a mdia univariada(ym) = 4,7763. Desta forma, se y ym, aloca-se a


VAR9 VAR15 VAR16 observao VAR18 no grupo 1. Caso contrrio, aloca-se no grupo 2. VAR19 VAR 20 VAR 21

5.3.2 Porcentagem de Classificaes Incorretas - Mtodo de Lachenbruch O mtodo de Lachenbruch um dos mtodos que pode ser utilizado para estimar a porcentagem de classificar erradamente um indivduo. Esse mtodo foi discutido na seo 3.3.3, e ser executado pelo programa PGR02 (Apndice B). Para o conjunto A, obteve-se a seguinte matriz de confuso:
Tabela 13. Matriz de Confuso Lachenbruch (Conjunto A) Grupo classificado pela regra 1 2 Grupo de origem Fonte: Autor 1 (x1172x4) 2 (x2109x4) 127 22 45 87 Total 172 109

Ou seja:
Porcentagem de classificar erradamente um elemento no grupo 2, sendo

ele de 1 igual a 26%(45/172).


Porcentagem de classificar erradamente um elemento no grupo 1, sendo

ele de 2 igual a 20%(22/109). A matriz de confuso obtida para o conjunto B :


Tabela 14. Matriz de Confuso Lachenbruch (Conjunto B) Grupo classificado pela regra 1 2 Grupo de origem Fonte: Autor 1 (x1172x7) 2 (x2109x7) 144 19 28 90 Total 172 109

52

Ou seja:
Porcentagem de classificar erradamente um elemento no grupo 2, sendo

ele de 1 igual a 16%(28/172).


Porcentagem de classificar erradamente um elemento no grupo 1, sendo

ele de 2 igual a 17%(19/109). Comparando-se os resultados obtidos para o conjunto A e B, observa-se que a classificao apresentou um erro menor quando foi utilizado as variveis do conjunto B.

5.4

CLASSIFICAO A PARTIR DA REGRESSO LOGSTICA Este trabalho aborda duas tcnicas para classificao de indivduos. A

primeira, j aplicada a FDL de Fisher. A segunda, a tcnica denominada de regresso logstica, apresentada na seo 3.4.

5.4.1 Resultados Para o Conjunto A Para calcular os parmetros da funo logit e classificar um indivduo em um dos dois grupos, foi aplicado o programa PGR03 (Apndice C), que utiliza trs matrizes de entrada (x1, x2 e xc), sendo xc a matriz para os grupos de controle. No caso do conjunto A, foram fornecidas ao programa PGR03 as matrizes x1138x4 , x288x4 e xc34x4 (grupo de controle dos alunos) e numa segunda rodada a matriz xc34x4 foi substituda por xc21x4 (grupo de controle dos ex-alunos) . Na tabela 15, os indivduos classificados so originrios das matrizes x1 e x2.
Tabela 15. Matriz de confuso Logit (Conjunto A) Grupo classificado pela regra 1 2 Grupo de origem Fonte: Autor 1 (x1138x4) 2 (x288x4) 119 36 19 52 Total 138 88

Ou seja: Porcentagem de classificar erradamente um elemento no grupo 2, sendo ele de 1 igual a 14%(19/138).

53

Porcentagem de classificar erradamente um elemento no grupo 1, sendo

ele de 2 igual a 41%(36/88). A tabela 16 mostra os acertos e erros quando se utiliza a funo logit, obtida a partir de x1 e x2 para classificar um indivduo proveniente de um dos grupos de controle (xc34x4 e xc21x4).

Tabela 16. Resultados da Logit para o conjunto A Grupo classificado pela regra 1 Grupo de controle Fonte: Autor 1 (xc34x4) 2 (xc21x4) 29 8 2 5 13 Total 34 21

Ou seja:
Porcentagem de classificar erradamente um elemento no grupo 2, sendo

ele de 1 igual a 15%(5/34).


Probabilidade de classificar erradamente um elemento no grupo 1, sendo

ele de 2 igual a 38%(8/21). Nota-se que os erros de classificao obtidos com os elementos dos grupos de controle (tabela 16), esto prximos dos erros da matriz de confuso tabela 15, salientando que a matriz de confuso mencionada foi obtida com a classificao dos elementos de x1 e x2. Utilizando-se as matrizes x1138x4 e x288x4, obteve-se a funo logit g(x), sendo:

g ( x) = 0,8233 1,2435VAR9 + 0,8053VAR16 + 0,8052VAR18 0,8064VAR20 .


5.4.2 Resultados Para o Conjunto B Usa-se para o conjunto B, um procedimento semelhante ao utilizado para A. Agora com x1138x7 , x288x7 , xc34x7 e xc21x7 , os resultados obtidos foram:
Tabela 17. Matriz de confuso Logit (Conjunto B) Grupo classificado pela regra 1 2 Grupo de origem Fonte: Autor 1 (x1138x7) 2 (x288x7) 123 16 15 72 Total 138 88

54

Ou seja:
Porcentagem de classificar erradamente um elemento no grupo 2, sendo

ele de 1 igual a 11%(15/138).


Porcentagem de classificar erradamente um elemento no grupo 1, sendo

ele de 2 igual a 18%(16/88). Analisando as tabelas 17 e 18 observa-se que a probabilidade de classificar erradamente um elemento no grupo 1, sendo ele de 2 muito maior para os dados provenientes do grupo de controle. Na matriz de confuso (tabela 17), o percentual de classificao de 18% enquanto a classificao dos elementos de xc21x7 (tabela 18) observa-se um percentual de 38%. Observa-se tambm que a funo logit obtida, tanto para o conjunto A como para B, mais apropriada para classificar elementos provenientes do grupo 1.
Tabela 18. Resultados da Logit para o Conjunto B. Grupo classificado pela regra 1 2 Grupo de controle Fonte: Autor 1 (xc34x7) 2 (xc21x7) 30 8 4 13 Total 34 21

Ou seja:
Porcentagem de classificar erradamente um elemento no grupo 2, sendo

ele de 1 igual a 12%(4/34).


Porcentagem de classificar erradamente um elemento no grupo 1, sendo

ele de 2 igual a 38%(8/21). No caso do conjunto B, obteve-se a seguinte funo logit:


g(x) = 2,3454 0,6628VAR9 0,5095VAR15 + 1,5227VAR16 + 1,1272VAR18 +

+ (-1,1170)VAR19 0,6733VAR20 0,7232VAR21

5.5

CLASSIFICAO A PARTIR DE ESCORES FATORIAIS A eficincia das variveis discriminantes obtidas pode ser questionada

quando se analisa alguns dos resultados de classificao, como por exemplo, o obtido com a funo logit onde o erro na classificao dos indivduos provenientes do grupo 2 de 38%. Desta forma, optou-se nesta seo por abandonar as variveis

55

discriminantes e passar a alimentar a FDL de Fisher e a funo logit com escores fatoriais, em busca de melhores resultados. 5.5.1 Determinao dos Escores Fatoriais Para o clculo dos escores fatoriais, utilizou-se o aplicativo computacional Statistica com as opes extrao por componentes principais e rotao varimax normalizada . O aplicativo foi alimentado com a matriz de dados amostrais, retornando nove autovalores maiores que 1. A tabela autovalores e a varincia explicada.
Tabela 19. Autovalores e Varincia Explicada
Autovalores 1 2 3 4 5 6 7 8 9 2,830211 2,067723 1,740386 1,515300 1,347728 1,296416 1,202485 1,035672 1,011296 Varincia Explicada 13,47719 9,846298 8,287550 7,215715 6,417750 6,173411 5,726118 4,931773 4,815696 Autovalores Acumulados 2,830211 4,897933 6,638319 8,153619 9,591346 10,79776 12,00025 13,03592 14,04722 Varincia Acumulada 13,47719 23,32349 31,61104 38,82676 45,24451 51,41792 57,14404 62,07581 66,89151

19 mostra os

Fonte: Autor

Desta forma, as 21 variveis iniciais foram substitudas por 9 fatores. Assim foram formadas duas matrizes de escores fatoriais, uma representando o grupo de alunos (grupo 1) de dimenses 172x9 e outra representando o grupo de ex-alunos (grupo 2) de dimenses 109x9. Analisando-se a matriz de pesos, obtida a partir da anlise fatorial, podem-se distinguir alguns grupos de variveis com correlaes altas entre si, na tabela 20 esto listados os pesos.
Tabela 20. Matriz de Pesos
Fator 1 VAR1 VAR2 VAR3 VAR4 VAR5 VAR6 VAR7 VAR8 VAR9 VAR10 0,014456 0,808322 0,796409 0,704123 -0,16307 -0,34338 -0,40279 0,281567 0,05875 0,147799 Fator 2 0,533181 -0,02276 -0,15477 0,113146 0,696639 0,025562 0,184666 0,071119 0,088276 0,037936 Fator 3 0,02582 0,167738 -0,06122 -0,04229 0,109107 -0,05752 -0,10713 0,048955 -0,21095 0,026617 Fator 4 0,133206 0,117692 -0,13082 0,007601 -0,24818 -0,16621 -0,15864 0,19175 -0,18613 0,049826 Fator 5 -0,32978 -0,03835 0,020841 -0,15362 0,11547 0,729317 0,585616 0,735758 0,041763 0,274936 Fator 6 -0,1524 -0,08623 0,031941 -0,16478 0,066896 0,021613 0,003516 -0,04602 0,151424 0,079112 Fator 7 0,260128 0,147058 -0,019 -0,1537 -0,09123 0,036849 0,073629 0,033457 0,014776 0,694912 Fator 8 -0,25506 -0,04057 -0,05225 0,233218 0,053621 0,091253 0,120151 -0,12823 -0,12607 -0,13376 Fator 9 0,033055 0,077277 0,082565 0,039687 -0,13847 -0,03937 0,14199 0,002872 0,755414 0,065308

56 Tabela 20. Matriz de Pesos. Continuao.


Fator 1 VAR11 VAR12 VAR13 VAR14 VAR15 VAR16 VAR17 VAR18 VAR19 VAR20 VAR21 -0,06846 -0,09815 -0,06829 0,020998 0,008863 -0,00618 -0,00374 0,105376 0,129958 -0,0047 -0,04847 Fator 2 -0,00638 0,227267 -0,1094 0,026894 -0,03573 -0,16687 -0,08861 0,145864 0,081812 0,777229 -0,01251 Fator 3 -0,11798 -0,13287 0,076717 0,058719 0,0067 0,833916 0,448854 0,766619 0,247576 -0,16496 -0,22286 Fator 4 -0,01397 -0,04207 0,053476 0,05631 0,901729 0,036707 0,107916 -0,07378 0,134401 0,055823 0,36402 Fator 5 -0,06584 -0,03782 0,015861 0,018857 -0,03444 0,04977 -0,06679 -0,10482 -0,00307 0,142025 0,221791 Fator 6 0,004537 0,710921 0,799179 -0,04398 0,022416 -0,07294 -0,01716 0,080091 -0,14757 0,038072 -0,05158 Fator 7 0,794885 0,093336 -0,01573 0,046378 0,020733 -0,04723 0,031674 -0,05736 0,014586 0,019307 -0,25344 Fator 8 0,14445 0,211393 -0,20293 0,856085 0,043351 0,097434 0,259006 -0,07773 0,041959 0,061798 0,0897 Fator 9 -0,01587 -0,00309 -0,01567 0,005011 -0,00084 0,14171 0,557166 -0,08426 0,783747 0,23335 0,364913

Fonte: Autor

Considerando-se pesos iguais ou superiores a 0,7, observam-se na tabela 20 grupos de variveis correlacionadas, por exemplo: o fator 1 que pode representar as variveis 2, 3 e 4. Da mesma forma, como em anlises anteriores, foram construdos dois grupos de controle. Para form-los, utilizou-se a amostragem sistemtica iniciando pela primeira linha da matriz e, a cada 5 linhas, retirou-se uma linha para compor o grupo de controle. Assim, conseguiu-se um grupo de controle de alunos com 34 elementos e um grupo de controle de ex-alunos com 21 elementos. Conseqentemente os grupos 1 e 2 tiveram uma reduo no nmero de indivduos, passando para 138 e 88, respectivamente.

5.5.2 Escores Fatoriais na FDL de Fisher O programa PGR01 Apndice A, foi alimentado com as matrizes x1138x9 , x288x9 e o grupo de controle formado por alunos xc34x9. Num segundo momento, a matriz xc34x9 foi substituda por xc21x9 (grupo de controle de ex-alunos). Com isto, 14,7% dos indivduos que formam o grupo de controle de alunos foram classificados erradamente no grupo 2 . J o grupo de controle formado por exalunos teve 23,8% dos seus elementos classificados erradamente no grupo 1, conforme mostra a tabela 21.

57 Tabela 21. Resultados da FDL de Fisher para Escores Fatoriais Grupo classificado pela regra 1 2 Grupo de controle Fonte: Autor. 1 (xc34x9) 2 (xc21x9) 29 5 5 16 Total 34 21

Ou seja:
Porcentagem de classificar erradamente um elemento no grupo 2, sendo

ele de 1 igual a 14,7%(5/34).


Porcentagem de classificar erradamente um elemento no grupo 1, sendo

ele de 2 igual a 23,8%(5/21). Utilizando-se as matrizes x1138x9 apresentada a seguir:


y = (0,5072 1,8842 1,7113 0,6564 0,1469 0,4509 0,2872 0,2035 1,1231)F '

x288x9 obteve-se a FDL de Fisher,

sendo F = (F1 -0,5234.

F2 ... F9 ) o vetor de escores fatoriais e a mdia univariada igual a

5.5.3 Escores Fatoriais na Funo Logit Para calcular os parmetros da funo logit e com ela classificar um indivduo em um dos dois grupos foi utilizado o programa PGR03 Apndice C, este programa foi alimentado com as matrizes x1138x9 , x288x9 , xc34x9 e xc21x9. Os resultados obtidos esto apresentados na tabela 22, onde observam-se que 8,8% dos elementos do grupo de controle de alunos foram classificados erradamente no grupo 2, enquanto 23,8% dos indivduos pertencentes ao grupo de controle de exalunos foram classificados erradamente no grupo 1.
Tabela 22. Resultados da Funo Logit para Escores Fatoriais Grupo classificado pela regra 1 2 Grupo de controle Fonte: Autor. 1 (xc34x9) 2 (xc21x9) 31 5 3 16 Total 34 21

58

Ou seja:

Porcentagem de classificar erradamente um elemento no grupo 2, sendo


ele de 1 igual a 8,8%(3/34).

Porcentagem de classificar erradamente um elemento no grupo 1, sendo


ele de 2 igual a 23,8%(5/21). A partir das matrizes x1138x9 e x288x9 obteve-se a funo logit g(x) , sendo:

g(x) = -0,9403 - 0,5157F1 - 2,0801F2 + 1,9853F3 0,6394F4 0,0543F5 +


+ 0,7009F6 0,2466F7 + 0,1210F8 1,2935F9 5.6 COMPARAO ENTRE OS MTODOS Os resultados obtidos com a classificao de elementos oriundos dos grupos de treinamento (x1138xj e x288xj , sendo que j pode assumir os valores 4, 7 ou 9) foram, de maneira geral satisfatrios, seja com a utilizao das variveis discriminantes ou escores fatoriais. Em compensao, alguns dos resultados obtidos a partir dos grupos de controle, apresentaram grandes diferenas em relao aos obtidos com os grupos de treinamento quando as variveis discriminantes foram utilizadas. Com o uso de escores fatoriais obteve-se uma melhora nas porcentagens de acerto, especialmente com a funo logit. O quadro 3 resume os resultados obtidos com a classificao de indivduos provenientes dos grupos de controle.

DADOS Classificao errada Varivel Discriminante (Conjunto A) Varivel Discriminante (Conjunto B) Escores Fatoriais

Mtodo Grupo 2, sendo de 1 Grupo 1, sendo de 2 Grupo 2, sendo de 1 Grupo 1, sendo de 2 Grupo 2, sendo de 1 Grupo 1, sendo de 2

FDL de Fisher 24% 19% 21% 29% 14,7% 23,8%

Funo Logit 15% 38% 12% 38% 8,8% 23,8%

Quadro 3. Porcentagem de classificao errada

Observando o quadro 3 verifica-se que, de forma geral, ao utilizarem-se escores fatoriais obteve-se melhores resultados. J a funo logit foi mais eficiente que a FDL de Fisher, na classificao dos indivduos pertencentes ao grupo 1, cuja porcentagem de acerto foi de 91,2%.

59

5.7

CLASSIFICAO DE UM NOVO INDIVDUO Considerando os dados levantados nesta pesquisa, as variveis do

conjunto A se mostraram mais estveis na discriminao dos grupos 1 e 2, sendo a funo logit mais indicada para classificar elementos do grupo 1. A FDL de Fisher mostrou-se mais eficiente na classificao de indivduos de ambos os grupos, mostrando certa vantagem na classificao de elementos do grupo 2. Os programas PGR01 e PGR03 podem ser usados para a classificao segundo a FDL de Fisher e funo logit, respectivamente. Caso sejam conhecidos os coeficientes da FDL de Fisher e a mdia univariada , podemos fazer algumas mudanas em PGR01 para que este possa ento classificar o novo indivduo, com o devido fornecimento dos valores das variveis do conjunto A para este indivduo. A coleta destas informaes no pode ocorrer antes que o novo aluno tenha contato com a estrutura da IES e do curso. necessrio que esteja consciente do dia-a-dia que enfrentar para estar apto a responder as questes que permitiro a sua classificao. No caso da funo logit, caso sejam conhecidos os parmetros ( ), o programa PGR03 tambm se presta classificao bastando, para isso, fazer algumas mudanas em sua estrutura. Vimos que os escores fatoriais possibilitaram uma diminuio no erro de classificao. Na classificao de indivduos do grupo 2 o erro baixou de 38% para 23,8% e por este motivo, importante levar em considerao a citada opo de classificao. Neste caso, os dados iniciais devem ser preparados antes de serem fornecidos aos programas PGR01 e PGR03. Tendo uma observao para X , faz-se a padronizao de X e em seguida obtm-se os escores fatoriais como foi mostrado na seo 3.5.5 .

CONCLUSES Verificou-se ao longo deste trabalho, a diversidade de tcnicas classificatrias

oferecidas pela estatstica multivariada. Caber ao pesquisador fazer a escolha daquela que mais se adapta aos dados coletados e objetivos pretendidos. Vrios foram os testes realizados no sentido de se obter os melhores resultados e, acreditase que este objetivo tenha sido alcanado. Constatou-se as dificuldades encontradas pela IES estudada para o preenchimento das vagas ofertadas, pois o vestibular de 2006 apresentou 32 opes de cursos de graduao e somente 7 deles receberam matrculas, as quais implicaram em 346 novos alunos. No se sabe quantas outras IES apresentam situaes parecidas, mas, com certeza, a IES pesquisada no um caso a parte. Falhou-se parcialmente na determinao de variveis discriminantes, porque as obtidas no se mostraram muito eficientes na discriminao dos dois grupos. O questionrio usado no conseguiu captar elementos essenciais na deciso de um acadmico continuar ou no os seus estudos, como por exemplo: o financeiro e o desagrado com o ensino ofertado pela instituio. Neste estudo, os escores fatoriais mostraram um desempenho superior ao das variveis discriminantes na tarefa de classificar indivduos em suas respectivas populaes. Acredita-se que, de maneira geral, os resultados obtidos foram satisfatrios. H cursos na IES pesquisada onde as desistncias no primeiro perodo so da ordem de 40%. Classificar erradamente um elemento que permanecer no curso entre aqueles que desistiro no problema, principalmente quando esta classificao errada somente de 8%, obtida a partir da funo logit. Indiscutivelmente o nmero de variveis pode ser aumentado e a forma de capt-las melhorada, de maneira a aumentar o nmero e a qualidade das variveis discriminantes. Os estudos aqui desenvolvidos podem, se usados adequadamente, contribuir com a reduo da evaso escolar. A aplicao das regras de classificao junto aos novos alunos da instituio, antecipar o conhecimento dos possveis desistentes. Assim, a instituio poder fazer um acompanhamento destes alunos e incentiv-los na participao de programas que visem a reduo da evaso escolar. Melhorar currculos na busca da interdisciplinaridade, tornar o curso mais atraente e promover a integrao do acadmico instituio, conceder descontos na mensalidade, promover a participao do aluno com problemas financeiros em programas de

61

crdito do governo federal, viabilizar a integrao social, acadmica, cultural e profissional do estudante atravs da participao em semanas acadmicas, empresa Jnior e projetos comunitrios e oferecer orientao psicolgica aos que necessitam so medidas que podem ajudar na reduo da evaso escolar.

6.1

SUGESTES PARA TRABALHOS FUTUROS Em trabalhos futuros, que abordem o mesmo tema, interessante uma

melhoria no questionrio usado para a coleta de dados. A insero de um nmero maior de questes, poder melhor traar o perfil dos elementos integrantes de cada grupo e delinear fatores que, certamente, so os responsveis pela evaso escolar no ensino superior. A construo da maioria das questes dever seguir o conceito da escala de Likert. Neste tipo de escala os pesquisados so solicitados a concordarem ou discordarem das afirmaes, segundo uma escala que vai de 1(discordo totalmente) at 5 (concordo totalmente). Com relao ao desempenho escolar do aluno, uma opo seria uma anlise mais aprofundada do histrico do ensino mdio. Outro ponto importante trabalhar com um universo maior, de forma a proporcionar uma maior segurana nos resultados obtidos. Sugere-se a aplicao de redes neurais como uma tcnica complementar. E, por fim, recomendvel pesquisar instituies que apliquem questionrios scio-educacionais. O pesquisador j teria, de incio, uma grande base de dados o que facilitaria, em muito, o seu trabalho.

62

REFERNCIAS AGRESTI, A. Categorical Data Analysis. New York: John Wiley, 1990 ARAJO, E. C. de. VisualBooks, 2003. Algoritmos Fundamentos e Prtica. Florianpolis:

BAKER, R. W. e SIRYK, B. S. Student Adaptation To College Questionaire: Manual. Los Angeles:Western Psychological Services, 1989. CUNICO, L. H. B. Tcnicas em data mining aplicadas na predio de satisfao de uma rede de lojas do comrcio varejista. Dissertao de mestrado em mtodos numricos em engenharia UFPR. Curitiba, 2005 GAIOSO, N. P. L. O fenmeno da evaso escolar educao superior no Brasil. Braslia: UCB, 2005. GIMENO, S. G. A . e SOUZA, J. M. P. Utilizao de estratificao e modelo de regresso logstica na anlise de estudos caso-controle. Rev. Sade Pblica vol. 29 n. 4. So Paulo, ago 1995. HAIR , J.F. ; ANDERSON, R.E. ; TATHAM, R.L. e BLAC, W.C. Anlise multivariada de dados. Porto Alegre: Bookman, 2005 INEP. Instituto Nacional de Estudos e Pesquisas Educacionais Ansio Teixeira. Disponvel em www.inep.gov.br JOHNSON, R.A. e WICHERN, D.W. Applied multivariate statistical analysis. Londres:Prentice-Hall, 1998. MINGOTI, S. A .. Anlise de Dados Atravs de Mtodos de Estatstica Multivariada. Belo Horizonte: Editora UFMG, 2005 PEREIRA, F. C. B. Determinantes da evaso de alunos e os custos ocultos para instituies de ensino superior: uma apliacao na Universidade Sul Catarinennse. Tese de doutorado em engenharia de produo UFSC. Florianpolis, 2003 PIZZOL, S. J. S. de. Combinao de grupos focais e alise discriminante: um mtodo para tipificao de sistemas de produo agropecuria. Ver. Econ. Social. Rural, 2004, Vol 42, n.3, p.451-468. ISSN 0103-2003. POLYDORO, S. A. J. , PRIMI, R. et al . Desenvolvimento de uma escala de integrao ao ensino superior. Psico-USF, Jan/Jun. 2001, vol. 6, n.1, p.11-17. REIS, E. Estatstica Multivariada Aplicada. Lisboa: Edies Slabo, 2001.

63

RODRIGUES, A . M., Tcnicas de Data Mining classificadas do ponto de vista do usurio. Dissertao de mestrado em engenharia de produo da UFRJ . Rio de Janeiro, 2000. SANTOS, A. M. dos, SEIXAS, J. M. de, PEREIRA, B. de B. et al . Using artificial neural networks and logistic regression in prediction of Hepatitis A. Rev. bras. epidemiol., June 2005, vol 8, n.2, p. 117-126. ISSN 1415-790X SCHWARTZMAN, J. O financiamento das Instituies de Ensino Superior no Brasil. UNESCO, 2003. SCHWARTZMAN, S. O ensino superior no Brasil. Braslia: INEP, 1999

64

APNDICE A PROGRAMA PARA A FDL DE FISHER O programa PGR01 desenvolvido no MATLAB calcula os coeficientes da FDL de fisher e classifica um novo indivduo.

%PROGRAMA : PGR01 %O PROGRAMA CALCULA OS COEFICIENTES DA FDL DE FISHER % x1= MATRIZ DE DADOS DA POPULAO 1 % x2 = MATRIZ DE DAOS DA POPULAO 2 % n1 = N. DE OBSERVAES POP 1 % n2 = N. DE OBSERVAES POP 2 % p = N. DE VARIVEIS x1=input('MATRIZ DE DADOS POPULAO 1, x1='); x2=input('MATRIZ DE DADOS POPULAO 2, x2='); [n1,p]=size(x1); [n2,p]=size(x2); xm1=mean(x1); xm2=mean(x2); s1=cov(x1); s2=cov(x2); sp=((n1-1)*s1+(n2-1)*s2)/(n1+n2-2); spi=inv(sp); xm=xm1-xm2; c=xm*spi; ym1=c*xm1'; ym2=c*xm2'; ym=(ym1+ym2)/2; p1=0; p2=0; xc=input('MATRIZ DE DADOS DE INDIVDUOS CLASSIFICVEIS NA POP 1 OU POP2, xc='); [nc,p]=size(xc); xt=xc'; for i=1:nc y=c*xt(:,i); if y > ym p(i)=1; p1=p1+1; else p(i)=2; p2=p2+1; end end disp(' ') disp('#################################################################') disp(' ') disp('Os indivduos classificados na pop 2 (DESISTENTES), so:') for i=1:nc if p(i)==2 disp(i) end end disp('elementos classificados na pop 1') disp(p1) disp('elementos classificados na pop 2') disp(p2)

65

APNDICE B MTODO DE LACHENBRUCH PROGRAMA O programa PGR02 desenvolvido no MATLAB , tem como objetivo a

resoluo do mtodo de Lachenbruch.

%PROGRAMA : PGR02 %O PROGRAMA EXECUTA O MTODO DE LANCHENBRUCH % x1= MATRIZ DE DADOS DA POPULAO 1 % x2 = MATRIZ DE DAOS DA POPULAO 2 % n1 = N. DE OBSERVAES POP 1 % n2 = N. DE OBSERVAES POP 2 % p = N. DE VARIVEIS x1=input('MATRIZ DE DADOS POPULAO 1, x1='); x2=input('MATRIZ DE DADOS POPULAO 2, x2='); [n1,p]=size(x1); [n2,p]=size(x2); xm1=mean(x1); xm2=mean(x2); s1=cov(x1); s2=cov(x2); p1=0; np1=0; p2=0; np2=0; k=1 while k<(n1+1) L=1; x0=x1(k,:); for i=1:n1 if i~=k for j=1:p x1r(L,j)=x1(i,j); end L=L+1; end end s1r=cov(x1r); sp=((n1-2)*s1r+(n2-1)*s2)/(n1+n2-3); spi=inv(sp); xm1r=mean(x1r); xm=xm1r-xm2; c=xm*spi; ym1=c*xm1r'; ym2=c*xm2'; ym=(ym1+ym2)/2; y0=c*x0'; if y0 > ym p1=p1+1;

66

else np1=np1+1; end k=k+1; end k=1; while k<(n2+1) L=1; x0=x2(k,:); for i=1:n2 if i~=k for j=1:p x2r(L,j)=x2(i,j); end L=L+1; end end s2r=cov(x2r); sp=((n1-1)*s1+(n2-2)*s2r)/(n1+n2-3); spi=inv(sp); xm2r=mean(x2r); xm=xm1-xm2r; c=xm*spi; ym1=c*xm1'; ym2=c*xm2r'; ym=(ym1+ym2)/2; y0=c*x0'; if y0 < ym p2=p2+1; else np2=np2+1; end k=k+1; end disp('#############################################') disp('NMERO DE ELEMENTOS DA POPULAO 1') disp('CLASSIFICADOS ERRADAMENTE NA POPULAO 2:') disp(np1) disp('NMERO DE ELEMENTOS DA POPULAO 1') disp('CLASSIFICADOS CORRETAMENTE EM 1:') disp(p1) disp('NMERO DE ELEMENTOS DA POPULAO 2') disp('CLASSIFICADOS ERRADAMENTE NA POPULAO 1:') disp(np2) disp('NMERO DE ELEMENTOS DA POPULAO 2') disp('CLASSIFICADOS CORRETAMENTE EM 2:') disp(p2) disp('############################################') disp('PROBABILIDADE DE CLASSIFICAR ERRADAMENTE') disp('UM ELEMENTO NA POPULACAO 2, SENDO ELE DE 1:') p21=np1/n1;

67

disp(p21) disp('PROBABILIDADE DE CLASSIFICAR ERRADAMENTE') disp('UM ELEMENTO NA POPULAO 1, SENDO ELE DE 2:') p12=np2/n2; disp(p12) M=[p1 np1;np2 p2]; disp(' M A T R I Z D E C O N F U S disp(' ') disp(M)

O')

68

APNDICE C PARMETROS DA FUNO LOGIT PROGRAMA O programa PGR03 escrito no MATLAB calcula os parmetros da funo logit e classifica novos indivduos. %PROGRAMA : PGR03 %O PROGRAMA DETERMINA OS PARMETROS DA REGRESSO LOGISTICA %CALCULA AS PROBABBILIDADES DE CLASSIFICAO CORRETA E ERRADA %FORNECE A MATRIZ DE CONFUSO % x1=MATRIZ DE DADOS DO GRUPO 1, GRUPO CUJA VARIVEL RESPOSTA Y = 0 % x2=MATRIZ DE DADOS DO GRUPO 2, GRUPO CUJA VARIVEL RESPOSTA Y = 1 x1=input('MATRIZ DE DADOS DO GRUPO 1 (n1xp), VARIVEL RESPOSTA Y=0, x1='); x2=input('MATRIZ DE DADOS DO GRUPO 2 (n2xp), VARIVEL RESPOSTA Y=1, x2='); [n1,p]=size(x1); [n2,p]=size(x2); n=n1+n2; for i=1:(p+1) b(i)=0; beta=b'; end for i=1:n1 y0(i)=0; end for i=1:n2 y1(i)=1; end y=[y0';y1']; A=[x1;x2]; for i=1:n u(i)=1; end x=[u' A]; X=x'; j=0; while j < 10 for i=1:n E=beta'*X(:,i); p1(i)=(exp(E))/(1+exp(E)); p2=p1(i)*(1-p1(i)); B(i,:)=p2*x(i,:); end P=X*B; I=inv(P); beta=beta+I*X*(y-p1'); j=j+1;

69

end disp(' ') disp('######################################################### ####') disp('COEFICENTES DA FUNO LOGIT: G(X)= B0 + B1X1 + B2X2 + ...+ BpXp') disp(' ') u=['NESTE CASO TEMOS p=' num2str(p) ]; disp(' ') disp(u) disp(beta') g1=0; g2=0; ng1=0; ng2=0; for i=1:n1 r=beta'*X(:,i); if r < 0 g1=g1+1; else ng1=ng1+1; end end for i=(n1+1):n r=beta'*X(:,i); if r < 0 ng2=ng2+1; else g2=g2+1; end end disp(' ') disp('#############################################') disp('NMERO DE ELEMENTOS DA POPULAO 1(VARIVEL RESPOSTA Y=0)') disp('CLASSIFICADOS ERRADAMENTE NA POPULAO 2 (VARIVEL RESPOSTA EH Y=1):') disp(ng1) disp('NMERO DE ELEMENTOS DA POPULAO 1 (y=0)') disp('CLASSIFICADOS CORRETAMENTE EM 1:') disp(g1) disp('NMERO DE ELEMENTOS DA POPULAO 2 (y=1)') disp('CLASSIFICADOS ERRADAMENTE NA POPULAO 1:') disp(ng2) disp('NMERO DE ELEMENTOS DA POPULAO 2 (y=1)') disp('CLASSIFICADOS CORRETAMENTE EM 2:') disp(g2) disp('############################################') disp('PROBABILIDADE DE CLASSIFICAR ERRADAMENTE') disp('UM ELEMENTO NA POPULAO 2 (y=1), SENDO ELE DE 1:') p21=ng1/n1; disp(p21) disp('PROBABILIDADE DE CLASSIFICAR ERRADAMENTE') disp('UM ELEMENTO NA POPULAO 1 (y=0), SENDO ELE DE 2:')

70

p12=ng2/n2; disp(p12) M=[g1 ng1;ng2 g2]; disp(' M A T R I Z D E C O N F U S O') disp(' ') disp(M) pause disp(' ') xc=input('MATRIZ DE DADOS DOS INDIVDUOS CLASSIFICVEIS NA POP 1 OU POP 2, xc='); [nc,p]=size(xc); for i=1:nc uc(i)=1; end C1=[uc;xc']; for i=1:nc rc=beta'*C1(:,i); if rc < 0 g(i)=1; else g(i)=2; end end disp('######################################################### #####################') disp('Os indivduos classificados no grupo 2 (DESISTENTES) so:') for i=1:nc if g(i)==2 disp(i) end end

71

APNDICE D MANOVA PARA 2 GRUPOS PROGRAMA O programa PGR04 desenvolvido no MATLAB executa a MANOVA para dois grupos. %PROGRAMA : PGR04 %O PROGRAMA FAZ A ANLISE MANOVA PARA DOIS GRUPOS % x1 = MATRIZ DE DADOS (n1xp) DO GRUPO 1 % x2 = MATRIZ DE DADOS (n2xp) DO GRUPO 2 % alfa = NVEL DE SIGNIFICNCIA x1=input('MATRIZ DE DADOS (n1xp) DO GRUPO 1, x1='); x2=input('MATRIZ DE DADOS (n2xp) DO GRUPO 2, x2='); a=input('NVEL DE SIGNIFICNCIA, alfa='); [n1,p]=size(x1); [n2,p]=size(x2); n=n1+n2; g=2; alfa=a/100; m1=mean(x1); m2=mean(x2); for i=1:p m(i)=(n1*m1(i)+n2*m2(i))/(n1+n2); end B=n1*((m1-m)'*(m1-m))+n2*((m2-m)'*(m2-m)); w1=0; w2=0; ww1=0; ww2=0; for i=1:n1 ww1=(x1(i,:)-m1)'*(x1(i,:)-m1); w1=w1+ww1; end for i=1:n2 ww2=(x2(1,:)-m2)'*(x2(i,:)-m2); w2=w2+ww2; end w=w1+w2; % LMBDA DE WILKS L=det(w)/det(B+w); % ESTATSTICA DO TESTE qui2=-(n-1-((p+g)/2))*log(L); Q=chi2inv(1-alfa,p*(g-1)); if qui2 < Q disp('Os vetores de mdias dos grupos 1 e 2 NO apresentam diferenas siginificativas') else disp('Os vetores de mdias dos grupos 1 e 2 APRESENTAM diferenas significativas') %COMPARAO ENTRE AS COMPONENTES for i=1:p

72

L1=(m1(i)-m2(i))+(tinv(alfa/(p*g*(g-1)),n-g))*sqrt((w(i,i)/(ng))*(1/n1+1/n2)); L2=(m1(i)-m2(i))-(tinv(alfa/(p*g*(g-1)),n-g))*sqrt((w(i,i)/(ng))*(1/n1+1/n2)); sinal=L1*L2; if sinal < 0 R(i)=0; else R(i)=1; end end disp('######################################################### #####################') disp('As variveis que apresentam diferenas significativas') disp('entre os grupos 1 e 2, so as variveis das colunas:') for i=1:p if R(i)==1 disp(i) end end end

73

APNDICE E PROGRAMA PARA INFERNCIA SOBRE MDIAS O programa PGR05 desenvolvido no MATLAB, compara vetores de mdias provenientes de duas populaes com matrizes de covarincias diferentes. Caso os vetores sejam considerados diferentes, o programa determina as componentes que diferem significativamente. %PROGRAMA : PGR05 %COMPARA VETORES DE MDIAS PROVENIENTES DE 2 POPULAES % x1=MATRIZ DE DADOS (n1xp) DA POPULAO 1 % x2=MATRIZ DE DADOS (n2xp) DA POPULAO 2 % alfa = NVEL DE SIGNIFICNCIA x1=input('MATRIZ DE DADOS (n1xp) DA POPULAO 1, x1=') x2=input('MATRIZ DE DADOS (n2xp) DA POPULAO 2, x2=') alfa=input('NVEL DE SIGNIFICNCIA, alfa=') [n1,p]=size(x1); [n2,p]=size(x2); x=[x1;x2]; [n,p]=size(x); m1=mean(x1); m2=mean(x2); s1=cov(x1); s2=cov(x2); T2=(m1-m2)*(inv(s1/n1+s2/n2))*(m1-m2)'; %clculo do qui-quadrado terico - Q' q1=chi2inv(1-alfa/100,p); if T2 > q1 disp('Os vetores de mdias dos grupos 1 e 2 APRESENTAM diferenas significativas') %COMPARAO ENTRE AS COMPONENTES s=s1/n1+s2/n2; for i=1:p L1=(m1(i)-m2(i))+sqrt(q1)*sqrt(s(i,i)); L2=(m1(i)-m2(i))-sqrt(q1)*sqrt(s(i,i)); sinal=L1*L2; if sinal < 0 R(i)=0; else R(i)=1; end end disp('######################################################### #####################') disp('As variveis que apresentam diferenas significativas') disp('entre os grupos 1 e 2, so as variveis das colunas:') for i=1:p if R(i)==1 disp(i) end

74

end else disp('Os vetores de mdias dos grupos 1 e 2 diferenas significativas') end

NAO apresentam

75

APNDICE F - QUESTIONRIO

01) Qual o seu curso?.................................. 02) Situao atual : ( ) Aluno ( ) Ex-aluno

03) Se ex-aluno, assinale a sua situao:( ) Curso trancado ( ) Curso abandonado ( )Transferncia ( ) Matrcula cancelada 04) Qual o seu sexo? 09) Nvel de instruo do seu pai? Resp Descrio Resposta Descrio 1 Masculino 1 Sem escolaridade 2 Feminino 2 Ensino Fundamental incompleto 3 Ensino Fundamental completo 05) Qual a sua idade? 4 Ensino Mdio incompleto Resp Descrio 5 Ensino Mdio completo 1 Entre 18 e 23 anos(inclusive) 6 Ensino Superior incompleto 2 Entre 23 e 28 anos(inclusive) 7 Ensino Superior completo 3 Entre 28 e 33 anos(inclusive) 4 Entre 33 e 38 anos(inclusive) 10) Nvel de instruo da me? 5 Entre 38 e 43 anos(inclusive) Resposta Descrio 6 Entre 43 e 48 anos(inclusive) 1 Sem escolaridade 7 Acima de 48 anos 2 Ensino Fundamental incompleto 3 Ensino Fundamental completo 06) Qual o seu estado civil? 4 Ensino Mdio incompleto Resp Descrio 5 Ensino Mdio completo 1 Solteiro 6 Ensino Superior incompleto 2 Casado 7 Ensino Superior completo 3 Amasiado 4 Divorciado 11) Qual a renda familiar? 5 Outro Resposta Descrio 1 At R$ 360,00 07) Com relao a sua moradia ? 2 De R$ 361,00 a R$ 600,00 Resp Descrio 3 De R$ 601,00 a R$ 1.000,00 1 Mora em casa prpria dos pais 4 De R$ 1001,00 a R$ 1.500,00 2 Mora em casa dos pais, alugada 5 De R$ 1.501,00 a R$ 2.000,00 3 Mora em casa prpria 6 De R$ 2.001,00 a R$ 2.500,00 4 Mora em casa alugada 7 De R$ 2.501,00 a R$ 3.000,00 5 Mora em repblica ou penso 8 De R$ 3.001,00 a R$ 4.000,00 6 Mora em casa de parentes 9 De R$ 4.001,00 a R$ 5.000,00 7 Outro 10 Acima de R$ 5.000,00 08) Resp 1 2 3 Voc tem trabalho remunerado? Descrio Sim No s vezes Com relao ao curso escolhido... Resposta Descrio 1 Voc ficou decepcionado 2 Era o que voc esperava 3 Superou as sua expectativas 4 No sabe dizer 12)

76

13) Resp 1 2 3 4 5 14) Resp 1 2 3 4 15) Resp 1 2 3 4 5 6 7 16) Resp 1 2 3 4 5 6 7

Onde voc fez o Ensino Mdio? Descrio Integralmente em escola pblica Totalmente em escola particular Maior parte em escola pblica Maior parte em escola particular Outro Em qual turno? Descrio Integralmente no noturno Integralmente no diurno Maior parte no noturno Maior parte no diurno Indique a sua principal razo na escolha da faculdade Descrio Qualidade do ensino Localizao Oferecer o curso pretendido Horrio do curso Instalaes a mais conhecida Outra Indique o seu principal motivo na escolha do curso Descrio Possibilidades salariais Realizao pessoal Gosta das matrias do curso Baixa concorrncia pelas vagas Permite conciliar aula e trabalho Mercado de trabalho Outro

Qual o seu principal objetivo ao fazer um curso superior? Resposta Descrio 1 Emprego 2 Aumento salarial 3 Diploma de nvel superior 4 Formao terica 5 Formao Profissional As questes 19) , 20) e 21) so referentes faculdade onde voc aluno ou ex-aluno Indique o nvel da sua 19) satisfao com relao a infraestrutura (laboratrios, biblioteca,etc) oferecida pela faculdade Resposta Descrio 1 Nenhuma satisfao 2 Pouco satisfeito 3 Satisfao moderada 4 Muito satisfeito 5 Plenamente satisfeito Informe a sua opinio com relao capacidade dos professores na transmisso do conhecimento Resposta Descrio 1 Nenhuma capacidade 2 Pouca capacidade 3 Capacidade regular 4 Boa capacidade 5 tima capacidade 20)

18)

17) Resp 1 2 3 4 5

Classifique o atendimento oferecido pelas coordenaes e secretarias. Resposta Descrio Durante o curso, voc 1 Desinteressados pelo problema classificaria o seu do aluno relacionamento afetivo com os 2 Fraco, mescla de baixo interesse colegas como sendo... com reduzida eficincia. 3 Moderado interesse e relativa Descrio eficincia Inexistente 4 Bom, mostram interesse e Fraco, baixo envolvimento eficincia. Moderado 5 timo, so interessados, Bom educados e competentes timo 21)

77

ANEXO I - TEOREMA DA DECOMPOSIO ESPECTRAL Seja pxp uma matriz de covarincias. Ento, existe uma matriz ortogonal Opxp , isto , OO = OO = Ipxp , tal que:

1 2 O' O = 0

0 = p

, onde

1 2 ... p

so os autovalores

ordenados em ordem decrescente da matriz pxp . Nesse caso, dizemos que a matriz pxp similar matriz pxp , o que implica em dizer que: (i) (ii) det(pxp) = pxp = pxp = i
i =1 p

trao(pxp) = trao(pxp) = 1 + 2 + ... + p .

A i-sima coluna da matriz Opxp o autovetor normalizado e1 correspondente ao autovalor i , i= 1, 2, ..., p , que denotado por:
ei1 e i2 e1 = . Ento, a matriz O dada por O = e1 e2 ... e p e pelo teorema da ... eip

decomposio espectral tem-se que a seguinte igualdade vlida:

pxp = OO' = i ei ei'


i =1

, sendo e1

um vetor de comprimento igual a 1, isto ,

2 ei = (ei2 + ei22 + ... + eip )1 / 2 = 1 e 1

ei' e j = 0 , i j , pela ortogonalidade da matriz Opxp .

78

ANEXO II - ESTIMADORES DE MXIMA VEROSIMILHANA Conhecendo n observaes para X, (x1, x2, ..., xn) , pretende-se estimar os

parmetros i e para tal necessrio definir qual o melhor estimador j . No mtodo


de mxima verossimilhana o estimador encontrado a partir da maximizao de uma funo, a funo de verossimilhana. A probabilidade de ocorrncia de uma amostra aleatria de n observaes [L(1,..., k)] dada pela funo densidade de probabilidade conjunta dos n
n

elementos

da

amostra

aleatria:

[ L(1 ,..., k )] = f ( x1 , x2 ,..., xn ;1 ,..., k ) = f ( xi ;1 ,..., k )


i =1

A funo de verossimilhana uma medida relativa da probabilidade de ocorrncia de uma amostra especfica de n elementos (x1, x2, ..., xn). O mtodo de verossimilhana permite encontrar estimadores para os parmetros de tal modo que seja maximizada a funo para uma amostra especfica. Para encontrar os estimadores calculam-se os mximos da funo de verossimilhana depois de logaritmizada l (1 ,... k ) = ln[ L(1 ,..., k ) isto , calculando as primeiras derivadas parciais em ordem a cada um dos parmetros e igualando-os a zero, e verificandose ainda que as segundas derivadas parciais so negativas.

79

ANEXO III IGUALDADE ENTRE MATRIZES DE COVARINCIAS Em REIS(2001) encontra-se o mtodo definido por BOX(1950), que consiste em testar a hipteses: H0: 1 = 2 = ..... = g com

W = =S ng

g ni W = ( x ij x i )( x ij x i )' i=1 j=1


H1: i = j ij Seja n a dimenso total da amostra, vi = ni -1 os graus de liberdade associados a cada grupo, Si a matriz de covarincia do grupo i e S a matriz de covarincia total. O teste M de Box define-se do seguinte modo: M = (n g ) ln S vi ln Si
i =1 g

Box sugeriu duas aproximaes para o seu teste: a distribuio do 2 e a distribuio F. Quando as dimenses dos grupos so superiores a 20, o nmero de variveis e de grupos inferior a 6, a aproximao 2 a indicada; em todas as outras situaes deve-se optar pela aproximao F. Aproximao distribuio do 2 :
2 M.C ~ 1 2 p ( p +1)( g 1)

sendo

C =1

2 p2 + 3 p 1 g 1 1 v ng 6( p + 1)( g 1) i =1 i

Aproximao distribuio F:
a1 = 1 C

a2 =

( p 1)( p + 2) g 1 1 2 6( g 1) i =1 vi (n g ) 2

v=

v+2 p ( p + 1)( g 1) e v0 = , ento 2 a2 a12

v M 1 a1 v0 ~ F v , v0 v