Você está na página 1de 261

Ps-Graduao em Cincia da Computao

JORGE LUIS CAVALCANTI RAMOS

UMA ABORDAGEM PREDITIVA DA EVASO NA


EDUCAO A DISTNCIA A PARTIR DOS CONSTRUTOS
DA DISTNCIA TRANSACIONAL

Universidade Federal de Pernambuco


posgraduacao@cin.ufpe.br
www.cin.ufpe.br/~posgraduacao

RECIFE
2016

Jorge Luis Cavalcanti Ramos

Uma abordagem preditiva da evaso na educao a distncia a partir dos


construtos da distncia transacional

Este trabalho foi apresentado Ps-Graduao em Cincia


da Computao do Centro de Informtica da Universidade
Federal de Pernambuco como requisito parcial para
obteno do ttulo de Doutor em Cincia da Computao.

ORIENTADOR: Prof. Dr. Alex Sandro Gomes

RECIFE
2016

Catalogao na fonte
Bibliotecria Monick Raquel Silvestre da S. Portes, CRB4-1217

R175a

Ramos, Jorge Luis Cavalcanti


Uma abordagem preditiva da evaso na educao a distncia a partir dos
construtos da distncia transacional / Jorge Luis Cavalcanti Ramos. 2016.
260 f.: il., fig., tab.
Orientador: Alex Sandro Gomes.
Tese (Doutorado) Universidade Federal de Pernambuco. CIn, Cincia da
Computao, Recife, 2016.
Inclui referncias e apndices.
1. Minerao de dados. 2. Educao a distncia. I. Gomes, Alex Sandro
(orientador). II. Ttulo.
006.312

CDD (23. ed.)

UFPE- MEI 2017-14

Jorge Luis Cavalcanti Ramos

Uma abordagem preditiva da evaso na educao a distncia a partir dos


construtos da distncia transacional

Tese apresentada Ps-graduao em Cincia da


Computao da Universidade Federal de
Pernambuco como parte dos requisitos para
obteno de ttulo de Doutor em Cincia da
Computao pela Universidade Federal de
Pernambuco.

Aprovada em 22/12/2016.
________________________________________
Orientador: Prof. Dr. Alex Sandro Gomes
BANCA EXAMINADORA

__________________________________________
Prof. Dr. Fernando da Fonseca de Souza
Centro de Informtica / UFPE
__________________________________________
Carla Taciana Lima Loureno Silva Schuenemann
Centro de Informtica / UFPE
__________________________________________
Prof. Dr. Francisco Milton Mendes Neto
Departamento de Cincias Exatas e Naturais / UFERSA
_________________________________________
Prof. Dr. Francisco Ricardo Duarte
Secretaria de Educao a Distncia / SEAD
__________________________________________
Prof. Dr. Alexandre Magno Andrade Maciel
Escola Politcnica de Pernambuco / UPE

Silvana, Marcela e Sofia, com amor e dedicao!


Em memria de D. Mal e D. Lourdinha.

Agradecimentos
A Deus, que me guiou e me sustentou durante toda esta caminhada;
minha amada esposa, Silvana e s minhas amadas filhas Marcela e Sofia, pela
compreenso, pelo amor e por tudo que representam na minha vida;
Aos meus pais, que escolheram a educao dos filhos como pedra fundamental para a
nossa famlia;
Ao meu amigo e orientador, Prof. Alex Sandro, mais uma vez, pela confiana, suporte e
ateno, pelos ensinamentos e encaminhamentos essenciais para que esta tese fosse
produzida e, acima de tudo, por sua amizade sincera;
Aos irmos, cunhados e sobrinhos, pela torcida e apoio neste desafio;
Aos colegas Cavaleiros da EDM, Rodrigo Lins e Joo Sedraz, pela amizade,
reciprocidade, compartilhamento e disponibilidade de sempre em ajudar;
Aos professores Fernando Fonseca, Carla Silva, Milton Mendes, Ricardo Duarte,
Alexandre Maciel, Simone Santos e Ig Bittencourt, pelas valiosas sugestes para o
aperfeioamento desta tese;
Aos colegas do CCTE, por proporcionar um ambiente dinmico de interao e pesquisas,
de ajuda mtua e de objetivos compartilhados;
Ao NEAD/UPE, por nos conceder uma importante e fundamental base de dados para que
pudssemos desenvolver nossas pesquisas;
FACEPE e a Coordenao do DINTER/MINTER: Profa. Edna Barros e Prof. Max
Santana, por nos concederem e apoiarem esta inestimvel oportunidade de prosseguir
nossos estudos de ps-graduao;
Aos professores do CIN/UFPE, pela nossa formao em alto nvel tcnico-cientfico;
Aos servidores do CIN/UFPE, em especial Llia, Socorro e Daniel, por nos aturar e
nos atender sempre com presteza e zelo.
UNIVASF, por me conceder as condies necessrias para um bom desenvolvimento
desta minha formao; em particular, SEAD, por me oferecer toda a sua estrutura para
as pesquisas iniciais e complementares desta tese;
Aos bolsistas do PRO-SPB, pela contribuio no desenvolvimento da aplicao;
Aos colegas do DINTER/MINTER, pela reafirmao das amizades anteriores, pelas
novas amizades e pela colaborao mtua durante as disciplinas;
Aos colegas do colegiado de Engenharia de Computao/UNIVASF, pelo
companheirismo e apoio;
A todos que, de alguma forma, contriburam para que esse trabalho fosse desenvolvido.

"... A extenso do aluno do futuro ser provavelmente


no assistir aulas; em vez disso, as oportunidades e
os processos de aprendizagem viro at ele. Ele vai
aprender em casa, no escritrio, no trabalho, na
fbrica, loja ou na fazenda. "
(Charles Wedemeyer, 1965)

Resumo
O crescimento da Educao a Distncia (EAD) tem sido apoiado por teorias para auxiliar
o planejamento e a execuo de cursos de maneira eficaz e eficiente. As pesquisas na rea
tambm refletem esse crescimento, medida que buscam atenuar ou resolver problemas
que surgem decorrentes dessa expanso, como por exemplo os altos ndices de evaso
ainda verificados na modalidade. Para a maioria das instituies que participaram do
Censo Anual da EAD no Brasil em 2015, o grande obstculo enfrentado tem sido a evaso
nos cursos, quando para 40% das instituies pesquisadas, a taxa mdia de evaso foi
entre 26% e 50% nos cursos totalmente ofertados a distncia por essas instituies.
Partindo de uma necessidade de renovao de teorias da EAD, bem como aplic-las no
sentido de auxiliar no enfrentamento nos desafios da modalidade, esta pesquisa enfocou
a Teoria da Distncia Transacional, proposta por Moore (1972, 1973, 1993, 2013). Foi
sugerida uma nova abordagem para determinao dos seus construtos, com o propsito
de aplic-los em um processo de deteco precoce de alunos com tendncias a evaso,
em cursos superiores ofertados a distncia. A utilizao de tcnicas de anlise
multivariada para a obteno dos construtos da distncia transacional teve a inteno de
buscar uma abordagem distinta das atualmente verificadas na literatura. Essa
determinao feita, na maioria dos casos, utilizando questionrios aplicados a alunos e
professores. Tambm, as evidncias na literatura apontam o uso de diversas tcnicas de
minerao de dados e aprendizagem de mquina na definio de modelos preditivos em
contextos educacionais, com ndices satisfatrios de acertos. A partir da obteno dos
componentes (variveis) dos construtos da distncia transacional, foi tambm definido e
validado um modelo de previso da evaso de alunos em cursos a distncia, a partir desses
componentes. Foram usados diversos algoritmos classificadores, sendo o classificador
por regresso logstica apresentado resultados mais relevantes quando comparados aos
registrados pela literatura na rea. Foi ento desenvolvida uma aplicao com o modelo
preditivo implementado, para testes com professores e tutores que atuam na EAD, sendo
a mesma bem avaliada por esses usurios.

Palavras-chave: Minerao de Dados Educacionais. EAD. Predio. Aprendizado


supervisionado.

Abstract
The growth of Distance Education (DE) has been supported by theories to aid in the
planning and execution of courses in an effective and efficient way. Research in this area
also reflects this growth, as they seek to mitigate or solve problems arising from this
expansion, such as the high rates of dropouts still observed in the modality. For most of
the institutions that participated in the DE Annual Census in Brazil in 2015, the greatest
obstacle has been the avoidance of courses, when for 40% of the institutions surveyed,
the average rate of dropout was between 26% and 50% in courses offered at a distance
by these institutions. Based on a need to renew DE theories, as well as applying them to
help addressing the challenges of the modality, this research focused on the Transactional
Distance Theory proposed by Moore (1972, 1973, 1993, 2013). It was suggested a new
approach to determine their constructs, with the purpose of applying them in a process of
early detection of students with tendencies to dropout, in higher distance courses. The use
of multivariate analysis techniques to obtain the transactional distance constructs, had the
intention of looking for a different approach than those currently found in the literature.
This determination is made, in most cases, using questionnaires applied to students and
teachers. In addition, the literature evidences the use of several techniques of data mining
and machine learning in the definition of predictive models in educational contexts, with
satisfactory indexes of precision. After obtaining the components (variables) of the
constructs, it was also defined and validated a model of prediction of the dropout students
in distance courses, from these components. Several classifiers algorithms were used, and
the logistic regression classifier presented more relevant results when compared to those
recorded in the literature. Since then, an application with the predictive model was
implemented for test with users and was been well accepted by teachers and tutors who
work with DE.
Keywords: Educational Data Mining. DE. Prediction. Supervised learning.

Lista de Figuras
Figura 1 Evoluo do nmero de matrculas em cursos de graduao no perodo 20032014, por modalidade de ensino. .................................................................................... 20
Figura 2 - Modelo de Aprendizagem On-line. ............................................................... 37
Figura 3 - Relao entre o dilogo e a estrutura e sua influncia na distncia transacional.
........................................................................................................................................ 48
Figura 4 Visualizao da influncia do dilogo e da estrutura na distncia transacional.
........................................................................................................................................ 48
Figura 5 - Relao entre o dilogo, estrutura, distncia transacional e a autonomia do
aluno. .............................................................................................................................. 49
Figura 6 - Multidisciplinaridade da Minerao de Dados. ............................................ 65
Figura 7 Exemplo de rvore de Deciso..................................................................... 70
Figura 8 Exemplo da classificao do kNN para dois valores de k. ........................... 72
Figura 9 Exemplo de Rede Neural Artificial. .............................................................. 73
Figura 10 Componentes da SVM. ............................................................................... 74
Figura 11 Relao logstica entre variveis dependente e independente..................... 76
Figura 12 - Processo de descoberta de conhecimento em banco de dados..................... 61
Figura 13 - Processo de KDD. ....................................................................................... 62
Figura 14 - Etapas da Minerao de Dados Educacionais.............................................. 77
Figura 15 - Taxonomia dos Mtodos para EDM. ........................................................... 83
Figura 16 - Fases do CRISP-DM.................................................................................. 103
Figura 17 Modelo de CRISP-EDM da pesquisa. ....................................................... 110
Figura 18 - Etapas 01 a 03 da pesquisa. ....................................................................... 111
Figura 19- Etapas 04 a 06 da pesquisa. ........................................................................ 111
Figura 20 - Etapas e aes da pesquisa. ....................................................................... 112
Figura 21 Processo de mapeamento das variveis da DT. ........................................ 116
Figura 22 Exemplo de um diagrama de caminhos em uma SEM/CFA. ................... 120
Figura 23 Matriz de Confuso. .................................................................................. 130
Figura 24 Curvas ROC para dois classificadores diferentes ..................................... 132
Figura 25 Arquitetura da implementao do modelo preditivo de evaso. ............... 135
Figura 26 Fluxo do processo de avaliao dos prottipos. ........................................ 137
Figura 27 Resultado para o Teste de Mardia para normalidade multivariada. .......... 154

Figura 28 Resultado para o Teste de Henze-Zirkler para normalidade multivariada. 154


Figura 29 Modelo inicial dos construtos para a CFA. ............................................... 155
Figura 30 Path Diagram com resultado da CFA usando o modelo com todas as
variveis. ....................................................................................................................... 156
Figura 31 Modelo usado para o segundo ciclo da CFA. ........................................... 157
Figura 32 Modelo usado para o terceiro ciclo da CFA. ............................................ 157
Figura 33 Modelo final obtido aps o quarto ciclo da CFA. ..................................... 158
Figura 34 Path Diagram com resultado da final da CFA. ........................................ 158
Figura 35 Conjunto de variveis utilizadas na definio dos modelos...................... 163
Figura 36 Grfico comparativo das mtricas por classificador, base completa. ....... 165
Figura 37 Grfico comparativo das mtricas por classificador, base Pedagogia. ..... 167
Figura 38 Grfico comparativo das mtricas por classificador, base Biologia. ........ 168
Figura 39 Conjunto das curvas ROC dos classificadores utilizados, usando a base de
dados completa. ............................................................................................................ 169
Figura 40 Grfico comparativo das curvas ROC, base Completa. ............................ 170
Figura 41 Modelo da Regresso Logstica aps o Stepwise. ..................................... 174
Figura 42 Mtricas do classificador para os perodos iniciais de Pedagogia. ........... 177
Figura 43 Mtricas do classificador para os perodos iniciais de Biologia. .............. 177
Figura 44 Exemplo da tela do Prottipo de baixa fidelidade Mdulo anlise de evaso.
...................................................................................................................................... 179
Figura 45 Exemplo da tela do Prottipo de alta fidelidade Mdulo anlise de evaso.
...................................................................................................................................... 180
Figura 46 Processo de classificao e exibio de dados da turma. .......................... 181
Figura 47 Imagens dos testes com usurios. ............................................................. 182
Figura 48 Portflio dos Resultados dos dois questionrios aplicados. ...................... 183
Figura 49 Valores mdios em cada par de palavras. .................................................. 185
Figura 50 Diagrama de valores mdios em cada dimenso........................................ 186

Lista de Tabelas
Tabela 1 Taxas de evaso em cursos a distncia. ........................................................ 21
Tabela 2 Taxas de evaso em cursos superiores presenciais e a distncia. ................. 22
Tabela 3 - Dados dos Cursos de Graduao a Distncia da Universidade de Pernambuco.
...................................................................................................................................... 114
Tabela 4 Quantitativos e ndices de desistncia e evaso nos cursos analisados. ..... 148
Tabela 5 Quantitativos e ndices de desistncia e evaso nos cursos analisados. ..... 148
Tabela 6 Indicadores de ajuste e qualidade do modelo inicial. ................................. 156
Tabela 7 Indicadores de ajuste e qualidade do modelo final. ..................................... 160
Tabela 8 Resumo das bases de treinamento e testes usados no processo de EDM. .. 162
Tabela 9 N de casos (instncias) de cada classe em ambas as bases........................ 162
Tabela 10 Matrizes de Confuso para cada classificador usando a base completa. .. 164
Tabela 11 Mtricas de avaliao de cada classificador usando a base completa (valores
em destaque representam os melhores indicadores entre os classificadores). .............. 165
Tabela 12 Matrizes de Confuso para cada classificador usando a base do curso de
Pedagogia. .................................................................................................................... 166
Tabela 13 Mtricas de avaliao de cada classificador usando a base de Pedagogia.166
Tabela 14 Matrizes de Confuso para cada classificador usando a base do curso de
Biologia. ....................................................................................................................... 167
Tabela 15 Mtricas de avaliao de cada classificador usando a base de Biologia. . 168
Tabela 16 TFP e TFN para cada classificador, usando a base completa. .................. 171
Tabela 17 Matrizes de Confuso para cada base, aps o uso do Stepwise. ............... 175
Tabela 18 Mtricas de avaliao do modelo, sem e com o Stepwise. ....................... 175
Tabela 19 Resultados das Mtricas por perodo - Pedagogia. ................................... 176
Tabela 20 Resultados das Mtricas por perodo - Biologia. ...................................... 177
Tabela 21 Resultados de modelos preditivos de evaso em trabalhos relacionados. 194

Lista de Quadros
Quadro 1 - Atores e seus objetivos com a EDM. ........................................................... 79
Quadro 2 - reas de interesse de pesquisa em EDM. .................................................... 81
Quadro 3 Tcnicas e abordagens para alcance dos objetivos especficos. ................ 112
Quadro 4 Obras relacionadas a instrumentos de medio da DT usadas nesta pesquisa.
...................................................................................................................................... 116
Quadro 5 Questionrio AttrakDiff para expectativa e experincia do usurio.......... 139
Quadro 6 Tarefas realizadas pelos usurios nos testes de usabilidade do prottipo. 141
Quadro 7 Lista de Software e pacotes usados na aplicao do mtodo. ................... 142
Quadro 8 Descrio das principais tabelas do BD Moodle, onde foram coletados dados
desta pesquisa. .............................................................................................................. 144
Quadro 9 Tabelas e quantidade de registros por turmas em Biologia. ...................... 145
Quadro 10 - Tabelas e quantidade de registros por turmas em Pedagogia. .................. 146
Quadro 11 Lista das variveis e respectivos construtos atribudos pelos especialistas.
...................................................................................................................................... 149
Quadro 12 Lista das variveis eliminadas por apresentarem somente valores constantes
ou zerados em todos os casos. ...................................................................................... 152
Quadro 13 Lista das variveis utilizadas na Anlise Fatorial Confirmatria. ........... 152
Quadro 14 Lista final de variveis por construtos aps a CFA. ................................ 159
Quadro 15 Lista final das variveis do modelo, definida aps a Regresso Logstica
Stepwise. ....................................................................................................................... 174
Quadro 16 Resultados da execuo da Tarefa 1. ....................................................... 187
Quadro 17 Resultados da execuo da Tarefa 2. ....................................................... 187
Quadro 18 Resultados da execuo da Tarefa 3. ....................................................... 187
Quadro 19 Resultados da execuo da Tarefa 4. ....................................................... 188
Quadro 20 Resultados da execuo da Tarefa 5. ....................................................... 189
Quadro 21 Resultados da execuo da Tarefa 6. ....................................................... 190
Quadro 16 Importncia de cada varivel no modelo. ................................................ 195

Lista de Abreviaturas e Siglas


ABED:

Associao Brasileira de Educao a Distncia

AUC:

Area Under Curve

AVA:

Ambiente Virtual de Aprendizagem

BD:

Banco de Dados

CFA:

Confirmatory Factor Analysis

CRISP-DM:

Cross Industry Standard Process for Data Mining

DM:

Data Mining

DT:

Distncia Transacional

EAD:

Educao a Distncia

EDM:

Educational Data Mining

GOF:

Goodness-of-Fit

IDE:

Integrated Development Environment

IES:

Instituio de Ensino Superior

KDD:

Knowledge Discovery in Databases

LMS:

Learning Management Systems

MOODLE:

Modular Object-Oriented Dynamic Learning Environment

ML:

Machine Learning

NEAD:

Ncleo de Educao a Distncia

ROC:

Receiver Operating Characteristics

SEAD:

Secretaria de Educao a Distncia

SQL:

Structured Query Language

SVM:

Support Vector Machine

UAB:

Universidade Aberta do Brasil

UNIVASF:

Universidade Federal do Vale do So Francisco

UPE:

Universidade de Pernambuco

Sumrio
1.

INTRODUO ...................................................................................................... 17

1.1.

Motivao e Justificativa ..................................................................................... 19

1.1.1.

O problema da evaso nos cursos a distncia .............................................. 20

1.1.2.

Definio da teoria norteadora desta tese ..................................................... 23

1.1.3. Uma nova abordagem para a obteno dos construtos e aplicao da distncia
transacional ................................................................................................................. 24
1.2.

Problema da pesquisa .......................................................................................... 25

1.3.

Questes da pesquisa ........................................................................................... 25

1.4.

Objetivo geral ...................................................................................................... 26

1.5.

Objetivos especficos ........................................................................................... 26

1.6.

Contribuies esperadas ...................................................................................... 26

1.7.

Organizao do trabalho ...................................................................................... 27

2. TEORIAS CONSOLIDADAS E NOVOS HORIZONTES PARA PESQUISAS EM


EAD ................................................................................................................................ 28
2.1.

Teorias em Educao a Distncia ........................................................................ 28

2.1.1.

Teoria da Industrializao da EAD .............................................................. 28

2.1.2.

Teoria da Conversao Didtica Guiada ...................................................... 31

2.1.3.

Teoria do Estudo Independente .................................................................... 34

2.1.4.

Modelo de Aprendizagem On-line ............................................................... 36

2.1.5.

Teoria da Distncia Transacional ................................................................. 39

2.1.6.

Detalhamento dos construtos da distncia transacional ............................... 41

2.1.7.

Relaes entre os construtos da distncia transacional ................................ 47

2.1.8.

Medidas da distncia transacional ................................................................ 50

2.1.9.

Relao entre a distncia transacional e a evaso em cursos a distncia ..... 58

3.

MINERAO DE DADOS E DESCOBERTA DE CONHECIMENTO ............. 60

3.1.

Knowledge Discovery in Databases (KDD) ........................................................ 60

3.1.1.
3.2.

Etapas ........................................................................................................... 61

Minerao de Dados ............................................................................................ 64

3.2.1.

Aprendizagem de Mquina .......................................................................... 65

3.2.2.

Modelos de Minerao de Dados ................................................................. 67

3.2.3.

Tarefas de Minerao de Dados ................................................................... 67

3.2.4.

Mtodos, Tcnicas e Algoritmos.................................................................. 69

3.3.

Minerao de Dados Educacionais ...................................................................... 76

3.3.1.

Consolidao da rea e evoluo das pesquisas ........................................... 80

3.3.2.

reas de estudo, mtodos e aplicaes ........................................................ 83

3.3.3.

Abordagens educacionais da EDM .............................................................. 87

3.3.4.
3.4.

Cross Industry Standard Process for Data Mining (CRISP-DM) ...................... 102

3.4.1.
4.

Tendncias e Desafios .................................................................................. 98


EDM usando CRISP-DM ........................................................................... 106

MTODO DA PESQUISA .................................................................................. 109

4.1.

Caracterizao da Pesquisa ................................................................................ 109

4.2.

Design do Mtodo utilizado .............................................................................. 110

4.3.

Etapa 02: Entendimento dos Dados Fase de coleta e preparao inicial dos dados
113

4.4. Etapa 02: Entendimento dos Dados - Mapeamento dos construtos da Distncia
Transacional na base de dados...................................................................................... 115
4.4.1. Associao entre itens de questionrios e variveis do banco de dados do
Moodle 116
4.4.2. Anlise das variveis por especialistas e suas respectivas relaes com os
construtos da DT....................................................................................................... 117
4.5.

Etapa 03: Preparao dos Dados - Anlise Fatorial Confirmatria ................... 118

4.5.1.

Validao do Modelo Fatorial Confirmatrio ............................................ 120

4.5.2. Conjunto representativo de variveis para cada construto da distncia


transacional ............................................................................................................... 123
4.6. Etapa 04: Modelagem - Minerao de dados educacionais para definio do
modelo preditivo da evaso .......................................................................................... 123
4.6.1.

rvore de Deciso ...................................................................................... 124

4.6.2.

Mquina de Vetor de Suporte (SVM) ........................................................ 125

4.6.3.

Rede Neural Artificial ................................................................................ 126

4.6.4.

k-Nearest Neighbors (kNN) ....................................................................... 127

4.6.5.

Regresso Logstica.................................................................................... 127

4.7.

Etapa 05: Avaliao dos modelos preditivos ..................................................... 129

4.7.1.

Matriz de confuso e mtricas associadas .................................................. 129

4.7.2.

Curva ROC ................................................................................................. 132

4.8.

Etapa 06: Implantao - Implementao e testes do modelo escolhido ............ 134

4.8.1.

Desenvolvimento da aplicao para anlise de evaso .............................. 134

4.8.2.

Testes com usurios ................................................................................... 136

4.9.
5.

Quadro resumo das ferramentas utilizadas em cada etapa do mtodo. ............. 142
DETALHAMENTO DOS RESULTADOS DA PESQUISA .............................. 144

5.1.

Processo de coleta e preparao inicial dos dados ............................................ 144

5.2.

Anlise das taxas de desistncia e evaso nos cursos ........................................ 146

5.3.

Identificao e mapeamento dos construtos da Distncia Transacional ............ 149

5.3.1.

Definio das variveis e validao dos construtos por especialistas ........ 149

5.3.2.

Extrao das variveis nas bases de dados dos cursos ............................... 151

5.3.3. Construo e validao do modelo dos construtos por Anlise Fatorial


Confirmatria (CFA) ................................................................................................ 152
5.4. Definio do modelo preditivo da evaso a partir da minerao de dados
educacionais.................................................................................................................. 161
5.4.1.

Resultados da aplicao dos Algoritmos de Classificao......................... 162

5.4.2.

Matrizes de Confuso e Mtricas dos Classificadores ............................... 164

5.4.3.

Curvas ROC ............................................................................................... 168

5.4.4. Impactos das Taxas de Falso Negativo (TFN) e Falso Positivo (TFP) na
predio e tratamento da evaso dos cursos. ............................................................ 170
5.4.5.

Definio da Regresso Logstica como Tcnica/Classificador nesta pesquisa


172

5.5.

Otimizando o modelo de classificao .............................................................. 173

5.6.

Aplicao e avaliao do modelo nos perodos dos cursos ............................... 176

5.7.

Implementao e avaliao de ferramenta de suporte anlise de evaso ....... 178

5.7.1.

Prototipao em baixa fidelidade ............................................................... 179

5.7.2.

Prototipao em alta fidelidade .................................................................. 180

5.7.3.

Resultados dos testes com usurios ............................................................ 182

5.8.
6.

Discusses complementares sobre os resultados ............................................... 191


CONSIDERAES FINAIS ............................................................................... 200

6.1.

Contribuies ..................................................................................................... 200

6.2.

Limitaes da pesquisa ...................................................................................... 202

6.3.

Sugestes de trabalhos futuros .......................................................................... 203

6.4.

Publicaes ........................................................................................................ 204

REFERNCIAS ........................................................................................................... 207


APNDICE A Questionrio aplicado professores e tutores da EAD, para identificao
dos construtos da Distncia Transacional. .................................................................... 227
APNDICE B Scripts em R para os classificadores binrios utilizados................... 235
APNDICE C Script em R para a Anlise Fatorial Confirmatria. .......................... 237
APNDICE D Script e Sumrio das estatsticas descritivas das bases de treinamento e
testes. ............................................................................................................................ 239
APNDICE E Telas do prottipo em baixa fidelidade (Mockups) e casos de uso. .. 242
APNDICE F Telas do prottipo em alta fidelidade. ............................................... 248
APNDICE G Scripts PostgreSQL para extrao de dados no Moodle. .................. 250

17

1. INTRODUO
A Educao a Distncia (EAD) vem crescendo de maneira acentuada nos
ltimos anos e assumido um importante papel no cenrio educacional, em particular na
formao em nvel superior de setores da populao que, dificilmente, alcanariam esse
nvel de escolaridade, por fatores sociais e econmicos diversos. Essa modalidade
viabiliza, dentre outras oportunidades, a formao em horrio flexvel distinto dos
ambientes escolares presenciais, alm de possuir um alcance geogrfico abrangente, que
permite a incluso cada vez maior de pessoas na educao profissional e superior.
O crescimento da Educao a Distncia exige anlises orientadas por teorias
para auxiliar o planejamento e a execuo de cursos de maneira eficaz e eficiente. A EAD
tem tido o xito de ver o seu desenvolvimento histrico em paralelo com o
desenvolvimento das suas teorias (ANDERSON e DRON, 2012).
Aliadas ao incremento da modalidade, as pesquisas na rea tambm devem
buscar atenuar ou resolver problemas que surgem decorrentes dessa expanso, como, por
exemplo, os altos ndices de evaso ainda verificados na modalidade. Para a maioria das
instituies brasileiras que participam do Censo Anual da EAD no Brasil, o maior
obstculo enfrentado tem sido a evaso nos cursos, onde para 40% das instituies
pesquisadas, a taxa mdia de evaso, em 2015, foi entre 26% e 50%, nos cursos totalmente
ofertados a distncia por essas instituies.
Com a evoluo tecnolgica, algumas das teorias da educao a distncia
precisam ser revisitadas e atualizadas, sobretudo em razo de novos recursos tecnolgicos
usados nos cursos, assim como a existncia de novos mtodos e processos que permitem
um novo olhar sobre elas, agregando uma importncia ainda mais significativa a essas
teorias consolidadas.
Partindo dessa viso da necessidade de renovao de teorias, bem como
aplic-las no sentido de auxiliar no enfrentamento nos desafios da EAD, esta pesquisa
enfoca a Teoria da Distncia Transacional, proposta por Moore (1972; 1993; 2013; 1973),
propondo uma nova abordagem para determinao dos seus construtos, com o propsito
de aplic-la em um modelo de deteco de alunos com tendncias evaso em cursos
superiores ofertados a distncia.
A Teoria da Distncia Transacional tem seus fundamentos no conceito de
transao, que foi originado por Dewey e Bentley (1949) e "conota a interao entre o

18
meio ambiente, os indivduos e os padres de comportamento em uma situao" (BOYD
e APPS, 1980).
Assim, a transao em educao a distncia a interao de professores e
alunos em ambientes que tm a caracterstica especial de serem espacialmente separados
um do outro. Esta separao conduz a padres especiais de comportamento de alunos e
professores e afeta profundamente tanto o ensino quanto a aprendizagem. Com essa
separao, surge um espao psicolgico e comunicacional a ser transposto, um espao de
potenciais mal-entendidos entre as intervenes do instrutor e as do aluno. Esse espao
psicolgico e comunicacional a distncia transacional (MOORE, 1993).
De forma simplificada, a Teoria da Distncia Transacional preconiza que os
cursos a distncia podem ser avaliados e planejados segundo uma medida dessa distncia,
a qual se baseia em trs conjuntos de variveis: autonomia do aluno, dilogo e estrutura
do curso. Estabelecer essa medida indicadora da distncia transacional e assim como
definir mecanismos ou procedimentos no sentido de reduzi-la tem sido o objetivo de
vrios estudos desde a sua definio (CHEN e WILLITS, 1999; CHEN, 2001b; ZHANG,
2003; SANDOE, 2005; HORZUM, 2011; GOEL et al., 2012; SWART et al., 2014;
HUANG et al., 2015; PAUL et al., 2015).
Assim, esta pesquisa desenvolveu um novo processo que permite a obteno
dos construtos da distncia transacional, em momentos distintos durante um curso online, a partir da utilizao dos diversos dados de interao dos professores, tutores e
alunos nesses cursos. Para isso, uma tcnica multivariada de anlises de dados foi
utilizada para obter os componentes da distncia transacional em ambientes virtuais de
aprendizagem e tambm algoritmos de minerao de dados foram usados para estabelecer
um modelo de deteco precoce da possibilidade de evaso dos alunos em cursos a
distncia. Esse processo poder ser replicado em outros cursos e ambientes virtuais de
aprendizagem, alm dos analisados neste estudo.
A utilizao de tcnicas de anlise multivariada e de minerao de dados para
a obteno dos construtos da distncia transacional deve-se ao fato de esta tese buscar
uma abordagem distinta das atualmente verificadas na literatura, na qual sua aferio
feita quase que exclusivamente utilizando questionrios aplicados a alunos e professores.
O uso de questionrios, nesses casos, alm de demandar um tempo maior para sua
aplicao e apurao dos resultados, pode apresentar vieses decorrentes de opinies
imprecisas ou incompletas dos respondentes.

19
Tambm, as evidncias na literatura apontam o uso eficaz de diversas tcnicas
de minerao de dados na definio de modelos preditivos com altos ndices de preciso.
A partir da obteno dos componentes (variveis) dos construtos da distncia transacional
ser tambm definido e validado um modelo preditivo de evaso de cursos a distncia
baseado nesses componentes.
Espera-se com isso contribuir com a Teoria da Distncia Transacional, a partir
de uma nova abordagem para a obteno dos seus construtos. Com esses construtos, ser
definido de um novo modelo para deteco precoce e eficaz de alunos com tendncias
evaso em cursos na modalidade EAD. Esse modelo ser desenvolvido com o uso de
tcnicas de minerao de dados em contextos educacionais.

1.1. Motivao e Justificativa


A necessidade da expanso da EAD dentro de padres de qualidade e
eficincia, alcanando um nmero cada vez maior de pessoas que, a partir dos meios
tradicionais, dificilmente teriam acesso a uma formao profissional. Isso faz com que a
modalidade seja alvo de pesquisas e inovao na busca de recursos e mtodos que a
fortaleam e deem suporte a essa expanso, superem barreiras e cumpram seus objetivos.
Os dados do crescimento da EAD no Brasil, fornecidos pelo Instituto
Nacional de Estudos e Pesquisas Educacionais Ansio Teixeira (INEP)1, apontam um
crescimento significativo da modalidade no pas nos ltimos anos. O INEP um rgo
federal vinculado ao Ministrio da Educao (MEC) com o objetivo de promover estudos,
pesquisas e avaliaes sobre o Sistema Educacional Brasileiro.
Segundo esses dados, o nmero de alunos na modalidade graduao a
distncia continua crescendo, atingindo 1,34 milho em 2014, o que j representa uma
participao de 17,1% do total de matrculas da educao superior.
Enquanto o nmero de matrculas em cursos de graduao presenciais cresceu
5,4% entre 2013 e 2014, na modalidade a distncia, o aumento foi de 16,3%. A Figura 1
exibe o grfico com a evoluo das matrculas na graduao em ambas as modalidades
no Brasil desde 2003.

http://portal.inep.gov.br/

20
Figura 1 Evoluo do nmero de matrculas em cursos de graduao no perodo 20032014, por modalidade de ensino.

Fonte:(INEP, 2015).

Aps relativa estabilidade nos 2 anos anteriores, em 2014, os ingressantes


voltaram a crescer, tanto na modalidade presencial quanto na modalidade a distncia.
Entre 2003 e 2014, o nmero de ingressantes variou positivamente 54,7% nos cursos de
graduao presenciais e mais de 50 vezes nos cursos a distncia (INEP, 2015).
Mesmo diante de um cenrio satisfatrio, com alguns investimentos oriundos
de esferas pblicas e privadas, com o incremento das pesquisas acadmicas e a formao
de pessoal qualificado, ainda so muitos os desafios da EAD: o controle e a reduo da
evaso nos cursos, a definio de modelos didtico-pedaggicos apropriados para a
modalidade e carncia de instrumentos que auxiliem o planejamento e a execuo dos
cursos so alguns exemplos dos desafios que precisam ser superados.

1.1.1. O problema da evaso nos cursos a distncia


Existem diferentes conceitos e metodologias para o clculo da evaso no
ensino superior. Nesta pesquisa, a taxa de evaso usada foi a que calculada com base
nos alunos desistentes de um curso em relao ao total de alunos matriculados. Segundo
Silva Filho et al. (2007), a evaso anual mdia mede qual a porcentagem de alunos
matriculados em um sistema de ensino, em uma IES ou em um curso que, no tendo se
formado, tambm no se matriculou no ano seguinte (ou no semestre seguinte, se o
objetivo for acompanhar o que acontece em cursos semestrais).
Essa metodologia de clculo tambm a que foi utilizada nas fontes de dados
pesquisadas e se mostrou mais adequada para o clculo nos cursos a distncia analisados
neste estudo, em razo das suas caractersticas de oferta das turmas, baseadas em
liberaes de vagas anuais em Editais da Universidade Aberta do Brasil. No h um fluxo

21
contnuo nem uma periodicidade regular para a abertura de novas turmas dos mesmos
cursos na modalidade.
O censo mais recente da EAD no Brasil, feito pela Associao Brasileira de
Educao a Distncia (ABED)2, com dados de 2015, consultou 368 instituies de todo
o pas, entre formadoras em vrios nveis (cursos credenciados, livres no corporativos e
livres corporativos) e fornecedores de produtos e servios para a modalidade. As
instituies formadoras somam 339 deste total, sendo 92 instituies educacionais
pblicas, 185 privadas, 38 ligadas aos Servios Nacionais de Aprendizagem (Senai,
Senac, Sebrae entre outros) e a ONG/Terceiro Setor e 24 ligadas a rgos pblicos. Essas
instituies respondem por mais de 25 mil cursos e mais de 5 milhes de alunos (3,9
milhes em 2014) nas diversas categorias de EAD (graduao, ps-graduao,
semipresenciais, livres e corporativos), o que tambm demonstra o crescimento e a
importncia para a EAD em vrios segmentos no pas.
Segundo esse levantamento, existiam em 2015, 785 cursos de graduao
(bacharelados, licenciaturas e tecnolgicos), 1.079 cursos de especializao lato sensu e
7 mestrados ofertados na modalidade.
Ainda de acordo com o censo da ABED, as taxas de evaso reportadas nos
cursos a distncia so maiores que as nos cursos presenciais (os cursos regulamentados
totalmente a distncia apresentam os ndices mais altos). O Censo EAD.BR 2015
registrou uma evaso entre 26% e 50%, com 40% das ocorrncias nas instituies que
oferecem cursos regulamentados totalmente a distncia. A Tabela 1 compara os ndices
dos 3 ltimos censos feitos pela Associao Brasileira de Educao a Distncia (ABED,
2014; 2015; 2016).
Tabela 1 Taxas de evaso em cursos a distncia.
Taxas de evaso
declaradas
At 25%
Entre 26 e 50%
Acima de 50%
No declararam

Percentuais de Instituies declarantes, por faixa.


2013
2014
2015
65%
50%
53%
24%
38%
40%
2%
2%
7%
9%
10%
Fonte: (ABED, 2014; 2015; 2016).

http://abed.org.br/arquivos/Censo_EAD_2015_POR.pdf

22
Alm dos ndices de evaso estarem em nveis elevados, observou-se tambm
que esto crescendo, o que demanda por pesquisas e aes que busquem no somente
estancar esse crescimento, mas tambm reduzir essas taxas.
Entre os motivos da evaso investigados pelas IES e declarados anualmente
no censo, a falta de tempo dos alunos tem sido a principal causa. Curiosamente, uma das
vantagens da modalidade exatamente a flexibilidade que a mesma oferece em relao
ao tempo para estudo. Novos estudos especficos podem confirmar ou contrapor-se a essa
declarao. Outros motivos apontados so: questes financeiras e a falta de adaptao
modalidade EAD ou metodologia do curso.
Outra fonte de dados sobre evaso o Mapa do Ensino Superior no Brasil,
Edies 2015 e 2016, publicados pelo Sindicado das Empresas Mantenedoras do Ensino
Superior (SEMESP)3 feita com base nos dados do INEP dos anos de 2013 e 2014. A
Tabela 2 resume esses indicadores das duas edies do relatrio.
Tabela 2 Taxas de evaso em cursos superiores presenciais e a distncia.
Ano
2013
2014

Cursos presenciais
IES pblicas
IES privadas
17,8%
27,4%
18,3%
27,9%

Curso a Distncia
IES pblicas
IES privadas
25,6%
29,2%
26,8%
32,5%

Fonte: (SEMESP, 2015; 2016).

No ano de 2014, a diferena da evaso entre as modalidades de ensino


presencial e EAD ficou na rede privada em 4,6 pontos percentuais; na rede pblica, o
percentual foi maior (8,5 pontos percentuais).
A pesquisa sobre deteco e predio da evaso na EAD, usando tcnicas de
minerao de dados no pas, ainda, apresenta poucos estudos. Segundo o levantamento
feito por Rodrigues et al. (2014b) sobre a pesquisa em minerao de dados educacionais
no Brasil, ainda, predominam trabalhos que buscam mecanismos de identificao e
predio da evaso dos alunos apenas em cursos presenciais, como os de Manhes et al.
(2011; 2012); Martins et al. (2012), de Oliveira Jnior et al. (2014).
Algumas propostas para a predio da evaso na EAD, usando minerao de
dados foram encontradas na literatura brasileira recente. Em dois desses trabalhos
(QUEIROGA et al. (2015) e SILVA et al. (2015)), avaliou-se a evaso somente em

http://convergenciacom.net/pdf/mapa-ensino-superior-brasil-2015.pdf
http://convergenciacom.net/pdf/mapa_ensino_superior_2016.pdf

23
disciplinas. O trabalho de Rigo et al. (2014) usou dados de algumas disciplinas em trs
semestres de trs cursos de graduao para inferir sobre a evaso no curso. Apenas o
trabalho de Dos Santos et al. (2014) utilizou dados de um curso superior completo nas
suas anlises, sem, entretanto, fundamentar a escolha dos dados usados no modelo
preditivo. A carncia de uma associao do processo de escolha das variveis a uma teoria
especfica da EAD foi verificada em todos os trabalhos analisados.
Internacionalmente, a evaso na EAD tambm uma preocupao
evidenciada em trabalhos como os de Levy (2007); Lykourentzou et al. (2009); Yasmin
(2013); Woodley e Simpson (2014) e Yukselturk et al. (2014). Uma maior anlise dessa
literatura ser feita na Seo 3.3, sobre Minerao de dados educacionais.

1.1.2. Definio da teoria norteadora desta tese


A EAD tem evoludo na direo de uma maior complexidade, particularmente
em relao a variedade, o poder e a flexibilidade de sistemas de entrega de cursos. A
modalidade ento precisa de teorias que reflitam essas mudanas, a fim de proporcionar
melhores orientaes para a sua prtica (CHEN e WILLITS, 1998).
O crescimento da educao a distncia exige uma investigao orientada por
teorias para auxiliar o planejamento e a execuo de cursos de maneira eficaz e eficiente.
A EAD tem tido o xito de ver o seu desenvolvimento histrico em paralelo com o
desenvolvimento das suas teorias (ANDERSON e DRON, 2012).
Tanto o surgimento de novas teorias, como a renovao de teorias j
consolidadas so uma parte importante no processo de crescimento e consolidao da
modalidade e para a superao dos desafios que surgem continuadamente.
Dentre as vrias teorias que norteiam a EAD, a Teoria da Distncia
Transacional (MOORE, 1972; 1993; 2013; 1973) destacada por abrangncia e
atualidade, pois o autor tem buscado uma atualizao da mesma, considerando a prpria
evoluo da EAD. Outros pesquisadores tambm a consideram como uma teoria seminal
e importante para a modalidade (PETERS, 1993; CHEN, 2001a; ZHANG, 2003;
SANDOE, 2005; GOEL et al., 2012; HUANG et al., 2015).
Essa a principal teoria sob a qual esta pesquisa foi desenvolvida, embora
outras teorias tambm tenham sido abordadas na fundamentao terica deste trabalho.
Sua escolha deveu-se ao fato da Teoria da Distncia Transacional ser abrangente e

24
incorporar conceitos essenciais das demais teorias analisadas. Essa abrangncia tambm
destacada nos trabalhos de Saba (2003;2007) e Gokool-Ramdoo (2008).
De fato, abordar a educao a distncia atravs de uma viso sistmica que
subdivide todas as componentes da distncia em vrios grupos, facilita diversas
intervenes, de tal forma que a modalidade possa favorecer a uma cultura de melhoria
contnua (GOKOOL-RAMDOO, 2008).

1.1.3. Uma nova abordagem para a obteno dos construtos e aplicao


da distncia transacional
Ser capaz de definir individualmente cada componente dos construtos da
distncia transacional fundamental para esforos de pesquisa na rea, de modo a
proporcionar aos atores da modalidade melhores condies de planejamento didtico da
aprendizagem (SANDOE, 2005).
Para Goel et al. (2012), a rea problemtica predominante na Teoria da
Distncia Transacional tem sido a sua medio e de seus construtos - dilogo, estrutura e
autonomia.
A obteno da distncia transacional pode contribuir de maneira relevante
para o planejamento e execuo de cursos on-line, pois seus construtos representam um
indicativo do nvel de comunicao e interao do aluno no ambiente, o quanto a
organizao do curso mais ou menos flexvel para os alunos e de que forma o aluno
estabelece o seu prprio ritmo de estudo e aprendizagem (HUANG et al., 2015).
A definio de uma abordagem que permita a obteno dos componentes da
distncia transacional em cursos a distncia tem sido um desafio relatado por diversos
pesquisadores, conforme ser apresentado na reviso da literatura desta tese. A literatura
tambm aponta que a obteno tem sido feita a partir de questionrios aplicados aos
alunos e professores em momentos pontuais do curso.
Essas medies ficam limitadas s opinies dos respondentes, o que pode, em
algum momento, ter vieses que provoquem uma medio inadequada ou mesmo a faa
de maneira incompleta. Os prprios estudos apontam algumas limitaes nesse mtodo,
de modo a no ser possvel a sua generalizao para diversas circunstncias nas quais
ocorre a distncia transacional em outros cursos ou ambientes virtuais de aprendizagem
distintos dos que foram analisados. Uma das limitaes apontadas a forma de coleta de
dados sobre a qual obtida a distncia transacional.

25
Assim, a presente pesquisa justificada pela apresentao de uma nova
abordagem para obteno dos construtos da distncia transacional na EAD, a partir dos
dados coletados que representem as interaes de professores, tutores e estudantes no
ambiente virtual, em diversos momentos de um curso on-line, no dependendo mais da
aplicao de questionrios ou de outros instrumentos para a obteno desses construtos.
Esses componentes tambm foram testados como preditores de alunos com
riscos de evaso no curso, possibilitando aos gestores, professores e tutores perceberem
de que maneira cada construto est influenciando na tendncia de evaso e,
consequentemente, adotar medidas no sentido de intervir para diminuir a distncia
transacional e reduzir esse risco.

1.2. Problema da pesquisa


A evaso dos alunos em cursos na educao a distncia representa um grande
desafio para todos os que atuam na modalidade. H uma necessidade contnua de
desenvolvimento de pesquisas que apontem caminhos, mtodos e ferramentas que os
auxiliem a enfrentar melhor esse problema. O uso de tcnicas estatsticas e de minerao
de dados, em conjunto com teorias consolidadas na modalidade, pode fornecer
mecanismos eficientes de deteco precoce do risco de evaso pelos alunos.
O problema principal da pesquisa tratado nesta tese foi como alinhar uma
teoria estabelecida como a Teoria da Distncia Transacional com tcnicas quantitativas
modernas. Esse alinhamento pode suprir a carncia de um instrumento computacional
que aponte precocemente e com alto grau de sucesso na previso, os nveis de risco de
evaso dos alunos de graduao por EAD. Esse instrumento vai possibilitar uma melhor
tomada de deciso pelos responsveis pela conduo dos cursos na modalidade.

1.3. Questes da pesquisa


A partir do problema da pesquisa a ser tratado nesta tese, duas questes de
pesquisa foram identificadas para que fossem respondidas ao longo da sua execuo:
1. Quais variveis armazenadas em um ambiente virtual de aprendizagem podem ser
extradas de forma automtica, para se definirem de maneira significativa os
construtos da Teoria da Distncia Transacional (dilogo, estrutura e autonomia),
explicadas brevemente na Subseo 1.1.2?
2. Como um conjunto de variveis relacionadas com a distncia transacional pode
ser usado para modelar a previso da evaso de alunos em cursos de graduao a
distncia?

26
O mtodo usado para responder s questes de investigao envolve um
estudo da literatura sobre distncia transacional e outras teorias da EAD; o exame de toda
a base de dados gerada na ocorrncia de cursos de graduao on-line mediados em um
ambiente virtual de aprendizagem; o uso de tcnicas de anlise multivariada e de
minerao de dados educacionais para extrair conhecimento a partir da base de dados e a
posterior aplicao desse conhecimento no estabelecimento de um modelo para deteco
precoce da possibilidade de evaso do aluno.

1.4. Objetivo geral


Avaliar uso dos construtos da distncia transacional em cursos de graduao
on-line na criao de um modelo para predizer o risco da evaso dos alunos.

1.5. Objetivos especficos


Nesta pesquisa, as seguintes metas esto intrnsecas ao objetivo geral:

Identificar as variveis no banco de dados de um ambiente virtual de


aprendizagem, que representam os construtos da distncia transacional (DT),
fazendo o respectivo mapeamento com base na literatura e consultas a
especialistas;

Fazer a confirmao da lista de variveis representativas da distncia transacional,


a partir da coleta e tratamento dos dados representativos dos construtos da DT no
banco de dados;

Definir um modelo preditivo da evaso do aluno a partir das variveis


identificadas, indicando quais so as mais representativas para essa previso;

Desenvolver um componente de software que implemente o modelo definido e


permita a tomada de deciso por professores e tutores, para que eles tenham
melhores condies de intervir no processo de modo a buscar reduzir a evaso;

Validar o componente desenvolvido com usurios potenciais; e

Descrever o processo de utilizao do modelo terico da distncia transacional a


partir da abordagem de minerao de dados educacionais e a sua aplicao na
predio da evaso de alunos em EAD.

1.6. Contribuies esperadas


A partir dos resultados da presente pesquisa, foi obtido o conjunto de
contribuies elencadas a seguir:
Contribuies Gerais:

Definio de um modelo preditivo da evaso de alunos em cursos de


graduao on-line;

27

Reviso do estado da arte das teorias da educao a distncia, em especial a


Teoria da Distncia Transacional, reforando a sua importncia para o
planejamento didtico-pedaggico dos cursos;

Definio de um processo de mapeamento, em um ambiente virtual de


aprendizagem, das variveis representativas dos construtos da distncia
transacional, para uso desses construtos em diferentes finalidades; e

Disponibilizao de uma ferramenta para monitoramento do risco de evaso


de estudantes em cursos de graduao por EAD.
Contribuio para os professores:

A aplicao desenvolvida pode tambm ser utilizada como uma ferramenta


de diagnstico para o professor descobrir reas do curso on-line que
necessitam de esforos para reduzir a distncia transacional e, por
consequncia, proporcionar melhores condies de ensino-aprendizagem.
Contribuio para os alunos:

A ferramenta pode ser usada para ajudar a indicar aos alunos sobre a
importncia dos elementos no seu ambiente de aprendizagem e tambm usar
esses indicadores para identificar os seus atributos no curso que geram maior
risco de evaso, facilitando, assim, os esforos para reduzi-la e melhorar o
seu compromisso com sua autorregulao da aprendizagem no curso.
Contribuio para os gestores:

A aplicao pode ser utilizada como um dos componentes na avaliao do


curso, identificando pontos fracos que precisam ser melhorados.
Essas

contribuies

so

as

mais

diretamente

identificadas

no

desenvolvimento desta pesquisa. Outros benefcios podero advir a partir do momento da


ampliao do uso da abordagem preditiva desenvolvida neste trabalho em outras
instituies, ambientes virtuais de aprendizagem e categorias de cursos a distncia.

1.7. Organizao do trabalho


Alm desta introduo, este trabalho conta com a seguinte estrutura: nos
captulos 2 e 3, so apresentadas as fundamentaes tericas que embasam este trabalho,
destacadamente a Teoria da Distncia Transacional e a Minerao de Dados
Educacionais; no Captulo 4, apresentada a metodologia que guiou a pesquisa; o
Captulo 5 aponta os resultados obtidos nesta tese e suas respectivas anlises; no Captulo
6 so feitas as consideraes finais e, logo a seguir, so listadas as referncias deste
trabalho e os seus apndices.

28

2. TEORIAS CONSOLIDADAS E NOVOS HORIZONTES PARA


PESQUISAS EM EAD
A EAD tem evoludo por vrias tecnologias e por, pelo menos, trs geraes
de pedagogia conforme descrito em Anderson e Dron (2010). Nenhuma dessas geraes
especficas forneceu todas as respostas e cada uma foi construda sobre bases fornecidas
por suas antecessoras, em vez de substituir a proposta anterior (IRELAND, 2007).
Em grande medida, as geraes tm evoludo em conjunto com as tecnologias
que as acompanhavam: medida que novas estruturas de suporte modalidade surgem,
torna-se possvel explorar e capitalizar sobre diferentes aspectos do processo de
aprendizagem (ANDERSON e DRON, 2010)
Vrias teorias tm balizado as pesquisas e as inovaes na modalidade,
acompanhando tambm o desenvolvimento tecnolgico, que possibilita uma mediao
cada vez melhor dos processos educacionais a distncia. A partir da prxima seo, so
apresentadas cinco delas, com destaque a que foi base terica para este trabalho.

2.1. Teorias em Educao a Distncia


Como a educao a distncia torna-se uma parte cada vez mais importante da
educao superior e da formao profissional, a construo e a consolidao de teorias
criticamente importante no apenas para a pesquisa educacional em si, mas tambm para
contemplar e aperfeioar aspectos prticos da modalidade (ZHANG, 2003).
No desenvolvimento da educao a distncia como campo de pesquisa, vrias
teorias relacionadas modalidade tm sido postuladas. Destacam-se cinco principais e,
dentre elas, a que serviu como base para esta pesquisa.

2.1.1. Teoria da Industrializao da EAD


A Teoria da Industrializao (PETERS, 1967) foi um dos primeiros e
importantes estudos que procurou estabelecer bases tericas para a educao a distncia.
Ao comparar o processo de difuso de conhecimento promovido pela modalidade a uma
atividade industrial, Peters estabeleceu importantes referenciais para a construo de
modelos e processos de produo de cursos a distncia. Seu trabalho foi amplamente
divulgado aps a publicao das suas ideias em lngua inglesa, j que seus manuscritos
iniciais da teoria tinham sido publicados em alemo.

29
De acordo com esse autor, a estrutura de ensino a distncia determinada
consideravelmente pelos princpios da industrializao, em particular por aqueles de
racionalizao, diviso do trabalho e produo em massa.
Para ilustrar as caractersticas industriais de programas de educao a
distncia, Peters (1967) aplicou conceitos da literatura de gesto de negcios e
desenvolveu as seguintes categorias para anlise da modalidade, redefinindo, assim, os
termos para a EAD (SCHLOSSER e ANDERSON, 1994) (SIMONSON et al., 1999):
Racionalizao - A utilizao de medidas metdicas para reduzir a
quantidade necessria de energia, tempo e dinheiro para a EAD.
Diviso do trabalho - A diviso de uma tarefa em componentes mais simples
ou subtarefas. Por exemplo, a produo de materiais didticos do curso a distncia pode
ser feita por especialistas no assunto. Educadores experientes na modalidade podem rever
o contedo e adequ-lo ao processo de entrega do curso. Tutores ou auxiliares podem
incumbir-se de acompanhar a evoluo dos alunos ou mesmo corrigir atividades
desenvolvidas pelos estudantes.
Mecanizao - A EAD deve fazer uso de modernos meios de comunicao e
processamento de dados. Peters (1967) observou que a educao a distncia seria
impossvel sem equipamentos.
Linha de montagem - No desenvolvimento do curso de estudo a distncia,
os contedos produzidos so passados por diferentes reas e especialistas e alteraes
especficas podem ser feitas em cada fase. Os materiais desenvolvidos no so produtos
de um nico indivduo.
Produo em massa - Materiais didticos so produzidos em grande
quantidade em funo da demanda crescente dos cursos a distncia.
Trabalho preparatrio - Em uma situao de produo na qual uma diviso
de trabalho prevalece, a economia, qualidade e velocidade dos processos de trabalho
dependem do tipo certo de preparao. O sucesso da educao a distncia depende de
uma fase preparatria.
Planejamento - Um elemento essencial da preparao o planejamento, pois
requer a coordenao de muitos fatores que interagem entre si.

30
Organizao - Na educao a distncia, existe uma conexo imediata entre a
eficcia do mtodo de ensino e a organizao do processo. Por exemplo, com a
organizao, torna possvel os alunos receberem contedos de ensino predeterminados
em tempos previamente estabelecidos.
Mtodos de controle cientficos - Com os seus esforos para medir o sucesso
de um mtodo de ensino, a EAD introduziu um aspecto at ento negligenciado no ensino
universitrio. So os mtodos pelos quais os processos de trabalho so sistematicamente
analisados, em particular, por estudos de tempo e em conformidade com os resultados
obtidos a partir das medies e os dados empricos.
Formalizao - Por conta da diviso do trabalho e da mecanizao no
processo de fabricao, h uma necessidade muito maior para predeterminar as vrias
fases formalmente do que no trabalho manual. Todos os pontos do ciclo devem ser
determinados com exatido.
Padronizao - As limitaes de produo a um nmero restrito de tipos de
um produto para torn-los mais adequados para seu propsito, mais barato de produzir e
mais fcil de substituir.
Mudana de Funo - Os atores desse processo produtivo podem mudar de
papel de acordo com a necessidade ou circunstncia na qual o programa de ensino
desenvolvido.
Objetivao - Quanto mais o processo de produo determinado por
mquinas e princpios organizacionais, mais ela perde seu elemento subjetivo usado para
determinar o trabalho individual a um grau considervel. Em educao a distncia, a
maioria das funes de ensino so objetivas.
Concentrao e centralizao - O investimento necessrio para a produo
em massa mecanizada, envolvendo a diviso do trabalho, levou a grandes empresas
industriais com uma concentrao de capital, uma administrao centralizada com
frequncia e um mercado que, no raramente, monopolizado.
Peters (1967) concluiu ento que o processo de ensino gradualmente
reestruturado por meio da mecanizao e automatizao crescentes, implicando as
seguintes caractersticas estruturais (SIMONSON et al., 1999):

O desenvolvimento de cursos a distncia to importante como o trabalho


preparatrio que acontece antes do processo de produo;

31

A eficcia do processo de ensino particularmente dependente do


planejamento e da organizao;

Os cursos a distncia devem ser formalizados, e as expectativas dos


estudantes padronizadas;

As funes dos docentes nesta modalidade devem mudar consideravelmente


se comparadas com as do ensino convencional; e

Os recursos disponveis para a modalidade devem estar concentrados e sob


administrao centralizada.
Assim, ainda de acordo com Peters (1994), a educao a distncia um

mtodo racionalizado que envolve a diviso do trabalho, para fornecer conhecimento que,
como resultado da aplicao dos princpios da organizao industrial, bem como o uso
extensivo de tecnologia, facilita a reproduo de atividade do ensino por muitas pessoas
e permite um grande nmero de estudantes estudarem ao mesmo tempo,
independentemente do seu local de residncia e de trabalho.
Alguns autores como Gomes (2004) e Simonson et al.(2008) criticam o fato
de a Teoria da Industrializao ser centrada na descrio dos processos de organizao e
estruturao das instituies que ofertam cursos em EAD do que propriamente numa
teoria de ensino ou da aprendizagem a distncia. O principal problema da comparao de
Peters (1967) seria adotar, segundo os seus crticos, os princpios e as caractersticas do
modelo industrial fordista, baseado nos princpios da baixa variabilidade do processo de
produo, baixa inovao dos produtos e baixa responsabilidade do trabalho como um
padro ideal de produo eficiente, que guia a estratgia organizacional.
Gomes (2004) tambm cita que, mesmo admitindo que seja possvel
industrializar o processo de ensino, no parece possvel industrializar o processo de
aprendizagem, dado que este um processo individual, interno e pessoal.
Apesar disso, Peters (2002) afirma que a educao a distncia um produto
da sociedade industrial no apenas por apresentar caractersticas do processo industrial,
mas tambm por ter a capacidade de responder s demandas educacionais tpicas de uma
sociedade industrializada, atraindo uma grande populao de estudantes, que buscam uma
melhoria no seu perfil profissional.

2.1.2. Teoria da Conversao Didtica Guiada


Uma das teorias centradas na comunicao e interao na EAD a Teoria da
Conversao Didtica Guiada (HOLMBERG, 1985). Essa teoria est baseada na
construo de uma relao pessoal prxima entre os que ensinam e os que aprendem, a

32
partir da motivao do estudante pela promoo do prazer de estudar, pelo uso de
materiais bem preparados e com foco na comunicao professor-aluno.
Holmberg (1985) observou que a sua teoria tinha valor explicativo relativo
eficcia do ensino no impacto dos sentimentos de pertencimento e cooperao, bem como
para a troca real de perguntas, respostas e argumentos na comunicao mediada
(SIMONSON et al., 2008).
Em outro texto seu, Holmberg (1986) apresentou sete premissas de fundo para
sua teoria (SCHLOSSER e SIMONSON, 2009; SIMONSON et al., 2008):
1. O ncleo de ensino a interao entre as partes de ensino e aprendizagem;
presume-se que interao simulada por meio da apresentao de assunto
em cursos pr-produzidos pode assumir parte da interao, fazendo os
alunos a considerarem solues, abordagens e diferentes pontos de vista
e, geralmente, interagirem com um curso;
2. O envolvimento emocional no estudo e os sentimentos de relao pessoal
entre o ensino e a aprendizagem, so partes susceptveis para contribuir
com o prazer da aprendizagem;
3. O prazer da aprendizagem apoia a motivao dos alunos;
4. A participao na tomada de decises sobre o estudo favorvel
motivao do estudante;
5. Uma forte motivao do aluno facilita a aprendizagem;
6. Um tom pessoal amigvel e o acesso fcil ao assunto contribuem para o
prazer da aprendizagem e para apoiar a motivao do aluno e, assim,
facilitar a aprendizagem nas apresentaes dos cursos pr-produzidos (ou
seja, mesmo em ensino na forma de trfego unidirecional, pode simular a
interao), bem como de comunicao didtica na forma de trfego nos
dois sentidos entre as partes de ensino e aprendizagem; e
7. A eficcia do ensino demonstrada pela aprendizagem dos alunos naquilo
que lhes foi ensinado.
Holmberg (1986) acreditou que esses pressupostos so a base dos princpios
essenciais da modalidade de educao a distncia. A partir dessas premissas, ele formou
sua teoria de que o ensino a distncia vai apoiar a motivao dos alunos, promover o
prazer de aprender e tornar o estudo individual relevante para o aluno e suas necessidades,
criando sentimentos de afinidade entre ele e a instituio de educao a distncia (seus
tutores, orientadores, entre outros), facilitando o acesso ao contedo do curso, envolvendo
o aluno em atividades, discusses e decises (SIMONSON et al., 2008).
Holmberg (1986) reconheceu tambm que essa sua teoria no era completa.
No entanto, acrescenta que no desprovida de poder explicativo, pois indica as

33
caractersticas essenciais de uma educao a distncia eficaz (SCHLOSSER e
SIMONSON, 2009).
Em 1995, ele ampliou, significativamente, sua teoria da educao a distncia.
Sua nova teoria tornou mais abrangente a EAD e dividida em oito partes conforme a
seguir (SCHLOSSER e SIMONSON, 2009):
1. A EAD atende a aprendizes individuais que no podem ou no querem
fazer uso do ensino presencial. Estes alunos so muito heterogneos;
2. A EAD significa que os alunos j no tm que se comprometer com
decises tomadas por outras pessoas sobre local de estudo, a diviso do
ano em termos de perodos de estudo e frias, horrios e requisitos de
entrada. A EAD promove, assim, a liberdade de escolha e independncia
dos alunos;
3. A sociedade beneficia-se da EAD, por um lado, das oportunidades de
estudo mais flexveis que proporcionam aos aprendizes individuais e, por
outro lado, a partir da formao profissional/ocupacional que ela
proporciona;
4. A EAD um instrumento recorrente para aprendizagem ao longo da vida
e para o livre acesso s oportunidades de aprendizagem e equidade;
5. Todo aprendizado causa aquisio de conhecimentos cognitivos e
habilidades cognitivas, bem como a aprendizagem afetiva e algum
aprendizado psicomotor tambm so efetivamente previstos pela EAD;
6. A EAD baseada em profunda aprendizagem como uma atividade
individual. O aprendizado orientado e apoiado por meios no contguos.
Ensino e aprendizagem dependem da comunicao mediada, geralmente
baseados em cursos pr-produzidos;
7. A EAD aberta aos processos behavioristas, cognitivos, construtivistas e
outros modos de aprendizagem. Ela tem um elemento de industrializao
como a diviso do trabalho, o uso de dispositivos mecnicos,
processamento eletrnico de dados e de comunicao de massa,
geralmente baseados em cursos pr-produzidos; e
8. As relaes pessoais, o prazer com o estudo e a empatia entre estudantes
e aqueles que os apoiam (tutores, orientadores, entre outros.) so
fundamentais para a aprendizagem na EAD. Sentimentos de empatia e
pertencimento promovem a motivao dos alunos para aprender e
influenciar, favoravelmente, a aprendizagem.
Em resumo, o proposto por Holmberg (1995) foi, por um lado, uma descrio
da educao a distncia e, por outro lado, uma teoria de que hipteses so geradas e que
tem poder explicativo medida que identifica uma abordagem geral favorvel
aprendizagem. A sua teoria est ancorada no estabelecimento de um sentimento de
relao pessoal entre o ensino e a aprendizagem, ou seja, na motivao do estudante.

34

2.1.3. Teoria do Estudo Independente


Essa teoria foi proposta inicialmente por Moore (1972), sendo reforada e
sustentada posteriormente por Wedemeyer (1981) sobre o qual so referenciados os
estudos baseados nessa teoria.
Essa teoria caracteriza a aprendizagem realizada no todo ou em grande parte,
pela autonomia do aluno e pela sua distncia relativa autoridade educacional. Alunos
independentes podem ser consistentemente envolvidos na aprendizagem, mas geralmente
no esto em regime de tempo integral. A instruo chega at os alunos por meio de
diversos meios de comunicao. Esses programas utilizam a comunicao bidirecional
entre professor e aluno e, geralmente, buscam individualizar a educao (WEDEMEYER,
1981).
Wedemeyer (1981) defendeu a causa do estudante independente como a
essncia para a EAD e estabeleceu vrias construes tericas que tm constitudo o cerne
da teoria contempornea da educao a distncia (KEEGAN, 2013). Entre essas
construes, esto a autonomia ou a necessidade do aluno para a independncia de
participar na deciso sobre seus objetivos de aprendizagem, a seleo a estratgia e os
meios para atingir tais objetivos (SCHLOSSER e ANDERSON, 1994).
Ele foi um crtico de padres contemporneos de ensino superior, acreditando
que conceitos ultrapassados de aprendizagem e ensino estavam sendo empregados nas
instituies de ensino (KEEGAN, 2013). Ele percebeu que com esses conceitos, as
instituies no conseguiriam utilizar tecnologias modernas de formas que poderiam
alterar suas estruturas pedaggicas (SIMONSON et al., 1999).
Para enfatizar a independncia e a adoo de tecnologias pelo aluno de modo
a implementar a sua independncia, Wedemeyer (1981) estabeleceu um sistema de dez
caractersticas principais para alcanar esses objetivos (SIMONSON et al., 2008).
Segundo ele, os sistemas de EAD devem:

Ser capazes de funcionar em qualquer lugar onde h estudantes ou at mesmo


apenas um aluno ou no existam professores no mesmo lugar ao mesmo tempo;

Colocar maior responsabilidade para a aprendizagem no aluno;

Livrar os docentes de funes alheias ao processo educacional para que lhes


possam ser atribudas tarefas verdadeiramente educacionais;

Oferecer aos alunos adultos escolhas mais amplas (mais oportunidades) em


cursos, formatos e metodologias;

35

Usar, conforme o caso, todos os meios e mtodos de ensino que tenham


demonstrado eficcia;

Misturar e combinar meios e mtodos de modo que cada assunto ou unidade


dentro de um tema seja ensinada da melhor maneira;

Fazer com que o projeto e o desenvolvimento dos cursos sejam compatveis com
um "programa articulado de mdia";

Preservar e aumentar as oportunidades para adaptao s diferenas individuais;

Avaliar o desempenho do aluno de forma simples e eficiente, no levantando


barreiras que impeam o desenrolar do mtodo ou a sequncia de seu estudo; e

Permitir aos estudantes iniciar, parar e aprender no seu prprio ritmo.


Wedemeyer (1981) props separar ensino de aprendizagem como uma forma

de quebrar as "barreiras de espao-tempo" da educao. Ele sugeriu seis caractersticas


para os sistemas de estudo independente (SIMONSON et al., 2008):
1. O aluno e o professor esto separados;
2. Os processos normais de ensino e aprendizagem so realizados por escrito
ou por meio de alguma outra forma mais conveniente;
3. O ensino individualizado;
4. O aprendizado ocorre por meio da atividade do aluno;
5. A aprendizagem feita de maneira conveniente para o aluno em seu
prprio ambiente; e
6. O aluno assume a responsabilidade do ritmo de seu prprio progresso na
aprendizagem, com a liberdade para iniciar e parar a qualquer momento;
Essa abordagem abriu o caminho para o desenvolvimento da teoria de
sistemas de educao a distncia. Wedemeyer (1981) conceituou as organizaes de
educao a distncia como um grupo de profissionais que estavam envolvidos em
processos que vo desde a concepo de programas de instruo para seu
desenvolvimento, incluindo a produo, implementao e avaliao dos programas
(SABA, 2014).
Ele tambm percebeu que a onipresena de telecomunicaes na instruo
levaria os estudantes a aprenderem a qualquer hora e em qualquer lugar. Atualmente, com
a extenso do uso das tecnologias na educao, a ideia de aprender a qualquer hora, em
qualquer lugar algo trivial (SABA, 2014).
Desde os primeiros dias de experimentao com a mdia eletrnica,
Wedemeyer (1981) vislumbrou o papel que a tecnologia de telecomunicaes poderia
desempenhar na oferta de educao no formal e, assim, aumentar a liberdade do aprendiz

36
para saber quando e onde ele estar pronto para aprender. Na pgina da Universidade do
Wisconsin, na sua referncia sobre Charles Wedemeyer4 afirmado que, j em 1965,
Wedemeyer previu o e-Learning de hoje, fazendo as seguintes observaes (SABA,
2014):
"... A extenso do aluno do futuro ser provavelmente no
assistir aulas; em vez disso, as oportunidades e os
processos de aprendizagem viro at ele. Ele vai aprender
em casa, no escritrio, no trabalho, na fbrica, loja ou na
fazenda. "
"... O professor ir atingir os estudantes no s em seu
prprio estado ou regio, mas a nvel nacional, uma vez que
os meios e mtodos utilizados por ele no ensino iro remover
as barreiras de espao e tempo em aprender ..."
Wedemeyer (1981) evidenciou, portanto, os quatro elementos de cada
situao de ensino/ aprendizagem: um professor, um aluno ou alunos, um sistema de
comunicaes e algo a ser ensinado ou aprendido. Ele props uma reorganizao desses
elementos para permitir uma maior liberdade do aluno. Ele acreditava que a chave para o
sucesso da educao a distncia era o desenvolvimento de relaes entre aluno e professor
(SIMONSON et al., 2008).

2.1.4. Modelo de Aprendizagem On-line


O modelo pedaggico para aprendizagem on-line foi apresentado por Terry
Anderson (2004; 2008) e tem os seus fundamentos na aprendizagem independente e na
aprendizagem colaborativa, destacando a importncia do papel da interao no processo
de aprendizagem mediada por computador. Resolveu-se considerar esse modelo nesta
reviso da literatura pela sua importncia e abrangncia nos estudos atuais da
aprendizagem a distncia, em particular a que baseada na web.
Considerando as diversas formas de ensinar e de aprender que podem ter
suporte na web, Anderson (2004) sugeriu que ainda prematuro definir uma teoria
especfica para a aprendizagem on-line. No entanto, considera que a criao de um
modelo , muitas vezes, o primeiro passo para o desenvolvimento de uma teoria
(MIRANDA et al., 2005).
Segundo Anderson (2004), a aprendizagem on-line um subconjunto de toda
a educao a distncia e contm caractersticas bastante peculiares que a tornam um

http://www.uwex.edu/disted/conference/wedemeyer/aboutcw.cfm

37
modelo abrangente, com componentes bem definidos e as respectivas interaes
estabelecidas. Assim, o autor apresentou um modelo de aprendizagem on-line no qual so
representadas, como principais variveis que interagem na construo de contextos e no
desenvolvimento de experincias de aprendizagem, os alunos e os professores, bem como
as interaes entre si e com os contedos. Tal modelo apresentado na Figura 2.
O modelo ilustra os dois principais atores humanos: alunos e professores e
suas interaes entre si e com contedo. Os alunos podem interagir diretamente com o
contedo que eles podem encontrar em vrios formatos. No entanto, muitos optam por
ter sua aprendizagem sequenciada em seu prprio ritmo, dirigida e avaliada com a ajuda
de um professor. Essa interao pode ocorrer dentro de uma comunidade de investigao
ou de aprendizagem, utilizando uma variedade de atividades sncronas e assncronas
(vdeo, udio, conferncia, chats, entre outras) baseadas na web (ANDERSON, 2008).
Figura 2 - Modelo de Aprendizagem On-line.

Fonte: (ANDERSON, 2008).

A interao contedo-contedo traduz-se na forma como os contedos so


programados para interagir com outros contedos por meio de recursos automatizados,
destacando-se, como exemplo, a pesquisa na Internet a partir da utilizao de motores de

38
pesquisa, pois, por meio de agentes inteligentes, os contedos interagem uns com os
outros na explorao contnua das redes, obtendo-se, quase de forma instantnea, os
resultados da pesquisa.
Esses ambientes so particularmente ricos e permitem a aprendizagem de
habilidades sociais, a aprendizagem colaborativa de contedo, bem como o
desenvolvimento das relaes pessoais entre os participantes (ANDERSON, 2008).
O segundo modelo de aprendizagem ( direita da figura) ilustra as
ferramentas de aprendizagem estruturadas que so associadas aprendizagem
independente. As ferramentas mais comuns usadas nesta modalidade incluem simulaes,
exerccios e tutoriais de aprendizagem assistida por computador. Laboratrios virtuais,
onde os alunos realizam simulaes completas de experimentos de laboratrio e tm
acesso a sofisticadas ferramentas de pesquisa e recuperao, tambm esto se tornando
ferramentas comuns nos ambientes on-line (ANDERSON, 2008).
Textos impressos e em arquivos digitais tm sido muito utilizados para
transmitir interpretaes e percepes de professores no estudo independente. No entanto,
tambm deve ser enfatizado que, embora ocupado em estudo independente, o aluno no
est sozinho. Muitas vezes, os colegas no local de trabalho ou remotos e membros da
famlia tm se mostrado importantes fontes de apoio e assistncia aos alunos de estudo
independente (POTTER, 2013).
O modelo proposto por Anderson (2004) baseado em dois pilares: a
aprendizagem independente, com raiz no campo da educao a distncia, e a
aprendizagem colaborativa, com raiz nos paradigmas construtivista e scio-construtivista.
Ele considera importante para a construo do modelo pedaggico considerar as
potencialidades da Web, admitindo que uma aprendizagem de qualidade deve ser
centrada no aluno, no conhecimento, na comunidade e na avaliao, destacando a
importncia das formas de interao (MIRANDA et al., 2005).
A partir desse modelo apresentado, Anderson (2004) afirmou que o
planejamento instrucional do curso importante para a aprendizagem on-line, pois deve
proporcionar diversas situaes de aprendizagem, as quais assegurem uma boa qualidade
e quantidade de interaes entre os atores e o contedo.
O modelo pode ser considerado como um modelo aberto e flexvel, o qual
oferece, ao aluno e ao professor, a possibilidade de criarem ambientes orientados para

39
diferentes contextos de aprendizagem (formal, informal, tcnica, superior, entre outros),
facilidades de interao e oportunidades para o desenvolvimento de estratgias de
trabalho individual e colaborativo. Tambm evidencia as diversas formas de aprender e
de ensinar na Web, destacando as principais variveis envolvidas no processo de ensino
e aprendizagem e as relaes entre elas, perspectivando a grande importncia a atribuir
ao conceito de interao e aos vrios tipos de interao que devem ser privilegiados e
cultivados no contexto educativo (MIRANDA et al., 2005).
O desafio para os professores e desenvolvedores que trabalham em um curso
dentro do contexto de aprendizagem on-line a construo de um ambiente de
aprendizagem que seja, simultaneamente, centrado: no aluno, no contedo, na
comunidade e na avaliao. No h melhor meio nico de aprendizagem on-line, nem
existe uma especificao que estabelece o tipo de interao mais propcio aprendizagem
em todos os domnios e com todos os alunos. Em vez disso, os professores devem
aprender a desenvolver suas habilidades de modo que elas possam responder aos
estudantes e currculos emergentes existentes. O professor pode fazer isso por meio do
desenvolvimento de um repertrio de ensino on-line que contemple atividades de
aprendizagem que sejam adaptveis s diversas necessidades contextuais e estudantis
(ANDERSON, 2008).

2.1.5. Teoria da Distncia Transacional


Uma das mais abrangentes e discutidas teorias que fundamentam os processos
da educao a distncia a Teoria da Distncia Transacional, apresentada por Moore
(1972; 1993; 2013; 1973). Originalmente, a teoria foi apresentada nos dois trabalhos
iniciais (MOORE, 1972; MOORE, 1973) e, ao longo de mais de quarenta anos, essa teoria
tem sido reforada, validada, estendida ou mesmo contestada. O referido autor tem feito
revises e atualizaes peridicas da sua teoria, com vistas a mant-la mais atualizada em
razo da evoluo tecnolgica e da prpria modalidade educativa.
Assim, diante das suas vrias atualizaes, esta pesquisa ir utilizar duas
verses do seu trabalho: a de 1993 (MOORE, 1993) quando ele enfatizou e redefiniu o
termo "distncia transacional" e a sua ltima verso (MOORE, 2013), na qual atualiza a
teoria e tambm apresenta vrios trabalhos relacionados com a sua teoria ao longo dos
ltimos vinte e oito anos, a partir do fortalecimento e da consolidao da EAD com o uso
intenso de tecnologias de comunicao e informao.

40
Neste trabalho, tambm apresentamos estudos com aplicaes da sua teoria
dos ltimos quinze anos, em especial os trabalhos que visaram obteno da distncia
transacional (DT) ou que, de alguma forma, tentaram estabelec-la de modo quantitativo.
O conceito inicial de transao, como parte da distncia transacional,
derivado a partir do trabalho de Dewey e Bentley (1949) e desenvolvido por Boyd e Apps
(1980), segundo os quais a transao definida como "a interao entre o ambiente, os
indivduos e os padres de comportamento em uma situao".
A transao a que denominamos educao a distncia ocorre entre professores
e alunos num ambiente que possui como caracterstica especial a separao entre alunos
e professores. Essa separao conduz a padres de comportamento de alunos e
professores, afetando profundamente o ensino e a aprendizagem. Com a separao, surge
um espao psicolgico e comunicacional a ser transposto, um espao de potenciais malentendidos entre as intervenes do instrutor e as do aluno. Este espao psicolgico e
comunicacional a distncia transacional (MOORE, 1993).
A distncia transacional definida por Moore (1993) refere-se, ento, a uma
distncia, que mais do que uma separao geogrfica simples de aluno e professor. Em
vez disso, trata-se de uma distncia que causa dificuldades de compreenso e de
percepo. Enquanto professor e aluno esto fisicamente separados um do outro, a
separao fsica leva a lacunas psicolgicas e de comunicao. Essa lacuna pode tornar o
mais simples tpico em um desafio para ensinar (ZHANG, 2003).
Essas lacunas psicolgicas e comunicacionais entre um aluno e seu professor
nunca so exatamente iguais. Em outras palavras, a distncia transacional uma varivel
contnua e no discreta, um termo relativo e no absoluto (MOORE, 1993). Conforme
(RUMBLE, 1986) apud. (MOORE, 1993), em qualquer programa educacional, seja ele
presencial ou a distncia, existe alguma distncia transacional.
Assim, a educao a distncia um subconjunto do universo da educao e
educadores a distncia podem utilizar e contribuir para a teoria e a prtica da educao
convencional. No entanto, ao processo educacional ao qual, normalmente, nos referimos
como educao a distncia, a separao entre professor e aluno suficientemente
significativa para que as estratgias e tcnicas especiais de ensino-aprendizagem por eles
utilizadas possam ser identificadas como caractersticas distintivas dessa modalidade de
prtica educacional (MOORE, 1993).

41
Como questo central dessa teoria, a distncia transacional influenciada por
trs fatores bsicos: (i) o dilogo, que desenvolvido entre professor e aluno, (ii) a
estrutura, que se refere ao grau de flexibilidade estrutural do programa; e (iii) a
autonomia, que se refere medida que o aluno exerce controle sobre os procedimentos
de aprendizagem (GIOSSOS et al., 2009). Na seo seguinte, so aprofundados os
conceitos e detalhamentos dessas trs variveis da distncia transacional.

2.1.6. Detalhamento dos construtos da distncia transacional


Conforme estabelecido por Moore (1993), a extenso da distncia
transacional, em um programa educacional, funo de trs grupos de variveis: Dilogo,
Estrutura e Autonomia do Aluno. Essas no so variveis tecnolgicas ou de
comunicao, mas sim variveis de ensino e aprendizagem e na interao entre ensino e
aprendizagem.
Dilogo
O dilogo acontece entre professores e alunos durante as interaes que
ocorrem quando algum ensina e os demais reagem. Os conceitos de dilogo e interao
so muito parecidos e, de fato, so, por vezes, usados como sinnimos. No entanto, uma
distino importante pode ser feita. O termo "dilogo" usado no conceito de distncia
transacional para descrever uma interao ou srie de interaes que possuem qualidades
positivas que outras interaes podem no ter. Um dilogo acontece de maneira
intencional, construtivo e valorizado por cada parte. Cada parte num dilogo um ouvinte
respeitoso e ativo; cada parte elabora e adiciona algo contribuio de outras partes. Pode
haver interaes negativas ou neutras; o termo "dilogo" reservado para interaes
positivas, na qual o valor incide sobre a natureza sinrgica da relao entre as partes
envolvidas. O dilogo em uma relao educacional direcionado para o aperfeioamento
da compreenso por parte do aluno (MOORE, 1993).
Para Ekwunife-Orakwue e Teng (2014), Moore operacionalizou o dilogo
como as interaes positivas entre alunos e professores, e entre outras partes (isto , partes
interessadas envolvidas com o curso ou programa educacional), no sentido de melhorar a
compreenso do aluno. Moore afirmou que os critrios para um dilogo com interaes
positivas so "propositivas, construtivas e valorizadas por cada parte", portanto uma
relao sinrgica entre as partes envolvidas. Embora Moore enfatizasse a necessidade de
compreender as interaes de diferentes atores, especialmente os comportamentos de

42
professores e alunos, ele no forneceu interpretaes claras sobre como o campo de
pesquisa pode medir esta construo qualitativa, recebendo, assim, crticas sobre a
validade e confiabilidade das diferentes medidas usadas para quantificar o dilogo
baseado na DT (GARRISON, 2000; GORSKY e CASPI, 2005). No entanto, uma teoria
robusta deve estar aberta a vrias maneiras de medir um mesmo construto que, em ltima
instncia, produz a mesma resposta (WEICK, 1989).
Moore (1993) afirmou que o aumento do dilogo implica na reduo da
distncia transacional. A percepo de que a distncia transacional diminui e a troca de
ideias relevantes mais eficaz quando o dilogo aumenta tambm apoiada por Saba e
Shearer (1994). Segundo esses autores, as variveis dilogo e estrutura no so estticas:
elas mudam ao longo do tempo, dependendo do desenvolvimento da interao entre o
instrutor e os alunos.
Para Gorsky e Caspi (2005), ao confrontarem a Teoria de Moore, apenas o
dilogo o determinante da distncia transacional, e as outras variveis afetam o dilogo.
J o trabalho de Dron (2005) destaca que, na Teoria da Distncia Transacional, a relao
entre estrutura e o dilogo (pelo menos em termos gerais) imutvel.
Em Shearer (2009), o dilogo conceituado como um subconjunto de todas
as comunicaes educacionais, na qual a inteno permitir trocas dialgicas que levam
ao aumento da compreenso do aluno e da construo do seu conhecimento.
Outros determinantes da extenso do dilogo, em um curso ou em uma aula,
so: o assunto do curso, a personalidade do professor, a capacidade de um aluno para
participar de forma ativa no dilogo e as diferenas culturais e lingusticas entre
instrutores e alunos (MOORE, 2013).
Estrutura
O segundo grupo de variveis representa a estrutura do curso. Essa estrutura
expressa a rigidez ou a flexibilidade dos objetivos educacionais, das estratgias de ensino
e dos mtodos de avaliao do programa em termos de: (i) estabelecer objetivos
educacionais do curso; (ii) ensinar tcnicas empregadas pelo curso e os procedimentos de
avaliao (iii); e, (iv) a extenso a que necessidades individuais so atendidas no curso
(ZHANG, 2003). Ela descreve em que medida um programa educacional pode acomodar
ou responder a cada necessidade individual do aluno (MOORE e KEARSLEY, 1996).

43
So os elementos do projeto do curso ou as maneiras de se estruturar o programa de ensino
para ser transmitido pelos diversos meios de comunicao.
Programas so estruturados de diferentes maneiras, de modo a se levar em
conta a necessidade de produzir, copiar, transmitir e controlar essas mensagens mediadas
(MOORE, 1993). A estrutura tambm se refere organizao e realizao de eventos e
atividades de aprendizagem em um ambiente de educao a distncia (KEARSLEY e
LYNCH, 1996).
Existem cursos nos quais h pouca ou nenhuma oportunidade para o estudante
construir seu prprio percurso dentro do curso de acordo com as necessidades pessoais,
j que os instrutores estabeleceram um roteiro para um determinado perodo de tempo.
Isso descreve um curso ou programa que tem um elevado grau de estrutura. Em
comparao, outros cursos so projetados com uma estrutura flexvel, na qual os alunos
podem seguir qualquer um dos vrios caminhos diferentes, ou muitos caminhos, por meio
do contedo ou pode negociar variaes significativas no programa com o instrutor
(MOORE, 2013).
A estrutura do curso deve identificar quais informaes so necessrias e
como o aluno deve saber encontrar, utilizar e gerir essas informaes. Um curso no
estruturado de forma eficaz pode potencialmente distanciar o aluno de toda a experincia
da aprendizagem on-line. Em contraste, da estruturao de um curso eficaz, a busca por
mais informaes poder ser incentivada e a distncia pedaggica minimizada
(SANDOE, 2005).
Autonomia
Segundo Moore (1993), a autonomia do aluno a extenso na qual ele exerce
um controle sobre os procedimentos de aprendizagem. A autonomia refere-se
capacidade do aluno para selecionar seus prprios objetivos de aprendizagem, fazer a
escolha de seus prprios mtodos de estudo e avaliar o seu progresso ou realizao. Com
uma maior autonomia, o aluno consegue tolerar uma maior distncia transacional em um
curso ou sistema de ensino a distncia (PRUITT, 2005). Autonomia, em outras palavras,
o grau de deciso que o aluno tem sobre questes como objetivos educacionais, seguido
de forma de ensino, mtodos de avaliao e progresso (GIOSSOS et al., 2009).
Por conta da sua autonomia, os alunos precisam se responsabilizar por julgar
e tomar decises acerca das estratgias de estudo. Mesmo quando um curso estruturado

44
para oferecer um maior nmero de instrues e a melhor orientao, se no houver
dilogo, os estudantes podem acabar por decidir por si prprios se as lies sero usadas,
e se for o caso quando, de que maneira e em que medida (MOORE, 1993).
Os programas de educao a distncia podem ser examinados para se verificar
em que medida o professor ou o aluno controlam os principais processos de ensinoaprendizagem, e podem, ento, ser classificados de acordo com o grau de autonomia do
aluno permitida por cada programa (GIOSSOS et al., 2009).
Vrios autores tm buscado refinar mais a definio da autonomia do aluno.
Ryan (1991) distinguiu a autonomia da independncia, mas afirmou que esses termos
foram, muitas vezes, utilizados alternadamente causando certa confuso na literatura.
Para ele, a autonomia em sentido da direo nas aes de uma pessoa e que a
independncia um estado de autossuficincia, em que um no tem o apoio de recursos
do outro.
Nolen (1995) descreveu a "autonomia de meios", centrada no controle que os
alunos tm sobre as estratgias de aprendizagem e que no envolvem o professor. Ela
distinguida da "autonomia intelectual", na qual os alunos tm para que, como e com que
finalidade eles estudam.
Em uma reviso da literatura sobre a autonomia, Littlewood (1996) revelou a
autonomia do aluno como uma variedade de diferentes graus de independncia em vez de
como um nvel absoluto. Ele definiu o termo como "a capacidade de pensar e agir de
forma independente ... em qualquer tipo de situao ...". De acordo com esse autor, essa
capacidade de aes independentes depende da aptido e da boa vontade do estudante.
Richardson (1998) analisou a literatura para validar o postulado de que a
autonomia do aluno poderia ser operacionalizada como um estilo cognitivo da
independncia do aluno. Em ltima anlise, ele refutou a utilizao de independncia de
campo como uma medida de autonomia do aluno ou como preditor de sucesso no ensino
a distncia, uma vez que foi confundida com inteligncia verbal, uma base para a seleo
de alunos no ensino superior.
Em outro trabalho sobre a autonomia, Littlewood (1999) tambm distingue
dois tipos de autonomia: proativa e reativa. Autonomia proativa, muito parecido com
autonomia intelectual de Nolen (1995), a autonomia, muitas vezes, citada na qual alunos
podem determinar seus objetivos de aprendizagem, selecionar materiais e mtodos para

45
o seu estudo, autoavaliar e estabelecer sua prpria agenda de aprendizagem. A autonomia
reativa corresponde autonomia dos meios de Nolen (1995), nos quais as instrues de
aprendizagem so colocadas por outros, mas, uma vez definidas, o aluno instigado para
organizar seus recursos para cumprir as metas de aprendizagem estabelecidas.
Na construo de um framework terico sobre ambientes de instruo on-line,
Jung (2001) revisou cinquenta e oito artigos sobre a instruo baseada na web e verificou
que as variveis de aprendizagem: autonomia e colaborao do aluno podem ser
enquadradas na categoria autonomia do aluno. Alm disso, tanto a colaborao quanto a
autonomia do aluno pareceram ganhar mais relevncia em ambientes de instruo
baseados na web. Em sua hiptese, Jung admitiu que esses ambientes podem proporcionar
uma maior autonomia do aluno, devido flexibilidade inerente sua estrutura, que
permite que os alunos usem estratgias de procura de informao de maneira interativa
ou espontnea.
Segundo Tori (2010), a autonomia do aluno tem uma relao direta com
estrutura do curso, sendo que essa autonomia necessria na EAD e tambm uma forma
de reduzir a distncia transacional.
Durante a pesquisa, que levou ao desenvolvimento da Teoria da Distncia
Transacional, tornou-se evidente que alguns programas podem permitir ou exigir o maior
exerccio de autonomia de aprendizagem do que os outros e que h condies nas quais
uma maior autonomia do aluno pode ser exercida e outras na quais um menor grau de
autonomia mais apropriado. Assim, os programas de ensino-aprendizagem podem ser
organizados, no s de acordo com a extenso da estrutura e do dilogo, mas tambm de
acordo com o grau de auto-gesto, ou a autonomia do aluno permitida por cada programa
(MOORE, 2013).
Outras variveis
Baseados na teoria de Moore e a partir de modelos de dinmica de sistemas,
Saba e Shearer (1994) definiram mais duas variveis para a distncia transacional: o
controle de aluno e o controle do professor. Mesmo assim, a concluso dos pesquisadores
foi que distncia transacional varia de acordo com a taxa de dilogo e de estrutura do
curso.
Hillman, Willis e Gunawardena (1994) perceberam que a interao entre o
aluno e a tecnologia na instruo no constava at ento na literatura sobre a Teoria da

46
Distncia Transacional; ento, acrescentaram a interao aluno-interface s outras formas
de interao j identificadas por Moore (1993), a fim de acomodar as caractersticas de
ensino mediado por computador.
Jung (2001) sugeriu que, na instruo baseada na web, as variveis de dilogo
incluem o dilogo acadmico, o colaborativo e a interao interpessoal, enquanto as
variveis de estrutura so de expanso, adaptabilidade de contedo e do layout visual. As
variveis de aprendizagem so autonomia do aluno e colaborao. Na sua pesquisa, Shin
(2003) expandiu a ideia de distncia transacional, postulando e testando o conceito de
presena transacional.
Nos seus trabalhos, Chen (2001a; 2001b) fez exploraes de quatro
dimenses da distncia transacional: instrutor-aluno, auno-aluno, aluno-contedo, e
aluno-interface de distncia transacional, demonstrando que esses foram fatores teis para
delinear a distncia transacional. Chen (2001a) tambm constatou que, em um curso com
base na Web, a experincia anterior com educao a distncia no teve efeito na
percepo dos alunos sobre a distncia transacional, mas a habilidade do aluno na
utilizao da Internet e da extenso do dilogo que ocorreu entre o professor e os alunos
e entre alunos tiveram efeitos significativos sobre a distncia.
J Tori (2002) identificou trs tipos de distncia na educao: espacial,
temporal e interativa, que, ao serem cruzadas com os trs tipos de interao identificados
por Moore (1989): aluno-professor, aluno-aluno e aluno-contedo, geram 512
possibilidades de distanciamento ou aproximao em atividades de aprendizagem. O
autor desenvolveu um conceito inverso da distncia transacional, ao propor uma frmula
para clculo do ndice de potencial de proximidade (ndice PP), para medir o potencial de
uma determinada atividade de aprendizagem, com base nas suas caractersticas, de
possibilitar uma sensao de presena sob a perspectiva do aluno.
Caspi et al. (2003) desenvolveram o que eles denominaram ser um "modelo
de reestruturao da distncia transacional", composto por quatro tipos de dilogo e foi
usado para examinar o efeito do tamanho do grupo sobre o comportamento dos alunos
em grupos de discusso assncrona.
Lowell (2004) mostrou a relao da presena social com a percepo da
distncia transacional em ambientes on-line, e Lemone (2005) estudou como os fatores
culturais podem afetar a distncia transacional. Dron (2007) estendeu a Teoria da

47
Distncia Transacional para o software social, tais como blogs, wikis e ambientes
colaborativos. Assim, a teoria expande-se e pesquisadores buscam evolu-la e encaix-la
em novos contextos e ambientes.
Os estudos de Braxton (1999), Lowell (2004) e Zhang (2003) ajudaram a
destacar que a distncia transacional afetada por mltiplas dimenses de interaes,
presena social, influncias culturais e outros aspectos da interao. No entanto, eles no
analisaram em profundidade os construtos subjacentes da teoria para ajudar a atingir
melhor as definies conceituais e operacionais dos termos da distncia transacional, nem
tambm exploraram uma possvel classificao ou medidas das variveis.
Seguindo as ideias de Saba e Shearer (1994), Dron (2006) definiu a varivel
de controle como sendo o controle transacional. Essa varivel de controle transacional
est relacionada com as escolhas dos atores da modalidade. Em todos os meios de EAD,
algumas das escolhas so feitas por professores e outras so feitas pelos alunos. A maneira
de como e quem faz essas escolhas define ento o controle transacional.

2.1.7. Relaes entre os construtos da distncia transacional


Para a relao entre o dilogo e a estrutura, Moore explicou que, se um curso
ou programa rico em dilogo, no qual as comunicaes em curso entre os alunos e
instrutores so feitas sem obstculos e com uma estrutura pobre, na qual os alunos podem
modificar os recursos para atender s suas necessidades de estilo e respectivo ritmo de
aprendizagem, ento esse programa tem o mnimo de distncia transacional.
Quando um curso tem um baixo dilogo e baixa estrutura, o curso tem uma
maior distncia transacional e o espao para mal-entendidos maior nesse caso. Entre
esses dois extremos, so cursos ricos em dilogo e com alta estrutura, com menor
distncia transacional, bem como cursos com baixo dilogo e alta estrutura, com grande
distncia transacional (PRUITT, 2005).
Numa apresentao em um seminrio, Moore (2006) explicitou esses
comportamentos das variveis da DT em vrios grficos. Um deles (Figura 3) apresenta
as variaes do dilogo e da estrutura e sua consequente influncia na distncia
transacional.
No entanto, algumas limitaes so impostas no sentido inverso, implicando
que a reduo na estrutura no resulta em aumento do dilogo e, consequentemente, na

48
reduo da distncia transacional. Moore salienta que, se a estrutura cai abaixo de um
limiar, pode ocorrer um aumento da distncia transacional. Deve ser notado aqui que
Moore (1993) no especifica o que esse limiar da estrutura, segundo o qual a distncia
transacional aumenta (SANDOE, 2005).
Figura 3 - Relao entre o dilogo e a estrutura e sua influncia na distncia transacional.

Fonte: (MOORE, 2006).

Outra forma de explicitar a relao das variveis dilogo e estrutura de


maneira simplificada foi apresentada por Duc (2012), evidenciando ainda mais a relao
inversa entre ambas as variveis e suas influncias na distncia transacional (Figura 4).
Em um curso com pouca estrutura e alto nvel de dilogo, ou seja, uma baixa
distncia transacional, os alunos recebem informaes e orientaes por meio de dilogo
com seus instrutores e de materiais didticos que permitem modificaes para atender s
suas necessidades individuais, ao estilo e ritmo de aprendizagem. Tal programa, com um
menor grau de distncia transacional, invariavelmente mais atraente para aqueles alunos
que so menos seguros na gesto da sua prpria aprendizagem.
Figura 4 Visualizao da influncia do dilogo e da estrutura na distncia transacional.

Fonte: (DUC, 2012).

49
Nas primeiras verses da sua teoria, Moore (1972; 1973) investigava a
distncia transacional em programas de educao a distncia, a partir da anlise de cursos
por correspondncia, rdio, tev entre outros. Da o seu foco no impacto dos nveis de
dilogo e da estrutura na distncia transacional. Com a evoluo dos meios de propagao
de contedos e, consequentemente, uma maior participao do aluno no processo de
ensino-aprendizagem a distncia, Moore (1993) ento passou a considerar a autonomia
do aluno como a terceira varivel da distncia transacional, mas que tambm impactada
pelo dilogo e pela estrutura, assim como incrementada (ou necessrio incrementar)
com o aumento da distncia transacional.
Uma vez que os alunos so atores de importncia crucial na transao de
ensino-aprendizagem, a natureza do aluno - principalmente o potencial para assumir a
responsabilidade de aprendizagem autnoma - pode ter um importante efeito sobre a
distncia transacional em qualquer programa educacional. Parece existir uma relao
entre dilogo, estrutura e autonomia do aluno, pois quanto maior a estrutura e menor o
dilogo em um programa, maior autonomia o aluno ter de exercer (MOORE, 1993).
Por outro lado, os alunos mais autnomos so mais confortveis com menos
dilogo, recebendo instrues por meio de materiais de curso mais altamente
estruturados. Tambm se sentem mais confortveis, com busca de informaes e tomada
de decises por si mesmos sobre o que, quando, onde, que forma e em que medida estudar.
Em outras palavras, quanto maior a distncia transacional mais os alunos tm de exercer
a sua autonomia. Essa relao entre a autonomia e as demais variveis da distncia
transacional pode ser visto no grfico 3D da Figura 5.
Figura 5 - Relao entre o dilogo, estrutura, distncia transacional e a autonomia do
aluno.

Fonte: (MOORE, 2006).

50
Cada plataforma 3D representa o nvel da distncia transacional observada
com o nvel combinado dos seus trs construtos. Esses dois grficos e outras variaes
dos mesmos foram incorporados no texto da ltima verso da sua teoria, em Moore
(2013).
Assim, Moore (1993) assumiu que: (i) a distncia transacional e dilogo so
inversamente proporcionais, o que significa que qualquer aumento em um conduz
diminuio do outro; (ii) O aumento da estrutura do curso leva reduo do dilogo e,
consequentemente, aumento da distncia transacional; (iii) A distncia transacional e a
autonomia so diretamente proporcionais um ao outro; com o aumento ou a diminuio
em um resulta em aumento ou diminuio no outro.
Um dos desafios para a aplicabilidade da Teoria da Distncia Transacional,
em programas de cursos em EAD, o estabelecimento de um processo de obteno dessa
distncia e como interpretar e aplicar os resultados nos programas educacionais
analisados. Na seo seguinte, so detalhados vrios trabalhos que buscaram estabelecer
essa mtrica.

2.1.8. Medidas da distncia transacional


Para que a educao a distncia possa beneficiar da Teoria da Distncia
Transacional, deve haver uma compreenso de como a distncia transacional pode ser
melhorada. A fim de se melhorar alguma coisa, deve haver um mecanismo ou sistema
para dizer se isso tem crescido ou diminudo, ou, em outras palavras, deve haver um
recurso para medir isso.
Desde a sua formulao, a Teoria da Distncia Transacional tem sido
motivadora de pesquisas que buscaram desenvolver mecanismos ou modelos para sua
medio e, por consequncia, atribuio de um valor ou conceito que serve como um
possvel indicador dessa distncia.
Nenhuma das variveis que cercam a teoria mutuamente exclusiva. Isso no
significa que cada varivel no pode ser obtida de forma independente. Pelo contrrio,
para obter uma compreenso completa das relaes das variveis da distncia
transacional, cada uma deve ser definida de forma independente. Devem ser estabelecidas
tcnicas de medio vlidas e confiveis para cada varivel, a fim de comunicar a
magnitude da varivel e permitindo assim seus efeitos e inferncias sobre seus
relacionamentos a serem estudados (SANDOE, 2005).

51
medida em que tais variveis esto em oposio ou no esto em equilbrio,
independentemente do meio de entrega do curso, teoricamente isso pode afetar os alunos
de muitas maneiras, possivelmente, levando-os a deficincias nos potenciais ou desejos
de aprendizagem, pondo assim em risco a prpria meta, que foi inicialmente estabelecida
(SANDOE, 2005).
Segundo Goel et al. (2012), a rea problemtica predominante na Teoria da
Distncia Transacional tem sido a sua medio e de seus componentes - de dilogo,
estrutura e autonomia. Alguns trabalhos tm apresentado mecanismos de medio, mas
nenhum deles conseguiu, at ento, contemplar de maneira abrangente todos os conceitos
e propostas da teoria (HUANG et al., 2015).
Alguns procedimentos e instrumentos de coleta de dados para buscar medir
ou estabelecer indicadores da distncia transacional tm sidos verificados na literatura
sobre a teoria. A maioria dos trabalhos com abordagem quantitativa apresentam coletas
de dados a partir de questionrios com escalas tipo Likert (BISCHOFF et al., 1996;
BRAXTON, 1999; CHEN, 2001a; CHEN, 2001b; ZHANG, 2003; SANDOE, 2005;
HUANG et al., 2015. Tambm foram feitas anlises da transcrio de entrevistas abertas
(KANUKA, 2001; KASSANDRINOU et al., 2014) e qualitativas (KANUKA et al.,
2002; VEAL, 2009; USTATI e HASSAN, 2013).
Saba e Shearer (1994) utilizaram a dinmica de sistemas para analisar as
variveis de dilogo e estrutura. A modelagem dinmica de sistemas usada para estudar
sistemas industriais, biolgicos, ecolgicos e sociais, mas o estudo mostrou que ela
tambm pode ser usada com sucesso para modelar sistemas concebidos para verificar
conceitos fundamentais numa teoria de ensino a distncia. A dinmica de sistemas fornece
meios para o estudo de variveis inter-relacionadas, durante um perodo de tempo.
Uma das fases do desenvolvimento de um modelo baseado na dinmica do
sistema consiste em formalizar a relao entre os componentes (variveis) do sistema
estudado em um conjunto de equaes matemticas, que tambm so usadas como
cdigos computacionais para simular o modelo.
Segundo esses autores, as variveis dilogo e estrutura no so estticas: elas
mudam ao longo do tempo, dependendo do curso da interao entre instrutor e aluno e
que, mesmo diante de outras variveis (como as de controle do professor e do aluno), as
suas variaes influenciam diretamente na variao da distncia transacional.

52
Para analisar o efeito da distncia transacional sobre a educao dos
profissionais de sade em um ambiente de aprendizagem baseado em televiso, Bischoff
(1996) realizou um estudo exploratrio com 221 estudantes voluntrios em 13 cursos
pblicos de sade e de ps-graduao em enfermagem da Universidade do Hava em
Manoa. O questionrio aplicado foi desenvolvido pelo investigador e possua 68 itens
(em uma escala Likert de 5 pontos) sobre elementos de dilogo, a estrutura e a distncia
transacional em seus cursos. Usando a anlise de componentes principais e anlise de
consistncia interna, verificou-se a presena dos trs fatores: estrutura, dilogo e distncia
transacional. A distncia transacional foi medida perguntando aos alunos diretamente
sobre o grau de proximidade ou distncia que eles percebiam entre os demais membros
da turma.
O objetivo do estudo foi o de preencher 28 lacunas entre a teoria e a prtica
de coleta de dados empricos sobre a variveis da Teoria da Distncia Transacional,
comparando esses elementos em dois ambientes de aprendizagem: um em formato a
distncia (televiso interativa) e um formal tradicional (face a face). O estudo constatou
que: (a) no houve diferena significativa entre os dois grupos na estrutura e a distncia
transacional; e (b) o dilogo foi significativamente maior nos cursos a distncia.
O trabalho de Bischoff (1996) foi um dos primeiros esforos para aplicar
diretamente a teoria de Moore em uma pesquisa em educao a distncia. Ele no foi
realizado apenas para verificar a teoria, mas, em vez disso, utilizando os construtos na
teoria tradicional, pde comparar diversos cursos no formado de EAD. No entanto,
Bischoff (1996) fez vrias observaes sobre o desenvolvimento da escala e revelou a
necessidade de aperfeioamento do instrumento e a gerao de novos itens. Algumas das
sugestes de reviso foram consideradas e aproveitadas no estudo de Sandoe (2005).
Em sua tese de doutorado Braxton (1999), props uma "teoria refinada da
distncia transacional". Ela tambm buscou criar um instrumento para medir a distncia
transacional. Para esse refinamento, a autora usou dados relativos aos mtodos de design
instrucional na educao a distncia e da distncia transacional. Foram coletados dados
em pesquisas de campo usando questionrios, entrevistas e grupos focais virtuais.
As concluses dessa pesquisa foram usadas para criar uma ferramenta de
avaliao para auxiliar educadores a criar cursos em EAD, avaliando seus projetos antes
da realizao do curso. Essa avaliao pde permitir-lhes determinar o nvel de distncia
transacional em seus projetos de cursos propostos e para garantir que contemplem outros

53
fatores importantes que devem ser considerados durante a criao de cursos na
modalidade.
Chen (2001a; 2001b) props medir os componentes da distncia transacional
usando um questionrio com uma escala Likert de cinco pontos, que buscava descrever e
analisar todas as situaes reais de um aprendiz on-line. O instrumento de coleta de dados
continha 23 itens que descreviam todas as situaes que os alunos enfrentam, incluindo
todos os aspectos da comunicao no ambiente on-line, bem como a interao com os
materiais de aprendizagem e o meio de entrega utilizado. Usando 71 experincias de
aluno com a web, Chen (2001a; 2001b) examinou o postulado da teoria de Moore e
identificou os elementos constitutivos da distncia transacional. Foram avaliados quatro
tipos de interaes: aluno-aluno, aluno-interface, aluno-instrutor e aluno-contedo.
Foi realizada uma anlise fatorial exploratria, usando um mtodo de fator do
eixo principal e o autor concluiu que o conceito de distncia transacional representa ideias
multifacetadas. A distncia transacional, percebida pelos alunos, consistia em quatro
fatores (dimenses): a distncia transacional aluno-aluno referiu-se distncia
psicolgica, que os alunos percebem ao interagir com outros alunos; a distncia
transacional aluno-interface a que se referia ao grau de facilidade/dificuldade de
utilizao, que os alunos percebem quando eles usam os sistemas de entrega do curso; a
distncia transacional aluno-instrutor envolveu a distncia psicolgica de entendimentos
e comunicao, que os alunos percebem quando eles interagem com seu professor; e a
distncia transacional aluno-contedo, que se referiu distncia de entendimentos que os
alunos percebem como eles estudam os materiais do curso e medida que os materiais
satisfazem as suas necessidades de aprendizagem e expectativas para o curso.
Uma proposta de um mtodo para classificao e medio das distncias
envolvidas em um processo de aprendizagem, a fim de se possibilitar uma comparao
entre diferentes atividades educacionais, envolvendo elas ou no o uso de tecnologia
digital ou a presena fsica dos participantes foi apresentada por Tori (2002), a partir do
conceito e do clculo do ndice PP (Potencial de Proximidade), uma frmula matemtica,
que possibilita avaliar o potencial terico de presencialidade, associado a determinada
atividade de aprendizagem pela anlise de suas componentes a distncia (espacial,
temporal e interativa) nas trs relaes identificadas (aluno-professor, aluno-aluno e
aluno-contedo).

54
No seu estudo, Huang (2002) desenvolveu uma escala para medir as
percepes de estudantes em cursos on-line, para explorar quaisquer relaes entre as
percepes de estudantes e variveis demogrficas ou gerais (por exemplo: idade, sexo,
experincia com curso on-line, conhecimentos de informtica, entre outros) e investigar
as relaes entre interface e a interao. A pesquisa empregou, principalmente, pesquisa
correlacional e realizou regresses estatsticas descritivas, correlacionais e mltiplas. Seu
estudo tinha uma amostra pequena (n = 31), com a coleta de dados sendo feita ao longo
de dois trimestres a partir de questionrios aplicados aos alunos em uma universidade de
Taiwan. O estudo descobriu que a interao, a estrutura do curso e autonomia do aluno
foram correlacionados entre si, porque eles tinham a mesma varivel causal: a interface
de sistema de entrega. Ele tambm descobriu que os alunos devem possuir habilidades
necessrias para examinar o ambiente de aprendizagem antes que eles possam ser bemsucedidos.
Um instrumento desenvolvido por Zhang (2003) mediu a distncia
transacional em cursos baseados na web, no apenas entre aluno e professor, mas tambm
as distncias aluno-alunos, aluno-contedo e aluno-interface. Anlises fatoriais
confirmatrias e anlises exploratrias indicaram que os modelos de mensurao
propostos pela autora, especialmente aps as modificaes sugeridas por especialistas,
apresentaram um bom ajuste para os dados, que foram coletados a partir de questionrios
aplicados. Os procedimentos de modelagem de equaes estruturais foram testados para
a relao causal entre as quatro dimenses em relao ao nvel de distncia transacional
dos alunos em cursos baseados na web.
O fator mais forte que afetou a sensao de distncia transacional na pesquisa
de Zhang (2003) foi a distncia transacional entre aluno-alunos, seguido de distncia
transacional entre aluno-professor e, depois, pela distncia transacional aluno-contedo.
O estudo de Zhang (2003) foi atualizado por Paul et al. (2015) luz das
mudanas que ocorreram no ensino superior, especificamente na educao a distncia,
durante os 12 anos desde o lanamento do trabalho original. Houve um refinamento da
escala e uma reduo nos itens do questionrio, com uma validao de uma verso mais
parcimoniosa e que produziram estatsticas com melhor ajuste, alm de ser menos
demorado para ser concludo. Segundo os autores, essa nova escala, referida como a
Escala Revisada de Distncia Transacional, deve servir como uma ferramenta valiosa
para a pesquisa educacional e instruo no mundo em constante mudanas.

55
Na sua pesquisa, Sandoe (2005) projetou um instrumento para medir
especificamente a componente estrutura no ambiente on-line e o testou em 20 cursos. O
instrumento desenvolvido destacou-se em uma comparao com outros instrumentos de
campo em termos de sua capacidade de produzir informao rica e vlida sobre a estrutura
de cursos on-line. A coleta de dados foi baseada em questionrios aplicados e as anlises
dos dados foram feitas a partir de anlises das correlaes e discriminantes entre as
variveis coletadas.
Hughes (2010) tambm desenvolveu um instrumento de medio da distncia
transacional e seus construtos a partir de anlise multivarivel, para explorar os efeitos da
divulgao de mensagens educativas via e-mail para enfermeiros. Os dados foram
coletados a partir de surveys aplicados a 97 participantes da pesquisa. A anlise fatorial
dos dados coletados resultou em um modelo de quatro fatores, que explicou mais da
metade da varincia dos dados coletados. Dez variveis foram relacionadas com o fator
dilogo. Outras dez variveis foram associadas ao fator estrutura. A autonomia do aluno,
continha seis variveis explicativas. Um quarto fator foi a experincia do aluno e consistia
de seis variveis. Os resultados encontrados deram suporte teoria de distncia
transacional de Moore.
Apresentar uma escala para medir a distncia transacional em um ambiente
de aprendizagem hbrido foi a proposta de Horzum (2011). A escala, obtida a partir de
anlise multifatorial, foi composta por 38 itens e 5 subfatores e foi utilizada para medir a
percepo da distncia transacional em um ambiente de aprendizagem mista (blended
learning), com um grupo com 197 alunos. A coleta de dados se deu tambm a partir da
aplicao de questionrios.
Entre os quatro fatores principais, um alto nvel de correlao significativa
positiva foi encontrado entre a flexibilidade da estrutura e o dilogo. Alm disso, um nvel
elevado de correlao significativa negativa foi encontrado entre o dilogo e a
organizao de contedo e entre a flexibilidade de estrutura e a organizao do contedo
do curso. Verificou-se tambm uma relao negativa entre a estrutura e o dilogo. Essa
constatao est em consonncia com os pressupostos da teoria (MOORE, 1993;
MOORE e KEARSLEY, 1996; SABA E SHEARER, 1994) que sugere que, quando o
dilogo aumenta, a estrutura diminui e vice-versa.
Goel et al. (2012) exploraram a noo de dilogo como uma varivel central
da distncia transacional e, a partir da, identificaram situaes preditoras que influenciam

56
no dilogo. Tambm usaram os conceitos da Teoria da Distncia Transacional para prever
intenes dos indivduos de participar de novos cursos baseados em e-learning.
Os dados da pesquisa foram coletados a partir de questionrios on-line, em
uma amostra de 273 alunos em nove cursos de uma universidade norte-americana. Os
dados foram analisados por meio de equaes estruturais, mais especificamente com um
mtodo baseado em anlise de varincia. Os resultados apontaram uma forte influncia
dos fatores distncia transacional nas intenes dos indivduos para voltar para outra
experincia em e-learning. Os resultados do estudo tambm sugeriram recomendaes
para a concepo de cursos na modalidade.
O trabalho de Wengrowicz e Offir (2013) produziu um interessante estudo,
que examinou a percepo de distncia transacional dos professores em trs ambientes
distintos de ensino: totalmente a distncia; hbrido e o tradicional (presencial). Foram
coletados dados de 320 professores a partir de questionrios on-line, com uma escala de
Likert de 5 itens. Dessa amostra, 66 professores atuavam no ensino a distncia, 94
atuavam no misto e 160 no ambiente tradicional, todos em instituies de ensino superior
de Israel.
Os autores desenvolveram e validaram um instrumento para determinar a
distncia transacional percebida pelos professores, a Teachers Transactional Distance
Scale (TTDS). Foi usada uma anlise fatorial exploratria para a obteno dos resultados
da escala. Os resultados apontaram que a percepo da distncia transacional pelos
professores variava de acordo com a antiguidade dos mesmos, o nmero de alunos por
turma e quando estavam no ambiente inteiramente a distncia, indicando que no houve
essa percepo nos ambientes hbrido e presencial. Ainda segundo os autores, esses
resultados mostram que os professores a distncia devem ser treinados para esse novo
papel, a fim de perceberem a variao da distncia transacional.
O estudo recente de Huang et al (2015) verificou a teoria e sua
operacionalizao, examinando a relao entre o dilogo, a estrutura e a autonomia para
a distncia transacional, assim como os fatores ambientais e demogrficos dos alunos na
distncia transacional, no contexto da educao a distncia contempornea baseado na
web, caracterizada por um ambiente de aprendizagem mais interativo.
Um instrumento especialmente desenvolvido para o estudo mediu a
percepo de estudantes nos construtos relacionados com a distncia transacional. A

57
pesquisa foi feita com vrios estudantes de graduao e ps-graduao on-line de
universidades americanas. Um total de 227 estudantes responderam pesquisa, feita a
partir de questionrio on-line, que continha 103 itens, com uma escala de Likert de 7
pontos.
A partir de uma srie de hipteses definidas pelos autores, o trabalho buscou
uma melhor compreenso das relaes entre o dilogo, a estrutura, a autonomia do aluno
e a distncia transacional, testando empiricamente um modelo terico em ambientes de
ensino a distncia baseado na web. Alm disso, foi feita uma verificao do impacto de
fatores ambientais na distncia transacional e testes empricos do impacto dos atributos
diferentes da autonomia do aprendiz na distncia transacional. Foram usadas diversas
tcnicas e testes estatsticos como anlise de correlao e da varincia dos escores obtidos
nos construtos da teoria e tambm o teste t com amostras independentes para a anlise
dos dados coletados.
As concluses indicaram que altos nveis de estrutura e dilogo no so
necessariamente incompatveis, apoiando a relao inversa de estrutura, dilogo e a
autonomia do aluno para a distncia transacional. Fatores ambientais (tamanho da turma,
pr-requisitos, meios de comunicao usados para o dilogo entre outros) e caractersticas
do aprendiz (sexo, idade, etnia) que impactaram na distncia transacional foram
identificadas e tambm foram discutidas implicaes prticas dos resultados para o
projeto de cursos on-line.
Conforme evidenciado na anlise da literatura da Teoria da Distncia
Transacional, na maioria dos estudos sobre essa distncia, a definio e a obteno dos
construtos que compem essa distncia feita a partir de questionrios aplicados aos
alunos, por meio dos quais os pesquisadores definem uma srie de itens que
correspondem a cada grupo de variveis da distncia transacional. Procedimentos
estatsticos so, ento, realizados para obter os indicadores finais da distncia ou dos
construtos individualmente.
O uso dos questionrios para obter esses indicadores pode limitar as opinies
dos respondentes, o que pode, em algum momento, ter vieses que provoquem uma
medio inadequada ou mesmo a faa de maneira incompleta. Os prprios estudos
apontam algumas restries nesse mtodo, de modo a no ser possvel a sua generalizao
para diversas circunstncias na qual ocorre a distncia transacional. Uma das limitaes

58
apontadas a forma de coleta de dados sobre os quais calculada ou medida a distncia
transacional.
Assim, conforme percebido nessa seo, o desafio de se obter a distncia
transacional em cursos a distncia permanece. A utilizao de diferentes instrumentos de
obteno dos construtos e, por consequncia, a existncia de uma diversidade de anlises
e modelos no permitem ainda a generalizao ou uma padronizao de procedimentos
para se mensurar a distncia transacional, gerando mais um campo de pesquisa para a
modalidade de EAD.

2.1.9. Relao entre a distncia transacional e a evaso em cursos a


distncia
Pela sua definio, a distncia transacional um dos fatores que pode impedir
ou dificultar estudantes no engajamento significativo e na comunicao no ambiente de
aprendizagem (GOEL et al., 2012). Alm do prprio Moore (2013), outros autores
afirmaram que quanto maior for a distncia transacional, maior a possibilidade de
ocorrncia de problemas como atritos, insatisfaes e abandono de cursos (ZHANG,
2003; STEINMAN, 2007; HORZUM, 2011; MBWESA, 2014; PAUL et al., 2015).
No seu trabalho de doutorado, Zhang (2003), demonstrou uma correlao
negativa entre a distncia transacional com o envolvimento dos alunos e a sua
aprendizagem, assim como a sensao de satisfao e a inteno do aluno em persistir no
seu curso on-line.
Zhang (2003) tambm afirmou que o abandono do curso pelo estudante tem
sido, tradicionalmente, um problema srio da educao a distncia. A teoria e a pesquisa
em distncia transacional podem lanar luzes sobre essa questo.
Na reviso do trabalho de Zhang (2003), Paul et al. (2015) reforaram a ideia
que os elementos da distncia transacional so preditores do engajamento e da satisfao
dos alunos em cursos on-line, o que, de certa forma, so elementos relacionados com a
deciso de permanecer ou abandonar o curso.
Para Steinman (2007), as percepes dos alunos de cursos on-line podem ser
negativas se eles experimentam grande distncia transacional com o instrutor e com
outros alunos, podendo influenciar sua deciso de permanecer ou abandonar o curso. Uma
vez que a distncia transacional afeta a satisfao e reteno dos alunos, esse conceito
visto como um importante tpico de discusso sobre evaso em cursos on-line.

59
A obteno dos construtos da distncia transacional pode refletir uma
condio ou um estado de um curso durante a sua realizao, permitindo, por exemplo,
que professores e tutores percebam um distanciamento de determinados alunos e possam
intervir no sentido de prever ou reverter situaes de evaso de alunos do curso
(HORZUM, 2011).
Em sua pesquisa, Mbwesa (2014), buscou estabelecer os componentes da
distncia transacional como preditores da satisfao dos alunos em um curso a distncia.
Os resultados do estudo indicaram que as distncias transacionais verificadas entre alunoaluno, aluno-professor e aluno-contedo foram preditores importantes da satisfao
percebida dos alunos com os cursos por EAD.
Embora a literatura indique uma possvel relao entre a distncia
transacional e seus construtos, com a tendncia de evaso dos alunos em cursos por EAD,
nenhum dos trabalhos analisados definiu de que forma ou em que nvel se d essa relao.
Esta pesquisa buscou estabelecer uma relao quantitativa, propondo o uso dos construtos
da distncia transacional como preditores do risco de evaso dos alunos em cursos de
graduao na modalidade.

60

3. MINERAO
DE
CONHECIMENTO

DADOS

DESCOBERTA

DE

Nas ltimas duas dcadas, os avanos em sistemas de informao, nos


dispositivos de coleta e tecnologia de armazenamento, permitiram que empresas e
organizaes armazenassem grandes quantidades de dados. Esses dados representam
oportunidades para descoberta de conhecimento relevante que possibilita melhores
decises e planejamento mais adequado. A minerao de dados e a descoberta de
conhecimento, que utilizam mtodos, tcnicas e algoritmos para extrair informaes
teis, surgiram durante a dcada de 1990 e vm crescendo rapidamente com importncia
significativa em diversas reas de conhecimento e negcios (PENG et al., 2008).
A minerao de dados (DM - do ingls data mining) um campo bem
conhecido na interseo da cincia da computao e da estatstica, cujo objetivo a
descoberta de informao no trivial, normalmente escondidas em dados (HAN et al.,
2011).
Por meio de uma ampla variedade de campos, os dados esto sendo coletados
e acumulados em um ritmo acelerado. H uma necessidade crescente de gerao de novas
teorias e ferramentas computacionais para ajudar os seres humanos a extrarem
informaes teis (conhecimento) dos volumes de dados digitais de rpido crescimento.
Essas teorias e ferramentas so os assuntos do campo da descoberta de conhecimento em
bases de dados (KDD - do ingls Knowledge Discovery in Databases) (FAYYAD et al.,
1996).
Muitos pesquisadores tratam de minerao de dados como um sinnimo de
KDD, enquanto outros veem a minerao de dados como um passo essencial no processo
de descoberta de conhecimento (HAN et al., 2011). Nesta pesquisa, estamos enquadrados
no grupo que percebe a minerao como uma etapa do KDD. Nas sees seguintes, so
aprofundados os conceitos e mtodos do KDD e da minerao de dados.

3.1. Knowledge Discovery in Databases (KDD)


A minerao de dados uma parte integral da descoberta de conhecimento
em banco de dados (KDD do ingls Knowledge Discovery in Databases), que o
processo de converso de dados brutos em informaes teis. Esse processo consiste de
uma srie de passos para transformao, do pr-processamento dos dados at o ps-

61
processamento dos resultados da minerao. A Figura 6 mostra, de maneira simplificada,
o processo (TAN et al., 2009).
Figura 6 - Processo de descoberta de conhecimento em banco de dados.
Entrada
de dados

Pr-processamento
de dados

Minerao
de dados

Seleo de recursos
Reduo de dimensionalidade
Normalizao
Criao de subconjuntos

PsProcessamento

Informaes

Padres de filtragem
Visualizao
Interpretao de padres

Fonte: (TAN, STEINBACH E KUMAR, 2009).

Para Han et al. (2011) e Maimon e Rokach (2010), o KDD uma anlise
exploratria, automtica e a modelagem de grandes repositrios de dados. o processo
organizado de identificao de padres vlidos, novos, teis e compreensveis em
conjuntos de dados grandes e complexos.
Alguns autores consideram a minerao de dados com o prprio KDD ou
como seu sinnimo como o caso de Han et al. (2011) e Wang (2005), embora a maioria
considere a minerao como sendo parte do processo de KDD. Fayyad et al. (1996), em
seu texto clssico sobre o tema, estabeleceram bem os limites e diferenas de cada rea.
Para eles, o KDD refere-se a todo o processo de descoberta de conhecimento til em
dados e a minerao refere-se a uma determinada etapa nesse processo. A minerao de
dados a aplicao de algoritmos especficos para extrair padres de dados.

3.1.1. Etapas
O processo de descoberta de conhecimento (Figura 7) iterativo e interativo,
sendo composto por nove etapas. Observa-se que o processo iterativo acontece em cada
etapa, o que significa pode haver retorno a etapas anteriores para ajustes necessrios. O
processo tem muitos aspectos "artsticos", no sentido de que no se pode apresentar uma
frmula ou fazer uma taxonomia completa para as escolhas certas para cada tipo de passo
e aplicao. Assim, necessrio compreender, profundamente, o processo e as diferentes
necessidades e possibilidades em cada etapa (MAIMON e ROKACH, 2010).

62
Figura 7 - Processo de KDD.

Fonte: (FAYYAD et al., 1996).

A etapa inicial do processo uma compreenso do domnio da aplicao e do


conhecimento prvio relevante e identifica o objetivo do processo de KDD a ser
desenvolvido. Os envolvidos em um projeto KDD precisam entender e definir as metas
do usurio final e do ambiente na qual o processo de descoberta de conhecimento ter
lugar (incluindo o conhecimento prvio relevante). Com o avano processo, pode haver
ainda uma reviso e refinamento deste passo (FAYYAD et al., 1996; MAIMON e
ROKACH, 2010).
Uma segunda etapa a criao de um conjunto de dados de interesse ou de
destino: selecionar um conjunto de dados, ou, simplesmente, um subconjunto de variveis
ou amostras de dados, na qual a descoberta ser executada. Isso inclui descobrir dados
que esto disponveis, a obteno de dados adicionais necessrios e depois integrar todos
os dados para a descoberta de conhecimento, incluindo os atributos que sero
considerados para o processo. Essa a base de evidncias para a construo dos modelos.
Se alguns atributos importantes esto faltando, ento todo o estudo pode falhar.
A terceira etapa baseada na limpeza e no pr-processamento dos dados para
recolher as informaes necessrias para o modelo. Na limpeza, feita a remoo de
rudos e outliers nos dados. Valores em falta ou incompletos tambm so manipulados
com o objetivo de reforar a confiabilidade dos dados.
Na quarta etapa, acontece a transformao dos dados, na qual so gerados os
melhores dados para a minerao, dependendo do objetivo da tarefa. Mtodos como
reduo de dimensionalidade ou a transformao de atributos (como a discretizao de
atributos numricos) podem ser usados nessa etapa.

63
A quinta etapa realizada com a combinao dos objetivos do processo de
KDD (etapa 1) para uma determinada tarefa ou mtodo de minerao de dados. Isso
feito tambm sobre os resultados das etapas anteriores, na qual, por exemplo, foi definido
se o modelo de minerao a ser usado ser preditivo ou descritivo.
J na sexta etapa, realizada a anlise exploratria, a escolha do modelo e a
seleo de hipteses: a escolha do(s) algoritmo(s) e mtodo(s) da minerao para a busca
de padres de dados. Este processo inclui decidir quais os modelos e parmetros que
podem ser apropriados (por exemplo, modelos de dados categricos so diferentes do que
os modelos de vetores sobre os reais) e combinando um mtodo de minerao de dados
com os critrios gerais do processo de KDD (por exemplo, o usurio final pode ser mais
interessado em compreender o modelo do que a sua capacidade preditiva).
Na stima etapa, acontece a minerao de dados, em busca de padres de
interesse em uma forma representacional particular ou um conjunto de tais
representaes, incluindo as regras de classificao ou rvores de deciso, regresso,
agrupamento, entre outros Neste passo, poder ser necessrio utilizar o algoritmo vrias
vezes at que um resultado satisfatrio seja obtido.
A oitava etapa de avaliao e interpretao dos padres extrados, podendo
haver retorno a qualquer um dos passos anteriores para outra iterao. Esse passo tambm
pode envolver a visualizao dos padres e modelos ou a visualizao dos dados
fornecidos pelos modelos extrados. Nesse passo, o conhecimento descoberto tambm
ser documentado para posterior utilizao.
A ltima etapa visa incorporar o conhecimento descoberto em outro sistema
para aes futuras ou, simplesmente, document-lo e relat-lo s partes interessadas. Essa
etapa inclui tambm a verificao e resoluo de potenciais conflitos com o conhecimento
extrado. Na verdade, o sucesso dessa etapa determina a eficcia global do processo de
KDD. Um dos desafios dessa etapa perder as "condies de laboratrio" e passar a ser
efetivamente prtico e abrangente (FAYYAD et al., 1996; MAIMON e ROKACH, 2010).
No estudo de Fayyad et al. (1996), os autores tambm descreveram vrias
reas que utilizam tcnicas de KDD para produzir automaticamente informaes teis a
partir de grandes massas de dados brutos. Desde ento, o KDD tem se tornado um
proeminente campo terico e prtico para busca de informaes relevantes que auxiliem
efetivamente nas tomadas de decises em diversas reas profissionais.

64

3.2. Minerao de Dados


A evoluo das fontes de gerao e dispositivos de coleta e armazenamento
de dados tm permitido que as organizaes acumulem vasta quantidade de dados. A
extrao de informao til desses dados tem provado ser extremamente desafiadora.
Geralmente, as ferramentas e tcnicas tradicionais de anlises de dados no podem ser
utilizadas em razo do tamanho do conjunto de dados ser muito grande. A natureza no
trivial dos dados tambm impede o uso de abordagens tradicionais mesmo se a base de
dados for relativamente pequena. Em outras situaes, questes que precisam ser
respondidas no podem ser abordadas, usando-se somente as tcnicas existentes para
anlise dos dados e, assim, faz-se necessrio o desenvolvimento de novos mtodos (TAN
et al., 2009).
As principais definies de minerao de dados sempre a associam a uma
busca de informao relevante em grandes quantidades de dados. Tan et al. (2009)
definem a minerao de dados como o processo de descoberta automtica de informaes
teis em grandes depsitos de dados. Para Ham et al. (2011), a minerao de dados o
processo de descobrir padres interessantes em enormes quantidades de dados.
A minerao de dados pode ser realizada em qualquer tipo de dados, desde
que os dados sejam significativos para um aplicativo de destino, tais como bancos de
dados, dados de data warehouses, dados transacionais e outros tipos avanados.
Como um domnio altamente orientado para aplicaes, a minerao de dados
incorporou muitas tcnicas de outros domnios, como estatstica, aprendizagem de
mquina, reconhecimento de padres, sistemas de banco de dados, recuperao de
informao, visualizao, algoritmos, computao de alto desempenho e muitos domnios
de aplicao (MAIMON e ROKACH, 2010). A natureza interdisciplinar de pesquisa e
desenvolvimento de minerao de dados contribui significativamente para o sucesso de
minerao de dados e suas amplas aplicaes (HAN et al., 2011).
Outro ponto forte tem sido sua nfase na colaborao com pesquisadores de
outras reas. O desafio de analisar novos tipos de dados no pode ser executado somente
aplicando-se tcnicas de anlise de dados sem a participao daqueles que entendem os
dados e o domnio no qual eles esto inseridos. Muitas vezes, a habilidade na construo
de equipes multidisciplinares tem sido responsvel pelo sucesso de projetos de minerao

65
de dados, como a criao de algoritmos novos e inovadores (TAN et al., 2009). A Figura
8 ilustra a multidisciplinaridade da minerao de dados.
Figura 8 - Multidisciplinaridade da Minerao de Dados.

Fonte: (HAN et al., 2011).

Pesquisadores tm sido estimulados a desenvolver novas tcnicas de


minerao de dados. Isso envolve a investigao de novos tipos de conhecimento,
minerao no espao multidimensional, integrao de mtodos de outras disciplinas e a
considerao das relaes semnticas entre objetos de dados. Alm disso, as
metodologias de minerao devem considerar questes como a incerteza de dados, o rudo
e incompletude (HAN et al., 2011).

3.2.1. Aprendizagem de Mquina


A aprendizagem de mquina (ML, do ingls Machine learning) investiga
como computadores podem aprender (ou melhorar o seu desempenho) com base nos
dados analisados. A principal rea de pesquisa desenvolver programas de computador
para aprenderem automaticamente a reconhecer padres complexos e tomar decises
inteligentes baseadas nos dados. Por exemplo, um problema de aprendizado de mquina
tpica programar um computador para que ele possa reconhecer automaticamente cdigos
postais manuscritos no correio aps a aprendizagem de um conjunto de exemplos (HAN
et al., 2011).
Para Lantz (2013), a aprendizagem de mquina o campo de estudo
interessado no desenvolvimento de algoritmos de computador para transformar dados em
ao inteligente. Esse campo originado em um ambiente na qual os dados esto
disponveis e os mtodos estatsticos e poder de computao evoluram rpida e

66
simultaneamente. O crescimento de dados exigiu poder de computao adicional, que,
por sua vez, impulsionou o desenvolvimento de mtodos estatsticos para a anlise de
grandes conjuntos de dados. Isso criou um ciclo evolutivo, permitindo que os dados, ainda
maiores e mais interessantes, possam ser coletados e analisados.
As tarefas de aprendizagem podem ser classificadas em aprendizado
supervisionado, no supervisionado, semissupervisionado e aprendizado ativo (HAN et
al., 2011):
Aprendizado supervisionado
a tarefa de aprendizagem de mquina para inferir uma funo a partir de
dados de treinamento (conjunto de exemplos, observaes, medidas, entre outros)
previamente rotulados. Na aprendizagem supervisionada, cada exemplo um par
constitudo por um objeto de entrada (normalmente um vetor) e um valor de sada
desejada (tambm chamado de sinal de superviso). Um algoritmo de aprendizagem
supervisionada analisa os dados de treinamento e produz uma funo inferida, a qual pode
ser usada para mapear novos exemplos. Em um cenrio ideal, a tarefa ir permitir ao
algoritmo determinar corretamente os rtulos de classe para instncias invisveis ou para
as seguintes (MOHRI et al., 2012). O aprendizado supervisionado est associado aos
modelos preditivos, e as suas tarefas mais comuns so a classificao (que tambm pode
ser no-supervisionada) e a regresso (WITTEN et al., 2011).
Aprendizado no supervisionado
Nas tarefas no supervisionadas, os dados no precisam de uma prcategorizao ou rtulos. O problema de aprendizado no supervisionado o de tentar
encontrar a estrutura oculta em dados sem rtulo. Uma vez que os exemplos fornecidos
so sem rtulos, no h nenhum sinal de erro ou recompensa para avaliar uma soluo
em potencial (MOHRI et al., 2012). O aprendizado no supervisionado est associado
aos modelos descritivos de minerao de dados, e sua tarefa mais comum a clusterizao
(agrupamento) (HAN et al., 2011).
Aprendizado semissupervisionado
uma classe de tcnicas de aprendizado de mquina que fazem uso de ambos
os exemplos (rotulados e no rotulados) para aprender um modelo. Numa abordagem, os
exemplos rotulados so usados para aprender os modelos da classe, e exemplos no
rotulados so usados para refinar as fronteiras entre as classes (HAN et al., 2011).

67
Aprendizado ativo
uma abordagem de aprendizado de mquina, que permite aos usurios
desempenhar um papel ativo no processo de aprendizagem. Uma abordagem de
aprendizagem ativa pode solicitar a um usurio (por exemplo, um especialista de
domnio) para rotular um exemplo, que pode ser a partir de um conjunto de exemplos no
rotulados ou sintetizados pelo programa de aprendizagem. O objetivo otimizar a
qualidade do modelo por meio da aquisio de conhecimento ativo dos usurios humanos,
dada a restrio de quantos exemplos que podem ser solicitados os rtulos (HAN et al.,
2011).

3.2.2. Modelos de Minerao de Dados


Basicamente, existem dois tipos de modelos de minerao de dados:
descritivos e preditivos. Os modelos descritivos, geralmente, aplicam funes de
aprendizagem no supervisionada para produzir padres que explicam ou generalizam a
estrutura intrnseca, as relaes e inter-relao dos dados extrados (PENG et al., 2008).
Nos modelos descritivos, o objetivo derivar padres (correlaes,
tendncias, grupos, entre outros) que resumam os relacionamentos entre os dados. As
tarefas descritivas so, muitas vezes, exploratrias em sua natureza e, frequentemente,
requerem tcnicas de ps-processamento para validar e explicar os resultados (TAN et
al., 2009).
Os modelos preditivos frequentemente aplicam funes de aprendizado
supervisionado para estimar valores desconhecidos ou futuros de variveis dependentes
em funo das caractersticas das variveis independentes relacionadas (HAND et al.,
2001).
Modelos preditivos tm o objetivo especfico que nos permite predizer os
valores desconhecidos de variveis de interesse a partir de valores conhecidos de outras
variveis. O formato da previso pode ser pensado como um mapeamento de
aprendizagem a partir de um conjunto de entrada como um vetor de medies e uma sada
como um escalar (HAND et al., 2001).

3.2.3. Tarefas de Minerao de Dados


A minerao de dados geralmente classificada de acordo com a sua
capacidade de realizar determinadas tarefas. Normalmente, a implementao de um

68
modelo tambm feita por uma tarefa preditiva ou descritiva. Por exemplo, o
agrupamento (ou clustering) e as regras de associao produzem modelos descritivos,
enquanto a classificao e a regresso geram modelos preditivos (PEA-AYALA,
2014a). As tarefas mais comuns da minerao de dados so descritas a seguir.
Agrupamento (Clustering): a tarefa com o objetivo de agrupar um
conjunto de dados de tal forma que os dados no mesmo grupo (denominado cluster) so
mais semelhantes entre si do que aos de outros grupos (clusters). Essa tarefa difere da
classificao, pois no necessita que os dados sejam previamente categorizados. O
prprio processo de agrupamento pode gerar rtulos nos dados aps os clusters formados
e cada conjunto formado pode ser visto como uma classe de objetos, a partir do qual
podem ser derivadas regras (HAN et al., 2011). Como exemplos da tarefa, na biologia, a
semelhana de dados genticos usada em cluster para inferir estruturas populacionais.
Na educao, a anlise de agrupamento pode ser usada para identificar grupos de escolas
ou alunos com propriedades semelhantes (TAN et al., 2009).
Anlise das regras de associao: usada para descobrir padres que
descrevem caractersticas altamente associadas entre os dados, buscando encontrar
relaes entre variveis. Os padres descobertos so normalmente representados na forma
de regras de implicao ou subconjunto de caractersticas (HAN et al., 2011). Aplicaes
teis da anlise de associao incluem identificar preferncias de consumidores por
determinados produtos comprados juntos, descoberta de genes que possuam
funcionalidade associada, entre outros (TAN et al., 2009).
Deteco de anomalias: a tarefa de identificar observaes cujas
caractersticas sejam significativamente diferentes do resto dos dados (outliers) que
podem ser interessantes ou erros de dados que requerem mais investigao. Aplicaes
de deteco de anomalias incluem deteco de fraudes, intromisses na rede ou padres
incomuns em doenas (TAN et al., 2009).
Classificao: a tarefa de organizar objetos em uma entre diversas
categorias pr-definidas. Nessa tarefa, o modelo analisa o conjunto de dados fornecidos,
na qual cada dado j contm o rtulo, indicando a qual categoria ele pertence, a fim de
"aprender" como classificar novos dados. Por exemplo, um programa de e-mail pode
tentar classificar um e-mail como "legtimo" ou como "spam", usando a classificao
baseada em e-mails anteriormente recebidos e rotulados (HAN et al., 2011).

69
Regresso: uma metodologia estatstica que mais frequentemente usada
para previso numrica, embora outros mtodos existam com essa finalidade (WITTEN
et al., 2011). A regresso tambm engloba a identificao de tendncias de distribuio
com base na informao disponvel. O objetivo tentar encontrar uma funo que modele
os dados com o menor erro possvel. Um exemplo usar um modelo de regresso para
estimar as vendas de um determinado produto em um perodo, a partir de dados de vendas
anteriores (HAN et al., 2011).
A principal diferena entre ambos os modelos preditivos que, enquanto a
classificao prev rtulos categricos (discretos, no ordenados) para os dados, a
regresso estabelece modelos de funes com valores contnuos.
Todas essas tarefas apresentadas podem usar o mesmo banco de dados de
maneiras diferentes e exigem o desenvolvimento de inmeras tcnicas de minerao de
dados. Devido diversidade de aplicaes, novas tarefas de minerao continuam a
emergir, tornando a minerao de dados um campo dinmico e de rpido crescimento.
Por exemplo, para descoberta de conhecimento eficaz em redes de informao, a
integrao de agrupamento e classificao podem levar descoberta de clusters de alta
qualidade (HAN et al., 2011).
Em relao s tarefas mais utilizadas especificamente para minerao de
dados provenientes de aplicaes educacionais, o estudo de Pea-Ayala (2014a), que
analisou 242 trabalhos entre 2010 a 2013, apontou que a classificao foi a tarefa mais
usada nos estudos, com 42,15% dos trabalhos, seguida pelo agrupamento (26,86%),
regresso (15,29%) e regras de associao (6,61%). As demais tarefas juntas atingiram
9,19% dos estudos.

3.2.4. Mtodos, Tcnicas e Algoritmos


Aps a definio da tarefa a ser utilizada na minerao, deve-se, ento,
escolher a tcnica e/ou algoritmos para realizar o processo de minerao. Para cada tarefa,
vrias opes podem ser testadas ou combinadas na busca de resultados mais apropriados
para o problema tratado. Nesta pesquisa, por se tratar de um estudo que visa analisar e
prever os riscos de evaso de alunos na EAD, foi escolhida a tcnica de classificao para
o desenvolvimento dessa anlise preditiva, por ser uma tcnica consagrada na literatura
de aprendizagem de mquina e minerao de dados e que tem apresentado resultados
satisfatrios nos seus modelos preditivos.

70
Na classificao, os algoritmos que implementam esse processo so
chamados de classificadores. O termo "classificador, s vezes, tambm se refere funo
matemtica implementada por meio de um algoritmo de classificao, que mapeia os
dados de entrada para uma categoria.
No processo de classificao, duas etapas principais so realizadas: (a) a
aprendizagem, na qual dados de treinamento so analisados por um algoritmo
classificador, em que so atribudos os rtulos de classe e o modelo aprendido ou
classificador representado sob a forma de regras de classificao; e (b) a classificao,
na qual os dados de teste so usados para estimar a acurcia das regras de classificao.
Se a acurcia for considerada aceitvel, as regras podem ser aplicadas para a classificao
de novos dados (HAN et al., 2011).
Os principais classificadores so agrupados em cinco categorias principais:
rvores de deciso, classificadores baseados em regras, classificadores bayesianos,
classificadores de vizinho mais prximo, redes neurais artificiais e Support Vector
Machine (SVM) (WITTEN et al., 2011).
rvore de deciso: uma estrutura de rvore tipo fluxograma, na qual cada
n interno indica um teste em um atributo, cada ramo representa um resultado do teste e
cada folha (ou n terminal) tem um rtulo de classe. O n do nvel superior, em uma
rvore, o n raiz (WITTEN et al., 2011). Alguns algoritmos de rvore de deciso
produzem apenas rvores binrias (nas quais cada n interno ramifica para exatamente
dois outros ns), enquanto outras podem produzir rvores no binrias (HAN et al., 2011).
Um exemplo de rvore de deciso ilustrado na Figura 9.
Figura 9 Exemplo de rvore de Deciso.

Fonte: (HAN et al., 2011).

71
As rvores de deciso podem manipular dados multidimensionais. Sua
representao dos conhecimentos adquiridos em forma de rvore intuitiva e,
geralmente, fcil de assimilar pelos seres humanos. As etapas de aprendizagem e de
classificao por rvores de deciso so simples e rpidas. Em geral, esses classificadores
tm boa preciso (HAN et al., 2011).
Classificadores baseados em regras: Um classificador baseado em regras
uma tcnica para classificar registros, usando um conjunto de regras do tipo If...Then.
Regras desse tipo so expresses da seguinte forma (TAN et al., 2009):
IF condio THEN concluso
Um exemplo a regra R1:
R1: IF idade=jovem AND estudante=sim THEN compra_computador= sim.

O "IF" (lado esquerdo) de uma regra conhecido como o antecedente ou


condio prvia da regra. O "THEN" (lado direito) o consequente. No antecedente, a
condio consiste em um ou mais testes de atributos (por exemplo, idade = jovem e
estudante = sim). Nesse caso, o consequente da regra contm uma previso da classe
(nesse caso, estamos prevendo se o cliente vai comprar um computador) (HAN et al.,
2011).
Classificadores bayesianos: So tambm chamados de classificadores
probabilsticos. uma tcnica estatstica da probabilidade condicional, baseada no
teorema de Thomas Bayes. Segundo esse teorema, possvel encontrar a probabilidade
de um certo evento ocorrer, dada a probabilidade de um outro evento que j ocorreu,
conforme a frmula a seguir (TAN et al., 2009):

Onde A e B so eventos.

P(A) e P(B) so as probabilidades de A e B ocorrerem, sem levar em


conta um no outro;

P(A|B) a probabilidade condicional, a probabilidade de A dado que


B verdadeira; e

P(B|A) a probabilidade de B dado que A verdadeira.

Estudos comparativos mostraram que os algoritmos Bayesianos, chamados


de Nave Bayes, obtiveram resultados compatveis com os mtodos de rvore de deciso

72
e redes neurais. Esses algoritmos tm apresentado alta acurcia e boa velocidade quando
aplicados a grandes bancos de dados (ZHANG, 2004).
Os classificadores Nave Bayes partem do princpio de que no existe relao
de dependncia entre os atributos. So altamente escalveis, exigindo uma srie de
parmetros lineares no nmero de variveis (caractersticas/preditoras) em um problema
de aprendizagem (WITTEN et al., 2011).
Classificadores de vizinho mais prximo: Este tipo de classificador um
algoritmo simples, que armazena todos os casos disponveis e classifica novos casos com
base em uma medida de similaridade (por exemplo, funes de distncia) aos casos j
armazenados.
O kNN (k Nearest Neighbors) o principal algoritmo desse tipo de
classificador e foi descrito pela primeira vez no incio de 1950. O mtodo pode consumir
muito tempo de processamento, dependendo da quantidade de exemplos do conjunto de
treinamento, e no ganhou popularidade at os anos 1970, quando o aumento do poder de
computao se tornou disponvel. Desde ento, tem sido amplamente utilizado na rea de
reconhecimento de padres (HAN et al., 2011). A Figura 10 ilustra o processo de
classificao, usando o kNN.
Figura 10 Exemplo da classificao do kNN para dois valores de k.

Fonte: (HAN et al., 2011).

A definio do valor de k (nmero de vizinhos prximos) influencia no


processo de classificao de novos dados. No exemplo ilustrado, se k=3, o novo elemento
seria classificado na classe B, pois teria 2 vizinhos mais prximos (maioria) nessa classe.
Para k=6, o elemento seria classificado na classe A, com 4 vizinhos mais prximos.

73
Redes Neurais Artificiais: uma tcnica com a qual se busca simular o
comportamento dos neurnios humanos. De forma genrica, uma rede neural pode ser
vista como um conjunto de unidades de entrada e sada conectadas por camadas
intermedirias e cada ligao possui um peso associado. Durante o processo de
aprendizado, a rede ajusta esses pesos para conseguir classificar corretamente um objeto.
uma tcnica que necessita de um longo perodo de treinamento, ajustes
finos dos parmetros e de difcil interpretao, no sendo possvel identificar de forma
clara a relao entre a entrada e a sada. Em contrapartida, as redes neurais conseguem
trabalhar de forma que no sofram com valores errados e tambm podem identificar
padres para os quais nunca foram treinados (ANDERSON, 1995).
A Figura 11 exibe uma estrutura bsica de rede neural artificial:
Figura 11 Exemplo de Rede Neural Artificial.

Fonte: (HAN et al., 2011).

As redes neurais usam neurnios definidos como blocos de construo para


construir modelos complexos de dados. Embora existam numerosas variantes de redes
neurais artificiais, cada uma pode ser definida em termos pelas seguintes caractersticas
(LANTZ, 2013):

Uma funo de ativao, que transforma o sinal de entrada de uma


rede para um nico sinal de sada a ser transmitido pelo restante da
rede;

Uma topologia de rede (ou arquitetura), que descreve o nmero de


neurnios no modelo, o nmero de camadas e maneira pela qual eles
esto ligados; e

O algoritmo de treinamento que especifica os pesos de cada conexo.

Dois dos algoritmos mais usuais para construo de redes neurais artificiais
direcionadas para o processo de classificao so o Backpropagation (RUMELHART et

74
al., 1988) e o Perceptron (ROSENBLATT, 1958). Ambos possuem variaes e
aplicaes diversas.
SVM (Support Vector Machines): Em uma tarefa de aprendizagem de duas
classes, o objetivo da SVM encontrar a melhor funo de classificao para distinguir
entre membros das duas classes nos dados de treinamento (HAN et al., 2011).
A mtrica para o conceito de "melhor" funo de classificao pode ser
realizada geometricamente, a partir do conceito de hiperplano, que uma generalizao
de um plano em diferentes dimenses. Por exemplo, para uma dimenso, o hiperplano
um simples ponto. Para duas dimenses, o hiperplano representado por uma reta.
No caso mais simples de classificao de duas classes, a SVM encontra um
hiperplano (chamado de superfcie de deciso) que separa as duas classes de dados com
a mais ampla margem possvel. Isso leva a uma boa preciso com generalizao em dados
no conhecidos ainda, assim como d suporte a mtodos de otimizao especializadas
que permitem a SVM para aprender a partir de uma grande quantidade de dados
(SAMMUT e WEBB, 2011).
Na Figura 12, dois hiperplanos (H1 e H2) so definidos e ambos separam
corretamente os exemplos nas duas classes, porm o H2 tem uma margem maior do que
H1 e seria usado como referncia para novas classificaes.
Figura 12 Componentes da SVM.

Vetores de Suporte
Objetos Classe 1

Objetos Classe 2

Fonte: Adaptado de SAMMUT e WEBB (2011).

Para um conjunto de dados linearmente separveis, uma funo de


classificao linear corresponde a uma separao no hiperplano f(x), que passa pelo meio
das duas classes e as separa. Uma vez que essa funo determinada, novos dados xn

75
podem ser classificados, simplesmente testando o sinal da funo f(x); xn pertence classe
positiva se f(xn) > 0.
Como podem existir muitos desses hiperplanos lineares, a SVM garante
adicionalmente que a melhor funo encontrada por meio da otimizao da margem
entre as duas classes (WU et al., 2008).
Regresso Logstica: Embora denominada de regresso, a regresso logstica
tambm um classificador e pode ser usada para modelar um resultado categrico
binrio, diferente da regresso linear, que estabelece uma previso de medida dependente
mtrica (BAKER e INVENTADO, 2014). Tambm pertence categoria de
classificadores probabilsticos, pois o resultado da funo aplicada a cada instncia,
retorna a probabilidade de ela pertencer a uma classe alvo.
A regresso logstica, tambm conhecida como anlise logit, limitada, em
sua forma bsica, previso de dois grupos (classes), embora existam formulaes
alternativas, que permitem lidar com mais de dois grupos (HAIR et al., 2009).
Uma vantagem da regresso logstica no processo de classificao de uma
varivel dependente binria (binomial), que, nela, pode ser usado um conjunto de
variveis independentes numricas ou categricas (KLEINBAUM e KLEIN, 2010).
Os modelos de Regresso Logstica so formulados pela expresso:

Onde

0,1, ... k, so os coeficientes das variveis que explicam a

ocorrncia de um determinado evento e pi o nmero de variveis preditoras.


Esse modelo logit usa a forma especfica de curva logstica (Figura 13), que
em forma de S para ficar no domnio de 0 a 1. Para estimar um modelo de regresso
logstica, essa curva de valores previstos ajustada aos dados reais, analogamente como
feito com uma relao linear em regresso mltipla.
Para cada observao, o modelo prev um valor de probabilidade entre 0 e 1.
Tal probabilidade prevista baseada nos valores das variveis independentes e nos
coeficientes estimados (k). Se a probabilidade prevista maior que 0,50, ento a
previso de que o resultado seja 1 (o evento ocorreu); caso contrrio, o resultado

76
previsto como 0 (o evento no ocorreu). Esse limiar pode ser ajustado de acordo com a
necessidade e o contexto da aplicao da tcnica.

Y
(Probabilidade do evento)

Figura 13 Relao logstica entre variveis dependente e independente.

Nvel da Varivel Independente

Fonte: (HAIR et al., 2009).

Em nveis muito baixos da varivel independente, a probabilidade se


aproxima de 0, mas nunca alcana tal valor. Da mesma forma, quando o valor da varivel
independente aumenta, os valores previstos crescem para acima da curva, mas, em
seguida, a inclinao comea a diminuir, aproximando a probabilidade de 1, sem,
entretanto, exceder esse valor (HAIR et al., 2009).

3.3. Minerao de Dados Educacionais


As salas de aula tradicionais, geralmente, dispem somente de informaes
sobre a frequncia dos alunos, informaes sobre o curso, os objetivos do currculo e
alguns poucos dados individualizados dos alunos. No entanto, a educao baseada na
tecnologia e na web possui muito mais informao disponvel, pois os ambientes
tecnolgicos educacionais podem gravar todas as informaes sobre as aes e interaes
dos alunos em arquivos de log e bancos de dados. A minerao desses dados pode
construir modelos analticos que permitem descobrir padres interessantes e tendncias
em informaes de cada aluno (ROMERO et al., 2008).
O grande volume de dados gerados pelas interaes dos alunos em ambientes
de e-learning pode ser categorizado e analisado de modo a oferecer tanto para os
professores quanto para os gestores dos cursos, informaes relevantes acerca do
comportamento e da participao dos alunos nos cursos on-line. Alm disso, essa anlise
pode propiciar um importante instrumento de avaliao dos alunos nas atividades como

77
fruns de discusso, chats ou mesmo mensagens trocadas dentro do ambiente
(HAMMOUDA e KAMEL, 2007).
A Minerao de Dados Educacionais (EDM do ingls Educational Data
Mining) a aplicao de tcnicas de minerao de dados com dados provenientes de
plataformas ou ambientes de educao on-line (GARCA et al., 2011). Por um lado, o
aumento tanto do software educativo instrumental, bem como de bases de dados de
informao dos estudantes criaram grandes repositrios de dados que refletem como os
alunos aprendem (KOEDINGER et al., 2009). Por outro lado, o e-learning tem gerado
grandes quantidades de dados que, devidamente, explorados e classificados, podem
fornecer importantes informaes sobre os alunos e os cursos.
Assim, possvel compreender de forma mais eficaz e adequada, os alunos,
como eles aprendem, o papel do contexto no qual a aprendizagem ocorre, alm de outros
fatores que influenciam a aprendizagem. Por exemplo, possvel identificar em que
situao um tipo de abordagem instrucional (isto , aprendizagem individual ou
colaborativa) proporciona melhores benefcios educacionais ao aluno. Tambm possvel
verificar se o aluno est desmotivado ou confuso e, assim, personalizar o ambiente e os
mtodos de ensino para oferecer melhores condies de aprendizagem (BAKER et al.,
2011).
O processo de EDM converte os dados brutos de sistemas educacionais em
conhecimento que pode ser usada por desenvolvedores de software educacional,
professores, pesquisadores educacionais, entre outros Esse processo no difere muito de
outras reas de aplicao de minerao de dados porque ele se baseiae nos mesmos passos
do processo de minerao de dados em geral, conforme mostra a Figura 14 (GARCA et
al., 2011):
Figura 14 - Etapas da Minerao de Dados Educacionais.

Fonte: (GARCA et al., 2011).

78
Para que esse ciclo seja eficaz e produza o conhecimento relevante, a qual
possa no somente ser utilizado pelos atores da EAD, mas tambm retroalimentar o
sistema de ensino e ajudar a promover melhoras no processo, as etapas da EDM precisam
acontecer de maneira efetiva e consistente, possibilitando que resultados intermedirios e
finais sejam adequados e esperados. Os componentes e etapas ilustrados na Figura 14 so
descritos a seguir:
Ambiente Educacional: Dependendo do tipo de ambiente educacional (sala
de aula tradicional, ensino baseado em computador ou educao baseada na web) e um
sistema de informao que lhe d suporte (gesto de aprendizagem, tutor inteligente ou
sistema hipermdia adaptativo) diferentes tipos de dados podem ser coletados para
resolver diferentes problemas educacionais (ROMERO, CRISTOBAL et al., 2010).
Todos esses dados podem vir de diferentes fontes, incluindo dados administrativos,
observaes de campo, questionrios, medies recolhidas a partir de experimentos
controlados, notas finais e assim por diante (ROMERO e VENTURA, 2013a).
Os dados gerados pelos alunos e instrutores em ambientes de e-learning
podem fornecer rpidas e importantes compreenses acerca do desempenho, da
motivao e do nvel de participao dos alunos no curso. Essas compreenses podem
sugerir mudanas no curso, intervenes significativas na metodologia ou mesmo um
contato individual com alunos desmotivados ou com baixa interao (ROMERO et al.,
2008).
Pr-processamento. Os dados obtidos com o ambiente educacional tm que
primeiro ser pr-processados para transform-los em um formato apropriado para a
minerao. Algumas das principais tarefas do pr-processamento so: limpeza, seleo
de atributos, transformao e normalizao de atributos, integrao de dados, entre outros
(GARCA et al., 2011). Em contextos educativos, natural que o pr-processamento de
dados uma tarefa muito importante e complicada e, s vezes, esta etapa ocupa mais da
metade do tempo total gasto resolvendo o problema de minerao de dados
(BIENKOWSKI et al., 2012).
Minerao de dados. o passo central que identifica todo o processo. A
maioria das tcnicas de minerao de dados tradicionais, como a classificao,
agrupamento e as tcnicas de anlise de associao j foram aplicadas com sucesso no
domnio da educao. Outras tcnicas de DM tambm tm sido usadas (BAKER, 2010).
No entanto, os sistemas educacionais tm caractersticas especiais que requerem um

79
tratamento diferente do problema de minerao clssico. Por exemplo, os mtodos de
minerao de dados hierrquicos e a modelagem longitudinal de dados tm que ser usados
na EDM. Como consequncia, so necessrias algumas tcnicas especficas de minerao
de dados para lidar com a aprendizagem e outros dados sobre os alunos. No entanto, a
EDM, ainda, uma rea de pesquisa emergente e possvel admitir que o seu futuro
desenvolvimento ir resultar em uma melhor compreenso dos desafios especficos a este
campo e vai ajudar pesquisadores envolvidos na rea a ver que tcnicas podem ser
adotadas e que novas tcnicas customizadas tm de ser desenvolvidas (ROMERO e
VENTURA, 2013a).
Ps-processamento. a etapa final em que os resultados obtidos ou modelo
so interpretados e usados para tomar decises sobre o ambiente educacional. Os modelos
obtidos pelos algoritmos de EDM tm que ser compreensveis e teis para o processo de
tomada de deciso. Por exemplo, os modelos tipo "caixa-branca" como rvores de deciso
so preferveis aos modelos de "caixa-preta", como redes neurais mesmo esses ltimos
sendo mais precisos, mas so menos compreensveis.
As tcnicas de visualizao so tambm muito teis para mostrar os
resultados de uma forma que seja mais fcil de interpretar. Finalmente, os sistemas de
recomendao podem ser a melhor maneira de apresentar os resultados, informaes,
explicaes, recomendaes e comentrios para um usurio leigo em EDM. Assim, em
vez de mostrar o modelo obtido, uma lista de sugestes ou concluses sobre os resultados
e como aplic-los pode ser apresentada aos usurios (ROMERO e VENTURA, 2013a).
O conhecimento extrado deve entrar no ciclo do sistema e orientar, facilitar
e melhorar a aprendizagem como um todo, no apenas transformando dados em
conhecimento, mas tambm filtrando o conhecimento extrado para a tomada de deciso
(ROMERO et al., 2008).
Embora numa considerao inicial em que a EDM parece envolver apenas
dois grupos principais, os alunos e os instrutores, na verdade existem mais grupos
envolvidos com muitos mais objetivos e de acordo com os interesses individuais de cada
um, como pode ser visto no Quadro 1 (ROMERO e VENTURA, 2010):
Quadro 1 - Atores e seus objetivos com a EDM.
Usurios/Atores
Estudantes

Objetivos com o uso da EDM


Personalizao do e-learning; recomendao de atividades com
recursos e tarefas que podem incrementar sua aprendizagem;

80

Professores e tutores

Desenvolvedores de
cursos e pesquisadores
educacionais.

Organizaes
educacionais

Gestores
escolares,
administradores
de
rede e de sistemas

sugesto de boas prticas e experincias interessantes de


aprendizagem; indicao de atalhos ou links a seguir; gerao de
dicas personalizadas para recomendar cursos ou discusses
relevantes e outros.
Obteno de feedback objetivo sobre a instruo; anlise da
aprendizagem e comportamento do estudante, detectando que
estudantes necessitam de suporte; predio de performance do
aluno; classificao de alunos em grupos; busca de padres regulares
e irregulares de alunos; determinao dos principais erros
cometidos; promoo de adaptao e customizao de cursos.
Avaliao e manuteno de material didtico; melhoramento da
aprendizagem do estudante; avaliao do contedo do curso e sua
efetividade no processo de aprendizagem; construo automtica de
modelos de estudantes e de tutores; comparao de tcnicas de
minerao de dados para poder recomendar as mais teis para cada
tarefa; desenvolvimento de ferramentas especficas de minerao
para propsitos educacionais.
Aperfeioamento e agilizao do processo de tomada de deciso em
instituies de ensino; alcance de objetivos especficos; sugesto de
cursos que podem ser mais importantes para cada turma de alunos;
busca de melhores caminhos de custo-benefcio para incremento de
reteno e notas; para selecionar candidatos mais qualificados para
a graduao, entre outros.
Desenvolvimento de melhores caminhos para organizao de
recursos institucionais (humanos e materiais); utilizao de recursos
disponveis mais eficientemente; melhoramento de programas
educacionais e determinao da eficincia na abordagem da
aprendizagem a distncia; avaliao de professores e currculos; para
definir parmetros que melhore a eficincia e adaptao para
usurios nos websites dos cursos (servidores, trfego na rede e
outros).
Fonte: (ROMERO e VENTURA, 2010).

A EDM surge como um paradigma orientado para projetar modelos, tarefas,


mtodos e algoritmos para explorar dados de contextos educativos. Tambm busca
descobrir padres e fazer previses que caracterizam os comportamentos dos alunos e
suas realizaes, o contedo de conhecimento de domnio, avaliaes, funcionalidades e
aplicaes educacionais. A fonte de informao armazenada em repositrios gerados e
gerenciados por modalidades convencionais de ensino, ensino aberto, e na educao a
distncia (PEA-AYALA, 2014a).

3.3.1. Consolidao da rea e evoluo das pesquisas


A EDM tem emergido como uma rea relevante de pesquisas nos ltimos
anos em diversas reas (por exemplo: cincia da computao, educao, psicometria,
estatstica, sistemas tutores inteligentes, e-learning entre outros) por permitir extrair e

81
analisar grandes conjuntos de dados educacionais a fim de resolver as questes de
investigao educacional (BAKER e YACEF, 2009).
Nos ltimos anos, os pesquisadores comearam a investigar vrios mtodos
de minerao de dados para ajudar os instrutores e administradores a melhorar os sistemas
de e-learning (ROMERO e VENTURA, 2006). Romero e Ventura (2013a) apontaram os
principais temas atuais e de interesse da comunidade de pesquisadores em EDM,
brevemente descritos no Quadro 2.
Quadro 2 - reas de interesse de pesquisa em EDM.
Tpicos de Interesse
Frameworks e mtodos
genricos
Minerao em dados
educacionais
Minerao de processos
educativos
Adaptao e
personalizao orientada a
dados
Melhoramento do
software educacional
Avaliao das intervenes
de ensino
Emoo, afeto e escolhas

Integrando minerao de
dados e teorias
pedaggicas
Melhorar o apoio para os
professores
Replicao de estudos
Melhores prticas

Descrio
Para desenvolver ferramentas, frameworks, mtodos, algoritmos,
abordagens, e assim por diante, especificamente orientados para a
investigao de minerao de dados educacionais.
Para minerar dados de avaliao, navegao ou de interao, extrao de
resultados da pesquisa em educao entre outros.
Para extrair conhecimentos relacionados com o processo a partir de logs
de eventos gravados por sistemas educacionais.
Para aplicar mtodos e tcnicas de minerao de dados para melhorar a
adaptao e personalizao em ambientes e sistemas de ensino.
Muitos grandes conjuntos de dados educacionais so gerados por
softwares. Podemos usar as descobertas com EDM para melhorar a
eficcia do software?
Dados da aprendizagem do estudante fornecem um poderoso mecanismo
para determinar quais aes de ensino so bem-sucedidas. Como
podemos melhor utilizar esses dados a partir da EDM?
O nvel de interesse do aluno fundamental. Podemos detectar quando
os estudantes esto entediados e desinteressados? Que outros estados
afetivos ou escolhas de estudantes devemos acompanhar?
A minerao de dados tipicamente envolve a busca de um grande volume
de modelos. Podemos usar o conhecimento educacional e psicolgico
existente para melhor concentrar a pesquisa?
Que tipos de informao sobre a avaliao seria importante para ajudar
aos professores? Que tipos de sugestes instrucionais so viveis para
serem geradas e como seriam recebidas pelos professores?
Para aplicar uma tcnica usada anteriormente para um novo domnio, ou
para reanalisar um conjunto com uma nova tcnica de dados existentes.
Melhores prticas para a adaptao da minerao de dados, recuperao
de informao, sistema de recomendao, minerao de opinio e
respostas a questes tcnicas para o contexto educacional.

Fonte: (ROMERO e VENTURA, 2013a).

Embora a EDM seja uma rea de pesquisa ainda recente, artigos dessa rea
so frequentemente citados pela comunidade de Computao aplicada Educao
(BAKER et al., 2011). Essas pesquisas vm oferecendo contribuies significativas para
a teoria e a prtica da educao (BAKER, 2010).

82
At o ano de 2005, as pesquisas na rea de EDM eram relatadas somente em
conferncias das grandes reas da computao, educao e estatstica ou das subreas
afins. Naquele ano, aconteceu o I Workshop on Educational Data Mining, em Pittsburgh
(EUA), como evento satlite da 20th National Conference on Artificial Intelligence
(AAAI-05). A partir de ento, diversos Workshops de EDM aconteceram dentro de
eventos maiores, at o ano de 2008, quando aconteceu o primeiro evento exclusivo para
EDM: a I International Conference on Educational Data Mining, em Montreal, Canad.
Desde ento, essa conferncia acontece anualmente (ROMERO e VENTURA, 2013).
Da mesma forma que ocorreu com os eventos, nos quais os trabalhos foram
inicialmente publicados em eventos de reas afins, os artigos de pesquisas sobre EDM,
ainda, so muito publicados em peridicos internacionais reconhecidos como: Internet
and Higher Education, Computers and Education, Expert Systems with Applications,
Journal of the Learning Sciences, entre outros (RODRIGUES et al., 2014a).
Para estimular e auxiliar o trabalho de novos pesquisadores na rea e para se
ter uma percepo mais abrangente do nvel de pesquisa mundial em EDM, quatro
surveys fizeram um levantamento e classificao dos trabalhos internacionais na rea,
sendo fonte de referncias importantes para qualquer pesquisa em EDM: (BAKER e
YACEF, 2009; ROMERO e VENTURA, 2010; PEA-AYALA et al., 2009) e (PEAAYALA, 2014a). Aqui no Brasil, o estado da arte da pesquisa em EDM no pas, at
metade de 2014, foi descrito por Rodrigues et al. (2014a). Tambm foi criado, em 2014,
o Workshop de Minerao de Dados Educacionais (WMDE) como evento satlite do
Congresso Brasileiro de Informtica na Educao (CBIE).
Uma anlise desses artigos internacionais de reviso do estado da arte da
EDM indica que o sculo XXI representa o incio dessa rea de pesquisa, pois 98% dos
trabalhos foram publicados a partir do ano 2000. Em consequncia, a EDM ainda est em
fase "adolescente" como rea de pesquisa (PEA-AYALA, 2014a), mas j contemplada
com uma conferncia internacional especfica sobre o tema5, uma revista especializada6,
um handbook impresso (ROMERO, CRISTOBAL et al., 2010), dois livros publicados
(ROMERO e VENTURA, 2006; PEA-AYALA, 2014b) e uma sociedade cientfica7.
Esta sinergia revela o crescente interesse dos pesquisadores em EDM.

http://www.educationaldatamining.org/EDM2016/
http://www.educationaldatamining.org/JEDM/
7
http://www.educationaldatamining.org
6

83

3.3.2. reas de estudo, mtodos e aplicaes


Romero e Ventura (2013) afirmaram que a EDM a combinao de trs
principais reas de conhecimento: Computao, Educao e Estatstica. A interseo
dessas reas fornece trs subreas E-learning, minerao de dados e aprendizagem de
mquina e a Learning Analytcs que esto mais relacionadas com a EDM.
A anlise da literatura de referncia da rea, feita por Pea-Ayala (2014a),
apontou as disciplinas envolvidas na minerao de dados e que tambm esto associadas
EDM: probabilidade e estatstica, aprendizagem de mquina, inteligncia artificial, soft
computing e processamento de linguagem natural, sendo as duas primeiras responsveis
por cerca de 88% dos artigos analisados no estudo divulgado.
Existem muitos mtodos utilizados em EDM, que so originalmente da rea
de minerao de dados. Entretanto, de acordo com Baker (2010), muitas vezes, esses
mtodos precisam ser modificados, por causa da necessidade de considerar a hierarquia
(em diversos nveis) da informao. Alm disso, existe uma falta de independncia
estatstica nos tipos de dados encontrados ao coletar informaes em ambientes
educacionais (BAKER et al., 2011).
Baker (2010) apresentou uma taxonomia das principais subreas de pesquisa
em EDM, mostrada na Figura 15.
Figura 15 - Taxonomia dos Mtodos para EDM.

Fonte: Adaptado de BAKER (2010).

As trs categorias agrupadas esquerda so amplamente reconhecidas como


sendo universais em todos os tipos de minerao de dados (embora, em alguns casos, com
nomes diferentes). As duas categorias mais direita alcanaram destaque particular
dentro da minerao de dados educacionais (BAKER, 2010). Conforme Baker, Isotani e

84
Carvalho, (2011) e Romero e Ventura (2013), esses mtodos e algumas das suas
aplicaes na EDM so descritos de forma resumida a seguir:
Predio: O objetivo desenvolver modelos apropriados que deduzam
aspectos especficos dos dados, conhecidos como variveis preditivas, por meio da
anlise e fuso dos diversos aspectos encontrados nos dados, chamados de variveis
preditoras. Os tipos de mtodos de previses so classificao, regresso e estimativa de
densidade.
A principal diferena entre a classificao e a regresso diz respeito ao tipo
de dado da varivel predita (alvo): na classificao, a varivel alvo binria ou categrica
e, na regresso, a varivel numrica e contnua. Ainda segundo os autores, a estimao
de densidade, quando o valor previsto uma funo de densidade de probabilidade,
raramente utilizada na EDM devido falta de independncia estatstica dos dados. Na
EDM, a predio tem sido usada para prever o desempenho dos alunos e para a deteco
de comportamentos do aluno (ROMERO et al., 2013b); (BAKER et al., 2010).
Agrupamento - O objetivo principal encontrar dados que se agrupam
naturalmente, classificando os dados em diferentes grupos e/ou categorias. Esses grupos
e categorias no so conhecidos inicialmente. Utilizando-se de tcnicas de agrupamento
os grupos/categorias so automaticamente identificados por meio da manipulao das
caractersticas dos dados. Normalmente, algum tipo de medida de distncia usado para
decidir quo semelhantes so as instncias. Uma vez que um conjunto de aglomerados
foi determinado, os novos casos podem ser classificados por meio da determinao do
cluster mais prximo. Em EDM, o agrupamento pode ser usado para formar grupos com
materiais do curso semelhantes ou grupos de alunos com base em seus padres de
aprendizagem e de interao (VELLIDO et al., 2010).
Minerao de relaes - O objetivo dessa minerao identificar relaes
entre variveis e, normalmente, codific-las em regras para uso posterior. Esta tarefa pode
envolver a tentativa de aprender quais variveis so mais fortemente associadas com uma
varivel especfica, previamente conhecida e importante, ou pode envolver as relaes
entre quaisquer variveis presentes nos dados.
Existem diferentes tipos de relacionamento em tcnicas de minerao, tais
como a minerao de regras de associao (qualquer relao entre as variveis),
minerao de padres sequenciais (associaes temporais entre variveis), minerao

85
de correlaes (correlao linear positiva ou negativa entre as variveis), e minerao
de causas (relao de causalidade entre as variveis). Em EDM, a minerao de relaes
tem sido usada para identificar relacionamentos em padres de comportamento dos
alunos e diagnosticar os alunos com dificuldades de aprendizagem ou erros que,
frequentemente, ocorrem juntos (MERCERON e YACEF, 2010).
Destilao de dados para decises humanas - Nessa rea, so realizadas
pesquisas com o objetivo de apresentar dados complexos de maneira sumarizada para
facilitar sua compreenso e expor suas caractersticas mais importantes. Tcnicas de
visualizao e interfaces interativas podem ser usadas para facilitar a anlise dos dados e
tomadas de decises. Por meio da destilao, possvel que os dados sejam utilizados por
pessoas para inferir aspectos sobre esses dados e, assim, tomar decises que,
anteriormente, no poderiam ser tomadas e nem automatizadas apenas com o uso dos
mtodos da EDM. Em EDM, tem sido usada para ajudar os educadores a visualizar e
analisar as atividades dos alunos no curso e informaes de uso dos recursos educacionais
(MAZZA e MILANI, 2004).
Descoberta com modelos - realizada com a utilizao de um modelo
previamente validado de um fenmeno (usando previso, agrupamento ou engenharia de
conhecimento) como um componente em outra anlise, tal como predio ou minerao
de relacionamento (BAKER e YACEF, 2009). um mtodo, particularmente,
proeminente na EDM e d suporte identificao de relaes entre os comportamentos
dos alunos e as suas caractersticas ou variveis contextuais, a anlise de questes de
pesquisa por meio de uma ampla variedade de contextos e a integrao de frameworks
em modelos de aprendizado de mquina (BIENKOWSKI et al., 2012).
Alm desses mtodos, Romero e Ventura (2013) incluram os seguintes:
Anlise de redes sociais (SNA Social Network Analysis) - O objetivo do
SNA compreender e medir as relaes entre as entidades de informao conectadas em
rede. Na EDM, a SNA pode ser usada na minerao para interpretar e analisar a estrutura
e as relaes em tarefas colaborativas e as interaes com as ferramentas de comunicao
(RABBANY et al., 2011).
Deteco de outlier - Nesse mtodo, so descobertos pontos de dados que
so, significativamente, diferentes do que o resto dos dados. Um outlier uma observao
diferente (ou medio) geralmente bem maior ou bem menor do que os outros valores de

86
dados. Em EDM, a deteco de outlier pode ser usado para detectar alunos com
dificuldades de aprendizagem, desvios em aes ou comportamentos do aluno ou do
educador e para a deteco de processos irregulares de aprendizagem (UENO, 2004).
Minerao de processos - O conhecimento extrado a partir de processos
relacionados com registros de eventos gravados por um sistema de informao, para ter
uma representao visual clara de todo o processo. composto de trs subcampos:
verificao de conformidade, modelo de descoberta e de extenso do modelo. Em EDM,
a minerao de processo pode ser usada para refletir o comportamento de alunos em
termos da anlise de seus traos que consiste numa sequncia de curso, nota e registro de
tempo de aes para cada aluno (TRCKA et al., 2010).
Minerao de textos - Nesse mtodo, buscada informao de alta qualidade
a partir de textos. Tarefas de minerao de texto tpicos incluem a categorizao de textos,
agregao de texto, extrao de conceito/entidade, a produo de taxonomias granulares,
anlise de sentimento, sumarizao de documentos e modelagem de relaes entre
entidades. Na EDM, a minerao de texto tem sido usada para analisar o contedo dos
fruns de discusso, chats, pginas da web e outros documentos em geral (TANE et al.,
2004).
Rastreamento de conhecimento: Esse um mtodo popular para estimar o
domnio de habilidades do aluno e que tem sido usado em sistemas eficazes de tutoria
cognitiva. Ele usa um modelo cognitivo que mapeia um item de soluo de problemas
para as habilidades exigidas e os logs de respostas corretas e incorretas de estudantes
como prova dos seus conhecimentos em uma habilidade especial. Esse mtodo rastreia o
conhecimento do aluno ao longo do tempo (CORBETT e ANDERSON, 1994).
Com o uso dos mtodos da EDM (por exemplo: minerao de causas e
correlaes) em conjunto com software educacional, possvel apontar os diferentes
fatores que influenciam o comportamento do aluno e identificar aspectos sutis, muitas
vezes imperceptveis, do design de software que instigam ou incentivam o surgimento de
comportamentos indesejados e inadequados por parte dos alunos (KOEDINGER et al.,
2009). Por meio dessa verificao, a rea da EDM tambm contribui para oferecer
princpios de desenvolvimento que podem ser aplicados para criar software que reduzam
o problema de comportamento e otimizem a aprendizagem do aluno (BAKER et al.,
2011).

87
A aplicao de mtodos da EDM tem viabilizado a expanso do
conhecimento cientfico relacionado aos estados emocionais do aluno em AVA (por
exemplo: motivado, frustrado, confuso, entre outros). Eles tambm tm auxiliado a
identificar a relao entre esses estados emocionais e o comportamento apresentado pelo
aluno, principalmente, quando ocorrem aes inadequadas (tentativas de burlar o sistema)
ao interagir com software educacional (BAKER et al., 2011).
Pesquisas nessa rea tambm proporcionaram modelos automatizados, que
podem ser utilizados durante a interao dos alunos com os programas educacionais para
identificar quando os alunos esto tentando trapacear para conseguir melhores notas sem
terem aprendido o contedo adequadamente (KOEDINGER et al., 2009). Diversos
algoritmos que analisam em tempo real os dados das interaes dos alunos com a interface
do sistema foram desenvolvidos para verificar automaticamente quando comportamentos
inadequados ocorrem. Essa funcionalidade permite que sistemas educacionais
apresentem comportamentos inteligentes, oferecendo suporte e feedback apropriados
para melhorar a qualidade da aprendizagem dos alunos (BAKER et al., 2011).

3.3.3. Abordagens educacionais da EDM


A finalidade com a qual a EDM usada no contexto educacional
comumente chamada de abordagem. Essa abordagem reflete o objetivo de usar alguma
tarefa ou tcnica de minerao na busca de conhecimento relevante nos dados
educacionais (ROMERO, CRISTOBAL et al., 2010). A maioria dos trabalhos na
literatura aponta sempre pelo menos uma abordagem educacional que motivou o
respectivo estudo (PEA-AYALA, 2014a). A seguir, so descritas as principais
abordagens utilizadas, com citaes de obras que as utilizaram e de que forma foi
realizada cada abordagem.
Modelagem do estudante - A modelagem do estudante orientada para
moldar diferentes modelos cognitivos que caracterizam o aluno, como: emoes,
cognio, conhecimento de domnio, estratgias de aprendizagem, realizaes,
caractersticas, preferncias e habilidades de aprendizagem, avaliao e estado afetivo. O
objetivo representar o usurio e adaptar as experincias de ensino para atender s
necessidades especficas de aprendizagem do indivduo (PEA-AYALA, 2014a).
Segundo Romero e Ventura (2010), na modelagem, so consideradas as caractersticas
cognitivas e o comportamento na aprendizagem a fim de automatizar a construo de

88
modelos do estudante. Os modelos preditivos so predominantes nessa abordagem e
diferentes tcnicas e algoritmos de minerao tm sido utilizados para essa tarefa,
principalmente, Redes Bayesianas.
No trabalho de Macfadyen e Dawson (2010), foi afirmado que informaes,
pedagogicamente significativas, podem ser extradas a partir do rastreamento de
estudantes em sistemas de gerenciamento de aprendizagem (LMS - do ingls Learning
Management System). A partir das atividades on-line do aluno, pode ser previsto, com
certa preciso, o seu desempenho acadmico. Os autores propem modelos de regresso
para incorporar as variveis-chave (por exemplo, o nmero total de mensagens de
discusso postadas, o nmero total de mensagens enviadas entre outros) no processo de
previso.
Guruler, Istanbullu e Karahasan (2010) exploraram os fatores que tm
impacto sobre o sucesso de estudantes universitrios. Eles usaram uma ferramenta
especfica (MUSKUP DM) para fins de classificao. Os resultados revelaram que
determinadas informaes demogrficas do estudante e o seu respectivo nvel de renda
familiar estavam associados com o seu sucesso no curso.
Barrett et al. (2011) aplicaram uma metodologia baseada em KDD para
individualizar a educao que contemplou: orientao para cada estudante, agrupamento
temporrio de estudantes para o ensino orientado e uma combinao de dados de vrios
testes com fatores demogrficos e outros para separar os efeitos de mudanas de ensino e
do currculo dos fatores incontrolveis que afetam o aprendizado do aluno.
Goguadze et al. (2011) propuseram e avaliaram um modelo de estudante
baseado em rede bayesiana, no domnio do uso de casas decimais por crianas em idade
escolar. A preciso do modelo do estudante foi avaliada a partir de trs perspectivas
diferentes: sua capacidade de prever o resultado da resposta de um aluno, a exatido da
resposta e a presena de um equvoco particular. Os resultados mostram que as previses
do modelo alcanaram um elevado nvel de preciso, especialmente, em prever a presena
de equvocos de estudante no uso de decimais.
Baker et al. (2012) ajustaram modelos para detectar concentrao,
engajamento, confuso, frustrao e tdio dos alunos exclusivamente a partir de suas
interaes em um Tutor Cognitivo para lgebra (KOEDINGER e CORBETT, 2006). Os

89
detectores do modelo operaram exclusivamente nas informaes disponveis por meio de
aes semnticas dos alunos dentro da interface.
Holzhter et al. (2013) buscaram a soluo de duas questes: Como os
processos de aprendizagem podem ser otimizados utilizando modelos de processo e
controle baseado em regras? Como modelos de processos podem ser gerados com base
no conceito de estilo de aprendizagem? Assim, eles propuseram um mtodo de
modelagem de aluno por meio da combinao de minerao de processos e a abordagem
de estilo de aprendizagem como um mtodo de modelagem de aluno.
Modelagem de comportamento dos alunos - A caracterizao do
comportamento dos alunos um dos alvos preferenciais da EDM (Pea-Ayala, 2014).
Diversos traos de comportamento fazem parte dessa modelagem, tais como:
participando em jogos de azar, adivinhando, perguntando, pedindo ajuda, vontade de
colaborar, sries temporais de acesso e resposta, e muitos mais alvos. O objetivo
descrever ou prever determinados comportamentos padro, a fim de adaptar o sistema s
tendncias dos usurios.
O comportamento raro/pouco frequente dos alunos ao usar um LMS foi
explorado por Romero, Cristbal et al. (2010). A partir da, eles implementaram vrios
algoritmos a priori para descobrir regras de associao raras nos dados que refletiam esses
comportamentos. Tambm foi avaliada a relao e a influncia entre as atividades on-line
e os resultados finais obtidos pelos alunos.
Um framework de modelagem de usurio baseado nos logs de interao para
identificar os tipos de alunos, bem como o seu comportamento caracterstico de interao
e como os comportamentos se relacionam com a aprendizagem foi apresentado por
Kardan e Conati (2010).
Kck e Paramythis (2011) representaram as sequncias de atividade dos
alunos ao resolverem problemas, para detectar estilos predefinidos de resoluo de
problemas. Eles analisaram o comportamento do aluno ao longo de dimenses de
aprendizagem conhecidas para descobrir semiautomaticamente dimenses e padres de
aprendizagem para resolver problemas concretos.
Anaya e Boticario (2011) construram mtodo de modelagem da
aprendizagem colaborativa independente do domnio, baseada em minerao de dados,

90
que ajuda a esclarecer quais as questes de modelagem do usurio precisam ser
consideradas.
Antonenko et al. (2012) mineraram o fluxo de cliques em um servidor de logs
que refletia uso dos alunos de ambientes de aprendizagem on-line. Eles aplicaram a
anlise de cluster para analisar caractersticas do comportamento de aprendizagem,
enquanto os alunos se envolviam em uma atividade de resoluo de problemas.
No seu estudo, McCuaig e Baldwin (2012) afirmaram que os dados dos logs
das interaes dos alunos em LMS podem ser extrados para prever o sucesso ou o
fracasso dos mesmos, sem exigir que os resultados de avaliaes formais. O trabalho fez
parte de um esforo maior para melhorar os LMS existentes, dotando-os da capacidade
de reagir de forma inteligente para diferentes comportamentos do aluno. Por exemplo,
um LMS que poderia usar seus prprios arquivos de log para identificar os alunos com
dificuldades em um curso seria extremamente valioso para os instrutores. Os modelos
apresentados no trabalho baseiam-se no comportamento do aluno ao invs de avaliaes
de conhecimento de domnio, tornando, assim, o instrumento reutilizvel para outros
LMS e outros domnios.
Deteco de comportamentos indesejveis do estudante - O objetivo
detectar certos comportamentos indesejveis do estudante e descobrir ou detectar aqueles
alunos que tm algum tipo de problema ou comportamento incomum, tais como: aes
errneas, baixa motivao, uso indevido, trapaceando, abandono do curso, insucesso
acadmico, entre outros Vrias tcnicas de minerao (principalmente a classificao e o
agrupamento) tm sido utilizadas para revelar esses tipos de alunos, a fim de lhes
proporcionar ajuda adequada em tempo hbil (ROMERO e VENTURA, 2010).
Hernndez et al. (2006) apresentaram um modelo para identificao de alunos
que cometem fraude em avaliaes on-line, alm de identificar padres para detectar e
evitar essa prtica. Esse modelo, chamado de DMDC (Data Mining to Detect Cheats), foi
baseado em variveis comportamentais e demogrficas do aluno. Ele foi desenvolvido a
partir da aplicao de tcnica de agrupamento baseada em Rede de Kohonen
(KOHONEN, 1998).
Cocea e Weibelzahl (2007) utilizaram vrias tcnicas de classificao e
regresso para predio de nvel de engajamento do aluno em e-learning, analisando os
tempos gastos pelos alunos de forma ineficaz no ambiente. Ao rastrear o afastamento do

91
aluno, tem-se a possibilidade de intervir para motiv-lo no momento oportuno. Um
sistema web foi apresentado e comparado com anteriores, mostrando similaridade nos
resultados e a abordagem independente do sistema em uso, sendo baseado em dados
bsicos como nmero de pginas lidas, tempo gasto com leitura de pginas, nmero e
tempo gasto em testes/questionrios.
Uma abordagem para deteco de possveis sintomas de baixo desempenho
de alunos e-learning foi proposta por Agapito et al.(2009). O mtodo contm duas etapas
principais: gerao das regras de produo do algoritmo C4.5 e filtragem das regras mais
representativas, o que poderia indicar baixo desempenho dos alunos. Alm disso, a
abordagem foi avaliada com os arquivos de log de atividades do estudante com duas
verses de um sistema de questionrio baseado na Web. Algumas regras apontaram que
os alunos tinham dificuldades com atividades do curso. Essa informao pode ser
relevante para o instrutor ou designer do curso, porque eles podem melhorar o curso
adicionando novas atividades ou modificando as atividades existentes ou mesmo atuando
na estrutura do curso.
O trabalho de Lykourentzou et. al (2009) apresentou um mtodo de previso
de abandono dos cursos em e-learning baseado em trs tcnicas de aprendizado de
mquina mais comuns e nos dados detalhados de estudantes. As tcnicas de aprendizado
de mquina utilizadas foram redes neurais feedforward, mquinas de vetor de suporte
(SVM) e um conjunto probabilstico simplificado fuzzy ARTMAP. Como uma nica
tcnica pode falhar na classificao com preciso de alguns alunos de e-learning,
enquanto outra pode ter sucesso, trs esquemas de deciso, que combinaram de diferentes
maneiras os resultados das trs tcnicas de aprendizado de mquina, tambm foram
testados. As estimativas produzidas por cada tcnica de aprendizado de mquina, bem
como os produzidos por cada esquema deciso foram comparados em termos de preciso
global, sensibilidade e preciso. Os resultados experimentais indicaram que a combinao
dos resultados das trs tcnicas levou a uma identificao mais precisa e rpida de alunos
evadidos.
Manhes et al. (2011) avaliaram o uso da EDM para previso de estudantes
com risco de evaso em uma universidade, por meio de trs experimentos nos quais foram
aplicados dez algoritmos de classificao sobre uma base de dados dos alunos de
graduao num curso de Engenharia Civil. Os resultados mostraram que, utilizando as

92
primeiras notas semestrais dos calouros, possvel identificar com acurcia mdia
variando entre 75 a 80%, a situao final do aluno no curso.
Modelagem e previso de desempenho do estudante - A modelagem
orientada para representar e antecipar o desempenho do estudante um dos alvos
favoritos de abordagens de EDM. Vrios indicadores de desempenho so possveis de
serem modelados, tais como: eficincia, avaliao, realizao, competncia, utilizao de
recursos, tempo decorrido, exatido, deficincias, entre outros O objetivo estimar o
quanto bom o aluno ou ser capaz de realizar uma determinada tarefa, chegar a uma
meta de aprendizagem especfica ou dar resposta adequada a uma situao de
aprendizagem particular (PEA-AYALA, 2014a).
Baker et al. (2010), construram um modelo de regresso linear com
validao cruzada para prever o desempenho de um aluno em um Sistema Tutor
Inteligente (STI), por meio de testes de preparao para futura aprendizagem (PFL)
(BRANSFORD e SCHWARTZ, 1999). Os resultados apontaram um desempenho do
modelo proposto superior a modelos tradicionais como o Rastreamento Bayesiano de
Conhecimento (BKT) (CORBETT e ANDERSON, 1994). Outra caracterstica positiva
que o detector s precisa de quantidades limitadas de dados (os primeiros 20% dos dados
de um aluno de uma lio do tutor) para alcanar uma parte substancial do seu poder
preditivo, sugerindo que o detector de PFL pode ser usado para conduzir a interveno
precoce suficiente para influenciar a aprendizagem geral do aluno.
Dez algoritmos de classificao com validao cruzada para estimar
desempenho final e antecipar o insucesso escolar de estudantes foram usados por
Marquez-Vera et al. (2010). Assim, eles desenvolveram duas abordagens para resolver o
problema de classificar dados desbalanceados mediante o reequilbrio de dados e a
utilizao a classificao de custo sensvel (ELKAN, 2001) com ambas as abordagens
apresentando resultados satisfatrios.
Crespo e Antunes (2012) recomendaram a quantificao do desempenho dos
alunos no trabalho em equipe, fazendo uso das tcnicas eficazes para anlise de redes
sociais. O trabalho em equipe foi representado como uma rede, na qual os alunos
interagiam uns com os outros, conseguindo alguns resultados (representando seus graus).
Foi feita a explorao de uma arquitetura de rede e do fornecimento de uma estratgia
para quantificar a contribuio global de cada aluno por meio de adaptaes do algoritmo
PageRank (BRIN e PAGE, 2012).

93
Santos et al. (2012) relataram um estudo de caso sobre a aplicao de tcnicas
de minerao de dados (agrupamento e classificao) que permitem, em estgios
anteriores s avaliaes somativas, identificar alunos que tm maior risco de reprovao.
Os dados que sustentam a abordagem proposta so oriundos de avaliaes formativas
aplicadas no decorrer da disciplina por meio do Moodle. Os resultados mostraram que os
modelos criados permitem a identificao da propenso reprovao com taxa de acerto
em torno de 69%.
Gottardo et al.(2013) aplicaram tcnicas de balanceamento de classes para
melhorar os resultados de estimativas de desempenho futuro de estudantes, considerando
cenrios nos quais a quantidade de instncias das classes desbalanceado. Foi utilizada
uma tcnica conhecida como SMOTE (Synthetic Minority Over-sampling Technique)
(CHAWLA et al., 2002), uma tcnica que pode ser utilizada para ajustar a frequncia
relativa entre classes majoritrias e minoritrias nos dados. Os resultados obtidos apontam
para a viabilidade da aplicao de tcnica para identificar grupos de estudantes com maior
risco de reprovao.
Avaliao do aluno - O objetivo dessa abordagem possibilitar a
diferenciao da proficincia dos alunos em um nvel mais detalhado (por exemplo, por
questes ou temticas avaliadas) por meio de testes estticos e dinmicos, assim como
analisar as avaliaes on-line e offline que o aluno pode realizar (PEA-AYALA, 2014a).
Um estudo de caso apoiado por EDM, a partir de dados coletados em uma
avaliao on-line de estudantes, foi apresentado por Pechenizkiy et al. (2008). Durante a
avaliao, os alunos receberam, imediatamente, um feedback personalizado aps
responder cada pergunta do teste. O prprio estudo de caso mostrou tambm que, mesmo
com um conjunto de dados de tamanho modesto e problemas bem definidos, ainda um
pouco difcil de obter resultados significativos com tcnicas tradicionais de data mining,
tais como agrupamento, classificao e anlise de associao.
Rajibussalim (2010) avaliou a eficcia da EDM para a extrao de
conhecimentos sobre o impacto da reflexo sobre a aprendizagem, a partir de um sistema
de suporte reflexo, que adquire conhecimento sobre o comportamento e a
aprendizagem dos alunos e identifica padres de comportamento que levam a resultados
positivos ou negativos. Anlises estatsticas, agrupamento e classificao foram usadas e
os resultados da abordagem apontam na identificao de comportamentos que levam ao

94
incremento do desempenho do estudante no curso, dentre os quais a sua reflexo sobre
suas atividades e sua nota em teste de aprendizagem.
O trabalho de Lopez et al. (2012) projetou uma classificao a partir do uso
de agrupamento para prever as notas finais de estudantes universitrios iniciantes. O
artigo analisou se a participao dos alunos no frum do curso pode ser um bom preditor
de nota final e se a classificao proposta por meio de agrupamento pode obter a nota
com exatido similar aos algoritmos de classificao tradicionais. Diversos algoritmos de
clusters, usando a abordagem proposta, foram comparados com algoritmos de
classificao tradicionais para prever se os alunos passam ou reprovam no curso, com
base nos seus dados de uso do frum no ambiente Moodle. Os resultados mostraram que
o Algoritmo de Maximizao de Expectativas (EM) produz resultados semelhantes aos
demais algoritmos de classificao, especialmente quando se utiliza apenas um grupo de
atributos selecionados.
Gottardo et al.(2012) utilizaram algoritmos de classificao para identificar
quais parmetros de uma base de dados de interaes de estudantes em um ambiente
virtual possibilitariam uma inferncia sobre o desempenho final dos alunos. Os resultados
iniciais obtidos na pesquisa apontaram resultados satisfatrios, com acurcia dos
algoritmos na ordem de 76%, com um conjunto amplo de atributos que representem de
forma abrangente e generalizvel um estudante, considerando a diversidade de cursos
EAD existentes.
Apoio ao estudante e feedback - Durante a interao entre o aluno e o
ambiente virtual, o apoio ao estudante dado pelo sistema educacional relevante para
melhorar o desempenho e as realizaes dos alunos, ou para prevenir/corrigir seus
equvocos e falhas. Alm disso, a maioria dos sistemas educacionais deve oferecer
funcionalidades para monitorar o feedback dos alunos com o objetivo de expressar
sugestes, reclamaes, solicitaes e avaliaes (PEA-AYALA, 2014a).
O artigo de Merceron e Yacef (2005) apresenta vrios usos e abordagens da
EDM em um estudo de caso. Um dos objetivos do estudo foi identificar comportamento
particular entre estudantes que no realizavam, adequadamente, as tarefas em um tutor
on-line de lgica. A explorao de dados focada no nmero de tentativas de exerccios
combinada com a classificao, ajudou a identificar os alunos em risco que no haviam
treinado o suficiente no assunto. Os autores concluram que a EDM possui um grande

95
potencial para a educao, pois pode guiar a implementao de polticas pedaggicas mais
adequadas para cada turma ou curso.
Anjewierden et al. (2007) propuseram uma ferramenta para anlise de batepapo automatizado com feedback adaptativo para os alunos em tempo real, aplicando
abordagens de minerao de dados para o problema de classificar as mensagens. Os
resultados indicaram que a classificao de mensagens razoavelmente confivel e,
portanto, pode ser feita automaticamente e em tempo real. Isso possibilita, por exemplo,
aumentar a conscientizao dos alunos por meio da visualizao de seu comportamento
de interao por meio de avatares, resultando na melhoria dos ambientes de
aprendizagem.
Dominguez et al.(2010) apresentaram uma proposta de ferramenta para gerar
dicas aos estudantes que esto concluindo exerccios de programao. Essas dicas podem
ser links para tpicos, as quais so relevantes para o problema detectado e podem incluir
dicas preventivas para evitar futuros erros. A partir de dados de anos anteriores, foram
usadas as tarefas de agrupamento e classificao, alm de anlise numrica para gerao
das dicas. O sistema analisa grupos de padres que afetam o desempenho dos alunos
durante a sua interao com o sistema e os clusters formam a base para fornecer dicas
para os alunos em tempo real.
Hsieh e Wang (2010) propuseram um sistema para apoiar os alunos quando
eles examinam e tentam escolher material de aprendizagem coletado a partir da Internet.
O sistema de apoio baseado em duas abordagens principais: construo do caminho de
aprendizagem e a recomendao de objetos de aprendizagem. O sistema define um
conjunto de disciplinas candidatas do curso com base no algoritmo de classificao a
priori. Em seguida, na definio do caminho de aprendizagem, usa o conceito de anlise
formal para construir uma estrutura, usando palavras-chave extradas dos documentos
coletados para formar uma relao de hierarquia entre todos os conceitos representados
pelas palavras-chave.
As experincias mostram que as abordagens propostas alcanaram uma
preciso superior a 50% em encontrar cursos candidatos e, pelo menos, uma adequao
66,7% em construir os caminhos de aprendizagem. Mais de 77% dos alunos concordaram
que o caminho de aprendizagem foi apropriado e que o sistema proposto os ajudou a
aprender a linguagem de programao Java. Alm disso, 90% dos alunos concordaram
que os materiais didticos recomendados tambm ajudaram na aprendizagem.

96
O estudo de Jin et al. (2011) descreveu uma nova tcnica para representar,
classificar e utilizar programas de computador escritos por iniciantes como base para a
gerao de sugesto automtica para tutores de programao. Foram usadas tcnicas de
EDM e aprendizado de mquina para automatizar a criao de sugestes e dicas a partir
do agrupamento dos dados anteriores de estudantes na resoluo de problemas
semelhantes. Resultados preliminares mostraram que essa abordagem tem potencial para
ser uma fonte para gerao automtica de dicas para programadores novatos.
Apoio a professores, currculos e conhecimento do domnio - O objetivo
fornecer feedback para apoiar autores, professores e administradores de cursos na tomada
de decises sobre a forma de melhorar a aprendizagem dos alunos, organizar os recursos
de forma mais eficiente de instruo, entre outros, alm de capacit-los a tomar medidas
proativas e/ou corretivas apropriadas. importante salientar que essa tarefa diferente
de analisar dados e das tarefas de visualizao que fornecem informaes bsicas
diretamente a partir de dados (relatrios, estatsticas, entre outros). Alm disso, o
feedback pode fornecer informaes completamente novas e interessantes, encontradas
nos dados (ROMERO e VENTURA, 2010).
O planejamento do currculo talvez uma das tarefas mais importantes que
os professores devem executar antes de instruo. Enquanto esta tarefa facilitada por
uma riqueza de recursos e ferramentas on-line existentes, os professores esto cada vez
mais sobrecarregados para encontrar, adaptar e alinhar recursos relevantes que lhes do
suporte no seu planejamento. Consequentemente, existem oportunidades de pesquisa para
estudar e compreender o comportamento no planejamento on-line a fim de caracterizar o
comportamento mais geral de planejamento (MAULL et al., 2010).
Maull et al. (2010) modelaram e descobriram padres de como os professores
usam uma ferramenta de planejamento curricular on-line. Foram usados componentes de
web analytics da ferramenta e algoritmos de agrupamento para modelagem e descoberta
de padres no sistema. Os resultados revelaram que os professores esto envolvidos em
comportamento que mostram afinidade para o uso de recursos digitais interativos, bem
como a partilha de comportamentos sociais, indicando a possibilidade de
desenvolvimento de tcnicas de anlise centrada no professor para melhorar o
planejamento de tecnologias e tcnicas para estudar os padres de planejamento de
currculo on-line.

97
Barracosa e Antunes (2011) propuseram uma metodologia para minerao de
comportamentos de ensino, a partir de pesquisa aplicada aos alunos, fazendo uso de algum
conhecimento de domnio. A partir de classificao e da minerao de padro sequencial,
buscaram identificar padres de comportamentos frequentes de professores por um
perodo de tempo, determinando o conjunto de itens que caracterizam o comportamento
do professor nesse perodo. Com professores representados em sequncias temporais,
possvel, ento, aplicar a minerao de padro sequencial para identificar
comportamentos frequentes e tentar antecipar a sua evoluo.
Su et al. (2011) apresentaram um mecanismo de adaptao de contedo para
aprendizagem personalizada (Personalized Learning Content Adaptation Mechanism PLCAM) em ambientes de aprendizagem mvel, baseado em agrupamento e
classificao com rvore de deciso. O mecanismo capaz de gerenciar o histrico de
solicitaes de contedo dos alunos, entregando material de aprendizagem personalizado
para o aluno por meio de deciso, adaptao e processos de sntese de contedo. Aps a
entrega do contedo, o PLCAM prepara uma verso adaptada do contedo para a prxima
solicitao semelhante. O mecanismo define um formato de adaptao de dados que
consiste das preferncias do aluno, perfil de hardware, condies de rede e parmetros
de mdia e para descrever diversas necessidades dos alunos.
A partir do uso de sistemas educacionais adaptativos, Gaudioso et al. (2012)
apresentaram e validaram modelos preditivos que foram desenvolvidos para apoiar os
professores para monitorar, entender e avaliar a atividade dos alunos, especialmente
quando os alunos enfrentam problemas. Com os dados de um sistema educacional
adaptativo baseado na web para o ensino de Fsica no ensino secundrio, foram usadas
trs tcnicas de classificao para modelagem (rvore de deciso, gerao de regras e
JRip), com resultados globais com preciso acima dos 70% de acurcia, indicando a
possiblidade da melhora no processo de aprendizagem com a utilizao dos modelos.
Paiva et al. (2013) apresentaram uma ferramenta para recomendao
pedaggica baseada em EDM. O objetivo foi prover aos professores de cursos baseados
na web, recomendaes pedaggicas personalizadas geradas por especialistas no domnio
com base nos resultados da minerao dos dados educacionais dos alunos em ambientes
virtuais de aprendizagem, a partir de tcnicas de agrupamento, classificao e regresso.
A ferramenta seguiu o Processo de Recomendao Pedaggica e foi utilizada em um
estudo de caso com dados reais de um curso de lngua Espanhola com 200 alunos. Os

98
resultados permitiram detectar padres de interao teis, usados na criao de
recomendaes,

avaliadas

(relevncia)

por

especialistas

no

domnio

educacional/pedaggico, e disponibilizadas para realizar recomendaes pedaggicas


que promovessem o aprimoramento da experincia de aprendizado dos alunos.
Ramos et al. (2016) apresentaram um estudo comparativo entre dois mtodos
de agrupamento (hierrquico e no hierrquico) para identificar os diferentes grupos de
alunos iniciantes na EAD em relao a um conjunto de variveis de interao e as
respectivas notas dos alunos. Como resultado principal dos agrupamentos realizados,
verificou-se que ambos os mtodos apresentaram resultados semelhantes, formando
grupos de tamanhos, dados e caractersticas similares. Com isso, foi possvel afirmar que
o resultado obtido por qualquer um dos mtodos de agrupamento, para esta natureza de
dados, poderia ser usado para extrao de conhecimentos sobre dados de comportamento
dos alunos analisados.
Essas descries aqui apresentadas no esgotam todas as abordagens
educacionais, atualmente, verificadas com a EDM. Alm disso, novas abordagens devem
surgir com o incremento das pesquisas na rea, tanto derivadas das aqui descritas, quanto
novas descobertas a partir do desenvolvimento de novas tcnicas, tarefas ou algoritmos
especficos para a minerao de dados educacionais.

3.3.4. Tendncias e Desafios


Como toda rea de pesquisa em expanso, a EDM tambm possui desafios e
tendncias, que devem nortear as pesquisas atuais e futuras. As tendncias focam em
algumas das novas exigncias para a aplicao de EDM, tais como minerao de textos e
anlise de redes sociais. Esses alvos representam oportunidades para lidar com a grande
quantidade de informaes dinmicas e heterogneas que as novas geraes de estudantes
produzem em seu dia a dia (PEA-AYALA, 2014b).
Os desafios representam como as instituies de ensino podem atender a uma
educao de forma eficaz e, simultaneamente, contemplar as mudanas globais que
afetam o seu ambiente. As decises necessrias para lidar com essas mudanas rpidas
so muitas e complexas. So feitas sem acesso a vastas fontes de dados que foram geradas
e que no esto disponveis para aqueles a quem foram confiados fazer escolhas
relevantes e oportunas. Esses dados podem desempenhar um papel importante na forma
de gerir o processo de ensino e, assim, garantir que as instituies no s sejam capazes

99
de responder eficazmente s mudanas que acontecem dentro e fora delas, mas que eles
tambm continuam a ser pertinentes ao seu propsito nas sociedades a que servem
(DANIEL, 2015).
Algumas das tendncias da EDM so listadas por Pea-Ayala (2014a), assim
como a respectiva anlise da literatura associada a cada uma delas. Uma das tendncias
corresponde ao padro de integrao de um mdulo de EDM com a arquitetura tpica da
grande diversidade de sistemas de ensino baseados em computador (por exemplo AVA e
LMS). Assim, mdulos de EDM que sejam adaptveis e parametrizveis para os diversos
ambientes de ensino podero ter boa acolhida por profissionais e instituies.
Outra tendncia vai exigir que a EDM fornea vrias funcionalidades durante
os trs estgios do ciclo de ensino-aprendizagem: a primeira fase corresponde prestao
de suporte proativo da EDM para adaptar o cenrio educacional de acordo com o perfil
do aluno antes de entregar um contedo. Durante a fase seguinte, de interao estudantesistema, desejvel que um mdulo de EDM adquira dados de logs e interprete o seu
significado, a fim de sugerir recomendaes, o qual pode ser utilizado pelo sistema para
personalizao de servios para os usurios em tempo real.
Na prxima fase, EDM deve proceder avaliao do ensino ministrado em
matria de servios prestados, resultados alcanados, grau de satisfao do usurio e a
utilidade dos recursos empregados.
Como a EDM considera mais aspectos quantitativos dos dados, outra
tendncia apontada na literatura a incorporao de aspectos qualitativos nas anlises e
modelos, por exemplo, usando processamento de linguagem natural para analisar os logs
de bate-papo dos estudantes, e em seguida, adicionando esses elementos ao modelo para
verificar se h uma melhora na taxa de predio (XING et al., 2015).
As aplicaes de EDM, em ambientes on-line, devem aproximar-se com o
uso de Big Data em ambientes educacionais (LIN e PREZ, 2015). Big Data referese a dados com tamanhos muito alm da capacidade de ferramentas de software comuns
para capturar, armazenar, gerenciar e processar esses dados em uma quantidade razovel
de tempo (SNIJDERS et al., 2012).
Alm disso, os cursos tipo MOOC (Massive Open On-line Courses)
tipicamente ministrados por instrutores reconhecidos em universidades de prestgio,
representam um novo e importante tpico para pesquisas e aplicaes da EDM. O

100
potencial mximo de EDM nos MOOC decorre de dois fatos: a diversidade dos alunos e
a altssima taxa de aluno por instrutor. Os participantes podem ter diferentes origens,
maturidade, experincia, nveis de educao, habilidades de linguagem, objetivos,
necessidades e estilos de aprendizagem, entre outros. Isso, por sua vez, sugere a
importncia de personalizar cursos. No entanto, dadas as taxas de estudante por instrutor,
isso impossvel sem sistemas automatizados. Apesar do fato de que a pesquisa sobre
esse tema est apenas emergindo e que as plataformas MOOC atuais fornecem
armazenamento de dados limitados, algumas pesquisas sobre MOOC adaptativos j
foram publicadas, como a de Daradoumis et al. (2013) (LIN e PREZ, 2015).
O trabalho de Daradoumis et al. (2013) props o uso de agentes de software
para melhorar e personalizar a gesto, execuo e avaliao em MOOC. Agentes
poderiam ajudar a redesenhar MOOC para turmas futuras mediante a coleta de
informao sobre padres de uso, navegao, reas de contedo problemticas, o uso da
ferramenta, perfis de estudante, entre outros. Algoritmos de aprendizagem/previso
poderiam ser aplicados pelos agentes para ajustar dinamicamente o contedo do curso de
acordo com o perfil de cada participante. Alm disso, os agentes podem ser tambm
utilizados para melhorar os testes automatizados, ajustando as questes de avaliao de
acordo com o nvel de escolaridade do participante.
Outras novas e necessrias tendncias so apontadas por Pea-Ayala (2014a):
Ferramentas amigveis de EDM para usurios no tcnicos; a padronizao de mtodos
de DM e dados; a integrao de funcionalidades de DM nos ambientes virtuais de
aprendizagem e o design das tcnicas especficas para a EDM.
Apesar das altas expectativas e da quantidade crescente de trabalhos sobre
EDM, a sua aplicao em ambientes educacionais ainda esbarra em algumas barreiras e
desafios importantes, tais como a falta de uma cultura orientada a dados e de ferramentas
rpidas, abrangentes e fceis de usar e entender e que possam ser integrados nos LMS
mais populares (LIN e PREZ, 2015).
Dentro de instituies de ensino superior, os dados esto crescendo
consideravelmente, mas a maior parte deles est espalhada por desktops, servidores e
departamentos e vm em vrios formatos, tornando difcil para recuper-los ou consolidlos. Para utilizar eficazmente esses dados, a capacidade de analisar diversos conjuntos de
informao necessria, independentemente de onde so originrios e consolidando os
dados armazenados em repositrios dentro das instituies. Isso um desafio

101
fundamental para implementao de estratgias de EDM no ensino superior (DANIEL e
BUTSON, 2013).
Embora a EDM venha sendo utilizada em cursos e instituies com sucesso,
necessrio passar do laboratrio para o mercado em geral e, para alcanar esse objetivo,
importante a realizao das aes que disseminem e favoream a rea de pesquisa com
aplicaes em escala e replicveis (ROMERO e VENTURA, 2013a).
Os educadores e as instituies devem desenvolver uma cultura de utilizar os
dados para tomar decises e melhorar a instruo orientada por dados. Os resultados da
pesquisa em EDM so normalmente obtidos no mbito restrito de projetos de pesquisa
especficos em ambientes educacionais. No entanto, necessrio obter resultados mais
gerais, por exemplo, se os mesmos parmetros do modelo do estudante tambm podem
ser utilizados com outras populaes de estudantes, ou se um modelo de previso ainda
confivel quando utilizado num contexto diferente. Existe, portanto, uma necessidade
crescente de estudos de replicao para testar generalizaes mais amplas. Como
consequncia prtica dessa necessidade, os pesquisadores de EDM se tornaram cada vez
mais interessados em repositrios de dados abertos e formatos de dados padro para
promover o intercmbio de dados e modelos (ROMERO e VENTURA, 2013a).
Alm disso, vrios desafios (metas, ambientes, modalidades, funcionalidades,
tipos de dados, ...) somente comearam a ser estudados recentemente no contexto da EDM
ou, ento, ainda esperam para serem discutidos, tais como: big data, computao em
nuvem, redes sociais, minerao na web, minerao de texto, ambientes virtuais em 3D,
minerao espacial, minerao semntica, aprendizagem colaborativa, assistentes de
aprendizagem, entre outros (PEA-AYALA, 2014a).
Uma barreira importante para a implementao de metodologias de EDM a
falta de conhecimento, tanto terica quanto prtica na rea, entre uma proporo
significativa de instrutores e gestores no que diz respeito ao emprego das ferramentas
necessrias, em compreender corretamente as sadas, tirar as concluses apropriadas ou
decidir que aes tomar (LIN e PREZ, 2015).
Para mitigar esse problema, importante aumentar a aceitao e desenvolver
uma cultura orientada a dados em ambientes educacionais (ROMERO e VENTURA,
2013a). Os pesquisadores j esto ajudando nessa transio mediante a divulgao de seus
resultados e contando com a colaborao de instrutores e/ou estudantes para avaliar as

102
suas propostas, por exemplo em GARCA et al., (2011), e detalhando seus experimentos
(dados, mtodos, entre outros) para a comunidade. Existem inmeras ferramentas para
facilitar a anlise dos dados, mas muitos tm sido implementadas em pequenos
experimentos. A EDM, ento, s ser capaz de obter resultados mais satisfatrios e
genricos, analisando mais estudantes, cursos e instituies (LIN e PREZ, 2015).

3.4. Cross Industry Standard Process for Data Mining (CRISP-DM)


Com a consolidao crescente da minerao de dados, alguns esforos esto
sendo feitos, buscando estabelecer normas e padres na rea, tanto por iniciativas
acadmicas quanto pela indstria. A maior parte desses esforos esto centrados na
definio de uma linguagem para DM que possa ser aceita como padro da mesma forma
que SQL foi aceita como um padro para bancos de dados relacionais (AZEVEDO e
SANTOS, 2008). Nesse sentido, metodologias como o PMI8, Agile9, RUP10 e demais
metodologias similares so boas para processos de software e no para projetos que
envolvam extrao e anlise de dados (CLESIO, 2012). Os esforos da indstria so
principalmente na definio dos processos ou metodologias que podem guiar a
implementao de aplicaes de DM em diversas reas.
Diante dessa necessidade, um consrcio liderado por vrias empresas
consumidoras e fornecedoras em potencial de servios de data mining, com a participao
de mais de 200 usurios da rea, provedores de servio e de ferramentas de minerao de
dados, comeou, em 1996, a desenvolver o CRISP-DM (Acrnimo de CRoss-Industry
Standard Process for Data Mining)11, um modelo de minerao de dados no
proprietrio, neutro, documentado e disponvel livremente. um modelo especfico de
processo que descreve abordagens comumente usadas em minerao de dados para
resolver problemas desse domnio (SHEARER, 2000).
De modo simplificado, o CRISP-DM uma metodologia abrangente de
minerao de dados e um modelo de processo que fornece para qualquer usurio de DM,
seja ele iniciante ou especialista, um modelo completo para realizao de um projeto de
DM. O projeto dividido em seis fases: entendimento do negcio, compreenso dos

https://www.pmi.org
http://agilemethodology.org/
10
http://www.wthreex.com/rup/
11
http://www.crisp-dm.org/
9

103
dados, preparao dos dados, modelagem, avaliao e implantao (SHEARER, 2000).
O ciclo do CRISP-DM exibido na Figura 16.
A sequncia de fases no rigorosa. Na verdade, a maioria dos projetos
avanam e retornam entre as etapas se necessrio. Como metodologia, inclui descries
das fases normais de um projeto, as tarefas requeridas em cada fase e uma explicao
sobre as relaes entre as tarefas. Como modelo de processo, o CRISP-DM fornece uma
viso geral do ciclo de vida da minerao de dados (IBM, 2013).
Figura 16 - Fases do CRISP-DM.

Fonte: (SHEARER, 2000).

A primeira etapa consiste no conhecimento do domnio do negcio, ou seja,


conhecer e compreender os objetivos do projeto de minerao a partir da perspectiva do
negcio, a partir do qual esse conhecimento se transformar em um problema de
minerao de dados. Essa etapa considerada como uma das mais importantes do
processo, a partir da qual desenvolvido um plano preliminar do projeto de minerao
para busca dos objetivos (SHEARER, 2000). No caso de um projeto educacional, o
negcio pode ser um ambiente de e-learning de uma universidade ou um exame nacional
de estudantes de ensino mdio.
A segunda etapa, na qual acontece a compreenso dos dados, comea com
uma coleta de dados inicial, para estabelecer uma familiaridade com os dados, identificar
possveis problemas de qualidade dos dados, descobrir ideias iniciais ou para detectar

104
subconjuntos interessantes para formar hipteses sobre informaes ocultas. Esse passo
essencial para evitar problemas inesperados durante a etapa seguinte (preparao de
dados) que normalmente a fase mais longa de um projeto (SHEARER, 2000; IBM,
2013).
Em um projeto de EDM, essa segunda etapa pode acontecer na anlise inicial
dos dados de um ambiente virtual de aprendizagem ou na compreenso dos dados
produzidos por um censo escolar.
Na etapa seguinte, acontece a preparao dos dados que abrange todas as
atividades necessrias para construir o conjunto de dados final, a partir dos dados brutos
iniciais. Esses dados preparados alimentaro a ferramenta de modelagem na etapa
seguinte. Tarefas de preparao de dados so susceptveis de serem executadas vrias
vezes e no em qualquer ordem preestabelecida. Essas tarefas incluem a seleo de
tabelas, registros e atributos, assim como a transformao e a limpeza dos dados
(CHAPMAN et al., 2000; SHEARER, 2000).
A preparao de dados um dos aspectos mais importantes e, muitas vezes,
o que exige mais tempo em minerao de dados, pois estima-se que essa etapa,
geralmente, leva entre 50-70% do tempo e esforo de um projeto. Dedicar recursos
adequados para os estgios iniciais de entendimento do negcio e esforos de dados pode
minimizar a sobrecarga relacionada, mas, ainda, ser necessrio dedicar muito esforo
para preparar e empacotar os dados para a minerao (IBM, 2013).
Em um contexto de EDM, a preparao dos dados pode envolver, por
exemplo, limpeza dos dados nos logs de acessos dos alunos ao ambiente virtual e
transformaes de notas dos estudantes (variveis contnuas) em conceitos (discretas).
A modelagem acontece na quarta etapa. De acordo com o problema de
minerao, vrias tcnicas podem ser usadas. A modelagem geralmente executada em
vrias iteraes, nas quais os analistas de dados executam vrios modelos, usando as
configuraes padro e vo ajustando os parmetros para valores otimizados. comum
tambm retornar para a fase de preparao de dados para manipulaes exigidas pelo
modelo (SHEARER, 2010; IBM, 2013).
Na EDM, a modelagem pode definir um modelo de previso de tendncia
evaso de alunos em EAD ou, ento, uma definio de agrupamento de alunos de acordo
com suas caractersticas de interao em um ambiente virtual.

105
Antes de proceder implantao definitiva do modelo construdo,
importante avali-lo mais profundamente e rever a sua construo para ter certeza que
atinge, adequadamente, os objetivos planejados. A quinta etapa, avaliao, a etapa chave
para garantir que a organizao pode utilizar os resultados obtidos e os conhecimentos
descobertos. Um objetivo fundamental determinar se h algum problema importante do
negcio que no foi suficientemente considerado. A seta direcionada etapa inicial indica
a possibilidade de retorno em funo da avaliao dos resultados no se mostra
satisfatria para os objetivos do projeto (CHAPMAN et al., 2000; IBM, 2013).
Um exemplo dessa etapa em um contexto educacional seria avaliar se os
modelos preditivos de desempenho de alunos atendem s taxas de acurcia
preestabelecidas ou, ento, se as regras de associao geradas de acordo com o perfil dos
alunos em e-learning possuem ndices de suporte e confiana satisfatrios.
A sexta e ltima etapa a implantao, na qual os novos conhecimentos
descobertos so usados para proporcionar melhorias na organizao. Nessa etapa, todo o
conhecimento adquirido deve ser organizado e apresentado de uma forma que o cliente
possa us-lo efetivamente dentro dos processos de tomada de deciso. Dependendo dos
requisitos, a fase de implantao pode ser to simples como gerar um relatrio ou to
complexo como a implementao de um processo de minerao de dados aplicvel em
toda a empresa (SHEARER, 2000; CHAPMAN et al., 2000).
Em um projeto envolvendo EDM, a implantao do modelo pode ser feita a
partir do uso de plug-ins ou mdulos de sistemas que realizam as tarefas de minerao na
plataforma de dados educacionais e apresente, de maneira simplificada e eficaz, os
resultados da aplicao dos modelos nos dados, auxiliando ento na tomada de deciso
que resulte em intervenes para melhoria do processo educacional.
Alm do CRISP-DM, existem outros modelos de processo de minerao,
muitos dos quais desenvolvidos por especialistas ou empresas para uso prprio, no sendo
difundidos para outras pessoas/organizaes.
Um outro modelo padronizado para processos de DM o SEMMA
(Acrnimo de Sample, Explore, Modify, Model, Assess) que foi desenvolvido pelo SAS
Institute12. Por estar muito atrelado ao prprio software de minerao da SAS, o modelo

12

http://www.sas.com/pt_br/home.html

106
bem menos utilizado que o CRISP-DM. Esse modelo considera um processo cclico
com os cinco estgios que formam a sua sigla (AZEVEDO e SANTOS, 2008):
1. Amostra (Sample) - Esta fase consiste na amostragem dos dados pela
extrao de uma parte de um grande conjunto de dados, grande o suficiente para conter a
informao significativa, ainda pequeno o suficiente para manipular rapidamente. Este
estgio apontado como sendo opcional.
2. Explorar (Explore) - Esta fase da explorao dos dados por meio da
procura de tendncias, imprevistos ou anomalias, a fim de ganhar a compreenso e ideias
sobre os mesmos.
3. Modificar (Modify) - Nesta fase, acontece a modificao dos dados
criando, selecionando e transformando as variveis para focalizar no processo de seleo
do modelo.
4. Modelo (Model) - Esta fase consiste na modelagem dos dados, permitindo
que o software de minerao procure, automaticamente, uma combinao de dados que
prev de forma confivel um resultado desejado.
5. Avaliar (Assess) - a etapa da avaliao dos dados, avaliando a utilidade
e confiabilidade dos resultados do processo de minerao de dados e estimando o quanto
correto ele executado.
O SEMMA oferece um processo fcil de entender, permitindo um
desenvolvimento organizado e manuteno adequada de projetos de minerao de dados.
Possui uma estrutura para a sua concepo, criao e evoluo, ajudando a apresentar
solues para problemas de negcios, bem como para encontrar os objetivos de minerao
em negcios (AZEVEDO e SANTOS, 2008).

3.4.1. EDM usando CRISP-DM


Como a EDM pode ser considerada uma extenso da minerao de dados,
natural que trabalhos nessa rea tambm se apropriem da metodologia CRISP-DM em
seus estudos. Em razo da sua generalizao, mesmo sendo um mtodo criado pela
indstria, a adoo da metodologia sugerida como boa prtica em EDM no trabalho de
Sheth e Patel (2010). Conforme esses autores, isso vai ajudar a entender os requisitos do
projeto e dados claramente, alm de identificar os recursos necessrios para a minerao
com antecedncia.

107
O trabalho de Vialardi et al.(2011) apresentou a lgica por trs do projeto de
um sistema de recomendao para apoiar o processo de matrcula, usando registro de
desempenho acadmico dos alunos. Para construir o sistema, a metodologia CRISP-DM
foi aplicada a dados de alunos do Departamento de Cincia da Computao na
Universidade de Lima no Peru.
No estudo, os autores destacaram que o passo mais importante no CRISP-DM
a fase de modelagem. Nesse passo, os dados so analisados e os algoritmos apropriados
para a rea so definidos e aplicados, a fim de produzir novos padres de dados originais.
O desafio trabalhar com grandes conjuntos de dados, que podem apresentar seus
prprios problemas: rudo, dados faltando, volatilidade, entre outros
Os resultados do trabalho mostraram que o sistema teve um desempenho
muito bom, sendo capaz de prever com 85,36% de preciso sob condies reais de
matrcula dos alunos.
J o trabalho de Kabakchieva et al. (2010) apresentou um projeto de pesquisa
de minerao de dados baseado no CRISP-DM em uma universidade blgara, com o
principal objetivo de revelar o grande potencial de aplicaes de EDM para gesto
universitria. O objetivo do trabalho foi descobrir padres interessantes nos dados
disponveis, os quais poderiam contribuir para prever o desempenho do estudante na
universidade com base em suas caractersticas pessoais e pr-universitrias.
Durante a fase de entendimento do negcio, foram identificadas as
necessidades especficas de gesto de universidade. Na fase de compreenso de dados,
foram analisados os dados coletados dos candidatos a vagas na universidade e na fase de
pr-processamento de dados, os dados dos alunos que estavam em duas bases foram
extrados e organizados em um novo data warehouse. Na fase de modelagem, foram
usados vrios classificadores e os resultados do estudo, no geral, foram satisfatrios,
apresentando uma acurcia entre 60 e 75% nos algoritmos utilizados.
Sahay e Mehta (2010) apresentaram uma pesquisa para desenvolvimento de
software via web para auxiliar o ensino superior em instituies americanas situadas em
Salt Lake City, na avaliao e previso de questes-chave relacionadas ao sucesso do
aluno. Pelo do uso do KDD apoiado pelo CRISP-DM, a proposta do sistema incluiu o uso
de vrios algoritmos de minerao de dados e ferramenta de qualidade, tais como a
implantao da funo de qualidade para estudar e prever problemas relacionados

108
gesto de matrcula, taxa de abandono, tempo para concluso de curso e tambm pode
sugerir formas de melhorar os cursos e programas.
Kovacic (2010) apresentou um estudo que explorou variveis sociodemogrficas (idade, gnero, etnia, educao, status de trabalho e deficincia) e
ambientes de estudo (perodo no qual o aluno est matriculado: 1, 2 ou 3 e tipo de curso:
bacharelado em cincias aplicadas ou bacharelado em negcios), que podem influenciar
na permanncia ou, ento, na evaso de estudantes em uma universidade na Nova
Zelndia. Foram examinados em que medida esses fatores podem ajudar na identificao
prvia de alunos bem ou malsucedidos no curso.
O estudo, baseado na metodologia CRISP-DM e usando diferentes
classificadores na fase de modelagem, apontou que a somente a etnia e as variveis do
ambiente de estudo influenciaram no insucesso dos alunos e que o mtodo de
classificao CART foi o que apresentou os melhores resultados para os dados (60,5% de
preciso).

109

4. MTODO DA PESQUISA
Segundo Marconi e Lakatos (2010), uma investigao cientfica comea
quando h uma percepo de que conhecimentos existentes baseados em senso comum,
nas teorias filosficas ou cientficas no so suficientes para explicar determinados
problemas ou dvidas que surgem em situaes reais. O conhecimento cientfico no
deve ser visto como conhecimento emprico ou popular (senso comum), mas sim como
um conhecimento obtido de forma racional, conduzida por meios de procedimentos
cientficos.
Este captulo apresenta a metodologia empregada para o alcance dos objetivos
propostos nesta tese, explicitados no Captulo 1.

4.1. Caracterizao da Pesquisa


Uma pesquisa pode ser conduzida por diferentes mtodos (indutivo, dedutivo,
dialtico, histrico, entre outros) (MARCONI e LAKATOS, 2010). Nesse caso, esta
pesquisa foi considerada como uma abordagem indutiva, pois a mesma ser baseada na
generalizao de propriedades comuns a certo nmero de casos observados, s
ocorrncias de fatos similares que se verifiquem no futuro (CERVO et al., 2007). O
processo de utilizao dos atributos da distncia transacional, para se determinar o risco
de um aluno evadir-se em um curso superior a distncia seguiu essa caracterstica de
induo, pois a partir dos seus resultados, ser possvel a sua replicao em outras
situaes semelhantes. As trs fases fundamentais do mtodo indutivo (MARCONI e
LAKATOS, 2010) e sua respectiva apropriao por esta pesquisa so descritas abaixo:
1 Observao dos fenmenos - Nesta etapa, so observados e analisados
os fatos ou fenmenos para se descobrir causas de sua manifestao. O entendimento
acerca dos construtos da distncia transacional e da evaso em cursos a distncia nos
levou a uma percepo de que podia existir uma relao entre esses dois fenmenos.
2 Descoberta da relao entre eles - A partir de processos comparativos,
os fatos ou fenmenos so analisados para se descobrir relaes existentes entre eles. No
caso desta pesquisa, foi feito um mapeamento das diversas variveis no banco de dados
do ambiente virtual em estudo, para caracterizao das mesmas em relao aos trs
atributos da distncia transacional. A partir da anlise das variveis mapeadas, foram
confirmadas aquelas que, efetivamente, contribuem para cada construto ou excludas as
que pouco ou no influenciam.

110
3 Generalizao das relaes - As relaes encontradas entre fatos ou
fenmenos so, ento, generalizadas, sendo possvel sua aplicao em novos fatos ou
fenmenos. Nesta etapa foi, ento, estabelecido um processo generalizado para obteno
dos construtos da distncia transacional e sua posterior aplicao em um modelo preditivo
da possibilidade da evaso do aluno.
O procedimento desta pesquisa foi experimental, j que observou e
manipulou diretamente as variveis relacionadas com o objeto de estudo (CERVO et al.,
2007). Neste tipo de pesquisa, a manipulao de variveis proporciona o estudo da relao
entre causa e efeitos de um determinado fenmeno (a evaso de alunos).
Em relao natureza das variveis, embora a maior parte do estudo tenha
sido ancorado em variveis quantitativas, questes qualitativas foram usadas no final do
processo para armazenar resultados das avaliaes da soluo computacional proposta.

4.2. Design do Mtodo utilizado


Em funo da natureza e dos objetivos desta pesquisa indicarem o uso de
tcnicas de minerao de dados, como forma de determinao de um modelo preditivo
baseado nos construtos da distncia transacional, foi considerada a aplicao do KDD
como o mtodo predominante neste estudo, particularmente com o uso do CRISP-DM
como estratgia metodolgica para alcance dos objetivos propostos. A Figura 17 exibe o
modelo aqui chamado de CRISP-EDM, que foi aplicado nesta pesquisa.
Figura 17 Modelo de CRISP-EDM da pesquisa.

Fonte: Adaptado de SHEARER (2000).

111
Cada etapa do CRISP-EDM contemplou tcnicas e abordagens devidamente
adequadas ao domnio educacional sob anlise. Algumas das etapas foram divididas em
etapas menores para permitir um melhor desenvolvimento das mesmas. O design geral
do mtodo aplicado nesta pesquisa apresentado nas Figura 18 e Figura 19 seguintes.
Figura 18 - Etapas 01 a 03 da pesquisa.

Fonte: Elaborada pelo Autor (2016).

A Etapa 01 foi realizada durante a fase de justificativa e na reviso da


literatura, com o entendimento do domnio a ser explorado e do principal problema a ser
tratado com o uso da EDM na pesquisa. As demais etapas so descritas neste captulo.
Figura 19- Etapas 04 a 06 da pesquisa.

Fonte: Elaborada pelo Autor (2016).

Em consonncia com o objetivo geral e os procedimentos a serem adotados


no processo de descoberta de conhecimento proposto, a associao dos objetivos
especficos, com suas respectivas tcnicas e abordagens, apresentada no Quadro 3.
Alguns dos objetivos foram desmembrados para que pudesse ser feito um melhor
detalhamento e enquadramento dos mesmos nas tcnicas e abordagens utilizadas na
pesquisa.

112
Quadro 3 Tcnicas e abordagens para alcance dos objetivos especficos.
Objetivos especficos

Tcnica/Abordagem

Caracterizar o problema da evaso em EAD. Analisar a literatura


sobre a Teoria da Distncia Transacional e a questo da evaso,
para o planejamento e a execuo de cursos nessa modalidade.

Pesquisa bibliogrfica
CRISP-EDM (Etapa 1)

Identificar as diversas variveis no ambiente virtual que


representam os construtos da DT, fazendo o mapeamento com
base na literatura e consultas a especialistas.

Pesquisa bibliogrfica
Entrevistas com especialistas
CRISP-EDM (Etapa 2)

Confirmao da lista de variveis representativas a partir de


Anlise Fatorial Confirmatria. Coleta e tratamento dos dados
representativos dos construtos da DT.

CRISP-EDM (Etapa 3)

Definir e validar um modelo preditivo da evaso do aluno, a partir


do uso de EDM, com base nas variveis da DT.

CRISP-EDM (Etapa 4)
CRISP-EDM (Etapa 5)

Desenvolver um prottipo de componente de software que


implemente o monitoramento preditivo da evaso, baseado nos
construtos da DT.

CRISP-EDM (Etapa 6)
Prototipao rpida

Validar o componente com usurios potenciais. Realizar ajustes


no componente a partir das anlises dos usurios.

Testes com usurios


Anlises qualitativas e
quantitativas
Apresentao e submisso dos
resultados da pesquisa em
conferncias e peridicos.

Descrever o processo de utilizao do modelo terico da distncia


transacional a partir da abordagem de minerao de dados
educacionais e a sua aplicao na predio da evaso de alunos
em EAD.

Fonte: Elaborado pelo Autor (2016).

Para que os objetivos da pesquisa fossem alcanados, esta tese seguiu o


percurso metodolgico detalhado na Figura 20.
ETAPAS

Figura 20 - Etapas e aes da pesquisa.


AES

113

Fonte: Elaborada pelo Autor (2016).

Conforme preconiza o modelo CRISP-DM, em algumas etapas, houve um


retorno a etapas anteriores para ajustes e verificaes nos procedimentos adotados como,
por exemplo, os modelos inicialmente obtidos no apresentavam resultados relevantes
em suas mtricas de avaliao ou alguma varivel mostrou-se pouco significativa no
modelo.

4.3. Etapa 02: Entendimento dos Dados Fase de coleta e preparao inicial
dos dados
Para o desenvolvimento da pesquisa, a fonte primria e principal de dados
foram os diversos bancos de dados do ambiente Moodle do Ncleo de Educao a
Distncia (NEAD) da Universidade de Pernambuco (UPE)13. Esse ncleo j conta com
cerca de oito (08) anos de atuao na modalidade, ofertando cursos de graduao,
especializao e extenso, com presena em diversas cidades do estado de Pernambuco.
A base de dados escolhida para ser explorada e analisada foi a de dois cursos
de graduao por EAD na UPE: as licenciaturas em Pedagogia e em Cincias Biolgicas.
Os dados foram oficialmente cedidos pela coordenao do Ncleo, assim como toda a
estrutura do ambiente virtual em uso por essa instituio. A escolha desses dois cursos foi
em razo dos mesmos apresentarem os menores (Pedagogia) e maiores (Biologia) ndices

13

Disponvel em http://www.upe.br/index.php/nead

114
de evaso conforme informao da coordenao do Ncleo. Um resumo da base utilizada
apresentado na Tabela 3.
Tabela 3 - Dados dos Cursos de Graduao a Distncia da Universidade de Pernambuco.

Curso
Biologia - Turma 3
Biologia - Turma 4
Pedagogia - Turma 1
Pedagogia - Turma 2

Semestre
Incio
2011.1
2012.2
2010.2
2012.2

Semestre
Fim
2014.2
2016.1
2014.1
2016.1

Semestres
disponveis
8
6
8
6

N
Alunos
27
112
150
323

Bases
distintas
4
4
3
4

Fonte: (NEAD/UPE).

Estes dados foram divididos em duas bases diferentes para o processo de


EDM: os dados de Pedagogia Turma 1 e Biologia Turma 3. Por estarem completos,
foram usados como bases para treinamento dos algoritmos de minerao e as outras duas
foram usadas para base de testes dos modelos preditivos obtidos no processo. Assim, para
todo o processo de minerao, foram usados dois conjuntos distintos de dados.
As bases foram repassadas pela UPE em formato SQL sendo que, ao longo
dos anos, a universidade adotou tanto o PostgreSQL, quanto o MySQL como SGBD,
alm de diferentes verses do Moodle. Assim, um criterioso processo de coleta de dados
foi desenvolvido, desde o estudo detalhado das tabelas essenciais do Moodle e respectivos
relacionamentos, passando pela gerao de scripts14 SQL, responsveis pela correta
extrao dos dados do ambiente. Esses scripts tambm foram ajustados para se adaptarem
aos diferentes SGBD e verses do Moodle.
A coluna Bases distintas da Tabela 3 indica em quantas bases estavam
distribudos os dados de uma mesma turma, nos seus diferentes semestres. A consolidao
dos dados em bases uniformes consumiu razovel tempo na pesquisa, em funo da
diversidade dos formatos dos dados originais. Um problema encontrado e superado foi a
inexistncia de um identificador nico para cada aluno nas bases. Assim, um mesmo
aluno tinha um cdigo diferente em cada base distinta. Alguns problemas como grafia de
nomes diferentes para um mesmo aluno em bases diferentes foi outro obstculo, que
exigiu um tempo adicional na preparao dos dados.
Cada base de dados de turma foi formada a partir da identificao dos alunos
matriculados em todas as disciplinas do 1 perodo de cada curso/turma. Um script de
seleo da intercesso de estudantes inscritos nas disciplinas desse perodo foi rodado em

14

Os scripts SQL utilizados nesta pesquisa encontram-se no Apndice G.

115
cada base para selecionar os alunos que satisfizessem essa condio. Assim, eventuais
alunos veteranos que estivessem cursando uma disciplina na qual tivessem sido
reprovados anteriormente, por exemplo, no seriam includos na base de alunos da turma.
Essa lista de alunos de cada 1 perodo foi usada como referncia para a coleta de dados
nos perodos seguintes, com a devida uniformizao de identificadores e nomes de alunos,
conforme j relatado.
A partir das anlises dos dados das interaes dos alunos nos diversos
perodos dos cursos, foi possvel definir quais os que alunos tinham se evadido. Variveis
como: tempo mdio de acesso semanal, nmero de acessos ao ambiente no perodo e a
quantidade de diferentes locais ou momentos a partir dos quais o aluno acessou o
ambiente, quando apresentaram zeradas no perodo analisados, alm da no realizao
das atividades avaliativas, foram os indicadores usados para caracterizar os alunos
evadidos.
As verificaes de consistncia nos dados obtidos foram feitas a partir do
acesso com um perfil de administrador no ambiente virtual Moodle da UPE, comparando,
por exemplo, os registros de quantidade de determinadas interaes que os relatrios do
prprio ambiente disponibilizam, com os dados coletados pelos scripts SQL. Outras
verificaes eram feitas a partir do cruzamento de consultas distintas ao banco,
comparando, ento, os seus retornos com os valores j coletados.
Para a execuo dos procedimentos desta etapa, foram utilizados os
aplicativos MySQL Workbench e pgAdmin III para a extrao dos dados via scripts SQL;
o pacote estatstico R com a sua IDE RStudio, para anlises e tratamentos preliminares
dos dados e o Microsoft Excel, tambm para tratamento e uniformizao dos dados.

4.4. Etapa 02: Entendimento dos Dados - Mapeamento dos construtos da


Distncia Transacional na base de dados
O processo de mapeamento dos construtos da DT, associando cada construto
a um conjunto de variveis possveis de serem extradas na base de dados do Moodle,
exigiu um percurso metodolgico prprio, em funo da sua importncia para as demais
etapas desta pesquisa e representou uma nova abordagem para a obteno dos construtos
da DT, diferente dos processos relatados na literatura sobre o tema. Assim, esta etapa
seguiu o design apresentado na Figura 21.

116
Inicialmente, foi estabelecido um modelo terico provisrio da DT, no qual
cada construto foi representado por um conjunto de variveis observadas, obtidas a partir
do cotejamento de questionrios usados em estudos sobre a distncia transacional, com
os registros de um banco de dados do Moodle.
Figura 21 Processo de mapeamento das variveis da DT.

Fonte: (RAMOS et al., 2016).

Um modelo representando o conjunto final das variveis representativas da


DT foi obtido a partir de um processo de anlise multivariada dos dados. Nas subsees
seguintes, so detalhadas as etapas desenvolvidas neste processo.

4.4.1. Associao entre itens de questionrios e variveis do banco de


dados do Moodle
Para que fosse desenvolvida e apresentada uma proposta alternativa para o
estabelecimento dos construtos da distncia transacional, este estudo tomou como base
nove (9) trabalhos que apresentaram como forma predominante da determinao da DT
com o uso de questionrios. Os trabalhos com os questionrios considerados para este
estudo so listados no Quadro 4.
Quadro 4 Obras relacionadas a instrumentos de medio da DT usadas nesta pesquisa.
Obra
Dimensions of educational transactions in a videoconferencing
learning environment
Dimensions of transactional distance in the world wide web
learning environment: a factor analysis
Transactional distance in Web-based college learning
environments: Toward measurement and theory construction.
Measuring transactional distance of on-line courses: The
structure component
Developing transactional distance scale and examining
transactional distance perception of blended learning students
in terms of different variables.

Autor(es)
(CHEN e WILLITS,
1999)

Citaes*
96
143

(CHEN, 2001b)

35
(ZHANG, 2003)

21
(SANDOE, 2005)

15
(HORZUM, 2011)

117
Transactional distance revisited: Bridging face and empirical
validity
(GOEL et al., 2012)
Relative Proximity Theory: Measuring the Gap Between Actual (SWART et al.,
and Ideal On-line Course Delivery
2014)
Measuring transactional distance in web-based learning (HUANG et al.,
environments: an initial instrument development.
2015)
Revisiting Zhangs scale of transactional distance: refinement
and validation using structural equation modeling.
(PAUL et al., 2015)
(*) N de citaes coletados no Google Scholar em Nov/2016.
Fonte: (RAMOS et al., 2016).

11
4
1
2

Diversas tcnicas de anlise dos dados foram usadas nesses questionrios, tais
como: anlises fatoriais exploratria e confirmatria, modelagem de equaes estruturais,
anlises das correlaes e discriminantes, anlise de varincias, entres outras. No total,
esses questionrios geraram uma lista de 186 questes, categorizadas pelos respectivos
autores em cada um dos 3 construtos da distncia transacional.
O passo seguinte foi buscar estabelecer, para cada questo dessa lista, uma
associao com os registros no banco de dados do Moodle, estabelecendo um
mapeamento preliminar das variveis da DT. Foram associados campos de tabelas do
banco de dados s variveis, que poderiam servir para determinar cada construto.
Assim, foi identificado um conjunto inicial de variveis representativas da
DT, passveis de serem extradas diretamente do banco de dados, sem a necessidade de
aplicao de questionrios ou do uso de qualquer outra tcnica de coleta de dados. Esse
mapeamento preliminar foi, ento, submetido a professores que atuam na EAD, a partir
de um questionrio on-line, para sua confirmao e respectiva distribuio de cada item
nos trs construtos.

4.4.2. Anlise das variveis por especialistas e suas respectivas relaes


com os construtos da DT
Em escalas que medem caractersticas no tangveis, como crenas e atitudes,
as opinies de peritos, em termos de sua relevncia, podem ajudar a estabelecer sua
validade de contedo. A definio de como um conjunto de itens corresponde a
determinados construtos de uma teoria pode ser feita com auxlio de especialistas usando,
por exemplo, um questionrio de avaliao e classificao dos itens (HAIR et al., 2009).
Com esse pressuposto, aps a obteno da lista inicial de variveis, a mesma
foi submetida, por meio de questionrio on-line, a professores atuantes na EAD em trs
instituies de ensino superior (IES) vinculadas UAB. Alm das questes pertinentes
aos construtos, uma introduo com um breve resumo da Teoria da Distncia

118
Transacional foi apresentada para que os professores tivessem uma melhor
contextualizao das perguntas do questionrio.
A inteno foi pedir que esses professores associassem cada uma das
variveis apresentadas a algum(ns) ou nenhum dos construtos da DT. Assim, para cada
uma das variveis listadas, o professor podia fazer associaes da mesma com os
construtos ou ento, caso assim percebesse, assinalar a opo nenhum entre as respostas
possveis.
No questionrio, tambm foi disponibilizado um campo tipo texto para o
professor, caso, assim, desejasse acrescentar algum comentrio ou mesmo propor uma
nova varivel no listada no instrumento de coleta. O questionrio aplicado com as
respectivas frequncias de cada resposta encontra-se no Apndice A deste texto.

4.5. Etapa 03: Preparao dos Dados - Anlise Fatorial Confirmatria


A partir da definio dos construtos feita pelos especialistas, os dados das
variveis de cada construto foram extrados da base de dados, e submetidos a um processo
de anlise multivariada de dados, para validao de sua adequao teoria.
O procedimento para verificar a aderncia dos dados teoria foi feito a partir
de uma Anlise Fatorial Confirmatria (CFA, do ingls Confirmatory Factor Analysis),
como uma das tcnicas de Modelagem de Equaes Estruturais (SEM, do ingls
Structural Equation Modeling), cuja validao de construtos umas das suas principais
aplicaes. Esse tipo de anlise parte da premissa de que j se tem uma teoria sobre quais
variveis medem quais construtos (fatores) e que se quer confirmar o grau de ajuste dos
dados observados teoria que foi baseada (BROWN, 2015). Nesse caso, buscou-se um
modelo de ajuste dos dados Teoria da Distncia Transacional, identificando quais as
variveis coletadas no banco de dados do Moodle poderiam melhor representar cada
construto da teoria.
A Analise Fatorial Confirmatria tornou-se uma anlise multivariada popular
entre pesquisadores em um intervalo de tempo relativamente pequeno, pois ela prov uma
maneira conceitual atraente para se testar uma teoria. Se um pesquisador pode expressar
uma teoria a partir de relaes entre variveis medidas (observadas) e construtos latentes
(no observados), ento a CFA pode avaliar quo bem a teoria ajusta-se realidade,
quando essa for representada por dados. A modelagem feita a partir de um estimador
definido conforme a normalidade ou no dos dados (HAIR et al., 2009).

119
Essa tcnica estatstica no designa variveis a fatores (construtos). Ao invs
disso, o pesquisador deve ser capaz de fazer essa designao inicialmente, antes que
quaisquer resultados possam ser obtidos. A tcnica ento aplicada para testar o grau em
que a distribuio feita pelo pesquisador se ajusta aos dados reais. Assim, a CFA nos diz
quo bem a especificao dos fatores combina com a realidade, permitindo, em certo
sentido, confirmar ou rejeitar a teoria pr-concebida.
A partir da CFA, as relaes entre as variveis e construtos so modeladas em
uma srie de regresses lineares, utilizando, para isso, uma matriz de covarincias. Assim,
pode-se rever o modelo gerado e ajust-lo seguidamente, ligando construtos e variveis
de outras formas na busca de melhores ajustes. Nessa abordagem, a carga fatorial de cada
varivel em relao ao seu construto representa o seu coeficiente na equao estrutural,
como numa regresso linear. A carga fatorial a correlao entre as variveis originais e
os fatores, possibilitando a compreenso mais detalhada de um fator sob o ponto de vista
dos dados que o compem.
Uma das maiores vantagens da CFA sua habilidade em avaliar a validade
de construtos associados a uma teoria. Validade de construto o grau em que um conjunto
de itens medidos realmente reflete o construto latente terico que aqueles itens devem
medir (HAIR et al., 2009).
Neste estudo, tambm foram seguidas as recomendaes de Jackson et al.
(2009) para realizao de uma CFA:
1. A formulao terica baseada na Teoria da Distncia Transacional, com a
especificao do modelo inicial a ser testado. Nesse caso, as variveis
previamente definidas e distribudas na etapa anterior pelos especialistas
(subseo 4.4.2) foram utilizadas para formar os trs construtos da teoria da
DT;
2. A coleta e preparao dos dados obtidos na base de dados do Moodle da UPE,
com verificao de normalidade, valores em falta, outliers, entre outros;
3. As decises da anlise inicial dos dados, por exemplo: tipo da matriz a ser
analisada (covarincia ou correlao), ferramenta estatstica e estimador a
serem utilizados; e

120
4. Critrios para avaliao do modelo: verificao se os ndices de qualidade de
ajuste (Goodness-of-Fit (GOF)), ndices de ajuste incremental e ndices de erro
mdio esto com valores compatveis com os recomendados na literatura.
O modelo fatorial confirmatrio pode tambm ser representado por meio de
um path diagram, na qual os crculos representam as variveis latentes e os quadrados
representam as variveis observadas, facilitando uma rpida visualizao e interpretao
do modelo, como no exemplo da Figura 22.
Figura 22 Exemplo de um diagrama de caminhos em uma SEM/CFA.

Fonte: (HAIR et al., 2009).


O exemplo ilustra um modelo com dois (2) construtos latentes (1 e 2), cada
um com quatro (4) variveis observadas (Xn) com suas respectivas cargas fatoriais
estimadas (n) em relao a seus respectivos construtos e os erros estimados (n)
associados medio da carga fatorial de cada varivel observada. Entre os construtos,
uma seta dupla indica a existncia de covarincia entre os mesmos.

4.5.1. Validao do Modelo Fatorial Confirmatrio


Depois do modelo CFA ser especificado, feita a sua avaliao para verificar
se o mesmo consistente com os dados e se pode, ento, representar a teoria em questo.
Essa avaliao feita a partir da medio dos principais ndices de qualidade de ajuste do
modelo; da anlise das cargas fatoriais obtidas para cada varivel e da interpretao
adequada dos parmetros estimados (HAIR et al., 2009).
A qualidade do ajuste (GOF) da anlise confirmatria indica o quanto o
modelo especificado apresenta similaridade entre as matrizes de covarincia estimada e
observada. Diversas medidas GOF foram desenvolvidas para refletir as vrias facetas da
habilidade do modelo em representar os dados. Geralmente, cada medida GOF
classificada em um dos trs grupos gerais: medidas absolutas, medidas incrementais e

121
medidas de ajuste de parcimnia. A literatura recomenda usar uma combinao de
diferentes ndices dessas medidas, sem apelar para todos, pois existe certa redundncia
entre eles (HAIR et al., 2009).
Medidas de ajuste absoluto - So medidas diretas de quo bem o modelo
especificado pelo pesquisador reproduz os dados observados. Esses ndices no
comparam especificamente a GOF de um modelo com outro modelo e, sim, cada modelo
avaliado independentemente de outros modelos.
A estatstica 2 (qui-quadrado) o ndice bsico de ajuste absoluto. O seu
valor indica o grau de semelhana entre as matrizes esperadas e observadas, onde valores
mais baixos desse indicador indica maiores similaridades entre ambas, ou seja, modelos
melhores ajustados. No entanto, esse ndice apresenta duas propriedades matemticas que
so problemticas em seu emprego como nica medida GOF: a) ela uma funo
matemtica que depende do tamanho da amostra (N) e da diferena entre as matrizes de
covarincia estimada e observada. Quando N aumenta, 2 tambm aumenta; b) o valor de
2 pode ficar maior quando o nmero de variveis observadas aumenta. Por essas razes,
no recomendado usar somente esse ndice como nico indicador de ajuste do modelo
(HAIR et al., 2009).
O 2 normalizado uma medida GOF que representa uma proporo simples
de 2 com o nmero de graus de liberdade (gl) de um modelo. Geralmente, propores
2:gl na ordem de 3:1 so associadas a modelos mais ajustados, exceto nas circunstncias,
envolvendo amostras muito grandes (N>750) (HAIR et al., 2009).
O ndice de qualidade do ajuste (GFI) um ndice que tambm indica um
grau de similaridade entre as matrizes estimada e observada, embora seja menos sensvel
ao tamanho amostral. Esse ndice pode apresentar valores no intervalo de 0 a 1, com
valores mais altos (> 0.90), indicando melhores ajustes (JRESKOG e SRBOM, 1986).
A Raiz do erro quadrtico mdio de aproximao (RMSEA) tambm
outra medida que tenta corrigir a tendncia da estatstica 2 de rejeitar modelos com
amostras grandes ou com grande nmero de variveis. Tambm representa o quanto um
modelo se ajusta a uma populao e no somente a uma amostra usada para estimao.
Ela tenta corrigir a complexidade do modelo e tamanho amostral, incluindo cada um
desses dados na sua determinao. Esse tipo de indicador pertence a uma categoria de
ndices chamados de m qualidade do ajuste, na qual valores altos representam modelos

122
de ajustes ruins. Segundo Hair et al. (2009), valores abaixo de 0.07 so aceitveis para
amostras com N>250 e nmero de variveis maior que 30.
O Gamma hat

tambm tenta corrigir o tamanho amostral e a

complexidade do modelo pela incluso dessas informaes no seu clculo. Valores tpicos
variam entre 0.9 e 1.0.
Medidas de ajuste incremental: Diferem dos ndices absolutos no sentido
que avaliam o quanto um modelo especificado se ajusta relativamente a algum modelo
alternativo de referncia, sendo que o modelo de referncia mais comum chamado de
modelo nulo, pois assume que todas as variveis observadas so no correlacionadas. Os
principais ndices de ajuste incremental usados neste trabalho so descritos a seguir:
O ndice de ajuste normalizado (NFI) representa uma proporo do valor
de 2 para o modelo ajustado e um modelo nulo dividida pelo valor 2 para o modelo nulo.
Seu valor est entre 0 e 1, sendo o ajuste perfeito correspondente a um NFI=1.0.
O ndice de ajuste comparativo (CFI) tambm um ndice de ajuste
incremental normalizado, como uma verso melhorada e estendida do NFI para incluir a
complexidade do modelo no clculo do indicador (HU e BENTLER, 1999). Valores
abaixo de 0.90, geralmente, no so associados a um bom modelo ajustado (Hair et al.
2009).
O ndice de Tucker Lewis (TLI) conceitualmente semelhante ao CFI, pois
tambm envolve uma comparao matemtica de um modelo terico especificado com
um modelo nulo de referncia (TUCKER e LEWIS, 1973). Como o TLI no
normalizado, seu valor pode ficar abaixo de 0 e acima de 1. No entanto, modelos com
bom ajuste tm valores que se aproximam de 1.
Medidas de ajuste de parcimnia: Este grupo de ndices foi especificamente
planejado para fornecer informaes sobre qual modelo, entre um grupo de modelos
concorrente, melhor, considerando seu ajuste relativo a sua complexidade. Esses ndices
so conceitualmente parecidos com a noo do R2 ajustado dos modelos de regresso; no
sentido, relacionam modelos com sua complexidade (HAIR et al., 2009).
Os principais ndices dessa categoria so: o ndice de qualidade de ajuste
de parcimnia (PGFI) e o ndice normalizado de parcimnia (PNFI). Como nesse
trabalho avaliamos um nico modelo em vrios ciclos de ajustes, esses ndices no so
teis para essa avaliao.

123
Na avaliao do modelo, as seguintes medidas de qualidade de ajuste entre o
modelo proposto e os dados da amostra foram utilizadas: ndice 2 /gl (razo entre o quiquadrado e n de graus de liberdade dos dados), o Gamma hat, o CFI (ndice de ajuste
comparativo), GFI (ndice de qualidade do ajuste), TLI (ndice de Tucker-Lewis) e o
RMSEA (Raiz do erro quadrtico mdio de aproximao).

4.5.2. Conjunto representativo de variveis para cada construto da


distncia transacional
Os resultados finais da CFA apontam para cada construto da DT, um conjunto
representativo de variveis, que servir como referncia para novas observaes e
previses, de acordo com o propsito educacional que se queira aplicar teoria. Tal
conjunto, embora reflita os dados analisados no estudo, deve permitir uma certa
flexibilidade na adequao das variveis para possibilitar seu uso em outros cursos EAD
na mesma ou em outras IES.
Em todas as etapas da Anlise Fatorial Confirmatria, foi usado o software R
como ferramenta estatstica. Inicialmente, foi feito o teste de normalidade dos dados
usando o pacote MVN15, para definio do estimador adequado. Nos procedimentos
seguintes da CFA, foram usados os pacotes lavaan16 e semPlot17.

4.6. Etapa 04: Modelagem - Minerao de dados educacionais para definio


do modelo preditivo da evaso
A partir da definio das variveis representativas para cada um dos
construtos, os conjuntos de dados dos dois cursos com essas variveis, foram preparados
para a etapa de modelagem. Os mesmos foram submetidos ao processo de minerao de
dados educacionais, para extrao de conhecimento relevante acerca de um modelo que
pudesse prever, com relevante taxa de acerto, a situao de evaso para cada aluno
matriculado. Como posto na seo 3.1, o modelo de minerao utilizado nesta pesquisa
foi o preditivo, associado tarefa de classificao, utilizando cinco mtodos e seus
respectivos algoritmos classificadores.
A classificao o processo de encontrar um modelo (ou funo) que
descreve e distingue classes de dados ou conceitos. O modelo derivado a partir da
anlise de um conjunto de dados de treino (i.e., objetos de dados para os quais so
15

http://www.biosoft.hacettepe.edu.tr/MVN/
http://lavaan.ugent.be/
17
https://cran.r-project.org/web/packages/semPlot/semPlot.pdf
16

124
conhecidos os rtulos de cada classe). O modelo usado para prever o rtulo da classe de
objetos para os quais a classe, ainda, desconhecida (HAN et al., 2011).
Para Mrquez-Vera et al. (2016), os algoritmos de classificao so as
tcnicas de minerao de dados mais aplicadas para a previso de abandono escolar do
aluno.
Na definio dos classificadores a serem utilizados nesta pesquisa, optou-se
por usar um algoritmo de cada uma das principais categorias de classificadores: rvore
de deciso, redes neurais, mquina de vetor de suporte, classificador baseado em
instncias e classificador probabilstico. A inteno foi comparar os principais ndices
de avaliao dos modelos preditivos e, a partir dessa anlise, definir qual o classificador
a ser adotado nas demais fases da pesquisa. Foram, ento, escolhidos os seguintes
classificadores: rvore de Deciso, SVM, Rede Neural, kNN e Regresso Logstica. Essas
escolhas foram baseadas em importantes trabalhos de reviso da literatura de EDM
(BAKER e YACEF, 2009; PEA-AYALA et al., 2009; ROMERO e VENTURA, 2010
e PEA-AYALA, 2014a), que apontam esses classificadores como os predominantes em
pesquisas na rea.
O processo de classificao binria envolveu um clculo da probabilidade,
pelo classificador, de um objeto de dados em anlise pertencer classe 1 (neste caso, com
alto risco de evaso) ou 0 (baixo risco de evaso). O valor divisor de classes para essa
probabilidade chamado de limiar de deciso (ou ponto de operao). Em todos os
classificadores testados, utilizou-se o limiar de deciso igual a 0,5, onde os objetos com
probabilidades acima desse limiar seriam classificados como alto risco de evaso. Nas
subsees seguintes, apresentado um detalhamento de cada classificador com as
ferramentas usadas nas suas respectivas aplicaes.

4.6.1. rvore de Deciso


Uma rvore de deciso um modelo de classificao estruturado em forma
de rvore, que fcil de entender, mesmo por usurios leigos e pode ser eficientemente
induzido a partir de dados. A induo de rvores de deciso uma das tcnicas mais
antigas e populares para aprender modelos discriminatrias, que tem sido desenvolvido
de forma independente nas comunidades de estatstica e de aprendizagem de mquina
(SAMMUT e WEBB, 2011).

125
No contexto de resoluo de tarefas de classificao, uma rvore de deciso
representa o modelo capaz de guiar a tomada de deciso sobre a determinao da classe
qual um exemplar dos dados pertence.
A construo do modelo (rvore) realizada por meio de um algoritmo que
analisa interativamente os atributos descritivos de um conjunto de dados previamente
rotulados, constituindo o processo de aprendizagem do modelo do classificador (SILVA
et al., 2016).
Os principais algoritmos para construo de rvores de deciso so o C4.5
(QUINLAN, 1993) e o Classification and Regression Trees (CART) (BREIMAN et al.,
1984). Ambos algoritmos adotam uma abordagem "gulosa" na qual as rvores so
construdas de forma recursiva top-down, com o mtodo de dividir e conquistar. O
conjunto de treino recursivamente dividido em subconjuntos menores quando a rvore
est sendo construda (TAN et al., 2009).
Nesta pesquisa, foi usado o algoritmo CART (BREIMAN et al., 1984) para
definio do modelo classificador baseado em rvore de deciso. O CART foi escolhido
por ter sua implementao simplificada, com baixo tempo de execuo, alm de
possibilitar uma anlise da contribuio de cada varivel independente no modelo
preditor. Esse algoritmo implementado no software R por meio do pacote rpart18.

4.6.2. Mquina de Vetor de Suporte (SVM)


Essa tcnica/algoritmo possui seus fundamentos na teoria de aprendizagem
estatstica e tem mostrado resultados empricos promissores em aplicaes prticas de
aprendizagem de mquina, desde o reconhecimento de manuscritos at a categorizao
de textos. SVM tambm funciona bem com dados de alta dimensionalidade. Permite,
ainda, modelar situaes no lineares complexas gerando modelos de simples
interpretao, podendo ser usada para relaes lineares e no lineares, entre outros.
utilizada tanto para tarefas de classificao quanto de predio (TAN et al., 2009).
Uma SVM pode ser imaginada como uma superfcie que define uma fronteira
entre os vrios pontos de dados plotados, que representam no espao multidimensional
de acordo com as caractersticas de seus valores. O objetivo de uma SVM o de criar um
limite de plano, chamado um hiperplano, que leva a parties de dados, razoavelmente,

18

https://cran.r-project.org/web/packages/rpart/index.html

126
homogneas em ambos os lados. A partir desse limite, novos dados so classificados a
partir da aplicao da funo gerada no modelo e a posio do novo ponto de dados na
superfcie delimitada, indicar a qual classe o mesmo pertence (LANTZ, 2013).
A implementao no R da SVM usada neste trabalho foi a do pacote
kernlab19, que utiliza o mtodo Sequential Minimal Optimization (SMO), proposto
por Platt (1999) para aplicaes de SVM em grandes conjuntos de dados. Essa a
implementao padro do algoritmo.

4.6.3. Rede Neural Artificial


Anloga estrutura do crebro humano, uma rede neural artificial composta
de um conjunto interconectado de ns e ligaes direcionadas de modo a perceber, a partir
de um conjunto de dados para treinamento, que caractersticas prevalecem em cada grupo
de dados e que so relevantes para discriminar os dados, obtendo-se, dessa forma, um
modelo para classificar novos dados (TAN et al., 2009).
Uma rede neural artificial normalmente organizada em camadas. Camadas
so compostas por uma srie de "ns" interligados que contm uma funo de ativao.
Os padres so apresentados rede por meio da "camada de entrada", que se comunica
com um ou mais camadas ocultas, nas quais o processamento real feito por meio de
um sistema de conexes ponderadas. Essas camadas ocultas so conectadas a uma camada
de sada. medida que os dados de treino so processados, a rede ajusta os pesos dessas
conexes para aumentar o seu poder de classificao, produzindo sadas mais eficientes.
Para realizar a classificao utilizando rede neurais artificiais no software R,
foi usado o pacote nnet20, que possui nica camada oculta e com propagao da
informao do tipo feedforward, que foi tambm usada em alguns trabalhos relacionados
analisados (LYKOURENTZOU et al., 2009; YUKSELTURK et al., 2014; RIGO et al.,
2014; CAMBRUZZI, 2014), para fins de comparao de resultados. Nesse tipo de rede,
a informao se move em apenas uma direo, para a frente, a partir dos ns de entrada,
por meio dos ns escondidos at os ns de sada. No h ciclos ou loops na rede.

19
20

https://cran.r-project.org/web/packages/kernlab/kernlab.pdf
https://cran.r-project.org/web/packages/nnet/nnet.pdf

127

4.6.4. k-Nearest Neighbors (kNN)


O kNN implementa o aprendizado baseado em instncias, o que significa que
a classificao de um novo exemplar, cuja classe desconhecida, ser realizada a partir
da comparao desse exemplar com os casos j conhecidos. O princpio usado nesse
algoritmo o de estocar o conjunto de treinamento e realizar comparaes entre o
exemplar de teste e os exemplares estocados. Esse estilo de processamento pode consumir
muito tempo, dependendo da quantidade de exemplares do conjunto de treinamento
classificador (SILVA et al., 2016).
H trs elementos-chave desta abordagem: um conjunto de objetos rotulados
por classes (por exemplo, um conjunto de registros armazenados), uma distncia ou
semelhana como mtrica para calcular a distncia entre objetos e o valor de k, o nmero
de vizinhos mais prximos. Para classificar um objeto no marcado, a distncia desse
objeto para os objetos rotulados calculada, seus vizinhos k-mais prximos so
identificados, e os rtulos de classe desses vizinhos mais prximos so, ento, usados
para determinar o rtulo da classe do novo objeto (WU et al., 2008).
A escolha do parmetro k deve ser feita criteriosamente e, no raramente,
exige um trabalho de verificao dirigida ao problema analisado. A escolha de um k
pequeno pode levar o algoritmo a uma alta sensibilidade a rudo; a escolha de um k grande
pode levar a um aumento na diversidade de classes includas no conjunto dos k
exemplares selecionados para a contagem da classe mais frequente.
Por ser um algoritmo baseado em um mtodo bastante comum em anlises
preditivas (SILVA et al., 2016), o kNN tambm foi escolhido para ser testado com os
dados desta pesquisa. A anlise do kNN no software R para esta pesquisa foi feita a partir
do uso do pacote caret21, que possui um conjunto de mtodos para definio de diversos
modelos de classificao e regresso.

4.6.5. Regresso Logstica


A Regresso Logstica uma generalizao da regresso linear. usada
principalmente para prever variveis dependentes binrias ou de mltiplas classes. Como
a varivel de resposta discreta, ela no pode ser modelada diretamente por regresso

21

https://cran.r-project.org/web/packages/caret/caret.pdf

128
linear. Portanto, em vez de prever uma estimativa de ponto do evento em si, o modelo
baseia-se para prever a probabilidade de sua ocorrncia (EN et al., 2012).
Em funo da necessidade da produo de sadas dicotmicas pelo modelo, a
regresso linear mltipla no pode ser aplicada nesse tipo de anlise, por causa dos
resduos do modelo no atenderem s suposies requeridas para a regresso linear:
varincia constante, mdia zero e normalidade dos dados (PARDOE, 2012).
Em um problema de duas classes, a probabilidade maior que 50% significa
que o processo atribudo classe designada como '1 ', caso contrrio, ' 0 '. Quando a
varivel de resultado tem mais de dois valores, o algoritmo ajustado para discriminar
entre todos os valores da varivel de sada e, portanto, chamada de regresso logstica
mltipla nominal (EN et al., 2012).
A utilizao crescente de modelos baseados em funes logsticas em razo
da sua flexibilidade e facilidade no seu uso e na interpretao dos resultados. A influncia
de cada fator no modelo detalhada e permite que sejam tomadas decises associadas a
esses fatores (HOSMER JR et al., 2013).
Tradicionalmente, os modelos estatsticos como regresso logstica e anlise
discriminante so usados com mais frequncia em estudos para identificar os fatores de
reteno e as suas contribuies para o abandono do estudante (KOVACIC, 2010).
O estudo sobre o estado da arte em EDM, feito por Pea-Ayala (2014),
tambm destacou o uso da regresso logstica em anlises preditivas em contextos
educacionais como: modelagem do estudante, modelagem do comportamento do
estudante, modelagem de desempenho, avaliao, suporte e feedback para os estudantes.
A aplicao da regresso logstica nesta pesquisa foi a partir do uso da funo
glm (Generalized Linear Models) integrante do core do software R. Esse mtodo
permite a gerao de diferentes modelos a partir da sua parametrizao. Para a regresso
logstica, os parmetros family=binomial (link="logit") foram passados na funo
glm, indicando a realizao do modelo de regresso pretendido na anlise.
Todos os scripts dos classificadores usados esto no Apndice B deste
trabalho.

129

4.7. Etapa 05: Avaliao dos modelos preditivos


Uma questo importante, no uso de classificadores, a avaliao do seu
desempenho no processo de predio de classes para novos conjuntos de dados. Vrias
mtricas foram desenvolvidas e so usadas de acordo com o contexto dos dados e dos
objetivos da minerao. No h sentido em afirmar que tal classificador sempre o
melhor, pois o comportamento dos dados em cada classe que vai determinar qual o
modelo gerado por um classificador que melhor se ajusta aos dados.
Independente da medida de avaliao a ser usada para avaliar a qualidade de
um modelo, no adequado avali-lo por seu desempenho em relao aos dados usados
no processo de treinamento (induo). O ideal e necessrio saber como se comporta o
modelo quando aplicado a novos dados, ou seja, diferente dos usados na sintonizao dos
seus parmetros (SILVA et al., 2016).
muito comum os experimentos com classificadores usarem uma mesma
base de dados, a qual dividida em duas partes (dados de treinamento e dados de testes)
ou em trs partes (treinamento, validao e testes). Nesse caso, o modelo gerado precisa
passar por um processo de validao interna, para garantir que a diviso dos dados no
induziu a modelos mais ou menos ajustados. Essa validao pode ser feita a partir de
quatro estratgias: resubstituio, holdout, validao cruzada e bootstrap. De maneira
geral, todas visam assegurar que os subconjuntos de dados de treinamento e teste sero
escolhidos de modo aleatrio, para no gerar uma tendncia para determinada classe no
processo de induo do classificador.
No caso desta pesquisa, conforme detalhado na Seo 4.3, foram utilizadas
duas bases distintas para o treinamento e os testes de cada classificador. Assim, a
avaliao dos modelos gerados por cada um dos classificadores usados nesta pesquisa foi
feita a partir de mtricas consagradas na literatura de aprendizagem de mquina e
minerao de dados (BAKER e INVENTADO, 2014). As mtricas usadas so detalhadas
nas subsees a seguir.

4.7.1. Matriz de confuso e mtricas associadas


Um modelo de classificao (ou classificador) um mapeamento de
instncias para classes previstas. Alguns modelos de classificao podem produzir uma
sada contnua (por exemplo, uma probabilidade de uma instncia pertencer a uma
determinada classe), para os quais valores limiares diferentes podem ser aplicados para

130
discretizar a probabilidade e, ento, prever a classe. Outros modelos j produzem sadas
discretas indicando apenas a classe predita da instncia (FAWCETT, 2006; SILVA et al.,
2016).
Para distinguir entre a classe real e a classe prevista, so usados os rtulos (P,
N) para as previses de classe produzidos por um modelo. Dado um classificador e uma
instncia a classificar, h quatro resultados possveis:

Se a instncia positiva e classificada corretamente como positiva, ela contada


como um verdadeiro positivo (VP);

Se a instncia positiva e classificada incorretamente como negativa, contada


como um falso negativo (FN);

Se a instncia negativa e classificada corretamente como negativa, contada


como um verdadeiro negativo (VN); e

Se a instncia negativa e classificada incorretamente como positiva, contada


como um falso positivo (FP).
Dados um classificador e um conjunto de instncias (o conjunto de teste),

uma Matriz de Confuso de dimenses 2 x 2 (tambm chamado de tabela de


contingncias) pode ser construda representando as disposies do conjunto de instncias
para as duas classes. Esta matriz (Figura 23) forma a base para muitas mtricas comuns
de avaliao para os classificadores binrios (FAWCETT, 2006; SILVA et al., 2016).
Figura 23 Matriz de Confuso.

Classe
Predita
(Modelo)

Classe Verdadeira (Referncia)

Negativo
Positivo

Negativo
VN
FP

Positivo
FN
VP

Fonte: Adaptado de (FAWCETT, 2006).

Na classificao binria, a classe de menor ocorrncia denotada como a


classe positiva. A partir da Matriz de Confuso obtida aps a classificao de todas as
instncias da base de testes, pode-se, ento, obter as seguintes mtricas que avaliam o
poder preditivo do classificador (FAWCETT, 2006; TAN et al., 2009; SILVA et al.,
2016):
Acurcia (Accuracy) - Representa a taxa de acerto de todo o classificador e
obtida pela razo entre a soma dos acertos das duas classes e o nmero total de instncias
classificadas. obtida pela expresso:
Acurcia = (VP + VN) / (VP + VN + FP + FN)

131
Obviamente, o melhor caso esperado para uma matriz de confuso o
preenchimento apenas da diagonal principal, o que resultaria em uma acurcia de 100%.
Preciso (Precision) - Representa a preditividade positiva, que o percentual
de acertos de verdadeiros positivos dentre todos os exemplos classificados como
positivos. Sua expresso :
Preciso = VP / (VP + FP)
Quanto maior a preciso, menor o erro de falsos positivos cometidos pelo
classificador.
Sensibilidade (Recall) - Indica a taxa de verdadeiros positivos, ou seja, o
percentual de verdadeiros positivos previstos corretamente pelo classificador.
Recall = VP / (VP + FN)
Um alto recall indica que o classificador produziu poucos exemplos positivos
classificados como falso negativos.
Muitas vezes, os modelos so desenvolvidos para que uma dessas mtricas
(precision e recall) seja otimizada. Por exemplo, um modelo que declare todas as
instncias como sendo positiva ter um timo recall, mas uma baixa preciso. De maneira
oposta, um modelo que classifique como positiva cada instncia de teste possui uma alta
preciso, mas um baixo recall. Construir um modelo que busque alto valores para ambas
as mtricas um desafio para os algoritmos de classificao.
Especificidade - Fornece a taxa de verdadeiros negativos, ou seja, o
percentual de instncias previstos corretamente como verdadeiros negativos. obtida
por:
Especificidade = VN / (VN + FP)
Taxa de Falsos Positivos - Indica o percentual de instncias negativas
previstas incorretamente como verdadeiros positivos.
TFP = FP / (FP + VN)
Taxa de Falsos Negativos - Indica o percentual de instncias positivas
previstas incorretamente como verdadeiros negativos.
TFN = FN / (FN + VP)

132
Para a obteno da Matriz de Confuso, foi usada a funo confusionMatrix
do pacote caret do R. Alm da matriz, a funo tambm retorna s suas mtricas e
estatsticas associadas.

4.7.2. Curva ROC


Outra importante mtrica para anlise de classificadores binrios so os
grficos ROC (Receiver Operating Characteristics). Esse tipo de curva uma abordagem
grfica para exibir o balanceamento entre a taxa de falsos positivos (eixo x) e a taxa de
verdadeiros positivos (eixo y) de um classificador (FAWCETT, 2006).
Um modelo de classificao representado por um ponto no espao
bidimensional do grfico ROC. O ponto no espao ROC correspondente a um modelo de
classificao obtido a partir do clculo da taxa de verdadeiros e falsos positivos desse
modelo a partir da sua matriz de contingncia (PRATI et al., 2008).
O grfico ilustra como um classificador se posiciona em relao sua
inabilidade para evitar falsos alarmes e sua habilidade em detectar a classe positiva
corretamente (SILVA et al., 2016). A Figura 24 mostra um exemplo de curvas ROC para
dois classificadores. Cada ponto na curva corresponde a um dos modelos induzidos pelo
classificador.
Figura 24 Curvas ROC para dois classificadores diferentes

C
Taxa de Verdadeiros Positivos (TVP)

Taxa de Falsos Positivos (TFP)

Fonte: Adaptado de TAN et al. (2009).

Existem alguns pontos referenciais na Curva ROC cujas interpretaes so


conhecidas (TAN et al., 2009):

133
A. TVP=0, TFP=0: O modelo prev que toda instncia seja uma classe
negativa.
B. TVP=1, TFP=1: O modelo prev que toda instncia seja uma classe
positiva.
C. TVP=1, TFP=0: O modelo ideal
Um bom modelo de classificao deve estar localizado o mais prximo
possvel do vrtice superior esquerdo do grfico, enquanto que um modelo que s faa
suposies aleatrias deve estar localizado na diagonal principal do grfico. Essa
suposio aleatria faz com que o modelo classifique como positivo uma instncia,
independente dos valores dos seus atributos. Qualquer modelo que faa classificaes
abaixo dessa diagonal tem desempenho pior do que o classificador aleatrio (FAWCETT,
2006).
A curva ROC til para comparar o desempenho relativo entre diferentes
classificadores. Na Figura 24, o classificador do modelo M1 melhor que M2 quando a
TFP for menor que, aproximadamente, 0,36. Acima desse ponto, M2 torna-se superior.
Pelas curvas, no se pode afirmar qual dos classificadores prevalece sobre o outro (TAN
et al., 2009).
A rea sob a Curva ROC fornece uma outra abordagem para avaliar qual o
modelo tem melhor desempenho como classificador.
Como uma curva ROC uma representao bidimensional do desempenho
do classificador, necessrio transformar a curva ROC a um nico valor escalar
representando o desempenho esperado, para, ento, poder comparar classificadores. Um
mtodo comum calcular a rea da regio sob a curva ROC, chamada de AUC (Area
Under Curve). Uma vez que a AUC uma poro da rea da unidade de quadrado, o seu
valor ir sempre estar entre 0,0 (pior caso) e 1,0 (modelo ideal). No entanto, por causa da
suposio aleatria que produz a linha diagonal entre (0, 0) e (1, 1) e uma rea de 0,5,
classificadores reais no devem ter uma AUC inferior a 0,5.
Assim, usando essa mtrica, um modelo que seja melhor do que outro, tem
um AUC maior (FAWCETT, 2006). Em Hanley e McNeil (1982), mostrado que essa
rea numericamente equivalente estatstica de Wilcoxon. A AUC uma mtrica
tradicional de desempenho, com um bom respaldo na literatura (BRADLEY, 1997;
DUDA et al., 2012; LING et al., 2003; PROVOST e FAWCETT, 2001) e, muitas vezes,
adotada como suficiente para comparar classificadores.

134
Para gerao da Curva ROC e clculo da respectiva AUC de cada
classificador, foi usado o pacote ROCR22 do R. Na plotagem do grfico comparativo
das Curvas ROC dos classificadores usados nesta pesquisa, foram usados os pacotes
plotROC23 e ggplot224.

4.8. Etapa 06: Implantao - Implementao e testes do modelo escolhido


O ltimo passo na metodologia CRISP-EDM implica a implementao e
utilizao do modelo construdo por meio de minerao de dados. A partir das
experincias com as etapas anteriores, o modelo foi construdo e includo em um mdulo
experimental de anlise de evaso. Os resultados do modelo sero usados para buscar
solucionar o problema identificado na fase de entendimento do domnio (monitoramento
da evaso). Os resultados devem ser apresentados no formato de fcil utilizao e
preparados para uso para gestores, professores e tutores. O modelo final deve manter a
maior preciso preditiva e, se for para ser usado continuamente, deve ser regularmente
atualizado, especialmente se algumas mudanas estruturais ocorrem nos cursos ou se
novas variveis podem ser incorporadas ao modelo.
Desenvolveu-se a implementao do modelo como uma ferramenta
computacional, para ser testada a sua efetividade, enquanto instrumento para subsidiar
tomadas de decises por seus usurios, acerca de procedimentos de verificao e
acompanhamento de alunos com risco de evaso. Embora o modelo obtido e validado
seja dependente dos dados analisados, a sua capacidade de induzir em seus usurios
tomadas de decises corretas, assegura a sua utilidade.

4.8.1. Desenvolvimento da aplicao para anlise de evaso


Com o objetivo de possibilitar a identificao precoce dos alunos com risco
de evaso, assim como os indicadores que esto influenciando nesse risco, uma aplicao
piloto foi desenvolvida, como um componente de software, que dever funcionar
integrado ao ambiente virtual de aprendizagem. No caso deste estudo, foram usados os
mesmos dados para definio do modelo preditivo de evaso (Base de Testes).
A aplicao em formato de Dashboard na qual os usurios (professores,
tutores e gestores) tm acesso a vrias visualizaes dos dados, sejam eles genricos sobre

22

https://cran.r-project.org/web/packages/ROCR/ROCR.pdf
https://cran.r-project.org/web/packages/plotROC/plotROC.pdf
24
https://cran.r-project.org/web/packages/ggplot2/ggplot2.pdf
23

135
as turmas ou ento j com a aplicao do modelo de previso da evaso. A inteno
fornecer uma srie de grficos de rpida e fcil interpretao, que consolide os dados de
cada disciplina nos cursos. A arquitetura proposta para a implementao da ferramenta
apresentada na Figura 25.
O principal componente dessa arquitetura o framework Shiny. Este um
pacote do software R que facilita o desenvolvimento de aplicaes web e que usa o
prprio R como motor de funes matemticas, estatsticas, de minerao entre outras.
Com ele, possvel construir interfaces interativas de maneira simples, sem a necessidade
de conhecimentos avanados em tecnologias de desenvolvimento web, como HTML, CSS
ou JavaScript. Isso alcanado por meio de componentes pr-construdos, os quais
facilitam a implementao de interfaces com pouco esforo (BAVARESCO e ROSA,
2015).
Figura 25 Arquitetura da implementao do modelo preditivo de evaso.

Fonte: Elaborado pelo Autor (2016).


O Shiny combina o poder computacional do R com a interatividade da web,
tornando-se uma opo interessante para uso em computao cientfica e visualizao de
dados. O site oficial do framework25 disponibiliza diversos tutoriais, artigos e exemplos
de aplicaes, que podem ser utilizados como guias para o desenvolvimento de novas
solues para visualizaes de dados (SILVA et al., 2016).
O modelo do classificador obtido pela regresso logstica foi incorporado aos
scripts do Shiny para gerao do Dashboard, tornando o processo de classificao
automatizado e transparente para os usurios. Para isso, os objetos de dados definidos

25

http://Shiny.rstudio.com/

136
pelo classificador na classe 1 (Evadiu) foram rotulados na aplicao para Alto Risco e os
definidos como classe 0 (No evadiu) como Baixo Risco.
Na implementao da aplicao piloto, foi usado o processo de prototipao.
Este consiste na construo de um modelo (prottipo) do sistema a ser implementado. No
processo de desenvolvimento de sistemas de informao, os prottipos so utilizados para
auxiliar os projetistas e desenvolvedores a construir aplicaes que sejam intuitivas e de
fcil utilizao por parte de seus usurios (ROGERS et al., 2013).
Foram desenvolvidos modelos conceituais da aplicao, nos quais foram
especificadas as telas e componentes essenciais da interface, bem como a navegao entre
elas. A prototipao foi realizada em duas etapas: 1) Prototipao inicial em baixa
fidelidade, a partir de elaborao de mockups com base nos dados e modelo
desenvolvidos; e 2) Prototipao em alta fidelidade, a partir da avaliao e ajustes dos
prottipos iniciais.
Na prototipao inicial, foram desenhadas as principais telas da aplicao,
com a disposio de diversos dos componentes (menus, abas, grficos e tabelas) em um
layout inicial para anlise e avaliao por usurios que atuam na EAD. Para o design
desses prottipos de baixa fidelidade, foi utilizada a ferramenta on-line Balsamiq26.
Na prototipao em alta fidelidade, os ajustes e sugestes obtidas na
prototipao inicial foram incorporadas na aplicao. Todas as funcionalidades da
aplicao puderam ser testadas em uma aplicao funcional, implementada usando o
Shiny e os pacotes para gerao de grficos rcharts e plotly.

4.8.2. Testes com usurios


Na implementao, a participao de potenciais usurios da ferramenta nas
duas etapas de desenvolvimento foi essencial para que fossem coletadas opinies,
diagnosticadas falhas e obtidas sugestes de melhorias da aplicao.
Os prottipos foram submetidos a testes com usurios especialistas, visando
detectar possveis problemas na gerao das visualizaes, alm de verificar a
consistncia da navegao e possveis erros na execuo de tarefas simples. As falhas
observadas e as contribuies fornecidas foram analisadas, ajustadas e vrias j foram
incorporadas verso funcional da aplicao.

26

https://balsamiq.com/index.html

137
Dois testes foram realizados com um grupo de usurios. O primeiro teste teve
o objetivo de analisar as expectativas iniciais com o prottipo de baixa fidelidade e a
experincia do usurio com o prottipo de alta fidelidade. Um segundo teste foi composto
por uma execuo de tarefas determinadas, usando o prottipo de alta fidelidade, para
avaliao de questes relativas usabilidade e entendimentos dos grficos apresentados
para tomada de decises. O fluxo dos testes apresentado na Figura 26.
Para os testes com usurios, foi usada uma amostra composta por 20
professores e tutores voluntrios, vinculados a quatro IES pblicas, que oferecem cursos
a partir da UAB: UPE, UNIVASF, UFRPE e IFPE. Todos possuam pelo menos um ano
de atuao na funo de professor ou tutor em EAD e com experincia no AVA Moodle.
Antes da execuo dos testes, foi feita uma apresentao geral da pesquisa,
abordando aspectos como: a Teoria da Distncia Transacional e a coleta de dados para
representar os seus construtos; o processo de predio da evaso dos alunos e a proposta
da ferramenta computacional de monitoramento e anlise da evaso em cursos por EAD.
Figura 26 Fluxo do processo de avaliao dos prottipos.

Fonte: Elaborado pelo Autor (2016).


Aps essa apresentao, os voluntrios responderam a um primeiro
questionrio para avaliar a sua expectativa em relao soluo computacional proposta
a partir dos prottipos de baixa fidelidade apresentados.
Em um segundo momento, cada usurio pde usar e explorar livremente, por
cerca de cinco (5) minutos, o prottipo em alta fidelidade implementado, recebendo dicas
de uso e esclarecimentos em eventuais dvidas gerais na utilizao da ferramenta. Aps

138
esse tempo, foi dado um conjunto de tarefas pr-definidas para que o mesmo pudesse
realizar no prottipo e tambm tomar decises hipotticas a partir dos resultados
observados na aplicao. Foi-lhe comunicado que o procedimento seria gravado para
anlises posteriores. Ao final dessa etapa, o voluntrio foi convidado a responder a um
segundo questionrio, dessa vez com o foco na avaliao da sua experincia com a
aplicao.
Na avaliao da atratividade a partir das expectativas e da experincia do
usurio aps o uso da aplicao, foi utilizado o questionrio AttrakDiff27, proposto por
Hassenzahl (2004; 2003) e desenvolvido para avaliao de qualidade e usabilidade de
sistemas sob a perspectiva do usurio (ou potenciais usurios). O questionrio AttrakDiff
contm 28 pares de adjetivos opostos (diferencial semntico), no qual o usurio deve
indicar em uma escala, que vai de -3 a 3, sua percepo ou opinio sobre como eles
experimentaram o sistema proposto ou testado.
Os 28 pares de palavras so agrupados em quatro caractersticas principais na
avaliao de sistemas ou produtos: 1) Qualidade Pragmtica (PQ), que se refere
usabilidade do sistema, ou seja, se os usurios esto conseguindo realizar tarefas e atingir
seus objetivos usando o sistema; 2) Qualidade Hednica Identidade (HQ-I), que
indica o quanto o sistema possibilita que o usurio se identifique com ele; 3) Qualidade
Hednica Estmulo (HQ-S), que permite avaliar o quanto o produto inovador,
desperta interesse e se possui recursos de contedo, interao e apresentao que
estimulam o usurio; e 4) Atratividade (ATT), que funciona como um indicador global
do sistema baseado na percepo de qualidade pelo usurio (HASSENZAHL, 2004).
O modelo de trabalho terico desta avaliao foi pesquisado e testado em
vrios estudos realizados por Hassenzahl e outros (HASSENZAHL, 2003;
HASSENZAHL, 2004; TRACTINSKY e HASSENZAHL, 2005; HASSENZAHL, 2006;
HASSENZAHL e TRACTINSKY, 2006 e BURMESTER e DUFNER, 2006).
Os estudos mostraram que as qualidades hednicas (ligadas s experincias
prazerosas) e as pragmticas (algo prtico e com objetivos definidos) so percebidas de
forma consistente e independente uma da outra. Ambas contribuem igualmente para a
classificao da atratividade do produto.

27

http://www.attrakdiff.de/index-en.html

139
O questionrio AttrakDiff usado nos dois momentos com os usurios
apresentado no Quadro 5.
Quadro 5 Questionrio AttrakDiff para expectativa e experincia do usurio.
Qualidade pragmtica (PQ)
-3 -2 -1 0 1 2 3
Tcnico
Complicado
Impraticvel
Rebuscado
Imprevisvel
Confuso
Desorganizado

Humanizado
Simples
Prtico
Direto
Previsvel
Claramente estruturado
Gerencivel
Qualidade Hednica Identidade (HQ-I)
-3 -2 -1 0 1 2 3
Isolador
Conectivo
Amador
Profissional
Deselegante
Elegante
Inferior
Alto Nvel
Segregador
Integrador
Afasta-me das pessoas
Aproxima-me das pessoas
No apresentvel
Apresentvel
Convencional
Sem imaginao
Cauteloso
Conservador
Entediante
Pouco exigente
Comum

Qualidade Hednica Estmulo (HQ-S)


Inventivo
Criativo
Arrojado
Inovador
Cativante
Desafiador
Original
-3

Desagradvel
Feio
Enfadonho
Rejeitvel
Ruim
Repulsivo
Desmotivador

Atratividade (ATT)
-2 -1 0 1 2

3
Agradvel
Atraente
Simptico
Convidativo
Bom
Atrativo
Motivador

Fonte: Adaptado de HASSENZAHL (2006).

Os resultados do questionrio so apresentados em trs grficos, os quais


permitem visualizar as opinies dos participantes do teste sob diferentes ticas e anlises,

140
ajudando a compreender melhor o quanto o sistema atende ou no s necessidades dos
futuros usurios.
Ao aplicar o questionrio em dois instantes: aps a apresentao dos
prottipos de baixa fidelidade e aps a execuo das tarefas usando a aplicao funcional,
buscou-se identificar diferenas significativas na percepo inicial e avaliao final do
sistema, destacando os pontos nos quais e as diferenas foram mais acentuadas nos dois
momentos, quando a expectativa ficou acima da experincia, indicando certo nvel de
frustrao ou no inverso, indicando caractersticas positivas e estimulantes da aplicao.
Em relao usabilidade do produto, a sua avaliao aconteceu durante o
contato dos usurios com o prottipo funcional de alta fidelidade da aplicao. Segundo
a Norma ISO 9241 (1998), a usabilidade um fator, que assegura que os produtos so
fceis de usar, eficientes e agradveis sob a perspectiva do usurio. Para Rogers et al.
(2013), a usabilidade est ligada criao de interfaces transparentes de maneira a no
dificultar o processo, permitindo ao usurio pleno controle do ambiente sem se tornar um
obstculo durante a sua interao com o sistema.
A avaliao da usabilidade do prottipo de alta fidelidade ocorreu conforme
descrito por Rogers et al. (2013), a partir da observao e registro das aes dos usurios
durante a execuo de tarefas predeterminadas, assim como os seus comentrios acerca
da soluo e de suas tomadas de decises com base nas visualizaes obtidas.
Conforme registrado anteriormente, o prottipo funcional foi disponibilizado,
usando a base de testes, com os dados dos cursos de Biologia e Pedagogia. Na ferramenta,
o usurio pode interagir de diversas maneiras, seja somente visualizando dados gerais
sobre os indicadores das turmas e alunos ou, ento, usando o mdulo especfico de anlise
de evaso, no qual o modelo preditivo aplicado para cada aluno e todas as turmas
disponveis. Nos testes de usabilidade, cada usurio realizou seis tarefas, sendo duas com
o mdulo de viso geral dos dados e quatro no mdulo especfico de anlise de evaso.
A descrio das tarefas apresentada no Quadro 6.

141

Quadro 6 Tarefas realizadas pelos usurios nos testes de usabilidade do prottipo.

EXECUO DE TAREFAS NA APLICAO


Descrio
[MDULO VISO GERAL DOS DADOS ABA GERAL]

a) No curso de Pedagogia, 3 perodo, visualizar o grfico dos dados da disciplina


Metodologia Cientfica.
b) Descobrir no grfico qual a mdia dessa turma em relao ao indicador "Quantidade
de mensagens enviadas por aluno aos professores".

[MDULO VISO GERAL DOS DADOS - ABA INDICADORES]


2

a) No curso de Biologia, 5 perodo, na disciplina Bioqumica II, visualizar o grfico do


indicador " Mdia semanal de acessos do aluno ao ambiente".
b) Identificar qual (ou quais) aluno(s) de maior valor nesse indicador no grfico e dar um
zoom na regio do grfico que mostra esse(s) aluno(s).

[MDULO ANLISE DE EVASO - ABA GERAL]


3

a) No curso de Biologia, 4 perodo, disciplina Zoologia Geral, visualize o grfico somente


com os indicadores do construto DILOGO e d um clique nos dois indicadores que
apresentam MAIORES diferenas entre os alunos com baixo risco e os de alto risco de
evaso.

[MDULO ANLISE DE EVASO - ABA INDICADORES]


4

a) No curso de Biologia, 4 perodo, disciplina Zoologia Geral, no grfico da "Mdia


semanal de acessos do aluno ao ambiente", selecionar somente a visualizao dos
alunos com alto risco de evaso.
b) Fale quais aes pedaggicas devem ser realizadas em razo deste resultado.

[MDULO ANLISE DE EVASO - ABA INDICADORES]


5

a) No curso de Biologia, 1 perodo, na disciplina Citologia, visualize o grfico do indicador


Quantidade de acessos do aluno aos fruns.
b) Em seguida, localize e clique sobre o aluno de Alto Risco que est com o menor valor
para esse indicador.
c) Fale quais aes pedaggicas devem ser realizadas em razo deste resultado.

[MDULO ANLISE DE EVASO - ABA ALUNOS]


6

d) No curso de Pedagogia, 2 perodo, disciplina Histria da Educao, selecione


construto DILOGO e visualize o grfico da aluna "XXX YYYYYY ZZZZZZZZZZ". (Omitido)
e) Identifique no grfico, dois indicadores da aluna que esto com a frequncia acima da
mdia dos alunos com baixo risco de evaso.
Fonte: Elaborado pelo Autor (2016).

Durante a execuo das tarefas, as interaes e os comentrios dos usurios


foram gravadas para anlise posterior, usando a ferramenta Camtasia28. Foram
registrados dados como tempo de execuo de cada tarefa, quantidade de erros,
quantidade de ajuda recebida, suas decises a partir das visualizaes e tambm opinies
sobre a ferramenta.

28

https://www.techsmith.com/camtasia.html

142

4.9. Quadro resumo das ferramentas utilizadas em cada etapa do mtodo.


Com o propsito de subsidiar consultas futuras e dar um destaque lista de
aplicativos e pacotes complementares usados nesta tese, o Quadro 7 a seguir consolida
todas as ferramentas usadas na aplicao do mtodo proposto na pesquisa.
Quadro 7 Lista de Software e pacotes usados na aplicao do mtodo.
Software /
Pacote
MYSQL
WORKBENCH
PGADMIN III
MICROSOFT EXCEL
R PROJECT

RSTUDIO

MVN
LAVAAN
SEMPLOT

RPART
KERNLAB
NNET
CARET

ROCR
PLOTROC

GGPLOT2
SHINY

RCHARTS
PLOTLY

Descrio de uso na
Pesquisa
Execuo de scripts em
bases MySQL.
Execuo de scripts em
bases PostGreSQL.
Limpeza dos dados e
juno de tabelas.
Principal ferramenta
estatstica, minerao e
aprendizagem de
mquina na pesquisa.
IDE do R. Instalao de
pacotes e execuo de
scripts.
Teste de normalidade
multivariada dos dados.
Anlise Fatorial
Confirmatria (CFA)
Plotagem do Path
Diagram e obteno de
indicadores de ajuste do
modelo da CFA
Classificador baseado em
rvore de Deciso (CART)
Classificador SVM
Classificador Rede Neural
Classificador kNN e
obteno das matrizes
de confuso.
Gerao da curva ROC e
clculo da AUC.
Plotagem da
comparao dos grficos
de curva ROC dos
classificadores.
Pacote de gerao de
grficos no R.
Gerao de Dashboard
no R. Prototipao em
alta fidelidade.
Gerao de grficos
interativos no R.
Gerao de grficos
interativos no R.

Referncia
http://www.mysql.com/products/workbench/
https://www.pgadmin.org
https://products.office.com/pt-br/excel
https://www.r-project.org/

https://www.rstudio.com/

http://www.biosoft.hacettepe.edu.tr/MVN/
http://lavaan.ugent.be/
https://cran.r-project.org/web/packages/semPlot/semPlot.pdf

https://cran.r-project.org/web/packages/rpart/index.html
https://cran.r-project.org/web/packages/kernlab/kernlab.pdf
https://cran.r-project.org/web/packages/nnet/nnet.pdf
https://cran.r-project.org/web/packages/caret/caret.pdf

https://cran.r-project.org/web/packages/ROCR/ROCR.pdf
https://cran.r-project.org/web/packages/plotROC/plotROC.pdf

https://cran.r-project.org/web/packages/ggplot2/ggplot2.pdf
http://shiny.rstudio.com

https://ramnathv.github.io/rCharts/
https://plot.ly/r/

143
BALSAMIQ
ATTRAKDIFF

CAMTASIA

Prototipao em baixa
fidelidade.
Questionrio de
avaliao da experincia
do usurio.
Gravao dos testes de
usabilidade da aplicao.

https://balsamiq.com/index.html
http://www.attrakdiff.de/index-en.html

https://www.techsmith.com/camtasia.html

Fonte: Elaborado pelo Autor (2016).

Com exceo do Excel (verso licenciada) e do Camtasia (verso trial), todos


os demais programas ou pacotes so ferramentas Open Source ou, ento, gratuitos para
fins no comerciais ou acadmicos.

144

5. DETALHAMENTO DOS RESULTADOS DA PESQUISA


A abordagem metodolgica descrita no captulo anterior levou definio de
um processo consistente no mapeamento das variveis, que podem representar os
construtos da distncia transacional, na coleta e anlise dos dados do LMS Moodle para
obteno desses construtos e tambm na utilizao das variveis na definio de um
modelo preditivo de evaso de alunos na EAD. Os resultados do percurso metodolgico
adotado foram bastante satisfatrios e atendem aos objetivos delimitados para a presente
tese. As sees seguintes detalham os resultados obtidos em cada etapa.

5.1. Processo de coleta e preparao inicial dos dados


As bases de dados utilizadas foram cedidas pelo Ncleo de Educao a
Distncia (NEAD) da Universidade de Pernambuco (UPE), IES pblica estadual que,
desde o ano de 2009, oferta cursos na modalidade a distncia. Conforme descrito na Seo
4.3 deste texto, foram utilizadas as bases de dados de duas turmas dos cursos de Biologia
e Pedagogia.
O banco de dados do LMS Moodle um grande e complexo repositrio de
informaes, cujas tabelas tentam reproduzir os diversos componentes de uma sala de
aula de um curso presencial. Recursos como acesso a diversos tipos de materiais
didticos, chat e servios de mensagens e atividades como envio de tarefas, questionrios
e fruns de discusso assncronos fazem parte, dentre outros, do conjunto de componentes
didticos do ambiente.
Dependendo da verso do Moodle, a quantidade de tabelas pode variar
significativamente. Ao longo do seu desenvolvimento, alm da incluso de mais tabelas,
outras foram substitudas por novas tabelas, mas foram preservadas em sua estrutura por
conta da compatibilidade com verses anteriores. A verso atual do Moodle a 3.1.2 e
possui cerca de 430 tabelas. Algumas das tabelas essenciais para a coleta dos dados
relevantes para esta pesquisa, so descritas no Quadro 8.
Quadro 8 Descrio das principais tabelas do BD Moodle, onde foram coletados dados
desta pesquisa.
Tabela
Descrio
mdl_assign
Guarda informaes sobre as atividades avaliativas
relacionadas com a produo de material pelos alunos em cada
disciplina.
mdl_assign_submission
Registra as submisses das atividades pelos alunos.

145
mdl_context
mdl_course
mdl_course_categories

mdl_forum
mdl_forum_discussions
mdl_forum_posts
mdl_log

mdl_message_read
mdl_resource
mdl_role_assignments
mdl_user

Registra os nveis (contextos) de acesso de cada usurio, de


acordo com o seu perfil.
Tabela principal dos cursos, onde as disciplinas de cada curso
so registradas e configuradas.
Tabela auxiliar da mdl_course, onde so criadas as categorias
que podem representar cursos distintos (Biologia, Pedagogia
entre outros)
Possui informaes gerais de cada frum criado nas disciplinas.
Registra os tpicos criados em cada um dos fruns.
Guarda as postagens dos alunos que so associadas aos
respectivos fruns/tpicos.
Registra todas as aes dos usurios no ambiente. a tabela
com maior nmero de registros. Em verses recentes do
Moodle, foi substituda pela mdl_logstore_standard_log.
Armazena as mensagens que foram lidas pelos destinatrios,
assim como o emissor e o receptor.
Registros e configuraes dos recursos disponibilizados nas
disciplinas.
Registros da atribuio de funes do usurio em contextos
diferentes.
Cadastro geral de usurios
Fonte: Elaborado pelo Autor (2016).

Como foram coletados dados em diferentes bases e perodos, interessante


observar tambm a diversidade dessas bases, quanto aos perodos registrados e
respectivos SGBD e tambm o nmero de registros em trs das suas principais tabelas,
conforme apresentados nos Quadros 9 e 10.
Quadro 9 Tabelas e quantidade de registros por turmas em Biologia.
Curso: Biologia Turmas 3 e 4
Tabela
Perodos
Perodos
SGBD
N Registros na
Turma 3
Turma 4
tabela
mdl_forum_posts
1 ao 3
PostgreSQL
3.280
mdl_log
1 ao 3
PostgreSQL
195.292
mdl_message_read
1 ao 3
PostgreSQL
9.294
mdl_forum_posts
4
1
PostgreSQL
6.264
mdl_log
4
1
PostgreSQL
409.217
mdl_message_read
4
1
PostgreSQL
40.018
mdl_forum_posts
5 ao 7
2 ao 4
PostgreSQL
15.140
mdl_log
5 ao 7
2 ao 4
PostgreSQL
815.705
mdl_message_read
5 ao 7
2 ao 4
PostgreSQL
218.792
mdl_forum_posts
8
5 e 6
MySQL(*)
73.323
mdl_log
8
5 e 6
MySQL(*)
2.689.630
mdl_logstore_standard_log
8
5 e 6
MySQL(*)
4.322.899
mdl_message_read
8
5 e 6
MySQL(*)
302.868
(*) Base nica com registros dos 4 cursos de graduao da UPE.
Fonte: Elaborado pelo Autor (2016).

146

Quadro 10 - Tabelas e quantidade de registros por turmas em Pedagogia.


Curso: Pedagogia Turmas 1 e 2
Tabela
Perodos
Perodos
SGBD
Turma 1
Turma 2
mdl_forum_posts
1 ao 4
PostgreSQL
mdl_log
1 ao 4
PostgreSQL
mdl_message_read
1 ao 4
PostgreSQL
mdl_forum_posts
5
1
PostgreSQL
mdl_log
5
1
PostgreSQL
mdl_message_read
5
1
PostgreSQL
mdl_forum_posts
6 ao 8
2 ao 4
PostgreSQL
mdl_log
6 ao 8
2 ao 4
PostgreSQL
mdl_message_read
6 ao 8
2 ao 4
PostgreSQL
mdl_forum_posts
5 e 6
MySQL(*)
mdl_log
5 e 6
MySQL(*)
mdl_logstore_standard_log
5 e 6
MySQL(*)
mdl_message_read
5 e 6
MySQL(*)
(*) Base nica com registros dos 4 cursos de graduao da UPE.

N Registros na
tabela
13.179
879.045
29.415
8.375
518.496
49.678
31.727
1.632.170
147.573
73.323
2.689.630
4.322.899
302.868

Fonte: Elaborado pelo Autor (2016).

Os quantitativos de registros apenas dessas tabelas do uma ideia da dimenso


dos dados que foram coletados e tratados nesta etapa da pesquisa. Por isso, um processo
de KDD/CRISP-EDM foi aplicado para que se pudesse extrair conhecimento relevante
dessa quantidade de informao disponibilizada.
As dificuldades decorrentes do uso de vrias bases e verses distintas do
Moodle, alm de diferentes identificadores de alunos nas diversas bases foram
contornadas aps um esforo para unificao de dados em bases nicas para cada curso e
turma, considerando tambm os vrios perodos e disciplinas por curso, de modo a
permitir consultas distintas a partir desses parmetros (Curso, Turma, Perodo e
Disciplina).

5.2. Anlise das taxas de desistncia e evaso nos cursos


A informao bsica fornecida pela coordenao do NEAD/UPE sobre taxas
de evaso e desistncia dos cursos analisados foi somente que o curso de Biologia tinha
taxas maiores em relao ao de Pedagogia, sendo este ltimo o curso de menor taxa entre
os demais cursos de graduao por EAD na universidade. Adicionalmente, foram
fornecidos alguns nmeros referentes a totais de matrculas nos diversos cursos. A UPE
no dispe, at ento, de nenhuma ferramenta computacional de monitoramento desses

147
indicadores que, quase sempre, so levantados manualmente por gestores ou tcnicos
educacionais, que atuam no Ncleo.
Alm disso, como no existe uma integrao entre o sistema de gesto
acadmica e o ambiente virtual Moodle, os alunos que no fazem matrcula no sistema de
gesto, muitas vezes, continuam includos e mantidos nos seus cursos no Moodle, por
semestres seguidos, dificultando esse monitoramento da evaso.
Para ter uma boa viso dos indicadores dos cursos, foi feita uma anlise
criteriosa das informaes a partir dos dados coletados e processados inicialmente. A
verificao dos dados, em algumas variveis importantes do ambiente, pode fornecer
fortes indcios de desistncia ou da evaso do aluno.
Para esta pesquisa, foi considerado como desistente o aluno que, ao ser
matriculado no primeiro semestre do curso, no fez nenhuma interao no ambiente
virtual no perodo ou, se fez algo, foi bastante incipiente ao ponto de no se considerar
como relevantes tais interaes. Assim, algumas variveis do banco de dados do Moodle
foram usadas para se obter tal concluso:

Quantidade de acessos do aluno ao ambiente no semestre;

Tempo mdio semanal de utilizao da plataforma pelo aluno, por semestre; e

Quantidade de diferentes locais ou momentos (IP) a partir dos quais o aluno


acessou o ambiente, por semestre.
Alunos com essas variveis zeradas no primeiro perodo foram considerados

como desistentes do curso e seus nomes foram excludos da base para as etapas seguintes
da pesquisa, pois nem sequer acessaram o ambiente uma nica vez no semestre. Alunos
tambm com valores muito baixos nesses indicadores tiveram outras variveis analisadas
para confirmar a sua desistncia:

Quantidade de acessos do aluno aos diferentes tipos de recursos disponibilizados


(pgina web, vdeo, pdfs, entre outros), por disciplina;

Quantidade de acessos do aluno aos diferentes tipos de atividades disponibilizadas


(webquest, frum, quiz, entre outros), por disciplina; e

Quantidade geral de mensagens recebidas pelo aluno dentro do ambiente, por


semestre.
As quantidades de acessos aos diferentes recursos e atividades

disponibilizados so indicadores importantes de presena e participao no curso, pois


indica que o aluno buscou algum material de estudo ou visualizou alguma atividade do
curso. A leitura de mensagens recebidas tambm uma ao bsica que um aluno realiza

148
quando est participando de um curso on-line. O sistema s contabiliza uma mensagem
como recebida quando o aluno, pelo menos, a abre para ler (essa informao fica
registrada na tabela mdl_message_read no BD do Moodle).
Dessa forma, aps a anlise dos dados dos primeiros perodos, essas mesmas
condies de desistncia foram utilizadas para se analisar a condio de evaso, no quais,
ao ser verificado os mesmos nveis de valores dessas variveis em alunos a partir do
segundo perodo, esses foram considerados e atribudos como evadidos no perodo. Como
essa informao de evaso foi essencial para a construo dos modelos preditivos, tomouse o cuidado de analisar a situao de cada aluno com o status de evadido nos dados dos
semestres seguintes, a fim de confirmar essa condio.
Por fim, aps o processo de verificao das taxas de desistncia e evaso nos
cursos analisados, foram obtidos os dados constantes na Tabela 4 e na Tabela 5.
Tabela 4 Quantitativos e ndices de desistncia e evaso nos cursos analisados.
PEDAGOGIA
Turma 1
N de Matriculados
Desistentes - 1 perodo
N Alunos analisados
N de Concluintes
N de Evadidos
Turma 2
N de Matriculados
Desistentes - 1 perodo
N Alunos analisados
N de Concluintes
N de Evadidos

150
19 12,7%
131
101 77,1%
30 22,9%

BIOLOGIA
Turma 3
N de Matriculados
Desistentes - 1 perodo
N Alunos analisados
N de Concluintes
N de Evadidos

27
2 7,4%
25
13 52,0%
12 48,0%

323
38 11,8%
285
233 81,8%
52 18,2%

Turma 4
N de Matriculados
Desistentes - 1 perodo
N Alunos analisados
N de Concluintes
N de Evadidos

120
2 1,7%
118
83 70,3%
35 29,7%

Fonte: Elaborado pelo Autor (2016).


Tabela 5 Quantitativos e ndices de desistncia e evaso nos cursos analisados.
PEDAGOGIA
Evaso 2 ao 4
Evaso 5 ao 7
BIOLOGIA
Evaso 2 ao 4
Evaso 5 ao 7

Turma 1
27 90,0%
3 10,0%
Turma 3
10 83,3%
2 16,7%

Turma 2
33 63,5%
19 36,5%
Turma 4
23 63,9%
13 36,1%

Fonte: Elaborado pelo Autor (2016).

Os dados confirmaram a informao da coordenao do NEAD acerca da


comparao dos nveis de evaso dos dois cursos. Tambm fica evidenciado que a evaso

149
ocorre em maior nmero at a metade dos cursos (4 Perodo). A reduo dos nveis de
uma turma para outra em cada curso pode ser associada consolidao da modalidade
EAD na prpria universidade, a partir de ajustes na metodologia e no ambiente virtual de
aprendizagem, de modo a tornar os cursos mais atrativos. A UPE j detm uma larga
experincia no planejamento e oferta de cursos a distncia e isso um fator que, de certa
forma, tem ajudado a reduzir essas taxas, embora ainda sejam consideradas elevadas.

5.3. Identificao e mapeamento dos construtos da Distncia Transacional


O processo de identificao e mapeamento dos construtos da DT, descrito na
Seo 4.4, caracterizou-se como mais uma contribuio desta pesquisa, a partir da
proposta de um mtodo alternativo e renovado de obteno dos construtos, pois, alm de
dispensar o uso de questionrios ou formas similares de coleta de dados, a automao do
processo de extrao das variveis diretamente dos registros das interaes dos alunos no
ambiente virtual permitiu a obteno e avaliao do construtos em diversos momentos
ainda durante a execuo dos cursos on-line.

5.3.1. Definio das variveis e validao dos construtos por especialistas


A partir da anlise dos questionrios listados na Seo 3.1, um conjunto de
39 variveis foi extrado e apresentado a professores que atuam em cursos superiores na
EAD em IES participantes do Sistema UAB, por meio de um questionrio on-line.
Algumas questes no puderam ser mapeadas, pois eram do tipo subjetivas ou de opinio,
nas quais no foi possvel sua associao com qualquer dos registros no Moodle.
Para cada questo que representava uma varivel, eram apresentadas como
respostas os trs construtos: dilogo, estrutura e autonomia e a opo nenhum. O
professor podia escolher uma ou mais de uma opo, caso ele entendesse que a questo
apresentada podia estar associada a mais de um construto. Foram dadas 38 respostas aos
questionrios. Apenas um professor apresentou sugesto para incluso de duas novas
variveis para os construtos dilogo e autonomia, porm no foram includas por terem
sido consideradas atendidas por outras variveis j existentes. O Quadro 11 apresenta a
lista das variveis e seus respectivos construtos apontados pelos respondentes.
Quadro 11 Lista das variveis e respectivos construtos atribudos pelos especialistas.
Variveis
Mdia semanal da quantidade de acessos do aluno ao ambiente no
semestre.

Construto
AUTONOMIA

150
Quantidade de acessos do aluno ao ambiente por turno (Manh), por
semestre.
Quantidade de acessos do aluno ao ambiente por turno (Tarde), por
semestre.
Quantidade de acessos do aluno ao ambiente por turno (Noite), por
semestre.
Quantidade de acessos do aluno ao ambiente por turno (Madrugada),
por semestre.
Tempo mdio semanal de utilizao da plataforma pelo aluno no
semestre.
Quantidade total de acessos do aluno ao ambiente no semestre.
Quantidade de diferentes locais ou momentos (IPs) a partir dos quais
o aluno acessou o ambiente, por semestre.
Quantidade de acessos do aluno aos diferentes tipos de recursos
disponibilizados (pgina web, vdeo, pdfs, entre outros), por disciplina.
Quantidade de acessos do aluno aos diferentes tipos de atividades
disponibilizadas (webquest, frum, quiz, entre outros), por disciplina.
Quantidade de acessos do aluno pgina de contedo (programa do
curso ou disciplina).
Quantidade de acessos do aluno pgina da agenda da disciplina.
Mdia semanal da quantidade de mensagens enviadas pelo aluno
dentro do ambiente, por semestre.
Quantidade de acessos do aluno aos fruns, por disciplina.
Quantidade geral de postagens do aluno em fruns, por disciplina.
Quantidade de postagens do aluno em fruns que foram respondidas
pelo professor ou tutor, por disciplina.
Quantidade de postagens do aluno em fruns que foram respondidas
por outros alunos, por disciplina.
Quantidade geral de mensagens enviadas pelo aluno dentro do
ambiente, por semestre.
Quantidade geral de mensagens recebidas pelo aluno dentro do
ambiente, por semestre.
Quantidade de colegas diferentes para quem o aluno enviou
mensagens no ambiente, por semestre.
Quantidade de mensagens dos professores recebidas pelo aluno no
ambiente, por semestre.
Quantidade de mensagens de colegas recebidas pelo aluno no
ambiente, por semestre.
Quantidade de mensagens enviadas pelo aluno para outros colegas no
ambiente, por semestre.
Quantidade de respostas de um professor para as dvidas do aluno em
fruns tipo "tira-dvidas", por disciplina.
Quantidade postagens em chats feita pelo aluno por disciplina.
Quantidade de mensagens enviadas pelo aluno aos professores pelo
ambiente, por semestre.
Quantidade de tpicos criados pelo aluno em frum do tipo "tiradvidas" por disciplina.
Quantidade de postagens do aluno em fruns em resposta a outros
alunos por disciplina.

AUTONOMIA
AUTONOMIA
AUTONOMIA
AUTONOMIA
AUTONOMIA
AUTONOMIA
AUTONOMIA
AUTONOMIA
AUTONOMIA
AUTONOMIA
AUTONOMIA
AUTONOMIA,
DILOGO
AUTONOMIA,
ESTRUTURA
DILOGO
DILOGO
DILOGO
DILOGO
DILOGO
DILOGO
DILOGO
DILOGO
DILOGO
DILOGO
DILOGO
DILOGO,
AUTONOMIA
DILOGO,
AUTONOMIA
DILOGO,
AUTONOMIA

151
Quantidade geral de recursos disponibilizados pelo professor (pgina
web, vdeo, pdfs, entre outros) por disciplina.
Quantidade geral de atividades disponibilizadas (webquest, frum,
quiz, entre outros) pelo professor por disciplina.
Quantidade de atividades com prazos de resposta ou envio definidos
por professor, por disciplina.
Quantidade de fruns de discusso disponibilizados sobre os
contedos por disciplina.
Quantidade de sesses de chats sobre contedos disponibilizadas, por
disciplina.
Quantidade de sesses de web conferncias disponibilizadas no curso,
por disciplina.
Disponibilidade (existncia) de pgina com a agenda (cronograma) do
curso ou disciplina.
Disponibilidade (existncia) de pgina com a programa (contedo) do
curso ou disciplina.
Disponibilidade (existncia) de pgina ou arquivo com regras e
orientaes gerais sobre a disciplina/curso.
Quantidade de atividades entregues por um aluno no prazo, por
disciplina.
Quantidade de atividades entregues por um aluno fora do prazo, por
disciplina.

ESTRUTURA
ESTRUTURA
ESTRUTURA
ESTRUTURA
ESTRUTURA
ESTRUTURA
ESTRUTURA
ESTRUTURA
ESTRUTURA
ESTRUTURA,
AUTONOMIA
ESTRUTURA,
AUTONOMIA

Fonte: Elaborado pelo Autor (2016).

Em algumas questes (variveis), houve empate ou ento uma diferena


menor ou igual a 10% nas respostas dadas pelos professores para dois construtos. Nesses
casos, considerou-se que a varivel poderia ser atribuda a qualquer um dos construtos,
de acordo com o listado no Quadro 11. Conforme a ser apresentado nos resultados
seguintes, a atribuio de uma varivel a um ou a outro construto, alm de no alterar o
modelo preditivo final, permite tambm uma certa flexibilidade ao pesquisador no
momento em que so definidos os componentes finais para cada construto.

5.3.2. Extrao das variveis nas bases de dados dos cursos


Para a coleta de dados para o mapeamento, foram gerados scripts em SQL
que extraram os dados das variveis diretamente das bases dos cursos de Pedagogia
(Turma 1) e Biologia (Turma 3). A coleta de dados retornou um total de 6.554
observaes para cada uma das variveis pr-selecionadas.
Os resultados foram verificados quanto sua consistncia e adequao a cada
uma das variveis coletadas, observando a ocorrncia de outliers ou mesmo ausncia de
valores (missing values). Para algumas variveis, todos os valores retornaram zerados,
indicando que no existia nenhum registro daquelas variveis no banco de dados, em
razo da estruturao do curso no ambiente virtual. Por exemplo, a UPE no utiliza o

152
componente Chat em seus cursos, da as variveis associadas a esses componentes no
apresentarem nenhum registro.
Outras variveis apresentaram um valor constante em todos os casos, sendo
tambm descartadas das anlises posteriores, por no influenciarem nos modelos a serem
definidos ou estimados. Essas variveis (Quadro 12) foram, ento, eliminadas para as
demais fases seguintes da pesquisa.
Quadro 12 Lista das variveis eliminadas por apresentarem somente valores constantes
ou zerados em todos os casos.
Variveis
Quantidade de acessos do aluno pgina de contedo (programa do
curso ou disciplina).
Quantidade de acessos do aluno pgina da agenda da disciplina.
Quantidade postagens em chats feita pelo aluno por disciplina.
Quantidade de sesses de chats sobre contedos disponibilizadas por
disciplina.
Disponibilidade (existncia) de pgina com a programa (contedo) da
disciplina.
Disponibilidade (existncia) de pgina ou arquivo com regras e
orientaes gerais sobre a disciplina.

Construtos
AUTONOMIA
AUTONOMIA
DILOGO
ESTRUTURA
ESTRUTURA
ESTRUTURA

Fonte: Elaborado pelo Autor (2016).

Um problema detectado para extrao de variveis da componente estrutura


foi o fato de alguns recursos do ambiente estarem configurados apenas como rtulos,
de maneira a no registrarem o seu acesso pelos alunos e impossibilitando, assim, o seu
registro no log do Moodle.

5.3.3. Construo e validao do modelo dos construtos por Anlise


Fatorial Confirmatria (CFA)
Com a fundamentao terica baseada na Teoria da Distncia Transacional,
foi especificado um modelo inicial a ser testado, a partir das variveis previamente
definidas e distribudas por cada construto pelos especialistas. Aps o descarte das
variveis listadas no Quadro 12, esse modelo inicial incorporou as 33 variveis restantes,
que receberam identificadores para que pudessem ser manipuladas nos aplicativos usados
na pesquisa. A lista das variveis que foram submetidas Anlise Fatorial Confirmatria
apresentada no Quadro 13.
Quadro 13 Lista das variveis utilizadas na Anlise Fatorial Confirmatria.
Id

Variveis

Construto

var01

Mdia semanal da quantidade de acessos do aluno ao ambiente no


semestre.

AUTONOMIA

153

var02
var03
var04
var05
var06
var07

Quantidade de acessos do aluno ao ambiente por turno (Manh), por


semestre.
Quantidade de acessos do aluno ao ambiente por turno (Tarde), por
semestre.
Quantidade de acessos do aluno ao ambiente por turno (Noite), por
semestre.
Quantidade de acessos do aluno ao ambiente por turno (Madrugada), por
semestre.
Tempo mdio semanal de utilizao da plataforma pelo aluno no semestre.

AUTONOMIA
AUTONOMIA
AUTONOMIA
AUTONOMIA
AUTONOMIA

Quantidade de acessos do aluno ao ambiente no semestre.


Quantidade de diferentes locais ou momentos (IPs) a partir dos quais o
aluno acessou o ambiente, por semestre.
Quantidade de acessos do aluno aos diferentes tipos de recursos
disponibilizados (pgina web, vdeo, pdfs, entre outros), por disciplina.
Quantidade de acessos do aluno aos diferentes tipos de atividades
disponibilizadas (webquest, forum, quiz, entre outros), por disciplina.

AUTONOMIA

var11

Mdia semanal da quantidade de mensagens enviadas pelo aluno dentro do


ambiente, por semestre.

AUTONOMIA,
DILOGO

var12

Quantidade de acessos do aluno aos fruns, por disciplina.

AUTONOMIA,
ESTRUTURA

var13

Quantidade geral de postagens do aluno em fruns, por disciplina.


Quantidade de postagens do aluno em fruns que foram respondidas pelo
professor ou tutor, por disciplina.
Quantidade de postagens do aluno em fruns que foram respondidas por
outros alunos, por disciplina.
Quantidade geral de mensagens enviadas pelo aluno dentro do ambiente,
por semestre.
Quantidade geral de mensagens recebidas pelo aluno dentro do ambiente,
por semestre.
Quantidade de colegas diferentes para quem o aluno enviou mensagens no
ambiente, por semestre.
Quantidade de mensagens dos professores recebidas pelo aluno no
ambiente, por semestre.
Quantidade de mensagens de colegas recebidas pelo aluno no ambiente, por
semestre.
Quantidade de mensagens enviadas pelo aluno para outros colegas no
ambiente, por semestre.
Quantidade de respostas de um professor para as dvidas do aluno em
fruns, por disciplina.

DILOGO

var23

Quantidade de mensagens enviadas pelo aluno aos professores pelo


ambiente, por semestre.

DILOGO,
AUTONOMIA

var24

Quantidade de tpicos criados pelo aluno em frum do tipo "tira-dvidas"


por disciplina.

DILOGO,
AUTONOMIA

var25

Quantidade de postagens do aluno em fruns em resposta a outros alunos


por disciplina.

DILOGO,
AUTONOMIA

var08
var09
var10

var14
var15
var16
var17
var18
var19
var20
var21
var22

var26
var27
var28

Quantidade geral de recursos disponibilizados pelo professor (pgina web,


vdeo, pdfs, entre outros) por disciplina.
Quantidade geral de atividades disponibilizadas (webquest, frum, quiz,
entre outros) pelo professor por disciplina.
Quantidade de atividades com prazos de resposta ou envio definidos por
professor, por disciplina.

AUTONOMIA
AUTONOMIA
AUTONOMIA

DILOGO
DILOGO
DILOGO
DILOGO
DILOGO
DILOGO
DILOGO
DILOGO
DILOGO

ESTRUTURA
ESTRUTURA
ESTRUTURA

154

var29
var30
var31

Quantidade de fruns de discusso disponibilizados sobre os contedos por


disciplina.
Quantidade de sesses de web conferncias disponibilizadas no curso, por
disciplina.
Disponibilidade (existncia) de pgina com a agenda (cronograma) do curso
ou disciplina.

ESTRUTURA
ESTRUTURA
ESTRUTURA

var32

Quantidade de atividades entregues pelo aluno no prazo, por disciplina.

ESTRUTURA,
AUTONOMIA

var33

Quantidade de atividades entregues pelo aluno fora do prazo, por disciplina.

ESTRUTURA,
AUTONOMIA

Fonte: Elaborado pelo Autor (2016).

Para definio do modelo e validao dos construtos, inicialmente, foi feito o


teste de normalidade dos dados e, nesse caso, a suposio de normalidade multivariada
no foi confirmada, a partir do resultado de 2 testes especficos (Mardia e Henze-Zirkler)
(KORKMAZ et al., 2014), conforme descritos no pacote MVN29 do software R. Os
resultados de ambos os testes so apresentados na Figura 27 e na Figura 28.
Figura 27 Resultado para o Teste de Mardia para normalidade multivariada.
Mardia's Multivariate Normality Test
--------------------------------------data : dadosN
g1p
chi.skew
p.value.skew

: 2525.329
: 2800590
: 0

g2p
z.kurtosis
p.value.kurt

: 5471.942
: 3663.377
: 0

chi.small.skew : 2801927
p.value.small : 0
Result
: Data are not multivariate normal.
---------------------------------------

Fonte: Elaborado pelo Autor (2016).


Figura 28 Resultado para o Teste de Henze-Zirkler para normalidade

multivariada.
Henze-Zirkler's Multivariate Normality Test
--------------------------------------------data : dadosN
HZ
: 22.01409
p-value : 0
Result : Data are not multivariate normal.
---------------------------------------------

Fonte: Elaborado pelo Autor (2016).

Como no se verificou a normalidade dos dados, foi preciso definir um


estimador para o modelo de CFA mais adequado, j que o mtodo de Mxima
Verossimilhana (ML - Maximum Likelihood), mais usual neste tipo de anlises, s pode
29

http://www.biosoft.hacettepe.edu.tr/MVN/

155
ser aplicado em situaes de normalidade dos dados. Nesse caso, optou-se por usar o
estimador dos Mnimos Quadrados Ponderados Diagonalmente (DWLS - Diagonally
Weighted Least Squares). Os mtodos baseados na soma dos quadrados mnimos no
requerem a normalidade e so tambm indicados para anlise de variveis categorizadas,
mas exigem tamanho amostral maior (N>400) (Hair et al. 2009), o que se encaixa nos
dados coletados (N=6554).
Seguindo a distribuio das variveis por cada construto, definida pelos
professores e descrita na Seo 5.2.1 deste trabalho, os dados foram testados com todo o
conjunto das variveis coletadas, como um modelo inicial, conforme a Figura 29, que
ilustra o trecho do script em R no qual so atribudas as diversas variveis para cada
construto. O script completo utilizado para a CFA apresentado no Apndice C desta
tese.
Figura 29 Modelo inicial dos construtos para a CFA.
#Modelo original com as variveis obtidas no questionrio
model <- '
autonomia =~ var01+var02+var03+var04+var05+var06+var07+var08+var09+var10
+var11 +var12
dialogo =~ var13+var14+var15+var16+var17+var18+var19+var20+var21+var22
+var23+var24+var25
estrutura =~ var26+var27+var28+var29+var30+var31+var32+var33
dialogo ~~ estrutura
dialogo ~~ autonomia
estrutura ~~ autonomia'

Fonte: Elaborado pelo Autor (2016).

Embora o processo tenha convergido aps 196 interaes do algoritmo do


mtodo de CFA, os resultados deste modelo inicial no foram satisfatrios, indicando que
algumas variveis tinham pouca representatividade nos construtos (baixa carga fatorial)
assim como os ndices de ajuste do modelo no atingiram nveis adequados. O Path
Diagram ilustrado na Figura 30 exibe o modelo inicial com os construtos (variveis
latentes) associados s suas variveis observadas e respectivas cargas fatoriais.
No modelo, utilizando todas as variveis coletadas, percebeu-se que vrias
dessas variveis apresentam carga fatorial muito baixa (< 0.4), indicando pouca influncia
da varivel no construto. Nesse tipo de anlise multivariada, recomendvel remover
essas variveis, salvo por opo do pesquisador em mant-las por sua importncia terica
ou prtica para o construto.

156
Figura 30 Path Diagram com resultado da CFA usando o modelo com todas as
variveis.

Fonte: Elaborado pelo Autor (2016).

Alm disso, alguns dos ndices que avaliam a qualidade do ajuste do modelo
aos dados (descritos na Seo 4.4.4) tambm no apresentaram, para este modelo inicial,
valores satisfatrios. Esses ndices e seus valores de referncia recomendados so
mostrados na Tabela 6.
Tabela 6 Indicadores de ajuste e qualidade do modelo inicial.
Indicador
2 /gl
Gamma Hat
CFI
GFI
TLI
RNI
RMSEA

Valores recomendados
(Hu & Bentler, 1999)
<=2
>=0.95
>= 0.95
> =0.90
>= 0.95
>= 0.95
< = 0.06

Valores recomendados
(Hair et al., 2009)
<=3
> 0.90
> 0.90
> 0.90
> 0.90
> 0.90
< = 0.07

Valor obtido
(Modelo)
58.92
0.794
0.765
0.946
0.748
0.765
0.093

Fonte: Elaborado pelo Autor (2016).

A Anlise Fatorial Confirmatria um processo iterativo, na qual a obteno


de um modelo adequado pode significar vrios ciclos de testes, retirando-se ou movendose variveis entre construtos, analisando e tomando novas decises a cada ciclo.
Na busca de um modelo que pudesse representar bem cada um dos construtos
latentes da distncia transacional, foram realizados mais trs ciclos, at que se obtivesse

157
um modelo com bom ajuste aos dados. Os modelos usados nos dois ciclos intermedirios
so apresentados na Figura 31 e na Figura 32.
Figura 31 Modelo usado para o segundo ciclo da CFA.
#2 Ciclo da CFA
#Modelo aps retirada das variveis de baixa carga fatorial nos construtos.
model <- '
autonomia =~ var01+var02+var03+var04+var06+var07+var08+var09+var10
+var11 +var12
dialogo =~ var13+var15+var16+var17+var18+var19+var20+var21+var23+var25
estrutura =~ var26+var27+var28+var29+var30+var32
dialogo ~~ estrutura
dialogo ~~ autonomia
estrutura ~~ autonomia'

Fonte: Elaborado pelo Autor (2016).

Para o segundo ciclo, foram retiradas as variveis var05 do construto


Autonomia; as variveis var14, var22 e var24 do construto Dilogo e a var31 e var33
da Estrutura, todas por apresentarem baixa carga fatorial no modelo inicial. Esse modelo
tambm apresentou ndices de ajustes ainda fora dos limites recomendados.
Figura 32 Modelo usado para o terceiro ciclo da CFA.
#3 Ciclo da CFA
#Retirada de variveis de baixa carga fatorial e mudana da var11 para o dilogo.
model <- '
autonomia =~ var01+var02+var03+var04+var06+var07+var10+var12
dialogo =~ var11+var13+var16+var17+var18+var19+var20+var21+var23
estrutura =~ var26+var27+var29+var30+var32
dialogo ~~ estrutura
dialogo ~~ autonomia
estrutura ~~ autonomia'

Fonte: Elaborado pelo Autor (2016).

No terceiro ciclo, foram retiradas as variveis var08, var09 e var11 do


construto Autonomia, sendo que a var11 (Mdia semanal da quantidade de mensagens
enviadas pelo aluno dentro do ambiente, por semestre) foi remanejada para o construto
Dilogo, na tentativa de que nesse construto, tal varivel apresentasse uma melhor carga
fatorial. Esse remanejamento foi baseado tambm na possibilidade de essa varivel
compor um dos dois construtos, de acordo com a distribuio feita pelos professores
especialistas. Essa mudana no surtiu efeito e essa varivel foi excluda do modelo antes
do novo ciclo.
As variveis var15 e var25 foram suprimidas do construto Dilogo e a
var28

da Estrutura, tambm por apresentarem baixa carga fatorial no modelo resultante

do segundo ciclo. Esse modelo j apresentou melhoras significativas nos ndices de


ajustes, mas, ainda, com alguns fora das faixas de valores recomendveis, alm de uma
varivel com carga fatorial baixa (var29).

158
No quarto ciclo da CFA, o modelo j se mostrou satisfatrio, tanto em relao
s cargas fatoriais das variveis observadas, quanto em relao a vrios ndices de ajustes,
sendo ento considerado como o modelo a ser usado na definio dos construtos, para os
dados coletados.
Figura 33 Modelo final obtido aps o quarto ciclo da CFA.
#4 Ciclo da CFA
#Retirada de variveis de baixa carga fatorial nos construtos.
model <- '
autonomia =~ var01+var02+var03+var04+var06+var07+var10+var12
dialogo =~ var13+var16+var17+var18+var19+var20+var21+var23
estrutura =~ var26+var27+var29+var30
dialogo ~~ estrutura
dialogo ~~ autonomia
estrutura ~~ autonomia'

Fonte: Elaborado pelo Autor (2016).

Esse modelo apresentou uma convergncia aps 139 iteraes do algoritmo


estimador, com 1.866 graus de liberdade associados. A Figura 34 exibe o Path Diagram
com as variveis finais para cada construto e suas respectivas cargas fatoriais, alm dos
ndices de covarincia entre os construtos.
Figura 34 Path Diagram com resultado da final da CFA.

Fonte: Elaborado pelo Autor (2016).

Observa-se que o modelo final foi reduzido para 21 variveis, no qual o


construto Autonomia teve uma reduo de 12 para 8 variveis, o Dilogo de 13 para 8 e
a Estrutura foi reduzida de 8 para 5 variveis. Nenhuma varivel restante ficou com carga
fatorial abaixo de 0.40, o que indica uma boa representatividade em cada construto.

159
Para o construto Estrutura, o modelo ter restado apenas com 5 variveis pode
ser justificado pelo fato de que a UPE adota uma certa padronizao no formato do
ambiente dos seus cursos a distncia, na qual os cursos seguem modelos de layout predefinidos. Isso, de certa forma, impacta na pouca flexibilidade na estrutura dos cursos e,
por consequncia, em uma menor variabilidade dos indicadores desse construto.
O Quadro 14 apresenta o conjunto final de variveis representativas para cada
construto da distncia transacional, as quais foram obtidas a partir de consultas
estruturadas na base de dados do ambiente virtual da UPE. Para cada varivel, tambm
so apresentadas suas estatsticas descritivas bsicas obtidas, para fins de anlise
exploratria inicial dos dados. O script de clculo e exibio das estatsticas descritivas
bsicas encontra-se no Apndice D deste texto.
Quadro 14 Lista final de variveis por construtos aps a CFA.
Id
var01

var02

var03

var04
var06
var07

var10

var12
var13
var16

var17

var18

var19

Variveis
Mdia semanal da quantidade de
acessos do aluno ao ambiente no
semestre.
Quantidade de acessos do aluno ao
ambiente por turno (Manh), por
semestre.
Quantidade de acessos do aluno ao
ambiente por turno (Tarde), por
semestre.
Quantidade de acessos do aluno ao
ambiente por turno (Noite), por
semestre.
Tempo mdio semanal de utilizao da
plataforma pelo aluno no semestre.
Quantidade de acessos do aluno ao
ambiente no semestre.
Quantidade de acessos do aluno aos
diferentes
tipos
de
atividades
disponibilizadas (webquest, frum, quiz,
entre outros), por disciplina.
Quantidade de acessos do aluno aos
fruns, por disciplina.
Quantidade geral de postagens do aluno
em fruns, por disciplina.
Quantidade geral de mensagens
enviadas pelo aluno dentro do ambiente,
por semestre.
Quantidade geral de mensagens
recebidas pelo aluno dentro do
ambiente, por semestre.
Quantidade de colegas diferentes para
quem o aluno enviou mensagens no
ambiente, por semestre.
Quantidade
de
mensagens
dos
professores recebidas pelo aluno no
ambiente, por semestre.

Construto

Min

Mdia

Mediana

Max

3,11

2,62

23,85

20,73

15

296

29,95

22

273

28,28

22

271

0,19

0,13

6,11

80,84

68

620

4,52

4,13

76,14

20,4

15

526

2,98

26

7,65

297

28,16

23

264

0,95

32

20,43

16

171

AUTONOMIA

AUTONOMIA

AUTONOMIA

AUTONOMIA
AUTONOMIA
AUTONOMIA

AUTONOMIA

AUTONOMIA
DILOGO
DILOGO

DILOGO

DILOGO

DILOGO

160
Quantidade de mensagens de colegas
var20 recebidas pelo aluno no ambiente, por
semestre.
Quantidade de mensagens enviadas pelo
var21 aluno para outros colegas no ambiente,
por semestre.
Quantidade de mensagens enviadas pelo
var23 aluno aos professores pelo ambiente,
por semestre.
Quantidade
geral
de
recursos
disponibilizados pelo professor (pgina
var26
web, vdeo, pdfs, entre outros) por
disciplina.
Quantidade
geral
de
atividades
disponibilizadas (webquest, frum, quiz,
var27
entre outros) pelo professor por
disciplina.
Quantidade de atividades com prazos de
var28 resposta ou envio definidos por
professor, por disciplina.
Quantidade de fruns de discusso
var29 disponibilizados sobre os contedos por
disciplina.
Quantidade de sesses de web
var30 conferncias disponibilizadas no curso,
por disciplina.

DILOGO
0

4,29

102

2,13

97

3,98

201

3,46

25

10,5

11

17

1,41

3,47

0,38

DILOGO

DILOGO

ESTRUTURA

ESTRUTURA

ESTRUTURA

ESTRUTURA

ESTRUTURA

Fonte: Elaborado pelo Autor (2016).

Esse conjunto final de variveis, embora tenha sido obtido a partir da anlise
e extrao de dados de um banco de dados do Moodle, contm indicadores genricos
presentes em ambientes virtuais de aprendizagem que, possivelmente, podem ser
coletados em outros ambientes similares, o que possibilita, ento, a replicao deste
mtodo de identificao dos construtos da DT em outros ambientes.
Na avaliao do modelo, as seguintes medidas de qualidade de ajuste entre o
modelo proposto e os dados da amostra foram utilizadas: ndice 2 /gl (razo entre o quiquadrado e n de graus de liberdade dos dados), CFI (ndice de Ajuste Comparativo), GFI
(ndice de Qualidade do Ajuste), NFI (ndice de Ajuste Normalizado), TLI (ndice de
Tucker-Lewis) e o RMSEA (Raiz do erro quadrtico mdio de aproximao).
Tabela 7 Indicadores de ajuste e qualidade do modelo final.
Indicador
2 /gl
Gamma Hat
CFI
GFI
TLI
RNI
RMSEA

Valores recomendados
(Hu & Bentler, 1999)
<=2
>=0.95
>= 0.95
> =0.90
>= 0.95
>= 0.95
< = 0.06

Valores recomendados
(Hair et al., 2009)
<=3
> 0.90
> 0.90
> 0.90
> 0.90
> 0.90
< = 0.07

Fonte: Elaborado pelo Autor (2016).

Valor obtido
(Modelo)
22.11
0.947
0.929
0.945
0.920
0.929
0.056

161
O fato de o primeiro indicador (2 /gl) ter apresentado um valor acima do
recomendado no inviabiliza a anlise nem torna o modelo incompatvel com os dados.
Como esse ndice uma funo matemtica, a qual depende do tamanho da amostra e da
diferena entre as matrizes estimadas e observadas do modelo, comum para amostras
grandes (N >= 500) que esse valor seja alto, indicando uma possvel rejeio do modelo,
mesmo se a diferena entre as matrizes for mnima (HU e BENTLER, 1999; HOOPER
et al., 2008; HAIR et al., 2009). Por isso, outros indicadores de ajustes foram
desenvolvidos e so amplamente utilizados em CFA, como os utilizados neste trabalho.
Embora o modelo especificado possa promover um bom ajuste dos dados
teoria, a partir dos critrios de validao usados, ele no o nico. A CFA apenas
confirma que ele um entre diversos modelos possveis e aceitveis para os dados usados.
Este mtodo de mapeamento dos construtos da distncia transacional, a partir
da coleta e anlise dos dados de interao dos estudantes e dos dados das disciplinas no
ambiente virtual foi submetido em um artigo, que foi aprovado e apresentado no XXVII
Simpsio Brasileiro de Informtica na Educao (SBIE), realizado em outubro de
2016, em Uberlndia-MG (RAMOS et al., 2016).

5.4. Definio do modelo preditivo da evaso a partir da minerao de dados


educacionais
Aps a definio das variveis que representam os construtos da distncia
transacional, a etapa seguinte foi a de minerao de dados educacionais para definir qual
melhor tcnica e algoritmo podem ser utilizados para definir um modelo preditivo da
evaso de alunos da EAD.
O processo de construo do modelo preditivo ocorre por meio do ajuste de
parmetros realizado por um algoritmo e, quando o aprendizado de mquina usado para
esse fim, o processo indutivo e comumente chamado de treinamento ou aprendizagem
supervisionada. Aps sua determinao, o modelo de predio pode, ento, ser usado para
prever rtulos em novos dados at ento desconhecidos (SILVA et al., 2016).
Quando o modelo determinado aplicado em novos exemplares, tem-se a
fase de teste, a partir da qual o modelo avaliado quanto sua capacidade preditiva.
Muitas vezes, uma mesma base de dados dividida em duas partes, sendo que uma delas
usada para treinar e a outra para testar o modelo preditivo. Isso pode implicar processos
de validaes que garantam uma maior aleatoriedade na definio das duas bases. No

162
caso desta pesquisa, foram usadas duas bases distintas para treinamento e teste, conforme
apresentado na Tabela 8, no sendo necessrias novas validaes nas bases para
verificao da aleatoriedade.
Tabela 8 Resumo das bases de treinamento e testes usados no processo de EDM.
BASE DE
TREINAMENTO

PERODOS
N
DO CURSO INSTNCIAS

PERODOS
N
DO CURSO INSTNCIAS

BASE DE TESTES

Biologia - Turma 3

1.150

Biologia - Turma 4

3.190

Pedagogia - Turma 1

5.504

Pedagogia - Turma 2

8.250

TOTAL

6.654

TOTAL

11.440

Fonte: Elaborado pelo Autor (2016).

A escolha da menor base em nmero de instncias para treinamento no


processo de aprendizagem de mquina foi em razo da sua completude em relao aos
perodos dos dois cursos. Assim, o modelo foi treinado a partir dos dados de dois cursos
completos.
Antes de serem analisadas as mtricas de avaliao para cada classificador,
preciso observar como esto distribudas, nas duas bases, as instncias das duas classes
analisadas: Evadiu e No evadiu, para, a partir desse ponto, serem feitas as inferncias
e anlises adequadas.
Tabela 9 N de casos (instncias) de cada classe em ambas as bases.
BASE COMPLETA TESTES
Classe

BASE COMPLETA TREINAMENTO

N de Casos

No evadiu

9.502

83,1%

Evadiu

1.938

Total

11.440

Classe

N de Casos

No evadiu

4.941

74,3%

16,9%

Evadiu

1.713

25,7%

100%

Total

6.654

100%

Fonte: Elaborado pelo Autor (2016).

A classe a ser considerada como positiva nas anlises geralmente a classe


minoritria e tambm a de maior interesse na pesquisa. Nesta pesquisa, a classe positiva
foi a Evadiu. Ambas as classes tambm representaram a varivel alvo (dependente)
utilizada nos modelos dos classificadores.

5.4.1. Resultados da aplicao dos Algoritmos de Classificao


Conforme descrito na Seo 4.6 desta tese, foram utilizadas as seguintes
tcnicas de classificao, com seus respectivos algoritmos: rvore de Deciso, Mquina
de Vetor de Suporte, Rede Neural Artificial, k-Nearest Neighbors e Regresso Logstica.

163
Para cada um dos classificadores, foi usado um mesmo conjunto de variveis,
baseado nos resultados obtidos na Anlise Fatorial Confirmatria, descrita na Seo 5.3.
A varivel dependente do modelo foi o campo EVADIU presente nas bases de dados, no
qual, para cada instncia, foi atribudo o valor binrio 0 (para no evadidos) e 1 (para
evadidos) conforme os critrios apresentados na Seo 5.2. A Figura 35 exibe o conjunto
de variveis usadas nos classificadores, enquanto que os scripts de cada uma das tcnicas
usadas encontra-se no Apndice B.
Figura 35 Conjunto de variveis utilizadas na definio dos modelos
EVADIU ~ var01+var02+var03+var04+var06+var07+var10+var12+var13+var16
+var17+var18+var19+var20+var21+var23+var26+var27+var29+var30

Fonte: Elaborado pelo Autor (2016).

Para a definio de cada modelo preditivo dos classificadores, a base de


treinamento foi utilizada. Aps o treinamento, a base de testes foi usada, para avaliar a
capacidade preditiva de cada modelo/classificador. No caso da base de testes, a mesma
foi utilizada de trs formas: completa, com os dados dos dois cursos; somente com os
dados do curso de Pedagogia e somente com os dados de Biologia, para que fosse
analisado o desempenho do modelo nessas trs situaes distintas.
Durante o processo de teste do modelo que foi gerado pelo classificador,
usando os dados da base de treinamento, o sistema de aprendizado no prediz a classe,
mas um valor contnuo ou ordinal que indica a probabilidade de cada instncia analisada
ser da classe Evadiu ou da No evadiu. Para se criar o modelo de classificao, esse
valor pode ser binarizado pela escolha de um limiar de classificao.
Para a gerao da matriz de confuso e clculo das mtricas do classificador,
para cada instncia, o valor da probabilidade foi convertido para uma varivel dicotmica
(binria), atribuindo-se o valor 0 para os no evadidos e 1 para os evadidos. Essa
converso se deu com o uso do valor 0.5 como limiar, no qual valores abaixo e at esse
valor significavam baixa probabilidade de evaso. A partir da, o algoritmo fez a
comparao entre o valor binrio de referncia (real) com o do modelo (previsto),
produzindo os resultados a partir da matriz e respectivas mtricas derivadas.
Foram geradas as matrizes de confuso, apresentando o resultado de cada
modelo classificador, com os clculos das principais mtricas de avaliao para cada
modelo: Precision, Recall e Accuracy. Alm dessas mtricas, foi tambm gerada a Curva
ROC para cada um, com a determinao da rea sob a curva (AUC). Esses quatro

164
indicadores serviram de parmetros para a determinao da tcnica a ser adotada para o
modelo preditivo final a ser implementado. As matrizes obtidas e as mtricas de cada
classificador so apresentadas nos tpicos a seguir.

5.4.2. Matrizes de Confuso e Mtricas dos Classificadores


Considerando os trs conjuntos de dados de testes: base completa, base do
curso de pedagogia e base do curso de biologia, foram aplicados os cinco algoritmos
classificadores em cada uma e geradas suas respectivas matrizes de confuso e suas
mtricas associadas.
a) Base de testes completa (Pedagogia + Biologia)
As matrizes de confuso dos classificadores usados na base completa de testes
so apresentadas na Tabela 10. As linhas de cada matriz representam os quantitativos
obtidos em cada classe pelo modelo de previso. As colunas indicam os valores reais de
cada classe. A diagonal principal indica o nmero de classificaes corretas em cada
classe (Verdadeiros Negativos e Verdadeiros Positivos) e a secundria, as classificaes
incorretas (Falsos Negativos e Falsos Positivos).
Tabela 10 Matrizes de Confuso para cada classificador usando a base completa.
Classificador
Modelo (Previsto)
NO EVADIU
EVADIU
NeuralNet
Modelo (Previsto)
NO EVADIU
EVADIU
SVM
Modelo (Previsto)
NO EVADIU
EVADIU

Referncia (Real)

RegLog

NO EVADIU
VN

EVADIU
FN

NO EVADIU

FP

VP

EVADIU

Referncia (Real)
NO EVADIU

KNN

EVADIU

8901

779

601

1159

Referncia (Real)
NO EVADIU
9314
108

Modelo (Previsto)

Modelo (Previsto)
NO EVADIU
EVADIU
TreeDecision

EVADIU
1231
707

Modelo (Previsto)
NO EVADIU
EVADIU

Referncia (Real)
NO EVADIU
9035
467

EVADIU
742
1196

Referncia (Real)
NO EVADIU

EVADIU

9146

837

356

1101

Referncia (Real)
NO EVADIU

EVADIU

8807

754

695

1184

Fonte: Elaborado pelo Autor (2016).

Uma anlise simplificada dessas matrizes, pode ser feita tomando como
exemplo o classificador baseado na regresso logstica. Dos 9.777 casos classificados
como no evadidos pelo algoritmo, o modelo acertou 9.035 (92,4%). Para os classificados
como evadidos, o modelo acertou 1.196 de 1.663 casos (71,92%). As mtricas de

165
avaliao de cada classificador so exibidas na Tabela 11 e seu respectivo grfico
comparativo na Figura 36.
Tabela 11 Mtricas de avaliao de cada classificador usando a base completa (valores
em destaque representam os melhores indicadores entre os classificadores).
RegLog

SVM

RECALL

0,617

0,365

0,598

0,612

0,568

PRECISION

0,719

0,867

0,659

0,615

0,756

AUC
ACCURACY

0,856

0,796
0,882

0,828
0,879

0,788
0,869

0,896

0,894

NeuralNet TreeDecision

KNN

0,797

Fonte: Elaborado pelo Autor (2016).


Figura 36 Grfico comparativo das mtricas por classificador, base completa.

Comparativo Classificadores - Base Completa


0,950
0,900
0,850
0,800
0,750
0,700
0,650
0,600
0,550
0,500
0,450
0,400
0,350
0,300

RECALL
RegLog

PRECISION
SVM

AUC
NeuralNet

TreeDecision

ACCURACY
KNN

Fonte: Elaborado pelo Autor (2016).

O grfico tambm mostra o valor de cada mtrica nos cinco classificadores


utilizados. Excetuando-se a SVM no Recall e Precision, os classificadores apresentaram
valores prximos nas mtricas. No geral, esses resultados foram bastante satisfatrios e
duas das mtricas indicaram um desempenho um pouco superior da Regresso Logstica.
A Acurcia (Acurcia = (VP + VN) / (VP + VN + FP + FN)) acima de 0,86 para todos
os classificadores demonstra tambm uma boa taxa de acerto geral dos modelos na
previso.
A mtrica de menor valor nos cinco classificadores o Recall, ou seja, o
percentual de verdadeiros positivos previstos corretamente pelo classificador (Recall =
VP / (VP + FN)). Um valor alto no Recall indica que o classificador produziu poucos
exemplos positivos erroneamente classificados como Falsos Negativos. Para os casos

166
deste estudo, os Falsos Negativos representam os alunos evadidos, mas o modelo apontou
o contrrio. Os Falsos Positivos indicam os alunos que o modelo classificou como sendo
evadidos, mas, na realidade, eles permaneceram no curso. Como praticamente
impossvel gerar modelos perfeitos nos quais esses dois valores sejam zerados, busca-se
ento escolher qual tcnica e respectivo algoritmo classificador que reduza o possvel
esses valores, alm de analisar o desempenho sob outras mtricas.
Uma discusso detalhada acerca da importncia dos indicadores Falso
Positivo e Falso Negativo para esta pesquisa apresentada na Subseo 5.4.4.
b) Base de testes Pedagogia
Com o objetivo de analisar o desempenho de cada modelo preditivo nas bases
distintas dos cursos, os modelos de cada classificador foram aplicados, usando-se a base
de testes de cada curso em separado. A base de Pedagogia tinha 8.250 instncias, e os
seus resultados so apresentados na Tabela 12, Tabela 13 e Figura 37 a seguir.
Tabela 12 Matrizes de Confuso para cada classificador usando a base do curso de
Pedagogia.
Classificador
Modelo (Previsto)
NO EVADIU

Referncia (Real)
EVADIU
FN

NO EVADIU

FP

VP

EVADIU

EVADIU
NeuralNet
Modelo (Previsto)

EVADIU

NO EVADIU

6641

466

EVADIU

439

704

SVM
NO EVADIU

Referncia (Real)
NO EVADIU
6927

EVADIU
731

153

439

EVADIU

Referncia (Real)

Modelo (Previsto)

Referncia (Real)
NO EVADIU

Modelo (Previsto)

RegLog

NO EVADIU
VN

NO EVADIU
6739

EVADIU

341

721

KNN

449

Referncia (Real)

Modelo (Previsto)

NO EVADIU

EVADIU

NO EVADIU

6825

477

EVADIU

255

693

TreeDecision
Modelo (Previsto)

Referncia (Real)
NO EVADIU

EVADIU

NO EVADIU

6624

433

EVADIU

456

737

Fonte: Elaborado pelo Autor (2016).


Tabela 13 Mtricas de avaliao de cada classificador usando a base de Pedagogia.
RegLog

SVM

NeuralNet TreeDecision

RECALL

0,616

0,375

0,409

0,630

0,592

PRECISION

0,679

0,742

0,652

0,618

0,731

AUC

0,859

0,782

0,779

0,791

0,808

ACCURACY

0,904

0,893

0,885

0,892

0,911

Fonte: Elaborado pelo Autor (2016).

KNN

167
Figura 37 Grfico comparativo das mtricas por classificador, base Pedagogia.

Comparativo Classificadores - Base Pedagogia


0,950
0,900
0,850
0,800
0,750
0,700
0,650
0,600
0,550
0,500
0,450
0,400
0,350
0,300

RECALL

PRECISION

RegLog

SVM

AUC

NeuralNet

ACCURACY

TreeDecision

KNN

Fonte: Elaborado pelo Autor (2016).

Nesses resultados, observa-se que, para cada mtrica, um classificador


diferente apresentou melhor indicador. Um destaque para a acurcia que, para a
Regresso Logstica e o kNN alcanou valores a partir de 0,900, uma tima taxa de acerto
global no processo de classificao. Para os demais classificadores, houve tambm um
incremento nos valores em relao base completa.
c) Base de testes Biologia
A base de testes do curso de Biologia era a menor e possua 3.190 instncias.
Os resultados so apresentados na Tabela 14, Tabela 15 e na Figura 38 a seguir.
Tabela 14 Matrizes de Confuso para cada classificador usando a base do curso de
Biologia.
Classificador
Modelo (Previsto)
NO EVADIU
EVADIU
NeuralNet
Modelo (Previsto)

Referncia (Real)
NO EVADIU
VN

EVADIU
FN

FP

VP

Referncia (Real)
NO EVADIU

EVADIU

NO EVADIU

2260

313

EVADIU

162

455

SVM
Modelo (Previsto)
NO EVADIU
EVADIU

Referncia (Real)

RegLog
Modelo (Previsto)

Referncia (Real)
NO EVADIU

EVADIU

NO EVADIU

2296

293

EVADIU

126

475

KNN
Modelo (Previsto)

Referncia (Real)
NO EVADIU

EVADIU

NO EVADIU

2321

360

EVADIU

101

408

TreeDecision

NO EVADIU
2387

EVADIU

Modelo (Previsto)

500

NO EVADIU

35

268

EVADIU

Fonte: Elaborado pelo Autor (2016).

Referncia (Real)
NO EVADIU
2183

EVADIU

239

447

321

168
Tabela 15 Mtricas de avaliao de cada classificador usando a base de Biologia.
RegLog

SVM

RECALL

0,618

0,349

0,592

0,582

0,531

PRECISION

0,790

0,884

0,737

0,652

0,802

AUC

0,849
0,869

0,785

0,836

0,773

0,775

0,832

0,851

0,824

0,855

ACCURACY

NeuralNet TreeDecision

KNN

Fonte: Elaborado pelo Autor (2016).


Figura 38 Grfico comparativo das mtricas por classificador, base Biologia.

Comparativo Classificadores - Base Biologia


0,950
0,900
0,850
0,800
0,750
0,700
0,650
0,600
0,550
0,500
0,450
0,400
0,350
0,300

RECALL

PRECISION

RegLog

SVM

AUC
NeuralNet

ACCURACY
TreeDecision

KNN

Fonte: Elaborado pelo Autor (2016).

Nesses resultados, percebe-se que a Regresso Logstica apresentou melhores


taxas em trs indicadores (Recall, Accuracy e AUC). Houve uma melhora geral na
preciso de todos os classificadores e uma diminuio da acurcia em relao aos
resultados da base completa.

5.4.3. Curvas ROC


Com os resultados obtidos na base completa, tambm foi possvel gerar os
grficos da curva ROC para cada um dos classificadores (Figura 39), assim como um
grfico comparativo das curvas (Figura 40), possibilitando tambm uma anlise e
interpretao visual do desempenho de cada um sob essa mtrica.

169
Figura 39 Conjunto das curvas ROC dos classificadores utilizados, usando a base de
dados completa.

Fonte: Elaborado pelo Autor (2016).

170
Figura 40 Grfico comparativo das curvas ROC, base Completa.

Fonte: Elaborado pelo Autor (2016).

O grfico aponta que, sob essa mtrica, a classificao dos alunos baseados
no modelo de Regresso Logstica tem desempenho melhor do que o dos demais
classificadores em praticamente todos os casos, pois sua curva ROC est mais prxima
do ponto (0,1) do classificador perfeito, e com isso, apresenta melhores taxas para os
positivos verdadeiros. Alm disso, a sua rea sob a curva (AUC), visualmente e conforme
os dados da Tabela 11, maior, confirmando tambm esse melhor desempenho.

5.4.4. Impactos das Taxas de Falso Negativo (TFN) e Falso Positivo


(TFP) na predio e tratamento da evaso dos cursos.
Em se tratando da anlise da predio de evaso de alunos, os indicadores de
erros de classificao tm importncias distintas no processo de validao dos modelos
preditivos. Duas mtricas so importantes para avaliar os resultados de um classificador,
especificamente no contexto da evaso, que so (1) as Taxas de Falso Negativo; e (2) as
Taxas de Falso Positivo. Em uma situao na qual o estudante foi classificado como Falso
Positivo, esse resultado atrair a ateno de professores e tutores para sua situao
incorretamente atribuda. Nesse caso, podero ser demandadas vrias aes na tentativa
de reverter essa situao hipottica de evaso, quando, na realidade, todo o esforo

171
poderia ser direcionado para alunos que, realmente, estivessem em condies reais de
evaso (os Verdadeiros Positivos). Haver, ento, um desperdcio de recursos
proporcionais quantidade de Falsos Positivos.
De certo modo, as aes pedaggicas de reverter uma probabilidade de evaso
de um aluno que, na realidade, no teria essa tendncia, podem reforar ainda mais a
possibilidade de no evaso do mesmo. Ou seja, haveria o custo na ao que no seria
muito necessria, mas o impacto final das medidas ainda seria vlido.
Numa situao de Falso Negativo, o problema ainda maior, pois o modelo
analisa aqueles alunos que renem o conjunto de caractersticas para evaso, mas no
consegue classific-los nessa categoria. Esses alunos ficam quase imperceptveis aos
olhos do professor ou tutor, pois so includos automaticamente na categoria majoritria
das instncias analisadas, entre uma quantidade bem maior de estudantes e que no esto
nos focos dos monitoramentos, pois apresentam at ento indicadores satisfatrios no
curso. Por no aparecer no grupo de potenciais candidatos evaso, o aluno poder no
ter o acompanhamento adequado e receber as orientaes devidas, agravando ainda mais
o seu risco de evadir-se. Em se confirmando a evaso, o desperdcio seria ainda maior
que o da situao de Falso Positivo.
Por isso, ao serem analisados os diversos resultados das mtricas de avaliao
dos classificadores apresentados nesta Seo, resolveu-se tambm incluir no conjunto de
mtricas para a definio do classificador a ser usado na implementao do modelo, as
duas taxas de classificao falsas: a Taxa de Falsos Positivos (TFP) e a Taxa de Falsos
Negativos (TFN), definidas na Subseo 4.6.1 como:

TFP = FP / (FP + VN)

TFN = FN / (FN + VP)


Utilizando a base de treinamento completa, as taxas obtidas para cada

classificador so apresentadas na Tabela 16.


Tabela 16 TFP e TFN para cada classificador, usando a base completa.
RegLog

SVM

TFN

0,383

0,635

0,402

0,389

0,432

TFP

0,049

0,011

0,063

0,073

0,037

0,432

0,647

0,465

0,462

0,469

Soma

NeuralNet TreeDecision

Fonte: Elaborado pelo Autor (2016).

KNN

172
Na soma das duas taxas de erros, o modelo classificador baseado na
Regresso Logstica foi melhor, com a menor taxa combinada. Alm disso, a sua Taxa de
Falsos Negativos foi ligeiramente inferior que a da rvore de Deciso.

5.4.5. Definio da Regresso Logstica como Tcnica/Classificador


nesta pesquisa
Embora as tcnicas de Aprendizagem de Mquina/Minerao de Dados
Educacionais apresentadas e testadas no contexto desta pesquisa tenham, em diversas
avaliaes, apresentado resultados muito prximos, optou-se por prosseguir com as
demais etapas da pesquisa usando a Regresso Logstica como a tcnica responsvel por
gerar e testar os modelos preditivos, assim como sua implementao em um ambiente
experimental para prova dos conceitos e alcance dos objetivos finais da pesquisa.
Alm de apresentar ndices melhores na maior parte das mtricas, com
destaque a AUC, o uso da Regresso Logstica, que estuda ou prev o comportamento de
uma varivel dependente binria com base em um conjunto de variveis independentes
numricas ou categricas, pode ser justificado pelas seguintes consideraes:

A Regresso Logstica, como tcnica multivariada, menos afetada


quando suposies estatsticas bsicas, como a normalidade dos dados,
no so satisfeitas. Isso simplifica o processo inicial do CRISP-DM de
entendimento e preparao dos dados;

Esse mtodo tambm pode acomodar diferentes tipos de variveis


independentes (mtricas e no mtricas). Os dados oriundos dos
registros de banco de dados de ambientes virtuais de aprendizagem so
heterogneos e podem ser de diferentes tipos, sem necessidade de
processos adicionais de transformao nos dados;

A tcnica foi desenvolvida para prever a probabilidade de um valor


binrio ocorrer. Essa probabilidade pode ser transformada em eventos
discretos e, com isso, possibilitar mudanas de limiares de
transformao para binrio e novas interpretaes desses eventos;

Os demais algoritmos de classificao analisados, embora tambm


proporcionem altos nveis de preciso, so chamados de classificadores
caixa-preta, ou seja, eles no fornecem ao usurio todas as
informaes que levaram s previses. Portanto, o conhecimento por
dentro dos dados permanece oculto para o especialista e os usurios
finais.

No modelo da Regresso Logstica, fica clara e quantificada a


contribuio de cada varivel no modelo preditivo. No contexto da
EAD, isso representa um indicativo importante para tomada de decises
acerca de aes que podem ajudar a reverter expectativas de evaso, por
exemplo;

173

A tcnica j tem sua importncia para a minerao de dados


educacionais reconhecida pela comunidade de pesquisa da rea, como
na reviso do estado da arte feita por Pea-Ayala (2014), na qual para
vrias abordagens de EDM, a Regresso Logstica foi a principal
tcnica usada nos trabalhos pesquisados. O trabalho recm-publicado
de Marbouti et al. (2016) tambm refora que essa a tcnica de
previso mais popular em contextos educacionais.

A partir dessa definio, buscou-se um aperfeioamento do modelo, com o


uso de uma tcnica de otimizao e, ao mesmo tempo, uma simplificao do mesmo, sem
reduzir sua capacidade preditiva. O processo e seus respectivos resultados esto descritos
na prxima seo deste texto.

5.5. Otimizando o modelo de classificao


A Regresso Logstica utilizada na seo anterior utilizou o mtodo de
estimao simultnea, em que todas as variveis independentes so analisadas
conjuntamente no modelo. Para fins de uniformizao de procedimentos, todos os
classificadores analisados utilizaram tambm todo o conjunto de variveis obtidos na
Anlise Fatorial Confirmatria descrita na Seo 5.3. No entanto, aps a escolha da
Regresso Logstica como a tcnica preditiva adotada nesta pesquisa, buscou-se, ento,
aprimor-la no sentido de obter resultados ainda mais significativos na pesquisa.
Os modelos de regresso mltipla em geral podem ser otimizados, usando um
processo de estimao denominado de Stepwise. Esse mtodo permite ao pesquisador
examinar a contribuio de cada varivel independente para o modelo de regresso.
Segundo Hair et al. (2009), esse tipo de procedimento na regresso talvez seja a
abordagem mais comum para seleo de variveis.
Durante a aplicao do mtodo, cada varivel analisada antes da sua
incluso no modelo. Assim, a varivel independente com maior contribuio para o
modelo acrescentada no primeiro momento. As demais variveis independentes so
ento selecionadas para a incluso, com base na contribuio incremental sobre as
variveis j presentes no modelo. Um fluxograma que ilustra todo o mtodo de estimao
Stepwise apresentado e descrito em Hair et al. (2009).
O mtodo Stepwise til quando o pesquisador utiliza inicialmente um
nmero relativamente grande de variveis para incluso na funo de predio. A partir
da, o processo executado e as melhores variveis independentes so includas no
modelo e as no teis na discriminao entre os dois grupos so descartadas e um conjunto

174
reduzido de variveis identificado. Esse conjunto, geralmente, to bom quanto e s
vezes at melhor que o conjunto com todas as variveis originalmente includas (Hair
et al., 2009).
Na aplicao do Stepwise, o modelo de partida foi exatamente o exibido na
Figura 35. A funo step, do pacote stats do Software R foi utilizada para aplicar o
algoritmo do mtodo no modelo inicial. O resultado do processo mostrado na Figura
41, com o conjunto resultante das variveis de maior importncia para o modelo.
Figura 41 Modelo da Regresso Logstica aps o Stepwise.
Glm (formula = EVADIU ~ var01 + var02 + var03 + var04 + var10 + var12 + var13 +
var16 + var17 + var20 + var21 + var26 + var27 + var29, family = binomial(link =
"logit"), data = treinamento)

Fonte: Elaborado pelo Autor (2016).

Esse modelo foi obtido aps sete (7) iteraes do algoritmo e resultou em um
conjunto com quatorze (14) variveis significativas, sendo seis (6) relacionadas com o
construto Autonomia; cinco (5) com o Dilogo e trs (3) com a Estrutura. A lista dessas
variveis est no Quadro 15.
Quadro 15 Lista final das variveis do modelo, definida aps a Regresso Logstica
Stepwise.
Id

Variveis

Construto

var01 Mdia semanal da quantidade de acessos do aluno ao ambiente no semestre.

AUTONOMIA

var02 Quantidade de acessos do aluno ao ambiente por turno (Manh), por semestre.

AUTONOMIA

var03 Quantidade de acessos do aluno ao ambiente por turno (Tarde), por semestre.

AUTONOMIA

var04 Quantidade de acessos do aluno ao ambiente por turno (Noite), por semestre.

AUTONOMIA

var10

Quantidade de acessos do aluno aos diferentes tipos de atividades


disponibilizadas (webquest, frum, quiz, entre outros), por disciplina.

var12 Quantidade de acessos do aluno aos fruns, por disciplina.


var13 Quantidade geral de postagens do aluno em fruns, por disciplina.
var16
var17
var20
var21
var26
var27
var29

Quantidade geral de mensagens enviadas pelo aluno dentro do ambiente, por


semestre.
Quantidade geral de mensagens recebidas pelo aluno dentro do ambiente, por
semestre.
Quantidade de mensagens de colegas recebidas pelo aluno no ambiente, por
semestre.
Quantidade de mensagens enviadas pelo aluno para outros colegas no ambiente,
por semestre.
Quantidade geral de recursos disponibilizados pelo professor (pgina web, vdeo,
pdfs, entre outros) por disciplina.
Quantidade geral de atividades disponibilizadas (webquest, frum, quiz, entre
outros) pelo professor por disciplina.
Quantidade de fruns de discusso disponibilizados sobre os contedos por
disciplina.

Fonte: Elaborado pelo Autor (2016).

AUTONOMIA
AUTONOMIA
DILOGO
DILOGO
DILOGO
DILOGO
DILOGO
ESTRUTURA
ESTRUTURA
ESTRUTURA

175
Aps a aplicao do mtodo Stepwise, foram novamente geradas as matrizes
de confuso e calculadas as respectivas mtricas associadas, para que se pudesse avaliar
o impacto numrico da reduo de variveis nos indicadores do modelo. Os resultados
comparativos com o modelo anterior sem Stepwise so exibidos na Tabela 17, e as
mtricas de avaliao em ambos os modelos esto na Tabela 18.
Tabela 17 Matrizes de Confuso para cada base, aps o uso do Stepwise.
Base Completa - Sem Stepwise
RegLog

Base Completa - Com Stepwise

Referncia (Real)

Modelo (Previsto)
NO EVADIU

NO EVADIU
9035

EVADIU

RegLog

EVADIU

Modelo (Previsto)

742

467

1196

NO EVADIU

NO EVADIU

NO EVADIU
6739

EVADIU

NO EVADIU

721

EVADIU

NO EVADIU

NO EVADIU

RegLog

EVADIU

NO EVADIU

126

475

EVADIU

NO EVADIU
2298
124

Fonte: Elaborado pelo Autor (2016).


Tabela 18 Mtricas de avaliao do modelo, sem e com o Stepwise.
Sem Stepwise

Com Stepwise

RECALL

0,617

0,620

PRECISION

0,719

0,729

AUC
ACCURACY

0,856
0,894

0,857
0,896

Sem Stepwise

Com Stepwise

RECALL

0,616

0,618

PRECISION

0,679

0,681

AUC
ACCURACY

0,859
0,904

0,860
0,905

Sem Stepwise

Com Stepwise

RECALL

0,618

0,622

PRECISION

0,790

0,794

AUC
ACCURACY

0,849
0,869

0,849
0,870

Base Pedagogia

Base Biologia

447
723

Referncia (Real)

Modelo (Previsto)

293

Base Completa

EVADIU

339

2296

EVADIU

NO EVADIU
6741

Base Biologia - Com Stepwise

Referncia (Real)

Modelo (Previsto)

1208

Referncia (Real)

Modelo (Previsto)

449

Base Biologia - Sem Stepwise


RegLog

740

448

RegLog

EVADIU

341

EVADIU

Base Pedagogia - Com Stepwise

Referncia (Real)

Modelo (Previsto)

NO EVADIU
9044

EVADIU

Base Pedagogia - Sem Stepwise


RegLog

Referncia (Real)

Fonte: Elaborado pelo Autor (2016).

EVADIU
290
478

176
Embora o ganho numrico com a adoo do Stepwise tenha sido pequeno, o
fato de a abordagem selecionar um nmero menor de variveis, estas ainda apresentam
alto poder discriminatrio entre os grupos (classes), o que pode favorecer as etapas
seguintes do processo, como a implantao do modelo e coleta de novos dados em tempo
de execuo do programa. Menos variveis representam menos consultas ao banco de
dados, tempo menor de processamento do modelo e, do ponto de vista do usurio, pode
representar menor exigncia de carga cognitiva no uso da aplicao, em razo do menor
nmero de informaes que ele precisa para tomar conhecimento da situao dos alunos
em relao s suas probabilidades de evaso.
Dessa forma, o modelo da evaso baseado na abordagem Stepwise da
Regresso Logstica foi definido como o modelo preditivo a ser implementado e testado
nas demais fases desta pesquisa.

5.6. Aplicao e avaliao do modelo nos perodos dos cursos


Com a definio do modelo classificador, foram realizados testes nas duas
bases, para se analisar o poder de predio em cada um dos perodos crticos para evaso
nos dois cursos. Com base na anlise de evaso verificada na Seo 5.2, o modelo foi
aplicado do 2 ao 5 perodo em cada curso, sendo observadas as mesmas mtricas
adotadas para avaliar os classificadores neste estudo.
A inteno era verificar se o modelo mantm as mesmas taxas de acerto e
desempenho do classificador quando se utilizam bases menores, tambm verificando a
viabilidade para sua implementao, j que o monitoramento e anlise das taxas de evaso
devem ocorrer em diversos momentos dentro de um semestre em curso, possibilitando a
tomada de deciso acerca de possveis estratgias para serem implantadas ainda no
perodo corrente, no sentido de reduzir ou reverter taxas de evaso.
Os resultados do modelo por perodo no curso de Pedagogia so exibidos na
Tabela 19 no grfico da Figura 42. Os do curso de Biologia so mostrados na Tabela 20
e no grfico da Figura 43.
Tabela 19 Resultados das Mtricas por perodo - Pedagogia.
Perodo

RECALL

0,346

0,355

0,538

0,846

PRECISION

0,526

0,741

0,643

0,673

AUC

0,775

0,790

0,813

0,945

ACCURACY

0,863

0,891

0,892

0,920

177
Fonte: Elaborado pelo Autor (2016).
Figura 42 Mtricas do classificador para os perodos iniciais de Pedagogia.

Pedagogia
1,000
0,800
0,600
0,400
0,200
2

ACURCIA

AUC

RECALL

5
PRECISION

Fonte: Elaborado pelo Autor (2016).


Tabela 20 Resultados das Mtricas por perodo - Biologia.
Perodo

RECALL

0,314

0,340

0,547

0,955

PRECISION

0,806

0,730

0,696

0,869

AUC

0,704

0,738

0,835

0,991

ACCURACY

0,817

0,811

0,833

0,955

Fonte: Elaborado pelo Autor (2016).


Figura 43 Mtricas do classificador para os perodos iniciais de Biologia.

Biologia
1,000
0,900
0,800
0,700
0,600
0,500
0,400
0,300
0,200
0,100
2

ACURCIA

AUC

4
RECALL

5
PRECISION

Fonte: Elaborado pelo Autor (2016).

A base de Pedagogia continha 1.650 instncias por perodo e a de Biologia


possua 660 instncias em cada perodo para os testes de classificao.

178
Observou-se que, j no segundo perodo dos cursos, os indicadores apontam
resultados satisfatrios (com exceo do Recall), considerando o nmero reduzido de
instncias testadas e a precocidade dos dados dos alunos. No geral, os resultados vo
ficando melhores nos perodos mais adiantados do curso. Isso porque as interaes dos
alunos acontecem de maneira mais regular; h uma maior consistncia nos dados que
definem um aluno com tendncia evaso do que os que no tm essa caracterstica. Com
isso, o classificador consegue prever ambas as classes (evadidos e no evadidos) com
taxas crescentes de acertos e desempenho.
Nota-se que o desempenho do classificador no 5 perodo de Pedagogia
(Tabela 19) apresenta trs das mtricas com ndices maiores do que o verificado em toda
a base desse curso (Tabela 18), com uma pequena diferena na Precision.
No caso de Biologia, todas as mtricas no 5 perodo apresentam ndices
melhores que quando usada a base completa do curso para os testes. Isso refora a
afirmao de que, medida que o curso avana, o poder preditivo do classificador
tambm melhora.

5.7. Implementao e avaliao de ferramenta de suporte anlise de evaso


A ltima etapa do processo de CRISP-EDM desenvolvido nesta pesquisa foi
a implantao da soluo computacional na qual, a partir do conjunto de variveis da
distncia transacional definido para a coleta de dados, realiza o processo de minerao
dos dados educacionais, aplicando o modelo preditivo para estimativa de evaso de cada
aluno e gera diferentes visualizaes que possibilitam aos professores, tutores e gestores,
um melhor acompanhamento dos diversos indicadores que impactam diretamente na
chance de o aluno evadir-se ou no do curso a distncia.
A partir da experincia e dos conhecimentos obtidos nas etapas anteriores da
pesquisa, foi possvel projetar uma aplicao que pudesse atender s necessidades dos
usurios, contemplando no somente aspectos referentes ao monitoramento e deteco
precoce de tendncias evaso dos alunos, mas tambm um instrumento geral de
acompanhamento das interaes do aluno no ambiente e tambm de outros indicadores
importantes para observar o progresso dos estudantes no curso.

179

5.7.1. Prototipao em baixa fidelidade


Os prottipos de baixa fidelidade foram desenvolvidos para explorar as ideias
gerais sobre o sistema proposto, como um esboo inicial a ser apresentado aos potenciais
usurios e para discusso com a equipe de desenvolvimento.
Com a ideia de se desenvolver a aplicao no formato de Dashboard para ser
futuramente incorporado ao AVA, os prottipos iniciais foram construdos como
mockups, usando a ferramenta on-line Balsamiq e contemplaram trs mdulos da futura
aplicao. O primeiro mdulo d nfase viso geral dos dados dos alunos em cada
disciplina, com destaque aos seus indicadores gerais de referncia para seu
acompanhamento. Um segundo mdulo trata da anlise de desempenho dos alunos, que
parte integrante de uma outra pesquisa correlata e o terceiro mdulo com a parte
especfica de anlise da evaso, objeto desta pesquisa. Optou-se pelo termo Indicadores
ao invs de Variveis para possibilitar uma melhor interpretao pelos usurios da
aplicao.
Cada um dos mdulos contm trs abas para as visualizaes dos grficos, de
acordo com o interesse ou a necessidade do usurio. No mdulo de evaso, dois
componentes do tipo Infobox informam o percentual de cada categoria de risco de
evaso, calculado com base nos dados da turma selecionada pelo usurio. Na Figura 44,
apresentada uma das telas do prottipo do mdulo anlise de evaso. As demais telas
do prottipo de baixa fidelidade esto no Apndice E desta tese.
Figura 44 Exemplo da tela do Prottipo de baixa fidelidade Mdulo anlise de evaso.

Fonte: Elaborado pelo Autor (2016).

180
Para cada curso, perodo e disciplina escolhida pelo usurio, alm das abas de
visualizao, as tabelas de indicadores e de alunos da turma seriam exibidas, permitindo
uma interao entre essas tabelas e os grficos apresentados. Caixas informativas acima
das abas j indicariam os percentuais de alto e baixo risco de evaso para os alunos da
turma selecionada e, ao posicionar o mouse sobre algum ponto do grfico, informaes
daquele ponto so retornadas em uma hint na tela, facilitando o entendimento da
informao apresentada.

5.7.2. Prototipao em alta fidelidade


Os prottipos de alta fidelidade devem apresentar funcionalidade completa,
serem interativos e com o esquema de navegao claramente definido a partir do seu
layout de telas.
Com os feedbacks obtidos nos mockups, os prottipos de alta fidelidade foram
desenvolvidos j utilizando o framework Shiny, que foi a tecnologia escolhida tambm
para implementao final da aplicao. Os dados usados foram os mesmos da base de
testes, com as 14 variveis definidas pelo modelo da Regresso Logstica Stepwise.
Ao executar a aplicao, o modelo ativado e, para cada aluno da base,
calculada a sua probabilidade de evaso, sendo essa probabilidade transformada em valor
binrio representando o status Alto Risco ou Baixo Risco para evaso. A Figura 45
exibe uma das telas da aplicao. Todas as telas desses prottipos so apresentadas no
Apndice F.
Figura 45 Exemplo da tela do Prottipo de alta fidelidade Mdulo anlise de evaso.

Fonte: Elaborado pelo Autor (2016).

181
As trs abas descritas no prottipo de baixa fidelidade (Geral Indicadores e
Alunos), foram implementadas. Na lateral esquerda, o usurio escolhe o mdulo de
interesse e depois o curso, perodo e disciplina que deseja ver os dados. Na parte central
e superior da interface, duas caixas exibem o percentual de cada grupo de risco, em
relao ao total de alunos da turma, considerando as possibilidades de evaso dos alunos
na disciplina selecionada. Para se chegar a esses percentuais, a ferramenta usa o modelo
de regresso obtido e incorporado ao seu cdigo, para classificar cada um dos alunos da
turma, aplicando o modelo aos dados do aluno. Aps isso, feita a contagem de alunos
em cada uma das classes preditas. O detalhe desse processo exibido na Figura 46.
Figura 46 Processo de classificao e exibio de dados da turma.

Fonte: Elaborado pelo Autor (2016).

No centro de cada aba, mostrado o grfico gerado com os dados escolhidos.


Para cada aba, um tipo de grfico exibido. Na aba geral, mostrado um grfico de
barras, com os valores de cada indicador, separados por classe (Alto Risco e Baixo Risco).
Na aba indicadores, optou-se pelo grfico de bolhas, tambm separando as classes. Na
aba alunos, os dados dos indicadores do aluno selecionado so exibidos em forma de
grfico de pontos com linhas diferenciais, indicando a distncia do valor do aluno com a
mdia dos alunos de baixo risco, em cada indicador. Tais modelos de grficos foram
escolhidos para possibilitar uma melhor interpretao dos dados pelos instrutores.
Os hints foram implementados e mostram diferentes informaes nos
grficos, dependendo do contexto da visualizao. Para filtrar uma das categorias no
grfico, o usurio pode, simplesmente, omitir a outra categoria, clicando sobre ela na
legenda do grfico.

182
As tabelas na lateral direita exibem a lista de indicadores e a lista de alunos
da turma selecionada. Essas tabelas so reativas aos grficos, permitindo uma seleo de
indicadores e de alunos, em suas respectivas abas. Ambas tabelas so retrteis, para
permitir uma melhor visualizao geral da aplicao. A seleo dos indicadores tambm
pode ser por construto, a partir da caixa de seleo localizada na parte superior da tabela
de indicadores.
O prottipo ficou totalmente funcional, com todas as caractersticas
projetadas, permitindo a realizao dos testes com os usurios de maneira abrangente e
satisfatria. O seu cdigo-fonte est disponvel no repositrio GitHub, no endereo
https://github.com/grupoccte/DashBoard.

5.7.3. Resultados dos testes com usurios


Os testes com os prottipos foram executados de acordo com os
procedimentos e pblico-alvo descritos na Subseo 4.7.2 desta tese. Eles aconteceram
nas instalaes onde cada voluntrio atua nas suas respectivas IES e, alm dos objetivos
de avaliao dos prottipos, serviram tambm para coleta de novas contribuies de
melhorias e possveis ajustes para a verso final. Cada teste durou em mdia 40 minutos.
A Figura 47 exibe imagens de alguns momentos dos testes com os usurios.
Figura 47 Imagens dos testes com usurios.

Fonte: Elaborado pelo Autor (2016).

183
Os resultados desses testes foram divididos em duas categorias: 1) Resultados
da avaliao das expectativas e experincias do usurio, a partir do Questionrio
AttrakDiff; e 2) Resultado da avaliao da usabilidade. Esses resultados so apresentados
a seguir e, ao final, tambm so listadas opinies e sugestes consideradas importantes
para a implementao final da aplicao.
1 Resultados das expectativas e experincias dos usurios:
Os resultados da avaliao das expectativas e experincias dos usurios so
apresentados em trs grficos fornecidos pela ferramenta AttrakDiff. O primeiro deles
denominado Portflio de Resultados (Figura 48), que mostra uma combinao da
avaliao da qualidade hednica com a qualidade pragmtica.
Figura 48 Portflio dos Resultados dos dois questionrios aplicados.

Fonte: Adaptado de www.attrakdiff.de (2016).

184
A apresentao do portflio subdividida em quadrantes, que ajudam
estabelecer quais caractersticas predominantes o produto possui. So os seguintes
quadrantes: suprfluo, muito auto orientado, muito orientado para tarefas, neutro, auto
orientado, orientado para tarefas e desejado. Dependendo dos valores das dimenses, o
produto ficar em uma ou mais regio desses quadrantes. A Figura 48 exibe o Portflio
obtido com os resultados dos dois questionrios.
O valor mdio das dimenses representado pelo pequeno quadrado,
indicando como os usurios classificaram o produto. O intervalo de confiana desse valor
indicado pelo retngulo no qual o quadrado est includo. Quanto maior o retngulo de
confiana, menos certeza se tem a qual regio ele pertence, pois o mesmo pode ultrapassar
o limite de um quadrante. Um pequeno retngulo de confiana uma vantagem porque
significa que os resultados da investigao so mais confiveis e menos coincidentes.
Como o questionrio aplicado a uma pequena amostra de usurios, o intervalo de
confiana tambm demonstra, estatisticamente, a regio a qual estaria o valor real caso
fosse aplicado a um grande nmero de usurios.
Os resultados exibidos nesse grfico apontam que o produto foi classificado
como "Desejado nos dois momentos. Suas qualidades pragmticas e hednicas so
claramente destacadas nesse quadrante, indicando que o produto auxilia, desperta o
interesse e estimula os usurios.
O intervalo de confiana da qualidade pragmtica maior do que o da
qualidade hednica, para o questionrio da experincia do usurio, embora esteja somente
localizado em um nico quadrante. Isso pode ser atribudo s classificaes diferentes
dadas pelos usurios, indicando tambm que h espaos ainda para melhoria do produto
em termos de sua qualidade pragmtica.
Para permitir um melhor detalhamento da avaliao dos usurios, so tambm
calculados os valores mdios em cada um dos itens, exibidos no grfico dos pares de
palavras (Figura 49).
Merecem ateno as ocorrncias de valores extremos em cada item. Esses
valores mostram quais caractersticas esto no nvel crtico ou bem aceitveis no produto.
Nesse caso, tanto a expectativa quanto experincia dos usurios, receberam avaliaes
acima do neutro e no houve nenhuma ocorrncia de pontos crticos, pois todos os valores
mdios esto maiores que os valores neutros.

185
De um modo geral, em todos os itens, os prottipos foram bem avaliados,
tendo a experincia superado a expectativa em quase 60% dos itens (16/28), o que
tambm demonstra que os prottipos de alta fidelidade foram ainda melhores avaliados
que os de baixa fidelidade.
Figura 49 Valores mdios em cada par de palavras.

Fonte: Adaptado de www.attrakdiff.de (2016).

186
O terceiro grfico (Figura 50) apresenta o Diagrama de valores mdios para
cada dimenso avaliada. Nessa apresentao, a qualidade hednica distingue entre os
aspectos de estmulo e identidade. Alm disso, apresentada a classificao da
atratividade do produto.
Figura 50 Diagrama de valores mdios em cada dimenso.

Fonte: Adaptado de www.attrakdiff.de (2016).

Na anlise desse diagrama, para todos os itens, a avaliao do produto est


localizada na regio acima do nvel neutro, nos dois prottipos analisados, indicando boas
avaliaes dos mesmos. Em relao qualidade pragmtica, os usurios tanto poderiam
(expectativas) e quanto conseguiram (experincias) realizar tarefas e atingir seus
objetivos usando o sistema.
O valor mdio da Qualidade Hednica Identidade (QH-I) e da Qualidade
Hednica Estmulo (QH-E) obtidos indicam que a aplicao fornece aos usurios uma
identificao com o produto e tambm pode cativar e estimul-los de maneira mais
evidenciada. O valor mdio de atratividade do produto tambm est localizado na regio
acima do nvel neutro, indicando que a impresso geral do produto de que ele muito
atraente para o usurio.

187
2 Resultados da avaliao da usabilidade:
A anlise da gravao da execuo das seis tarefas propostas no teste gerou
alguns indicativos importantes sobre a usabilidade e contribuies para melhorias na
aplicao. As duas primeiras tarefas foram realizadas no Mdulo de Viso Geral de
Dados, com as visualizaes genricas dos dados, sem aplicao do modelo de previso.
Essas tarefas serviram para que os usurios tambm pudessem ir se familiarizando com a
ferramenta, j que eles no tiveram nenhum treinamento especfico de uso da mesma. Os
Quadros 16 a 21mostram os resultados de cada tarefa e suas respectivas observaes sobre
a usabilidade.
Quadro 16 Resultados da execuo da Tarefa 1.
Tarefa 1 Mdulo Viso Geral dos Dados (Aba Geral) Visualizar dados de uma determinada
disciplina e descobrir a mdia dessa turma no indicador: Quantidade de mensagens enviadas
por aluno aos professores.
Tempo (s)
Erros
Pedidos Ajuda
Cliques
Mdia
D.P.
Mdia
D.P
Mdia
D.P
Mdia
D.P
91,16
39,72
1,05
1,22
0,89
0,99
9,05
2,37
Observaes sobre a usabilidade:
- Durante a atividade, alguns usurios confundiram a tabela de "indicadores" com a "aba
indicadores".
- Alguns usurios ficaram inseguros em relao mdia solicitada, mas conseguiram encontr-la.

Fonte: Elaborado pelo Autor (2016).

A tarefa era relativamente simples, e a mdia de erros e de pedidos de ajuda


indicam que os usurios conseguiram realiz-la sem maiores dificuldades.
Quadro 17 Resultados da execuo da Tarefa 2.
Tarefa 2 Mdulo Viso Geral dos Dados (Aba Indicadores) Visualizar dados de uma
determinada disciplina e descobrir a mdia dessa turma no indicador: Mdia semanal de
acessos do aluno ao ambiente. Alm disso, identificar qual (ou quais) aluno(s) de maior valor
nesse indicador no grfico.
Tempo (s)
Erros
Pedidos Ajuda
Cliques
Mdia
D.P.
Mdia
D.P
Mdia
D.P
Mdia
83,53
39,56
1,11
0,94
1,11
1,20
8,11
Observaes sobre a usabilidade:
- Apenas um usurio teve dificuldades de interpretar os eixos do grfico apresentado.

D.P
2,23

Fonte: Elaborado pelo Autor (2016).

Outra tarefa simples e executada sem dificuldades pelos usurios. Na maioria


das vezes, os pedidos de ajuda eram somente para confirmar se os dados escolhidos
estavam corretos com o solicitado na tarefa.
Quadro 18 Resultados da execuo da Tarefa 3.
Tarefa 3 Mdulo Anlise de Evaso (Aba Geral) Visualizar dados de uma determinada
disciplina e exibir o grfico somente com os indicadores do construto DILOGO. Alm disso,

188
o usurio deve identificar os dois indicadores que apresentam MAIORES diferenas entre os
alunos com baixo risco e os de alto risco de evaso.
Tempo (s)
Erros
Pedidos Ajuda
Cliques
Mdia
D.P.
Mdia
D.P
Mdia
D.P
Mdia
D.P
87,67
37,42
0,78
1,00
1,00
1,08
8,61
2,35
Observaes sobre a usabilidade:
- Um usurio era daltnico, o que inviabilizou a sua realizao dessa tarefa em funo da
necessidade de associar uma cor a cada uma das condies de risco de evaso.
- Alguns usurios confundiram os eixos do grfico e a terminologia frequncia do alunos e
mdia do aluno.

Fonte: Elaborado pelo Autor (2016).

A primeira tarefa especfica na qual o usurio teve que identificar os dois


grupos de alunos especficos em relao evaso (Alto Risco e Baixo Risco) apresentou
indicadores semelhantes s tarefas anteriores, possibilitando j diferenciar visualmente os
dois grupos na aplicao e suas respectivas mdias em cada um dos indicadores. Alm
disso, a tabela de alunos mostrou tambm a qual grupo de risco cada aluno pertencia.
Quadro 19 Resultados da execuo da Tarefa 4.
Tarefa 4 Mdulo Anlise de Evaso (Aba Indicadores) Visualizar dados de uma
determinada disciplina e exibir o grfico da Mdia semanal de acessos do aluno ao ambiente,
selecionando somente a visualizao dos alunos com alto risco de evaso. Alm disso, foi
solicitado ao usurio que, ao visualizar esse resultado, indicasse que aes didticopedaggicas ele deveria tomar para atenuar o problema.
Tempo (s)
Erros
Pedidos Ajuda
Cliques
Mdia
D.P.
Mdia
D.P
Mdia
D.P
Mdia
D.P
61,32
34,69
0,89
1,41
0,84
0,83
6,47
1,47
Observaes sobre a usabilidade:
- A maioria dos usurios usou corretamente o filtro de categorias no grfico, para visualizar
somente os alunos com alto risco. Esse recurso mostrou-se til pois o usurio focava apenas na
informao desejada.
- A presena de informaes (valores) no eixo X gerou dvidas em alguns usurios sobre de que se
tratavam.
- Um usurio confundiu-se ao tentar selecionar a categoria de alto risco clicando sobre o infobox
na parte superior da tela. Mas logo percebeu o erro e clicou no filtro correto, na legenda do
grfico.

Fonte: Elaborado pelo Autor (2016).

Essa tarefa tambm foi de fcil e rpida execuo pela maioria dos usurios,
sendo realizada com maiores dificuldades apenas por um usurio, cujo tempo chegou ao
triplo da mdia dos demais, embora tenha cometido apenas um erro e no solicitado ajuda.
Em relao deciso a ser tomada acerca dos alunos com alto risco mostrados
no grfico, a maior parte dos usurios refora a necessidade de fazer contato com os
alunos para identificar possveis problemas que estariam levando ao baixo nmero de
acessos ao ambiente e. por consequncia, ter alto risco de evaso no curso. Alguns dos
comentrios so transcritos a seguir:

189
- "Faria contato por meio do tutor, telefone e e-mail para identificar as causas das
dificuldades de acesso.";
- "Eu faria uma aula de orientao explicando a melhor forma de acessar o ambiente.
Verificava se era problema de senha ou de login. Tentava orientar os alunos.";
- "Devemos estimular o acesso dirio, disparando mensagens para os grupos de risco, pelo
ambiente, celular ou em ltimo caso, por telefone mesmo.";
- "Devemos focar nos alunos de alto risco, com contatos individuais e abordagens mais
personalizadas. Os alunos precisam tambm saber que esto sendo acompanhados.";
- "Estou com um problema real idntico a esse em uma turma. Enviamos WhatsApp,
mensagens pelo sistema e telefonamos. Mais algumas vezes no temos sucesso.";
- "Verifica-se pelo grfico que os alunos mostrados tm baixo ndice de acesso. No adianta
mandar mensagens pelo sistema. A ao seria mandar e-mail individual, para o aluno tambm
saber que acompanhado."

Pelos comentrios dos professores e tutores, fica evidenciado que eles


conseguem perceber, a partir da visualizao apresentada, o problema existente e
conseguem pensar em caminhos para tentar atenuar ou resolv-lo. Outro detalhe
importante que eles perceberam que o contato deveria ser feito por recursos fora do
ambiente virtual, j que o problema era justamente a falta de acesso ao ambiente.
Quadro 20 Resultados da execuo da Tarefa 5.
Tarefa 5 Mdulo Anlise de Evaso (Aba Indicadores) Visualizar dados de uma
determinada disciplina e exibir o grfico da Quantidade de acessos do aluno aos fruns,
localizando o aluno com menor valor nesse indicador. Alm disso, foi solicitado ao usurio
que, ao visualizar esse resultado, indicasse que aes didtico-pedaggicas ele deveria tomar
para atenuar o problema.
Tempo (s)
Erros
Pedidos Ajuda
Cliques
Mdia
D.P.
Mdia
D.P
Mdia
D.P
Mdia
D.P
95,53
38,16
0,84
0,76
1,47
1,22
7,32
1,57
Observaes sobre a usabilidade:
- A maioria dos usurios usou corretamente o filtro de categorias no grfico, para visualizar
somente os alunos com alto risco.
- Para alguns usurios, no ficou clara a associao do tamanho da bolha ao risco da evaso do
aluno, pois eles interpretaram como sendo proporcional ao valor no indicador mostrado.

Fonte: Elaborado pelo Autor (2016).

A tarefa consumiu, em mdia, um pouco mais de tempo e pedidos de ajuda,


pois exigia do usurio mais aes e tomada de deciso. Mesmo assim, foi realizada sem
maiores dificuldades pelos professores e tutores. Em relao s possveis aes a serem
tomadas em funo do resultado visualizado, obtiveram-se os comentrios semelhantes
tarefa anterior:
- "Iria conversar com a aluna em especfico para entender qual sua dificuldade em acessar
os fruns da disciplina.";
- "Contato para identificar o problema de acesso aos fruns, reforar a importncia da
participao.";

190
- "Essa questo de acesso aos fruns tem relao com a questo anterior. Se o aluno no est
acessando o ambiente ele tambm no vai acessar os fruns.";
- "Aumentar o feedback dos professores e tutores nos fruns, para assim estimular a
participao dos alunos.";
- "Tentar verificar com o aluno se ele no est se sentindo motivado a utilizar os fruns.
Analisar o aluno nos outros indicadores para verificar se o aluno est com problema;
- "Verificar se o aluno est entrando no ambiente, se o aluno estiver entrando no ambiente e
no utilizando o frum, eu iria entrar em contato para verificar o motivo."

Por alguns dos comentrios acima, implicitamente, esses usurios comearam


a perceber que podem usar a prpria ferramenta para buscar mais subsdios para sua ao
corretiva no problema. Ao invocar a necessidade de se verificar outros indicadores do
aluno, esses professores e tutores reconhecem que a aplicao pode dar-lhes mais
informaes que os ajudem a completar suas anlises do problema e, a partir da, tomar
suas decises.
Quadro 21 Resultados da execuo da Tarefa 6.
Tarefa 6 Mdulo Anlise de Evaso (Aba Alunos) Visualizar dados de uma determinada
disciplina e exibir o grfico de um aluno. O usurio tambm devia informar em que
indicadores o aluno se encontra com frequncia melhor do que os alunos com baixo risco de
evaso.
Tempo (s)
Erros
Pedidos Ajuda
Cliques
Mdia
D.P.
Mdia
D.P
Mdia
D.P
Mdia
D.P
102,74
35,64
0,79
0,79
1,58
1,35
9,74
2,51
Observaes sobre a usabilidade:
- Uma barra de ferramentas que aparece automaticamente no grfico confundiu a visualizao do
nome do aluno acima do grfico.
- Embora em cores diferentes, os indicadores das frequncias dos alunos e da mdia da turma
possuem o mesmo formato, causando dificuldades na interpretao do grfico.
- A dica na tela, quando o grfico est sobre um ponto no grfico, pode informar o nome completo
do indicador, para uma viso imediata, sem recorrer tabela.
- Poucos usurios usaram o campo de busca na tabela para localizar o aluno mais facilmente. Esse
campo estrava identificado como search e no foi traduzido, sendo possivelmente a razo do
seu baixo uso.

Fonte: Elaborado pelo Autor (2016).

A ltima tarefa envolveu a localizao dos dados de um determinado aluno e,


em seguida, uma observao detalhada em cada um dos seus indicadores no grfico, para
atender especificao da tarefa. Com isso, o seu tempo mdio foi o maior que as demais
tarefas propostas, assim como os pedidos de ajuda. Mesmo assim, ela foi executada com
baixa taxa de erros. Foi observada tambm a necessidade de um ajuste nos pontos que
representam dados no grfico de modo a melhor diferenciar as duas principais categorias
de informao, que o mesmo exibe.

191
3 Opinies e sugestes relevantes dadas pelos usurios:
A partir da anlise dos resultados da execuo das tarefas pelos potenciais
usurios da aplicao, possvel afirmar que, mesmo em se tratando ainda de um
prottipo funcional, a ferramenta consegue alcanar seu objetivo principal, que de
apresentar aos professores e tutores um conjunto de visualizaes grficas, geradas a
partir dos dados das disciplinas e dos alunos nos cursos a distncia estudados.
Mesmo com pouco tempo para se acostumarem com a aplicao, eles
executaram os testes sem apresentar grandes dificuldades e conseguiram perceber a
importncia do uso de uma ferramenta computacional com os recursos disponibilizados.
Destacam-se a seguir uma srie de comentrios e sugestes sobre a aplicao, feitos
durante os testes.
- Achei importante essa informao no grfico, para o tutor agir adequadamente e no tempo
certo. ;
- Seria bom o professor poder selecionar os alunos em situao de risco e o sistema gerar
uma lista com todos os alunos selecionados. ;
- O grfico permite observar o detalhe do aluno com menor risco de evaso e na
possibilidade desse aluno mudar de grupo. ;
- A gente no tem essa cultura de tomar aes antes que as coisas aconteam. Essa
ferramenta nos d essa informao, o professor precisa criar a cultura de, com essa informao,
tomar uma ao. Essa ferramenta deve estar tambm com as pessoas que se preocupem com a
gesto do curso. ;
- "Essa ferramenta vai facilitar a visualizao dos dados do Moodle que o professor no
consegue entender. ".

Os testes apresentaram resultados bastante satisfatrios em relao


experincia dos usurios e usabilidade da soluo computacional proposta para a anlise
da evaso de alunos em um ambiente EAD. As contribuies dos usurios nesta etapa da
pesquisa foram pertinentes e teis para melhorias na aplicao. O propsito maior que era
oferecer uma ferramenta que abstrasse toda a complexidade da extrao de dados
representativos do Moodle e a aplicao de um modelo preditivo para classificar alunos
conforme o seu risco de evaso do curso.

5.8. Discusses complementares sobre os resultados


Alm dos resultados detalhados nas sees anteriores, essa seo utilizada
para discorrer sobre outras contribuies julgadas tambm relevantes nesta pesquisa, que
reforam o alcance dos objetivos propostos para esta tese.

192
Na etapa do processo de coleta e preparao inicial dos dados, destaca-se o
entendimento das principais tabelas do Moodle (Quadro 8) e seus respectivos registros,
relacionados com as interaes dos alunos e a estrutura dos cursos. O conhecimento
dessas tabelas permite entender a dinmica do armazenamento de informaes no Moodle
e possibilita a extrao de diferentes dados, inclusive para outros tipos de procedimentos
diferentes de minerao de dados educacionais.
Os scripts SQL podem ser adaptados e usados para coletar outras variveis
que no esto associadas Teoria da Distncia Transacional, assim como as variveis
coletadas podem ser utilizadas em outros contextos diferentes dessa teoria, j que
representam registros importantes dos alunos e dos recursos didticos utilizados nos
cursos oferecidos na plataforma. Novas anlises e inferncias sobre esses dados podem
ser realizadas, fortalecendo, ainda mais, as pesquisas na modalidade.
A abordagem proposta para a obteno dos componentes que podem obter os
construtos da distncia transacional, a partir do mapeamento das variveis no BD do
Moodle que representam esses construtos, lana uma nova perspectiva para as pesquisas
sobre a sua teoria. Embora no tenha sido estabelecida uma medida da distncia
transacional, o fato de se poder dispor de suas componentes de maneira mais automtica
e em momentos distintos de um curso, representa um passo importante para novas
aplicaes da teoria na educao a distncia.
As variveis obtidas na Anlise Fatorial Confirmatria representam o modelo
relacionado com o conjunto de dados analisados nesta pesquisa. Ento, cabe esclarecer
que as variveis aqui definidas podem no ser as nicas a representar os construtos, mas
o fazem dentro de padres de validao aceitveis, segundo as mtricas de avaliao
encontradas na literatura.
Em outras instituies que adotam o Moodle ou, at mesmo, outros
ambientes virtuais, esse processo de definio das variveis representativas tambm pode
ser aplicado, a partir da observao e coleta dessas variveis definidas para representar os
construtos da distncia transacional.
Em relao s taxas de evaso obtidas nos cursos analisados, reforado que
o processo de obteno dessas taxas tambm pode acontecer de maneira automtica, a
partir de consultas a determinadas variveis na base de dados do Moodle. As variveis
descritas na Seo 5.2 possibilitam identificar um aluno evadido ou com grande

193
possibilidade de evadir-se do curso, j que registram suas principais interaes no
ambiente, inclusive todos os seus acessos.
Apesar de toda a experincia da UPE na modalidade que, ao longo dos anos,
vem adotando procedimentos, que buscaram e conseguiram reduzir os ndices de evaso
nos seus cursos, mesmo assim, muito ainda pode ser feito, a partir do uso de instrumentos
eficazes de acompanhamento e de fornecimento de informaes atualizadas sobre o
comportamento do aluno no seu curso. A juno da experincia das instituies com
novas tecnologias decisrias pode ajudar a atenuar, ainda mais, esses ndices de evaso
nos cursos a distncia.
A etapa de descoberta de conhecimento em bases de dados acrescentou o
componente de inteligncia computacional pesquisa. Um conjunto de cinco tcnicas e
algoritmos de aprendizagem de mquina foi utilizado para a obteno do modelo
preditivo para evaso de alunos. Um fato relevante nesta etapa que no houve a
necessidade de diviso da base de dados em bases para treinamento e testes, como
geralmente ocorre em processos de aprendizagem supervisionado. As bases distintas
testaram e destacaram a capacidade preditiva dos modelos, evitando problemas como sub
e superestimao de parmetros nos modelos descobertos.
Nas trs bases nas quais os classificadores foram testados (completa,
pedagogia e biologia), os resultados foram melhores nas bases com os dados somente de
um dos cursos, o que indica que o modelo, embora tenha sido gerado a partir de uma base
completa, funciona melhor quando aplicado a cursos separados. Isso tem uma implicao
positiva na implementao, j que os dados a serem usados na aplicao, geralmente, so
analisados separadamente por curso.
As taxas de falsos positivos e falsos negativos, analisadas como mtricas
complementares dos classificadores, tm um contexto importante na anlise de evaso, j
que esses erros podem consumir a ateno e procedimentos desnecessrios do professor
ou tutor. Reduzir, ainda mais, essas taxas um desafio e demanda novas e contnuas
investigaes. Possivelmente, uma combinao de classificadores pode contribuir com a
diminuio desses erros.
Embora os resultados tenham apontado pequenas diferenas na mtricas de
avaliao dos classificadores, optou-se pelo uso da regresso logstica como a tcnica
responsvel por gerar e testar os modelos preditivos, conforme as justificativas

194
apresentadas na Subseo 5.4.5. Esse classificador tem tido destaque na literatura de
EDM pela sua versatilidade e adequao a diferentes contextos educacionais, alm de
indicar, com mais clareza, a contribuio de cada fator nas previses calculadas.
A literatura de previso de evaso em EAD, usando tcnicas de minerao de
dados, ainda limitada. A maioria dos trabalhos sobre evaso em cursos presenciais e
outros fazem predies de abandono de disciplinas on-line. Mesmo assim, foi possvel
comparar um dos resultados obtidos nesta pesquisa com outros trabalhos relacionados na
literatura. Nesses trabalhos, a mtrica de avaliao do classificador, que predomina, a
acurcia. A Tabela 21 exibe os dados desses outros estudos, mostrando que esta pesquisa,
com uma acurcia de 89,62%, obtida na Regresso Logstica com Stepwise, apresentou
resultado melhor que esses trabalhos relacionados.
Tabela 21 Resultados de modelos preditivos de evaso em trabalhos relacionados.
Obra
(KOTSIANTIS et al., 2003)
(MORRIS et al., 2005)
(ROBLYER et al., 2008)
(LYKOURENTZOU et al., 2009)
(KOVACIC, 2010)
(YASMIN, 2013)
(YUKSELTURK et al., 2014)
(RIGO et al., 2014)
(CAMBRUZZI, 2014)
(DOS SANTOS et al., 2014)
(SILVA et al., 2015)
(QUEIROGA et al., 2015)

Algoritmos/Tcnicas
Naive Bayes
Anlise Discriminante Preditiva
Regresso logstica
Combinao de tcnicas
rvore de Deciso
rvore de Deciso
Redes Neurais
Redes Neurais
Redes Neurais
rvore de Deciso
rvore de Deciso
Vrios

Acurcia
83%
74,5%
79,3%
85%
60,5%
84,8%
87% (*)
76,5%
75,7%
81,64%
73,37%
79,76%

(*). Este trabalho tambm apresentou a AUC=0,86 como resultado.

Fonte: Elaborado pelo Autor (2016).

importante destacar tambm que esses trabalhos usaram diferentes tipos de


dados, como informaes demogrficas, resultados de exames prvios de admisso,
dados de desempenho dos alunos, questionrios entre outros. Nenhum deles usou uma
teoria como norteadora na definio das variveis preditoras. Alguns utilizaram e
analisaram dados para prever evaso em disciplinas. Assim, no se pde estabelecer
comparaes mais detalhadas com os resultados desta pesquisa.
A Regresso Logstica usada nesta pesquisa foi incrementada com o mtodo
Stepwise, que reduz o nmero de variveis sem diminuir o poder de predio do modelo.
Assim, 14 das 39 variveis, que foram inicialmente definidas compem o modelo
preditivo final da evaso.

195
Essas variveis, listadas no Quadro 15, podem facilmente ser extradas do
banco de dados do Moodle. So tambm de fcil compreenso dentro do contexto da
EAD, pois representam interaes dos alunos e componentes da estrutura dos cursos. No
ser difcil para os tutores ou professores, ao perceberem que alguns desses indicadores
se apresentem insatisfatrios em alguns momentos do curso ou para determinados alunos,
saberem onde atuar e tomarem decises sobre procedimentos didtico-pedaggicos, no
sentido de fazer com que esses baixos indicadores sejam revertidos.
Para avaliar a importncia relativa dos preditores individuais no modelo,
tambm foi examinado o valor absoluto da estatstica t para cada parmetro do modelo.
Com isso, foi possvel estabelecer um ranking das quatorze variveis no modelo final,
apresentado no Quadro 22.
Quadro 22 Importncia de cada varivel no modelo.
Varivel
var13
var12

var10
var17
var21
var01
var29
var16
var20

var26
var04
var03
var02

var27

Descrio
Quantidade geral de postagens do aluno em fruns, por
disciplina.
Quantidade de acessos do aluno aos fruns, por
disciplina.
Quantidade de acessos do aluno aos diferentes tipos de
atividades disponibilizadas (webquest, frum, quiz, entre
outros), por disciplina.
Quantidade geral de mensagens recebidas pelo aluno
dentro do ambiente, por semestre.
Quantidade de mensagens enviadas pelo aluno para
outros colegas no ambiente, por semestre.
Mdia semanal da quantidade de acessos do aluno ao
ambiente no semestre.
Quantidade de fruns de discusso disponibilizados
sobre os contedos por disciplina.
Quantidade geral de mensagens enviadas pelo aluno
dentro do ambiente, por semestre.
Quantidade de mensagens de colegas recebidas pelo
aluno no ambiente, por semestre.
Quantidade geral de recursos disponibilizados pelo
professor (pgina web, vdeo, pdfs, entre outros) por
disciplina.
Quantidade de acessos do aluno ao ambiente por turno
(Noite), por semestre.
Quantidade de acessos do aluno ao ambiente por turno
(Tarde), por semestre.
Quantidade de acessos do aluno ao ambiente por turno
(Manh), por semestre.
Quantidade geral de atividades disponibilizadas
(webquest, frum, quiz, entre outros) pelo professor por
disciplina.

Fonte: Elaborado pelo Autor (2016).

Construto

Estatstica t

DILOGO

19,82

AUTONOMIA

12,54

AUTONOMIA

8,89

DILOGO

8,55

DILOGO

6,16

AUTONOMIA

6,00

ESTRUTURA

5,64

DILOGO

5,49

DILOGO

4,06

ESTRUTURA

3,70

AUTONOMIA

3,66

AUTONOMIA

2,78

AUTONOMIA

2,74

ESTRUTURA

1,57

196
Segundo a teoria de Moore (1993), necessria uma maior autonomia do
aluno para que ele possa transpor barreiras impostas pela distncia transacional. Assim,
no modelo final, a autonomia est representada pela maior quantidade de variveis (seis).
Moore (1993) tambm afirmou que o dilogo inversamente proporcional DT, ou seja,
quanto maior o dilogo, menor a distncia. No modelo, cinco variveis representam esse
construto. J a estrutura tem com a DT uma relao direta, sendo representada por
somente trs variveis. Em suma, o arranjo final das variveis fornece indcios de que
cada construto foi organizado de tal modo a reduzir a distncia transacional e, ao mesmo
tempo, influenciar no risco de evaso do aluno.
Essa lista de variveis preditoras por cada construto estabelece uma relao
entre os construtos da Teoria da Distncia Transacional e a evaso dos alunos na EAD,
confirmando, para os cursos e dados analisados, as suposies encontradas na literatura
acerca dessa relao.
A percepo dos nveis de cada uma dessas variveis para cada aluno, a partir
do modelo de predio definido, pode auxiliar o instrutor ou tutor na sua ao preventiva
e assim buscar a reverso de possveis alunos com tendncias de evaso.
Ao ser calculada a mdia do valor da estatstica t para cada construto, obtmse: Dilogo = 8,82; Autonomia = 6,10 e Estrutura = 3,64. Isso indica o menor impacto
desse ltimo construto na predio de evaso nos cursos analisados. Tanto a quantidade
de variveis, quanto o menor valor da estrutura, podem estar associados ao fato de que a
estrutura dos cursos da UPE tem o design de cursos uniforme, permitindo pouca alterao
nos layouts em cada curso e tambm alguns dos recursos do ambiente no terem registros
de seus acessos.
Quando foi aplicado o modelo final nos perodos iniciais de cada curso,
observou-se uma acurcia no 2s perodos acima de 80% de acertos e a melhora crescente
nas taxas de acertos do classificador nos perodos seguintes. medida que o curso
avana, mais informao se torna progressivamente disponvel, sobre as atitudes,
atividades e o desempenho dos alunos. Quanto mais cedo a previso pode ser feita, mais
rapidamente as partes relevantes podem reagir e, ento, serem prestadas as assistncias
especficas aos alunos em risco de abandono, a fim de tentar corrigir a atitude ou o
comportamento do aluno com riscos de abandono ou outras caractersticas que
desmotivam sua participao no curso.

197
Essa identificao precoce de alunos com risco de evaso deve aumentar as
chances de reverso da situao crtica. A aplicao do modelo por disciplinas em cada
perodo do curso tambm importante, pois, na implementao, todas as anlises e
visualizaes levaram em conta os dados com o agrupamento por curso/perodo/
disciplina.
Ao ser observada lista das variveis significativas do modelo, percebe-se que
so indicativos triviais em cursos a distncia, de fcil percepo e compreenso pelos
profissionais da modalidade. Isso impacta diretamente nas aes que podem ser feitas no
sentido de melhorar esses indicadores e, como consequncia, reduzir a probabilidade de
evaso dos alunos com esse risco.
No uma tarefa complexa para o professor ou tutor, por exemplo, estimular
seus alunos a acessarem e postarem mais nos fruns de discusso da disciplina, motivlos a acessarem com frequncia as diversas atividades e tambm trocarem mensagens
com seus colegas, discutindo assuntos relevantes e de interesse do curso. Mas para haver
esses estmulos, preciso que o professor e o tutor saibam realmente quando devem agir.
Deve existir algo que os sinalize onde os problemas esto acontecendo e, claro, ambos
devem estar preparados para realizar os procedimentos adequados, a partir do momento
em que tomarem cincia dos problemas.
Foi a partir dessa necessidade de sinalizao adequada e objetiva para
professores e tutores, que a ferramenta de anlise de evaso foi planejada e desenvolvida.
Como ltima etapa do processo metodolgico adotado nesta pesquisa, a implantao e a
avaliao da soluo computacional incorporou o modelo preditivo, abstraindo a sua
complexidade e o deixou transparente para seus usurios, por meio de uma srie de
grficos e informaes, tornando a tarefa de acompanhamento dos alunos mais
simplificada.
O uso do framework Shiny para integrao e visualizao de dados
possibilitou o uso do poder de tratamento e anlise de dados do Software R alinhado com
recursos de modernos de gerao de interfaces interativas, tais como: CSS, JavaScript e
HTML 5, resultando em uma aplicao dinmica, responsiva e, visualmente, atraente.
A participao dos futuros usurios nas etapas de prototipao e avaliao da
ferramenta foi um fator importante para torn-la mais funcional, de uso prtico e eficaz
no seu objetivo de subsidiar tomadas de decises. A partir da anlise e feedback dos

198
prottipos iniciais, a aplicao experimental foi desenvolvida e testada por um grupo de
20 usurios com experincia em atuao na EAD. Esses usurios testaram e classificaram
de maneira bastante satisfatria a aplicao, destacaram a sua utilidade e deram
contribuies importantes para suas melhorias. Alguns comentrios dados por usurios
durante os testes corroboram com essa anlise:
- "A ferramenta vai permitir individualizar o problema de cada aluno. Isso possibilitar um
foco maior na situao de dificuldade de cada aluno. Quando for contatar o aluno, o tutor j vai
com o diagnstico do mesmo, permitindo um atendimento especfico. Isso bem diferente da
ferramenta atual que no permite esse tipo de diagnstico.";
- Seria bom que o aluno pudesse ter acesso aos seus grficos, para que ele tambm soubesse
do seu desempenho perante a turma. ;
- Acho importante essa informao para o tutor agir adequadamente e no tempo certo. .

Os resultados dos testes de avaliao das expectativas e experincias dos


usurios com a aplicao indicam uma boa qualidade e atratividade da mesma,
confirmada com os valores mdios das respostas bem acima do ponto de neutralidade em
cada par de adjetivos usados para descrever o produto no questionrio AttrakDiff.
Qualidades como bom, profissional, alto nvel, criativo e atraente tiveram notas mdias
muito prximas da avaliao mxima no questionrio.
O conjunto das tarefas executadas nos testes de usabilidade permitiram
perceber a necessidade de pequenos ajustes nas interfaces para acomodar demandas
identificadas e as sugestes dos prprios usurios, dadas durante esses testes. Pequenas
dificuldades apresentadas por alguns usurios na realizao das atividades podem ser
contornadas com uma etapa prvia de treinamento no uso da soluo, j que houve apenas
uma rpida demonstrao e um pequeno tempo de uso livre antes da realizao dos testes.
Ressaltam-se, tambm, os resultados obtidos que podem responder s duas
questes da pesquisa, apontadas na Seo 1.2 desta tese:
1. Quais as variveis armazenadas em um ambiente virtual de aprendizagem podem
ser extradas de forma automtica, para se definir de maneira significativa os
construtos da Teoria da Distncia Transacional (dilogo, estrutura e
autonomia)?
O resultado da Anlise Fatorial Confirmatria apresentado na Seo 4.4,
apontou um modelo final com vinte e uma (21) variveis significativas, as quais podem
ser coletadas no banco de dados do ambiente. Os construtos Autonomia e Dilogo podem
ser representados, cada um, por oito (8) variveis e a Estrutura por cinco (5) variveis. A
lista dessas variveis com suas estatsticas descritivas bsicas est no Quadro 14. Todas

199
as variveis obtiveram carga fatorial acima de 0.40, o que indica uma boa
representatividade em cada construto.
2. Como um conjunto de variveis relacionadas com a distncia transacional pode
ser usado para modelar a previso da evaso de alunos em cursos de graduao
a distncia?
Inicialmente, foram usadas as vinte e uma (21) variveis obtidas na Anlise
Fatorial Confirmatria e os resultados foram satisfatrios para o modelo preditivo. Aps
o uso do mtodo Stepwise na Regresso Logstica, o conjunto foi reduzido para quatorze
(14) variveis significativas, com um aumento do poder preditivo e ndices de acerto
relevantes quando comparados a trabalhos semelhantes na literatura. Alm disso, esse
conjunto possui uma diversidade de variveis autodescritivas para os trs construtos e
tambm so extradas diretamente no banco de dados do ambiente, sem nenhuma
necessidade de transformao adicional.
Por fim, no contexto geral desta pesquisa, so destacadas as suas principais
contribuies: a aplicao de uma teoria consolidada na EAD para obteno de variveis
relevantes, que foram usados como componentes de um modelo de previso de evaso,
tendo esse modelo apresentado resultados satisfatrios frente a outros estudos correlatos
sobre a evaso e sendo o mesmo implantado em uma ferramenta interativa e simplificada,
para um melhor acompanhamento dos alunos em cursos na modalidade a distncia.

200

6. CONSIDERAES FINAIS
A Educao a Distncia representa um campo profcuo para pesquisadores
em diversas reas do conhecimento. Ao mesmo tempo que a modalidade uma grande
alternativa para formao e difuso do conhecimento, ainda so evidentes os seus
obstculos e desafios.
Um dos desafios que foi tratado nesta tese foi a questo da evaso, que, no
pas, apresenta ndices elevados e ainda o principal desafio a superar, segundo grande
parte das instituies de ensino superior que oferecem cursos na modalidade.
A reduo das taxas de abandono um dos pilares para a expanso e o sucesso
deste tipo de curso. Um dos elementos-chave na reduo das taxas de evaso a
identificao precisa e antecipada dos estudantes em situao de risco e o que pode estar
provocando essa tendncia. Assim que esses alunos forem identificados, os instrutores
sero capazes de atender melhor s suas necessidades especficas e tomar as medidas
apropriadas para reduzir sua probabilidade de abandonar o curso. Espera-se que a
identificao prvia de alunos propensos desistncia tambm auxilie os gestores e
instrutores em seus planejamentos estratgicos dos cursos.

6.1. Contribuies
As pesquisas desenvolvidas nesta tese buscaram unir uma das teorias
estabelecidas na EAD com tcnicas de estatstica multivariadas e de aprendizagem de
mquina, usando, para isso, uma metodologia consolidada no processo de descoberta de
conhecimento em bases de dados.
A Teoria da Distncia Transacional, ao longo de seus mais de 40 anos desde
a sua primeira definio por Moore (1972), tem influenciado pesquisas e avanos na
educao a distncia. Ela tem uma importncia histrica para a modalidade, pois
representa uma das primeiras abordagens tericas sobre o tema, fornecendo um quadro
geral da pedagogia da educao a distncia. Ela permite a gerao de nmero quase
infinito de hipteses para pesquisas sobre a interao entre as estruturas do curso, o
dilogo entre professores, tutores e alunos e propenso do aluno para exercer o controle
do processo de aprendizagem.
Este estudo apresentou uma proposta alternativa para a obteno dos
construtos da distncia transacional a partir da extrao de dados diretamente do banco

201
de dados do AVA Moodle. Esse banco composto por mais de 400 tabelas, cada uma
com vrios campos e uma complexidade nos relacionamentos entre essas tabelas,
atributos, chaves, entre outros.
A identificao de quais variveis compem cada construto da distncia
transacional no banco de dados do Moodle possibilitar a sua extrao e utilizao em
outras instncias do AVA e permitir a continuidade de novas pesquisas relacionadas ao
tema nesse e em outros ambientes virtuais, usando inclusive processos mais avanados
como a Educational Data Mining (EDM), como foi o caso da abordagem preditiva
desenvolvida nesta tese.
Outras vantagens so que os pesquisadores podem abrir mo de usar
questionrios para obter os indicadores da distncia transacional, assim como podem
coletar dados em diversos momentos do curso. Embora o conjunto de variveis neste
trabalho seja resultante do processamento dos dados de dois cursos em uma instituio
que utilizou o Moodle, o processo como um todo poder ser replicado e utilizado em
outros cursos, instituies e mesmo para diferentes ambientes virtuais de aprendizagem,
desde que seja possvel a extrao dos dados relacionados com as variveis da distncia
transacional do seu banco de dados.
A partir da extrao das variveis e da sua validao por Anlise Fatorial
Confirmatria (AFC), um processo tpico de descoberta de conhecimento em bases de
dados foi aplicado nessas variveis, com o uso de mtodos de EDM, para definir um
modelo relevante para a previso do risco de evaso dos alunos na EAD.
aparente que o uso de tcnicas de minerao de dados em contextos
educacionais oferece oportunidades para educadores e pesquisadores para obter mais
conhecimentos teis e relacionamentos mais interessantes entre as variveis em grandes
conjuntos de dados. Por meio das tcnicas e algoritmos da minerao de dados
educacionais, os pesquisadores podem descobrir quais comportamentos e tomar decises
que levam ao sucesso do aluno, identificar alunos que esto em risco de evaso ou de
fraco desempenho, personalizar e adaptar o contedo e a instruo para atender s
necessidades individuais e melhorar e otimizar o uso dos recursos educacionais. Alm
disso, considerando a apatia dos alunos em relao s metodologias atuais de coleta de
dados, como levantamentos baseados em questionrios, pode ser mais eficaz e til para
pesquisadores educacionais coletarem dados abrangentes diretamente de ambientes de
aprendizagem on-line.

202
importante ressaltar que essas tcnicas devem vir embutidas em aplicaes
computacionais de fcil uso, com interfaces amigveis e com ferramentas de visualizao,
de modo a proporcionar aos usurios sem os conhecimentos especficos, maneiras
transparentes de se beneficiarem das capacidades descritivas e preditivas da minerao
de dados.
Apesar de a ferramenta apresentada neste trabalho ter sido desenvolvida para
fins de monitoramento da evaso, a mesma pode ser usada para acompanhamento geral
da participao do aluno nos cursos e outras finalidades pedaggicas, j que os construtos
podem ser usados em outras condies para o planejamento e monitoramento da execuo
dos cursos. A disponibilidade de uma ferramenta grfica personalizvel, que extrai e
visualiza dados em tempo real sobre o envolvimento dos alunos e a probabilidade de seu
sucesso - indicando quais estudantes esto no caminho certo e os que podem precisar de
ajuda adicional pode ser um recurso inestimvel para todos os educadores a distncia.
A tendncia que se observa que mais estudantes entraro em cursos e
programas de aprendizagem on-line nos prximos anos; portanto, mais dados sero
coletados sobre vrios tipos de informaes e comportamentos dos alunos. preciso
ento mais pesquisas para extrair e generalizar conhecimento significativo a partir dessas
informaes, usando os esforos de minerao de dados no domnio da aprendizagem online.
A metodologia dos testes e as anlises dos seus resultados permitem concluir
que um conjunto de variveis representativas da distncia transacional, quando
incorporadas a um modelo preditivo de evaso de alunos, sendo esse tambm associado
a uma ferramenta de visualizao para tutores, professores e gestores, pode fornecer
informaes e subsdios para que esses atores possam tomar decises e intervir no
processo educacional de modo a buscar reduzir o risco de evaso de um ou de um grupo
de alunos em EAD.

6.2. Limitaes da pesquisa


Uma limitao deste estudo foi que o mesmo se baseou em anlises, usando
dados de dois cursos de uma mesma instituio, apesar de usar ciclos completos de
formao em ambos os casos. Outras pesquisas podem replicar esse tipo de estudo com
conjuntos maiores de dados, com cursos, instituies e ambientes virtuais diferentes.
Alm disso, outros estudos podem incluir a alterao e adio das variveis, a aplicao

203
de outros algoritmos e a modificao dos mtodos de pr-processamento. Alm disso, a
triangulao do mtodo de pesquisa com dados qualitativos (por exemplo, entrevistando
os desistentes) pode ajudar os pesquisadores a validar e interpretar os resultados de cada
tcnica de minerao de dados, vendo a imagem multidimensional do problema.
Optou-se por utilizar o conjunto de variveis que definiram cada um dos
construtos da distncia transacional sem, entretanto, estabelecer uma mtrica para essa
distncia. Tambm no se buscou confirmar as suposies tericas de que quanto maior
a distncia transacional entre o aluno e seu curso, maior a sua possibilidade de evaso. A
inteno foi deixar evidenciada qual a contribuio de cada uma das variveis no modelo
e com isso tornar mais claro para os professores e tutores, como cada um dos indicadores
dos alunos est influenciando na sua possibilidade de evaso.
Nos algoritmos de aprendizagem de mquina e minerao, foram usados os
parmetros default para cada um dos classificadores utilizados. Dessa forma, procurouse dar condies semelhantes na execuo de cada um dos algoritmos.

6.3. Sugestes de trabalhos futuros


Embora alcanando os objetivos previstos para a pesquisa, esta tese deixa
tambm algumas novas oportunidades de estudos, surgidas no seu desenvolvimento.
Uma ideia principal a ser desenvolvida como continuidade da pesquisa a
implantao e o monitoramento em tempo real de novas turmas em andamento dos cursos
(na UPE e na UNIVASF, onde o autor possui vnculo profissional), verificando a eficcia
da ferramenta no auxlio da reduo de evaso. Alm disso, pretende-se alcanar outros
tipos de curso (extenso, ps-graduao, MOOC) e comparar sua efetividade.
Em relao obteno dos construtos, um passo seguinte da AFC seria a
Modelagem de Equaes Estruturais (SEM), nas quais uma srie de equaes
representativas da Distncia Transacional e das relaes entre seus construtos seriam
estabelecidas, para fins de aprofundamento nas pesquisas e novas aplicaes dessa teoria.
Uso de outras tcnicas como Anlise de Componentes Principais, Anlise
Fatorial Exploratria e tcnicas de agrupamento de dados podem tambm aperfeioar o
mtodo de obteno dos construtos e apresentar resultados mais satisfatrios.
Na inteno de melhorias nas mtricas de avaliao dos classificadores, um
estudo aprofundado nas suas respectivas parametrizaes, buscando e testando ajustes

204
mais refinados, tambm pode ser feito. Novas anlises com combinao de
classificadores, usando tcnicas tipo ensemble of classifiers podem apresentar ndices
mais significativos.
Em funo das caractersticas evolutivas do aprendizado de mquina, tambm
possvel pensar em modelos cada vez mais precisos e eficientes, na medida que mais
dados forem sendo incorporados ao processo e, por consequncia, o modelo vai sendo
ajustado e aperfeioado nova realidade dos dados.
Em relao aplicao desenvolvida, a mesma j est sendo evoluda com os
resultados dos testes e as sugestes dadas pelos usurios. Ela vai estar funcionando em
tempo real j em 2017. Para isso, um primeiro passo j foi dado, a instalao e
disponibilizao de um servidor prprio para aplicaes Shiny, eliminando limitaes de
uso e nmero de aplicaes existentes no servidor oficial do framework.
Alm disso, h uma inteno de tornar annimas todas as bases liberadas pela
UPE e disponibiliz-las em formato de dados abertos, para que a comunidade de
pesquisadores possa utiliz-la livremente na produo de novos conhecimentos e
desenvolvimento de algoritmos e mtodos focados no contexto educacional.
Sugere-se tambm como trabalhos futuros, a produo de um guia de boas
prticas para a reduo da evaso, a partir do uso da ferramenta e do compartilhamento
de experincias exitosas entre os diversos atores que atuam na modalidade.

6.4. Publicaes
Durante o perodo desta pesquisa, foram desenvolvidos alguns trabalhos
preliminares com temticas afins e tambm diretamente relacionados com o estudo, no
sentido de promover um aperfeioamento do pesquisador, alm de proporcionar uma
apropriao de contedos e ferramentas necessrias ao bom andamento desta pesquisa.
Artigos publicados em Peridicos

RAMOS, J. L. C; SILVA, J. C. S.; RODRIGUES, R. L.; GOMES, A. S.; SILVA,


R. E. D. S. A Comparative Study between Clustering Methods in Educational
Data Mining. Latin America Transactions, IEEE (Revista IEEE America Latina),
14(8), 3755-3761, 2016.

RODRIGUES, R. L.; RAMOS, J. L. C; SILVA, J. C. S.; GOMES, A. S.;


Discovery engagement patterns MOOCs through cluster analysis. Latin America
Transactions, IEEE (Revista IEEE America Latina), 14(9), 2016.

205

RODRIGUES, R. L.; RAMOS, J. L. C; SILVA, J. C. S.; GOMES, A. S.; SOUZA,


F. F. Validao de um instrumento de mensurao de autorregulao da
aprendizagem em contexto brasileiro usando anlise fatorial confirmatria.
RENOTE. Revista Novas Tecnologias na Educao, v. 14, p. 120, 2016.

SILVA, J. C. S; RAMOS, J. L. C; RODRIGUES, R. L.; SOUZA, F. F.; GOMES,


A. S. Minerao de Dados Educacionais Orientada por Atividades de
Aprendizagem. RENOTE. Revista Novas Tecnologias na Educao, v. 14, p. 210,
2016.

RAMOS, J. L. C; SILVA, J. C. S.; RODRIGUES, R. L.; GOMES, A. S.; SOUZA,


F. F. Anlise do engajamento de estudantes com base na Distncia Transacional
a partir da Minerao de Dados Educacionais. RENOTE. Revista Novas
Tecnologias na Educao, v. 14, p. 230, 2016.

RODRIGUES, R. L.; SILVA, J. C. S; RAMOS, J. L. C; SOUZA, H. V. L.;


GOMES, A. S. SOUZA, F. F. Mapeamento Sistemtico sobre Abordagens de
Mensurao de Autorregulao da Aprendizagem. RENOTE. Revista Novas
Tecnologias na Educao, v. 14, p. 180, 2016.

Artigos publicados em Anais de Eventos Cientficos

RAMOS, J. L. C.; CAVALCANTI, A. G. G.; SANTOS, N. N.; GOMES, A. S.;


Minerao e Visualizao de Dados Educacionais: Identificao de Fatores que
Afetam a Motivao de Alunos na Educao a Distncia. In: Workshop de
Educao e Informtica Bahia-Alagoas-Sergipe (WEIBASE), 2014, Feira de
Santana-BA. XIV Escola Regional de Computao Bahia Alagoas Sergipe
(ERBASE 2014), 2014.

RAMOS, J. L. C.; SILVA, J. C. S.; RODRIGUES, R. L.; GOMES, A. S.; Analysis


of students' expectations and skills in e-learning. In: 2014 9th Iberian Conference
on Information Systems and Technologies (CISTI), 2014, Barcelona.

RAMOS, J. L. C.; SILVA, J. C. S.; GOMES, A. S.; RODRIGUES, R. L.;


Analisando Fatores que Afetam o Desempenho de Estudantes Iniciantes em um
Curso a Distncia. In: 25 Simpsio Brasileiro de Informtica em Educao, 2014,
Dourados-MS. Anais do XXV Simpsio Brasileiro de Informtica na Educao,
2014.

RODRIGUES, R. L.; RAMOS, J. L. C.; SILVA, J. C. S.; GOMES, A. S.; A


literatura brasileira sobre minerao de dados educacionais. In: Workshop de
Minerao de Dados em Ambientes Virtuais de Aprendizagem, 2014, DouradosMS. Anais dos Workshops do CBIE 2014, 2014.

RAMOS, J. L. C.; CAVALCANTI, A. G. G.; SANTOS, N. N., GOMES, A. S;


Proposta para Identificao de Fatores de Motivao em Alunos Iniciantes na
Educao a Distncia. In: I Simpsio de Educao a Distncia do Vale do So
Francisco (SIEaDVASF), 2014, Petrolina-PE.

SILVA, R. E. D.; RAMOS, J. L. C.; GOMES, A. S.; RODRIGUES, R. L.;


Minerao de dados educacionais na anlise das interaes dos alunos em um
Ambiente Virtual de Aprendizagem. In: 26 Simpsio Brasileiro de Informtica
em Educao (SBIE 2015), 2015, Macei - AL.

206

RAMOS, J. L. C; SILVA, J. C. S; RODRIGUES, R. L; GOMES, A. S


Mapeamento de dados de um LMS para medida de construtos da distncia
transacional. In: XXVII Simpsio Brasileiro de Informtica na Educao, 2016,
Uberlndia. p. 1056.

RAMOS, J. L. C; SILVA, J. C. S; RODRIGUES, R. L; GOMES, SOUZA, F. F.,


A. S MACIEL, A. M. A. An EDM Approach to the Analysis of Students'
Engagement in On-line Courses from Constructs of the Transactional Distance.
In: IEEE 16th International Conference on Advanced Learning Technologies,
2016, Austin-TX. IEEE 16th International Conference on Advanced Learning
Technologies, 2016. p. 230-231.

RODRIGUES, R. L.; RAMOS, RAMOS, J. L. C; SILVA, J. C. S.; GOMES, A.


S.; SOUZA, F. F.; MACIEL, A. M. A.. Discovering level of participation in
MOOCs through clusters analysis. In: IEEE 16th International Conference on
Advanced Learning Technologies, 2016, Austin-TX. IEEE 16th International
Conference on Advanced Learning Technologies, 2016. p. 232-233.

RODRIGUES, R. L; SILVA, J. C. S; RAMOS, J. L. C; SOUZA, SOUZA, F. F;


GOMES, A. S. Uma Abordagem de Regresso Mltipla para Validao de
Variveis de Autorregulao da Aprendizagem em Ambientes de LMS. In:
XXVII Simpsio Brasileiro de Informtica na Educao, 2016, Uberlndia. p.
916.

ISEPPON, D.; GOMES, A. S.; RODRIGUES, R. L; RAMOS, J. L. C; SILVA, J.


C. S. Impact of teaching action on student interaction in virtual learning
environments: canonical correlation analysis. In: XXVII Simpsio Brasileiro de
Informtica na Educao, 2016, Uberlndia. p. 1016.

RAMOS, J. L. C; SILVA, J. C. S; RODRIGUES, R. L; GOMES, SOUZA, F. F.


Uma abordagem para integrao do Moodle com o framework Shiny para
Learning Analytics. In: Workshops do Congresso Brasileiro de Informtica na
Educao, 2016, Uberlndia. p. 930.

RAMOS, J. L. C; CAVALCANTI, A. G. G.; GOMES, A. S.; RODRIGUES, R.


L.; SILVA, J. C. S. Apresentao e avaliao de ferramenta de visualizao
grfica das interaes dos estudantes no ambiente Moodle. In: Workshop de
Trabalhos de Iniciao Cientfica e Graduao (WTICG), 2016, Macei. Anais do
Workshop de Trabalhos de Iniciao Cientfica e Graduao, 2016. p. 154.

207

REFERNCIAS
ABED. Censo EAD.BR: Relatrio Analtico da Aprendizagem a Distncia no Brasil
- 2013. Associao Brasileira de Educao a Distncia. 2014
______. Censo EAD.BR: Relatrio Analtico da Aprendizagem a Distncia no Brasil
- 2014. Associao Brasileira de Educao a Distncia. 2015
______. Censo EAD.BR: Relatrio Analtico da Aprendizagem a Distncia no Brasil
- 2015. Associao Brasileira de Educao a Distncia. 2016
AGAPITO, J. B.; SOSNOVSKY, S.; ORTIGOSA, A. Detecting symptoms of low
performance using production rules. Educational Data Mining 2009, 2009.
ANAYA, A. R.; BOTICARIO, J. G. Content-free collaborative learning modeling using
data mining. User Modeling and User-Adapted Interaction, v. 21, n. 1-2, p. 181-216,
2011. ISSN 0924-1868.
ANDERSON, J. A. An introduction to neural networks.
0262510812.

MIT press, 1995. ISBN

ANDERSON, T. Toward a theory for on-line learning. In: ANDERSON, T. e ELLOUMI,


F. (Ed.). Theory and practice of on-line learning. Athabasca, AB: Athabasca
University, 2004. p.33-60.
______. Towards a theory of on-line learning. Theory and practice of on-line learning,
v. 2, p. 15-44, 2008.
ANDERSON, T.; DRON, J. Three generations of distance education pedagogy. The
International Review of Research in Open and Distributed Learning, v. 12, n. 3, p.
80-97, 2010. ISSN 1492-3831.
______. Learning Technology through Three Generations of Technology Enhanced
Distance Education Pedagogy. European Journal of Open, Distance and e-learning,
2012. ISSN 1027-5207.
ANJEWIERDEN, A.; KOLLOFFEL, B.; HULSHOF, C. Towards educational data
mining: Using data mining methods for automated chat analysis to understand and
support inquiry learning processes. International Workshop on Applying Data Mining in
e-Learning (ADML 2007), 2007.
ANTONENKO, P. D.; TOY, S.; NIEDERHAUSER, D. S. Using cluster analysis for data
mining in educational technology research. Educational Technology Research and
Development, v. 60, n. 3, p. 383-398, 2012. ISSN 1042-1629.

208
AZEVEDO, A. I. R. L.; SANTOS, M. F. KDD, SEMMA and CRISP-DM: a parallel
overview. IADIS European Conference on Data Mining, 2008, IADIS. p.182185.
BAKER, R. Data mining for education. International encyclopedia of education, v. 7,
p. 112-118, 2010.
BAKER, R. S.; GOWDA, S.; CORBETT, A. Automatically detecting a student's
preparation for future learning: Help use is key. Educational Data Mining 2011, 2010.
BAKER, R. S. et al. Towards Sensor-Free Affect Detection in Cognitive Tutor Algebra.
International Educational Data Mining Society, 2012.
BAKER, R. S.; INVENTADO, P. Educational data mining and learning analytics. In:
(Ed.). Learning Analytics: From Research to Practice. New York: Springer, 2014.
p.61-75. ISBN 1461433045.
BAKER, R. S.; YACEF, K. The state of educational data mining in 2009: A review and
future visions. JEDM-Journal of Educational Data Mining, v. 1, n. 1, p. 3-17, 2009.
ISSN 2157-2100.
BAKER, R. S. J. D.; ISOTANI, S.; CARVALHO, A. M. J. B. D. Mineraao de dados
educacionais: Oportunidades para o brasil. Revista Brasileira de Informtica na
Educao, v. 19, n. 2, 2011.
BARRACOSA, J.; ANTUNES, C. Anticipating teachers performance. KDD 2011
Workshop: Knowledge Discovery in Educational Data, 2011. p.77-82.
BARRETT, J. et al. From data to actionable knowledge: a collaborative effort with
educators. Proceedings of KDD, 2011.
BAVARESCO, J. L. B.; ROSA, R. S. D. Redes Neurais com Neuralnet e Shiny. II
Simpsio de Informtica IFSUL. Passo Fundo - RS: Instituto Federal de
Educao,Cincia e Tecnologia Sul-Rio-Grandense: 55-64 p. 2015.
BIENKOWSKI, M.; FENG, M.; MEANS, B. Enhancing teaching and learning through
educational data mining and learning analytics: An issue brief. US Department of
Education, Office of Educational Technology, p. 1-57, 2012.
BISCHOFF, W. R. et al. Transactional distance and interactive television in the distance
education of health professionals. American Journal of Distance Education, v. 10, n.
3, p. 4-19, 1996. ISSN 0892-3647.
BOYD, R.; APPS, J. Redefining the Discipline of Adult Education. San Francisco:
Jossey-Bass, 1980.

209
BRADLEY, A. P. The use of the area under the ROC curve in the evaluation of machine
learning algorithms. Pattern recognition, v. 30, n. 7, p. 1145-1159, 1997. ISSN 00313203.
BRANSFORD, J. D.; SCHWARTZ, D. L. Rethinking transfer: A simple proposal with
multiple implications. Review of research in education, p. 61-100, 1999. ISSN 0091732X.
BRAXTON, S. N. Empirical comparison of technical and non-technical distance
education courses to derive a refined transactional distance theory as the framework
for a utilization-focused evaluation tool. 1999. (DsC.). The George Washington
University
BREIMAN, L. et al. Classification and regression trees.
0412048418.

CRC press, 1984. ISBN

BRIN, S.; PAGE, L. Reprint of: The anatomy of a large-scale hypertextual web search
engine. Computer networks, v. 56, n. 18, p. 3825-3833, 2012. ISSN 1389-1286.
BROWN, T. A. Confirmatory factor analysis for applied research.
Publications, 2015. ISBN 146251779X.

Guilford

BURMESTER, M.; DUFNER, A. Designing the stimulation aspect of hedonic quality


an exploratory study. The Future of Learning, p. 217, 2006.
CAMBRUZZI, W. L. GVwise: uma aplicao de learning analytics para a reduo
da evaso na educao a distncia. 2014. (Dissertao de Mestrado). Ps-Graduaao
em Computao Aplicada, Universidade do Vale do Rio dos Sinos (UNISINOS)
CASPI, A.; GORSKY, P.; CHAJUT, E. The influence of group size on nonmandatory
asynchronous instructional discussion groups. The Internet and Higher Education, v.
6, n. 3, p. 227-240, 2003. ISSN 1096-7516.
CERVO, A. L.; BERVIAN, P. A.; SILVA, R. D. Metodologia cientfica. So Paulo:
Prentice Hall 2007.
CHAPMAN, P. et al. CRISP-DM 1.0 Step-by-step data mining guide. 2000.
CHAWLA, N. V. et al. SMOTE: synthetic minority over-sampling technique. Journal
of artificial intelligence research, p. 321-357, 2002.
CHEN, Y.-J. Transactional distance in World Wide Web learning environments.
Innovations in Education and Teaching International, v. 38, n. 4, p. 327-338, 2001a.
ISSN 1470-3297.

210
CHEN, Y. J. Dimensions of transactional distance in the world wide web learning
environment: a factor analysis. British Journal of Educational Technology, v. 32, n. 4,
p. 459-470, 2001b. ISSN 1467-8535.
CHEN, Y. J.; WILLITS, F. K. Dimensions of educational transactions in a
videoconferencing learning environment. American Journal of Distance Education, v.
13, n. 1, p. 45-59, 1998. ISSN 0892-3647.
______. Dimensions of educational transactions in a videoconferencing learning
environment. American Journal of Distance Education, v. 13, n. 1, p. 45-59, 1999.
ISSN 0892-3647.
CLESIO, F. Metodologia de projetos de minerao de dados CRoss Industry
Standard Process for Data Mining CRISP-DM. Agregador Brasileiro sobre
Minerao de Dados. 2015 2012.
COCEA, M.; WEIBELZAHL, S. Cross-system validation of engagement prediction from
log files. In: (Ed.). Creating new learning experiences on a global scale: Springer,
2007. p.14-25. ISBN 3540751947.
CORBETT, A. T.; ANDERSON, J. R. Knowledge tracing: Modeling the acquisition of
procedural knowledge. User modeling and user-adapted interaction, v. 4, n. 4, p. 253278, 1994. ISSN 0924-1868.
CRESPO, P.; ANTUNES, C. Social networks analysis for quantifying students
performance in teamwork. Educational Data Mining 2012, 2012.
DANIEL, B. Big Data and analytics in higher education: Opportunities and challenges.
British Journal of Educational Technology, 2015. ISSN 1467-8535.
DANIEL, B. K.; BUTSON, R. Technology enhanced analytics (TEA) in higher
education. Proceedings of the International Conference on Educational Technologies,
2013, ERIC. p.89-96.
DARADOUMIS, T. et al. A review on massive e-learning (MOOC) design, delivery and
assessment. P2P, Parallel, Grid, Cloud and Internet Computing (3PGCIC), 2013 Eighth
International Conference on, 2013, IEEE. p.208-213.
DE OLIVEIRA JNIOR, J. G.; NORONHA, R. V.; KAESTNER, C. A. A. Anlise da
Correlao da Evaso de Cursos de Graduao com o Emprstimo de Livros em
Biblioteca. Anais dos Workshops do Congresso Brasileiro de Informtica na Educao,
2014. p.601.
DEWEY, J.; BENTLEY, A. F. Knowing and the Known. Boston: Beacon Press, 1949.

211
DOMINGUEZ, A. K.; YACEF, K.; CURRAN, J. R. Data Mining for Individualised Hints
in e-Learning. Proceedings of the International Conference on Educational Data Mining.
Pittsburgh, PA, USA: Carniege Learning, 2010, ERIC. p.91-100.
DOS SANTOS, R. N.; DE ALBURQUEQUE, C.; SOARES, E. D. Uma Abordagem
Genrica de Identificao Precoce de Estudantes com Risco de Evaso em um AVA
utilizando Tcnicas de Minerao de Dados. XIX Congreso Internacional de
Informtica Educativa. Fortaleza-CE 2014.
DRON, J. E-learning and the building habits of termites. Journal of Educational
Multimedia and Hypermedia, v. 14, n. 4, p. 321-342, 2005. ISSN 1055-8896.
______. The teacher, the learner and the collective mind. AI & SOCIETY, v. 21, n. 1-2,
p. 200-216, 2006. ISSN 0951-5666.
______. Designing the undesignable: Social software and control. Journal of
Educational Technology & Society, v. 10, n. 3, p. 60-71, 2007. ISSN 1176-3647.
DUC, T. H. Designing distance learning for the 21 st century. 2012. Blekinge Institute
of Technology
DUDA, R. O.; HART, P. E.; STORK, D. G. Pattern classification. John Wiley & Sons,
2012. ISBN 111858600X.
EKWUNIFE-ORAKWUE, K. C.; TENG, T.-L. The impact of transactional distance
dialogic interactions on student learning outcomes in on-line and blended environments.
Computers &amp; Education, v. 78, p. 414-427, 2014. ISSN 0360-1315.
ELKAN, C. The foundations of cost-sensitive learning. International joint conference on
artificial intelligence, 2001, Citeseer. p.973-978.
FAWCETT, T. An introduction to ROC analysis. Pattern recognition letters, v. 27, n.
8, p. 861-874, 2006. ISSN 0167-8655.
FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P. From data mining to
knowledge discovery in databases. AI magazine, v. 17, n. 3, p. 37, 1996. ISSN 07384602.
GARCA, E. et al. A collaborative educational association rule mining tool. The
Internet and Higher Education, v. 14, n. 2, p. 77-88, 2011. ISSN 1096-7516.
GARRISON, R. Theoretical challenges for distance education in the 21st century: A shift
from structural to transactional issues. The International Review of Research in Open
and Distributed Learning, v. 1, n. 1, 2000. ISSN 1492-3831.

212
GAUDIOSO, E.; MONTERO, M.; HERNANDEZ-DEL-OLMO, F. Supporting teachers
in adaptive educational systems through predictive models: A proof of concept. Expert
Systems with Applications, v. 39, n. 1, p. 621-625, 2012. ISSN 0957-4174.
GIOSSOS, Y. et al. Reconsidering Moores transactional distance theory. European
Journal of Open, Distance and E-Learning,. 2: 1-6 p. 2009.
GOEL, L.; ZHANG, P.; TEMPLETON, M. Transactional distance revisited: Bridging
face and empirical validity. Computers in Human Behavior, v. 28, n. 4, p. 1122-1129,
2012.
ISSN
0747-5632.
Disponvel
em:
<
http://www.sciencedirect.com/science/article/pii/S0747563212000222 >.
GOGUADZE, G. et al. Evaluating a bayesian student model of decimal misconceptions.
Educational Data Mining 2011, 2011.
GOMES, M. J. Educao a distncia: um estudo de caso sobre formao contnua de
professores via Internet. Braga: Centro de Investigao em Educao- Universidade do
Minho - Portugal, 2004.
GOKOOL-RAMDOO, S. Beyond the theoretical impasse: Extending the applications of
transactional distance education theory. The International Review of Research in Open
and Distributed Learning, v. 9, n. 3, 2008.
GORSKY, P.; CASPI, A. A critical analysis of transactional distance theory. The
Quarterly Review of Distance Education, v. 6, n. 1, p. 1-11, 2005.
GOTTARDO, E.; KAESTNER, C.; NORONHA, R. Aplicao de Tcnicas de
Minerao de Dados para Estimativa de Desempenho Acadmico de Estudantes em
um AVA Utilizando Dados com Classes Desbalanceadas. ICBL2013 International
Conference on Interactive Computer aided Blended Learning. Florianpolis-SC, Brazil
2013.
GOTTARDO, E.; KAESTNER, C.; NORONHA, R. V. Avaliao de Desempenho de
Estudantes em Cursos de Educao a Distncia Utilizando Minerao de Dados. Anais
do Workshop de Desafios da Computao Aplicada Educao, 2012. p.30-39.
GURULER, H.; ISTANBULLU, A.; KARAHASAN, M. A new student performance
analysing system using knowledge discovery in higher educational databases.
Computers & Education, v. 55, n. 1, p. 247-254, 2010. ISSN 0360-1315.
HAIR, J. F. et al. Anlise multivariada de dados.
8577805344.

Bookman Editora, 2009. ISBN

HAMMOUDA, K.; KAMEL, M. Data mining in e-learning. In: (Ed.). E-Learning


Networked Environments and Architectures: Springer, 2007. p.374-404. ISBN
1846283515.

213

HAN, J.; KAMBER, M.; PEI, J. Data mining: concepts and techniques: concepts and
techniques. Elsevier, 2011. ISBN 0123814804.
HAND, D. J.; MANNILA, H.; SMYTH, P. Principles of data mining. MIT press, 2001.
ISBN 026208290X.
HANLEY, J. A.; MCNEIL, B. J. The meaning and use of the area under a receiver
operating characteristic (ROC) curve. Radiology, v. 143, n. 1, p. 29-36, 1982. ISSN
0033-8419.
HASSENZAHL, M. The thing and I: understanding the relationship between user and
product. In: (Ed.). Funology: Springer, 2003. p.31-42. ISBN 1402029667.
______. The interplay of beauty, goodness, and usability in interactive products. Humancomputer interaction, v. 19, n. 4, p. 319-349, 2004. ISSN 0737-0024.
______. Hedonic, emotional, and experiential perspectives on product quality.
Encyclopedia of human computer interaction, p. 266-272, 2006.
HASSENZAHL, M.; TRACTINSKY, N. User experience-a research agenda. Behaviour
& information technology, v. 25, n. 2, p. 91-97, 2006. ISSN 0144-929X.
HERNNDEZ, J.-A. et al. Detecting cheats in on-line student assessments using Data
Mining. Conference on Data Mining| DMIN, 2006. p.205.
HILLMAN, D. C.; WILLIS, D. J.; GUNAWARDENA, C. N. Learnerinterface
interaction in distance education: An extension of contemporary models and strategies
for practitioners. American Journal of Distance Education, v. 8, n. 2, p. 30-42, 1994.
ISSN 0892-3647.
HOLMBERG, B. The feasibility of a theory of teaching for distance education and a
proposed theory. FernUniversitat, Hagen (West Germany), Hagen, 1985.
______. Growth and structure of distance education. London: Routledge, 1986.
HOLZHTER, M.; FROSCH-WILKE, D.; KLEIN, U. Exploiting learner models using
data mining for e-learning: a rule based approach. In: (Ed.). Intelligent and Adaptive
Educational-Learning Systems: Springer, 2013. p.77-105. ISBN 3642301703.
HOOPER, D.; COUGHLAN, J.; MULLEN, M. Structural equation modelling:
Guidelines for determining model fit. Articles, p. 2, 2008.
HORZUM, M. B. Developing Transactional Distance Scale and Examining Transactional
Distance Perception of Blended Learning Students in Terms of Different Variables.

214
Educational Sciences: Theory and Practice, v. 11, n. 3, p. 1582-1587, 2011. ISSN
1303-0485.
HOSMER JR, D. W.; LEMESHOW, S.; STURDIVANT, R. X. Applied logistic
regression. John Wiley & Sons, 2013. ISBN 0470582472.
HSIEH, T.-C.; WANG, T.-I. A mining-based approach on discovering courses pattern for
constructing suitable learning path. Expert systems with applications, v. 37, n. 6, p.
4156-4167, 2010. ISSN 0957-4174.
HU, L. T.; BENTLER, P. M. Cutoff criteria for fit indexes in covariance structure
analysis: Conventional criteria versus new alternatives. Structural equation modeling:
a multidisciplinary journal, v. 6, n. 1, p. 1-55, 1999. ISSN 1070-5511.
HUANG, H.-M. Student perceptions in an on-line mediated environment. International
Journal of Instructional Media, v. 29, n. 4, p. 405, 2002. ISSN 0092-1815.
HUANG, X. et al. Understanding transactional distance in webbased learning
environments: An empirical study. British Journal of Educational Technology, 2015.
ISSN 1467-8535.
HUGHES, W. G. Transactional Distance Theory: The Effect of Disseminating
Educational Messages to Frontline Registered Nurses in an Acute Care Hospital
Setting. 2010. Ph.D. Southeastern Louisiana University
IBM, C. IBM SPSS Modeler 16 Users Guide. p.50. 2013
INEP. Censo da Educao Superior 2014 - Notas Estatsticas. Instituto Nacional de
Estudos e Pesquisas Educacionais Ansio Teixeira. 2015
IRELAND, T. Situating connectivism. Retrieved, v. 2, 2007. Disponvel em: <
http://design.test.olt.ubc.ca/Situating_Connectivism >. Acesso em: Abr 2015.
JIN, W. et al. Towards Automatic Hint Generation for a Data-Driven Novice
Programming Tutor. Workshop on Knowledge Discovery in Educational Data, 17th
ACM Conference on Knowledge Discovery and Data Mining, 2011.
JRESKOG, K. G.; SRBOM, D. LISREL VI: Analysis of linear structural
relationships by maximum likelihood, instrumental variables, and least squares
methods. Scientific Software, 1986. ISBN 0894980246.
JUNG, I. Building a theoretical framework of webbased instruction in the context of
distance education. British Journal of Educational Technology, v. 32, n. 5, p. 525-534,
2001. ISSN 1467-8535.

215
KABAKCHIEVA, D.; STEFANOVA, K.; KISIMOV, V. Analyzing university data for
determining student profiles and predicting performance. Educational Data Mining 2011,
2010.
KANUKA, H. University student perceptions of the use of the Web in distance-related
programs. The Canadian Journal of Higher Education, v. 31, n. 3, p. 49, 2001. ISSN
0316-1218.
KANUKA, H.; COLLETT, D.; CASWELL, C. University instructor perceptions of the
use of asynchronous text-based discussion in distance courses. The American Journal
of Distance Education, v. 16, n. 3, p. 151-167, 2002. ISSN 0892-3647.
KARDAN, S.; CONATI, C. A Framework for Capturing Distinguishing User Interaction
Behaviors in Novel Interfaces. Educational Data Mining 2011, 2010.
KASSANDRINOU, A.; ANGELAKI, C.; MAVROIDIS, I. Transactional Distance
among Open University Students: How Does it Affect the Learning Process? European
Journal of Open, Distance and E-Learning, v. 17, n. 1, p. 26-42, 2014. ISSN 10275207.
KEARSLEY, G.; LYNCH, W. Structural issues in distance education. Journal of
Education for Business, v. 71, n. 4, p. 191-195, 1996. ISSN 0883-2323.
KEEGAN, D. The foundations of distance education. New York: Routledge, 2013.
KLEINBAUM, D. G.; KLEIN, M. Analysis of matched data using logistic regression. In:
(Ed.). Logistic Regression: Springer, 2010. p.389-428. ISBN 1441917411.
KCK, M.; PARAMYTHIS, A. Activity sequence modelling and dynamic clustering for
personalized e-learning. User Modeling and User-Adapted Interaction, v. 21, n. 1-2,
p. 51-97, 2011. ISSN 0924-1868.
KOEDINGER, K. R. et al. Educational software features that encourage and discourage
gaming the system. Proceedings of the 14th International Conference on Artificial
Intelligence in Education, 2009. p.475-482.
KOEDINGER, K. R.; CORBETT, A. Cognitive tutors: Technology bringing learning
sciences to the classroom. na, 2006.
KOHONEN, T. The self-organizing map. Neurocomputing, v. 21, n. 1, p. 1-6, 1998.
ISSN 0925-2312.
KORKMAZ, S.; GOKSULUK, D.; ZARARSIZ, G. MVN: an R package for assessing
multivariate normality. The R Journal, v. 6, n. 2, p. 151-162, 2014.

216
KOTSIANTIS, S. B.; PIERRAKEAS, C.; PINTELAS, P. E. Preventing student dropout
in distance learning using machine learning techniques. Knowledge-Based Intelligent
Information and Engineering Systems, 2003, Springer. p.267-274.
KOVACIC, Z. Early prediction of student success: Mining students' enrolment data.
Informing Science & IT Education Conference (InSITE), 2010.
LANTZ, B. Machine learning with R. Packt Publishing Ltd, 2013. ISBN 1782162151.
LEMONE, K. Analyzing cultural influences on elearning transactional issues. World
conference on e-learning in corporate, government, healthcare, and higher education,
2005. p.2637-2644.
LEVY, Y. Comparing dropouts and persistence in e-learning courses. Computers &
education, v. 48, n. 2, p. 185-204, 2007. ISSN 0360-1315.
LIN, L. C.; PREZ, . A. J. Educational Data Mining and Learning Analytics:
differences, similarities, and time evolution. RUSC. Universities and Knowledge
Society Journal, v. 12, n. 3, p. 98-112, 2015. ISSN 1698-580X.
LING, C. X.; HUANG, J.; ZHANG, H. AUC: a statistically consistent and more
discriminating measure than accuracy. IJCAI, 2003. p.519-524.
LITTLEWOOD, W. Autonomy: An anatomy and a framework. System, v. 24, n. 4, p.
427-435, 1996. ISSN 0346-251X.
______. Defining and developing autonomy in East Asian contexts. Applied linguistics,
v. 20, n. 1, p. 71-94, 1999. ISSN 0142-6001.
LOPEZ, M. I. et al. Classification via Clustering for Predicting Final Marks Based on
Student Participation in Forums. International Educational Data Mining Society,
2012.
LOWELL, N. O. An investigation of factors contributing to perceived transactional
distance in an on-line setting. 2004. 127 (PhD.). University of Northern Colorado,
Greeley.
LYKOURENTZOU, I. et al. Dropout prediction in e-learning courses through the
combination of machine learning techniques. Computers & Education, v. 53, n. 3, p.
950-965, 2009. ISSN 0360-1315.
MACFADYEN, L. P.; DAWSON, S. Mining LMS data to develop an early warning
system for educators: A proof of concept. Computers & Education, v. 54, n. 2, p. 588599, 2010. ISSN 0360-1315.

217
MAIMON, O.; ROKACH, L. Data Mining and Knowledge Discovery Handbook. 2nd.
Springer,
2010.
ISBN
978-0-387-09822-7.
Disponvel
em:
<
http://www.springer.com/br/book/9780387098227 >.
MANHES, L. M. B. et al. Identificao dos fatores que influenciam a evaso em cursos
de graduao por meio de sistemas baseados em minerao de dados: Uma abordagem
quantitativa. Anais do VIII Simpsio Brasileiro de Sistemas de Informao, So
Paulo, 2012.
MANHES, L. M. B. et al. Previso de Estudantes com Risco de Evaso Utilizando
Tcnicas de Minerao de Dados. Anais do XXII SBIE-XVII WIE, Aracaju, 2011.
MARBOUTI, F.; DIEFES-DUX, H. A.; MADHAVAN, K. Models for early prediction
of at-risk students in a course using standards-based grading. Computers & Education,
v. 103, p. 1-15, 2016. ISSN 0360-1315.
MARCONI, M. D. A.; LAKATOS, E. M. Fundamentos de metodologia cientfica. In:
(Ed.). Fundamentos de metodologia cientfica: Atlas, 2010.
MARQUEZ-VERA, C.; ROMERO, C.; VENTURA, S. Predicting school failure using
data mining. Educational Data Mining 2011, 2010.
MRQUEZVERA, C. et al. Early dropout prediction using data mining: a case study
with high school students. Expert Systems, v. 33, n. 1, p. 107-124, 2016. ISSN 14680394.
MARTINS, L. C.; LOPES, D. A.; RAABE, A. Um Assistente de Predio de Evaso
aplicado a uma disciplina Introdutria do curso de Cincia da Computao. anais do
Simpsio Brasileiro de Informtica na Educao, 2012.
MAULL, K. E.; SALDIVAR, M. G.; SUMNER, T. On-line curriculum planning behavior
of teachers. Educational Data Mining 2010, 2010.
MAZZA, R.; MILANI, C. Gismo: a graphical interactive student monitoring tool for
course management systems. International Conference on Technology Enhanced
Learning, Milan, 2004. p.1-8.
MCCUAIG, J.; BALDWIN, J. Identifying Successful Learners from Interaction
Behaviour. International Educational Data Mining Society, 2012.
MERCERON, A.; YACEF, K. Educational Data Mining: a Case Study. AIED, 2005.
p.467-474.
______. Measuring correlation of strong symmetric association rules in educational
data. CRC Press, 2010.

218

MIRANDA, L.; MORAIS, C.; DIAS, P. Abordagens pedaggicas para ambientes online. VII Simpsio Internacional de Informtica Educativa SIIE05. Leiria, Portugal
2005.
MOHRI, M.; ROSTAMIZADEH, A.; TALWALKAR, A. Foundations of machine
learning. MIT press, 2012. ISBN 026201825X.
MOORE, M.; KEARSLEY, G. Distance Education: A Systems View..
Publishers, 1996. 146-51.

Wadsworth

MOORE, M. G. Learner autonomy: The second dimension of independent learning.


Convergence, v. 5, n. 2, p. 76-88, 1972.
MOORE, M. G. Toward a theory of independent learning and teaching. The Journal of
Higher Education, p. 661-679, 1973. ISSN 0022-1546.
MOORE, M. G. Editorial: Three types of interaction. 1989. ISSN 0892-3647.
MOORE, M. G. Theory of transactional distance. In: (Ed.). Theoretical Principles of
Distance Education. New York: Routledge, 1993. p.22-29.
______. Theory and theorists - Apresentao em Power Point. EDEN Barcelona Research
Workshop, 2006, Barcelona.
______. The theory of transactional distance. In: MOORE, M. G. (Ed.). Handbook of
distance education. New York: Routledge, 2013. cap. 5, p.66-85.
MORRIS, L. V.; WU, S.-S.; FINNEGAN, C. L. Predicting retention in on-line general
education courses. The American Journal of Distance Education, v. 19, n. 1, p. 23-36,
2005. ISSN 0892-3647.
MBWESA, J. K. Transactional distance as a predictor of perceived learner satisfaction in
distance learning courses: A case study of Bachelor of Education Arts Program,
University of Nairobi, Kenya. Journal of Education and Training Studies, v. 2, n. 2, p.
176-188, 2014.
NOLEN, S. B.; DESFORGES, C. Teaching for autonomous learning. An introduction
to teaching: Psychological perspectives, p. 197-215, 1995.
PAIVA, R.; BITTENCOURT, I. I.; DA SILVA, A. P. Uma Ferramenta para
Recomendao Pedaggica Baseada em Minerao de Dados Educacionais. Anais dos
Workshops do Congresso Brasileiro de Informtica na Educao, 2013.

219
PARDOE, I. Applied regression modeling: a business approach. John Wiley & Sons,
2012. ISBN 0470052651.
PAUL, R. C. et al. Revisiting Zhangs scale of transactional distance: refinement and
validation using structural equation modeling. Distance Education, v. 36, n. 3, p. 364382, 2015. ISSN 0158-7919.
PECHENIZKIY, M. et al. Mining the student assessment data: Lessons drawn from a
small scale case study. Educational Data Mining 2008, 2008.
PEA-AYALA, A. Educational data mining: A survey and a data mining-based analysis
of recent works. Expert Systems with Applications, v. 41, n. 4, Part 1, p. 1432-1462,
2014a.
ISSN
0957-4174.
Disponvel
em:
<
http://www.sciencedirect.com/science/article/pii/S0957417413006635 >.
______. Educational Data Mining. Applications and Trends. Springer, 2014b.
PEA-AYALA, A.; DOMNGUEZ, R.; MEDEL, J. D. J. Educational data mining: a
sample of review and study case. World Journal On Educational Technology, v. 1, n.
2, p. 118-139, 2009. ISSN 1309-0348.
PENG, Y. et al. A descriptive framework for the field of data mining and knowledge
discovery. International Journal of Information Technology & Decision Making, v.
7, n. 04, p. 639-682, 2008. ISSN 0219-6220.
PETERS, O. Distance education and industrial production: a comparative
interpretation in outline. 1967.
______. Distance Education in post-industrial society. In: (Ed.). Otto Peters on distance
education: The industrialization of teaching and learning. London: Psychology Press,
1994. p.220-245.
______. Distance education in transition: new trends and challenges. Bibliotheksund Informationssytem der Universitt Oldenburg, 2002.
PLATT, J. C. 12 fast training of support vector machines using sequential minimal
optimization. Advances in kernel methods, p. 185-208, 1999.
POTTER, J. Beyond access: Student perspectives on support service needs in distance
learning. Canadian Journal of University Continuing Education, v. 24, n. 1, 2013.
ISSN 0318-9090.
PRATI, R.; BATISTA, G.; MONARD, M. Curvas ROC para avaliao de classificadores.
Revista IEEE Amrica Latina, v. 6, n. 2, p. 215-222, 2008.

220
PROVOST, F.; FAWCETT, T. Robust classification for imprecise environments.
Machine learning, v. 42, n. 3, p. 203-231, 2001. ISSN 0885-6125.
PRUITT, D. Transactional distance and learner autonomy as predictors of student
performance in distance learning courses delivered by three modalities. 2005.
Unpublished doctoral dissertation, Tulane University, USA,
QUEIROGA, E.; CECHINEL, C.; ARAJO, R. Um Estudo do Uso de Contagem de
Interaes Semanais para Predio Precoce de Evaso em Educao a Distncia. Anais
dos Workshops do Congresso Brasileiro de Informtica na Educao, 2015. p.1074.
QUINLAN, J. R. C4. 5: Programming for machine learning. Morgan Kauffmann, 1993.
RABBANY, R.; TAKAFFOLI, M.; ZAANE, O. R. Analyzing participation of students
in on-line courses using social network analysis techniques. Proceedings of educational
data mining, 2011, Citeseer.
RAJIBUSSALIM. Mining Students' Interaction Data from a System that Support
Learning by Reflection. 3rd Educational Data Mining Conference, 2010. p.249-256.
RAMOS, J. L. C. et al. A Comparative Study between Clustering Methods in Educational
Data Mining. IEEE Latin America Transactions, v. 14, n. 8, p. 3755-3761, 2016. ISSN
1548-0992.
RAMOS, J. L. C. et al. Mapeamento de dados de um LMS para medida de construtos da
distncia transacional. Simpsio Brasileiro de Informtica na Educao, v. 27, n. 1, p.
1056, 2016. ISSN 2316-6533.
RICHARDSON, J. T. Field independence in higher education and the case of distance
learning. International Journal of Educational Research, v. 29, n. 3, p. 241-250, 1998.
ISSN 0883-0355.
RIGO, S. J. et al. Aplicaes de Minerao de Dados Educacionais e Learning Analytics
com foco na evaso escolar: oportunidades e desafios. Revista Brasileira de
Informtica na Educao, v. 22, n. 01, p. 132, 2014. ISSN 1414-5685.
ROBLYER, M. et al. Toward practical procedures for predicting and promoting success
in virtual school students. The Amer. Jrnl. of Distance Education, v. 22, n. 2, p. 90109, 2008. ISSN 0892-3647.
RODRIGUES, R. L. et al. A literatura brasileira sobre minerao de dados educacionais.
Anais dos Workshops do Congresso Brasileiro de Informtica na Educao, 2014a.
______. A literatura brasileira sobre minerao de dados educacionais. Anais dos
Workshops do Congresso Brasileiro de Informtica na Educao, 2014b.

221

ROGERS, Y.; SHARP, H.; PREECE, J. Design de Interao. Bookman Editora, 2013.
ISBN 8582600089.
ROMERO, C. et al. Web usage mining for predicting final marks of students that use
Moodle courses. Computer Applications in Engineering Education, v. 21, n. 1, p. 135146, 2013b. ISSN 1099-0542.
ROMERO, C. et al. Mining rare association rules from e-learning data. Educational Data
Mining 2010, 2010.
ROMERO, C.; VENTURA, S. Data Mining in E-learning (Advances in Management
Information), Wit Pr. Computational Mechanics, 2006.
ROMERO, C.; VENTURA, S. Educational data mining: a review of the state of the art.
Systems, Man, and Cybernetics, Part C: Applications and Reviews, IEEE
Transactions on, v. 40, n. 6, p. 601-618, 2010. ISSN 1094-6977.
ROMERO, C.; VENTURA, S. Data mining in education. Wiley Interdisciplinary
Reviews: Data Mining and Knowledge Discovery, v. 3, n. 1, p. 12-27, 2013. ISSN
1942-4795.
______. Data mining in education. Wiley Interdisciplinary Reviews: Data Mining and
Knowledge Discovery, v. 3, n. 1, p. 12-27, 2013a. ISSN 1942-4795.
ROMERO, C.; VENTURA, S.; GARCA, E. Data mining in course management
systems: Moodle case study and tutorial. Computers & Education, v. 51, n. 1, p. 368384, 2008. ISSN 0360-1315.
ROMERO, C. et al. Handbook of educational data mining. CRC Press, 2010. ISBN
1439804583.
ROSENBLATT, F. The perceptron: a probabilistic model for information storage and
organization in the brain. Psychological review, v. 65, n. 6, p. 386, 1958. ISSN 19391471.
RUMBLE, G. The planning and management of distance education. Croom Helm,
1986.
RUMELHART, D. E.; HINTON, G. E.; WILLIAMS, R. J. Learning representations by
back-propagating errors. Cognitive modeling, v. 5, p. 3, 1988.
RYAN, R. M. The nature of the self in autonomy and relatedness. In: (Ed.). The self:
Interdisciplinary approaches: Springer, 1991. p.208-238. ISBN 1468482661.

222
SABA, F. Introduction to Distance Education: Theorists and Theories Charles
Wedemeyer. DISTANCE-EDUCATOR.COM. SABA, F. 2014.
SABA, F.; SHEARER, R. L. Verifying key theoretical concepts in a dynamic model of
distance education. American Journal of Distance Education, Vol. 8, No. 1, 1994, pp.
36-59,
2009-09-24
1994.
Disponvel
em:
<
http://www.tandfonline.com/doi/abs/10.1080/08923649409526844#.VW7_089Viko >.
SABA, F. (2003). Distance education theory, methodology, and epistemology: A
pragmatic paradigm. In M. G. Moore & W. G. Anderson (Eds.) Handbook of Distance
Education (pp. 3-21). Mahwah, NJ: Lawrence Erlbaum.
SABA, F. (2007). A systems approach in theory building. In M. G. Moore
(Ed.) Handbook of distance education. (pp.43-57). Mahwah, NJ: Lawrence Erlbaum.
SAHAY, A.; MEHTA, K. Assisting higher education in assessing, predicting, and
managing issues related to student success: A web-based software using data mining and
quality function deployment. Academic and Business Research Institute Conference,
2010.
SAMMUT, C.; WEBB, G. I. Encyclopedia of machine learning. Springer Science &
Business Media, 2011. ISBN 0387307680.
SANDOE, C. Measuring transactional distance of on-line courses: The structure
component. 2005. 141 PhD. University of South Florida
SANTOS, H.; CAMARGO, F.; CAMARGO, S. Minerando Dados de Ambientes Virtuais
de Aprendizagem para Predio de Desempenho de Estudantes. Conferencias LACLO,
v. 3, n. 1, 2012. ISSN 1982-1611.
SARGEANT, Joan et al. Facilitating interpersonal interaction and learning online: linking
theory and practice. Journal of Continuing Education in the Health Professions, v. 26,
n. 2, p. 128-136, 2006.
SCHLOSSER, C. A.; ANDERSON, M. L. Distance education: Review of the
literature. Washington: AECT Publication Sales, 1994.
SCHLOSSER, L. A.; SIMONSON, M. R. Distance education: definitions and glossary
of terms. IAP, 2009.
SEMESP. Mapa do Ensino Superior no Brasil - 2015. Sindicato das Mantenedoras de
Ensino Superior 2015
______. Mapa do Ensino Superior no Brasil - 2016. Sindicato das Mantenedoras de
Ensino Superior 2016

223
EN, B.; UA, E.; DELEN, D. Predicting and analyzing secondary education placementtest scores: A data mining approach. v. 39, n. 10, p. 94689476, August 2012 2012.
Disponvel em: < http://dx.doi.org/10.1016/j.eswa.2012.02.112 >.
SHEARER, C. The CRISP-DM Model: The New Blueprint for Data Mining. Journal of
Data Warehousing, v. 5, n. 4, p. 13-22, 2000.
SHEARER, R. L. Transactional distance and dialogue: An exploratory study to
refine the theoretical construct of dialogue in on-line learning. 2009.
The
Pennsylvania State University
SHETH, J.; PATEL, B. Best practices for adaptation of Data mining techniques in
Education Sector. National Journal of System and Information Technology, v. 3, n. 2,
p. 186, 2010. ISSN 0974-3308.
SHIN, N. Transactional presence as a critical predictor of success in distance learning.
Distance Education, v. 24, n. 1, p. 69-86, 2003. ISSN 0158-7919.
SILVA, F. et al. Um modelo preditivo para diagnstico de evaso baseado nas interaes
de alunos em fruns de discusso. Anais do Simpsio Brasileiro de Informtica na
Educao, 2015. p.1187.
SILVA FILHO, R. L. L. et al. A evaso no ensino superior brasileiro. Cadernos de
pesquisa, v. 37, n. 132, p. 641-659, 2007.
SILVA, J. et al. Uma abordagem para integrao do Moodle com o framework Shiny
para Learning Analytics. Anais dos Workshops do Congresso Brasileiro de Informtica
na Educao, 2016. p.930.
SILVA, L. A.; PERES, S. M.; BOSCARIOLI, C. Introduo Minerao de Dados Com Aplicaes em R. 1. Rio de Janeiro: Elsevier, 2016.
Disponvel em: <
http://www.saraiva.com.br/introducao-a-mineracao-de-dados-com-aplicacao-em-r9356556.html >.
SIMONSON, M.; SCHLOSSER, C.; HANSON, D. Theory and distance education: A
new discussion. American Journal of Distance Education. 13: 60-75 p. 1999.
SIMONSON, M. et al. Teaching and Learning at a Distance: Foundations of
Distance Education. Boston: Pearson Education, 2008.
SNIJDERS, C.; MATZAT, U.; REIPS, U.-D. Big data: Big gaps of knowledge in the field
of internet science. International Journal of Internet Science, v. 7, n. 1, p. 1-5, 2012.
ISSN 1662-5544.

224
STEINMAN, Debbie. Educational experiences and the online student. TechTrends, v. 51,
n. 5, p. 46-52, 2007.
SU, J.-M. et al. A personalized learning content adaptation mechanism to meet diverse
user needs in mobile learning environments. User modeling and user-adapted
interaction, v. 21, n. 1-2, p. 5-49, 2011. ISSN 0924-1868.
SWART, W. et al. Relative proximity theory: Measuring the gap between actual and
ideal on-line course delivery. American Journal of Distance Education, v. 28, n. 4, p.
222-240, 2014. ISSN 0892-3647.
TAN, P.-N.; STEINBACH, M.; KUMAR, V. Introduo ao datamining: minerao
de dados. Ciencia Moderna, 2009. ISBN 8573937610.
TANE, J.; SCHMITZ, C.; STUMME, G. Semantic resource management for the web: an
e-learning application. Proceedings of the 13th international World Wide Web conference
on Alternate track papers & posters, 2004, ACM. p.1-10.
TORI, R. Mtricas para uma Educao sem Distncia. Revista Brasileira de
Informtica na Educao, SBC, v. 10, n. 2, 2002.
______. Educao sem distncia. Senac, 2010. ISBN 8573599219.
TRACTINSKY, N.; HASSENZAHL, M. Arguing for aesthetics in human-computer
interaction. I-com, v. 4, n. 3/2005, p. 66-68, 2005. ISSN 1618-162X.
TRCKA, N.; PECHENIZKIY, M.; VAN DER AALST, W. Process mining from
educational data. Chapman & Hall/CRC, 2010.
TUCKER, L. R.; LEWIS, C. A reliability coefficient for maximum likelihood factor
analysis. Psychometrika, v. 38, n. 1, p. 1-10, 1973. ISSN 0033-3123.
UENO, M. On-line Outlier Detection System for Learning Time Data in E-Learning and
Its Evaluation. CATE, 2004. p.248-253.
USTATI, R.; HASSAN, S. S. S. Distance Learning Students Need: Evaluating
Interactions From Moores Theory Of Transactional Distance. Turkish On-line Journal
of Distance Education, v. 14, n. 2, 2013.
VEAL, B. L. Transactional distance and course structure: A qualitative study. Open
Access Theses and Dissertations from the College of Education and Human Sciences,
p. 51, 2009.
VELLIDO, A.; CASTRO, F.; NEBOT, A. Clustering educational data. Handbook of
educational data mining, p. 75-92, 2010.

225

VIALARDI, C. et al. A data mining approach to guide students through the enrollment
process based on academic performance. User modeling and user-adapted interaction,
v. 21, n. 1-2, p. 217-248, 2011. ISSN 0924-1868.
VONDERWELL, Selma. An examination of asynchronous communication experiences
and perspectives of students in an online course: A case study. The Internet and higher
education, v. 6, n. 1, p. 77-90, 2003.
WANG, J. Encyclopedia of data warehousing and mining. IGI Global, 2005. ISBN
1591405599.
WEDEMEYER, C. A. Learning at the back door: Reflections on non-traditional
learning in the lifespan. Madison, WI.: University of Wisconsin Press, 1981.
WEICK, K. E. Theory construction as disciplined imagination. Academy of
management review, v. 14, n. 4, p. 516-531, 1989. ISSN 0363-7425.
WENGROWICZ, N.; OFFIR, B. Teachers' Perceptions of Transactional Distance in
Different Teaching Environments. American Journal of Distance Education, v. 27, n.
2, p. 111-121, 2013. ISSN 0892-3647.
WITTEN, I. H.; FRANK, E.; HALL, M. A. Data Mining: Practical machine learning
tools and techniques. Morgan Kaufmann, 2011. ISBN 008047702X.
WOODLEY, A.; SIMPSON, O. Student dropout: The elephant in the room. On-line
distance education: Towards a research agenda, p. 459-484, 2014.
WU, X. et al. Top 10 algorithms in data mining. Knowledge and Information Systems,
v. 14, n. 1, p. 1-37, 2008. ISSN 0219-1377.
XING, W. et al. Participation-based student final performance prediction model through
interpretable Genetic Programming: Integrating learning analytics, educational data
mining and theory. Computers in Human Behavior, v. 47, p. 168-181, 2015. ISSN
0747-5632.
YASMIN, D. Application of the classification tree model in predicting learner dropout
behaviour in open and distance learning. Distance Education, v. 34, n. 2, p. 218-231,
2013. ISSN 0158-7919.
YUKSELTURK, E.; OZEKES, S.; TREL, Y. K. Predicting dropout student: an
application of data mining methods in an on-line education program. European Journal
of Open, Distance and E-learning, v. 17, n. 1, p. 118-133, 2014. ISSN 1027-5207.

226
ZHANG, A. Transactional Distance in Web-based College Learning Environments:
Toward Measurement and Theory Construction. PhD Thesis. VCU Retrospective
ETD Collection. Richmond. 2003
ZHANG, H. The optimality of naive Bayes. AA, v. 1, n. 2, p. 3, 2004.

227

APNDICE A Questionrio aplicado professores e tutores da EAD,


para identificao dos construtos da Distncia Transacional.
As figuras a seguir apresentam as perguntas e respectivas frequncias das respostas dadas
pelos professores e tutores sobre cada indicador (varivel) apresentado, em qual (ou
quais) construto(s) da Distncia Transacional ele poderia ser melhor classificado. O
questionrio foi aplicado de maneira on-line, usando o Google Forms. Somente pessoas
com o link do formulrio poderiam acessar e responder s questes.

228

229

230

231

232

233

234

235

APNDICE B Scripts em R para os classificadores binrios utilizados.


Pacotes necessrios
library(kernlab)
library(rpart)
library(nnet)
library(caret)
library(ROCR)
library(ggplot2)
library(dplyr)

#
#
#
#
#
#
#

Classificador SVM
Classificador rvore de deciso
Classificador Neural Network
Classificador KNN e Gerao da Matriz de Confuso
Gerao da Curva ROC
Pacote Grfico
Pacote para manipulao e tratamento de dados

1. Importando e tratando a base de dados


setwd("C:/Users/Usuario/PhD
Jorge/scripts
e
dados/BasesOK")
dados <- read.csv2("base_nova_treinamento_completa.csv", header = T, encoding
=
"UTF-8")
dadosTeste <- read.csv2("base_nova_testes_completa.csv", header = T, encoding
= "UTF-8")
# Filtrando a base de testes por curso
dadosTeste2 <- filter(dadosTeste2, (Curso == "Pedagogia"))
#Filtrando a base para testes do modelo por curso/perodo
#Pedagogia
dadosTeste2 <- filter(dadosTeste2, (Curso == "Pedagogia" & Periodo==5))
str(dadosTeste2)

2. Construindo e verificando as bases de treinamento e teste


# Definindo os conjuntos de dados de treinamento (BASES COMPLETAS)
treinamento <- dados[, 10:43]
teste <- dadosTeste2 [, 10:43]
# Verificao da distribuio dos dados nas classes da varivel dependente nas
bases
table(treinamento$EVADIU8)
table(teste$EVADIU8)

3a. Construindo o modelo por Regresso Logstica


# Criao do Modelo a partir dos dados de treinamento
modeloInicial <- glm(EVADIU8 ~ var01+var02+var03+var04+var06+var07+var10
+var12+var13+var16+var17+var18+var19+var20+var21+var23+var26+var27+var28
+var29+var30, family=binomial(link="logit"), data=treinamento)
# Sumrio do modelo inicial com todas as variveis
summary(modeloInicial)
# Escolhendo as variveis mais significativas por meio do mtodo Stepwise
modelo = step(modeloInicial)
# Sumrio do novo modelo
summary(modelo)
#Salvando o modelo para incorporar em outros Scripts
save(modelo, file = "reglog_DT.rda")

3b. Construindo o modelo por SVM


modeloSVM <- ksvm(EVADIU8 ~ var01+var02+var03+var04+var06+var07+var10+var12+
var13+var16+var17+var18+var19+var20+var21+var23+var26+var27+var28+var29+var30
, data=treinamento)
# Resultado do modelo

236
summary(modeloSVM)

3c. Construindo o modelo por Rede Neural


modeloRedeNeural
<nnet(EVADIU8
~
var01+var02+var03+var04+var06+var07
var10+var12+var13+var16+var17+var18+var19+var20+var21+var23+var26+var27
+var28+var29+var30, data=treinamento, size=4, decay =0.001, maxit =500)
# Resultado do modelo
summary(modeloRedeNeural)

3d. Construindo o modelo por rvore de Deciso


modeloArvoreDecisao <- rpart(EVADIU8 ~ var01+var02+var03+var04+var06+var07
var10+var12+var13+var16+var17+var18+var19+var20+var21+var23+var26+var27
+var28+var29+var30, data=treinamento, control = rpart.control(cp = 0.001))
# Resultado do modelo
summary(modeloArvoreDecisao)

3e. Construindo o modelo por KNN


modeloKNN<-knn3(EVADIU8
~
var01+var02+var03+var04+var06+var07
var10+var12+var13+var16+var17+var18+var19+var20+var21+var23+var26+var27
+var28+var29+var30, data=treinamento, k=11)
# Resultado do modelo
summary(modeloKNN)

4. Analisando as variveis preditoras do modelo


# Verificando os intervalos de confiana para cada uma das variveis includas
no modelo
confint(modelo)
# Verificando a importncia de cada varivel no Modelo
varImp(modelo)
VarImp <- data.frame(rownames(varImp(modelo)),varImp(modelo))
colnames(VarImp) <- c("Variveis", "Importncia")
OrderedVarImp <- VarImp[order(VarImp$Importncia, decreasing = TRUE),]

5. Avaliando o classificador
# Aplicao dos dados da base de teste para avaliao do modelo inicial
classificacaoProb <- predict(modeloInicial,newdata=teste,type="response")
# Somente para o modelo com Stepwise
classificacaoProb <- predict(modelo,newdata=teste,type="response")
classificacaoBinaria <- ifelse(classificacaoProb > 0.5,1,0)
# Gerao da Matriz de confuso e demais mtricas para a anlise do modelo
MatrizDeConfusao<confusionMatrix(data
=
classificacaoBinaria,
reference=teste$EVADIU8, positive = "1")
print(MatrizDeConfusao)
# Curva ROC
FG <- prediction(classificacaoProb, teste$EVADIU8)
pFG <- performance(FG, measure = "tpr", x.measure = "fpr")
plot(pFG,col="blue",lwd=2,main="ROC Curve for Logistic")
abline(a=0,b=1,lwd=2,lty=2,col="gray")
aucFG <- performance(FG, measure ="auc")
aucFG <- aucFG@y.values[[1]]
aucFG

237

APNDICE C Script em R para a Anlise Fatorial Confirmatria.


Pacotes utilizados
library(dplyr)
library(lavaan)
library(semPlot)
library(semTools)

#
#
#
#

Pacote para manipulao de dados


Pacote para Anlise Fatorial Confirmatria/SEM
Plotagem do path diagram
Obteno dos ndices de ajuste do modelo

1. Importando e tratando a base de dados


setwd("C:/Users/Usuario/PhD
Jorge/scripts
e
dados/BasesOK")
dados <- read.csv2("base_nova_treinamento_completa.csv", header = T, encoding
= "UTF-8")
summary(dados)

2. Definindo o conjunto de variveis do modelo


# especificando o modelo (Variveis latentes e Variveis observadas)
# Para cada rodada, eram retiradas ou realocadas variveis
# 1 RODADA - com todas as variveis obtidas no questionrio
model <- '
autonomia
=~
var01+var02+var03+var04+var05+var06+var07+var08+var09+
var10+var11+var12
dialogo
=~
var13+var14+var15+var16+var17+var18+var19+var20+var21+var22+
var23+var24+var25
estrutura =~ var26+var27+var28+var29+var30+var31+var32+var33
dialogo ~~ estrutura
dialogo ~~ autonomia
estrutura ~~ autonomia
'
# 2 RODADA - sem as variveis baixa carga fatorial base completa
model <- '
autonomia
=~
var01+var02+var03+var04+var06+var07+var08+var09+var10+var11
+var12
dialogo =~ var13+var15+var16+var17+var18+var19+var20+var21+var23+var25
estrutura =~ var26+var27+var28+var29+var30+var32
dialogo ~~ estrutura
dialogo ~~ autonomia
estrutura ~~ autonomia
'
# 3 RODADA - sem as variveis de baixa carga fatorial da 2 rodada e ajustando
conforme MI (3a rodada)
# movendo a var11 para dilogo
model <- '
autonomia =~ var01+var02+var03+var04+var06+var07+var10+var12
dialogo =~ var11+var13+var16+var17+var18+var19+var20+var21+var23
estrutura =~ var26+var27+var29+var30+var32
dialogo ~~ estrutura
dialogo ~~ autonomia
estrutura ~~ autonomia
'
# 4 RODADA - sem as variveis de baixa carga fatorial da 3 rodada
model <- '
autonomia =~ var01 + var02 + var03 + var04 + var06
+ var07 + var10 +
var12
dialogo =~ var13 + var16 + var17 + var18 + var19 + var20 + var21 + var23

238
estrutura =~ var26 + var27 + var28 + var29 + var30
dialogo ~~ estrutura
dialogo ~~ autonomia
estrutura ~~ autonomia
'

3. Aplicando a CFA para testar o ajuste dos dados ao modelo


#Usando o estimador DWLS para ajuste do modelo
fit <- cfa(model, data=dados, estimator = "DWLS")
# sumrio de sada com o clculo de todos os parmetros de ajuste
summary(fit, fit.measures=TRUE, standardized = TRUE)
#sumrio de sada com outros indicadores de ajuste.
fitMeasures(fit, c("cfi", "gfi", "tli", "rni", "rmsea"))
#obtendo o Gamma Hat
moreFitIndices(fit, fit.measures = "all")

4. Verificando os ndices de modificao para possveis realocao de


variveis.
MI <- modificationIndices(fit)
MI[order(MI$mi, decreasing = TRUE), ]
indices <- MI[order(MI$mi, decreasing = TRUE), ]
write.csv2(MI[order(MI$mi, decreasing = TRUE), ],

file="modifiInd.csv")

4. Plotando o Path Diagram.


semPaths(fit,"std", rotation = 2, layout = "tree3", nCharNodes = 0, sizeLat =
12, sizeLat2 = 7, curvePivot = TRUE, edge.label.cex=1.2, residuals = F)

239

APNDICE D Script e Sumrio das estatsticas descritivas das bases


de treinamento e testes.
Pacotes utilizados
library(dplyr)

# Pacote para manipulao de dados

1. Introduo
Este documento apresenta a sumarizao dos dados constantes nas bases "Treinamento"
e "Testes" usadas nos processos seguintes de aprendizado de mquina.

2. Importao das bases de dados


setwd("C:/Users/Usuario/Google Drive/PhD Jorge/scripts e dados/BasesOK")
dados <- read.csv2("base_nova_treinamento_completa.csv", header = T, encoding
=
"UTF-8")
dadosTeste <- read.csv2("base_nova_testes_completa.csv", header = T, encoding
= "UTF-8")

3. Definio das bases de Treinamento e Testes


treinamento
<teste <- dadosTeste [, 10:43]

dados[,

10:43]

4. Estatstica descritiva para a base de Treinamento


Gerando Tabela de sumrio das variveis:
nomevariaveis
linhas

<<-

matrizsumario1
<dimnames(matrizsumario1)
"Mediana",
"Mdia",

colnames(treinamento)
length(treinamento)

matrix(NA,
nrow=linhas,
ncol=7)
(list(nomevariaveis,
c("Min.",
"1o.
Qt.",
"Desvio
Padro","3o.
Qt.","Max.")))

for
(i
in
1:linhas)
{
matrizsumario1[i,] <- round(c(min(treinamento[,i]), quantile(treinamento[,
i], 0.25), median(treinamento[, i]), mean(treinamento[, i]), sd(treinamento[,
i]),quantile(treinamento[,
i],
0.75),
max(treinamento[,
i])),2)
}
matrizsumario1
##
## var01
## var02
## var03
## var04
## var05
## var06
## var07
## var08
## var09
## var10
## var11
## var12
## var13
## var14
## var15
## var16

Min. 1o. Qt. Mediana Mdia Desvio Padro 3o. Qt.


0
1.12
2.62 3.11
3.00
4.31
0
6.00
15.00 20.73
24.24
27.00
0
7.00
22.00 29.95
32.78
42.00
0
6.00
22.00 28.28
29.61
41.00
0
0.00
0.00 1.84
4.42
2.00
0
0.04
0.13 0.19
0.27
0.25
0
29.00
68.00 80.84
78.07
112.00
0
5.00
10.00 18.18
22.55
24.00
0
0.00
0.00 1.36
3.84
0.00
0
2.50
4.13 4.52
3.99
6.00
0
0.00
0.04 0.33
0.73
0.35
0
6.00
15.00 20.40
24.10
27.00
0
2.00
3.00 2.98
2.12
4.00
0
0.00
0.00 1.04
1.53
2.00
0
0.00
0.00 0.51
1.03
1.00
0
0.00
1.00
7.65
17.20
9.00

Max.
23.85
296.00
273.00
271.00
46.00
6.11
620.00
205.00
51.20
76.14
11.42
526.00
26.00
15.00
13.00
297.00

240
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##

var17
var18
var19
var20
var21
var22
var23
var24
var25
var26
var27
var28
var29
var30
var31
var32
var33
EVADIU8

0
0
0
0
0
0
0
0
0
0
6
0
0
0
0
0
0
0

8.00
23.00
0.00
0.00
0.00
16.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
2.00
9.00
11.00
1.00
2.00
3.00
4.00
0.00
0.00
0.00
0.00
0.00
1.00
0.00
0.00
0.00
0.00 0.26

28.16
0.95
20.43
4.29
2.13
0.01
3.98
0.02
0.73
3.46
10.50
1.41
3.47
0.38
0.47
1.06
0.23
0.44

27.07
43.00
2.60
1.00
21.02
35.00
11.38
2.00
7.06
1.00
0.15
0.00
9.71
4.00
0.18
0.00
1.43
1.00
4.87
6.00
2.16
11.00
0.76
2.00
1.00
4.00
0.78
0.00
0.50
1.00
0.86
2.00
0.55
0.00
1.00
1.00

264.00
32.00
171.00
102.00
97.00
5.00
201.00
4.00
19.00
25.00
17.00
3.00
4.00
2.00
1.00
3.00
2.00

4. Estatstica descritiva para a base de Testes


Gerando Tabela de sumrio das variveis:
nomevariaveis2 <- colnames(teste)
linhas <- length(teste)
matrizsumario2 <- matrix(NA, nrow=linhas, ncol=7)
dimnames(matrizsumario2) = (list(nomevariaveis2, c("Min.", "1o. Qt.", "Median
a", "Mdia", "Desvio Padro","3o. Qt.","Max.")))
for (i in 1:linhas) {
matrizsumario2[i,] <- round(c(min(teste[,i]), quantile(teste[, i], 0.25), m
edian(teste[, i]), mean(teste[, i]), sd(teste[, i]),quantile(teste[, i], 0.75
), max(teste[, i])),2)
}
matrizsumario2
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##

var01
var02
var03
var04
var05
var06
var07
var08
var09
var10
var11
var12
var13
var14
var15
var16
var17
var18
var19
var20
var21

Min. 1o. Qt. Mediana Mdia Desvio Padro 3o. Qt.


Max.
0
1.50
2.81 3.30
2.69
4.46 24.00
0
8.00
16.00 22.57
23.83
29.00 254.00
0
10.00
22.00 29.11
28.04
39.00 262.00
0
11.00
25.00 32.32
29.72
47.00 350.00
0
0.00
0.00 1.79
4.22
2.00 61.00
0
0.05
0.12 0.19
0.34
0.24 10.41
0
39.00
73.00 85.80
70.05 116.00 624.00
0
7.00
15.00 24.92
26.36
34.00 177.00
0
0.00
0.00 0.15
0.64
0.00 20.00
0
2.89
4.11 4.52
3.15
5.75 57.50
0
0.00
0.08 0.31
0.59
0.35 10.73
0
7.00
13.00 16.88
16.56
22.00 239.00
0
2.00
3.00 3.16
2.16
4.00 22.00
0
0.00
0.00 0.88
1.49
1.00 17.00
0
0.00
0.00 0.33
0.79
0.00 13.00
0
0.00
2.00 7.95
15.26
9.00 279.00
0
4.00
13.00 18.97
20.94
28.00 229.00
0
0.00
0.00 1.01
2.23
1.00 19.00
0
0.00
6.00 11.03
14.52
17.00 103.00
0
0.00
0.00 1.83
4.72
1.00 52.00
0
0.00
0.00 1.65
5.09
1.00 65.00

241
##
##
##
##
##
##
##
##
##
##
##
##
##

var22
var23
var24
var25
var26
var27
var28
var29
var30
var31
var32
var33
EVADIU8

0
0
0
0
0
4
0
0
0
1
0
0
0

0.00
0.00
0.00
0.00
0.00
8.00
1.00
3.00
0.00
1.00
1.00
0.00
0.00

0.00
0.00
0.00
0.00
0.00
11.00
2.00
4.00
0.00
1.00
2.00
0.00
0.00

0.07
3.33
0.12
0.32
1.53
9.75
1.69
3.48
0.96
1.00
1.39
0.00
0.17

0.34
6.65
0.42
0.94
2.25
2.80
0.59
0.89
1.70
0.00
0.83
0.07
0.38

0.00
4.00
0.00
0.00
4.00
12.00
2.00
4.00
0.25
1.00
2.00
0.00
0.00

8.00
75.00
6.00
16.00
10.00
19.00
3.00
4.00
5.00
1.00
3.00
2.00
1.00

242

APNDICE E Telas do prottipo em baixa fidelidade (Mockups) e


casos de uso.
1. Mdulo Viso Geral dos Dados Aba Geral

2. Mdulo Viso Geral dos Dados Aba Indicadores

243

3. Mdulo Viso Geral dos Dados Aba Alunos

4. Mdulo Anlise de Evaso Aba Geral

244

5. Mdulo Anlise de Evaso Aba Indicadores

5. Mdulo Anlise de Evaso Aba Alunos

245
Casos de Uso: Mdulos Viso geral dos dados e Anlise de Evaso (Aba Geral)
Fluxo Principal de Eventos
Passos Aes
1
O professor seleciona o mdulo ao qual deseja fazer utilizao, entre as
opes: Viso geral dos dados, Anlise de Desempenho e Anlise de
Evaso
2
O Professor seleciona o Perodo ao qual deseja informaes
3
O professor Seleciona a Disciplina a qual deseja informaes
4
O professor visualizar o grfico por default a primeira aba (Geral)
5
Ao passar o mouse em cima da barra aparecer um hint com informaes
sobre Descrio da varivel (indicador), valor mnimo, valor mximo e mdia.
6
O usurio poder selecionar na tabela de indicadores qual indicador deseja
mostrar no grfico, para isto, a tabela dever ser um objeto reativo trocando
informaes com o grfico. Podem ser selecionadas mais de um indicador. Na
medida em que o usurio for selecionando uma varivel, sua barra mostrada
no grfico.
7
Ao selecionar a varivel na tabela reativa, dever ser plotado o grfico, com
o ttulo referente a descrio da varivel.
8
O usurio seleciona o mdulo Anlise de Evaso.
9
Ao selecionar as informaes aparecer uma tela contendo dois objetos
visuais com os percentuais de alunos na classe 0 (Baixo Risco) e da classe 1
(Alto Risco), de acordo com a varivel (EVASAO) da base.
10
O usurio poder selecionar (Por grupo ou empilhado).
11
O usurio poder selecionar Alto Risco ou Baixo Risco.
12
O usurio poder selecionar os grupos de variveis que ser mostrado
(Dilogo Autonomia e Estrutura) de acordo com o construto de cada varivel.
Fluxo Alternativo
Passos Aes
1.1
Se o usurio selecionar qualquer um dos trs mdulos o sistema dever
escolher (Curso, Perodo e Disciplina) como o primeiro curso da base, o
primeiro perodo da base e a primeira disciplina.
11.1 Caso o usurio selecione Alto Risco mostrar apenas as barras referente a esse
grupo, caso o usurio selecione satisfatrio ser mostrado apenas as barras
referente ao grupo de Baixo Risco.

246
Casos de Uso: Mdulos Viso geral dos dados e Anlise de Evaso (Aba
Indicadores)
Fluxo Principal de Eventos
Passos Aes
1
O Usurio seleciona o mdulo ao qual deseja fazer utilizao. Tendo as
opes entre: Viso geral dos dados, Anlise de Desempenho e Anlise de
Evaso
2
O Usurio seleciona o perodo ao qual deseja informaes
3
O Usurio Seleciona a Disciplina a qual deseja informaes
4
O Usurio visualizar o grfico da figura 1 por default a primeira aba (Geral)
5
O Usurio Clica na aba 2 (Indicadores)
6
O Usurio visualizar um grfico com a primeira varivel da tabela
Indicadores. No rodap de todos os grficos deve ter uma observao Clique
e arraste sobre uma regio para Zoom.
7
Ao passar o mouse em cima de alguma bolha aparecer um hint com o nome
do aluno, valor desse indicador para o aluno, valor mnimo, valor mximo, e
mdia da varivel na disciplina selecionada.
8
O usurio poder selecionar na tabela de indicadores qual indicador deseja
mostrar no grfico, para isto, a tabela dever ser um objeto reativo trocando
informaes com o grfico.
9
Ao selecionar a varivel na tabela de indicadores, dever ser plotado o grfico,
com o ttulo referente a descrio da varivel.
10
Ao selecionar um aluno, a bolha que o representa tambm ser destacada no
grfico, com seu respectivo hint.
11
As aes 7, 8, 9, 10 tambm esto disponveis para o mdulo Anlise de
Evaso.
12
O Usurio seleciona o mdulo Anlise de Evaso.
13
Ao selecionar as informaes aparecer uma tela contendo dois objetos
visuais com os percentuais de alunos na classe 0 (Baixo Risco) e da classe 1
(Alto Risco), de acordo com a varivel (EVASAO) da base.
14
O Usurio poder selecionar Alto Risco, Baixo Risco ou ambos.
Fluxo Alternativo
Passos Aes
1.1
Se o Usurio selecionar qualquer um dos trs mdulos o sistema dever
escolher (Curso, Perodo e Disciplina) como o primeiro curso da base, o
primeiro perodo da base e a primeira disciplina.
14.1 Caso o Usurio selecione Alto Risco mostrar apenas as bolhas referente a
esse grupo. Caso o usurio selecione Baixo Risco ser mostrado apenas as
barras desse grupo. Ambas as opes tambm podem ser selecionadas.

247
Casos de Uso: Mdulos Viso geral dos dados e Anlise de Evaso (Aba Alunos)
Fluxo Principal de Eventos
Passos Aes
1
O professor seleciona o mdulo ao qual deseja fazer utilizao. Tendo as
opes entre: Viso geral dos dados, Anlise de Desempenho e Anlise de
Evaso
2
O Professor seleciona o perodo ao qual deseja informaes
3
O professor Seleciona a Disciplina a qual deseja informaes
4
O professor visualizar o grfico da figura 1 por default a primeira aba (Geral)
5
O usurio poder selecionar na tabela Alunos qual aluno deseja mostrar no
grfico, para isto, a tabela dever ser um objeto reativo trocando informaes
com o grfico.
6
Ao selecionar um aluno na tabela reativa, dever ser plotado o grfico, com o
ttulo referente ao nome do aluno.
7
O usurio seleciona o mdulo Anlise de Evaso.
8
Ao selecionar as informaes aparecer uma tela [figura 3] contendo dois
objetos visuais com os percentuais de alunos na classe 0 (Baixo Risco) em
verde e da classe 1 (Alto Risco) em vermelho, de acordo com a varivel
(EVASAO) da base.
9
O usurio poder selecionar clicando na legenda somente baixo risco,
somente a frequncia do aluno, ambos ou nenhum.
10
O usurio poder selecionar os grupos de variveis que ser mostrado
(Dilogo Autonomia e Estrutura) de acordo com o construto de cada varivel.
Fluxo Alternativo
Passos Aes
1.1
Se o usurio selecionar qualquer um dos trs mdulos o sistema dever
escolher (Curso, Perodo e Disciplina) como o primeiro curso da base, o
primeiro perodo da base e a primeira disciplina.
9.1
Caso o usurio selecione Frequncia do Aluno, mostrar apenas as bolinhas
referente a esses dados, caso o usurio selecione Mdia da Turma ser
mostrado apenas as bolinhas com esses dados para cada indicador.

248

APNDICE F Telas do prottipo em alta fidelidade.


1. Mdulo Viso Geral dos Dados Aba Geral

2. Mdulo Viso Geral dos Dados Aba Indicadores

3. Mdulo Viso Geral dos Dados Aba Alunos

249

4. Mdulo Anlise de Evaso Aba Geral

5. Mdulo Anlise de Evaso Aba Indicadores

6. Mdulo Anlise de Evaso Aba Alunos

250

APNDICE G Scripts PostgreSQL para extrao de dados no Moodle.


1 Script PostgreSQL para gerao de views com dados consolidados e log reduzido:
/*
Neste script so realizadas as seguintes tarefas:
- Criar a view 'alunos'
- criar a view 'professores'
- Criar view 'posts'
- Criar view 'id_alunos'
- Criar view 'id_disciplinas'
- Criar view 'log_reduzido'
*/
-- Criar a view 'alunos'
CREATE OR REPLACE VIEW alunos AS
SELECT c.id AS "disciplina_id", u.id AS "aluno_id"
FROM mdl_role_assignments rs
INNER JOIN mdl_context e ON rs.contextid=e.id
INNER JOIN mdl_course c ON c.id = e.instanceid
INNER JOIN mdl_user u ON u.id=rs.userid
WHERE e.contextlevel=50 AND rs.roleid=5
ORDER BY c.id, u.id;
-- Criar a view 'professores'
CREATE OR REPLACE VIEW professores AS
SELECT c.id AS "disciplina_id", u.id AS "professor_id"
FROM mdl_role_assignments rs
INNER JOIN mdl_context e ON rs.contextid=e.id
INNER JOIN mdl_course c ON c.id = e.instanceid
INNER JOIN mdl_user u ON u.id=rs.userid
WHERE e.contextlevel=50 AND rs.roleid IN (2,3,4,9,10,12,13)
ORDER BY c.id, u.id;
-- Criar a view 'professores'
CREATE OR REPLACE VIEW professores AS
SELECT c.id AS "disciplina_id", u.id AS "professor_id"
FROM mdl_role_assignments rs
INNER JOIN mdl_context e ON rs.contextid=e.id
INNER JOIN mdl_course c ON c.id = e.instanceid
INNER JOIN mdl_user u ON u.id=rs.userid
WHERE e.contextlevel=50 AND rs.roleid IN (2,3,4,9,10,12,13)
ORDER BY c.id, u.id;
-- Criar view 'id_alunos'
CREATE OR REPLACE VIEW id_alunos AS
SELECT distinct(aluno_id) FROM base
ORDER BY aluno_id;
-- Criar view 'id_disciplinas'
CREATE OR REPLACE VIEW id_disciplinas AS
SELECT distinct(disciplina_id) FROM base
ORDER BY disciplina_id;
-- Criar view 'log_reduzido'
CREATE OR REPLACE VIEW log_reduzido AS
SELECT ( row_number() OVER(ORDER BY userid,timecreated)) AS id, timecreated,
userid, courseid, component, action

251
FROM
(SELECT * FROM mdl_logstore_standard_log WHERE "courseid" IN (SELECT * FROM
id_disciplinas) AND "userid" IN (SELECT * FROM id_alunos)
UNION
SELECT * FROM mdl_logstore_standard_log
WHERE "action"='loggedout'
AND
"userid" IN (SELECT * FROM id_alunos)
UNION
SELECT *
FROM mdl_logstore_standard_log
WHERE "action"='loggedin'
AND
"userid" IN (SELECT * FROM id_alunos)) log;

2 Script PostgreSQL para extrao das variveis gerais da DT:


/*
Neste script so realizadas as seguintes tarefas:
- Criar o cabealho para o arquivo com o resultado da consulta
- Definir as variveis que sero utilizadas na anlise
- Junes que determinam os valores das variveis para cada aluno
- Ordenar o resultado por curso, semestre, perodo, nome da disciplina
e nome do estudante
- Salvar o resultado no arquivo c:/resultado_DT.csv
*/

-- Definir as variveis que sero utilizadas na anlise


COPY (
SELECT
base.curso AS "Curso",
base.semestre AS "Semestre",
base.periodo AS "Perodo",
base.disciplina_nome AS "Nome da Disciplina",
base.disciplina_id AS "ID da Disciplina",
base.data_inicio AS "Data de Incio",
base.data_final AS "Data de Final",
base.aluno_nome AS "Nome do Aluno",
base.aluno_id AS "ID do Aluno",
COALESCE(var01.var01,0) AS "var01",
COALESCE(var02.var02,0) AS "var02",
COALESCE(var03.var03,0) AS "var03",
COALESCE(var04.var04,0) AS "var04",
COALESCE(var05.var05,0) AS "var05",
COALESCE(var06.var06,0) AS "var06",
COALESCE(var07.var07,0) AS "var07",
COALESCE(var08.var08,0) AS "var08",
COALESCE(var09.var09,0) AS "var09",
COALESCE(var10.var10,0) AS "var10",
COALESCE(var11.var11,0) AS "var11",
COALESCE(var12.var12,0) AS "var12",
COALESCE(var13a.var13a,0) AS "var13a",
COALESCE(var13b.var13b,0) AS "var13b",
COALESCE(var13c.var13c,0) AS "var13c",
COALESCE(var13d.var13d,0) AS "var13d",
COALESCE(var14.var14,0) AS "var14",
COALESCE(var15.var15,0) AS "var15",
COALESCE(var16.var16,0) AS "var16",
COALESCE(var17.var17,0) AS "var17",
COALESCE(var18.var18,0) AS "var18",
COALESCE(var19.var19,0) AS "var19",
COALESCE(var20.var20,0) AS "var20",
COALESCE(var21.var21,0) AS "var21",

252
COALESCE(var22.var22,0)
COALESCE(var23.var23,0)
COALESCE(var24.var24,0)
COALESCE(var25.var25,0)
COALESCE(var26.var26,0)
COALESCE(var27.var27,0)
COALESCE(var28.var28,0)
COALESCE(var29.var29,0)
COALESCE(var30.var30,0)
COALESCE(var31.var31,0)
COALESCE(var32.var32,0)
COALESCE(var33.var33,0)
COALESCE(var34.var34,0)
COALESCE(var35.var35,0)
COALESCE(var36.var36,0)
COALESCE(var37.var37,0)
COALESCE(var38.var38,0)
COALESCE(var39.var39,0)

AS
AS
AS
AS
AS
AS
AS
AS
AS
AS
AS
AS
AS
AS
AS
AS
AS
AS

"var22",
"var23",
"var24",
"var25",
"var26",
"var27",
"var28",
"var29",
"var30",
"var31",
"var32",
"var33",
"var34",
"var35",
"var36",
"var37",
"var38",
"var39"

-- Junes que determinam os valores das variveis para cada aluno


FROM
(SELECT * FROM base) AS base
LEFT OUTER JOIN
(SELECT b.disciplina_id, b.aluno_id, count(*) AS "var01"
FROM mdl_forum_posts p
INNER JOIN mdl_forum_discussions d ON d.id = p.discussion
INNER JOIN base b ON d.course=b.disciplina_id AND p.userid=b.aluno_id
AND p.created BETWEEN b.data_inicio and b.data_final
GROUP BY b.disciplina_id, b.aluno_id) AS VAR01
ON VAR01.disciplina_id = base.disciplina_id AND VAR01.aluno_id =
base.aluno_id
LEFT OUTER JOIN
(SELECT p1.disciplina_id,receptor, count(*) AS "var02"
FROM posts p1
INNER JOIN professores p2 ON p2.disciplina_id=p1.disciplina_id
AND
p2.professor_id=p1.emissor
INNER JOIN alunos p3 ON p3.disciplina_id=p1.disciplina_id AND
p3.aluno_id=p1.receptor
INNER
JOIN
base
b
ON
b.disciplina_id=p1.disciplina_id
AND
b.aluno_id=p1.receptor AND p1.data BETWEEN b.data_inicio and b.data_final
GROUP BY p1.disciplina_id, receptor) AS var02
ON var02.disciplina_id = base.disciplina_id AND var02.receptor =
base.aluno_id
LEFT OUTER JOIN
(SELECT p1.disciplina_id,receptor, count(*) AS "var03"
FROM posts p1
INNER
JOIN
base
b
ON
b.disciplina_id=p1.disciplina_id
AND
b.aluno_id=p1.receptor AND p1.data BETWEEN b.data_inicio and b.data_final
INNER JOIN alunos p2 ON p2.disciplina_id=p1.disciplina_id
AND
p2.aluno_id=p1.emissor
GROUP BY p1.disciplina_id, receptor) AS var03
ON var03.disciplina_id = base.disciplina_id AND var03.receptor =
base.aluno_id
LEFT OUTER JOIN
(SELECT b.disciplina_id, b.aluno_id, count(*) AS "var04"
FROM mdl_message_read r

253
INNER JOIN base b ON b.aluno_id=r.useridfrom AND r.timecreated BETWEEN
b.data_inicio and b.data_final
GROUP BY b.disciplina_id, b.aluno_id) AS var04
ON var04.disciplina_id = base.disciplina_id AND var04.aluno_id =
base.aluno_id
LEFT OUTER JOIN
(SELECT b.disciplina_id, b.aluno_id, count(*) AS "var05"
FROM mdl_message_read r
INNER JOIN base b ON b.aluno_id=r.useridto AND r.timecreated BETWEEN
b.data_inicio and b.data_final
GROUP BY b.disciplina_id, b.aluno_id) AS var05
ON var05.disciplina_id = base.disciplina_id AND var05.aluno_id =
base.aluno_id
LEFT OUTER JOIN
(SELECT temp.disciplina_id, count(*) AS "var07"
FROM (SELECT b.disciplina_id,module, count(*)
FROM (SELECT distinct(disciplina_id), data_inicio, data_final FROM base)
b
INNER
JOIN
(SELECT
*
FROM
mdl_log
WHERE
"cmid">0
AND
/*Atividades*/("module"='webquestscorm'
OR
"module"='forum'
OR
"module"='quiz')) l
ON b.disciplina_id=l.course AND l.time BETWEEN b.data_inicio and
b.data_final
GROUP BY b.disciplina_id,l.module) AS temp
GROUP BY temp.disciplina_id) AS var07
ON var07.disciplina_id = base.disciplina_id
LEFT OUTER JOIN
(SELECT temp.disciplina_id, count(*) AS "var08"
FROM (SELECT b.disciplina_id,module,cmid, count(*)
FROM (SELECT distinct(disciplina_id), data_inicio, data_final FROM base)
b
INNER
JOIN
(SELECT
*
FROM
mdl_log
WHERE
"cmid">0
AND
/*Recursos*/("module"='resource' OR "module"='folder' OR "module"='glossary'))
l
ON b.disciplina_id=l.course AND l.time BETWEEN b.data_inicio and
b.data_final
GROUP BY b.disciplina_id,l.module,cmid) AS temp
GROUP BY temp.disciplina_id) AS var08
ON var08.disciplina_id = base.disciplina_id
LEFT OUTER JOIN
(SELECT temp.disciplina_id, count(*) AS "var09"
FROM (SELECT b.disciplina_id,module,cmid, count(*)
FROM (SELECT distinct(disciplina_id), data_inicio, data_final FROM base)
b
INNER
JOIN
(SELECT
*
FROM
mdl_log
WHERE
"cmid">0
AND
/*Atividades*/("module"='webquestscorm'
OR
"module"='forum'
OR
"module"='quiz')) l
ON b.disciplina_id=l.course AND l.time BETWEEN b.data_inicio and
b.data_final
GROUP BY b.disciplina_id,l.module,cmid) AS temp
GROUP BY temp.disciplina_id) AS var09
ON var09.disciplina_id = base.disciplina_id

254
LEFT OUTER JOIN
(SELECT temp.disciplina_id,temp.aluno_id, ROUND(AVG(temp.total),2) AS
"var10"
FROM (SELECT b.disciplina_id,b.aluno_id, module,cmid, count(*) AS
"total"
FROM base b
INNER JOIN (SELECT * FROM mdl_log WHERE "cmid">0 AND
/*Atividades*/
("module"='webquestscorm' AND "action"='view submission') OR
("module"='forum' AND "action"='view forum') OR
("module"='quiz' AND "action"='view') OR
/*Recursos considerados*/
("module"='resource' AND "action"='view') OR
("module"='folder' AND "action"='view') OR
("module"='glossary' AND "action"='view')) l
ON b.disciplina_id=l.course AND b.aluno_id=l.userid AND l.time BETWEEN
b.data_inicio and b.data_final
GROUP BY b.disciplina_id,b.aluno_id,l.module,cmid) AS temp
GROUP BY temp.disciplina_id, temp.aluno_id) AS var10
ON var10.disciplina_id = base.disciplina_id AND var10.aluno_id =
base.aluno_id
LEFT OUTER JOIN
(SELECT b.disciplina_id,b.aluno_id, count(*) AS "var13a"
FROM base b
INNER JOIN (SELECT * FROM mdl_log WHERE "action"='login' AND extract(hour
from to_timestamp(time)) >= 6 AND extract(hour from to_timestamp(time)) < 12)
l
ON b.aluno_id=l.userid AND l.time BETWEEN b.data_inicio and b.data_final
GROUP BY b.disciplina_id,b.aluno_id) AS var13a
ON
var13a.aluno_id = base.aluno_id AND var13a.disciplina_id =
base.disciplina_id
LEFT OUTER JOIN
(SELECT b.disciplina_id,b.aluno_id, count(*) AS "var13b"
FROM base b
INNER JOIN (SELECT * FROM mdl_log WHERE "action"='login' AND extract(hour
from to_timestamp(time)) >= 12 AND extract(hour from to_timestamp(time)) < 18)
l
ON b.aluno_id=l.userid AND l.time BETWEEN b.data_inicio and b.data_final
GROUP BY b.disciplina_id,b.aluno_id) AS var13b
ON
var13b.aluno_id = base.aluno_id AND var13b.disciplina_id =
base.disciplina_id
LEFT OUTER JOIN
(SELECT b.disciplina_id,b.aluno_id, count(*) AS "var13c"
FROM base b
INNER JOIN (SELECT * FROM mdl_log WHERE "action"='login' AND extract(hour
from to_timestamp(time)) >= 18 AND extract(hour from to_timestamp(time)) < 24)
l
ON b.aluno_id=l.userid AND l.time BETWEEN b.data_inicio and b.data_final
GROUP BY b.disciplina_id,b.aluno_id) AS var13c
ON
var13c.aluno_id = base.aluno_id AND var13c.disciplina_id =
base.disciplina_id

LEFT OUTER JOIN


(SELECT b.disciplina_id,b.aluno_id, count(*) AS "var13d"
FROM base b

255
INNER JOIN (SELECT * FROM mdl_log WHERE "action"='login' AND extract(hour
from to_timestamp(time)) >= 0 AND extract(hour from to_timestamp(time)) < 6) l
ON b.aluno_id=l.userid AND l.time BETWEEN b.data_inicio and b.data_final
GROUP BY b.disciplina_id,b.aluno_id) AS var13d
ON
var13d.aluno_id = base.aluno_id AND var13d.disciplina_id =
base.disciplina_id
LEFT OUTER JOIN
(SELECT b.disciplina_id,b.aluno_id, count(*) AS "var14"
FROM mdl_webquestscorm a
INNER JOIN mdl_webquestscorm_submissions s
ON a.id=s.webquestscorm AND a.timedue >= s.timecreated
INNER JOIN base b
ON b.disciplina_id= a.course AND b.aluno_id=s.userid AND s.timecreated
BETWEEN b.data_inicio and b.data_final
GROUP BY b.disciplina_id,b.aluno_id) AS var14
ON
var14.aluno_id = base.aluno_id AND var14.disciplina_id =
base.disciplina_id
LEFT OUTER JOIN
(SELECT b.disciplina_id,b.aluno_id, count(*) AS "var15"
FROM mdl_webquestscorm a
INNER JOIN mdl_webquestscorm_submissions s
ON a.id=s.webquestscorm AND a.timedue <= s.timecreated
INNER JOIN base b
ON b.disciplina_id= a.course AND b.aluno_id=s.userid AND s.timecreated
BETWEEN b.data_inicio and b.data_final
GROUP BY b.disciplina_id,b.aluno_id) AS var15
ON
var15.aluno_id = base.aluno_id AND var15.disciplina_id =
base.disciplina_id
LEFT OUTER JOIN
(SELECT temp.disciplina_id, temp.aluno_id, count(*) AS "var16"
FROM (SELECT b.disciplina_id, b.aluno_id, r.useridto, count(*) AS
"var16_temp"
FROM mdl_message_read r
INNER JOIN base b ON b.aluno_id=r.useridfrom AND r.timecreated BETWEEN
b.data_inicio and b.data_final
INNER
JOIN
alunos
a
ON
a.aluno_id=r.useridto
AND
a.disciplina_id=b.disciplina_id
GROUP BY b.disciplina_id, b.aluno_id,r.useridto) AS temp
GROUP BY temp.disciplina_id, temp.aluno_id) AS var16
ON var16.disciplina_id = base.disciplina_id AND var16.aluno_id =
base.aluno_id
LEFT OUTER JOIN
(SELECT d.course,d.userid, SUM(d.intervalo) AS "var17" FROM
(SELECT c.course, c.userid,
CASE
WHEN c.proxima_action='login' THEN 0
WHEN c.proximo_time= NULL THEN 0
ELSE c.proximo_time - c.time END AS "intervalo"
FROM
(SELECT
a.id,a.course,a.userid,a.module,a.action,a.time,b.action
AS
"proxima_action", b.time AS "proximo_time" FROM log_reduzido a INNER JOIN
log_reduzido b ON a.userid=b.userid AND (b.id-1)=a.id) c
INNER JOIN (SELECT distinct(disciplina_id), data_inicio, data_final FROM
base) b ON c.course=b.disciplina_id AND c.time BETWEEN b.data_inicio and
b.data_final) d

256
GROUP BY d.course,d.userid) AS var17
ON var17.course = base.disciplina_id AND var17.userid = base.aluno_id
LEFT OUTER JOIN
(SELECT b.disciplina_id,b.aluno_id, count(*) AS "var18"
FROM base b
INNER JOIN (SELECT * FROM mdl_log WHERE action='login') l
ON b.aluno_id=l.userid AND l.time BETWEEN b.data_inicio and b.data_final
GROUP BY b.disciplina_id,b.aluno_id) AS var18
ON
var18.aluno_id = base.aluno_id AND var18.disciplina_id =
base.disciplina_id
LEFT OUTER JOIN
(SELECT b.disciplina_id, b.aluno_id, count(*) AS "var19"
FROM mdl_message_read r
INNER JOIN base b ON b.aluno_id=r.useridfrom AND r.timecreated BETWEEN
b.data_inicio and b.data_final
INNER
JOIN
professores
p
ON
p.professor_id=r.useridto
AND
p.disciplina_id=b.disciplina_id
GROUP BY b.disciplina_id, b.aluno_id) AS var19
ON var19.disciplina_id = base.disciplina_id AND var19.aluno_id =
base.aluno_id
LEFT OUTER JOIN
(SELECT b.disciplina_id, b.aluno_id, count(*) AS "var20"
FROM mdl_message_read r
INNER JOIN base b ON b.aluno_id=r.useridto AND r.timecreated BETWEEN
b.data_inicio and b.data_final
INNER
JOIN
professores
p
ON
p.professor_id=r.useridfrom
AND
p.disciplina_id=b.disciplina_id
GROUP BY b.disciplina_id, b.aluno_id) AS var20
ON var20.disciplina_id = base.disciplina_id AND var20.aluno_id =
base.aluno_id
LEFT OUTER JOIN
(SELECT b.disciplina_id, b.aluno_id, count(*) AS "var21"
FROM mdl_message_read r
INNER JOIN base b ON b.aluno_id=r.useridto AND r.timecreated BETWEEN
b.data_inicio and b.data_final
INNER
JOIN
alunos
a
ON
a.aluno_id=r.useridfrom
AND
a.disciplina_id=b.disciplina_id
GROUP BY b.disciplina_id, b.aluno_id) AS var21
ON var21.disciplina_id = base.disciplina_id AND var21.aluno_id =
base.aluno_id
LEFT OUTER JOIN
(SELECT b.disciplina_id, b.aluno_id, count(*) AS "var22"
FROM mdl_message_read r
INNER JOIN base b ON b.aluno_id=r.useridfrom AND r.timecreated BETWEEN
b.data_inicio and b.data_final
INNER
JOIN
alunos
a
ON
a.aluno_id=r.useridto
AND
a.disciplina_id=b.disciplina_id
GROUP BY b.disciplina_id, b.aluno_id) AS var22
ON var22.disciplina_id = base.disciplina_id AND var22.aluno_id =
base.aluno_id
LEFT OUTER JOIN
(SELECT b.disciplina_id, count(*) AS "var23"
FROM mdl_webquestscorm a

257
INNER JOIN (SELECT distinct(disciplina_id),data_inicio,data_final FROM
base) b
ON b.disciplina_id=a.course AND a.timedue BETWEEN b.data_inicio and
b.data_final
GROUP BY b.disciplina_id) AS var23
ON var23.disciplina_id = base.disciplina_id
LEFT OUTER JOIN
(SELECT temp.disciplina_id,temp.aluno_id, count(*) AS "var24"
FROM (SELECT b.disciplina_id,b.aluno_id, ip, count(*) AS "Num_Acesso_IP"
FROM (SELECT * FROM mdl_log WHERE "action"='login') l
INNER JOIN base b
ON b.aluno_id=l.userid AND l.time BETWEEN b.data_inicio and b.data_final
GROUP BY b.disciplina_id,b.aluno_id,l.ip) AS temp
GROUP BY temp.disciplina_id, temp.aluno_id) AS var24
ON var24.disciplina_id = base.disciplina_id AND var24.aluno_id =
base.aluno_id
LEFT OUTER JOIN
(SELECT p1.disciplina_id,receptor, count(*) AS "var25"
FROM posts p1
INNER JOIN professores p2 ON p2.disciplina_id=p1.disciplina_id AND
p2.professor_id=p1.emissor
INNER JOIN alunos p3 ON p3.disciplina_id=p1.disciplina_id AND
p3.aluno_id=p1.receptor
INNER
JOIN
base
b
ON
b.disciplina_id=p1.disciplina_id
AND
b.aluno_id=p1.receptor AND p1.data BETWEEN b.data_inicio and b.data_final
WHERE p1.nome_forum LIKE '%duvida%' OR p1.nome_forum LIKE '%dvida%'
GROUP BY p1.disciplina_id, receptor) AS var25
ON var25.disciplina_id = base.disciplina_id AND var25.receptor =
base.aluno_id
LEFT OUTER JOIN
(SELECT temp.disciplina_id,temp.aluno_id, ROUND(AVG(temp.total),2) AS
"var26"
FROM (SELECT b.disciplina_id,b.aluno_id, module,cmid, count(*) AS
"total"
FROM base b
INNER JOIN (SELECT * FROM mdl_log WHERE "cmid">0 AND
/*Recursos considerados*/
("module"='resource' AND "action"='view') OR
("module"='folder' AND "action"='view') OR
("module"='glossary' AND "action"='view')) l
ON b.disciplina_id=l.course AND b.aluno_id=l.userid AND l.time BETWEEN
b.data_inicio and b.data_final
GROUP BY b.disciplina_id,b.aluno_id,l.module,cmid) AS temp
GROUP BY temp.disciplina_id, temp.aluno_id) AS var26
ON var26.disciplina_id = base.disciplina_id AND var26.aluno_id =
base.aluno_id
LEFT OUTER JOIN
(SELECT temp.disciplina_id,temp.aluno_id, ROUND(AVG(temp.total),2) AS
"var27"
FROM (SELECT b.disciplina_id,b.aluno_id, module,cmid, count(*) AS
"total"
FROM base b
INNER JOIN (SELECT * FROM mdl_log WHERE "cmid">0 AND
/*Atividades*/
("module"='webquestscorm' AND "action"='view submission') OR

258
("module"='forum' AND "action"='view forum') OR
("module"='quiz' AND "action"='view')) l
ON b.disciplina_id=l.course AND b.aluno_id=l.userid AND l.time BETWEEN
b.data_inicio and b.data_final
GROUP BY b.disciplina_id,b.aluno_id,l.module,cmid) AS temp
GROUP BY temp.disciplina_id, temp.aluno_id) AS var27
ON var27.disciplina_id = base.disciplina_id AND var27.aluno_id =
base.aluno_id
LEFT OUTER JOIN
(SELECT temp.disciplina_id, count(*) AS "var28" FROM
(SELECT distinct b.disciplina_id,f.id, f.course
FROM mdl_forum f
INNER JOIN mdl_forum_discussions d ON f.id=d.forum
INNER JOIN mdl_forum_posts p ON d.id=p.discussion
INNER JOIN (SELECT distinct(disciplina_id),data_inicio,data_final FROM
base) b
ON b.disciplina_id=f.course AND p.created BETWEEN b.data_inicio and
b.data_final
WHERE f.name LIKE '%temtico%' OR f.name LIKE '%Temtico%' OR f.name
LIKE '%Tematico%' OR f.name LIKE '%tematico%') temp
GROUP BY temp.disciplina_id) AS var28
ON var28.disciplina_id = base.disciplina_id
LEFT OUTER JOIN
(SELECT b.disciplina_id, count(*) "var29"
FROM (SELECT distinct(disciplina_id) FROM base) b
INNER JOIN mdl_chat c ON b.disciplina_id=c.course
GROUP BY b.disciplina_id) AS var29
ON var29.disciplina_id = base.disciplina_id
LEFT OUTER JOIN
(SELECT b.disciplina_id, count(*) AS "var30"
FROM (SELECT * FROM mdl_resource WHERE "name" LIKE '%conferenc%' OR
"name" LIKE '%confernc%') r
INNER JOIN (SELECT distinct(disciplina_id) FROM base) b
ON b.disciplina_id=r.course
GROUP BY b.disciplina_id) AS var30
ON var30.disciplina_id = base.disciplina_id
LEFT OUTER JOIN
(SELECT b.disciplina_id,b.aluno_id, count(*) AS "var31"
FROM base b
INNER JOIN (SELECT * FROM mdl_log WHERE "action"='view forum') l
ON b.aluno_id=l.userid AND b.disciplina_id=l.course AND l.time BETWEEN
b.data_inicio and b.data_final
GROUP BY b.disciplina_id,b.aluno_id) AS var31
ON
var31.aluno_id = base.aluno_id AND var31.disciplina_id =
base.disciplina_id
LEFT OUTER JOIN
(SELECT b.disciplina_id,b.aluno_id, count(*) AS "var32"
FROM base b
INNER JOIN (SELECT * FROM mdl_log WHERE "action" = 'view section' AND
"info" = '2') l
ON b.aluno_id=l.userid AND b.disciplina_id=l.course AND l.time BETWEEN
b.data_inicio and b.data_final
GROUP BY b.disciplina_id,b.aluno_id) AS var32

259
ON
var32.aluno_id
base.disciplina_id

base.aluno_id

AND

var32.disciplina_id

LEFT OUTER JOIN


(SELECT b.disciplina_id,b.aluno_id, count(*) AS "var33"
FROM base b
INNER JOIN (SELECT * FROM mdl_log WHERE "action" = 'view section' AND
"info" = '2') l
ON b.aluno_id=l.userid AND b.disciplina_id=l.course AND l.time BETWEEN
b.data_inicio and b.data_final
GROUP BY b.disciplina_id,b.aluno_id) AS var33
ON
var33.aluno_id = base.aluno_id AND var33.disciplina_id =
base.disciplina_id
LEFT OUTER JOIN
(SELECT b.disciplina_id, b.aluno_id, count(*) AS "var34"
FROM mdl_forum_posts p
INNER JOIN mdl_forum_discussions d ON (d.id = p.discussion)
INNER JOIN mdl_forum f ON d.forum=f.id
INNER JOIN base b ON b.disciplina_id=d.course AND b.aluno_id=p.userid
AND p.created BETWEEN b.data_inicio and b.data_final
WHERE p.parent=0 AND (f.name LIKE '%duvida%' OR f.name LIKE '%dvida%')
GROUP BY b.disciplina_id, b.aluno_id) AS var34
ON var34.disciplina_id = base.disciplina_id AND var34.aluno_id =
base.aluno_id
LEFT OUTER JOIN
(SELECT b.disciplina_id,b.aluno_id, count(*) "var35"
FROM base b
INNER JOIN mdl_chat c ON b.disciplina_id=c.course
INNER JOIN mdl_chat_messages m
ON c.id=m.chatid AND b.aluno_id=m.userid AND m.timestamp BETWEEN
b.data_inicio and b.data_final
GROUP BY b.disciplina_id,b.aluno_id) AS var35
ON var35.disciplina_id = base.disciplina_id AND var35.aluno_id =
base.aluno_id
LEFT OUTER JOIN
(SELECT p1.disciplina_id,emissor, count(*) AS "var39"
FROM posts p1
INNER JOIN alunos p2 ON p2.disciplina_id=p1.disciplina_id
AND
p2.aluno_id=p1.receptor
INNER
JOIN
base
b
ON
b.disciplina_id=p1.disciplina_id
AND
b.aluno_id=p1.emissor AND p1.data BETWEEN b.data_inicio and b.data_final
GROUP BY p1.disciplina_id, emissor) AS var39
ON var39.disciplina_id = base.disciplina_id AND var39.emissor =
base.aluno_id

-- Ordenar o resultado por curso, semestre, perodo, nome da disciplina e nome


do estudante
ORDER BY
base.curso, base.semestre, base.periodo, base.disciplina_nome, base.aluno_nome
-- Salvar o resultado no arquivo c:/resultado_DT.csv
) TO 'c:/resultado_DT.csv' DELIMITER ';' CSV HEADER;

3 Script PostgreSQL para identificao e seleo de estudantes matriculados em


disciplinas do primeiro perodo nos cursos analisados:

260

SELECT u.id, u.username, u.firstname,u.lastname,u.email


FROM mdl_role_assignments rs
INNER JOIN mdl_context e ON rs.contextid=e.id
INNER JOIN mdl_course c ON c.id = e.instanceid
INNER JOIN mdl_user u ON u.id=rs.userid
WHERE e.contextlevel=50 AND rs.roleid=5 AND c.id=3
INTERSECT
SELECT u.id, u.username, u.firstname,u.lastname,u.email
FROM mdl_role_assignments rs
INNER JOIN mdl_context e ON rs.contextid=e.id
INNER JOIN mdl_course c ON c.id = e.instanceid
INNER JOIN mdl_user u ON u.id=rs.userid
WHERE e.contextlevel=50 AND rs.roleid=5 AND c.id=7
INTERSECT
SELECT u.id, u.username, u.firstname,u.lastname,u.email
FROM mdl_role_assignments rs
INNER JOIN mdl_context e ON rs.contextid=e.id
INNER JOIN mdl_course c ON c.id = e.instanceid
INNER JOIN mdl_user u ON u.id=rs.userid
WHERE e.contextlevel=50 AND rs.roleid=5 AND c.id=8
INTERSECT
SELECT u.id, u.username, u.firstname,u.lastname,u.email
FROM mdl_role_assignments rs
INNER JOIN mdl_context e ON rs.contextid=e.id
INNER JOIN mdl_course c ON c.id = e.instanceid
INNER JOIN mdl_user u ON u.id=rs.userid
WHERE e.contextlevel=50 AND rs.roleid=5 AND c.id=9
INTERSECT
SELECT u.id, u.username, u.firstname,u.lastname,u.email
FROM mdl_role_assignments rs
INNER JOIN mdl_context e ON rs.contextid=e.id
INNER JOIN mdl_course c ON c.id = e.instanceid
INNER JOIN mdl_user u ON u.id=rs.userid
WHERE e.contextlevel=50 AND rs.roleid=5 AND c.id=6