Você está na página 1de 63

Revista Brasileira de Informática na Educação, Volume 19, Número 2, 2011

Mineração de Dados Educacionais:


Oportunidades para o Brasil
Ryan Shaun Joazeiro de Baker Seiji Isotani
Department of Social Sciences and Policy Studies Human-Computer Interaction Institute
Worcester Polytechnic Institute Carnegie Mellon University
100 Institute Road, Worcester, MA 01609 USA 5000 Forbes Ave., Pittsburgh, PA 15213 USA
rsbaker@wpi.edu sisotani@cs.cmu.edu

Adriana Maria Joazeiro Baker de Carvalho


Human-Computer Interaction Institute
Carnegie Mellon University
5000 Forbes Ave., Pittsburgh, PA 15213 USA
carvalho@cs.cmu.edu

Resumo A mineração de dados educacionais (EDM) é uma área recente de pesquisa que tem como prin-
cipal objetivo o desenvolvimento de métodos para explorar conjuntos de dados coletados em
ambientes educacionais. Atualmente ela vem se estabelecendo como uma forte e consolidada
linha de pesquisa que possui grande potencial para melhorar a qualidade do ensino. Apesar dos
esforços de pesquisadores brasileiros, essa área ainda é pouco explorada no país. Para divul-
gar alguns dos resultados desta área este artigo apresenta uma revisão das pesquisas realiza-
das na área, dando ênfase aos métodos e aplicações que vêem influenciado, com sucesso, a
pesquisa e a prática da educação em vários países. Serão discutidas as condições que viabili-
zam a pesquisa da EDM no cenário internacional e quais os desafios para consolidar a área no
Brasil. Além disso, também será abordado o potencial impacto da EDM na melhora da qualida-
de dos cursos na modalidade educação a distância (EAD) que vêm recebendo incentivo gover-
namental e um crescente número de alunos matriculados.

Palavras-Chave: Mineração de Dados Educacionais, Educação a Distância

Abstract Educational Data Mining (EDM) is the research area concerned with the development and use
of data mining methods for exploring data sets collected in educational settings. In recent years,
EDM has become established internationally as a field and research community, with evidence
of considerable potential to improve the quality of education. Though there have been efforts to
establish EDM research in Brazil, EDM is not yet well established in Brazil. Towards increasing
awareness of EDM research in Brazil, this paper presents a review of research on EDM, dis-
cussing methods and successful applications of EDM research which have influenced research
and educational practice internationally. The article discusses some of the enabling conditions
for EDM research, and the challenges that must be met for this field to reach its full potential in
Brazil. In specific, we discuss the potential that EDM research has to benefit the increasing
number of Brazilian distance learners.

Keywords: Educational Data Mining, Distance Learning

3
Recebido: 10 de Maio de 2011 / Aceito: 13 de Agosto de 2011 / Publicado: 24 de Agosto de 2011
DOI: 10.5753/RBIE.2011.19.02.03
Baker, R.; Isotani, S.; de Carvalho, A. RBIE V.19 N.2 – 2011

1 Mineração de Dados Educacionais Em 2008 criou-se a Conferência Internacional sobre


Mineração de Dados Educacionais (International Confe-
rence on Educational Data Mining), após uma sequência
O termo Mineração de dados, também conhecido
como Descoberta de Conhecimentos em Bancos de Da- de worshops bem sucedidos realizados anualmente desde
2004. Em sua terceira edição, foram submetidos 74 arti-
dos, ou KDD (do inglês, “Knowledge Discovery in Data-
gos originais para esta conferência e o número de partici-
bases”), refere-se a disciplina que tem como objetivo
pantes aumentou consideravelmente em relação aos anos
descobrir “novas” informações através da análise de
anteriores. Criou-se também a Revista de Mineração de
grandes quantidades de dados [41]. O termo “novas in-
Dados Educacionais (Journal of Educational Data Mi-
formações” refere-se ao processo de identificar relações
ning), que publicou seu primeiro volume em Novembro
entre dados que podem produzir novos conhecimentos e
de 2009. Além da consolidação da conferência e da revis-
gerar novas descobertas científicas.
ta na área de EDM, a comunidade também publicou dois
As informações sobre a relação entre dados e, posteri- livros sobre o assunto em 2006 e 2010 (Data Mining in e-
ormente a descoberta de novos conhecimentos, podem ser learning e Handbook of Educational Data Mining).
muito úteis para realizar atividades de tomada de decisão.
Contudo, no Brasil ainda são poucos os trabalhos pu-
Por exemplo, ao minerar os dados de um estoque de su-
blicados nesta área de pesquisa. Um dos trabalhos pionei-
permercado poderia-se descobrir que todas as sextas-
feiras uma marca específica de cerveja se esgota nas ros no uso de mineração de dados na educação foi publi-
cada por Brandão et al. [13] analisando dados do progra-
prateleiras e, portanto, um gerente que obtém esta “nova
ma nacional de informática na educação. Um outro traba-
informação” poderia planejar o estoque do supermercado
lho pioneiro no Brasil que analisou dados da avaliação de
para aumentar a quantidade de cervejas desta marca as
alunos é apresentada por Pimentel e Omar [35]. Com o
sextas-feiras. Analogamente, é possível minerar dados de
objetivo de divulgar esta área no Brasil, este artigo apre-
alunos para verificar a relação entre uma abordagem
senta uma breve introdução de alguns métodos e aplica-
pedagógica e o aprendizado do aluno. Através desta in-
ções da EDM e a visão dos autores sobre o potencial
formação o professor poderia compreender se sua abor-
benéfico que a EDM pode trazer ao sistema educacional
dagem realmente está ajudando o aluno e desenvolver
brasileiro, principalmente para a educação a distância.
novos métodos de ensino mais eficazes. A Mineração de
dados tem sido aplicada em diversas áreas do conheci-
mento, como por exemplo, vendas, bioinformátíca, e 2. Métodos para EDM
ações contra-terrorismo. Recentemente, com a expansão
dos cursos a distância e também daqueles com suporte
Existem muitos métodos utilizados em EDM que são
computacional, muitos pesquisadores da área de Informá-
originalmente da área de mineração de dados [41]. Con-
tica na Educação (em particular, Inteligência Artificial
tudo, de acordo com Baker [4], muitas vezes estes méto-
Aplicada à Educação) têm mostrado interesse em utilizar
dos precisam ser modificados, por causa da necessidade
mineração de dados para investigar perguntas científicas de considerar a hierarquia (em diversos níveis) da infor-
na área de educação (e.g. quais são os fatores que afetam mação. Além disso, existe uma falta de independência
a aprendizagem? Ou como desenvolver sistemas educa- estatística nos tipos de dados encontrados ao coletar in-
cionais mais eficazes?). Dentro deste contexto, surgiu formações em ambientes educacionais. Por causa disso,
uma nova área de pesquisa conhecida como “Mineração diversos algoritmos e ferramentas utilizadas na área de
de Dados Educacionais” (do inglês, “Educational Data mineração de dados não podem ser aplicadas para anali-
Mining”, ou EDM). A EDM é definida como a área de sar dados educacionais sem modificação. Em particular,
pesquisa que tem como principal foco o desenvolvimento ferramentas importantes de mineração de dados, como
de métodos para explorar conjuntos de dados coletados por exemplo Weka [cf. 41], não oferecem apoio para
em ambientes educacionais. Assim, é possível compreen- validação cruzada entre os dados no nível do aluno ou da
der de forma mais eficaz e adequada os alunos, como eles classe. A validação cruzada permite verificar a corretude
aprendem, o papel do contexto na qual a aprendizagem de um modelo gerado a partir da análise de dados de
ocorre, além de outros fatores que influenciam a aprendi- treinamento (training data). Essa validação oferece uma
zagem. Por exemplo, é possível identificar em que situa- estimativa de como o modelo irá se comportar ao analisar
ção um tipo de abordagem instrucional (e.g. aprendiza- um conjunto novo dados. Validação cruzada ao nível de
gem individual ou colaborativa) proporciona melhores aluno ou classe é fundamental em dados educacionais,
benefícios educacionais ao aluno. Também é possível pois existe uma grande quantidade de dados por aluno e
verificar se o aluno está desmotivado ou confuso e, as- as conclusões obtidas ao utilizar métodos de mineração
sim, personalizar o ambiente e os métodos de ensino para de dados precisam garantir que o modelo encontrado
oferecer melhores condições de aprendizagem. possa ser utilizados para inferir o comportamento ou a
A comunidade de EDM vem crescendo rapidamente. aprendizagem novos alunos e/ou classe. RapidMiner [cf.

4
Mineração de Dados Educacionais:
Baker, R.; Isotani, S.; de Carvalho, A.
Oportunidades para o Brasil

30] é uma ferramenta que oferece um melhor apoio a como o RapidMiner [30], incluem árvores de decisão,
estas análises, embora ainda exija do usuário um grande regressão logística (para predições binárias), e regressão
esforço para obter a validação desejada. Devido a esta step. Quando a variável preditora é um número, os algo-
lacuna na área de mineração de dados, muitos pesquisa- ritmos de regressão mais populares incluem regressão
dores que publicam na área de EDM utilizam modelos linear, redes neurais, e máquinas de suporte vetorial. Para
desenvolvidos na área de psicometria [e.g. 10, 18, 33]. classificação e regressão, as variáveis preditoras podem
Existem várias linhas de pesquisa na área de EDM. ser categóricas ou numéricas; métodos diferentes ficam
Muitas delas derivadas diretamente da área de mineração mais (ou menos) efetivos, dependendo das características
de dados. Assim, nos parágrafos a seguir faremos uma das variáveis preditoras utilizadas.
breve introdução de alguns dos tópicos mais interessantes Existem dois benefícios de se utilizar métodos de
da área. predição em EDM. Primeiro, métodos de predição são
Uma taxonomia das principais sub-áreas de pesquisa utilizados para estudar quais aspectos de um modelo são
em EDM é apresentada em [4]: importantes para predição, dando informação sobre o
construto sendo examinado (exemplos de constructo
• Predição (Prediction) modelado incluem curvas de aprendizagem e representa-
o Classificação (Classification) ções de tipos variados de comportamento). Esta estratégia
o Regressão (Regression) é frequentemente utilizada em pesquisas que tentam, de
o Estimação de Densidade (Density Estimati- forma direta, predizer os benefícios educacionais para um
on) conjunto de estudantes [e.g. 37], sem primeiro predizer os
• Agrupamento (Clustering) fatores mediantes ou intermediários. Ou seja, o objetivo
• Mineração de relações (Relationship Mining) é verificar o quanto o aluno aprender sem considerar as
o Mineração de Regras de associação (Asso- diversas variáveis que influenciam a aprendizagem como,
ciation Rule Mining) por exemplo, variáveis relacionadas ao comportamento
o Mineração de Correlações (Correlation Mi- do estudante [33]. Segundo, os métodos de predição
ning) auxiliam a predizer o valor das variáveis utilizadas em
o Mineração de Padrões Sequenciais (Sequen- um modelo. Essa abordagem é necessária, pois analisar
tial Pattern Mining) todos os dados de um grande banco de dados para gerar
o Mineração de Causas (Causal Mining) um modelo é tipicamente financeiramente inviável, além
• Destilação de dados para facilitar decisões huma- de consumir muito tempo [7]. Assim, o modelo pode ser
nas (Distillation of Data for Human Judgment) construído utilizando parte dos dados e então ser aplicado
• Descobertas com modelos (Discovery with Mo- para modelar dados mais extensos [6]. Esse tipo de técni-
dels) ca pode auxiliar no desenvolvimento e uso de atividades
instrucionais, pois consegue estimar os benefícios educa-
As três primeiras categorias dessa taxonomia são de
cionais antes mesmo da atividade ser aplicada com os
interesse tanto da área de EDM quanto da área de mine-
alunos.
ração de dados em geral. As sub–categorias de Predição:
Classificação, Regressão e Estimação de Densidade estão Na área de agrupamento, o objetivo principal é achar
diretamente relacionadas as categorias dos métodos de dados que se agrupam naturalmente, classificando os
mineração de dados apresentados por Moore [32]. dados em diferentes grupos e/ou categorias. Estes grupos
e categorias não são conhecidos inicialmente. Através de
Na área de predição, a meta é desenvolver modelos
técnicas de agrupamento os grupos/categorias são auto-
que deduzam aspectos específicos dos dados, conhecidos
maticamente identificados através da manipulação das
como variáveis preditivas (predicted variables), através
características dos dados. É possível criar esses gru-
da análise e fusão dos diversos aspectos encontrados nos
pos/categorias utilizando diferentes unidades de análise,
dados, chamados de variáveis preditoras (predictor vari- por exemplo é possível achar grupos de escolas (para
ables). A Predição necessita que uma certa quantidade investigar as diferenças e similaridades entre escolas), ou
dos dados seja manualmente codificada para viabilizar a achar grupos de alunos (para investigar as diferenças e
correta identificação de uma ou mais variáveis preditoras similaridades entre alunos), ou até grupos de atos (para
previamente conhecidas (a codificação e a identificação investigar padrões de comportamento) [2].
das variáveis não precisam ser perfeitas). Como indicado
na taxonomia, existem três tipos de predição: classifica- Em mineração de relações, a meta é descobrir possí-
ção, regressão, e estimação de densidade. A estimação de veis relações entre variáveis em bancos de dados. Esta
densidade é raramente utilizada na EDM devido a falta de tarefa pode envolver a tentativa de aprender quais variá-
independência estatística dos dados. Em classificação, a veis são mais fortemente associadas com uma variável
variável preditora é binária ou categórica. Alguns algo- específica, previamente conhecida e importante, ou pode
ritmos populares na EDM, disponíveis em ferramentas envolver as relações entre quaisquer variáveis presentes

5
Baker, R.; Isotani, S.; de Carvalho, A. RBIE V.19 N.2 – 2011

nos dados. Para identificar essas relações, existem quatro sim a dificuldade de aprendizagem do aluno. Aalisando o
tipos de mineração: (a) regras de associação; (b) correla- padrão de covariância, a mineração de causa pode inferir
ções; (c) sequências; ou (d) causas. qual evento foi a causa do outro.
Na mineração de regras de associação, procura-se
gerar/identificar regras do tipo se-então (if-then) que Na área de destilação de dados para facilitar deci-
permitam associar o valor observado de uma variável ao sões humanas, são realizadas pesquisas que tem como
valor de uma outra variável. Ou seja, caso uma condição objetivo apresentar dados complexos de forma a facilitar
seja verdadeira (e.g. variável Y possui valor 1) e uma sua compreensão e expor suas características mais impor-
regra associe essa condição ao valor de uma outra variá- tantes. Através da destilação é possível que os dados
vel X, então podemos inferir o valor desta variável X. Por sejam utilizados por pessoas para inferir aspectos sobre
exemplo, ao analisar um conjunto de dados seria possível os dados e, assim, tomar decisões que anteriormente não
identificar uma regra que faz a associação entre a variável poderiam ser tomadas e nem automatizadas apenas com
“objetivo do aluno”, uma variável binária que pode ter os o uso dos métodos da EDM. Os métodos dessa sub-área
valores alcançado ou não alcançado, e uma outra variá- da EDM facilitam a visualização da informação contida
vel binária “pedir ajudar ao professor” que pode ter os nos dados educacionais coletados por softwares educa-
valores sim ou não. Neste contexto, se o aluno tem como cionais [22, 25]. Estes métodos “purificam” os dados
objetivo aprender geometria, mas está com dificuldade para auxiliar as pessoas na identificação de padrões. Em
(i.e. a variável objetivo do aluno tem valor não alcança- diversas ocasiões, esses padrões são previamente conhe-
do), então é provável que ele peça ajuda do professor cidos, mas são difíceis de serem visualizados e/ou descri-
(i.e. a variável pedir ajuda ao professor tem valor positi- tos formalmente. Por exemplo, uma visualização clássica
vo). em EDM é a curva de aprendizagem. Essa curva indica o
Em mineração de correlações, a meta é achar corre- nível de aprendizagem de um aluno (ou de um conjunto
lações lineares (positivas ou negativas) entre variáveis. de alunos) ao longo do tempo. Ela é apresentada num
Por exemplo, ao analisar um conjunto de dados, seria plano cartesiano conforme mostra a figura 1. Nesta curva
possível identificar a existência de uma correção positiva relaciona-se o número de oportunidades que o aluno
entre uma variável que indica a quantidade de tempo que praticou um componente de conhecimento1 (apresentado
um aluno passa externalizando comportamentos que não no eixo x) e a sua performance (porcentagem de valores
estão relacionados as tarefas passadas pelo professor (e.g. corretos, apresentada no eixo y). Uma curva que desce
conversas paralelas, brincadeiras e outras perturbações rapidamente no inicio do gráfico e depois gradativamente
que ocorrem em sala de aula) e a nota que este aluno diminui sua inclinação indica que o modelo de conheci-
recebe na próxima prova. mento é bem especificado. Ou seja, o modelo representa
Em mineração de sequências, o objetivo principal é corretamente quais as relações entre os componentes de
achar a associação temporal entre eventos e o impacto conhecimento e as atividades realizadas pelos alunos.
destes eventos no valor de uma variável. Neste caso, é Essas atividades oferecem a oportunidade de praticar os
possível determinar qual trajetória de atos e ações de um componentes de conhecimento relacionados e ao decorrer
aluno pode, eventualmente, levar a uma aprendizagem deste processo o aluno aprende a medida que suas habili-
efetiva. Dessa forma, é possível criar um conjunto de dades e conhecimentos são testados.
atividades instrucionais que podem melhorar a qualidade Caso a curva de aprendizagem possua diversos pontos
do ensino fazendo com que os alunos externalizem ações fora dos locais esperados, ou seja, porcentagem de erros
que vão ajudá-los a construir seu conhecimento e desen- muito acima ou muito abaixo do esperado dado o número
volver as habilidades necessárias para trabalhar com o de oportunidades, isso indica que o modelo utilizado não
conteúdo apresentado pelo professor. está bem refinado e provavelmente mais de um compo-
Em mineração de causas, desenvolve-se algoritmos e nente de conhecimento está sendo tratado no mesmo
técnicas para verificar se um evento causa outro evento problema [16]. No caso da Figura 1 a curva em vermelho
através da analise dos padrões de covariância (uma siste- representa dados de alunos e a curva tracejada em azul
ma que faz isso é TETRAD [39]). Por exemplo, se consi- representa a curva esperada calculada utilizando algorit-
derarmos o exemplo anterior onde um aluno externaliza mos de predição implementados na plataforma Datashop2
comportamentos inadequados que não contribuem para [27]. Observe que apesar de alguns pontos estarem um
resolver a tarefa dada pelo professor. Nesta situação o pouco acima ou abaixo do esperado a curva em vermelho
aluno, em muitos casos, recebe uma nota ruim na prova desce gradativamente seguindo a curva esperada. Ou seja,
final. Nesta situação, o comportamento do aluno pode ser
a causa dele não aprender e, assim, resultado em uma 1
Um componente de conhecimento pode ser definido como um concei-
performance ruim na prova. Contudo, pode ser que o to, uma habilidade, uma regra ou um princípio utilizado para resolver
aluno externalize tal comportamento inadequado devido a uma tarefa. Maiores informações sobre a definição de componentes de
dificuldade em aprender, e portanto, a causa da perfor- conhecimento podem ser obtidas em [27].
2
mance ruim na prova não é o comportamento em sí, mas Repositório para armazenamento e análise de dados educacionais
https://pslcdatashop.web.cmu.edu/

6
Mineração de Dados Educacionais:
Baker, R.; Isotani, S.; de Carvalho, A.
Oportunidades para o Brasil

Figura 1. Curva de aprendizagem utilizada na plataforma Datashop. A curva em vermelho representa os


dados obtidos pelos alunos e a curva tracejada em azul representa a curva esperada, de acordo com o
modelo desenvolvido.
o modelo possui algumas falhas, mas corretamente indica cionais (e.g. MathTutor 2 ), estão
outros sistemas educacionais
que os alunos aprenderam ao longo do curso o conteúdo e disponíveis gratuitamente para qualquer pesquisador,
as habilidadess (componentes de conhecimento) desejadas.
desejadas através de repositórios educacionais como o DataShop
Observe que esse modelo pode ser utilizado para identif
identifi- criado pelo Centro de Ciências da Aprendizagem de
car a evolução da aprendizagem de qualquer aluno. De-D Pittsburgh (PSLC - Pittsburgh Science of Learning Cen-
pendendo das interação entre o aluno e as atividades, é ter). Os dados disponíveis no Datashop estão sendo utili-
possível verificar o quanto o aluno
uno aprendeu ou estimar o zados por mais que 400 pesquisadores em todo o mundo.
quanto ele irá aprender após um conjunto de atividades Segundo Baker & Yacef [9 9], dados de alunos retirados do
realizadas. DataShop foram utilizados em 14% dos artigos publica-
public
O uso da destilação de dados também é muito útil pa-
p dos na Conferência Internacional sobre Mineração de
ra categorizar as ações dos estudantes.
estudante Através desta Dados Educacionais em 2008 e 2009.
2009
categorização é possível auxiliar o desenvolvimento de
um modelo de predição mais robusto [8]. O segundo fator que vem promovendo o crescimento
da EDM é o uso de sistemas computacionais de gerenci-
3. Disponibilização dos Dados:
Dados Uma amento de curso/aprendizagem (e.g. LMS – learning
management systems; e CMS – content management
Condição Essencial systems) como o Moodle e o WebCat. Estes sistemas vêm
sendo adotados por muitoss professores, escolas e univer-
Atualmente, as tendências na área indicam um grande sidades em todo mundo. Além disso, já existem softwares
crescimento das pesquisas em EDM no cenário interna- que permitem que pesquisadores
pesquisado utilizem os dados gera-
cional, em particular nos Estados Unidos, Canadá
Canadá, e Es- dos por estes sistemas de forma que seja possível realizar
panha. Este grande crescimento é resultado direto de dois a mineração de dados [1, 38].
38 Nos Estados Unidos, dados
outros fatores que discutiremos a seguir. Primeiro, a de escolas e distritos (conjunto
conjunto de escolas de uma cidade)
difusão e utilização de software educacionais
educacion que produ- estão começando a ser disponibilizados aos pesquisadores
zem grandes quantidades de dados ados educa
educacionais bem através de bancos de dados públicos como, por exemplo,
estruturados. Por exemplo, o Cognitive Tutor1 é um tipo o banco de dados do Centro Nacional de Estatísticas
de sistema tutor inteligente que produz quanti
quantidades signi- Educacionais (National
National Center for Education Statistics).
Statistics
ficativas de dados de boa qualidade.
qualidade Este sistema é utili- Estes recursos permitem que pesquisadores
pesquisador possam, mais
zado anualmente por mais de 500 mil alunos em, apro- facilmente, obter grandes quantidades de dados reais e
ximadamente, 2000 escolas espalhadas pelos Estados relevantes para realizar análises
aná utilizando técnicas pro-
Unidos. Dados vindos do Cognitive Tutor,
Tutor e também de vindas da área de EDM. Os pesquisadores que fazem uso

1 2
http://www.carnegielearning.com/ https://mathtutor.web.cmu.edu/

7
Baker, R.; Isotani, S.; de Carvalho, A. RBIE V.19 N.2 – 2011

destes dados podem conduzir pesquisas com alta validade los automatizados que podem ser utilizados durante a
ecológica, ou seja, os resultados podem ser utilizados no interação dos alunos com os programas educacionais para
contexto escolar, enquanto que ao mesmo tempo evita-se identificar quando os alunos estão tentando trapacear para
os custos tradicionais da pesquisa e da coleta de dados conseguir melhores notas sem ter aprendido o conteúdo
nesta área. adequadamente [6]. Diversos algoritmos que analisam em
tempo real os dados das interações dos alunos com a
Com a difusão destes repositórios de dados educacio-
interface do sistema foram desenvolvidos para verificar
nais abertos diminui-se a necessidade de (a) recrutar
automaticamente quando comportamentos inadequados
escolas, professores, e estudantes; (b) realizar estudos
ocorrem. Essa funcionalidade permite que sistemas edu-
convencionais que requerem recursos humanos especiali-
cacionais apresentem comportamentos “inteligentes”
zados; (c) ir para escolas e conduzir experimentos que
oferecendo suporte e feedback apropriados para melhorar
duram dias ou até semanas; (d) inserir, formatar e digita-
a qualidade da aprendizagem dos alunos.
lizar os dados obtidos; e etc. Essa abordagem poderá
salvar grande parte do tempo e dos custos envolvidos em Um exemplo deste tipo de sistema inteligente é apre-
pesquisas educacionais. Além disso, os resultados pode- sentado por Baker e colegas [5]. Neste trabalho, os auto-
rão ser obtidos mais rapidamente, serão mais precisos e, res desenvolveram um personagem (Scooter) que reage
finalmente, proporcionarão o desenvolvimento de práti- de acordo com o comportamento apresentado pelo aluno.
cas pedagógicas que podem ser utilizados para melhorar a Quando o aluno interage com o sistema de forma ade-
qualidade do ensino de forma eficaz. quada, Scooter faz sinal de positivo conforme mostra a
imagem no canto superior esquerdo da Figura 2. Quando
4. Principais Aplicações da EDM o aluno tenta trapacear, por exemplo, pedindo ajuda ao
sistema diversas vezes para tentar obter a resposta final
As pesquisas em mineração de dados educacionais vêm de um exercício sem ao menos tentar resolvê-lo, então
oferecendo contribuições significativas para a teoria e a Scooter muda seu comportamento conforme mostra a
prática da educação [9]. Podemos citar diversos exemplo imagem no canto inferior esquerdo da Figura 2. Como
do uso de métodos da EDM para melhorar os modelos de nesta situação o sistema não possui dados suficientes para
conhecimento do estudante em vários diferentes domínios determinar se o aluno realmente aprendeu ou não o con-
como ensino de língua estrangeira, geometria, química, teúdo desejado então Scooter tenta diagnosticar o conhe-
física e muitos outros [10, 14, 17, 33]. Um dos benefícios cimento do aluno através de uma sequência perguntas
desse avanço foi a redução considerável do tempo gasto adicionais (à direita da Figura 2) que possuem dois pro-
pelos alunos para desenvolver suas habilidades acadêmi- pósitos: (1) verificar se o aluno aprendeu o conteúdo
cas, principalmente em domínios como a matemática corretamente; (2) revisar o conteúdo para auxiliar aqueles
[15]. alunos que não aprenderam corretamente. Como resulta-
do, os autores do trabalho enfatizam que o comportamen-
Métodos da EDM também viabilizaram a expansão
to deste personagem auxiliou o professor a identificar os
do conhecimento científico relacionado aos estados emo-
alunos que não estavam aprendendo corretamente e tam-
cionais do aluno (e.g. motivado, frustrado, confuso, etc).
bém incentivou os alunos a manter um comportamento
Eles também têm auxiliado a identificar a relação entre
adequado para aprender de forma eficaz o conteúdo da
estes estados emocionais e o comportamento apresentado
matéria.
pelo aluno, principalmente quando ocorre a externaliza-
ção intencional de ações inadequadas (trapaças) ao inte- Além da contribuição para o desenvolvimento de
ragir com software educacionais (em inglês, esse compor- programas educacionais eficazes, resultados da EDM
tamento inadequado é conhecido como “gaming the sys- também influenciaram áreas mais tradicionais da educa-
tem”). Com o uso dos métodos da EDM (e.g. mineração ção. Um resultado importante foi apresentado por Beck e
de causas e correlações) em conjunto com softwares Mostow [11] que, através da análises de dados de ativi-
educacionais é possível apontar os diferentes fatores que dades relacionadas a leitura, demonstrou que re-ler a
influenciam o comportamento do aluno e identificar as- mesma história é vantajoso para crianças com desabilida-
pectos sutis, muitas vezes imperceptíveis, do design de des (que lêem vagarosamente), mas não oferecer benefí-
software que instigam ou incentivam o surgimento de cios para as outras crianças que estão aprendendo a ler.
comportamentos indesejados e inadequados por parte dos Nesse último caso ler histórias diferentes proporcionam
alunos [8]. Através desta verificação a área da EDM mais benefícios à aprendizagem [11]. Esse resultado
também contribui para oferecer princípios de desenvol- também indica que existe a necessidade de se oferecer
vimento que podem ser aplicados para criar softwares que suporte para personalizar a forma de apresentar o conteú-
minimizam o problema de comportamento e maximizam do em classe auxiliando os alunos a atingirem os objeti-
a aprendizagem do aluno. vos desejados.
Pesquisas nessa área também proporcionaram mode-

8
Mineração de Dados Educacionais:
Baker, R.; Isotani, S.; de Carvalho, A.
Oportunidades para o Brasil

estudantes brasileiros participaram de cursos e/ou pro-


gramas de EaD pela internet [31]. Esta mudança no sis-
tema educacional brasileiro proporciona um ambiente
singular na qual a mineração de dados pode proporcionar
impactos muito positivos.
Os dados obtidos em ambientes de EaD, como gran-
des quantidades de texto envolvendo discussões (síncro-
nas e assíncronas) em chats, fóruns de discussão, wikis,
blogs, e outras formas de interação textual entre estudan-
te-estudante e estudante-professor, têm excelente poten-
cial de serem utilizadas para realizar-se mineração de
texto de descobrir modelos interessantes sobre os alunos.
Através das diversas técnicas da EDM, brevemente apre-
sentadas na Seção 2, é possível averiguar se as diversas
Figura 2. Scooter, um personagem que adapta suas ferramentas disponíveis em ambientes online são real-
ações a partir da análise das interações realizadas pelo mente eficazes para auxiliar a aprendizagem do aluno.
aluno. Por exemplo, apesar de muitos ambientes virtuais de
Embora a EDM seja uma área de pesquisa ainda re- aprendizagem possuírem ferramenta de chat (sala de bate
cente, artigos dessa área são freqüentemente citados pela papo), são poucos os trabalhos científicos que analisam
comunidade de Computação aplicada à Educação. Em os dados obtidos por essa ferramenta e correlacionam o
seu artigo sobre o estado da arte na área de EDM, Baker e conteúdo das conversas com a aprendizagem dos alunos
Yacef apresentam a lista dos artigos mais citados na área [3]. O mesmo problema ocorre com fóruns de discussão
até o momento de acordo com o google scholar [9]. Des- [21]. Perguntas como, quais foram os tópicos discutidos?
taca-se que muitos artigos tiveram um grande número de Quais as conclusões alcançadas pelos alunos? Quem
citações em apenas alguns meses após sua publicação. interagiu com quem? Qual a porcentagem de mensagens
Por exemplo, em apenas 7 meses (entre o momento da relacionadas ao assunto da aulas? São algumas das per-
publicação e a escrita do artigo sobre o estado da arte guntas que precisam ser respondidas para que o profes-
realizado por Baker e Yacef), 5 artigos publicados em sor, ou o próprio software educacional, possa compreen-
conferências e revistas relacionadas à EDM tiveram mais der quais processos de interação facilitam a aprendiza-
de 80 citações adicionais. gem e quais destes dificultam o desenvolvimento do
conhecimento do aluno.
5. EDM: Oportunidades pelo Brasil A pesquisa de Prata et al [34], mostra um exemplo da
aplicação da EDM em atividades colaborativas realizadas
A área de EDM vem estabelecendo uma comunidade em ambientes de EaD. Nesta pesquisa, os autores estuda-
forte tanto nos EUA quanto na Europa. Contudo, no Bra- ram a relação entre os atos de colaboração e a aprendiza-
sil a comunidade e as pesquisas nessa área ainda estão em gem dos alunos em escolas do ensino médio. Os resulta-
seu estágio inicial. Nas seis edições de workshops e con- dos obtidos indicam que os alunos que aprendem bem o
ferências internacionais em mineração de dados educa- conteúdo apresentado pelo professor tem maior chance de
cionais, realizados desde 2004, só um artigo publicado mostrar comportamentos inapropriados específicos (in-
teve a co-autoria de um pesquisador afiliado a uma insti- sultos) durante o andamento do curso. Este resultado é
tuição Brasileira (e este artigo envolveu dados coletados interessante, pois muitos professores acreditam que os
nos Estados Unidos) [34]. Na JEDM (Journal of Educa- alunos com baixa performance escolar são os maiores
tional Data Mining), a revista mais importante da área, responsáveis por atrapalhar a aprendizagem dos outros
não existe até o momento nenhum artigo com autores alunos, contradizendo os dados obtidos por Prata et al.
brasileiros. Essas visões antagônicas sugerem que os comportamen-
Ao mesmo tempo, o potencial para a pesquisa, o de- tos dos alunos precisam ser melhor estudados e compre-
senvolvimento e a aplicação da EDM em ambientes edu- endidos para identificar a razão de sua ocorrência. No
cacionais vem crescendo muito no Brasil. Em particular, trabalho de Isotani et al. [23] identificou-se que muitos
com a criação da Universidade Aberta do Brasil e a lega- dos comportamentos inadequados que surgem durante o
lização de diversos cursos na modalidade à distância, uso de ambientes colaborativos ocorrem devido a falta de
criou-se grandes oportunidade para pesquisas em EDM um planejamento adequado das atividades colaborativas.
no país. Atualmente, o Brasil é um dos países que mais Estudando tais comportamentos é possível identificar as
cresce no número de cursos oferecidos na modalidade características daqueles alunos que conseguem aprender
Educação a Distancia (EaD). Em 2008, mais de 750.000 através da EaD e também daqueles que não conseguem.

9
Baker, R.; Isotani, S.; de Carvalho, A. RBIE V.19 N.2 – 2011

Para realizar estes estudos de comportamento, ferra- volte a aprender e não desista do curso. Esse recurso é
mentas como o TagHelper [20] utilizadas por Prata e muito interessante, pois o professor pode melhorar suas
colegas para analisar atividades colaborativas podem técnicas de ensino, e verificar quais alunos estão passan-
facilitar e agilizar o trabalho de pesquisadores e educado- do por dificuldades enquanto ainda é possível remediar a
res. Assim, será possível compreender mais rapidamente situação (o que não ocorre nos sistemas de EaD conven-
o impacto dos comportamentos e das interações entre cionais e nem na maioria das salas de aula presenciais).
alunos e professores no processo de ensino-aprendizagem
Um outro resultado interessante é apresentado por
em ambientes presenciais e de EaD. Como conseqüência
Pimentel e Omar [35]. Neste trabalho, os autores utilizam
direta, técnicas mais efetivas serão desenvolvidas para
técnicas da EDM para identificar as relações entre medi-
ajudar professores a criarem abordagem pedagógicas e
das de conhecimento (cognitivas) e medidas metacogniti-
ambientes computacionais que incentivam a aprendiza-
vas. As medidas cognitivas retratam o real desempenho
gem aumentando as chances dos alunos aprenderem de
do aluno na resolução de cada problema enquanto que as
maneira mais rápida e eficaz..
medidas cognitivas indicam o grau de consciência (awa-
No Brasil, o desafio de analisar e compreender o reness) do aluno em relação ao seu próprio conhecimen-
comportamento dos alunos é muito grande devido a di- to.
versidade da população. De acordo com Blanchard et al.
A EaD no Brasil também oferece grandes oportunida-
[12] existe uma correlação entre os dados sócio-culturais
des para se realizar pesquisas relacionadas ao suporte ao
dos alunos e suas ações, atitudes e comportamentos apre-
diálogo e a discussão. Conforme resultados obtidos por
sentados durante a aprendizagem. Isso significa que para
Scheuer e McLaren [40] é possível utilizar técnicas da
desenvolver ambientes de EaD efetivos no Brasil, onde a
área de EDM para apoiar professores a conduzir discus-
diversidade cultural e econômica é grande, será necessá-
sões em salas de aula virtuais de forma efetiva. A EDM
rio o desenvolvimento de algoritmos e ferramentas com-
também pode proporcionar benefícios à avaliação e a
putacionais que levam em consideração a realidade brasi-
aprendizagem através de discussões assíncronas [cf. 21],
leira. Pesquisas nessa área auxiliarão a descobrir formas
utilizando ferramentas que são freqüentemente encontra-
inteligentes de difundir e personalizar o conteúdo do
das nos ambientes de EaD utilizados no Brasil. Uma
cursos para apoiar o aluno de acordo com sua personali-
revisão do estado da arte sobre o potencial da EDM em
dade, religião, raça, cultura, idade, sexo, e etc, fazendo
melhorar os cursos via internet nas universidade é apre-
com que cada indivíduo tenha uma experiência única
sentado por Romero, Ventura, & Garcia [38]. Neste tra-
dentro do ambiente virtual de aprendizagem. Tal possibi-
balho os autores recomendam à todos os pesquisadores
lidade é uma das grande vantagens da EaD e tem sido
interessados que apliquem os métodos disponíveis na
defendida ao longo dos anos por muitos educadores. A
área de mineração de dados educacionais para casos es-
quase 15 anos atrás Preti identificou a EaD como essen-
pecíficos de EaD e, dessa forma, promover um ensino
cial para desenvolvimento da educação no Brasil, dizendo
mais personalizado e de melhor qualidade.
que a EaD é “uma modalidade de se fazer educação,
onde se democratiza o conhecimento” [36]. Um passo importante e, necessário, para que a área de
EDM tenha resultados tão positivos no Brasil quanto
Para que a EaD e a EDM tenham impacto na socieda-
aqueles obtidos no exterior, será a padronização dos da-
de brasileira é necessário que pesquisadores e educadores
dos obtidos nos cursos de EaD. Estes dados precisam ser
comecem a utilizar os dados obtidos em ambientes de
sistêmicos, anônimos, e seguindo um padrão bem defini-
EaD de forma estruturada e com objetivos bem definidos.
do que seja utilizado por todos os ambientes virtuais. É
Recentemente, alguns trabalhos publicados no Simpósio
importante que todas as informações necessárias sejam
Brasileiro de Informática na Educação tiveram como
coletadas e que os dados sejam estruturados de forma a
tema principal o uso da EDM para analisar textos, apoiar
considerar os resultados das análises anteriores, pois
a produção de conteúdo educacional, apoiar a aprendiza-
dessa forma as informações mais relevantes são enfatiza-
gem em ambientes virtuais de aprendizagem e criar servi-
das, melhor compreendidas e mais facilmente utilizadas
ços semânticos [28].
[cf. 1, 27, 34, 38].
Uma pesquisa brasileira que merece destaque nessa
A quantidade de alunos em cursos de EaD cria opor-
área é apresentada por Kampff [24]. Em sua tese de dou-
tunidades excelentes para pesquisas na área de EDM e
torado , Kampff utiliza técnicas da área de EDM para
pode, futuramente, beneficiar significativamente o pro-
identificar comportamentos e características de alunos
cesso de ensino e aprendizagem no Brasil. Contudo, o
com alto risto de evazão ou reprovação em ambientes
desenvolvimento de pesquisas nesta área vai depender da
virtuais de aprendizagem. Ao verificar que um aluno
avaliação de dados pela comunidade científica brasileira,
possui tais comportamentos/características o sistema
assim como aconteceu com a comunidade internacional
alerta o professor que poderá tomar as decisões pedagó-
que criou o Pittsburgh Science of Learning Center e o
gicas necessárias para que o aluno fique mais motivado,

10
Mineração de Dados Educacionais:
Baker, R.; Isotani, S.; de Carvalho, A.
Oportunidades para o Brasil

DataShop, como discutido anteriormente neste artigo. No


Brasil, acredita-se fortemente que um esforço conjunto Agradecimentos
envolvendo pesquisadores, educadores e reguladores
Os autores gostariam de agradecer o apoio do Centro de
deva ser realizado para que o progresso nessa área ocorra
Ciências da Aprendizagem de Pittsburgh (Pittsburgh
de forma ágil. Através da estruturação e do armazena-
Science of Learning Center) e do apoio da National
mento de dados de alta qualidade será possível disponibi-
Science Foundation entitulado “Toward a Decade of
lizar publicamente para toda a comunidade de pesquisa
PSLC Research”, número de projeto SBE-0836012.
brasileira e internacional, grandes quantidades de dados
que, se analisadas corretamente, poderão beneficiar estu-
dantes do Brasil e do mundo através de: (a) mecanismos e Referências
ferramentas educacionais mais eficiente; (b), modelos
para identificar alunos com dificuldades de aprendiza-
gem; (c) meios de melhorar a qualidade do material didá- [1] Allevato, A., Thornton, M., Edwards S., Perez-
Quinones, M. Mining data from an automated
tico; e (d) o desenvolvimento de métodos pedagógicos
grading and testing system by adding rich report-
mais eficazes; além de outros.
ing capabilities. In Proceedings of the Interna-
6. Conclusões tional Conference on Educational Data Mining.
167–176. 2008.
A mineração de dados educacionais (EDM) surgiu
como uma área de pesquisa que possui grande potencial [2] Amershi, S., Conati, C. Combining Unsuper-
para contribuir com a melhor compreensão dos processos vised and Supervised Classification to Build
de ensino, de aprendizagem e de motivação dos alunos User Models for Exploratory Learning Environ-
tanto em ambientes individuais quanto em ambientes ments. Journal of Educational Data Mining,
colaborativos de ensino. No momento, as principais con- 1(1):18-71. 2009.
tribuições da EDM estão focadas em duas linhas princi- [3] Anjewierden, A., Kollöffel, B.J., & Hulshof, C.
pais: (a) a análise de dados e a criação de modelos para Towards educational data mining: Using data
melhor compreender os processos de aprendizagem; e (b) mining methods for automated chat analysis to
o desenvolvimento de métodos mais eficazes para dar understand and support inquiry learning
suporte à aprendizagem quando o aluno estuda utilizando processes. In Proceedings of the International
softwares educacionais (e.g. cursos via internet). Nos Workshop on Applying Data Mining in e-
EUA e na Europa diversos sistemas tutores inteligentes Learning, pagínas 27-36. 2007.
estão utilizando técnicas da EDM para proporcionar uma
aprendizagem mais personalizada e de melhor qualidade. [4] Baker, R.S.J.d. Data Mining for Education.
Ao mesmo tempo, resultados da área já vêm influencian- McGaw, B., Peterson, P., Baker, E. (Eds.) Inter-
do outros domínios como, por exemplo o ensino de leitu- national Encyclopedia of Education (3rd edi-
ra para crianças como apresentado por Beck e Mostow tion). Oxford, UK: Elsevier. 2010.
[11]. O Brasil tem uma grande oportunidade para promo- [5] Baker, R.S.J.d., Corbett, A.T., Koedinger, K.R.,
ver a revolução da EDM e beneficiar milhares de alunos; Evenson, S.E., Roll, I., Wagner, A.Z., Naim, M.,
em grande parte por causa do incentivo governamental Raspat, J., Baker, D.J., Beck, J. Adapting to
ao uso da Educação-a-Distância (EaD). Através da coleta When Students Game an Intelligent Tutoring
de dados em grande escala é possível criar modelos e System. In Proceedings of the International
fazer predições que serão aplicáveis uma qualquer ambi- Conference on Intelligent Tutoring Systems.
ente virtual de aprendizagem e até mesmo em salas de pagínas 392-401. 2006.
aula convencionais. Para isso, é preciso que os dados das
interações dos alunos com o material didático e com os [6] Baker, R.S.J.d., Corbett, A.T., Roll, I., Koedin-
professores e colegas nos ambientes de EaD sejam dispo- ger, K.R. Developing a Generalizable Detector
nibilizados de forma padronizada e estruturada para co- of When Students Game the System. User Mod-
munidade científica brasileira. Além disso, esses dados eling and User-Adapted Interaction, 18 (3): 287-
precisam incluir as informações necessárias para viabili- 314. 2008.
zar a pesquisa e o estudo aprofundado da educação no
país. Assim, acredita-se que a EDM tem grande potencial [7] Baker, R.S.J.d., de Carvalho, A. M. J. A. Labe-
para ajudar o Brasil a se destacar no cenário educacional ling Student Behavior Faster and More Precisely
mundial através de ações que promovam o ensino eficaz with Text Replays. In Proceedings of the Inter-
nos ambientes de EaD e nas escolas através do uso de national Conference on Educational Data Min-
tecnologias educacionais que complementam o ensino em ing. pagínas 38-47. 2008.
sala de aula..

11
1 As diferentes abordagens da mineração de dados
Embora tenhamos observado um crescimento significativo na quantidade de
publicações brasileiras envolvendo experimentos de mineração de dados educacionais
nos últimos anos, é ainda comum encontrarmos problemas metodológicos na montagem
desses experimentos e também na apresentação, interpretação e discussão dos seus
resultados. Em muitos dos casos, os erros cometidos ao longo do processo poderiam ser
facilmente corrigidos com a adoção de algumas técnicas e/ou estratégias específicas nas
diferentes etapas do ciclo de vida da mineração dos dados. Em outros casos, a própria
interpretação e discussão dos resultados encontrados poderia ser melhorada a partir de
um conhecimento mais panorâmico das diferentes métricas de avaliação existentes e de
como as mesmas devem ser observadas em consonância com as características dos
dados disponíveis. É relativamente comum encontrar trabalhos que desconsideram que
o balanceamento dos dados influencia no desempenho dos modelos gerados, ou
trabalhos que não aplicam princípios básicos de separação dos dados em conjuntos de
treinamento, teste e validação. Há trabalhos em que os modelos são treinados e
avaliados utilizando o mesmo conjunto de dados, comprometendo assim os resultados
apresentados. Outro equívoco também recorrente é a avaliação de modelos de
classificação utilizando exclusivamente a acurácia média geral, desconsiderando taxas
baixas obtidas na classificação de uma das categorias em benefício de taxas altas
obtidas na classificação da(s) outra(s) categoria(s). Ainda, a facilidade que atualmente
encontramos em utilizar frameworks livres e robustos para realizar os experimentos de
mineração de dados também pode oferecer algumas armadilhas para os novos
pesquisadores da área, que eventualmente ignoram o significado de muitos dos
parâmetros que são inicializados de maneira automática por essas ferramentas e acabam
executando seus experimentos utilizando o fluxo padrão proposto pelas mesmas, sem
necessariamente observar as características de seus dados. Este capítulo propõe discutir
algumas das principais características dos dados educacionais que devem ser observadas
no momento de realizar algum experimento envolvendo a sua mineração. Também
serão apresentados alguns cenários possíveis de geração de modelos de classificação
dentro do contexto educacional, além de algumas das principais métricas de avaliação
que podem ser observadas no momento de avaliar e interpretar esses modelos. O
objetivo principal é o de fornecer subsídios para os pesquisadores em informática na
educação realizarem experimentos de mineração de dados educacionais sempre
considerando as características gerais de seus dados, respeitando as regras necessárias
para o correto treinamento, teste e validação de seus modelos, e interpretando os
resultados obtidos em consonância com as características dos dados que foram
utilizados nesses experimentos.
Ainda que o objetivo deste capítulo não seja o de explicar conceitos introdutórios
de mineração de dados e de aprendizado de máquina, cabe aqui uma breve explicação
de alguns dos principais conceitos existentes para melhor situar o leitor dentro do
contexto específico da presente proposta. Na literatura relacionada a área, normalmente
encontramos uma distinção entre duas abordagens principais para as tarefas de
aprendizado de máquina, sendo elas o aprendizado supervisionado e o aprendizado não
supervisionado.

O aprendizado supervisionado trabalha com conjuntos de dados em que os


exemplos para o treino dos modelos possuem classes rotuladas, de maneira que é
possível identificar claramente uma variável alvo que se deseje classificar ou modelar.
Em outras palavras, possuímos um conjunto de variáveis de entrada e um conjunto de
variáveis de saída, e tentamos inferir uma função capaz de mapear esse conjunto de
variáveis de entrada de maneira a predizer a variável de saída. Por exemplo,
consideremos um conjunto de dados relacionados aos estudantes de uma determinada
disciplina e que contém as informações das presenças dos mesmos ao longo das
primeiras semanas, além das atividades que foram entregues durante este período da
disciplina, e as situações finais após o término da disciplina (aprovado ou reprovado).
Considerando que conhecemos a situação final dos estudantes, é possível utilizar
algoritmos de mineração de dados para inferir funções capazes de predizer, com algum
grau de precisão, aqueles que irão aprovar ou reprovar com base em suas presenças e na
entrega das atividades exigidas neste período inicial da disciplina. Nesse sentido,
teríamos como resultado o mapeamento de uma função capaz de predizer a variável de
saída, situação na disciplina (aprovado ou reprovado), com base nas variáveis de
entrada, presenças ao longo das semanas e atividades entregues. Um outro exemplo
pode ser a predição de evasão do aluno (evadido ou não evadido) em um determinado
curso com base em seu histórico escolar. Considerando que são conhecidas as
disciplinas já cursadas pelo aluno, suas respectivas notas, frequência, e situação final
como aprovado, reprovado por nota ou reprovado por frequência. Assim, inferidas
funções que mapeiam estes atributos conhecidos na variável de saída: evasão. A
abordagem de aprendizado supervisionado normalmente envolve dois tipos de
problemas, sendo eles o de classificação e o de regressão. A diferença principal entre os
mesmos está relacionada com o tipo da variável alvo (variável de saída) que se deseja
predizer. Problemas de classificação possuem variáveis de saída categóricas, enquanto
problemas de regressão possuem variáveis de saída numéricas. Dentre os algoritmos
que são utilizados no aprendizado supervisionado podemos citar: redes neurais
artificiais, árvores de decisão, redes bayesianas, máquinas de vetor de suporte, entre
outros.
No aprendizado não supervisionado a base de dados não possui uma variável
alvo ou de saída e o objetivo dos algoritmos de aprendizado consiste em descobrir as
relações existentes entre as variáveis da base de dados. Isso é tipicamente feito através
do agrupamento (clustering) dos exemplos de acordo com alguma métrica de
semelhança. Estes algoritmos visam satisfazer dois objetivos principais: minimizar as
diferenças intragrupos e maximizar as diferenças intergrupos. Esse tipo de aprendizado
pode servir para descrever os dados existentes, permitindo uma melhor compreensão
dos mesmos, ou também como forma de geração de variáveis categóricas, a partir de
variáveis numéricas, que posteriormente podem ser utilizadas em tarefas de
classificação. Por exemplo, consideremos uma base de dados semelhante a anterior,
contendo dados de estudantes de uma determinada disciplina relacionados às presenças
dos mesmos ao longo das semanas, além das atividades que foram entregues pelos
estudantes durante um determinado período da disciplina. Essa nova base não contém,
entretanto, as situações finais dos estudantes após o término da disciplina. O
aprendizado não supervisionado pode tentar encontrar grupos de estudantes que
possuam características similares entre si sem necessariamente estabelecer o significado
de cada grupo encontrado. Ainda assim, um analista de dados experiente e que conheça
de maneira aprofundada o contexto de onde os dados foram extraídos pode ser capaz de
inferir o significado por trás de cada um desses grupos gerados. Para o exemplo em
questão, estudantes que frequentaram poucas aulas e que entregaram poucas atividades
podem potencialmente ser alocados em um mesmo grupo, indicando assim que
pertencem a um conjunto de estudantes em risco de reprovação, enquanto estudantes
que frequentaram de maneira regular às aulas e entregaram a maior parte das atividades
podem ser alocados em um outro grupo, indicando que pertencem a um conjunto de
estudantes com menor risco de reprovação. Tarefas de clusterização (agrupamento),
associação e de extração de características pertencem à abordagem de aprendizado de
máquina não supervisionado.
Este capítulo tratará exclusivamente da abordagem de aprendizado
supervisionado e dentro do contexto específico da tarefa de classificação. Alguns
exemplos de situações em que a tarefa de classificação pode ser útil no contexto
educacional são (ROMERO et al., 2008):

● Predizer a aprovação ou reprovação de um aluno em um componente curricular


(SANTOS; CAMARGO; CAMARGO, 2012).
● Predizer o sucesso ou insucesso de um aluno em um curso (CAMARGO;
BORIN; FERREIRA, 2014).
● Predizer a evasão de um aluno de um componente ou de um curso.
● Predizer as dificuldades dos alunos em certos componentes com base em seu
desempenho nos pré-requisitos.
● Classificar acadêmicos propensos ao desânimo (SANTOS; BERCHT; WIVES,
2015)
● Detectar má conduta acadêmica dos estudantes dentro de ambientes virtuais de
aprendizagem
● Detectar o estilo de aprendizagem de um acadêmico com base em seu
comportamento no AVA.
● Classificar a qualidade de um determinado recurso de aprendizagem com base
nos comentários realizados pelos estudantes (SANTOS; CECHINEL, 2015)
● Classificar postagens em fóruns educacionais como dúvida, resposta ou
comentário neutro (ROLIM; MELLO; COSTA, 2017).
● Classificar um determinado problema/questão/exercício de acordo com seu nível
de dificuldade.
● Avaliar de maneira automática a qualidade de um recurso educacional digital
(CECHINEL et al., 2016)
Ao longo do capítulo abordaremos algumas das características dos dados que
devem ser observadas durante o processo de geração de modelos de classificação, além
dos cuidados no momento de realizar o treinamento e o teste dos modelos, e algumas
medidas para avaliar a qualidade dos mesmos de maneira correta.
2 Observando as características dos dados
Dados são o elemento fundamental para o processo de mineração. Os dados são
valores referentes a medições, contagens ou observações relativas a uma amostra ou a
um determinado fenômeno. Como exemplo de dados, podemos citar a nota de um aluno
em uma avaliação, a quantidade de acessos de um aluno a um material, e a presença ou
ausência de um aluno em uma aula. No contexto educacional, os dados podem ser
oriundas de diferentes fontes (eg. ambientes virtuais de aprendizagem, questionários,
sites de professores, sistemas acadêmicos, sistemas tutores inteligentes, etc) e fornecer
uma grande quantidade de informações sobre estudantes, professores e os contextos
educacionais em que estão inseridos. De acordo com Romero, Romero e Ventura
(2014), os dados educacionais possuem algumas características peculiares e resultantes
do contexto específico de onde são extraídos. Por exemplo, é comum que estudantes
não concluam todos os exercícios e atividades de uma determinada aula fazendo com
que bases de dados sobre essas informações normalmente sejam incompletas e com
campos faltantes. Outro situação é a existência de um grande número de atributos sobre
os estudantes e de várias instâncias com diferentes níveis de granularidade (e.g. dados
relacionados ao curso, a uma disciplina, a uma atividade específica), tornando quase
sempre necessário a utilização de técnicas de seleção e filtragem dos atributos mais
representativos para um determinado problema.
O conjunto de valores de uma característica particular é chamada de variável.
Como exemplo de variável podem ser consideradas as notas de todos os alunos em uma
determinada avaliação. As variáveis podem ser quantitativas, representadas por
números, ou qualitativas, representadas por categorias ou classes (KAPS;
LAMBERSON, 2004).
Variáveis quantitativas têm seus valores expressos em números, com domínio
inteiro ou real, e as diferenças entre os valores têm um significado numérico. Como
exemplo de uma variável quantitativa pode ser citado o horário em que um aluno
ingressou no AVA. As variáveis quantitativas podem ser contínuas ou discretas.
Enquanto as variáveis contínuas podem assumir uma quantidade infinita de valores em
um determinado intervalo, as variáveis discretas podem assumir uma quantidade finita
de valores. Um exemplo de uma variável contínua poderia ser o tempo decorrido entre a
entrada e a saída do aluno no AVA, e de uma variável discreta, a quantidade de acessos
a uma atividade.
Por outro lado, as variáveis qualitativas têm seus valores expressos em
categorias. Exemplos de variáveis qualitativas podem ser a situação de um aluno
(aprovado ou reprovado), ou seu sexo (masculino ou feminino). Uma variável
qualitativa pode ser subclassificada em ordinal ou nominal. Enquanto uma variável
ordinal pode ser ordenada, o mesmo não ocorre com as variáveis nominais, onde não há
uma relação de ordem entre categorias. Exemplos de variáveis nominais podem ser um
indicador de se o aluno ingressou na instituição de ensino através de ações afirmativas
ou não. Já um exemplo de variável ordinal pode ser o conceito do aluno (A-Excelente,
B-Satisfatório, C-Suficiente, D-Insuficiente). Para a tarefa de classificação, a variável a
ser predita deve obrigatoriamente ser qualitativa. Quando a variável a ser predita é
quantitativa, os modelos de predição são gerados por meio da tarefa de regressão, que
está fora do contexto deste capítulo.
2.1 Sobre o balanceamento dos dados

Há uma grande complexidade inerente ao processo de construção de modelos de


classificação sobre conjuntos de dados desbalanceados, ou seja, com ampla disparidade
de quantidade de dados em cada classes. Em uma situação ideal, a quantidade de dados
de cada classe que se deseja modelar deve ser similar, de forma que possam ser
aprendidas as peculiaridades de cada uma das classes, fazendo com que o classificador
possa atingir um nível de precisão similar elas.
Na ampla maioria dos algoritmos, o treinamento com dados desbalanceados faz
com que os modelos criados também tenham precisão desbalanceada, de forma a atingir
um acerto próximo a 100% na classificação da classe majoritária (com mais dados), e
acerto próximo a 0% na classe minoritária (com menos dados). Como exemplo, se uma
base de dados tem 95% dos dados pertencentes a uma classe A, e 5% pertencentes a
uma classe B, o classificador poderá ter a tendência de classificar todos os registros
como classe A, tendo uma taxa de acerto geral de 95%. No entanto, esse classificador
provavelmente não teria aprendido nenhum dos padrões representativos da classe B.
As técnicas utilizadas para lidar com dados desbalanceados podem ser agrupadas
em cinco categorias: métodos de amostragem, métodos sensíveis a custo, métodos de
aprendizado baseados em kernel, métodos de aprendizado ativo e métodos de
aprendizado de classe única (HE; MA, 2013).
Métodos de amostragem têm sido a abordagem mais utilizada. Eles adotam
estratégias de buscar um balanceamento dos dados, antes do treinamento do algoritmo
de classificação, de forma a reduzirem a quantidade de amostras da classe majoritária,
por métodos aleatórios ou baseados em clusters, ou incrementarem a quantidade de
amostras da classe minoritária, por reamostragem aleatória ou por geração de dados
sintéticos. Ainda é possível a alternativa de combinação destas estratégias.
Os métodos clássicos de treinamento visam minimizar o erro global de
classificação, assumindo custos iguais para erros ou acertos de classificação em ambas
classes: minoritária e majoritária. Os métodos sensíveis a custo visam incorporar
variações de custo no processo de treinamento dos algoritmos, de forma que acertos na
classe minoritária sejam melhor avaliados do que acertos na classe majoritária. Outra
alternativa é a penalização maior dos erros na classe minoritária em relação a erros na
classe majoritária (CASTRO; BRAGA, 2011).
Os métodos de aprendizagem baseados em kernel tipicamente envolvem
modificações no espaço de características dos dados de entrada visando o deslocamento
da superfície de decisão entre as classes ou o aumento da distribuição espacial das
amostras minoritárias.
Nos métodos de aprendizado ativo, o próprio classificador exerce um papel ativo
na seleção das amostras para treinamento, selecionando as amostras mais informativas
dentro do problema a ser tratado. As amostras mais informativas seriam aquelas mais
próximas à superfície de decisão que separa as classes analisadas (ATTENBERT;
ERTEKIN, 2013).
Enquanto os métodos convencionais de aprendizado buscam aprender as
peculiaridades de múltiplas classes, os métodos de classe única, ou abordagem baseada
em reconhecimento, visam aprender somente os padrões de uma das classes, visando
predizer se uma nova amostra pertence ou não à classe que ele aprendeu. Assim, pode
ser construído um modelo que visa apenas aprender se a amostra pertence ou não à
classe minoritária (CASTRO; BRAGA, 2011).

2.2 Sobre a transformação e a dimensionalidade dos dados

Conhecer os tipos de dados é fundamental para a escolha dos algoritmos. Alguns


algoritmos tem restrição de só trabalharem com tipos de dados específicos. O uso de
técnicas de transformação de dados permite superar as restrições de tipo dos dados de
entrada para aumentar o conjunto de algoritmos possíveis de serem utilizados, e também
pode auxiliar na melhoria do desempenho dos modelos de classificação em alguns
casos. Por exemplo, variáveis quantitativas podem ser transformadas em variáveis
qualitativas através da discretização, onde os intervalos de valores contínuos são
mapeados em atributos ordinais categóricos. Dessa maneira, a nota de um acadêmico
(variando entre 0 e 10) pode ser discretizada em 2 classes distintas referentes a
aprovação (nota 7) e reprovação (nota < 7). Um outro tipo de transformação dos dados
bastante utilizada é a binarização, onde cada categoria de uma variável qualitativa é
transformada em uma nova variável binária, onde o valor 1 para a variável significa a
ocorrência da categoria, e o valor 0 a não ocorrência da mesma.
Dados educacionais podem conter centenas de variáveis, sendo que muitas delas
podem ser irrelevantes para o processo de classificação em questão (HAN; KAMBER,
2011). Apesar de ser possível o especialista do domínio selecionar as variáveis que ele
julga mais informativas, esta tarefa geralmente demanda um grande consumo de tempo,
principalmente no caso dos dados não serem plenamente conhecidos.
Neste contexto, a redução de dimensionalidade dos dados (RDD) é um
processo que visa encontrar uma estrutura mais compacta de representação dos dados
através do mapeamento de cada amostra para um vetor de menor dimensão de
características. Porém, a RDD não deve resultar em perda de informação relevante em
relação aos dados originais, ou pelo menos, os benefícios obtidos com a RDD devem
ser maiores que o prejuízo da perda de Informação. Assim, o resultado prático da
aplicação de técnicas de RDD é uma redução do espaço de busca de hipóteses, com a
consequente melhora do desempenho do processo de criação dos classificadores e
simplificação dos resultados do processo de mineração de dados (WANG; XIUJU,
2005).
A RDD é especialmente útil quando há uma grande quantidade de variáveis
descrevendo cada exemplo no banco de dados, fato peculiar aos bancos de dados
educacionais. Nestes casos, a quantidade de amostras necessária para ajustar um modelo
multivariado pode crescer exponencialmente em relação à quantidade de variáveis.
Porém, muitas vezes, a obtenção de mais amostras é inviável devido à grande
dificuldade ou ao grande custo deste processo. Além disso, o uso de muitas variáveis no
modelo preditivo pode dificultar a interpretação da análise e viola o princípio da
parcimônia (princípio que recomenda a escolha da explicação mais simples para um
determinado fenômeno). Outro fator importante é que muitas variáveis podem mais
facilmente conduzir ao sobreajuste (do inglês overfitting), do modelo preditivo
(LAROSE, 2006). O conceito de sobreajuste será discutido na próxima seção.
Embora os algoritmos de mineração de dados já executem internamente
abordagens de RDD, eles geralmente pecam no quesito escalabilidade (YE, 2003).
Desta forma, a aplicação de técnicas específicas de RDD em combinação com os
algoritmos de mineração geralmente conduz a melhores resultados. As técnicas de RDD
podem ser divididas em três categorias: extração de características, construção de
características e seleção de características. Apesar da divisão didática, tanto a extração
de características quanto a construção de características geralmente são sucedidas pela
seleção. Isto ocorre porque tanto a extração quanto a construção derivam novos
atributos (novas características) tomando como ponto de partida os atributos existentes
na base, suas relações, combinações e também transformações (CAMARGO, 2010).
Como exemplos de derivação de novos atributos podemos mencionar (ROMERO;
ROMERO; VENTURA, 2014) o percentual de testes corretamente respondidos
(calculado pelo número total de testes corretos dividido pelo número total de testes
realizados, ou o tempo total de leitura das páginas de uma sessão (calculado pela soma
dos tempos gastos em cada página acessada). A derivação de novos atributos pode
enriquecer o conjunto de dados existente e melhorar o desempenho dos modelos de
classificação em alguns casos.
Considere um exemplo onde os dados de entrada incluem atividades realizadas
ou não pelos alunos em um AVA visando predizer a aprovação ou não do aluno na
disciplina. Supondo-se a existência de alunos aprovados e reprovados na disciplina, e
dois extremos em relação às atividades propostas, de forma que uma atividade x foi
realizada por todos os alunos, e uma outra atividade y que não foi realizada por nenhum
aluno. Esta situação mostra que a realização ou não das atividades x e y não tem
nenhuma influência preditiva na aprovação ou não do aluno. Desta forma, utilizar as
atividades x e y como entradas vai aumentar a complexidade do processo de
treinamento e tais elementos não serão considerados na construção dos modelos. Logo,
a eliminação de tais elementos através de um processo de redução de dimensionalidade,
no pré-processamento dos dados, tende a diminuir a complexidade das fases posteriores.
Em uma outra situação, busca-se predizer o sucesso do aluno no curso a partir dos
dados de entrada com seus históricos escolares. Planeja-se ter uma coluna para cada
disciplina com a nota do aluno. No entanto, é uma situação normal que alguns alunos
cursem a mesma disciplina mais de uma vez, devido à reprovações por nota ou por
frequência. Supondo-se que um determinado aluno tenha cursado cinco vezes uma
determinada disciplina, seria necessária a existência de cinco colunas no arquivo de
entrada para esta disciplina, sendo que um aluno que tenha conseguido aprovação na
primeira matrícula, terá quatro colunas com valores zero. Assim, uma alternativa seria
ter no arquivo de entrada duas colunas para cada disciplina: uma contendo a nota de
aprovação e outra contendo a quantidade de vezes que a disciplina foi cursada. Esta
segunda coluna não existe diretamente no banco de dados, mas poderia ser construída
facilmente. Embora esta abordagem de construção citada seja manual, também existem
abordagens automáticas de construção de características.
A importância da derivação de atributos - um exemplo prático
No artigo “Modelagem e Predição de Reprovação de estudantes de Cursos de Educação a
Distância a partir da Contagem de Interações” (CECHINEL; ARAÚJO; DETONI, 2015), os
autores desenvolveram modelos de classificação para prever com antecedência o risco de
reprovação de acadêmicos em cursos a distância utilizando dados dos logs das interações no
Ambiente Virtual de Aprendizagem. A variável pivô de todo o trabalho é a contagem de
interações semanais dos acadêmicos no AVA, porém os autores adotaram a estratégia de
derivar alguns novos atributos a partir dessa variável, como por exemplo: 1) a média do total de
interações do acadêmico pelo número de semanas, 2) a mediana do conjunto de interações por
semana, 3) o número de semanas com zero interações, 4) a média da diferença de interações
entre a semana i e a semana i+1, e 5) a razão entre as interações da semana do acadêmico e
a média de interações da turma naquela semana. Os resultados dos experimentos apontaram
para uma melhora significativa no desempenho dos modelos de classificação que utilizavam
atributos derivados, sobretudo nas primeiras semanas das disciplinas. Uma estratégia similar
para a derivação de atributos foi utilizada também por Queiroga, Cechinel e Araújo (2017) para
a predição de estudantes com risco de evasão em cursos técnicos a distância.

Figura 1. Classificação correta de acadêmicos em risco utilizando contagem de


interações e com a utilização de atributos derivados
Fonte: (CECHINEL; ARAÚJO; DETONI, 2015)

3 Cuidados ao realizar a construção e a avaliação dos modelos de


classificação
O processo de criação de modelos de classificação envolve duas fases distintas: a
construção e a avaliação dos modelos. Os conjuntos de dados utilizados nestas duas
fases devem ser disjuntos. Desta forma, a base de dados a ser utilizada deve ser dividida
em pelo menos dois conjuntos: o conjunto de treinamento, utilizado na fase de
construção, e o conjunto de teste, utilizado na fase de avaliação. Enquanto na fase de
construção dos modelos, os algoritmos buscam inferir uma função que permita fazer o
melhor mapeamento entre os dados de entrada e de saída, na fase de avaliação busca-se
avaliar a capacidade preditiva do modelo sobre dados não vistos previamente pelos
algoritmos.
A avaliação do modelo é uma atividade complexa que exige formas sistemáticas
de trabalho, sendo que os algoritmos de mineração de dados frequentemente exigem a
configuração de um conjunto de parâmetros que exercem uma influência determinante
nos resultados obtidos. Diferentes valores dos parâmetros geram diferentes modelos
(CAMARGO, 2010). Alguns dos problemas enfrentados e falhas cometidas no processo
de mineração de dados podem ocorrer no momento de realizar o treinamento e o teste
dos modelos, assim como também na escolha das métricas mais adequadas para a
avaliação dos resultados.
Com relação especificamente às etapas de treinamento e avaliação dos
modelos, é necessária a aplicação de técnicas que permitam avaliar o desempenho
preditivo do modelo gerado em dados que não foram previamente vistos (OLSON;
DELEN, 2008). A ideia básica é a de garantir que os modelos sejam treinados com um
conjunto de dados, e testados em um conjunto distinto desse primeiro. Essa separação
garante que os modelos gerados sejam realmente capazes de predizer (classificar) a
partir de dados desconhecidos aos modelos; ou seja, o conjunto de teste deve ser
formado por instâncias independentes que não tomaram parte na construção do
classificador. A qualidade de um modelo de predição está diretamente relacionada com
a capacidade que o mesmo possui em generalizar para novos conjuntos de dados as
características (padrões) aprendidas a partir do conjunto de dados de treinamento, desde
que estes novos dados tenham origem idêntica a dos treinamento. Em outras palavras,
um bom modelo de predição deve ser capaz de extrair a função geradora dos dados e
não apenas memorizar os dados de treinamento, tornando-o apto a ser aplicado a novos
exemplos. É possível que os padrões aprendidos por um determinado modelo em um
conjunto de dados de treinamento não sejam necessariamente encontrados no conjunto
de dados mais geral. Por esse motivo, a etapa de avaliação dos modelos sempre utiliza
também desse conjunto de dados para teste, permitindo assim uma comparação entre a
saída real dos modelos com a saída desejada para os mesmos.
Sobreajuste
Chamamos de sobreajuste quando um modelo de predição apresenta um bom desempenho na
etapa de treinamento, porém uma baixa capacidade de generalização para outros conjuntos de
dados. O sobreajuste ocorre quando o modelo de predição aprende não somente os padrões
gerais dos dados, mas também todos os (ou muitos dos) casos específicos e ruídos
encontrados no conjunto. Considera-se que o modelo não aprendeu os principais padrões ou
tendências dos dados da base, mas simplesmente “decorou” todos os seus casos. Nestas
situações, o modelo se encaixa perfeitamente para a base de dados de treinamento, porém
não consegue generalizar para novas bases de dados. Na figura 2 o modelo representado pela
linha preta é capaz de realizar melhores predições em dados novos do que o modelo da linha
verde (overfitted).

Figura 2. Sobreajuste.
Fonte: ICKE (2008)
Existem diferentes possibilidades para garantir essa distinção entre os conjuntos
de dados de treinamento e teste, sendo que as mesmas dependem fundamentalmente das
características dos mesmos. Existem situações em que os dados para treinamento e teste
já estão naturalmente divididos em conjuntos distintos, não sendo necessário alguma
técnica específica de particionamento. Por exemplo, consideremos que desejamos gerar
um modelo para classificar alunos entre aprovados e reprovados em uma determinada
disciplina utilizando como entrada as interações desses alunos dentro de um Ambiente
Virtual de Aprendizagem (CECHINEL; ARAUJO; DETONI, 2015). Sabe-se que a
disciplina já foi executada em 2 semestres (A e B) por um mesmo professor e com
configurações no AVA e metodologias de ensino idênticas. Nesse tipo de situação, o
classificador pode ser treinado com os dados do semestre A e testado com os dados do
semestre B, e em seguida treinado com os dados do semestre B e testado com os dados
do semestre A.
Quando os dados não estão naturalmente divididos em conjuntos distintos, a
alternativa é recorrer a alguma estratégia de particionamento dos dados. A seguir são
descritas as duas principais formas de particionamento existentes (BISHOP, 1995),
sendo elas: o holdout e a validação cruzada. O método de particionamento holdout é
adotado quando existe uma grande quantidade de dados disponível para o processo de
mineração. Neste método os dados são divididos aleatoriamente em duas partições
independentes e sem sobreposição: uma de treinamento e outra de teste. A partição de
treinamento é usada para construir/treinar o modelo, e a partição de teste é utilizada para
avaliar a capacidade de generalização do modelo. Não há uma regra universal para
definir o tamanho de cada partição, mas é comum a utilização de uma partição de
treinamento de aproximadamente 75% dos dados e uma de teste de 25%. Uma variação
da técnica holdout é a subamostragem aleatória, onde os conjuntos de treinamento e
teste são particionados de maneira aleatória, sendo o procedimento repetido k vezes. A
exatidão do método é estimada pela média da exatidão obtida em todas as k repetições.
A utilização da técnica de holdout é aconselhada somente para quando se possui uma
grande quantidade de dados. Deve-se levar em conta também que a avaliação do modelo
pode variar de maneira significativa dependendo dos conjuntos de treinamento e teste
gerados. A validação cruzada (do inglês cross-validation) é utilizada quando o
conjunto de dados que possuímos é limitado. Nesses casos, utilizamos todos os casos da
base de dados tanto para teste quanto para treinamento, porém não ao mesmo tempo. A
estratégia consiste em dividir o conjunto de dados em n partições (n-fold) de igual
tamanho (ou tamanhos similares), sendo que a partição n é utilizada para teste e as
demais partições são utilizadas para treinamento. A divisão dos dados em 10 partições
(10-folds) tem se tornado um procedimento padrão visto que, testes em vários bancos de
dados e com diferentes técnicas de mineração têm mostrado que 10 seria um número
adequado para obtenção de uma boa estimativa de erro (WITTEN; FRANK; HALL,
2011). Quando a quantidade de dados é extremamente pequena, utiliza-se um caso
específico de validação cruzada denominado leave-one-out e que consiste em utilizar
partições de apenas 1 único elemento para teste, ou seja, o número de partições gerado é
igual ao número de casos da base de dados. A exatidão do modelo é calculada medindo
a exatidão na predição da amostra de teste, e a exatidão final do modelo é dada pela
média da exatidão de todos os n experimentos. Esse procedimento apresenta grande
utilidade para pequenos bancos de dados, porém é computacionalmente custoso.
Existem ainda outras técnicas de validação (ex. bootstrap), se o leitor estiver interessado
em alguma leitura complementar recomendamos a seção 2.4.3 de Camargo (2010).

As opções de teste na ferramenta Weka

A ferramenta Weka (HALL et al., 2009) é largamente utilizada para realizar tarefas de
mineração de dados por conta de sua interface bastante intuitiva. Na aba para a tarefa de
Classificação (Classify) são apresentadas 4 opções de teste (Test options), sendo elas: 1) Use
training set, 2) Supplied test set, 3) Cross-Validation e 4) Percentage Split. A opção Use
training set é a primeira a ser apresentada para o usuário e é muitas vezes utilizada de
maneira automática por usuários mais iniciantes que não compreendem o significado e
funcionamento de cada opção. Esta opção entretanto, não realiza o particionamento dos
dados, ou seja, a avaliação (teste) do classificador é realizada a partir da utilização do mesmo
conjunto de dados que foi utilizado no treino. Esta opção somente deve ser utilizada em
caráter exploratório, sendo que é altamente propensa ao sobreajuste e não permite avaliar a
capacidade de generalização do modelo (capacidade de predição a partir de dados
desconhecidos).

Figura 3. Tarefa de classificação no Weka - Use training set


Fonte: Weka

4 Como avaliar os modelos de classificação treinados


Nesta seção serão apresentados algumas das principais medidas que devem ser
utilizadas para avaliar e interpretar os modelos de classificação gerados. As medidas
que serão abordadas aqui são: Acurácia geral, matriz de confusão, taxa de verdadeiros
positivos, taxa de verdadeiros negativos, valor preditivo positivo, valor preditivo
negativo, coeficiente Cohen’s Kappa e a curva ROC.
A avaliação dos modelos de classificação pode ser realizada por meio de
diferentes métricas que devem ser consideradas em consonância com as características
dos dados. Um erro de classificação ocorre quando o valor predito pelo classificador é
diferente do valor real da variável. O desempenho geral de um modelo de predição pode
ser calculado através da sua exatidão (também conhecida como acurácia geral) que é
medida pela quantidade de acertos de classificação cometidos dividido pelo número
total de casos na amostra utilizada para o teste (YE, 2003). O cenário de aplicação mais
comum quando trabalhamos com a classificação é o de um conjunto de amostras
dividido em duas classes e/ou categorias de saída. Nestas situações, o desempenho
preditivo do modelo pode ser descrito por meio de uma matriz quadrada de ordem 2 e
que é denominada de matriz de confusão binária (também conhecida como tabela de
contingência). Na matriz de confusão possuímos os rótulos da classe real observada
para as situações de verdadeiro e falso, além dos rótulos para a classe de predição
também com as situações de verdadeiro e falso. Conforme pode ser visto na Tabela 1
(HAND; SMYTH; MANNILA, 2001), existem quatro combinações possíveis para os
resultados de predição de um classificador binário. Os valores Verdadeiro Positivo e
Verdadeiro Negativo (diagonal principal da tabela) correspondem às respostas corretas
do modelo de classificação, e os valores Falso Positivo e Falso Negativo (diagonal
secundária da tabela) correspondem às respostas incorretas.

Tabela 1: Matriz de confusão binária


Total da Dados Reais Observados
População
Condição = Verdadeiro Condição = Falso

Predição da condição Verdadeiro Positivo Falso Positivo


= Verdadeiro (VP) (FP)
Predição do
Modelo Predição da condição Falso Negativo Verdadeiro
= Falso (FN) Negativo
(VN)

Considerando a matriz de confusão apresentada, a acurácia geral também pode


ser definida pela seguinte fórmula:

,-.,/
!"#$á"&'()$'* = ,-.0-.0/.,/ (1)

A acurácia geral é uma medida importante para observarmos a qualidade de um


modelo, mas deve ser analisada com bastante cuidado e nunca de maneira isolada. É
possível, por exemplo, que em bases de dados com grande quantidade de casos
concentrados em uma determinada classe, o modelo alcance uma acurácia geral alta
simplesmente classificando todos os dados como sendo daquela classe predominante.
Para evitar esta armadilha, devemos utilizar também outras métricas de avaliação que
podem ser calculadas a partir das informações contidas na matriz de confusão. Algumas
dessas métricas são: Taxa de Verdadeiros Positivos, Taxa de Verdadeiros Negativos, e o
Valor Preditivo Positivo.
A Taxa de Verdadeiros Positivos (TVP) representa a proporção entre a
quantidade de casos que foram corretamente classificados como positivos (VP) e a
quantidade total de casos positivos (VP + FN). A TVP também é denominada de
Sensibilidade (na área de diagnóstico médico) e de Recall ou Revocação (na área de
Recuperação da Informação).
,-
123 = ,-.0/ (2)
A Taxa de Verdadeiros Negativos (TVN) representa a proporção entre a
quantidade de casos que foram corretamente classificados como negativos (VN) e a
quantidade total de casos negativos (VN + FP). A TVN também é conhecida como
Especificidade (na área de diagnóstico médico.

,/
124 = ,/.0- (3)

O Valor Preditivo Positivo (VPP) representa a proporção entre a quantidade de


casos que foram corretamente classificados como positivos e a quantidade de exemplos
classificados como positivos, sejam eles corretos ou não. O VPP também é conhecido
como Precisão (na área de Recuperação da Informação).

,-
233 = ,-.0- (4)

O Valor Preditivo Negativo (VPN) representa a proporção entre a quantidade de


casos que foram corretamente classificados como negativos e a quantidade de exemplos
classificados como negativos, sejam eles corretos ou não.

,/
234 = ,/.0/ (5)

Outras métricas que também podem auxiliar bastante o pesquisador no momento


de avaliar a qualidade de seus modelos são: o coeficiente Kappa, o espaço ROC
(Receiver Operating Characteristic) e a AUC (Area Under the Curve).
O coeficiente estatístico Cohen’s Kappa (K) é uma medida popular usada para
estimar a concordância entre dados categóricos. A métrica compara a acurácia geral do
modelo de classificação com a acurácia esperada para o mesmo caso a classificação
fosse realizada ao acaso, indicando assim a intensidade de concordância entre as
mesmas. O K varia de 0 a 1, sendo que 0 (zero) indica que não existe nenhuma
concordância entre a classificação realizada pelo modelo e os dados que foram
observados e 1 indica total concordância (menor que 0 - sem concordância; 0 a 0,20 -
concordância muito pobre; 0,21 a 0,40 - fraca; 0,41 a 0,6 - moderada; 0,61 a 0,80 -
substancial; e de 0,81 a 1 - quase perfeita). O coeficiente K auxilia a avaliar a
possibilidade do modelo de classificação estar em acordo com os dados observados por
mero acaso ou não. O cálculo do coeficiente Kappa é realizado a partir da seguinte
fórmula:
(789:á8;<=>:<?–789:á8;<ABC>:<D<)
5= (F–789:á8;<ABC>:<D<)
(6)

sendo que,

(,-.0/)∗(,-.0-)
!"#$á"&'GHI)$'J'(2)$J'J)&$K) = ,-.0/.,/.0-
(7)

(,/.0-)∗(,/.0/)
!"#$á"&'GHI)$'J'(M'*HK) = ,-.0/.,/.0-
(8)

!"#$á"&'GHI)$'J' =
789:á8;<ABC>:<D<(,>:D<D>;:N).789:á8;<ABC>:<D<(0<?BN)
,-.0/.,/.0-
(9)

Uma última métrica bastante importante e que deve ser considerada na avaliação
dos modelos é a ROC (Receiver Operating Characteristic) que é comumente utilizada a
partir da leitura da AUC (Area Under the Curve) (ver figura 4). Um espaço ROC é uma
representação bidimensional do desempenho de um classificador binário. Este espaço
bidimensional é projetado em dois eixos, ambos com intervalo entre [0-1], sendo no
eixo x representada a taxa de falsos positivos, ou sensibilidade, e no eixo y a taxa de
verdadeiros positivos, ou complemento da especificidade, calculado por 1-
especificidade (BRADLEY, 1997). Assim, um espaço ROC representa a relação entre
os benefícios, ou verdadeiros positivos, e os custos, ou falsos positivos, de um conjunto
de amostras classificadas por determinado modelo (FAWCETT, 2006). Neste contexto,
o ponto nas coordenadas (0,1) representaria um classificador perfeito, que não aponta
falsos positivos. Já um classificador binário aleatório, estaria posicionado sobre uma
linha diagonal neste gráfico, para todo y=x. Esta linha liga os pontos (0,0) e (1,1).
No entanto, nem sempre um classificador binário produz um único ponto no
espaço ROC. Alguns classificadores, tais como redes neurais ou classificadores
probabilísticos, geram, como saída, duas probabilidades ou escores, que representam o
nível ou probabilidade de pertinência de uma amostra para cada uma das duas classes
possíveis. Nestes casos, há a necessidade de definição de um limiar que permita ao
classificador transformar estes dois valores contínuos em uma saída binária. Podem ser
testados diferentes valores reais para este limiar, o que irá produzir diferentes pontos em
um espaço ROC. Quando interligados, estes pontos formam uma curva no espaço ROC.
O modelo com a maior Área sobre a Curva pode ser considerado o mais efetivo, e o
limiar ótimo para o modelo é aquele que estiver mais próximo ao canto superior
esquerdo do gráfico, que representaria o classificador perfeito no ponto (0,1) (KUHN;
JOHNSON, 2013).
Figura 4. Área sob a curva (AUC)
5 Exemplos ilustrativos
Agora que conhecemos alguns dos principais aspectos que devem ser observados
durante a geração e avaliação de modelos de classificação, vamos explorar alguns
cenários do contexto educacional em que esses conceitos podem ser aplicados.

5.1 Transformando variáveis: de numérico para nominal

Consideremos um conjunto de dados contendo informações sobre a evasão de


acadêmicos em um curso superior. Utilizando modelos de classificação (por exemplo,
baseados em árvores de decisão) é possível avaliar a existência de padrões na evasão
dos acadêmicos (CAMARGO; SANTOS; CAMARGO, 2012). Consideremos que a
base de dados em questão possui as seguintes variáveis:
● Sexo (Qualitativa nominal): Masculino (M) ou Feminino(F)
● Forma_Ingresso (Qualitativa nominal): ENEM, Vestibular, Reopção de Curso,
Transferência Ex-oficio, Transferência Externa, Transferência Interna e Portador
de Diploma
● Ano_Ingresso (Qualitativa nominal): Ano em que o acadêmico ingressou no
curso
● Idade_Ingresso (Quantitativa discreta): Idade do acadêmico quando ingressou no
curso
● Forma_Evasao (Qualitativa nominal): Cancelamento, Abandono, Transferência
Interna, Reopção de Curso, Desligamento, Aluno regular.
Após abrir a base na ferramenta WEKA, observamos que a variável
Ano_Ingresso está sendo tratada como variável quantitativa, uma vez que os valores
armazenados nas tabelas são numéricos (ver figura 5). Entretanto, os valores referentes
aos anos de ingresso não representam quantidades, mas sim categorias. Para essa
variável, faz mais sentido utilizar as quantidades de ingressantes de cada um dos anos
(categorias da variável) do que calcular uma média dos diferentes anos em que os
acadêmicos ingressaram no curso, por exemplo. Na etapa de pré-processamento, a
variável Ano_Ingresso pode ser transformada de Numérica para Nominal por meio da
aplicação de um filtro. A simples transformação dessa variável de numérica para
categórica reflete em um aumento imediato (ainda que pequeno) na acurácia geral de
um modelo de classificação gerado por meio do algoritmo J48 (árvores de decisão) e
para um treinamento utilizando a validação cruzada com 10 partições (aumento de 62%
de acurácia geral para 64.4%).
Figura 5. Transformação de atributo: de numérico para nominal
Esse caso ilustrativo utiliza a base de dados
dados_evasao02_numericaParaNominal.zip disponível em
https://github.com/cristiancechinel/bookchapter.

5.2 Transformando variáveis: binarização

Quando olhamos as características da variável que está sendo classificada pelo


modelo (Forma_Evasao), percebemos que as diferentes categorias existentes estão
bastante desbalanceadas (ver figura 6). Na variável, 55% dos acadêmicos estão
concentrados na classe Aluno_regular, 34% na classe Abandono, 4% na classe
Cancelamento e os demais casos nas diferentes classes restantes. Esse
desbalanceamento dos dados na variável de saída interfere diretamente nos
desempenhos dos modelos que normalmente encontram dificuldades em classificar
dados pertencentes às classes minoritárias e tendem a favorecer a classificação nas
classes mais comuns. A matriz de confusão da figura 6 a seguir oferece uma
visualização clara da dificuldade que o modelo possui em classificar os casos das
classes minoritárias.
Figura 6. Transformação de atributo: binarização

Uma segunda transformação que podemos fazer nessa base de dados é binarizar
a variável de saída, ou seja, transformar cada uma das categorias em uma nova variável
binária que pode assumir os valores 0 ou 1, sendo que 1 significa que a situação daquela
categoria está ocorrendo, e 0 significa que não está ocorrendo. Considerando que
possuímos 348 instâncias e que 194 delas pertencem a categoria Aluno_Regular, uma
binarização da variável Forma_Evasao geraria uma variável
Forma_Evasao=Aluno_Regular contendo 194 instâncias pertencentes a categoria 1
(aluno regular) e 154 pertencentes a categoria 0 (aluno não regular ou evadido). Essa
nova variável apresenta um balanceamento entre as classes bem melhor do que a
anterior e pode ser agora adotada como a variável de saída a ser classificada pelo
modelo.
Uma nova rodada de treinamento e teste de um modelo de classificação por
meio do algoritmo J48 (utilizando validação cruzada com 10 partições) irá apresentar
uma melhoria na acurácia geral em comparação com o modelo da seção anterior
(aumentando de 64,4% para 69,5% a acurácia geral), assim como gerando taxas de
verdadeiros positivos e verdadeiros negativos mais próximas entre as categorias
classificadas (que agora são somente 2). É importante considerar que essa última
transformação acarreta em uma perda na capacidade de predição do modelo no que se
refere ao tipo de evasão do acadêmico, uma vez que agora o modelo é capaz de predizer
apenas se o acadêmico é um aluno regular ou se ele evadiu (sem precisar de que
maneira essa evasão ocorreu).
Esse caso ilustrativo utiliza a base de dados
dados_evasao03_NominalParaBinaria.zip disponível em
https://github.com/cristiancechinel/bookchapter.
5.3 Interpretando uma árvore de decisão para predição da evasão de estudantes

Consideremos um conjunto de dados contendo a matrícula dos estudantes, as


notas finais de três disciplinas do primeiro semestre (Algoritmos, Cálculo I e Geometria
Analítica) e a situação final do estudante (evadido ou formado). Gostaríamos de gerar
um modelo capaz de predizer se um estudante conseguirá se formar ou irá evadir do
curso em que está matriculado, mas também desejamos interpretar o modelo de maneira
a compreender melhor os fatores que estão relacionados com a evasão ou sucesso nesse
cenário específico. O modelo de classificação é gerado por meio do algoritmo J48
utilizando validação cruzada com 10 partições e a variável referente ao número da
matrícula é desconsiderada na mineração.
O modelo é capaz de classificar corretamente 92.46% dos casos (acurácia geral)
e apresenta um coeficiente Kappa de 0.85. Ainda, as acurácias para classificação das
classes evadido e formado estão bem equilibradas sendo de 93.8% e 90.8%
respectivamente. É possível dizer que a árvore de decisão gerada é capaz de predizer a
evasão e o sucesso do estudante com um ótimo desempenho.

Figura 7. Árvore de decisão para predição da evasão

Ao observar a árvore gerada (figura 7), é possível perceber que a variável mais
importante na classificação é a nota da disciplina de Algoritmos. De modo geral, e pela
leitura da árvore de decisão, estudantes que alcançam nota superior a 7.2 na disciplina
de Algoritmos se formam com sucesso, e estudante que tiram notas inferiores a 4 nessa
disciplina evadem. Nas situações em que as notas de Algoritmos estão entre esses
limiares, a nota da disciplina de Cálculo I passa a ter importância para a predição da
evasão. A nota da disciplina de Geometria Analítica não foi utilizada pelo modelo.
Esse caso ilustrativo utiliza a base de dados dados-notas-versus-disciplina-
versus-evasao.zip disponível em https://github.com/cristiancechinel/bookchapter.
6 Resumo
Nesse capítulo foram apresentadas algumas das principais características que
devem ser observadas nos dados durante o processo de geração de modelos de
classificação no contexto educacional (origens possíveis dos dados, tipos de variáveis e
atributos), juntamente com algumas possibilidades de transformação nos dados e de sua
dimensionalidade. Foram vistos também os principais cuidados que o pesquisador deve
tomar durante a construção e avaliação desses modelos, sobretudo com respeito a
divisão dos dados de treinamento e teste em conjuntos distintos e as possibilidades de
estratégias de particionamento de dados existentes. Por último, foram apresentadas
algumas medidas para a avaliar o desempenho dos modelos de classificação
construídos.

Figura 8. Mapa mental da avaliação e interpretação dos modelos de classificação.


7 Leituras recomendadas
Mineração de dados educacionais: conceitos, técnicas, ferramentas e aplicações.
(COSTA et al., 2013). Neste capítulo você irá encontrar uma breve explicação
sobre as diferentes tarefas existentes na mineração de dados (Classificação e
regressão, agrupamento e associação) e sobre o funcionamento de alguns de seus
algoritmos. O capítulo também traz bons exemplos da área de mineração de
dados educacionais.
A Survey on Pre-Processing Educational Data (ROMERO; ROMERO;
VENTURA, 2014). Este capítulo apresenta um apanhado geral sobre diferentes
estratégias de pré-processamento especificamente voltadas para o contexto
educacional. Os autores abordam as características mais comumente encontradas
em bases de dados educacionais e apresentam alternativas para o pré-
processamento dessas bases.

8 Base de dados exemplo


Base de dados utilizada nos cenários ilustrativos do capítulo 5 e relacionadas a
evasão de estudantes (CAMARGO; SANTOS; CAMARGO, 2012):
https://github.com/cristiancechinel/bookchapter

9 Checklist

De maneira geral, o processo de mineração e avaliação de modelos de classificação


deve seguir os seguintes passos específicos:
• Observação das características dos dados coletados e verificação da
necessidade de transformação dos dados, ou de geração de novos atributos
derivados
• Verificar o balanceamento dos dados e realizar operações de balanceamento
caso sejam necessárias. Levar em consideração que o desbalanceamento dos
dados interfere no desempenho dos modelos de classificação.
• Observar a dimensionalidade dos dados e avaliar a necessidade de selecionar
as características (atributos) mais relevantes para serem utilizados no
processo de mineração.
• Selecionar o método de particionamento mais adequado para ser utilizado na
etapa de treinamento e teste
• Definir os algoritmos de mineração e rodar os experimentos.
• Avaliar o desempenho dos modelos utilizando diferentes medidas e
considerando as características específicas dos dados em questão.
Figura 9. Fluxograma para o processo de mineração, avaliação e
interpretação dos modelos de classificação

10 Exercícios
1. Exercício 1 - Abordagens de aprendizado de máquina. Quais as principais
diferenças entre o aprendizado de máquina supervisionado e não supervisionado, e
quando devemos utilizar cada um deles?
2. Exercício 2 - Importância da Acurácia Geral. Qual a importância da medida de
avaliação Acurácia Geral e quais os cuidados que devem ser tomados ao utilizar
essa medida como referência para medição do desempenho de um modelo de
classificação?
3. Exercício 3 - Uso da base de dados. Faça o download da base de dados
disponibilizada na seção 8 e realize a mineração da mesma utilizando o algoritmo
J48 com um particionamento de validação cruzada com 10 partições. Use como
variável alvo a Forma_Evasao e observe o desempenho do modelo de predição
gerado. Em seguida, reproduza as transformações propostas nos exemplos
ilustrativos das seções 5.1 (Transformando variáveis: de numérico para nominal) e
5.2 (Transformando variáveis: binarização) e compare os resultados com os do
modelo inicial.
4. Exercício 4 - O problema da acurácia geral alta. Imaginemos uma situação
problema em que se deseja desenvolver um modelo para predizer com antecedência
se um determinado estudante irá evadir de um determinado curso ou não. A variável
Evasão pode então assumir os valores Verdadeiro (o acadêmico evadiu do curso) ou
Falso (o acadêmico não evadiu do curso). Para um conjunto de 200 estudantes (190
de concluintes e 10 evadidos) foi gerado um modelo de classificação com a seguinte
matriz de confusão:

Tabela 2: Matriz de confusão - Modelo de classificação de estudantes evadidos - exemplo 1


Dados Reais Observados
Total da Total
População
Condição = Verdadeiro Condição = Falso
Predição da 0 0 0
Predição do condição = (VP) (FP)
Modelo Verdadeiro

Predição da 10 190 200


condição (FN) (VN)
= Falso

10 190 200

Quando calculamos a acurácia geral deste modelo, temos um percentual bastante


alto de casos que foram classificados corretamente (190/200 = 95%). Entretanto, o
modelo apresenta um sério problema, uma vez que ele é incapaz de classificar
corretamente os estudantes evadidos (VP = 0). Na verdade, o modelo simplesmente
classifica todos os casos da base de dados como concluintes, gerando assim uma alta
taxa de acurácia geral que esconde a sua má qualidade de desempenho. As demais
métricas de avaliação nos ajudam a perceber que o modelo apresenta uma má qualidade
de predição. Veja que a Taxa de Verdadeiro Positivo e o Valor Preditivo Positivo são
iguais a zero.
• Acurácia geral = 190/200 = 95%
• Taxa de Verdadeiro Positivo = 0/(0+10) = 0%
• Taxa de Verdadeiro Negativo = 190/(190+0) = 100%
• Valor Preditivo Positivo = 0/(0+0) = (não existe) 0%
• Valor Preditivo Negativo = 190/200 = 95%
Observe a diferença da matriz de confusão do modelo de classificação anterior
para a matriz de confusão desse novo modelo apresentado a seguir. Calcule os valores
da Acurácia geral, Taxa de Verdadeiro Positivo, Taxa de Verdadeiro Negativo, Valor
Preditivo Positivo e Valor Preditivo Negativo e compare com as medidas de avaliação
de desempenho do modelo anterior.
Tabela 3: Matriz de confusão - Modelo de classificação de estudantes evadidos - exemplo 2
Dados Reais Observados
Total da Total
População
Condição = Verdadeiro Condição = Falso

Predição da 8 8 16
Predição do condição = (VP) (FP)
Modelo Verdadeiro

Predição da 2 182 184


condição (FN) (VN)
= Falso

10 190 200
• Exercício 5 - Calculando o Coeficiente Kappa. A melhoria no desempenho dos
modelos de predição comentados no exercício anterior também pode ser observada
quando calculamos o coeficiente Kappa para os modelos. Realize o cálculo dos
coeficientes Kappa para as matrizes de confusão das tabelas 2 e 3 do exercício
anterior. Observe as diferenças dos valores dos coeficientes e como os mesmos
permitem realizar a avaliação de qual modelo apresenta um melhor desempenho
para o problema em questão.
• Exercício 6 – Interpretando um modelo de predição da evasão. Reproduza o
modelo de predição do exemplo ilustrativo das seção 5.3 utilizando a base de dados
dados-notas-versus-disciplina-versus-evasao.zip disponível em
https://github.com/cristiancechinel/bookchapter.

11 Referências
ATTENBERG, J.; ERTKIN, S. Class imbalance and active learning. In:
Imbalanced learning: foundations, algorithms, and applications. Hoboken, New
Jersey: John Wiley & Sons, Inc., 2013. p. 101–150. ISBN 9781118074626.
BISHOP, C. M. Neural Networks for Pattern Recognition. New York, NY,
USA: Oxford University Press, Inc., 1995. ISBN 0198538642.
BRADLEY, A. P. The use of the area under the roc curve in the evaluation of
machine learning algorithms. PATTERN RECOGNITION, v. 30, n. 7, p. 1145–1159,
1997.
CAMARGO, F. N. P.; SANTOS, H. L. dos; CAMARGO, S. da S. Aplicação de
técnicas de modelagem computacional para predição de desempenho de estudantes. In:
Anais da V Conferência Sul em Modelagem Computacional. Rio Grande: Editora da
FURG, 2012. v. 1, p. 155–160.
CAMARGO, S. da S. Um modelo neural de aprimoramento progressivo para
redução de dimensionalidade. Tese (Doutorado em Ciência da Computação) —
Instituto de Informática, Universidade Federal do Rio Grande do Sul, Porto Alegre,
Junho 2010.
CAMARGO, S. da S.; BORIN, J. M.; FERREIRA, A. P. L. Identifying dropout
patterns by using data mining techniques: A study case. In: Proceedings of the 2014
Latin American Computing Conference (CLEI). Montevideo: Curran Associates,
Inc., 2014. v. 1, p. 690–698.
CASTRO, C. L. de; BRAGA, A. A. P. A. Aprendizado supervisionado com
conjuntos de dados desbalanceados. SBA: Controle & Automação. Campinas:
Sociedade Brasileira de Automatica, v. 22, n. 5, p. 441–466, out 2011. ISSN 0103-1759.
1. INTRODUÇÃO

A educação vem passando constantemente por mudanças às quais


buscam acompanhar a evolução da sociedade em todos os seus aspectos,
sejam estes políticos, econômicos, sociais, culturais, etc. Com os avanços
tecnológicos, especificamente com a integração das Tecnologias da Informação
e Comunicação (TICs), os estabelecimentos educacionais estão alterando a
forma de ensino, principalmente as universidades que estão empregando
metodologias e recursos cada vez mais midiáticos como o uso de plataformas
online, além de optarem por novas formas de ensino como o semipresencial e/
ou híbrido (b-learning) e o ensino a distância (e-learning).
Com a implementação dos Ambientes Virtuais de Aprendizagem (AVAs)
ampliaram-se as possibilidades de organização e de interação entre docentes e
discentes, além da disponibilização de diversos recursos para estudo, como
textos, podcasts, vídeos, links, sites, questionários, fóruns etc. Todo esse
material acaba por gerar um grande volume de informações que devem ser
gerenciadas pelo professor responsável, estas informações são de suma
importância para auxiliar a avaliação do educando, porém, acabam por dificultar
a gestão docente. Para tanto, devido a este grande volume de dados, se faz
necessário um gerenciamento automático (GIRAFFA, 2015).
Neste contexto são desenvolvidas novas ferramentas tecnológicas para
fins educacionais, porém, cabe questionar Que tipo de ferramenta digital pode
auxiliar gestores, professores e alunos para a compilação de dados gerados no
percurso de aprendizagem em AVAs e de que forma isto ocorre? A partir dessa
inquietude, pesquisou-se recursos para coleta e análise dos dados gerados no
percurso da aprendizagem e encontrou-se o Learning Analytics (LA). Assim, esta
pesquisa objetiva-se a conceituar e descrever brevemente essa ferramenta bem
como suas principais funções e aplicabilidades, citando exemplos de programas
desenvolvidos tanto nos Estados Unidos, quanto no Brasil.
O LA basicamente é uma ferramenta de coleta, análise e divulgação de
dados oriundos dos Ambientes Virtuais de Aprendizagem (AVAs), que por sua

Revista Mundi Engenharia, Tecnologia e Gestão. Paranaguá, PR, v.4, n.1, março de 2019.

121-3
expressividade são denominados big data, com o intuito de fornecer dados
concretos referentes à jornada dos estudantes e avaliar o processo de ensino,
orientando novos caminhos de aprendizagem em uma experiência online e
individualizada. O LA abrange toda a gama de atividades no ensino, desde a
esfera administrativa até a pedagógica, desta forma, a universidade pode se
tornar uma organização mais inteligente e intencional por meio do uso da análise
e do big data (SIEMENS; LONG, 2011).
Metodologicamente, adotou-se a pesquisa bibliográfica de caráter
descritivo, a partir do levantamento de referências atualizadas sobre a temática
de acervos e repositórios digitais nacionais e internacionais. Por meio da leitura,
análise e reflexão sobre estes materiais buscou-se compreender o
funcionamento e aplicabilidade desta ferramenta tecnológica.
O artigo está organizado em duas seções principais, sendo a primeira,
sobre as características, funções e recursos do LA, e a segunda, sobre sua
aplicabilidade efetiva na área da educação, exemplificando-a com modelos de
programas que utilizam dessa tecnologia, desenvolvidos e implementados tanto
nos Estados Unidos, quanto no Brasil. Posteriormente, há as considerações
finais e a apresentação do referencial bibliográfico utilizado. Por meio destas
leituras, percebeu-se a importância do uso do LA, projetando-se o quanto o
mesmo pode contribuir para processos de avaliação, gestão e sistematização do
ensino.

2. LEARNING ANALYTICS

O Learning Analytics (LA) é algo relativamente recente e considerado


como uma nova área de pesquisa e aplicação que ainda está em
desenvolvimento. Embora não haja até o momento no Brasil, um consenso para
a tradução do termo para a Língua Portuguesa, entende-se que significa análise
do aprendizado, que se dá através de dados obtidos de sistemas específicos
para esse fim. O LA foi formalmente apresentado no ano de 2010, em Banff-
Canadá na 1ª Conferência Internacional sobre Learning Analytics & Knowledge,

Revista Mundi Engenharia, Tecnologia e Gestão. Paranaguá, PR, v.4, n.1, março de 2019.

121-4
porém, estudos na área já vem sendo desenvolvidos há alguns anos (FARIA,
2014).
Sobre sua definição, a 1ª Conferência Internacional sobre Learning
Analytics & Knowledge, destaca que: Learning Analytics é a medição, recolha,
análise e comunicação de dados sobre os alunos e seus contextos, para fins de
c ee de e a e fe a a a e d age e a be e e e ac e
(FARIA, 2014, p.37). Sabe-se também que, o LA se originou de conceitos e
técnicas das áreas de ciência da computação, ciência da informação, estatística,
ciências da aprendizagem, sociologia e psicologia, além de que, através desta
tecnologia é possível acompanhar e interpretar dados de percurso de cada
estudante em AVAs (FARIA, 2014).
Sua importância se dá pela possibilidade de coleta de dados de
navegação, o que possibilita múltiplas análises relacionadas a questões
comportamentais e de aprendizagem do educando. Compreende-se por dados,
as informações inseridas nos programas de forma classificada e ordenada, para
que assim, seja possível fazer o processamento das mesmas de acordo com o
objetivo pretendido (GIRAFFA, 2015).
As análises são feitas por meio do big data, que basicamente é este
grande volume de informações e dados digitais reunidos e posteriormente
relacionados e processados/transformados em informações uteis por meio do
raciocínio indutivo, na esfera da educação, esta técnica é definida por Learning
Analytics (DIAS, 2017).
Na esfera da educação, as análises por meio do big data evidenciam o
seu valor, primeiramente no seu papel em orientar as atividades de reforma no
ensino superior (instigadas pela crescente competitividade entre as instituições
educacionais, pela inserção de novas tecnologias na educação e, pelo
surgimento de novas modalidades de ensino, entre outros fatores) e, em
segundo, sobre como a analise destes dados podem ajudar os docentes na
melhoraria do processo de ensino e de aprendizagem (SIEMENS; LONG, 2011,
p. 38).
Ademais, é importante ressaltar que a:

Revista Mundi Engenharia, Tecnologia e Gestão. Paranaguá, PR, v.4, n.1, março de 2019.

121-5
Análise de Aprendizagem refere-se à interpretação de uma grande
variedade de dados produzidos e recolhidos em nome dos estudantes,
de modo a avaliar o processo acadêmico, prever desempenho futuro e
detectar possíveis problemas. Os dados são recolhidos a partir de
ações estudantis explícitas, tais como: completar tarefas e fazer
exames, e a partir de ações subentendidas, incluindo interações
sociais online, atividades extracurriculares, posts nos fóruns de
discussão, e outras atividades que não são diretamente avaliadas
como parte do progresso educacional do estudante. Os modelos de
análise que processam e exibem os dados auxiliam os membros do
corpo docente e funcionários da universidade/instituição na
interpretação dos mesmos (JOHNSON et al., 2011 apud FARIA, 2014,
p.37).

Em síntese, o processo inicia com a coleta dos dados, adquiridos através


do monitoramento da interação do usuário (educando) com o AVA.
Posteriormente, ocorre a mineração dos dados, que consiste em descobrir
padrões e regras significativas através das informações oriundas da análise
estatística dos mesmos (CABENA et al., 1998 apud DIAS, 2017).
Assim, a partir da análise gráfica de todos os dados coletados é possível
perceber a evolução do desempenho do aluno, bem como seu progresso, suas
dificuldades, sua participação, entre outros fatores (FARIA, 2014). Este processo
todo é muito positivo pois os professores, gestores e tutores podem implementar
ações de melhorias no sistema de modo a garantir tanto a permanência quanto
a evolução do educando.
Embora seja usado de forma ampla no ensino a distância, o LA também
pode ser aplicado no ensino hibrido, ou em outras condições que permitam o
acompanhamento próximo do desenvolvimento do aprendiz, sinalizando quando
este apresentar dificuldades específicas. Cabe destacar ainda que, quando
usada para fins de ensino personalizado, quanto mais o usuário interagir com a
ferramenta, mais ela o compreende e consegue indicar os melhores conteúdos
para o seu perfil. Com o tempo, cria-se um panorama detalhado da evolução de
cada discente, o que possibilita observar seu desempenho em diversas áreas de
conhecimento, do início ao final do curso, em comparação com outros da mesma
turma e instituição (DIAS, 2017).

Revista Mundi Engenharia, Tecnologia e Gestão. Paranaguá, PR, v.4, n.1, março de 2019.

121-6
De forma sintetizada, o processo ocorre da seguinte maneira, conforme
representa a Figura 1.

Figura 1: Processo cíclico do funcionamento do Learning Analytics.

Fonte: Acervo pessoal do autor, baseado nos estudos de CLOW, 2012 apud MOISSA, 2014.

O Learning Analytics é em sua essência uma metodologia


interdisciplinar, pois envolve diversas áreas de conhecimento, tanto da parte
técnica, quando educacional. Conforme nos esclarece Biagiotti et al. (2015, p.
12) Pa a a ca a e ad e e ad e fa ecessária a criação de uma
equipe engajada e preparada para a tarefa [...] , demandando assim
profissionais da área de informática e de pedagogia para um trabalho em
sincronia. O uso do LA deve ser entendido como uma prática continua e de
melhoramentos para se atingir resultados cada vez mais significativos. Dentre as
funcionalidades do LA, explica-se as seguintes, conforme o Quadro 1 a seguir:

Revista Mundi Engenharia, Tecnologia e Gestão. Paranaguá, PR, v.4, n.1, março de 2019.

121-7
Quadro 1: Principais funcionalidades do Learning Analytics

No monitoramento, o objetivo está em acompanhar as ações do


aluno e emitir relatórios analisando os resultados das mesmas, a fim
MONITORAMENTO E
de apoiar a tomada de decisão do professor ou da instituição de
ANÁLISE
ensino.

Na previsão o objetivo está em tentar prever o conhecimento atual e


o desempenho futuro do educando com base nas suas ações, além
PREDICAÇÃO E de indicar os que precisam de alguma assistência educacional ou,
INTERVENÇÃO intervenção pedagógica, ajudando-os a melhorarem seu
desempenho.

Ajuda pedagógica específica para o discente durante um módulo


(tutoria) com enfoque no processo de ensino de um curso específico.
TUTORIA E
Ou durante todo o curso (mentoria), cuja orientação é mais
MENTORIA
abrangente, focando no planejamento da carreira e a sua realização
por exemplo.
O objetivo está em dar suporte para o processo de (auto) avaliação,
focando a eficácia do processo de ensino-aprendizagem. O
AVALIAÇÃO E
feedback traz informações pertinentes sobre o processo com base
FEEDBACK
nos dados do usuário.

Auxilia o aluno sinalizando o que ele precisa fazer de acordo com


ADAPTAÇÃO suas necessidades individuais.

Na personalização, o LA está centrado no educando, permitindo que


o mesmo escolha o que quer aprender a fim de atingir seus objetivos.
PERSONALIZAÇÃO
Porém tem mecanismos de recomendação, com o intuito de auxilia-
E RECOMENDAÇÃO
lo.

Ao promover a reflexão, o LA permite que, tanto os alunos, quanto


os professores, se beneficiem com a comparação entre dados de um
REFLEXÃO mesmo curso, ou turmas, ou estabelecimentos. Com o objetivo de
verificação e reflexão das práticas de ensino e aprendizagem.

Fonte: Acervo pessoal do autor, baseado nos estudos de Chatti et al (2012, p.11).

A complemento, o processo de LA possui alguns passos, que são as


fases de: capturar, reportar, predizer, adaptar, personalizar e intervir. As fases
de capturar e reportar referem-se ao acesso aos dados, bem como a sua
extração e organização. Na fase de predizer, as técnicas do LA são aplicadas
para que haja a compreensão dos dados obtidos. Já nas fases de adaptar,
personalizar e intervir, são estabelecidos meios com objetivo de melhorar os
cursos e o desempenho dos educandos (SANTOS, 2014 apud SILVA et al,

Revista Mundi Engenharia, Tecnologia e Gestão. Paranaguá, PR, v.4, n.1, março de 2019.

121-8
2016). Todos estes passos são de suma importância e denotam a aplicabilidade
real do LA.

2.1 Aplicabilidade do Learning Analytics na educação

Uma das principais aplicabilidades do LA se dá pelo monitoramento


global do usuário, por meio da extração e análise de dados do seu perfil e
padrões comportamentais, identificando sucesso e insucesso de trajetórias de
aprendizagem (JOVANOVIC et al, 2008. apud SILVA, et al, 2016).
O LA é também essencial na detecção de problemas com antecedência,
como por exemplo, nos casos de provável evasão de cursos (sobretudo aqueles
online), possibilitando, assim, que os gestores da instituição, ou professor/tutor
responsável possam fazer as intervenções educacionais necessárias e criem
estratégias para combater esta situação, acompanhando como está sendo o
desenvolvimento do aluno, se utiliza com frequência os materiais oferecidos, se
ele tem acesso diário às aulas, entre outros, além de melhorar a gestão e os
recursos educacionais (DIAS, 2017).
Dentre os benefícios do LA, há a possibilidade de aperfeiçoamento ou
desenvolvimento de novos modelos pedagógicos devido a análise das trilhas de
aprendizagem, pois, de acordo com Siemens; Long (2011, p. 32, tradução nossa)
Essas trilhas de dados produzidas pelos alunos, fornecem informações valiosas
sobre o que realmente está acontecendo na aprendizagem, processando e
sugerindo maneiras pelas quais os educadores podem fazer melhorias . Para os
docentes, receber informações sobre como está o desempenho dos educandos,
além de indicativos sobre quais estão em situações de risco, dificuldades e, que
necessitam de atenção especial, é extremamente significativo para o seu
planejamento pedagógico. Em contrapartida, para os estudantes, ter acesso a
informações sobre seu próprio desempenho e progresso, pode ser um fator
motivacional (FARIA, 2014).
O diferencial do LA, é que este busca levar em consideração o contexto
dos alunos por meio da aprendizagem personalizada com sistemas de tutoria

Revista Mundi Engenharia, Tecnologia e Gestão. Paranaguá, PR, v.4, n.1, março de 2019.

121-9
inteligente, atividades interativas e jogos, enfim, recursos que venham a chamar
a atenção e despertar o interesse dos educandos que se sentirão mais
estimulados para prosseguirem com o curso (BIAGIOTTI et al., 2015).
Nos últimos anos observa-se um número crescente de instituições de
ensino que vem empregando LA para análise de dados e para avaliar e intervir
no desempenho acadêmico. Os modelos de LA desenvolvidos nos EUA são
usados para identificar o progresso dos alunos e se necessário encaminhá-los
para um programa de apoio/ajuda, como ocorre na Purdue University (Programa
Signals); já na State University os dados universitários são analisados para
acompanhar o desempenho do estudante principalmente em seu primeiro ano;
na Drexel University, o programa Blackboard Vista STAR Report analisa o
envolvimento do aluno através dos logins; a Universidade de Wollongong usa o
Social Networks Adapting Pedagogical Practice (SNAPP) onde pesquisadores
analisam a participação/interação por meio das postagens dos alunos nos fóruns
de discussão; entre outras instituições (EDUCAUSE, 2010).
Na realidade brasileira, muitos Ambientes Virtuais de Apoio ao Ensino e
à Aprendizagem (AVEA) possuem recursos de LA (principalmente as instituições
de ensino à distância). Dentre eles, temos o software utilizado em várias
instituições de ensino inclusive pela SEED denominado Moodle que possui as
ferramentas do LA em sua versão 3.0.2, porém desde sua versão 2.8, podem-
se observar relatórios sobre o emprego das técnicas de LA. Por exemplo, temos
a Pontifícia Universidade Católica do Rio Grande do Sul e a UNIFESP, entre
outras. Também há pesquisas sendo realizadas para avaliar os resultados da
aplicação do LA na gamificação, objetivando avaliar os dados resultantes dos
processos de ensino e aprendizagem e as conquistas do educando (GIRAFFA,
2015).
De ac d c Se e ;L g (2011, . 38, ad a) A a e
na educação deve ser transformadora, alterando o ensino existente, os
processos de aprendizagem, a avaliação, o trabalho acadêmico e a
ad a . Pa a anto, adotar a análise de dados na educação, vai muito
além de dinamizar ou facilitar a atividade docente e discente, ou apenas avaliar

Revista Mundi Engenharia, Tecnologia e Gestão. Paranaguá, PR, v.4, n.1, março de 2019.

121-10
a assiduidade e atividade dos alunos, pois envolve transformações profundas,
tanto administrativas, quanto pedagógicas nas instituições de ensino. Conforme
ressalta Giraffa (2015, p.37) sobre o uso do LA:

[...] quaisquer técnicas, software, hardware, enfim, recursos, são


elementos coadjuvantes e apoiadores das tomadas de decisão dos
professores no que tange à gestão das informações dos alunos e
devem estar sintonizados com seu projeto pedagógico. É importante
esse destaque para não deixar a sensação de que essas combinações,
agora a nosso dispor, farão o trabalho do professor. Não, elas vão
auxiliar, e muito, nas suas tomadas de decisão e monitoração da
aprendizagem e do comportamento do aluno no ambiente. Isso
também é valido para os estudantes que poderão se beneficiar dessas
informações para fazer autoavaliação e revisar seus processos, ritmos
e hábitos de estudo.

Ademais, de acordo com a autora, o uso de ferramentas/tecnologias


voltadas para o ensino, bem como a sua implementação nos ambientes
educacionais é uma constante necessidade, porém, este fato, ainda é um desafio
para a formação docente, visto que muitas vezes os professores não se sentem
preparados para o uso das mesmas. Apesar dos desafios a serem superados,
observa-se que a implementação do LA nos ambientes de ensino (sejam estes,
presenciais, semipresenciais ou à distância) é de grande valia para o processo
avaliativo, que conforme destaca:

Avaliar é uma tarefa que sempre foi complexa e demandante para o


docente. Poucos pontos de verificação (poucas provas, atividades de
pesquisa e exercícios), resultam em pouca informação acerca do
aluno. No entanto, se fornecemos muitas oportunidades no espaço
virtual para coletar elementos para fazer uma avaliação monitorada de
forma mais contínua, buscando identificar o crescimento (ou não) do
estudante, ao longo da disciplina ou curso nos deparamos com a
questão da gestão do grande volume de informações. É justamente
para isso que essas ferramentas contribuem (GIRAFFA, 2015, 41)

Em suma, destaca-se assim o grande potencial do LA para a educação.


Espera-se que, cada vez mais, seja implementado este recurso tecnológico em
instituições de ensino visando aprimorar tanto a experiência dos usuários em
AVAs para melhor encaminhamento do processo de ensino e aprendizagem,

Revista Mundi Engenharia, Tecnologia e Gestão. Paranaguá, PR, v.4, n.1, março de 2019.

121-11
quanto para um aprofundado processo avaliativo e significativo procedimento de
combate à evasão no ensino.

3. CONSIDERAÇÕES FINAIS

O presente artigo apresentou dados essenciais sobre o Learning


Analytics, considerando como uma ferramenta tecnológica educacional que vem
a colaborar tanto para os cursos à distância, semipresenciais e para os cursos
presencias que estão adotando uma metodologia de ensino híbrido, cujos
recursos midiáticos estão sendo cada vez mais empregados como uma forma
de enriquecer, dinamizar e fortalecer o ensino.
Este recurso apresenta-se como muito positivo para colaborar no
acompanhamento do desenvolvimento dos educandos através da coleta e
gestão de dados comportamentais dos usuários em AVAs. Ao permitir este
monitoramento próximo, e a forma de interação dos envolvidos, o LA pode
oferecer um sistema personalizado adequado a realidade. Como sistema de
gestão é altamente positivo pois permite a previsão de evasão de estudantes,
colaborando para que ações sejam tomadas a tempo.
Os resultados obtidos por meio do uso do Learning Analytics, podem
tornar-se elementos motivadores para os professores, ao possibilitar suporte
para o processo avaliativo, tanto do educando, quanto da sua própria pratica
pedagógica.
A pesquisa e aplicação de programas que utilizam dos recursos do
Learning Analytics nos Estados Unidos caminha a passos largos, sendo adotado
e adaptado de acordo com as necessidades de cada universidade, como se pôde
perceber nos exemplos já supracitados, cujos programas são desenvolvidos
pelas próprias instituições. No Brasil, estudos acerca do LA na área de
Informática na Educação já vem sendo realizados no meio acadêmico, porém a
sua implementação real nas instituições de ensino ainda são recentes sobretudo
porque implica questões socioeconômicas que afetam diretamente o sistema

Revista Mundi Engenharia, Tecnologia e Gestão. Paranaguá, PR, v.4, n.1, março de 2019.

121-12
como um todo, haja vista que no sistema público são priorizadas ainda ações
mais básicas como disponibilidade de Internet e laboratórios de Informática,
enquanto em países mais desenvolvidos os investimentos são mais expressivos
e abrangentes.
Portanto, acredita-se que este trabalho pode contribuir para introduzir
esta discussão nos ambientes educacionais e para os cursos de formação
docentes, e assim, propor e estimular o desenvolvimento de novas pesquisas,
bem como aplicações do LA no contexto educacional brasileiro, seja este em sua
modalidade de ensino à distância, semipresencial ou, e também, presencial.

REFERÊNCIAS

BIAGIOTTI, Breno. et al. LEARNING ANALYTICS, MOOCS E MOBILE


LEARNING: TENDENCIAS EDUCACIONAIS NA CIBERSOCIEDADE. XII -
Congresso Brasileiro de Ensino Superior a Distância, Salvador/BA,
UNIREDE, 2015. Disponível em: <encurtador.com.br/wBJW7> Acesso em: 18
de abr. de 2018.

CHATTI, Mohamed Amine et al. A reference model for learning analytics.


International Journal of Technology Enhanced Learning. v. 4, n. 5-6, p.
318-331, 2012. Disponível em: <https://www.thues.com/upload/pdf/2012/CDST
12_IJTEL.pdf> Acesso em: 18 de abr. de 2018.

DIAS, Robson dos Santos. Caracterização do Learning Analytics na Educação


a Distância. Anais do I Seminário de Pesquisa e Inovação Tecnológica –
SEPIT/ IFTM, Uberlândia/MG, v.1, n. 1, jun., 2017. Disponível em <http://editor
a.iftm.edu.br/index.php/sepit/article/view/312> Acesso em 16 de abr. de 2018.

EDUCAUSE. 7 Things you should know about analytics. EDUCAUSE 7 things


you should know series. Retrieved October 1, 2010. Disponível em: < http://
www.educause.edu/ir/library/pdf/ELI7059.pdf> Acesso em: 18 de abr. de 2018.

FARIA, Susana. Educational Data Mining e Learning Analytics na melhoria


do ensino online.2014.138f. Dissertação de Mestrado em Estatística
Computacional - Universidade Aberta, fev, 2014. Disponível em: <https://reposi

Revista Mundi Engenharia, Tecnologia e Gestão. Paranaguá, PR, v.4, n.1, março de 2019.

121-13
Design-based research ou pesquisa de desenvolvimento: metodologia para pesquisa aplicada de inovação em educação do século XXI

Introdução
no excelente livro analítico sobre a pesquisa em
A contemporaneidade está se desenvolvendo educação no Brasil, organizado por Marisa Bittar
de tal forma que se tornou imprescindível o maior e colaboradores (2012). Tal evidência é percebida
número de pesquisas aplicadas, particularmente nos corredores e salas da universidade quando,
no campo das ciências da cognição. A recente por exemplo, tantos pesquisadores constatam com
metodologia de pesquisa, mais conhecida como pesquisas bem fundamentadas que mesmo com
Design-Based Research (DBR), é uma inova- os mais de 10 anos de leis obrigando o ensino de
dora abordagem de investigação que reúne as cultura e tradições africanas nas escolas, os avanços
vantagens das metodologias qualitativas e das e inovações nas práticas pedagógicas neste rumo
quantitativas, focalizando no desenvolvimento foram quase imperceptíveis.
de aplicações que possam ser realizadas e de Isso pode ser também constatado, por exemplo,
fato integradas às práticas sociais comunitárias, nas tecnologias educativas e nos estudos sobre o
considerando sempre sua diversidade e proprie- uso de informática na educação; fora o impulso
do mercado por obter mais e mais novos equi-
ser generalizado e assim facilitar a resolução de pamentos, pouco se percebe de transformação
outros problemas. na prática educacional e no cotidiano escolar ou
Apresentamos aqui a DBR iniciando por ex- mesmo em procedimentos de educação informal
plicar a necessidade à qual responde a emergência e não formal.
da DBR, trabalhando a compreensão do processo De fato, no segundo semestre de 2012, o Senado
histórico da qual emerge, mas também procurando brasileiro travou uma discussão detalhada sobre o
orientar sobre seu uso e desenvolvimento em po- -
tenciais pesquisas brasileiras. sileira estava sendo prejudicada pela situação de
Para tanto o artigo se desenvolve na direção de crescimento da pós-graduação no país, incluindo a
guiar quem deseja aplicar DBR em suas pesquisas, especialmente citada pós-graduação em educação,
apresentando conceitos e entendimentos epistemo- que ao contrário dos países líderes como China,
lógicos da abordagem, mas também conduzindo a Estados Unidos, Alemanha, e outros, não era capaz
apresentação das etapas e procurando apresentar de transformar-se em ação efetiva de melhoria da
sociedade, e das práticas educativas (SENADO
o “como fazer”.
FEDERAL, 2012). Todo este cenário dá encami-
O trabalho encerra com as referências a casos já
nhamentos para interpretar que a sociedade brasi-
em andamento e desenvolvidos graças ao sucesso
leira carece de pesquisas inovadoras e aplicadas em
da aplicação da DBR.
educação, como, aliás, em outras áreas da ciência.
Essa é uma situação a enfrentar, pois a escola e
O problema da pesquisa aplicada e de a educação necessitam muito de transformações e
inovação na educação brasileira conhecimento aplicado.
Quando nosso grupo de pesquisa resolveu
Por meio de experiências docentes e de pesquisa encarar o problema, deparou-se com a relativa
em educação dos autores, percebeu-se o cresci- pouca aplicabilidade das pesquisas chamadas
mento da investigação em educação no Brasil, e, qualitativas, que não se propõem mesmo, por
ao mesmo tempo, como estas eram muito pouco princípio e concepção, a serem aplicadas e nem a
voltadas para melhorias efetivas dos processos desenvolver intervenções. Sendo assim, optou-se,
educacionais, ou seja, pouco voltadas para a pes- inicialmente, por realizar desenhos de pesqui-
quisa aplicada. A maior parte das pesquisas, com
metodologia descritiva ou experimental, outras precisamente, pré-experimentais (MCMILLAN,
migrando para abordagens qualitativas, tinham SCHUMACHER, 2010).
resultados expressivos, mas pouco voltadas para -
a aplicação. dade – atende ao propósito de ser voltada para a

24 Revista da FAEEBA – Educação e Contemporaneidade, Salvador, v. 23, n. 42, p. 23-36, jul./dez. 2014
Alfredo Eurico Rodrigues Matta; Francisca de Paula Santos da Silva; Edivaldo Machado Boaventura

intervenção e produção de inovação –, pois parte série de procedimentos de investigação aplicados


da ideia de desenvolvimento de experimento em para o desenvolvimento de teorias, artefatos e prá-
ambiente controlado e com controle de variáveis, ticas pedagógicas que sejam de potencial aplicação
que devem ser estudadas no ambiente ideal de um e utilidade em processos ensino-aprendizagem
laboratório, para depois da pesquisa, e passadas existentes.”
todas as etapas de validação externa e interna, ter Graças a esta vocação para a pesquisa aplicada a
seus resultados encaminhados para a aplicação DBR tem recebido outras denominações em inglês,
generalizada em ambientes educacionais diversos. relacionadas ao seu caráter de pesquisa aplicada:
A principal fraqueza é que, ao contrário das Formative Research, (NEWMAN, 1990); Design
ciências ditas naturais como física, química e Experiments (BROWN, 1992); Development Re-
biologia, em educação não se consegue uma search (VAN DEN AKKER, 1999); Design-Based
verdadeira condição de laboratório, com tudo Research (DBR), assumida neste artigo (KELLY,
controlado; e mesmo que se conseguisse, pouco 2003); Design Research (REEVES; HERRING-
valeria, pois na prática as situações dos processos TON; OLIVER, 2005) e Developmental Research
educacionais são plurais e pouco comparáveis ao (MCKENNEY; VAN DEN AKKER, 2005).
isolamento laboratorial. Por isso não é incomum Nas poucas referências à metodologia encon-
ouvir-se que a educação continua mantendo prá- tradas em português, o termo para desígnio usado
ticas do século XIX. foi o DBR, sempre em páginas web de autores
Ao se descobrir os debates e estudos sobre portugueses (FACEBOOK, 2013; FIALHO, 2013;
a metodologia Design-Based Research (DBR), LEDESMA, 2013; PEREIRA, 2010; SILVA,
percebeu-se que a origem das discussões estava 2013). Talvez seja importante sugerir um termo
exatamente nesta inadequação dos modelos de em língua portuguesa. Neste caso, quem parece
pesquisa para o desenvolvimento de aplicação traduzir melhor o que faz a metodologia é a trans-
em educação, e mais ainda, que as pesquisas que posição para o português do termo criado por Van
realizávamos, mesmo antes do conhecimento da Den Akker (1999): Pesquisa de Desenvolvimento.
DBR, já se aproximavam bastante de seu modelo Um precursor mais remoto da DBR foi o pen-
e forma de interpretar. samento de John Dewey (1900) que indicava ser a
Desde então, passou-se a adotar essa nova me- educação um conhecimento prático, com estudos e
todologia de pesquisa e a desenvolver-se de forma pesquisas voltados para o desenvolvimento de solu-
mais apropriada as pesquisas de aplicação que se ções aplicáveis à prática concreta dos ambientes de
almejava. ensino-aprendizagem. Outro precursor importante
A DBR se propõe a superar a dicotomia e foi gerado pelos que defendiam a aplicação da ava-
mesmo a discussão sobre pesquisa qualitativa ou liação formativa em educação, e que ao aplicarem
quantitativa, desenvolvendo investigações com esta abordagem ao desenvolvimento da pesquisa
foco no desenvolvimento de aplicações e na busca acabaram por criar um procedimento de pesquisa
de soluções práticas e inovadoras para os graves “formativa”, que foi se desenvolvendo e tomando
problemas da educação, podendo para isso usar tan- a forma da atual DBR (BELL, 2004; COLLINS,
to procedimentos quantitativos quanto qualitativos, JOSEPH; BIELACZYC, 2004; HERRINGTON,
e, de fato, não encontrando mais sentido em separar et al, 2007). É verdade que a DBR guarda com a
estas duas formas e nem em investir demasiado pesquisa-ação similaridades de consideração da
nesta diferença, senão em aplicar na medida do comunidade e do saber comunitário como parceiro.
necessário, na direção do foco da pesquisa. A diferença fundamental está no propósito DBR de
desenvolvimento de aplicações práticas e soluções
Design-Based Research (DBR): explicitamente voltadas para a prática e a inovação
entendendo a metodologia da práxis pedagógica (AMIEL; REVEES, 2008).
Essas ideias ganharam adesão cada vez maior
daqueles que pesquisam e investigam as tecnolo-
Barab e Squire (2004, p. 2, tradução nossa): “Uma gias digitais, seu propósito frequentemente inova-

Revista da FAEEBA – Educação e Contemporaneidade, Salvador, v. 23, n. 42, p. 23-36, jul./dez. 2014 25
Design-based research ou pesquisa de desenvolvimento: metodologia para pesquisa aplicada de inovação em educação do século XXI

dor e o desenvolvimento de práticas pedagógicas


consistentes em ambiente digital. professores; ou d) políticas educacionais
Concorda-se com Mckenney e Reeves (2012) como protocolos de avaliação docente ou
sobre a DBR, que se não resolve totalmente a discente, procedimentos e recomendações de
demanda histórica por uma abordagem metodo- investimento, aquisição, opções para relação
lógica robusta, capaz de conduzir investigações entre a escola e a comunidade. De fato, a DBR
para o desenvolvimento de produtos, processos,
políticas e programas educacionais, apresenta-se que necessita de intervenção e de um resultado
como caminho promissor, já somando alguns resul- de desenvolvimento prático somente possível
tados importantes, capazes de prover pesquisa de
desenvolvimento, inovação e de natureza aplicada de natureza aplicada.
em educação.
3) Colaborativa: a DBR é sempre conduzida em
A abordagem de pesquisa é nascida da pesqui-
meio a vários graus de colaboração. O desen-
sa em educação, e em particular sobre tecnologia
volvimento e a busca por uma aplicação que
educacional.
seja solução concreta para problemas dados
Muitos estudiosos da DBR pensam que se pode
obrigam à colaboração de todos os envolvidos:
comparar o processo de investigação e pesquisa
investigador, comunidade e pessoas que se
aplicada da DBR com o método empregado por
relacionam. A ideia da DBR é considerar todos
engenheiros e arquitetos, que ao mesmo tempo
como parte da equipe de pesquisa. Uma forte
aplicam perspectivas teóricas gerais, mas acabam
sempre construindo soluções adaptadas ao local,
forma compartilhada com aqueles que sofrem as
assim como aos usuários daquilo que foi construído
(REEVES, 2006; VAN DEN AKKER et al, 1999).
será sempre validada por todos os envolvidos.
Mckenney e Reeves (2012) destacam 5 carac-
Os envolvidos devem mergulhar no estudo e
terísticas da DBR:
entendimento do contexto a ser pesquisado, e
1) Teoricamente Orientada: as teorias são ponto de assim ganhem a capacidade de dialogar e de es-
partida, de chegada e de investigação na DBR. tarem engajados no problema e na comunidade
Elas se mostram como princípios de design e parceira. Nenhum conhecimento é negado, nem
modelagem para as soluções práticas demanda- o universitário nem o comunitário, mas nenhum
das. Um dos sentidos mais importantes da DBR também é posto em situação de dominância,
é utilizar uma proposta teórica como funda- e o que vai mesmo validar os resultados é a
mento para a construção do design educacional validação colaborativa de todo o processo. Há
proposto. A base teórica baseia a construção da uma base nas concepções de comunidades de
proposta prática a ser sugerida, mas também é prática na DBR (WENGER, 1998). A DBR
estudada e potencialmente melhorada e com- requer que os participantes, da comunidade e
preendida, na medida dos resultados; investigadores universitários, colaborem na
2) Intervencionista: Utiliza-se o fundamento teó-
o ensino-aprendizagem (REEVES, T, 2006).
rico escolhido e o diálogo com o contexto de
aplicação para que a pesquisa desenvolva uma
da solução é que têm a última palavra, e são
aplicação que irá intervir no campo da práxis
assim considerados.
pedagógica e pretenderá produzir: a) produtos
Wenger (1998) elaborou uma compreensão das
educacionais tais como materiais didáticos de
três maneiras de interação entre comunidade de
toda natureza e suporte; b) processos pedagó-
prática e pesquisadores:
gicos como, por exemplo, recomendações de
atitude docente, novas propostas didáticas; a) Acordo para extração de dados: processo
c) programas educacionais como currículos, conduzido pelo pesquisador externo à co-
cursos, organização de temas e didáticas, munidade, que elabora, organiza e relata a

26 Revista da FAEEBA – Educação e Contemporaneidade, Salvador, v. 23, n. 42, p. 23-36, jul./dez. 2014
Alfredo Eurico Rodrigues Matta; Francisca de Paula Santos da Silva; Edivaldo Machado Boaventura

investigação. A comunidade está engajada tem uma necessidade de contexto que pode ser
na prática estudada. O conhecimento re- resolvida por uma visão praxiológica, da forma
sultante da pesquisa pode orientar política entendida por Gramsci (2009).
apropriada e melhorar processo de constru-
5) Iterativa: a DBR, por ser uma metodologia
ção de conhecimento. A comunidade está
voltada para a construção de soluções práticas,
em acordo com a ação do investigador;
não é feita para terminar. De fato, cada desen-
b) Parceria de investigação: procedimento
volvimento é o resultado de uma etapa, de um
desenvolvido cooperativamente entre pes-
processo de arquitetura cognitiva, e necessa-
quisador e comunidade. Pesquisador está
riamente será o início do próximo momento
de aperfeiçoamento e de melhorias. Uma abor-
A comunidade está engajada e participa da
dagem baseada em ciclos de estudo, análise,
projeção, aplicação, resultados, que depois são
questão. Pesquisador e comunidade con-
reciclados, e assim quando for necessário, ou
dizem cooperativamente, pesquisa sobre
possível. Há o propósito de ser uma abordagem
os problemas e práticas para auxiliar a
-
comunidade a ser mais efetiva naquilo que
contrada. A iteração talvez seja a característica
lhe interessa. Pesquisador e comunidade
mais marcante da DBR, dando-lhe o caráter
são parceiros.
c) Acordo de coaprendizagem: elaboração e
A DBR utiliza teorias, descobertas empíricas,
pesquisador e comunidade. Pesquisador sabedoria e conhecimento colaborativo comunitá-
e comunidade, ambos participam das rio e popular, inspiração e experiências como fontes
- para criar intervenções e soluções de problemas
volvimento da prática de construção do concretos, ou seja, para conduzir uma pesquisa
conhecimento em questão. Há transfor-
mação e influência mútua pesquisador/ sujeitos engajados nestas, conduz iterativamente
comunidade. Conhecimento compartilhado a construção contínua da solução mais adequada.
e efetivo nos campos de seus interesses. A solução é iterativamente conduzida em trabalho
e aperfeiçoamento aplicado contínuo, e o conhe-
4) Fundamentalmente responsiva: a DBR é
cimento, inclusive teórico, sobre um processo de
moldada pelo diálogo entre a sabedoria dos
compreensão gradativamente aprofundado pelo
participantes, o conhecimento teórico, suas
diálogo com a práxis da comunidade envolvida.
interpretações e advindos da literatura, e pelo
Uma metodologia de pesquisa pode ser também
conjunto dos testes e validações diversas
compreendida quando se estuda o tipo de resulta-
realizadas em campo. Os avanços teóricos e
dos de sua aplicação. No caso da DBR é bastante
práticos, e os potenciais ajustes na intervenção
esclarecedora a descrição dos principais out puts
desenvolvida vão sendo desenvolvidas em diá-
da DBR presentes em Mckenney, Reeves (2012)
logo e validação pela complexidade do contexto
e em Mckenney, Nieveen, Van Der Akker (2006).
de aplicação. O conhecimento é desenvolvido
Estes autores apresentam três tipos de resultados
em estreito diálogo com a prática, em itera-
principais.
Mckenney, Nieveen e Van Den Akker (2006), 1) Existem os resultados na forma de contribui-
é por este motivo que aprofundar no contexto ção à teoria. Enquanto as pesquisas clássicas
da situação-problema é fundamental para o se preocupam em testar e provar hipóteses, a
engajamento dos investigadores que estarão, DBR se preocupa com o teste dos princípios
assim, em condição de serem validados como teóricos na prática, os princípios de design,
atores pelos sujeitos da comunidade de práxis. sempre passíveis de análise e crítica apontada
Interessa a nosso grupo de pesquisas que a DBR pela prática realizada, ou seja, este desenvolvi-

Revista da FAEEBA – Educação e Contemporaneidade, Salvador, v. 23, n. 42, p. 23-36, jul./dez. 2014 27
Design-based research ou pesquisa de desenvolvimento: metodologia para pesquisa aplicada de inovação em educação do século XXI

mento da teoria está validado naquela situação parece ser mesmo mais comum em DBR, é a re-
de aplicação. plicação da aplicação em outra situação e contexto
2) Existem resultados de âmbito social e comuni- diferente daquele da aplicação original, que acaba
tário educacional. Como a DBR é feita, todo o generalizando no formato caso a caso.
tempo, em diálogo com problemas comunitários Percebe-se, conforme Gravemeijer e Cobb
concretos, seus resultados serão sempre solução (2006), que o critério de relevância se desloca da
- -
dada pela comunidade que participa e adota a mento de soluções, inovações, práticas que possam
solução desenvolvida. servir aos engajados nas questões de pesquisa. O
que pode então ser generalizado é a forma de in-
3) Finalmente, tem-se o desenvolvimento e habi- terpretar e entender.
litação dos engajados no processo que sairão Devemos observar também que algumas pes-
da investigação munidos da experiência de sua quisas vão centrar seu interesse em pesquisar a
prática. própria intervenção, transformando aquilo a que
Perceber os tipos de resultados da DBR não se propõem na principal perspectiva de estudos.
será completo senão focar atenção na questão da Outras, por sua vez, estarão mais preocupadas em
generalização. Sendo assim, uma das premissas estudar por meio das intervenções, aquilo que vai
acontecer no contexto complexo e plural da apli-
- cação. Neste último caso, os resultados e efeitos
sibilidade de este ser generalizado e aplicável em da aplicação serão os maiores focos de estudos.
problemas outros, que não aquele que o originou Parece clara, até aqui, a importância que se dá
(MCMILLAN, SCHUMACHER, 2010). Na DBR aos ciclos de estudo, aplicação, validação na DBR.
existe uma forma alternativa de entender a genera- Isto se dá graças à proposta de desenvolvimento do
lização do conhecimento. conhecimento causal envolvido na metodologia.
Enquanto as metodologias tradicionais focam no
da capacidade e possibilidade de fazer migrar uma estudo de mecanismos ou processos causais gerais,
efetiva intervenção de nossa classe ou situação que por princípio devem relacionar as condições
de aplicação, para outras, mesmo sabendo que com os efeitos de dado processo genérico, repe-
esta efetividade sofrerá toda a sorte de uma nova tíveis e realizáveis diversas vezes, e ainda assim
rodada de ciclos de aplicação, análise e validação entendido pela mesma regra de causa-efeito, a DBR
para que possa efetivar-se neste outro contexto.
caso particular, acompanhado, realizado e validado
mais adequado às pesquisas experimentais, deve no ato da práxis, por aqueles que são a comunidade
ser substituído pelo termo replicação. Que implica de práxis envolvida e engajada no processo. Por
reconhecer que a transferência de uma solução,
ou mesmo de parte dela, de uma complexidade fato, deve ser reestudada, revalidada, iterativamente
de práxis e ação para outra situação complexa, adaptada cada vez que for aplicada. De maneira
vai requerer cuidada consideração de viabilidade que cada relação causal estabelecida em meio a
e validação. uma práxis social será sempre em parte replicável
Nessa situação há duas formas principais de e generalizável – seu design e princípios entendidos
generalização: a primeira é a que procura genera- como fonte de solução do caso anterior –, e em
lizar um conjunto particular de resultados para uma outra parte única e intransferível – o que se refere à
possibilidade de aplicação mais ampla, ampliando nova aplicação, novo contexto e nova comunidade
assim o alcance dos princípios teóricos de design, engajada (GRAVEMEIJER; COBB, 2006). Esta
- situação, assim como a possibilidade de construir
mados, ao se dar a importância que deve ser dada relações causais mais amplas, é gradativamente
ao local e aos sujeitos implicados; e a segunda, que representada na Figura 1.

28 Revista da FAEEBA – Educação e Contemporaneidade, Salvador, v. 23, n. 42, p. 23-36, jul./dez. 2014
Alfredo Eurico Rodrigues Matta; Francisca de Paula Santos da Silva; Edivaldo Machado Boaventura

Figura 1 – Ciclos de aplicação, análise, avaliação e validação da DBR

Tantas aplicações
(Curto prazo–casos)
quanto necessárias
Aplicação

Aplicação Aplicação
Aplicação

Análise e Análise e
Análise e Análise e
Avaliação, Avaliação,
Avaliação, Avaliação,
Validação Validação
Validação Validação

mais abrangentes, embora sempre questionáveis a cada novo caso de aplicação)

Fonte: Elaborada pelos autores.

Design-Based Research (DBR): Fase 1 – Análise do problema prático por pes-


aplicando a metodologia quisadores e sujeitos engajados em colaboração.
Nesta primeira fase deve-se concentrar na
Concorda-se com Herrington e colaboradores
(2007) quando defendem que se uma pesquisa uma dimensão muito particular. O problema é
tem intenção de casar um projeto teoricamente prioritariamente pensado em termos de uma so-
robusto com as necessidades e validações locais
lução aplicada a uma dada necessidade de práxis
de uma comunidade de aprendizagem, a DBR é
de processo de construção de conhecimento: uma
uma abordagem metodológica com todo potencial
forma de intervenção, o desenvolvimento de um
para fazer isto. Também há concordância com os
jogo digital ou de um artefato digital tecnológico
-
a ser utilizado; propostas de solução que poderão,
-graduandos, principalmente doutorandos, mas
também mestrandos, ou outros pesquisadores, ao terem uma aplicação validada, oferecer a so-
podem conseguir essa integração, teórico-prática, lução em práxis de uma dada situação-problema.
ao utilizar esta metodologia de investigação. Nesta O problema nasce de uma proposta de solução
seção, procura-se orientar sobre a construção de revelada como de interesse genuíno e relativo
uma proposta e condução de uma pesquisa DBR, a um processo cognitivo, validada tanto pela
inclusive para estudantes de pós-graduação stricto comunidade engajada na práxis em questão –
sensu, tendo como principal fonte o já citado texto uma escola, uma comunidade, uma organização,
de Herrington e colaboradores (2007). uma comunidade de aprendizagem – como pelo
A seguir, apresenta-se o Quadro 1, onde se investigador, que de fato assume a posição de
expõe as fases, os tópicos que pertencem a cada pertencer a esta comunidade. Lembrar que para
uma delas, e uma sugestão de posição e estru-
turação destes tópicos e fases na construção de colaboração fruto de estrito compartilhamento
uma proposta de pesquisa aplicada de metodo- de processo entre todos os envolvidos na práxis
logia DBR. referente ao problema.

Revista da FAEEBA – Educação e Contemporaneidade, Salvador, v. 23, n. 42, p. 23-36, jul./dez. 2014 29
Design-based research ou pesquisa de desenvolvimento: metodologia para pesquisa aplicada de inovação em educação do século XXI

Quadro 1 – Fases da pesquisa DBR e elementos para a construção do documento de Proposta da Pesquisa
FASES DA DBR TÓPICOS POSIÇÃO DA PROPOSTA
Fase 1: Análise do problema por
investigadores, usuários e/ou -
Consulta recíproca entre
demais sujeitos envolvidos em sujeitos engajados na práxis e ção, ou Fundamentação, ou Contexto.
colaboração. investigadores.
Questões de pesquisa. Questões de pesquisa.
Contextualização e/ou revisão de
Contexto, ou Revisão de Literatura.
literatura.
Fase 2: Desenvolvimento da Construção Teórica.
proposta de solução responsiva Desenvolvimento de projeto de
aos princípios de design, Quadro teórico.
princípios para orientação do plano
às técnicas de inovação e de intervenção.
à colaboração de todos os Descrição da proposta de
envolvidos. Metodologia.
intervenção.
Fase 3: Ciclos iterativos de Implementação da intervenção
(primeira iteração).
práxis da solução. Participantes.
Coleta de informações.
Análise das informações.
Implementação da intervenção Metodologia.
(segunda iteração).
Participantes.
Coleta de informações.
Análise das informações.
Princípios de design.
“Princípios de Design” e
melhorar implementação da Artefato(s) implementado(s). Metodologia.
solução.
.
Fonte: Elaborado pelos autores.

Assim como em outras metodologias, as ques- vai facilitar o desenvolvimento dos princípios de
tões de pesquisa emergem do problema. Em DBR intervenção, bases da construção da aplicação, para
ele está relacionado com as considerações sobre que os projetistas possam considerar-se imersos no
práticas inadequadas existentes, ou com a perspec- problema e na comunidade de práxis envolvida,
tiva de propostas de práticas responsivas às vali- já que estarão assim entendendo e engajados em
dações da comunidade de práxis ou aprendizagem uma situação compartilhada de problema e busca
engajada na solução desejada. Uma opção comum de solução, legitimando-se assim como partes
para estudantes de pós-graduação, para Herrington implicadas, e a partir da busca da solução, em si-
e colaboradores (2007), é desenvolver questões tuação de colaboração ativa e válida segundo suas
relacionadas à fase e organização de construção próprias vivências. Portanto, a contextualização
do Quadro 1. da DBR é muito mais que a tradicional elabora-
Van Den Akker (1999) nota que a DBR desen- ção de Revisão de Literatura, estando, segundo se
volve e, de fato, necessita de uma mais intensiva interpreta, muito próxima da prática colaborativa
de compreensão e construção de conhecimento
problemas, contextos relacionados à pesquisa e à e práxis das comunidades. É desta forma que se
comunidade engajada na solução a ser aplicada, interpreta estar a DBR muito próxima, no que
incluindo a busca por uma mais acurada e expli- se refere à forma de proceder, à construção do
cita conexão entre o contexto e diálogos com a conhecimento, das propostas praxiológica desen-
literatura existente. É esta contextualização que volvidas a partir de Gramsci (1995, 2009), e que

30 Revista da FAEEBA – Educação e Contemporaneidade, Salvador, v. 23, n. 42, p. 23-36, jul./dez. 2014
Alfredo Eurico Rodrigues Matta; Francisca de Paula Santos da Silva; Edivaldo Machado Boaventura

continuam em desenvolvimento neste início de o passo seguinte será a implementação e avaliação


século XXI (MARTINS, 2008). A contextualidade da intervenção em ação. A DBR é uma abordagem
a ser construída deve desenvolver-se na direção do de pesquisa, e não um método propriamente dito,
situar legítima e colaborativamente a investigação e por isso métodos qualitativos ou quantitativos
e investigadores, acadêmicos ou outros sujeitos podem ser utilizados na medida em que forem
comunitários, em situação de compartilhamento interpretados como relacionados aos fenômenos
do processo vivenciado e ao qual se deseja aplicar em estudo, e voltados para a aplicação prática e
uma solução, construindo assim uma dialética de seu desenvolvimento. A proposta de pesquisa em
construção legítima, e colaborativamente válida, construção deve revelar estes métodos e processos
participação em comunidade de práxis. Novos quantitativos ou qualitativos que serão usados no
desdobramentos e situações de pesquisa podem estudo. A proposta deve incluir também análises
provocar novas necessidades de estudos de contex- sobre a possibilidade, e até mesmo sobre a con-
to e de teoria. Esta primeira fase pode também ser
interpretada como um primeiro ciclo de construção de metodologias nas fases de coleta e análise do
de conhecimento iterativo. andamento do estudo.
Fase 2 – Desenvolvimento de soluções cons- A respeito das iterações, a DBR assume que
truídas a partir dos princípios de design existentes uma única implementação de solução raramente
e de inovações.
Para elaborar soluções aplicadas é necessário de uma intervenção. Um estudo DBR deve ter dois
assumir uma posição teórica comunitária, que ou mais ciclos de aplicação, os quais vão, a partir
assuma os propósitos de engajamento dos sujeitos da análise da aplicação anterior, provocar altera-
envolvidos no problema. Esta posição teórica, sem-
pre validada em diálogos com a comunidade, vai assim vai se desenvolvendo. A proposta da DBR
servir de princípio para a construção da proposta é aplicar e solucionar, e não provar alguma coisa.
de aplicação. A teoria deve ser validada como me- É nesta perspectiva que para a abordagem DBR o
diação de compreensão do contexto pelo coletivo contexto deve ser entendido como um meio para
envolvido, tendo inclusive a possibilidade de ser
base para transformações nas práxis dos sujeitos. A
construção da posição teórica deve estar direciona- além do ajuste imediato. Em razão da natureza
da para a elaboração de um conjunto de princípios altamente situada da DBR, os participantes da
que serão utilizados para elaboração da proposta de investigação são fundamentais. A DBR não é uma
aplicação, que assim ganhará uma primeira versão atividade que um pesquisador pode realizar isola-
damente. Na maioria das vezes, os participantes
interpretação, trata-se de uma segunda iteração, na são sujeitos implicados na prática aplicada que está
qual os caminhos e contextos apontados na Fase sendo implementada – são pessoas envolvidas com
1 são analisados segundo os princípios teóricos a comunidade de aprendizagem que é o foco ou
para que possa existir a modelagem primeira da contexto para o estudo. Pois é assim que o diálogo
aplicação desejada. Esta proposta embrionária, de avaliação e validação de cada ciclo de aplicação
já construída a partir de uma posição teórica do deve ter como regra a responsividade em relação à
coletivo, deverá então ser trabalhada a partir do comunidade envolvida e suas questões.
- O levantamento de dados pode envolver coleta
sulta e colaboração entre investigadores e demais de natureza quantitativa e/ou qualitativa, e deve
sujeitos participantes, e assim atender ao caráter também ser realizado em ciclos. Os tipos de dados
necessariamente responsivo da DBR. e métodos de coleta podem variar por ciclo, ou
- por outro critério, contanto que bem articulados
mento da solução em práxis da solução. com o conjunto da investigação e sempre bem
Uma vez que um ambiente de aprendizagem ou acompanhados. Lembre que enquanto o método
intervenção tenha sido projetado e desenvolvido, experimental primeiro procura o controle da inves-

Revista da FAEEBA – Educação e Contemporaneidade, Salvador, v. 23, n. 42, p. 23-36, jul./dez. 2014 31
Design-based research ou pesquisa de desenvolvimento: metodologia para pesquisa aplicada de inovação em educação do século XXI

tigação, a DBR prefere acompanhar os processos um potencial de generalização dialógico, bastante


investigados. Os ciclos subsequentes não podem aplicado, e capaz de transformar seu potencial de
ser descritos, pois dependem das avaliações do generalização, mesmo limitado, em desenvolvi-
primeiro ciclo. Apesar disso é possível descrever mento de aplicações concretas, responsivas ao
a natureza cíclica, a previsão de avaliações e pos- comunitário, e sempre realizados em diálogo com
síveis correções na aplicação, o que vai robustecer os conhecimentos locais. Os avanços práticos vão
a proposta da pesquisa. acontecendo a partir da replicação dos princípios
que sempre dialogam com a comunidade, e o co-
perspectivas de novos melhoramentos na solução nhecimento vai avançando em práxis comunitárias.
implementada. Por outro lado, em DBR, os produtos resultados
Aplicar DBR implica como resultados: a) novos da pesquisa são de importância decisiva, a ponto
conhecimentos; e b) novos produtos. No momento de, sem eles considerar-se com relativo insuces-
em que se escreve a proposta de pesquisa, é difícil so o procedimento de investigação. Os artefatos
resultantes design podem ser softwares, desenvol-
Entretanto, descreve-se a visão do momento do seu
processo de desenvolvimento, o que será de grande comunitário ou outro pertinente ao processo cog-
valia para dimensionar a pesquisa. O resultado da nitivo estudado, mas sempre de natureza prática e
realizados em práxis social.
a forma de Princípios Teóricos, ou de Design, Ao recomendar um sumário elementar para uma
resultante da heurística evidenciada pela práxis da pesquisa DBR, apenas acrescento uma seção de Con-
aplicação desenvolvida. siderações Éticas, pois o investigador deve dialogar
Do ponto de vista da ciência tradicional, o po- a respeito das possibilidades de impacto de sua pes-
tencial de generalização da DBR é bastante limita- quisa na comunidade parceira. Uma Linha do Tempo,
do. Ao contrário, quando se pensa na possibilidade ou cronologia, é parte indispensável de uma proposta
de construção gradativa e replicação contextuali- DBR. Além disso, é considerar as quatro fases.
Para encerrar, apresenta-se a seguir uma orga-
do diálogo prático entre as teorias e a validação co- nização recomendada de sumário de proposta de
munitária, percebe-se que estes resultados contêm pesquisa DBR.

Quadro 2 – Fases da pesquisa DBR e elementos para a construção do documento de Proposta da Pesquisa
Sumário para Proposta de Pesquisa DBR

mútua entre investigadores e sujeito engajados na práxis em questão na pesquisa.


2. Questões de pesquisa.
3. Contexto ou Revisão de Literatura – preliminar.
4. Quadro teórico.
a. Esboço de princípios teóricos de orientação para o projeto de intervenção.
5. Metodologia
a. Descrição da proposta
b. Detalhamento da proposta de intervenção
c. Implementação da intervenção - primeira iteração
i. Participantes
ii. Procedimentos para levantamento de informações
iii. Procedimentos de análise de informações
iv. Procedimentos de revisão da intervenção
d. Implementação da intervenção - segunda e posteriores iterações
i. Participantes

32 Revista da FAEEBA – Educação e Contemporaneidade, Salvador, v. 23, n. 42, p. 23-36, jul./dez. 2014
Alfredo Eurico Rodrigues Matta; Francisca de Paula Santos da Silva; Edivaldo Machado Boaventura

ii. Procedimentos para levantamento de informações


iii. Procedimentos de análise de informações
iv. Procedimentos de revisão da intervenção

6. Considerações éticas
7. Linha do tempo ou cronologia
8. Recursos Necessários
Fonte: Elaborado pelos autores.

DBR em práxis desenvolvimento de um projeto DBR que as acolhe

A DBR chegou aos grupos de pesquisas como socioconstrutivistas e de design geral do jogo em
uma solução melhor estruturada daquilo que já 2011 (CABALERO et al, 2012). Depois disto, assu-
se fazia. Foi assim que se associou experiências mindo os princípios de design socioconstrutivistas
anteriores em pesquisa aplicada como pertencente e o jogo RPG By Moodle em seu formato original
ao quadro e perspectiva epistemológica da DBR, como princípios de design, desenvolveram-se os
fato comprovado pela continuidade das propostas ciclos de pesquisa. O primeiro foi a pesquisa de
e investigações, com apenas alguns ajustes, a partir Mestrado de Eudes Vidal (2013), que desenvolveu
do momento em que a metodologia começou a aplicação do jogo para o ensino de História sobre
fazer parte de práxis dos grupos explicitamente. É a Guerra de Canudos a estudantes de História do
desta forma que se faz, a seguir, as apresentações sertão da Bahia. A segunda foi o também trabalho
das experiências práticas com a DBR. de mestrado de Isabele Sodré (2013), que aplicou
o jogo digital ao ensino sobre cidadania e pluricul-
RPG By Moodle turalidade a estudantes do ensino fundamental em
Desde 2007, os grupos têm se debruçado sobre escolas de bairros populares da cidade do Salvador.
uma concepção de jogo digital educacional com Estão em curso aplicações do jogo para o ensino
processos de ensino-aprendizagem on-line pouco em Segurança Pública da Polícia Militar da Bahia,
explorados até o momento. O RPG By Moodle outra para a aprendizagem de ações sobre Turismo
foi desenvolvido primeiramente como modelo de de Base Comunitária em escolas secundárias, e ou-
jogo digital que simulava em rede internet, e em tros projetos em andamento. Desta forma estamos
diálogo com o sistema de gestão da EAD, Moo- transformando cada nova aplicação do RPG By
dle (MOODLE, 2013), os jogos RPG de mesa,
tais como o D&D (WARNER BROSS, 2014) e o sobre a aplicação e desenvolvendo pesquisas DBR
GURPS (STEVEN JACKSON GAME, 2014). A envolvendo vários níveis de complexidade de in-
ideia é desenvolver em rede um sistema gestor para vestigação de nosso grupo de pesquisa, incluindo
realização deste tipo de jogo via internet, on-line aí mestrandos e doutorandos.
e à distância. Um RPG para uso em Educação a
Distância (EAD) e em educação on-line. A adoção Museu Virtual por Modelagem 3D
da DBR aconteceu de forma que se realizaram os Outro trabalho foi desenvolvido na pesquisa
sobre Simulações, Modelagem 3D e Museu Virtual,
Moodle a cada momento em que uma nova pesqui- o qual está em curso. Da mesma forma, utilizamos
sa aplicada se desenvolvia. Ou seja, cada aplicação o design cognitivo socioconstrutivista como prin-
está ligada a um estudo de doutorado ou mestrado, cípio de design para a construção de modelos 3D
ou a uma pesquisa por demanda do jogo educacio- dialógicos desenvolvidos para o apoio ao ensino
nal. As dissertações resultantes, embora singulares, e estudos da História. Dois trabalhos foram de-
no sentido de serem da responsabilidade de um senvolvidos por dois mestrandos sobre a cidade
mestrando, ou doutorando, compõem ciclos de do Salvador em 1551. A construção dos projetos

Revista da FAEEBA – Educação e Contemporaneidade, Salvador, v. 23, n. 42, p. 23-36, jul./dez. 2014 33
Design-based research ou pesquisa de desenvolvimento: metodologia para pesquisa aplicada de inovação em educação do século XXI

também foi feita de forma a transformar cada in- a valorização da cultura comunitária; uma maior
consideração da sabedoria dos moradores mais
da aplicação do Museu Virtual. Maria Antônia antigos; uma dinâmica comunitária representada
Gomes (2011) iniciou trabalhando o Museu Virtual pelos saberes, sabores e fazeres dessa gente, que
aplicado à situação de visitas em uma página WEB
aberta ao público. Uma segunda pesquisa foi rea- turística. Esta atividade será complementar à renda
lizada por Kleber Freitas (2012), desenvolvendo a dos envolvidos. Este é o maior legado que a uni-
aplicação 3D para uso em um curso de Educação versidade enquanto gestora da educação superior
a Distância. Destas duas aplicações iniciais, agora poderia deixar para estas comunidades. A comuni-
estamos desenvolvendo a aplicação dos mesmos dade é sujeito investigador, parceira de igual para
princípios para o desenvolvimento de um Museu igual com os investigadores da academia.
Virtual Modelagem 3D sobre o Teatro São João,
e outro que está sendo construído sobre o antigo Conclusão
Quilombo Cabula.
Em conformidade com o que apresentamos, in-
Turismo de Base Comunitária terpreta-se o grande potencial, que apenas desponta
O projeto Turismo de Base Comunitária foi atualmente, para que a DBR possa ser aplicada na
elaborado a partir de experiências articuladas entre direção de construir propostas de melhoramento
ensino, pesquisa e extensão, e de percepção da falta e de aplicação de soluções práticas, cujo ponto
de articulação entre ações realizadas nas comuni- forte será a validação comunitária, e até mesmo a
dades dos bairros populares localizados no entorno parceira e coautoria dos sujeitos da comunidade,
da Universidade do Estado da Bahia. que desta forma, ao lado, e tendo a metodologia
O escopo principal desse projeto é construir,
com as comunidades do Cabula, caminhos alterna- contar com este aporte para que se possa desen-
tivos para o desenvolvimento local sustentável, a volver as soluções tão demandadas hoje em dia.
partir do turismo de base comunitária e da econo- Interpretamos que a DBR acaba pondo em diá-
mia solidária, visando à formação de redes sociais logo produtivo e prático o conhecimento universitá-
cooperadas, organização dos arranjos produtivos
locais, empoderamento social, cultural, ambiental, maneira que os dois passam a ser parceiros respei-
político, econômico e do legado de grupos de etnias tados e companheiros de construção para benefício
indígenas e de origens africanas. mútuo. O principal é que a DBR considera o saber
As ações estão se desenvolvendo em eixos. No comunitário com a última instância, e isso contri-
que se refere à DBR, cada eixo do projeto, com bui para que a comunidade não seja invadida ou
um foco especializado, é um ciclo de pesquisa e tolhida, muito menos invalidada ou ainda abduzida
investigação da aplicação dos princípios de sus- de seus valores e saberes, frequentemente, até hoje,
tentabilidade, economia solidária, empoderamento desapropriados e distorcidos. A necessidade da va-
e outros. lidação e controle por parte da comunidade obriga a
O projeto considera desde a sua origem uma DBR a adotar outra ecologia cognitiva, baseada no
participação das comunidades dos bairros, de
modo que todos sejam protagonistas do processo forma submetido ao saber comunitário.
Esperamos que este potencial possa revelar-se
moradores das comunidades, para que possa haver nos próximos anos.

REFERÊNCIAS

AMIEL, T.; REEVES, T. C. Design-Based Research and educational technology: rethinking technology and the
research agenda. Educational Technology & Society, Athabasca, v. 11, n. 4, p. 29-40, Oct. 2008.

34 Revista da FAEEBA – Educação e Contemporaneidade, Salvador, v. 23, n. 42, p. 23-36, jul./dez. 2014
Design Based Research – Considerações Teórico Metodológicas 2

• realizar investigação rigorosa e reflexiva para testar e aperfeiçoar ambientes de


aprendizagem inovadores.
No início dos anos 90, a metodologia de Design-Based Research já tinha uma longa
história no desenho de pesquisas científicas em campos como o da Engenharia, contudo era nova
para a maioria dos pesquisadores em Educação.
Esse tipo de metodologia de pesquisa foi trazido especificamente para a Educação
Matemática, porque as formas características de desenvolver investigações e os modelos de
outras áreas, tais como a Filosofia e a Psicologia, nem sempre se mostraram adequados, uma vez
que não foram criados para analisar especificamente o conhecimento matemático, porém eram
usados também para esse fim. Modelos que se propusessem a análise do desenvolvimento do
pensamento matemático tornaram-se necessários para que se considerasse o progresso dos
sujeitos envolvidos na pesquisa.
Segundo Karrer (2006),
(...) a metodologia experimental utilizada antes dos experimentos de ensino
procurava selecionar uma amostra de sujeitos e submetê-los a diferentes
tratamentos. Os efeitos de um tratamento eram comparados com os efeitos de
outros, com a intenção de especificar as diferenças entre eles. Os pesquisadores
formulavam possíveis fatores que poderiam ser variados sistematicamente, de
modo que houvesse uma variação correspondente em outras variáveis. Este tipo
de experimento, classificado como desenho clássico experimental, omitia a
análise conceitual, ou seja, os sujeitos eram considerados recipientes de
tratamento e usualmente não eram o foco de análise (p.198).
Karrer (2006) sugere que o desenho clássico experimental, utilizado em Educação
Matemática antes dos experimentos de ensino, resumia-se a selecionar dois grupos de sujeitos,
submetê-los a diferentes intervenções e comparar os resultados dessas intervenções. Nesse tipo
de experimento, os sujeitos não eram o foco de análise e sim as intervenções feitas com eles, ou
seja, quando o pesquisador formulava variáveis para o experimento, ele o fazia focando as
intervenções feitas com os grupos de sujeitos.
Um projeto de pesquisa baseado em Design-Based Research tal como concebido por Ann
Brown (1992) é introduzido com a expectativa de analisar processos de aprendizagem de
domínios específicos, entretanto não se trata de uma coleção de atividades direcionadas à
aprendizagem de um determinado domínio, salienta-se então que não se trata simplesmente de
uma sequência de atividades. Na verdade, para esse tipo de metodologia, criou-se o termo
“ecologia de aprendizagem” no sentido de representar um sistema complexo e interativo
envolvendo múltiplas variáveis de diferentes tipos e níveis. Nessa “ecologia de aprendizagem”
devem-se levar em consideração as questões a serem propostas aos sujeitos de pesquisa além do
discurso a ser desenvolvido, os materiais que serão utilizados, as ferramentas e os significados
das relações entre todos esses elementos.
Segundo Lesh1 (2008), os projetos de Educação Matemática que emergem do Design-
Based Research têm características especiais. Para esse autor, tal metodologia provou ser
produtiva na investigação da adaptação e da interação das “ecologias de aprendizagem” que

1
Palestra proferida por Richard Lesh no ICME - 2008, México. Richard Lesh é um dos autores do livro A Handbook of
Research Design in Mathematics and Science Education.

XIII CIAEM-IACME, Recife, Brasil, 2011.


Design Based Research – Considerações Teórico Metodológicas 3

promovem o desenvolvimento do conhecimento matemático em estudantes e também em


professores, como é o caso dessa pesquisa. Para esse autor, o Design-Based Research também é
importante na divulgação e implementação de programas inovadores de formação de professores
em Educação Matemática.
Os projetos de pesquisa que têm o Design-Based Research como metodologia visam
aumentar radicalmente a relevância da pesquisa para a prática, envolvendo os sujeitos de
pesquisa em diferentes papéis durante todo o processo de investigação. Para Lesh (ibid),
estudantes, professores, cursos, currículos, materiais didáticos e mentes são sistemas complexos
que, não devem ser observados isoladamente, pois quando isso ocorre, a observação corre o risco
de deixar o conjunto – “ecologia de aprendizagem” – defasado. Esse conjunto citado por Lesh
(ibid) é dinâmico, interativo, autorregulável e permanece em adaptação contínua durante todo o
processo, pois cada feedback produz efeitos que direcionam as próximas intervenções.
Segundo Cobb (2003), são cinco as características do Design-Based Research:
• Desenvolve teorias tanto sobre o processo de aprendizagem quanto sobre os materiais que
são utilizados para dar suporte à aprendizagem.
• Existência de uma natureza intervencionista que objetiva investigar possibilidades de
novas formas de aprendizagem visando mudanças educacionais.
• Envolve a revisão contínua do design do projeto que se mostra flexível, uma vez que há
um conjunto de tentativas iniciais que são revistas em função do seu sucesso na prática, ou
seja, essa metodologia tem dois aspectos: o prospectivo e o reflexivo. Assim, o
pesquisador interage no sistema continuamente dotando-o de um movimento cíclico.
Assim, no Design-Based Research existem momentos de redesign. (Ver o quadro Ciclos
de redesign que se encontra a seguir).
• Quebra da visão tradicional em que pesquisador, professores e alunos desempenham
papéis fixos no processo.
• O Design-Based Research é pragmático, pois as teorias que envolvem as atividades estão
relacionadas a um domínio específico.
Considera-se o Design-Based Research como método científico de investigação quando o
foco do pesquisador está no pensamento matemático dos sujeitos e nas modificações desses
pensamentos que podem ocorrer durante o processo. Para que a atitude do pesquisador seja
coerente com essa metodologia, ele deve criar situações para que haja possibilidade de mudança
nos esquemas matemáticos usuais dos sujeitos.
Para o Design-Based Research, os registros não necessitam ser feitos de uma única forma,
ao contrário, podem ser registros escritos, gravados, fotografados, filmados e, no caso de uma
pesquisa em ambiente computacional, também se aceitam os arquivos salvos dos episódios de
ensino. Na presente pesquisa, são utilizados todos esses métodos, inclusive os registros em vídeo
que, como destacam Steffe & Thompson (2000), são muito importantes para visualizar as
expressões dos sujeitos durante as atividades do processo de formação, principalmente nos
trabalhos em que o pesquisador assume um duplo papel: o de professor-pesquisador – que é o
caso da presente pesquisa – esclarecendo que:
Observações cuidadosas dos vídeos oferecem aos pesquisadores a oportunidade
de ativar os arquivos das experiências passadas com os estudantes e trazê-los à

XIII CIAEM-IACME, Recife, Brasil, 2011.


Design Based Research – Considerações Teórico Metodológicas 4

consciência. Quando os pesquisadores reconhecem a interação como tendo sido


vivenciada antes, interpretações passadas das atividades dos estudantes que
foram feitas de forma superficial podem ocorrer novamente ao professor
pesquisador (Steffe & Thompson, 2000, p. 54).
No Design-Based Research, os registros de cada momento de ensino são utilizados para a
elaboração dos próximos, assim como também, são utilizados na análise dos momentos de
ensino já vivenciados. Realizando-se essa análise, é possível fazer um redesign dos próximos
momentos de ensino.
A intenção dos investigadores é permanecerem atentos às contribuições dos
estudantes para a trajetória de interações de ensino e para os estudantes testarem
as hipóteses de pesquisa seriamente... Os investigadores voltam retroativamente
às hipóteses de pesquisa depois de completar os episódios de ensino (Steffe &
Thompson, 2000, p. 273).
Como bem esquematizou Signorelli (2007) no quadro abaixo, o Design-Based Research
apresenta ciclos de redesign.

Quadro 1: Ciclos de redesign (Signorelli, 2007, p.51)

Observa-se, pela análise do quadro, que, no ciclo existem momentos de preparação do


experimento seguidos de momentos de atuação. A atuação é, então, analisada por um processo
reflexivo que pode gerar modificações no experimento para nova atuação e o ciclo continua.
O Design-Based Research utiliza-se de resultados de intervenções anteriores para preparar
o design da próxima intervenção que se deseja fazer, entretanto é no momento em que, de fato,
ocorre a investigação que se verifica se esta última funciona naquele contexto. A vantagem
dessa metodologia é que a cada experimento tem-se a chance de se fazer análises, reflexões e
modificações para as próximas intervenções, ou seja, tem-se a chance de um redesign dos
próximos experimentos.
2. Descrição da Pesquisa

Esta investigação teve como cenário um processo de educação continuada que recebeu o
nome de curso “Geometria em Ação”2 cujo objetivo era desenvolver conhecimentos
matemáticos de professoras dos anos iniciais do Ensino Fundamental I (1º a 5º anos) sobre
Figuras Planas de modo a contribuir com o processo de formação docente. O projeto foi
endereçado a um grupo de professoras que ensinam Matemática nos primeiros anos do Ensino
Fundamental e realizado na escola, ou seja, em seu local de trabalho.

2
O “Curso Geometria em Ação” - que foi o contexto da pesquisa de mestrado da primeira autora,
orientada pela segunda autora - integra o Projeto 3314: Educação continuada de professores de
matemática do ensino fundamental e médio: constituição de um núcleo de estudos e investigações de
processos formativos do Programa Observatório da Educação CNPq/ INEP/SECAD.

XIII CIAEM-IACME, Recife, Brasil, 2011.


Design Based Research – Considerações Teórico Metodológicas 5

A pesquisa teve como sujeitos uma pesquisadora da Universidade3, quatro professoras que
ensinam Matemática numa escola particular de São Paulo, e a coordenadora dessa mesma escola.
2.1 Caracterização do Colégio EB4

O Colégio EB oferece uma boa infra estrutura em tecnologia educacional, fato esse que
auxiliou o desenvolvimento do projeto de formação. Localiza-se na cidade de São Paulo, é da
rede privado e foi fundado há 105 anos. Do período da sua fundação até os dias de hoje, vem
atendendo alunos desde a Educação Infantil até os Ensinos Fundamental e Médio.
O Colégio, no ano letivo em que a pesquisa foi desenvolvida, funcionava somente em dois
períodos: manhã e tarde. Havia 27 classes regulares, das quais sete destinavam-se ao Ensino
Fundamental ciclo I do período matutino e quatro do período vespertino.
O Laboratório de Informática, que foi o lócus do curso “Geometria em Ação”, contava
com 15 computadores equipados com vários softwares educacionais, dentre eles o Cabri-
Géomètre, acomodando 30 alunos para trabalharem em duplas. A existência desse laboratório foi
fundamental para o desenvolvimento da pesquisa de formação continuada com o uso didático da
ferramenta de Informática.
Vale ressaltar que procuramos o Colégio na pessoa da diretora e esta, por sua vez, aceitou e
viabilizou a realização do processo formativo.
2.1.1 O corpo docente e a coordenação pedagógica
O corpo docente constituía-se por vinte e oito professores formados em curso superior com
significativo tempo de experiência de magistério. Desses professores, quinze atuavam no Ensino
Fundamental I. Quanto à coordenadora pedagógica, seu papel era o de promover a interação
entre os professores e desenvolver com eles trabalhos coletivos.
Para tanto, os professores do Colégio EB tinham todas as segundas-feiras reservadas para
reuniões com a coordenação. Nessas reuniões de trabalho pedagógico, os professores podiam
trocar experiências e criar, em conjunto, atividades para suas classes.
As ações do coordenador pedagógico não se esgotavam nas reuniões com os professores,
ele também se reunia com os pais dos alunos para tratar do desenvolvimento pedagógico de seus
filhos. Além disso, também tinha a responsabilidade de escolher os projetos pedagógicos a serem
desenvolvidos no espaço da escola.
No caso da Coordenadora do Colégio EB, seu papel na pesquisa que subsidia este artigo
foi bastante importante. Ela atuou como formadora do grupo, aprendiz e também gerenciou os
problemas que aconteceram naquele ano5 e que influenciaram no andamento do projeto de
formação. No ano letivo de 2009 o colégio desenvolvia outros cinco projetos, ou seja, seu corpo
técnico-pedagógico estava imerso em uma cultura de trabalho em grupo e de desenvolvimento de
projetos. Essa filosofia de trabalho colaborou para que o curso Geometria em Ação fosse
incorporado pelo corpo docente. Nesse contexto, entende-se que também era do interesse da

3
No caso, a primeira autora desse artigo.
4
Nome fictício utilizado para preservar a identidade do Colégio e de seus corpos docente e discente.
5
No ano em que se deu o curso, houve um surto de gripe A que modificou a data das férias escolares.

XIII CIAEM-IACME, Recife, Brasil, 2011.


Design Based Research – Considerações Teórico Metodológicas 6

instituição o desenvolvimento do projeto cujo público alvo eram as professoras do Ensino


Fundamental I.

2.2 Levantamento de dados e documentação

O projeto de formação continuada no Colégio EB foi proposto por nós e havia sido
inicialmente planejado para onze elementos em encontros semanais de uma hora e meia durante
um ano letivo. O grupo inicial, não se manteve assim ao longo de todo o projeto de formação,
pois algumas professoras, alegando motivos pessoais, se afastaram, ficando o grupo, dessa
forma, reduzido a quatro professoras e à pesquisadora da Universidade.
O Design Research foi fundamental para a pesquisa uma vez que, ao longo do caminho,
diversas situações problemáticas exigiram readequação do planejamento inicial. Com efeito, as
particularidades do lócus escolar interferiram e modificaram o planejamento. Assim sendo, durante
o ano letivo de duração do projeto, aconteceram fatos inesperados que interferiram na
formação,decisões foram tomadas, em conjunto com as participantes, a fim de realizar uma
adequação do projeto com a análise situacional do momento. É importante pontuar que a proposta
original teve diversas modificações que foram incorporadas, ao longo da implementação, de
acordo com o feedback obtido a cada intervenção e com a análise que a formadora fazia das
reações das professoras frente às atividades propostas.

2.3 O primeiro design do processo formativo


Para o curso, foram elaboradas atividades a respeito do tema Figuras Planas que
procuravam contemplar as duas formas de trabalho com Geometria Dinâmica descritas por
Gravina (1996) quais sejam: (i) os próprios alunos constroem as figuras (atividades de
expressão); (ii) o professor entrega as figuras prontas aos alunos para que estes possam
reproduzi-las (atividades de exploração).
Os encontros aconteceram no próprio local de trabalho dos sujeitos de pesquisa, mais
precisamente no ambiente informatizado desse colégio. O Grupo Geometria em Ação reuniu-se
ao longo de um ano letivo, com sessões semanais de 1h30min de duração cada uma.
O design inicial completo da formação para o Grupo “Geometria em Ação” tomou por base a
pesquisa de Lobo da Costa (2004) sendo dividido em quatro etapas resumidas conforme segue:
Etapa A
• apresentação e discussão da proposta de curso.
• aplicação de um questionário para levantamento do perfil dos professores, bem como
informações do uso que fazem de metodologias inovadoras durante as práticas
pedagógicas.
• realização de oficinas para desenvolvimento da temática Figuras Planas, utilizando
atividades tanto fora do contexto computacional quanto com o software Cabri-Géomètre.
• confecção, pelas participantes, de um "Diário de Bordo" para o registro de observações e
análises didáticas.
Etapa B
• elaboração de atividades.

XIII CIAEM-IACME, Recife, Brasil, 2011.


Design Based Research – Considerações Teórico Metodológicas 7

• preparação de uma sequência didática a ser aplicada com os alunos


• criação de protocolo para observação da aplicação da sequência didática
Etapa C
• aplicação em sala de aula da sequência anteriormente elaborada
• acompanhamento do desenvolvimento da sequência, utilizando para isso, tanto os
protocolos criados, quanto observação pessoal das professoras em relação à atitude dos
alunos durante a realização das atividades - as formas de resolução, acertos, dificuldades
e evolução dos alunos
Etapa D
• reflexão e discussão em grupo sobre a aplicação da sequência.

Em relação ao conteúdo a ser discutido, o primeiro design do curso “Geometria em Ação”


teve, como ponto de partida, os “entes geométricos fundamentais” da Geometria Euclidiana,
perpassando por reflexões a respeito de segmentos, posições relativas entre duas retas
coplanares, e polígonos – em especial triângulos e quadriláteros.
Esse design foi elaborado de modo a utilizar as ferramentas de texto, criação, medida,
animação e macroconstruções do Cabri-Géomètre.
Um resumo do planejamento inicial do conteúdo do curso Geometria em Ação encontra-se
no quadro a seguir.

Quadro 2: Resumo do planejamento inicial do Curso “Geometria em Ação”


Conceitos Geométricos Cabri-Géomètre
P Ponto, reta, plano. Todas as ferramentas de desenho e animação e as
Segmentos. seguintes ferramentas de texto: etiqueta, texto e
L
Retas paralelas e retas número.
A perpendiculares. As seguintes ferramentas de criação: ponto, ponto
N Polígonos. sobre um objeto, ponto de intersecção, reta, segmento,
Triângulos (soma dos ângulos semirreta, triângulo, polígono, polígono regular, reta
E internos, condição de existência, perpendicular, reta paralela, ponto médio, bissetriz,
J segmentos notáveis, congruência e compasso, transferência de medidas.
semelhança – demonstrações). As seguintes ferramentas de medida: distância ou
A Quadriláteros (soma dos ângulos comprimento, medida de ângulo, calculadora e área.
D internos, diagonais do quadrado, As seguintes construções geométricas de polígonos:
diagonais do retângulo, diagonais do triângulo isósceles, triângulo equilátero, quadriláteros
O losango, ângulos opostos dos (trapézios isósceles e retângulo ; paralelogramos -
paralelogramos, lados opostos dos quadrado, retângulo, losango).
paralelogramos, trapézios) Macroconstruções.

Esse planejamento inicial foi se ajustando e modificando durante o processo de formação.


Dessa forma, observa-se a importância da metodologia do Design Research que permite essa
flexibilização e adequação às necesidades do grupo.
O quadro abaixo exibe os tópicos que, de fato foram abordados durante a formação.

XIII CIAEM-IACME, Recife, Brasil, 2011.


Design Based Research – Considerações Teórico Metodológicas 8

Quadro 3: Assuntos abordados durante o curso


Conceitos Geométricos Cabri-Géomètre
D Ponto, reta, plano. Todas as ferramentas de animação e
E Segmentos. desenho a exceção de: novos eixos e
S Retas paralelas e aparência.
E perpendiculares. Ferramentas de criação: ponto, ponto
N Polígonos. sobre um objeto, ponto de
V Simetria. intersecção, reta, segmento,
O Translação. semirreta, vetor, triângulo, polígono,
L Triângulos (soma dos ângulos polígono regular, reta perpendicular,
V internos, condição de existência, reta paralela, ponto médio e bissetriz.
I segmentos notáveis). Ferramentas de medida: distância ou
D Quadriláteros (soma dos comprimento, medida de ângulo e
O ângulos internos, ângulos calculadora.
opostos dos paralelogramos, Construções geométricas de
lados opostos dos polígonos: quadrado
paralelogramos)

Observa-se que houve mudanças entre o que fora planejado inicialmente e o que de fato foi
desenvolvido durante a formação. Tais mudanças foram ocorrendo por analisarmos, a cada
sessão, as expectativas do grupo. Por exemplo: uma das etapas do Curso “Geometria em Ação”
era o planejamento de aulas para os alunos, com o uso do software Cabri-Géomètre. Essas aulas
deveriam ser sobre algum assunto presente no planejamento das professoras feito no início do
ano letivo. A pedido delas foram incluídos dois temas que não estavam no planejamento do
curso, quais sejam: simetria e translação. Por outro lado, as professoras mostraram-se abertas a
discutir com maior profundidade e por mais tempo alguns temas que costumavam trabalhar com
seus alunos. Dentre eles podemos citar o tema Polígonos que gerou reflexões bastante profundas
durante três sessões. Desta forma, o design inicial sofreu modificações e temas que estavam ali
previstos não foram abordados durante o curso.
Dadas as limitações de um artigo, citaremos apenas um exemplo de redesign ocorrido
durante o processo formativo.
As primeiras cinco sessões foram conduzidas procurando propiciar interação constante
entre o grupo, além de revelar, com o auxílio do software Cabri-Géomètre, seus conhecimentos
geométricos. O objetivo desses primeiros encontros era procurar estabelecer diálogo e acolher as
professoras de modo que elas se sentissem confiantes para expor seus argumentos, isto é, o
design inicial da pequisa era a de formar um grupo colaborativo que apresentasse materiais e
trouxesse questões a serem discutidas durante os encontros. Entretanto, as sessões foram gerando
um sentimento de desconforto entre as professoras que pediram a. intervenção da coordenadora.
Em reunião comigo, ela explicou que as professoras estavam sentindo dificuldades tanto com os
conceitos Geométricos quanto com o tipo de metodologia utilizada durante os encontros e,
portanto, estavam pedindo uma mudança na metodologia com a qual o curso vinha sendo
desenvolvido. Segundo ela, as professoras preferiam um modelo mais convencional em que
“primeiro seriam dados os conceitos, depois os exercícios e, por último, um fechamento”. A

XIII CIAEM-IACME, Recife, Brasil, 2011.


Design Based Research – Considerações Teórico Metodológicas 9

coordenadora ainda enfatizou que as professoras haviam pedido uma retomada dos conceitos já
abordados antes que novos conceitos fossem discutidos.
Analisando a reunião com a coordenadora, constatamos que as professoras, apesar de
utilizarem materiais manipuláveis e levarem seus alunos ao laboratório de Informática ainda
continuavam com as práticas de aulas convencionais, centradas na figura do professor.
Fizemos uma investigação a respeito de nossas ações, buscando os momentos do curso que
geraram maiores desestabilizações. Redesenhamos a metodologia para as sessões e adequamos
os conteúdos à solicitação do grupo. Como estratégia para lidar com esse momento da formação,
decidimos utilizar o ambiente do auditório do Colégio EB para a retomada dos conceitos
geométricos, criamos uma apostila que continha todos os conceitos discutidos até então e
retomamos todas as reflexões de forma a dar mais voz a cada uma das professoras.
Obviamente, a pesquisa também sofreu um redesign uma vez que o grupo colaborativo
esperado não se formou. Redesenhamos a pesquisa buscando identificar (re)construções de
saberes, tanto de conteúdo quanto de práticas de sala de aula, num grupo de professoras que
estava buscando refinar conceitos Geométricos.
3. Conclusões
O foco da investigação que subsidia este artigo foi a (re)construção de conceitos
geométricos por professoras dos primeiros anos do Ensino Fundamental. Buscávamos entender
quais fatores, numa formação de profesores, podem levar os sujeitos de pesquisa a (re)
construírem conceitos geométricos. Enfatiza-se que a análise dos instrumentos refere-se a uma
amostra pequena de professores dos anos iniciais e não se tem a pretensão de indicar qual a
metodología ideal para uma pesquisa no campo da Educação Matemática, entretanto os
resultados de pesquisa nos apontam que a metodologia do Design Research foi fundamental e
pode subsidiar futuras pesquisas nesse campo de estudo.
Concluímos que um dos fatores responsáveis pela (re)construção de conceitos geométricos feita
pelas professoras participantes (Poloni, 2010) foi o uso do Design Research. Naturalmente a
metodología não foi o único fator que interferiu no sentido de promover ações adequadas a cada
momento da pesquisa, porém ela foi fundamental para que fossem feitos ajustes quanto ao design
inicial planejado de acordo com as análises que eram feitas sessão a sessão. Essas análises
contribuíram e deram embasamento às decisões que foram tomadas durante toda a formação.
Para que os sujeitos de pesquisa pudessem reavaliar conceitos geométricos, foi necessário
promover momentos de desestabilização que levassem à busca da equilibração (Piaget, 1978) por
meio de reflexão das professoras. Tais reflexões foram quase sempre antecedidas por momentos
de desestabilizações de diferentes intensidades. Assim, as atividades que provocaram
desestabilizações foram analisadas por nós e, a partir de tais análises, novas atividades foram
construídas de modo a promover diversos contatos com o tema de estudo que provocou a
desestabilização. As tomadas de decisões e atitudes de pesquisa a serem implementadas
estiveram em estreita ligação com a flexibilidade do Design Research que prevê vários redesigns
durante toda a pesquisa.
Bibliografia e referências
BROWN, A. L. Design experiments: Theoretical and methodological challenges in creating complex
interventions in classroom settings. The Journal of The Learning Sciences, 2(2), 141–178, 1992.

XIII CIAEM-IACME, Recife, Brasil, 2011.

Você também pode gostar