Você está na página 1de 10

Utilizao de Aprendizagem por Reforo para Modelagem

Autnoma do Aprendiz em um Tutor Inteligente


Modalidade Artigo Completo

Marcus V. C. Guelpeli1, Carlos H. C. Ribeiro1 e Nizam Omar2

1
Diviso de Cincia da Computao

Instituto Tecnolgico de Aeronutica 12228-900, So Jos dos- Campos So Paulo-SP

2
Departamento de Engenharia Eltrica

Universidade Presbiteriana Mackenzie, So Paulo-SP

guelpeli@uol.com.br, {carlos, omar}@comp.ita.br

Resumo.Este trabalho tem como meta apresentar um mdulo de diagnstico para ser includo na
arquitetura tradicional de Sistemas Tutores Inteligentes. Neste mdulo, aplicada uma tcnica de
Aprendizado por Reforo (algoritmo Q-Learning) que possibilita modelar autonomamente o
aprendiz. O maior valor de utilidade calculado baseado em uma tabela de pares estado-ao, a
partir da qual o algoritmo estima reforos futuros que representam os estados cognitivos do
aprendiz. A melhor poltica a ser usada pelo tutor para qualquer estado cognitivo do aprendiz
disponibilizada pelo algoritmo de Aprendizagem por Reforo.

Palavras-chave:Sistemas Tutores Inteligentes, Aprendizado por Reforo, Algoritmo Q-Learning.

Abstract.The goal of this paper is to present a diagnostic module to be included in an Intelligent


Tutoring System (ITS) architeture. In this module, a Reinforcement Learning technique (Q-
Learning algorithm) is applied, making it possible to autonomously model the learner. A
maximum utility value is calculated based on a state-action table upon which the algorithm
estimates future rewards which represent the cognitive states of the learner. The best action
policy to be used by the tutor at any learners cognitive state is made available by the
Reinforcement Learning algorithm.

Keywords:Intelligent Tutoring Systems, Reinforcement Learning, Q-Learning algorithm.

XIV Simpsio Brasileiro de Informtica na Educao - NCE - IM/UFRJ 2003


1.INTRODUO
Um Sistema Tutor Inteligente (STI) uma evoluo de sistemas CAI (Computer-Assisted Instruction),
aperfeioado com as tcnicas de Inteligncia Artificial (IA).
Os STI possibilitam ao estudante a capacidade de aprender com um tutor, que serve como guia no
processo. Ele deve se adaptar ao aprendiz, e no o contrrio, como acontece no mtodo tradicional. Com isso,
necessrio um modelamento do aprendiz, para que o STI possa saber o que ensinar, a quem ensinar e como
ensinar. De acordo com [Marietto, 2000] o STI deve ser capaz de mudar o nvel de entendimento para
responder s entradas do aprendiz, em vrios nveis, podendo mudar as estratgias pedaggicas, de forma
individualizada (de acordo com o ritmo e as caractersticas de cada aprendiz).
Em um STI o ensino construdo sobre uma base de conhecimento (domnio) criada por um
especialista. Atravs da interao com o aprendiz, um STI modifica suas bases de conhecimentos, percebe
suas intervenes, e possui a capacidade de aprender e adaptar-se s estratgias de ensino, de acordo com o
desenrolar do dilogo com o aprendiz [Leite, 1999].
[Burns, Parllet & Redfield, 1991] salientam que as pesquisas de STIs, principalmente as de ensino-
aprendizagem, devem enfocar as estratgias de ensino em particular, dando nfase aos estados cognitivos de
cada aprendiz.
Para ser inteligente, um tutor deve ser flexvel, isto , ter capacidade para aprender com o meio
ambiente e atualizar seu conhecimento [Viccari, 1990].
Para aumentar e facilitar a autonomia de um tutor, este artigo prope um processo de definio de
perfil e o uso de um algoritmo de Aprendizado por Reforo (algoritmo Q-learning), atravs da introduo de
um mdulo de diagnstico em uma arquitetura de STI, com o propsito de incorporar ao tutor a capacidade
de modelar autonomamente o aprendiz.
O trabalho est organizado como segue. Na Seo 2 apresentam-se os conceitos de Aprendizado por
Reforo e o algoritmo Q-Learning. A Seo 3 contm a estrutura do sistema utilizando AR e todos os pontos
relevantes para o funcionamento do sistema. A Seo 4 contm experimentos e resultados. Finalmente, a
Seo 5 apresenta as vantagens e desvantagens do mtodo proposto, e sugere trabalhos futuros.

2. TCNICA DE APRENDIZADO POR REFORO


Afirma [Hendley,1992] que o uso de tcnicas de Inteligncia Artificial na construo de software
educacionais torna-se cada vez mais importante, uma vez que seu estudo far com que os mesmos tenham
mais qualidade.
A arquitetura descrita neste trabalho utiliza uma tcnica de Inteligncia Artificial que o
Aprendizado por Reforo (AR), para modelar o aprendiz de forma dinmica e autnoma.
AR permite ao agente adquirir uma capacidade de conhecimento do ambiente que no estava
disponvel em tempo de projeto [Sutton & Barto, 1998]. AR baseada na existncia de um crtico externo ao
ambiente, que avalia a ao tomada, mas sem indicar explicitamente a ao correta. Formalmente, AR utiliza
uma estrutura composta de estados, aes e recompensas conforme mostra a Figura1.

Figura 1. Um agente AR interagindo com seu ambiente.


O agente atua em um ambiente descrito por um conjunto de possveis estados e pode executar, para
cada estado, uma ao dentro de um conjunto de aes possveis, recebendo um valor de reforos a cada vez
que executa uma ao. Este reforo indica o valor imediato da transio estado-ao-novo estado. Ao longo
do tempo, este processo produz uma seqncia de pares estado-ao, e seus respectivos valores de reforos.
O objetivo do agente aprender uma poltica que maximize uma soma esperada destes reforos a longo
prazo.

XIV Simpsio Brasileiro de Informtica na Educao - NCE - IM/UFRJ 2003


Uma considerao importante a ser feita quando se lida com AR conflito explorao X explotao.
O agente deve lidar com o problema de haver um compromisso entre escolher a explorao de estados e
aes desconhecidos, de modo a coletar nova informao, ou a explotao de estados e aes que j foram
aprendidos e que iro gerar altas recompensas, de modo a maximizar seus reforos acumulados [Bellman,
1959]. Sendo assim, por um lado o agente deve aprender quais aes maximizam os valores das recompensas
obtidas no tempo, e, por outro, deve agir de forma a atingir esta maximizao, explorando aes ainda no
executadas ou regies pouco visitadas do espao de estados. importante, portanto, estabelecer uma poltica
mista de explotao e explorao (poltica -greedy), que inclua a escolha intencional (com probabilidade )
de se executar uma ao que no considerada a melhor no estado atual, visando a aquisio de
conhecimentos a respeito de estados ainda desconhecido ou pouco visitados. A escolha desta ao ocorre de
forma aleatria. Em uma poltica de explotao pura (greedy) escolhem-se as aes que se julguem (talvez
erroneamente, caso o algoritmo de AR ainda esteja longe da convergncia) serem as melhores para resolver o
problema.
No contexto deste trabalho, a tcnica de AR ter como funo modificar parmetros e armazen-los
em esquemas de planos, que definem a forma de apresentar o material instrucional ao aprendiz. O grande
desafio, neste caso, escolher a melhor ao que - baseada no estado do aprendiz - possa mudar a estratgia
de ensino, para obter resultados significativos, fornecedores de parmetros indicativos de quo boa ou ruim
est sendo uma determinada estratgia. O algoritmo utilizado (Q-learning) baseado em estimativas de
utilidades de pares estado-ao, e com estas estimativas podem-se gerar alternativas de novas estratgias
pedaggicas. Neste caso, a aprendizagem das estratgias mais adequadas, que indicam a ao a escolher para
cada estado do aprendiz, dar-se- por reforo, atravs de uma estrutura de parmetros adaptativos sobre os
quais o algoritmo opera.
Formalmente, AR procura aproximar uma funo que define a utilidade relativa dos pares estado-
ao. Esta funo de utilidade fornece indicaes estimativas, mapeando os pares estado-ao em uma
medida baseada na soma dos reforos esperados a longo prazo.
Para cada par estado-ao (s, a), definido o reforo r(s, a), indicando uma conseqncia imediata
da execuo da ao a no estado s. O problema em AR achar uma poltica tima de aes (* ), ou seja, um
conjunto de aes que maximizem, para cada estado s, os valores de utilidade Q(s, a). Com base nesses
valores, o algoritmo de AR estima a ao de maior valor de utilidade a ao que dever ser executada pelo
agente tutor.

2.1 Q-Learning

O algoritmo Q-Learning [Watkins,1989], pode ser usado para definir a escolha da melhor ao em AR. No
Q-Learning, a escolha de uma ao baseada em uma funo de utilidade que mapeia estados e aes a um
valor numrico. Neste artigo, o valor de utilidade Q(s, a) de um par (estado, ao), calculado a partir de
reforos medidos pela qualidade do estado cognitivo do aprendiz (modulo de diagnstico). Cada valor Q(s, a)
representa a soma de reforos esperada ao se executar a ao a no estado s, seguindo-se uma poltica tima a
partir de ento. Portanto, uma vez que os valores Q(s, a) estejam bem estimados, a melhor ao a ser
executada no estado s pode ser obtida simplesmente como arg maxaQt(st+1,a).
O principal objetivo do algoritmo Q-Learning estimar autonomamente, em cada estado s em que o
aprendiz encontra-se, o valor Q(s, a) para cada possvel ao a, e a partir da permitir a obteno da melhor
ao (ou seja, a ao com maior valor de utilidade).

XIV Simpsio Brasileiro de Informtica na Educao - NCE - IM/UFRJ 2003


O Q-Learning normalmente usa uma tabela (Figura 2) para armazenar os valores de utilidade Q(s, a)
estimados para os pares (estado, ao).

Figura 2. Tabela dos pares (estado - ao).


O algoritmo Q-Learning produz uma atualizao dos valores Q da seguinte maneira:

Inicialize Q(s, a).


Para cada instante t repita:
1- Observe estado st e escolha uma ao at;
2- Observe o estado st +1 e atualize Qt(st, at) de acordo com
Qt+1(st,at) = Qt(st,at) + t[r(st) + maxaQt(st+1,a) - Qt(st,at)];
at t igual a limite de passos.

Onde:
Qt+1(st,at) o valor (qualidade) da ao at no estado st.
r(st) o reforo imediato recebido no estado st.
a taxa de aprendizado (normalmente definida entre 0 e 1).
a taxa de desconto temporal.
t uma seqncia discreta de passos no tempo, ou seja , t=0,1,2,3,....
maxaQt(st+1,a) o valor Q correspondente ao com maior valor de utilidade no estado futuro.

Quanto mais prximo de 1 for o valor de , maior importncia dada aos reforos mais distantes no
tempo.
No incio, o algoritmo vai estar muito longe da utilidade tima associada ao estado s, mas com o
passar do tempo as estimativas de Q melhoram. De fato, os valores Q atualizados pelo algoritmo Q-Learning
convergem para os corretos, desde que os pares (s,a) tenham sido visitados um nmero infinito de vezes
[Watkins and Dayan, 1992]. Na prtica, convergncia para polticas de ao de boa qualidade obtida apenas
com explorao adequada do espao de estados, durante um nmero razovel de iteraes. A poltica de
aes durante a execuo do algoritmo nas fases iniciais de treinamento deve portanto garantir a explorao
do espao de estados (poltica -greedy).

XIV Simpsio Brasileiro de Informtica na Educao - NCE - IM/UFRJ 2003


3. ESTRUTURA DO SISTEMA
A Figura 3 ilustra a estrutura de funcionamento da Tcnica de Aprendizado por Reforo para um STI. Todos
os itens que fazem parte do sistema sero detalhados a seguir.

Figura 3. STI com a Tcnica de AR.

3.1. Definio do Conjunto dos Estados do Estudante (Perfil)

A complexidade de estabelecer um perfil est na modelagem do aprendiz. O perfil vai indicar o estado
cognitivo do mesmo a partir do comportamento observvel e, com isso, poder indicar uma estratgia de
ensino a ser utilizada.
Decises Pedaggicas razoveis so fatores de desafio para os tutores, j que as pessoas nem sempre
conseguem representar seus prprios processos mentais e, algumas vezes, ficam confusas. De acordo com
[Giraffa, 1999] um modelo realista do aluno implica em uma atualizao dinmica enquanto o sistema avalia
o desempenho do estudante.
Este modelamento inicialmente dar-se- atravs de questionrios, onde conhecido o perfil do
aprendiz. Logo em seguida o sistema ir gerar um ciclo que classificar o aprendiz dentro das faixas distintas
de conhecimentos (Figura 4), s que agora de forma dinmica, usando as informaes do mdulo
diagnstico.

XIV Simpsio Brasileiro de Informtica na Educao - NCE - IM/UFRJ 2003


Como complementao, para construir um perfil do aprendiz, deve-se manter um log de respostas
dadas por este anteriormente, para que ao retornar, seja desnecessria a repetio de tais questionrios e
possibilite a continuidade do processo.

Figura 4. Classificao do Estado Cognitivo do Aprendiz.

A proposta de criao do mdulo diagnstico de suma importncia, pois ela definir, atravs da
qualidade de sua observao, como se dar o processo de aprendizado.
Este mdulo diagnstico produzir - de acordo com a poltica de aes estabelecida uma indicao
de quo bem ou mal est sendo o desempenho do aprendiz em relao s aes produzidas pelo tutor. No
contexto de AR, ele enviar reforos indicando o desempenho de modo intermitente, produzindo para cada
par (st,a), um valor r(st ,a), correspondendo reforos positivos quando se produzem resultados favorveis e
reforos negativos para resultados desfavorveis. Os valores de utilidade Qt(st,at) so atualizados na tabela
de valores Q (Figura 2), para que com base nesses valores o tutor possa reclassificar o aprendiz.
O sistema classifica o estado cognitivo do Aprendiz atravs do resultado do questionrio, usando
uma escala de classificao (Figura 4) e obtendo seu perfil.
Com o perfil definido, o sistema usa uma tabela de pares estado-ao. Nesta, as aes representam
uma estratgia pedaggica adotada pelo tutor para guiar o aprendiz.
O sistema escolhe a ao com o maior valor de utilidade baseado nos resultados do algoritmo Q-
Learning.
Estes resultados so encaminhados para o Mdulo Diagnstico, que calcula reforos positivos ou
negativos para o par estado-ao (st,a) e atualiza na tabela o valor de utilidade Qt(st,at).
Depois de atualizado o valor de utilidade na tabela, o sistema volta a reclassificar o aprendiz na
escala.

4.EXPERIMENTOS
Os experimentos foram realizados sobre um prottipo de tutor, desenvolvido em linguagem C.
As simulaes foram realizadas no ambiente com uma matriz 5x10 com elementos representados
formalmente como:
Um conjunto de estados S={E0, E1, E2, E3, E4}, cada um representando um possvel estado
cognitivo do aprendiz, em face da interao com o tutor. Estima-se que esse aprendiz tenha um
grau cognitivo baseado nesses estados, onde:

E0=> [0,2], E1=> ]2,4], E2=> ]4,6], E3=> ]6,8], E4=> ]8,10].

XIV Simpsio Brasileiro de Informtica na Educao - NCE - IM/UFRJ 2003


Os valores de 0 a 10, divididos nos cinco conjuntos em cada estado, representam uma mtrica usada
para diferenciar os estados, seguindo para isso uma escala crescente do grau evolutivo (Figura 4) do aprendiz
na interao com o tutor.

Um conjunto de Aes A={A0, A1, A2, A3, A4, A5, A6, A7, A8, A9} que podem ser escolhidas
pelo tutor. Cada ao corresponde aplicao de provas, exerccios, questionrios, perguntas,
trabalhos, testes, etc, ou combinaes destes e outros dispositivos de avaliao, usados pelo
tutor, seguindo as estratgias pedaggicas estabelecidas.
Um conjunto de Reforos Instantneos associados a cada estado visitado, ou seja,

E0=>R=1-Ruim;
E1=>R=3-Regular;
E2=>R=5-Bom;
E3=>R=7-Muito Bom;
E4=>R=10-Excelente;

Foi definida uma metodologia de teste na qual foram criados trs modelos no determinsticos:
M1(Ruim), M2(Bom) e M3(Excelente). Os modelos foram submetidos s simulaes com 500, 1000 e 2500
passos, e de cada conjunto de simulao foi calculada uma mdia sobre vinte realizaes, para obteno dos
dados finais. Note que estes modelos no so conhecidos a priori pelo tutor, que dever estimar por AR uma
poltica de aes em funo dos reforos recebidos.

4.1. Resultados Obtidos

Os Resultados da Figura 5 mostram as mdias dos reforos obtidos durante a simulao com 1000 passos da
poltica pedaggica, para cada um dos modelos M1, M2 e M3 (No Deterministico) . Q-Learning consegue
convergir para a melhor poltica de ao de cada modelo simulado, usando =0.9 e =0.9.

Modelo M1 Modelo M2

Modelo M3

Figura 5. Grficos dos Reforos Mdios dos Modelos M1, M2 e M3.

XIV Simpsio Brasileiro de Informtica na Educao - NCE - IM/UFRJ 2003


A Figura 6 demonstra o mesmo conjunto de simulao usado na Figura 5, porm o grfico mostra
os resultados das mdias dos valores de utilidade Q(s,a).Com base nesses valores, o algoritmo consegue
definir (atravs da maximizao sobre Q(s,a)) a ao de maior valor de utilidade no estado s. Ao longo do
tempo ocorreu convergncia para uma poltica tima de aes () em cada modelo simulado.
Modelo M1 Modelo M2

Modelo M3

Figura 6. Grficos dos Q(s, a) dos Modelos M1, M2 e M3.


Na Figura 7, foi usado o mesmo conjunto de simulao da Figura 5 e 6. Os grficos obtidos
representam as mdias das transies entre os estados cognitivos dos modelos simulados. Note que o STI no
conhece os modelos: os resultados da Figura 7 so conseqncia da convergncia do Q-Learning para uma
poltica tima de aes (* ).

Modelo M1 Modelo M2

Modelo M3

Figura 7. Grficos da Mdia das Transies dos Estado dos Modelos M1, M2 e M3.

XIV Simpsio Brasileiro de Informtica na Educao - NCE - IM/UFRJ 2003


Na Figura 8, observa-se que o algoritmo Q-Learning consegue atravs da poltica tima de aes (),
usando os modelos M1, M2 e M3 (que representam os modelos aos quais se esperava obter com as
simulaes) visitar mais os estados E0 (perfazendo um total de 86% das visitas), E2 (perfazendo um total de
81% das visitas) e E4 (perfazendo um total de 93% das visitas).

Resultados das Visitas nos Estados Resultados das Visitas nos Estados
Modelo M1
Modelo M2

Resultados das Visitas nos Estados


Modelo M3

Figura 8. Grficos das Visitas nos Estados para Modelo M1 M2 e M3.

5. CONCLUSO
5.1. Caracterizando o Sistema com uma anlise das Vantagens e Desvantagens.

A utilizao do Sistema de Aprendizado por Reforo para Modelagem Autnoma do Aprendiz em um Tutor
Inteligente pode oferecer vantagens e possveis dificuldades que se tornariam desvantagens, dentre as quais:

Vantagens:
- Para implementao, no precisa do modelo do aprendiz;
- O sistema independe do contedo apresentado pelo tutor;
- Adaptao do sistema a vrias estratgias pedaggicas;
- Garantia - atravs de um log de registro - da continuidade da tutoria do aprendiz a partir do
ponto em que parou.
Desvantagens:
- Um nmero elevado de aes a serem tomadas em determinado estado cognitivo do estudante.
- Dependendo do estado podem existir diversas estratgicas pedaggicas a serem adotadas.
- Interfaceamento com tutores j existentes, devido necessidade dos tutores receberem os
parmetros do sistema AR.
- Lentido de convergncia do algoritmo, que pode ser parcialmente compensada pelo uso de
variantes baseadas em aproximaes compactas [Tsitsiklis, J. & Bertsekas, D. 1996], estratgias
de generalizao da experincia [Ribeiro, C., 1998], ou planos de ao obtidos em simulao
[Sutton & Barto, 1998].

XIV Simpsio Brasileiro de Informtica na Educao - NCE - IM/UFRJ 2003


5.2. Proposta para Trabalhos Futuros

Uma contribuio deste trabalho foi o resultado positivo obtido na simulao com o uso do algoritmo Q-
Learning aplicado a um agente tutor que inclui na sua arquitetura o mdulo diagnstico, para que desta forma
se consiga dar um passo importante na questo da modelagem autnoma do aprendiz em um tutor inteligente.
Acredita-se que este trabalho venha contribuir para formalizao computacional do problema de modelagem
do estado cognitivo do aprendiz de forma dinmica. Sendo assim, os resultados viabilizam a utilizao de
tutores inteligentes que utilizam o Sistema de AR em ambientes on-line, como por exemplo Internet.
Outra contribuio deste trabalho , deixar dados para estudos de viabilidade de desempenho no que
se refere a reduo do tempo de convergncia do algoritmo, para uso mais efetivo de tutores inteligentes com
o Sistema de AR .
Alm das contribuies citadas acima, podemos evidenciar possibilidades de trabalhos futuros,
como:
- O interfaceamento de tutores inteligentes j existentes no mercado com o Sistema de AR.
- Desenvolvimento de um sistema de Tutoria Inteligente, onde se possa utilizar mltiplas
estratgias, independente do domnio.
- Com a estrutura desenvolvida neste trabalho, adapt-la para o uso de multiagentes.

REFERNCIAS BIBLIOGRFICAS

Burns,H and Parlett,J.W. and Redfield,C.L.: Intelligent Tutoring


Systems N.J.: Lawrence Erlbaum-Verlag 1991.Bellman, R. E. Dynamic Programming. Princeton: Princeton
University Press, 1957.

Giraffa, L.M.M.: Uma arquitetura de tutor utilizando estados mentais, Rio Grande do Sul: PUC-RS,1999.
Tese de Doutorado.

Hendley, R. and Jurascheck , N. Cascade: Introducing AI intoCBT.Computers Education,


London, v.18, n.1-3, p.71-76, 1992

Leite, A. S. Um Modelo de Sistema Educativo Cognitivista Baseado em Tutoria Inteligente


Adaptativa via Aderncia Conceitual, So Jos dos Campos: ITA, 1999
Tese de Doutorado.

Marietto, M. G.:Definio Dinmica de Estratgias Instrucionais em


sistema de tutoria Inteligente: Um Abordagem Multiagentes na WWW, So Jose dos Campos:ITA, 2000
Tese de Doutorado.

Sutton, R.and Barto, A. Reinforcement Learning: An Introduction. MIT Press, 1998.


Ribeiro, C.H.C. Embedding a priori Knowledge in Reinforcement Learning, Journal of Intelligent and
Robotic Systems. Dordrecht, Holanda: , v.2, n.1, p.51 - 71, 1998
Viccari, R.M.: Um Tutor Inteligente para a Programao em Lgica Idealizao,Projeto
e Desenvolvimento,Portugal Universidade de Coimbra,1990,Tese de Doutorado.

Tsitsiklis, J. e Bertsekas, D. (1996). Neuro-Dynamic Programming. Athena Scientific, 1996.

Watkins, C. J. C. H.: Learning from Delayed Rewards., PhD thesis, University of


Cambridge,1989.

Watkins, C. J.C.H., and Dayan, P. Q-leaning. Machine Learning 8(3/4):279-292, 1992.

XIV Simpsio Brasileiro de Informtica na Educao - NCE - IM/UFRJ 2003

Você também pode gostar