Você está na página 1de 10

1

CINTED- Novas Tecnologias na Educao

_____________________________________________________________________________________________________

Sistema de Recomendao de Links para o fomento de discusses em fruns


de um Ambiente Virtual de Aprendizagem
Luis Carlos Costa Fonseca, UEMA, lccfonseca@gmail.com
Marlon Pereira Farias, UEMA, marlon.uema@gmail.com
Reinaldo de Jesus da Silva, UEMA, reinaldo.silvarrrb@gmail.com
Resumo: Os fruns de discusso apresentam-se como umas das ferramentas de
interao mais utilizadas nos ambientes virtuais de aprendizagem. So objetos de estudo
de vrias pesquisas em informtica na educao, tanto no que se refere a sua melhor
utilizao, como na avaliao de seus registros. Neste trabalho proposta uma
ferramenta que identifica palavras-chaves relevantes, atravs de tcnicas de minerao
textual, e posteriormente s submete a um motor de busca da Internet para recuperar
documentos correlacionados aos assuntos do frum. Pretende-se com isto, fomentar os
debates atravs da apresentao de referencial textual extrado da rede mundial de
computadores, e dessa forma propor uma recomendao de informaes baseada em
contedo.
Palavras-chaves: Recomendao de informao, Minerao de texto, tf*pdf.
Links Recommendation System for the promotion of discussions on forums
of a Virtual Learning Environment
Abstract: Discussion forums present themselves as one of the most popular interaction
tools in learning management systems. Many researchers in computer science education
study them, both concerning their best use, such as assessment of their records. This
paper proposes a tool that identifies relevant keywords via text mining techniques, and
then submit it to a search engine on the Internet to retrieve documents related to the
matters of the forum. It is intended with this, foment debate by presenting extracted
textual reference from the World Wide Web, and thus propose a content-based
recommendation of information.
Keywords: Recommendation systems, Text mining, tf*pdf.
1

INTRODUO

Qual o melhor caminho para chegar ao centro na hora do rush? Aonde se pode
encontrar um bom restaurante nestas proximidades? Qual a melhor poca para viajar
para o caribe? Qual a melhor empresa para investir em aes? Qual computador
comprar que atenda s necessidades especficas de um determinado usurio?
Tomar decises algo corriqueiro na vida das pessoas, para isto, faz-se uso de
diversas tcnicas que apoiem este processo, como por exemplo: pedir ajuda a um amigo,
fazer uma consulta na Internet, contratar um especialista da rea, entre outros. Nestas
situaes, o que se deseja um meio pelo qual possa auxiliar a realizar boas decises,
ou seja, uma recomendao.
O ser humano est acostumado a pedir recomendaes. Esta atividade to
comum e frequente, que se viu a possibilidade de se realizar recomendaes
automticas atravs de sistemas computacionais. Empresas como Amazon, NetFlix,
Ebay, Youtube, Google, Yahoo, entre outras, se destacaram por fazer uso destes
sistemas e investir no desenvolvimento de novos mtodos relacionados a esta
V. 12 N 2, dezembro, 2014____________________________________________________________

CINTED- Novas Tecnologias na Educao

_____________________________________________________________________________________________________

tecnologia. Ricci (et al.,2011) apresenta os Sistemas de Recomendao como


ferramentas de software e tcnicas que fornecem sugestes de itens que sejam teis para
o usurio.
A utilizao de Sistemas de Recomendao tem crescido bastante desde o seu
surgimento na dcada de 90. Desde ento, muito se fez na criao de novos mtodos e
abordagens que permitam a utilizao desta tecnologia nas mais diversas reas, onde os
sistemas de comrcio eletrnico se destacam entre os demais como os principais
utilizadores desta tecnologia, de tal forma que j parte fundamental da maior parte
destes sistemas.
A Educao a Distncia (EaD) passou por diversas mudanas nos ltimos 20
anos. O advento da Internet da dcada de 90 permitiu uma mudana muito grande na
EaD. O uso das Tecnologias de Informao e Comunicao (TIC), principalmente as
relacionadas Internet, possibilitou que os participantes (professores e alunos) do
processo de ensino e aprendizagem pudessem interagir. Piva (et. al., 2011) afirma que
essa evoluo provocou uma mudana de paradigma no sentido que a individualizao
cedeu lugar colaborao. E acrescenta que a aprendizagem independente passou a ser
sustentada por experincias colaborativas entre alunos e professores e entre alunos.
O Ambiente Virtual de Aprendizagem (AVA) um espao online destinado a
organizar e coordenar as atividades de ensino, ou seja, so as salas de aula online. Este
ambiente composto por diversas ferramentas como os chats, as videoconferncias, os
fruns, entre outros. Tais instrumentos auxiliam o processo de interao e buscam
tornar o processo de aprendizado mais atrativo para o aluno. Uma das principais
ferramentas na construo do conhecimento nos AVA so os fruns. Os fruns so
ferramentas de discusso e troca de ideias, auxiliando na construo coletiva do
conhecimento e na integrao entre alunos e professores. Trata-se de um espao
interativo assncrono para a troca de mensagens permitindo a todos os participantes
trocarem opinies e informaes. Os fruns de discusso so uma das principais
ferramentas na construo de conhecimento colaborativo nos AVA, so tambm objetos
de estudo de vrias pesquisas em informtica na educao, tanto no que se refere a sua
melhor utilizao, como na avaliao de seus registros.
PIVA (2011, apud FERNANDEZ, 2013) tece uma crtica aos AVAs, pois
afirma que ele no capaz de, adequadamente, manter processos de aprendizado que
permitam, alm de um retorno automtico aos alunos, um direcionamento do processo
de aprendizado.
Diante do exposto acima, este artigo prope a incorporao de um sistema de
recomendao de links aos Ambientes Virtuais de Aprendizagem (AVA) com o intuito
de fomentar discusses em fruns de aprendizagem, desta forma, criando uma dinmica
que proponha novas leituras relacionadas ao tema da discusso.
Este trabalho est construdo em sete sees dispostos da seguinte forma: Os
conceitos relacionados s tecnologias so apresentados nas sees 2 e 3. A seo 4
apresenta a descrio do problema que este trabalho se prope a solucionar. Na seo 5
feita a demonstrao do sistema implementado. Na seo 6 delineada a pesquisa
realizada e os seus resultados. Por fim, na seo 7, so apresentadas as concluses.
2

SISTEMAS DE RECOMENDAO

O ser humano hoje vive na era da informao, os computadores e as redes de


telecomunicaes foram grandes responsveis por diversas mudanas scio econmicas
no sculo XX. Neste cenrio nos deparamos com uma carga de informaes cada vez

V. 12 N 2, dezembro, 2014____________________________________________________________

CINTED- Novas Tecnologias na Educao

_____________________________________________________________________________________________________

maior. Os slogans afirmam que o mundo est a apenas um clique de distncia. Mas ser
que isto verdade?
Ainda h falta de informao, s que agora o problema se apresenta de uma forma
diferente, falta informao relevante. A grande quantidade de contedo acaba gerando
uma sobrecarga de informao que pode ser vista facilmente ao navegar pela Internet.
Isto acaba desestimulando o usurio, pois h dificuldade em encontrar o que se
realmente deseja, como consequncia, o usurio se sente perdido em meio a um mundo
de informaes sem saber como encontrar o que lhe interessa. Mas surge a questo:
como encontrar o contedo de interesse do usurio em meio a tanta informao?
Os sistemas de recomendao surgiram como uma resposta dificuldade das
pessoas de escolher em meio a grande variedade de produtos e servios e as vrias
alternativas apresentadas.
Sistemas de Recomendao so ferramentas de software e tcnicas que fornecem
sugestes de itens que sejam teis para um usurio. Segundo Ricci (et al., 2011) os
Sistemas de Recomendao tentam prever quais so os produtos ou servios mais
adequados, com base nas preferncias e restries do usurio. Para completar esta
tarefa, os sistemas de recomendao coletam dos usurios suas preferncias, e que
podem ser explicitas, atravs das avaliaes de produtos, ou implcitas, inferidos atravs
da interpretao das aes do usurio.
Os sistemas de recomendao surgiram para auxiliar no processo de indicar e
receber indicaes, desta forma, procuram facilitar a busca por contedo interessante ao
usurio prevendo itens que possam ser relevantes ao mesmo.
Segundo Ricci (et al., 2011) a fim de implementar a sua funo principal,
identificando os itens teis para o usurio, o sistema de recomendao deve predizer que
item vale a pena recomendar. Para isto, o sistema deve ser capaz de prever a utilidade de
alguns deles, ou, pelo menos, comparar a utilidade de alguns dos itens e, ento decide
quais os itens recomendar com base nesta comparao.
Sistemas de Recomendao envolve a construo de um modelo ou perfil de
interesses do usurio. A construo deste perfil varia de acordo com a tcnica de
recomendao utilizada tendo como as principais tcnicas de recomendao a Filtragem
Colaborativa, Recomendao Baseada em Contedo, O modelo Hbrido, entre outros.
3

MINERAO DE TEXTO

Os avanos tecnolgicos na rea de compartilhamento e armazenamento de


dados fizeram com que o volume de informaes no formato digital crescesse em
propores antes inimaginveis. Segundo Kuechler (2007) 80% desses dados no esto
em formato estruturado, sendo que uma grande parte deles so textos. Essas
informaes incluem: e-mails, arquivos eletrnicos gerados por softwares editores de
texto, pginas web, campos textuais em banco de dados, etc. Entretanto, esse formato de
documentos foi criado para serem visualizados por seres humanos e no so adequados
para a manipulao das informaes neles contidas por sistemas computacionais.
Em geral, estes contedos so muito relevantes para as organizaes, pois
segundo Han e Kamber (2006), constituem um importante repositrio organizacional,
que envolve o registro de histrico de atividades, memorandos, documentos internos, emails, projetos, estratgias e o prprio conhecimento adquirido. Wives (2002) afirma
que esse tipo de informao muito importante para que os empresrios consigam
identificar novos dados e conhecimentos que estejam, de alguma forma, implcitos ou
escondidos nos seus Sistemas de Informao e que no possam ser recuperados pelos
meios tradicionais de recuperao oferecidos por eles.

V. 12 N 2, dezembro, 2014____________________________________________________________

CINTED- Novas Tecnologias na Educao

_____________________________________________________________________________________________________

Para Rezende, Marcacini e Moura (2011), a organizao inteligente dessas


colees textuais de grande interesse para a maioria das instituies, pois agiliza os
processos de busca e recuperao da informao. Entretanto, o volume de dados textuais
armazenados tal que extrapola a capacidade humana de, manualmente, analis-lo e
compreend-lo por completo.
A minerao de textual surgiu da necessidade de se descobrir, de forma
automtica, informaes em documentos, onde, segundo Aranha e Passos (2006), o uso
dessa tecnologia permite recuperar informaes, extrair dados, resumir, descobrir
padres, associaes e regras e realizar anlises qualitativas ou quantitativas em
documentos de texto.
A minerao de textos, tambm chamado de minerao de dados textuais,
permite transformar grande parte desses contedos no estruturados em conhecimento
til para as organizaes.
Konchady (2006) apresenta uma definio geral de minerao de texto que
inclui todos os tipos de processamento de texto que tratam de encontrar, organizar e
analisar informaes.
Lopes (2004) apresenta o seguinte conceito: Text mining, tambm conhecido
como Text data mining ou Knowledge Discovery from textual databases, refere-se ao
processo de extrair padres interessantes e no triviais ou conhecimento a partir de
documentos em textos no-estruturados. Text mining pode tambm ser definido como
um conjunto de tcnicas e processos que se prestam a descobrir conhecimento inovador
nos textos. Esta nova tecnologia est sendo empregada, atualmente, em projetos de
diversas reas.
Desta forma, podemos entender a minerao de texto como sendo a aplicao de
um conjunto de diferentes tcnicas em dados no estruturados com o objetivo de obter
informaes, que muitas das vezes, podem no estar presente de maneira explicita
nestes documentos. Inspirado pelo Data Mining ou minerao de dados, que procura
descobrir padres emergentes em banco de dados estruturados, a minerao de textos
tem como objetivo a extrao de conhecimento teis em dados no estruturados ou
semiestruturados.
Para Konchady (2006) tanto minerao de dados quanto minerao de texto
buscam por informaes escondidas e empregam algoritmos semelhantes de
Inteligncia Artificial, aprendizagem de mquina, e estatstica. Mas enquanto a
minerao de dados lida com dados estruturados, minerao de texto lida com dados
no estruturados. Isto , uma extenso da rea de Data Mining focada na anlise de
textos.
Wives (2002) apresenta o processo de descoberta de conhecimento em textos
como uma evoluo natural da recuperao de informaes, j que os sistemas de
recuperao de informao passaram a adotar algumas tcnicas de anlise de
informaes e de aprendizado de mquina, muitas das quais provenientes da rea de
descoberta de conhecimento em bases de dados. Assim, ao invs do usurio ter que
analisar quais dos documentos retornados so realmente relevantes, o prprio sistema
faria essa anlise e retornaria as informaes de forma condensada e resumida.
4

DESCRIO DO PROBLEMA

O surgimento e a expanso da Internet na dcada de 90 foi responsvel por


profundas mudanas na educao a distncia. O uso das Tecnologias de Informao e
Comunicao (TICs) trouxeram um novo formato em que professores e alunos
pudessem interagir.

V. 12 N 2, dezembro, 2014____________________________________________________________

CINTED- Novas Tecnologias na Educao

_____________________________________________________________________________________________________

Tais mudanas permitiram uma nova dinmica onde segundo (PIVA et al.,2011)
provocou uma mudana de paradigma no sentido que a individualizao cedeu lugar
colaborao e a aprendizagem independente passou a ser sustentada por experincias
colaborativas entre alunos e professores e alunos entre si.
Uma das principais ferramentas dos AVAs voltadas a construo do
conhecimento de forma colaborativa so os Fruns de Discusses. Os fruns so
espaos de discusses e troca de ideias em torno de temas propostos por seus
participantes. Este instrumento permite que cada participante submeta sua colaborao
referente ao tema proposto, buscando assim o entendimento mtuo. Segundo Silva
(2006, apud Okada) o frum uma ferramenta assncrona que representa um espao
para debates no qual pode ocorrer o entrelaamento de muitas vozes para a construo e
desconstruo de pensamentos, para questionar e responder dvidas, trilhando novos
caminhos para a aprendizagem.
Sobre a importncia destes debates Kenski (2002) traa o seguinte comentrio:
Interagir com o conhecimento e com as pessoas para aprender
fundamental. Para a transformao de um determinado grupo
de informaes em conhecimentos preciso que estes sejam
trabalhados, discutidos, comunicados. As trocas entre colegas,
os mltiplos posicionamentos diante das informaes
disponveis, os debates e as anlises crticas auxiliam a sua
compreenso e elaborao cognitiva. As mltiplas interaes e
trocas comunicativas entre parceiros do ato de aprender
possibilitam que estes conhecimentos sejam permanentemente
reconstrudos e reelaborados.

Com relao a participao e envolvimento nos fruns de discusses Oliveira


(2005) salienta que a participao no espao criado pelo frum pede preparo,
geralmente provido por leituras adequadas, pesquisas, resgates ao background prprio a
cada participante, entre outras formas de busca. Trata-se de organizar o pensamento,
enriquecendo-o com pertinentes referncias, permitindo o uso do espao de discusses e
reflexes proporcionado pelo frum para gerar colaboraes e agregar ideias.
Partindo deste problema, esta pesquisa propem a utilizao de um sistema com
o objetivo de fomentar discusses em fruns por meio da recomendao de links. Os
conceitos e arquitetura deste sistema so apresentados no tpico a seguir.
5

DESCRIO DO SISTEMA

Como se pode perceber, todas as tecnologias apresentadas acima esto voltadas


a manipulao, organizao e busca de informao, mas no de qualquer tipo de
informao, mas sim de informao relevante e til para o usurio.
Para que isto seja possvel, teria de se fazer uso de uma ferramenta de minerao
de texto para a identificao das palavras chaves que representem os tpicos do frum.
Uma vez identificadas, estas palavras so submetidas a um motor de busca que retornar
os links que iro oferecer novos contedos ao usurio para se aprofundar no contexto da
discusso. Estes links sero avaliados pelo usurio e alimentaro um perfil que no
futuro far novas sugestes baseados em gostos anteriores do usurio.
A imagem a seguir apresenta o fluxograma que representa a arquitetura do
sistema proposto.

V. 12 N 2, dezembro, 2014____________________________________________________________

CINTED- Novas Tecnologias na Educao

_____________________________________________________________________________________________________

Figura 1: Arquitetura do Sistema

O sistema proposto neste trabalho busca recomendar links com o objetivo de


fomentar discusses em AVA, desta forma, a recomendao de links busca oferecer
novas possibilidade de leituras que venha desenvolver novas ideias e aprimorar o
conhecimento.
1. O processo de recomendao de links tem incio atravs da anlise e processamento
das informaes. Neste caso, a fonte de informaes so os tpicos (discusses) do
frum. Cada tpico do frum representado por um arquivo (.txt).
2. O analisador de contedo consiste no pr-processamento do texto dos fruns. Como
os contedos dos fruns se encontram em linguagem natural, antes de se aplicar
qualquer mtodo estatstico de clculo de relevncia de termos, feita uma triagem
para separar os termos no representativos (stopwords), como advrbios, adjetivos,
artigos e preposies, ou seja, so termos que em geral no acrescentam
representatividade ao documento, desta forma os termos do documento que esto
presente nesta lista de stopword so desconsiderados (eliminados) na representao
do documento.
3. A ponderao de termos (Term Weighting) uma importante ferramenta para
determinar a relevncia de uma palavra. A principal abordagem utilizada para o
clculo de peso de um termo o proposto por Salton (1988) TF*IDF. Onde TF
igual a:

Onde o mximo calculado sobre as frequncias fz,j de todos os termos tz que


ocorrem no documento dj. E fk,j, a frequncia do termo k no documento dj.
A frequncia inversa do documento (IDF) foi proposta inicialmente por Jones
(1972). A ideia por traz deste algoritmo de que um termo de consulta que ocorre
em muitos documentos no um bom representante, e assim, deve ser dado menor
peso do que os que ocorrem em apenas alguns documentos.

Onde N igual ao nmero de documentos da coleo e ni igual a quantidade de


documentos em que o termo ocorre pelo menos uma vez.
A essncia do funcionamento do mtodo TF*IDF consiste em determinar o quo
relevante uma palavra em relao a um conjunto de documentos. As palavras que
so comuns em um pequeno grupo de documentos, ou em apenas um documento,
V. 12 N 2, dezembro, 2014____________________________________________________________

CINTED- Novas Tecnologias na Educao

_____________________________________________________________________________________________________

tendem a ter pesos TF*IDF mais elevadas do que as palavras comuns a todos os
documentos.
Entretanto, o objetivo do uso da ponderao de termos neste trabalho, de
identificar os principais tpicos debatidos no frum. Alm do mais, com a extrao
das stopwords possvel eliminar grande parte dos termos que no apresentam
significncia ao contexto da discusso. Sendo assim para que se possa identificar as
palavras-chave, faz-se necessrio utilizar um algoritmo que atribua pesos mais
significativos aos termos mais frequentes na coleo de documentos, ou seja, nos
tpicos do frum.
Pelo fato de dar menor peso aos termos que so frequentes dentro de um documento,
mas no to frequente na coleo, o TF*IDF no se torna adequado para a resoluo
do problema em questo.
Proposto em 2001 por Khoo Khyou Bun e Mitsuru Ishizuka, o TF*PDF (Term
Frequency * Proportional Document Frequency) uma abordagem que busca
atribuir pesos mais significativos aos termos mais frequentes na coleo de
documentos.
Em sua abordagem inicial, o algoritmo TF*PDF usado para reconhecer os termos
que explicam os principais temas de cada arquivo de notcias (Hot Topics) semanais.
Sua proposta se baseia no conceito de que sempre que houver um hot topic no ar,
o tema ser discutido com frequncia em muitos documentos e fontes de notcias.
Diferente da atribuio convencional de peso trabalhado no mtodo TF*IDF, no
algoritmo TF*PDF, o peso de um termo linearmente proporcional frequncia, e
exponencialmente proporcional relao do documento que contm o termo. Sendo
assim o algoritmo PDF representado pela frmula a seguir:
PDF = exp(ni/N)
Desde sua proposta inicial em 2001 por Bun e Ishizuka o TF*PDF tem se
demonstrado uma excelente ferramenta na minerao de texto para a deteco de
tpicos em um documento ou em um conjunto deles. Diversos trabalhos nos ltimos
anos tem demonstrado a eficincia deste algoritmo como: (JAHNAVI; RADHIKA,
2012); ZHE et al., 2012); (REN et al., 2011); (KAUR ; GUPTA 2012); MA (2011),
entre outros.
Sendo assim, este trabalho faz uso deste mtodo como ferramenta de minerao de
texto a fim de extrair os principais temas debatidos nos fruns de aprendizagem.
Para se calcular a frequncia do termo (TF) foi adotado uma abordagem diferente.
Como no feito clculo de similaridade entre os documentos a coleo de
documentos (os diferentes tpicos do frum de discusso) so agrupados como um
nico documento e os pesos TFs so calculados para todos os termos em relao a
um nico documento. Uma vez feito isto, o clculo do peso PDF realizado levando
em considerao a frequncia do termo em relao ao conjunto de documentos.
Uma vez que atravs do algoritmo TF*PDF os termos dos documentos so
ponderados realizada a ordenao deles para identificar quais os principais termos
referenciados nesta discusso.
4. Uma vez feita a identificao dos principais tpicos discutidos no frum, o sistema
seleciona os cinco primeiros termos e os submeter a um motor de busca. No
exemplo aqui proposto, foi utilizado a API do motor de busca Bing que oferece
5000 consultas gratuitas por ms, e permite que os links sejam retornados tanto em
XML quanto em JSON.

V. 12 N 2, dezembro, 2014____________________________________________________________

CINTED- Novas Tecnologias na Educao

_____________________________________________________________________________________________________

5. Aps feita a consulta, os links (10 primeiros) so apresentados ao usurio como


sugesto de leitura.
6. Um mecanismo de avaliao proposto com o propsito de verificar a relevncia do
link ao frum o qual foi proposto. O usurio poder avaliar positivamente (gostei)
ou negativamente (no gostei) de acordo com o enquadramento do documento em
meio a discusso proposta no frum.
7. Uma vez que o usurio gosta de um link recomendado, feito um processo de
indexao do campo descrio (que apresenta um resumo do documento) e guarda
os termos de maior peso no perfil do usurio para que em um momento posterior
possa fazer sugestes de outros materiais baseado neste seu interesse.
6

A PESQUISA

Com o objetivo de verificar a eficincia do algoritmo implementado neste


trabalho, foi realizado uma pesquisa em onze diferentes disciplinas de trs cursos
tcnicos oferecidos pela Universidade Estadual do Maranho (UEMA) por meio do
Ncleo de Tecnologias para Educao, UemaNet.
As disciplinas escolhidas para a pesquisa foram: Anlise de Sistemas; Projeto de
Redes; Interao Homem Computador; Gerncia de Projetos; Programao Orientada a
Objetos; Linguagem de Programao II; Sistemas Operacionais; Fundamentos de
Informtica; Aplicaes Web I; Aplicaes Web II e Projeto e Desenvolvimento de
Sistemas.
O Ncleo de Tecnologias para Educao (UemaNet) presta suporte tecnolgico
educao presencial e responsvel pela concepo, intermediao, gesto, avaliao
e difuso de projetos em educao a distncia da UEMA. A estrutura de gesto do
UemaNet est organizada de forma descentralizada sendo que at o momento atende um
total de 36 polos organizados para suporte s atividades acadmicas e encontros
presenciais. A Uema, por meio do UemaNet, atua junto Secretaria de Educao
Profissional e Tecnolgica (SETEC), vinculando-se ao Programa Escola Tcnica Aberta
do Brasil (Rede e-Tec Brasil) com a oferta de cursos tcnicos de nvel mdio a
distncia. Todas as disciplinas escolhidas para a realizao da pesquisa aqui apresentada
fazem parte da Rede e-Tec, que so os cursos: Tcnico em Informtica; Tcnico em
Redes de Computadores; e Tcnico em Gesto em TI.
O objetivo desta pesquisa foi verificar a eficincia na extrao automtica de
palavras- chave dos tpicos de discusso do AVA e averiguar se o uso destes termos
proporcionou a recuperao de links relevantes ao tema em discusso.
Para esta averiguao, foram extrados diversos tpicos (em mdia 15 tpicos)
de cada disciplina, salvos em arquivos de texto (.txt) e submetidos a execuo do
algoritmo. O sistema por sua vez, fazia a extrao de palavras chaves, as ordenava e
submetias a seis palavras de maior peso para a API do motor de busca Bing, que
retornava os links (os 10 primeiros) os quais seriam sugeridos.
Feito isto, foi gerado um formulrio contendo a descrio da proposta do frum,
as seis palavras chaves de maior relevncia segundo o algoritmo proposto, os links
recomendados, e os tpicos utilizados para a execuo dos testes. Para
avaliar
a
eficincia, ningum melhor do que os prprios professores que administravam as
disciplinas. Desta forma, lhes foi encaminhado o formulrio, contendo os itens descritos
acima e mais duas perguntas:
1. As palavras- chave extradas possuem representatividade em relao ao
texto dos fruns?
2. Os links sugeridos esto de acordo com o tema da discusso?

V. 12 N 2, dezembro, 2014____________________________________________________________

CINTED- Novas Tecnologias na Educao

_____________________________________________________________________________________________________

Dos onze questionrios elaborados e submetidos avaliao dos professores, dez


responderam que concordam completamente em ambas as questes e um respondeu que
concorda parcialmente. Sendo assim, apesar da pequena amostra utilizada na pesquisa,
pde se verificar a eficincia da captura automtica das palavras chaves e a consequente
a apresentao de links relevantes temtica debatida no frum.
Apesar do algoritmo ter se mostrado bastante eficiente na extrao dos hot topics
dos fruns, atravs da implementao da pesquisa pde se verificar algumas
vulnerabilidades. Na disciplina em que o professor avaliou com concordo
parcialmente, foi identificado que o tema principal da discusso era Sistemas
Operacionais, entretanto, na maioria dos tpicos os alunos referenciavam apenas pela
sigla SO, desta forma, o processo remoo de stopwords acabava desconsiderando
este termo. Outro problema verificado foi referente a flexo das palavras. Em algumas
situaes o algoritmo capturou a palavras no singular e tambm no plural.
7

CONCLUSO

Como j apresentado neste trabalho, a interao com o conhecimento e com as


pessoas fundamental para o processo de aprendizagem, sendo assim, os fruns de
discusso de um AVA buscam oferecer um meio pelo qual os seus participantes
interajam de forma a transformar um determinado grupo de informaes em
conhecimento. As mltiplas interaes e trocas comunicativas entre seus participantes
possibilita que estes conhecimentos sejam reconstrudos e reelaborados. Entretanto, esta
participao exige preparo atravs de leituras adequadas, permitindo que haja a troca de
opinies pessoais fundamentadas sem dar espao ao achismo.
O sistema proposto neste trabalho busca oferecer um meio automtico de
recomendar links para fomentar as discusses nos fruns. O algoritmo TF*PDF
proporciona um meio de extrair os tpicos mais importantes, levando em considerao
que os termos mais relevantes aparecem com bastante frequncia, sendo assim, este
mtodo difere do modelo clssico de ponderao de termo e pesos proposto por Salton
(1988) ao dar pesos mais significantes aos termos mais frequentes.
Os testes preliminares do algoritmo aplicado a fruns de discusso apontaram
algumas lacunas que devem ser tratadas antes de colocar a ferramenta em um ambiente
de produo. Entende-se que estes testes devem ser estendidos para ampliar a
observao do comportamento do algoritmo e talvez encontrar outros problemas a
serem tratados.
Futuramente pretende-se incorporar o algoritmo implementado em um plugin
para o Moodle possibilitando testes mais ostensivos e a sua utilizao em produo.
Uma outra ideia, conectar o mecanismo de busca (metabusca) a um repositrio de
objetos de aprendizagem, dando mais garantias sobre a qualidade dos itens recuperados.
REFERNCIAS
ARANHA, C. PASSOS, E. A Tecnologia de Minerao de Textos. RESI-Revista
Eletrnica de Sistemas de Informao, n.2, 2006.
BUN, Khoo Khyou. ISHIZUKA, Mitsuru. Information Area Tracking and Changes
Summarizing in WWW In: Proc. of WebNet 2001, International Conf. on WWW and
Internet. Orlando, Florida, 2001.p.680-685.
HAN, J. KAMBER, M. Data Mining: Concepts and Techniques, 2nd ed. Morgan
Kaufmann, 2006.

V. 12 N 2, dezembro, 2014____________________________________________________________

10

CINTED- Novas Tecnologias na Educao

_____________________________________________________________________________________________________

JONES, Karen S. A statistical interpretation of term specificity and its application


in retrieval. Journal of Documentation. v.28 1972. p. 11-21
JAHNAVI, Y. RADHIKA, Y. A Cogitate Study on Text Mining. International Journal
of Engineering and Advanced Technology (IJEAT) ISSN: 2249 8958, v.1, Issue-6,
aug. 2012.
KAUR, K. GUPTA, V. A Survey of Topic Tracking Techniques. International
Journal of Advanced Research in Computer Science and Software Engineering. v.2,
Issue 5, may. 2012
KENSKI, V. M. Processos de interao e comunicao mediados pelas tecnologias. In:
ROSA, D., SOUZA, V. (Orgs.). Didtica e prticas de ensino: interfaces com
diferentes saberes e lugares formativos. Rio de Janeiro: DP&A, 2002.
KONCHADY, Manu. Text Mining Application Programming. Thomson. 2006.
KUECHLER, W. L. Business applications of unstructured text. Communications of
ACM, v.50, n.10, p. 8693, 2007.
LOPES, M. C. S. Minerao de Dados Textuais Utilizando Tcnicas de Clustering
para o Idioma Portugus. PhD thesis, Universidade Federal do Rio de Janeiro, 2004.
MA, HUI-FANG. Hot Topic Extraction Using Time Window. International
Conference on Machine Learning and Cybernetics, Guilin, 10-13 ,July 2011.
PIVA, D. PUPO, R. GAMEZ, L. OLIVEIRA, S. EaD na Prtica. Planejamento,
mtodos e ambientes de educao online. Rio de Janeiro: Elsevier, 2011.
OLIVEIRA, Gerson P. O Frum em um Ambiente Virtual de Aprendizado
Colaborativo. Revista Digital de Tecnologia Educacional e Educao a Distncia.v.
2. ISSN 1808-1061, 2005.
REZENDE, S. O. MARCACINI, R. M. MOURA, M. F. O uso da Minerao de Textos
para Extrao e Organizao No Supervisionada de Conhecimento. Revista de
Sistemas de Informao da FSMA n. 7 (2011) pp. 7-21
REN, Y. DU, Y. HUANG, X. XU, Y. Topic Detection of News Stories with Formal
Concept Analysis. Journal of Information & Computational Science 8: 9 (2011)
1675-1682.
RICCI, F. ROKACH, L. SHAPIRA, B. KANTOR, P. B. Recommender Systems
Handbook .New York: Springer, 2011.
SCARINCI, R. G. SES: Sistema de Extrao Semntica de informaes. Porto Alegre,
1997. 165p. Dissertao de mestrado Instituto de Informtica, UFRGS.
SILVA, Marco. Educao online. So Paulo: Loyola, 2006.
SALTON, G. BUCKLEY, C. 1988. Term-weighting approaches in automatic text
retrieval. Information Processing & Management ,v.24, n.5, p. 513-523, 1988.
WIVES, L. K. Tecnologias de descoberta de conhecimento em textos aplicadas
inteligncia competitiva. Exame de Qualificao EQ-069, PPGC-UFRGS, 2002.
ZHE, G. DONG, Li. QI, Li. JIANYI, Z. YANG, Xin. XINXIN, Niu. An Online Hot
Topics Detection Approach Using the Improved Ant Colony Text Clustering
Algorithm. Journal of Convergence Information Technology(JCIT),v. 7, n.2, February
2012.

V. 12 N 2, dezembro, 2014____________________________________________________________

Você também pode gostar