Escolar Documentos
Profissional Documentos
Cultura Documentos
clickmarcia@gmail.com,elias@inf.ufes.br
1. Introdução
Os cursos a distância muito se expandiram nos últimos anos. Hoje, existem cursos livres,
técnicos, de graduação e de pós-graduação que funcionam parcialmente ou totalmente a
distância. A Internet, com seu potencial de interatividade e de disponibilização de con-
teúdos multimídia online, muito contribuiu para a expansão desses cursos. A Internet
também favoreceu a Educação a Distância ao possibilitar uma comunicação independen-
te do tempo e do espaço físico assim como a produção e a troca coletiva de informações
[Castro et al. 2001]. Dessa forma, sendo adaptável às necessidades das pessoas de conci-
liar horários [Maia and Garcia 2000] e agregando recursos de interatividade ao processo
de ensino-aprendizagem, a Internet alavancou a expansão da Educação a Distância.
Por conseguinte, com a expansão dos cursos a distância, a informação começou
a se multiplicar de forma desenfreada nesses ambientes de aprendizagem. Dessa forma,
chegam a esses ambientes os problemas típicos da Internet como, por exemplo, o geren-
ciamento e o controle de qualidade de informações disponibilizadas em massa.
Para [Santana and Martins 2003], todas as áreas são afetadas por essa dissemina-
ção caótica da informação na Internet, em particular as áreas acadêmicas e a Educação a
Distância. Os cursos a distância tornaram-se consideráveis repositórios de informações
digitais alimentados por fóruns, portifólios, materiais didáticos e até por bibliotecas vir-
tuais. Desse modo, para tirar maior proveito desse imenso acervo digital que começa a se
formar nesses ambientes, urge a utilização de técnicas mais inteligentes para gerenciar to-
da essa massa de informação. Essas técnicas deveriam prover, portanto, mecanismos para
controle de qualidade dos conteúdos que se disponibilizam e se avolumam em ambientes
de cursos a distância.
Uma forma de controle de qualidade de documentos disponibilizados em ambien-
tes de cursos a distância proposta neste trabalho é a avaliação automática de autenticidade
de informações de forma a detectar e coibir a prática do plágio em ambientes virtuais de
aprendizagem.
Sabe-se que o plágio sempre foi um problema na modalidade de ensino presencial
e um grande desafio para professores identificá-lo e coibi-lo. No Ensino a Distância
esse problema assumiu dimensões maiores, pois a mídia digital de certa forma facilitou
a prática do plágio e os ambientes de cursos a distância carecem de mecanismos que a
detectem e, principalmente, previnam-na.
Embora já existam sistemas de detecção automática de indícios de plágios
[Crisp 2007], inclusive integrados a cursos a distância [Naidu 2006], tais sistemas são,
na grande maioria, de natureza privada. Dessa forma, têm-se tornado difícil o acesso
a essa tecnologia, principalmente devido aos custos de serviços da detecção de indícios
de plágio. Além disso, a maioria desses sistemas reconhecem apenas trechos idênticos
de documentos, não identificando disfarces em um texto plagiado como, por exemplo, a
alteração da ordem das palavras e a adição de outras palavras.
Desse modo, visando um reconhecimento mais eficaz de indícios de plágios, pro-
pomos neste trabalho uma metodologia baseada em modelos matemáticos para avaliar
similaridades entre documentos disponibilizados em Ambientes de Educação a Distân-
cia. Essa avaliação consiste em, mais do que apenas identificar cópias idênticas de textos,
reconhecer o relacionamento entre palavras, isto é, a estrutura semântica comum entre
textos comparados. Para isso, utilizamos modelos matemáticos aplicados na área de Re-
cuperação Inteligente da Informação que consistem na representação vetorial de docu-
mentos e na extração da semântica latente dos documentos.
Os experimentos realizados através dessas técnicas sobre trabalhos de alunos dis-
ponibilizados em um curso de informática a distância demonstraram a precisão desses
métodos. Em vários testes realizados obtiveram-se índices de similaridades entre docu-
mentos variando de 60% a 98% que, segundo [Shivakumar and Molina 1995], apontam
para alguns e fortes indícios de plágio e até para plágio total.
Para a apresentação dos estudos, experimentos e resultados, este trabalho foi or-
ganizado da seguinte forma: na seção 2, apresentam-se o plágio e as suas variações.
Na seção 3, aborda-se o plágio em Ambientes de Educação a Distância. Na seção 4,
apresentam-se os modelos matemáticos de representação vetorial de documentos e de ex-
tração da semântica latente. Na seção 5, são analisados os experimentos e os resultados
obtidos.
Nos testes deste trabalho os pesos dos termos foram representados pelas freqüên-
cias com que eles ocorrem nos documentos a que pertencem. Mas existem técnicas para
ajustes de pesos dos termos para melhor representar um documento e melhorar a perfor-
mance computacional.
A similaridade entre dois documentos e
de uma base documentos
pode ser calculada através do produto vetorial dos vetores de pesos que re-
presentam cada um desses dois documentos da seguinte forma:
" #" "! "
%$'& (*)
!
O resultado do produto vetorial entre dois vetores é o cosseno do ângulo ) formado
entre esses vetores. Para $& +) ,
.- , tem-se dissimilaridade total entre dois documen-
tos e para $'& +*) /
10 , tem-se similaridade total entre dois documentos. Dessa forma,
quanto mais próximo for o $'& (*) de 1, mais semelhantes dois documentos podem ser
considerados.
Na Figura 1, dois documentos são representados pelos vetores 2
3 4567
89 e
: ;
3 45<-=<89 , onde as dimensões são representadas pelas frequências de três termos > , >?
e >?@ em cada um desses documentos, respectivamente.
:
Calculando o produto vetorial entre os vetores 2 e , obtém-se um índice de
similaridade entre ambos de aproximadamente 0.80, o que indica que o documento 2 é
80% semelhante ao documento .
:
Conforme foi apresentado, o processo de comparação de documentos pode ser
abstraído em um modelo matemático que, por sua vez, torna possível a identificação auto-
mática do grau de semelhança entre vários documentos com muitos termos representados
vetorialmente.
Figura 1. Representação Vetorial de Documentos
5. Experimentos e Resultados
Para a realização dos experimentos deste trabalho foram utilizados trabalhos de alunos
disponibilizados em um Ambiente Virtual de Curso Técnico de Informática a Distância.
Os trabalhos eram baseados em textos sobre Linguagens de Programação. Em seguida,
foram selecionadas páginas retornadas pelo Google4 cujos conteúdos fossem relacionados
aos temas dos trabalhos dos alunos.
LM
Para comparar cada trabalho de aluno com as páginas do Google NO
seleciona-
das, em primeiro lugar, convertemos os trabalhos e as páginas para arquivos no formato
.txt. Em seguida, esses arquivos foram indexados retirando-se as stopwords (palavras sem
significado expressivo como artigos, preposições e conjunções), o feminino e o plural das
palavras representativas de cada texto.
Aplicando-se o Modelo de Representação Vetorial com a técnica LSI sobre esses
documentos indexados para comparar trabalhos de alunos de um curso de informática a
distância com páginas de mesmos assuntos do site Google, foram obtidos os seguintes
resultados apresentados na Tabela 2.
Dessa forma, de acordo com [Shivakumar and Molina 1995], os índices de simi-
laridades entre os textos T1 e G1, T2 e G2, T4 e G4 e T7 e G7 apontam para plágio total.
Já os índices entre os textos T8 e G8 indicam fortes indícios de plágios. Os índices entre
T3 e G3 apontam para alguns indícios de plágios e os índices de similaridades entre os
textos T5 e G5 e entre T6 e G6 não podem ser considerados indicadores de plágios. Os
resultados obtidos tanto de plágios quanto de não-plágios conferem com a avaliação dos
trabalhos realizada pelo professor do curso de informática a distância especificado, o que
valida esses experimentos.
6. Conclusão
O controle de plágios em ambientes virtuais de aprendizagem tem sido um desafio para a
Educação a distância. A despeito da expansão dos cursos a distância, pouco ainda se tem
feito para resolvê-lo. Este trabalho é um importante passo para reconhecer, combater e
inibir a prática do plágio em Ambientes de Educação a Distância.
Conforme apresentamos nos experimentos realizados com trabalhos disponibiliza-
dos por alunos em um Curso de Informática a Distância, o plágio na Educação a Distância
é um problema real e explícito que compromete o Modelo de Educação a Distância. No
entanto, mostramos também que, embora o computador, a mídia digital e a Internet facili-
tem a prática do plágio, por outro lado, podem também facilitar e agilizar a sua detecção.
Dessa forma, os Ambientes de Educação a Distância, munidos de técnicas de detecção
automática de índices de similaridades entre documentos, poderão tornar-se importantes
meios de controle e de combate ao plágio.
Através dos resultados obtidos nos experimentos apresentados nesse trabalho e
em outros de mesma natureza [Oliveira et al. 2007], verificamos que não apenas alguns
indícios de plágios foram apontados nos textos avaliados, mas fortes indícios e até plá-
gio total. Com a utilização do cálculo de similaridade entre documentos, representados
através do Modelo Vetorial, é possível reconhecer proximidades semânticas entre docu-
mentos e resolver, pelo menos parcialmente, o problema do plágio em ambientes virtuais
de aprendizagem.
Sugerimos, portanto, como trabalhos futuros a partir deste trabalho, o desenvol-
vimento de soluções para identificar plágios mais elaborados como os plágios mosaicos.
Além disso, propomos a integração dessas soluções a Ambientes de Educação a Distância
para inibir a prática do plágio assim como garantir e proteger a qualidade e a autenticidade
de documentos disponibilizados nesses ambientes.
Referências
Baeza-Yates, R. and Ribeiro-Neto, B. (1998). Modern Information Retrieval. Addison-
Wesley, New York, 1 edition.
Castro, N., Haguenauer, C., and et al (2001). O Estudo a Distância com Apoio da Internet.
Brasília, Brasil. Congresso Internacional de Educação a Distância.
Crisp, G. (2007). Staff Attitudes to Dealing with Plagiarism Issues: Perspectives from
one Australian University. International Journal for Educational Integrity, Vol 3, No 1.
Deerwester, S. C., Dumais, S. T., Landauer, T. K., Furnas, G. W., and Harshman, R. A.
(1990). Indexing by Latent Semantic Analysis. Journal of the American Society of
Information Science, 41(6):391–407.
Heberling, M. (2002). Maintaining academic integrity in on-line education. Online Jour-
nal of Distance Learning Administration, V.5 n1 Spr 2002.
Kirkpatrick, K. (2007). Avoiding Plagiarism. In.:Depauw University.Trad.: Jackson
Aquino.Available[Online] at:http://www.jalvesaque.googlepages.com/plag.html.
Lévy, P. (1993). As Tecnologias da Inteligência. 34 edition.
Maia, C. and Garcia, M. (2000). O Trajeto da Universidade Anhembi Morumbi no Desen-
volvimento de Ambientes Virtuais de Aprendizagem. São Paulo, Anhembi Morumbi;
Recife, Ed. da UFPE. In: MAIA, Carmem (org.): EAD.BR – Educação a Distância no
Brasil na era da Internet.
Naidu, S. (2006). E–Learning, A Guidebook of Principles, Procedures and Practices.
Commonwealth Educational Media Center for Asia (CEMCA), 2th edition.
Neil, R. (2004). Cheating in online student assessment: Beyond plagiarism. Online
Journal of Distance Learning Administration, Volume VII, Number II, State University
of West Georgia, Distance Education Center.
Oliveira, M., Pereira, F., Ciarelli, P. M., Cardoso, B., Henrique, W. F., Veronese, L., and
Oliveira, E. (2007). Bibliotecas Digitais Aliadas na Detecção Automática de Plágio.
In V Simpósio Internacional de Bibliotecas Digitais, São Paulo.
Santana, J. and Martins, J. (2003). Um sistema de deteccão de plágio em ambiente de
aprendizado virtual. pages 230–242. Em: Anais do Virtual Educa 2003, Miami.
Shivakumar, N. and Molina, H. G. (1995). SCAM: a Copy Detection Mechanism for
Digital Documents. Austin,Texas. International Conference on Theory and Pratice of
Digital Libraries.