T 38670

Uma Metodologia para Deteção Automática de Plágios em
Ambientes de Educação a Distância

Márcia G. de Oliveira
Departamento de Ciência da Computação
Elias Oliveira
Departamento de Ciências da Informação
Universidade Federal do Espírito Santo

Av. Fernando Ferrari, 514
Caixa Postal 5011 – 29060-970, Vitória - ES, Brazil
clickmarcia@gmail.com,elias@inf.ufes.br
Abstract. Plagiarism in courseworks has always had a great concern of facul-

ties in traditional education and this concern is doubled, these days, with the
rapidly increase of the distance education. In fact, the act of appropriating
the literary composition of another author demands little effort today than ever
before. Nevertheless, if on one hand computers and the Internet might have
facilitated somehow the plagiarism, on the other hand, they can also become
important allies to inhibit it. Therefore, this work presents an automatically de-
tention methodology of plagiarisms based on mathematical models which can be
applied to the distance learning education area as a good indication of potential
plagiarisms among documents.
Resumo. O plágio de trabalhos escolares sempre foi um motivo de grande pre-

ocupação dos professores do ensino presencial e, nos dias atuais, do ensino a
distância também. Hoje, o ato de plagiar exige menos esforço dos plagiado-
res, uma vez que simples operações de mouse e de teclado para copiar e colar
automatizaram o processo da ”cola”. Mas se por um lado o computador e a
Internet facilitaram a prática do plágio, por outro, podem tornar-se importan-
tes aliados para inibi-la. Para isso, este trabalho apresenta uma metodologia
de detecção automática de plágios baseada em modelos matemáticos que pode
ser aplicada a Ambientes de Educação a Distância para avaliação de plágios
em documentos.
1. Introdução
Os cursos a distância muito se expandiram nos últimos anos. Hoje, existem cursos livres,
técnicos, de graduação e de pós-graduação que funcionam parcialmente ou totalmente a
distância. A Internet, com seu potencial de interatividade e de disponibilização de con-
teúdos multimídia online, muito contribuiu para a expansão desses cursos. A Internet
também favoreceu a Educação a Distância ao possibilitar uma comunicação independen-
te do tempo e do espaço físico assim como a produção e a troca coletiva de informações
[Castro et al. 2001]. Dessa forma, sendo adaptável às necessidades das pessoas de conci-
liar horários [Maia and Garcia 2000] e agregando recursos de interatividade ao processo
de ensino-aprendizagem, a Internet alavancou a expansão da Educação a Distância.
Por conseguinte, com a expansão dos cursos a distância, a informação começou
a se multiplicar de forma desenfreada nesses ambientes de aprendizagem. Dessa forma,
chegam a esses ambientes os problemas típicos da Internet como, por exemplo, o geren-
ciamento e o controle de qualidade de informações disponibilizadas em massa.
Para [Santana and Martins 2003], todas as áreas são afetadas por essa dissemina-
ção caótica da informação na Internet, em particular as áreas acadêmicas e a Educação a
Distância. Os cursos a distância tornaram-se consideráveis repositórios de informações
digitais alimentados por fóruns, portifólios, materiais didáticos e até por bibliotecas vir-
tuais. Desse modo, para tirar maior proveito desse imenso acervo digital que começa a se
formar nesses ambientes, urge a utilização de técnicas mais inteligentes para gerenciar to-
da essa massa de informação. Essas técnicas deveriam prover, portanto, mecanismos para
controle de qualidade dos conteúdos que se disponibilizam e se avolumam em ambientes
de cursos a distância.
Uma forma de controle de qualidade de documentos disponibilizados em ambien-
tes de cursos a distância proposta neste trabalho é a avaliação automática de autenticidade
de informações de forma a detectar e coibir a prática do plágio em ambientes virtuais de
aprendizagem.
Sabe-se que o plágio sempre foi um problema na modalidade de ensino presencial
e um grande desafio para professores identificá-lo e coibi-lo. No Ensino a Distância
esse problema assumiu dimensões maiores, pois a mídia digital de certa forma facilitou
a prática do plágio e os ambientes de cursos a distância carecem de mecanismos que a
detectem e, principalmente, previnam-na.
Embora já existam sistemas de detecção automática de indícios de plágios
[Crisp 2007], inclusive integrados a cursos a distância [Naidu 2006], tais sistemas são,
na grande maioria, de natureza privada. Dessa forma, têm-se tornado difícil o acesso
a essa tecnologia, principalmente devido aos custos de serviços da detecção de indícios
de plágio. Além disso, a maioria desses sistemas reconhecem apenas trechos idênticos
de documentos, não identificando disfarces em um texto plagiado como, por exemplo, a
alteração da ordem das palavras e a adição de outras palavras.
Desse modo, visando um reconhecimento mais eficaz de indícios de plágios, pro-
pomos neste trabalho uma metodologia baseada em modelos matemáticos para avaliar
similaridades entre documentos disponibilizados em Ambientes de Educação a Distân-
cia. Essa avaliação consiste em, mais do que apenas identificar cópias idênticas de textos,
reconhecer o relacionamento entre palavras, isto é, a estrutura semântica comum entre
textos comparados. Para isso, utilizamos modelos matemáticos aplicados na área de Re-
cuperação Inteligente da Informação que consistem na representação vetorial de docu-
mentos e na extração da semântica latente dos documentos.
Os experimentos realizados através dessas técnicas sobre trabalhos de alunos dis-
ponibilizados em um curso de informática a distância demonstraram a precisão desses
métodos. Em vários testes realizados obtiveram-se índices de similaridades entre docu-
mentos variando de 60% a 98% que, segundo [Shivakumar and Molina 1995], apontam
para alguns e fortes indícios de plágio e até para plágio total.
Para a apresentação dos estudos, experimentos e resultados, este trabalho foi or-
ganizado da seguinte forma: na seção 2, apresentam-se o plágio e as suas variações.
Na seção 3, aborda-se o plágio em Ambientes de Educação a Distância. Na seção 4,
apresentam-se os modelos matemáticos de representação vetorial de documentos e de ex-
tração da semântica latente. Na seção 5, são analisados os experimentos e os resultados
obtidos.
2. O plágio e suas Variações

O plágio é definido como a apropriação ou imitação de trabalhos alheios sem dar crédito
aos seus verdadeiros autores. Para mostrar como o plágio é um ato que excede à simples
cópia de informações, encontramos na literatura vários conceitos que tentam definir o que
seria considerado um ato de plágio. Entre eles, segundo [Kirkpatrick 2007], destacam-se:
Citação: é uma cópia palavra por palavra do que alguém disse ou escreveu.
Paráfrase: é a reformulação de uma idéia contida em um documento fonte
utilizando-se as próprias palavras.
Resumo: é feito, assim como a paráfrase, com as próprias palavras, porém, um
resumo é consideravelmente mais curto e não segue a fonte ao pé da letra como a
paráfrase.
Referência: é o plágio em que há referência incompleta à obra original ou refe-
rência a um plágio (citação, paráfrase ou resumo). Um exemplo de plágio por
referência é indicar em um texto como referências bibliográficas citações, pará-
frases ou resumos em vez de referenciar os textos originais e seus verdadeiros
autores.
Considerando as definições de plágio apresentadas, [Kirkpatrick 2007] identifica
a existência dos seguintes tipos de plágio :
Direto: é o plágio em que uma cópia é feita palavra por palavra de uma outra fonte
sem dar crédito ao verdadeiro autor.
Por referência (vaga ou incorreta) : nesse tipo de plágio é realizada uma cópia de
parte ou de todo um texto mudando-se algumas palavras. O escritor deve sempre
informar onde um resumo, paráfrase ou citação inicia e onde termina.
Mosaico: é o tipo mais comum de plágio, em que a cópia não é feita diretamente,
isto é, o autor altera algumas palavras e sentenças ou reformula o texto, sem dar
crédito ao autor original.
3. O Plágio em Ambientes de EAD
”O digital é uma matéria pronta a suportar todas as metamorfoses, todos os revestimentos,
todas as deformações.” [Lévy 1993]. Essa afirmação de Lèvy pode explicar claramente
porque a Internet e a mídia digital favoreceram a prática do plágio, uma vez que o plágio
em mídia digital é muito mais rápido e fácil do que na mídia impressa.
Desse modo, sendo os cursos a distância baseados em Internet, chega também
a esses ambientes o problema do plágio. Nesse caso, a prática do plágio pode ser mais
estimulada ainda uma vez que os cursos de Educação a Distância tornam-se cada vez mais
repositórios expressivos de trabalhos acadêmicos e de material didático de qualidade.
O problema do plágio ou fraude na Educação à Distância, segundo [Neil 2004],
é uma das principais objeções levantadas à aceitação deste modelo de ensino. A Internet
e o computador facilitaram e automatizaram a prática do plágio ao tornar a informação
bem mais acessível e ao possibilitar a redução do esforço de copiar a simples operações
de mouse e de teclado [Oliveira et al. 2007]. Dessa forma, acredita-se que em cursos a
distância é muito mais fácil plagiar trabalhos e avaliações do que no modelo de ensino
presencial.
De acordo com [Neil 2004], embora o plágio possa ser facilitado em cursos online,
pouco ou nada se tem feito para inibi-lo. Segundo [Santana and Martins 2003], identificar
plágios nos trabalhos disponibilizados por alunos em Ambientes de Educação a Distância
tem sido um trabalho difícil para professores e administradores de cursos a distância.
Dessa forma, não é rara a dificuldade que os docentes têm em avaliar a autenticidade dos
trabalhos de seus alunos.
Embora, para [Heberling 2002], ironicamente seja mais difícil plagiar online e
mais fácil detectar plágios, os diversos cursos a distância dos dias atuais carecem de me-
canismos em seus ambientes de aprendizagem que identifiquem automaticamente docu-
mentos plagiados.
Ainda assim, atualmente existem alguns sistemas privados que detectam plágios
automaticamente. Entre eles destaca-se o Turnitin1 , que é um sistema totalmente online
que passeia pela Internet identificando sites e bases de documentos que contenham tre-
chos idênticos a um trabalho submetido à avaliação de plágio e, ao final do processo de
varredura, emite um relatório de originalidade desse trabalho. O Sistema Turnitin po-
de, inclusive, ser integrado a Ambientes de Educação a Distância como o Moodle 2 e o
WebCt3 .
Apesar do grande potencial de varredura de plágios de alguns sistemas existentes,
o plágio nesses sistemas é reconhecido praticamente apenas por trechos de documentos
idênticos e não pela semelhança entre esses documentos. No caso em que é alterada a
1
Turnitin: http://www.turnitin.com
2
Moodle: http://www.moodle.org
3
WebCt: http://www.webct.com
ordem das palavras, por exemplo, o plágio é descaracterizado, quando, na verdade, ainda
se trata de um plágio.
Além disso, para Ambientes de Educação a Distância, a detecção automática de
plágios deveria, além de buscar plágios na Web, comparar questões de provas [Neil 2004],
textos e trabalhos submetidos por alunos. Para isso, torna-se necessário um sistema que
reconheça não apenas os trechos idênticos, mas o grau de similaridade entre documentos
e aponte como plágio caso esse índice de similaridade ultrapasse um certo limite.
O sistema proposto neste trabalho visa alcançar uma solução para avaliar preci-
samente quão similares dois documentos podem ser considerados e identificar possíveis
plágios. Apresenta-se na seção a seguir como essa solução pode ser desenvolvida.
4. Representação Vetorial dos Textos–Documentos

Para avaliar plágios em documentos de uma coleção, foi utilizado o Modelo de Represen-
mentos são representados por vetores no espaço .

tação Vetorial. Nesse modelo, segundo [Baeza-Yates and Ribeiro-Neto 1998] , os docu-
Nos testes deste trabalho os pesos dos termos foram representados pelas freqüên-
cias com que eles ocorrem nos documentos a que pertencem. Mas existem técnicas para
ajustes de pesos dos termos para melhor representar um documento e melhorar a perfor-
mance computacional.
A similaridade entre dois documentos e
de uma base documentos

pode ser calculada através do produto vetorial dos vetores de pesos que re-
presentam cada um desses dois documentos da seguinte forma:

" #" "! "
%$'& (*)
!
O resultado do produto vetorial entre dois vetores é o cosseno do ângulo ) formado
entre esses vetores. Para $& +) ,
.- , tem-se dissimilaridade total entre dois documen-
tos e para $'& +*) /
10 , tem-se similaridade total entre dois documentos. Dessa forma,
quanto mais próximo for o $'& (*) de 1, mais semelhantes dois documentos podem ser
considerados.
Na Figura 1, dois documentos são representados pelos vetores 2
3 4567 89 e
: ;
3 45<-=<89 , onde as dimensões são representadas pelas frequências de três termos > , >?
e >?@ em cada um desses documentos, respectivamente.
:
Calculando o produto vetorial entre os vetores 2 e , obtém-se um índice de
similaridade entre ambos de aproximadamente 0.80, o que indica que o documento 2 é
80% semelhante ao documento .
:
Conforme foi apresentado, o processo de comparação de documentos pode ser
abstraído em um modelo matemático que, por sua vez, torna possível a identificação auto-
mática do grau de semelhança entre vários documentos com muitos termos representados
vetorialmente.
Figura 1. Representação Vetorial de Documentos
Dessa forma, o Modelo de Representação Vetorial, como uma técnica de identifi-

cação de índices de similaridades entre documentos pelas frequências das palavras, pode
ter como importante aplicação o reconhecimento de plágios diretos e até de paráfrases
e resumos quando, nesses casos, utilizam-se praticamente as mesmas palavras do texto
original.
4.1. Extração da Semântica Latente dos Documentos

O processo denominado Latent Semantic Indexing (LSI) [Deerwester et al. 1990] é uma
técnica que permite encontrar uma estrutura semântica associada a uma coleção de docu-
mentos indexados em uma matriz. Para isso, leva-se em conta não apenas a ocorrência dos
termos em documentos, mas a co-ocorrência desses termos, isto é, conjuntos de termos
que freqüentemente são encontrados nos mesmos documentos.
Para isso, o LSI utiliza o método matemático da Álgebra Linear de decomposição
Single Value Decomposition (SVD), que decompõe uma matriz M em outras três matrizes
(U,S,V). Ao multiplicarmos essas três matrizes, obtemos a matriz original M:
A
CBED GF , onde HF é a Matriz Transposta de .
Considerando a matriz
Acomo uma matriz termos-documentos e decompondo-a
pelo método SVD, pode-se reduzir as dimensões das três matrizes obtidas pela decom-
AJI
A
posição SVD de forma que ao multiplicá-las obtenha-se uma Matriz aproximada ( ) de
:
A I
KB I D I I F , onde B I e D I são as matrizes D e de postos reduzidos, e IF éa
matriz transposta de de posto reduzido.
Através da redução do espaço dimensional dessas matrizes representantes de uma
coleção de documentos objetiva-se a extração da estrutura latente (”oculta”) semântica da
A
A
matriz . Em outras palavras, através desses cálculos visa-se encontrar o relacionamento
dos termos (palavras) da matriz termos-documentos .
5. Experimentos e Resultados
Para a realização dos experimentos deste trabalho foram utilizados trabalhos de alunos
disponibilizados em um Ambiente Virtual de Curso Técnico de Informática a Distância.
Os trabalhos eram baseados em textos sobre Linguagens de Programação. Em seguida,
foram selecionadas páginas retornadas pelo Google4 cujos conteúdos fossem relacionados
aos temas dos trabalhos dos alunos.
LM
Para comparar cada trabalho de aluno com as páginas do Google NO
seleciona-
das, em primeiro lugar, convertemos os trabalhos e as páginas para arquivos no formato
.txt. Em seguida, esses arquivos foram indexados retirando-se as stopwords (palavras sem
significado expressivo como artigos, preposições e conjunções), o feminino e o plural das
palavras representativas de cada texto.
Aplicando-se o Modelo de Representação Vetorial com a técnica LSI sobre esses
documentos indexados para comparar trabalhos de alunos de um curso de informática a
distância com páginas de mesmos assuntos do site Google, foram obtidos os seguintes
resultados apresentados na Tabela 2.
Tabela 1. Índices de similaridades entre trabalhos de alunos (Ti, i = 1,...,8) e

páginas do site Google(Gj, j = 1,...,8)
Os índices de similaridades apontados variam de 0 (dissimilaridade ou 0%) a 1

(similaridade total ou 100%). Observam-se em destaque na Tabela 1 os maiores índices
de similaridades entre pares de documentos que coincidem justamente com os pares de
documentos (trabalho de aluno e página do site Google) que tratam do mesmo assunto.
Da mesma forma, os pares de documentos com assuntos divergentes apresentam índices
de similaridades baixos.
Os resultados demonstram para os documentos mais semelhantes índices de
similaridades de 25% a 90%. Fazendo uma avaliação de satisfação para consi-
4
Google : http://www.google.com
derar o valor do índice de similaridade como um indicador de plágio, segundo
[Shivakumar and Molina 1995], assume-se que:
Tabela 2. Avaliação de plágios pelos índices de similaridades

Índices de similaridades entre os documentos L7 e PN Conclusões
Menor que 0.33 (0 a 33%) Não é plágio
Entre 0.33 e 0.67 (33% a 67%) Há alguns indícios de plágio
Entre 0.67 e 0.90 (67% a 90%) Há altos indícios de plágio
Acima de 0.90 (90% a 100%) É Plágio total
Dessa forma, de acordo com [Shivakumar and Molina 1995], os índices de simi-
laridades entre os textos T1 e G1, T2 e G2, T4 e G4 e T7 e G7 apontam para plágio total.
Já os índices entre os textos T8 e G8 indicam fortes indícios de plágios. Os índices entre
T3 e G3 apontam para alguns indícios de plágios e os índices de similaridades entre os
textos T5 e G5 e entre T6 e G6 não podem ser considerados indicadores de plágios. Os
resultados obtidos tanto de plágios quanto de não-plágios conferem com a avaliação dos
trabalhos realizada pelo professor do curso de informática a distância especificado, o que
valida esses experimentos.
6. Conclusão
O controle de plágios em ambientes virtuais de aprendizagem tem sido um desafio para a
Educação a distância. A despeito da expansão dos cursos a distância, pouco ainda se tem
feito para resolvê-lo. Este trabalho é um importante passo para reconhecer, combater e
inibir a prática do plágio em Ambientes de Educação a Distância.
Conforme apresentamos nos experimentos realizados com trabalhos disponibiliza-
dos por alunos em um Curso de Informática a Distância, o plágio na Educação a Distância
é um problema real e explícito que compromete o Modelo de Educação a Distância. No
entanto, mostramos também que, embora o computador, a mídia digital e a Internet facili-
tem a prática do plágio, por outro lado, podem também facilitar e agilizar a sua detecção.
Dessa forma, os Ambientes de Educação a Distância, munidos de técnicas de detecção
automática de índices de similaridades entre documentos, poderão tornar-se importantes
meios de controle e de combate ao plágio.
Através dos resultados obtidos nos experimentos apresentados nesse trabalho e
em outros de mesma natureza [Oliveira et al. 2007], verificamos que não apenas alguns
indícios de plágios foram apontados nos textos avaliados, mas fortes indícios e até plá-
gio total. Com a utilização do cálculo de similaridade entre documentos, representados
através do Modelo Vetorial, é possível reconhecer proximidades semânticas entre docu-
mentos e resolver, pelo menos parcialmente, o problema do plágio em ambientes virtuais
de aprendizagem.
Sugerimos, portanto, como trabalhos futuros a partir deste trabalho, o desenvol-
vimento de soluções para identificar plágios mais elaborados como os plágios mosaicos.
Além disso, propomos a integração dessas soluções a Ambientes de Educação a Distância
para inibir a prática do plágio assim como garantir e proteger a qualidade e a autenticidade
de documentos disponibilizados nesses ambientes.
Referências
Baeza-Yates, R. and Ribeiro-Neto, B. (1998). Modern Information Retrieval. Addison-
Wesley, New York, 1 edition.
Castro, N., Haguenauer, C., and et al (2001). O Estudo a Distância com Apoio da Internet.
Brasília, Brasil. Congresso Internacional de Educação a Distância.
Crisp, G. (2007). Staff Attitudes to Dealing with Plagiarism Issues: Perspectives from
one Australian University. International Journal for Educational Integrity, Vol 3, No 1.
Deerwester, S. C., Dumais, S. T., Landauer, T. K., Furnas, G. W., and Harshman, R. A.
(1990). Indexing by Latent Semantic Analysis. Journal of the American Society of
Information Science, 41(6):391–407.
Heberling, M. (2002). Maintaining academic integrity in on-line education. Online Jour-
nal of Distance Learning Administration, V.5 n1 Spr 2002.
Kirkpatrick, K. (2007). Avoiding Plagiarism. In.:Depauw University.Trad.: Jackson
Aquino.Available[Online] at:http://www.jalvesaque.googlepages.com/plag.html.
Lévy, P. (1993). As Tecnologias da Inteligência. 34 edition.
Maia, C. and Garcia, M. (2000). O Trajeto da Universidade Anhembi Morumbi no Desen-
volvimento de Ambientes Virtuais de Aprendizagem. São Paulo, Anhembi Morumbi;
Recife, Ed. da UFPE. In: MAIA, Carmem (org.): EAD.BR – Educação a Distância no
Brasil na era da Internet.
Naidu, S. (2006). E–Learning, A Guidebook of Principles, Procedures and Practices.
Commonwealth Educational Media Center for Asia (CEMCA), 2th edition.
Neil, R. (2004). Cheating in online student assessment: Beyond plagiarism. Online
Journal of Distance Learning Administration, Volume VII, Number II, State University
of West Georgia, Distance Education Center.
Oliveira, M., Pereira, F., Ciarelli, P. M., Cardoso, B., Henrique, W. F., Veronese, L., and
Oliveira, E. (2007). Bibliotecas Digitais Aliadas na Detecção Automática de Plágio.
In V Simpósio Internacional de Bibliotecas Digitais, São Paulo.
Santana, J. and Martins, J. (2003). Um sistema de deteccão de plágio em ambiente de
aprendizado virtual. pages 230–242. Em: Anais do Virtual Educa 2003, Miami.
Shivakumar, N. and Molina, H. G. (1995). SCAM: a Copy Detection Mechanism for
Digital Documents. Austin,Texas. International Conference on Theory and Pratice of
Digital Libraries.

T 38670

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

T 38670

Enviado por

Direitos autorais:

Formatos disponíveis

Uma Metodologia para Deteção Automática de Plágios em

Ambientes de Educação a Distância

Universidade Federal do Espírito Santo

Abstract. Plagiarism in courseworks has always had a great concern of facul-

Resumo. O plágio de trabalhos escolares sempre foi um motivo de grande pre-

2. O plágio e suas Variações

4. Representação Vetorial dos Textos–Documentos

mentos são representados por vetores no espaço .

Dessa forma, o Modelo de Representação Vetorial, como uma técnica de identifi-

4.1. Extração da Semântica Latente dos Documentos

Tabela 1. Índices de similaridades entre trabalhos de alunos (Ti, i = 1,...,8) e

Os índices de similaridades apontados variam de 0 (dissimilaridade ou 0%) a 1

Tabela 2. Avaliação de plágios pelos índices de similaridades

Você também pode gostar