Você está na página 1de 14

XXIX Simpsio Brasileiro de Redes de Computadores e Sistemas Distribudos

Deteco de Spammers na Rede de Origem


Pedro Henrique B. Las Casas1 , Dorgival Guedes2 , Jussara M. Almeida2 ,
Artur Ziviani3 , Humberto T. Marques-Neto1
Departamento de Cincia da Computao
Pontifcia Universidade Catlica de Minas Gerais (PUC Minas)
30.535-901 - Belo Horizonte - Brasil
1

Departamento de Cincia da Computao


Universidade Federal de Minas Gerais (UFMG)
31.270-010 - Belo Horizonte - Brasil
2

Coordenao de Cincia da Computao


Laboratrio Nacional de Computao Cientfica (LNCC)
25.651-075 - Petrpolis - Brasil
3

pedro.casas@sga.pucminas.br, {dorgival,jussara}@dcc.ufmg.br
ziviani@lncc.br, humberto@pucminas.br

Abstract. The volume of unsolicited messages (spam) sent over the Internet represents more than 85% of all e-mails. Even with the evolution of the filtering
techniques such as the analysis of the message content and the blocking of IPs,
network resources are wasted given that such a filtering is usually performed at
the e-mail destination server. This paper proposes a method for detecting spammers in the origin network using some metrics which do not require inspection
of message contents. This method uses a supervised classification technique that
has been applied to the two real-world datasets from a Brazilian broadband Internet service provider. Results show that the adopted method is efficient, being
able to correctly identify most spammers still in the origin network. In this way,
network resources are saved because of the reduced number of spams in transit
that likely would be discarded at their destination.
Resumo. A quantidade de mensagens no-solicitadas (spams) enviadas na Internet representa mais de 85% de todos os e-mails. Mesmo com a evoluo de
tcnicas de filtragem como a anlise do contedo de mensagens e o bloqueio
de IPs, recursos da rede so desperdiados, uma vez que essa filtragem realizada normalmente no servidor de destino dos e-mails. Este trabalho prope um
mtodo para deteco de spammers na rede de origem utilizando mtricas que
no requerem a inspeo do contedo das mensagens enviadas. Esse mtodo
utiliza uma tcnica de classificao supervisionada, a qual foi aplicada em dois
conjuntos de dados reais de um provedor de internet de banda larga brasileiro.
Os resultados mostram que o mtodo utilizado eficaz, sendo capaz de identificar a maioria dos spammers ainda em sua rede de origem. Desta forma, os
recursos da rede so preservados a partir da diminuio do nmero de spams
em circulao que provavelmente seriam descartados em seu destino.

485

486

Anais

1. Introduo
O crescimento e a importncia do servio de correio eletrnico proporciona um
contexto favorvel para gerao de um grande volume de mensagens no-solicitadas
(spams). H algum tempo, os spams representam mais de 85% do total de e-mails que
trafegam pela Internet [IronPort 2009, MessageLabs 2010]. Alm do seu carter indesejado, mensagens de spam esto diretamente relacionadas propagao de malwares,
como cavalos de tria, vrus e worms [Newman et al. 2002], o que as torna ainda mais
nocivas para a rede e seus usurios.
A adoo de filtros anti-spam a principal medida adotada por provedores do
servio de correio eletrnico para diminuir a quantidade de spam na caixa de entrada
de seus usurios. Normalmente, esses filtros classificam as mensagens como legtimas
ou no e, se for o caso, efetuam seu descarte ou utilizam um mecanismo de quarentena
para alertar o usurio. Entretanto, mesmo sendo razoavelmente eficiente, essa filtragem
ocorre apenas depois que as mensagens so entregues ao servidor de correio eletrnico
de destino (ou um intermedirio adequado). Nesse ponto, o spam j consumiu recursos
da rede, como banda passante, e a prpria aplicao do filtro consome recursos como
memria e capacidade de processamento do servidor de destino.
Uma possvel forma de evitar esse desperdcio de recursos causado pelos spams
seria complementar a filtragem no servidor receptor com o uso de tcnicas de filtragem
prvia, capazes de evitar o envio do spam e, com isso, o desperdcio de recursos associado.
Tais tcnicas podem ser aplicadas, por exemplo, em provedores de acesso Internet de
banda larga que, atravs da anlise do trfego SMTP (Simple Mail Transfer Protocol),
poderiam detectar a ao de possveis spammers, bloqueando o trfego na sua origem.
Alm deste tipo de bloqueio, outras medidas podem ser tomadas para no prejudicar
usurios possivelmente classificados como falsos positivos, como por exemplo, o envio
de mensagens de alerta, uso (peridico) de desafios para testar a legitimidade de usurios
suspeitos, em conjunto com a introduo de atrasos em mensagens destes usurios.
Este artigo prope um novo mtodo para deteco de spammers na rede de origem
chamado SpaDeS - Spammer detection at the Source - que baseado em um algoritmo
de classificao supervisionada e explora apenas mtricas que no requerem a inspeo
do contedo das mensagens. O mtodo proposto foi aplicado e validado utilizando dois
conjuntos de dados reais contendo informaes agregadas e anonimizadas de transaes
SMTP de usurios de um provedor brasileiro de Internet de banda larga residencial coletadas em 2009 e 2010. Os resultados apresentados mostram que a utilizao do SpaDeS
capaz de diferenciar spammers de usurios legtimos ainda na rede de origem, sem
inspecionar o contedo de suas mensagens. Com o uso da tcnica de classificao supervisionada, validada atravs da comparao com uma base de dados real de denncias
de spam e da inspeo de uma amostra dos usurios classificados, estima-se que cerca de
98% dos usurios legtimos e 94% dos spammers foram classificados corretamente. Ou
seja, as taxas de falsos positivos e de falsos negativos foram, respectivamente, de 2% e
6%. O estudo mostra tambm que classes de usurios legtimos representaram cerca de
83% dos usurios e realizaram cerca de 1,6% do total de transaes SMTP observadas
nos dados de 2010. Enquanto isso, os usurios classificados como spammers, (cerca de
17%) originaram mais de 98% de todas as transaes SMTP no perodo observado.

XXIX Simpsio Brasileiro de Redes de Computadores e Sistemas Distribudos

487

O restante deste artigo est organizado da seguinte forma: os trabalhos relacionados so discutidos na Seo 2; a Seo 3 apresenta o mtodo de deteco de spammers
proposto e a Seo 4 discute os resultados mais relevantes deste trabalho. Finalmente, a
Seo 5 apresenta algumas concluses e sugere trabalhos futuros.

2. Trabalhos Relacionados
Entender as caractersticas dos spams uma tarefa importante para o desenvolvimento de mtodos para deteco desse tipo de mensagem assim como de seus remetentes,
os spammers. No que tange anlise de spams, Gomes et al. analisaram uma carga de trabalho de mensagens de usurios de uma universidade brasileira e destacaram uma srie de
caractersticas capazes de diferenciar spams de mensagens legtimas [Gomes et al. 2007].
Para isso, os autores utilizaram as mensagens recebidas na rede da universidade. Em uma
extenso daquele trabalho, os mesmos autores indicam que o trfego legtimo apresenta
menor entropia que o trfego gerado pelos spammers, os quais, geralmente, enviam emails indistintamente para os seus alvos [Gomes et al. 2009]. De forma similar, Kim et
al. caracterizam o trfego de spam de uma universidade sul-coreana tambm com dados
da camada de aplicao no destino da mensagem, mostrando que o intervalo entre chegadas de spams bem inferior ao intervalo entre e-mails legtimos (menor que 5 segundos
em 95% dos casos) [Kim e Choi 2008].
No que tange anlise de spammers, diversos trabalhos propem solues para
sua identificao em pontos intermedirios da rede. Ramachandran et al. investigam
caractersticas de trfego, coletadas da camada de rede, tais como a persistncia de endereos IP e de rotas e caractersticas especficas de botnets, que sejam comuns a spammers [Ramachandran e Feamster 2006], enquanto Guerra et al. analisam os padres de
comunicao presentes em uma campanha de spam [Guerra et al. 2009]. J Hao et al.
aplicam tcnicas de aprendizado de mquina em dados coletados da camada de rede para
classificar usurios em legtimos e spammers em um servidor posicionado entre as redes
de origem e destino [Hao et al. 2009]. Schatzmann et al. propem detectar spammers
no nvel de sistemas autnomos (AS), coletando e combinando as vises locais de mltiplos servidores de e-mail destinatrios [Schatzmann et al. 2009]. Ao contrrio desses
trabalhos, este artigo prope a deteco dos spammers ainda na rede de origem, para
minimizar o desperdcio de recursos devidos ao processo de recepo das mensagens.
Atravs da anlise de caractersticas de fluxos de pacotes SMTP, Sperotto et al.
propem um algoritmo para deteco de spams utilizando apenas informaes da camada de rede (p.ex: tempo de inatividade e quantidade de picos no fluxos de pacotes) [Sperotto et al. 2009]. Os autores utilizam dados da rede de uma universidade holandesa em conjunto com informaes de lista de bloqueio de DNS (blacklists) para validar o algoritmo proposto. Taveira et al. propem um mecanismo anti-spam baseado
em autenticao e reputao dos usurios objetivando minimizar falsos positivos ao classificar spams [Taveira e Duarte 2008]. Por outro lado, outros mtodos de deteco de
spams utilizam tcnicas de classificao supervisionada, porm exploram caractersticas
do contedo das mensagens [Kolcz e Alspector 2001]. O trabalho aqui proposto explora
tcnicas semelhantes, mas considera apenas mtricas relacionadas aos protocolos envolvidos, sem inspecionar o contedo das mensagens, para garantir a privacidade dos usurios
legtimos, e tem como alvo a deteco de spammers.

488

Anais

Em um trabalho anterior, os autores caracterizaram o trfego SMTP de usurios


de um provedor de Internet residencial de banda larga [Castilho et al. 2010], identificando
vrias caractersticas da camada de rede e do protocolo SMTP, coletadas na rede de origem, que permitem classificar os usurios em usurios legtimos e usurios com comportamento abusivo (potencialmente spammers). Esses resultados motivaram o desenvolvimento do mtodo aqui proposto, conforme ser detalhado na prxima seo.

3. SpaDeS: Detector de Spammers na Rede de Origem


O mtodo proposto para deteco de spammers na rede de origem, denominado
SpaDeS (Spammer Detection at the Source), tem como principal componente um algoritmo de classificao supervisionada, que aprende um modelo de classificao de usurios a partir de um conjunto de exemplos (usurios) previamente classificados (conjunto
de treino). O classificador recebe como entrada o nmero de classes distintas C e exemplos de usurios de cada uma. Aps a fase de aprendizado, o modelo derivado pode ento
ser aplicado para classificar novos usurios (conjunto de teste) nas classes pr-definidas.
A Seo 3.1 apresenta as classes de usurios consideradas assim como o modelo de representao dos mesmos. O algoritmo de classificao utilizado apresentado na Seo 3.2,
enquanto a Seo 3.3 discute como obter o conjunto de treino.
3.1. Modelo de Representao de Usurios e suas Classes
Cada usurio representado por um vetor de N atributos que conjuntamente descrevem seu comportamento quanto ao uso do protocolo SMTP. Para detectar spammers
na rede de origem com eficincia, foram utilizados N =6 atributos, que so mtricas que
no envolvem processamento do corpo da mensagem. As mtricas so: nmero de transaes SMTP realizadas, nmero de remetentes distintos1 , nmero de servidores SMTP
distintos acessados, tamanho mdio das transaes SMTP, distncia geodsica2 mdia
entre origem e destino e tempo mdio entre transaes consecutivas (aqui referenciado
como IATs, inter-arrival times). Os atributos foram mantidos sem normalizao, dado
que experimentos preliminares com diferentes estratgias de normalizao no levaram a
melhorias significativas nos resultados da classificao.
A escolha das mtricas foi inspirada nos resultados de um trabalho
anterior3 [Castilho et al. 2010].
Utilizando o algoritmo de agrupamento Xmeans [Pelleg e Moore 2000], demonstrou-se que essas caractersticas podem ser utilizadas para distinguir 4 classes de comportamento, sendo que duas refletem padres de
usurios legtimos (classes 1 e 2) enquanto as outras refletem padres abusivos (classes
3 e 4), potencialmente de spammers. Por exemplo, o nmero de transaes por usurio
til para distinguir usurios que fazem pouco uso de SMTP daqueles que o utilizam
com grande intensidade. Mais ainda, enquanto o uso de poucos servidores de SMTP
o esperado para usurios legtimos, o acesso a um nmero muito grande pode indicar a
operao de open proxies ou de open mail relays sendo explorados para o envio de spam
por usurios maliciosos ou bots [Guerra et al. 2009]. O uso da distncia geodsica como
1

Essa informao pode ser obtida durante a negociao do protocolo SMTP, sem necessidade de inspecionar as mensagens propriamente ditas.
2
Menor distncia entre dois pontos ao longo da superfcie da Terra.
3
O nmero de remetentes distintos no foi considerado naquele trabalho, entretanto, em experimentos
preliminares, observamos uma melhoria da classificao com a sua incluso.

XXIX Simpsio Brasileiro de Redes de Computadores e Sistemas Distribudos

489

mtrica se baseia na hiptese de que conexes SMTP de spammers tendem a ocorrer entre endereos IPs mais distantes que as conexes de usurios legtimos, j que spammers
tendem a ocultar suas presena usando mquinas em outros pases [Guerra et al. 2008].
Como naquele trabalho, foram consideradas C=4 classes distintas, discutidas em mais
detalhes na Seo 4.
3.2. Algoritmo de Classificao Supervisionada
O algoritmo de classificao utilizado neste trabalho o Lazy Associative Classifier (LAC) [Veloso et al. 2006], que tem tima escalabilidade, com complexidade de
tempo polinomial. O LAC fornece uma estimativa da confiana na predio feita em cada
caso. Essa confiana, que pode ser interpretada como uma probabilidade de acerto da
classificao, ser explorada na gerao do conjunto de treino (Seo 3.3). O LAC explora o fato de que, frequentemente, h fortes associaes entre os valores dos atributos e
as classes. Tais associaes esto geralmente implcitas no conjunto de treino e, quando
descobertas, revelam aspectos que podem ser utilizados para prever as classes dos usurios. O LAC aprende o modelo de classificao em duas etapas. Inicialmente, ele extrai,
do conjunto de treino, regras de associao do tipo X ci , que indicam a associao entre um conjunto de valores de atributos X e uma classe ci , atribuindo uma confiana a
cada regra. O LAC ento prev a classe de um usurio u no conjunto de teste combinando
as confianas de todas as regras X ci tal que X contm valores de atributos que coincidem com os de u. A classe de u ser aquela que tiver a maior confiana agregada. Dois
parmetros principais do LAC so o tamanho mximo das regras (nmero de atributos
em X ) e a confiana mnima permitida. Considerou-se o tamanho mximo como 5 e uma
confiana mnima de 0,01, valores de referncia comumente usados.
Outras tcnicas de classificao tambm foram consideradas, como por exemplo,
SVM e Naive Bayes. O LAC foi escolhido por produzir estimativas de confiana que,
conforme observaes experimentais, tendem a ter uma confiabilidade maior do que as
estimativas oferecidas por outras tcnicas.
3.3. Coleo de Treino
O funcionamento de qualquer mtodo de classificao supervisionada depende
primariamente de um conjunto de treino contendo usurios pr-classificados. A obteno
desse conjunto para a classificao de usurios em spammers e legtimos um grande desafio, uma vez que tais dados tipicamente no esto disponveis publicamente. Um fator
complicador que almeja-se detectar spammers ainda na rede de origem. Logo, faz-se
necessrio um conjunto de treino coletado naquele ponto do sistema. Caso contrrio, os
padres levantados poderiam no generalizar para o conjunto de teste, resultando em um
desempenho pobre do classificador. Uma estratgia seria realizar inspeo manual em
mensagens de um subconjunto dos usurios. Entretanto, o custo para esse esforo manual
seria muito alto, uma vez que um nmero considervel de usurios (e as mensagens enviadas por eles) teriam que ser inspecionados a fim de se obter um nmero suficiente de
representantes dos vrios padres observados. Alm disto, ele exigiria acesso ao contedo
das mensagens enviadas, o que pode no ser vivel. Assim, so propostas duas estratgias
para gerao da coleo de treino, uma baseada em informao externa ao algoritmo de
aprendizado, enquanto a segunda utiliza a informao de confiana provida pelo LAC.

490

Anais

A primeira estratgia parte das 4 classes de usurios identificadas no trabalho anterior dos autores [Castilho et al. 2010] e acrescidas de informaes sobre usurios apontados como spammers por mecanismos de relato de abusos do sistema de
correio. Para cada uma das duas classes representando usurios legtimos identificadas [Castilho et al. 2010], foram selecionados os M usurios mais prximos do centride
de cada classe, de forma a obter bons representantes de cada uma. As duas classes de
usurios abusivos (possveis spammers) identificadas naquele trabalho apresentam uma
variabilidade maior de comportamentos. Por esse motivo, optou-se por no usar o mesmo
mecanismo de seleo, mas baseou-se a escolha em uma informao confivel externa.
Para isso, utilizou-se a identificao de usurios cujas mquinas foram apontadas como
origem de spam por relatos oriundos de outros provedores. Tais relatos, enviados para
o endereo abuse do provedor que forneceu os dados utilizados nesse trabalho, so
gerados por provedores tanto a partir de reclamaes de seus usuriso (como o recurso
Report spam do Gmail) ou por mecanismos automticos, como listas de bloqueio ou
outros mecanismos de deteco automtica de spam. Como ser visto, um nmero razovel de usurios denunciados estavam presentes naquelas duas classes, sendo portanto
bons representantes das mesmas.
A segunda estratgia parte do pressuposto que o SpaDeS deve ser aplicado continuamente, em diferentes conjuntos de teste (p.ex: dados referentes a diferentes semanas,
meses ou anos). Logo, props-se retreinar o LAC a partir do resultado da sua execuo
anterior, explorando as confianas reportadas naquela classificao. Ou seja, considerando sucessivos conjuntos de teste t1 , t2 tn , seleciona-se como treino do LAC para a
classificao do teste ti , os usurios do conjunto ti1 que foram classificados com uma
confiana superior a um certo limiar. Para a classificao de t1 , um conjunto de treino
inicial necessrio, podendo ser obtido pela primeira estratgia. O algoritmo 1 apresenta
a estratgia utilizada. Ele garante que pelo menos % dos usurios de cada classe sejam
selecionados, mantendo uma confiana mnima uniforme entre todas as classes.
Algoritmo 1: Dados os usurios classificados pelo LAC na iterao anterior, faa:
1. Ordene os usurios de cada classe em ordem decrescente de confiana;
2. Selecione % dos usurios de cada classe, ordenados anteriormente;
3. Seja cmin
a menor confiana dos usurios selecionados da classe i (i = 1..4);
i
min min min
4. Seja c = min(cmin
1 , c2 , c3 , c4 );
5. Selecione para o conjuto de treino todos os usurios que possuem confiana c,
mantendo, para cada um, a classe definida pelo LAC na iterao anterior.
Neste trabalho utilizou-se a primeira estratgia, baseada no algoritmo de agrupamento, apenas na iterao inicial e continuou-se o treinamento a partir do resultado da
classificao anterior para as iteraes seguintes. Esse enfoque se baseia no fato de que,
considerando que um nmero suficiente de bons exemplos de treinos sejam fornecidos,
tcnicas de classificao supervisionadas (p.ex., LAC) tendem a ser superiores s tcnicas
no supervisionadas (p.ex., algoritmos de agrupamento) [Veloso et al. 2006]. Note que a
coleo de treino pode ser estendida e/ou refinada para incluir exemplos pr-classificados
por outros meios, potencialmente mais confiveis, se tais exemplos estiverem disponveis.
Por exemplo, assim como feito na iterao inicial, havendo conhecimento sobre usurios
locais denunciados como spammers, os mesmos poderiam ser includos no treino das ite-

XXIX Simpsio Brasileiro de Redes de Computadores e Sistemas Distribudos

491

raes seguintes. Como ficar claro na Seo 4, optou-se por no incluir tais usurios no
conjunto de treino nas iteraes seguintes para que os mesmos pudessem ser utilizados
para validao do mtodo proposto no treinamento.
A estratgia proposta completamente automatizada e no exige esforo manual
de classificao. Note que a natureza iterativa do processo, que utiliza resultados da iterao anterior como treino da prxima iterao, pode afetar a classificao ao longo do
tempo. Entretanto, nos experimentos realizados, observou-se que os padres de cada
classe de usurios se mantm estveis em duas bases de dados incluindo trfego em 2009
e 2010. Mais ainda, a classificao dos usurios da base de 2010, seguindo a abordagem iterativa descrita, apresentou excelente efetividade (Seo 4). De qualquer maneira,
considera-se que, para melhor refletir os padres de comportamento dos usurios, que podem evoluir com o tempo, e tambm para interromper uma possvel propagao de erros,
seja necessrio, periodicamente, a aplicao de um conjunto de treino obtido por mtodos
externos (como a primeira estratgia proposta), reiniciando um novo ciclo de iteraes.
A frequncia com que isto deve ser feito objeto de trabalho futuro, pois depender da
disponibilidade de uma srie temporal mais longa para avaliao.

4. Avaliao e Resultados
4.1. Bases de Dados
Este trabalho utiliza 4 bases de dados diferentes, sendo que duas delas refletem o
trfego SMTP de um provedor de Internet de banda larga e duas contm listas de usurios
daquele provedor que foram denunciados como spammers atravs do endereo abuse
daquele provedor durante o perodo considerado.
Cada base de dados de trfego contm um log de trfego e um log do servio
DHCP do provedor, ambos cobrindo um mesmo perodo. Os logs de trfego so formados por transaes. Cada transao representa uma conexo TCP ou um fluxo de dados
UDP, contendo informaes como endereos IP de origem e de destino, servio/protocolo
utilizado, data/hora inicial, durao e volume de bytes enviados e recebidos. Os logs do
servio DHCP permitem associar transaes e usurios atravs do mapeamento dos endereos fsicos de suas mquinas (MAC addresses) para os endereos IP fornecidos pelo
provedor, com base nas informaes de data e hora presentes nos dois logs. Vale ressaltar
que os dados dos usurios foram anonimizados, por questes de segurana e privacidade.
As bases de dados de trfego cobrem os perodos de 01 a 28 de maro de 2009
e 12 de junho a 09 de julho de 2010. A base de 2009 contm 40,6 milhes de transaes associadas a 44,2 mil usurios. J a de 2010 contm 45,6 milhes de transaes
associadas a 48 mil usurios. Cada base passou por um processo de filtragem, sendo
removidas transaes: (1) que no usavam SMTP; (2) com durao, nmero de bytes enviados e/ou recebidos iguais a zero, consideradas erros de coleta; (3) que enviaram menos
de 160 bytes ou receberam menos de 80 bytes. Estes ltimos limiares foram definidos
por corresponderem ao nmero mnimo de bytes para se estabelecer e encerrar uma conexo TCP, considerando 40 bytes para os cabealhos IP e TCP nos pacotes de three-way
handshake e de finalizao. Aps filtragem, restaram 6,3 milhes de transaes SMTP
associadas a 5.479 usurios na base de 2009, e 5 milhes de transaes SMTP associadas
a 5.389 usurios na base de 2010.

492

Anais

As duas outras bases de dados contm denncias recebidas pelo endereo abuse
do provedor durante os perodos das bases de trfego, identificando certos usurios como
spammers. Os e-mails de denncia informam o endereo IP de origem do spam e a
data/hora do seu recebimento e esto no formato ARF (Abuse Reporting Format), utilizado para mensagens desse tipo [Shafranovich et al. 2010]. Foi desenvolvida uma ferramenta de extrao para processar essas mensagens e realizar a juno das mesmas com as
transaes SMTP, possibilitando a identificao de usurios denunciados. Dessa forma,
foram identificados 67 e 93 spammers nas bases de 2009 e 2010, respectivamente. Para
todos esses usurios, os endereos IPs e as datas/horas listados nas denncias coincidiram
com dados de transaes realizadas, listadas nas bases de trfego utilizadas.
4.2. Procedimento de Avaliao
A avaliao consistiu de dois experimentos de classificao, um com as bases
de 2009 e outro com as bases de 2010. Para a classificao da base de 2009, foram
selecionados M =30 usurios mais prximos do centride de cada uma das classes de
usurios legtimos (Seo 3.1). Alm disso, dos 67 usurios denunciados como spammers
identificados na base de 2009, 40 so da classe 3 e 27 da classe 4. Assim, essas duas
classes so formadas principalmente por spammers e so o principal alvo do mtodo de
deteco. O conjunto de treino foi ento composto por esses 127 usurios, e para teste
foram utilizados todos os usurios da base de 2009 que no estavam no conjunto treino.
Para o segundo experimento de classificao, realizado sobre a base de 2010, foram utilizados como treino usurios selecionados pelo algoritmo 1 considerando o resultado da classificao da base de 2009 (Seo 3.3). Foi utilizado = 20%, o que resultou
em uma confiana mnima para todos os usurios selecionados de 64%. No total, foram
selecionados 787, 605, 621 e 52 usurios das classes 1, 2, 3 e 4, respectivamente.
As sees seguintes apresentam os principais resultados dos dois experimentos.
Para o primeiro experimento, no foi possvel quantificar a efetividade da classificao,
uma vez que os dados do abuse, que poderiam servir como base de comparao, foram
usados no treino. Optou-se nesse caso por analisar os padres de comportamento dos
usurios classificados em cada classe. A principal validao quantitativa feita sobre os
resultados do segundo experimento: alm da avaliao dos padres identificados, utilizouse a lista de usurios denunciados como spammers em 2010 e fez uma inspeo manual
de uma amostra dos demais usurios para estimar a efetividade da classificao.
4.3. Classificao da Base de Dados de 2009
A Tabela 1 mostra um sumrio dos usurios selecionados para compor
o conjunto de treino e que representam as quatro classes identificadas anteriormente [Castilho et al. 2010]. Ela mostra, para cada mtrica analisada, a mdia e o coeficiente de variao CV (razo entre desvio padro e a mdia), computados para os usurios
de cada classe. As classes 1 e 2 apresentam comportamentos razoavelmente bem uniformes, principalmente com relao aos nmeros de transaes, nmero de remetentes
distintos, nmero de servidores contactados e IAT das transaes. A classe 1 compreende
usurios que fazem muito baixo uso do correio eletrnico, com apenas uma transao no
perodo coberto pela base. J a classe 2 compreende usurios com um nvel de atividade
um pouco mais alto, realizando tipicamente uma transao SMTP a cada 3 dias (IAT mdio igual a 70,43 horas). Para ambas as classes, os nmeros de remetentes identificados

XXIX Simpsio Brasileiro de Redes de Computadores e Sistemas Distribudos

493

(1 e 1,70, em mdia) e de servidores SMTP distintos acessados (1 e 1,53, em mdia) so


baixos, demonstrando um comportamento esperado de usurios legtimos. O mesmo vale
para a distncia geodsica, relativamente baixa.
Tabela 1. Conjunto de Treino para a Classificao da Base de 2009.
Nmero de usurios
Nmero de transaes SMTP
Nmero de remetentes distintos
Nmero de servidores SMTP distintos
Tamanho das transaes SMTP (KB)
Distncia geodsica entre os IPs (km)
IAT das transaes SMTP (h)

Classe 1
30
Mdia (CV)
1 (0)
1 (0)
1 (0)
388,81 (3,61)
1.833 (1,65)
672 (0)

Classe 2
30
Mdia (CV)
4,53 (0,46)
1,70 (0,62)
1,53 (0,62)
71,24 (2,07)
3.443 (0,90)
70,43 (0,01)

Classe 3
40
Mdia (CV)
5.304,30 (0,85)
2.718,32 (0,71)
2.770,90 (0,63)
2,53 (1,66)
8.833 (0,05)
0,19 (2,62)

Classe 4
27
Mdia (CV)
37.841,48 (0,87)
21.660,22 (1,10)
14.704,89 (0,58)
1,84 (0,44)
8.216 (0,05)
0,01 (0,54)

Tabela 2. Classificao dos Usurios da Base de 2009.


Nmero de usurios
Nmero de transaes SMTP
Nmero de remetentes distintos
Nmero de servidores SMTP distintos
Tamanho das transaes SMTP (KB)
Distncia geodsica entre os IPs (km)
IAT das transaes SMTP (h)

Classe 1
1.422
Mdia (CV)
1 (0)
1 (0)
1 (0)
646,81 (4,34)
2.657 (1,32)
672 (0)

Classe 2
2.938
Mdia (CV)
25,71 (9,61)
4,14 (1,93)
5,33 (2,32)
611,40 (7,51)
3.133 (1,1)
55,34 (1,02)

Classe 3
927
Mdia (CV)
2.697,54 (1,53)
1.202,50 (1,39)
1.261,37 (1,17)
9,64 (12,83)
8.081 (0,22)
0,57 (2,45)

Classe 4
65
Mdia (CV)
39.108,21 (1,05)
16.032,23 (0,98)
11.766,04 (0,60)
1,67 (0,64)
8.352 (0,16)
0,01 (0,55)

J as classes 3 e 4, representativas de spammers e definidas pelos usurios denunciados, revelam padres bem distintos. Embora ambas apresentem nmeros de transaes, remetentes e servidores SMTP superiores aos das classes 1 e 2, a classe 4 revela um
padro muito mais abusivo, com cada usurio enviando 37.841 transaes SMTP (uma
a cada 36 segundos), utilizando 21.660 remetentes distintos e acessando 14.704 servidores SMTP distintos, em mdia. De fato, essas classes revelam dois tipos de spammers
distintos: um envia o maior nmero de mensagens possvel (classe 4) e o outro (classe
3) envia mensagens utilizando, possivelmente, um controle de fluxo com o objetivo de
disfarar sua presena [John et al. 2009]. interessante notar tambm os valores mdios
de IAT muito baixos e as distncias geodsicas muito mais altas, para ambas as classes, padres esperados para spammers [Kim e Choi 2008, Hao et al. 2009]. Por fim, vale
tambm ressaltar os tamanhos de transaes muito menores que os das classes 1 e 2, em
consistncia com estudos anteriores que demonstraram que spams tendem a ser menores
que mensagens legtimas [Gomes et al. 2007].
Os resultados da classificao so apresentados na Tabela 2, que sumariza as principais caractersticas dos usurios em cada classe. A classe 1 formada por 1.422 usurios, que representam 26,56% do total de usurios na base de 2009, mas so responsveis
por menos de 1% do total de transaes SMTP enviadas. Em consistncia com o conjunto de treino, esta classe se mostrou a mais uniforme: todos os usurios fizeram apenas
uma transao SMTP, utilizando portanto apenas um remetente e acessando apenas um
servidor SMTP no perodo de 28 dias. A distncia geodsica mdia entre os IPs origem
e destino e, principalmente, o tamanho mdio das transaes SMTP possuem uma variabilidade maior, mas ainda assim refletem padres que podem ser esperados de usurios
legtimos. Por exemplo, 60% dos usurios tiveram distncia geodsica mdia igual a 0
km, indicando transaes SMTP realizadas dentro do Brasil. Mais ainda, 98% dos usurios possuem distncia geodsica mdia menor que 7.000 km, possivelmente refletindo

494

Anais

acesso aos principais servidores globais de e-mail, tais como Gmail, Hotmail e Yahoo.
Com relao ao tamanho mdio das transaes, observou-se valores entre 1 KB e 45 MB.
O limite superior pode refletir o envio de mensagens com anexos volumosos, como fotos
e vdeos, outro indcio de comportamento legtimo.
A classe 2, composta por 2.938 usurios (54,9% do total), apresenta uma variao muito grande em seus usurios, principalmente com relao ao nmero de transaes
SMTP, que varia de 2 a 11.804. Apesar deste limite superior muito alto, nota-se que apenas 2% dos usurios desta classe realizaram mais que 100 transaes no perodo. Alm
disto, cerca de 90% dos usurios acessaram apenas 10 servidores SMTP distintos (5,33,
em mdia) e utilizaram menos de 10 remetentes distintos (4,14, em mdia). O IAT tende
a ser alto, com, em mdia, 55 horas de inatividade entre transaes, e o tamanho das
transaes possui valores muito altos tambm, com um mximo de 165 MB. Todas essas caractersticas indicam que grande parte dos usurios que compem esta classe so
legtimos. Alguns poucos usurios com um nmero de transaes, nmero de remetentes
e/ou nmero de servidores SMTP muito altos podem representar spammers erroneamente
classificados como legtimos (falsos negativos), ou usurios com redes locais com diversos usurios.
A classe 3, formada por 927 usurios (17,32% do total), tambm apresenta grande
variabilidade entre os usurios. O nmero de transaes SMTP, por exemplo, varia entre 2
e 41.227, embora a mdia seja bastante alta (2.697 transaes). De fato, mais de 50% dos
usurios realizaram mais de 1.000 transaes SMTP, utilizaram mais de 500 remetentes
distintos e acessaram mais de 700 servidores SMTP. Alm disso, o IAT mdio apresentado
por 90% dos usurios menor que 10 minutos, o que indica que a cada 10 minutos o
usurio realiza uma transao SMTP. Com base nestes dados, pode-se supor que esses
usurios estejam infectados por malwares, agindo como bots que utilizam controle de
fluxo [John et al. 2009], ou seja, enviam spams com uma frequncia relativamente baixa
(do ponto de vista de ferramentas automatizadas) para dificultar sua deteco por sistemas
anti-spam. importante ressaltar que essa maior variabilidade dos usurios nas classes 2
e 3 era esperada, uma vez que elas representam comportamentos de fronteira, que podem
ser difceis de serem distinguidos pelo classificador. Assim como discutido para a classe
2, conjectura-se que alguns usurios classificados como da classe 3 podem de fato ser
falsos positivos.
Assim como a classe 1, a classe 4 apresenta pouca variabilidade, com CVs variando entre 0,15 e 1,05. Consistente com o conjunto de treino, foram identificados 65
novos usurios com um padro muito abusivo de uso do SMTP, claramente relacionados
atividade de envio de spam. Embora representem apenas 1,21% dos usurios, eles so
responsveis por quase 40% de todas as transaes SMTP realizadas.
4.4. Classificao da Base de Dados de 2010
A Tabela 3 mostra os resultados da classificao da base de dados de 2010, utilizando como conjunto de treino usurios selecionados a partir do resultado da classificao
da base de 2009, conforme discutido na Seo 4.2. Note que, em termos gerais, os usurios de cada classe mantm padres de comportamento bastante semelhantes aos usurios
da mesma classe na base de 2009. Por exemplo, as classes 1 e 2, que contabilizam 83% de
todos usurios mas apenas 1,6% das transaes SMTP realizadas, revelam padres bastantes consistentes com usurios legtimos: nmeros pequenos de transaes, remetentes

XXIX Simpsio Brasileiro de Redes de Computadores e Sistemas Distribudos

495

Tabela 3. Classificao dos Usurios da Base de 2010.


Nmero de usurios
Nmero de transaes SMTP
Nmero de remetentes distintos
Nmero de servidores SMTP distintos
Tamanho das transaes SMTP (KB)
Distncia geodsica entre os IPs (km)
IAT das transaes SMTP (h)

Classe 1
1.821
Mdia (CV)
2,78 (9,82)
1 (0)
1 (0)
891,55 (4,53)
3.968 (0,91)
535,51 (0,49)

Classe 2
2.656
Mdia (CV)
27,99 (8,79)
3,32 (1,37)
3,04 (1,81)
826,45 (4,29)
4.136 (0,82)
58,04 (0,96)

Classe 3
836
Mdia (CV)
2.892.91 (1,53)
1.341,38 (1,73)
1.192,24 (1,52)
22,64 (5,49)
7.653 (0,29)
1,00 (2,05)

Classe 4
76
Mdia (CV)
34.018,17 (0,70)
22.064,07 (0,73)
14.234,76 (0,50)
2,23 (0,78)
8.572 (0,05)
0,02 (0,50)

e de servidores distintos e longos perodos de inatividade. Alm disso, 43% dos usurios
da classe 1 e 35% da classe 2 tm distncia geodsica mdia igual a 0 km, enquanto que
98% e 92%, respectivamente, tm distncia inferior a 7.000 km. Uma diferena com relao aos resultados da base de 2009 a maior variabilidade no nmero de transaes (e
consequentemente no IAT) entre usurios da classe 1. De fato, o nmero de transaes de
usurios da classe 1 variou de 2 a 1.112, embora 95% deles tenha efetuado menos que 10
transaes e apenas 1% tenha feito mais de 50 transaes. Uma conjectura possvel que
a contnua popularizao do uso do correio eletrnico possa ser responsvel pela maior
frequncia de uso pelos usurios.
J as classes 3 e 4, que representam 17% dos usurios e 98,4% das transaes,
mais uma vez demonstram padres muito abusivos. Usurios da classe 4 fazem um uso
muito mais intenso de trfego SMTP que os da classe 3. Ainda assim, a classe 3 possui
caractersticas muito pouco provveis para usurios legtimos. Por exemplo, dificilmente
um usurio legtimo realizaria 2.800 transaes em um perodo de 28 dias (uma mdia de
100 transaes por dia), utilizando 1.300 remetentes distintos e acessando 1.100 servidores SMTP distintos (pouco mais de 2,5 transaes para cada servidor).
Como observado para a base de 2009, a classe 3 apresenta grande variabilidade
entre usurios. Por exemplo, observa-se uma variao do nmero de transaes SMTP
entre 2 e 37.286, do nmero de remetentes entre 1 e 21.866 e do nmero de servidores
SMTP entre 1 e 9.248. Uma possvel explicao para que usurios com baixo nmeros de
transaes, remetentes e servidores tenham sido classificados como da classe 3 que, a
despeito destas caractersticas, eles apresentam valores de IAT muito baixos (no mximo
16 horas e meia) e, consequentemente, muito inferiores aos valores tpicos de usurios
das classes 1 e 2. Este atributo, com baixa variabilidade nas classes 1 e 2, poderia levar a
classificao destes usurios com baixa atividade como sendo da classe 3.
No geral, pode-se concluir que, consistentemente nas duas bases analisadas (2009
e 2010), as classes de usurios legtimos: (i) realizam poucas transaes SMTP; (ii) utilizam poucos remetentes distintos; (iii) acessam poucos servidores distintos; (iv) possuem
alto intervalo de inatividade entre as transaes; (v) possuem alta variabilidadade do tamanho mdio das transaes SMTP, uma vez que usurios legtimos podem enviar tanto
mensagens apenas de texto, quanto mensagens com anexos extensos, contendo vdeos
e imagens; e (vi) realizam suas transaes principalmente para servidores brasileiros ou
servidores localizados nos Estados Unidos.
Em contraste, as classes de spammers: (i) realizam um nmero alto de transaes SMTP; (ii) utilizam um nmero elevado de remetentes distintos; (iii) acessam vrios
servidores SMTP distintos; (iv) efetuam as transaes com um perodo de inatividade

496

Anais

muito baixo, sendo muitas vezes de apenas segundos; (v) possuem tamanho mdio das
transaes SMTP baixos, uma vez que, normalmente, spams possuem apenas texto; e
(vi) tendem a apresentar distncia geodsica mdia maior que usurios legtimos.
Como discutido na Seo 4.2, alm da avaliao dos padres de comportamento
detectados, tambm foi feita uma validao da classificao da base de 2010, utilizando
a lista de usurios denunciados em 2010 (no utilizada como parte do treino) e inspecionando manualmente uma amostra aleatria de 5% dos usurios de cada classe (exceto
classe 4). Essa taxa de amostragem garante, com confiana de 90%, um erro inferior a
12% nas estimativas [Jain 1991]. Como trabalho futuro, pretende-se realizar a inspeo
manual com uma frao maior dos usurios.
Tabela 4. Eficcia da Classificao: Estimativas de Taxa de Acerto, Falsos Positivos e Falsos Negativos (Base de Dados 2010).
Classe Real
1 (legtimo)
2 (legtimo)
3 (spammer)
4 (spammer)

1
100%
0,7%

Classe Predita
2
3
95,5%
15,9%

3,8%
84,1%
100%

Dos 93 usurios denunciados, 31 se encontram na classe 4 e 62 na classe 3. Ou


seja, 40,78% e 7,41% dos usurios classificados nas classes 4 e 3, respectivamente, foram de fato denunciados como spammers. Foram inspecionados todos os 45 usurios
restantes da classe 4, concluindo que todos apresentam um comportamento consistente
com spammers bastante abusivos. Logo, todos os usurios classificados na classe 4 foram corretamente identificados como spammers. Alm disto, verificou-se que 35 de 44
usurios selecionados da classe 3 para inspeo manual foram corretamente classificados,
enquanto os 7 restantes apresentavam um comportamento aceitvel para usurios legtimos da classe 2, sugerindo assim falsos positivos.
Quanto classificao de usurios em usurios legtimos, apenas 1 de todos os
usurios selecionados da classe 1 foi classificado erroneamente, apresentando um comportamento mais condizente com a classe 2. Note que, ainda assim, esse usurio foi
classificado como legtimo. J para a classe 2, 127 dos 132 usurios selecionados foram
corretamente classificados, enquanto 5 tinham um padro mais prximo de spammers da
classe 3, sendo assim considerados falsos negativos.
Esses resultados, computados sobre os usurios amostrados das classes 1, 2 e 3 e
sobre todos os usurios da classe 4, so sumarizados na Tabela 4. Cada linha representa
uma classe atribuda aos usurios por inspeo ou pelo abuse (classe real), enquanto
as colunas representam as classes assinaladas pelo SpaDeS (classes preditas). Os valores
indicam as porcentagens das amostras de uma classe real que foram atribudas classe
predita indicada. Dessa forma, a diagonal indica a taxa de acerto para cada classe e as
demais posies indicam predies incorretas. Considerando a classificao de todos
usurios nas super-classes legtimos (classes 1 e 2) e spammers (classes 3 e 4), o
mtodo SpaDeS apresentou uma excelente taxa de acerto, identificando corretamente 98%
e 94% dos usurios legtimos e spammers, respectivamente, apresentando assim taxas de
falsos positivos e de falsos negativos de somente 2% e 6%, respectivamente.
Os resultados acima foram obtidos para =20% (parmetro utilizado na gerao

XXIX Simpsio Brasileiro de Redes de Computadores e Sistemas Distribudos

497

de treino vide algoritmo 1, Seo 3.3). Foram tambm realizados experimentos com
igual a 10% e 30%. Para =10%, os resultados se mantiveram bastante semelhantes:
estima-se que 96% e 94% dos usurios legtimos e spammers, respectivamente, foram
corretamente identificados, conforme inspeo em amostras de 5% dos usurios e lista de
usurios denunciados. Isso ocorre porque a confiana na classificao dos usurios variou
muito pouco: com =10% a confiana mnima dos usurios utilizados como treino de
65%, muito prxima daquela para =20%. Como consequncia, o nmero de usurios selecionados para treino apenas ligeiramente menor. J para =30%, a confiana mnima
cai para 58%, o que prejudica a efetividade do mtodo: as taxas de acertos estimadas para
usurios legtimos e spammers caem para 94% e 91%, respectivamente.
Em suma, o SpaDeS apresentou uma excelente efetividade na deteco de spammers na rede de origem. No se conhece nenhum outro mtodo que se proponha a fazer
esta deteco to prximo fonte dos spams, reduzindo assim o trfego na rede. Uma
comparao do SpaDeS com outros mtodos de deteco de spammers disponveis na
literatura e que abordam o problema em outros pontos do sistema bastante difcil considerando as bases de dados disponveis para validao do mtodo proposto, uma vez que
tais mtodos utilizam informaes diferentes das exploradas pelo SpaDeS.

5. Concluses
Neste trabalho foi apresentado, aplicado e validado com dados reais um mtodo
para identificao e deteco de spammers na rede origem, mais especificamente em uma
rede de acesso Internet de banda larga. Este mtodo, denominado SpaDeS (Spammer
Detection at the Source), tem como principal componente um algoritmo de classificao
supervisionada Lazy Associative Classification (LAC) e utiliza mtricas que no requerem a inspeo do contedo da mensagem enviada, para classificar os usurios como
sendo legtimos ou spammers. O SpaDeS apresentou uma excelente efetividade, com taxa
de acerto de 98% para usurios legtimos e 94% na classificao de spammers. Como trabalho futuro, prope-se o aprimoramento do mtodo e a construo e validao de um
sistema que viabilize o uso do SpaDeS em tempo real.

Agradecimentos
Esta pesquisa parcialmente financiada pelo Instituto Nacional de Cincia e Tecnologia para a Web - INCTWeb (MCT/CNPq 573871/2008-6), CNPq, FAPEMIG, FAPERJ e pelo PROBIC/PUC-Minas.

Referncias
Castilho, L. H. D., Las-Casas, P. H. B., Dutra, M. D., Ricci, S. M. R., Marques-Neto,
H. T., Ziviani, A., Almeida, J. M., e Almeida, V. (2010). Caracterizao de trfego
SMTP na Rede de Origem. Em Simpsio Brasileiro de Redes de Computadores e
Sistemas Distribudos, Gramado, Brasil.
Gomes, L. H., Almeida, V. A. F., Almeida, J. M., Castro, F. D. O., , e Bettencourt, L.
M. A. (2009). Quantifying Social And Opportunistic Behavior In Email Networks.
Advances in Complex Systems, 12(1):99112.
Gomes, L. H., Cazita, C., Almeida, J. M., Almeida, V., e Jr., W. M. (2007). Workload
Models of Spam and Legitimate E-mails. Performance Evaluation, 64(7-8):690714.

498

Anais

Guerra, P. H. C., Pires, D. E. V., Guedes, D., Jr., W. M., Hoepers, C., e Steding-Jessen, K.
(2008). A Campaign-based Characterization of Spamming Strategies. Em Proceedings
of the Fifth Conference on Email and Anti-Spam, pg. 110, Mountain View, CA, USA.
Guerra, P. H. C., Pires, D. E. V., Guedes, D., Jr., W. M., Hoepers, C., Steding-Jessen, K.,
e Chaves, M. (2009). Caracterizao de Encadeamento de Conexes para Envio de
Spams. Em Simpsio Brasileiro de Redes de Computadores e Sistemas Distribudos,
Recife, Brasil.
Hao, S., Syed, N. A., Feamster, N., Gray, A., e Krasser, S. (2009). Detecting Spammers with SNARE: Spatio-temporal Network-level Automatic Reputation Engine. Em
Usenix Security, Montreal, Canad.
IronPort (2009). 2009 Internet Security Trends. Online. http://www.ironport.com/.
Jain, R. (1991). The Art of Computer Systems Performance Analysis: Techniques for
Experimental Design, Measurement, Simulation, and Modeling. John Wiley and Sons,
Inc., 1st edition.
John, J., Moshchuk, A., Gribble, S. D., e Krishnamurthy, A. (2009). Studying Spamming
Botnets Using Botlab. Em 6th USENIX Symp. on Networked Systems Design and
Implementation, Boston, EUA.
Kim, J. e Choi, H. (2008). Spam Traffic Characterization. Em Intl Technical Conference
on Circuits/Systems, Computers and Communications, Shimonoseki City, Japo.
Kolcz, A. e Alspector, J. (2001). SVM-based Filtering of E-mail Spam with Contentspecifcs Misclassification Costs. Em Workshop on Text Mining, San Jose, EUA.
MessageLabs (2010). MessageLabs Intelligence: November 2010. Online.
Newman, M. E. J., Forrest, S., e Balthrop, J. (2002). Email Networks and the Spread of
Computer Viruses. Physical Review E, 66(3):035101.
Pelleg, D. e Moore (2000). X-means: Extending K-means with efficient estimation of the
number of clusters. Em 17th Intl Conf. on Machine Learning, San Francisco, USA.
Ramachandran, A. e Feamster, N. (2006). Understanding the Network-Level Behavior of
Spammers. SIGCOMM Comput. Commun. Rev., 36(4):291302.
Schatzmann, D., Burkhart, M., e Spyropoulos, T. (2009). Inferring Spammers in the
Network Core. Em 10th Intl Conf. on Passive and Active Network Measurement,
Berlin, Heidelberg.
Shafranovich, Y., Levine, J., e Kucherawy, M. (2010). An Extensible Format for Email
Feedback Reports. RFC 5965.
Sperotto, A., Vliek, G., Sadre, R., e Pras, A. (2009). Detecting Spam at the Network Level. Em EUNICE09: 15th Open European Summer School and IFIP TC6.6 Workshop
on The Internet of the Future, Barcelona, Spain.
Taveira, D. e Duarte, O. (2008). Mecanismo Anti-Spam Baseado em Autenticao e Reputao. Em Simpsio Brasileiro de Redes de Computadores e Sistemas Distribudos,
Rio de Janeiro.
Veloso, A., Meira, W., e Zakib, M. J. (2006). Lazy associative classification. Em Sixth
International Conference on Data Mining, Hong Kong, China.