Escolar Documentos
Profissional Documentos
Cultura Documentos
Belo Horizonte
2011
Thana Amlia de Oliveira Alves
Belo Horizonte
2011
FICHA CATALOGRFICA
Elaborada pela Biblioteca da Pontifcia Universidade Catlica de Minas Gerais
CDU: 681.3.01
Thana Amlia de Oliveira Alves
Agradeo em primeiro lugar aos meus pais, Paulo e Aparecida, pelo compreenso
e incentivo durante toda a vida e por darem condies plenas para que eu alcanasse esta
conquista. No existe palavras que expressem o meu amor e gratido a vocs. meu
irmo, Rafael, pelo seus conselhos e palavras de motivao para seguir em frente quando
o desespero tomava conta. o Pedro, pelo carinho e total compreenso nos dias em que
estive ausente me dedicando ao Mestrado. madrinha Ded e vov Terezinha pelas
constantes oraes e torcida pelo meu sucesso.
s minhas amigas da PUC e aos meus amigos do CPE, que vrias vezes me pro-
porcionaram momentos de descontrao to necessrios e precisaram escutar desabafos e
relatos do meu trabalho. FITec e aos colegas de trabalho, pelo apoio, pela compreenso
e por compartilharem no dia-a-dia momentos importantes da trajetria percorrida at
aqui, em especial ao Daniel Paranhos que acompanhou mais que relatos, mas tambm
angstias e alegrias e sempre me motivou a cumprir esta jornada.
Agradeo a todos que no apareceram na lista acima, mas, sabem que de longe ou
perto contriburam de alguma forma para a realizao dessa pesquisa.
RESUMO
O utilizao da Internet vem aumentando muito nos ltimos anos. Neste contexto,
percebe-se que o envio de spams se tornou um grande problema. O aumento das re-
des formadas por usurios de e-mails e do contedo malicioso existente nelas, motiva a
identificao de possveis efeitos negativos que podem ser causados ao provedor de correio
eletrnico. Este trabalho utiliza mtricas de redes complexas (popularidade e a conec-
tividade), para apresentar a caracterizao de remetentes e destinatrios de spams e de
e-mail legtimos que possuem contas de e-mail no provedor de mensagens eletrnicas em
estudo, afim de analisar e identificar o comportamento destes usurios. Os registros dos
remetentes e destinatrios de spams esto presentes em um dataset com dados reais ge-
rado pelo filtro de spam de um provedor de Internet corporativo. J os remetentes e
destinatrios de e-mails legtimos esto presentes em um outro dataset com dados reais
gerado do mesmo provedor de e-mails utilizado para coletar os usurios de spams. Os
resultados mostram que a utilizao das mtricas de redes complexas (popularidade e co-
nectividade) auxiliam a identificao de usurios maliciosos (spammers e destinatrios).
Atravs da anlise da popularidade dos destinatrios de mensagens eletrnicas em ambas
os datasets (spams e e-mails legtimos), observou-se que poucos usurios destinatrios
possuem alta popularidade nas redes, ou seja, existe um concentrao de envio de spams
e tambm e-mails legtimos para um conjunto restrito de usurios finais do provedor. Este
conjunto de usurios destinatrios foi analisado com o propsito de entender algumas de
suas caractersticas que podem, de alguma forma, atrair um volume maior de mensagens
indesejadas que, provavelmente, sero processadas e descartadas no seu destino. Identi-
ficar o comportamento dos usurios destinatrios foco de spam uma tarefa que pode
contribuir para o desenvolvimento e evoluo de tcnicas para o gerenciamento de contas
de usurios de um provedor, possibilitando assim estabelecer uma melhoria nos servios
de e-mails.
The communication using Internet resources is proving to be a very important task carried
out almost daily by people. Specifically, the email exchange among these people is one
of the most common communication activities which take a great deal of senders an
recipients time-of-work. Moreover, the increase of email misuse/abuse has resulted in an
increasing volume of spams over recent years, requiring a well-done management of the
email services infrastructure. This research uses two metrics (popularity and connectivity)
for characterizing senders and recipients of spam and e-mails that have e-mail accounts
on the provider of electronic messages, in order to identify and analyze the behavior
of users. The records of the senders and recipients of spam are present in a dataset
generated by the real spam filter from an e-mail provider (spam network). The sender
and recipients of legitimate emails are recorded on the different dataset generated by
the provider mentioned (email network). The results show that the analysis of these
metrics can improve the effectiveness of the identification of email addresses used by
spammers and also the email accounts which receive a large number of unwanted and/or
malicious messages. Analyzing the popularity of the recipients in both datasets (spams
and legitimate emails), we observed that there was a concentration of spamming and e-
mails for a small group of users. This group was analyzed in order to understand their
characteristics that, in some way, attracting larger quantities of spam that are processed
and discarded on their destination. Identifying the spammed users behavior is a task
that can contribute to the development and evolution of techniques for managing user
accounts of providers, thus enabling an improvement in services provide e-mails.
1 INTRODUO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2 TRABALHOS RELACIONADOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.1 Tcnicas Anti-spam . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.2 Caracterizao da Carga de trabalho de E-mails . . . . . . . . . . . . . . . . 19
2.3 Caracterizao da Carga de trabalho de Spam . . . . . . . . . . . . . . . . . . 20
2.4 Modelagem de Spammers atravs de Redes Complexas . . . . . . . . . . 22
3 METODOLOGIA DE CARACTERIZAO . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.1 Seleo e Classificao dos dados das Cargas de Trabalho . . . . . . . . 29
4 RESULTADOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.1 Viso Geral da Carga de Trabalho 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.2 Viso Geral da Carga de Trabalho 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
4.3 Remetentes e Destinatrios de Spams - Dataset de Spam 1 . . . . . . . 34
4.3.1 Anlise dos Usurios Remetentes de Spam . . . . . . . . . . . . . . . . . 34
4.3.2 Movimentao dos Remetentes de Spam . . . . . . . . . . . . . . . . . . . . 37
4.3.3 Anlise dos Usurios Destinatrios de Spam . . . . . . . . . . . . . . . . 38
4.3.4 Classificao dos Spams dos Remetentes e Destinatrios . . . . . . 39
4.3.5 Eliminao dos Heavy Spam Recipients . . . . . . . . . . . . . . . . . . . . 40
4.4 Remetentes de Destinatrios de Spam - Dataset de Spam 2 . . . . . . 41
4.4.1 Anlise dos Usurios Remetentes de Spam . . . . . . . . . . . . . . . . . 42
4.4.2 Anlise dos Usurios Destinatrios de Spam . . . . . . . . . . . . . . . . 42
4.5 Remetentes e Destinatrios de E-mail - Dataset de E-mail . . . . . . 45
4.5.1 Anlise dos Usurios Remetentes de E-mail . . . . . . . . . . . . . . . . 45
4.5.2 Anlise dos Usurios Destinatrios de E-mail . . . . . . . . . . . . . . . 47
4.5.3 Heavy Spam Recipients X Heavy Email Users . . . . . . . . . . . . . . 49
4.5.4 Ranking dos Heavy Spam Recipients . . . . . . . . . . . . . . . . . . . . . . . 51
4.5.5 Identificao Heavy Spam Recipients . . . . . . . . . . . . . . . . . . . . . . 51
REFERNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
12
1 INTRODUO
com um melhor gerenciamento das contas de e-mails por parte dos provedores. Ou seja,
importante analisar as redes de e-mails em duas abordagens: a partir da anlise do
comportamento dos spammers, e a partir da anlise do comportamento dos destinatrios
de spams. Essa ltima abordagem o foco deste trabalho, o qual apresenta anlises at
o nvel do usurio final.
O aumento das redes formadas por usurios de e-mails e do contedo malicioso exis-
tente nelas, motiva a identificao de possveis efeitos negativos que podem ser causados
ao provedor de correio eletrnico. A interao entre os usurios de mensagens eletrnicas
tem estrutura semelhante a uma rede complexa, a qual definida em (EASLEY; JON, 2010)
como uma rede que possui uma topologia com caractersticas especficas, tais como, alto
coeficiente de agrupamento e reciprocidade.
Neste trabalho a anlise da popularidade e da conectividade (mtricas de redes
complexas) foram utilizados com o propsito de se compreender algumas dimenses do
comportamento dos usurios de e-mail. De acordo com (EASLEY; JON, 2010), a populari-
dade um fenmeno caracterizado por desequilbrios extremos. No contexto deste traba-
lho, espera-se que poucos destinatrios que recebem muitos spams, tenham um compor-
tamento, relacionado ao envio/recepo de e-mails, diferente da maioria dos destinatrios
que recebem uma menor quantidade de spams. J a conectividade avalia se os remetentes
ao enviarem spams atingem os destinatrios de forma regular, possuindo conexo com
vrios destinatrios.
Diversos trabalhos na rea de trfego malicioso, buscam caracterizar o compor-
tamento dos remetentes de spam (spammers) e identificar caractersticas desses que se
diferem dos usurios legtimos de e-mail. Neste trabalho alm de analisar a popularidade
e conectividade dos spammers busca-se, principalmente, entender o comportamento dos
destinatrios foco de spams.
Portanto, este trabalho caracteriza e analisa o comportamento de destinatrios
de spams e de e-mails legtimos de um provedor de correio eletrnico, buscando identifi-
car possveis usurios foco de recepo de spam. As anlises so realizadas com base,
principalmente, na popularidade dos remetentes e destinatrios de mensagens eletrnicas,
reconstitudas a partir de dois datasets. O primeiro conjunto de dados foi gerado por um
filtro antispam de um provedor corporativo de e-mails (rede de spams) e o segundo contm
informaes dos e-mails legtimos dos usurios deste mesmo provedor (rede de e-mails).
Dessa forma, foi possvel verificar a relao entre os usurios dessas duas cargas
de trabalho e ainda classific-los em dois grupos: Corporativo e Pessoal. Na viso do
provedor, a constatao de usurios que recebem muito spams e e-mails e a identificao
14
do comportamento desses usurios pode auxiliar a deteco, por exemplo, de contas que
se tornam inviveis de serem gerenciadas e, em alguns casos, ficam desativadas. Desta
forma, os resultados deste trabalho pode contribuir com um melhor gerenciamento das
contas de usurios de correio eletrnico de um provedor de servios, e ainda servir de
referncia para a implantao de polticas de tratamento de spams.
O restante deste trabalho est organizado em 5 captulos. Os trabalhos relacio-
nados so discutidos no Captulo 2 que apresenta tcnicas utilizadas para o combate ao
spam, e tambm trabalhos sobre as caractersticas e comportamento de spammers, em
contrapartida com caractersticas de usurios legtimos de e-mails, alm de apresentar te-
orias que permitem modelar e analisar redes de usurios de troca de e-mails. No Captulo
3 descrita a metodologia de caracterizao dos dados deste trabalho, onde apresenta
o processo de anlise do comportamento de usurios de e-mails maliciosos e legtimos
quantificando e qualificando os registros presentes nos conjuntos de dados em estudo. O
Captulo 4 apresenta a anlise dos resultados relevantes para este trabalho, como por
exemplo, a popularidade dos usurios destinatrios de spams e a relao desses com os
usurios destinatrios de e-mails legtimos. No Captulo 5 apresentada a concluso deste
trabalho e os possveis trabalhos futuros.
15
2 TRABALHOS RELACIONADOS
obter maior sucesso na comparao das mensagens recebidas ao agrup-las aos usurios
com comportamentos semelhantes.
Entre as tcnicas que consideram o comportamento dos spammers como foco de
anlise, o estudo de Ramachandran, Feamster e Vempala (2007) apresenta um sistema
chamado SpamTracker. O sistema utiliza uma tcnica chamada bloqueio por comporta-
mento que classifica os remetentes de e-mail (hosts de envio de e-mail) baseado em seu
comportamento e no em sua identidade.O SpamTracker utiliza algoritmos de clustering
eficientes que podem reagir rapidamente s mudanas de padres de envio. Porm, a
identidade e o comportamento de um host so determinados pelos domnios para onde o
mesmo envia mensagens. Com o SpamTracker possvel agrupar trfego de equipamentos
de rede distintos numa mesma identidade, o que no seria interessante na filtragem.
Diferentemente dos trabalhos apresentados acima que se baseiam no contedo das
mensagens e comportamento dos usurios, o trabalho de Castilho et al. (2010) se baseia
em caractersticas do trfego SMTP (Simple Mail Transfer Protocol), sob o ponto de vista
do provedor de acesso, ou seja, busca-se diferenciar comportamentos legtimos de envio
de e-mail de comportamentos suspeitos ou abusivos, analisando apenas dados obtidos da
camada de rede de conexes SMTP. A carga de trabalho do provedor foi analisada uti-
lizando algumas mtricas, tais como, o nmero de transaes SMTP realizadas por um
usurio por unidade de tempo e o nmero de servidores de e-mail distintos contatados por
ele. Em seguida foi utilizado um algoritmo de agrupamento para dividir os usurios se-
gundo seus padres de comportamento, quando foram identificados trs perfis claramente
distintos: usurios com uso baixo, mdio e intenso de SMTP. Com tais informaes, pode
ser possvel propor mecanismos que permitam o bloqueio de spams na origem.
Apresentando uma evoluo do trabalho de Castilho et al. (2010) em Las-Casas et
al. (2011) proposto um mtodo para deteco de spammers na rede de origem denomi-
nado SpaDeS (Spammer Detection at the Source), utilizando mtricas que no requerem
a inspeo do contedo das mensagens enviadas, utilizando uma tcnica de classificao
supervisionada (Lazy Associative Classification (LAC)), a qual foi aplicada em dois con-
juntos de dados reais de um provedor de Internet de banda larga. Os mtodo SpaDeS
apresentou uma excelente efetividade, com taxa de acerto de 98% para usurios legtimos
e 94% na classificao de spammers.
Cada vez mais os spammers tm buscado estratgias para que suas mensagens
se assemelhem mais com mensagens legtimas, com propsito de enganar os filtros de
spam. Com tais estratgias, os filtros precisaro ser cada vez melhores e mais treinados
para distinguir entre mensagens maliciosas e legtimas. Para isso, deve-se unir tcnicas
18
Tal fato, define e diferencia o comportamento dos usurios legtimos ao comparar com o
comportamento de usurios maliciosos, como veremos na seo a seguir.
|OS(x) IS(x)|
CR(x) = (1)
|OS(x)|
P
yOS(x) p(y) log(p(y))
H(x) = (2)
log(|S(x)|)
suas tticas. Alm disso, os filtros tambm evoluem com o tempo e podem apresentar
diferentes pontos de vista dos spams. Para esse trabalho foram utilizados filtros antigos
e recentes do Open Source filter Spam Assassin (APACHE, 2010) para comparar spams
dos ltimos 12 anos. Os resultados apresentam uma viso geral da natureza dinmica
dos spams nos ltimos 12 anos e tambm mostram que tcnicas de spammers mudam a
medida que filtros comeam a detect-las. Tal informao pode ter grande importncia,
pois, auxilia a identificao do comportamento malicioso de usurios atravs do fluxo de
e-mails dos filtros antispam.
A interminvel batalha entre spammers e anti-spammers uma caracterstica mar-
cante do problema do spam, conhecida como spam arms race (PAULSON, 2005), em que
ambos evoluem ao mesmo tempo tentando se sobrepor fora do outro. Por isso, um
esforo contnuo para entender como spammers geram, distribuem e disseminam suas
mensagens pela Internet necessrio, para manter ou mesmo melhorar a efetividade das
tcnicas de combate so spam.
Quando uma funo decresce a medida que o valor de cresce, esta funo segue
uma lei de potncia. Por exemplo, se poucos usurios tm alta frequncia de utilizao de
uma rede, e quanto mais esta frequncia de utilizao reduzida, o nmero de usurios
aumenta. Ou seja, mostra que poucos usurios utilizam muito os recursos da rede. Logo,
a mtrica de popularidade foi selecionada para este estudo com o propsito de identificar
usurios destinatrios foco de spams, ou seja, se de fato a frequencia de utilizao da
rede, no caso, a recepo de spam est concentrada em poucos usurios.
Como pode ser visto em Clauset, Shalizi e Newman (2009), as curvas das distribui-
es so representadas por uma lei de potncia que pode ser analisada a partir da variao
dos valores do expoente . Ou seja, a variao do expoente pode representar mudanas
nas curvas das distribuies. Com isso, este trabalho tambm utiliza a teoria de lei de
potncia para analisar de acordo com a variao das distribuies de probabilidade o que
acontece com a rede de spam quando o endereo de e-mail dos usurios que receberam
uma grande quantidade de spams so renomeados, removidos ou ignorados.
Segundo Newman (2003) o grau de um n da rede significa o nmero de cone-
xes que um n possui com outros ns da rede. Neste trabalho, a conectividade de um
remetente (spammer) foi determinada pelo nmero de usurios que ele/ela pode atingir
diretamente, ou seja, est relacionado com a noo de grau do n. Assim, a conectivi-
dade foi analisada somente para os remetentes de spam, pois, como visto na Seo 2.3 as
mensagens de spam no tm reciprocidade.
Atravs dessas mtricas foi possvel identificar a existncia de heavy users que
enviam muitos e-mails e recebem a maior parte dos spams (ou seja, os usurios mais
populares). Acredita-se que esses usurios podem prejudicar a gesto de segurana de
e-mail e o desempenho da rede por causa da grande quantidade de spams relacionados a
eles (PATHAK; JAFRI; HU, 2009). Contudo, ao identificar quem so os heavy users pode
haver uma grande contribuio para os provedores de e-mails que conhecero exatamente
quais so os usurios que congestionam a chegada de e-mails.
Este trabalho utiliza as teorias citadas acima, juntamente com uma metodologia
de caracterizao do comportamento de usurios de e-mail, para identificar e analisar
os usurios foco de spam entre os remetentes e destinatrios em estudo. Na viso do
provedor, a constatao de usurios que recebem muito spams e e-mails e a identificao
do comportamento desses usurios pode contribuir com um melhor gerenciamento das
contas de usurios de correio eletrnico de um provedor de servios.
24
3 METODOLOGIA DE CARACTERIZAO
domnios referentes aos remetentes e outro script para contabilizar os domnios referentes
aos destinatrios. Os domnios semelhantes foram agrupados em um nico registro, sendo
assim, o total de registros presentes na sada do scripts totaliza a quantidade de domnios
distintos durante cada ms. Alm disso, foi possvel verificar se os domnios se repetem
entre os meses.
Em seguida, iniciou-se a organizao da carga de trabalho 2 referente ao passo 2
da Figura 1. Como apresentado, essa carga de trabalho 2 possui o Dataset de Spam 2
que contm os dados referentes aos 10 meses subsequentes ao Dataset de Spam 1 citado
no passo 1. Portanto, o passo 3 representa a anlise da evoluo temporal do compor-
tamento dos usurios remetentes e destinatrios de spams durante 12 meses. Ou seja,
utilizou-se scripts semelhantes aos utilizados na anlise dos remetentes e destinatrios
nos 2 primeiros meses (Dataset de spam 1) afim de verificar se os padres e caractersti-
cas dos usurios apresentados no perodo de 2 meses permaneceram constante durante os
10 meses seguintes, .
Ao concluir a caracterizao dos usurios dos Datasets de Spam, foi iniciada a
organizao do Dataset de E-mail (passo 4) o qual possui os dados dos usurios que
receberam e/ou enviaram e-mails considerados legtimos no mesmo perodo de 12 meses.
Ento, com base nos mesmos parmetros utilizados para a contabilizao dos remetentes
e destinatrios de spam, realizou-se a caracterizao dos usurios de e-mails legtimos no
perodo de 12 meses (passo 5).
Em seguida, atravs das caractersticas relevantes dos usurios de spam e dos usu-
rios de e-mails, buscou-se identificar a relao entre esses usurios, ou seja, foi realizada
uma caracterizao mais detalhada comparando o comportamento entre os usurios de
spams e os usurios de e-mails legtimos. Por exemplo, foi verificado se os principais
destinatrios de spam (identificados na caracterizao dos Datasets de Spam) so usu-
rios assduos ou no, ou seja, se eles enviam muitos ou poucos e-mails por dia. Para o
provedor, a identificao de usurios que recebem muito spams e e-mails e a caracteriza-
o do comportamento desses usurios pode auxiliar a deteco, por exemplo, de contas
desativadas.
Aps a contabilizao geral de ambas cargas de trabalho, foram realizadas a anlise
da qualitativas nos dados dos usurios presentes nos Datasets de Spam e no Dataset de
E-mail. Analisou-se a popularidade e da conectividade (mtricas de redes complexas),
com o propsito de se compreender algumas dimenses do comportamento dos usurios
remetentes e destinatrios de spams e de e-mail. Entretanto, as anlises foram realizadas
28
(6.0); para a coleta deste Dataset de Spam 1 foi utilizada a configurao com o nvel
mdio.
d) Trend Category: define qual categoria o spam pertence; no utilizado para esta
coleta, ou seja, todos spams so de uma mesma categoria.
e) Trend Type: tem o valor 1 (spam) como padro; os outros possveis valores so:
2-phish, 3-malware e 4-suspicious; registros com estes ltimos valores no foram
capturados nessa coleta.
Com o propsito de obter uma melhor visualizao dos dados e identificao das
caractersticas dos usurios, na anlise inicial do Dataset de Spam 1 (Carga de Trabalho 1)
30
os remetentes e destinatrios de spams foram estudados separados por semanas. Para isso,
foram selecionadas 4 semanas entre julho e agosto de 2010 consideradas quantitativamente
relevantes para o estudo, ou seja, as semanas em que houve uma maior quantidade de
e-mails trocados entre os usurios desse tipo de servio.
Para a anlise do Dataset de E-mail da Carga de Trabalho 2, os registros foram
agrupados pelos remetentes e destinatrios distintos (usurios do provedor de e-mails),
contabilizando a quantidade de e-mails que estes enviaram e/ou receberam. Este conjunto
de dados representa todos os usurios que receberam ou enviaram e-mails desse provedor
no perodo estudado. Com isso, caracterizou-se o comportamento dos destinatrios de
spams em conjunto com o comportamento dos usurios de mensagens legtimas. Assim,
foi possvel verificar a relao entre os usurios dessas duas cargas de trabalho.
Na seo a seguir, so apresentados os resultados encontrados a partir da meto-
dologia aplicada nesta pesquisa. Ser apresentada a anlise da evoluo temporal dos
destinatrios de spams, que foi realizada atravs do clculo das distribuies de probabi-
lidade acumulada dos usurios durante os 10 meses, afim de identificar como permanece
a popularidade dos usurios destinatrios durante o perodo de 1 ano. Alm disso, no
Dataset de E-mail, foram identificados os usurios do provedor que mais enviam e/ou
recebem e-mails atravs da contabilizao dos dados. Esses usurios foram associados aos
destinatrios considerados foco de spam afim de encontrar caractersticas que justifique
esta grande quantidade de spams recebidos no perodo estudado.
31
4 RESULTADOS
Quanto aos destinatrios de spam, como os dados foram coletados do mesmo pro-
vedor de e-mail, a quantidade de contas de usurios no muito diferente da quantidade
de contas do Dataset de Spam 1, possuindo aproximadamente 5.000 contas de usurios
distintos. Esses usurios esto distribudos em 20 domnios diferentes gerenciados pelo
provedor de servios de e-mail. Foi possvel observar novamente a existncia de usu-
rios foco de spam nos 10 meses referentes ao perodo de setembro/2010 a Junho/2011,
repetindo o padro de concentrao de spams em poucos usurios destinatrios como
observado nas anlises do Dataset de spam 1, nos 2 primeiros meses estudados.
Para o Dataset de E-mail, tambm foi realizada uma contabilizao geral do con-
tedo semelhante aos Datasets de spam. A Tabela 3 pode ser visto melhor os valores
encontrados.
Pode ser observado que foram enviados ou recebidos pelos usurios do provedor
aproximadamente 10 milhes de e-mails no perodo de 1 ano. Esses e-mails contm cerca
de 100 mil usurios remetentes distintos incluindo os usurios do provedor, os quais esto
relacionados a aproximadamente 15 mil domnios diferentes. Quanto aos destinatrios
dos e-mails, pode ser observado a existncia de em mdia 80 mil usurios destinatrios
distintos por ms, mostrando que os usurios remetentes desse provedor enviam muitos
e-mails para uma grande quantidade de destinatrios diferentes espalhados em mdia
entre 10 mil domnios distintos. Entretanto, seguindo o objetivo deste trabalho, a anlise
foi focada somente nos e-mails recebidos e/ou enviados entre os usurios do provedor de
e-mail (aproximadamente 5 mil usurios).
34
A caracterizao dos remetentes foi realizada para cada uma das 4 semanas se-
lecionadas. Contabilizando os spams enviados em cada semana e relacionando-os aos
35
uma lei de potncia (NEWMAN, 2005), onde poucos remetentes enviam spams para uma
grande quantidade de usurios finais, enquanto a maioria dos spammers envia mensagens
maliciosas para poucos destinatrios. Em outras palavras, uma quantidade bem menor
de remetentes de spams tm alta popularidade. Observa-se que a curva da distribuio
est sempre bem acentuada e prxima ao eixo y, mostrando que os remetentes de spams
se concentram em poucos usurios, mais precisamente menos que 2 mil spammers. Com
isso, conclui-se que o envio de spam de fato se concentra em poucos remetentes, mos-
trando uma maior popularidade de certos spammers que podem ser considerados foco
da disseminao de mensagens no solicitadas.
300 300
250 250
Frequncia dos IP Senders
150 150
100 100
50 50
0 0
0 500 1000 1500 2000 2500 3000 3500 0 2000 4000 6000 8000 10000 12000
IP Senders IP Senders
300 300
250 250
Frequncia dos IP Senders
200 200
150 150
100 100
50 50
0 0
0 2000 4000 6000 8000 10000 0 2000 4000 6000 8000 10000 12000
IP Senders IP Senders
Para melhor visualizar tal fato, foram selecionados dentre os remetentes aqueles
que enviaram 50% dos spams para cada semana selecionada. Esses usurios foram de-
nominados como Heavy Spam Senders. possvel ver na Tabela 4 que mesmo com a
quantidade de remetentes aumentando como mostra na semana 2, atingindo aproxima-
damente 12 mil IPs, o percentual dos que enviam 50% dos spams no superior a 8%,
mostrando que estes IPs podem estar associados a usurios foco de envio de spams.
A descoberta de dados desse tipo, como a concentrao de envio de spam em
poucos remetentes til para possveis melhorias na rede de correio eletrnico. Ao tratar
37
tais usurios foco de spam, pode-se evitar o desperdcio de recursos para combater os
spammers e consequentemente melhorar o desempenho de servios de e-mail.
A caracterizao dos destinatrios de spams tambm foi realizada para cada uma
das 4 semanas selecionadas. Ao contabilizar a quantidade de spams enviados para um
determinado usurio final, encontrou-se foco de destinatrios em cada semana analisada.
Na primeira semana, 22% dos destinatrios foram alvos de 50% do total de spams, nas
semanas 2 e 4, apenas 13% dos destinatrios foram alvos deste mesmo percentual de
spams enviados, e na terceira semana 12% dos usurios receberam metade dos spams. Na
Tabela 6 tal fato pode ser melhor visualizado.
140 600
Frequncia de Receivers
100
400
80
300
60
200
40
20 100
0 0
0 200 400 600 800 1000 1200 1400 0 200 400 600 800 1000 1200 1400
Receivers Receivers
5000 5000
4000 4000
Frequncia de Receivers
Frequncia de Receivers
3000 3000
2000 2000
1000 1000
0 0
0 200 400 600 800 1000 0 200 400 600 800 1000 1200 1400
Receivers Receivers
como foi feito para os remetentes de spam, estes usurios foram denominados como Heavy
Spam Recipients.
Analisando pela viso do administrador do provedor, a descoberta de dados desse
tipo, como a concentrao de envio de spam para poucos destinatrios pode ser til na
identificao de usurios que atraem spams. Ao serem identificados e tratados devida-
mente, poderia facilitar o servio do provedor de e-mails no bloqueio aos spams que tais
usurios finais iriam atrair para suas caixas de entrada. Como consequncia, seria possvel
alcanar um melhor desempenho nos servios de e-mails, no congestionando o envio de
mensagens vlidas, como apresentado na Seo 2 no trabalho de (TWINING et al., 2004).
tudo. Com esses valores verificou-se a relao entre a quantidade de spams recebidos e
enviados pelos usurios com o valor mdio do Trend Score.
Na Tabela 7 so apresentados os valores mdios dos Trend Scores contabilizados de
forma geral. Ela mostra tambm a mdia dos Trend Scores para os Heavy spams senders
e recipients e a mdia dos Trend Scores para Light spams senders e recipients, esse
ltimo grupo representa os demais usurios que no foram considerados foco de spam.
Pode ser visto que para os Heavy spams (senders e recipients) a mdia do Trend
Score sempre mais alta, como, por exemplo, a semana 4, em que a mdia geral do Trend
Score dos Recipients 14,007 e a mdia dos Heavy e Light Recipients so respectivamente
47,657 e 9,186. Tais dados mostram a maior gravidade dos spams recebidos pelos Heavy
Recipients e enviados pelo Heavy Senders.
Este mais um fator importante entre as caractersticas dos remetentes e desti-
natrios deste trabalho, pois como foi visto, a quantidade de Heavy senders pequena
(concentra em poucos usurios), mas os spams disseminados por estes usurios so mais
graves. Portanto, ao identificar e tratar estes usurios destinatrios que recebem spams
considerados mais graves e que so usurios foco de spam (Heavy Recipients), o desem-
penho dos servios de e-mail sero diretamente beneficiados.
Nos resultados obtidos nas sees anteriores, foi visto que o envio de grande parte
dos spams se concentram em uma pequena quantidade de usurios destinatrios que
foram denominados como Heavy Spam Recipients. Esta seo analisa a retirada desses
Heavy Spam Recipients para cada umas das 4 semanas selecionadas. Foram eliminados os
usurios responsveis por 50% dos spams recebidos e verificou-se o impacto da ausncia
desses usurios destinatrios.
Uma mtrica comum utilizada para comparar redes de usurios o expoente
obtido atravs da regresso linear de uma distribuio de lei de potncia (BENEVENUTO;
ALMEIDA; SILVA, 2011). Tal mtrica foi utilizada para analisar os usurios de spams,
41
aps a retirada dos Heavy Spam Recipients. Aplicou-se a regresso linear para calcular
o expoente da distribuio antes e depois da eliminao dos usurios foco de spam. A
Tabela 8 apresenta os valores dos expoentes alpha para as distribuies em cada semana
analisada.
Pode ser observado que o percentual de spammers que enviam metade dos e-mails
maliciosos no ultrapassa 6%, mostrando que o envio de grande parte de spams rea-
lizado por poucos usurios remetentes de spam. Logo, o padro de menor quantidade
de spammers que enviam maior parte das mensagens no desejadas verificado na anlise
inicial dos 2 primeiros meses, permanece para os 10 meses subsequentes a agosto de 2010.
primeiros meses analisados, foi observado novamente foco de destinatrios de spam para
cada um dos 10 meses subsequentes a julho e agosto de 2010.
Confirmando a evoluo temporal dessa caracterstica, entre os meses de setembro e
novembro de 2010, 13% dos destinatrios foram alvos de 50% do total de spams, reduzindo
para 11% de dezembro de 2010 a janeiro de 2011. No perodo de fevereiro de 2011 a junho
de 2011, entre 7% e 8% dos usurios receberam 50% dos spams representando uma maior
concentrao do envio de spams em menor quantidade de destinatrios.
Tais valores podem ser visualizados na Tabela 10 que apresenta uma viso geral dos
destinatrios de spams durante esse perodo. Os valores mostram uma queda ocorrendo
dos meses de setembro a dezembro de 2010 comparados aos meses de maro a junho de
2011. Porm, tais valores podem ser justificados devido aos meses de 2010 possuir menor
quantidade de destinatrios que os meses de 2011, e desta forma, os spams se concentram
em um nmero menor de destinatrios.
Tal fato, enfatiza a concentrao de muitos spams para poucos usurios destina-
trios. Pode ser observado ainda na Tabela 10 que apesar de ter uma quantidade de
destinatrios maior como nos meses de 2011, o percentual dos usurios que recebem pelo
menos 50% dos spams apresenta um valor muito baixo, no sendo superior a 14% do total
de destinatrios.
8000 8000
7000 7000
6000 6000
Frequncia de Receivers
Frequncia de Receivers
5000 5000
4000 4000
3000 3000
2000 2000
1000 1000
0 0
0 500 1000 1500 2000 2500 3000 3500 4000 0 500 1000 1500 2000 2500 3000 3500 4000
Receivers Receivers
8000 8000
7000 7000
6000 6000
Frequncia de Receivers
Frequncia de Receivers
5000 5000
4000 4000
3000 3000
2000 2000
1000 1000
0 0
0 500 1000 1500 2000 2500 3000 3500 4000 0 500 1000 1500 2000 2500 3000 3500 4000
Receivers Receivers
Pode ser visualizado que as PDFs continuam com o mesmo comportamento anali-
sado no Dataset de Spam 1, ou seja, as distribuies seguem uma lei de potncia (NEW-
MAN, 2005), onde poucos destinatrios recebem uma quantidade muito grande de spams,
enquanto a maioria dos usurios finais so alvos de poucos spammers. Em outras pa-
lavras, poucos usurios de spams tm alta popularidade entre os usurios destinatrios.
Observa-se que a curva da distribuio est sempre bem acentuada e prxima ao eixo y,
mostrando que os spams se concentram em poucos usurios, mais precisamente menos de
500 usurios finais.
Portanto, a concentrao de muitos spams em um grupo restrito de usurios des-
tinatrios como verificado nos 2 primeiros meses (julho e agosto de 2010) referentes ao
Dataset de Spam 1 foi tambm identificado no Dataset de Spam 2. Pode-se concluir que
os spams de fato se concentram em poucos destinatrios deste provedor, apresentando
uma maior popularidade de certos destinatrios que foram considerados foco da recepo
de spams. Assim como foi feito na seo anterior, estes usurios destinatrios foco de
spam foram denominados como Heavy Spam Recipients.
45
A anlise dos usurios de e-mail foi realizada com intuito de caracterizar a utilizao
de mensagens eletrnicas pelos usurios de e-mails do provedor. Como o Dataset de E-
mail possui os e-mails recebidos e/ou enviados pelos usurios do provedor, a caracterizao
foi realizada na viso dos remetentes de e-mails e dos destinatrios de e-mails, pois ambas
vises representam o uso de mensagens eletrnicas pelos usurios do provedor de e-mails.
vlido ressaltar que esse Dataset no possui spams, apenas as mensagens consideradas
legtimas. Na sub Seo 4.5.3 realizada a investigao se os Heavy Spam Recipients
tambm so usurios assduos no envio e recepo de e-mails. Em seguida, apresentado
o ranking dos Heavy Recipients de spam e e-mail e por fim a identificao desses usurios.
350
300
# Usurios do provedor de emails
250
200
150
100
50
0
Ju
Ag
Se
Ja
Fe
Ab
Ju
ov
ez
ut
ar
ai
l/1
n/
n/
v/
o/
t/1
r/1
/1
/1
/1
/1
/1
11
11
11
10
0
1
0
1
1
0
Meses
e ento utilizou-se a ferramenta citada acima. Na lista de usurios que recebem metade das
mensagens eletrnicas do provedor foi verificado que todos essas contas so pertencentes
ao provedor de e-mails em estudo. Foi possvel visualizar tambm a concentrao de e-
mails em poucos destinatrios, pois dentre as 5.000 contas de e-mail ao selecionar apenas
os usurios que recebem metade das mensagens eletrnicas obteve-se uma quantidade
baixa de usurios para cada ms. Na Figura 7 pode-se visualizar essa concentrao de
e-mails em poucos usurios do provedor separados para cada ms.
2000
1500
# Usurios do provedor de emails
1000
500
0
Ju
Ag
Se
Ja
Fe
Ab
Ju
ov
ez
ut
ar
ai
l/1
n/
n/
v/
o/
t/1
r/1
/1
/1
/1
/1
/1
11
11
11
10
0
1
0
1
1
0
Meses
Pode ser visto que dentre as 5.000 contas de usurios existente no provedor, a
quantidade de usurios que recebem metade dos e-mails do provedor sempre se mantm
abaixo de 2 mil usurios, mostrando que menos da metade dos usurios destinatrios do
provedor recebem 50% das mensagens eletrnicas que chegam ao provedor de e-mails.
Para melhor visualizao, foram calculados os percentuais desses usurios entre o total
de contas do provedor. Na Tabela 12 so apresentados os percentuais dos usurios que
recebem 50% do total de e-mails que chegam ao provedor.
Pode ser observado uma variao do percentual de destinatrios que recebem 50%
das mensagens eletrnicas, por exemplo, em Outubro de 2010 houve uma quantidade
muito maior de usurios comparado ao ms de Dezembro de 2010. Essa variao ocorre
devido s caractersticas do provedor de e-mails em anlise e das contas de usurios
pertencentes a ele. Entretanto, durante os 12 meses em mdia metade dos e-mails so
recebidos por 26% dos usurios, tal valor mostra a grande quantidade de e-mails recebidos
49
por percentual baixo de usurios destinatrios. Com tais dados possvel concluir que para
o Dataset de E-mails, assim como os Datasets de Spam analisados anteriormente, existe
um conjunto de usurios foco na recepo de mensagens eletrnicas. Este conjunto de
usurios foram nomeados como Heavy Email Recipients. Este ltimo conjunto de usurios,
juntamente com os usurios remetentes foco de envio de e-mails (Heavy Email Senders)
foram classificados como Heavy Email Users.
100
Heavy Spam Users entre os Heavy Email Users
Heavy Spam Users fora dos Heavy Email Users
80
60
Percentual (%)
40
20
0
Ju
Ag
Se
Ja
Fe
Ab
Ju
ov
ez
ut
ar
ai
l/1
n/
n/
v/
o/
t/1
r/1
/1
/1
/1
/1
/1
11
11
11
10
0
1
0
1
1
0
Meses
Cada ms analisado possui uma lista dos Heavy Spam Recipients. O objetivo desta
subseo identificar os usurios que sempre se mantiveram no topo desta lista durante o
perodo analisado, ou seja, deseja-se ordenar os usurios que receberam maior quantidade
de spams durante os 12 meses.
Para isso, foi desenvolvido um script que calcula o peso das posies dos usurios
em cada uma das 12 listas. Com intuito de enfatizar os peso das primeiras posies, os
pesos foram calculados atravs da soma do inverso das posies dos usurios em cada
lista. Por exemplo, um usurio X ficou em segundo lugar na lista de julho/2010 e em
quarto lugar na lista de agosto/2010 ento o peso desse usurio para esse 2 meses ser:
1
2
+ 14 = 3
4
e este clculo foi realizado para os 12 meses. Assim um usurio Y que ficou em
1
quinto lugar em julho/2010 e em vigsimo lugar em agosto/2010 ( 51 + 20 = 41 ) no ranking
ficar atrs do usurio X, por ter permanecido em posies maiores nas listas. Ento a
idia desse script :
Como resultado, possumos uma nica lista contendo os Heavy Spam Recipients
durante 12 meses ordenados pela quantidade de spams que os usurios foco receberam.
Lembrando que grande parte destes usurios tambm so usurios da lista de Heavy Email
Users. Como visto na subseo 4.5.3 para o provedor de e-mail a identificao de tais
usurios e tratamento deles pode trazer muitos benefcios em questo a desempenho e
tempo gasto para processamento de mensagens eletrnicas. A prxima seo apresenta
uma classificao utilizando esta lista de Heavy Spam Recipients dos 12 meses gerada pelo
script explicado acima, afim de identificar possveis contas de usurios que, de alguma
forma, prejudicam o provedor de correio eletrnico.
Spam Recipients e ento foi criado um ranking dos usurios que receberam mais spams
durante os 12 meses.
Por fim, os usurios dos ranking foram classificados e identificados com o auxlio
do administrador de redes do provedor de correio eletrnico em estudo. Verificou-se
que as contas classificadas como corporativas, que geralmente esto vinculadas a meio
de comunicao ou divulgao, esto presentes em maior quantidade no topo da lista
de Heavy Spam Recipients, ou seja, recebem muito mais spams que os demais usurios.
Alm disso, verificou-se a existncia de contas inutilizadas que s recebem spams e e-mails
no sendo mais de uso dos usurios do provedor. A aplicao desta metodologia por um
administrador de rede, pode contribuir para um melhor gerenciamento de um provedor
de e-mails.
Considera-se como principais contribuies deste trabalho a proposio da meto-
dologia de identificao das contas de usurios com caractersticas prejudicais para o bom
funcionamento do provedor , bem como a sugesto de criao de uma Blacklist de usurios
destinatrios do provedor, que seriam baseadas na classificao dos usurios a partir da
sua utilizao de e-mails legtimos e recepo de spams como realizado neste trabalho.
A criao de Blacklist de spammers, utilizada para o bloqueio de IPs no confiveis nos
servidores bem conhecida entre as propostas de tcnicas antispam de vrias pesquisas
nessa rea de trfego malicioso. Porm, at onde se tem conhecimento, a formao des-
sas listas focando nos usurios destinatrio ainda no havia sido sugerido em trabalhos
cientficos.
Como trabalho futuro a partir dos resultados encontrados, pretende-se aprofundar
a caracterizao dos destinatrios aplicando outras mtricas de redes complexas aos dados
estudados. Alm disso, analisar o impacto da implementao da Blacklist contendo os
usurios destinatrios do provedor de e-mails que so identificados com a metodologia
apresentada neste trabalho. Alm de verificar se a BlackList de usurios destinatrios
possibilita alcanar resultados significativos para contribuio na economia de recursos e
melhoria do desempenho dos provedores de servios de e-mail durante o tratamento de
mensagens eletrnicas.
REFERNCIAS
BARABASI, Laszlo. The origin of bursts and heavy tails in human dynamics. Nature, Notre
Dame, v. 435, p. 207211, May 2005.
CASTILHO, Luis Henrique et al. Caracterizao de trfego smtp na rede de origem. In:
SIMPSIO BRASILEIRO DE REDES DE COMPUTADORES E
SISTEMAS DISTRIBUDOS, n. 28, 2010, Gramado. Anais do XXVIII Simpsio Brasileiro
de Redes de Computadores e Sistemas Distribudos. Gramado: Sociedade Brasileira de
Computao, 2010. p. 379392.
CISCO SYSTEMS. Cisco 2010 Annual Security Report. USA: Cisco, January, 2011.
Disponvel em: < http://www.cisco.com/en/US/prod/collateral/vpndevc/security_
annual_report_2010.pdf > Acesso em: 31 Jan. 2012.
COOK, Duncan et al. Catching spam before it arrives: Domain specific dynamic
blacklists. In: AUSTRALIAN WORKSHOPS ON GRID COMPUTING AND E-
RESEARCH. 2006, Darlinghurst. Proceedings of the 2006 Australian Workshops on Grid
Computing and E-Research. Darlingshurst: Australian Computer Society -
ACSW, 2006. p. 193202.
EASLEY, David; JON, Kleinberg. Networks, crowds, and markets: reasoning about
a highly connected world. Cambridge: Cambridge University Press, 2010.
GOMES, Luiz Henrique et al. Comparative graph theoretical characterization of networks
of spam and legitimate email. In: CONFERENCE ON EMAIL AND ANTI-SPAM, 2, 2005,
Stanford. Proceedings of the Second Conference on Email and Anti-Spam. Stanford:
Stanford University, 2005, p. 9.
GOMES, Luiz Henrique et al. Characterizing a spam traffic. In: ACM SIGCOMM
CONFERENCE ON INTERNET MEASUREMENT, 4, 2004, New York. Proceedings of the
4th ACM Sigcomm Conference on Internet Measurement. New York: ACM, 2004. p.
356369.
GOMES, Luiz Henrique et al. Workload models of spam and legitimate e-mails.
Performance Evaluation. Amsterdam, v. 64, n. 7-8, p. 690714, August, 2007.
GOODMAN, Joshua; CORMACK, Gordon V.; HECKERMAN, David. Spam and the
ongoing battle for the inbox. Communications of the ACM, New York, USA, v. 50, p.
2433, February 2007.
GUERRA, Pedro H. Calais et al. Exploring the spam arms race to characterize
spam evolution. In: COLLABORATION ELETRONIC MESSAGING, ANTI-ABUSE AND
SPAM CONFERENCE, 7, 2010, Redmond. Proceedings of the 7th Collaboration
Eletronic Messaging, Anti-Abuse and Spam Conference. Redmond: CEAS, 2010.
KLUCKHOHN, Clyde. Human behavior and the principle of least effort. American
Anthropologist, v. 52, n. 2, p. 268270, 1950.
LI, Fulu; HSIEH, Mo-Han. An empirical study of clustering behavior of spammers and
group-based anti-spam strategies. In COLLABORATION ELECTRONIC MESSAGING,
ANTI-ABUSE AND SPAM CONFERENCE, 3, 2006, Mountain View. Proceedings of
the 3th Collaboration Electronic Messaging, Anti-Abuse and Spam Conference,
Mountain View: CEAS, 2006. p. 11.
NEWMAN, M. E. J. The structure and function of complex networks. Society for Industrial
and Applied Mathematics Review, USA, v. 45, n. 2, p. 167256, 2003.
NUCLEUS RESEARCH, Spam, the repeat offender. Boston, USA: Nucleus Research,
April, 2007. Disponvel em: < http://nucleusresearch.com/research/notes-and-reports/spam-
the-repeat-offender/ > Acesso em: 31 Jan. 2012
PATHAK, Abhinav; JAFRI, Syed Ali Raza; HU, Y. Charlie. The case for spam-aware
high performance mail server architecture. In: CONFERENCE ON DISTRIBUTED
COMPUTING SYSTEM, 29, 2009, Washington. Proceedings of the 29th International
Conference on Distributed Computing System. Washington: IEEE, 2009, p. 155164.
PAUL, Position Paper et al. Understanding and reversing the profit model of spam. In:
WORKSHOP ON THE ECONOMICS OF INFORMATION SECURITY, 4, 2005, Boston.
Proceedings of the 4th Workshop on the Economics of Information Security: Boston,
2005. p. 11.
PAULSON, Linda Dailey. No quick fix for spam. Information Technology Professional,
Piscataway, v. 7, n. 3, p. 1114, May 2005.
PU, Calton; WEBB, Steve. Observed trends in spam construction techniques: A case
study of spam evolution. In: CONFERENCE ON EMAIL AND ANTI-SPAM, 3, 2006,
Mountain View. Proceedings of the 3th Conference on Email and Anti-spam: Mountain
View, 2006. p.104.
SAHAMI, Mehran et al. A bayesian approach to filtering junk e-mail. In: LEARNING FOR
TEXT CATEGORIZATION: PAPERS FROM THE WORKSHOP, 1998, Madison.
Proceedings of the American Association for Artificial Intelligence Workshop: Madison,
1998, v. 62, p. 98105.
SYMANTEC. State of Spam e Phishing Monthly Report. USA: Symantec, October, 2011.
Disponvel em: < http://www.symantec.com/content/en/us/enterprise/other_ resources/b-
intelligence_report_10-2011.en-us.pdf> Acesso em 31 Jan. 2012.
TWINING, Richard Daniel et al. Email prioritization: reducing delays on legitimate mail
caused by junk mail. In: USENIX ANNUAL TECHNICAL CONFERENCE, 4, 2004,
Berkeley. Proceedings of the 4th Usenix Annual Technical Conference: USENIX
Association, 2004, p. 44.
TREND MICRO. InterScan Messaging Security Suite. USA: Trend Micro, April 2007.
Disponvel em: <http://br.trendmicro.com/br/products/enterprise/interscan-messaging-
security-suite/ > Acesso em 31 Jan. 2012.
WEINSTEIN, Lauren. Spam wars. Communications of the ACM, New York, v. 46, p. 136,
August 2003.