Você está na página 1de 10

XIII SIMPEP - Bauru, SP, Brasil, 06 a 08 de novembro de 2006

Combate a mensagens no solicitadas (spams) em empresas. Uma


experincia da Embrapa Informtica Agropecuria

Marcelo Gonalves Narciso (Embrapa Informtica Agropec.) narciso@cnptia.embrapa.br


Fernando Attique Mximo (Embrapa Pantanal) fernando@cnptia.embrapa.br

Resumo. Este artigo descreve os problemas que os spams causam nas organizaes e mostra uma
forma de combat-los com sucesso, usando software livre. So apresentados alguns tipos de softwares
para combate a spams, suas vantagens e desvantagens, e a experincia que uma das unidades da
Embrapa teve com os software antispams. Com este estudo de caso, recomendaes sobre que software
antispam adquirir so feitas para qualquer que seja o tipo de empresa.
Palavras-chave: spam; combate; software; comparaes; estatticas

1. Introduo

Existem softwares antispams que avaliam o cabealho e o corpo da mensagem e o classificam


como spam ou no. Eles tm uma margem pequena de erro quanto classificao da mensagem,
menos de 5%, segundo seus desenvolvedores. Os softwares mais conhecidos desta linha so:
Spamassassin (SPAMASSASSIN, 2005), dspam (DSPAM, 2005), bogofilter (BOGOFILTER, 2005).
Um problema relativo aos softwares antispam citados o fato de que eles sobrecarregam o
servidor de mensagens pois toda mensagem que chega dever ser analisada pelo software antispam
antes de ser entregue, e esta anlise demora um certo tempo no desprezvel (de 2 a 10 segundos por
mensagem). Alm disso, muitas vezes mensagens legtimas so classificadas como spams por estes
softwares. Assim, faz-se necessrio um mecanismo de recuperao destas mensagens e aviso ao
remetente de que a mensagem deste foi retida, visto que estes softwares no provm estes mecanismos
(recuperar a mensagem e avisar o remetente sobre a mensagem retida).
Outros softwares procedem de maneira diferente quanto a reter spams. So aqueles que usam
do artifcio de desafios fceis para o remetente. Uma pergunta simples, um reply da mensagem desafio
so exemplos dos desafios que este tipo de sistema pode fazer. O mais conhecido o antispam da UOL
(UOL, 2005) no qual o remetente l uma palavra em uma imagem e responde uma pergunta com

XIII SIMPEP - Bauru, SP, Brasil, 06 a 08 de novembro de 2006

aquela palavra. Aps isso, a mensagem enviada ao destinatrio e o usurio no mais receber desafio.
Uma verso simplificada deste software o TMDA (TMDA, 2005), que envia um desafio pedindo ao
remetente um reply na mensagem desafio ou envio de mensagem vazia a um endereo descrito na
mensagem do desafio.
Este trabalho apresenta uma comparao entre os filtros antispams estatsticos ( o caso de estudo o
Spamassassin) e do tipo desafio-resposta (o caso de estudo o TMDA), em termos de resultados e
sugere solues para combate de spams.

2 . Softwares antispams classificatrios


Estes tipos de softwares analisam o corpo e o cabealho de uma mensagem e usam mtodos
estatsticos para classificar uma mensagem. Softwares como Bogofilter (BOGOFILTER, 2005),
Dspam (DSPAM, 2005) e Spamassassin so exemplos deste tipo de filtros. Mais detalhes podem ser
vistos em (Bayes, 2005). A vantagem deste tipo de filtro que ele adaptativo, isto , medida em
que as tcnicas dos remetentes de spams vo mudando, este tipo de filtro aprende as mudanas e
continua a combater os spams. Para isso, o software treinado com uma amostra de spams
(geralmente 1000 ou mais) para poder ento continuar atuando eficientemente.
Neste trabalho, est sendo considerado para anlise o Spamassassin, software mundialmente
conhecido. Alm de ser um filtro antispam bayesiano (verses mais recentes), o Spamassassin tambm
usa um conjunto de regras para verificar se a mensagem um spam ou no. Este conjunto de regras
sempre se atualiza e pode ser obtido a partir do site (SPAMASSASSIN, 2005).

3. Softwares antispams do tipo desafio-resposta


Existe uma outra categoria de software antispam que age de forma a certificar se o remetente
vlido e, desta forma, verificar se a mensagem de origem confivel. Para isto, este sistema, ao
receber uma mensagem, envia uma outra mensagem para o remetente com a finalidade de desafi-lo a
responder uma pergunta ou tomar uma outra ao que seja fcil. Caso o remetente responda
corretamente, a mensagem original entregue ao destinatrio final e o endereo eletrnico do
remetente vai para uma lista branca para no mais receber desafios. A seqncia de aes :
1 O remetente envia mensagem para o destinatrio;
2 Caso o remetente seja desconhecido, o servidor de correio eletrnico retm a mensagem e envia
uma outra ao remetente desafiando-o a responder alguma pergunta ou similar;
3 O remetente pode responder a mensagem e esta vai para o servidor de correio eletrnico;
4 Se o desafio for respondido, a mensagem original entregue ao destinatrio. Se no for
respondido, a mensagem fica em quarentena, isto , pode ser recuperada pelo destinatrio em uma dada
quantidade de dias. Aps esse prazo, a mensagem descartada.
O TMDA (TMDA, 2005) um software do tipo desafio/resposta. O desafio que o servidor
envia ao remetente que este responda mensagem (reply to) simplesmente. Assim, o programa que
2

XIII SIMPEP - Bauru, SP, Brasil, 06 a 08 de novembro de 2006

envia spam provavelmente no ir responder ao desafio. Este software tem a vantagem de evitar
perda de mensagens legtimas (false positive). Porm, a entrega de mensagens, quando o remetente no
est na lista branca, demora algum tempo. Ao responder o desafio, o remetente no mais receber
desafios quando enviar mensagem, visto que seu endereo foi para uma lista branca do TMDA.
Uma grande vantagem do TMDA tem sua interface web, que permite ao usurio ver as
mensagens que esto em quarentena, inserir endereos nas listas branca ou negra, configurar quantos
dias a mensagem poder ficar em quarentena, alterar o contedo do desafio (personalizar) para facilitar
o atendimento do remetente, etc. Esta interface grfica instalado no servidor de http do site
considerado e acessado via browser (Internet Explorer, Mozilla, Opera, etc.). A figura 1 mostra a
pgina inicial do TMDA. Observe que as mensagens cujos remetentes no estejam na lista branca
ficam armazenadas esperando a resposta do desafio ou ainda que o usurio libere a mensagem (basta
clicar no boto release ou whitelist, sendo que a ltima opo tambm insere o endereo do remetente
na lista branca). Observe que existem no lado esquerdo as opes Pending (mostra as mensagens
pendentes), Filters (configura a localizao das listas branca e negra), Lists (possibilita o usurio
inserir endereos nas listas branca e negra), Settings (configurao geral do TMDA), Info (informaes
gerais sobre o TMDA) e Logout. Mais detalhes sobre esta interface esto em (TMDA-CGI, 2005).

XIII SIMPEP - Bauru, SP, Brasil, 06 a 08 de novembro de 2006

Figura 1 Pgina de abertura do TMDA

4. Resultados - Comparao entre as duas tcnicas apresentadas


O sistema de mail na Embrapa Informtica, para efeito de comparao, ser descrito a seguir. O
Mail Transfer Agent (MTA) utilizado
foi o sendmail (Sendmail, 2005), o qual usava o procmail
(Procmail, 2005) para entrega de mensagens locais. O procmail tem um arquivo de configurao, cujo
nome procmailrc, no qual so invocados o Spamassassin, TMDA ou outros filtros antispams.
Assim, cada mail local que era entregue passava pelos filtros configurados em procmailrc. Neste
arquivo, estavam configurados, na ordem:
Filtros para anlise de extenses de arquivos anexos a mail. No eram permitidos arquivos que
continham anexos executveis ou que pudessem trazer algum dano (.exe, .bat, .scr, .pif, etc.). Mais
informaes sobre estes filtros podem ser vistos em (Narciso, 2005);

XIII SIMPEP - Bauru, SP, Brasil, 06 a 08 de novembro de 2006

Se o mail era proveniente do CNPTIA ou do domnio embrapa.br e outros domnios com


relacionamento com a Embrapa (Unicamp, INPE, CenPRA, CNPQ, FAPESP, etc.) , ento a
mensagem era entregue. Era analisado se o IP do servidor de mail do remetente, no cabealho da
mensagem, correspondia ao domnio de onde a mensagem vinha;
Aps isto, eram chamados filtros internos do procmailrc, por serem mais rpidos de serem
executados e tambm por terem eficcia em muitos casos de spams. Mais detalhes sobre estes iltros
podem ser vistos em (Narciso, 2005) ou em (REGEX, 2005);
O Spamassassin ou o TMDA eram ento chamados para analisar as mensagens provenientes de
domnios no previstos (configurados) anteriormente.

O esquema do procmailrc descrito acima vale para outros MTA (postfix, qmail, exim) desde
que esses usem o procmail para a entrega de mensagens locais. Caso no seja usado o procmail,
existem outras formas de se chamar o Spamassassin ou TMDA, usando-se o .forward.
Desta forma, os spams eram analisados pelo Spamassassin ou TMDA aps sofrerem uma
triagem, evitando-se analisar todas as mensagens. Assim, a entrega da maioria das mensagens vlidas
era mais rpida pois no era necessrio passar pelos softwares antispams. Aps esta breve introduo
de como era o sistema de mail, tem-se ento a comparao dos dois softwares, representando os filtros
estatsticos (Spamassassin) e os filtros do tipo desafio-resposta (TMDA).
Em novembro de 2003 foi instalado o Spamassassin. Em princpio, reduziu pela metade a
quantidade de spams que os usurios recebiam. Embora o Spamassassin fosse treinado para capturar
spams, com amostras de spams que ele deixava passar, e tinha uma srie de anlises estatsticas sobre a
mensagem para verificar se ela um spam ou no, os resultados obtidos no foram a reduo de 90% a
95% de spams, prometido pelo site do Spamassassin (Spamassassin, 2005) na poca. O que era
verificado que o treinamento no melhorava o desempenho do software como era de se esperar.
Chegou-se concluso de que outros filtros antispams deveriam ser usados em conjunto com o
Spamassassin para melhorar o desempenho do sistema como um todo. Outro detalhe importante era
quanto ao bloqueio de mensagens legtimas, conhecido por falso positivo. Infelizmente, cerca de 5%
das mensagens bloqueadas eram falso positivo. Esse problema trouxe insatisfao aos usurios, mas
foi resolvido com o tempo, inserindo-se endereos na lista branca do Spamassassin (o site no dizia
como fazer isso, que foi descoberto analisando-se o cdigo do software) e tambm criando mensagens,
no arquivo procmailrc, notificando o usurio que tivesse seu mail retido. Por um lado, a adoo do
Spamassassin melhorou a segurana de entrega de mensagens, mas ainda assim muitos spams no
eram retidos pelo Spamassassin.
Visto que o Spamassassin no conseguia reter os spams e tambm bloqueava mensagens
legtimas, filtros baseados em expresses regulares (REGEX, 2005) para bloquear mensagens foram
inseridos no arquivo procmailrc. medida em que os filtros foram sendo colocados para analisar o
cabealho da mensagem e tambm palavras chaves do corpo da mensagem, o Spamassassin foi ficando
cada vez menos solicitado, visto que os filtros feitos com expresses regulares (REGEX, 2005) eram

XIII SIMPEP - Bauru, SP, Brasil, 06 a 08 de novembro de 2006

mais rpidos e tambm mais eficazes. Visto que estes filtros vinham antes do Spamassassin, os spams
eram retidos mais rapidamente, O Spamassassin demorava para analisar as mensagens.
Os filtros do tipo estatstico, como dspam e bogofilter, tal como o Spamassassin, tambm
prometem diminuir consideravelmente volume de spams. Porm, esses filtros tm os mesmos
problemas que o Spamassassin: falso positivo e uma boa quantidade de spams passam por esses filtros.
Entretanto, esses softwares reduzem em razovel quantidade o volume de spams. Eles devem ser
usados com o cuidado de inserir uma lista branca para evitar anlises desnecessrias de mensagens e
tambm notificar os usurios sobre o fato do mail ter sido retido, devido ao problema de false positive.
Em setembro de 2004 foi feito um levantamento dos spams retidos pelo Spamassassin e pelos
filtros internos definidos em procmailrc. Os dados esto na tabela 1.
Tabela 1. Quantidade de spams retidas pelo sistema
de mensagens em setembro de 2004
Dia

Spamassassin

22/09/04
21/09/04
20/09/04
19/09/04
18/09/04
17/09/04
16/09/04
15/09/04

1253
1754
1920
1309
1409
1831
1688
1537

Filtros
internos do
Procmail
400
421
382
618
640
433
123
460

% de reteno
pelo
Spamassassin
75,80
80,64
83,41
67,93
68,77
80,87
93,21
76,97

Pelos dados acima, considerando-se uma mdia de 80 usurios que existem no CNPTIA, tem-se
uma mdia de 25 spams/dia/usurio que o sistema consegue reter, isto , se os spams acima passassem,
cada usurio receberia em mdia 25 spams/dia a mais.
Aps a coleta dos dados acima, em setembro, outros filtros usando expresses regulares
(REGEX, 2005) foram criados e assim a quantidade de spams que iam sendo retidos aumentava, visto
que os filtros novos, medida em que eram criados, retinham mais spams. Uma amostra deste
comportamento pode ser vista na tabela 2 a seguir.

XIII SIMPEP - Bauru, SP, Brasil, 06 a 08 de novembro de 2006

Tabela 2. Quantidade de spams retidas pelo sistema


de mensagens em abril de 2005
Dia

1/04/05
2/04/05
3/04/05
4/04/05
5/04/05
6/04/05
7/04/05
8/04/05

Spamassassin

199
36
18
72
74
88
103
101

Filtros
internos do
Procmail
1881
2460
2027
2189
2490
1979
2352
2418

% de reteno % de reteno
pelo
pelos filtros
Spamassassin internos do
procmail
9,57
90,43
1,44
98,56
0,88
99,12
3,18
96,82
2,89
97,11
4,26
95,74
4,20
95,80
4,01
95,99

Pelos dados acima, considerando-se uma mdia de 80 usurios que existem no CNPTIA, tem-se
uma mdia de 29 spams/dia/usurio que o sistema consegue reter, isto , se os spams acima passassem,
cada usurio receberia em mdia 29 spams/dia a mais.
Observe que os filtros internos do procmail, conforme a tabela 2, retinham mais de 90% das
mensagens, melhorando assim o desempenho do sistema, visto que mais spams foram retidos, em
comparao com a tabela 1, e menos processos do Spamassassin eram necessrios para reter spams,
visto que a maioria destes eram retidos agora pelos filtros do procmail.
Embora o nmero de spams retidos tenha aumentado, o nmero de false positive tambm,
principalmente devido a sites mal configurados (problemas de DNS), que tinham erros nos cabealhos
das mensagens ou ainda devido a sites legtimos que estavam nas listas negras de sites sobre o assunto
(relays.ordb.org, dnsbl.sorbs.net, sbl.spamhaus.org, sbl-xbl.spamhaus.org e outros). Chegou-se
concluso que filtros para anlise de mensagens tem suas limitaes. Alm de, por vrias razes,
reterem mensagens legtimas, no conseguem reter os spams totalmente. Alm disso, sempre
necessria a interveno do suporte computacional para configurar novas regras ou
recuperar
mensagens retidas indevidamente.
Devido ao comportamento do Spamassassin e dos filtros citados anteriormente, buscou-se
outras alternativas de bloqueio de spams. Um tima alternativa foi a instalao de um gray list
(GreyList, 2005). A idia deste software rejeitar a mensagem na primeira vez que esta chega ao
servidor, emitindo uma mensagem do tipo 451 4.7.1 Please try again later (TEMPFAIL). A
maioria das aplicaes que enviam spams em massa no tentaro enviar novamente a mensagem.
Assim, uma grande quantidade de spam retida pelo software de grey list sem gerar false positive. Se
a mensagem for legtima, o servidor de mensagens do remetente dever tentar enviar a mensagem
novamente. Quando assim o fizer, a mensagem no ser mais bloqueada pelo software de grey list e
ento continuar no processo de envio ao destinatrio. Este software pode ser usado com qualquer
MTA (Postfix, Sendmail, Exim, Qmail) e os resultados obtidos na Embrapa Informtica Agropecuria

XIII SIMPEP - Bauru, SP, Brasil, 06 a 08 de novembro de 2006

foram muito bons, diminuindo em grande quantidade o nmero de spams que ainda passavam. Este
sistema foi instalado em maio de 2005 e seus resultados podem ser vistos na tabela abaixo
Tabela 3. Quantidade de spams retidas pelo sistema
de mensagens em junho de 2005
Dia

Mensagens
retidas pelo
Spamassassin

1/06/05
2/06/05
3/06/05
4/06/05
5/06/05
6/06/05
7/06/05
8/06/05

32
41
93
60
45
54
95
75

Mensagens
% de reteno
retidas pelos pelo
Filtros
Spamassassin
internos do
Procmail
1272
2,45
1072
3,68
1310
6,63
791
7,05
828
5,15
910
5,60
1058
8,24
946
7,35

Observe que os spams retidos pelos filtros do procmail e pelo Spamassassin diminuram,
mostrando assim a validade de se usar o software de grey list, isto , uma quantidade razovel de
spams j retida antes mesmo de passar pelos filtros citados (Spamassassin, TMDA, filtros do
procmail, etc.). A mdia de spams que iriam para o usurio, caso o Spamassassin e os filtros do
procmail no funcionassem seria 14 spams/dia/usurio a mais, considerando-se 80 usurios.
Em junho de 2005, foi instalado o software TMDA. Este software foi configurado em
procmailrc e era chamado antes dos filtros usando expresses regulares e o Spamassassin. Assim,
poderia ser quantificado quo eficiente a ao do TMDA analisando a quantidade de spams que os
filtros que usam expresses regulares e o Spamassassin conseguem reter, os quais so invocados aps
o TMDA.
Tabela 4. Quantidade de spams retidas pelo sistema
de mensagens em agosto de 2005
Dia

25/08/05
26/08/05
27/08/05
28/08/05
29/08/05
30/08/05
31/08/05
01/09/05

Mensagens
retidas pelo
Spamassassin
0
0
0
0
0
0
0
0

Mensagens retidas
% de reteno
pelos Filtros internos pelo
do Procmail
Spamassassin
200
0,00
147
0,00
53
0,00
238
0,00
51
0,00
56
0,00
99
0,00
43
0,0

XIII SIMPEP - Bauru, SP, Brasil, 06 a 08 de novembro de 2006

O resultado acima indica que algumas mensagens ainda passam pelo TMDA sem serem retidas.
Com os dados da tabela 4, a mdia de spams de 111/1 dia/80 usurios, isto , 1,4 spams/dia/usurio.
Desta forma, o desempenho do TMDA foi muito bom, visto que sozinho o TMDA conseguiu reter a
grande maioria dos spams e, desta forma, trouxe satisfao ao usurio.
Foram colhidas opinies dos usurios sobre esta combinao (Grey List + TMDA) e foi
unnime a opinio de que o nmero de spams abaixou sensivelmente, levando a crer que o TMDA
tambm reteve spams que os filtros que usam expresses regulares e o Spamassassin no barravam.
Desta forma, o nmero de spams por usurio caiu sensivelmente.
Um detalhe muito importante sobre o TMDA que o prprio usurio pode inserir endereos
nas listas branca e negra, e tambm recuperar as mensagens legtimas. Para isso o usurio deve usar a
interface Web do TMDA, ilustrada na Figura 1. Isso trouxe um grande benefcio e satisfao ao
usurio visto que o nmero de spams por usurio diminuiu muito e tambm que o usurio sempre pode
intervir no sistema, no dependendo mais dos administradores de rede para recuperar mensagens ou
inserir endereos eletrnicos nas listas branca ou negra. O usurio tambm pode fazer suas operaes
fora da unidade, desde que o servio (acesso ao TMDA pela web) esteja configurado para ser acessado
externamente.
Para os administradores de rede, o TMDA facilitou o servio, evitando esforos com demanda
de usurios quanto recuperao de mensagens, insero de endereos em listas branca ou negra.

5. Concluso

extremamente difcil acabar com os spams, mas existem maneiras para atenuar
consideravelmente o nmero deles por usurio. Na experincia que tivemos na Embrapa Informtica
Agropecuria, observou-se que a soluo para combate aos spams um conjunto de medidas. Assim, a
unio da lista cinza (Grey List) com o TMDA, e tambm com outros filtros (expresses regulares, se
estiver usando o procmail, ou regras para o arquivo main.cf se estiver usando o MTA postifx ou outros
filtros especficos para cada MTA) diminui consideravelmente a quantidade de spams entregues por
dia aos usurios.
Quanto comparao do TMDA com o Spamassassin, observa-se que o TMDA muito
superior, tanto em termos de resultado, conforme demonstrado nas tabelas acima, quanto em termos de
gerenciamento por parte do usurio, visto que o TMDA tem uma interface Web que permite inserir
endereos nas listas branca ou negra, recuperar mensagens cujos remetentes no responderam ao
desafio, alterar parmetros do funcionamento do TMDA (como, por exemplo, o nmero de dias que a
mensagem fica de quarentena, o contedo da mensagem que vai como desafio para o remetente, etc.).
O TMDA tambm facilita a vida do administrador de sistemas, diminuindo o trabalho de
administrao, que transferido para o usurio.

XIII SIMPEP - Bauru, SP, Brasil, 06 a 08 de novembro de 2006

O problema relativo a falsos positivos trouxe insatisfao para o usurio e trabalho extra para o
suporte computacional. O TMDA eliminou os falsos positivos e trouxe satisfao para o usurio, que
analisa as mensagens pendentes (aquelas cujos remetentes no responderam ao desafio) para recuperar
mensagens legtimas e assim elimina o trabalho do suporte computacional de recuperar mensagens (e
tambm de ficar inserindo endereos em listas branca e negra).
Sobre o Spamassassin, este tem como vantagem o fato do usurio no ter que configurar nada,
porm, ele limitado quanto capacidade de reter spams. Alm desta limitao, o Spamassassin retm
mensagens legtimas. Desta forma, sobra para o suporte computacional a tarefa do gerenciamento de
spams, visto que ele tem que procurar solues para reter razovel quantidade de spams que o
Spamassassin deixa passar e tambm tem que ficar recuperando mensagens retidas indevidamente
(falsos positivos), causando transtornos para o suporte computacional e tambm para o usurio, visto
que este depende do suporte para a recuperao das mensagens.

Referncias Bibliogrficas

BOGOFILTER. Site disponvel em http://www.bogofilter.org. Acessado em outubro de 2005.


BAYES. Site disponvel em http://www.propus.com.br/articles/alt/1/1.html. Acessado em outubro de
2005.
DSPAM. Site disponvel em http://sourceforge.net/projects/dspam. Acessado em outubro de 2005.
GreyList. Site disponvel em http://hcpnet.free.fr/milter-greylist. Acessado em outubro de 2005.
Narciso, M G. Uma soluo para melhoria de desempenho para servidores de

correio eletrnico com antispam. Comunicado Tcnico da Embrapa Informtica


Agropecuria, 2005.
Procmail. Disponvel em http://www.procmail.org. Site visitado em setembro de 2005.
REGEX. Disponvel em http://pm-doc.sourceforge.net/pm-tips.html. Site visitado em outubro de
2005.
Sendmail. Disponvel em http://www.sendmail.org. Site visitado em setembro de 2005
Spamassassin. Disponvel em http://www.Spamassassin.org. Site visitado em setembro de 2005.
TMDA. Disponvel em http://tmda.net. Site visitado em setembro de 2005
TMDA-CGI. Disponvel em http://tmda.net/tmda-cgi/. Site visitado em setembro de 2005
UOL. Site disponvel em http://www.uol.com.br. Acessado em outubro de 2005.

Você também pode gostar