Você está na página 1de 18

Lendo as folhas de chá:

Uma análise comparativa da inteligência contra ameaças


Vector Guo Li, Universidade da Califórnia, San Diego; MatthewDunn, Universidade do Nordeste;
Paul Pearce, Georgia Tech; DamonMcCoy, Universidade de Nova York; Geoffrey M. Voelker e Stefan
Savage, Universidade da Califórnia, San Diego; Kirill Levchenko, Universidade de Illinois
Urbana-Champaign
https://www.usenix.org/conference/usenixsecurity19/presentation/li

Este artigo está incluído nos Anais do


28º Simpósio de Segurança USENIX.
14 a 16 de agosto de 2019 • Santa Clara, CA, EUA

978-1-939133-06-9

Acesso aberto aos Anais do 28º


Simpósio de Segurança USENIX
é patrocinado pela USENIX.
Lendo as folhas de chá: uma análise comparativa da inteligência contra ameaças

Vector Guo Li 1, Matthew Dunn 2, Paul Pearce 4, Damon McCoy 3,


Geoffrey M. Voelker 1, Stefan Savage 1, Kirill Levchenko 5

1 Universidade da Califórnia, San Diego 2 Universidade do Nordeste 3 Universidade de Nova York


4 Instituto de Tecnologia da Geórgia 5 Universidade de Illinois Urbana-Champaign

Abstrato e usar esses dados para atualizar as defesas e práticas de segurança.


Na verdade, até que ponto um defensor é capaz de coletar e analisar
O termo “inteligência contra ameaças” rapidamente se tornou uma palavra-chave da
esses dados efetivamente define uma janela de vulnerabilidade de
moda na indústria de segurança de computadores. A premissa inteiramente razoável
fato - o tempo durante o qual uma organização é menos eficaz em
é que, ao compilar informações atualizadas sobre ameaças conhecidas (ou seja,
lidar com ataques devido à ignorância dos comportamentos atuais
endereços IP, nomes de domínio, hashes de arquivo, etc.), os destinatários dessas
do invasor.
informações podem ser capazes de defender melhor seus sistemas do futuro
Este problema abstrato deu origem a uma demanda concreta por fontes de dados
ataques. Portanto, hoje uma grande variedade de fontes públicas e comerciais
de ameaças contemporâneas que são frequentemente referidas coletivamente como inteligência
distribuem feeds de dados de inteligência de ameaças para apoiar esse propósito. No
de ameaças ( TI). De longe, a forma mais comum de tais dados são os chamados indicadores
entanto, nossa compreensão desses dados, sua caracterização e até que ponto eles
de compromisso: comportamentos simples observáveis que sinalizam que um host
podem apoiar de forma significativa seus usos pretendidos, ainda é bastante limitada.
ou rede pode estar comprometido. Isso inclui indicadores de rede, como endereços IP
Nesse artigo, abordamos essas lacunas definindo formalmente um conjunto de
(por exemplo, endereços conhecidos por iniciar ataques específicos ou sites de
métricas para caracterizar feeds de dados de inteligência de ameaças e usando essas
comando e controle de host, etc.) e hashes de arquivo (por exemplo, indicando um
medidas para caracterizar sistematicamente uma ampla gama de fontes públicas e
arquivo ou executável conhecido por estar associado a um determinado variedade de
comerciais. Além disso, fundamentamos nossas avaliações quantitativas usando
malware). A presença de tais indicadores é um sintoma que alerta uma organização
medições externas para investigar qualitativamente as questões de cobertura e
sobre um problema, e parte das defesas de uma organização pode razoavelmente
precisão. Infelizmente, nossos resultados de medição sugerem que há limitações e
incluir o monitoramento de seus ativos para tais indicadores para detectar e mitigar
desafios significativos no uso de dados de inteligência de ameaças existentes para
possíveis comprometimentos à medida que ocorrem.
seus objetivos pretendidos.

Embora cada organização colete naturalmente uma certa quantidade de


dados de inteligência de ameaças por conta própria (por exemplo, os ataques
1. Introdução que repelem, o spam de e-mail que filtram etc.), qualquer entidade tem uma
pegada limitada e poucas são instrumentadas para segregar cuidadosamente
A segurança do computador é uma disciplina inerentemente adversária
sinais nítidos de ataques da gama de ambigüidade encontrada na rede de
na qual cada “lado” procura explorar as suposições e limitações do outro.
produção normal e nos logs do sistema. Assim, agora é comumente aceito que
Os invasores contam com a exploração do conhecimento de
a aquisição de dados de inteligência de ameaças é uma atividade especializada
vulnerabilidades, erros de configuração ou lapsos operacionais para
em que empresas terceirizadas e / ou coleções de grupos públicos empregam
penetrar nos sistemas almejados, enquanto os defensores, por sua vez,
uma variedade de técnicas de monitoramento para agregar, filtrar e curar
buscam melhorar sua resistência a tais ataques, compreendendo melhor
informações de qualidade sobre as ameaças atuais. Na verdade, o valor
a natureza das ameaças contemporâneas e as impressões digitais
operacional prometido da inteligência de ameaças criou um mercado próspero
deixadas por nave do atacante. Invariavelmente, isso significa que os
(de vários bilhões de dólares) [ 43 ] Empresas de segurança estabelecidas com
invasores são levados a inovar e diversificar enquanto os defensores, em
raízes em software antivírus ou detecção de intrusão de rede agora oferecem
resposta, devem monitorar continuamente essas mudanças e atualizar
inteligência de ameaças para venda, enquanto alguns fornecedores se
suas práticas de segurança operacional de acordo. Essa dinâmica está
especializam em inteligência de ameaças exclusivamente, muitas vezes
presente em praticamente todos os aspectos do cenário de segurança
prometendo cobertura de ameaças mais sofisticadas do que as fontes
operacional, de assinaturas de antivírus à con fi guração de fi rewalls e
convencionais.
sistemas de detecção de intrusão à resposta a incidentes e triagem.
Comum a todas essas reformulações, no entanto, é o processo de
Infelizmente, apesar dessa promessa tremenda, houve pouca
monitoramento de novos dados sobre o comportamento do invasor
avaliação empírica dos dados de inteligência de ameaças

Associação USENIX 28º Simpósio de Segurança USENIX 851


ou mesmo um consenso sobre o que tal avaliação implicaria. Assim, 2.1 Conjunto e coleta de dados
os consumidores de TI produtos têm meios limitados para comparar
ofertas ou para fatorar o custo de tais produtos em qualquer
Usamos várias fontes de TI dados para nossa análise:
modelo de benefício para a segurança operacional que possa ser
Facebook ThreatExchange (FB) [ 17 ] Este é um
oferecido.
plataforma da comunidade que permite que centenas de empresas e
Essa questão motiva nosso trabalho a fornecer uma base
organizações compartilhem e interajam com vários tipos de dados de
empírica e embasada para abordar tais questões. Em particular,
ameaças identificados. Como parte de um acordo com o Facebook,
este documento faz as seguintes contribuições:
coletamos todos os seus dados que ele compartilhou amplamente. Em
v Apresentamos um conjunto básico de métricas de inteligência de ameaças análises subsequentes, as fontes com prefixo “FB” indicam um
e descrever uma metodologia para medi-los, notavelmente: contribuidor exclusivo no Facebook ThreatExchange.
Volume, Contribuição Diferencial, Contribuição Agregador de feed pago (PA). Esta é uma plataforma de agregação de dados de

Exclusiva, Latência, Cobertura e Precisão. inteligência de ameaças comercial paga. Ele contém dados coletados de mais de uma

v Analisamos 47 endereços IP distintos TI fontes que cobrem seis centena de outras fontes de inteligência de ameaças, públicas ou privadas, junto com

categorias de ameaças e 8 hash de arquivo de malware distinto seus próprios dados de ameaças. Em análises subsequentes, todas as fontes de dados

TI fontes e relatar suas métricas. com prefixo “PA” são de fontes de dados exclusivas originadas deste agregador.

v Demonstramos técnicas para avaliar a precisão e


cobertura de certas categorias de TI origens. Serviço pago de reputação de IP. Este serviço comercial fornece uma lista
negra atualizada de hora em hora de endereços IP inválidos conhecidos
v Conduzimos as análises em dois períodos de tempo diferentes,
em diferentes categorias de ataque.
com dois anos de intervalo, e demonstramos a forte consistência
Listas negras públicas e feeds de reputação. Nós coletamos em
entre os resultados.
dicadores de listas negras públicas e fontes de dados de
De nossa análise, descobrimos que enquanto alguns TI fontes de dados reputação, incluindo fontes conhecidas como AlienVault [ 3 ],
mostram sobreposição significativa, a maioria não. Este resultado é consistente Badips [ 5 ], Abuse.ch [ 1 ] e Packetmail [ 28 ]
com a hipótese avançada por [ 42 ] que diferentes tipos de infraestrutura de Os indicadores de Threat Intelligence incluem diferentes tipos de
monitoramento irão capturar diferentes tipos de ataques, mas nós dados, como endereço IP, hash de arquivo malicioso, domínio, URL, etc.
demonstramos isso em um contexto muito mais amplo. Também revelamos Neste artigo, concentramos nossa análise em fontes que fornecem
que subjacente a esta questão estão as limitações mais amplas de TI fontes em endereços IP e hashes de arquivo, já que são os mais anteriores. -
termos de cobertura (a maioria dos indicadores são únicos) e precisão (falsos emprestou tipos de dados em nossa coleção.
positivos podem limitar como esses dados podem ser usados Coletamos dados de todas as fontes de hora em hora. No entanto,
operacionalmente). Finalmente, apresentamos uma análise longitudinal tanto o Facebook ThreatExchange quanto o Paid Feed Aggregator
sugerindo que esses achados são consistentes ao longo do tempo. mudam seus membros e contribuições ao longo do tempo, criando
períodos de coleta irregulares para várias das fontes de sub-dados. Da
mesma forma, os feeds de ameaças públicas tinham vários graus de

2 Visão Geral confiabilidade, resultando em lacunas de coleta. Neste artigo, usamos a


janela de tempo de 1 de dezembro de 2017 para 20 de julho de 2018 para
Os dados de inteligência de ameaças coletados para nosso estudo foram a maioria das análises, pois temos o maior número de fontes ativas
obtidos assinando e puxando de várias fontes de inteligência públicas e durante este período. Eliminamos fontes duplicadas (por exemplo, fontes
privadas. Essas fontes variaram de listas negras simples de IPs / domínios que coletamos individualmente e também encontradas no Agregador
e hashes de arquivo ruins até trocas ricas de inteligência de ameaças com pago) e subfontes (uma fonte que é um ramo de outra fonte). Além disso,
dados bem rotulados e estruturados. Chamamos cada item (por exemplo, dividimos as fontes de IP em categorias separadas e as tratamos como
endereço IP ou hash de arquivo) um indicador ( após indicador de feeds individuais, conforme mostrado na Seção 3 . Essa filtragem nos deixa
compromisso, o termo da indústria para esses itens de dados). com 47 feeds de IP e 8 feeds de hash de arquivo de malware.

Nesta seção, enumeramos nossas fontes de inteligência de As formas de cada TI A fonte coleta dados varia e, em alguns
ameaças, descrevemos a estrutura de cada fonte e como as casos, a metodologia é desconhecida. Por exemplo, Packetmail IPs e
coletamos e, em seguida, definimos nossas métricas de medição Paid IP Reputation coletam dados de ameaças por meio de
para medir empiricamente essas fontes. Quando a fonte dos dados é honeypots, analisando malware, etc. Outras fontes, como Badips ou
pública ou quando temos um acordo explícito para identificar o Facebook ThreatExchange, coletam seus indicadores de usuários ou
provedor, isso é feito. Porém, em outros casos, os dados foram organizações em geral - por exemplo, entidades podem ser atacadas
fornecidos sob condição de anonimato e nos restringimos a e enviar os indicadores a esses serviços de inteligência de ameaças.
descrever a natureza do provedor, mas não sua identidade. Todos os Esses serviços, então, agregam os dados e os relatam a seus
nossos provedores de dados privados foram avaliados quanto à assinantes. Por meio desse nível de agregação, as metodologias
natureza de nossa pesquisa, seus objetivos e a metodologia que precisas de coleta e a providência de dados podem ser perdidas.
planejamos empregar.

852 28º Simpósio de Segurança USENIX Associação USENIX


2.2 Estrutura da fonte de dados G Volume. Nós definimos o volume de um feed seja o número total

TI fontes em nossa estrutura corpus e apresentam dados de maneiras de indicadores que aparecem em um feed durante o intervalo de

diferentes. Parte do desafio na produção de métricas de conjunto de medição. Volume é o mais simples TI métrica e tem um histórico

dados cruzado é normalizar tanto a estrutura dos dados quanto sua estabelecido em trabalhos anteriores [ 21 , 23 , 24 , 30 , 35 , 36 , 42 ] Também

significado. A principal diferença estrutural que influencia nossa é útil estudar o diário avaliar de um feed, que quanti fi ca a

análise ocorre entre as fontes de dados que fornecem dados em quantidade de dados que aparecem em um feed diariamente.

instantâneos e fontes de dados que fornecem eventos. Justificativa: Para uma primeira aproximação, o volume captura a

Instantâneo. Os feeds de instantâneo fornecem instantâneos periódicos de um quantidade de informações que um feed fornece ao consumidor. Para um

conjunto de indicadores. Mais formalmente, um instantâneo é um conjunto de feed sem falsos positivos (veja precisão abaixo), e se cada indicador tiver

indicadores em função do tempo. Ele define, para um determinado momento, igual valor para o consumidor, preferiríamos uma ração de maior volume

o conjunto de indicadores que são membros da fonte de dados. Feeds de a uma ração de menor volume. Obviamente, nem todos os indicadores

instantâneos implicam Estado: a qualquer momento, há um conjunto de têm o mesmo valor para os consumidores: saber o endereço IP de um

indicadores que são dentro a alimentação. Uma fonte típica de instantâneo é host sondando toda a Internet em busca de vulnerabilidades de décadas

uma lista publicada de IPs atualizada periodicamente por seu mantenedor. Por é menos útil do que o endereço de um scanner que visa organizações em

exemplo, uma lista de endereços IP de comando e controle para um botnet seu setor que procuram explorar o zero vulnerabilidades diárias.

pode ser publicada como um feed de instantâneo sujeito a atualizações


periódicas. G Contribuição diferencial. O contribuição diferencial
Todos os feeds de hashes de arquivo são instantâneos e são monotônico de um feed em relação a outro é o número de indicadores no

no sentido de que os indicadores são apenas adicionados, não primeiro que não estão no segundo durante o mesmo período de

removidos, do feed. Hashes são um proxy para o conteúdo do arquivo, medição. Definimos a contribuição diferencial em relação ao

que não muda (o conteúdo do arquivo malicioso não mudará para tamanho da primeira alimentação, de modo que a contribuição

benigno no futuro). diferencial da alimentação UMA com respeito a alimentação B é

Evento. Em contraste, os feeds de eventos relatam indicadores Diff A, B = | A \ B | / | A |. Assim, Diff A, B = 1 indica que os dois
recém-descobertos. Mais formalmente, uma fonte de evento é um conjunto de feeds não têm elementos em comum e Diff A, B = 0 indica que
indicadores em função de um tempo intervalo. Para um determinado intervalo cada indicador em UMA também aparece em B. Às vezes é
de tempo, a fonte fornece um conjunto de indicadores que foram vistos ou útil considerar o complemento de contribuição diferencial, nomeadamente o

descobertos naquele intervalo de tempo. Os assinantes desses feeds normalizado interseção de UMA dentro B, dado por

consultam dados solicitando novos indicadores adicionados em uma janela de Int A, B = | UMA ∩ B | / | A | = 1 - Diff A, B.

tempo recente. Por exemplo, um usuário pode, uma vez por dia, solicitar o Justificativa: Para um consumidor, muitas vezes é útil saber como

conjunto de indicadores que apareceram nas últimas 24 horas. vários adicional indicadores que um feed oferece em relação a um

Essa diferença estrutural é um grande desafio ao avaliar os alimentos ou mais feeds que o consumidor já possui. Assim, se um consumidor

comparativamente. Precisamos normalizar a diferença para fazer uma já tem feed UMA e está pensando em pagar pelo feed

comparação justa, especialmente para feeds IP. A partir de um TI B, então Diff A, B indica quantos novos indicadores alimentam UMA irá

perspectiva do consumidor, um evento feed não indica quando um fornecer.

indicador irá expirar, portanto, cabe ao consumidor agir sobre a idade G Contribuição exclusiva. O contribuição exclusiva de um feed em

dos indicadores. Dito de outra forma, as datas de validade dos relação a um conjunto de outros feeds é a proporção de indicadores

indicadores são decididas pela forma como os usuários consultam o exclusivos de um feed, ou seja, a proporção de indicadores que

feed: se um usuário solicitar os indicadores vistos nos últimos 30 dias ao ocorrem no feed, mas em nenhum outro. Formalmente, o

consultar os dados, há uma janela de tempo válida implícita de 30 dias contribuição exclusiva de feed UMA é definido como Uniq A, B = B 6 = UMA B |
| UMA \ ⋃/ | A |. Assim, Uniq A, B = 0 significa que cada elemento
para esses indicadores.
ment de feed UMA aparece em alguns outros feeds, enquanto Uniq A, B = 1 significa
Neste artigo, escolhemos um período de validade de 30 dias para todos os
nenhum elemento de UMA aparece em qualquer outro feed.
indicadores que coletamos de feeds de eventos - o mesmo período válido
usado em vários feeds de instantâneos e também uma opção de janela de Justificativa: Como contribuição diferencial, contribuição exclusiva diz a

consulta comum oferecida por feeds de eventos. Em seguida, convertemos um TI consumidor quanto de um feed é diferente. No entanto, a

esses feeds de eventos em feeds de instantâneo e avaliamos todos eles de contribuição exclusiva compara um feed a todos os outros feeds

maneira unificada. disponíveis para comparação, enquanto a contribuição diferencial


compara um feed a apenas outro feed. A partir de um TI da perspectiva do
2.3 Métricas de inteligência de ameaças consumidor, a contribuição exclusiva é uma medida geral do valor único
de um alimento.
O objetivo deste trabalho é desenvolver métricas de inteligência de
G Latência. Para um indicador que ocorre em dois ou mais feeds, é latência
ameaças que permitem um TI consumidor para comparar fontes de
em um feed é o tempo decorrido entre sua primeira aparição em
inteligência de ameaças e raciocinar sobre sua adequação para uma
qualquer feed e seu aparecimento no feed em questão. No feed em que
finalidade específica. Para tanto, propomos seis métricas concretas: Volume,
um indicador apareceu pela primeira vez, sua latência é zero. Para todos
contribuição diferencial, contribuição exclusiva, latência, precisão
os outros feeds, a latência indica quanto tempo depois o
e Cobertura.

Associação USENIX 28º Simpósio de Segurança USENIX 853


mesmos indicadores aparecem nesses feeds. Escolha do Provador [ 30 ] 3 Inteligência de ameaças de IP
referido à latência como tempo relativo da primeira aparição. ( Encontramos
Uma das formas mais comuns de TI são feeds de endereços IP
o termo latência para ser mais sucinto, sem perda de clareza.) Como a
considerados maliciosos, suspeitos ou não confiáveis. Esse tipo de
latência é definida para um indicador, para um feed, faz sentido
inteligência contra ameaças remonta, pelo menos, às primeiras listas
considerar estatísticas da distribuição das latências do indicador, como a
negras de detecção de spam e intrusão, muitas das quais ainda
latência mediana do indicador.
estão ativas hoje, como a SpamhausSBL [ 40 ], CBL [ 8 ] e SORBS [ 39 ]
Justificativa: A latência caracteriza a rapidez com que um feed inclui
Aqui, aplicamos as métricas descritas acima para quantificar as
novas ameaças: quanto mais cedo um feed incluir uma ameaça, mais
diferenças entre 47 endereços IP diferentes TI
eficaz ele será para ajudar os consumidores a proteger seus sistemas. Na
feeds.
verdade, vários estudos relatam o impacto da latência do feed em sua
eficácia em impedir o spam [ 10 , 32 ]
3.1 Categorização do feed
As métricas acima são definidas sem levar em consideração o significado
dos indicadores em um feed. Podemos calcular o volume de uma única endereço de IP TI feeds têm diferentes significados e, portanto,
alimentação ou a contribuição diferencial de uma alimentação em relação propósitos. Para comparar os feeds de forma significativa entre si,
a outra, independentemente do que a alimentação pretende conter. primeiro agrupamos os feeds em categorias de feeds cujos
Embora essas métricas sejam fáceis de calcular, elas pouco nos dizem indicadores têm o mesmo significado pretendido. Infelizmente, não
sobre a adequação de um feed para uma finalidade específica. Para isso, existe uma taxonomia padrão ou amplamente aceita de IP TI feeds.
precisamos considerar o significado ou propósito dos dados de feed, Para agrupar feeds em categorias semânticas, usamos metadados
conforme anunciados pelo provedor de feed. Definimos as duas associados ao feed, bem como descrições do feed fornecidas pelo
seguintes métricas. produtor, conforme descrito abaixo.
G Precisão. O precisão de um feed é a proporção de indicadores em um Metadados. Alguns feeds fornecem informações de categoria com
feed que estão incluídos corretamente no feed. A precisão do feed é cada indicador como metadados. Mais especificamente, todos os
análoga a precisão em Recuperação de Informação. Essa métrica presume feeds de agregador pago, Alienvault IP Reputation e Paid IP
que a descrição do feed está bem definida e descreve um conjunto de Reputation incluem os metadados dessa categoria. Nesse caso,
elementos que devem estar no feed com conhecimento perfeito. Na usamos sua categoria pré-atribuída no feed. Os feeds do Facebook
prática, não temos um conhecimento perfeito nem uma descrição ThreatExchange não incluem informações da categoria nos
perfeita do que um feed deve conter. Em alguns casos, no entanto, metadados, mas fornecem uma frase descritiva com cada indicador.
podemos construir um conjunto UMA - de elementos que definitivamente Em seguida, derivamos sua categoria com base na descrição.
não deveriam estar em um feed UMA. Descrição do feed. Para feeds sem metadados, contamos com
Então Acc UMA ≤ | A \ A - | / | A |. descrições online de cada feed, quando disponíveis, para determinar
Justificativa: A métrica de precisão diz a um TI consumidor como sua categoria semântica. Por exemplo, o site do feed Nothink SSH [ 27
muitos falsos positivos esperados ao usar um feed e, portanto, dita como ] descreve que o feed relata tentativas de login de força bruta em
um feed pode ser usado. Por exemplo, se um consumidor bloqueia seu honeypot correspondente, o que indica que o feed pertence à
automaticamente todo o tráfego para endereços IP que aparecem em um categoria de força bruta.
feed, os falsos positivos podem causar interrupção em uma empresa, Agrupamos nossos feeds de IP em categorias derivadas das
bloqueando o tráfego para sites legítimos. Por outro lado, os informações acima. Neste trabalho, analisamos seis das categorias
consumidores podem tolerar alguns falsos positivos se um feed for usado mais proeminentes:
apenas para obter informações adicionais durante uma investigação.
◦ Varredura: Hosts fazendo varreduras de portas ou vulnerabilidades.
G Cobertura. O cobertura de um feed é a proporção dos indicadores
◦ Força bruta: Hosts fazendo tentativas de login de força bruta.
pretendidos contidos em um feed. A cobertura do feed é análoga a lembrar
em Recuperação de Informação. Assim como a precisão, a cobertura
◦ Malware: Malware C&C e servidores de distribuição.
presume que a descrição do feed é suficiente para determinar quais ◦ Explorar: Hosts tentando explorar vulnerabilidades remotamente.
elementos devem estar em um feed, desde que haja conhecimento ◦ Botnet: Hosts comprometidos pertencentes a um botnet.
perfeito. Em alguns casos, é possível construir um conjunto A + ◦ Spam: Hosts que enviaram spam ou não devem originar e-mail.
de elementos que deveriam estar em um feed. Podemos, então, limite superior
Mesa 1 lista os feeds, agrupados por categoria, usados no restante desta
a cobertura Cov UMA ≤ | A | / | A + |.
seção. Os símbolos # e 4 antes do nome do feed indique se o feed é um
Justificativa: Para um consumidor de alimentos que pretende obter
feed de instantâneo ou um feed de evento, respectivamente (consulte a
proteção completa contra um tipo específico de ameaça, a
seção 2,2 ) Todos os dados foram coletados durante
cobertura é uma medida de quanta proteção um alimento
nosso período de medição, 1 de dezembro de 2017 para 20 de julho,
fornecerá. Por exemplo, uma organização que deseja se proteger de
2018. Observe que alguns feeds, como Reputação de IP pago, aparecem
um botnet específico deseja maximizar sua cobertura dos servidores
em várias categorias. Nesses feeds, os indicadores são associados a
de comando e controle ou vetores de infecção desse botnet.
diferentes categorias por meio de metadados anexados. Dividimos esses
Nas duas seções a seguir, usamos essas métricas para avaliar dois
feeds em vários feeds virtuais, cada um contendo indicadores
tipos de TI: Feeds de endereço IP e feeds de arquivo hash.
pertencentes à mesma categoria.

854 28º Simpósio de Segurança USENIX Associação USENIX


3.2 Volume Tabela 1. IP TI feeds usados no estudo. Um # denota um feed instantâneo e
4 indica um feed de eventos ( Seção 2,2 ) Volume é o número total de IPs coletados
O volume é um dos mais antigos e simples TI métricas que durante nosso período de medição. Exclusivo é a contribuição exclusiva de cada feed
representam o quão informativo é cada fonte de dados. Mesa 1 mostra(Seção 3,4 ) Média Avaliar é o número médio diário de novos IPs adicionados ao feed
(Seção 3,6 ), e Média Tamanho é o tamanho médio do conjunto de trabalho de cada
o número total de endereços IP exclusivos coletados de cada
feed (Seção 3,2 )
feed durante o período de medição, na coluna Volume.
Os feeds são listados em ordem decrescente de volume, agrupados por
Alimentação Volume Exclusivo Média Avaliar Média Tamanho

categoria. Os números que mostramos são posteriores à remoção de


Scan Feeds
entradas inválidas identificadas pelas próprias fontes. Coluna # IPs PA AlienVault 1 425.967 48,6% 1.359 128.821
Média Avaliar mostra o número médio de novos IPs que recebemos por 4 IPs DShield 361.004 31,1% 1.556 69.526
# PA Packetmail ramnode 258.719 62,0% 870 78.974
dia, e Média Tamanho lista o tamanho médio do conjunto de trabalho 4 IPs do Packetmail 246.920 48,6% 942 29.751
diário de cada feed, ou seja, o tamanho médio do instantâneo. # Reputação de IP paga 204.491 75,6% 1.362 8.756
# PA Lab Scan 169.078 63,1% 869 9.775
F Encontrando: Os alimentos variam dramaticamente em volume. Dentro de # PA Snort BlockList 19.085 96,3% 56 4.000
cada categoria, grandes feeds podem conter ordens de magnitude mais dados 4 Agregador FB 1 6.066 71,3% 24 693
# Analista PA 1.572 34,5% 6,3 462
do que pequenos feeds. Por exemplo, na categoria de varredura, vimos mais Feeds de botnet

de 361.004 endereços IP exclusivos em IPs DShield, mas apenas # Analista PA 180.034 99,0% 697 54.800
# PA CI Exército 103.281 97,1% 332 30.388
1.572 endereços exclusivos no PA Analyst no mesmo período. # Reputação de IP paga 77.600 99,9% 567 4.278
Claramente, o volume é um grande diferencial para os feeds. # IPs PA Botscout 23.805 93,8% 81 7.180
# PA VoIP Blacklist 10.712 88,0% 40 3.633
A taxa média diária representa a quantidade de novos indicadores # IPs comprometidos de PA 7.679 87,0% 21 2.392
coletados de um feed a cada dia. Alguns feeds podem ter grande volume, # Bots da lista de bloqueio PA 4.179 80,7% 16 1.160
# Projeto Honeypot PA 2.600 86,5% 8,5 812
mas taxas diárias baixas, como Feodo IP Blacklist na categoria de Feeds de força bruta

malware. Isso significa que a maioria dos indicadores que obtemos desse 4 Badips SSH 542.167 84,1% 2.379 86.677
4 Badips Badbots 91.553 70,8% 559 17.577
feed são dados antigos presentes no feed antes do início de nossa # Reputação de IP paga 89.671 52,8% 483 3.705
medição. Por outro lado, a taxa média de uma alimentação pode ser # PA Brute-Force 41.394 92,1% 138 14.540
4 Nome de usuário do Badips não encontrado 37.198 54,2% 179 3662,8
maior do que o volume sugere, como Nothink SSH na categoria de força 4 Haley SSH 31.115 43,6% 40 1.224
bruta. Isso se deve ao fato de que os indicadores podem ser adicionados 4 Agregador FB 2 22.398 77,3% 74 2.086
4 Nothink SSH 20.325 62,7% 224 12.577
e removidos várias vezes em um feed. Em geral, os indicadores de IP 4 Dangerrulez Brute 10.142 4,88% 37 1.102
Feeds de malware
tendem a ser adicionados em um feed apenas uma vez: 37 entre 47 feeds
# Reputação de IP paga 234.470 99,1% 1.113 22.569
de IP têm mais de 80% de seus indicadores aparecendo apenas uma vez e 4 IPs maliciosos do FB 30.728 99,9% 129 3.873
30 deles têm essa taxa acima de 90%. Uma razão é que alguns feeds de # Feodo IP Blacklist 1.440 47,7% 1,3 1.159
# PA Lab Malware 1.184 84,6% 3,5 366
instantâneo mantêm um período válido para cada indicador, como 4 Lista negra de IP Malc0de 865 61,0% 2,9 86,6
encontramos em todos PA feeds onde a data de validade de cada # IPs PA Bambenek C2 785 92,1% 3,4 97,9
# IPs de malware PA SSL 676 53,9% 2,9 84,0
indicador é registrada explicitamente. Quando o mesmo indicador é # Analista PA 492 79,8% 2,1 149
descoberto novamente por um feed antes de seu tempo de expiração, o # PA Abuse.ch Ransomware 256 7,03% 1,6 117
# PA Mal-Traf fi c-Anal 251 60,5% 0.9 72
feed apenas estenderá sua data de expiração, então essa ocorrência não # Zeus IP Blacklist 185 49,1% 0,5 101
será capturada se simplesmente subtrairmos os dados antigos dos dados Explorar feeds
4 HTTP Badips 305.020 97,6% 1.592 22.644
recém-coletados para derivar o que é adicionado em um dia. Para feeds 4 FTP da Badips 285.329 97,5% 1.313 27.601
de eventos e feeds de instantâneo em PA onde podemos acompanhar 4 DNS da Badips 46.813 99,3% 231 4.758
4 Badips RFI 3.642 91,4% 16 104
com precisão cada ocorrência de cada indicador, examinamos ainda mais 4 Badips SQL 737 79,5% 4,4 99,2
Feeds de spam
a frequência de ocorrência de dados e ainda descobrimos que a grande
# Reputação de IP paga 543.583 99,9% 3.280 6.551
maioria dos IPs em feeds ocorreram apenas uma vez - uma observação 4 Badips Post fi xo 328.258 90,5% 842 27.951
que se relaciona à dinâmica das próprias ameaças cibernéticas. 4 Badips Spam 302.105 89,3% 1.454 30.197
# IPs PA Botscout 14.514 89,3% 49 4.390
Nothink SSH, como mencionamos acima, é uma exceção notável. Tem mais # Reputação de IP da Alienvault 11.292 96,6% 48 1.328
de 64% de seus indicadores aparecendo 7 vezes em nosso conjunto de dados.
Depois de investigar, descobrimos que este feed publica todos os seus dados
anteriores no final de cada mês, comportamento muito provavelmente devido tors, controlados pelo feed (feeds de instantâneo) ou pelo usuário (feeds
ao fornecedor do feed em vez das ameaças subjacentes. de evento). Quanto mais longo for o período de validade, maior será o
conjunto de trabalho. Feeds de snapshoot diferentes têm escolhas
O tamanho do conjunto de trabalho define a quantidade média diária de diferentes para este período válido: IPs do PA AlienVault na categoria de
indicadores que os usuários precisam armazenar em seu sistema para usar um feed varredura define um período válido de 90 dias para cada indicador
(o custo de armazenamento do uso de um feed). O tamanho médio do conjunto de adicionado ao feed, enquanto o PA Abuse.ch Ransomware usa um
trabalho é amplamente decidido pela duração do período válido dos indicadores período de 30 dias. Embora não saibamos o mecanismo de expiração de

1 Este feed é agregado por PA da Alienvault OTX, a reputação de IP da dados usado por feeds de instantâneos, exceto PA feeds, como não há
Alienvault é o feed de reputação pública que coletamos diretamente da informações relacionadas registradas, ainda podemos estimar isso
AlienVault. Eles são feeds diferentes. verificando o durações de seus indicadores - o tempo

Associação USENIX 28º Simpósio de Segurança USENIX 855


as taxas em duas categorias são superiores a 5%. A categoria de
varredura tem 29 de 72 pares (excluindo auto-comparações) com
Varredura

uma taxa de interseção maior que 10%, e o mesmo caso ocorreu em


19 de 72 pares na categoria de força bruta.
Por outro lado, os feeds na categoria de botnet, exploit, malware e
Botnet

spam não compartilham muitos dados entre si: todas as 4 categorias têm
mais de três quartos das taxas de interseção de pares inferiores a 1%.
Alguns grandes feeds nessas categorias podem compartilhar uma
Força bruta

quantidade significativa de dados com alguns pequenos feeds na mesma


categoria - uma característica que aparece como uma linha vertical
escura dentro de sua categoria na Figura 1 . A reputação de IP pago na
categoria de malware, por exemplo, compartilha mais de 30% de 6 outros
Malware

feeds de malware. Mas as interseções entre a grande maioria dos feeds


nessas 4 categorias são baixas. Este achado é consistente com o trabalho
anterior [ 26 , 42 ], mas fornecemos uma visão mais abrangente sobre as
Spam Explorar

diferentes categorias.
Figura 1 também mostra a relação entre feeds em diferentes
categorias. Podemos ver claramente uma relação entre varredura e
feeds de força bruta: feeds de varredura múltiplos têm interseção
Varredura Força bruta de botnet Malware Explorar Spam
não trivial com feeds na categoria de força bruta. Na verdade,
23,1% de todos os 760.263 IPs de força bruta que coletamos também
Figura 1. Interseção de alimentação para todos os feeds IP. Cada linha / coluna representa
estão incluídos por feeds de varredura em nosso conjunto de dados.
um feed, mostrado na mesma ordem da Tabela 1 . Cores mais escuras (mais saturadas)
indicam maior interseção. Também há três feeds de botnet - PA CI Army, PA VoIP Blacklist e PA
Comprometidos IPs - que têm mais de 10% de seus dados
compartilhados com vários feeds na categoria de varredura.
entre um indicador sendo adicionado e removido. Quatro feeds
de reputação de IP pago têm mais de 85% de durações menores 3.4 Contribuição Exclusiva
que 10 dias, enquanto o da categoria de malware tem mais de A contribuição exclusiva representa o número de indicadores em um
40% que se estendem por mais de 20 dias. Feodo IP Blacklist feed que não está em nenhum outro feed. Calculamos a contribuição
tem mais de 99% de seus indicadores válidos para todo o nosso exclusiva de cada feed entre todos os feeds na mesma categoria,
período de medição, enquanto mais de 70% das durações na enfatizando sua singularidade em relação ao escopo dos dados que
Zeus IP Blacklist são menos de 6 dias. Não observamos um afirmam relatar. Cada contribuição exclusiva de feed é apresentada
padrão claro sobre como cada feed de instantâneo lida com a na Tabela 1 na coluna Exclusivo, calculado com base em seu volume.
expiração de indicadores.
F Encontrando: Como já observamos na Seção 3,3 , botnet, exploit e
3.3 Contribuição diferencial e intersecção feeds de spam têm interseções de pares relativamente baixas.
A métrica de contribuição diferencial mede o número de indicadores Conseqüentemente, os feeds nessas quatro categorias têm altas
em um feed que não estão em outro. De forma equivalente, taxas de contribuição exclusiva em geral: as taxas de contribuição
podemos considerar a interseção de dois feeds, que é o número de exclusiva da mediana dessas quatro categorias são
elementos em um feed que estão presentes no outro, normalizado 90,9%, 97,5% e 90,5%, respectivamente. A categoria de malware tem uma
pelo tamanho do primeiro: | UMA ∩ B | / | A |. Figura 1 mostra a taxa de exclusividade mediana baixa, uma vez que vários pequenos feeds
relação de interseção de todos os feeds no estudo. Cada célula na têm uma interseção não trivial com o maior feed de reputação de IP
matriz representa o número de elementos em ambos os feeds, paga, mas os dois maiores feeds de malware têm uma taxa exclusiva de
normalizado pelo tamanho do feed que abrange as linhas da tabela. mais de 99%. Os feeds de varredura e de força bruta têm mais interseção
Isso é, UMA, na expressão acima, abrange linhas e B sobre as dentro de sua categoria, e suas taxas exclusivas são mais baixas: 62,0%
colunas da matriz. Cores mais escuras (mais saturadas) indicam de taxa média em varredura e 62,7% de força bruta, e os dois maiores
maior interseção. As comparações de feeds dentro de uma categoria feeds em ambas as categorias têm uma taxa exclusiva abaixo de 85% .
são sombreadas em vermelho e as comparações de feeds entre
diferentes categorias são sombreadas em azul. Observe que a matriz Se assumirmos um processo em que um feed tem mais probabilidade de ter
é assimétrica, porque, em geral, | UMA ∩ B | / | A | = 6 UMA ∩ elementos populares, feeds menores seriam incluídos em feeds maiores. No entanto,
B | / | B |. Os elementos da matriz estão na mesma ordem que na para alguns pequenos feeds como Malc0de IP Blacklist no malware e PA Project
Tabela 1 . Honeypot nas categorias de botnet, mesmo que sejam várias ordens de magnitude
F Encontrando: Feeds nas categorias de varredura e força bruta têm menores do que os maiores feeds em suas categorias, um significativo
interseções de pares mais altas: Metade da interseção de pares

856 28º Simpósio de Segurança USENIX Associação USENIX


em varredura e feeds de força bruta.
Analista PA
Outro problema é a sensibilidade ao tempo das ameaças de IP. Um evento
PA Packetmail ram *
IPs do Packetmail originado de um endereço IP, como atividade de varredura ou um ataque de

PA Lab Scan força bruta, não durará para sempre. Se um feed de varredura relatar um
FB Aggregator_1 endereço IP hoje e outro feed relatar o mesmo IP três meses depois, faria
IPs DShield pouco sentido considerá-los como um evento de varredura e rotular a segunda
IPs PA AlienVault ocorrência como estando três meses atrasada. Infelizmente, não existe uma
Reputação de IP paga
maneira fácil de distinguir claramente os eventos uns dos outros. Aqui,
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
usamos uma janela de um mês para restringir um evento, supondo que o
Latência (dias)
mesmo ataque de uma fonte não durará mais de 30 dias; embora arbitrário,
(uma) Distribuição de latência em feeds de varredura ele fornece um limite razoavelmente conservador, e a experiência com outros
limites produziu resultados gerais semelhantes. Mais especificamente,

Badips Badbots calculamos a latência relativa rastreando a primeira ocorrência de IPs em

Nome de usuário do Badips * todos os feeds em uma categoria e, em seguida, registramos a latência das
Dangerrulez Brute ocorrências seguintes e excluímos as que ocorrem após 30 dias. Usando
Haley SSH apenas a primeira aparência de cada IP como base, evitamos a incerteza
Nothink SSH
causada pela ocorrência múltipla de indicadores e diferentes períodos de
FB Aggregator_2
validade usados entre os feeds.
Reputação de IP paga
Badips SSH

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Latência (dias) Figuras 2a e 2b mostram a distribuição de latência relativa entre
feeds nas categorias de varredura e força bruta, em horas. Nós nos
(b) Distribuição de latência em feeds de força bruta
concentramos apenas nos feeds que têm mais de 10% dos dados
Figura 2. Distribuição da latência dos indicadores em varredura e feeds de força compartilhados com outras pessoas para garantir que a análise
bruta. Cada caixa mostra a distribuição de latência de IPs compartilhados no feed, possa representar a distribuição de latência do feed geral. Há um
calculada em horas, do percentil 25 ao percentil 75, com a linha do meio indicando a
feed em cada categoria (PA Snort BlockList na varredura e PA
mediana. (“Badips Username *” aqui é a abreviatura para o nome do feed Badips
Username Notfound; “PA Packetmail Ram *” para PA Packetmail Ramnode)
Brute-Force na força bruta) que é excluído da figura.
F Encontrando: Nas caixas de distribuição, podemos ver que Reputação
de IP pago em varredura e Badips SSH em força bruta são os feeds mais

proporção de seus indicadores ainda é exclusiva para o feed. Quando agregamos os rápidos em sua categoria, pois têm a mediana mais baixa e latências de

dados em cada categoria, 73% de todos os indicadores de alimentação de varredura 75º percentil. Por outro lado, PA Analyst em varredura e Badips Badbots

são exclusivos para uma única alimentação e 88% dos indicadores de alimentação de em força bruta são os feeds mais lentos. Figura 2a mostra que todos os

força bruta são exclusivos para uma alimentação. Para outras categorias, mais de feeds de varredura, exceto um, têm sua latência de 25º percentil igual a

97% dos elementos na categoria são exclusivos de um único feed. Este resultado 0, indicando que esses feeds, em tamanhos diferentes, todos relataram

concorda com o trabalho anterior de que a maioria dos dados em feeds de uma parte significativa de seus dados compartilhados primeiro. Um caso

inteligência de ameaças é única [ 26 , 42 ] semelhante também ocorre na categoria de força bruta.

3,5 Latência Pode-se perguntar se os grandes feeds relatam dados mais


cedo do que os pequenos. O resultado mostra que isso não é
A latência do feed mede a rapidez com que um feed relata novos
sempre o caso. Agregador FB 1 é o segundo menor feed em nossa
indicadores de ameaça. Quanto mais cedo um feed puder relatar
categoria de varredura, mas não é mais lento do que vários outros feeds
ameaças em potencial, mais valioso ele será para os consumidores.
que tem mais de 10 vezes de sua taxa diária. Badips Badbots, por
A latência absoluta de um indicador em um feed é o tempo desde o
outro lado, tem a segunda maior taxa na categoria de força bruta,
início do evento correspondente até quando o indicador aparece no
mas é mais lento do que todos os outros feeds na categoria de força
feed. No entanto, é difícil saber a hora real em que um evento
bruta. Feeds de pequeno volume ainda podem relatar muitos de
começa a partir dos dados de inteligência de ameaças. Em vez disso,
seus dados primeiro.
medimos o latência relativa, que é o atraso de um indicador em um
Outro fator que pode afetar a latência é se os feeds copiam dados uns
feed para ser o tempo entre seu aparecimento naquele feed e o
dos outros. Por exemplo, 93% de Dangerrulez Brute também aparece em
primeiro visto entre todos os feeds.
Badips SSH. Se for esse o caso, esperamos que o Dangerrulez Brute seja
A latência relativa só pode ser calculada para indicadores que ocorrem
mais rápido do que o Badips SSH ao relatar seus dados compartilhados.
em pelo menos dois feeds. Conforme discutido na Seção 3,4 , o número de
No entanto, comparamos a latência relativa entre apenas dois feeds e
indicadores comuns nos feeds de botnet, malware, exploit e spam é
descobrimos que o Badips SSH relatou 88% de seus indicadores
muito baixo (menos de 3% dos elementos ocorrem em mais de um feed).
compartilhados primeiro. Além disso, conduzimos essa comparação de
A latência relativa calculada para esses feeds é menos significativa. Para
latência de pares entre todos os feeds
esta análise, portanto, nos concentramos

Associação USENIX 28º Simpósio de Segurança USENIX 857


Mesa 2. IP TI visão geral da precisão dos feeds. Unrt é a fração de endereços irreversíveis em
3.6 Precisão
cada feed (Seção 3,6 ) Alexa Top é o número de IPs que se cruzaram com os principais
endereços IP do domínio Alexa, e CDNs é o número de IPs interceptados com os principais A precisão mede a taxa de falsos positivos em um feed. Um falso positivo
endereços IP dos provedores de CDN.
é um indicador de que os dados são rotulados com uma categoria à qual
não pertencem. Por exemplo, um endereço IP encontrado em um feed de
Alimentação Adicionado Unrt Alexa CDNs
varredura que não realizou nenhuma varredura na Internet é um desses
Scan Feeds
falsos positivos. Da mesma forma, mesmo que um determinado IP esteja
IPs PA AlienVault 313.175 0,0% 1 0
IPs DShield 339.805 0,03% 68 62 de fato associado a atividades maliciosas, se não for inequivocamente
PA Packetmail ramnode 200.568 <0,01% 0 0
acionável (por exemplo, o DNS do Google em 8.8.8.8 é usado por
IPs do Packetmail 211.081 0,0% 0 0
Reputação de IP paga 200.915 1,65% 6 21 software malicioso e benigno), então, para muitos casos de uso, ele
PA Lab Scan 169.037 <0,01% 0 0
também deve ser tratado como um falso positivo. Os falsos positivos são
PA Snort BlockList 12.957 0,42% 1 0
Agregador FB 1 5.601 0,0% 0 0 problemáticos por vários motivos, mas principalmente porque podem ter
Analista PA 1.451 0,41% 0 0
consequências operacionais adversas. Por exemplo, alguém pode
Feeds de botnet
Analista PA 180.034 <0,01% 0 0 razoavelmente desejar bloquear todas as novas conexões de rede de e
PA CI Exército 76.125 <0,01% 0 0
para endereços IP relatados como hospedando atividades maliciosas (na
Reputação de IP paga 73.710 1,66% 6 74
IPs PA Botscout 18.638 0,09% 1 0 verdade, esse uso é uma das promessas da inteligência de ameaças). No
PA VoIP Blacklist 9.290 0,32% 0 0
entanto, falsos positivos em tais feeds também podem levar ao bloqueio
IPs comprometidos de PA 4.883 0,0% 0 0
Bots da lista de bloqueio PA 3.594 0,0% 0 0 de conexões legítimas. Portanto, o grau de precisão de um feed pode
Projeto Honeypot PA 1.947 0,0% 0 0
impedir certos casos de uso.
Feeds de força bruta
Badips SSH 456.605 0,19% 217 1 Infelizmente, determinar quais IPs pertencem a um feed e quais não
Badips Badbots 91.553 1,04% 46 1.251
podem ser extremamente desafiador. Na verdade, em qualquer escala
Reputação de IP paga 87.524 0,03% 0 10
PA Brute-Force 31.555 0,0% 0 0 razoável, não temos conhecimento de nenhum método para estabelecer
Nome de usuário do Badips não encontrado 37.198 0,53% 4 0
de maneira inequívoca e abrangente uma “verdade fundamental” sobre
Haley SSH 8.784 0,03% 0 0
Agregador FB 2 17.779 0,0% 0 0 esse assunto. Em vez disso, nesta seção, relatamos um proxy de precisão
Nothink SSH 20.325 1,51% 2 0
que fornece uma avaliação conservadora desta questão. Para saber, nós
Dangerrulez Brute 8.247 0,0% 0 0
Feeds de malware montamos um whitelist de endereços IP que não deveriam ser
Reputação de IP paga 217.073 0,13% 291 3.489
razoavelmente incluídos em um feed ou que, se incluídos, causariam uma
IPs maliciosos do FB 29.840 2,14% 2 0
Feodo IP Blacklist 296 0,0% 0 0 interrupção significativa. Argumentamos que a presença de tais IPs em
PA Lab Malware 806 2,85% 0 0
um feed são claramente falsos positivos e, portanto, definem um limite
Lista negra de IP Malc0de 668 0,0% 8 11
PA Bambenek C2 IPs PA 777 9,13% 0 0 superior na precisão de um feed. Preenchemos nossa lista a partir de três
SSL Malware IPs 674 0,0% 0 0
fontes: IPs não roteáveis, IPs associados aos principais domínios Alexa e
Analista de PA 486 0,0% 0 0
PA Abuse.ch Ransomware 256 3,12% 0 0 IPs das principais redes de distribuição de conteúdo (CDNs).
PA Mal-Traf fi c-Anal 193 0,51% 0 0
Zeus IP Blacklist 67 0,0% 1 0
Explorar feeds IPs irrotáveis. IPs não roteáveis são endereços IP que não eram
HTTP Badips 305.020 0,67% 16 2.590
roteáveis por BGP quando eles apareceram pela primeira vez em um
FTP da Badips 285.329 1,33% 14 2
DNS da Badips 46.813 0,50% 119 244 feed, conforme estabelecido por dados contemporâneos no serviço
Badips RFI 3.642 2,22% 0 0
RouteViews [ 44 ] Embora tais IPs possam ter aparecido no campo de
Badips SQL 737 1,89% 0 1
Feeds de spam endereço de origem de um pacote (ou seja, devido a spoofing de
Reputação de IP paga 543.546 78,7% 1 0
endereço), não seria possível completar um handshake TCP. Os feeds que
Badips Spam 302.105 0,02% 19 0
Badips Post fi xo 193.674 1,29% 18 1 implicam que tal interação ocorreu não devem incluir esses IPs. Por
IPs PA Botscout 11.358 0,06% 0 0
exemplo, feeds na categoria de força bruta implicam que os IPs que eles
Reputação de IP da Alienvault 10.414 0,07% 63 1.040
contêm estiveram envolvidos em tentativas de login de força bruta, mas
isso não poderia ter ocorrido se os IPs não fossem roteáveis. Embora a
inclusão de endereços não roteáveis em um feed não seja, por si só, um
problema, sua inclusão sugere um problema de controle de qualidade
com o feed, lançando uma sombra sobre a validade de outros indicadores
no feed.
em varredura, força bruta e malware (já que Paid IP Reputation Para permitir alguns atrasos no feed, verificamos se um IP foi
compartilha uma quantidade não trivial de dados com alguns roteável a qualquer momento nos sete dias anteriores à sua
pequenos feeds na categoria de malware) e não viu uma vantagem primeira aparição em um feed e, se tiver sido, não o consideramos
de latência clara entre dois feeds. Observe que esta observação não irreversível. Mesa 2 coluna Unrt, mostra a fração de indicadores de IP
provar que não há cópia de dados, uma vez que os dados compartilhados que não foram roteáveis a qualquer momento nos sete dias
entre dois feeds podem vir parcialmente da cópia e parcialmente da anteriores ao aparecimento no feed. Esta análise é conduzida
própria coleta de dados dos feeds. Além disso, nossa análise de latência apenas para os IPs adicionados após o início da nossa medição. O
está na granularidade de uma hora. número de tais IPs é mostrado na coluna Adicionado,

858 28º Simpósio de Segurança USENIX Associação USENIX


e a fração irrotável mostrada em Unrt é em relação a este posições de domínios notáveis. Por exemplo, os endereços IP de
número. www.github.com são incluídos pela Malc0de IP Blacklist. A
Alexa. Bloquear o acesso a sites populares da Internet ou disparar reputação de IP paga na categoria de malware contém o
alarmes sempre que esses sites são acessados pode prejudicar a endereço IP de www.dropbox.com. Alienvault IP Reputation
empresa. Para nossa análise, coletamos periodicamente os 25 mil contém o registro MX de groupon.com, e Badips SSH também
principais domínios do Alexa (3 a 4 vezes por mês) ao longo do contém os endereços IP de sites populares, como
período de medição [ 2 ] Para enfrentar o desafio de que tais listas www.bing.com.
podem ter rotatividade significativa [ 33 ], restringimos nossa lista de A maioria dos feeds que avaliamos não contém IPs em intervalos
permissões para conter o interseção de todas essas listas dos 25 mil de CDN, mas existem alguns (incluindo vários feeds de reputação de
principais (ou seja, domínios que estavam entre os 25 mil principais IP pago, feeds de Badips e Alienvault IP Reputation) que têm
todas as vezes que pesquisamos o Alexa durante nosso período de interseção significativa com IPs de CDN. Os feeds Alienvault IP
medição de 8 meses), o que nos deixou com 12.009 domínios. Em Reputation e Badips se cruzam principalmente com o Cloud fl are
seguida, consultamos o DNS para os registros A, registros NS e CDN, enquanto a maior parte da sobreposição na categoria de
registros MX de cada domínio e coletamos os endereços IP malware de Reputação de IP pago se sobrepõe ao AWS CloudFront.
correspondentes. No total, coletamos 42.436 endereços IP No geral, a taxa de falsos positivos em uma alimentação não está
associados a esses domínios. Calculamos a interseção desses IPs fortemente correlacionada com seu volume. Além disso, certas classes de
com TI feeds e mostrar os resultados na coluna Alexa na tabela 2 . falsos positivos (por exemplo, a presença de IPs Top Alex ou IPs CDN)
CDNs. Os provedores de CDN atendem a centenas de milhares de sites. parecem ser subprodutos de como feeds distintos são coletados (por
Embora esses serviços CDN possam (e sejam) abusados para realizar exemplo, feeds Badips tendem a conter tais IPs, independentemente do
atividades maliciosas [ 9 ], seus endereços IP não são acionáveis. Como volume). Sem surpresa, também não encontramos correlação entre a
esses são serviços fundamentalmente compartilhados, o bloqueio de tais latência de um feed e sua precisão.
endereços IP também interromperá o acesso a sites benignos servidos
por esses IPs. Coletamos os intervalos de IP usados por 5 provedores de 3.7 Cobertura
CDN populares: AWS CloudFron [ 12 ], Cloud fl are [ 11 ], Rapidamente [ 18 ],
A métrica de cobertura fornece uma medida quantitativa de quão bem
EdgeCast [ 16 ] e MaxCDN [ 25 ] Em seguida, verificamos quantos IPs em TI os
um feed captura a ameaça pretendida. Um feed com cobertura perfeita
feeds se enquadram nessas faixas. Coluna
incluiria todos os indicadores que pertencem a uma categoria.
CDNs na tabela 2 mostra o resultado.
Infelizmente, conforme discutido acima, não há uma maneira sistemática
F Encontrando: Entre os 47 feeds da tabela, 33 feeds têm pelo menos um
de avaliar a exatidão ou cobertura exata de um feed, pois não é realista
IP não roteável e, para 13 deles, mais de 1% dos endereços que eles
obter informações sobre todas as atividades de ameaça na Internet.
contêm são não roteáveis. Notavelmente, o feed de reputação de IP pago
na categoria de spam tem uma taxa irreversível de mais de 78%. Embora
No entanto, existem algumas atividades de ameaça em grande escala
não esteja documentado, uma explicação provável é que esse feed pode
que são bem coletadas e bem estudadas. Um exemplo é a digitalização
incluir IPs irrotáveis intencionalmente, pois essa é uma prática
pela Internet. Pesquisadores têm usado “telescópios da Internet” para
conhecida entre alguns feeds de spam. Por exemplo, a Lista DROP do
observar e medir as atividades de varredura de rede [ 6 , 15 , 29 ] Com um
Spamhaus [ 41 ] inclui intervalos de endereços IP que são propriedade ou
grande telescópio e uma lógica de filtragem de varredura bem definida,
operados por agentes mal-intencionados, sejam eles anunciados ou não.
pode-se obter uma visão abrangente das atividades de varredura globais
Portanto, para feeds que incluem explicitamente IPs não roteáveis, sua
na Internet.
presença nos feeds não deve ser necessariamente interpretada como um
Para este fim, coletamos três meses de tráfego (de 1º de janeiro a 31
problema de controle de qualidade.
de março de 2018) usando o telescópio de rede UCSD [ 38 ], que monitora
Além disso, verificamos nos feeds a presença de quaisquer “IPs
uma rede / 8 em grande parte inativa, compreendendo mais de 16
reservados” que, conforme documentado no RFC 8190, não são roteáveis
milhões de endereços IP. Em seguida, usamos os parâmetros padrão do
globalmente (por exemplo, intervalos de endereços privados, redes de
Bro IDS [ 7 ] para identificar o provável tráfego de varredura, ou seja, fl
teste, loopback e multicast). De fato, 12 feeds relataram pelo menos um
uxos nos quais o mesmo endereço IP de origem é usado para contatar 25
IP reservado, incluindo quatro feeds de reputação de IP pago (exceto a
endereços IP de destino exclusivos na mesma porta / protocolo de
categoria de spam), seis feeds de Badips e os feeds de IPs
destino em 5 minutos. Dado o grande número de endereços sendo
mal-intencionados FB e IPs de DShield. Pior, os feeds de reputação de IP
monitorados, qualquer scanner indiscriminado observado por TI feeds
pago juntos relataram mais de 100 IPs reservados. Uma vez que tais
provavelmente também serão vistos em nossos dados. Na verdade, ao
endereços nunca devem aparecer em uma rede pública, relatar tais IPs
cruzar com os dados deste telescópio, somos capazes de quantificar
indica que um provedor de alimentação falha ao incorporar algumas
parcialmente a cobertura de cada TI digitalização de feed.
verificações básicas de sanidade em seus dados.
Existem 21 feeds que incluem IPs dos principais domínios do
Os scanners que coletamos do telescópio consistem em
Alexa, conforme mostrado na coluna Alexa na tabela 2 . Entre
20.674.149 endereços IP. O número total de IPs em todos os feeds
esses IPs existem 533 registros A, 333 IPs de registros MX e 63
de varredura durante este período é 425.286, que cobre apenas
IPs de registros NS. Os IPs sobrepostos incluem vários
1,7% (363.799 IPs compartilhados) de todos os IPs de varredura do telescópio. No

Associação USENIX 28º Simpósio de Segurança USENIX 859


50% esses feeds podem ser usados para garantir que arquivos maliciosos não
IPs PA AlienVault PA Lab Scan
IPs DShield PA Snort BlockList apareçam na lista de permissões de um cliente. Nesta seção, apresentamos
40% PA Packetmail ram * FB Aggregator_1
nossa análise em oito feeds de hash de arquivo, também coletados de 1º de
IPs do Packetmail Analista PA
Reputação de IP paga dezembro de 2017 a 20 de julho de 2018. Usamos as mesmas métricas
30%
Cobertura

definidas na Seção 2,3 .


20% Os feeds hash de arquivo que coletamos usam uma gama de funções
hash diferentes para especificar arquivos maliciosos, incluindo MD5,
10% SHA1, SHA256 e SHA512 (e alguns feeds forneciam valores para várias
funções hash diferentes para oferecer suporte à interoperabilidade).
1K 10K 100K 1M Como a maioria dos indicadores em nosso conjunto de dados são MD5s,
Tamanho do scanner
normalizamos essa representação usando outros feeds e o serviço
VirusTotal para identificar aliases de hash para arquivos maliciosos
Figura 3. A cobertura de cada feed em diferentes tamanhos de scanners. Y eixo é a
conhecidos (ou seja, qual MD5 corresponde a um determinado valor
proporção de scanners de um determinado tamanho ou maior que são cobertos por cada
feed. SHA256).

4.1 Volume
Por outro lado, os scanners telescópicos se cruzam com 85% de todos os Os hashes de arquivo, ao contrário dos dados de ameaça de IP, não são
IPs em feeds de varredura. Ao olhar para cada feed, os IPs PA AlienVault, transitórios - um arquivo não muda de malicioso para benigno - e, portanto,
IPs DShield IPs Packetmail, PA Lab Scan e PA Packetmail ramnode têm uma análise de volume muito mais simples é apropriada. Relatamos o volume
mais de 85% de seus dados interceptados com scanners telescópicos; os como o número de novos hashes que são adicionados a cada feed durante
outros quatro, entretanto, têm menos de 65% de seus dados nosso período de medição.
compartilhados (e a taxa para PA Snort BlockList é de apenas 8%). Como pode ser visto na Tabela 3 , examinamos o volume de cada feed e
taxa média diária. Assim como os feeds de IP, os feeds de hash de
Para entender melhor como cada feed de varredura detecta atividades arquivo também variam dramaticamente em volume. A maioria dos
de varredura, medimos como diferentes tamanhos de scanners no hashes está concentrada em três feeds: FB Malware, PAMalware
telescópio são cobertos por cada feed. Aqui, tamanho do scanner Indicators e PA Analyst, que também exibem as taxas diárias mais altas.
significa quantos IPs um scanner varreu no telescópio em um dia. Os outros feeds são de múltiplas ordens de magnitude menores
Figura 3 mostra a taxa de cobertura de cada alimentação em comparativamente.
diferentes tamanhos de scanners, variando de 1.000 a 1 milhão.
(Existem 7.212.218 scanners do telescópio cujos tamanhos são 4.2 Intersecção e contribuição exclusiva
superiores a 1K, 271.888 que são superiores a 100K e 17.579 são
Como mencionamos anteriormente, para conduzir a interseção e
superiores a 1 milhão.)
análise exclusiva de feeds de hash de arquivo, precisamos converter
F Encontrando: A união de todos os scanners IPs nos feeds cobre menos de 2%
os indicadores no mesmo tipo de hash. Aqui, convertemos hashes
dos scanners coletados pelo telescópio. Mesmo se olharmos apenas para os
não MD5 em MD5s, usando metadados no próprio indicador (ou
scanners com tamanhos maiores que 10.000, a cobertura geral ainda está em
seja, se ele relata valores para várias funções de hash) ou
torno de 10%, sugerindo que a capacidade de cobertura dos feeds de
consultando o hash de origem do VirusTotal [ 45 ] que relata o
digitalização é muito limitada. O gráfico mostra que, à medida que o tamanho
conjunto completo de hashes para todos os arquivos em seu
do scanner aumenta, a cobertura de cada alimentação nos conjuntos de dados
conjunto de dados. No entanto, para uma pequena fração de
também aumenta, e grandes feeds cobrem mais por cento dos scanners
hashes, não podemos encontrar apelidos para convertê-los para a
telescópicos do que pequenos feeds. Essa tendência se alinha com a intuição
representação MD5 e devemos excluí-los da análise nesta seção.
de que os feeds de varredura tendem a capturar scanners mais extensos.
Esta filtragem é refletida na Tabela 3 , em que a coluna Volume
representa o número de hashes exclusivos encontrados em cada
É surpreendente que os pequenos feeds de varredura em nossa
feed e a coluna Convertido é o subconjunto que pudemos normalizar
coleção tenham uma porcentagem menor de seus IPs compartilhados
para uma representação MD5.
com scanners telescópicos. Isso contradiz a ideia de que pequenos feeds
F Encontrando: As interseções entre os feeds de hash são mínimas,
conteriam uma porcentagem maior de scanners extensos (que
mesmo entre os feeds que têm várias ordens de diferenças de magnitude
provavelmente também seriam observados pelo telescópio).
no tamanho. Em todos os feeds, apenas o PA Analyst tem interseções
relativamente altas: o PA Analyst compartilha 27% dos MD5s do PA OSINT
4 Arquivo Hash Threat Intelligence e 13% dos MD5s do PA Twitter Emotet. O PA Malware Indicators também
Hashes de arquivo em um feed de inteligência de ameaças são indicadores de arquivos tem uma pequena interseção com esses dois feeds. Todas as outras
maliciosos. É uma das maneiras mais leves de marcar arquivos como suspeitos. Pode-se interseções têm cerca de 1% ou menos. Consequentemente, a grande
incorporar esses dados para bloquear downloads maliciosos, anexos de e-mail maliciosos e maioria dos MD5s são exclusivos para um feed, conforme registrado na
malware. Da mesma forma, os hashes de arquivo podem ser usados para colocar aplicativos coluna Exclusivo na tabela 3 . A exclusividade “mais baixa” pertence ao PA
na lista de permissões e Twitter Emotet e PA OSINT (ainda

860 28º Simpósio de Segurança USENIX Associação USENIX


Tabela 3. Visão geral dos feeds de hash de arquivo. O segundo grupo de colunas apresenta o volume de alimentação, a taxa média diária, o número de MD5s convertidos (Seção 4,2
) e proporção exclusiva. Não em VT é a fração de hashes que não são encontrados no VirusTotal, Não det. a fração de hashes que são encontrados no VirusTotal, mas não são
rotulados como maliciosos por nenhum produto, e Detectou a fração encontrada no VirusTotal e rotulada como maliciosa por pelo menos um produto. Coluna Não está em SD mostra
a fração de hashes em um feed que não está no Shadowserver Bin Check. Em NSRL e Em AppInfo mostra o número absoluto de hashes encontrados no Shadowserver (Seção 4,3 ) Exclusivo
é baseado nos hashes normalizados MD5 contados sob Convertido. Todas as outras porcentagens na tabela são baseadas em Volume.

Alimentação Volume médio Taxa convertida exclusiva Não em VT Não det. Não detectado em SD em NSRL em AppInfo

Malware FB 944.257 4.070 944.257> 99,99% 37,41% 50,50% 12,09% 99,89% 442 706
Indicadores de malware PA 39.702 171 39.702 98,73% 0,02% 0,04% 99,94%> 99,99% 2 0
Analista PA 38.586 166 37.665 97,97% 4,26% 2,82% 92,92% 99,95% 8 19
PA Twitter Emotet 1.031 4,44 960 77,29% 11,74% 0,78% 87,49% 99,81% 0 2
PA OSINT 829 3,57 783 71,65% 19,06% 0,84% 80,10% 99,88% 1 0
PA Sandbox 298 1,28 115 95,65% 72,81% 0,34% 26,85% 100% 0 0
PA Abuse.ch 267 1,15 3 100% 98,88% 0,75% 0,37% 100% 0 0
PA Zeus Tracker 17 0,07 17 100% 88,24% 5,88% 5,88% 100% 0 0

77,29% e 71,65%, respectivamente). Todos os outros feeds apresentam uma 100%


Analista PA
porcentagem exclusiva de mais de 95%, demonstrando que a maioria dos 90%
PA Zeus Tracker
PA Twitter Emotet
feeds de hash de arquivo são distintos uns dos outros. 80%
Malware FB
Devido às diferentes fontes de malware entre os feeds, uma baixa 70%

Porcentagem de Hashes
Indicadores de malware PA
PA OSINT
interseção é esperada em alguns casos. Por exemplo, o PA Twitter 60%
PA Sandbox
Emotet e o PA Zeus Tracker não devem ter interseção, pois estão 50% PA Abuse.ch

rastreando diferentes cepas de malware. Os outros feeds, mais 40%

gerais, podem esperar alguma sobreposição, mas a maioria exibe 30%

pouca ou nenhuma interseção. Considerando o grande volume do 20%


feed de malware do FB, pode-se esperar que ele encapsule muitos 10%
dos feeds menores ou pelo menos partes deles. No entanto, este
0 10 20 30 40 50 60
não é o caso, pois o FB Malware tem uma interseção insignificante
Número de verificador do VirusTotal
com todos os outros feeds.
Devido à falta de interseção entre os feeds, omitimos a análise de Figura 4. Distribuição de detecção do VirusTotal. Cada ponto significa a proporção de
latência dos feeds de hash, pois simplesmente não há dados de indicadores (valor Y) em um feed que é detectado por sobre X número de scanners AV

interseção suficientes para concluir quais feeds têm melhor no VirusTotal.

desempenho em relação à latência.

4.3 Precisão feed para esta análise.


Mesa 3 mostra uma análise das taxas de detecção básicas para cada
Avaliar a precisão dos feeds de hash de arquivo apresenta um problema:
feed do VirusTotal. À medida que as alimentações de PA diminuem em
não existe uma verdade básica universal para determinar se um arquivo é
volume, as taxas nas quais são encontradas no VirusTotal também
malicioso ou benigno. Assim, para avaliar a precisão dos feeds, usamos
diminuem. Os feeds PA maiores têm uma taxa de detecção muito mais
duas métricas: uma verificação de hashes maliciosos contra o VirusTotal e
alta do que suas contrapartes menores. Por outro lado, o FB Malware tem
uma verificação de hashes benignos contra o serviço Bin Check do
apenas 37% de seus dados detectados por scanners antivírus e 50% no
Shadowserver. Observe que todas as porcentagens discutidas abaixo são
VirusTotal sem detecção, apesar de ser o maior feed. Isso pode indicar
baseadas no Volume de cada feed.
que o FB Malware se concentra em ameaças que visam especificamente o
4.3.1 VirusTotal Facebook e que não são tão relevantes para a maioria dos usuários do
VirusTotal é um serviço frequentemente usado ao analisar malware VirusTotal, como extensões de navegador maliciosas [ 14 , 20 , 22 ] Isso
para obter uma base de informações sobre um arquivo suspeito. pode prejudicar a cobertura limitada do VirusTotal como um oráculo para
Qualquer pessoa pode enviar um arquivo a ser verificado. Após o detectar ameaças direcionadas que não são de interesse mais amplo.
envio, esses arquivos serão verificados por mais de 70 antivírus, o
que gera um relatório sobre quantos antivírus marcam como Para entender melhor como os scanners do VirusTotal relatam os
malicioso, entre outras informações. Nesta análise, consultamos o dados do feed, traçamos um gráfico de qual porcentagem de hashes em
VirusTotal quanto aos hashes em cada feed de hash de arquivo e, em cada feed são detectados por quantos scanners do VirusTotal. Como
seguida, inspecionamos a porcentagem de hashes marcados como pode ser visto na Figura 4 , quatro feeds têm mais de 50% de suas
maliciosos e quantos scanners AV os gravaram. Devido ao alto amostras detectadas por mais de 20 scanners. Indicadores PAMalware e
volume do feed de malware do FB e ao limite da taxa de consulta do PA Twitter Emotet não experimentaram uma grande queda de detecção
VirusTotal, amostramos aleatoriamente 80.000 hashes do antes de 35 scanners, indicando que a maioria dos indicadores no

Associação USENIX 28º Simpósio de Segurança USENIX 861


Tabela 4. Mudanças de dados em feeds de IP em comparação com os de 2016, Média
dois feeds são arquivos maliciosos populares reconhecidos por muitos
Avaliar mostra a porcentagem da taxa diária alterada nos feeds antigos. As duas
fornecedores de AV. Embora o PA Sandbox tenha uma grande porcentagem de
colunas sob Unrt mostram as taxas irreversíveis de feeds em 2016 e 2018
seus hashes não apresentados no VirusTotal, mais de 70% das amostras separadamente. As duas colunas sob CDN apresentam a queda do número de IPs nas
detectadas são marcadas por mais de 20 scanners AV, apresentando uma faixas de IP do CDN em dados antigos e novos.

detecção de alta confiança.


Irreversível CDN
4.3.2 Shadowserver
Alimentação Média Avaliar 2016 2018 2016 2018
Para avaliar mais completamente a precisão dos feeds de hash do Scan Feeds
arquivo, também examinamos como cada feed é medido em relação IPs PA AlienVault + 1.347% 0,0% 0,0% 0 0
PA Packetmail ram * + 733% <0,01% <0,01% 0 0
ao Serviço de verificação de bin do Shadowserver [ 34 ] O serviço IPs do Packetmail + 135% 0,0% 0,0% 0 0
verifica os hashes do arquivo na Lista de Registro Nacional de Reputação de IP paga - 57% 8,73% 1,65% 910 21
PA Lab Scan - 1% 0,0% <0,01% 0 0
Software (NSRL) do NIST, além do próprio repositório de software PA Snort BlockList - 97% <0,01% 0,42% 1 0
conhecido do Shadowserver. Mesa 3 detalha como cada feed se Agregador FB 1 + 332% 0,0% 0,0% 6 0
Analista PA - 44% 0,0% 0,41% 0 0
compara ao serviço Bin Check do Shadowserver. Feeds de botnet
Pode-se esperar que nenhum hash seja encontrado no serviço Bin PA CI Exército + 114% <0,01% <0,01% 0 0
Reputação de IP paga - 39% 0,63% 1,66% 15 74
Check do Shadowserver, mas não é o caso. Algumas das amostras IPs PA Botscout + 1% 0,01% 0,09% 1 0
dos feeds que aparecem no Shadowserver são binários bem PA VoIP Blacklist + 252% 0,0% 0,32% 0 0
IPs comprometidos de PA - 36% 0,10% 0,0% 0 0
conhecidos, como versões de produtos do Microsoft Office, Service Bots da lista de bloqueio PA - 95% 0,0% 0,0% 0 0
Packs do Windows, calc.exe, etc. No caso de malware se injetar em Projeto Honeypot PA + 63% 0,0% 0,0% 0 0
Feeds de força bruta
um processo em execução, continua plausível que alguns desses Badips SSH + 30% 0,07% 0,19% 0 1
binários bem conhecidos encontram seu caminho para TI feeds de Badips Badbots + 1.732% 0,0% 1,04% 187 1.251
Reputação de IP paga - 62% 6,55% 0,03% 335 10
usuários atribuindo mal-intencionado incorretamente. Embora o FB PA Brute-Force - 72% 0,0% 0,0% 0 0
Malware tenha mais de mil hashes no Shadowserver, este não é um Nome de usuário do Badips * + 3.040% 0,0% 0,53% 0 0
Haley SSH + 428% 0,04% 0,03% 0 0
problema generalizado, já que todos os feeds têm <1% de seus Agregador FB 2 + 387% 0,12% 0,0% 0 0
hashes contidos no serviço Bin Check do Shadowserver. Isso mostra Nothink SSH + 886% 0,56% 1,51% 0 0
Dangerrulez Brute + 0% 0,0% 0,0% 1 0
que, embora haja algumas exceções, a maioria dos feeds não Feeds de malware
contém arquivos benignos bem conhecidos. Reputação de IP paga - 36% 0,18% 0,13% 15265 3.489
IPs maliciosos do FB - 77% 6,81% 2,14% 264 0
F Encontrando: Cada feed de PA tem uma taxa insignificante de ocorrência no
Feodo IP Blacklist + 0% 0,0% 0,0% 0 0
Shadowserver, independentemente da detecção do VirusTotal, mostrando que eles Lista negra de IP Malc0de - 9% 0,0% 0,0% 132 11
PA Bambenek C2 IPs PA + 79% 0,0% 9,13% 0 0
não contêm falsos positivos genéricos. Feeds maiores exibem altas taxas de detecção
SSL Malware IPs - 34% 0,0% 0,0% 0 0
do VirusTotal, exceto para FB Malware, enquanto feeds pequenos têm taxas de Analista de PA - 93% 0,34% 0,0% 0 0
PA Abuse.ch * - 99% 0,49% 3,12% 0 0
detecção relativamente baixas. Isso sugere que pequenos feeds de hash podem se
PA Mal-Traf fi c-Anal - 53% 0,0% 0,51% 0 0
concentrar mais em arquivos maliciosos específicos que não são amplamente Zeus IP Blacklist - 66% 0,0% 0,0% 6 0
Explorar feeds
conhecidos. O FB Malware tem uma baixa ocorrência de VirusTotal apesar de seu
HTTP Badips + 326% 0,30% 0,67% 436 2.590
tamanho e tem mais de mil hashes no Shadowserver, mas sua baixa porcentagem FTP da Badips + 556% 0,01% 1,33% 0 2
DNS da Badips + 9.525% 0,17% 0,50% 7 244
geral de hashes no Shadowserver indica que ele não contém muitos arquivos
Badips RFI + 226% 0,0% 2,22% 0 0
conhecidos e pode ter ameaças não normalmente reconhecidas pelos scanners do Feeds de spam
Reputação de IP paga + 133% 59,3% 78,7% 0 0
VirusTotal.
Badips Spam + 12.767% 0,0% 0,02% 0 0
Badips Post fi xo - 53% <0,01% 1,29% 0 1
IPs PA Botscout + 18% 0,0% 0,06% 0 0
AlienVault IP Rep + 8% 0,57% 0,07% 479 1.040

5 Comparação Longitudinal
Além do período de medição considerado até agora (1 de
dezembro de 2017 a 20 de julho de 2018), também analisamos mude substancialmente (a diferença é inferior a 20%). O volume
dados dos mesmos feeds de IP de 1 de janeiro de 2016 a 31 de pode mudar drasticamente com o tempo, como IPs do PA AlienVault
agosto de 2016. Esses dois períodos de medição, 23 meses à na categoria de varredura, que é 13 vezes maior do que antes. Por
parte, nos permitem medir como esses feeds de IP mudaram outro lado, um feed como PA Blocklist Bots agora é 90% menor.
em dois anos. Mesa 4 resume as diferenças entre esses dois
períodos de medição. Na mesa, 2018 representa o período de Cruzamento e contribuição exclusiva. Apesar do vol-
medição atual e 2016 o período de 1º de janeiro de 2016 a 31 de Algumas diferenças, as estatísticas de interseção entre os feeds são
agosto de 2016. basicamente as mesmas ao longo de dois anos, com feeds em varredura
Volume. Conforme mostrado na Tabela 4 , o volume da ração definitivamente mudou e força bruta tendo interseções de pares elevados e feeds em outras
após dois anos. Entre 43 feeds IP que se sobrepõem aos dois períodos de tempo, 21 categorias sendo principalmente exclusivos. Certas relações de pares
têm uma taxa diária mais alta em comparação com 2 anos atrás, 15 feeds têm uma específicas também não mudaram. Por exemplo, Badips SSH ainda
taxa mais baixa e 7 feeds não compartilhou mais de 90% dos dados em Dangerrulez Brute em

862 28º Simpósio de Segurança USENIX Associação USENIX


2016, e Paid IP Reputation em malware ainda era o único feed que tinha
Analista PA
uma interseção não trivial com vários pequenos feeds. Novamente, a
IPs PA AlienVault
maioria dos dados era exclusiva para cada feed há dois anos: Em todas as IPs DShield
seis categorias, mais de 90% dos indicadores não são compartilhados IPs do Packetmail
entre os feeds. PA Packetmail ram *

Latência. A relação de latência entre os feeds também era PA Lab Scan


FB Aggregator_1
semelhante: os feeds oportunos de hoje também eram oportunos
Reputação de IP paga
há dois anos, e o mesmo com os atrasos.
- 2 -1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Precisão. Os feeds têm mais IPs que não podem ser roteados agora do
Latência (dias)
que antes, conforme mostrado na Tabela 4 : Em 2016, 22 dos 43 feeds de
IP tinham pelo menos 1 IP irrotável; quatro feeds tiveram taxas (uma) Distribuição de latência nos feeds de varredura em relação ao telescópio da Internet

irreversíveis acima de 1%. Ao verificar a interseção com CDNs populares,


os feeds que contêm IPs nas faixas de CDN de dois anos atrás também
PA OSINT
são os que possuem esses IPs hoje.
Analista PA
Indicadores compartilhados 2016–2018. Comparamos os dados que
PA Twitter Emotet
coletados de cada feed nos dois períodos de tempo e descobriram que 30 de 43 feeds
PA Sandbox
em 2018 se cruzam com seus dados de dois anos atrás, e 9 feeds têm uma taxa de
Indicadores de malware PA
interseção de mais de 10%. Três feeds na categoria de malware, nomeadamente
Malware FB
Feodo IP Blacklist, PA Abuse.ch Ransomware e Zeus IP Blacklist, têm mais de 40% de
−50 0 50 100 150 200 250 300 350 400 450
seus dados compartilhados com o feed anterior, o que significa que uma grande
Latência (dias)
porcentagem dos indicadores C&C de dois anos atrás ainda são identificados pelos
(b) Distribuição de latência em feeds de hash de arquivo em relação ao VirusTotal
feeds como ameaças hoje. Os feeds na categoria botnet, no entanto, são muito
distintos do passado, com todos os feeds não tendo nenhuma interseção com o
Figura 5. Distribuição da latência dos indicadores em varreduras e feeds de hash de arquivo. Observe
passado, exceto reputação de IP pago. que a distribuição dos feeds de varredura é calculada na granularidade por hora, enquanto a
distribuição dos feeds de hash do arquivo é calculada na granularidade por dia.

6 Latência Absoluta
Definimos nossa métrica de latência neste artigo como latência tamp representa a hora em que o arquivo correspondente é carregado pela
relativa entre TI fontes, uma vez que é fácil de calcular e permite aos primeira vez no VirusTotal. O VirusTotal é um serviço muito popular e é uma
consumidores comparar os feeds entre si neste aspecto. No entanto, convenção para muitos especialistas em segurança carregar novas amostras de
também é fundamental saber sobre a distribuição de latência malware para o VirusTotal assim que as descobrem. Portanto, esse carimbo de
absoluta dos indicadores. A latência absoluta representa a rapidez data / hora indica aproximadamente quando a comunidade de segurança
com que um feed pode realmente relatar uma ameaça, o que decide percebeu pela primeira vez o arquivo malicioso e pode ser uma boa
diretamente a eficácia dos dados quando usados de forma aproximação para latência absoluta.
pró-ativa. Como já discutimos na Seção 3,5 , a latência absoluta é Figura 5 mostram a distribuição de latência de cada feed, usando
difícil de medir, pois não temos informações básicas sobre a ameaça a mesma convenção de plotagem da Seção 3,5 . Alguns feeds não
subjacente. são mostrados na figura, pois há poucos pontos de dados nesses
Na seção 3,7 , usamos um telescópio de Internet como nosso aproxi- feeds para raciocinar sobre a distribuição.
mação para informações básicas para medir a cobertura de feeds de F Encontrando: Figura Comparando 5a descobrir 2a , podemos ver que a
varredura. Na seção 4,3 , usamos o VirusTotal como um oráculo para latência mediana dos feeds é maior. Isso é consistente com nossa
medir a precisão dos feeds de hash de arquivo. Embora essas fontes não suposição de que um grande sensor tende a receber scanners
sejam verdadeiras e não esteja claro a que distância estão, essas fontes indiscriminados mais cedo. A latência média dos feeds de varredura é de
grandes e bem gerenciadas podem nos ajudar, até certo ponto, a traçar o um a três dias em relação ao telescópio da Internet, exceto PA Analyst,
perfil do desempenho de TI feeds. Nesta seção, usamos essas duas fontes cuja latência média é de quase nove dias. A ordem da latência mediana
novamente para aproximar a latência absoluta dos indicadores em feeds entre os feeds mudou em comparação com a Figura 2a , mas como as
de IP de varredura e feeds de hash de arquivo malicioso. latências medianas relativas originais entre os feeds de varredura são
muito próximas, a nova ordem aqui é mais provável de ser as variações
Mais especificamente, medimos a latência de IPs em feeds de estatísticas. Além disso, observe que embora os IPs do PA AlienVault
varredura em relação ao tempo da primeira ocorrência do mesmo IP nos pareçam muito mais lentos do que na Figura 2a , sua latência de 75
scanners coletados do telescópio. Considerando o tamanho maciço do percentil ainda é a segunda menor.
telescópio, ele presumivelmente deve detectar scanners muito antes do Por outro lado, as distribuições de latência de feeds hash variam
evento de varredura realmente acontecer. Medimos a latência dos hashes de forma mais dramática. PA Malware Indicators, PA Sandbox e PA
de arquivo em relação ao visto pela primeira vez Twitter Emotet são quase tão rápidos quanto VirusTotal: todos os
timestamps consultados no VirusTotal. O visto pela primeira vez vezes- três feeds têm 25 percentil e latência mediana igual a

Associação USENIX 28º Simpósio de Segurança USENIX 863


zero. PA OSINT e PA Analyst são comparativamente muito mais fontes que maximizam a cobertura das ameaças mais relevantes
lentos, e PA OSINT ainda tem uma latência de 75 por cento de 1.680 enquanto limitam a interseção.
dias. Isso pode ser devido à natureza heterogênea dos feeds de
malware. A figura também mostra que os volumes de feed não 7.2 Rotulagem de Dados
implicam em sua latência, pois o PA Analyst e o FB Malware são Os dados de inteligência de ameaças IP têm significados diferentes. Para
muito mais lentos do que os pequenos feeds de hash. usar adequadamente esses dados, é fundamental saber o que os
Figura 5 demonstra que o telescópio da Internet e o Virus-Total são de fato indicadores realmente significam: se são scanners da Internet, membros
boas aproximações para medição de latência absoluta, como a maioria dos de um botnet ou agentes mal-intencionados que já atacaram outros
indicadores em TI os feeds são observados relativamente mais tarde. No lugares antes. Tentamos agrupar feeds por seu significado pretendido
entanto, cada feed de digitalização tem mais de 2% de seu índice em nossa análise.
cators detectados antes do telescópio. Agregador FB 1 No entanto, esta informação de categoria, que vem principalmente de TI fontes
e DShield IPs ainda têm mais de 10% de seus indicadores ob- próprias, nem sempre está disponível. Feeds como Alienvault IP Reputation e
servido antes. Também há um caso semelhante em feeds de hash de arquivo. Facebook Threat Exchange fontes contêm um número significativo de
Isso se alinha com a nossa observação na Seção 3,5 que pequenos feeds ainda indicadores rotulados como “Malicioso” ou “Suspeito”. Os significados desses
podem relatar uma quantidade não trivial de seus dados primeiro. Outra indicadores não são claros, tornando difícil para os consumidores decidirem
observação interessante é que ambos os feeds do Facebook, como usar os dados e as possíveis consequências.
Agregador FB 1 e FB Malware, têm uma grande porcentagem de seus
dados observados antes do telescópio ou do VirusTotal. Para feeds que fornecem informações de categoria, às vezes é muito amplo
Isso sugere novamente que o Facebook (e seus parceiros de inteligência de ameaças) para ser significativo. Por exemplo, vários feeds em nossa coleção
pode enfrentar ameaças mais direcionadas, portanto, essas ameaças serão simplesmente rotulam seus indicadores como “Scanner”. A varredura de rede
observadas pela primeira vez pelo Facebook. pode representar a varredura de porta (enviando pacotes SYN) ou uma
varredura de vulnerabilidade (investigando o host em busca de

7 discussão vulnerabilidades conhecidas). A ambigüidade aqui, como resultado da


rotulagem de dados ad-hoc, novamente apresenta desafios para os
7.1 Uso de métricas especialistas em segurança ao usar TI dados.

A inteligência contra ameaças tem muitos usos potenciais diferentes. Por Recentemente, padrão TI formatos foram propostos e desenvolvidos,

exemplo, os analistas podem consumir dados de ameaças interativamente notavelmente IODEF [ 19 ], CybOX [ 13 ] e STIX [ 37 ], que tentam padronizar

durante as investigações manuais de incidentes ou podem usá-los para a apresentação e o compartilhamento de informações sobre ameaças.

automatizar a detecção de atividades suspeitas e / ou listas negras. Quando Mas esses padrões se concentram principalmente no formato de dados.

não são determinantes, essas informações também podem ser usadas para Há espaço para melhorar esses padrões, projetando um padrão semântica

enriquecer outras fontes de dados, informando investigações ou para dados de inteligência de ameaças.

auxiliando em intervenções algorítmicas automáticas. Introduzimos um


conjunto de métricas básicas de inteligência de ameaças - volume, 7.3 Limitações
interseção, contribuição exclusiva, latência, cobertura e precisão - que Existem várias questões que nosso estudo não aborda. Tentamos
podem informar e quantificar cada um desses usos. Dependendo de uma coletar dados de um conjunto diversificado de fontes, incluindo
série de fatores, como o caso de uso pretendido e o custo de falsos feeds públicos, feeds comerciais e feeds de intercâmbio industrial,
positivos e negativos, algumas dessas métricas se tornarão mais ou mas não é inerentemente abrangente. Existem algumas fontes de
menos importantes ao avaliar um TI fonte. Por exemplo, um feed com dados proibitivamente caras ou com restrição de publicação que não
baixa precisão, mas alta cobertura pode ser ideal quando um analista estão disponíveis para nós. Um trabalho de medição mais
está usando um TI fonte interativamente durante as investigações de especializado deve ser feito no futuro para analisar melhor o
incidentes manualmente (já que, neste caso, o analista, como um desempenho dessas fontes de dados caras e exclusivas.
especialista de domínio, pode fornecer filtragem adicional de falsos Uma segunda limitação é nossa visibilidade de como diferentes
positivos). Da mesma forma, a latência pode não ser uma métrica crítica empresas usam a inteligência de ameaças operacionalmente. Para uma
em um caso de uso retrospectivo (por exemplo, investigação de violação empresa, talvez o tipo de métrica mais útil mede como uma fonte de
pós-descoberta). No entanto, se uma organização está procurando um TI fonte inteligência de ameaças afeta seus principais indicadores de
em que os IPs devem ser adicionados à lista negra de um firewall, então a desempenho, bem como sua exposição ao risco. Essas métricas exigiriam
precisão e a latência provavelmente devem ser ponderadas sobre a uma integração profunda nos fluxos de trabalho de segurança nas
cobertura, presumindo que o bloqueio de atividades benignas seja mais empresas para medir o efeito da operação de decisões tomadas usando
caro. inteligência de ameaças. Isso permitiria aos CIOs e CSOs entender melhor
Outro cenário comum do mundo real é que uma empresa tem um exatamente o que um produto de inteligência de ameaças específico
orçamento limitado para comprar TI fontes e tem um conjunto específico contribui para uma empresa. Como pesquisadores, não usamos TI
de ameaças (ou seja, botnet, força bruta) que eles se concentram em operacionalmente. Um melhor entendimento das necessidades operacionais ajudaria
mitigar. Nesses casos, as métricas que descrevemos podem ser usadas a refinar nossas métricas para maximizar sua utilidade para os consumidores
diretamente na avaliação TI opções, polarizando twoards orientados para as operações.

864 28º Simpósio de Segurança USENIX Associação USENIX


A terceira limitação é a falta de verdade fundamental, uma orientação sobre como escolher entre as diferentes fontes. Nosso estudo
limitação compartilhada por todos os trabalhos de medição também demonstrou a limitação da inteligência de ameaças de forma mais
semelhantes. É simplesmente muito difícil obter o quadro completo completa, fornecendo características abrangentes de inteligência de ameaças
de uma determinada categoria de ameaça, tornando muito difícil cibernéticas que nenhum trabalho havia abordado anteriormente.
determinar com precisão a precisão e a cobertura dos feeds. Neste
estudo, usamos dados de um telescópio da Internet e do VirusTotal 9 Conclusão
como uma aproximação próxima. Existem também alguns casos em Este documento enfocou as métricas mais simples, porém fundamentais, sobre
que um incidente de segurança foi exaustivamente estudado por dados de inteligência de ameaças. Usando as métricas propostas, medimos um
pesquisadores, como o estudo Mirai [ 4 ], e tais esforços podem ser amplo conjunto de TI fontes, e relatou as características e limitações de TI dados.
usados para avaliar certos tipos de TI dados. Mas esses estudos são Além das descobertas individuais mencionadas em cada seção, aqui
poucos. Uma alternativa é tentar estabelecer a verdade fundamental destacamos as lições de alto nível que aprendemos com nosso estudo:
para uma rede específica. Por exemplo, uma empresa pode registrar
todo o tráfego de rede que entra e sai de sua própria rede e
identificar incidentes de segurança por meio de seu sistema IDS ou • TI os feeds, longe de conterem amostras homogêneas de alguma
análise forense manual. Em seguida, ele pode avaliar a precisão e verdade subjacente, variam enormemente nos tipos de dados que
cobertura de um TI feed no contexto de sua própria rede. Isso pode capturam com base nas particularidades de sua abordagem de
fornecer uma visão personalizada de TI feeds. coleta. Infelizmente poucos TI fornecedores explicam o mecanismo e
a metodologia pelos quais seus dados são coletados e, portanto, TI os
8 trabalhos relacionados consumidores devem se contentar com rótulos simples como

Vários estudos examinaram a eficácia da inteligência de ameaças “scan” ou “botnet”, juntamente com inferências sobre o modo

baseada em listas negras [ 23 , 31 , 32 , 35 , 36 ] Ramachandran et al. [ 32 ] provável de coleta. Pior ainda, uma quantidade significativa de

mostraram que as listas negras de spam estão incompletas (faltando 35% dados nem mesmo tem uma definição clara de categoria, e é

dos IPs de origem dos emails de spam capturados em duas armadilhas rotulada apenas como “maliciosa” ou “suspeita”, deixando a

de spam) e lentas na resposta (20% dos spammers permanecem não ambigüidade para os consumidores decidirem qual ação deve ser

listados após 30 dias). Sinha et al. [ 36 ] con fi rmou ainda mais esse tomada com base nos dados.

resultado, mostrando que quatro das principais listas negras de spam


• Há pouca evidência de que feeds maiores contenham dados melhores, ou
têm taxas de falsos negativos muito altas e analisaram as possíveis
mesmo que existam distinções de qualidade nítidas entre feeds em
causas da baixa cobertura. Sheng et al. [ 35 ] estudou a eficácia das listas diferentes categorias ou métricas (ou seja, que um TI provedor cujo feed
negras de phishing, mostrando que as listas demoram a reagir a tem um bom desempenho em uma métrica terá um bom desempenho
campanhas de phishing altamente transitórias. Esses estudos se em outra, ou que essas classificações se manterão em todas as
concentraram em tipos específicos de fontes de inteligência de ameaças e categorias de ameaça). A forma como os dados são coletados também
avaliaram apenas seu desempenho operacional, em vez de produzir não implica necessariamente os atributos dos feeds. Por exemplo, feeds

métricas de avaliação empíricas para fontes de dados de inteligência de baseados em crowdsourcing (por exemplo, feeds Badips) nem sempre
são mais lentos no relatório de dados do que os feeds de auto-coleta
ameaças.
(como Reputação de IP pago).
Outros estudos analisaram os atributos gerais dos dados de
inteligência de ameaças. Pitsillidis et al. [ 30 ] estudou as características dos
feeds de domínio de spam, mostrando diferentes perspectivas dos feeds • Mais baseado em IP TI as fontes de dados são coleções de toneladas
de spam, e demonstrou que diferentes feeds são adequados para individuais (ou seja, cada endereço IP aparece em no máximo uma
responder a diferentes perguntas. Thomas et al. [ 42 ] construíram sua fonte) e mesmo as fontes de dados de correlação mais alta
própria inteligência de ameaças agregando o tráfego de abuso recebido freqüentemente têm taxas de interseção de apenas 10%. Além
de seis serviços do Google, mostrando uma falta de interseção e disso, ao comparar dados de sensores amplos em categorias
conhecidas com efeito amplo (por exemplo, varredura aleatória),
correlação entre essas diferentes fontes. Embora se concentrem em usos
menos de 2% dos endereços de scanner observados aparecem na
mais amplos de inteligência de ameaças, esses estudos não se
maioria das fontes de dados que analisamos; de fato, mesmo
concentraram em métricas de ameaças generalizáveis que podem ser
quando focado nos maiores e mais prolí fi cos scanners, a
estendidas além do trabalho.
cobertura ainda é limitada a 10%. Existem resultados semelhantes
Existem poucos trabalhos que definem uma metodologia geral de medição para para fontes baseadas em hash de arquivo com pouca sobreposição
examinar a inteligência de ameaças em um amplo conjunto de tipos e categorias. entre eles.
Metcalf et al. [ 26 ] coletou e mediu listas negras de IP e domínio de várias fontes, mas
focou apenas na análise de volume e interseção. Em contraste, definimos O baixo cruzamento e a cobertura de TI feeds podem ser o resultado
formalmente um conjunto de métricas de inteligência de ameaças e conduzimos um de várias possibilidades não exclusivas. A primeira é que o espaço
estudo amplo e abrangente sobre uma ampla variedade de dados de inteligência de subjacente de indicadores (endereços IP e hashes de arquivos maliciosos)
ameaças. Conduzimos nossa medição a partir da perspectiva dos consumidores de TI dados é grande e cada fonte de dados individual pode, na melhor das hipóteses,
para oferecer amostrar uma pequena fração dele. É quase certo que isso seja verdade
até certo ponto. Em segundo lugar, coleção diferente

Associação USENIX 28º Simpósio de Segurança USENIX 865


as metodologias - mesmo para a mesma categoria de ameaça - selecionarão práticas de segurança operacional, acreditamos que serão
diferentes subdistribuições dos dados de verdade terrestre subjacentes. encontradas nesses casos de uso mais complexos e é aí que as
Terceiro, esse último efeito provavelmente é exacerbado pelo fato de que nem pesquisas futuras serão mais produtivas.
todas as ameaças são experimentadas de maneira uniforme na Internet e,
portanto, diferentes metodologias serão distorcidas para favorecer ou 10 Reconhecimento
desfavorecer os ataques direcionados. Gostaríamos de agradecer aos nossos provedores de ameaças
Com base em nossa experiência analisando TI dados, tentamos comerciais que disponibilizaram seus dados para nós e tornaram
fornecer várias recomendações para a comunidade de segurança essa pesquisa possível. Em particular, gostaríamos de agradecer a
sobre este tópico no futuro: Nektarios Leontiadis e o Facebook ThreatExchange por fornecer os
dados de ameaças que ajudaram a facilitar nosso estudo. Também
• A comunidade de inteligência de ameaças deve padronizar a rotulagem
somos muito gratos a Alberto Dainotti e Alistair King por
de dados, com uma definição clara do que os dados significam e como
os dados são coletados. Os especialistas em segurança podem avaliar se compartilhar os dados do telescópio UCSD e nos ajudar com a
os dados atendem às suas necessidades e o tipo de ação que deve ser análise, Gautam Akiwate por nos ajudar a consultar os dados do
tomada com relação a esses dados. domínio e Matt Jonkman. Também somos gratos a Martina
Lindorfer, nosso pastor, e aos nossos revisores anônimos por seus
• Existem algumas regras básicas na seleção entre TI feeds, visto que não há comentários e sugestões perspicazes. Esta pesquisa é um trabalho
uma correlação clara entre as diferentes propriedades dos alimentos. Os conjunto de várias instituições, patrocinado em parte pelo prêmio
consumidores precisam de métricas empíricas, como as que DHS / AFRL FA8750-18-2-0087, NSF concede CNS-1237265,
descrevemos, para diferenciar significativamente as fontes de dados e
CNS-1406041, CNS-1629973, CNS-1705050 e CNS-1717062.
priorizar certas métricas com base em suas necessidades específicas.

Referências
[1] Abuse.ch. https://abuse.ch/ .
• Cegamente usando TI os dados - mesmo que alguém pudesse
[2] Principais domínios Alexa. https://www.alexa.com/
adquirir muitas dessas fontes - provavelmente não fornecerão uma
melhores sites/ .
cobertura melhor e também estão sujeitos a danos colaterais
causados por falsos positivos. Os clientes precisam estar sempre http: // reputação.
[3] Reputação de IP da Alienvault.
cientes dessas questões ao decidir que ação deve ser realizada com alienvault.com/reputation.data .
esses dados. [4] A NTONAKAKIS, M., A PRIL, TB AILEY, M., B ERN-
DURO, M., B URSZTEIN, E., C OCHRAN, J., D URUMÉRICO, Z., H VEREADOR,

• Além de focar no TI dados em si, o trabalho futuro deve investigar os JA, eu NVERNIZZI, EU.,
usos operacionais da inteligência de ameaças na indústria, como o K ALLITSIS, M., ET AL. Compreendendo o botnet mirai. Dentro Simpósio
verdadeiro valor de TI os dados só podem ser compreendidos em de Segurança USENIX ( 2017).
cenários operacionais. Além disso, a comunidade deve explorar [5] Badips. https://www.badips.com/ .
mais maneiras potenciais de usar os dados, o que ampliará nossa [6] B ENSON, K., D AINOTTI, COMO NOEREN, AC, K ALLITSIS, M., ET AL. Aproveitando
compreensão da inteligência de ameaças e também influenciará
a Internet de volta
como os fornecedores estão curando os dados e fornecendo os
radiação terrestre para análise de rede oportunista. Dentro
serviços.
Procedimentos da Conferência de Medição da Internet de
2015 ( 2015), ACM.
Existem muitas maneiras de usar os dados de inteligência de ameaças. Pode [7] O monitor de segurança de rede Bro. https: //www.bro.
ser usado para enriquecer outras informações (por exemplo, para investigar org / index.html .
possíveis explicações de um incidente de segurança), como um canário [8] Lista composta de bloqueio. https: //www.abuseat.
probabilístico (ou seja, identificar uma vulnerabilidade geral do site por meio org / .
de um único indicador de correspondência pode ter valor mesmo se outros [9] Espalhando a doença e vendendo a cura.
ataques do mesmo tipo não forem detectados) ou no fornecimento de uma https://krebsonsecurity.com/2015/01/
fonte útil de dados verdadeiros para sistemas supervisionados de aprendizado espalhando-a-doença-e-vendendo-a-cura / .
de máquina. No entanto, mesmo com finalidades tão diversas, as organizações [10] C HACHRA, N., M C C OY, D., S AVAGE, S., E
ainda precisam de alguma forma de priorizar quais TI fontes para investir. V OELKER, GM caracterizando empiricamente o abuso de
Nossas métricas fornecem alguma direção para essas escolhas. Por exemplo, domínio e o impacto da lista negra na receita. Dentro
um analista que espera usar TI interativamente durante a resposta a incidentes Anais do Workshop sobre Economia da Segurança da
seria melhor atendido por feeds com cobertura mais alta, mas pode acomodar Informação (WEIS) ( State College, PA, 2014). [11] Cloud fl
baixa precisão, enquanto uma organização que tenta rotular automaticamente are, rede de entrega de conteúdo global rápida. https:
instâncias maliciosas para fins de treinamento (por exemplo, ataques de força //www.cloudflare.com/cdn/ .
bruta) será melhor atendido pelo contrário. Assim, se houver esperança de [12] AWS CloudFront, rápido, altamente seguro e programável
demonstrar que a inteligência de ameaças pode impactar materialmente rede de distribuição de conteúdo. https://aws.amazon.com/
cloudfront / .

866 28º Simpósio de Segurança USENIX Associação USENIX


[13] Ciber observável expressão. http:
ACM.
//cyboxproject.github.io/documentation/ .
[30] P ITSILLIDIS, A., K ANICH, CV OELKER, GM,
[14] D E K FORNO, LF, S AVAGE, S., V OELKER, GM, E
eu EVCHENKO, K., E S AVAGE, Escolha de S. Taster: Uma Análise
eu EONTIADIS, N. Extensões de navegador mal-intencionadas em
Comparativa de Spam Feeds. Dentro Proceedings of the ACM
escala: Reduzindo a lacuna de observabilidade entre o site e o
Internet Measurement Conference ( Boston, MA, novembro de
navegador. Dentro 10º Workshop USENIX sobre Experimentação e
2012), pp. 427–440.
Teste de Segurança Cibernética (CSET 17) ( 2017), USENIX.
[31] R AMACHANDRAN, A., F EAMSTER, WL AGON, D.,
[15] D URUMÉRICO, Z., B AILEY, M., E H VEREADOR,
ET AL. Revelando a associação de botnet usando
JA Uma visão de digitalização em toda a Internet em toda a Internet.
contra-inteligência dnsbl. SRUTI 6 ( 2006).
Dentro Simpósio de Segurança USENIX ( 2014).
[32] R AMACHANDRAN, A., F EAMSTER, N., E V EM-
[16] Edgecast CDN, Verizon digital and media server
PALA, S. Filtragem de spam com lista negra comportamental. Dentro
vícios. https://www.verizondigitalmedia.com/
Procedimentos da 14ª Conferência ACM sobre Segurança de
plataforma / edgecast-cdn / .
Computadores e Comunicações (CCS) ( 2007).
[17] Troca de ameaças do Facebook. https: // developers.
[33] S CHEITLE, Q., H OHLFELD, O., G AMBA, J., J EL-
facebook.com/programs/threatexchange .
DEZ, J., Z IMMERMANN, T., S TROWES, SD, E
[18] CDN gerenciado rapidamente. https://www.fastly.com/
V ALLINA- R ODRIGUEZ, N. Um longo caminho para o topo: Sig- ni fi cância,
produtos / cdn de gerenciamento rápido .
estrutura e estabilidade das listas principais da Internet. Dentro
[19] Formato de troca da descrição do objeto do incidente. https:
Procedimentos da Conferência de Medição da Internet
//tools.ietf.org/html/rfc5070 .
(2018), ACM.
[20] J AGPAL, WL INGLE, POR EXEMPLO RAVEL, J.-P., M AVROM-
[34] Shadowserver. https://www.shadowserver.org/ .
MATIS, P., P ROVOS, N., R AJAB, MA, E T HOMAS,
[35] S HENG, S., W ARDMAN, B., W ARNER, G., C RANOR,
K. Tendências e lições de três anos lutando contra extensões maliciosas.
LF, H ONG, J., E Z PENDURAR, C. Uma análise empírica de listas
Dentro Simpósio de Segurança USENIX
negras de phishing. Dentro Anais da Conferência sobre
(2015).
Email e Anti-Spam (CEAS) ( 2009).
[21] J UNG, J., E S ISTO, E. Um estudo empírico do tráfego de spam e
[36] S INHA, S., B AILEY, M., E J AHANIAN, F. Tons de cinza: Sobre a
o uso de listas negras de DNS. Dentro Proceedings of the
eficácia das “listas negras” baseadas na reputação.
ACM Conference on Internet Measurement ( 2004).
Dentro 2008 3ª Conferência Internacional sobre Software
[22] K APRAVELOS, A., G RIER, C., C HACHRA, N.,
Malicioso e Indesejado (MALWARE), IEEE. [37] Structured
K RUEGEL, CV IGNA, G., E P AXSON, V. Hulk: provocando comportamento
Threat Information eXpression. https: //
malicioso em extensões de navegador. Dentro
stixproject.github.io/ .
Simpósio de Segurança USENIX ( 2014), San Diego, CA.
[38] Telescópio de rede UCSD. https://www.caida.org/
[23] K ÜHRER, SR OSSOW, C., E H OLZ, T. Pinte de preto: avaliando a
projetos / rede_telescópio / .
eficácia das listas negras de malware. Dentro Workshop
[39] O sistema de bloqueio de spam e retransmissão aberta. http: //
Internacional sobre Avanços Recentes na Detecção de
www.sorbs.net/ .
Intrusão ( 2014), Springer.
[40] A lista de bloqueio do Spamhaus. https: //www.spamhaus.
[24] L EVCHENKO, K., P ITSILLIDIS, A., C HACHRA, N., E N-
org / sbl / .
DIREITO, B., F ÉLEGYHÁZI, M., G RIER, CH ALVOR-
[41] O Spamhaus não faz roteamento ou listas de pares. https: //
FILHO, T., K ANICH, C., K REIBICH, C., L IU, H., M C-
www.spamhaus.org/drop/ .
C OY, D., W EAVER, N., P AXSON, V., V OELKER, GM,
[42] T HOMAS, K., A MIRA, R., B EN- Y OASH, A., F OLGER,
E S AVAGE, S. Clique em Trajetórias: Análise de ponta a ponta
OH ARDON, A., B ERGER, A., B URSZTEIN, E., E
da cadeia de valor do spam. Dentro Procedimentos do
B AILEY, M. A economia de compartilhamento de abuso:
Simpósio IEEE e Segurança e Privacidade ( 2011).
Compreendendo os limites das trocas de ameaças. Dentro Simpósio
[25] MaxCDN. https://www.maxcdn.com/one/ .
Internacional de Pesquisa em Ataques, Intrusões e Defesas
[26] M ETCALF, EU., E S PRING, Análise do ecossistema da JM Blacklist: período
(2016), Springer.
de janeiro de 2012 a junho de 2014. Em Procedimentos do 2º
[43] Análise de mercado de inteligência de ameaças por solução,
Workshop ACM sobre Compartilhamento de Informações e
por serviços, por implantação, por aplicativo e previsão
Segurança Colaborativa ( 2015), ACM.
de segmento, 2018 - 2025. https: // www.
[27] Nothink honeypot SSH. http://www.nothink.org/
grandviewresearch.com/industry-analysis/
honeypot_ssh.php .
mercado de inteligência de ameaças .
[28] Packetmail.net. https://www.packetmail.net/ .
[44] Projeto de vistas de rota da Universidade de Oregon. http: // www.
[29] P ANG, R., Y EGNESWARAN, V., B ARFORD, P., P MACHADO-
routeviews.org/routeviews/ .
FILHO, V., E P ETERSON, L.
Características da radiação de fundo
[45] VirusTotal. https://www.virustotal.com/#/
da Internet. Dentro Procedimentos da 4ª conferência ACM
home / upload .
SIGCOMM sobre medição na Internet ( 2004),

Associação USENIX 28º Simpósio de Segurança USENIX 867

Você também pode gostar