Escolar Documentos
Profissional Documentos
Cultura Documentos
978-1-939133-06-9
Exclusiva, Latência, Cobertura e Precisão. inteligência de ameaças comercial paga. Ele contém dados coletados de mais de uma
v Analisamos 47 endereços IP distintos TI fontes que cobrem seis centena de outras fontes de inteligência de ameaças, públicas ou privadas, junto com
categorias de ameaças e 8 hash de arquivo de malware distinto seus próprios dados de ameaças. Em análises subsequentes, todas as fontes de dados
TI fontes e relatar suas métricas. com prefixo “PA” são de fontes de dados exclusivas originadas deste agregador.
Nesta seção, enumeramos nossas fontes de inteligência de As formas de cada TI A fonte coleta dados varia e, em alguns
ameaças, descrevemos a estrutura de cada fonte e como as casos, a metodologia é desconhecida. Por exemplo, Packetmail IPs e
coletamos e, em seguida, definimos nossas métricas de medição Paid IP Reputation coletam dados de ameaças por meio de
para medir empiricamente essas fontes. Quando a fonte dos dados é honeypots, analisando malware, etc. Outras fontes, como Badips ou
pública ou quando temos um acordo explícito para identificar o Facebook ThreatExchange, coletam seus indicadores de usuários ou
provedor, isso é feito. Porém, em outros casos, os dados foram organizações em geral - por exemplo, entidades podem ser atacadas
fornecidos sob condição de anonimato e nos restringimos a e enviar os indicadores a esses serviços de inteligência de ameaças.
descrever a natureza do provedor, mas não sua identidade. Todos os Esses serviços, então, agregam os dados e os relatam a seus
nossos provedores de dados privados foram avaliados quanto à assinantes. Por meio desse nível de agregação, as metodologias
natureza de nossa pesquisa, seus objetivos e a metodologia que precisas de coleta e a providência de dados podem ser perdidas.
planejamos empregar.
TI fontes em nossa estrutura corpus e apresentam dados de maneiras de indicadores que aparecem em um feed durante o intervalo de
diferentes. Parte do desafio na produção de métricas de conjunto de medição. Volume é o mais simples TI métrica e tem um histórico
dados cruzado é normalizar tanto a estrutura dos dados quanto sua estabelecido em trabalhos anteriores [ 21 , 23 , 24 , 30 , 35 , 36 , 42 ] Também
significado. A principal diferença estrutural que influencia nossa é útil estudar o diário avaliar de um feed, que quanti fi ca a
análise ocorre entre as fontes de dados que fornecem dados em quantidade de dados que aparecem em um feed diariamente.
instantâneos e fontes de dados que fornecem eventos. Justificativa: Para uma primeira aproximação, o volume captura a
Instantâneo. Os feeds de instantâneo fornecem instantâneos periódicos de um quantidade de informações que um feed fornece ao consumidor. Para um
conjunto de indicadores. Mais formalmente, um instantâneo é um conjunto de feed sem falsos positivos (veja precisão abaixo), e se cada indicador tiver
indicadores em função do tempo. Ele define, para um determinado momento, igual valor para o consumidor, preferiríamos uma ração de maior volume
o conjunto de indicadores que são membros da fonte de dados. Feeds de a uma ração de menor volume. Obviamente, nem todos os indicadores
instantâneos implicam Estado: a qualquer momento, há um conjunto de têm o mesmo valor para os consumidores: saber o endereço IP de um
indicadores que são dentro a alimentação. Uma fonte típica de instantâneo é host sondando toda a Internet em busca de vulnerabilidades de décadas
uma lista publicada de IPs atualizada periodicamente por seu mantenedor. Por é menos útil do que o endereço de um scanner que visa organizações em
exemplo, uma lista de endereços IP de comando e controle para um botnet seu setor que procuram explorar o zero vulnerabilidades diárias.
no sentido de que os indicadores são apenas adicionados, não primeiro que não estão no segundo durante o mesmo período de
removidos, do feed. Hashes são um proxy para o conteúdo do arquivo, medição. Definimos a contribuição diferencial em relação ao
que não muda (o conteúdo do arquivo malicioso não mudará para tamanho da primeira alimentação, de modo que a contribuição
Evento. Em contraste, os feeds de eventos relatam indicadores Diff A, B = | A \ B | / | A |. Assim, Diff A, B = 1 indica que os dois
recém-descobertos. Mais formalmente, uma fonte de evento é um conjunto de feeds não têm elementos em comum e Diff A, B = 0 indica que
indicadores em função de um tempo intervalo. Para um determinado intervalo cada indicador em UMA também aparece em B. Às vezes é
de tempo, a fonte fornece um conjunto de indicadores que foram vistos ou útil considerar o complemento de contribuição diferencial, nomeadamente o
descobertos naquele intervalo de tempo. Os assinantes desses feeds normalizado interseção de UMA dentro B, dado por
consultam dados solicitando novos indicadores adicionados em uma janela de Int A, B = | UMA ∩ B | / | A | = 1 - Diff A, B.
tempo recente. Por exemplo, um usuário pode, uma vez por dia, solicitar o Justificativa: Para um consumidor, muitas vezes é útil saber como
conjunto de indicadores que apareceram nas últimas 24 horas. vários adicional indicadores que um feed oferece em relação a um
Essa diferença estrutural é um grande desafio ao avaliar os alimentos ou mais feeds que o consumidor já possui. Assim, se um consumidor
comparativamente. Precisamos normalizar a diferença para fazer uma já tem feed UMA e está pensando em pagar pelo feed
comparação justa, especialmente para feeds IP. A partir de um TI B, então Diff A, B indica quantos novos indicadores alimentam UMA irá
indicador irá expirar, portanto, cabe ao consumidor agir sobre a idade G Contribuição exclusiva. O contribuição exclusiva de um feed em
dos indicadores. Dito de outra forma, as datas de validade dos relação a um conjunto de outros feeds é a proporção de indicadores
indicadores são decididas pela forma como os usuários consultam o exclusivos de um feed, ou seja, a proporção de indicadores que
feed: se um usuário solicitar os indicadores vistos nos últimos 30 dias ao ocorrem no feed, mas em nenhum outro. Formalmente, o
consultar os dados, há uma janela de tempo válida implícita de 30 dias contribuição exclusiva de feed UMA é definido como Uniq A, B = B 6 = UMA B |
| UMA \ ⋃/ | A |. Assim, Uniq A, B = 0 significa que cada elemento
para esses indicadores.
ment de feed UMA aparece em alguns outros feeds, enquanto Uniq A, B = 1 significa
Neste artigo, escolhemos um período de validade de 30 dias para todos os
nenhum elemento de UMA aparece em qualquer outro feed.
indicadores que coletamos de feeds de eventos - o mesmo período válido
usado em vários feeds de instantâneos e também uma opção de janela de Justificativa: Como contribuição diferencial, contribuição exclusiva diz a
consulta comum oferecida por feeds de eventos. Em seguida, convertemos um TI consumidor quanto de um feed é diferente. No entanto, a
esses feeds de eventos em feeds de instantâneo e avaliamos todos eles de contribuição exclusiva compara um feed a todos os outros feeds
de 361.004 endereços IP exclusivos em IPs DShield, mas apenas # Analista PA 180.034 99,0% 697 54.800
# PA CI Exército 103.281 97,1% 332 30.388
1.572 endereços exclusivos no PA Analyst no mesmo período. # Reputação de IP paga 77.600 99,9% 567 4.278
Claramente, o volume é um grande diferencial para os feeds. # IPs PA Botscout 23.805 93,8% 81 7.180
# PA VoIP Blacklist 10.712 88,0% 40 3.633
A taxa média diária representa a quantidade de novos indicadores # IPs comprometidos de PA 7.679 87,0% 21 2.392
coletados de um feed a cada dia. Alguns feeds podem ter grande volume, # Bots da lista de bloqueio PA 4.179 80,7% 16 1.160
# Projeto Honeypot PA 2.600 86,5% 8,5 812
mas taxas diárias baixas, como Feodo IP Blacklist na categoria de Feeds de força bruta
malware. Isso significa que a maioria dos indicadores que obtemos desse 4 Badips SSH 542.167 84,1% 2.379 86.677
4 Badips Badbots 91.553 70,8% 559 17.577
feed são dados antigos presentes no feed antes do início de nossa # Reputação de IP paga 89.671 52,8% 483 3.705
medição. Por outro lado, a taxa média de uma alimentação pode ser # PA Brute-Force 41.394 92,1% 138 14.540
4 Nome de usuário do Badips não encontrado 37.198 54,2% 179 3662,8
maior do que o volume sugere, como Nothink SSH na categoria de força 4 Haley SSH 31.115 43,6% 40 1.224
bruta. Isso se deve ao fato de que os indicadores podem ser adicionados 4 Agregador FB 2 22.398 77,3% 74 2.086
4 Nothink SSH 20.325 62,7% 224 12.577
e removidos várias vezes em um feed. Em geral, os indicadores de IP 4 Dangerrulez Brute 10.142 4,88% 37 1.102
Feeds de malware
tendem a ser adicionados em um feed apenas uma vez: 37 entre 47 feeds
# Reputação de IP paga 234.470 99,1% 1.113 22.569
de IP têm mais de 80% de seus indicadores aparecendo apenas uma vez e 4 IPs maliciosos do FB 30.728 99,9% 129 3.873
30 deles têm essa taxa acima de 90%. Uma razão é que alguns feeds de # Feodo IP Blacklist 1.440 47,7% 1,3 1.159
# PA Lab Malware 1.184 84,6% 3,5 366
instantâneo mantêm um período válido para cada indicador, como 4 Lista negra de IP Malc0de 865 61,0% 2,9 86,6
encontramos em todos PA feeds onde a data de validade de cada # IPs PA Bambenek C2 785 92,1% 3,4 97,9
# IPs de malware PA SSL 676 53,9% 2,9 84,0
indicador é registrada explicitamente. Quando o mesmo indicador é # Analista PA 492 79,8% 2,1 149
descoberto novamente por um feed antes de seu tempo de expiração, o # PA Abuse.ch Ransomware 256 7,03% 1,6 117
# PA Mal-Traf fi c-Anal 251 60,5% 0.9 72
feed apenas estenderá sua data de expiração, então essa ocorrência não # Zeus IP Blacklist 185 49,1% 0,5 101
será capturada se simplesmente subtrairmos os dados antigos dos dados Explorar feeds
4 HTTP Badips 305.020 97,6% 1.592 22.644
recém-coletados para derivar o que é adicionado em um dia. Para feeds 4 FTP da Badips 285.329 97,5% 1.313 27.601
de eventos e feeds de instantâneo em PA onde podemos acompanhar 4 DNS da Badips 46.813 99,3% 231 4.758
4 Badips RFI 3.642 91,4% 16 104
com precisão cada ocorrência de cada indicador, examinamos ainda mais 4 Badips SQL 737 79,5% 4,4 99,2
Feeds de spam
a frequência de ocorrência de dados e ainda descobrimos que a grande
# Reputação de IP paga 543.583 99,9% 3.280 6.551
maioria dos IPs em feeds ocorreram apenas uma vez - uma observação 4 Badips Post fi xo 328.258 90,5% 842 27.951
que se relaciona à dinâmica das próprias ameaças cibernéticas. 4 Badips Spam 302.105 89,3% 1.454 30.197
# IPs PA Botscout 14.514 89,3% 49 4.390
Nothink SSH, como mencionamos acima, é uma exceção notável. Tem mais # Reputação de IP da Alienvault 11.292 96,6% 48 1.328
de 64% de seus indicadores aparecendo 7 vezes em nosso conjunto de dados.
Depois de investigar, descobrimos que este feed publica todos os seus dados
anteriores no final de cada mês, comportamento muito provavelmente devido tors, controlados pelo feed (feeds de instantâneo) ou pelo usuário (feeds
ao fornecedor do feed em vez das ameaças subjacentes. de evento). Quanto mais longo for o período de validade, maior será o
conjunto de trabalho. Feeds de snapshoot diferentes têm escolhas
O tamanho do conjunto de trabalho define a quantidade média diária de diferentes para este período válido: IPs do PA AlienVault na categoria de
indicadores que os usuários precisam armazenar em seu sistema para usar um feed varredura define um período válido de 90 dias para cada indicador
(o custo de armazenamento do uso de um feed). O tamanho médio do conjunto de adicionado ao feed, enquanto o PA Abuse.ch Ransomware usa um
trabalho é amplamente decidido pela duração do período válido dos indicadores período de 30 dias. Embora não saibamos o mecanismo de expiração de
1 Este feed é agregado por PA da Alienvault OTX, a reputação de IP da dados usado por feeds de instantâneos, exceto PA feeds, como não há
Alienvault é o feed de reputação pública que coletamos diretamente da informações relacionadas registradas, ainda podemos estimar isso
AlienVault. Eles são feeds diferentes. verificando o durações de seus indicadores - o tempo
spam não compartilham muitos dados entre si: todas as 4 categorias têm
mais de três quartos das taxas de interseção de pares inferiores a 1%.
Alguns grandes feeds nessas categorias podem compartilhar uma
Força bruta
diferentes categorias.
Figura 1 também mostra a relação entre feeds em diferentes
categorias. Podemos ver claramente uma relação entre varredura e
feeds de força bruta: feeds de varredura múltiplos têm interseção
Varredura Força bruta de botnet Malware Explorar Spam
não trivial com feeds na categoria de força bruta. Na verdade,
23,1% de todos os 760.263 IPs de força bruta que coletamos também
Figura 1. Interseção de alimentação para todos os feeds IP. Cada linha / coluna representa
estão incluídos por feeds de varredura em nosso conjunto de dados.
um feed, mostrado na mesma ordem da Tabela 1 . Cores mais escuras (mais saturadas)
indicam maior interseção. Também há três feeds de botnet - PA CI Army, PA VoIP Blacklist e PA
Comprometidos IPs - que têm mais de 10% de seus dados
compartilhados com vários feeds na categoria de varredura.
entre um indicador sendo adicionado e removido. Quatro feeds
de reputação de IP pago têm mais de 85% de durações menores 3.4 Contribuição Exclusiva
que 10 dias, enquanto o da categoria de malware tem mais de A contribuição exclusiva representa o número de indicadores em um
40% que se estendem por mais de 20 dias. Feodo IP Blacklist feed que não está em nenhum outro feed. Calculamos a contribuição
tem mais de 99% de seus indicadores válidos para todo o nosso exclusiva de cada feed entre todos os feeds na mesma categoria,
período de medição, enquanto mais de 70% das durações na enfatizando sua singularidade em relação ao escopo dos dados que
Zeus IP Blacklist são menos de 6 dias. Não observamos um afirmam relatar. Cada contribuição exclusiva de feed é apresentada
padrão claro sobre como cada feed de instantâneo lida com a na Tabela 1 na coluna Exclusivo, calculado com base em seu volume.
expiração de indicadores.
F Encontrando: Como já observamos na Seção 3,3 , botnet, exploit e
3.3 Contribuição diferencial e intersecção feeds de spam têm interseções de pares relativamente baixas.
A métrica de contribuição diferencial mede o número de indicadores Conseqüentemente, os feeds nessas quatro categorias têm altas
em um feed que não estão em outro. De forma equivalente, taxas de contribuição exclusiva em geral: as taxas de contribuição
podemos considerar a interseção de dois feeds, que é o número de exclusiva da mediana dessas quatro categorias são
elementos em um feed que estão presentes no outro, normalizado 90,9%, 97,5% e 90,5%, respectivamente. A categoria de malware tem uma
pelo tamanho do primeiro: | UMA ∩ B | / | A |. Figura 1 mostra a taxa de exclusividade mediana baixa, uma vez que vários pequenos feeds
relação de interseção de todos os feeds no estudo. Cada célula na têm uma interseção não trivial com o maior feed de reputação de IP
matriz representa o número de elementos em ambos os feeds, paga, mas os dois maiores feeds de malware têm uma taxa exclusiva de
normalizado pelo tamanho do feed que abrange as linhas da tabela. mais de 99%. Os feeds de varredura e de força bruta têm mais interseção
Isso é, UMA, na expressão acima, abrange linhas e B sobre as dentro de sua categoria, e suas taxas exclusivas são mais baixas: 62,0%
colunas da matriz. Cores mais escuras (mais saturadas) indicam de taxa média em varredura e 62,7% de força bruta, e os dois maiores
maior interseção. As comparações de feeds dentro de uma categoria feeds em ambas as categorias têm uma taxa exclusiva abaixo de 85% .
são sombreadas em vermelho e as comparações de feeds entre
diferentes categorias são sombreadas em azul. Observe que a matriz Se assumirmos um processo em que um feed tem mais probabilidade de ter
é assimétrica, porque, em geral, | UMA ∩ B | / | A | = 6 UMA ∩ elementos populares, feeds menores seriam incluídos em feeds maiores. No entanto,
B | / | B |. Os elementos da matriz estão na mesma ordem que na para alguns pequenos feeds como Malc0de IP Blacklist no malware e PA Project
Tabela 1 . Honeypot nas categorias de botnet, mesmo que sejam várias ordens de magnitude
F Encontrando: Feeds nas categorias de varredura e força bruta têm menores do que os maiores feeds em suas categorias, um significativo
interseções de pares mais altas: Metade da interseção de pares
PA Lab Scan força bruta, não durará para sempre. Se um feed de varredura relatar um
FB Aggregator_1 endereço IP hoje e outro feed relatar o mesmo IP três meses depois, faria
IPs DShield pouco sentido considerá-los como um evento de varredura e rotular a segunda
IPs PA AlienVault ocorrência como estando três meses atrasada. Infelizmente, não existe uma
Reputação de IP paga
maneira fácil de distinguir claramente os eventos uns dos outros. Aqui,
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
usamos uma janela de um mês para restringir um evento, supondo que o
Latência (dias)
mesmo ataque de uma fonte não durará mais de 30 dias; embora arbitrário,
(uma) Distribuição de latência em feeds de varredura ele fornece um limite razoavelmente conservador, e a experiência com outros
limites produziu resultados gerais semelhantes. Mais especificamente,
Nome de usuário do Badips * todos os feeds em uma categoria e, em seguida, registramos a latência das
Dangerrulez Brute ocorrências seguintes e excluímos as que ocorrem após 30 dias. Usando
Haley SSH apenas a primeira aparência de cada IP como base, evitamos a incerteza
Nothink SSH
causada pela ocorrência múltipla de indicadores e diferentes períodos de
FB Aggregator_2
validade usados entre os feeds.
Reputação de IP paga
Badips SSH
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Latência (dias) Figuras 2a e 2b mostram a distribuição de latência relativa entre
feeds nas categorias de varredura e força bruta, em horas. Nós nos
(b) Distribuição de latência em feeds de força bruta
concentramos apenas nos feeds que têm mais de 10% dos dados
Figura 2. Distribuição da latência dos indicadores em varredura e feeds de força compartilhados com outras pessoas para garantir que a análise
bruta. Cada caixa mostra a distribuição de latência de IPs compartilhados no feed, possa representar a distribuição de latência do feed geral. Há um
calculada em horas, do percentil 25 ao percentil 75, com a linha do meio indicando a
feed em cada categoria (PA Snort BlockList na varredura e PA
mediana. (“Badips Username *” aqui é a abreviatura para o nome do feed Badips
Username Notfound; “PA Packetmail Ram *” para PA Packetmail Ramnode)
Brute-Force na força bruta) que é excluído da figura.
F Encontrando: Nas caixas de distribuição, podemos ver que Reputação
de IP pago em varredura e Badips SSH em força bruta são os feeds mais
proporção de seus indicadores ainda é exclusiva para o feed. Quando agregamos os rápidos em sua categoria, pois têm a mediana mais baixa e latências de
dados em cada categoria, 73% de todos os indicadores de alimentação de varredura 75º percentil. Por outro lado, PA Analyst em varredura e Badips Badbots
são exclusivos para uma única alimentação e 88% dos indicadores de alimentação de em força bruta são os feeds mais lentos. Figura 2a mostra que todos os
força bruta são exclusivos para uma alimentação. Para outras categorias, mais de feeds de varredura, exceto um, têm sua latência de 25º percentil igual a
97% dos elementos na categoria são exclusivos de um único feed. Este resultado 0, indicando que esses feeds, em tamanhos diferentes, todos relataram
concorda com o trabalho anterior de que a maioria dos dados em feeds de uma parte significativa de seus dados compartilhados primeiro. Um caso
4.1 Volume
Por outro lado, os scanners telescópicos se cruzam com 85% de todos os Os hashes de arquivo, ao contrário dos dados de ameaça de IP, não são
IPs em feeds de varredura. Ao olhar para cada feed, os IPs PA AlienVault, transitórios - um arquivo não muda de malicioso para benigno - e, portanto,
IPs DShield IPs Packetmail, PA Lab Scan e PA Packetmail ramnode têm uma análise de volume muito mais simples é apropriada. Relatamos o volume
mais de 85% de seus dados interceptados com scanners telescópicos; os como o número de novos hashes que são adicionados a cada feed durante
outros quatro, entretanto, têm menos de 65% de seus dados nosso período de medição.
compartilhados (e a taxa para PA Snort BlockList é de apenas 8%). Como pode ser visto na Tabela 3 , examinamos o volume de cada feed e
taxa média diária. Assim como os feeds de IP, os feeds de hash de
Para entender melhor como cada feed de varredura detecta atividades arquivo também variam dramaticamente em volume. A maioria dos
de varredura, medimos como diferentes tamanhos de scanners no hashes está concentrada em três feeds: FB Malware, PAMalware
telescópio são cobertos por cada feed. Aqui, tamanho do scanner Indicators e PA Analyst, que também exibem as taxas diárias mais altas.
significa quantos IPs um scanner varreu no telescópio em um dia. Os outros feeds são de múltiplas ordens de magnitude menores
Figura 3 mostra a taxa de cobertura de cada alimentação em comparativamente.
diferentes tamanhos de scanners, variando de 1.000 a 1 milhão.
(Existem 7.212.218 scanners do telescópio cujos tamanhos são 4.2 Intersecção e contribuição exclusiva
superiores a 1K, 271.888 que são superiores a 100K e 17.579 são
Como mencionamos anteriormente, para conduzir a interseção e
superiores a 1 milhão.)
análise exclusiva de feeds de hash de arquivo, precisamos converter
F Encontrando: A união de todos os scanners IPs nos feeds cobre menos de 2%
os indicadores no mesmo tipo de hash. Aqui, convertemos hashes
dos scanners coletados pelo telescópio. Mesmo se olharmos apenas para os
não MD5 em MD5s, usando metadados no próprio indicador (ou
scanners com tamanhos maiores que 10.000, a cobertura geral ainda está em
seja, se ele relata valores para várias funções de hash) ou
torno de 10%, sugerindo que a capacidade de cobertura dos feeds de
consultando o hash de origem do VirusTotal [ 45 ] que relata o
digitalização é muito limitada. O gráfico mostra que, à medida que o tamanho
conjunto completo de hashes para todos os arquivos em seu
do scanner aumenta, a cobertura de cada alimentação nos conjuntos de dados
conjunto de dados. No entanto, para uma pequena fração de
também aumenta, e grandes feeds cobrem mais por cento dos scanners
hashes, não podemos encontrar apelidos para convertê-los para a
telescópicos do que pequenos feeds. Essa tendência se alinha com a intuição
representação MD5 e devemos excluí-los da análise nesta seção.
de que os feeds de varredura tendem a capturar scanners mais extensos.
Esta filtragem é refletida na Tabela 3 , em que a coluna Volume
representa o número de hashes exclusivos encontrados em cada
É surpreendente que os pequenos feeds de varredura em nossa
feed e a coluna Convertido é o subconjunto que pudemos normalizar
coleção tenham uma porcentagem menor de seus IPs compartilhados
para uma representação MD5.
com scanners telescópicos. Isso contradiz a ideia de que pequenos feeds
F Encontrando: As interseções entre os feeds de hash são mínimas,
conteriam uma porcentagem maior de scanners extensos (que
mesmo entre os feeds que têm várias ordens de diferenças de magnitude
provavelmente também seriam observados pelo telescópio).
no tamanho. Em todos os feeds, apenas o PA Analyst tem interseções
relativamente altas: o PA Analyst compartilha 27% dos MD5s do PA OSINT
4 Arquivo Hash Threat Intelligence e 13% dos MD5s do PA Twitter Emotet. O PA Malware Indicators também
Hashes de arquivo em um feed de inteligência de ameaças são indicadores de arquivos tem uma pequena interseção com esses dois feeds. Todas as outras
maliciosos. É uma das maneiras mais leves de marcar arquivos como suspeitos. Pode-se interseções têm cerca de 1% ou menos. Consequentemente, a grande
incorporar esses dados para bloquear downloads maliciosos, anexos de e-mail maliciosos e maioria dos MD5s são exclusivos para um feed, conforme registrado na
malware. Da mesma forma, os hashes de arquivo podem ser usados para colocar aplicativos coluna Exclusivo na tabela 3 . A exclusividade “mais baixa” pertence ao PA
na lista de permissões e Twitter Emotet e PA OSINT (ainda
Alimentação Volume médio Taxa convertida exclusiva Não em VT Não det. Não detectado em SD em NSRL em AppInfo
Malware FB 944.257 4.070 944.257> 99,99% 37,41% 50,50% 12,09% 99,89% 442 706
Indicadores de malware PA 39.702 171 39.702 98,73% 0,02% 0,04% 99,94%> 99,99% 2 0
Analista PA 38.586 166 37.665 97,97% 4,26% 2,82% 92,92% 99,95% 8 19
PA Twitter Emotet 1.031 4,44 960 77,29% 11,74% 0,78% 87,49% 99,81% 0 2
PA OSINT 829 3,57 783 71,65% 19,06% 0,84% 80,10% 99,88% 1 0
PA Sandbox 298 1,28 115 95,65% 72,81% 0,34% 26,85% 100% 0 0
PA Abuse.ch 267 1,15 3 100% 98,88% 0,75% 0,37% 100% 0 0
PA Zeus Tracker 17 0,07 17 100% 88,24% 5,88% 5,88% 100% 0 0
Porcentagem de Hashes
Indicadores de malware PA
PA OSINT
interseção é esperada em alguns casos. Por exemplo, o PA Twitter 60%
PA Sandbox
Emotet e o PA Zeus Tracker não devem ter interseção, pois estão 50% PA Abuse.ch
5 Comparação Longitudinal
Além do período de medição considerado até agora (1 de
dezembro de 2017 a 20 de julho de 2018), também analisamos mude substancialmente (a diferença é inferior a 20%). O volume
dados dos mesmos feeds de IP de 1 de janeiro de 2016 a 31 de pode mudar drasticamente com o tempo, como IPs do PA AlienVault
agosto de 2016. Esses dois períodos de medição, 23 meses à na categoria de varredura, que é 13 vezes maior do que antes. Por
parte, nos permitem medir como esses feeds de IP mudaram outro lado, um feed como PA Blocklist Bots agora é 90% menor.
em dois anos. Mesa 4 resume as diferenças entre esses dois
períodos de medição. Na mesa, 2018 representa o período de Cruzamento e contribuição exclusiva. Apesar do vol-
medição atual e 2016 o período de 1º de janeiro de 2016 a 31 de Algumas diferenças, as estatísticas de interseção entre os feeds são
agosto de 2016. basicamente as mesmas ao longo de dois anos, com feeds em varredura
Volume. Conforme mostrado na Tabela 4 , o volume da ração definitivamente mudou e força bruta tendo interseções de pares elevados e feeds em outras
após dois anos. Entre 43 feeds IP que se sobrepõem aos dois períodos de tempo, 21 categorias sendo principalmente exclusivos. Certas relações de pares
têm uma taxa diária mais alta em comparação com 2 anos atrás, 15 feeds têm uma específicas também não mudaram. Por exemplo, Badips SSH ainda
taxa mais baixa e 7 feeds não compartilhou mais de 90% dos dados em Dangerrulez Brute em
6 Latência Absoluta
Definimos nossa métrica de latência neste artigo como latência tamp representa a hora em que o arquivo correspondente é carregado pela
relativa entre TI fontes, uma vez que é fácil de calcular e permite aos primeira vez no VirusTotal. O VirusTotal é um serviço muito popular e é uma
consumidores comparar os feeds entre si neste aspecto. No entanto, convenção para muitos especialistas em segurança carregar novas amostras de
também é fundamental saber sobre a distribuição de latência malware para o VirusTotal assim que as descobrem. Portanto, esse carimbo de
absoluta dos indicadores. A latência absoluta representa a rapidez data / hora indica aproximadamente quando a comunidade de segurança
com que um feed pode realmente relatar uma ameaça, o que decide percebeu pela primeira vez o arquivo malicioso e pode ser uma boa
diretamente a eficácia dos dados quando usados de forma aproximação para latência absoluta.
pró-ativa. Como já discutimos na Seção 3,5 , a latência absoluta é Figura 5 mostram a distribuição de latência de cada feed, usando
difícil de medir, pois não temos informações básicas sobre a ameaça a mesma convenção de plotagem da Seção 3,5 . Alguns feeds não
subjacente. são mostrados na figura, pois há poucos pontos de dados nesses
Na seção 3,7 , usamos um telescópio de Internet como nosso aproxi- feeds para raciocinar sobre a distribuição.
mação para informações básicas para medir a cobertura de feeds de F Encontrando: Figura Comparando 5a descobrir 2a , podemos ver que a
varredura. Na seção 4,3 , usamos o VirusTotal como um oráculo para latência mediana dos feeds é maior. Isso é consistente com nossa
medir a precisão dos feeds de hash de arquivo. Embora essas fontes não suposição de que um grande sensor tende a receber scanners
sejam verdadeiras e não esteja claro a que distância estão, essas fontes indiscriminados mais cedo. A latência média dos feeds de varredura é de
grandes e bem gerenciadas podem nos ajudar, até certo ponto, a traçar o um a três dias em relação ao telescópio da Internet, exceto PA Analyst,
perfil do desempenho de TI feeds. Nesta seção, usamos essas duas fontes cuja latência média é de quase nove dias. A ordem da latência mediana
novamente para aproximar a latência absoluta dos indicadores em feeds entre os feeds mudou em comparação com a Figura 2a , mas como as
de IP de varredura e feeds de hash de arquivo malicioso. latências medianas relativas originais entre os feeds de varredura são
muito próximas, a nova ordem aqui é mais provável de ser as variações
Mais especificamente, medimos a latência de IPs em feeds de estatísticas. Além disso, observe que embora os IPs do PA AlienVault
varredura em relação ao tempo da primeira ocorrência do mesmo IP nos pareçam muito mais lentos do que na Figura 2a , sua latência de 75
scanners coletados do telescópio. Considerando o tamanho maciço do percentil ainda é a segunda menor.
telescópio, ele presumivelmente deve detectar scanners muito antes do Por outro lado, as distribuições de latência de feeds hash variam
evento de varredura realmente acontecer. Medimos a latência dos hashes de forma mais dramática. PA Malware Indicators, PA Sandbox e PA
de arquivo em relação ao visto pela primeira vez Twitter Emotet são quase tão rápidos quanto VirusTotal: todos os
timestamps consultados no VirusTotal. O visto pela primeira vez vezes- três feeds têm 25 percentil e latência mediana igual a
A inteligência contra ameaças tem muitos usos potenciais diferentes. Por Recentemente, padrão TI formatos foram propostos e desenvolvidos,
exemplo, os analistas podem consumir dados de ameaças interativamente notavelmente IODEF [ 19 ], CybOX [ 13 ] e STIX [ 37 ], que tentam padronizar
durante as investigações manuais de incidentes ou podem usá-los para a apresentação e o compartilhamento de informações sobre ameaças.
automatizar a detecção de atividades suspeitas e / ou listas negras. Quando Mas esses padrões se concentram principalmente no formato de dados.
não são determinantes, essas informações também podem ser usadas para Há espaço para melhorar esses padrões, projetando um padrão semântica
enriquecer outras fontes de dados, informando investigações ou para dados de inteligência de ameaças.
Vários estudos examinaram a eficácia da inteligência de ameaças “scan” ou “botnet”, juntamente com inferências sobre o modo
baseada em listas negras [ 23 , 31 , 32 , 35 , 36 ] Ramachandran et al. [ 32 ] provável de coleta. Pior ainda, uma quantidade significativa de
mostraram que as listas negras de spam estão incompletas (faltando 35% dados nem mesmo tem uma definição clara de categoria, e é
dos IPs de origem dos emails de spam capturados em duas armadilhas rotulada apenas como “maliciosa” ou “suspeita”, deixando a
de spam) e lentas na resposta (20% dos spammers permanecem não ambigüidade para os consumidores decidirem qual ação deve ser
listados após 30 dias). Sinha et al. [ 36 ] con fi rmou ainda mais esse tomada com base nos dados.
métricas de avaliação empíricas para fontes de dados de inteligência de baseados em crowdsourcing (por exemplo, feeds Badips) nem sempre
são mais lentos no relatório de dados do que os feeds de auto-coleta
ameaças.
(como Reputação de IP pago).
Outros estudos analisaram os atributos gerais dos dados de
inteligência de ameaças. Pitsillidis et al. [ 30 ] estudou as características dos
feeds de domínio de spam, mostrando diferentes perspectivas dos feeds • Mais baseado em IP TI as fontes de dados são coleções de toneladas
de spam, e demonstrou que diferentes feeds são adequados para individuais (ou seja, cada endereço IP aparece em no máximo uma
responder a diferentes perguntas. Thomas et al. [ 42 ] construíram sua fonte) e mesmo as fontes de dados de correlação mais alta
própria inteligência de ameaças agregando o tráfego de abuso recebido freqüentemente têm taxas de interseção de apenas 10%. Além
de seis serviços do Google, mostrando uma falta de interseção e disso, ao comparar dados de sensores amplos em categorias
conhecidas com efeito amplo (por exemplo, varredura aleatória),
correlação entre essas diferentes fontes. Embora se concentrem em usos
menos de 2% dos endereços de scanner observados aparecem na
mais amplos de inteligência de ameaças, esses estudos não se
maioria das fontes de dados que analisamos; de fato, mesmo
concentraram em métricas de ameaças generalizáveis que podem ser
quando focado nos maiores e mais prolí fi cos scanners, a
estendidas além do trabalho.
cobertura ainda é limitada a 10%. Existem resultados semelhantes
Existem poucos trabalhos que definem uma metodologia geral de medição para para fontes baseadas em hash de arquivo com pouca sobreposição
examinar a inteligência de ameaças em um amplo conjunto de tipos e categorias. entre eles.
Metcalf et al. [ 26 ] coletou e mediu listas negras de IP e domínio de várias fontes, mas
focou apenas na análise de volume e interseção. Em contraste, definimos O baixo cruzamento e a cobertura de TI feeds podem ser o resultado
formalmente um conjunto de métricas de inteligência de ameaças e conduzimos um de várias possibilidades não exclusivas. A primeira é que o espaço
estudo amplo e abrangente sobre uma ampla variedade de dados de inteligência de subjacente de indicadores (endereços IP e hashes de arquivos maliciosos)
ameaças. Conduzimos nossa medição a partir da perspectiva dos consumidores de TI dados é grande e cada fonte de dados individual pode, na melhor das hipóteses,
para oferecer amostrar uma pequena fração dele. É quase certo que isso seja verdade
até certo ponto. Em segundo lugar, coleção diferente
Referências
[1] Abuse.ch. https://abuse.ch/ .
• Cegamente usando TI os dados - mesmo que alguém pudesse
[2] Principais domínios Alexa. https://www.alexa.com/
adquirir muitas dessas fontes - provavelmente não fornecerão uma
melhores sites/ .
cobertura melhor e também estão sujeitos a danos colaterais
causados por falsos positivos. Os clientes precisam estar sempre http: // reputação.
[3] Reputação de IP da Alienvault.
cientes dessas questões ao decidir que ação deve ser realizada com alienvault.com/reputation.data .
esses dados. [4] A NTONAKAKIS, M., A PRIL, TB AILEY, M., B ERN-
DURO, M., B URSZTEIN, E., C OCHRAN, J., D URUMÉRICO, Z., H VEREADOR,
• Além de focar no TI dados em si, o trabalho futuro deve investigar os JA, eu NVERNIZZI, EU.,
usos operacionais da inteligência de ameaças na indústria, como o K ALLITSIS, M., ET AL. Compreendendo o botnet mirai. Dentro Simpósio
verdadeiro valor de TI os dados só podem ser compreendidos em de Segurança USENIX ( 2017).
cenários operacionais. Além disso, a comunidade deve explorar [5] Badips. https://www.badips.com/ .
mais maneiras potenciais de usar os dados, o que ampliará nossa [6] B ENSON, K., D AINOTTI, COMO NOEREN, AC, K ALLITSIS, M., ET AL. Aproveitando
compreensão da inteligência de ameaças e também influenciará
a Internet de volta
como os fornecedores estão curando os dados e fornecendo os
radiação terrestre para análise de rede oportunista. Dentro
serviços.
Procedimentos da Conferência de Medição da Internet de
2015 ( 2015), ACM.
Existem muitas maneiras de usar os dados de inteligência de ameaças. Pode [7] O monitor de segurança de rede Bro. https: //www.bro.
ser usado para enriquecer outras informações (por exemplo, para investigar org / index.html .
possíveis explicações de um incidente de segurança), como um canário [8] Lista composta de bloqueio. https: //www.abuseat.
probabilístico (ou seja, identificar uma vulnerabilidade geral do site por meio org / .
de um único indicador de correspondência pode ter valor mesmo se outros [9] Espalhando a doença e vendendo a cura.
ataques do mesmo tipo não forem detectados) ou no fornecimento de uma https://krebsonsecurity.com/2015/01/
fonte útil de dados verdadeiros para sistemas supervisionados de aprendizado espalhando-a-doença-e-vendendo-a-cura / .
de máquina. No entanto, mesmo com finalidades tão diversas, as organizações [10] C HACHRA, N., M C C OY, D., S AVAGE, S., E
ainda precisam de alguma forma de priorizar quais TI fontes para investir. V OELKER, GM caracterizando empiricamente o abuso de
Nossas métricas fornecem alguma direção para essas escolhas. Por exemplo, domínio e o impacto da lista negra na receita. Dentro
um analista que espera usar TI interativamente durante a resposta a incidentes Anais do Workshop sobre Economia da Segurança da
seria melhor atendido por feeds com cobertura mais alta, mas pode acomodar Informação (WEIS) ( State College, PA, 2014). [11] Cloud fl
baixa precisão, enquanto uma organização que tenta rotular automaticamente are, rede de entrega de conteúdo global rápida. https:
instâncias maliciosas para fins de treinamento (por exemplo, ataques de força //www.cloudflare.com/cdn/ .
bruta) será melhor atendido pelo contrário. Assim, se houver esperança de [12] AWS CloudFront, rápido, altamente seguro e programável
demonstrar que a inteligência de ameaças pode impactar materialmente rede de distribuição de conteúdo. https://aws.amazon.com/
cloudfront / .