Você está na página 1de 1

Análise Comparativa de Técnicas de

Classificação para Detecção de Executáveis


Binários Empacotados
Cecília Regina Oliveira de Assis
cecilia.assis@dcc.ufmg.br

.INTRODUÇÃO.
Em 2011, (1) publicaram um artigo sobre um programa chamado Binary Statistics
(BinStat) que objetiva a detecção de uma característica específica amplamente
utilizada por desenvolvedores de programas maliciosos, o empacotamento de
executáveis binários. (2) aponta que do começo do ano de 2016 até o início do ano
seguinte a prática de empacotamento, como recurso no ataque a dispositivos móveis,
praticamente dobrou em sua adoção causando preocupação à comunidade de
segurança da informação.

O processo de empacotamento de um arquivo ocorre quando o este é submetido,


através de um empacotador, a técnicas que cifram o seu conteúdo e potencialmente
reduzem o seu tamanho. Este procedimento pode ser empregado diversas vezes
sobre o mesmo arquivo, impossibilitando a detecção de assinaturas e prevenção de
ataques zero-day.
Tabela 1: Acurácia dos modelos por conjunto de teste.

Figura 1: Ilustração do processo de empacotamento.

Para atingir o seu objetivo, o BinStat segmenta cada executável analisado em blocos Tabela 2: Acurácia dos modelos por conjunto de teste. Fonte: (5)
de 1024 bytes e sobre esses efetua 13 cálculos estatísticos e da teoria da
informação. Os valores obtidos são então armazenados e repassados a uma técnica As tabelas acima apresentam a acurácia de cada modelo, separada por conjunto
de classificação que categoriza os resultados de cada métrica enquanto números de de teste, sendo a primeira responsável pelos resultados do presente estudo e a
um bloco empacotado ou não. segunda retirada do trabalho de (3). Em ambos os estudos, a característica de
.OBJETIVO. não empacotamento (unpacked) foi pouco detectada pelos modelos, provável
consequência da menor quantidade de exemplos para o grupo.
Em seu estudo, (2) optaram por adotar a Árvore de Decisão See5/C5.0 enquanto É interessante observar os resultados apresentados por ambos os trabalhos
classificador da característica de empacotamento dos executáveis examinados. foram semelhantes, ainda que o original não tenha feito o uso da validação
cruzada.
O presente estudo busca complementar o trabalho desenvolvido (2, 3) por meio da
adoção da validação cruzada para uma melhor atribuição de hiperparâmetros e O algoritmo Naive-Bayes apontou a mais alta taxa de acurácia na classificação
adição dos classificadores AdaBoost e RandomForest, técnicas de boosting e de instâncias não empacotadas, consoante com a informação trazida pela matriz
bagging respectivamente, como comparativos ao algoritmo C5.0 empregado por (2). de correlação do conjunto de dados não empacotados.
.METODOLOGIA.
Por fim, a adição dos algoritmos AdaBoost e RandomForest se mostrou
Quanto a metodologia aplicada, temos o preenchimento dos valores nulos com zero importante para o estudo dado que os mesmos, junto com o MLP, foram aqueles
(0) e a seguinte variação dos hiperparâmetros para cada classificador: que demonstram os melhores resultados de acurácia sobre as bases de dados,
○ CART: consolidando a afirmação de que a representação dos executáveis fornecida pelo
- mínimo de amostras para separar um nó msplit ∈ {2, 5, 10, (1 ∗ n)/100} BinStat consegue refletir com satisfação as características de arquivos
- mínimo de amostra em um nó folha mleaf ∈ {2, 5, 10, (1 ∗ n)/100} empacotados. Além disso, tal observação também elucida que modelos simples,
○ kNN: de alta capacidade são recomendados para tal problema.
- nearest neighbors k ∈ {1, 2, ... , 30}
○ Naive-Bayes: Não se aplica.
.CONCLUSÃO.
○ MLP:
- taxa de aprendizado inicial α ∈ {0.01, 0.05, 0.1, 0.2, 0.3}
- número de neurônios na camada escondida nh ∈ {10, 20, 50, 100, 500, 1000} Neste trabalho uma extensão dos estudos conduzidos por (3) foi realizada
○ RandomForest: através da utilização da validação cruzada para escolha dos hiperparâmetros e
- número de árvores na floresta s ∈ {21, 22, ... , 210} do emprego de novos classificadores como instrumentos de comparação. Os
○ AdaBoost: resultados apresentados demonstraram que o BinStat é efetivo em sua proposta
- número de stumps na floresta t ∈ {21, 22, ... , 210} e que os atributos gerados pela ferramenta conseguem representar
adequadamente as características de arquivos empacotados.
Sendo n a quantidade de exemplos de treino.
Quanto ao resultados dos classificadores, três (RandomForest, AdaBoost e
.RESULTADOS. MLP) exibiram taxas de acurácia semelhantes, e por sua simplicidade e alta
capacidade, para a presente tarefa, as técnicas de bagging e boosting adotadas
se apresentam enquanto recomendadas, além disso a utilização do
Naive-Bayes apontou que os valores dos atributos das instâncias não
empacotadas possuem um melhor mapeamento a correlação linear, do que
aqueles da classe contrária.

.BIBLIOGRAFIA.
1: Park, Kil and Ruiz, Rodrigo and Montes, Antônio. 2011. BinStat Tool for
Recognition of Packed Executables
2: Symantec. 2017. Internet Security Threat Report (ISTR).
3: Assis, Cecília Regina Oliveira. 2018. Análise comparativa de técnicas de
Figura 2: Matriz de correlação dos atributos da Figura 3: Matriz de correlação dos atributos da
base de dados de teste, do conjunto de classificação sobre uma ferramenta de detecção de empacotamento.
base de dados de teste, do conjunto de
instâncias não empacotadas. instâncias empacotadas.

Você também pode gostar