Pesquisadores da equipe de inteligência de proteção contra ameaças da Microsoft e do Intel Labs se reuniram para trabalhar em um novo projeto de pesquisa que utilizou uma nova abordagem para detectar e classificar malware. O projeto, chamado STAMINA (Análise de Rede de Malware como Imagem da STATIC), usou uma nova técnica para converter amostras de malware em imagens em escala de cinza, que foram examinadas em busca de padrões estruturais e de textura específicos para amostras de malware conhecidas.
Durante a primeira parte de sua colaboração, os pesquisadores desenvolveram o trabalho anterior da Intel sobre o profundo aprendizado de transferência para classificação de malware estático e usaram um conjunto de dados do mundo real da Microsoft para entender melhor o valor prático de abordar a classificação de malware como uma tarefa de visão computacional.
A abordagem STAMINA argumenta que o malware pode ser classificado em escala executando análises estáticas nos códigos de malware representados como imagens.
STAMINA: Transformando malware em imagens
Os pesquisadores primeiro prepararam os binários de malware convertendo-os em imagens bidimensionais usando conversão de pixel, remodelagem e redimensionamento. Os binários foram então convertidos em um fluxo de pixels unidimensional, atribuindo a cada byte um valor entre 0 e 255, que correspondia à intensidade do pixel. Cada fluxo de pixels foi então transformado em uma imagem bidimensional usando o tamanho do arquivo para determinar a largura e a altura de cada imagem.
Essas imagens redimensionadas foram então alimentadas em uma rede neural profunda (DNN) pré-treinada, que examinou as representações 2D de cepas de malware e as classificou como limpas ou infectadas. Para servir de base para a pesquisa, a Microsoft forneceu uma amostra de 2,2 milhões de hashes de arquivos executáveis portáteis (PE) infectados.
Os pesquisadores da Microsoft e da Intel usaram 60% das amostras de malware conhecidas para treinar o algoritmo DNN original, 20% dos arquivos foram usados para validar o DNN e os outros 20% foram usados no processo de teste real. De acordo com a equipe de pesquisa, o STAMINA conseguiu atingir uma taxa de precisão de 99,07% na identificação e classificação de amostras de malware com uma taxa de falsos positivos de apenas 2,58%. Ao trabalhar com arquivos menores, o STAMINA foi preciso e rápido, embora o projeto tenha vacilado ao trabalhar com imagens maiores.
Com base no sucesso do projeto na identificação de malware, a Microsoft poderia um dia acabar usando o STAMINA para detectar malware em PCs com Windows ou mesmo em seu software antivírus Window Defender.
Saiba mais sobre isso em nosso setor especializado em segurança digital.