RU2739830C1 - Система и способ выбора средства обнаружения вредоносных файлов - Google Patents

Система и способ выбора средства обнаружения вредоносных файлов Download PDF

Info

Publication number
RU2739830C1
RU2739830C1 RU2019130601A RU2019130601A RU2739830C1 RU 2739830 C1 RU2739830 C1 RU 2739830C1 RU 2019130601 A RU2019130601 A RU 2019130601A RU 2019130601 A RU2019130601 A RU 2019130601A RU 2739830 C1 RU2739830 C1 RU 2739830C1
Authority
RU
Russia
Prior art keywords
file
files
display
malicious
behavior
Prior art date
Application number
RU2019130601A
Other languages
English (en)
Inventor
Александр Сергеевич Чистяков
Алексей Михайлович Романенко
Original Assignee
Акционерное общество "Лаборатория Касперского"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Акционерное общество "Лаборатория Касперского" filed Critical Акционерное общество "Лаборатория Касперского"
Priority to RU2019130601A priority Critical patent/RU2739830C1/ru
Priority to US16/815,170 priority patent/US11379581B2/en
Priority to EP20179074.8A priority patent/EP3798885B1/en
Priority to CN202010543892.5A priority patent/CN112580044A/zh
Application granted granted Critical
Publication of RU2739830C1 publication Critical patent/RU2739830C1/ru

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/562Static detection
    • G06F21/563Static detection by source code analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/562Static detection
    • G06F21/564Static detection by virus signature recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/086Learning methods using evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Abstract

Изобретение относится к антивирусным технологиям, а более конкретно к системам и способам обнаружения вредоносных файлов. Технический результат заключается в оптимизации использования вычислительных ресурсов при проверке файла на вредоносность. Технический результат достигается за счет определения характеристики файла и признаков поведения файла, определения совокупности параметров, описывающих поверхность, помещённую в вероятностное пространство, на основании определённых характеристик файла и признаков поведения файла, формирования отображения файла путем построения поверхности в указанном пространстве на основании определенной совокупности параметров, выполнения поиска в базе отображений семейства вредоносных файлов на основании сформированного отображения файла, выбора из базы средств обнаружения вредоносных файлов средства обнаружения вредоносных файлов, соответствующего семейству вредоносных файлов, найденному в базе отображений. 8 з.п. ф-лы, 9 ил.

Description

Область техники
Изобретение относится к антивирусным технологиям, а более конкретно к системам и способам обнаружения вредоносных файлов.
Уровень техники
Стремительное развитие компьютерных технологий в последнее десятилетие, а также широкое распространение разнообразных вычислительных устройств (персональных компьютеров, ноутбуков, планшетов, смартфонов и т.д.) стали мощным стимулом для использования упомянутых устройств в разнообразных сферах деятельности и для огромного количества задач (от интернет-серфинга до банковских переводов и ведения электронного документооборота). Параллельно с ростом количества вычислительных устройств и программного обеспечения, работающего на этих устройствах, быстрыми темпами росло и количество вредоносных программ.
В настоящий момент существует огромное количество разновидностей вредоносных программ. Одни крадут с устройств пользователей их персональные и конфиденциальные данные (например, логины и пароли, банковские реквизиты, электронные документы). Другие формируют из устройств пользователей так называемые бот-сети (англ. Botnet) для таких атак на другие компьютеры или компьютерные сети, как отказ в обслуживании (англ. DDoS - Distributed Denial of Service) или для перебора паролей методом грубой силы (англ. Bruteforce). Третьи предлагают пользователям платный контент через навязчивую рекламу, спам-рассылки, отправку CMC на платные номера и т.д.
Для борьбы с вредоносными программами, включающей в себя обнаружение вредоносных программ, предотвращение заражения и восстановление работоспособности вычислительных устройств, зараженных вредоносными программами, применяются специализированные программы -антивирусы. Для обнаружения всего многообразия вредоносных программ антивирусные программы используют разнообразные технологии, такие как:
Figure 00000001
статический анализ - анализ программ на вредоносность, исключающий запуск или эмуляцию работы анализируемых программ, на основании данных содержащихся в файлах, составляющих анализируемые программы, при этом при статистическом анализе могут использоваться:
Figure 00000002
сигнатурный анализ - поиск соответствий какого-либо участка кода анализируемых программ известному коду (сигнатуре) из базы данных сигнатур вредоносных программ;
Figure 00000003
белые и черные списки - поиск вычисленных контрольных сумм от анализируемых программ (или их частей) в базе данных контрольных сумм вредоносных программ (черные списки) или базе данных контрольных сумм безопасных программ (белые списки);
Figure 00000004
динамический анализ - анализ программ на вредоносность на основании данных, полученных в ходе исполнения или эмуляции работы анализируемых программ, при этом при динамическом анализе могут использоваться:
Figure 00000005
эвристический анализ - эмуляция работы анализируемых программ, создание журналов эмуляции (содержащих данные по вызовам API-функций, переданным параметрам, участкам кода анализируемых программ и т.д.) и поиск соответствий данных из созданных журналов с данными из базы данных поведенческих сигнатур вредоносных программ;
Figure 00000006
проактивная защита - перехват вызовов API-функций запущенных анализируемых программ, создания журналов поведения анализируемых программ (содержащих данные по вызовам API-функций, переданным параметрам, участкам кода анализируемых программ и т.д.) и поиск соответствий данных из созданных журналов с данными из базы данных вызовов вредоносных программ. Описанные выше способы обнаружения вредоносных программ (особенно динамический анализ) зачастую предъявляют высокие требования к вычислительным ресурсам устройств, на которых используются указанные методы: динамический анализ требователен к производительности вычислительных устройств, статистический анализ - к предоставляемой памяти и дисковому пространству.
Для уверенного обнаружения большинства вредоносных программ в настоящее время приходится использовать последовательно несколько разнообразных способов обнаружения вредоносных программ, что зачастую бывает избыточно.
Например, если вредоносная программа хорошо изучена и для нее разработаны правила обнаружения, то не обязательно применять требовательные к вычислительным ресурсам динамические способы обнаружения, вредоносная программа будет обнаружена быстрыми и несильно требовательными к вычислительным ресурсам методами (например, сигнатурным анализом). И в противовес к вышесказанному в другом примере, если вредоносная программа является новой, не являющейся дальнейшим развитием какого-нибудь вредоносного семейства, то использование «легких» методов не приведет к положительному результату, и надо будет применять высокоэффективные, но и требовательные к вычислительным ресурсам методы.
Таким образом, если имеется возможность предварительно быстро определить, к какой именно категории относится анализируемая вредоносная программа, то появляется возможность обеспечить максимально возможный уровень обнаружения вредоносных файлов при минимально возможном уровне используемых вычислительных ресурсов за счет выбора оптимального способа обнаружения вредоносных файлов.
В патентной публикации US 9288220 B2 описана технология обнаружения вредоносного ПО в сетевом трафике. С этой целью из данных, выбранных из сетевого трафика, выделяют характерные признаки (признаки, характеризующие тип исполняемого файла, поведение исполняемого файла, тип передаваемых по компьютерной сети данных, например тип и размер передаваемых по компьютерной сети данных, команды, выполняемые при исполнении файла, наличие заранее заданных сигнатур в файле и т.д.), в качестве которых может выступать признаковое описание выбранных данных, т.е. вектор (англ. Feature vector), составленный из значений, соответствующих некоторому набору признаков для объекта, содержащего выбранные данные. Применяя модели обнаружения безопасных файлов, обнаружения вредоносных файлов и определения типов вредоносных файлов, предварительно обученные с использованием методов машинного обучения на основании шаблонов, составленных из схожих с упомянутыми характерных признаков, определяют, с каким весом и к какому типу вредоносного ПО относятся выбранные данные, и выносят решение об обнаружении вредоносного ПО в сетевом трафике.
Хотя описанная выше технология хорошо справляется с обнаружением вредоносных файлов, обладающих некоторыми характерными признаками (т.е. данными, описывающими некоторые особенности файлов из некоторой совокупности файлов, например, наличие графического интерфейса, шифрования данных, передачи данных по компьютерной сети и т.д.), схожими с характерными признаками уже известных вредоносных файлов, она не способна справиться с обнаружением вредоносных файлов, имеющих отличные характерные признаки (хотя и схожее поведение) от характерных признаков уже известных вредоносных файлов, кроме того описанная выше технология не раскрывает такие аспекты машинного обучения моделей, как тестирование и переобучение моделей, а также формирование и переформирование (в зависимости от результатов упомянутого выше тестирования) характерных признаков. По сути описанная технология для обнаружения вредоносных файлов может использовать только заданный неизменяемый набор средств обнаружения вредоносных файлов, тем самым являясь неэффективной в некоторых случаях (например, при анализе большого количества файлов или при ограниченных вычислительных ресурсах).
Настоящее изобретение позволяет решать задачу выбора эффективного средства обнаружения вредоносных файлов.
Раскрытие изобретения
Изобретение предназначено для антивирусной проверки файлов.
Технический результат настоящего изобретения заключается в оптимизации использования вычислительных ресурсов при проверке файла на вредоносность.
Еще один технический результат настоящего изобретения заключается в увеличении эффективности выбора средства обнаружения вредоносных файлов.
Еще один технический результат настоящего изобретения заключается в изменении категории анализируемого файла.
В одном из вариантов осуществления данного изобретения реализуется система выбора средства обнаружения вредоносных файлов, которая содержит: (а) средство определения характеристик файла, предназначенное для определения характеристик файла на основании заранее заданных правил; (б) средство формирования отображения файла, предназначенное для формирования отображения файла в вероятностном пространстве с помощью обученной модели отображения на основании определенных характеристик файла; (в) средство поиска, предназначенное для поиска в базе отображений семейства вредоносных файлов на основании сформированного отображения файла; (г) средство выбора, предназначенное для выбора из базы средств обнаружения вредоносных файлов средства обнаружения вредоносных файлов, соответствующее семейству вредоносных файлов, найденному в базе отображений.
В одном варианте осуществления вероятностное пространство представляет собой многомерное пространство, в котором каждой паре характеристик файла и признаков поведения файла ставится в соответствие вероятность того, что файлу, обладающему данными характеристиками, свойственно поведение, описываемое данными признаками поведения.
В другом варианте осуществления отображение файла представляет собой совокупность параметров, описывающие поверхность, помещенную в указанное пространство.
Еще в одном варианте осуществления база отображений содержит по меньшей мере:
Figure 00000007
отображение файла, принадлежащего заданному семейству вредоносных файлов;
Figure 00000008
суммарное отображение всех файлов, принадлежащих заданному семейству вредоносных файлов.
Еще в одном варианте осуществления в базе отображений осуществляется поиск семейства вредоносных файлов по меньшей мере:
Figure 00000009
содержащего файл, чье отображения имеет со сформированным отображением степень схожести выше заранее заданного установленного порогового значения;
Figure 00000010
суммарное отображение всех файлов которого имеет со сформированным отображением степень схожести выше заранее заданного порогового значения.
Еще в одном варианте осуществления система дополнительно содержит средство переобучения, предназначенное для переобучения модели отображения таким образом, чтобы степень схожести сформированного отображения файла с отображением по меньшей мере одного файла из заданного семейства вредоносных файлов была выше, чем до переобучения модели отображения.
Еще в одном варианте осуществления средство выбора дополнительно предназначено для изменения на основании выбранного средства обнаружения вредоносного файла категории файла, если указанному файлу до этого была выставлена определенная категория, при этом в качестве категории может выступать:
Figure 00000011
категория вредоносных файлов;
Figure 00000012
категория безопасных файлов;
Figure 00000013
категория условно-безопасных файлов;
Figure 00000014
категория подозрительных файлов;
Figure 00000015
категория неизвестных файлов.
В одном из вариантов осуществления данного изобретения реализуется способ выбора средства обнаружения вредоносных файлов, при этом способ содержит этапы, которые реализуются с помощью средств из системы по п. 1 и на которых: (а) определяют характеристики файла на основании заранее заданных правил; (б) формируют отображение файла в вероятностном пространстве с помощью обученной модели отображения на основании определенных характеристик файла; (в) осуществляют поиск в базе отображений семейства вредоносных файлов на основании сформированного отображения файла; (г) выбирают из базы средств обнаружения вредоносных файлов средство обнаружения вредоносных файлов, соответствующее семейству вредоносных файлов, найденному в базе отображений.
В другом варианте осуществления вероятностное пространство представляет собой многомерное пространство, в котором каждой паре характеристик файла и признаков поведения файла ставится в соответствие вероятность того, что файлу, обладающий данными характеристиками, свойственно поведение, описываемое данными признаками поведения.
Еще в одном варианте осуществления отображение файла представляет собой совокупность параметров, описывающие поверхность, помещенную в указанное пространство.
Еще в одном варианте осуществления база отображений содержит по меньшей мере:
Figure 00000016
отображение файла, принадлежащего заданному семейству вредоносных файлов;
Figure 00000017
суммарное отображение всех файлов, принадлежащих заданному семейству вредоносных файлов.
Еще в одном варианте осуществления в базе отображений
осуществляется поиск семейства вредоносных файлов по меньшей мере:
Figure 00000018
содержащего файл, чье отображения имеет со сформированным отображением степень схожести выше заранее заданного установленного порогового значения;
Figure 00000019
суммарное отображение всех файлов которого имеет со сформированным отображением степень схожести выше заранее заданного порогового значения.
Еще в одном варианте осуществления дополнительно переобучают
модель отображения таким образом, чтобы степень схожести сформированного отображения файла с отображением по меньшей мере одного файла из заданного семейства вредоносных файлов была выше, чем до переобучения модели отображения.
Еще в одном варианте осуществления с помощью выбранного средства обнаружения вредоносного файла изменяют категорию файла, если указанному файлу до этого была выставлена определенная категория, при этом в качестве категории может выступать:
Figure 00000020
категория вредоносных файлов;
Figure 00000021
категория безопасных файлов;
Figure 00000022
категория условно-безопасных файлов;
Figure 00000023
категория подозрительных файлов;
Figure 00000024
категория неизвестных файлов.
Краткое описание чертежей
Фиг. 1 представляет структурную схему системы выбора средства обнаружения вредоносных файлов.
Фиг. 2 представляет структурную схему способа выбора средства обнаружения вредоносных файлов.
Фиг. 3 представляет схему отображения семейств вредоносных программ в вероятностном пространстве.
Фиг. 4 представляет структурную схему системы обучения модели отображения файла в вероятностном пространстве.
Фиг. 5 представляет структурную схему способа обучения модели отображения файла в вероятностном пространстве.
Фиг. 6 представляет схему выбора файлов на основании сравнения отображений.
Фиг. 7 представляет структурную схему системы обнаружения источников вредоносной активности.
Фиг. 8 представляет структурную схему способа обнаружения источников вредоносной активности.
Фиг. 9 представляет пример компьютерной системы общего назначения, персональный компьютер или сервер.
Хотя изобретение может иметь различные модификации и альтернативные формы, характерные признаки, показанные в качестве примера на чертежах, будут описаны подробно. Следует понимать, однако, что цель описания заключается не в ограничении изобретения конкретным его воплощением. Наоборот, целью описания является охват всех изменений, модификаций, входящих в рамки данного изобретения, как это определено приложенной формуле.
Описание вариантов осуществления изобретения
Объекты и признаки настоящего изобретения, способы для достижения этих объектов и признаков станут очевидными посредством отсылки к примерным вариантам осуществления. Однако настоящее изобретение не ограничивается примерными вариантами осуществления, раскрытыми ниже, оно может воплощаться в различных видах. Сущность, приведенная в описании, является ничем иным, как конкретными деталями, необходимыми для помощи специалисту в области техники в исчерпывающем понимании изобретения, и настоящее изобретение определяется в объеме приложенной формулы.
Введем ряд определений и понятий, которые будут использоваться при описании вариантов осуществления изобретения.
Безопасный файл - файл, исполнение которого заведомо не способно привести к несанкционированному уничтожению, блокированию, модификации, копированию компьютерной информации или нейтрализации средств защиты компьютерной информации.
Вредоносный файл - файл, исполнение которого заведомо способно привести к несанкционированному уничтожению, блокированию, модификации, копированию компьютерной информации или нейтрализации средств защиты компьютерной информации.
Вредоносное поведение исполняемого файла - совокупность действий, которые могут быть выполнены при исполнении упомянутого файла и которые заведомо способны привести к несанкционированному уничтожению, блокированию, модификации, копированию информации или нейтрализации средств защиты компьютерной информации.
Вредоносная активность исполняемого файла - совокупность действий, выполненных упомянутым файлом в соответствии с его вредоносным поведением.
Подозрительный файл - файл, исполнение которого способно с некоторой вероятностью привести к несанкционированному уничтожению, блокированию, модификации, копированию компьютерной информации или нейтрализации средств защиты компьютерной информации, при этом указанная вероятность может быть оценена на основании данных о самом файле (источник получения файла, разработчик, популярность среди пользователя) или по данным о поведении операционной системы или приложений при исполнении файла.
Условно-безопасный файл - файл, исполнение которого по заявленному функционалу не должно привести к несанкционированному уничтожению, блокированию, модификации, копированию компьютерной информации или нейтрализации средств защиты компьютерной информации, однако при несанкционированном использовании указанного файла или использовании указанного файла отличными от заявленных способами способно привести к уничтожению, блокированию, модификации, копированию компьютерной информации или нейтрализации средств защиты компьютерной информации.
Фиг. 1 представляет структурную схему системы выбора средства обнаружения вредоносных файлов.
Структурная схема системы выбора средства обнаружения вредоносных файлов состоит из файла 101, средства обнаружения вредоносных файлов 102, средства определения характеристик файла 110, средства формирования отображения файла 120, модели отображения 121, средства поиска 130, базы отображений 131, средства выбора 140, базы средств обнаружения вредоносных файлов 141, средства переобучения 150.
Средство определения характеристик файла 110 предназначено для определения характеристик файла 101 на основании заранее заданных правил и передачи определенных характеристик файла 101 средству формирования отображения файла 120.
В одном из вариантов реализации системы в качестве характеристик файла 101 выступает по меньшей мере:
Figure 00000025
мета-информация файла 101 (размер файла, тип файла, даты создания, модификации и использования, права доступа и т.д.);
Figure 00000026
структуры файла 101 (данные о заголовке файла, информация о секциях файла, такие как размер и тип секции, название и т.д.);
Figure 00000027
дерево распаковки файла 101 (данные об упаковщиках, которыми упаковывался файл, такие как название и версия упаковщика, параметры упаковки и т.д.);
Figure 00000028
байтовое представление файла 101;
Figure 00000029
дизассемблированное представление файла 101;
Figure 00000030
таблицы импорта/экспорта файла 101;
Figure 00000031
строковые константы, содержащиеся в файле 101;
Figure 00000032
результаты работы ручных экспертных эвристик над файлом 101 (при этом ручные экспертные эвристики представляют собой совокупность правил поиска разнообразных зависимостей и вычисления разнообразных весовых коэффициентов и т.п.); и т.д.
Например, из файла 101 могут определяться следующие характеристики:
Figure 00000033
размер файла (в байтах);
Figure 00000034
количество секций;
Figure 00000035
наличие подписи;
Figure 00000036
энтропия (частное распределение символов, лексем и т.д. и отклонение указанных распределений от нормального);
Figure 00000037
размер таблицы импорта;
Figure 00000038
количество ассемблерных инструкций jmp;
Figure 00000039
флаг факта того, что файл 101 содержит последовательность байт 0xABCDEF1313.
Средство формирования отображения файла 120 предназначено для формирования отображения файла 101 в вероятностном пространстве с помощью обученной модели отображения 121 на основании определенных характеристик файла 101 и передачи сформированного отображения файла 101 средству поиска 130.
В одном из вариантов реализации системы вероятностное пространство представляет собой многомерное пространство, в котором каждой паре характеристик файла 101 и признаков поведения файла 101 ставится в соответствие вероятность того, что файлу 101, обладающему данными характеристиками, свойственно поведение, описываемое данными признаками поведения.
Еще в одном из вариантов реализации системы отображение файла 101 представляет собой совокупность параметров, описывающих поверхность, помещенную в указанное пространство.
Еще в одном из вариантов реализации системы в качестве признаков поведения файла 101 выступают по меньшей мере:
Figure 00000040
структура и содержимое сетевого трафика, генерируемого исполняемым файлом 101;
Figure 00000041
состояние операционной системы в процессе и после завершения исполнения файла 101 (в том числе использование операционной системой вычислительных ресурсов, таких как оперативная
память или загрузка процессора, загруженные динамические библиотеки, запущенные служебные приложения и т.д.);
Figure 00000042
информация о взаимодействии пользователя с исполняемым файлом 101;
Figure 00000043
результаты работы ручных экспертных эвристик над файлом 101; и т.д.
Еще в одном из вариантов реализации системы модель отображения 121 обучалась с использованием по меньшей мере:
Figure 00000044
методов глубокого обучения (англ. Deep Learning);
Figure 00000045
генетических алгоритмов;
Figure 00000046
методов отображений (англ. Embeddings), таких как скрытое векторное пространство (англ. Latent vector space), скрытое распределение (англ. Latent distribution);
Figure 00000047
методов обучения с подкреплением (англ. Reinforcement learning). Еще в одном из вариантов реализации системы отображение файла 101 формируется с использованием по меньшей мере одного из алгоритмов:
Figure 00000048
глубокие нейронные сети (англ. Deep neural networks);
Figure 00000049
свертки (англ. Convolutions);
Figure 00000050
рекуррентные нейронные сети (англ. Recurrent neural network; RNN);
Figure 00000051
нейрокодировщики (англ. Encoders);
Figure 00000052
вариационные автокодировщики (англ. Variational autoencoder);
Figure 00000053
Байесовские сети (англ. Bayesian networks);
Figure 00000054
обучение похожести (англ. Similarity learning);
Figure 00000055
представления в скрытом гиперболическом пространстве (как частный случай представления в скрытом неевклидовом пространстве, англ. Hyperbolic embeddings).
Средство поиска 130 предназначено для поиска в базе отображений 131 семейства вредоносных файлов на основании сформированного отображения файла 101 и передачи результатов поиска средству выбора 140.
В одном из вариантов реализации системы база отображений 131 содержит по меньшей мере:
Figure 00000056
отображение файла, принадлежащего заданному семейству вредоносных файлов;
Figure 00000057
суммарное отображение всех файлов, принадлежащих заданному семейству вредоносных файлов.
Еще в одном из вариантов реализации системы в базе отображений 131 осуществляется поиск семейства вредоносных файлов по меньшей мере:
Figure 00000058
содержащего файл, чье отображения имеет со сформированным отображением файла 101 степень схожести выше заранее заданного установленного порогового значения;
Figure 00000059
суммарное отображение всех файлов которого имеет со сформированным отображением файла 101 степень схожести выше заранее заданного порогового значения.
Еще в одном из вариантов реализации системы для поиска отображений файлов используются по меньшей мере:
Figure 00000060
поиск ближайших соседей (англ. Nearest neighbors search), такие как местно-чувствительное хэширование (англ. Locality-sensitive hashing), шариковые деревья (англ. Ball-trees) и т.д.;
Figure 00000061
оценка плотности (англ. Density estimation), такие как ядерная оценка плотности (англ. Kernel density estimation), эскиз MinCount (англ. MinCount sketch).
Более подробно результаты поиска см. Фиг. 3.
Средство выбора 140 предназначено для выбора из базы средств обнаружения вредоносных файлов 141 средства обнаружения вредоносных файлов 102, соответствующее семейству вредоносных файлов, найденному в базе отображений 131.
Средство выбора 140 дополнительно предназначено для изменения категории анализируемого файла 101, если указанному файлу 101 до этого была выставлена определенная категория, при этом в качестве категории может выступать:
Figure 00000062
категория вредоносных файлов;
Figure 00000063
категория безопасных файлов;
Figure 00000064
категория условно-безопасных файлов;
Figure 00000065
категория подозрительных файлов;
Figure 00000066
категория неизвестных файлов.
Средство переобучения 150 предназначено для переобучения модели отображения 121 таким образом, чтобы степень схожести сформированного отображения файла 101 с отображением по меньшей мере одного файла из заданного семейства вредоносных файлов была выше, чем до переобучения модели отображения 121.
В одном из вариантов реализации системы переобучение модели отображения 121 может заключаться по меньшей мере в:
Figure 00000067
обучении модели отображения 121 с нуля;
Figure 00000068
дообучении модели отображения 121, корректируя отображения известных файлов 101 и обучая новые.
Эффективный выбор средства обнаружения вредоносных файлов позволяет решить несколько проблем в зависимости от области своего применения:
Figure 00000069
снизить использование вычислительных ресурсов при выполнении поиска вредоносных файлов за счет того, что для каждого файла или группы файлов используется не весь спектр доступных средств обнаружения, а только специализированные, обладающие наиболее высокой эффективностью (англ. detection rate);
Figure 00000070
повысить эффективность работы вирусных аналитиков (при ручном анализе файлов на вредоносность) за счет того, что из заданной выборки файлов становится возможным выбирать новые файлы, не относящиеся к уже известным вредоносным семействам, а значит имеющим малоизвестную или неизвестную структуру или поведение.
Например, простейший сценарий использования для поиска файлов с новым поведением (один из технических результатов настоящего изобретения - сортировка анализируемых файлов на файлы с известным поведением и структурой, для которых уже известны эффективные средства обнаружения, и файлы с неизвестным поведением или структурой, для которых неизвестны эффективные средства обнаружения, и для обнаружения вредоносного файла требуется применять совместно несколько средств обнаружения, что является неоптимальным) может заключаться в следующем:
1) для всех ранее отправленных на динамический анализ файлов 101 вычисляются вектора параметров поведения на основании журналов поведения logi
Figure 00000071
где ML2 - обученная модель отображения, работающая с параметрами поведения файла 101 logi,
и сохраняются в базу;
2) для всех файлов 101, которые еще не прошли описанный выше анализ, вычисляется
Figure 00000072
где ML1 - обученная модель отображения, работающая с характеристиками файла 101 filei;
3) если доступны вычислительные ресурсы на динамический анализ K файлов, то из всех ранее необработанных файлов выбираются K таких, что для них расстояние до ближайшего ранее известного журнала поведения файла минимально (более подробное описание см. Фиг. 4):
Figure 00000073
В реальных задачах:
1) может использоваться значительно более сложное признаковое описание файла 101 (как характеристики файла 101, так и параметры поведения файла 101);
2) может использоваться значительно более сложная архитектура моделей ML1, ML2 (EncF, DecF, EncL, DecL), где
EncF - функция отображения файла в вероятностное пространство,
EncL - функция отображения журнала поведения файла в вероятностное пространство,
DecF - функция отображения данных из вероятностного пространства в файл,
DecL - функция отображения данных из вероятностного пространства в журнал поведения файла;
3) может использоваться значительно более гибкая функция расстояния (например, на выходе модели MLl, ML2 возвращают параметризованное распределение в бесконечномерном пространстве, и вычисляется ассиметричная метрика похожести между двумя распределениями);
4) может быть модифицирован принцип построения функций ML1, ML2, например, вместо обучения 2х моделей может обучаться 4 модели:
Figure 00000074
и при обучении стремятся минимизировать расстояния между исходными и декодированными признаковыми описаниями:
Figure 00000075
и максимизировать соответствующие расстояния для различных пар журналов поведения файлов;
5) для одного файла может храниться несколько соответствующих ему журналов поведения (поведение файла может меняться при разных запусках) и учитываться при оценке схожести;
6) могут храниться не все представления с ранее обработанных файлов, а, например, представления некоторых представителей или центроиды (для экономии памяти/ускорения поиска);
7) может использовать цепочку приоритизаций:
Легковесный статический анализ → Легковесный эмулятор →
Глубокий статический анализ → Продолжительная эмуляция
и по аналогичному принципу обучить модели ML1(filelight), ML2(loglight), ML1(filedeep), ML2(logdeep).
В результате после каждого этапа обработки отсеиваются наиболее знакомые объекты (т.е. приоритизировать отправку на глубокий статический анализ на основе усреднения/объединения известных ML1(filelight), ML2(loglight)).
Фиг. 2 представляет структурную схему способа выбора средства обнаружения вредоносных файлов.
Структурная схема способа выбора средства обнаружения вредоносных файлов содержит этап 210, на котором определяют характеристики файла, этап 220, на котором формируют отображение файла, этап 230, на котором осуществляют поиск, этап 240, на котором выбирают средство обнаружения вредоносных файлов, этап 250, на котором переобучают модель обнаружения.
На этапе 210 с помощью средства определения характеристик файла 110 определяют характеристики файла 101 на основании заранее заданных правил.
На этапе 220 с помощью средства формирования отображения файла 110 формируют отображение файла 101 в вероятностном пространстве с помощью обученной модели отображения 121 на основании определенных на этапе 210 характеристик файла.
На этапе 230 с помощью средства поиска 130 осуществляют поиск в базе отображений 131 семейства вредоносных файлов на основании сформированного на этапе 220 отображения файла 101.
На этапе 240 с помощью средства выбора 140 выбирают из базы средств обнаружения вредоносных файлов 141 средство обнаружения вредоносных файлов 102, соответствующее семейству вредоносных файлов, найденному на этапе 230 в базе отображений 131.
На этапе 250 с помощью средства переобучения 150 переобучают модель отображения 121 таким образом, чтобы степень схожести сформированного отображения файла 101 с отображением по меньшей мере одного файла из заданного семейства вредоносных файлов была выше, чем до переобучения модели отображения 121.
На этапе 240 с помощью средства выбора 140 с помощью выбранного средства обнаружения вредоносного файла изменяют категорию анализируемого файла 101, если указанному файлу до этого была выставлена определенная категория, при этом в качестве категории может выступать:
Figure 00000076
категория вредоносных файлов;
Figure 00000077
категория безопасных файлов;
Figure 00000078
категория условно-безопасных файлов;
Figure 00000079
категория подозрительных файлов;
Figure 00000080
категория неизвестных файлов.
Фиг. 3 представляет схему отображения семейств вредоносных программ в вероятностном пространстве.
Схема отображения семейств вредоносных программ в вероятностном пространстве содержит отображение файлов семейства AdWare.Win32.SmartInstaller 310, отображение файлов семейства Worm.Win32.Vobrus 320, отображение файлов семейства Backdoor.Win32.DarkKomet 330, отображение файлов семейства Trojan.Win32.ShipUp 340, отображение файлов семейства Trojan.Win32.AntiAV 350, отображение файлов семейства Trojan.Win32.Bayrod 360, где 301 - отображение файлов вредоносных коллекций, построенных на основании характеристик указанных файлов, 302 - отображение файлов вредоносных коллекций, построенных на основании признаков поведения указанных файлов, 303 - отображение файлов заданного вредоносного семейства (см. выше), построенных на основании характеристик указанных файлов, 304 - отображение файлов заданного вредоносного семейства, построенных на основании признаков поведения указанных файлов.
На Фиг. 3 представлена схема отображения файлов из некоторых вредоносных семейств. Файлы отдельных вредоносных семейств имеют как схожий функционал (поведение исполняемого файла), так и структуру, что в свою очередь приводит к тому, что отображения файлов одного семейства группируются в компактной области вероятностного пространства.
Если отображение некоторого файла 101 также лежит в области, занимаемой отображениями файлов какого-нибудь вредоносного семейства, то с большой долей вероятности можно утверждать, что указанный файл 101 также может принадлежать указанному вредоносному семейству.
Если отображение файла некоторого файла 101 лежит вне областей, занимаемых отображениями файлов вредоносных семейств, то с большой долей вероятности можно утверждать, что указанный файл 101 является новой разновидностью, не принадлежащей к известным вредоносным семействам.
Если в первом случае для проверки того, что некоторый файл 101 является вредоносным, достаточно использовать одно из средств обнаружения вредоносных файлов, специализированных для обнаружения с высокой долей вероятности вредоносных файлов заданного вредоносного семейства, то во втором случае требуется или более тщательный ручной анализ вирусным аналитиком, или использование нескольких средств обнаружения вредоносных файлов, что может требовать значительных трат вычислительных ресурсов.
Фиг. 4 представляет структурную схему системы обучения модели отображения файла в вероятностном пространстве.
Структурная схема системы обучения модели отображения файла в вероятностном пространстве состоит из обучающей выборки 401, содержащей по меньшей мере один файл 101, модели отображения 121, базы отображений 131, базы средств обнаружений 141, средства определения характеристик файла 110, средства определения признаков поведения файла 410, средства формирования отображения файла 420, средства обнаружения 430, средства обучения 440.
Средство определения признаков поведения файла 410 предназначено для определения признаков поведения файла 101 на основании журнала действий, полученного на основании анализа исполнения файла 101 и передачи определенных признаков поведения файла 101 средству формирования отображения файла 420.
Например, из файла 101 могут определяться следующие признаки поведения файла 101:
Figure 00000081
количество запущенных потоков;
Figure 00000082
флаг индикации, что осуществлялась запись в реестр;
Figure 00000083
количество объектов, скачанных из компьютерной сети (локальной или глобальной);
Figure 00000084
флаг индикации, что было обращение к ловушкам (англ. Honeypot);
Figure 00000085
флаг индикации, что программа отрисовала графический интерфейс (с помощью использования соответствующего функционала GUI);
Figure 00000086
флаг индикации успешного завершения программы;
Figure 00000087
максимальное потребление оперативной памяти. Средство формирования отображения файла 420 предназначено для формирования отображения №1 файла 101 в вероятностном пространстве на основании определенных характеристик файла 101 и отображения №2 файла 101 в вероятностном пространстве на основании определенных признаков поведения файла 101 и передачи сформированных отображений файла средству обучения 440.
В одном из вариантов реализации системы вероятностное пространство представляет собой многомерное пространство, в котором каждой паре характеристик файла 101 и признаков поведения файла 101 ставится в соответствие вероятность того, что файлу 101, обладающему данными характеристиками, свойственно поведение, описываемое данными признаками поведения.
Еще в одном из вариантов реализации системы отображение файла 101 представляет собой совокупность параметров, описывающих поверхность, помещенную в указанное пространство (к примеру коэффициентов в многочлене второго порядка).
Средство обнаружения 430 предназначено для детектирования файла 101, в результате которого определяются вредоносное семейство, к которому относится файл 101, и по меньшей мере один способ обнаружения вредоносного файла, который дал положительный результат при детектировании файла 101, и передачи определенной информации средству обучения 440.
Средство обучения 440 предназначено для обучения модели отображения 121 на основании сформированных отображения №1 и отображения №2 файла 101.
В одном из вариантов реализации системы средство обучения 440 дополнительно предназначено для добавления в базу отображений 131, которая содержит по меньшей мере:
Figure 00000088
отображение файла, принадлежащего заданному семейству вредоносных файлов;
Figure 00000089
суммарное отображение всех файлов, принадлежащих заданному семейству вредоносных файлов;
сформированные отображения файла 101, соответствующие определенному вредоносному семейству.
Еще в одном из вариантов реализации системы средство обучения 440 дополнительно предназначено для добавления в базу средств обнаружения 141
средства обнаружения, определенного при детектировании файла 101 и соответствующего определенному вредоносному семейству.
Пример простого варианта обучения модели отображения 121:
Figure 00000090
где:
ML1 - обученная модель отображения 121, работающая с характеристиками файла 401;
ML2 - обученная модель отображения 121, работающая с признаками поведения 401;
Ffile - характеристики файла 401;
Flog - признаки поведения файла 401;
Wf - настраиваемые (обучаемые) параметры модели ML1;
Wl - настраиваемые (обучаемые) параметры модели ML2.
Например:
пусть Wf=W, тогда
Figure 00000091
Берется N=1000 файлов и передается на эмулятор поведения файлов, после отработки эмулятора поведения файлов формируются журналы действий:
Figure 00000092
После чего определяется расстояние между двумя объектами (файлами или журнала поведения файлов):
Figure 00000093
Figure 00000094
С помощью процесса обучения модели отображения 121 подбираются такие параметры Wf, Wl, что усредненное расстояние между отображениями файла 401 и соответствующим ему журналом действий (или иначе между характеристиками файла 401 и параметрами поведения файла 401) будет меньше заранее заданного порогового значения, а между файлом 401 и чужим журналом действия другого файла - больше заранее заданного порогового значения.
Например, численно минимизируется величина ошибки:
Figure 00000095
Фиг. 5 представляет структурную схему способа обучения модели отображения файла в вероятностном пространстве.
Структурная схема способа обучения модели отображения файла в вероятностном пространстве содержит этап 210, на котором определяют характеристики файла, этап 510, на котором определяют признаки поведения файла, этап 520, на котором формируют отображение файла, этап 530, на котором детектируют файл, этап 540, на котором обучают модель отображения.
На этапе 510 с помощью средства определения признаков поведения файла 410 определяют признаки поведения файла 101 на основании журнала действий, полученного на основании анализа исполнения файла 101.
На этапе 520 с помощью средства формирования отображения файла 420 формируют отображение №1 файла 101 в вероятностном пространстве на основании определенных на этапе 210 характеристик файла 101 и отображение №2 файла 101 в вероятностном пространстве на основании определенных на этапе 410 признаков поведения файла 101.
На этапе 530 с помощью средства обнаружения 430 детектируют файл 101, определяя вредоносное семейство, к которому относится файл 101, и по меньшей мере один способ обнаружения вредоносного файла, который дал положительный результат при детектировании файла 101.
На этапе 540 с помощью средства обучения 440 в случае детектирования на этапе 530 файла 101 обучают модель отображения на основании сформированных на этапе 520 отображения №1 и отображения №2 файла 101.
Дополнительно на этапе 540 в случае детектирования на этапе 530 файла 101 добавляют в базу отображений 131, которая содержит по меньшей мере:
Figure 00000096
отображение файла, принадлежащего заданному семейству вредоносных файлов;
Figure 00000096
суммарное отображение всех файлов, принадлежащих заданному семейству вредоносных файлов;
сформированные на этапе 520 отображения файла 101, соответствующие определенному вредоносному семейству.
Дополнительно на этапе 540 в случае детектирования на этапе 530 файла 101 добавляют в базу средств обнаружения 141 средство обнаружения, определенное на этапе 530 при детектировании файла 101 и соответствующее определенному вредоносному семейству.
Более подробно основной принцип обучения см. на Фиг. 6.
Фиг. 6 представляет схему выбора файлов на основании сравнения отображений.
Схема выбора файлов на основании сравнения отображений состоит из совокупности файлов для анализа 610, которая содержит анализируемый файл 611, отображения файлов 620, совокупность вредоносных файлов 630, которая содержит схожие с анализируемым файлом 611 вредоносные файлы 631.
Для анализа файлов на вредоносность формируется некоторая выборка файлов 610 из которой последовательно выбирается по одному файлу 611.
Для каждого файла определяются его характеристики (210) и формируется отображение файла в вероятностном пространстве (220), после чего производится сравнение сформированного отображения (620) среди отображений, рассчитанных по заранее заданной совокупности вредоносных файлов (630).
При этом каждому анализируемому файлу 611 может ставиться в соответствие несколько файлов 631 из выборки вредоносных файлов 630, имеющих схожие отображения с отображением указанного файла 611.
Алгоритмы формирования отображения файла можно подобрать таким образом, чтобы файлы, обладающие схожей структурой или схожим поведением при их исполнении, имели схожие отображения (т.е. отображения, находящиеся в одной области вероятностного пространства).
В этом случае возможно не только определять, является ли файл 611 вредоносным (т.е. похож он на другие вредоносные файлы 631), но и относится ли указанный файл 611 к какому-то вредоносному семейству или нет.
Еще в одном из вариантов реализации изобретения описанные выше системы и способы (Фиг. 1 - Фиг. 6) могут использоваться для классификации и кластеризации вредоносных коллекций, в результате чего вся совокупность вредоносных файлов разделяется не несколько разных вредоносных семейств, которые характеризуются схожим составом или поведением файлов.
Фиг. 7 представляет структурную схему системы обнаружения источников вредоносной активности.
Структурная схема системы обнаружения источников вредоносной активности состоит из исполняемых файлов операционной системы 701, модели отображения 121, базы отображений 131, средства определения признаков поведения файлов 710, средства формирования отображения файлов 720, средства поиска 730, средства выделения характеристик файлов 740, средства выявления вредоносных файлов 750, средства переобучения 760.
Средство определения признаков поведения файлов 710 предназначено для определения признаков поведения файлов 701 (как совокупности файлов, так и единичных файлов), работающих в операционной системе, на основании журнала действий, полученного на основании анализа работы операционной системы и передачи определенных признаков поведения файлов 701 средству формирования отображения файлов 720.
Средство формирования отображения файлов 720 предназначено для формирования отображения файлов 701 в вероятностном пространстве с помощью обученной модели отображения 121 на основании определенных признаков поведения файлов 701 и передачи сформированного отображения файлов 701 средству поиска 730.
В одном из вариантов реализации вероятностное пространство представляет собой многомерное пространство, в котором каждой паре характеристик файла и признаков поведения файла ставится в соответствие вероятность того, что файлу, обладающему данными характеристиками, свойственно поведение, описываемое данными признаками поведения.
Еще в одном из вариантов реализации системы отображение файла представляет собой совокупность параметров, описывающих поверхность, помещенную в указанное пространство.
Средство поиска 730 предназначено для осуществления поиска в базе отображений 131 семейства вредоносных файлов на основании сформированного отображения файлов и передачи результатов поиска средству выделения характеристик файлов 740.
В одном из вариантов реализации системы в базе отображений 131 осуществляется поиск семейства вредоносных файлов по меньшей мере:
Figure 00000096
содержащего файл, отображение которого имеет со сформированным отображением степень схожести выше заранее заданного установленного порогового значения;
Figure 00000096
суммарное отображение всех файлов которого имеет со сформированным отображением степень схожести выше заранее заданного порогового значения.
Средство выделения характеристик файлов 740 предназначено для выделения характеристик файлов, соответствующих найденному в базе отображений 131 семейству вредоносных файлов и передачи выделенных характеристик файлов средству выявления вредоносных файлов 750.
Средство выявления вредоносных файлов 750 предназначено для осуществления поиска вредоносного файла, являющегося источником вредоносной активности в операционной системе, соответствующего выделенным характеристикам файлов.
Средство переобучения 760 предназначено для переобучения модели отображения 121 таким образом, чтобы степень схожести сформированного отображения файлов с отображением по меньшей мере одного файла из заданного семейства вредоносных файлов была выше, чем до переобучения модели отображения 121.
В одном из вариантов реализации системы источником вредоносной угрозы может выступать не вредоносный файл, как таковой, а сетевой ресурс, который по меньшей мере:
Figure 00000096
являлся источником атаки на вычислительное устройство (например, DDoS атака, внедрение эксплойтов и т.д.);
Figure 00000096
является источником распространения вредоносных файлов на вычислительном устройстве (например, при использовании вредоносных программ-загрузчиков и т.д.).
Т.е. на основании анализа определенных признаков поведения файлов 701 операционной системы определяется, что на вычислительном устройстве имела место вредоносная активность, источником которой был определенный сетевой ресурс (сайт, с которого был скачан вредоносный файл, IP-адреса, с которых производилась DDoS-атака и т.д.).
Описанная выше система позволяет таким образом бороться и противодействовать целевым атакам (англ. APT - Advanced persistent threat).
Фиг. 8 представляет структурную схему способа обнаружения источников вредоносной активности.
Структурная схема способа обнаружения источников вредоносной активности содержит этап 810, на котором определяют признаки поведения файлов, этап 820, на котором формируют отображения файлов, этап 830, на котором осуществляют поиск, этап 840, на котором выделяют характеристики файлов, этап 850, на котором определяют вредоносные файлы, этап 860, на котором переобучают модель обнаружения.
На этапе 810 с помощью средства определения признаков поведения файлов 710 определяют признаки поведения файлов 701, работающих в операционной системе, на основании журнала действий, полученного на основании анализа работы операционной системы.
На этапе 820 с помощью средства формирования отображения файлов 720 формируют отображение файлов 701 в вероятностном пространстве с помощью обученной модели отображения 121 на основании определенных на этапе 810 признаков поведения файлов 701.
На этапе 830 с помощью средства поиска 730 осуществляют поиск в базе отображений 131 семейства вредоносных файлов на основании сформированного на этапе 820 отображения файлов 701.
На этапе 840 с помощью средства выделения характеристик файлов 740 выделяют характеристики файлов, соответствующих найденному на этапе 830 в базе отображений 141 семейству вредоносных файлов.
На этапе 850 с помощью средства выявления вредоносных файлов 750 находят вредоносный файл, являющийся источником вредоносной активности в операционной системе, соответствующий выделенным на этапе 840 характеристикам файлов.
На этапе 860 переобучают модель отображения 121 таким образом, чтобы степень схожести сформированного отображения файлов 701 с отображением по меньшей мере одного файла из заданного семейства вредоносных файлов была выше, чем до переобучения модели отображения 121.
Фиг. 9 представляет пример компьютерной системы общего назначения, персональный компьютер или сервер 20, содержащий центральный процессор 21, системную память 22 и системную шину 23, которая содержит разные системные компоненты, в том числе память, связанную с центральным процессором 21. Системная шина 23 реализована, как любая известная из уровня техники шинная структура, содержащая в свою очередь память шины или контроллер памяти шины, периферийную шину и локальную шину, которая способна взаимодействовать с любой другой шинной архитектурой.
Системная память содержит постоянное запоминающее устройство (ПЗУ) 24, память с произвольным доступом (ОЗУ) 25. Основная система ввода/вывода (BIOS) 26, содержит основные процедуры, которые обеспечивают передачу информации между элементами персонального компьютера 20, например, в момент загрузки операционной системы с использованием ПЗУ 24.
Персональный компьютер 20 в свою очередь содержит жесткий диск 27 для чтения и записи данных, привод магнитных дисков 28 для чтения и записи на сменные магнитные диски 29 и оптический привод 30 для чтения и записи на сменные оптические диски 31, такие как CD-ROM, DVD-ROM и иные оптические носители информации. Жесткий диск 27, привод магнитных дисков 28, оптический привод 30 соединены с системной шиной 23 через интерфейс жесткого диска 32, интерфейс магнитных дисков 33 и интерфейс оптического привода 34 соответственно. Приводы и соответствующие компьютерные носители информации представляют собой энергонезависимые средства хранения компьютерных инструкций, структур данных, программных модулей и прочих данных персонального компьютера 20.
Настоящее описание раскрывает реализацию системы, которая использует жесткий диск 27, сменный магнитный диск 29 и сменный оптический диск 31, но следует понимать, что возможно применение иных типов компьютерных носителей информации 56, которые способны хранить данные в доступной для чтения компьютером форме (твердотельные накопители, флеш карты памяти, цифровые диски, память с произвольным доступом (ОЗУ) и т.п.), которые подключены к системной шине 23 через контроллер 55.
Компьютер 20 имеет файловую систему 36, где хранится записанная операционная система 35, а также дополнительные программные приложения 37, другие программные модули 38 и данные программ 39. Пользователь имеет возможность вводить команды и информацию в персональный компьютер 20 посредством устройств ввода (клавиатуры 40, манипулятора «мышь» 42).
Могут использоваться другие устройства ввода (не отображены): микрофон, джойстик, игровая консоль, сканер и т.п. Подобные устройства ввода по своему обычаю подключают к компьютерной системе 20 через последовательный порт 46, который в свою очередь подсоединен к системной шине, но могут быть подключены иным способом, например, при помощи параллельного порта, игрового порта или универсальной последовательной шины (USB). Монитор 47 или иной тип устройства отображения также подсоединен к системной шине 23 через интерфейс, такой как видеоадаптер 48. В дополнение к монитору 47, персональный компьютер может быть оснащен другими периферийными устройствами вывода (не отображены), например, колонками, принтером и т.п.
Персональный компьютер 20 способен работать в сетевом окружении, при этом используется сетевое соединение с другим или несколькими удаленными компьютерами 49. Удаленный компьютер (или компьютеры) 49 являются такими же персональными компьютерами или серверами, которые имеют большинство или все упомянутые элементы, отмеченные ранее при описании существа персонального компьютера 20, представленного на Фиг. 9. В вычислительной сети могут присутствовать также и другие устройства, например, маршрутизаторы, сетевые станции, пиринговые устройства или иные сетевые узлы.
Сетевые соединения могут образовывать локальную вычислительную сеть (LAN) 50 и глобальную вычислительную сеть (WAN). Такие сети применяются в корпоративных компьютерных сетях, внутренних сетях компаний и, как правило, имеют доступ к сети Интернет.В LAN- или WAN-сетях персональный компьютер 20 подключен к локальной сети 50 через сетевой адаптер или сетевой интерфейс 51. При использовании сетей персональный компьютер 20 может использовать модем 54 или иные средства обеспечения связи с глобальной вычислительной сетью, такой как Интернет. Модем 54, который является внутренним или внешним устройством, подключен к системной шине 23 посредством последовательного порта 46.
Следует уточнить, что сетевые соединения являются лишь примерными и не обязаны отображать точную конфигурацию сети, т.е. в действительности существуют иные способы установления соединения техническими средствами связи одного компьютера с другим.
В заключение следует отметить, что приведенные в описании сведения являются примерами, которые не ограничивают объем настоящего изобретения, определенного формулой.

Claims (23)

1. Способ выбора средства обнаружения вредоносных файлов, при этом способ содержит этапы, на которых
а) определяют характеристики файла и признаки поведения файла;
б) определяют совокупность параметров, описывающих поверхность, помещённую в вероятностное пространство, на основании определённых характеристик файла и признаков поведения файла;
в) формируют отображение файла путем построения поверхности в указанном пространстве на основании определенной совокупности параметров;
г) выполняют поиск в базе отображений семейства вредоносных файлов на основании сформированного отображения файла;
д) выбирают из базы средств обнаружения вредоносных файлов средства обнаружения вредоносных файлов, соответствующие семейству вредоносных файлов, найденному в базе отображений.
2. Способ по п. 1, по которому под характеристиками файла понимают по меньшей мере одно из мета-информации файла, размера файла, типа файла, даты создания, модификации и использования, структуры файла, дерева распаковки файла, байтового представления файла, дизассемблированного представления файла, таблицы импорта/экспорта файла, строковых констант, содержащихся в файле, результата работы ручных экспертных эвристик над файлом, количества секций, наличия подписи, энтропии символов, размера таблицы импорта, количества ассемблерных инструкций.
3. Способ по п. 1, по которому под признаками поведения файла понимают количество запущенных потоков, флаг индикации, что осуществлялась запись в реестр, количество объектов, скачанных из компьютерной сети, флаг индикации, что было обращение к ловушкам, флаг индикации, что программа отрисовала графический интерфейс, флаг индикации успешного завершения программы, максимальное потребление оперативной памяти, структуру и содержимое сетевого трафика, генерируемого исполняемым файлом, состояние операционной системы в процессе и после завершения исполнения файла, информацию о взаимодействии пользователя с исполняемым файлом.
4. Способ по п. 1, по которому вероятностное пространство представляет собой многомерное пространство, в котором каждой паре характеристик файла и признаков поведения файла ставится в соответствие вероятность того, что файлу, обладающему данными характеристиками, свойственно поведение, описываемое данными признаками поведения.
5. Способ по п. 4, по которому параметрами, которые описывают поверхность, помещённую в указанное пространство, являются коэффициенты в многочлене второго порядка.
6. Способ по п. 1, по которому база отображений содержит по меньшей мере
• отображение файла, принадлежащего заданному семейству вредоносных файлов;
• суммарное отображение всех файлов, принадлежащих заданному семейству вредоносных файлов.
7. Способ по п. 1, по которому в базе отображений осуществляется поиск семейства вредоносных файлов, по меньшей мере
• содержащего файл, чьё отображение имеет со сформированным отображением степень схожести выше заранее заданного установленного порогового значения;
• суммарное отображение всех файлов которого имеет со сформированным отображением степень схожести выше заранее заданного порогового значения.
8. Способ по п. 1, по которому дополнительно переобучают отображения таким образом, чтобы степень схожести сформированного отображения файла с отображением по меньшей мере одного файла из заданного семейства вредоносных файлов была выше, чем до переобучения модели отображения.
9. Способ по п. 1, по которому изменяют на основании выбранного средства обнаружения вредоносного файла категорию файла, если указанному файлу до этого была выставлена определённая категория, при этом в качестве категории может выступать
• категория вредоносных файлов;
• категория безопасных файлов;
• категория условно-безопасных файлов;
• категория подозрительных файлов;
• категория неизвестных файлов.
RU2019130601A 2019-09-30 2019-09-30 Система и способ выбора средства обнаружения вредоносных файлов RU2739830C1 (ru)

Priority Applications (4)

Application Number Priority Date Filing Date Title
RU2019130601A RU2739830C1 (ru) 2019-09-30 2019-09-30 Система и способ выбора средства обнаружения вредоносных файлов
US16/815,170 US11379581B2 (en) 2019-09-30 2020-03-11 System and method for detection of malicious files
EP20179074.8A EP3798885B1 (en) 2019-09-30 2020-06-09 System and method for detection of malicious files
CN202010543892.5A CN112580044A (zh) 2019-09-30 2020-06-15 用于检测恶意文件的系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2019130601A RU2739830C1 (ru) 2019-09-30 2019-09-30 Система и способ выбора средства обнаружения вредоносных файлов

Publications (1)

Publication Number Publication Date
RU2739830C1 true RU2739830C1 (ru) 2020-12-28

Family

ID=74106499

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2019130601A RU2739830C1 (ru) 2019-09-30 2019-09-30 Система и способ выбора средства обнаружения вредоносных файлов

Country Status (2)

Country Link
US (1) US11379581B2 (ru)
RU (1) RU2739830C1 (ru)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11790085B2 (en) * 2020-10-29 2023-10-17 Electronics And Telecommunications Research Institute Apparatus for detecting unknown malware using variable opcode sequence and method using the same
US11824877B2 (en) * 2020-11-10 2023-11-21 Armis Security Ltd. System and method for anomaly detection interpretation
WO2023056060A1 (en) * 2021-10-01 2023-04-06 Stairwell, Inc. Evaluating files for malicious and/or suspicious code
CN115758368B (zh) * 2023-01-10 2023-05-05 北京亿赛通科技发展有限责任公司 恶意破解软件的预测方法、装置、电子设备和存储介质
CN116861430B (zh) * 2023-09-04 2023-11-17 北京安天网络安全技术有限公司 一种恶意文件检测方法、装置、设备及介质
CN116910755A (zh) * 2023-09-13 2023-10-20 北京安天网络安全技术有限公司 一种文件检测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070240218A1 (en) * 2006-04-06 2007-10-11 George Tuvell Malware Detection System and Method for Mobile Platforms
US20120023579A1 (en) * 2010-07-23 2012-01-26 Kaspersky Lab, Zao Protection against malware on web resources
US20120192273A1 (en) * 2011-01-21 2012-07-26 F-Secure Corporation Malware detection
US20160156658A1 (en) * 2010-08-26 2016-06-02 Verisign, Inc. Method and system for automatic detection and analysis of malware
RU2654151C1 (ru) * 2017-08-10 2018-05-16 Акционерное общество "Лаборатория Касперского" Система и способ обнаружения вредоносных файлов с использованием обученной модели обнаружения вредоносных файлов

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8635694B2 (en) * 2009-01-10 2014-01-21 Kaspersky Lab Zao Systems and methods for malware classification
US9245120B2 (en) * 2012-07-13 2016-01-26 Cisco Technologies, Inc. Method and apparatus for retroactively detecting malicious or otherwise undesirable software as well as clean software through intelligent rescanning
US9288220B2 (en) * 2013-11-07 2016-03-15 Cyberpoint International Llc Methods and systems for malware detection
US9747446B1 (en) * 2013-12-26 2017-08-29 Fireeye, Inc. System and method for run-time object classification
RU2568292C2 (ru) * 2013-12-27 2015-11-20 Закрытое акционерное общество "Лаборатория Касперского" Система и способ выбора синхронного или асинхронного межпроцессного взаимодействия
US10270788B2 (en) * 2016-06-06 2019-04-23 Netskope, Inc. Machine learning based anomaly detection
US10417420B2 (en) * 2016-10-26 2019-09-17 Fortinet, Inc. Malware detection and classification based on memory semantic analysis
US10726128B2 (en) * 2017-07-24 2020-07-28 Crowdstrike, Inc. Malware detection using local computational models
US20210019408A1 (en) * 2019-07-16 2021-01-21 AVAST Software s.r.o. Malware family tracking and visualization across time

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070240218A1 (en) * 2006-04-06 2007-10-11 George Tuvell Malware Detection System and Method for Mobile Platforms
US20120023579A1 (en) * 2010-07-23 2012-01-26 Kaspersky Lab, Zao Protection against malware on web resources
US20160156658A1 (en) * 2010-08-26 2016-06-02 Verisign, Inc. Method and system for automatic detection and analysis of malware
US20120192273A1 (en) * 2011-01-21 2012-07-26 F-Secure Corporation Malware detection
RU2654151C1 (ru) * 2017-08-10 2018-05-16 Акционерное общество "Лаборатория Касперского" Система и способ обнаружения вредоносных файлов с использованием обученной модели обнаружения вредоносных файлов

Also Published As

Publication number Publication date
US11379581B2 (en) 2022-07-05
US20210097177A1 (en) 2021-04-01

Similar Documents

Publication Publication Date Title
RU2739830C1 (ru) Система и способ выбора средства обнаружения вредоносных файлов
RU2679785C1 (ru) Система и способ классификации объектов
CN109145600B (zh) 使用静态分析元素检测恶意文件的系统和方法
RU2739865C2 (ru) Система и способ обнаружения вредоносного файла
CN109684836B (zh) 使用经训练的机器学习模型检测恶意文件的系统和方法
RU2706896C1 (ru) Система и способ выявления вредоносных файлов с использованием модели обучения, обученной на одном вредоносном файле
RU2724710C1 (ru) Система и способ классификации объектов вычислительной системы
JP6715292B2 (ja) 機械学習を用いる悪意のあるファイルを検出するシステムおよび方法
RU2659737C1 (ru) Система и способ управления вычислительными ресурсами для обнаружения вредоносных файлов
JP6636096B2 (ja) マルウェア検出モデルの機械学習のシステムおよび方法
JP6353498B2 (ja) ユーザ機器上でマルウェアを検出するためにアンチウィルス記録セットを生成するシステム及び方法
RU2624552C2 (ru) Способ обнаружения вредоносных файлов, исполняемых с помощью стековой виртуальной машины
US20070094734A1 (en) Malware mutation detector
CN109684072B (zh) 基于机器学习模型管理用于检测恶意文件的计算资源的系统和方法
RU2654151C1 (ru) Система и способ обнаружения вредоносных файлов с использованием обученной модели обнаружения вредоносных файлов
EP3798885B1 (en) System and method for detection of malicious files
RU2673708C1 (ru) Система и способ машинного обучения модели обнаружения вредоносных файлов
RU2757265C1 (ru) Система и способ оценки приложения на вредоносность
EP3416085B1 (en) System and method of detecting malicious files with the use of elements of static analysis
Alsmadi et al. Behavioral-based malware clustering and classification