RU2766539C1

RU2766539C1 - Method of detecting fraudulent letter relating to category of internal bec attacks

Info

Publication number: RU2766539C1
Application number: RU2021103267A
Authority: RU
Inventors: Роман Андреевич Деденок; Никита Дмитриевич Бенькович; Дмитрий Сергеевич Голубев; Юрий Геннадьевич Слободянюк
Original assignee: Акционерное общество "Лаборатория Касперского"
Priority date: 2021-02-10
Filing date: 2021-02-10
Publication date: 2022-03-15

Abstract

FIELD: computer engineering.SUBSTANCE: method of detecting a fraudulent letter relating to the category of internal BEC attacks includes steps of: determining the received letter as an internal letter based on analysis of the letter header using a heuristic rule for detecting fraudulent letters relating to the category of internal BEC attacks; extracting message text from internal letter; analysing the extracted text to identify parts of text messages corresponding to conditions indicative of fraud using an internal BEC attack; if at least one heuristic rule matches, the received letter is determined as a fraudulent letter relating to the category of internal BEC attacks, and said letter is blocked.EFFECT: high level of detection of fraudulent letters related to the category of internal BEC attacks.3 cl, 5 dwg, 1 tbl

Description

Область техникиTechnical field

Настоящее изобретение в целом относится к средствам компьютерной безопасности и, в частности, к средствам автоматического создания эвристических правил для обнаружения мошеннических электронных писем, относящихся к категории BEC-атак, и к средствам автоматического обнаружения указанных мошеннических электронных писем.The present invention relates generally to computer security tools, and in particular to tools for automatically generating heuristics for detecting fraudulent emails falling under the category of BEC attacks, and tools for automatically detecting said fraudulent emails.

Уровень техникиState of the art

Злоумышленники (киберпреступники, мошенники) постоянно ищут новые методы атак на организации. В последнее время они все чаще прибегают к методу атаки типа Business Email Compromise (далее BEC-атака). Такие атаки характеризуются тем, что так или иначе они связаны с компрометацией корпоративной переписки (обмена сообщениями) с использованием почтовых ящиков и электронных адресов компании. Их суть сводится к компрометации деловой переписки в целях финансового мошенничества, добычи конфиденциальной информации или подрыва репутации организации.Attackers (cybercriminals, scammers) are constantly looking for new methods of attacking organizations. Recently, they are increasingly resorting to an attack method such as Business Email Compromise (hereinafter referred to as the BEC attack). Such attacks are characterized by the fact that one way or another they are associated with the compromise of corporate correspondence (messaging) using mailboxes and email addresses of the company. Their essence boils down to compromising business correspondence for the purpose of financial fraud, obtaining confidential information or undermining the reputation of the organization.

Под BEC-атакой подразумевают целевую атаку на организацию, в которой злоумышленники пытаются действовать следующим образом:A BEC attack is a targeted attack on an organization in which attackers try to act as follows:

а) начинают новую переписку с сотрудником организации или используют уже существующую;a) start a new correspondence with an employee of the organization or use an existing one;

б) завоевывают доверие сотрудника;b) win the trust of the employee;

в) убеждают сотрудника выполнить действия, идущие во вред интересам организации или ее клиентов.c) convince the employee to take actions that are detrimental to the interests of the organization or its clients.

Внутренние BEC-атаки отличается от прочих вариантов атак тем, что мошеннические письма рассылаются с легитимных адресов электронной почты внутри самой организации. То есть сначала злоумышленник тем или иным образом получает доступ к почтовому ящику сотрудника организации. Таким образом, такие технологии защиты от мошеннических атак, как механизмы e-mail-аутентификации, а именно: Domain Keys Identified Mail, Sender Policy Framework и Domain-based Message Authentication, Reporting and Conformance — не позволяют выявить такую мошенническую атаку. Кроме того, стандартные автоматические анти-фишинг и анти-спам технологии, нацеленные на поиск несоответствий в технических заголовках электронных писем или на выявление измененного написания электронных адресов, также не выявляют мошенническую атаку, так как электронное письмо поступает от правомерного адреса электронной почты, в частности, с адреса электронной почты, находящегося в том же домене.Internal BEC attacks differ from other types of attacks in that fraudulent emails are sent from legitimate email addresses within the organization itself. That is, first, an attacker in one way or another gains access to the mailbox of an employee of the organization. Thus, anti-fraud technologies such as e-mail authentication mechanisms, namely: Domain Keys Identified Mail, Sender Policy Framework and Domain-based Message Authentication, Reporting and Conformance, do not allow detecting such a fraudulent attack. In addition, standard automatic anti-phishing and anti-spam technologies that aim to find inconsistencies in the technical headers of emails or to detect spelling changes in email addresses also do not detect a fraudulent attack, since the email comes from a legitimate email address, in particular , from an email address in the same domain.

Чаще всего в электронном письме, относящемуся к категории внутренних ВЕС-атак, содержится просьба перевести деньги клиенту (поставщику, подрядчику, налоговой) или же переслать какую-то конфиденциальную информацию. При этом текст такого письма наполняется дополнительной информацией, которая содержит различные уловки социальной инженерии и направлена на уменьшение бдительности сотрудника. Например, злоумышленники указывают на срочность - «если мы не оплатим счет сегодня, придется платить неустойку!!!», угрожают - «я просил провести платеж еще в прошлом месяце, чем вы там заняты, вам работа надоела?», имитируют приказной тон, не допускающий промедлений, или пользуются еще какой-либо из множества других уловок. В сочетании с правомерным адресом электронной почты содержание такого письма является убедительным.Most often, an email belonging to the category of internal BEC attacks contains a request to transfer money to a client (supplier, contractor, tax office) or send some confidential information. At the same time, the text of such a letter is filled with additional information, which contains various tricks of social engineering and is aimed at reducing the vigilance of the employee. For example, attackers indicate urgency - “if we do not pay the bill today, we will have to pay a penalty !!!”, threaten - “I asked to make a payment last month, what are you doing there, are you tired of work?”, imitate an orderly tone, not allowing delay, or use any of the many other tricks. Combined with a legitimate email address, the content of such an email is compelling.

Кроме того, злоумышленники могут использовать во внутренних BEC-атаках письма со ссылками на поддельный сайт, адрес которого отличается от адреса атакуемой организации (или другой заведомо доверенной страницы) одной или двумя буквами, которые легко не заметить. Например, в адресе может быть указана заглавная латинская «i» вместо строчной «L». На таком сайте может быть размещена платежная форма или, например, анкета для получения какой-то конфиденциальной информации.In addition, in internal BEC attacks, attackers can use letters with links to a fake site, the address of which differs from the address of the attacked organization (or other obviously trusted page) by one or two letters, which are easy to miss. For example, the address may contain a capital Latin "i" instead of a lowercase "L". Such a site may contain a payment form or, for example, a questionnaire for obtaining some confidential information.

В качестве примера атаки при помощи письма, относящегося к внутренней ВЕС-атаке, представим такую ситуацию. С электронного адреса руководителя сотруднику приходит письмо с текстом следующего содержания: «Мы решили послать тебя на конференцию, срочно оплати участие с нашего счета, пока остались льготные места». И далее по тексту электронная ссылка на самое престижное мероприятие в отрасли данной организации. С большой долей вероятности, такая атака будет успешной, так как сотрудник не станет внимательно изучать присланную электронную ссылку в письме, содержащем корректный адрес руководителя и его авто-подпись.As an example of a letter attack related to an internal BEC attack, let's imagine the following situation. From the e-mail address of the manager, the employee receives a letter with the following text: “We decided to send you to the conference, urgently pay for participation from our account while there are still preferential places.” And further down the text is an electronic link to the most prestigious event in the industry of this organization. With a high degree of probability, such an attack will be successful, since the employee will not carefully study the sent email link in the letter containing the correct address of the manager and his auto-signature.

Поэтому существует потребность в создании технического решения, позволяющего обеспечить обнаружение мошеннического письма, относящегося к категории внутренних BEC-атак.Therefore, there is a need to create a technical solution to ensure the detection of a fraudulent email that belongs to the category of internal BEC attacks.

Настоящее изобретение позволяет решить указанную техническую задачу путем создания эвристических правил, позволяющих произвести проверку писем на наличие мошеннического письма, относящегося к категории внутренних BEC-атак, и последующего применения созданного эвристического правила на стороне клиента электронного почтового ящика.The present invention allows solving the specified technical problem by creating heuristic rules that allow checking messages for the presence of a fraudulent letter belonging to the category of internal BEC attacks, and then applying the created heuristic rule on the client side of the email inbox.

Раскрытие сущности изобретенияDisclosure of the essence of the invention

Настоящее изобретение относится к решениям, направленным на развитие современных систем и способов, связанных с компьютерной безопасностью, а именно, к средствам создания механизма обнаружения мошенничества в сообщениях, выраженных в цифровой форме и относящихся к внутренним электронным письмам. Под внутренними понимается, что письмо было отправлено с почтового ящика, находящегося в одном домене с почтовым ящиком получателя, или который является доверенным ящиком. Указанный механизм состоит по крайней мере из одного эвристического правила для обнаружения мошеннических писем, которые относятся к категории внутренних BEC-атак.The present invention relates to solutions aimed at the development of modern systems and methods related to computer security, namely, to a means of creating a mechanism for detecting fraud in messages, expressed in digital form and related to internal emails. Internal means that the message was sent from a mailbox located in the same domain as the recipient's mailbox, or which is a trusted mailbox. This mechanism consists of at least one heuristic for detecting fraudulent emails that fall into the category of internal BEC attacks.

Другими словами, заявленное изобретение позволяет выявить мошенническую атаку с помощью указанного письма на личную или корпоративную информацию при помощи скомпрометированного корпоративного почтового ящика. Входящие письма от сотрудников одной организации анализируются при помощи по крайней мере одно созданного указанного эвристического правила для выявления в сообщении информации, указывающей на финансовую угрозу или вероятность потери конфиденциальных данных. При выявлении указанной информации письма блокируются. Указанные эвристические правила создаются на основании текстовых моделей, за создание которых отвечает ансамбль (набор) классификаторов, включающих модели машинного обучения.In other words, the claimed invention makes it possible to detect a fraudulent attack using the specified letter on personal or corporate information using a compromised corporate mailbox. Incoming emails from employees of the same organization are analyzed using at least one of the specified heuristics created to identify information in the message that indicates a financial threat or the possibility of losing confidential data. If the specified information is revealed, the letters are blocked. These heuristic rules are created on the basis of text models, which are created by an ensemble (set) of classifiers, including machine learning models.

В рамках реализации настоящего изобретения представлено также решение, направленное на создание указанных эвристических правил. Создание эвристического правила основано на анализе потока спам-писем при помощи указанного ансамбля классификаторов, включающих модели машинного обучения. Благодаря комбинации по крайней мере двух классификаторов производится автоматическое извлечение определенных текстовых сообщений из писем, в том числе из спам-писем, и формирование из извлеченных частей текстовых сообщений определенной совокупности терминов для обнаружения мошеннических сообщений.Within the framework of the present invention, a solution is also presented aimed at creating these heuristic rules. The creation of a heuristic rule is based on the analysis of the flow of spam emails using the specified ensemble of classifiers, including machine learning models. Thanks to the combination of at least two classifiers, certain text messages are automatically extracted from letters, including spam letters, and a certain set of terms is formed from the extracted parts of text messages to detect fraudulent messages.

В одном из вариантов реализации одним классификатором является предварительно обученный для задачи классификации текста писем классификатор, содержащий языковую модель, которая основана на архитектуре Average-Stochastic Gradient Descent Weight-Dropped LSTM (AWD-LSTM), т.е. рекуррентную нейронную сеть. Указанный классификатор позволяет из потока спам-писем отфильтровать спам-письма по содержанию сообщений спам-писем. Вторым классификатором является классификатор, содержащий логистическую регрессию (англ. logit model) с L1 регуляризатором (далее - логит-модель). Указанный классификатор анализирует текст в отфильтрованных спам-письмах и извлекает наиболее релевантные термины. При этом предварительное обучение логит-модели осуществляется на n-граммах из текстов, полученных в результате первичной фильтрации писем. N-граммы формируются из частей текстовых сообщений.In one implementation, one classifier is a classifier pre-trained for the task of classifying the text of letters, containing a language model that is based on the Average-Stochastic Gradient Descent Weight-Dropped LSTM (AWD-LSTM) architecture, i.e. recurrent neural network. The specified classifier allows filtering spam messages from the spam message stream by the content of spam messages. The second classifier is a classifier containing a logistic regression (English logit model) with an L1 regularizer (hereinafter referred to as the logit model). The specified classifier analyzes the text in the filtered spam emails and extracts the most relevant terms. At the same time, preliminary training of the logit model is carried out on n-grams from texts obtained as a result of the primary filtering of letters. N-grams are formed from parts of text messages.

При дальнейшем комбинировании и взвешивании сочетаний таких терминов создают эвристические правила для обнаружения среди входящего потока писем на почтовый ящик пользователя писем, являющихся мошенническими и относящихся к категории внутренних BEC-атак. При этом указанные эвристические правила содержат дополнительное условие, содержащее признаки, позволяющие отделить внутренние письма от остальных. Примером такого условия является проверка домена отправителя в получаемых письмах на схожесть с доменом получателя.With further combination and weighting of combinations of such terms, heuristic rules are created to detect among the incoming flow of letters to the user's mailbox letters that are fraudulent and belong to the category of internal BEC attacks. At the same time, these heuristic rules contain an additional condition containing signs that allow you to separate internal letters from the rest. An example of such a condition is checking the sender's domain in received emails for similarity to the recipient's domain.

Обнаружение писем, относящихся к категории внутренних BEC-атак, осуществляется путем анализа содержимого сообщения в теле письма с помощью созданных эвристических правил. Эвристические правила позволяют обнаружить определенную совокупность терминов в тексте письма, которая указывает на внутреннюю BEC-атаку. В одном из вариантов реализации изобретения совокупность терминов представляют в виде n-грамм. Эвристическое правило включает определенную взвешенную комбинацию по крайней мере одной категории терминов, выраженных в виде n-грамм и позволяющих определить мошенническое сообщение и отнести его к категории внутренних ВЕС-атак. Такое эвристическое правило позволяет улучшить качество обнаружения мошеннических писем, относящихся к категории ВЕС-атак.Detection of messages belonging to the category of internal BEC attacks is carried out by analyzing the content of the message in the body of the letter using the created heuristic rules. Heuristic rules allow you to detect a certain set of terms in the text of the letter, which indicates an internal BEC attack. In one embodiment of the invention, the set of terms is represented as n-grams. The heuristic rule includes a certain weighted combination of at least one category of terms, expressed in the form of n-grams, and allows you to identify a fraudulent message and classify it as an internal BEC attack. Such a heuristic rule improves the quality of detection of fraudulent emails belonging to the category of BEC attacks.

Реализация заявленного изобретения осуществляется при помощи любого современного вычислительного цифрового устройства. Примерами такого устройства являются сервер, в том числе почтовый сервер, персональный компьютер, ноутбук и мобильное устройство, такое как планшетный компьютер и смартфон. В предпочтительном варианте реализации применение заявленного изобретения осуществляется на внутреннем почтовом сервере организации или непосредственно на почтовом клиенте компьютера пользователя.The implementation of the claimed invention is carried out using any modern computing digital device. Examples of such a device are a server, including a mail server, a personal computer, a laptop, and a mobile device such as a tablet computer and a smartphone. In a preferred embodiment, the application of the claimed invention is carried out on the organization's internal mail server or directly on the user's computer mail client.

Один технический результат настоящего изобретения заключается в повышении уровня обнаружения мошеннических писем, относящиеся к категории внутренних ВЕС-атак, за счет анализа сообщения в теле письма с помощью созданных эвристических правил, направленных на выявление указанной категории писем.One technical result of the present invention is to increase the level of detection of fraudulent messages belonging to the category of internal BEC attacks by analyzing the message in the body of the letter using the created heuristic rules aimed at identifying the specified category of letters.

Второй технический результат настоящего изобретения заключается в расширении арсенала технических средств для поиска и обнаружения писем, относящиеся к категории ВЕС-атак.The second technical result of the present invention is to expand the arsenal of technical means for searching and detecting letters belonging to the category of BEC attacks.

В качестве одного варианта исполнения настоящего изобретения предлагается способ обнаружения мошеннического письма, относящегося к категории внутренних ВЕС-атак, при этом способ включает этапы, на которых: определяют полученное письмо как внутреннее письмо на основании заголовка письма при помощи эвристического правила; извлекают из внутреннего письма текст сообщения письма; проводят анализ извлеченного текста при помощи эвристических правил для выявления частей текстовых сообщений (терминов), соответствующих условиям, указывающим на мошенничество; в случае совпадения по крайней мере одного эвристического правила определяют полученное письмо как мошенническое письмо, относящиеся к категории внутренних ВЕС-атак.As one embodiment, the present invention provides a method for detecting a fraudulent email belonging to the category of internal BEC attacks, the method comprising the steps of: determining the received email as an internal email based on the email header using a heuristic rule; extracting the message text of the letter from the internal letter; analyze the extracted text using heuristic rules to identify parts of text messages (terms) that meet conditions that indicate fraud; if at least one heuristic rule matches, the received email is determined to be a fraudulent email belonging to the category of internal BEC attacks.

В другом варианте исполнения способа дополнительно при определении письма как мошеннического, блокируют указанное письмо и перемещают в карантин.In another embodiment of the method, additionally, when a letter is identified as fraudulent, the specified letter is blocked and moved to quarantine.

В другом варианте исполнения способа дополнительно инициируют антивирусную проверку как на компьютере пользователя, получившего письмо, так и на компьютере пользователя, отправившего указанное письмо.In another embodiment of the method, an anti-virus scan is additionally initiated both on the computer of the user who received the letter and on the computer of the user who sent the specified letter.

В еще одном варианте исполнения способа дополнительно инициируют запуск анализа инцидентов для обнаружения возможной атаки на внутреннюю сеть, по которой было передано письмо.In yet another embodiment of the method, an incident analysis is additionally triggered to detect a possible attack on the internal network through which the letter was transmitted.

В другом варианте исполнения способа определяют письмо как внутреннее, если в письме отправитель и получатель по крайней мере относятся к одному домену или один из технических заголовков соответствует внутренней пересылке письма.In another embodiment of the method, a letter is defined as internal if the sender and recipient in the letter belong to at least the same domain or one of the technical headers corresponds to the internal forwarding of the letter.

В еще одном варианте исполнения способа эвристическое правило, относящиеся к категории внутренних ВЕС-атак, содержит условие, позволяющее определить письмо, как относящиеся к внутреннему письму, и условия, позволяющие выявить в тексте письма признаки, относящиеся к мошенничеству.In another embodiment of the method, the heuristic rule related to the category of internal BEC attacks contains a condition that allows you to determine the letter as related to an internal letter, and conditions that allow you to identify signs in the text of the letter that are related to fraud.

Краткое описание чертежейBrief description of the drawings

Дополнительные цели, признаки и преимущества настоящего изобретения будут очевидными из прочтения последующего описания осуществления изобретения со ссылкой на прилагаемые чертежи, на которых:Additional objects, features and advantages of the present invention will become apparent from reading the following description of an embodiment of the invention with reference to the accompanying drawings, in which:

Фиг. 1 иллюстрирует пример структурной схемы системы создания эвристических правил для обнаружения мошеннических писем, относящихся к категории внутренних ВЕС-атак.Fig. 1 illustrates an example of a block diagram of a system for creating heuristic rules for detecting fraudulent emails belonging to the category of internal BEC attacks.

На Фиг. 2 представлена блок-схема, иллюстрирующая способ создания эвристических правил для обнаружения мошеннических писем, относящихся к категории внутренних ВЕС-атак.On FIG. 2 is a flowchart illustrating a method for creating heuristics for detecting fraudulent emails that fall into the category of internal BEC attacks.

Фиг. 3 иллюстрирует пример структурной схемы системы, предназначенной для обнаружения мошеннических писем, относящихся к категории внутренних ВЕС-атак.Fig. 3 illustrates an example of a block diagram of a system designed to detect fraudulent emails belonging to the category of internal BEC attacks.

На Фиг. 4 представлена блок-схема, иллюстрирующая способ обнаружения мошеннических писем, относящихся к категории внутренних ВЕС-атак.On FIG. 4 is a flowchart illustrating a method for detecting fraudulent emails belonging to the category of internal BEC attacks.

Фиг. 5 иллюстрирует пример компьютерной системы общего назначения, с помощью которой может быть реализовано заявленное изобретение.Fig. 5 illustrates an example of a general purpose computer system with which the claimed invention may be implemented.

Хотя изобретение может иметь различные модификации и альтернативные формы, характерные признаки, показанные в качестве примера на чертежах, будут описаны подробно. Следует понимать, однако, что цель описания заключается не в ограничении изобретения конкретным его воплощением. Наоборот, целью описания является охват всех изменений, модификаций, входящих в рамки данного изобретения, как это определено в приложенной формуле.Although the invention may have various modifications and alternative forms, the characteristic features shown by way of example in the drawings will be described in detail. It should be understood, however, that the purpose of the description is not to limit the invention to a particular embodiment thereof. On the contrary, the purpose of the description is to cover all changes, modifications included in the scope of this invention, as defined in the attached claims.

Описание вариантов осуществления изобретенияDescription of embodiments of the invention

Объекты и признаки настоящего изобретения, способы для достижения этих объектов и признаков станут очевидными посредством отсылки к примерным вариантам осуществления. Однако настоящее изобретение не ограничивается примерными вариантами осуществления, раскрытыми ниже, оно может воплощаться в различных видах. Приведенное описание предназначено для помощи специалисту в области техники для исчерпывающего понимания изобретения, которое определяется только в объеме приложенной формулы.The objects and features of the present invention, methods for achieving these objects and features will become apparent by reference to exemplary embodiments. However, the present invention is not limited to the exemplary embodiments disclosed below, but may be embodied in various forms. The foregoing description is intended to assist a person skilled in the art in a thorough understanding of the invention, which is defined only within the scope of the appended claims.

В некоторых воплощениях указанное изобретение является автоматизированной адаптивной системой, которая может защитить пользователей от мошенничества, а именно от мошенничества, совершаемого при помощи электронных писем, в частности, относящихся к категории внутренних ВЕС-атак. Под внутренними ВЕС-атаками подразумеваются действия, направленные на компрометацию деловой переписки с целью финансового мошенничества, добычи конфиденциальной информации или подрыва репутации организации, при этом действия осуществляются с правомерного адреса электронной почты. Такой адрес может являться доверенным, например, находиться в одном домене с почтовым ящиком получателя. Например, адрес электронной почты отправителя принадлежит сотруднику той же организации, в которой работает получатель такого письма.In some embodiments, the invention is an automated adaptive system that can protect users from fraud, namely from email fraud, in particular from the category of internal BEC attacks. Internal BEC attacks are actions aimed at compromising business correspondence for the purpose of financial fraud, obtaining confidential information or undermining the reputation of an organization, while the actions are carried out from a legitimate email address. Such an address can be trusted, for example, be in the same domain as the recipient's mailbox. For example, the sender's email address belongs to an employee in the same organization as the recipient of the email.

Далее при описании используются такие понятия, как электронное письмо, сообщение, адрес электронной почты, почтовый ящик или клиент и тому подобные. Различные технологии и протоколы, направленные на использование указанных понятий, могут использоваться в сочетании с описанными здесь решениями, при этом адаптированными соответствующим образом.Hereinafter, terms such as e-mail, message, e-mail address, mailbox or client and the like are used in the description. Various technologies and protocols aimed at using these concepts can be used in combination with the solutions described here, while adapted accordingly.

Электронное письмо (далее также - письмо) имеет определенную структуру. Структура письма состоит из двух частей: заголовка (от англ. header) и тела (от англ. body) письма. Заголовок в свою очередь содержит ряд полей (от англ. field), предназначенных для заполнения, при этом каждое поле определяется своим именем (заголовок поля) и значением. Под значением поля понимается какой-то вид информации. Тело же содержит сообщение, направленное для пользователя. Сообщение, как правило, содержит текстовую информацию на различных языках, а также может дополняться ссылками (URL) на сторонние ресурсы и/или файлами, содержащими вредоносный код.An e-mail (hereinafter also referred to as a letter) has a certain structure. The structure of the letter consists of two parts: the header (from the English header) and the body (from the English body) of the letter. The header, in turn, contains a number of fields (from the English field) intended for filling, with each field defined by its name (field header) and value. A field value is some kind of information. The body contains a message directed to the user. The message, as a rule, contains textual information in various languages, and can also be supplemented with links (URLs) to third-party resources and/or files containing malicious code.

Также в рамках описания настоящего изобретения под "спамом" понимается нежелательное письмо (спам-письмо). Как правило, спам-письмо рассылается в массовом порядке. Под "мошенничеством" понимается нежелательное и потенциально опасное письмо (мошенническое письмо). При этом спам-письма могут включать и мошеннические письма. В некоторых случаях может быть сложно определить, является ли письмо спамом или мошенничеством. Описанное здесь изобретение предназначено в первую очередь для блокирования мошенничества, при этом в некоторых случаях может блокировать и спам.Also within the scope of the description of the present invention, "spam" refers to unsolicited mail (spam mail). As a rule, spam emails are sent in bulk. "Fraud" refers to unsolicited and potentially harmful email (fraud email). However, spam emails can also include fraudulent emails. In some cases, it can be difficult to determine if an email is spam or a scam. The invention described herein is primarily intended to block fraud, and in some cases may also block spam.

В рамках реализации настоящего изобретения далее представлены решения, направленные как на создание эвристических правил для обнаружения мошеннических писем, в том числе и относящихся к категории внутренних BEC-атак, так и непосредственно для обнаружения указанных писем на почтовом клиенте, например, установленном на компьютере пользователя.As part of the implementation of the present invention, solutions are further presented aimed at both creating heuristic rules for detecting fraudulent emails, including those belonging to the category of internal BEC attacks, and directly for detecting these emails on an email client, for example, installed on the user's computer.

Создание указанных эвристических правил основано на анализе потока писем, в частности, спам-писем и мошеннических писем, при помощи ансамбля классификаторов, содержащих модели машинного обучения. Благодаря комбинации по крайней мере двух классификаторов производится автоматическое извлечение определенных частей текстовых сообщений из указанных писем и формирование из этих частей терминов (фраз) для обнаружения мошеннических писем. Под термином понимается как одно слово, выделенное в текстовых сообщениях, так и определенная последовательность слов, т.е. фраза.The creation of these heuristic rules is based on the analysis of the flow of emails, in particular, spam emails and fraudulent emails, using an ensemble of classifiers containing machine learning models. Thanks to the combination of at least two classifiers, certain parts of text messages are automatically extracted from the specified letters and the formation of terms (phrases) from these parts to detect fraudulent letters. The term is understood as a single word highlighted in text messages, as well as a certain sequence of words, i.e. phrase.

В одном из вариантов реализации первым классификатором является предварительно обученный для задачи классификации текста писем классификатор, содержащий языковую модель, которая основана на архитектуре Average-Stochastic Gradient Descent Weight-Dropped LSTM (сокр. AWD-LSTM), т.е. рекуррентную нейронную сеть. Указанный классификатор позволяет из потока писем отфильтровать письма по содержанию сообщений писем и выделить из текста сообщения определенные части – термины. В одном из вариантов изобретения выделенные термины в дальнейшем представляются в виде n-грамм. Вторым классификатором является классификатор, содержащий логистическую регрессию (англ. logit model) с L1 регуляризатором (далее - логит-модель). Указанный классификатор анализирует текст в отфильтрованных письмах и на основании выделенных терминов (фраз) отбирает наиболее релевантные для мошеннических писем термины (фразы), которые далее объединяет в категории путем анализа сформированных n-грамм. При этом предварительное обучение логит-модели осуществляется на этих же n-граммах из текстов, полученных в результате первичной фильтрации писем при помощи первого классификатора. При дальнейшем комбинировании сочетаний отобранных терминов (фраз) в категориях создаются эвристические правила.In one implementation, the first classifier is a classifier pre-trained for the task of classifying the text of letters, containing a language model that is based on the Average-Stochastic Gradient Descent Weight-Dropped LSTM architecture (abbr. AWD-LSTM), i.e. recurrent neural network. The specified classifier allows filtering messages from the message flow by the content of the message messages and highlighting certain parts - terms - from the message text. In one embodiment of the invention, the highlighted terms are further represented as n-grams. The second classifier is a classifier containing a logistic regression (English logit model) with an L1 regularizer (hereinafter referred to as the logit model). The specified classifier analyzes the text in filtered emails and, based on the selected terms (phrases), selects the most relevant terms (phrases) for fraudulent emails, which are then combined into categories by analyzing the generated n-grams. At the same time, preliminary training of the logit model is carried out on the same n-grams from the texts obtained as a result of the primary filtering of letters using the first classifier. With further combination of combinations of selected terms (phrases) in categories, heuristic rules are created.

Таким образом, эвристическое правило – набор условий, при выполнении которого определяют полученное письмо как мошенническое письмо, в частности, относящиеся к категории внутренних ВЕС-атак, с определенной долей вероятности, при этом производится анализ текста из сообщения письма. В качестве по крайней мере одного из условий используется определенная комбинация по крайней мере из одной категории терминов (совокупности слов) или n-граммы, построенные на основании упомянутых терминов.Thus, a heuristic rule is a set of conditions under which the received letter is determined to be a fraudulent letter, in particular, those belonging to the category of internal BEC attacks, with a certain degree of probability, while analyzing the text from the message of the letter. As at least one of the conditions, a certain combination of at least one category of terms (set of words) or n-grams, built on the basis of the mentioned terms, is used.

В еще одном варианте реализации для определения мошеннических писем, относящихся к категории внутренних BEC-атак, указанное эвристическое правило содержит дополнительное условие, на основании которого производится анализ входящего письма для определения того, является ли адрес внутренним, т.е. доверенным. Такой анализ заключается в сравнении доменов отправителя и получателя письма или определении того, является ли адрес отправителя доверенным.In yet another implementation for identifying fraudulent emails that fall into the category of internal BEC attacks, said heuristic rule contains an additional condition based on which the incoming email is analyzed to determine whether the address is internal, i.e. trusted. Such analysis consists in comparing the domains of the sender and recipient of the letter or determining whether the sender's address is trusted.

В другом варианте реализации указанное дополнительное условие реализуется отдельно от эвристического правила. В этом случае анализ полученного письма с помощью указанных эвристических правил производится только после выполнения дополнительного условия.In another embodiment, said additional condition is implemented separately from the heuristic rule. In this case, the analysis of the received letter using the specified heuristic rules is performed only after the additional condition is met.

Обнаружение мошеннических писем, относящихся к категории внутренних ВЕС-атак, производится, как правило, до предоставления писем пользователю к просмотру. Обнаружение указанных писем осуществляется путем анализа содержимого сообщения в теле письма с помощью созданных эвристических правил. Как упоминалось выше, эвристические правила позволяют обнаружить определенную совокупность терминов (фраз) в тексте сообщения письма, которая указывает на мошеннические действия. Такие эвристические правила позволяют улучшить качество обнаружения мошеннических писем, относящихся к категории внутренних ВЕС-атак.The detection of fraudulent emails belonging to the category of internal BEC attacks is usually performed before the emails are presented to the user for viewing. Detection of specified letters is carried out by analyzing the content of the message in the body of the letter using the created heuristic rules. As mentioned above, heuristic rules allow you to detect a certain set of terms (phrases) in the text of an email message that indicates fraudulent activities. Such heuristics improve the quality of detection of fraudulent emails belonging to the category of internal BEC attacks.

Реализация представленных решений заявленного изобретения осуществляется при помощи любого современного вычислительного цифрового устройства, например, представленного на Фиг. 5. Примерами такого устройства являются сервер, в том числе почтовый сервер, персональный компьютер, ноутбук и мобильное устройство, такое как планшетный компьютер и смартфон. В предпочтительном варианте применения заявленного изобретения одно решение (обнаружение мошеннических писем) осуществляется на внутреннем почтовом сервере предприятия или непосредственно на почтовом клиенте, установленном на компьютере пользователя, а другое решение (создание эвристических правил для обнаружения мошеннических писем) осуществляется на стороннем устройстве, например, сервере.The implementation of the presented solutions of the claimed invention is carried out using any modern computing digital device, for example, shown in Fig. 5. Examples of such a device are a server, including a mail server, a personal computer, a laptop, and a mobile device such as a tablet computer and a smartphone. In the preferred application of the claimed invention, one solution (detection of fraudulent emails) is carried out on the internal mail server of the enterprise or directly on the mail client installed on the user's computer, and the other solution (creation of heuristic rules for detecting fraudulent emails) is carried out on a third-party device, for example, a server .

Далее представлены примеры реализации заявленного изобретения.The following are examples of implementation of the claimed invention.

На Фиг. 1 представлен пример структурной схемы системы формирования эвристических правил для обнаружения мошеннических писем 100, в том числе относящихся к категории внутренних ВЕС-атак. Система 100 содержит по крайней мере средство обработки писем 110, ансамбль классификаторов 115, включающий по крайней мере два классификатора 120 и 130, средство предоставления условий определения внутренних писем 140 и средство создания эвристических правил 150. Система 100 формирует эвристические правила на основании обработки и анализа потока писем 160, получаемых от устройства-ловушки для сбора и хранения писем (далее – устройство-ловушка) 170, в том числе и мошеннических писем.On FIG. 1 shows an example of a block diagram of a system for generating heuristic rules for detecting fraudulent emails 100, including those belonging to the category of internal BEC attacks. The system 100 includes at least a letter processor 110, an ensemble of classifiers 115 including at least two classifiers 120 and 130, a means for providing conditions for determining internal letters 140, and a means for creating heuristic rules 150. The system 100 generates heuristic rules based on the processing and analysis of the flow letters 160 received from the trap device for collecting and storing letters (hereinafter referred to as the trap device) 170, including fraudulent letters.

Устройство-ловушка 170 в одном из вариантов реализации представляет собой «облачный» сервер, который производит сбор спам-писем, включающих в том числе и мошеннические письма. Такой сервер в одном из вариантов реализации обладает почтовым ящиком для перехвата указанных писем, при этом почтовый ящик относится к несуществующим или закрытым организациям. Так, устройство-ловушка 170 собирает миллионы спам-писем каждый день. Устройство-ловушка 170 предоставляет собранные спам-письма в виде потока писем 160 средству обработки писем 110 для первичного анализа спам-писем и определения писем, содержащих в себе признаки мошенничества. В одном из вариантов реализации предоставление потока писем 160 средству 110 осуществляется через другой «облачный» сервер, которым может являться система Kaspersky Security Network (KSN). В еще одном частном варианте реализации устройство-ловушка 170 предоставляет собранные спам-письма в виде потока писем 160 непосредственно ансамблю классификаторов 115.The trap device 170 in one implementation is a "cloud" server that collects spam emails, including fraudulent emails. Such a server in one of the implementation options has a mailbox for intercepting the specified letters, while the mailbox belongs to non-existent or closed organizations. Thus, decoy device 170 collects millions of spam emails every day. The trap device 170 provides the collected spam emails in the form of a stream of emails 160 to the email processing engine 110 for initial analysis of spam emails and identification of messages containing signs of fraud. In one of the implementation options, the flow of letters 160 is provided to the tool 110 through another "cloud" server, which may be the Kaspersky Security Network (KSN) system. In another particular implementation, the trap device 170 provides the collected spam emails in the form of a stream of emails 160 directly to an ensemble of classifiers 115.

В одном из вариантов реализации письма для анализа также автоматически поступают и от устройств 180А, 180Б…180N пользователей, которые дали согласие на это, или же сами передают письма для анализа. Указанные устройства могут являться как частью одной группы (предприятия, компании), так и разных. Передача писем с устройств 180А, 180Б …180N осуществляется с помощью почтовых клиентов, установленных на указанных устройствах, или почтовых серверов, связанных с указанными устройствами. Стоит отметить, что письма, передаваемые пользователями или передающиеся с согласия пользователей, могут предварительно фильтроваться. Во время фильтрации, например, производится обезличивание писем путем удаления заголовка письма и удаления части информации из текста письма, которая не требуется для последующего анализа.In one embodiment, letters for analysis are also automatically received from devices 180A, 180B ... 180N of users who have agreed to this, or they themselves transmit letters for analysis. These devices can be either part of the same group (enterprises, companies) or different. The transmission of letters from devices 180A, 180B ... 180N is carried out using mail clients installed on the indicated devices, or mail servers associated with the indicated devices. It is worth noting that messages sent by users or transmitted with the consent of users may be pre-filtered. During filtering, for example, messages are depersonalized by deleting the message header and deleting part of the information from the message text that is not required for subsequent analysis.

Средство обработки писем 110 получает указанный поток писем 160 и производит отбор писем, содержащих в сообщении письма признаки, указывающие на мошенничество. Примерами таких признаков являются сведения, направленные на кражу денежных средств или конфиденциальной информации. Так, сведения могут содержать информацию, связанную с просьбой об оплате счета или просьбой предоставить личные данные или данные компании, которые нельзя получить с общедоступных ресурсов. Также сведения могут содержать URL (от англ. Uniform Resource Locator) адрес на сторонний ресурс (например, фишинговый сайт), архив с вредоносным кодом. Кроме того, текст писем может включать дополнительную информацию, которая содержит различные уловки социальной инженерии и направлена на уменьшение бдительности пользователя. Например, такая дополнительная информация:The mail processor 110 receives the specified mail stream 160 and selects the mails containing signs in the mail message that indicate fraud. Examples of such signs are information aimed at stealing money or confidential information. For example, the information may contain information related to a request to pay a bill or a request to provide personal or company data that cannot be obtained from public resources. Also, the information may contain a URL (from the English Uniform Resource Locator), an address to a third-party resource (for example, a phishing site), an archive with malicious code. In addition, the text of the letters may include additional information that contains various social engineering tricks and is aimed at reducing the user's vigilance. For example, this additional information:

• указывает на срочность выполнения требования, указанного в письме,• indicates the urgency of fulfilling the requirement specified in the letter,

• содержит указания на штрафы и другие угрозы,• contains indications of fines and other threats,

• связана с каким-то провалом, например, невыполнением раннего требования,• is associated with some kind of failure, such as failure to meet an early requirement,

• имитируют приказной тон, не допускающий промедлений,• imitate an orderly tone that does not allow for delay,

• содержит другую информацию с иными уловками.• contains other information with other tricks.

При этом такие сведения указывают на их принадлежность к мошенничеству, так как эти сведения были выявлены из спам-писем.At the same time, such information indicates that they belong to fraud, since this information was identified from spam emails.

Производимый отбор средством 110 является первичным, во время которого анализируются сообщения в текстах спам-писем для выявления писем, содержащих указанные признаки. После отбора средство 110 передает письма, содержащие указанные признаки, ансамблю классификаторов 115.The selection made by means 110 is primary, during which the messages in the texts of spam emails are analyzed to identify letters containing the indicated signs. After selection, the tool 110 transmits letters containing the indicated features to the ensemble of classifiers 115.

Стоит отметить, что средство 110 может быть реализовано как часть указанной системы 100, так и быть частью устройства-ловушки 170. В случае, когда средство 110 являются частью устройства-ловушки 170, в систему 100 предоставляется поток писем 160, который содержит только письма, содержащие признаки, указывающие на мошенничество.It is worth noting that tool 110 can be implemented as part of said system 100 or be part of trap device 170. In the case where tool 110 is part of trap device 170, a mail stream 160 is provided to system 100, which contains only letters, containing signs indicating fraud.

Ансамбль классификаторов 115 получает указанные письма, которые подаются на вход первого классификатора 120.The ensemble of classifiers 115 receives the indicated letters, which are fed to the input of the first classifier 120.

Классификатор 120 предназначен для фильтрации полученных от средства 110 писем по содержанию сообщений в письмах с целью выделения определенных частей текстовых сообщений (терминов). Под термином понимается как одно слово, так и некое словосочетание (фраза), например, последовательность по крайней мере из двух слов. Примерами терминов являются: «счет на оплату», «счет», «ты должен», «оплатить счет», «заполнить данные компании», «отправь на почту» и так далее. Также классификатор 120 предназначен для преобразования выделенных терминов в определенный вид для последующего анализа, например, в n-граммы.The classifier 120 is intended to filter the letters received from the means 110 according to the content of the messages in the letters in order to highlight certain parts of text messages (terms). A term is understood as a single word or a certain phrase (phrase), for example, a sequence of at least two words. Examples of terms are: “invoice for payment”, “invoice”, “you must”, “pay invoice”, “fill in company data”, “send by mail” and so on. Also, the classifier 120 is designed to convert the selected terms into a specific form for further analysis, for example, in n-grams.

В одном из вариантов реализации в качестве классификатора 120 используется предварительно обученный для задачи классификации текста писем классификатор, включающий первую рекуррентную нейронную сеть. Рекуррентная нейронная сеть представляет собой языковую модель, которая основана на архитектуре AWD-LSTM. Предварительное обучение классификатора 120 заключается в его первичном обучении для понимания слов определенного языка и последующем дополнительном обучении на данных (письмах) из устройства-ловушки 170 для добавления дополнительных слов, которые специфичны для спам-писем, в том числе мошеннических писем, а также для адаптации классификатора 120 под стилистику указанных спам-писем.In one implementation, the classifier 120 is a classifier previously trained for the task of classifying the text of letters, including the first recurrent neural network. The Recurrent Neural Network is a language model that is based on the AWD-LSTM architecture. The pre-training of the classifier 120 consists in its initial training to understand the words of a certain language and subsequent additional training on data (letters) from the trap device 170 to add additional words that are specific to spam emails, including fraudulent emails, as well as to adapt classifier 120 for the style of the specified spam emails.

Первичное обучение языковой модели AWD-LSTM классификатора 120 осуществляется на большом количестве текстов, полученных из открытых источников на определенном языке, например, из такого источника, как Википедия. Может быть использован любой язык обучения, зависящий от языка анализируемых писем. Кроме того, может быть использована и комбинация из двух и более языков. Например, английский и русский, китайский и немецкий, испанский и японский языки. После первичного обучения языковая модель AWD-LSTM классификатора 120 умеет распознавать/определять структуру изученных языков.Primary training of the language model AWD-LSTM classifier 120 is carried out on a large number of texts obtained from open sources in a particular language, for example, from a source such as Wikipedia. Any teaching language can be used, depending on the language of the letters being analyzed. In addition, a combination of two or more languages may be used. For example, English and Russian, Chinese and German, Spanish and Japanese. After initial training, the AWD-LSTM language model of the classifier 120 is able to recognize/determine the structure of the learned languages.

Дополнительное обучение языковой модели AWD-LSTM классификатора 120 осуществляется путем изменения последнего выходного слоя в указанной языковой модели и его обучении. Стоит отметить, что под изменением последнего слоя понимается изменение весовых коэффициентов связей между нейронами слоя. Так, в указанной модели сначала осуществляется замена последнего слоя, который после первичного обучения позволял определить с определенной математической оценкой вероятности следующие слова в сообщении из анализируемого текста, на слой, который позволяет определить, относится ли сообщение в тексте письма к мошенничеству, в частности, к категории ВЕС-атак или к категории не ВЕС-атак. Далее классификатор 120 дополнительно обучает (дообучает) языковую модель AWD-LSTM с замененным слоем на данных, например, на части писем, полученных от средства 110, с целью создания возможности определять с определенной вероятностью, относится ли выделенная совокупность терминов к категории ВЕС-атак или нет. В одном из вариантов реализации указанными данными для дообучения являются письма, полученные непосредственно от устройства-ловушки 170. Принцип дополнительного обучения представлен в статье «Universal Language Model Fine-tuning for Text Classification» (https://arxiv.org/pdf/1801.06146.pdf).Additional training of the AWD-LSTM language model of the classifier 120 is performed by changing the last output layer in the specified language model and training it. It should be noted that a change in the last layer means a change in the weight coefficients of connections between neurons in the layer. So, in this model, the last layer is first replaced, which, after initial training, made it possible to determine, with a certain mathematical probability estimate, the next words in the message from the analyzed text, with a layer that allows you to determine whether the message in the text of the letter refers to fraud, in particular, to category of BEC attacks or to the category of non-BEC attacks. Next, the classifier 120 additionally trains (re-trains) the AWD-LSTM language model with a replaced layer on data, for example, on parts of the letters received from the tool 110, in order to create the ability to determine with a certain probability whether the selected set of terms belongs to the category of BEC attacks or no. In one implementation, the specified data for fine-tuning are letters received directly from the trap device 170. The principle of additional training is presented in the article “Universal Language Model Fine-tuning for Text Classification” (https://arxiv.org/pdf/1801.06146. pdf).

Стоит отметить, что дообучение языковой модели AWD-LSTM с измененным последним слоем происходит аналогично следующему примеру обучения человека английскому языку.It should be noted that the additional training of the AWD-LSTM language model with the modified last layer is similar to the following example of teaching a person English.

Сначала человек читает много книг на английском языке и постепенно учит его, потом ему показывают фразу «Roses are red» и предлагают выбрать из примеров ниже похожую:First, a person reads a lot of books in English and gradually learns it, then they show him the phrase "Roses are red" and offer to choose from the examples below a similar one:

- «Violets are blue»,- "Violets are blue",

- «Work is over»,- “Work is over”,

- «Green Card».- "Green Card".

Так как человек понимает, что речь идет о цветах и цвете, он выбирает первый вариант. Указанная языковая модель AWD-LSTM производит обучение последнего слоя подобным образом, только в качестве примеров слов и фраз используются фразы и слова (термины) из мошеннических писем.Since a person understands that it is about flowers and color, he chooses the first option. The specified AWD-LSTM language model trains the last layer in a similar way, only phrases and words (terms) from fraudulent emails are used as examples of words and phrases.

В зависимости от реализации изобретения дообучение языковой модели AWD-LSTM классификатора 120 может быть произведено как заранее, так и во время формирования эвристических правил перед фильтрацией по содержанию текста в сообщениях писем с целью отбора писем, относящихся к категории ВЕС-атак. Примером заранее дообученного классификатора 120 является случай, когда требуется произвести анализ новых полученных писем для выделения новых терминов или во время переобучения уже созданных эвристических правил, на основании которых выносится ложное решение, не удовлетворяющее заданному пороговому значению.Depending on the implementation of the invention, additional training of the AWD-LSTM language model of the classifier 120 can be performed both in advance and during the formation of heuristic rules before filtering by the content of the text in the messages of letters in order to select letters belonging to the category of BEC attacks. An example of a pre-trained classifier 120 is the case when it is required to analyze new received letters to highlight new terms or during retraining of already created heuristic rules, based on which a false decision is made that does not satisfy a given threshold value.

Итак, классификатор 120 производит фильтрацию писем, полученных от средства обработки писем 110, при помощи обученной нейронной сети (языковой модели AWD-LSTM). Во время фильтрации производится разделение писем по содержанию сообщений и выделение определенных частей текстовых сообщений (терминов), относящихся к категории ВЕС-атак. Далее обученный классификатор 120 формирует из выделенных терминов n-граммы. Текст, содержащийся в сообщении, который не имеет отношения к определению мошенничества и к категории ВЕС-атак, не учитывается при создании n-грамм.So, the classifier 120 filters the messages received from the message processor 110 using a trained neural network (the AWD-LSTM language model). During filtering, messages are separated by message content and certain parts of text messages (terms) belonging to the category of BEC attacks are selected. Next, the trained classifier 120 forms n-grams from the selected terms. The text contained in the message, which is not related to the definition of fraud and the category of BEC attacks, is not taken into account when creating n-grams.

В предпочтительном варианте реализации n-граммы формируются непосредственно на основании количества слов, содержащихся в терминах. В тоже время, в частном варианте реализации, слова могут быть предварительно преобразованы в хеш-суммы, от которых затем будут сформированы n-граммы. Под n-граммой понимается количество слов, содержащихся в термине, равное длине n.In a preferred embodiment, n-grams are generated directly based on the number of words contained in terms. At the same time, in a particular implementation, words can be preliminarily converted into hash sums, from which n-grams will then be formed. An n-gram is understood as the number of words contained in a term, equal to the length n.

Классификатор 120 передает созданные n-граммы терминов второму классификатору 130.The classifier 120 passes the created n-grams of terms to the second classifier 130.

В частном случае формирование n-грамм из словосочетаний слов производится только для определенных длин. Например, необходимые длины n-грамм для классификатора 130 могут быть заранее заданы на основании наибольшей их популярности по метрике TF-IDF из классификатора 130. Например, заданы длины 2, 3 и 5. Соответственно n-граммы будут строится только для терминов, которые содержат 2, 3 или 5 слов.In a particular case, the formation of n-grams from word combinations is carried out only for certain lengths. For example, the required lengths of n-grams for classifier 130 can be predetermined based on their highest popularity according to the TF-IDF metric from classifier 130. For example, lengths of 2, 3, and 5 are given. Accordingly, n-grams will be built only for terms that contain 2, 3 or 5 words.

Классификатор 130 предназначен для формирования векторов из полученных n-грамм, обучения второй нейронной сети и определения с помощью обученной нейронной сети наиболее релевантных терминов для дальнейшего формирования эвристических правил с целью определения мошеннических писем, в частности, писем, относящихся к категории ВЕС-атак и/или писем, относящихся к категории внутренних ВЕС-атак.The classifier 130 is designed to form vectors from the received n-grams, train the second neural network and determine the most relevant terms using the trained neural network for further formation of heuristic rules in order to determine fraudulent letters, in particular, letters belonging to the category of BEC attacks and / or letters belonging to the category of internal BEC attacks.

В одном из вариантов реализации в качестве классификатора 130 используется классификатор, который в качестве нейронной сети содержит логистическую регрессию (англ. logit model) с L1 регуляризатором. Логит-модель – это статистическая модель, используемая для прогнозирования вероятности возникновения некоторого события по значениям множества терминов. Эта регрессия выдаёт ответ в виде вероятности бинарного события (1 или 0). Обучение логит-модели осуществляется на n-граммах, созданных из текстов, полученных в результате первичной фильтрации писем при помощи классификатора 120. In one of the implementation options, a classifier is used as a classifier 130, which, as a neural network, contains a logit regression (English logit model) with an L1 regularizer. A logit model is a statistical model used to predict the probability of an event occurring from the values of a set of terms. This regression gives the answer as the probability of a binary event (1 or 0). The training of the logit model is carried out on n-grams created from texts obtained as a result of the primary filtering of letters using the classifier 120.

Классификатор 130 преобразовывает (формирует) полученные термины в виде n-грамм в векторное представление с помощью статистической меры TF-IDF нормализации и L2 регуляризации, чтобы значения векторов варьировались от 0 до 1. После чего классификатор 130 производит обучение логит-модели с помощью сформированных векторов. С принципом дальнейшей работы логит-модели можно ознакомиться из статьи «Lasso (statistics)» [https://en.wikipedia.org/wiki/Lasso_(statistics)].The classifier 130 transforms (generates) the received n-gram terms into a vector representation using the normalization statistic TF-IDF and L2 regularization so that the values of the vectors range from 0 to 1. After that, the classifier 130 trains the logit model using the generated vectors . The principle of further operation of the logit model can be found in the article "Lasso (statistics)" [https://en.wikipedia.org/wiki/Lasso_(statistics)].

Стоит отметить, что при обучении логит-модели классификатора 130, происходит подбор весового коэффициента для каждого термина, так чтобы потери были минимальны. В свою очередь потери считаются исходя из того, что определяет (предсказывает) на выходе логит-модель и оригинального таргета. Например, если логит-модель предсказывает класс 0, а таргет 1, то потери будут большие, и логит-модель постарается так подобрать вес, чтобы снизить потери.It should be noted that when training the logit model of the classifier 130, a weight coefficient is selected for each term so that the losses are minimal. In turn, losses are calculated based on what determines (predicts) the logit model and the original target at the output. For example, if the logit model predicts class 0, and the target is 1, then the losses will be large, and the logit model will try to adjust the weight in such a way as to reduce the losses.

После обучения, так как логит-модель линейна, у каждого термина на выходе из логит-модели определяется свой весовой коэффициент. Данные весовые коэффициенты интерпретируются как вклад термина в финальное предсказание вероятности его отнесения к категории BEC-атак. Классификатор 130 передает термины, представленные в виде n-грамм, с положительными весовыми коэффициентами средству создания эвристических правил 150.After training, since the logit model is linear, each term at the output of the logit model has its own weight coefficient. These weight coefficients are interpreted as the contribution of the term to the final prediction of the probability of its being classified as a BEC attack. Classifier 130 passes terms represented as n-grams with positive weights to heuristic generator 150.

Средство предоставления условий определения внутренних писем 140 (далее – средство 140) предназначено для создания или получения от внешних источников признаков идентификации письма как внутреннего (англ. internal) письма. Примером внешнего источника является устройство-ловушка 170 или «облачный» сервер. Примерами указанных признаков являются:The means for providing conditions for determining internal letters 140 (hereinafter referred to as the means 140) is designed to create or receive from external sources signs of identifying a letter as an internal letter. An example of an external source is the trap device 170 or "cloud" server. Examples of these features are:

• домен в адресе отправителя письма совпадает с доменом в адресе получателя письма,• the domain in the address of the sender of the letter matches the domain in the address of the recipient of the letter,

• адрес отправителя письма находится в списке доверенных адресов,• the email sender's address is in the list of trusted addresses,

• IP-адрес отправителя письма находится в списке доверенных.• The sender's IP address is in the trusted list.

При идентификации письма как внутреннего производится анализ заголовка письма с целью выявления признака, указывающего на то, что письмо является внутренним. Средство 140 передает признаки определения письма как внутреннего средству создания эвристического правила 150.When a letter is identified as internal, the heading of the letter is analyzed in order to identify a sign indicating that the letter is internal. The engine 140 passes the features of the letter definition as internal to the creation of the heuristic rule 150.

Средство создания эвристических правил 150 (далее – средство создания 150) предназначено для создания эвристических правил на основании комбинирования сочетаний отобранных терминов (фраз), полученных от средства 130 и предварительно сгруппированных в категории. Комбинирование производится на основании весовых коэффициентов. Другими словами, производится взвешивание. Сочетание отобранных терминов, которые имеют наибольший эффект обнаружения мошеннических писем, объединяют и добавляют в эвристическое правило в качестве условия.The heuristic rule generator 150 (hereinafter referred to as the heuristic generator 150) is designed to create heuristic rules based on a combination of combinations of selected terms (phrases) received from the tool 130 and previously grouped into categories. The combination is based on weighting factors. In other words, weighing is done. The combination of selected terms that have the greatest effect in detecting fraudulent emails are combined and added to the heuristic rule as a condition.

Стоит отметить, что эвристические правила, которые в качестве условий содержат только сочетания отобранных терминов, позволяют обнаруживать мошеннические письма, относящиеся к категории ВЕС-атак. Для формирования эвристических правил для обнаружения мошеннических писем, относящихся к категории внутренних ВЕС-атак, эвристическое правило в качестве условия дополнительно содержит признаки от средства 140 для определения письма как внутреннего письма.It is worth noting that heuristic rules that contain only combinations of selected terms as conditions make it possible to detect fraudulent emails belonging to the category of BEC attacks. In order to generate heuristic rules for detecting fraudulent emails belonging to the category of internal BEC attacks, the heuristic rule additionally contains as a condition features from the means 140 for determining the email as an internal email.

В одном из вариантов реализации термины могут быть сгруппированы в категории. Каждая категория - список терминов, которые были получены классификатором 120. Объединение терминов в категории производится на основании n-грамм.In one implementation, the terms may be grouped into categories. Each category is a list of terms that were received by the classifier 120. The combination of terms in the category is based on n-grams.

Примеры категорий.Category examples.

КатегорияCategory Название категорииname of category Термины в нейTerms in it 1one …/Phishing_test/ml_lm_bec_body…/Phishing_test/ml_lm_bec_body account automaticallyaccount automatically 22 …/Phishing_test/ml_bec_action…/Phishing_test/ml_bec_action I haveI have

Таким образом, эвристическое правило включает определенную взвешенную комбинацию по крайней мере из одной категории терминов, позволяющих определить письмо как мошенническое письмо, в частности, как мошенническое письмо, относящееся к категории внутренних BEC-атак.Thus, the heuristic rule includes a certain weighted combination of at least one category of terms that makes it possible to define an email as a fraudulent email, in particular, as a fraudulent email belonging to the category of internal BEC attacks.

Примером эвристического правила, относящего то или иное письмо к категории внутренних ВЕС-атак, является правило, которое схематично имеет следующий вид:An example of a heuristic rule that classifies a particular message as an internal BEC attack is a rule that has the following schematic form:

Первая часть правила - условия:The first part of the rule is the conditions:

Conditions = {conditions = {

1. Проверка "внутренней" пересылки письма - адрес отправителя должен совпадать с адресом получателя:1. Checking the "internal" forwarding of the letter - the sender's address must match the recipient's address:

{check.from_domain, to_domain},{check.from_domain, to_domain},

2. Проверка текста сообщения письма по "составным" категориям (наличию совокупности признаков, указывающих на мошенничество):2. Checking the message text of the letter by "composite" categories (the presence of a combination of signs indicating fraud):

[[[[

{Category, "… /Phishing_test/ml_bec_action "},{Category, "…/Phishing_test/ml_bec_action"},

{Category, "…/Phishing_test/ml_lm_bec_body"},{Category, "…/Phishing_test/ml_lm_bec_body"},

]]]]

},},

Вторая часть правила - совершаемые действия, например, выносится решение о том, что письмо относится к категории ВЕС-атак:The second part of the rule is the actions taken, for example, a decision is made that the letter belongs to the category of BEC attacks:

Actions = {Actions = {

DoSetBEC DoSetBEC

}.}.

В одном из вариантов реализации изобретения средство создания 150 после создания эвристического правила производит его проверку на ложное срабатывание. Проверка осуществляется на тех же письмах или части писем, которые были получены от устройства-ловушки 170.In one of the embodiments of the invention, the creation tool 150, after creating the heuristic rule, checks it for false positives. The verification is carried out on the same letters or part of the letters that were received from the trap device 170.

На Фиг. 2 представлена блок-схема, иллюстрирующая способ создания эвристических правил для обнаружения мошеннических писем, относящихся к категории внутренних ВЕС-атак. Указанный способ реализуется с помощью средств из системы 100. Для создания указанных эвристических правил система 100 получает поток писем 160, содержащий в том числе и мошеннические письма, от устройства-ловушки 170.On FIG. 2 is a flowchart illustrating a method for creating heuristics for detecting fraudulent emails that fall into the category of internal BEC attacks. This method is implemented using tools from system 100. To create these heuristics, system 100 receives a stream of letters 160, including fraudulent letters, from decoy device 170.

На этапе 210 с помощью средства обработки писем 110 выбирают из получаемого потока писем 160 только письма, содержащие в тексте сообщения признаки, указывающие на мошенничество. Примеры признаков для отбора писем были представлены при описании Фиг. 1.At step 210, using the message processor 110, only letters containing signs in the message text indicating fraud are selected from the received stream of letters 160. Examples of features for selecting letters have been presented in the description of FIG. one.

Стоит отметить, что этап 210 может являться вспомогательным и выполняться вне заявленного способа. В этом случае для создания указанных эвристических правил система 100 получает поток писем 160, который содержит письма, содержащие в тексте сообщения признаки, указывающие на мошенничество, т. е. мошеннические письма.It is worth noting that step 210 may be auxiliary and performed outside of the claimed method. In this case, to create these heuristics, the system 100 receives a stream of letters 160, which contains letters containing signs in the message text that indicate fraud, i.e., fraudulent letters.

На этапе 220 при помощи первого классификатора 120 проводят фильтрацию текста в сообщениях отобранных писем, во время которой выделяют определенные части текстовых сообщений (термины), относящиеся к категории ВЕС-атак. Под термином понимается как одно слово, так и некое словосочетание (фраза), например, последовательность по крайней мере из двух слов. Стоит отметить, что для фильтрации писем классификатор 120 использует обученную нейронной сеть. Примером такой сети является упоминаемая ранее языковая модель AWD-LSTM, при этом дополнительно обученная для целей определения из писем терминов, относящихся к категории ВЕС-атак. Другими словами, дополнительное обучение позволяет при фильтрации писем определить, относится ли текст в сообщении письма к мошенничеству, в частности, к категории ВЕС-атак.At step 220, using the first classifier 120, text is filtered in the messages of the selected letters, during which certain parts of text messages (terms) belonging to the category of BEC attacks are selected. A term is understood as a single word or a certain phrase (phrase), for example, a sequence of at least two words. It is worth noting that classifier 120 uses a trained neural network to filter messages. An example of such a network is the previously mentioned language model AWD-LSTM, while additionally trained for the purpose of determining from letters the terms belonging to the category of BEC attacks. In other words, additional training allows, when filtering messages, to determine whether the text in the message of the letter belongs to fraud, in particular, to the category of BEC attacks.

На этапе 230 при помощи первого классификатора 120 формируют n-граммы из выделенных терминов. Текст, содержащийся в сообщении писем, который не имеет отношения к определению мошенничества или к категории ВЕС-атак, не учитывается при создании n-грамм.At step 230, using the first classifier 120, n-grams are formed from the selected terms. Text contained in the message of emails that is not relevant to the definition of fraud or the category of BEC attacks is not taken into account when generating n-grams.

В частном случае, созданные n-граммы, например, на шаге 235 (не показан на Фиг. 2), объединяют в категории на основании наибольшей релевантности n-граммы к соответствующей категории.In a particular case, the created n-grams, for example, in step 235 (not shown in Fig. 2), are combined into categories based on the highest relevance of the n-gram to the corresponding category.

На этапе 240 с помощью второго классификатора 130 преобразовывают (формируют) полученные термины в виде n-грамм в векторное представление с помощью статистической меры TF-IDF нормализации и L2 регуляризации, чтобы значения векторов варьировались от 0 до 1.At step 240, using the second classifier 130, the received terms in the form of n-grams are transformed (formed) into a vector representation using the normalization statistic TF-IDF and L2 regularization so that the values of the vectors range from 0 to 1.

На этапе 250 при помощи второго классификатора 130 производят обучение нейронной сети, которую содержит второй классификатор 130, на основании сформированных векторов. В качестве нейронной сети используется логит-модель. Логит-модель – это статистическая модель, используемая для прогнозирования вероятности возникновения некоторого события по значениям множества терминов.At step 250, using the second classifier 130, the neural network, which contains the second classifier 130, is trained based on the generated vectors. A logit model is used as a neural network. A logit model is a statistical model used to predict the probability of an event occurring from the values of a set of terms.

На этапе 260 при помощи второго классификатора 130 на выходе из логит-модели определяют весовой коэффициент для каждого термина, для которого были сформированы n-грамм и вектор. Данный весовой коэффициент интерпретируется как вклад термина в финальную возможность определить с определенной вероятностью, относится ли выделенная совокупность слов к категории ВЕС-атак или нет. Чем выше значение коэффициента, тем наиболее релевантным является термин. Кроме того, далее рассматриваются только положительные коэффициенты. Термины, представленные в виде n-грамм с положительными весовыми коэффициентами, передают средству создания эвристических правил 150.In step 260, using the second classifier 130, the output of the logit model determines the weighting factor for each term for which the n-gram and vector have been generated. This weight coefficient is interpreted as the contribution of the term to the final opportunity to determine with a certain probability whether the selected set of words belongs to the category of WEC attacks or not. The higher the coefficient value, the more relevant the term is. In addition, only positive coefficients are considered below. Terms represented as n-grams with positive weights are passed to the heuristic generator 150.

На шаге 270 с помощью средства создания эвристических правил 150 создают по крайней мере одно эвристическое правило на основании комбинирования и взвешивания сочетаний отобранных терминов, которые могут быть предварительно сгруппированы в категории. Сочетание отобранных признаков, которые имеют наибольший эффект обнаружения мошеннических писем, объединяют и добавляют в эвристическое правило в качестве условия. При использовании в создании эвристических правил только сочетания отобранных терминов такие правила позволяют обнаруживать письма, относящиеся к категории ВЕС-атак. Для формирования эвристических правил для обнаружения мошеннических писем, относящихся к категории внутренних ВЕС-атак, средство создания 150 дополнительно использует признаки для определения письма, как внутреннего письма. Пример признаков для определения внутренних писем представлен при описании Фиг. 1.At step 270, at least one heuristic rule is generated by the heuristic rule generator 150 based on combining and weighting combinations of selected terms that can be pre-grouped into categories. The combination of selected features that have the greatest effect in detecting fraudulent emails are combined and added to the heuristic rule as a condition. When used in the creation of heuristic rules, only a combination of selected terms, such rules make it possible to detect letters belonging to the category of BEC attacks. To generate heuristics for detecting fraudulent emails categorized as internal BEC attacks, the author 150 additionally uses features to identify the email as an internal email. An example of features for defining internal letters is provided in the description of FIG. one.

В частном случае создают эвристическое правило для обнаружения письма, относящегося к категории внутренних ВЕС-атак, на основании объединения по крайней мере одной категории терминов и использования одного условия, позволяющего определить письмо как внутреннее.In a particular case, a heuristic rule is created to detect a message belonging to the category of internal BEC attacks, based on the combination of at least one category of terms and the use of one condition, which makes it possible to determine the letter as internal.

В еще одном частном случае реализации получают по крайней мере одно условие, позволяющее определить письмо как внутреннее, с помощью средства предоставления условий определения внутренних писем 140.In yet another particular case, implementations receive at least one condition that allows the letter to be defined as internal, using the means of providing conditions for determining internal letters 140.

В другом частном случае реализации с помощью средства предоставления условий определения внутренних писем 140 создают или получают от внешних источников признаки идентификации письма как внутреннего письма.In another particular implementation, the internal letter definition conditionalizer 140 creates or receives from external sources signs of identifying the letter as an internal letter.

В еще одном частном случае реализации признаками определения письма как внутреннего письма являются:In another particular case of implementation, the signs of defining a letter as an internal letter are:

В одном из вариантов реализации изобретения средство создания 150 после создания эвристического правила, относящегося к категории ВЕС-атак или к категории внутренних ВЕС-атак, производит его проверку на ложное срабатывание. Проверка осуществляется на тех же письмах или части писем, которые были получены от устройства-ловушки 170 или средства обработки писем 110.In one embodiment of the invention, the creation tool 150, after creating a heuristic rule belonging to the category of BEC attacks or to the category of internal BEC attacks, tests it for false positives. The verification is carried out on the same letters or part of the letters that were received from the trap device 170 or the letter processor 110.

На Фиг. 3 представлен пример структурной схемы системы, предназначенной для обнаружения мошеннических писем, относящихся к категории ВЕС-атак или категории внутренних ВЕС-атак. Система также может после обнаружения указанных мошеннических писем в автоматизированном виде реагировать на них. Под реагированием понимается совершений действий, направленных на защиту данных пользователя через его устройство. Например, могут производить блокировку письма, информировать пользователя о том, что письмо было определенно как мошенническое письмо, перемещать письмо в карантинную зону и совершать другие подобные действия.On FIG. 3 shows an example of a block diagram of a system designed to detect fraudulent emails belonging to the category of BEC attacks or the category of internal BEC attacks. The system can also, after detecting the specified fraudulent emails, automatically respond to them. Responding means taking actions aimed at protecting user data through his device. For example, they can block the message, inform the user that the message was determined to be a fraudulent message, move the message to a quarantine zone, and perform other similar actions.

Пользователи получают электронные письма по сети, такой как Интернет или Интранет, например, на устройство 180А, с помощью почтового клиента через почтовый сервер.Users receive emails over a network such as the Internet or an Intranet, for example to device 180A, using an email client via a mail server.

В предпочтительном варианте реализации работа системы, предназначенной для обнаружения мошеннических писем, относящихся к категории ВЕС-атак или к категории внутренних ВЕС-атак (далее – система обнаружения) 300, осуществляется в рамках почтового клиента.In a preferred embodiment, the system for detecting fraudulent emails belonging to the category of BEC attacks or internal BEC attacks (hereinafter referred to as the detection system) 300 operates within an email client.

Стоит отметить, что почтовый клиент получает письма как из внешней сети, такой как Интернет, так и из внутренней сети, такой как Интранет. Примерами почтового клиента являются такие почтовые клиенты, как Microsoft Outlook для персонального компьютера и мобильные клиенты, например, Gmail на мобильных устройствах и т.д. В зависимости от реализации изобретения почтовый клиент может быть реализован на iOS, на Android, или может быть установлен из сервера. Примерами почтового сервера являются серверы Microsoft Exchange, серверы обмена Microsoft в режиме онлайн, серверы Gmail, SMTP-серверы и им подобные. Почтовый клиент может быть реализован при помощи программных языков C, Java, C++, PHP, Python, Perl, Ruby или любого другого подходящего языка.It is worth noting that the mail client receives messages both from an external network, such as the Internet, and from an internal network, such as an Intranet. Examples of an email client are email clients such as Microsoft Outlook for a personal computer and mobile clients such as Gmail on mobile devices, etc. Depending on the implementation of the invention, the mail client may be implemented on iOS, on Android, or may be installed from a server. Examples of a mail server are Microsoft Exchange servers, Microsoft online exchange servers, Gmail servers, SMTP servers, and the like. The mail client can be implemented using C, Java, C++, PHP, Python, Perl, Ruby, or any other suitable programming language.

Система обнаружения 300 включает по крайней мере следующие средства: средство чтения писем 320, средство анализа 330, базу данных 340 и средство обновления базы данных 350. В частных случаях реализации изобретения система обнаружения 300 включает средство принятия решения 360. В различных реализациях изобретения средства системы обнаружения 300 реализованы с использованием Java, C, C++ или любого другого подходящего языка программирования.The discovery system 300 includes at least the following tools: a letter reader 320, an analyzer 330, a database 340, and a database updater 350. In particular embodiments, the discovery system 300 includes a decision engine 360. In various implementations of the invention, the discovery system engine 300 are implemented using Java, C, C++, or any other suitable programming language.

Средство чтения писем 320 предназначено для получения и считывания нового входящего письма, которое затем передает в средство анализа 330.The letter reader 320 is designed to receive and read a new incoming letter, which is then passed to the parser 330.

Средство анализа 330 предназначено для анализа полученного письма с помощью применения эвристических правил из базы данных 340. Во время анализа средство анализа 330 определяет, к какому типу письма (к внутреннему или внешнему) относится полученное письмо, путем анализа заголовка письма. После определения типа письма средство анализа 330 анализирует текст сообщения письма, во время которого ищет части текста (термины), указывающие на мошенничество, относящиеся к категории ВЕС-атак. Указанные термины представлены в эвристических правилах в виде условий.The parser 330 is designed to parse the received email by applying heuristics from the database 340. During parsing, the parser 330 determines whether the received email is an email type (internal or external) by parsing the email header. After determining the type of the letter, the analysis engine 330 parses the text of the message of the letter, during which it looks for parts of the text (terms) indicating fraud related to the category of BEC attacks. These terms are presented in the heuristic rules as conditions.

Например, если письмо было определено как внутреннее, то средство анализа 330 анализирует текст сообщения письма при помощи эвристических правил, содержащих условия выявления признаков, относящихся к мошенничеству, присущему категории внутренних ВЕС- атак.For example, if the email has been determined to be internal, then parsing engine 330 analyzes the message text of the email using heuristics containing conditions for detecting signs related to fraud inherent in the category of internal BEC attacks.

В случае срабатывания по крайней мере одного эвристического правила, средство анализа 330 определяет полученное письмо как мошенническое письмо, относящееся к категории внутренних ВЕС-атак. Дополнительно средство анализа 330 информирует об обнаружении мошеннического письма средство принятия решения 360 и передает мошенническое письмо базе данных 340 на карантин.If at least one heuristic rule is triggered, the parsing engine 330 determines the received email as a fraudulent email belonging to the category of internal BEC attacks. Additionally, the analyzer 330 informs the decision maker 360 of the detection of the fraudulent email and quarantines the fraudulent email to the database 340.

База данных 340 предназначена для хранения различных данных, в частности, эвристических правил двух видов:The database 340 is designed to store various data, in particular, heuristic rules of two types:

• эвристических правил, предназначенных для обнаружения мошеннических писем, относящихся к категории ВЕС-атак;• heuristics designed to detect fraudulent emails belonging to the category of BEC attacks;

• эвристических правил, предназначенных для обнаружения мошеннических писем, относящихся к категории внутренних ВЕС-атак.• heuristics designed to detect fraudulent emails that fall into the category of internal BEC attacks.

В некоторых воплощениях база данных 340 реализуется в виде файла или любого другого соответствующего хранилища данных.In some embodiments, the database 340 is implemented as a file or any other appropriate data store.

Средство обновления базы данных 350 предназначено для получения новых эвристических правил от внешних систем, таких как система 100, и передачи различных данных внешним системам. Примерами передаваемых данных являются письма, в том числе мошеннические письма, и результаты работы эвристических правил из базы данных 340. Передаваемые данные могут быть использованы для дальнейшей обработки с целью динамического обновления или обучения/создания новых эвристических правил, как раскрыто выше в описании Фиг.1.The database update tool 350 is designed to receive new heuristics from external systems, such as system 100, and communicate various data to external systems. Examples of transmitted data are emails, including fraudulent emails, and the results of the heuristic rules from the database 340. The transmitted data can be used for further processing to dynamically update or train/create new heuristic rules, as discussed above in the description of Fig.1 .

Средство принятия решения 360 предназначено для определения дальнейших действий, направленных на защиту данных пользователя, после выявления мошеннического письма. Действия связаны с анализом мошеннического письма и его влиянием на компьютер (ПК) пользователя, в частности, почтовый клиент. Примерами таких действий являются:The 360 decision tool is designed to determine the next steps to protect user data once a fraudulent email has been identified. The actions are related to the analysis of a fraudulent letter and its impact on the user's computer (PC), in particular, the mail client. Examples of such actions are:

• запуск антивирусной проверки как ПК пользователя, получившего письмо, так и ПК пользователя, отправившего указанное письмо, если письмо относится к внутреннему;• launching an anti-virus scan on both the PC of the user who received the message and the PC of the user who sent the specified message, if the message is internal;

• запуск анализа инцидентов (англ. Endpoint Detection and Response или EDR) для обнаружения возможной атаки на внутреннюю или внешнюю сеть, по которой было передано письмо.• running an incident analysis (Endpoint Detection and Response or EDR) to detect a possible attack on the internal or external network through which the letter was transmitted.

На Фиг. 4 представлена блок-схема, иллюстрирующая способ обнаружения мошеннических писем, относящихся к категории внутренних ВЕС-атак. Способ реализуется при помощи средств системы обнаружения 300, описанной на Фиг. 3. В частности, при помощи средства анализа 330 и с использованием эвристических правил, позволяющих обнаружить мошеннические письма, относящиеся к категории внутренних ВЕС-атак.On FIG. 4 is a flowchart illustrating a method for detecting fraudulent emails belonging to the category of internal BEC attacks. The method is implemented using the means of the detection system 300 described in FIG. 3. In particular, using the 330 analysis tool and using heuristics to detect fraudulent emails belonging to the category of internal BEC attacks.

На этапе 410 определяют полученное письмо при помощи эвристических правил как внутреннее письмо на основании анализа заголовка письма.At step 410, the received email is determined by heuristics as an internal email based on the analysis of the email header.

На этапе 420 извлекают из указанного письма текст сообщения письма.At step 420, the message text of the letter is retrieved from the specified letter.

На этапе 430 проводят анализ извлеченного текста при помощи эвристических правил для выявления частей текста сообщения (терминов), соответствующих условиям, указывающим на мошенничество.At step 430, the extracted text is analyzed using heuristics to identify portions of the message text (terms) that match conditions that indicate fraud.

На этапе 440 в случае срабатывания по крайней мере одного эвристического правила определяют полученное письмо как мошенническое письмо, относящееся к категории внутренних ВЕС-атак.At step 440, if at least one heuristic rule is triggered, the received email is determined to be a fraudulent email belonging to the category of internal BEC attacks.

На дополнительном этапе 450 при определении письма как мошеннического блокируют указанное письмо и перемещают в карантин.At an additional step 450, when determining the letter as fraudulent, the specified letter is blocked and moved to quarantine.

Стоит отметить, что собранные письма в карантине могут быть использованы для дальнейшего анализа как на стороне почтового клиента, так и переданы в систему 100, например, через устройство-ловушку 170. Например, с целью динамического обновления или обучения/создания эвристических правил, как описано выше.It is worth noting that the collected messages in quarantine can be used for further analysis both on the side of the mail client, and transmitted to the system 100, for example, through the trap device 170. For example, for the purpose of dynamic updating or learning/creating heuristics, as described above.

В частном случае дополнительно на этапе 450 может быть инициирована антивирусная проверка как ПК пользователя, получившего письмо, так и ПК пользователя, отправившего указанное письмо.In a particular case, additionally at step 450, an anti-virus scan can be initiated both on the PC of the user who received the letter and on the PC of the user who sent the specified letter.

В еще одном частном случае реализации дополнительно на этапе 450 может быть инициирован запуск анализа инцидентов (англ. Endpoint Detection and Response или EDR) для обнаружения возможной атаки на внутреннюю сеть, по которой было передано письмо.In another particular case of implementation, additionally at step 450, an incident analysis (eng. Endpoint Detection and Response, or EDR) can be initiated to detect a possible attack on the internal network through which the letter was transmitted.

Фиг. 5 представляет пример компьютерной системы 20 общего назначения, которая может быть использована как компьютер клиента (например, персональный компьютер) или сервера. Компьютерная система 20 содержит центральный процессор 21, системную память 22 и системную шину 23, которая содержит разные системные компоненты, в том числе память, связанную с центральным процессором 21. Системная шина 23 реализована, как любая известная из уровня техники шинная структура, содержащая в свою очередь память шины или контроллер памяти шины, периферийную шину и локальную шину, которая способна взаимодействовать с любой другой шинной архитектурой. Системная память содержит постоянное запоминающее устройство (ПЗУ) 24, память с произвольным доступом (ОЗУ) 25. Основная система ввода/вывода (BIOS) 26, содержит основные процедуры, которые обеспечивают передачу информации между элементами компьютерной системы 20, например, в момент загрузки операционной системы с использованием ПЗУ 24.Fig. 5 represents an example of a general purpose computer system 20 that can be used as a client (eg, personal computer) or server computer. Computer system 20 includes a CPU 21, system memory 22, and a system bus 23 that contains various system components, including memory associated with the CPU 21. System bus 23 is implemented as any bus structure known in the art, containing in its a bus memory queue or bus memory controller, a peripheral bus, and a local bus that is capable of interfacing with any other bus architecture. System memory contains a read only memory (ROM) 24, random access memory (RAM) 25. The main input / output system (BIOS) 26 contains the main procedures that ensure the transfer of information between elements of the computer system 20, for example, at the time of loading the operating systems using ROM 24.

Компьютерная система 20 в свою очередь содержит жесткий диск 27 для чтения и записи данных, привод магнитных дисков 28 для чтения и записи на сменные магнитные диски 29 и оптический привод 30 для чтения и записи на сменные оптические диски 31, такие как CD-ROM, DVD-ROM и иные оптические носители информации. Жесткий диск 27, привод магнитных дисков 28, оптический привод 30 соединены с системной шиной 23 через интерфейс жесткого диска 32, интерфейс магнитных дисков 33 и интерфейс оптического привода 34 соответственно. Приводы и соответствующие компьютерные носители информации представляют собой энергонезависимые средства хранения компьютерных инструкций, структур данных, программных модулей и прочих данных компьютерной системы 20.The computer system 20 in turn comprises a hard disk 27 for reading and writing data, a magnetic disk drive 28 for reading and writing to removable magnetic disks 29 and an optical drive 30 for reading and writing to removable optical disks 31 such as CD-ROM, DVD -ROM and other optical storage media. The hard disk 27, the magnetic disk drive 28, the optical drive 30 are connected to the system bus 23 via the hard disk interface 32, the magnetic disk interface 33, and the optical drive interface 34, respectively. Drives and related computer storage media are non-volatile means of storing computer instructions, data structures, program modules, and other data of computer system 20.

Настоящее описание раскрывает реализацию системы, которая использует жесткий диск 27, сменный магнитный диск 29 и сменный оптический диск 31, но следует понимать, что возможно применение иных типов компьютерных носителей информации 56, которые способны хранить данные в доступной для чтения компьютером форме (твердотельные накопители, флеш карты памяти, цифровые диски, память с произвольным доступом (ОЗУ) и т.п.), которые подключены к системной шине 23 через контроллер 55.The present description discloses an implementation of a system that uses a hard disk 27, a removable magnetic disk 29, and a removable optical disk 31, but it should be understood that other types of computer storage media 56 that are capable of storing data in a computer-readable form (solid-state drives, flash memory cards, digital disks, random access memory (RAM), etc.), which are connected to the system bus 23 through the controller 55.

Компьютер 20 имеет файловую систему 36, где хранится записанная операционная система 35, а также дополнительные программные приложения 37, другие программные модули 38 и данные программ 39. Пользователь имеет возможность вводить команды и информацию в персональный компьютер 20 посредством устройств ввода (клавиатуры 40, манипулятора «мышь» 42). Могут использоваться другие устройства ввода (не отображены): микрофон, джойстик, игровая консоль, сканнер и т.п. Подобные устройства ввода по своему обычаю подключают к компьютерной системе 20 через последовательный порт 46, который в свою очередь подсоединен к системной шине, но могут быть подключены иным способом, например, при помощи параллельного порта, игрового порта или универсальной последовательной шины (USB). Монитор 47 или иной тип устройства отображения также подсоединен к системной шине 23 через интерфейс, такой как видеоадаптер 48. В дополнение к монитору 47, персональный компьютер может быть оснащен другими периферийными устройствами вывода (не отображены), например, колонками, принтером и т.п.The computer 20 has a file system 36 where the recorded operating system 35 is stored, as well as additional software applications 37, other program modules 38 and program data 39. The user has the ability to enter commands and information into the personal computer 20 through input devices (keyboard 40, manipulator " mouse" 42). Other input devices (not shown) may be used: microphone, joystick, game console, scanner, etc. Such input devices are typically connected to computer system 20 via serial port 46, which in turn is connected to the system bus, but may be connected in other ways, such as through a parallel port, game port, or universal serial bus (USB). A monitor 47 or other type of display device is also connected to the system bus 23 via an interface such as a video adapter 48. In addition to the monitor 47, the personal computer may be equipped with other peripheral output devices (not shown), such as speakers, a printer, etc. .

Компьютерная система 20 способна работать в сетевом окружении, при этом используется сетевое соединение с другим или несколькими удаленными компьютерами 49. Удаленный компьютер (или компьютеры) 49 являются такими же персональными компьютерами или серверами, которые имеют большинство или все упомянутые элементы, отмеченные ранее при описании существа компьютерной системы 20, представленного на Фиг. 5. В вычислительной сети могут присутствовать также и другие устройства, например, маршрутизаторы, сетевые станции, пиринговые устройства или иные сетевые узлы.The computer system 20 is capable of operating in a networked environment using a network connection to another or more remote computers 49. The remote computer(s) 49 are the same personal computers or servers that have most or all of the elements mentioned earlier in the entity description. computer system 20 shown in FIG. 5. Other devices may also be present in the computer network, such as routers, network stations, peering devices, or other network nodes.

Сетевые соединения могут образовывать локальную вычислительную сеть (LAN) 50 и глобальную вычислительную сеть (WAN). Такие сети применяются в корпоративных компьютерных сетях, внутренних сетях компаний и, как правило, имеют доступ к сети Интернет. В LAN- или WAN-сетях компьютерная система (персональный компьютер) 20 подключена к локальной сети 50 через сетевой адаптер или сетевой интерфейс 51. При использовании сетей персональный компьютер 20 может использовать модем 54 или иные средства обеспечения связи с глобальной вычислительной сетью, такой как Интернет. Модем 54, который является внутренним или внешним устройством, подключен к системной шине 23 посредством последовательного порта 46. Следует уточнить, что сетевые соединения являются лишь примерными и не обязаны отображать точную конфигурацию сети, т.е. в действительности существуют иные способы установления соединения техническими средствами связи одного компьютера с другим.The network connections may form a local area network (LAN) 50 and a wide area network (WAN). Such networks are used in corporate computer networks, internal networks of companies and, as a rule, have access to the Internet. In LAN or WAN networks, the computer system (personal computer) 20 is connected to a local area network 50 via a network adapter or network interface 51. When networks are used, the personal computer 20 may use a modem 54 or other means to communicate with a wide area network, such as the Internet. . Modem 54, which is an internal or external device, is connected to system bus 23 via serial port 46. It should be clarified that network connections are only exemplary and are not required to represent the exact network configuration, i. in fact, there are other ways to establish a connection by technical means of communication from one computer to another.

В заключение следует отметить, что приведенные в описании сведения являются примерами, которые не ограничивают объем настоящего изобретения, определенного формулой. Специалисту в данной области становится понятным, что могут существовать и другие варианты осуществления настоящего изобретения, согласующиеся с сущностью и объемом настоящего изобретения.In conclusion, it should be noted that the information given in the description are examples that do not limit the scope of the present invention defined by the formula. A person skilled in the art will appreciate that there may be other embodiments of the present invention consistent with the spirit and scope of the present invention.

Claims

1. A method for detecting a fraudulent email belonging to the category of internal BEC attacks, wherein the method includes the steps of:

a) determining the received email as an internal email based on the analysis of the email header using a heuristic rule for detecting fraudulent emails belonging to the category of internal BEC attacks;

b) extract the message text of the letter from the internal letter;

c) analyze the extracted text using heuristic rules to identify parts of text messages (terms) that meet conditions that indicate fraud using an internal BEC attack;

d) if at least one heuristic rule matches, determine the received email as a fraudulent email belonging to the category of internal BEC attacks,

e) when a letter is identified as fraudulent, the specified letter is blocked, while:

i) initiating an anti-virus scan both on the computer of the user who received the letter and on the computer of the user who sent said letter;

ii) initiate an incident analysis to detect a possible attack on the internal network over which the letter was transmitted.

2. The method according to claim 1, in which the letter is defined as internal if the sender and recipient in the letter belong to at least the same domain or one of the technical headers corresponds to the internal forwarding of the letter.

3. The method according to claim 1, in which the heuristic rule for detecting fraudulent emails belonging to the category of internal BEC attacks contains a condition that allows you to determine the letter as belonging to an internal letter, and conditions that allow you to identify signs in the text of the letter related to fraud.