RU2750643C2 - Способ признания письма спамом через анти-спам карантин - Google Patents

Способ признания письма спамом через анти-спам карантин Download PDF

Info

Publication number
RU2750643C2
RU2750643C2 RU2019122433A RU2019122433A RU2750643C2 RU 2750643 C2 RU2750643 C2 RU 2750643C2 RU 2019122433 A RU2019122433 A RU 2019122433A RU 2019122433 A RU2019122433 A RU 2019122433A RU 2750643 C2 RU2750643 C2 RU 2750643C2
Authority
RU
Russia
Prior art keywords
spam
email
classifier
message
signature analysis
Prior art date
Application number
RU2019122433A
Other languages
English (en)
Other versions
RU2019122433A3 (ru
RU2019122433A (ru
Inventor
Никита Дмитриевич Бенькович
Дмитрий Сергеевич Голубев
Роман Андреевич Деденок
Андрей Алексеевич БУТ
Original Assignee
Акционерное общество "Лаборатория Касперского"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Акционерное общество "Лаборатория Касперского" filed Critical Акционерное общество "Лаборатория Касперского"
Priority to RU2019122433A priority Critical patent/RU2750643C2/ru
Priority to US16/673,049 priority patent/US11929969B2/en
Publication of RU2019122433A3 publication Critical patent/RU2019122433A3/ru
Publication of RU2019122433A publication Critical patent/RU2019122433A/ru
Application granted granted Critical
Publication of RU2750643C2 publication Critical patent/RU2750643C2/ru

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6209Protecting access to data via a platform, e.g. using keys or access control rules to a single file or object, e.g. in a secure envelope, encrypted and accessed using a key, or with access control rules appended to the object itself
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/52Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems during program execution, e.g. stack integrity ; Preventing unwanted data erasure; Buffer overflow
    • G06F21/53Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems during program execution, e.g. stack integrity ; Preventing unwanted data erasure; Buffer overflow by executing in a restricted environment, e.g. sandbox or secure virtual machine
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/21Monitoring or handling of messages
    • H04L51/212Monitoring or handling of messages using filtering or selective blocking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/40Network security protocols
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W12/00Security arrangements; Authentication; Protecting privacy or anonymity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Virology (AREA)
  • Information Transfer Between Computers (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

Изобретение относится к средствам информационной безопасности. Технический результат заключается в снижении количества пропусков спам-писем за счет отправки письма на карантин на время, достаточное для выпуска соответствующей сигнатуры. Технический результат достигается путем использования способа, в котором: передают классификатору по меньшей мере две характеристики электронного письма, проверка которого методом сигнатурного анализа дала отрицательный результат; при помощи классификатора с использованием методов машинного обучения определяют степень схожести полученных характеристик электронного письма с аналогичными характеристиками электронных писем, ранее признанных спамом методом сигнатурного анализа; помещают электронное письмо на временный карантин, если упомянутая степень схожести превышает установленный порог; до истечения отведенного на карантин времени проводят по меньшей мере еще одну проверку электронного письма методом сигнатурного анализа; признают электронное письмо спамом, если упомянутая проверка дала положительный результат. 6 з.п. ф-лы, 4 ил.

Description

Область техники
Изобретение относится к средствам информационной безопасности, а более конкретно к способам признания электронных писем спамом.
Уровень техники
Спам - массовая рассылка информации рекламного характера либо иного рода сообщений без согласия получателей. Для рассылки спама в настоящий момент активно используются все возможные технические средства, в том числе прокси-серверы, бесплатные почтовые серверы, допускающие автоматизацию отправки писем по электронной почте, а также зараженные компьютерные системы пользователей, из которых формируются бот-сети.
Электронные письма, содержащие спам, являются серьезной проблемой в современном мире, так как уже достигают 70-90% от общего объема почтового трафика. Такое количество спама, отправленного по компьютерным сетям, вызывает существенные неудобства для пользователей электронной почты. В частности, спам вызывает ухудшение пропускной способности сетей, трату ресурсов системы обмена сообщениями и увеличение времени обработки электронных писем как пользователями, так и компьютерами. Таким образом, необходимо непрерывно бороться со спамом.
Существует две основных подхода обнаружения спама: сигнатурный и с использованием методов машинного обучения.
Для сигнатурного подхода используются ловушки для спама. Письмо, попавшее в такую ловушку, автоматически считается спамом. Спам разбирается на части, из подмножеств которых формируются сигнатуры. Сигнатуры позволяют строго (или почти строго) «отлавливать» на компьютерных системах пользователей то, что было обнаружено в спам ловушках. Плюсом такого подхода является практически нулевая вероятность возникновения ошибки первого рода, т.е. ложного срабатывания. Ложным срабатыванием в данном случае является ситуация, когда легитимное письмо было определено как спам. Минусом является недостаточная обобщающая сила данного метода, следствием чего являются пропуски спам писем (т.е. возникновение ошибки второго рода). Более того данный подход имеет временной лаг (от нескольких минут до часа) между событием, когда письмо попадет в ловушку, и выпуском новой сигнатуры, в связи с чем существует проблема пропуска спам-писем, относящихся к «свежим» спам-рассылкам.
В рамках методов машинного обучения используется коллекция спам писем против коллекции не спам писем. Письма разбираются на части, из которых исключаются те части, что встречаются в обеих коллекциях. Остальные же части используются для обучения классификатора, что позволяет обнаруживать не только письма из спам-ловушек. Плюсом такого подхода является высокая обобщающая способность, что позволяет добиться минимального количества пропусков спам писем. Однако вместе с тем минусом данного подхода является высокая вероятность возникновения ложных срабатываний.
Таким образом существует потребность создании решения, которое устраняло бы указанные недостатки. Настоящее изобретение позволяет решить указанные недостатки и задачи путем реализации подхода, основанного на обобщении сигнатурного вердикта при помощи методов машинного обучения.
Раскрытие изобретения
Настоящее изобретение предлагает решение, нацеленное на развитие современных способов, связанных с компьютерной безопасностью, а именно, способов признания электронных писем спамом.
Заявленное изобретение предназначено для признания электронных писем спамом.
Один технический результат настоящего изобретения заключается в снижении количества пропусков спам-писем за счет отправки письма на карантин на время достаточное для выпуска соответствующей сигнатуры (в случае, если данное письмо является спамом). При этом выбор писем, которые будут отправлены на карантин, осуществляется путем анализа полей заголовков писем на основании большого количества данных по электронным письмам пользователей, обработанных с использованием методов машинного обучения.
Еще один технический результат настоящего изобретения заключается в расширении арсенала технических средств признания электронных писем спамом.
Краткое описание чертежей
Дополнительные цели, признаки и преимущества настоящего изобретения будут очевидными из прочтения последующего описания осуществления изобретения со ссылкой на прилагаемые чертежи, на которых:
Фиг. 1 иллюстрирует верхнеуровневую архитектуру системы, реализующую способ признания электронного письма спамом.
Фиг. 2 изображает пример системы, реализующей способ признания электронного письма спамом.
Фиг. 3 иллюстрирует пример анализа характеристик электронного письма при помощи классификатора.
Фиг. 4 иллюстрирует пример компьютерной системы общего назначения, с помощью которого может быть реализовано заявленное изобретение.
Хотя изобретение может иметь различные модификации и альтернативные формы, характерные признаки, показанные в качестве примера на чертежах, будут описаны подробно. Следует понимать, однако, что цель описания заключается не в ограничении изобретения конкретным его воплощением. Наоборот, целью описания является охват всех изменений, модификаций, входящих в рамки данного изобретения, как это определено приложенной формуле.
Описание вариантов осуществления изобретения
Объекты и признаки настоящего изобретения, способы для достижения этих объектов и признаков станут очевидными посредством отсылки к примерным вариантам осуществления. Однако настоящее изобретение не ограничивается примерными вариантами осуществления, раскрытыми ниже, оно может воплощаться в различных видах. Приведенное описание предназначено для помощи специалисту в области техники для исчерпывающего понимания изобретения, которое определяется только в объеме приложенной формулы.
Электронное письмо (далее также - письмо) имеет определенную структуру. Поэтому для формирования письма используются специальные программы, поддерживающие структуру электронной почты. Кроме тела (англ. body) письмо содержит заголовки (англ. header) (или поля) - это служебная информация о маршруте прохождения писем. В заголовках представлены данные о том, когда, откуда и по какому маршруту пришло письмо, а также информацию, добавляемую к письму различными служебными программами. При этом каждый заголовок определяется своим именем и значением. Под значением заголовка понимается какой-то вид информации. Например, для заголовка, который предназначен для указания отправителя письма, в качестве имени служит «from», а значение будет иметь вид адреса электронной почты отправителя, например, username@domain.com.
Рассмотрим подробнее некоторые из заголовков, например, «Message_ID» и «Х-mailer».
«Message_ID» - уникальный идентификатор письма, присваиваемый каждому письму, чаще всего первым почтовым сервером, который встретится у него на пути. Обычно он имеет форму «a1B0!#@domen.ru», где «a1b0!#» может быть любым, зачастую не значащим набором символов, а вторая часть - имя машины, присвоившей идентификатор. Иногда, но редко, «a1b0!#» включает в себя имя отправителя. Если структура идентификатора нарушена (пустая строка, нет знака @), вторая часть идентификатора не является реальным интернет-сайтом, значит, письмо или структура хотя и корректна, но не типична для подавляющего большинства почтовых сервисов - вероятная подделка (с целью выдать спам за обычное письмо).
«Х-mailer» или «mailer_name» - свободное поле, в котором почтовая программа или сервис, с помощью которого было создано данное письмо, идентифицирует себя, например, «Outlook 2.2 Windows». Значение данного заголовка в совокупности с другими заголовками может указывать на принадлежность писем к спаму.
Как упоминалось выше, заголовки добавляются к письму по мере прохождения им маршрута от отправителя до получателя. Последовательности заголовков (части заголовков), так же, как и значения некоторых отдельно взятых заголовков, могут быть использованы для отнесения писем к категории спама.
Ниже представлены примеры данных в формате «Последовательность заголовков; значение заголовка X-mailer; значение заголовка Message_ID» для спама и писем, не являющихся спамом.
Спам:
1. "content-type:date:from:subject:to:message-id:";"none";" <i3mbd6v4vhjsdcmi-zu60opfkwplxb44x-37-6f8d@homesolrrebtes.icu>"
2. "content-type:date:from:subject:to:message-id:";"none";" <h5bds3kpswrik0ds0-oalwbjt3dtlcvhlv-2e-19550@homesolrrebtes.icu>"
3. "content-type:date:from:subject:to:message-id:";"none";" <yo8j0xsjsdivxywv-ie41tpc7xle0b3no-26-c36d@homesolrrebtes.icu>"
4. "content-type:date:from:subject:to:message-id:";"none";" <7enbb9h6c2vapnhr-na5nlwg42raodhr7-2e-4febe@homesolrrebtes.icu>"
5. "message-id:from:to:subject:date:content-type:x-mailer:";" Microsoft Outlook Express 6.00.2900.2316";"
<D2DDF9E326F6C73C33170DC81829D2DD@8II5L3SPI>"
6. "message-id:from:to:subject:date:content-type:x-mailer:";" Microsoft Outlook Express 6.00.2900.2180";"
<D98EBBF7F3ECC2BFE8DD91958AA4D98E@L0773DI>"
7. "message-id:from:to:subject:date:content-type:x-mailer:";" Microsoft Outlook Express 6.00.2900.2180";"
<F90CED31F818D024D130EC25C50DF90C@7TMANVQ>"
8. "message-id:from:to:subject:date:content-type:x-mailer:";" Microsoft Outlook Express 6.00.2900.5512";"
<311476D62A53B48AAFCD6D91E80F3114@VX180HGV>"
He спам:
1. "content-type:date:from:subject:to:message-id:";"none";" <3c8b3b43089c02b53b882aa9ae67roi0@acmomail3.emirates.net.ae>"
2. "content4ype:date:from:subject:to:message-id:";"none";" <3c8b3b43089c02b53b882aa9ae67roi0@acmomail3.emirates.net.ae>"
3. "content-type:date:from:subject:to:message-id:";"none";" <3c8b3b43089c02b53b882aa9ae67f010@acmomail3.emirates.net.ae>"
4. "content4ype:date:from:subject:to:message-id:";"none";" <3c8b3b43089c02b53b882aa9ae67roi0@acmomail3.emirates.net.ae>"
5. "from:to:subject:date:message-id:content-type:x-mailer:";" Microsoft Office Outlook 12.0";"
<006b01 d51986$06411be0$ 12c353a0$@domroese@evlka.de>"
6. "from:to:subject:date:message-id:content-type:x-mailer:";" Microsoft Outlook 15.0";"
<!&!AAAAAAAAAAAYAAAAAAAAAEuD2rCFvsdIgBF3v59c6PrCgA AAEAAAAD+/2KYKE3pHiClPnnSDdSk"
7. "from:to:subject:date:message-id:content-type:x-mailer:";" Microsoft Outlook 15.0";"
<!&!AAAAAAAAAAAYAAAAAAAAAEuD2rCFvsdIgBF3v59c6PrCgA AAEAAAAJCLHZRUOflDoROPaFfOwCk"
Глядя на примеры характеристик, взятых у писем, отнесенных к разным категориям, становится понятно, что человеку не всегда под силу выделить признаки из подобных данных, позволяющие идентифицировать спам. Однако это может быть осуществлено с использованием методов машинного обучения, а, в частности, с использованием методов глубокого обучения, позволяющим обнаруживать зависимости, скрытые от человеческих глаз.
На Фиг. 1 представлена примерная архитектура системы, реализующей способ признания электронного письма спамом для множества компьютерных систем 160. Данная система включает в себя упомянутое множество компьютерных систем 160, классификатор 100 и устройство сбора и хранения данных 130.
Устройство сбора и хранения данных 130 в одном из вариантов реализации представляет собой «облачный» сервер, который осуществляет сбор и хранение данных о письмах 120 с клиентов пользователей 110 А, 110 Б, 110 N. Под «облачным» сервером, например, понимается техническое средство, содержащее систему Kaspersky Security Network (KSN) компании AO «Лаборатория Касперского». Под клиентами 110 А, 110 Б, 110 N понимаются по крайней мере почтовые клиенты пользователей, установленные на множестве компьютерных систем 160, которое включает в себя как компьютеры пользователей, так и почтовые серверы. Стоит отметить, что устройство 130 во время проведения сбора данных о письмах клиентов не собирает информацию, относящуюся к пользователю, или обезличивает ее, так чтобы пользователь по данной информации однозначно не идентифицировался. Такой информацией являются сведения из тела письма, например, текстовые сообщения пользователей, и из заголовка письма, например, электронный адрес. Под обезличиванием понимается преобразование информации, например, с помощью сверток, осуществляемых в том числе при помощи хэш-функций, ассиметричного шифрования и т.д.
Для этого каждый клиент 110 содержит агент (не показан на Фиг. 1), который перед отправкой устройству сбора и хранения данных 130 письма преобразовывает его.
В рамках заявленного изобретения средство 130 собирает и хранит в исходном виде (не преобразованном) для каждого электронного письма с клиентов 110 А, 110 Б, HON значения по меньшей мере двух заголовков, «Message_ID» и «Х-mailer», и последовательность по меньшей мере части заголовков. А также категорию соответствующего полям письма (спам, не спам), выданную спам-фильтром 220 (см. Фиг. 2), описание работы которого будет приведено ниже. Эти данные 150 передаются классификатору 100, который использует их в рамках методов машинного обучения, позволяющих принимать решение о помещении письма на карантин.
Помещение письма в карантин - это мера временного изъятия письма, результат проверки которого на предмет отнесения его к спаму еще не окончателен, с целью ограничения доступа к данному письму со стороны пользователя клиента 110 N. Время нахождения письма в карантине ограничено, чаще несколькими минутами, что связано с упомянутым в уровне техники временным лагом или ожиданием ответа от систем анти-спам защиты. Признанное спамом письмо, находящееся на карантине, удаляется или перемещается в место хранения спама. В противном случае письмо возвращается в клиент 110 N и становится доступно пользователю.
На Фиг. 2 приведен частный вариант системы, реализующей способ признания электронного письма спамом в рамках одной компьютерной системы 200 из множества компьютерных систем 160.
В общем случае система, предназначенная для реализации заявленного изобретения, включает в себя компьютерное устройство 200 (например, компьютер общего назначения, который изображен на Фиг. 4, или частный вариант компьютера общего назначения - мобильное устройство), содержащее: по меньшей мере, один процессор; средство сетевого доступа, взаимодействующее, по меньшей мере, с одним процессором; и носитель информации, содержащий операционную систему (например, ОС Windows), а также множество инструкций, при исполнении которых по меньшей мере на одном процессоре реализуется способ признания электронного письма 210 спамом.
В частном варианте система, предназначенная для реализации способа признания электронного письма 210 спамом, включает в себя: компьютерное устройство 200, содержащее спам-фильтр 220, средство сигнатурного анализа 230 и базу данных спам-сигнатур 240, и классификатор 100.
В одном из вариантов реализации данного изобретения спам-фильтр 220, средство сигнатурного анализа 230 и база данных спам-сигнатур 240 являются модулями приложения безопасности (например, антивирусного приложения), установленного на операционную систему компьютерного устройства 200. Спам-фильтр 220 предназначен для принятия решения о принадлежности письма 210 к спаму. Для этой цели спам-фильтр 220 использует средство сигнатурного анализа 230 и классификатор 100.
В одном из вариантов осуществления средство классификатор 100 реализовано на удаленном сервере, при этом спам-фильтр 220 взаимодействует с классификатором 100 по сети (например, сети Интернет 250).
В другом варианте осуществления классификатор 100, как и спам-фильтр 220, тоже является модулем приложения безопасности (например, антивирусного приложения), установленного на операционную систему компьютерного устройства 200.
База данных спам-сигнатур 240 содержат регулярно обновляемые базы данных сигнатур спам-писем (далее спам-сигнатур или просто сигнатур), используемых средством сигнатурного анализа 230 для определения принадлежности письма 210 к спаму. Письмо 210 признается спамом при помощи спам-фильтра 220, если в результате проверки средством сигнатурного анализа 230 среди спам-сигнатур из базы 240 была найдена спам-сигнатура, совпадающая с упомянутым письмом 210. База данных спам-сигнатур 240 по меньшей мере от части формируется из сигнатур спам-писем, попавших в ловушки для спама.
При получении письма 210 клиентом пользователя на компьютерной системе 200 спам-фильтр 220 осуществляет его проверку при помощи средства сигнатурного анализа 230, в ходе которой письмо 210 сравнивается с имеющимися на текущий момент спам-сигнатурами в базе данных спам-сигнатур 240. И если по результатам проверки не было выявлено совпадение письма 210 ни с одной из спам-сигнатур, то спам-фильтр 220 передает классификатору 100 по меньшей мере две характеристики письма 210. При этом характеристикой является значение заголовка письма 210 или последовательность по меньшей мере части заголовков письма 210.
Классификатор 100, как упоминалось выше, предназначен для принятия решения о необходимости помещения письма 210 в карантин. Классификатор 100 не использует сигнатуры для принятия решения. Классификатор 100 определят степень схожести полученных характеристик письма 210 с аналогичными характеристиками электронных писем, признанных спамом методом сигнатурного анализа. В основе работы классификатора 100 лежат методы глубокого обучения, где нейронные сети обучены на данных 150 (см. Фиг. 1).
В рамках заявленного изобретения для машинного обучения используется не коллекции «спам» - «не спам», как в традиционных системах, а коллекции «поймано спам-сигнатурами» - «не поймано спам-сигнатурами». Использование коллекций «спам» - «не спам» вносит серьезное ограничение для антиспам-вендоров, которые проверяют почту на серверах конечных пользователей. Ограничение связано с тем, что трудно найти достаточно большие «белые» коллекции (легитимные письма). Спам можно купить, можно набрать в спам ловушки, можно обменяться с другими антиспам-вендорами. Но «белую» почту (электронные письма пользователей) предоставлять третьим лицам незаконно, а значит и неосуществимо. Ее необходимо собирать самостоятельно, при этом собрать большую репрезентативную коллекцию практически невозможно. В рамках заявленного изобретения в качестве «белой» коллекции для обучения используются значения аналогичных характеристик (тот же набор характеристик, что спам-фильтр 220 передает классификатору 100) других электронных писем, собранных со всех компьютерных систем пользователей 160, подключенных к устройству сбора и хранения данных 130 (например, KSN). В данном случае размер «белой» коллекции ограничен только временем ее накопления.
Модель, обученная на столь репрезентативных выборках, позволяет с высокой точностью, помещать в карантин письма, которые больше всего по своим характеристикам похожи на спам-письма, но для них еще не выпущены спам-сигнатуры.
Спам-фильтр 220 помещает письмо 210 на временный карантин, если упомянутая выше степень схожести, определяемая классификатором 100, превышает установленный порог, имеющий числовое значение (например, 0,7).
До истечения отведенного на карантин времени спам-фильтр 220 проводит по меньшей мере еще одну проверку письма 210 методом сигнатурного анализа (при помощи средства сигнатурного анализа 230). В одном из вариантов осуществления изобретения спам-фильтр 220 может проводить еще одну проверку письма 210 при помощи средства сигнатурного анализа 230 только, если базе данных спам-сигнатур 240 появилась по меньшей мере одна новая сигнатура. Спам-фильтр 240 признает письмо 210 спамом, если данная проверка дала положительный результат. Другими словами, письмо 210 признается спамом при помощи спам-фильтра 220, если за отведенное на карантин время, средством сигнатурного анализа 230 была получена спам-сигнатура, совпадающая с упомянутым письмом 210.
На Фиг. 3 изображен пример анализа полей письма 210 при помощи классификатора 100 при принятии решения о необходимости помещения письма 210 в карантин.
В основе заявленного изобретения лежит спам классификатор 100 (см. Фиг. 2), который основан на методах глубокого обучения (от англ. Deep learning). Благодаря большому объему данных и глубокой архитектуре модели, алгоритм, заложенный в классификатор, способен автоматически выделять нетривиальные признаки из входных данных для более точной классификации спама.
На вход модели поступают характеристики письма 210, такие как значения заголовков Message_ID и X-mailer, а также последовательность заголовков письма. Каждый из них проходит через несколько этапов выделения признаков (1-4), которые влияют на финальное решение классификатора 100. Рассмотрим пример осуществления преобразования для каждой из характеристик.
Message_ID. На первом этапе каждый символ значения заголовка Message_ID отождествляется последовательностью чисел фиксированной длинны (например 90 символов), образуя матрицу размера 80×90. Полученная матрица поступает на вход одномерному сверточному слою (Conv-1d, от англ. ID Convolution). В этот момент создаются 64 фильтра размера 5 (ReLu, от англ. Rectified Linear Unit), которые пошагово применяются к подпоследовательностям Message_ID для выделения из них закономерностей (2). В данном случае могут быть использованы более широкие фильтры, чтобы получить признаки из подпоследовательноситей большей длины. Полученная матрица имеет размер 76×64. Чтобы избежать случаев, когда небольшие изменения в Message_ID, например, смещение символов, могут кардинально изменить полученную матрицу, далее используется однонаправленный слой MaxPooling-1d (3). Данный слой берет максимум из значений в заданном окне. В данном примере используется окно размера 5 с шагом равным 3 (каждый раз окно смещается на 3 ячейки). Размер полученной матрицы равен 26×64. Далее последовательно применяются несколько однонаправленных сверточных слоев, каждый из которых имеет 64 фильтра размера 3, после чего применяется однонаправленный MaxPooling (4) с размером окна равным 3 и с шагом 3. Итоговая матрица размера 6×64 разворачивается в вектор длины 445.
Последовательность заголовков. Обрабатывается аналогично Message_ID, за исключением количества слоев и входных данных. Вместо символов, как было для Message_ID, в последовательность чисел отождествляются названия заголовков. Полученная матрица размера 10×20 проходит через один сверточный слой и один слой MaxPooling. Итоговая матрица имеет размер 2×16 и разворачивается в вектор длины 32.
X-Mailer. Поскольку значения заголовка X-Mailer является категориальной характеристикой электронного письма, то для векторного представления таких данных используется подход под названием унитарный код (по англ. One-hot Encoding) - двоичный код фиксированной длины, содержащий только одну 1 - прямой унитарный код или только один 0 -обратный унитарный код. Длина кода определяется количеством кодируемых объектов, то есть каждому объекту соответствует отдельный разряд кода, а значение кода положением 1 или 0 в кодовом слове. Полученный вектор имеет размер 29 и состоит из нулей и одной единицы, которая показывает категорию X-Mailer.
Выделенные признаки для каждой характеристики объединяются и проходят еще несколько этапов преобразований (5) для того, чтобы учесть взаимосвязи между входными значениями. В приведенном примере сначала к ним применяется исключение (от англ. Dense Dropout) метод регуляризации искусственных нейронных сетей, предназначенный для предотвращения переобучения сети. Суть метода заключается в том, что в процессе обучения выбирается слой, из которого случайным образом выбрасывается определенное количество нейронов (например, 30%), которые выключаются из дальнейших вычислений. Затем после исключения используется функция активации (от англ. Dense Sigmoid), которая на выходе дает число, лежащее в пределах от 0 до 1. Выход классификатора 100 интерпретируется как вероятность спама (6) или как степень схожести характеристик письма 210 с характеристиками спама. Числовой показатель на выходе сравнивается классификатором 100 с заранее установленным пороговым значением для принятия решения об отправки письма 210 на карантин.
В одном из вариантов осуществления каждое письмо характеризуется не бинарной характеристикой (спам/не спам), а некоторым весом (W) в заданном диапазоне (к примеру, 0..1) и в зависимости от веса определяется время нахождения письма в карантине. В качестве веса может быть использован показатель вероятности спама, вычисляемы классификатором 100. Например, W<0.2 (первый порог R1) - не спам, W>0.9 (второй порог R2) - спам, от 0,2 - 0,9 время в карантине определяется по следующей формуле, как t=1 мин+e^(w-R1)/(R2-R1).
Фиг. 4 представляет пример компьютерной системы 20 общего назначения, которая может быть использована как компьютер клиента (например, персональный компьютер) или сервера. Компьютерная система 20 содержит центральный процессор 21, системную память 22 и системную шину 23, которая содержит разные системные компоненты, в том числе память, связанную с центральным процессором 21. Системная шина 23 реализована, как любая известная из уровня техники шинная структура, содержащая в свою очередь память шины или контроллер памяти шины, периферийную шину и локальную шину, которая способна взаимодействовать с любой другой шинной архитектурой. Системная память содержит постоянное запоминающее устройство (ПЗУ) 24, память с произвольным доступом (ОЗУ) 25. Основная система ввода/вывода (BIOS) 26, содержит основные процедуры, которые обеспечивают передачу информации между элементами компьютерной системы 20, например, в момент загрузки операционной системы с использованием ПЗУ 24.
Компьютерная система 20 в свою очередь содержит жесткий диск 27 для чтения и записи данных, привод магнитных дисков 28 для чтения и записи на сменные магнитные диски 29 и оптический привод 30 для чтения и записи на сменные оптические диски 31, такие как CD-ROM, DVD-ROM и иные оптические носители информации. Жесткий диск 27, привод магнитных дисков 28, оптический привод 30 соединены с системной шиной 23 через интерфейс жесткого диска 32, интерфейс магнитных дисков 33 и интерфейс оптического привода 34 соответственно. Приводы и соответствующие компьютерные носители информации представляют собой энергонезависимые средства хранения компьютерных инструкций, структур данных, программных модулей и прочих данных компьютерной системы 20.
Настоящее описание раскрывает реализацию системы, которая использует жесткий диск 27, сменный магнитный диск 29 и сменный оптический диск 31, но следует понимать, что возможно применение иных типов компьютерных носителей информации 56, которые способны хранить данные в доступной для чтения компьютером форме (твердотельные накопители, флеш-карты памяти, цифровые диски, память с произвольным доступом (ОЗУ) и т.п.), которые подключены к системной шине 23 через контроллер 55.
Компьютер 20 имеет файловую систему 36, где хранится записанная операционная система 35, а также дополнительные программные приложения 37, другие программные модули 38 и данные программ 39. Пользователь имеет возможность вводить команды и информацию в персональный компьютер 20 посредством устройств ввода (клавиатуры 40, манипулятора «мышь» 42). Могут использоваться другие устройства ввода (не отображены): микрофон, джойстик, игровая консоль, сканнер и т.п. Подобные устройства ввода по своему обычаю подключают к компьютерной системе 20 через последовательный порт 46, который в свою очередь подсоединен к системной шине, но могут быть подключены иным способом, например, при помощи параллельного порта, игрового порта или универсальной последовательной шины (USB). Монитор 47 или иной тип устройства отображения также подсоединен к системной шине 23 через интерфейс, такой как видеоадаптер 48. В дополнение к монитору 47, персональный компьютер может быть оснащен другими периферийными устройствами вывода (не отображены), например, колонками, принтером и т.п.
Компьютерная система 20 способна работать в сетевом окружении, при этом используется сетевое соединение с другим или несколькими удаленными компьютерами 49. Удаленный компьютер (или компьютеры) 49 являются такими же персональными компьютерами или серверами, которые имеют большинство или все упомянутые элементы, отмеченные ранее при описании существа компьютерной системы 20, представленного на Фиг. 4. В вычислительной сети могут присутствовать также и другие устройства, например, маршрутизаторы, сетевые станции, пиринговые устройства или иные сетевые узлы.
Сетевые соединения могут образовывать локальную вычислительную сеть (LAN) 50 и глобальную вычислительную сеть (WAN). Такие сети применяются в корпоративных компьютерных сетях, внутренних сетях компаний и, как правило, имеют доступ к сети Интернет. В LAN- или WAN-сетях компьютерная система (персональный компьютер) 20 подключена к локальной сети 50 через сетевой адаптер или сетевой интерфейс 51. При использовании сетей персональный компьютер 20 может использовать модем 54 или иные средства обеспечения связи с глобальной вычислительной сетью, такой как Интернет. Модем 54, который является внутренним или внешним устройством, подключен к системной шине 23 посредством последовательного порта 46. Следует уточнить, что сетевые соединения являются лишь примерными и не обязаны отображать точную конфигурацию сети, т.е. в действительности существуют иные способы установления соединения техническими средствами связи одного компьютера с другим.
В заключение следует отметить, что приведенные в описании сведения являются примерами, которые не ограничивают объем настоящего изобретения, определенного формулой. Специалисту в данной области становится понятным, что могут существовать и другие варианты осуществления настоящего изобретения, согласующиеся с сущностью и объемом настоящего изобретения.

Claims (12)

1. Способ признания электронного письма спамом, содержащий этапы, на которых:
а. передают классификатору по меньшей мере две характеристики электронного письма, проверка которого методом сигнатурного анализа дала отрицательный результат;
б. при помощи классификатора с использованием методов машинного обучения определяют степень схожести полученных характеристик электронного письма с аналогичными характеристиками электронных писем, ранее признанных спамом методом сигнатурного анализа;
в. помещают электронное письмо на временный карантин, если упомянутая степень схожести превышает установленный порог;
г. до истечения отведенного на карантин времени проводят по меньшей мере еще одну проверку электронного письма методом сигнатурного анализа;
д. признают электронное письмо спамом, если упомянутая проверка дала положительный результат.
2. Способ по п. 1, где характеристикой является значение заголовка электронного письма или последовательность по меньшей мере части заголовков электронного письма.
3. Способ по п. 1, где проводят еще одну проверку электронного письма методом сигнатурного анализа только, если появилась по меньшей мере одна новая сигнатура.
4. Способ по п. 1, где определение степени схожести полученных характеристик электронного письма с аналогичными характеристиками электронных писем осуществляется классификатором с использованием методов глубокого обучения.
5. Способ по п. 1, где обучающая выборка для методов машинного обучения, используемых в рамках классификатора, состоит из значений аналогичных характеристик других электронных писем.
6. Способ по п. 5, где разметкой коллекций электронных писем для обучения является «определено как спам методом сигнатурного анализа» - «не определено как спам методом сигнатурного анализа».
7. Способ по п. 5, где характеристики других писем из обучающей выборки получены с множества компьютерных систем.
RU2019122433A 2019-07-17 2019-07-17 Способ признания письма спамом через анти-спам карантин RU2750643C2 (ru)

Priority Applications (2)

Application Number Priority Date Filing Date Title
RU2019122433A RU2750643C2 (ru) 2019-07-17 2019-07-17 Способ признания письма спамом через анти-спам карантин
US16/673,049 US11929969B2 (en) 2019-07-17 2019-11-04 System and method for identifying spam email

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2019122433A RU2750643C2 (ru) 2019-07-17 2019-07-17 Способ признания письма спамом через анти-спам карантин

Publications (3)

Publication Number Publication Date
RU2019122433A3 RU2019122433A3 (ru) 2021-01-18
RU2019122433A RU2019122433A (ru) 2021-01-18
RU2750643C2 true RU2750643C2 (ru) 2021-06-30

Family

ID=74185103

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2019122433A RU2750643C2 (ru) 2019-07-17 2019-07-17 Способ признания письма спамом через анти-спам карантин

Country Status (2)

Country Link
US (1) US11929969B2 (ru)
RU (1) RU2750643C2 (ru)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2769633C1 (ru) * 2021-03-15 2022-04-04 Акционерное общество "Лаборатория Касперского" Способ кластеризации электронных писем, являющихся спамом

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11757816B1 (en) * 2019-11-11 2023-09-12 Trend Micro Incorporated Systems and methods for detecting scam emails
US11886584B2 (en) 2021-05-28 2024-01-30 AO Kaspersky Lab System and method for detecting potentially malicious changes in applications

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070185960A1 (en) * 2006-02-03 2007-08-09 International Business Machines Corporation Method and system for recognizing spam email
US20080313704A1 (en) * 2005-10-21 2008-12-18 Boxsentry Pte Ltd. Electronic Message Authentication
RU2012113256A (ru) * 2012-04-06 2013-10-27 Закрытое акционерное общество "Лаборатория Касперского" Система и способ оценки пользователей для фильтрации сообщений
US20140157405A1 (en) * 2012-12-04 2014-06-05 Bill Joll Cyber Behavior Analysis and Detection Method, System and Architecture
US20180091453A1 (en) * 2016-09-26 2018-03-29 Agari Data, Inc. Multi-level security analysis and intermediate delivery of an electronic message

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020133554A1 (en) * 2000-05-25 2002-09-19 Daniel Checkoway E-mail answering agent
US7543053B2 (en) * 2003-03-03 2009-06-02 Microsoft Corporation Intelligent quarantining for spam prevention
US8103727B2 (en) * 2007-08-30 2012-01-24 Fortinet, Inc. Use of global intelligence to make local information classification decisions
RU2634180C1 (ru) * 2016-06-24 2017-10-24 Акционерное общество "Лаборатория Касперского" Система и способ определения сообщения, содержащего спам, по теме сообщения, отправленного по электронной почте
US11128579B2 (en) * 2016-09-29 2021-09-21 Admithub Pbc Systems and processes for operating and training a text-based chatbot

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080313704A1 (en) * 2005-10-21 2008-12-18 Boxsentry Pte Ltd. Electronic Message Authentication
US20070185960A1 (en) * 2006-02-03 2007-08-09 International Business Machines Corporation Method and system for recognizing spam email
RU2012113256A (ru) * 2012-04-06 2013-10-27 Закрытое акционерное общество "Лаборатория Касперского" Система и способ оценки пользователей для фильтрации сообщений
US20140157405A1 (en) * 2012-12-04 2014-06-05 Bill Joll Cyber Behavior Analysis and Detection Method, System and Architecture
US20180091453A1 (en) * 2016-09-26 2018-03-29 Agari Data, Inc. Multi-level security analysis and intermediate delivery of an electronic message

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2769633C1 (ru) * 2021-03-15 2022-04-04 Акционерное общество "Лаборатория Касперского" Способ кластеризации электронных писем, являющихся спамом

Also Published As

Publication number Publication date
US20210021553A1 (en) 2021-01-21
US20230342482A9 (en) 2023-10-26
RU2019122433A3 (ru) 2021-01-18
RU2019122433A (ru) 2021-01-18
US11929969B2 (en) 2024-03-12

Similar Documents

Publication Publication Date Title
US11818170B2 (en) Detection of phishing campaigns based on deep learning network detection of phishing exfiltration communications
US20230077990A1 (en) Privacy-preserving labeling and classification of email
Saad et al. A survey of machine learning techniques for Spam filtering
KR101143194B1 (ko) 스팸 필터의 혼란화
RU2750643C2 (ru) Способ признания письма спамом через анти-спам карантин
RU2710739C1 (ru) Система и способ формирования эвристических правил для выявления писем, содержащих спам
JP4672285B2 (ja) スパム防止のための送信元および宛先の特徴およびリスト
US8199965B1 (en) System, method, and computer program product for preventing image-related data loss
US8112484B1 (en) Apparatus and method for auxiliary classification for generating features for a spam filtering model
US20030204569A1 (en) Method and apparatus for filtering e-mail infected with a previously unidentified computer virus
US20060149821A1 (en) Detecting spam email using multiple spam classifiers
RU2769633C1 (ru) Способ кластеризации электронных писем, являющихся спамом
RU2763921C1 (ru) Система и способ создания эвристических правил для обнаружения мошеннических писем, относящихся к категории ВЕС-атак
Bogawar et al. Email mining: a review
Chakraborty et al. Spam mail filtering technique using different decision tree classifiers through data mining approach-a comparative performance analysis
Liubchenko et al. Research Application of the Spam Filtering and Spammer Detection Algorithms on Social Media.
JP4963099B2 (ja) 電子メールフィルタリング装置、電子メールのフィルタリング方法およびプログラム
RU2583713C2 (ru) Система и способ исключения шинглов от незначимых частей из сообщения при фильтрации спама
Santos et al. Spam filtering through anomaly detection
Podorozhniak et al. Research application of the spam filtering and spammer detection algorithms on social media and messengers
RU2828610C1 (ru) Способ классификации писем электронной почты и система, его реализующая
Murugavel et al. K-Nearest neighbor classification of E-Mail messages for spam detection
RU2828611C1 (ru) Система и способ классификации писем электронной почты
Parmar et al. Utilising machine learning against email phishing to detect malicious emails
Rawat et al. Email Spam Classification Using Supervised Learning in Different Languages