RU2020132851A - METHOD AND SYSTEM FOR DETERMINING SPAM FORECAST ERROR PARAMETER - Google Patents

METHOD AND SYSTEM FOR DETERMINING SPAM FORECAST ERROR PARAMETER Download PDF

Info

Publication number
RU2020132851A
RU2020132851A RU2020132851A RU2020132851A RU2020132851A RU 2020132851 A RU2020132851 A RU 2020132851A RU 2020132851 A RU2020132851 A RU 2020132851A RU 2020132851 A RU2020132851 A RU 2020132851A RU 2020132851 A RU2020132851 A RU 2020132851A
Authority
RU
Russia
Prior art keywords
email
spam
server
message
cluster
Prior art date
Application number
RU2020132851A
Other languages
Russian (ru)
Other versions
RU2778381C2 (en
Inventor
Дмитрий Сергеевич Коротких
Original Assignee
Общество С Ограниченной Ответственностью «Яндекс»
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Общество С Ограниченной Ответственностью «Яндекс» filed Critical Общество С Ограниченной Ответственностью «Яндекс»
Priority to RU2020132851A priority Critical patent/RU2778381C2/en
Priority claimed from RU2020132851A external-priority patent/RU2778381C2/en
Priority to US17/477,482 priority patent/US11425077B2/en
Publication of RU2020132851A publication Critical patent/RU2020132851A/en
Application granted granted Critical
Publication of RU2778381C2 publication Critical patent/RU2778381C2/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/231Hierarchical techniques, i.e. dividing or merging pattern sets so as to obtain a dendrogram
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/21Monitoring or handling of messages
    • H04L51/212Monitoring or handling of messages using filtering or selective blocking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/21Monitoring or handling of messages
    • H04L51/224Monitoring or handling of messages providing notification on incoming messages, e.g. pushed notifications of received messages
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/42Mailbox-related aspects, e.g. synchronisation of mailboxes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Information Transfer Between Computers (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Claims (42)

1. Способ определения параметра ошибки прогноза спама для параметра прогноза спама, сформированного алгоритмом обнаружения спама, выполняемым сервером, связанным с приложением электронной почты, при этом способ выполняется сервером и включает в себя:1. A method for determining a spam prediction error parameter for a spam prediction parameter generated by a spam detection algorithm executed by a server associated with an e-mail application, the method being performed by the server and including: - получение сервером указания на множество сообщений электронной почты, предназначенных множеству пользователей приложения электронной почты, при этом сообщение из множества сообщений электронной почты имеет:- receiving by the server an indication of a plurality of e-mail messages intended for a plurality of users of the e-mail application, wherein the message from the plurality of e-mail messages has: - параметр прогноза спама, указывающий на определение алгоритмом обнаружения спама того, что это сообщение из множества сообщений электронной почты представляет собой спам-сообщение электронной почты или не-спам сообщение электронной почты; и- a spam prediction parameter indicating that the spam detection algorithm determines that this message of the plurality of email messages is a spam email message or a non-spam email message; and - параметр пользовательских взаимодействий, указывающий на согласие или несогласие получателя из множества пользователей с параметром прогноза спама;- a user interactions parameter indicating whether the recipient of the plurality of users agrees or disagrees with the spam prediction parameter; - распределение сервером множества сообщений электронной почты между по меньшей мере двумя кластерами, каждый из которых содержит подмножество сообщений электронной почты;- distribution by the server of a plurality of e-mail messages between at least two clusters, each of which contains a subset of e-mail messages; - для кластера из числа по меньшей мере двух кластеров - определение сервером контрольного параметра для этого кластера путем анализа подмножества сообщений электронной почты и параметров пользовательских взаимодействий, при этом контрольный параметр соответствует спам-сообщению электронной почты или не-спам-сообщению электронной почты, и назначение контрольного параметра для кластера и для каждого сообщения из подмножества сообщений электронной почты, содержащихся в нем; и- for a cluster of at least two clusters, the server determines a control parameter for this cluster by analyzing a subset of email messages and user interaction parameters, the control parameter corresponding to a spam email message or a non-spam email message, and assigning a control parameter for the cluster and for each message from a subset of email messages contained therein; and - для сообщения электронной почты из кластера - формирование сервером параметра ошибки прогноза спама на основе различия между параметром прогноза спама и соответствующим контрольным параметром и сохранение сервером параметра ошибки прогноза спама в сочетании с сообщением электронной почты из этого кластера.- for an e-mail message from a cluster, the server generates a spam prediction error parameter based on the difference between the spam prediction parameter and the corresponding control parameter, and stores the spam prediction error parameter in combination with the e-mail message from the cluster by the server. 2. Способ по п. 1, отличающийся тем, что он дополнительно включает в себя определение сервером параметра пользовательских взаимодействий на основе по меньшей мере одного пользовательского взаимодействия между получателем и соответствующим сообщением электронной почты из множества сообщений электронной почты, при этом пользовательские взаимодействия собраны из интерфейса электронной почты, отображаемого этому получателю.2. The method of claim 1, further comprising determining, by the server, a user interaction parameter based on at least one user interaction between a recipient and a corresponding email message from a plurality of email messages, wherein the user interactions are collected from an interface email displayed to that recipient. 3. Способ по п. 2, отличающийся тем, что пользовательское взаимодействие представляет собой (а) перемещение сообщения электронной почты в папку интерфейса электронной почты и/или (б) нажатие заранее заданной кнопки интерфейса электронной почты.3. The method of claim 2, wherein the user interaction is (a) moving an email message to an email interface folder and/or (b) pressing a predefined email interface button. 4. Способ по п. 1, отличающийся тем, что кластеризация множества сообщений электронной почты выполняется на основе сходства признаков сообщений электронной почты.4. The method according to claim. 1, characterized in that the clustering of a plurality of e-mail messages is performed based on the similarity of features of e-mail messages. 5. Способ по п. 4, отличающийся тем, что кластеризация выполняется с использованием алгоритма K ближайших соседей.5. The method according to claim 4, characterized in that the clustering is performed using the K nearest neighbors algorithm. 6. Способ по п. 1, отличающийся тем, что сервер дополнительно выполняет приложение электронной почты.6. The method according to claim 1, characterized in that the server additionally executes an e-mail application. 7. Способ по п. 1, отличающийся тем, что сервер способен связываться с сервером электронной почты, выполняющим приложение электронной почты.7. The method of claim 1, wherein the server is capable of communicating with an email server running an email application. 8. Способ по п. 1, отличающийся тем, что указание на множество сообщений электронной почты содержит это множество сообщений электронной почты.8. The method according to claim. 1, characterized in that the reference to the set of e-mail messages contains this set of e-mail messages. 9. Способ по п. 1, отличающийся тем, что указание на множество сообщений электронной почты содержит векторное представление каждого сообщения из этого множества сообщений электронной почты, при этом векторное представление указывает на контент множества сообщений электронной почты и не содержит идентификаторов их получателей.9. The method according to claim 1, characterized in that pointing to a plurality of email messages contains a vector representation of each message from this plurality of email messages, while the vector representation indicates the content of the plurality of email messages and does not contain identifiers of their recipients. 10. Способ по п. 1, отличающийся тем, что он дополнительно включает в себя анализ сервером общего количества сообщений электронной почты в подмножестве сообщений электронной почты другого кластера из числа по меньшей мере двух кластеров и исключение сервером другого кластера из дальнейшего анализа, если это количество меньше заранее заданного порога.10. The method according to claim. 1, characterized in that it further includes analysis by the server of the total number of email messages in a subset of email messages of another cluster from among at least two clusters and excluding the other cluster from further analysis if this number less than a predetermined threshold. 11. Способ по п. 1, отличающийся тем, что он дополнительно включает в себя повторное обучение сервером алгоритма обнаружения спама с использованием параметра ошибки прогноза спама.11. The method of claim 1, further comprising retraining the spam detection algorithm by the server using the spam prediction error parameter. 12. Способ по п. 1, отличающийся тем, что кластер из числа по меньшей мере двух кластеров содержит по меньшей мере два подкластера.12. The method according to claim. 1, characterized in that the cluster of at least two clusters contains at least two subclusters. 13. Способ по п. 12, отличающийся тем, что множество сообщений электронной почты распределяется в кластер из числа по меньшей мере двух кластеров и в подкластер из числа по меньшей мере двух подкластеров.13. The method of claim 12, wherein the plurality of e-mail messages is distributed into a cluster of at least two clusters and a subcluster of at least two subclusters. 14. Способ по п. 13, отличающийся тем, что если сообщение из множества сообщений электронной почты связано с контрольным параметром, указывающим на неправильную категоризацию в кластере из числа по меньшей мере двух кластеров или в подкластере из числа по меньшей мере двух подкластеров, то это значение контрольного параметра используется для этого множества сообщений электронной почты.14. The method according to claim 13, wherein if a message from a plurality of e-mail messages is associated with a control parameter indicating incorrect categorization in a cluster of at least two clusters or in a subcluster of at least two subclusters, then this the value of the control parameter is used for this set of e-mails. 15. Способ по п. 13, отличающийся тем, что контрольный параметр независимо назначается для сообщения из множества сообщений электронной почты в кластере из числа по меньшей мере двух кластеров или в подкластере из числа по меньшей мере двух подкластеров.15. The method of claim. 13, characterized in that the control parameter is independently assigned to a message from a plurality of email messages in a cluster of at least two clusters or a subcluster of at least two subclusters. 16. Сервер для определения параметра ошибки прогноза спама для параметра прогноза спама, сформированного алгоритмом обнаружения спама, выполняемым сервером, при этом сервер связан с приложением электронной почты и выполнен с возможностью:16. A server for determining a spam prediction error parameter for a spam prediction parameter generated by a spam detection algorithm executed by the server, wherein the server is associated with the email application and configured to: - получения указания на множество сообщений электронной почты, предназначенных множеству пользователей приложения электронной почты, при этом сообщение из множества сообщений электронной почты имеет:receiving an indication of a plurality of e-mail messages intended for a plurality of users of the e-mail application, wherein the message of the plurality of e-mail messages has: - параметр прогноза спама, указывающий на определение алгоритмом обнаружения спама того, что это сообщение из множества сообщений электронной почты представляет собой спам-сообщение электронной почты или не-спам сообщение электронной почты; и- a spam prediction parameter indicating that the spam detection algorithm determines that this message of the plurality of email messages is a spam email message or a non-spam email message; and - параметр пользовательских взаимодействий, указывающий на согласие или несогласие получателя из множества пользователей с параметром прогноза спама;- a user interactions parameter indicating whether the recipient of the plurality of users agrees or disagrees with the spam prediction parameter; - распределения множества сообщений электронной почты между по меньшей мере двумя кластерами, каждый из которых содержит подмножество сообщений электронной почты;- distributing a plurality of e-mail messages between at least two clusters, each of which contains a subset of e-mail messages; - для кластера из числа по меньшей мере двух кластеров - определения контрольного параметра для этого кластера путем анализа подмножества сообщений электронной почты и параметров пользовательских взаимодействий, при этом контрольный параметр соответствует спам-сообщению электронной почты или не-спам-сообщению электронной почты, и назначения контрольного параметра для кластера и для каждого сообщения из подмножества сообщений электронной почты, содержащихся в нем; и- for a cluster of at least two clusters - determining a control parameter for this cluster by analyzing a subset of email messages and user interaction parameters, with the control parameter corresponding to a spam email message or a non-spam email message, and assigning a control parameter a parameter for the cluster and for each message from the subset of email messages it contains; and - для сообщения электронной почты из кластера - формирования параметра ошибки прогноза спама на основе различия между параметром прогноза спама и соответствующим контрольным параметром и сохранения сервером параметра ошибки прогноза спама в сочетании с сообщением электронной почты из этого кластера.- for an email message from a cluster, generating a spam prediction error parameter based on the difference between the spam prediction parameter and the corresponding control parameter, and storing the spam prediction error parameter in combination with the email message from that cluster by the server. 17. Сервер по п. 16, отличающийся тем, что он дополнительно выполнен с возможностью определения параметра пользовательских взаимодействий на основе по меньшей мере одного пользовательского взаимодействия между получателем и соответствующим сообщением электронной почты из множества сообщений электронной почты, при этом пользовательские взаимодействия собраны из интерфейса электронной почты, отображаемого этому получателю.17. The server according to claim 16, characterized in that it is additionally configured to determine the user interaction parameter based on at least one user interaction between the recipient and the corresponding e-mail message from a plurality of e-mail messages, while the user interactions are collected from the e-mail interface. mail displayed to this recipient. 18. Сервер по п. 17, отличающийся тем, что пользовательское взаимодействие представляет собой (а) перемещение сообщения электронной почты в папку интерфейса электронной почты и/или (б) нажатие заранее заданной кнопки интерфейса электронной почты.18. The server of claim 17, wherein the user interaction is (a) moving an email message to an email interface folder and/or (b) pressing a predefined email interface button. 19. Сервер по п. 16, отличающийся тем, что кластеризация множества сообщений электронной почты выполняется сервером на основе сходства признаков сообщений электронной почты.19. The server according to claim 16, characterized in that the clustering of the plurality of e-mail messages is performed by the server based on the similarity of features of the e-mail messages. 20. Сервер по п. 19, отличающийся тем, что кластеризация выполняется сервером с использованием алгоритма K ближайших соседей.20. The server according to claim 19, characterized in that the clustering is performed by the server using the K nearest neighbors algorithm. 21. Сервер по п. 16, отличающийся тем, что он дополнительно выполняет приложение электронной почты.21. The server according to claim 16, characterized in that it additionally executes an e-mail application. 22. Сервер по п. 16, отличающийся тем, что он способен связываться с сервером электронной почты, выполняющим приложение электронной почты.22. The server according to claim 16, characterized in that it is capable of communicating with an email server running an email application. 23. Сервер по п. 16, отличающийся тем, что указание на множество сообщений электронной почты содержит это множество сообщений электронной почты.23. The server according to claim 16, characterized in that the reference to the set of e-mail messages contains this set of e-mail messages. 24. Сервер по п. 16, отличающийся тем, что указание на множество сообщений электронной почты содержит векторное представление каждого сообщения из этого множества сообщений электронной почты, при этом векторное представление указывает на контент множества сообщений электронной почты и не содержит идентификаторов их получателей.24. The server according to claim 16, characterized in that pointing to the set of e-mail messages contains a vector representation of each message from this set of e-mail messages, while the vector representation points to the content of the set of e-mail messages and does not contain identifiers of their recipients. 25. Сервер по п. 16, отличающийся тем, что он дополнительно выполнен с возможностью анализа общего количества сообщений электронной почты в подмножестве сообщений электронной почты другого кластера из числа по меньшей мере двух кластеров и исключения другого кластера из дальнейшего анализа, если это количество меньше заранее заданного порога.25. The server according to claim 16, characterized in that it is additionally configured to analyze the total number of email messages in a subset of email messages of another cluster from among at least two clusters and exclude the other cluster from further analysis if this number is less than in advance the specified threshold. 26. Сервер по п. 16, отличающийся тем, что он дополнительно выполнен с возможностью повторного обучения алгоритма обнаружения спама с использованием параметра ошибки прогноза спама.26. The server of claim 16, further configured to retrain the spam detection algorithm using the spam prediction error parameter. 27. Сервер по п. 16, отличающийся тем, что кластер из числа по меньшей мере двух кластеров содержит по меньшей мере два подкластера.27. The server according to claim 16, characterized in that the cluster of at least two clusters contains at least two subclusters. 28. Сервер по п. 27, отличающийся тем, что множество сообщений электронной почты распределяется в кластер из числа по меньшей мере двух кластеров и в подкластер из числа по меньшей мере двух подкластеров.28. The server according to claim 27, characterized in that the plurality of e-mail messages is distributed into a cluster of at least two clusters and a subcluster of at least two subclusters. 29. Сервер по п. 28, отличающийся тем, что если сообщение из множества сообщений электронной почты связано с контрольным параметром, указывающим на неправильную категоризацию в кластере из числа по меньшей мере двух кластеров или в подкластере из числа по меньшей мере двух подкластеров, то это значение контрольного параметра используется для этого множества сообщений электронной почты.29. The server according to claim 28, characterized in that if a message from a plurality of e-mail messages is associated with a control parameter indicating incorrect categorization in a cluster of at least two clusters or in a subcluster of at least two subclusters, then this the value of the control parameter is used for this set of e-mails. 30. Сервер по п. 28, отличающийся тем, что контрольный параметр независимо назначается для сообщения из множества сообщений электронной почты в кластере из числа по меньшей мере двух кластеров или в подкластере из числа по меньшей мере двух подкластеров.30. The server according to claim 28, characterized in that the control parameter is independently assigned to a message from a plurality of e-mail messages in a cluster of at least two clusters or in a subcluster of at least two subclusters.
RU2020132851A 2020-10-06 2020-10-06 Method and system for determining the spam prediction error parameter RU2778381C2 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
RU2020132851A RU2778381C2 (en) 2020-10-06 Method and system for determining the spam prediction error parameter
US17/477,482 US11425077B2 (en) 2020-10-06 2021-09-16 Method and system for determining a spam prediction error parameter

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2020132851A RU2778381C2 (en) 2020-10-06 Method and system for determining the spam prediction error parameter

Publications (2)

Publication Number Publication Date
RU2020132851A true RU2020132851A (en) 2022-04-25
RU2778381C2 RU2778381C2 (en) 2022-08-18

Family

ID=

Also Published As

Publication number Publication date
US20220109649A1 (en) 2022-04-07
US11425077B2 (en) 2022-08-23

Similar Documents

Publication Publication Date Title
Pozzana et al. Measuring bot and human behavioral dynamics
US7543076B2 (en) Message header spam filtering
US8032602B2 (en) Prioritization of recipient email messages
US8635690B2 (en) Reputation based message processing
CN105574538B (en) Classification model training method and device
JP6322683B2 (en) Reference notification method and apparatus
WO2019014266A1 (en) Team performance supervisor
EP1564670B1 (en) Intelligent quarantining for spam prevention
US8959159B2 (en) Personalized email interactions applied to global filtering
US8370930B2 (en) Detecting spam from metafeatures of an email message
JP4742619B2 (en) Information processing system, program, and information processing method
Eshraqi et al. Detecting spam tweets in Twitter using a data stream clustering algorithm
US10721201B2 (en) Systems and methods for generating a message topic training dataset from user interactions in message clients
Tang et al. Support vector machines and random forests modeling for spam senders behavior analysis
EP2824874A1 (en) Message profiling systems and methods
US20170068904A1 (en) Determining the Destination of a Communication
US10986060B2 (en) Context and time prediction based message recommendation system
Bouguessa An unsupervised approach for identifying spammers in social networks
CN115714755A (en) Computer-implemented method, computing system, and non-transitory computer-readable medium
Al-Jarrah et al. Identifying potentially useful email header features for email spam filtering
Meng et al. Enhancing email classification using data reduction and disagreement-based semi-supervised learning
CN114175066A (en) Unsupervised annotated data collection framework for electronic messaging platform
CN107743087B (en) Detection method and system for mail attack
RU2020132851A (en) METHOD AND SYSTEM FOR DETERMINING SPAM FORECAST ERROR PARAMETER
US20210117858A1 (en) Information processing device, information processing method, and storage medium