Claims (42)
1. Способ определения параметра ошибки прогноза спама для параметра прогноза спама, сформированного алгоритмом обнаружения спама, выполняемым сервером, связанным с приложением электронной почты, при этом способ выполняется сервером и включает в себя:1. A method for determining a spam prediction error parameter for a spam prediction parameter generated by a spam detection algorithm executed by a server associated with an e-mail application, the method being performed by the server and including:
- получение сервером указания на множество сообщений электронной почты, предназначенных множеству пользователей приложения электронной почты, при этом сообщение из множества сообщений электронной почты имеет:- receiving by the server an indication of a plurality of e-mail messages intended for a plurality of users of the e-mail application, wherein the message from the plurality of e-mail messages has:
- параметр прогноза спама, указывающий на определение алгоритмом обнаружения спама того, что это сообщение из множества сообщений электронной почты представляет собой спам-сообщение электронной почты или не-спам сообщение электронной почты; и- a spam prediction parameter indicating that the spam detection algorithm determines that this message of the plurality of email messages is a spam email message or a non-spam email message; and
- параметр пользовательских взаимодействий, указывающий на согласие или несогласие получателя из множества пользователей с параметром прогноза спама;- a user interactions parameter indicating whether the recipient of the plurality of users agrees or disagrees with the spam prediction parameter;
- распределение сервером множества сообщений электронной почты между по меньшей мере двумя кластерами, каждый из которых содержит подмножество сообщений электронной почты;- distribution by the server of a plurality of e-mail messages between at least two clusters, each of which contains a subset of e-mail messages;
- для кластера из числа по меньшей мере двух кластеров - определение сервером контрольного параметра для этого кластера путем анализа подмножества сообщений электронной почты и параметров пользовательских взаимодействий, при этом контрольный параметр соответствует спам-сообщению электронной почты или не-спам-сообщению электронной почты, и назначение контрольного параметра для кластера и для каждого сообщения из подмножества сообщений электронной почты, содержащихся в нем; и- for a cluster of at least two clusters, the server determines a control parameter for this cluster by analyzing a subset of email messages and user interaction parameters, the control parameter corresponding to a spam email message or a non-spam email message, and assigning a control parameter for the cluster and for each message from a subset of email messages contained therein; and
- для сообщения электронной почты из кластера - формирование сервером параметра ошибки прогноза спама на основе различия между параметром прогноза спама и соответствующим контрольным параметром и сохранение сервером параметра ошибки прогноза спама в сочетании с сообщением электронной почты из этого кластера.- for an e-mail message from a cluster, the server generates a spam prediction error parameter based on the difference between the spam prediction parameter and the corresponding control parameter, and stores the spam prediction error parameter in combination with the e-mail message from the cluster by the server.
2. Способ по п. 1, отличающийся тем, что он дополнительно включает в себя определение сервером параметра пользовательских взаимодействий на основе по меньшей мере одного пользовательского взаимодействия между получателем и соответствующим сообщением электронной почты из множества сообщений электронной почты, при этом пользовательские взаимодействия собраны из интерфейса электронной почты, отображаемого этому получателю.2. The method of claim 1, further comprising determining, by the server, a user interaction parameter based on at least one user interaction between a recipient and a corresponding email message from a plurality of email messages, wherein the user interactions are collected from an interface email displayed to that recipient.
3. Способ по п. 2, отличающийся тем, что пользовательское взаимодействие представляет собой (а) перемещение сообщения электронной почты в папку интерфейса электронной почты и/или (б) нажатие заранее заданной кнопки интерфейса электронной почты.3. The method of claim 2, wherein the user interaction is (a) moving an email message to an email interface folder and/or (b) pressing a predefined email interface button.
4. Способ по п. 1, отличающийся тем, что кластеризация множества сообщений электронной почты выполняется на основе сходства признаков сообщений электронной почты.4. The method according to claim. 1, characterized in that the clustering of a plurality of e-mail messages is performed based on the similarity of features of e-mail messages.
5. Способ по п. 4, отличающийся тем, что кластеризация выполняется с использованием алгоритма K ближайших соседей.5. The method according to claim 4, characterized in that the clustering is performed using the K nearest neighbors algorithm.
6. Способ по п. 1, отличающийся тем, что сервер дополнительно выполняет приложение электронной почты.6. The method according to claim 1, characterized in that the server additionally executes an e-mail application.
7. Способ по п. 1, отличающийся тем, что сервер способен связываться с сервером электронной почты, выполняющим приложение электронной почты.7. The method of claim 1, wherein the server is capable of communicating with an email server running an email application.
8. Способ по п. 1, отличающийся тем, что указание на множество сообщений электронной почты содержит это множество сообщений электронной почты.8. The method according to claim. 1, characterized in that the reference to the set of e-mail messages contains this set of e-mail messages.
9. Способ по п. 1, отличающийся тем, что указание на множество сообщений электронной почты содержит векторное представление каждого сообщения из этого множества сообщений электронной почты, при этом векторное представление указывает на контент множества сообщений электронной почты и не содержит идентификаторов их получателей.9. The method according to claim 1, characterized in that pointing to a plurality of email messages contains a vector representation of each message from this plurality of email messages, while the vector representation indicates the content of the plurality of email messages and does not contain identifiers of their recipients.
10. Способ по п. 1, отличающийся тем, что он дополнительно включает в себя анализ сервером общего количества сообщений электронной почты в подмножестве сообщений электронной почты другого кластера из числа по меньшей мере двух кластеров и исключение сервером другого кластера из дальнейшего анализа, если это количество меньше заранее заданного порога.10. The method according to claim. 1, characterized in that it further includes analysis by the server of the total number of email messages in a subset of email messages of another cluster from among at least two clusters and excluding the other cluster from further analysis if this number less than a predetermined threshold.
11. Способ по п. 1, отличающийся тем, что он дополнительно включает в себя повторное обучение сервером алгоритма обнаружения спама с использованием параметра ошибки прогноза спама.11. The method of claim 1, further comprising retraining the spam detection algorithm by the server using the spam prediction error parameter.
12. Способ по п. 1, отличающийся тем, что кластер из числа по меньшей мере двух кластеров содержит по меньшей мере два подкластера.12. The method according to claim. 1, characterized in that the cluster of at least two clusters contains at least two subclusters.
13. Способ по п. 12, отличающийся тем, что множество сообщений электронной почты распределяется в кластер из числа по меньшей мере двух кластеров и в подкластер из числа по меньшей мере двух подкластеров.13. The method of claim 12, wherein the plurality of e-mail messages is distributed into a cluster of at least two clusters and a subcluster of at least two subclusters.
14. Способ по п. 13, отличающийся тем, что если сообщение из множества сообщений электронной почты связано с контрольным параметром, указывающим на неправильную категоризацию в кластере из числа по меньшей мере двух кластеров или в подкластере из числа по меньшей мере двух подкластеров, то это значение контрольного параметра используется для этого множества сообщений электронной почты.14. The method according to claim 13, wherein if a message from a plurality of e-mail messages is associated with a control parameter indicating incorrect categorization in a cluster of at least two clusters or in a subcluster of at least two subclusters, then this the value of the control parameter is used for this set of e-mails.
15. Способ по п. 13, отличающийся тем, что контрольный параметр независимо назначается для сообщения из множества сообщений электронной почты в кластере из числа по меньшей мере двух кластеров или в подкластере из числа по меньшей мере двух подкластеров.15. The method of claim. 13, characterized in that the control parameter is independently assigned to a message from a plurality of email messages in a cluster of at least two clusters or a subcluster of at least two subclusters.
16. Сервер для определения параметра ошибки прогноза спама для параметра прогноза спама, сформированного алгоритмом обнаружения спама, выполняемым сервером, при этом сервер связан с приложением электронной почты и выполнен с возможностью:16. A server for determining a spam prediction error parameter for a spam prediction parameter generated by a spam detection algorithm executed by the server, wherein the server is associated with the email application and configured to:
- получения указания на множество сообщений электронной почты, предназначенных множеству пользователей приложения электронной почты, при этом сообщение из множества сообщений электронной почты имеет:receiving an indication of a plurality of e-mail messages intended for a plurality of users of the e-mail application, wherein the message of the plurality of e-mail messages has:
- параметр прогноза спама, указывающий на определение алгоритмом обнаружения спама того, что это сообщение из множества сообщений электронной почты представляет собой спам-сообщение электронной почты или не-спам сообщение электронной почты; и- a spam prediction parameter indicating that the spam detection algorithm determines that this message of the plurality of email messages is a spam email message or a non-spam email message; and
- параметр пользовательских взаимодействий, указывающий на согласие или несогласие получателя из множества пользователей с параметром прогноза спама;- a user interactions parameter indicating whether the recipient of the plurality of users agrees or disagrees with the spam prediction parameter;
- распределения множества сообщений электронной почты между по меньшей мере двумя кластерами, каждый из которых содержит подмножество сообщений электронной почты;- distributing a plurality of e-mail messages between at least two clusters, each of which contains a subset of e-mail messages;
- для кластера из числа по меньшей мере двух кластеров - определения контрольного параметра для этого кластера путем анализа подмножества сообщений электронной почты и параметров пользовательских взаимодействий, при этом контрольный параметр соответствует спам-сообщению электронной почты или не-спам-сообщению электронной почты, и назначения контрольного параметра для кластера и для каждого сообщения из подмножества сообщений электронной почты, содержащихся в нем; и- for a cluster of at least two clusters - determining a control parameter for this cluster by analyzing a subset of email messages and user interaction parameters, with the control parameter corresponding to a spam email message or a non-spam email message, and assigning a control parameter a parameter for the cluster and for each message from the subset of email messages it contains; and
- для сообщения электронной почты из кластера - формирования параметра ошибки прогноза спама на основе различия между параметром прогноза спама и соответствующим контрольным параметром и сохранения сервером параметра ошибки прогноза спама в сочетании с сообщением электронной почты из этого кластера.- for an email message from a cluster, generating a spam prediction error parameter based on the difference between the spam prediction parameter and the corresponding control parameter, and storing the spam prediction error parameter in combination with the email message from that cluster by the server.
17. Сервер по п. 16, отличающийся тем, что он дополнительно выполнен с возможностью определения параметра пользовательских взаимодействий на основе по меньшей мере одного пользовательского взаимодействия между получателем и соответствующим сообщением электронной почты из множества сообщений электронной почты, при этом пользовательские взаимодействия собраны из интерфейса электронной почты, отображаемого этому получателю.17. The server according to claim 16, characterized in that it is additionally configured to determine the user interaction parameter based on at least one user interaction between the recipient and the corresponding e-mail message from a plurality of e-mail messages, while the user interactions are collected from the e-mail interface. mail displayed to this recipient.
18. Сервер по п. 17, отличающийся тем, что пользовательское взаимодействие представляет собой (а) перемещение сообщения электронной почты в папку интерфейса электронной почты и/или (б) нажатие заранее заданной кнопки интерфейса электронной почты.18. The server of claim 17, wherein the user interaction is (a) moving an email message to an email interface folder and/or (b) pressing a predefined email interface button.
19. Сервер по п. 16, отличающийся тем, что кластеризация множества сообщений электронной почты выполняется сервером на основе сходства признаков сообщений электронной почты.19. The server according to claim 16, characterized in that the clustering of the plurality of e-mail messages is performed by the server based on the similarity of features of the e-mail messages.
20. Сервер по п. 19, отличающийся тем, что кластеризация выполняется сервером с использованием алгоритма K ближайших соседей.20. The server according to claim 19, characterized in that the clustering is performed by the server using the K nearest neighbors algorithm.
21. Сервер по п. 16, отличающийся тем, что он дополнительно выполняет приложение электронной почты.21. The server according to claim 16, characterized in that it additionally executes an e-mail application.
22. Сервер по п. 16, отличающийся тем, что он способен связываться с сервером электронной почты, выполняющим приложение электронной почты.22. The server according to claim 16, characterized in that it is capable of communicating with an email server running an email application.
23. Сервер по п. 16, отличающийся тем, что указание на множество сообщений электронной почты содержит это множество сообщений электронной почты.23. The server according to claim 16, characterized in that the reference to the set of e-mail messages contains this set of e-mail messages.
24. Сервер по п. 16, отличающийся тем, что указание на множество сообщений электронной почты содержит векторное представление каждого сообщения из этого множества сообщений электронной почты, при этом векторное представление указывает на контент множества сообщений электронной почты и не содержит идентификаторов их получателей.24. The server according to claim 16, characterized in that pointing to the set of e-mail messages contains a vector representation of each message from this set of e-mail messages, while the vector representation points to the content of the set of e-mail messages and does not contain identifiers of their recipients.
25. Сервер по п. 16, отличающийся тем, что он дополнительно выполнен с возможностью анализа общего количества сообщений электронной почты в подмножестве сообщений электронной почты другого кластера из числа по меньшей мере двух кластеров и исключения другого кластера из дальнейшего анализа, если это количество меньше заранее заданного порога.25. The server according to claim 16, characterized in that it is additionally configured to analyze the total number of email messages in a subset of email messages of another cluster from among at least two clusters and exclude the other cluster from further analysis if this number is less than in advance the specified threshold.
26. Сервер по п. 16, отличающийся тем, что он дополнительно выполнен с возможностью повторного обучения алгоритма обнаружения спама с использованием параметра ошибки прогноза спама.26. The server of claim 16, further configured to retrain the spam detection algorithm using the spam prediction error parameter.
27. Сервер по п. 16, отличающийся тем, что кластер из числа по меньшей мере двух кластеров содержит по меньшей мере два подкластера.27. The server according to claim 16, characterized in that the cluster of at least two clusters contains at least two subclusters.
28. Сервер по п. 27, отличающийся тем, что множество сообщений электронной почты распределяется в кластер из числа по меньшей мере двух кластеров и в подкластер из числа по меньшей мере двух подкластеров.28. The server according to claim 27, characterized in that the plurality of e-mail messages is distributed into a cluster of at least two clusters and a subcluster of at least two subclusters.
29. Сервер по п. 28, отличающийся тем, что если сообщение из множества сообщений электронной почты связано с контрольным параметром, указывающим на неправильную категоризацию в кластере из числа по меньшей мере двух кластеров или в подкластере из числа по меньшей мере двух подкластеров, то это значение контрольного параметра используется для этого множества сообщений электронной почты.29. The server according to claim 28, characterized in that if a message from a plurality of e-mail messages is associated with a control parameter indicating incorrect categorization in a cluster of at least two clusters or in a subcluster of at least two subclusters, then this the value of the control parameter is used for this set of e-mails.
30. Сервер по п. 28, отличающийся тем, что контрольный параметр независимо назначается для сообщения из множества сообщений электронной почты в кластере из числа по меньшей мере двух кластеров или в подкластере из числа по меньшей мере двух подкластеров.30. The server according to claim 28, characterized in that the control parameter is independently assigned to a message from a plurality of e-mail messages in a cluster of at least two clusters or in a subcluster of at least two subclusters.