RU2634180C1 - Система и способ определения сообщения, содержащего спам, по теме сообщения, отправленного по электронной почте - Google Patents
Система и способ определения сообщения, содержащего спам, по теме сообщения, отправленного по электронной почте Download PDFInfo
- Publication number
- RU2634180C1 RU2634180C1 RU2016125278A RU2016125278A RU2634180C1 RU 2634180 C1 RU2634180 C1 RU 2634180C1 RU 2016125278 A RU2016125278 A RU 2016125278A RU 2016125278 A RU2016125278 A RU 2016125278A RU 2634180 C1 RU2634180 C1 RU 2634180C1
- Authority
- RU
- Russia
- Prior art keywords
- message
- text
- subject
- spam
- vectors
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/107—Computer-aided management of electronic mailing [e-mailing]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/07—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail characterised by the inclusion of specific contents
- H04L51/18—Commands or executable codes
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/21—Monitoring or handling of messages
- H04L51/212—Monitoring or handling of messages using filtering or selective blocking
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/42—Mailbox-related aspects, e.g. synchronisation of mailboxes
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/48—Message addressing, e.g. address format or anonymous messages, aliases
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- Computational Linguistics (AREA)
- Human Resources & Organizations (AREA)
- Entrepreneurship & Innovation (AREA)
- Strategic Management (AREA)
- Artificial Intelligence (AREA)
- General Business, Economics & Management (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- Computer Hardware Design (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Transfer Between Computers (AREA)
Abstract
Изобретение относится к области обнаружения спама. Техническим результатом является обнаружение спама в сообщении, отправленном по электронной почте. Раскрыт способ обнаружения спама в сообщении, отправленном по электронной почте, в котором: а) при помощи средства обработки сообщений получают сообщение, отправленное по электронной почте, содержащее в заголовке тему сообщения, в виде текста, который состоит более чем из трех слов; б) при помощи средства обработки сообщений определяют параметры текста темы сообщения, где параметрами текста темы сообщения является по крайней мере одно из: язык, на котором написан текст темы сообщения, количество слов в тексте темы сообщения, количество артиклей в тексте темы сообщения, количество пунктуационных знаков в тексте темы сообщения, количество местоимений в тексте темы сообщения, количество предлогов в тексте темы сообщения; в) при помощи средства определения коэффициентов определяют значения k и n коэффициентов для построения k-skip-n-gram словосочетаний на основе параметров текста темы сообщения с помощью правил определения коэффициентов; г) при помощи средства определения коэффициентов формируют набор k-skip-n-gram словосочетаний от текста темы сообщения с использованием определенных значений k и n коэффициентов; д) при помощи средства построения векторов выполняют построение вектора для подсчета степени косинусного сходства для каждого k-skip-n-gram словосочетания из сформированного набора; е) при помощи средства построения векторов для каждого построенного вектора подсчитывают степень косинусного сходства с известными векторами из базы данных векторов; ж) при помощи средства обнаружения спама определяют тематическую категорию сообщения на основании множества подсчитанных степеней косинусного сходства с известными векторами; з) при помощи средства обнаружения спама подсчитывают текущее значение коэффициента наличия спама на основе множества посчитанных степеней косинусного сходства всех построенных векторов; и) при помощи средства обнаружения спама при превышении определенного предельного значения коэффициента наличия спама обнаруживают спам в полученном сообщении. 2 н.п. ф-лы, 5 ил.
Description
Область техники
Изобретение относится к области защиты информации, в частности к системам и способам определения сообщения, содержащего спам.
Уровень техники
Реклама в Интернете является одним из самых дешевых видов рекламы. Спам-сообщения, как основной и наиболее массовый вид рекламы в современном мире, занимает от 70-90% от общего объема почтового трафика.
Спам - массовая рассылка рекламы или иного вида информации лицам, не выражавшим желания их получать. К спаму относятся сообщения, передаваемые по электронной почте, протоколам мгновенных сообщений, в социальных сетях, блогах, сайтах знакомств, форумах, а также SMS- и MMS-сообщения.
Ввиду постоянного роста объемов рассылки спама возникают проблемы технического, экономического и криминального характера. Нагрузка на аппаратуру и каналы передачи данных, затраты времени пользователей на обработку сообщений, изменение направленности сообщений в сторону мошенничества и воровства - эти и другие аспекты показывают острую необходимость непрерывной борьбы со спамом.
Существует много способов противодействия спам-рассылкам. Одним из самых эффективных является использование антиспам-приложений - программ, предназначенных для обнаружения и удаления нежелательных спам-сообщений. Антиспам-приложения используют методы, с помощью которых происходит фильтрация и удаление спама. Методы основаны на анализе словосочетаний и контрольных сумм от словосочетаний текста сообщения.
Например, патенте US 7555523 B1 описана система, в которой анализируют последовательности букв с использованием различающихся по длине n-gram. Вывод о том, содержит ли сообщение спам, делают на основе поиска похожих последовательностей из базы данных спам-содержащих последовательностей.
Указанные решения осуществляют анализ текста сообщения (body). Настоящее изобретение позволяет эффективно решить задачу обнаружения спама в сообщениях, отправленных по электронной почте, на основании текста полей заголовка (header).
Раскрытие изобретения
Изобретение относится к системам и способам определения письма, содержащего спам, по теме сообщения, отправленного по электронной почте. Технический результат настоящего изобретения заключается в обеспечении защиты пользователя от получения спама в сообщениях, отправленных по электронной почте, которые имеют в заголовке тему сообщения, в виде текста, который состоит более чем из трех слов. Указанный технический результат достигается за счет обнаружения спама в сообщении, отправленном по электронной почте при подсчете коэффициента наличия спама на основе k-skip-n-gram словосочетаний, выстроенных от текста темы заголовка сообщения, отправленного по электронной почте. Превышения предельного значения коэффициента наличия спама является признаком того, что сообщение, отправленное по электронной почте, является спамом.
В одном из вариантов реализации предоставляется система обнаружения спама в сообщении, отправленном по электронной почте, которая содержит: средство обработки сообщений, предназначенное для: получения сообщения, отправленного по электронной почте, содержащего в заголовке тему сообщения, в виде текста, который состоит более чем из трех слов, определения параметров текста темы сообщения, где параметрами текста темы сообщения являются: язык, на котором написан текст темы сообщения, количество слов в тексте темы сообщения, количество артиклей в тексте темы сообщения, количество пунктуационных знаков в тексте темы сообщения, количество местоимений в тексте темы сообщения, количество предлогов в тексте темы сообщения; передачи текста и параметров текста темы сообщения средству определения коэффициентов; средство определения коэффициентов, предназначенное для: определения значения k и n коэффициентов для построения k-skip-n-gram словосочетаний на основе параметров текста темы сообщения с помощью правил определения коэффициентов, формирования набора k-skip-n-gram словосочетаний от текста темы сообщения с использованием определенных значений k и n коэффициентов, передачи сформированного набора k-skip-n-gram словосочетаний средству построения векторов; базу данных правил, предназначенную для хранения правил определения коэффициентов; средство построения векторов, предназначенное для: построения вектора для подсчета степени косинусного сходства для каждого k-skip-n-gram словосочетания из сформированного набора; для каждого построенного вектора подсчета степени косинусного сходства с известными векторами из базы данных векторов; определения тематической категории сообщения на основании подсчитанных степеней косинусного сходства с известными векторами из базы данных векторов; передачи данных о подсчитанных степенях косинусного сходства и тематической категории сообщения средству обнаружения спама; базу данных векторов, предназначенную для хранения известных векторов для подсчета степени косинусного сходства k-skip-n-gram словосочетаний; средство обнаружения спама, предназначенное для: определения предельного значения коэффициента наличия спама на основании тематической категории сообщения, подсчета текущего значения коэффициента наличия спама на основе степеней косинусного сходства для всех векторов, при превышении определенного предельного значения коэффициента наличия спама обнаружение спама в полученном сообщении.
В другом варианте реализации предоставляется способ обнаружения спама в сообщении, отправленном по электронной почте, в котором: при помощи средства обработки сообщений получают сообщение, отправленное по электронной почте, содержащее в заголовке тему сообщения, в виде текста, который состоит более чем из трех слов; при помощи средства обработки сообщений определяют параметры текста темы сообщения, где параметрами текста темы сообщения является по крайней мере одно из: язык, на котором написан текст темы сообщения, количество слов в тексте темы сообщения, количество артиклей в тексте темы сообщения, количество пунктуационных знаков в тексте темы сообщения, количество местоимений в тексте темы сообщения, количество предлогов в тексте темы сообщения; при помощи средства определения коэффициентов определяют значения k и n коэффициентов для построения k-skip-n-gram словосочетаний на основе параметров текста темы сообщения с помощью правил определения коэффициентов; при помощи средства определения коэффициентов формируют набор k-skip-n-gram словосочетаний от текста темы сообщения с использованием определенных значений k и n коэффициентов; при помощи средства построения векторов выполняют построение вектора для подсчета степени косинусного сходства для каждого k-skip-n-gram словосочетания из сформированного набора; при помощи средства построения векторов для каждого построенного вектора подсчитывают степень косинусного сходства с известными векторами из базы данных векторов; при помощи средства обнаружения спама определяют тематическую категорию сообщения на основании подсчитанных степеней косинусного сходства с известными векторами; при помощи средства обнаружения спама подсчитывают текущее значение коэффициента наличия спама на основе степеней косинусного сходства всех построенных векторов; при помощи средства обнаружения спама при превышении определенного предельного значения коэффициента наличия спама обнаруживают спам в полученном сообщении.
Краткое описание чертежей
Дополнительные цели, признаки и преимущества настоящего изобретения будут очевидными из прочтения последующего описания осуществления изобретения со ссылкой на прилагаемые чертежи, на которых:
Фиг. 1А отображает поля заголовка и пример темы произвольного сообщения, отправленного по электронной почте.
Фиг. 1Б изображает формулу вычисления и векторное отображение косинусного сходства.
Фиг. 2 отображает структурную схему системы обнаружения спама в сообщении, оправленном по электронной почте.
Фиг. 3 иллюстрирует алгоритм работы системы обнаружения спама в сообщении, отправленном по электронной почте.
Фиг. 4 представляет пример компьютерной системы общего назначения.
Хотя изобретение может иметь различные модификации и альтернативные формы, характерные признаки, показанные в качестве примера на чертежах, будут описаны подробно. Следует понимать, однако, что цель описания заключается не в ограничении изобретения конкретным его воплощением. Наоборот, целью описания является охват всех изменений, модификаций, входящих в рамки данного изобретения, как это определено в приложенной формуле.
Описание вариантов осуществления изобретения
Объекты и признаки настоящего изобретения, способы для достижения этих объектов и признаков станут очевидными посредством отсылки к примерным вариантам осуществления. Однако настоящее изобретение не ограничивается примерными вариантами осуществления, раскрытыми ниже, оно может воплощаться в различных видах. Сущность, приведенная в описании, является ничем иным, как конкретными деталями, необходимыми для помощи специалисту в области техники в исчерпывающем понимании изобретения, и настоящее изобретение определяется в объеме приложенной формулы.
Согласно RFC 5322, сообщение состоит из полей заголовков (совокупность этих полей называют разделом заголовков сообщения), за которыми может следовать тело сообщения. Раздел заголовков представляет собой последовательность символьных строк, синтаксис которых описан в данной спецификации. Тело сообщения представляет собой последовательность символов, которая следует после раздела заголовков и отделена от него пустой строкой (строкой, содержащей только CRLF).
Упомянутые в уровне техники публикации выполняют обнаружение спама путем анализа тела сообщения (body). Помимо тела сообщения, предметом анализа может быть заголовок. Особый интерес, в частности, может представлять поле заголовка - тема сообщения (subject). Тема сообщения - короткое предложение, которое описывает цель написания и содержание сообщения. Фиг. 1А отображает поля заголовка и пример темы произвольного сообщения, отправленного по электронной почте.
Для того чтобы на основе данных о теме сообщения определить сообщение, содержащее спам, используют систему обнаружения спама в сообщении, отправленном по электронной почте. Система обнаружения спама в сообщении, отправленном по электронной почте, содержит средство обработки сообщений 220, средство определения коэффициентов 230, средство построения векторов 240, средство обнаружения спама 250, базу данных правил 260, базу данных векторов 270.
Средство обработки сообщений 220 предназначено для получения сообщения, отправленного по электронной почте, содержащего в заголовке тему сообщения в виде текста, который состоит более чем из трех слов 210.
В одном случае может быть получено сообщение, тема которого состоит из бессмысленной нераздельной или неразборной последовательности символов. Подобные сообщения могут появляться, например, когда была допущена ошибка при выборе кодировки. Помимо этого, подобные сообщения зачастую являются признаком сообщения, содержащего спам. Анализ темы подобных сообщений затруднителен. В другом случае может быть получено сообщение, тема которого состоит из нескольких слов. Текст темы сообщения, состоящий более чем из трех слов, наиболее предпочтителен для анализа.
Помимо этого, средство обработки сообщений 220 предназначено для определения параметров текста темы сообщения.
Параметры текста темы сообщения - величина, характеризующая основные существенные особенности текста темы сообщения. Параметрами текста темы сообщения может быть, например:
- язык, на котором написан текст темы сообщения,
- количество слов в тексте темы сообщения,
- количество артиклей слов в тексте темы сообщения,
- количество пунктуационных знаков слов в тексте темы сообщения,
- количество местоимений слов в тексте темы сообщения,
- количество предлогов слов в тексте темы сообщения и т.д.
Так же средство обработки сообщений 220 предназначено для передачи текста и параметров текста темы сообщения средству определения коэффициентов 230.
Средство определения коэффициентов 230 предназначено для определения значения k, n коэффициентов для построения k-skip-n-gram словосочетаний на основе параметров текста темы сообщения с использованием правил определения коэффициентов из базы данных правил 260.
N-gram - это последовательность словосочетаний, состоящих из n-слов. Коэффициент n - количество слов, которое будет содержать одно словосочетание из набора. Например, в случае, если n=2, набор 2-gram (bi-gram), построенный от предложения: «Привет! Не забудь купить билеты по акции!» - будет выглядеть следующим образом: «привет не; не забудь; забудь купить; купить билеты; билеты по; билеты акции; по акции.»
K-skip-n-gram - это последовательность словосочетаний, состоящая из n-слов, между которыми опускают до k-слов. Таким образом, коэффициент k показывает, что в словосочетание, помимо соседних слов, входят слова через от одного до k слов от начального слова.
Например, в случае, если n=2, k=2, набор 2-skip-bi-gram, построенный от упомянутого предложения, будет выглядеть следующим образом: «привет не; привет забудь; привет купить; не забудь; не купить; не билеты; забудь купить; забудь билеты; забудь по; купить билеты; купить по; купить акции; билеты по; билеты акции; по акции.»
Правило определения коэффициентов - набор условий, при выполнении которых средство определения коэффициентов осуществляет выбор или подсчет наиболее подходящего значения коэффициента. Условие может быть основано на параметрах текста темы сообщения. В большинстве европейских языков на коэффициент k может влиять количество артиклей и предлогов: чем их больше в языке, тем меньше должно быть значение k. Но и количество артиклей в тексте сообщения определенного языка так же влияет на коэффициент k. На коэффициент n имеют особое влияние такие параметры, например как количество местоимений или количество предлогов в тексте темы сообщения.
Например, правилом определения коэффициента k может быть следующий набор условий: количество слов в тексте темы сообщения - от 3 до 10, язык текста темы сообщения - английский, количество пунктуационных знаков - 3, в итоге коэффициент k равен 2. Другим примером правила определения коэффициента k может быть следующий набор условий: количество слов в тексте темы сообщения - больше 10, язык темы сообщения - русский, количество пунктуационных знаков - 0, коэффициент k равен 3.
Например, правилом определения коэффициента n может быть следующий набор условий: коэффициент k - равен 2, язык текста темы сообщения - испанский, количество местоимений в тексте темы сообщения - 3, в итоге коэффициент n равен 2 и т.д.
Помимо этого, средство определения коэффициентов 230 предназначено для формирования набора k-skip-n-gram словосочетаний от текста темы сообщения с использованием определенных ранее значений k, n коэффициентов. Так же средство определения коэффициентов 230 предназначено для передачи сформированного набора k-skip-n-gram словосочетаний средству построения векторов 240.
База данных правил 260 предназначена для хранения правил определения коэффициента k, правила определения коэффициента n.
Средство построения векторов 240 предназначено для построения вектора для подсчета степени косинусного сходства для каждого k-skip-n-gram словосочетания из сформированного набора.
Фиг. 1Б изображает формулу вычисления и векторное отображение косинусного сходства. Косинусное сходство - это мера сходства между двумя векторами предгильбертового пространства, которая используется для измерения косинуса угла между ними. Для каждого k-skip-n-gram словосочетания из сформированного набора выстраивают вектор для подсчета степени косинусного сходства. Например, для 2-skip-bi-gram словосочетания от упомянутого текста «билеты акции» вектор для подсчета степени сходства будет следующим: -2.622624 1.091368 1.221946 1.118406 0.286586 -0.477737 0.925635 -0.179525 0.212215 -1.804560 1.452010 -1.630697 -0.030821 0.525848 -1.306217 -0.847145 -0.209074 -2.020271.
Помимо этого, средство построения векторов 240 предназначено для подсчета степени косинусного сходства каждого построенного вектора с известными векторами из базы данных векторов 270.
Для упомянутого вектора рассчитывают косинусное сходство с известными векторами из базы данных векторов 270 для выявления наиболее похожих словосочетаний. Степень косинусного сходства вектора словосочетания «билеты акции» с известным из базы данных векторов 270 вектором от словосочетания «билеты скидки» после подсчета имеет значение 0,75, а со словосочетанием «билеты концерт» может быть равно 0.79.
Помимо этого, средство построения векторов 240 предназначено для определения тематической категории сообщения на основе посчитанной степени сходства по крайней мере одного построенного вектора и известных векторов из базы данных векторов 270.
Тематическая категория сообщения - категория, содержащая сообщения, отдельные словосочетания или векторы, схожие по содержанию или цели написания, в которых использованы аналогичные по смыслу слова, сочетания слов или сочетания слов и символов, характерные для конкретной тематики. Множество спам писем заранее подвергаются анализу, например при помощи NMF (Non-negative matrix factorization) или с использованием латентного размещения Дирихле, разбиваются на тематические категории. Примером может быть категория спам писем, «финансовый заработок». В эту категорию входят сообщения, которые содержат сведения о дополнительном заработке, сумме заработка в месяц, возможности заработка помимо работы и т.д. Тематическую категорию может иметь как сообщение, так и отдельное словосочетание или построенный от него вектор.
Средство построения векторов 240 определяет тематическую категорию сообщения по вектору или совокупности векторов, например, имеющих наивысшую степень схожести с известными векторами из базы данных векторов 270 одной тематики. Соответственно, если, например, известный вектор из базы данных векторов 270 относится к определенной тематической категории, например, «интимные услуги», и один из построенных от текста темы заголовка векторов имеет высокую степень косинусного сходства с ним, то именно эту категорию и будет иметь полученное сообщение.
Дополнительно, средство построения векторов 240 предназначено для передачи данных о посчитанных степенях косинусного сходства и определенной тематической категории сообщения средству обнаружения спама 250.
База данных векторов 270 предназначена для хранения известных векторов для подсчета степени косинусного сходства k-skip-n-gram словосочетаний. Известные векторы в базе данных векторов 270 распределены по тематическим категориям.
В качестве базы данных правил 260 и базы данных векторов 270 могут использоваться различные виды баз данных, а именно: иерархические (IMS, TDMS, System 2000), сетевые (Cerebrum, Cronospro, DBVist), реляционные (DB2, Informix, Microsoft SQL Server), объектно-ориентированные (Jasmine, Versant, POET), объектно-реляционные (Oracle Database, PostgreSQL, FirstSQL/J, функциональные и т.д. Обновление баз данных также может быть осуществлено при помощи антивирусного сервера.
Текущее значение коэффициента наличия спама - количественный показатель наличия спама в полученном сообщении, определяемый на основе посчитанных степеней косинусного сходства всех векторов из набора, сформированного от текста темы сообщения. Текущее значение коэффициента наличия спама может быть посчитано с использованием, например, среднего арифметического от степеней косинусного сходства всех построенных векторов.
Предельное значение коэффициента наличия спама - значение коэффициента наличия спама, при котором полученное сообщение считается сообщением, содержащим спам. Предельное значение коэффициента наличия спама зависит от тематической категории сообщения. Для каждой тематической категории сообщения определяют предельное значение коэффициента наличия спама опытным путем или путем регрессивного анализа тестовых коллекций сообщений и заносят в базу данных векторов 270. Далее упомянутое значение корректируют в зависимости от количества k-skip-n-gram в сформированном наборе, количестве известных векторов из базы данных векторов, с которыми по крайней мере один посчитанный вектор имеет высокую степень схожести, и т.д.
В базе данных векторов 270 для каждой тематической категории сообщений хранят предельное значение коэффициента наличия спама.
Средство обнаружения спама 250 предназначено для определения предельного значения коэффициента наличия спама на основе тематической категории сообщения. В одном случае, например, сообщения принадлежит к тематической категории «интимные услуги». Тематическая категория сообщения определена на основе, например, 2-skip-2-gram «интимные цена», от которого построен вектор для подсчета степени схожести. 2-skip-2-gram «интимные цена» выбран в качестве определяющего, поскольку построенный вектор от этого 2-skip-2-gram имеет максимальную степень схожести с 3-мя известными векторами из базы данных векторов 270. С первым вектором, от k-skip-n-gram «интимные рублей» упомянутый вектор имеет степень схожести 0,78 и является максимальной среди степеней схожести для всех построенных векторов из сформированного набора. Со вторым вектором от k-skip-n-gram «интимная бесплатно» упомянутый вектор имеет степень схожести 0,69, также является высокой. С третьим вектором от k-skip-n-gram от «интимной обстановке» упомянутый вектор имеет степень схожести 0.53. В сформированном наборе 24 2-skip-2-gram, что означает, что в тексте темы сообщения 10 слов. Таким образом, предельный коэффициент наличия спама для тематической категории «интимные услуги», известный из базы данных векторов 270, равен 0,80, при определении средством обнаружения спама 250 с учетом уточненных данных (3 вектора, 10 слов) будет равен 0,77. Уточнение может быть посчитано при помощи арифметических формул.
Так же средство обнаружения спама 250 предназначено для подсчета текущего значения коэффициента наличия спама на основе степеней косинусного сходства всех построенных векторов.
Помимо этого, средство обнаружения спама 250 предназначено для обнаружения спама в полученном сообщении при превышении определенного предельного значения коэффициента наличия спама.
В случае, если предельное значение коэффициента наличия спама не превышено, в полученном сообщении спам не может быть обнаружен и система прекращает работу
Фиг. 3 представляет схему алгоритма работы системы обнаружения спама в сообщении, отправленном по электронной почте. На этапе 310 средство обработки сообщений 220 получает сообщение, оправленное по электронной почте, содержащее в заголовке тему сообщения, в виде текста, который состоит более чем из трех слов 210. На этапе 311 средство обработки сообщений 220 определяет параметры текста темы сообщения и передает текст и параметры текста темы сообщения средству определения коэффициентов 230. На этапе 312 средство определения коэффициентов 230 определяет значения k и n коэффициентов для построения k-skip-n-gram словосочетаний на основе параметров текста темы сообщения с помощью правил определения коэффициентов. На этапе 313 средство определения коэффициентов 230 формирует набор k-skip-n-gram словосочетаний от текста темы сообщения с использованием определенных значений k и n коэффициентов и передает сформированный набор k-skip-n-gram словосочетаний средству построения векторов. На этапе 314 средство построения векторов 240 выполняет построение вектора для подсчета степени косинусного сходства для каждого k-skip-n-gram словосочетания из сформированного набора. На этапе для каждого построенного вектора 315 средство построения векторов 240 подсчитывает степень косинусного сходства с известными векторами из базы данных векторов 270. На этапе 316 средство построения векторов 240 определяет тематическую категорию сообщения на основании подсчитанных степеней косинусного сходства с известными векторами и передает данные о подсчитанных степенях косинусного сходства и тематической категории сообщения средству обнаружения спама 250. На этапе 317 средство обнаружения спама 250 определяет предельное значение коэффициента наличия спама на основании тематической категории сообщения. На этапе 318 средство обнаружения спама 250 выполняет подсчет значения коэффициента наличия спама на основе степеней косинусного сходства всех построенных векторов. На этапе 319 средство обнаружения спама 250 проверяет, превышает ли посчитанное значение коэффициента наличия спама его определенное предельное значение. При превышении определенного предельного значения коэффициента наличия спама на этапе 320 средство обнаружения спама выполняет обнаружение спама в полученном сообщении. Если определенное предельное значение коэффициента наличия спама не превышено, на этапе 321 система заканчивает работу.
Фиг. 4 представляет пример компьютерной системы общего назначения, персональный компьютер или сервер 20, содержащий центральный процессор 21, системную память 22 и системную шину 23, которая содержит разные системные компоненты, в том числе память, связанную с центральным процессором 21. Системная шина 23 реализована, как любая известная из уровня техники шинная структура, содержащая в свою очередь память шины или контроллер памяти шины, периферийную шину и локальную шину, которая способна взаимодействовать с любой другой шинной архитектурой. Системная память содержит постоянное запоминающее устройство (ПЗУ) 24, память с произвольным доступом (ОЗУ) 25. Основная система ввода/вывода (BIOS) 26 содержит основные процедуры, которые обеспечивают передачу информации между элементами персонального компьютера 20, например, в момент загрузки операционной системы с использованием ПЗУ 24.
Персональный компьютер 20 в свою очередь содержит жесткий диск 27 для чтения и записи данных, привод магнитных дисков 28 для чтения и записи на сменные магнитные диски 29 и оптический привод 30 для чтения и записи на сменные оптические диски 31, такие как CD-ROM, DVD-ROM и иные оптические носители информации. Жесткий диск 27, привод магнитных дисков 28, оптический привод 30 соединены с системной шиной 23 через интерфейс жесткого диска 32, интерфейс магнитных дисков 33 и интерфейс оптического привода 34 соответственно. Приводы и соответствующие компьютерные носители информации представляют собой энергонезависимые средства хранения компьютерных инструкций, структур данных, программных модулей и прочих данных персонального компьютера 20.
Настоящее описание раскрывает реализацию системы, которая использует жесткий диск 27, сменный магнитный диск 29 и сменный оптический диск 31, но следует понимать, что возможно применение иных типов компьютерных носителей информации 56, которые способны хранить данные в доступной для чтения компьютером форме (твердотельные накопители, флеш карты памяти, цифровые диски, память с произвольным доступом (ОЗУ) и т.п.), которые подключены к системной шине 23 через контроллер 55.
Компьютер 20 имеет файловую систему 36, где хранится записанная операционная система 35, а также дополнительные программные приложения 37, другие программные модули 38 и данные программ 39. Пользователь имеет возможность вводить команды и информацию в персональный компьютер 20 посредством устройств ввода (клавиатуры 40, манипулятора «мышь» 42). Могут использоваться другие устройства ввода (не отображены): микрофон, джойстик, игровая консоль, сканер и т.п. Подобные устройства ввода по своему обычаю подключают к компьютерной системе 20 через последовательный порт 46, который в свою очередь подсоединен к системной шине, но могут быть подключены иным способом, например, при помощи параллельного порта, игрового порта или универсальной последовательной шины (USB). Монитор 47 или иной тип устройства отображения также подсоединен к системной шине 23 через интерфейс, такой как видеоадаптер 48. В дополнение к монитору 47, персональный компьютер может быть оснащен другими периферийными устройствами вывода (не отображены), например, колонками, принтером и т.п.
Персональный компьютер 20 способен работать в сетевом окружении, при этом используется сетевое соединение с другим или несколькими удаленными компьютерами 49. Удаленный компьютер (или компьютеры) 49 являются такими же персональными компьютерами или серверами, которые имеют большинство или все упомянутые элементы, отмеченные ранее при описании существа персонального компьютера 20, представленного на Фиг. 4. В вычислительной сети могут присутствовать также и другие устройства, например, маршрутизаторы, сетевые станции, пиринговые устройства или иные сетевые узлы.
Сетевые соединения могут образовывать локальную вычислительную сеть (LAN) 50 и глобальную вычислительную сеть (WAN). Такие сети применяются в корпоративных компьютерных сетях, внутренних сетях компаний и, как правило, имеют доступ к сети Интернет. В LAN- или WAN-сетях персональный компьютер 20 подключен к локальной сети 50 через сетевой адаптер или сетевой интерфейс 51. При использовании сетей персональный компьютер 20 может использовать модем 54 или иные средства обеспечения связи с глобальной вычислительной сетью, такой как Интернет. Модем 54, который является внутренним или внешним устройством, подключен к системной шине 23 посредством последовательного порта 46. Следует уточнить, что сетевые соединения являются лишь примерными и не обязаны отображать точную конфигурацию сети, т.е. в действительности существуют иные способы установления соединения техническими средствами связи одного компьютера с другим.
Claims (42)
1. Система обнаружения спама в сообщении, отправленном по электронной почте, которая содержит:
а) средство обработки сообщений, предназначенное для:
получения сообщения, отправленного по электронной почте, содержащего в заголовке тему сообщения, в виде текста, который состоит более чем из трех слов,
определения параметров текста темы сообщения, где параметрами текста темы сообщения являются:
язык, на котором написан текст темы сообщения,
количество слов в тексте темы сообщения,
количество артиклей в тексте темы сообщения,
количество пунктуационных знаков в тексте темы сообщения,
количество местоимений в тексте темы сообщения,
количество предлогов в тексте темы сообщения;
передачи текста и параметров текста темы сообщения средству определения коэффициентов;
б) средство определения коэффициентов, предназначенное для:
определения значения k и n коэффициентов для построения k-skip-n-gram словосочетаний на основе параметров текста темы сообщения с помощью правил определения коэффициентов,
формирования набора k-skip-n-gram словосочетаний от текста темы сообщения с использованием определенных значений k и n коэффициентов,
передачи сформированного набора k-skip-n-gram словосочетаний средству построения векторов;
в) базу данных правил, предназначенную для хранения правил определения коэффициентов;
г) средство построения векторов, предназначенное для:
построения вектора для подсчета степени косинусного сходства для каждого k-skip-n-gram словосочетания из сформированного набора;
для каждого построенного вектора подсчета степени косинусного сходства с известными векторами из базы данных векторов;
определения тематической категории сообщения на основании множества подсчитанных степеней косинусного сходства с известными векторами из базы данных векторов;
передачи данных о подсчитанных степенях косинусного сходства и тематической категории сообщения средству обнаружения спама;
д) базу данных векторов, предназначенную для хранения известных векторов для подсчета степени косинусного сходства k-skip-n-gram словосочетаний;
е) средство обнаружения спама, предназначенное для:
определения предельного значения коэффициента наличия спама на основании тематической категории сообщения,
подсчета текущего значения коэффициента наличия спама на основе множества посчитанных степеней косинусного сходства для всех векторов,
при превышении определенного предельного значения коэффициента наличия спама обнаружение спама в полученном сообщении.
2. Способ обнаружения спама в сообщении, отправленном по электронной почте, в котором:
а) при помощи средства обработки сообщений получают сообщение, отправленное по электронной почте, содержащее в заголовке тему сообщения, в виде текста, который состоит более чем из трех слов;
б) при помощи средства обработки сообщений определяют параметры текста темы сообщения, где параметрами текста темы сообщения является по крайней мере одно из:
язык, на котором написан текст темы сообщения,
количество слов в тексте темы сообщения,
количество артиклей в тексте темы сообщения,
количество пунктуационных знаков в тексте темы сообщения,
количество местоимений в тексте темы сообщения,
количество предлогов в тексте темы сообщения;
в) при помощи средства определения коэффициентов определяют значения k и n коэффициентов для построения k-skip-n-gram словосочетаний на основе параметров текста темы сообщения с помощью правил определения коэффициентов;
г) при помощи средства определения коэффициентов формируют набор k-skip-n-gram словосочетаний от текста темы сообщения с использованием определенных значений k и n коэффициентов;
д) при помощи средства построения векторов выполняют построение вектора для подсчета степени косинусного сходства для каждого k-skip-n-gram словосочетания из сформированного набора;
е) при помощи средства построения векторов для каждого построенного вектора подсчитывают степень косинусного сходства с известными векторами из базы данных векторов;
ж) при помощи средства обнаружения спама определяют тематическую категорию сообщения на основании множества подсчитанных степеней косинусного сходства с известными векторами;
з) при помощи средства обнаружения спама подсчитывают текущее значение коэффициента наличия спама на основе множества посчитанных степеней косинусного сходства всех построенных векторов;
и) при помощи средства обнаружения спама при превышении определенного предельного значения коэффициента наличия спама обнаруживают спам в полученном сообщении.
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2016125278A RU2634180C1 (ru) | 2016-06-24 | 2016-06-24 | Система и способ определения сообщения, содержащего спам, по теме сообщения, отправленного по электронной почте |
US15/278,512 US9647975B1 (en) | 2016-06-24 | 2016-09-28 | Systems and methods for identifying spam messages using subject information |
EP16198820.9A EP3261303B1 (en) | 2016-06-24 | 2016-11-15 | Systems and methods for identifying spam messages using subject information |
CN201611102731.2A CN107018062B (zh) | 2016-06-24 | 2016-12-05 | 用于使用主题信息识别垃圾消息的系统和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2016125278A RU2634180C1 (ru) | 2016-06-24 | 2016-06-24 | Система и способ определения сообщения, содержащего спам, по теме сообщения, отправленного по электронной почте |
Publications (1)
Publication Number | Publication Date |
---|---|
RU2634180C1 true RU2634180C1 (ru) | 2017-10-24 |
Family
ID=58643618
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2016125278A RU2634180C1 (ru) | 2016-06-24 | 2016-06-24 | Система и способ определения сообщения, содержащего спам, по теме сообщения, отправленного по электронной почте |
Country Status (4)
Country | Link |
---|---|
US (1) | US9647975B1 (ru) |
EP (1) | EP3261303B1 (ru) |
CN (1) | CN107018062B (ru) |
RU (1) | RU2634180C1 (ru) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2775351C1 (ru) * | 2021-06-01 | 2022-06-29 | Публичное Акционерное Общество "Сбербанк России" (Пао Сбербанк) | Способ и система получения векторного представления электронного документа |
WO2022255902A1 (ru) * | 2021-06-01 | 2022-12-08 | Публичное Акционерное Общество "Сбербанк России" | Способ и система получения векторного представления электронного документа |
WO2023048589A1 (ru) * | 2021-09-24 | 2023-03-30 | Публичное Акционерное Общество "Сбербанк России" | Система получения векторного представления электронного документа |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10419377B2 (en) * | 2017-05-31 | 2019-09-17 | Apple Inc. | Method and system for categorizing instant messages |
CN110019773A (zh) * | 2017-08-14 | 2019-07-16 | 中国移动通信有限公司研究院 | 一种垃圾短信检测方法、终端及计算机可读存储介质 |
CN108304379B (zh) * | 2018-01-15 | 2020-12-01 | 腾讯科技(深圳)有限公司 | 一种文章识别方法、装置及存储介质 |
CN109739848B (zh) * | 2018-12-28 | 2021-11-09 | 深圳市科联汇通科技有限公司 | 一种数据提取方法 |
RU2750643C2 (ru) * | 2019-07-17 | 2021-06-30 | Акционерное общество "Лаборатория Касперского" | Способ признания письма спамом через анти-спам карантин |
US20210191820A1 (en) | 2019-12-20 | 2021-06-24 | EMC IP Holding Company LLC | Method and system for performing incremental backups of fragmented user data |
US12057108B2 (en) * | 2020-04-10 | 2024-08-06 | Collibra Belgium Bv | Methods and systems for word edit distance embedding |
CN112149414B (zh) * | 2020-09-23 | 2023-06-23 | 腾讯科技(深圳)有限公司 | 文本相似度确定方法、装置、设备及存储介质 |
US11438295B1 (en) * | 2021-10-13 | 2022-09-06 | EMC IP Holding Company LLC | Efficient backup and recovery of electronic mail objects |
US12028304B2 (en) * | 2021-12-17 | 2024-07-02 | AO Kaspersky Lab | System and method for restricting the reception of e-mails from a sender of bulk spam mail |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060168035A1 (en) * | 2004-12-21 | 2006-07-27 | Lucent Technologies, Inc. | Anti-spam server |
RU2355018C2 (ru) * | 2003-11-12 | 2009-05-10 | Майкрософт Корпорейшн | Инфраструктура для обеспечения интеграции антиспамовых технологий |
RU85247U1 (ru) * | 2008-12-26 | 2009-07-27 | ЗАО "Лаборатория Касперского" | Идентификация спама с помощью лексических векторов (варианты) |
US7636716B1 (en) * | 2003-12-03 | 2009-12-22 | Trend Micro Incorporated | Method and architecture for blocking email spams |
RU2583713C2 (ru) * | 2013-06-06 | 2016-05-10 | Закрытое акционерное общество "Лаборатория Касперского" | Система и способ исключения шинглов от незначимых частей из сообщения при фильтрации спама |
Family Cites Families (49)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6507866B1 (en) | 1999-07-19 | 2003-01-14 | At&T Wireless Services, Inc. | E-mail usage pattern detection |
US20040073617A1 (en) | 2000-06-19 | 2004-04-15 | Milliken Walter Clark | Hash-based systems and methods for detecting and preventing transmission of unwanted e-mail |
AUPR033800A0 (en) * | 2000-09-25 | 2000-10-19 | Telstra R & D Management Pty Ltd | A document categorisation system |
US6778941B1 (en) * | 2000-11-14 | 2004-08-17 | Qualia Computing, Inc. | Message and user attributes in a message filtering method and system |
US7043506B1 (en) * | 2001-06-28 | 2006-05-09 | Microsoft Corporation | Utility-based archiving |
US7725544B2 (en) * | 2003-01-24 | 2010-05-25 | Aol Inc. | Group based spam classification |
US7089241B1 (en) * | 2003-01-24 | 2006-08-08 | America Online, Inc. | Classifier tuning based on data similarities |
US20050060643A1 (en) * | 2003-08-25 | 2005-03-17 | Miavia, Inc. | Document similarity detection and classification system |
US20050149546A1 (en) * | 2003-11-03 | 2005-07-07 | Prakash Vipul V. | Methods and apparatuses for determining and designating classifications of electronic documents |
US7519565B2 (en) | 2003-11-03 | 2009-04-14 | Cloudmark, Inc. | Methods and apparatuses for classifying electronic documents |
US20050120019A1 (en) | 2003-11-29 | 2005-06-02 | International Business Machines Corporation | Method and apparatus for the automatic identification of unsolicited e-mail messages (SPAM) |
US8214438B2 (en) | 2004-03-01 | 2012-07-03 | Microsoft Corporation | (More) advanced spam detection features |
US7555523B1 (en) | 2004-05-06 | 2009-06-30 | Symantec Corporation | Spam discrimination by generalized Ngram analysis of small header fields |
US20080077570A1 (en) * | 2004-10-25 | 2008-03-27 | Infovell, Inc. | Full Text Query and Search Systems and Method of Use |
US7574409B2 (en) * | 2004-11-04 | 2009-08-11 | Vericept Corporation | Method, apparatus, and system for clustering and classification |
US20060149820A1 (en) | 2005-01-04 | 2006-07-06 | International Business Machines Corporation | Detecting spam e-mail using similarity calculations |
US20060149821A1 (en) * | 2005-01-04 | 2006-07-06 | International Business Machines Corporation | Detecting spam email using multiple spam classifiers |
US7912907B1 (en) | 2005-10-07 | 2011-03-22 | Symantec Corporation | Spam email detection based on n-grams with feature selection |
US7899871B1 (en) * | 2006-01-23 | 2011-03-01 | Clearwell Systems, Inc. | Methods and systems for e-mail topic classification |
US8015484B2 (en) * | 2006-02-09 | 2011-09-06 | Alejandro Backer | Reputation system for web pages and online entities |
US8078625B1 (en) | 2006-09-11 | 2011-12-13 | Aol Inc. | URL-based content categorization |
US7945627B1 (en) | 2006-09-28 | 2011-05-17 | Bitdefender IPR Management Ltd. | Layout-based electronic communication filtering systems and methods |
US9495358B2 (en) * | 2006-10-10 | 2016-11-15 | Abbyy Infopoisk Llc | Cross-language text clustering |
US8676815B2 (en) * | 2008-05-07 | 2014-03-18 | City University Of Hong Kong | Suffix tree similarity measure for document clustering |
WO2010002892A1 (en) | 2008-06-30 | 2010-01-07 | Aol Llc | Systems and methods for reporter-based filtering of electronic communications and messages |
US8001195B1 (en) | 2008-08-26 | 2011-08-16 | Kaspersky Lab, Zao | Spam identification using an algorithm based on histograms and lexical vectors (one-pass algorithm) |
JP5475795B2 (ja) * | 2008-11-05 | 2014-04-16 | グーグル・インコーポレーテッド | カスタム言語モデル |
US20100211605A1 (en) * | 2009-02-17 | 2010-08-19 | Subhankar Ray | Apparatus and method for unified web-search, selective broadcasting, natural language processing utilities, analysis, synthesis, and other applications for text, images, audios and videos, initiated by one or more interactions from users |
GB0905457D0 (en) * | 2009-03-30 | 2009-05-13 | Touchtype Ltd | System and method for inputting text into electronic devices |
US20100268661A1 (en) * | 2009-04-20 | 2010-10-21 | 4-Tell, Inc | Recommendation Systems |
US9407463B2 (en) | 2011-07-11 | 2016-08-02 | Aol Inc. | Systems and methods for providing a spam database and identifying spam communications |
US9245253B2 (en) * | 2011-08-19 | 2016-01-26 | Disney Enterprises, Inc. | Soft-sending chat messages |
US9916538B2 (en) * | 2012-09-15 | 2018-03-13 | Z Advanced Computing, Inc. | Method and system for feature detection |
US8954519B2 (en) | 2012-01-25 | 2015-02-10 | Bitdefender IPR Management Ltd. | Systems and methods for spam detection using character histograms |
US9027127B1 (en) * | 2012-12-04 | 2015-05-05 | Google Inc. | Methods for detecting machine-generated attacks based on the IP address size |
US9280587B2 (en) * | 2013-03-15 | 2016-03-08 | Xerox Corporation | Mailbox search engine using query multi-modal expansion and community-based smoothing |
US9467409B2 (en) * | 2013-06-04 | 2016-10-11 | Yahoo! Inc. | System and method for contextual mail recommendations |
US10404745B2 (en) * | 2013-08-30 | 2019-09-03 | Rakesh Verma | Automatic phishing email detection based on natural language processing techniques |
US9350636B2 (en) | 2013-10-08 | 2016-05-24 | Match.Com, Llc | System and method for detecting spammers in a network environment |
CN103605690A (zh) * | 2013-11-04 | 2014-02-26 | 北京奇虎科技有限公司 | 一种即时通信中识别广告消息的装置和方法 |
US20150215253A1 (en) | 2014-01-29 | 2015-07-30 | Sunil Vemuri | System and method for automatically mining corpus of communications and identifying messages or phrases that require the recipient's attention, response, or action |
CN105261358A (zh) * | 2014-07-17 | 2016-01-20 | 中国科学院声学研究所 | 用于语音识别的n元文法模型构造方法及语音识别系统 |
US10897460B2 (en) * | 2014-10-10 | 2021-01-19 | Tim Draegen | Third-party documented trust linkages for email streams |
US10269080B2 (en) * | 2014-11-25 | 2019-04-23 | Adobe Inc. | Method and apparatus for providing a response to an input post on a social page of a brand |
US9774553B2 (en) * | 2014-12-01 | 2017-09-26 | Google Inc. | Systems and methods for estimating message similarity |
US10402414B2 (en) * | 2015-01-30 | 2019-09-03 | Nec Corporation | Scalable system and method for weighted similarity estimation in massive datasets revealed in a streaming fashion |
US9280747B1 (en) | 2015-05-27 | 2016-03-08 | Sas Institute Inc. | Normalizing electronic communications using feature sets |
US10268948B2 (en) * | 2015-07-23 | 2019-04-23 | The Boeing Company | Data driven classification and troubleshooting system and method using associative memory and a machine learning algorithm to improve the accuracy and performance of the associative memory |
US20170068904A1 (en) * | 2015-09-09 | 2017-03-09 | Microsoft Technology Licensing, Llc | Determining the Destination of a Communication |
-
2016
- 2016-06-24 RU RU2016125278A patent/RU2634180C1/ru active
- 2016-09-28 US US15/278,512 patent/US9647975B1/en active Active
- 2016-11-15 EP EP16198820.9A patent/EP3261303B1/en active Active
- 2016-12-05 CN CN201611102731.2A patent/CN107018062B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2355018C2 (ru) * | 2003-11-12 | 2009-05-10 | Майкрософт Корпорейшн | Инфраструктура для обеспечения интеграции антиспамовых технологий |
US7636716B1 (en) * | 2003-12-03 | 2009-12-22 | Trend Micro Incorporated | Method and architecture for blocking email spams |
US20060168035A1 (en) * | 2004-12-21 | 2006-07-27 | Lucent Technologies, Inc. | Anti-spam server |
RU85247U1 (ru) * | 2008-12-26 | 2009-07-27 | ЗАО "Лаборатория Касперского" | Идентификация спама с помощью лексических векторов (варианты) |
RU2583713C2 (ru) * | 2013-06-06 | 2016-05-10 | Закрытое акционерное общество "Лаборатория Касперского" | Система и способ исключения шинглов от незначимых частей из сообщения при фильтрации спама |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2775351C1 (ru) * | 2021-06-01 | 2022-06-29 | Публичное Акционерное Общество "Сбербанк России" (Пао Сбербанк) | Способ и система получения векторного представления электронного документа |
WO2022255902A1 (ru) * | 2021-06-01 | 2022-12-08 | Публичное Акционерное Общество "Сбербанк России" | Способ и система получения векторного представления электронного документа |
RU2775358C1 (ru) * | 2021-09-24 | 2022-06-29 | Публичное Акционерное Общество "Сбербанк России" (Пао Сбербанк) | Способ и система получения векторного представления электронного текстового документа для классификации по категориям конфиденциальной информации |
WO2023048589A1 (ru) * | 2021-09-24 | 2023-03-30 | Публичное Акционерное Общество "Сбербанк России" | Система получения векторного представления электронного документа |
Also Published As
Publication number | Publication date |
---|---|
US9647975B1 (en) | 2017-05-09 |
CN107018062B (zh) | 2021-06-11 |
EP3261303B1 (en) | 2019-08-21 |
EP3261303A1 (en) | 2017-12-27 |
CN107018062A (zh) | 2017-08-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2634180C1 (ru) | Система и способ определения сообщения, содержащего спам, по теме сообщения, отправленного по электронной почте | |
Liu et al. | Who is. com? Learning to parse WHOIS records | |
Koppel et al. | The “fundamental problem” of authorship attribution | |
JP5362353B2 (ja) | 文書中のコロケーション誤りを処理すること | |
KR101716905B1 (ko) | 개체의 유사성을 계산하는 방법 | |
US20100114562A1 (en) | Document processor and associated method | |
Homem et al. | Authorship identification and author fuzzy “fingerprints” | |
Forsyth et al. | Found in translation: To what extent is authorial discriminability preserved by translators? | |
Taylor et al. | Surfacing contextual hate speech words within social media | |
WO2022116438A1 (zh) | 客服违规质检方法、装置、计算机设备及存储介质 | |
CN110909540A (zh) | 短信垃圾新词识别方法、装置及电子设备 | |
Topal et al. | Emotion-and area-driven topic shift analysis in social media discussions | |
Nini | Corpus analysis in forensic linguistics | |
Venčkauskas et al. | Problems of authorship identification of the national language electronic discourse | |
CN113420544A (zh) | 一种热词确定方法、装置、电子设备及存储介质 | |
Prilepok et al. | Spam detection using data compression and signatures | |
Hemmer et al. | Estimating Post-OCR Denoising Complexity on Numerical Texts | |
RU2583713C2 (ru) | Система и способ исключения шинглов от незначимых частей из сообщения при фильтрации спама | |
CN112182448A (zh) | 页面信息处理方法、装置及设备 | |
CN111859901B (zh) | 一种英文重复文本检测方法、系统、终端及存储介质 | |
CN113472686A (zh) | 信息识别方法、装置、设备及存储介质 | |
Long et al. | Wordnet-based lexical semantic classification for text corpus analysis | |
Liessens et al. | Unsupervised topic modeling for short documents | |
CN112559768B (zh) | 一种短文本图谱化及推荐方法 | |
Bukhori et al. | Social media sentiment analysis to measure community response in the Millennial Road Safety Festival program using TF-IDF and support vector machine |