RU2601190C2 - Система и способы обнаружения спама с помощью частотных спектров строк символов - Google Patents
Система и способы обнаружения спама с помощью частотных спектров строк символов Download PDFInfo
- Publication number
- RU2601190C2 RU2601190C2 RU2014133872/08A RU2014133872A RU2601190C2 RU 2601190 C2 RU2601190 C2 RU 2601190C2 RU 2014133872/08 A RU2014133872/08 A RU 2014133872/08A RU 2014133872 A RU2014133872 A RU 2014133872A RU 2601190 C2 RU2601190 C2 RU 2601190C2
- Authority
- RU
- Russia
- Prior art keywords
- target
- string
- spam
- target signal
- frequency
- Prior art date
Links
- 238000001228 spectrum Methods 0.000 title claims abstract description 114
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000001514 detection method Methods 0.000 title abstract description 12
- 230000004044 response Effects 0.000 claims abstract description 25
- 238000011045 prefiltration Methods 0.000 claims abstract description 3
- 238000001914 filtration Methods 0.000 claims description 21
- 230000003595 spectral effect Effects 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 10
- 230000005540 biological transmission Effects 0.000 claims 1
- 239000000126 substance Substances 0.000 abstract 1
- 238000004891 communication Methods 0.000 description 10
- 238000012360 testing method Methods 0.000 description 8
- 230000006855 networking Effects 0.000 description 7
- 238000002474 experimental method Methods 0.000 description 5
- 239000013598 vector Substances 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000013515 script Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- BNRNXUUZRGQAQC-UHFFFAOYSA-N Sildenafil Natural products CCCC1=NN(C)C(C(N2)=O)=C1N=C2C(C(=CC=1)OCC)=CC=1S(=O)(=O)N1CCN(C)CC1 BNRNXUUZRGQAQC-UHFFFAOYSA-N 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- DEIYFTQMQPDXOT-UHFFFAOYSA-N sildenafil citrate Chemical compound OC(=O)CC(O)(C(O)=O)CC(O)=O.CCCC1=NN(C)C(C(N2)=O)=C1N=C2C(C(=CC=1)OCC)=CC=1S(=O)(=O)N1CCN(C)CC1 DEIYFTQMQPDXOT-UHFFFAOYSA-N 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 229940094720 viagra Drugs 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/21—Monitoring or handling of messages
- H04L51/212—Monitoring or handling of messages using filtering or selective blocking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/16—Communication-related supplementary services, e.g. call-transfer or call-hold
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Business, Economics & Management (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Information Transfer Between Computers (AREA)
- Computer And Data Communications (AREA)
Abstract
Изобретение относится к области классификации электронных сообщений. Техническим результатом является эффективное обнаружение спама. Способ обнаружения спама включает в себя следующие этапы: использование по меньшей мере одного процессора компьютерной системы для получения целевой строки, которая образует часть электронного сообщения; использование по меньшей мере одного процессора для преобразования целевой строки в целевой сигнал, содержащий последовательность чисел, причем каждый символ целевой строки преобразуется в число указанной последовательности чисел; в ответ на получение целевой строки - использование по меньшей мере одного процессора для определения критерия пригодности строки согласно целевой строке; использование по меньшей мере одного процессора для предварительной фильтрации совокупности ссылочных строк по критерию пригодности строки для формирования группы строк-кандидатов; в ответ на отбор строк-кандидатов - использование по меньшей мере одного процессора для выполнения сравнения частотного спектра целевого сигнала и частотного спектра, определенного для строки-кандидата из группы строк-кандидатов, причем определение частотного спектра целевого сигнала включает в себя представление целевого сигнала в виде группы частотных компонентов целевого сигнала, при этом каждый частотный компонент имеет отдельную частоту и амплитуду, определенную для указанной отдельной частоты; и использование по меньшей мере одного процессора для определения по результату указанного сравнения, является или не является электронное сообщение спамом. 5 н. и 26 з.п. ф-лы, 17 ил.
Description
Уровень техники
[0001] Изобретение относится к способам и системам для классификации электронных сообщений, в частности к системам и способам для фильтрации незапрашиваемых коммерческих электронных сообщений (спама).
[0002] Незапрашиваемые коммерческие электронные сообщения, известные также как спам, составляют значительную часть трафика коммуникационных линий во всем мире, что оказывает воздействие на службы по обмену сообщениями посредством компьютеров и телефонов. Спам может принимать многие формы, от незапрашиваемых сообщений электронной почты до спамовых сообщений, замаскированных под комментарии пользователей на различных Интернет-сайтах, например на сайтах блогов и социальных сетей. Спам отнимает ценные аппаратные ресурсы и оказывает воздействие на производительность, при этом он воспринимается многими пользователями коммуникационных услуг и/или Интернета как раздражающий и назойливый.
[0003] В случае спама в электронной почте можно использовать программное обеспечение, выполняемое на компьютерной системе пользователя или провайдера услуг электронной почты, для классификации сообщений электронной почты как спам или как не спам и даже для проведения разграничений между разными видами спамовых сообщений (например, предложения продуктов, контент для взрослых, аферы, организуемые по электронной почте). Затем спамовые сообщения могут направляться в специальные папки или удаляться.
[0004] Подобным образом можно использовать программное обеспечение, выполняемое на компьютерных системах провайдера контента, для перехватывания мошеннических сообщений, отправленных на Интернет-сайт, и для предотвращения отображения соответствующих сообщений или для отображения предупреждений пользователям веб-сайта о том, что соответствующие сообщения могут представлять собой спам.
[0005] Для идентификации спамовых сообщений было предложено несколько подходов, включая сопоставление исходного адреса сообщения со списками известных адресов нарушителей или доверенных адресов (получивших специальное название «черный список» и «белый список» соответственно), поиск определенных слов или моделей слов (например, рефинансирование, Viagra®, акции) и анализ служебных заголовков сообщений. Способы выделения/сопоставления признаков часто используются в сочетании с методами автоматической классификации данных (например, с байесовской фильтрацией, нейронными сетями).
[0006] Спам часто поступает в виде быстрой последовательности групп сходных сообщений, известных также как волны спама. Форма и содержание спама может меняться существенным образом от одной волны спама к другой, поэтому успешности обнаружения будут способствовать способы и системы, способные быстро распознавать и реагировать на новые волны спама.
Раскрытие изобретения
[0007] Согласно одному аспекту способ включает в себя: использование компьютерной системы для получения целевой строки, которая образует часть электронного сообщения; преобразование целевой строки в целевой сигнал, содержащий последовательность чисел, причем каждый символ целевой строки преобразуется в число указанной последовательности чисел; определение критерия пригодности строки согласно целевой строке и предварительную фильтрацию совокупности ссылочных строк по критерию пригодности строки для формирования группы строк-кандидатов. В ответ на отбор строк-кандидатов компьютерную систему затем используют для выполнения сравнения частотного спектра целевого сигнала и частотного спектра, определенного для строки-кандидата из группы строк-кандидатов, и определения по результату этого сравнения, является или не является электронное сообщение спамом.
[0008] Согласно другому аспекту компьютерная система включает в себя по меньшей мере процессор, запрограммированный так, чтобы: получить целевую строку, которая образует часть электронного сообщения; преобразовать целевую строку в целевой сигнал, содержащий последовательность чисел, причем каждый символ целевой строки преобразуется в число указанной последовательности чисел; в ответ на получение целевой строки - определить критерий пригодности строки согласно целевой строке; и выполнить предварительную фильтрацию совокупности ссылочных строк по критерию пригодности строки для формирования группы строк-кандидатов. Кроме того, процессор запрограммирован так, чтобы выполнить сравнение частотного спектра целевого сигнала и частотного спектра, определенного для строки-кандидата из группы строк-кандидатов, и определить по результату этого сравнения, является или не является электронное сообщение спамом.
[0009] Согласно еще одному аспекту способ включает в себя: использование компьютерной системы для получения электронного сообщения; извлечение целевой строки из электронного сообщения; передачу целевой строки антиспам-серверу и получение целевой метки, указывающей на то, является или не является электронное сообщение спамом, причем целевую метку определяют на антиспам-сервере. Определение целевой метки включает в себя: использование антиспам-сервера для преобразования целевой строки символов в целевой сигнал, содержащий последовательность чисел, причем каждый символ целевой строки преобразуется в число указанной последовательности чисел; определение критерия пригодности согласно целевой строке; предварительную фильтрацию совокупности ссылочных строк по критерию пригодности для формирования группы строк-кандидатов; в ответ на отбор строк-кандидатов - выполнение сравнения частотного спектра целевого сигнала и частотного спектра, определенного для строки-кандидата из группы строк-кандидатов; определение по результату этого сравнения, является или не является электронное сообщение спамом.
[0010] Согласно одному из аспектов способ включает в себя: использование компьютерной системы для получения целевой строки, которая образует часть электронного сообщения; преобразование целевой строки в целевой сигнал, содержащий последовательность чисел, причем каждый символ целевой строки преобразуется в число указанной последовательности чисел; определение критерия пригодности строки согласно целевой строке и предварительную фильтрацию совокупности ссылочных строк по критерию пригодности строки для формирования группы строк-кандидатов. В ответ на отбор строк-кандидатов компьютерную систему затем используют для определения межстрочного расстояния, отделяющего целевую строку от строки-кандидата из группы строк-кандидатов, при этом межстрочное расстояние определяют по первой амплитуде частотного спектра целевого сигнала и по второй амплитуде частотного спектра, определенного для строки-кандидата, и для определения по результату этого сравнения, является или не является электронное сообщение спамом.
[0011] Согласно еще одному аспекту способ включает в себя: использование компьютерной системы для получения целевой строки, которая образует часть электронного сообщения; преобразование целевой строки в целевой сигнал, содержащий последовательность чисел, причем каждый символ целевой строки преобразуется в число указанной последовательности чисел; определение частотного спектра целевого сигнала. Способ дополнительно включает в себя выполнение сравнения частотного спектра целевого сигнала и частотного спектра, определенного для ссылочной строки, выбранной из множества ссылочных строк, и определение по результату этого сравнения, является или не является целевое сообщение спамом.
Краткое описание чертежей
[0012] Изложенные выше аспекты и преимущества настоящего изобретения будут более понятными при прочтении следующего подробного описания со ссылками на чертежи, на которых:
[0013] на фиг. 1 изображена иллюстративная антиспам-система согласно некоторым вариантам осуществления настоящего изобретения;
[0014] на фиг. 2 изображена иллюстративная конфигурация аппаратного обеспечения серверной компьютерной системы согласно некоторым вариантам осуществления настоящего изобретения;
[0015] на фиг. 3-А изображена иллюстративная транзакция по обнаружению спама, осуществляемая между клиентским компьютером и антиспам-сервером, согласно некоторым вариантам осуществления настоящего изобретения;
[0016] на фиг. 3-В изображена иллюстративная транзакция по обнаружению спама, осуществляемая между контент-сервером и антиспам-сервером, согласно некоторым вариантам осуществления настоящего изобретения;
[0017] на фиг. 4 изображен иллюстративный целевой индикатор целевого сообщения, при этом индикатор включает в себя целевую строку и дополнительные данные для идентификации спама, согласно некоторым вариантам осуществления настоящего изобретения;
[0018] на фиг. 5 изображена схема иллюстративного множества приложений, выполняемых на антиспам-сервере, согласно некоторым вариантам осуществления настоящего изобретения;
[0019] на фиг. 6 изображен иллюстративный целевой сигнал и иллюстративный целевой спектр, связанные с целевой строкой, согласно некоторым вариантам осуществления настоящего изобретения;
[0020] на фиг. 7 изображено иллюстративное приложение-детектор спама, работающее на антиспам-сервере, показанном фиг. 1, согласно некоторым вариантам осуществления настоящего изобретения;
[0021] на фиг. 8 изображена группа кластеров, представленных в гиперпространстве признаков, где каждый кластер включает в себя коллекцию подобных элементов, согласно некоторым вариантам осуществления настоящего изобретения;
[0022] на фиг. 9 изображена иллюстративная последовательность этапов, выполняемых детектором спама, показанном на фиг. 7, согласно некоторым вариантам осуществления настоящего изобретения;
[0023] на фиг. 10-А изображен результат эксперимента на компьютере, включающего в себя определение времени вычислений, необходимого для преобразования целевой строки в целевые сигналы, в виде функции от длины строки тестовых строк;
[0024] на фиг. 10-B-C-D изображены результаты эксперимента на компьютере, включающего в себя определение времени вычислений, необходимого для генерации целевых спектров для коллекции целевых строк, в виде функции от длины строки тестовых строк;
[0025] на фиг. 10-Е изображен результат эксперимента на компьютере, включающего в себя определение времени вычислений, необходимого для выполнения присваивания кластеров в коллекции тестовых строк, как функции от количества разных символов в тестовых строках;
[0026] на фиг. 11 изображен график зависимости длины строки от индикатора временной отметки для коллекции реальных комментариев в блогах, включающих в себя как спам, так и не спам;
[0027] на фиг. 12 изображен график зависимости количества различных символов от индикатора временной отметки для коллекции реальных комментариев в блогах, включающих в себя как спам, так и не спам.
ОСУЩЕСТВЛЕНИЕ ИЗОБРЕТЕНИЯ
При ознакомлении со приведенным ниже описанием необходимо иметь в виду, что все упоминаемые соединения между конструкциями могут представлять собой прямые рабочие соединения или опосредованные рабочие соединения, осуществляемые через промежуточные конструкции. Множество элементов включает в себя один или более элементов. Любое упоминание элемента следует понимать как относящееся по меньшей мере к одному элементу. Группа элементов включает в себя по меньшей мере два элемента. Если это не оговаривается отдельно, этапы любого описываемого способа не обязательно должны выполняться точно в описанном порядке. Первый элемент (например, данные), полученный из второго элемента, охватывает первый элемент, равный второму элементу, а также первый элемент, сгенерированный в результате обработки второго-элемента и, возможно, другие данные. Определение или принятие решения по параметру охватывает определение или принятие решения по указанному параметру и, возможно, по другим данным. Если не указано иное, индикатором некоторой величины/данных может быть сама эта величина или сами эти данные, или же некоторый индикатор, отличный от этой величины/данных. Компьютерные программы, описанные в некоторых вариантах осуществления настоящего изобретения, могут быть автономными программными сущностями или же частями (например, подпрограммами, объектами кода) других компьютерных программ. Если не указано иное, термин «спам» не ограничивается спамом в электронной почте и охватывает также такие электронные сообщения, как, например, ненадежный или незапрашиваемый коммерческий контент, генерируемый пользователями, в том числе, в виде комментариев в блогах, обсуждения на форумах, статей на вики-сайтах, откликов покупателей, сообщений на сайтах социальных сетей, мгновенных сообщений, а также телефонных SMS- и MMS-сообщений. Машиночитаемые носители охватывают постоянные носители информации, например магнитные, оптические и полупроводниковые носители (например, жесткие диски, оптические диски, устройства флэш-памяти, динамические запоминающие устройства с произвольной выборкой), а также линии связи, например электропроводные кабели и каналы волоконно-оптической связи. Согласно некоторым вариантам осуществления настоящее изобретение включает в себя, помимо прочего, компьютерные системы, содержащие аппаратные средства, запрограммированные для выполнения описанных в этом документе способов, а также машиночитаемые носители, на которых закодированы команды для выполнения способов, описанных в этом документе.
[0028] Приведенное ниже описание иллюстрирует варианты осуществления изобретения путем примера и не имеет ограничительного смысла.
[0029] На фиг. 1 изображена иллюстративная антиспам-система согласно некоторым вариантам осуществления настоящего изобретения. Система 10 включает в себя группу контент-серверов 12а-b, антиспам-сервер 16 и группу клиентских систем 14а-b. Контент-серверы 12а-b могут представлять собой веб-серверы, на которых размещают и/или которые доставляют онлайн-контент, например, среди прочих, личные и корпоративные веб-сайты, блоги, сайты социальных сетей, сайты онлайн-развлечений. Другие контент-серверы 12a-b могут представлять собой серверы электронной почты, обеспечивающие доставку электронных отправлений клиентским системам 14а-b. Клиентские системы 14а-b могут представлять собой компьютеры конечных пользователей, каждый из которых имеет процессор, память и накопитель и работает в операционной системе, например Windows®, MacOS® или Linux. Некоторые клиентские компьютерные системы 14а-b могут представлять собой мобильные вычислительные и/или коммуникационные устройства, например планшетные компьютеры, мобильные телефоны или карманные персональные компьютеры. В некоторых вариантах осуществления клиентские системы 14а-b могут представлять отдельных пользователей или же несколько клиентских систем могут принадлежать одному и тому же пользователю. Антиспам-сервер 16 может включать в себя одну или более компьютерных систем. Контент-серверы 12а-b, клиентские системы 14а-b и антиспам-сервер 16 соединены сетью 18. Сеть 18 может быть территориально распределенной сетью, как, например, Интернет, при этом части сети 18 могут также включать в себя локальную вычислительную сеть.
[0030] На фиг. 2 изображена иллюстративная конфигурация аппаратного обеспечения серверной компьютерной системы, например антиспам-сервера 16. В некоторых вариантах осуществления сервер 16 включает в себя процессор 20, блок 22 памяти, множество устройств 24 хранения и контроллер 26 коммуникационного интерфейса, соединенные между собой множеством шин 28.
[0031] В некоторых вариантах осуществления процессор 20 включает в себя физическое устройство (например, многоядерную интегральную схему), конфигурированное для выполнения вычислительных и/или логических операций с множеством сигналов и/или данных. В некоторых вариантах осуществления такие логические операции передают процессору 20 в форме последовательности команд процессора (например, в машинном коде или в другом виде программного обеспечения). Блок 22 памяти может включать в себя машиночитаемый носитель (например, запоминающее устройство с произвольной выборкой), в котором хранятся данные/сигналы, полученные или сгенерированные процессором 20 в ходе выполнения команд. Устройства 24 хранения включают в себя машиночитаемые носители, обеспечивающие энергонезависимое хранение, чтение и запись команд программного обеспечения и/или данных. Иллюстративные устройства 24 хранения включают в себя магнитные и оптические диски, полупроводниковые (например, флэш-память) устройства памяти, а также съемные носители, например диски CD и/или DVD и накопители. Контроллер 26 коммуникационного интерфейса обеспечивает возможность соединения системы сервера 16 с сетью 18 и/или с другими машинами/компьютерными системами. В типичном случае контроллеры 26 коммуникационного интерфейса включают в себя сетевые адаптеры. Шины 28 в совокупности представляют собой группу системных и периферийных шин, шин микропроцессорных наборов и/или всех прочих схем, обеспечивающих взаимосвязь устройств 20-26 системы сервера 16. Например, шины 28 могут включать, среди прочих, «северный мост», соединяющий процессор 20 с памятью 22, и/или «южный мост», соединяющий процессор 20 с устройствами 24-26.
[0032] В некоторых вариантах осуществления каждая клиентская система 14а-b включает в себя приложение для чтения документов (например, веб-браузер, программу для чтения электронной почты, медиа-проигрыватель), которое может представлять собой компьютерную программу, используемую для дистанционного доступа к данным, хранящимся на контент-серверах 12а-b. Когда пользователь обращается к онлайн-документу, например к веб-странице, или получает электронное сообщение, например сообщение электронной почты, данные, связанные с документом/сообщением, передаются через части сети 18, находящиеся между соответствующим контент-сервером и клиентской системой 14. В некоторых вариантах осуществления приложение для чтения получает данные документа, преобразует их в визуальную форму и показывает их пользователю. Некоторые варианты осуществления приложения для чтения могут также дать пользователю возможность взаимодействовать с отображаемым контентом. В случае электронной почты клиентская система 14а-b может включать в себя специализированное программное обеспечение, конфигурированное для классифицирования входящей электронной почты по отдельным категориям из группы категорий (например, спам, надежные сообщения, другие разнообразные классы и подклассы).
[0033] В некоторых вариантах осуществления контент-серверы 12а-b конфигурированы для получения контента, сгенерированного пользователем (например, статей, записей в блогах, загрузок медиафайлов, комментариев и т.д.) из группы пользователей, и для организации, форматирования и доставки такого контента третьим лицам по сети 18. Часть сгенерированных пользователем данных, полученных серверами 12а-b, может содержать электронные сообщения, которые могут включать в себя незапрашиваемые сообщения (спам). Примерами таких электронных сообщений (называемых далее «целевые сообщения» или «целевые отправления») являются, среди прочего, сообщения электронной почты, комментарии в блогах, сообщения на сайтах социальных сетей и комментарии, отправленные на веб-сайты развлечений и/или новостей.
[0034] В некоторых вариантах осуществления контент-серверы 12а-b могут включать в себя компоненты программного обеспечения, конфигурированные для обработки целевых сообщений, полученных от пользователей, с целью обнаружения спама. При обнаружении спамовые сообщения (например, мошеннические комментарии в блогах и т.п.), могут блокироваться и/или может предотвращаться их отображение на соответствующем веб-сайте. Программное обеспечение для обработки спама может выполняться на контент-серверах 12а-b в виде сценариев, выполняемых со стороны сервера. Такие сценарии могут быть интегрированы в виде подключаемых модулей в более крупные, пакеты сценариев, например в виде подключаемого модуля (модулей) для таких платформ для онлайн-публикации, как Wordpress® или Drupal®. В некоторых вариантах осуществления в целях обнаружения спама серверы 12а-b могут быть конфигурированы для выполнения совместной транзакции по обнаружению спама с антиспам-сервером 16, как подробно описано ниже.
[0035] В некоторых вариантах осуществления антиспам-сервер 16 конфигурирован для выполнения совместной транзакции по обнаружению спама с контент-серверами 12а-b и/или клиентскими системами 14а-b. На фиг. 3-А изображен иллюстративный обмен данными между сервером 16 и клиентской системой 14 в варианте осуществления, конфигурированном для обнаружения спама в электронной почте. Клиентская система 14 может получать сообщения электронной почты от почтового сервера по сети 18. После получения сообщения электронной почты клиентская система 14 может отправить целевой индикатор 40, который включает в себя данные для идентификации спама, связанные с сообщением электронной почты, на антиспам-сервер 16 и может получить в ответ целевую метку 50, указывающую на то, является ли соответствующее сообщение электронной почты спамом. Клиентская система 14 затем может поместить сообщение в подходящую категорию сообщений (например, спам или надежное сообщение электронной почты).
[0036] На фиг. 3-В изображен иллюстративный обмен данными между антиспам-сервером 16 и контент-сервером 12 в варианте осуществления, конфигурированном для обнаружения спама, сгенерированного пользователем и полученного сервером 12, например, среди прочих, спама в блоге или спама, опубликованного на сайте социальной сети. После получения целевого сообщения, например, в результате отправки пользователем комментария на веб-сайт, размещенный на сервере 12, сервер 12 может отправить целевой индикатор 40, который включает в себя данные для идентификации спама, извлеченные из целевого сообщения, на антиспам-сервер 16 и получить в ответ целевую метку 50, указывающую на то, является ли целевое сообщение спамом.
[0037] На фиг. 4 изображен иллюстративный целевой индикатор целевого сообщения согласно некоторым вариантам осуществления настоящего изобретения. Целевой индикатор 40 включает в себя идентификатор 41 объекта (например, ярлык, хеш-код), уникально идентифицирующий целевое сообщение, и целевую строку 42, которая включает в себя текстовую часть целевого сообщения, например текстовую часть комментария в блоге. В некоторых вариантах осуществления целевая строка 42 включает по существу весь текст целевого сообщения. Если целевое сообщение включает в себя несколько текстовых частей, то целевая строка 42 может включать в себя конкатенацию текстовых частей; в альтернативном варианте для каждой текстовой части может быть получена отдельная целевая строка 42. В некоторых вариантах осуществления целевая строка 42 включает в себя отрезок текстовой части целевого сообщения, отрезок, имеющий предварительно заданную длину строки (например, 128 последовательных символов).
[0038] Некоторые варианты осуществления целевого индикатора 40 помимо целевой строки 42 могут включать в себя другие данные для идентификации спама, соответствующие целевому сообщению. В примере на фиг. 4 целевой индикатор 40 включает в себя индикатор 44 имени пользователя, указывающий на имя (например, личное имя, псевдоним, никнейм, логин, имя аватара, маркер имени и т.п.), предоставленное отправителем целевого сообщения, индикатор 46 адреса, указывающий место отправки (например, исходный IP адрес) целевого сообщения, и временную отметку 48, указывающую на момент в реальном времени (например, дату и время), когда целевое сообщение было отправлено.
[0039] В некоторых вариантах осуществления целевая метка 50 может включать в себя идентификатор объекта, например идентификатор 41, и индикатор статуса наличия спама в целевом сообщении. Целевая метка 50 эффективно указывает на то, является ли целевое сообщение спамом, в соответствии с оценкой, выполненной антиспам-сервером 16, как подробно описано ниже.
[0040] На фиг. 5 изображена схема иллюстративного множества приложений, выполняемых на антиспам-сервере 16, согласно некоторым вариантам осуществления настоящего изобретения. Приложения включают в себя детектор 32 спама и программу 34 связи, связанную с детектором 32 спама. Приложения 32 и 34 могут представлять собой автономные компьютерные программы или же быть частями более крупных пакетов программного обеспечения, реализующих, например, такие услуги в области компьютерной безопасности, как обнаружения вредоносных программ. В некоторых вариантах осуществления на антиспам-сервере 16 размещают также базу 30 данных (БД) антиспама. В альтернативном варианте база данных антиспама может находиться на компьютерной системе, отличной от сервера 16, но связанной с сервером 16 через сеть 18, или же на машиночитаемом носителе, связанном с сервером 16.
[0041] База 30 данных антиспама включает в себя хранилище информации, относящейся к сетевому спаму. В некоторых вариантах осуществления база 30 данных включает в себя совокупность ссылочных спектров, при этом каждый спектр рассчитан для некоторого электронного сообщения так, как описано ниже. База 30 данных может включать в себя данные по электронным сообщениям, как являющимся, так и не являющимся спамом, например по комментариям в блогах, комментариям, опубликованным на сайтах социальных сетей и т.д. Помимо данных о спектрах каждая запись, хранящаяся в базе 30 данных, может включать в себя дополнительную информацию, например строку 42 из соответствующего сообщения, индикатор времени, например временную отметку 48, и индикаторы длины строки, количество различных символов и спектральный показатель строки 42; иллюстративные применения таких величин описаны ниже. В некоторых вариантах осуществления для каждого спектра в базе 30 данных может храниться индикатор присваивания кластера, указывающий на кластер сообщений, к которому соответствующая строка присвоена в данный момент. В базе 30 данных может также храниться структура данных, включающая в себя группу идентификаторов, например идентификатор 41 объекта, при этом каждый идентификатор объекта уникальным образом связан с электронным сообщением, а также преобразование, связывающее каждый спектр с электронным сообщением, для которого он был рассчитан, что позволяет детектору 32 спама выборочно подбирать ссылочные спектры в базе 30 данных, как показано ниже.
[0042] На фиг. 6 изображены иллюстративный целевой сигнал и иллюстративный целевой спектр, вычисленные для целевой строки 42, согласно некоторым вариантам осуществления настоящего изобретения. Целевой сигнал 52 включает в себя последовательность чисел, при этом каждое число указывает на символ строки 42. Чтобы сформировать целевой сигнал 52, может использоваться соответствие один-к-одному (т.е. биективная функция), преображающее символы в числа. В некоторых вариантах осуществления для каждого символа строки 42 целевой сигнал 52 включает код ASCII для соответствующего символа.
[0043] Целевой спектр 60 включает в себя последовательность чисел, при этом последовательность имеет вид представления целевого сигнала 52 в форме частотного интервала (например, преобразования Фурье). В некоторых вариантах осуществления положение выбранного числа в последовательности указывает на частоту f, тогда как само число A(f) может указывать на амплитуду или интенсивность соответствующего частотного компонента сигнала 52. В некоторых вариантах осуществления для вычисления целевого спектра 60 по целевому сигналу 52 используют алгоритм дискретного преобразования Фурье, например быстрое преобразование Фурье.
[0044] В некоторых вариантах осуществления программа 34 связи конфигурирована для управления связью с клиентскими системами 14а-b и/или контент-серверами 12a-b. Например, программа 34 может устанавливать соединения по сети 18, отправлять и получать такие данные, как целевые индикаторы и целевые метки в клиентские системы 14а-b и контент-серверы 12а-b и от них.
[0045] На фиг. 7 изображена схема иллюстративного детектора спама, работающего на антиспам-сервере 16, согласно некоторым вариантам осуществления настоящего изобретения. Детектор 32 спама включает в себя программу 36 управления спектрами и средство 38 кластеризации, связанное с программой 36 управления спектрами. Детектор 32 спама может получать целевой индикатор 40 целевого сообщения от программы 34 связи (см. фиг. 5 и 3а-b) и ссылочный спектр 64 из базы 30 данных антиспама, при этом указанный детектор, в свою очередь, выводит целевую метку 50 в программу 34 связи для ее отправки клиентской системе 14 или контент-серверу 12, которые инициировали соответствующую транзакцию по обнаружению спама.
[0046] В некоторых вариантах осуществления программа 36 управления спектрами конфигурирована для получения целевого индикатора 40 от программы 34 связи, вычисления целевого спектра 60 по данным целевого индикатора 40, выполнения процесса предварительной фильтрации для определения множества пригодных ссылочных спектров 64, для выборочного извлечения ссылочных спектров 64 из базы 30 данных антиспама и передачи спектров 60 и 64 средству 38 кластеризации для сравнения спектров и присваивания кластера. Действие программы 36 управления спектрами описано подробно ниже со ссылкой на фиг. 9.
[0047] В некоторых вариантах осуществления анализ целевого отправления выполняют в гиперпространстве признаков путем анализа расстояний между вектором признаков, соответствующим целевому сообщению, и множеством представительных векторов, при этом каждый представительный вектор определяет прототип отдельной коллекции (кластера) целевых строк. На фиг. 8 изображены три иллюстративных кластера 70а-с, сформированных соответственно векторами 74а-с признаков, в простом двухмерном пространстве признаков с двумя осями d1 и d2. В некоторых вариантах осуществления настоящего изобретения оси d1 и d2 соответствуют различным признакам целевой строки, например двум различным частотам целевого спектра. В некоторых вариантах осуществления каждый кластер 70 содержит целевые строки, которые занимают по существу небольшую область гиперпространства признаков, что означает, что все элементы кластера имеют сходные векторы признаков, например сходные частотные спектры.
[0048] В некоторых вариантах осуществления средство 38 кластеризации конфигурировано для поддержания коллекции кластеров 70, которая представляет собой совокупность электронных сообщений, полученных антиспам-сервером 16 на протяжении истории накопления данных. Сообщения группируют в кластеры по принципу подобия, при этом в идеальном случае кластер содержит идентичные или почти идентичные сообщения. Некоторые кластеры 70 могут представлять собой отдельные волны спама, каждая из которых включает в себя копии или варианты одного и того же спамового сообщения, отправленного множеству клиентов и/или опубликованного на множестве веб-сайтов. Средство 38 кластеризации конфигурировано также для получения целевого спектра 60 и присваивания целевого сообщения, представленного спектром 60, кластеру, на который оно больше всего похоже по принципу подобия спектров. Чтобы выполнить присваивание кластера, средство 38 кластеризации получает от программы 36 управления спектрами множество ссылочных спектров 64, при этом каждый спектр 64 является представителем кластера, и сравнивает спектры 60 и 64, чтобы определить, какой кластер сообщений лучше всего подходит для целевого спектра 60. Более подробно действие средства 38 кластеризации описано ниже со ссылкой на фиг. 9.
[0049] На фиг. 9 изображена иллюстративная последовательность этапов, выполняемых детектором 32 спама (фиг. 7) в рамках транзакции по обнаружению спама, согласно некоторым вариантам осуществления настоящего изобретения. На этапе 102 детектор 32 спама получает целевой индикатор 40 от клиентской системы 14 или контент-сервера 12 через программу 34 связи. Далее на этапе 104 детектор 32 спама извлекает целевую строку 42 в соответствии с целевым индикатором 40 и вычисляет целевой сигнал 52, например, составляя последовательность кодов ASCII для целевой строки 42.
[0050] На этапе 106 определяют частотный спектр 60 целевого сигнала 52 (см. фиг. 6). Этап 106 может также включать в себя вычисление нескольких параметров целевой строки 42, например длины строки и/или количества различных символов, которые будут использованы для предварительной фильтрации коллекции кластеров сообщения на этапе 108. В некоторых вариантах осуществления целевой сигнал 52 дополняют нулями до длины, равной следующей степени числа 2 (например, если целевая строка имеет длину 243, целевой сигнал будет дополнен до длины 256). В некоторых вариантах осуществления детектор 32 спама применяет к целевому сигналу 52 также цифровой фильтр. Иллюстративные цифровые фильтры включают в себя фильтры пропускания низких и/или высоких частот.
[0051] В некоторых вариантах осуществления на этапе 108 детектор 32 спама выполняет операцию предварительной фильтрации, чтобы выбрать в соответствии с множеством критериев предварительной фильтрации подмножество кластеров-кандидатов из полной коллекции, поддержание которой осуществляется средством 38 кластеризации. Благодаря отбору лишь (небольшого) подмножества кластеров для выполнения сравнения спектров детектор 32 спама может эффективно уменьшить вычислительные затраты.
[0052] В некоторых вариантах осуществления детектор 32 спама может использовать при отборе кластера-кандидата в качестве критерия предварительной фильтрации длину строки. Длину строки для целевой строки 42 сравнивают с длиной строки представителя каждого кластера (или со средней длиной строки для элементов соответствующего кластера). Кластер может быть выбран в качестве кандидата для сравнения спектров в том случае, если типичная для него длина строки заключена в пределах предварительно заданного порога по отношению к длине строки для целевой строки 42.
[0053] Альтернативным критерием предварительной фильтрации является количество различных символов. Например, строка «Mississippi» имеет 4 различных символа: М, i, s и р. Для каждого кластера количество различных символов целевой строки 42 сравнивают с количеством различных символов элемента, представляющего соответствующий кластер, или со средним количеством различных символов элементов кластера, при этом кластеры, имеющие сходное с целевой строкой 42 количество различных символов, выбирают в качестве кандидатов для сравнения спектров.
[0054] В некоторых вариантах осуществления критерий предварительной фильтрации включает в себя расчет спектрального показателя в виде следующей функции:
где индекс i обозначает номер частоты, а Ai обозначает амплитуду (или мощность) в спектре Фурье соответствующей строки для частоты с индексом i. Для каждого кластера спектральный показатель [1] целевой строки 42 сравнивают со спектральным показателем элемента, представляющего соответствующий кластер, или со средним показателем для строк кластера, при этом кластеры, имеющие сходные с целевой строкой 42 спектральные показатели, выбирают в качестве кандидатов для сравнения спектров.
[0055] В некоторых вариантах осуществления критерии предварительной фильтрации могут быть объединены. Например, может быть выбрано первое подмножество кластеров, в котором каждый кластер имеет сходную с целевой строкой 42 длину строки. Далее из первого подмножества кластеров выбирают второе подмножество по принципу подобия спектральных показателей.
[0056] Выбрав множество кандидатов для сравнения спектров, для каждого выбранного кластера детектор 32 спама может передать программе 36 управления спектрами команду на выборочный подбор ссылочного спектра 64 в базе 30 данных антиспама, который соответствует сообщению, представляющему соответствующий кластер. Далее для каждого выбранного кластера выполняют циклическую последовательность этапов 110-118. На этапе 110 детектор 32 спама может проверить, были ли уже рассмотрены в процессе сравнения все выбранные кластеры. Если да, то детектор 32 спама переходит к этапу 120, описанному ниже. Если нет, то на этапе 112 оценивают следующий кластер. На этапе 114 целевой спектр 60 сравнивают с ссылочным спектром 64, который представляет соответствующий кластер.
[0057] Этап 114 включает в себя выполнение сравнения целевого спектра 60 и ссылочного спектра 64. В некоторых вариантах сравнение включает в себя расчет межстрочного расстояния путем сравнения амплитуд соответствующих спектров на выбранном множестве частот. Например,
где индекс i обозначает номер частоты,
обозначает амплитуду целевого спектра для частоты i,
обозначает амплитуду ссылочного спектра для частоты i и α - положительная постоянная (например, α - 1). В некоторых вариантах осуществления все частотные спектры, соответствующие элементам одного и того же кластера, имеют одну и ту же шкалу частот, то есть формула [2] действительно сравнивает частотные компоненты Т и R, вычисленные для одной частоты i. В некоторых вариантах осуществления, если сравниваемые строки не имеют в точности одинаковую длину строки (что ведет к тому, что два соответствующих спектра имеют различные шкалы частот), то сигналы, связанные с соответствующими строками, могут дополняться нулями до длины строки, равной следующей степени числа 2.
[0058] Множество S обозначает подмножество частот спектра. В некоторых вариантах осуществления S содержит только одну частоту. Например, когда S={i|f=0}, формула [2] сравнивает только те амплитуды двух спектров, которые соответствуют нулевой частоте. В другом примере
, т.е. формула [2] сравнивает только те амплитуды двух спектров, которые соответствуют частоте, имеющей максимальную амплитуду
в целевом спектре. В некоторых вариантах осуществления S обозначает множество всех частот спектра.
[0059] На этапе 116 (фиг. 9) определяют, соответствует ли целевой спектр 60 спектру 64. В некоторых вариантах осуществления при сопоставлении спектров требуется, чтобы межстрочное расстояние было меньше предварительно заданного порога: D (Т, R)<t. Пороговые величины t могут быть независимыми от сравниваемых строк или же могут изменяться в соответствии с длиной строки и/или с количеством различных символов целевой строки 42. В некоторых вариантах осуществления используются более высокие пороговые величины в случае сравнительно более длинных строк или строк со сравнительно большим количеством различных символов.
[0060] Когда соответствие между спектрами 60 и 64 обнаружено, детектор 32 спама переходит к этапу 118, на котором соответствующий кластер сообщения отмечают как пригодный для принятия целевой строки 42. Если спектры не соответствуют друг другу, то детектор 32 спама возвращается на этап 110. Когда все кластеры сообщения, выбранные на этапе 106, будут оценены путем сравнения спектров, на этапе 120 определяют, пригодны ли какие-либо кластеры для принятия целевой строки 42. Если да, то на этапе 124 детектор 32 спама может вычислить для каждого пригодного кластера индикатор подобия строки и кластера, указывающий на то, насколько целевая строка 42 подобна всем элементам соответствующего кластера. Иллюстративный индикатор подобия строки и кластера для каждого пригодного кластера включает в себя набор тех элементов кластера, у которых ссылочные спектры 64 соответствуют целевому спектру 60.
[0061] Далее на этапе 126 выполняют собственно присваивание целевой строки 42 тому кластеру сообщений, с которым она наиболее сходна. В некоторых вариантах осуществления целевую строку 42 присваивают кластеру с самым высоким индикатором подобия строки и кластера, определенным на этапе 124. Средство 38 кластеризации может обновить данные о присваивании у кластеров, чтобы отразить добавление нового элемента кластера, при этом запись с целевой строкой 42 может быть внесена в базу 30 данных антиспама. В некоторых вариантах осуществления этап 126 включает также определение множества параметров идентификации спама, связанных с кластером, который принимает целевое отправление. Например, в некоторых вариантах осуществления могут вычисляться промежутки времени, проходящие между последовательными временными отметками в рамках одного и того же кластера. Такие параметры могут быть сохранены относительно каждого кластера и могут использоваться, чтобы автоматически определять (без контроля со стороны человека-оператора), включает ли в себя конкретный кластер спам или законные сообщения и можно ли полагать, что конкретный кластер представляет волну спама.
[0062] Если ни один из кластеров не был признан пригодным для принятия целевой строки (этап 120), что указывает на то, что целевая строка 42, вероятно, отличается от любой из уже хранящихся в базе данных антиспама, то на этапе 122 средство 38 кластеризации может создать новый кластер, единственным элементом которого будет целевая строка, и может сохранить запись с целевой строкой в базе 30 данных антиспама.
[0063] На этапе 128 детектор 32 спама может определить целевую метку 50, идентифицируя целевое сообщение как спам или как надежное. В некоторых вариантах осуществления решение, является ли целевое сообщение спамом, принимается в соответствии с присваиванием кластера целевой строке 42. Если строка 42 присваивается кластеру, содержащему преимущественно спамовые сообщения, то целевое отправление также может получить метку «спам».
[0064] В некоторых вариантах осуществления метку 50 определяют в соответствии с определенными признаками для идентификации спама у элементов кластера, которому было присвоено целевое отправление. Одним таким признаком для идентификации спама являются временные отметки 48. Присваивание многочисленных новых элементов за короткий промежуток времени может служить признаком того, что соответствующий кластер содержит волну спамовых сообщений. В некоторых вариантах осуществления детектор 32 спама может определять промежуток времени, проходящий между группой временных отметок, связанных с элементами кластера, например самый короткий промежуток времени, в пределах которого данному кластеру было присвоено 6 элементов, и когда этот промежуток времени опускается ниже предварительно заданного порога, соответствующий кластер помечают как спам.
[0065] Иллюстративные системы и способы, описанные выше, позволяют антиспам-системе обнаруживать незапрашиваемые сообщение в виде сгенерированного пользователем контента в Интернете в форме комментариев в блогах, комментариев, опубликованных на сайтах социальных сетей и т.д., а также в форме сообщений электронной почты, мгновенных сообщений и телефонных SMS- и MMS-сообщений.
[0066] В некоторых вариантах осуществления компьютерная система извлекает целевую строку символов из электронного сообщения, например из комментария в блоге, передает ее на антиспам-сервер и получает от антиспам-сервера индикатор того, является или не является соответствующее электронное сообщение спамом. Если электронное сообщение является спамом, то компьютерная система может блокировать, отправлять в карантин, удалять или любым иным способом ограничивать отображение электронного сообщения и/или может выводить предупреждение пользователю.
[0067] Антиспам-сервер определяет, является или не является электронное сообщение спамом по частотному представлению целевой строки символов, извлеченной из электронного сообщения. Целевую строку преобразуют в сигнал, например последовательность чисел, вычисляют целевой спектр сигнала и сравнивают его с совокупностью ссылочных спектров, чтобы найти соответствие для целевого спектра. В некоторых вариантах осуществления настоящего изобретения используется то наблюдение, что две сходных строки всегда имеют сходные частотные спектры. Поэтому нахождение соответствия между спектром целевой строки и другим спектром, вычисленным для ссылочной строки, может быть признаком того, что целевая строка сходна со ссылочной строкой. В этом случае антиспам-сервер может затем определить, является ли электронное сообщение спамом в зависимости от того, указывает ли ссылочная строка на спам, например принадлежит ли ссылочная строка кластеру электронных сообщений, помеченных как спам.
[0068] Однако существует множество ситуаций, в которых очень сходные спектры принадлежат двум различным строкам. Чтобы избежать ложной положительной идентификации при принятии решения, являются ли две строки сходными, могут рассматриваться другие признаки целевой строки, например временная отметка.
[0069] Сравнение спектров не может считаться надежным способом идентификации сходства строк, когда длина строки превышает определенный порог. В предельном случае очень длинных строк все строки имеют сходные спектры, которые напоминают спектр белого шума. Поэтому системы и способы, описанные здесь, в наибольшей степени подходят для анализа коротких строк, появляющихся в таких электронных сообщениях, как сообщения в блогах и комментарии на сайтах социальных сетей, например Facebook® и Twitter®.
[0070] Дополнительной проблемой для обнаружения спама путем сравнения строк является намеренное запутывание, когда спамеры могут заменять определенные символы в сообщении другими символами (например, Vi4gra), чтобы избежать обнаружения. Запутывание строки можно преодолевать, применяя к целевому сигналу цифровой фильтр, характеризующийся пропусканием высоких или низких частот. Подвергнутые запутыванию символы могут рассматриваться как «шум»; межстрочное расстояние между двумя версиями одной и той же строки, полученными запутыванием, может быть уменьшено фильтрацией, которая приводит обе эти строки к более сходному виду.
[0071] В некоторых вариантах осуществления настоящего изобретения совокупность организована в виде группы кластеров, при этом каждый кластер записей содержит сходные строки. Вместо выполнения сравнения спектров по всем записям совокупности кластеризация обеспечивает возможность сравнивать с помощью способов и систем, описанных в данном документе, целевую строку только с одной целевой строкой, представляющей кластер, что значительно уменьшает вычислительные затраты.
[0072] Кластеризация может также облегчить автоматическое (неконтролируемое) обнаружение спама. В отличие от обычных способов кластеризации, в которых классификация сообщений в целом осуществляется в процессе контролируемого обучения, например, на обучающей совокупности, предварительно рассортированной на группу заданных классов сообщений, в некоторых вариантах осуществления настоящего изобретения выполняется динамическая кластеризация, когда статус наличия спама неизвестен заранее (т.е. спам или не спам) в кластерах или сообщениях. Кластер может быть автоматически идентифицирован как представляющий спам, если в нем накапливается определенное число элементов за короткий промежуток времени.
[0073] В эксперименте на компьютере совокупность из 22000 комментариев в блогах была классифицирована по кластерам согласно некоторым вариантам осуществления настоящего изобретения. Вычисления выполнялись на компьютерной системе, оборудованной процессором Pentium 4 (3 ГГц) и 1,5 Гб оперативной памяти, в среде Ubuntu OS 10.04. Классификация потребовала приблизительно 9 минут 30 секунд, при этом было получено 1652 кластеров сообщений, имеющих более одного элемента кластера (в среднем 4,59 комментариев на кластер). Для сравнения обычная система кластеризации, в которой используется алгоритм сопоставления, основанный на хешировании и выполняемый на той же аппаратной платформе, создала 1617 кластеров, имеющих более одного элемента, за 7 минут 07 секунд времени вычислений при среднем количестве 4,26 комментария в кластере.
[0074] На фиг. 10А-Е показаны результаты еще одного эксперимента на компьютере, выполненного с коллекцией тестовых строк, у которых длина строки варьировалась от 25 до 3000 символов. Использовалась та же аппаратная конфигурация. На фиг. 10-А показано время, затраченное для преобразования строк в сигналы, представленное как функция от длины строки у тестовых строк. Время вычислений для каждого сигнала варьировалось от нескольких микросекунд до приблизительно половины миллисекунды, при этом наблюдалась приблизительно линейная корреляция между длиной строки и временем.
[0075] На фиг. 10-B-C-D показано время, затраченное для вычисления частотных спектров тестовых строк для некоторых диапазонов длин строк. На фиг. 10-Е показано время, затраченное для вычисления межстрочного расстояния согласно со сравнением спектров (например, по формуле [2]), в зависимости от длины строки у тестовых строк. Время вычислений варьировалось от нескольких микросекунд приблизительно до 500 микросекунд.
[0076] На фиг. 11 изображен график зависимости длины строки от индикатора временной отметки для коллекции из 8676 реальных комментариев в блогах, включающих в себя как спам, так и не спам. На фиг. 12 изображен график зависимости количества различных символов от индикатора временной отметки для другой коллекции из 5351 реальных комментариев в блогах, включающих в себя как спам, так и не спам. Как на фиг. 11, так и на фиг. 12 показана кластеризация спамовых сообщений в соответствии с временными отметками, обеспечивающая автоматическую идентификацию спама, как описано выше.
[0077] Специалисту в данной области техники понятно, что описанные выше варианты осуществления могут быть изменены различными способами без выхода за рамки объема правовой охраны настоящего изобретения. Соответственно объем правовой охраны изобретения определяется пунктами приведенной ниже формулы изобретения и их юридическими эквивалентами.
Claims (31)
1. Способ обнаружения спама, включающий в себя следующие этапы:
использование по меньшей мере одного процессора компьютерной системы для получения целевой строки, которая образует часть электронного сообщения;
использование по меньшей мере одного процессора для преобразования целевой строки в целевой сигнал, содержащий последовательность чисел, причем каждый символ целевой строки преобразуется в число указанной последовательности чисел;
в ответ на получение целевой строки - использование по меньшей мере одного процессора для определения критерия пригодности строки согласно целевой строке;
использование по меньшей мере одного процессора для предварительной фильтрации совокупности ссылочных строк по критерию пригодности строки для формирования группы строк-кандидатов;
в ответ на отбор строк-кандидатов - использование по меньшей мере одного процессора для выполнения сравнения частотного спектра целевого сигнала и частотного спектра, определенного для строки-кандидата из группы строк-кандидатов, причем определение частотного спектра целевого сигнала включает в себя представление целевого сигнала в виде группы частотных компонентов целевого сигнала, при этом каждый частотный компонент имеет отдельную частоту и амплитуду, определенную для указанной отдельной частоты; и
использование по меньшей мере одного процессора для определения по результату указанного сравнения, является или не является электронное сообщение спамом.
использование по меньшей мере одного процессора компьютерной системы для получения целевой строки, которая образует часть электронного сообщения;
использование по меньшей мере одного процессора для преобразования целевой строки в целевой сигнал, содержащий последовательность чисел, причем каждый символ целевой строки преобразуется в число указанной последовательности чисел;
в ответ на получение целевой строки - использование по меньшей мере одного процессора для определения критерия пригодности строки согласно целевой строке;
использование по меньшей мере одного процессора для предварительной фильтрации совокупности ссылочных строк по критерию пригодности строки для формирования группы строк-кандидатов;
в ответ на отбор строк-кандидатов - использование по меньшей мере одного процессора для выполнения сравнения частотного спектра целевого сигнала и частотного спектра, определенного для строки-кандидата из группы строк-кандидатов, причем определение частотного спектра целевого сигнала включает в себя представление целевого сигнала в виде группы частотных компонентов целевого сигнала, при этом каждый частотный компонент имеет отдельную частоту и амплитуду, определенную для указанной отдельной частоты; и
использование по меньшей мере одного процессора для определения по результату указанного сравнения, является или не является электронное сообщение спамом.
2. Способ по п. 1, дополнительно включающий в себя определение, является или не является электронное сообщение спамом, согласно сравнению временной отметки целевой строки и временной отметки строки-кандидата.
3. Способ по п. 1, в котором совокупность ссылочных строк включает в себя группу кластеров, каждый из которых включает в себя множество сходных строк, причем каждая строка-кандидат из группы строк-кандидатов представляет отдельный кластер, при этом способ дополнительно включает в себя, в ответ на выполнение сравнения, использование по меньшей мере одного процессора для выбора кластера из группы кластеров и присваивания целевой строки выбранному кластеру.
4. Способ по п. 3, дополнительно включающий в себя определение, является или не является целевое сообщение спамом, по группе временных отметок, при этом каждая временная отметка из группы временных отметок соответствует одному элементу выбранного кластера.
5. Способ по п. 3, дополнительно включающий в себя:
в ответ на присваивание целевой строки выбранному кластеру - определение числа элементов кластера выбранного кластера; и
определение, является или не является целевое сообщение спамом, по числу элементов кластера.
в ответ на присваивание целевой строки выбранному кластеру - определение числа элементов кластера выбранного кластера; и
определение, является или не является целевое сообщение спамом, по числу элементов кластера.
6. Способ по п. 3, дополнительно включающий в себя идентификацию целевого сообщения как принадлежащего к выбранной волне спама в соответствии с выбранным кластером.
7. Способ по п. 1, в котором предварительная фильтрация совокупности включает в себя:
определение первой длины строки для целевой строки и второй длины строки для ссылочной строки из совокупности, и
если первая длина строки отличается от второй длины строки на величину, меньшую, чем заданный порог, добавление ссылочной строки к множеству строк-кандидатов.
определение первой длины строки для целевой строки и второй длины строки для ссылочной строки из совокупности, и
если первая длина строки отличается от второй длины строки на величину, меньшую, чем заданный порог, добавление ссылочной строки к множеству строк-кандидатов.
8. Способ по п. 1, в котором предварительная фильтрация совокупности включает в себя:
определение первого спектрального показателя целевой строки в виде следующей функции:
,
где Ai обозначает амплитуду частотного компонента целевого сигнала, причем частотный компонент имеет частоту i;
определение второго спектрального показателя ссылочной строки из совокупности; и
если первый спектральный показатель отличается от второго спектрального показателя на величину, меньшую, чем заданный порог, добавление ссылочной строки к множеству строк-кандидатов.
определение первого спектрального показателя целевой строки в виде следующей функции:
,
где Ai обозначает амплитуду частотного компонента целевого сигнала, причем частотный компонент имеет частоту i;
определение второго спектрального показателя ссылочной строки из совокупности; и
если первый спектральный показатель отличается от второго спектрального показателя на величину, меньшую, чем заданный порог, добавление ссылочной строки к множеству строк-кандидатов.
9. Способ по п. 1, в котором выполнение сравнения включает в себя определение межстрочного расстояния в виде следующей функции:
,
где S обозначает подмножество частот, AT i обозначает амплитуду частотного компонента целевого сигнала с частотой i, AC i обозначает амплитуду частотного компонента, определенного для строки-кандидата, при частоте i, и α - положительная постоянная.
,
где S обозначает подмножество частот, AT i обозначает амплитуду частотного компонента целевого сигнала с частотой i, AC i обозначает амплитуду частотного компонента, определенного для строки-кандидата, при частоте i, и α - положительная постоянная.
10. Способ по п. 9, в котором подмножество S содержит только частоту, равную нулю.
11. Способ по п. 9, в котором подмножество S содержит только частоту частотного компонента, имеющего наибольшую амплитуду из группы частотных компонентов целевого сигнала.
12. Способ по п. 1, дополнительно включающий в себя, в ответ на преобразование целевой строки в целевой сигнал, использование по меньшей мере одного процессора для применения к целевому сигналу цифрового фильтра низких частот, причем частотный спектр целевого сигнала включает в себя частотный спектр отфильтрованного целевого сигнала.
13. Способ по п. 1, дополнительно включающий в себя, в ответ на преобразование целевой строки в целевой сигнал, использование по меньшей мере одного процессора для применения к целевому сигналу цифрового фильтра высоких частот, причем частотный спектр целевого сигнала включает в себя частотный спектр отфильтрованного целевого сигнала.
14. Способ по п. 1, в котором определение частотного спектра целевого сигнала включает в себя применение к целевому сигналу преобразования Фурье.
15. Компьютерная система для обнаружения спама, включающая в себя по меньшей мере один процессор, запрограммированный так, чтобы:
получить целевую строку, которая образует часть электронного сообщения;
преобразовать целевую строку в целевой сигнал, содержащий последовательность чисел, причем каждый символ целевой строки преобразуется в число указанной последовательности чисел;
в ответ на получение целевой строки - определить критерий пригодности строки согласно целевой строке;
предварительно отфильтровать совокупность ссылочных строк по критерию пригодности строки для формирования группы строк-кандидатов;
в ответ на отбор строк-кандидатов - выполнить сравнение частотного спектра целевого сигнала и частотного спектра, определенного для строки-кандидата из группы строк-кандидатов, причем определение частотного спектра целевого сигнала включает в себя представление целевого сигнала в виде группы частотных компонентов целевого сигнала, при этом каждый частотный компонент имеет отдельную частоту и амплитуду, определенную для указанной отдельной частоты; и
определить по результату указанного сравнения, является или не является электронное сообщение спамом.
получить целевую строку, которая образует часть электронного сообщения;
преобразовать целевую строку в целевой сигнал, содержащий последовательность чисел, причем каждый символ целевой строки преобразуется в число указанной последовательности чисел;
в ответ на получение целевой строки - определить критерий пригодности строки согласно целевой строке;
предварительно отфильтровать совокупность ссылочных строк по критерию пригодности строки для формирования группы строк-кандидатов;
в ответ на отбор строк-кандидатов - выполнить сравнение частотного спектра целевого сигнала и частотного спектра, определенного для строки-кандидата из группы строк-кандидатов, причем определение частотного спектра целевого сигнала включает в себя представление целевого сигнала в виде группы частотных компонентов целевого сигнала, при этом каждый частотный компонент имеет отдельную частоту и амплитуду, определенную для указанной отдельной частоты; и
определить по результату указанного сравнения, является или не является электронное сообщение спамом.
16. Система по п. 15, в которой по меньшей мере один процессор дополнительно запрограммирован так, чтобы определить, является или не является электронное сообщение спамом, согласно сравнению временной отметки целевой строки и временной отметки строки-кандидата.
17. Система по п. 15, в которой совокупность ссылочных строк включает в себя группу кластеров, каждый из которых включает в себя множество сходных строк, причем каждая строка-кандидат из группы строк-кандидатов представляет отдельный кластер, при этом по меньшей мере один процессор дополнительно запрограммирован так, чтобы в ответ на выполнение сравнения выбрать кластер из группы кластеров и присвоить целевую строку выбранному кластеру.
18. Система по п. 17, дополнительно включающая в себя определение, является или не является целевое сообщение спамом, по группе временных отметок, при этом каждая временная отметка из группы временных отметок соответствует элементу выбранного кластера.
19. Система по п. 17, в которой по меньшей мере один процессор дополнительно запрограммирован так, чтобы:
в ответ на присваивание целевой строки выбранному кластеру - определить число элементов кластера в выбранном кластере; и
определить, является или не является целевое сообщение спамом, по числу элементов кластера.
в ответ на присваивание целевой строки выбранному кластеру - определить число элементов кластера в выбранном кластере; и
определить, является или не является целевое сообщение спамом, по числу элементов кластера.
20. Система по п. 17, в которой по меньшей мере один процессор дополнительно запрограммирован так, чтобы идентифицировать целевое сообщение как принадлежащее к выбранной волне спама в соответствии с выбранным кластером.
21. Система по п. 15, в которой предварительная фильтрация совокупности включает в себя:
определение первой длины строки для целевой строки и второй длины строки для ссылочной строки из совокупности; и
если первая длина строки отличается от второй длины строки на величину, меньшую, чем заданный порог, добавление ссылочной строки к множеству строк-кандидатов.
определение первой длины строки для целевой строки и второй длины строки для ссылочной строки из совокупности; и
если первая длина строки отличается от второй длины строки на величину, меньшую, чем заданный порог, добавление ссылочной строки к множеству строк-кандидатов.
22. Система по п. 15, в которой предварительная фильтрация совокупности включает в себя:
определение первого спектрального показателя целевой строки в виде следующей функции:
,
где Ai обозначает амплитуду частотного компонента целевого сигнала, причем частотный компонент имеет частоту i;
определение второго спектрального показателя для ссылочной строки совокупности; и
если первый спектральный показатель отличается от второго спектрального показателя на величину, меньшую, чем заданный порог, добавление ссылочной строки к множеству строк-кандидатов.
определение первого спектрального показателя целевой строки в виде следующей функции:
,
где Ai обозначает амплитуду частотного компонента целевого сигнала, причем частотный компонент имеет частоту i;
определение второго спектрального показателя для ссылочной строки совокупности; и
если первый спектральный показатель отличается от второго спектрального показателя на величину, меньшую, чем заданный порог, добавление ссылочной строки к множеству строк-кандидатов.
23. Система по п. 15, в которой выполнение сравнения включает в себя определение межстрочного расстояния в виде следующей функции:
,
где S обозначает подмножество частот, AT i обозначает амплитуду частотного компонента целевого сигнала, имеющего частоту i, AC i обозначает амплитуду частотного компонента, определенного для строки-кандидата, при частоте i, и α - положительная постоянная.
,
где S обозначает подмножество частот, AT i обозначает амплитуду частотного компонента целевого сигнала, имеющего частоту i, AC i обозначает амплитуду частотного компонента, определенного для строки-кандидата, при частоте i, и α - положительная постоянная.
24. Система по п. 23, в которой подмножество S содержит только частоту, равную нулю.
25. Система по п. 23, в которой подмножество S содержит только частоту частотного компонента, имеющего наибольшую амплитуду из группы частотных компонентов целевого сигнала.
26. Система по п. 15, в которой по меньшей мере один процессор дополнительно запрограммирован так, чтобы в ответ на преобразование целевой строки в целевой сигнал применить к целевому сигналу цифровой фильтр низких частот, причем частотный спектр целевого сигнала включает в себя частотный спектр отфильтрованного целевого сигнала.
27. Система по п. 15, в которой по меньшей мере один процессор дополнительно запрограммирован так, чтобы в ответ на преобразование целевой строки в целевой сигнал применить к целевому сигналу цифровой фильтр высоких частот, причем частотный спектр целевого сигнала включает в себя частотный спектр отфильтрованного целевого сигнала.
28. Система по п. 15, в которой определение частотного спектра целевого сигнала включает в себя применение к целевому сигналу преобразования Фурье.
29. Способ обнаружения спама, включающий в себя:
использование по меньшей мере одного процессора компьютерной системы для получения электронного сообщения;
в ответ на получение электронного сообщения - использование по меньшей мере одного процессора для извлечения целевой строки из электронного сообщения;
использование по меньшей мере одного процессора для передачи целевой строки антиспам-серверу; и
в ответ на передачу целевой строки - получение целевой метки, указывающей на то, является или не является электронное сообщение спамом, причем целевую метку определяют на антиспам-сервере, при этом определение целевой метки включает в себя:
использование антиспам-сервера для преобразования целевой строки символов в целевой сигнал, содержащий последовательность чисел, причем каждый символ целевой строки преобразуют в число указанной последовательности чисел;
использование антиспам-сервера для определения критерия пригодности согласно целевой строке;
использование антиспам-сервера для предварительной фильтрации совокупности ссылочных строк по критерию пригодности для формирования группы строк-кандидатов;
в ответ на отбор строк-кандидатов - использование антиспам-сервера для использования компьютерной системы для выполнения сравнения частотного спектра целевого сигнала и частотного спектра, определенного для строки-кандидата из группы строк-кандидатов, причем определение частотного спектра целевого сигнала включает в себя представление целевого сигнала в виде группы частотных компонентов целевого сигнала, при этом каждый частотный компонент имеет отдельную частоту и амплитуду, определенную для указанной отдельной частоты; и
использование антиспам-сервера для определения по результату указанного сравнения, является или не является электронное сообщение спамом.
использование по меньшей мере одного процессора компьютерной системы для получения электронного сообщения;
в ответ на получение электронного сообщения - использование по меньшей мере одного процессора для извлечения целевой строки из электронного сообщения;
использование по меньшей мере одного процессора для передачи целевой строки антиспам-серверу; и
в ответ на передачу целевой строки - получение целевой метки, указывающей на то, является или не является электронное сообщение спамом, причем целевую метку определяют на антиспам-сервере, при этом определение целевой метки включает в себя:
использование антиспам-сервера для преобразования целевой строки символов в целевой сигнал, содержащий последовательность чисел, причем каждый символ целевой строки преобразуют в число указанной последовательности чисел;
использование антиспам-сервера для определения критерия пригодности согласно целевой строке;
использование антиспам-сервера для предварительной фильтрации совокупности ссылочных строк по критерию пригодности для формирования группы строк-кандидатов;
в ответ на отбор строк-кандидатов - использование антиспам-сервера для использования компьютерной системы для выполнения сравнения частотного спектра целевого сигнала и частотного спектра, определенного для строки-кандидата из группы строк-кандидатов, причем определение частотного спектра целевого сигнала включает в себя представление целевого сигнала в виде группы частотных компонентов целевого сигнала, при этом каждый частотный компонент имеет отдельную частоту и амплитуду, определенную для указанной отдельной частоты; и
использование антиспам-сервера для определения по результату указанного сравнения, является или не является электронное сообщение спамом.
30. Способ обнаружения спама, включающий в себя:
использование по меньшей мере одного процессора компьютерной системы для получения целевой строки, которая образует часть электронного сообщения;
использование по меньшей мере одного процессора для преобразования целевой строки символов в целевой сигнал, содержащий последовательность чисел, причем каждый символ целевой строки преобразуют в число указанной последовательности чисел;
в ответ на получение целевой строки - использование по меньшей мере одного процессора для определения критерия пригодности строки согласно целевой строке;
использование по меньшей мере одного процессора для предварительной фильтрации совокупности ссылочных строк по критерию пригодности строки для формирования группы строк-кандидатов;
в ответ на отбор строк-кандидатов - использование по меньшей мере одного процессора для определения межстрочного расстояния, отделяющего целевую строку от строки-кандидата из группы строк-кандидатов, при этом межстрочное расстояние определяют по первой амплитуде частотного спектра целевого сигнала и по второй амплитуде частотного спектра, определенного для строки-кандидата, причем определение частотного спектра целевого сигнала включает в себя представление целевого сигнала в виде группы частотных компонентов целевого сигнала, при этом каждый частотный компонент имеет отдельную частоту и амплитуду, определенную для указанной отдельной частоты; и
использование по меньшей мере одного процессора для определения по межстрочному расстоянию, является или не является целевое сообщение спамом.
использование по меньшей мере одного процессора компьютерной системы для получения целевой строки, которая образует часть электронного сообщения;
использование по меньшей мере одного процессора для преобразования целевой строки символов в целевой сигнал, содержащий последовательность чисел, причем каждый символ целевой строки преобразуют в число указанной последовательности чисел;
в ответ на получение целевой строки - использование по меньшей мере одного процессора для определения критерия пригодности строки согласно целевой строке;
использование по меньшей мере одного процессора для предварительной фильтрации совокупности ссылочных строк по критерию пригодности строки для формирования группы строк-кандидатов;
в ответ на отбор строк-кандидатов - использование по меньшей мере одного процессора для определения межстрочного расстояния, отделяющего целевую строку от строки-кандидата из группы строк-кандидатов, при этом межстрочное расстояние определяют по первой амплитуде частотного спектра целевого сигнала и по второй амплитуде частотного спектра, определенного для строки-кандидата, причем определение частотного спектра целевого сигнала включает в себя представление целевого сигнала в виде группы частотных компонентов целевого сигнала, при этом каждый частотный компонент имеет отдельную частоту и амплитуду, определенную для указанной отдельной частоты; и
использование по меньшей мере одного процессора для определения по межстрочному расстоянию, является или не является целевое сообщение спамом.
31. Способ обнаружения спама, включающий в себя:
использование по меньшей мере одного процессора компьютерной системы для получения целевой строки, которая образует часть электронного сообщения;
использование по меньшей мере одного процессора для преобразования целевой строки в целевой сигнал, содержащий последовательность чисел, причем каждый символ целевой строки преобразуется в число указанной последовательности чисел;
использование по меньшей мере одного процессора для выполнения сравнения частотного спектра целевого сигнала и частотного спектра, определенного для ссылочной строки, выбранной из множества ссылочных строк, причем определение частотного спектра целевого сигнала включает в себя представление целевого сигнала в виде группы частотных компонентов целевого сигнала, при этом каждый частотный компонент имеет отдельную частоту и амплитуду, определенную для указанной отдельной частоты; и
использование по меньшей мере одного процессора для определения по результату указанного сравнения, является или не является целевое сообщение спамом.
использование по меньшей мере одного процессора компьютерной системы для получения целевой строки, которая образует часть электронного сообщения;
использование по меньшей мере одного процессора для преобразования целевой строки в целевой сигнал, содержащий последовательность чисел, причем каждый символ целевой строки преобразуется в число указанной последовательности чисел;
использование по меньшей мере одного процессора для выполнения сравнения частотного спектра целевого сигнала и частотного спектра, определенного для ссылочной строки, выбранной из множества ссылочных строк, причем определение частотного спектра целевого сигнала включает в себя представление целевого сигнала в виде группы частотных компонентов целевого сигнала, при этом каждый частотный компонент имеет отдельную частоту и амплитуду, определенную для указанной отдельной частоты; и
использование по меньшей мере одного процессора для определения по результату указанного сравнения, является или не является целевое сообщение спамом.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US13/358,338 US9130778B2 (en) | 2012-01-25 | 2012-01-25 | Systems and methods for spam detection using frequency spectra of character strings |
US13/358,338 | 2012-01-25 | ||
PCT/RO2012/000022 WO2013112061A1 (en) | 2012-01-25 | 2012-09-05 | System and methods for spam detection using frequency spectra of character strings |
Publications (2)
Publication Number | Publication Date |
---|---|
RU2014133872A RU2014133872A (ru) | 2016-03-20 |
RU2601190C2 true RU2601190C2 (ru) | 2016-10-27 |
Family
ID=47891881
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2014133872/08A RU2601190C2 (ru) | 2012-01-25 | 2012-09-05 | Система и способы обнаружения спама с помощью частотных спектров строк символов |
Country Status (11)
Country | Link |
---|---|
US (2) | US9130778B2 (ru) |
EP (1) | EP2807801A1 (ru) |
JP (1) | JP5941163B2 (ru) |
KR (1) | KR101686144B1 (ru) |
CN (1) | CN104040963B (ru) |
AU (1) | AU2012367397B2 (ru) |
CA (1) | CA2859135C (ru) |
IL (1) | IL233057B (ru) |
RU (1) | RU2601190C2 (ru) |
SG (1) | SG11201403440PA (ru) |
WO (1) | WO2013112061A1 (ru) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103580939B (zh) * | 2012-07-30 | 2018-03-20 | 腾讯科技(深圳)有限公司 | 一种基于账号属性的异常消息检测方法及设备 |
US9251133B2 (en) | 2012-12-12 | 2016-02-02 | International Business Machines Corporation | Approximate named-entity extraction |
US9026601B1 (en) * | 2013-03-12 | 2015-05-05 | Symantec Corporation | Systems and methods for validating members of social networking groups |
US8837835B1 (en) * | 2014-01-20 | 2014-09-16 | Array Technology, LLC | Document grouping system |
US10037320B2 (en) * | 2014-06-30 | 2018-07-31 | Microsoft Technology Licensing, Llc | Context-aware approach to detection of short irrelevant texts |
WO2016070034A1 (en) * | 2014-10-31 | 2016-05-06 | Linkedin Corporation | Transfer learning for bilingual content classification |
CN107229608A (zh) * | 2016-03-23 | 2017-10-03 | 阿里巴巴集团控股有限公司 | 垃圾评论识别方法和装置 |
CN106055664B (zh) * | 2016-06-03 | 2019-03-08 | 腾讯科技(深圳)有限公司 | 一种基于用户评论的ugc垃圾内容过滤方法及系统 |
US11647046B2 (en) * | 2018-09-24 | 2023-05-09 | Microsoft Technology Licensing, Llc | Fuzzy inclusion based impersonation detection |
US11720718B2 (en) | 2019-07-31 | 2023-08-08 | Microsoft Technology Licensing, Llc | Security certificate identity analysis |
US11677703B2 (en) | 2019-08-15 | 2023-06-13 | Rovi Guides, Inc. | Systems and methods for automatically identifying spam in social media comments based on context |
US11258741B2 (en) * | 2019-08-15 | 2022-02-22 | Rovi Guides, Inc. | Systems and methods for automatically identifying spam in social media comments |
US11886586B1 (en) * | 2020-03-06 | 2024-01-30 | Trend Micro, Inc. | Malware families identification based upon hierarchical clustering |
CN111507400B (zh) * | 2020-04-16 | 2023-10-31 | 腾讯科技(深圳)有限公司 | 应用分类方法、装置、电子设备以及存储介质 |
US11882131B1 (en) * | 2020-12-31 | 2024-01-23 | Proofpoint, Inc. | Systems and methods for prioritizing URL review for sandboxing based on accelerated velocities of URL features in network traffic |
KR20240102544A (ko) * | 2022-12-26 | 2024-07-03 | 쿠팡 주식회사 | 메시지 처리 시스템 및 그 방법 |
CN117032726B (zh) * | 2023-10-10 | 2023-12-22 | 北京海格神舟通信科技有限公司 | 一种用于实时绘制频谱图的方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6732149B1 (en) * | 1999-04-09 | 2004-05-04 | International Business Machines Corporation | System and method for hindering undesired transmission or receipt of electronic messages |
RU2331913C2 (ru) * | 2003-03-03 | 2008-08-20 | Майкрософт Корпорейшн | Контур обратной связи для предотвращения несанкционированной рассылки |
Family Cites Families (46)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB9220404D0 (en) | 1992-08-20 | 1992-11-11 | Nat Security Agency | Method of identifying,retrieving and sorting documents |
US5828999A (en) | 1996-05-06 | 1998-10-27 | Apple Computer, Inc. | Method and system for deriving a large-span semantic language model for large-vocabulary recognition systems |
US20040073617A1 (en) * | 2000-06-19 | 2004-04-15 | Milliken Walter Clark | Hash-based systems and methods for detecting and preventing transmission of unwanted e-mail |
US7321922B2 (en) * | 2000-08-24 | 2008-01-22 | Yahoo! Inc. | Automated solicited message detection |
GB2366706B (en) | 2000-08-31 | 2004-11-03 | Content Technologies Ltd | Monitoring electronic mail messages digests |
AUPR033800A0 (en) | 2000-09-25 | 2000-10-19 | Telstra R & D Management Pty Ltd | A document categorisation system |
KR20040013097A (ko) | 2001-07-04 | 2004-02-11 | 코기줌 인터메디아 아게 | 카테고리 기반의 확장가능한 대화식 문서 검색 시스템 |
US7657935B2 (en) * | 2001-08-16 | 2010-02-02 | The Trustees Of Columbia University In The City Of New York | System and methods for detecting malicious email transmission |
US7870203B2 (en) | 2002-03-08 | 2011-01-11 | Mcafee, Inc. | Methods and systems for exposing messaging reputation to an end user |
US20030204569A1 (en) * | 2002-04-29 | 2003-10-30 | Michael R. Andrews | Method and apparatus for filtering e-mail infected with a previously unidentified computer virus |
JP2004186878A (ja) * | 2002-12-02 | 2004-07-02 | Keyware Solutions Inc | 侵入検知装置及び侵入検知プログラム |
US7533148B2 (en) * | 2003-01-09 | 2009-05-12 | Microsoft Corporation | Framework to enable integration of anti-spam technologies |
US7320020B2 (en) | 2003-04-17 | 2008-01-15 | The Go Daddy Group, Inc. | Mail server probability spam filter |
GB2405229B (en) | 2003-08-19 | 2006-01-11 | Sophos Plc | Method and apparatus for filtering electronic mail |
US7392262B1 (en) | 2004-02-11 | 2008-06-24 | Aol Llc | Reliability of duplicate document detection algorithms |
US8214438B2 (en) | 2004-03-01 | 2012-07-03 | Microsoft Corporation | (More) advanced spam detection features |
US7555523B1 (en) | 2004-05-06 | 2009-06-30 | Symantec Corporation | Spam discrimination by generalized Ngram analysis of small header fields |
US8731986B2 (en) | 2004-07-19 | 2014-05-20 | Steve Angelica | Modulated cascading electronic messaging network |
US7574409B2 (en) * | 2004-11-04 | 2009-08-11 | Vericept Corporation | Method, apparatus, and system for clustering and classification |
US20060149820A1 (en) | 2005-01-04 | 2006-07-06 | International Business Machines Corporation | Detecting spam e-mail using similarity calculations |
JP2006293573A (ja) | 2005-04-08 | 2006-10-26 | Yaskawa Information Systems Co Ltd | 電子メール処理装置および電子メールフィルタリング方法および電子メールフィルタリングプログラム |
EP1963959A2 (en) | 2005-12-09 | 2008-09-03 | Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. | A method and apparatus for automatic comparison of data sequences |
US7529719B2 (en) | 2006-03-17 | 2009-05-05 | Microsoft Corporation | Document characterization using a tensor space model |
US20100011487A1 (en) | 2006-07-24 | 2010-01-21 | Mi Ri Kim | Functional belt |
US7751620B1 (en) | 2007-01-25 | 2010-07-06 | Bitdefender IPR Management Ltd. | Image spam filtering systems and methods |
US7743003B1 (en) | 2007-05-16 | 2010-06-22 | Google Inc. | Scaling machine learning using approximate counting that uses feature hashing |
US9083556B2 (en) | 2007-05-31 | 2015-07-14 | Rpx Clearinghouse Llc | System and method for detectng malicious mail from spam zombies |
US8229833B2 (en) * | 2007-09-28 | 2012-07-24 | International Securities Exchange, Llc | Simplified quote sharing calculation |
JP5040718B2 (ja) | 2008-02-21 | 2012-10-03 | 日本電気株式会社 | スパム・イベント検出装置及び方法並びにプログラム |
US8055078B2 (en) * | 2008-02-28 | 2011-11-08 | Yahoo! Inc. | Filter for blocking image-based spam |
JP2009230663A (ja) | 2008-03-25 | 2009-10-08 | Kddi Corp | ウェブページの異常検知装置、プログラム、および記録媒体 |
KR100977180B1 (ko) | 2008-04-04 | 2010-08-23 | 엔에이치엔(주) | 스팸메일을 필터링하기 위한 방법, 시스템 및 컴퓨터 판독가능한 기록 매체 |
CN100541524C (zh) * | 2008-04-17 | 2009-09-16 | 上海交通大学 | 基于内容的互联网动画媒体垃圾信息过滤方法 |
US8156063B1 (en) | 2008-04-21 | 2012-04-10 | Hewlett-Packard Development Company, L.P. | Decision making based on changes input to a database |
CN101262524A (zh) * | 2008-04-23 | 2008-09-10 | 沈阳东软软件股份有限公司 | 垃圾语音过滤的方法及系统 |
US8001195B1 (en) | 2008-08-26 | 2011-08-16 | Kaspersky Lab, Zao | Spam identification using an algorithm based on histograms and lexical vectors (one-pass algorithm) |
US8295651B2 (en) | 2008-09-23 | 2012-10-23 | Microsoft Corporation | Coherent phrase model for efficient image near-duplicate retrieval |
US20100082749A1 (en) | 2008-09-26 | 2010-04-01 | Yahoo! Inc | Retrospective spam filtering |
CN101415159B (zh) | 2008-12-02 | 2010-06-02 | 腾讯科技(深圳)有限公司 | 对垃圾邮件进行拦截的方法和装置 |
US8718318B2 (en) | 2008-12-31 | 2014-05-06 | Sonicwall, Inc. | Fingerprint development in image based spam blocking |
CN101938711B (zh) | 2009-06-30 | 2015-09-09 | 国际商业机器公司 | 用于垃圾消息检测的方法和设备 |
CN102254146B (zh) * | 2010-05-18 | 2013-04-24 | 山东新北洋信息技术股份有限公司 | 磁墨水字符的识别方法、装置及系统 |
US20130179166A1 (en) | 2010-09-29 | 2013-07-11 | Nec Casio Mobile Communications, Ltd. | Voice conversion device, portable telephone terminal, voice conversion method, and record medium |
US9450781B2 (en) * | 2010-12-09 | 2016-09-20 | Alcatel Lucent | Spam reporting and management in a communication network |
WO2012092556A2 (en) | 2010-12-30 | 2012-07-05 | Kleinbart Kyle | System and method for online communications management |
US20120215853A1 (en) | 2011-02-17 | 2012-08-23 | Microsoft Corporation | Managing Unwanted Communications Using Template Generation And Fingerprint Comparison Features |
-
2012
- 2012-01-25 US US13/358,338 patent/US9130778B2/en active Active
- 2012-09-05 KR KR1020147019418A patent/KR101686144B1/ko active IP Right Grant
- 2012-09-05 CA CA2859135A patent/CA2859135C/en active Active
- 2012-09-05 AU AU2012367397A patent/AU2012367397B2/en active Active
- 2012-09-05 CN CN201280066689.7A patent/CN104040963B/zh active Active
- 2012-09-05 SG SG11201403440PA patent/SG11201403440PA/en unknown
- 2012-09-05 EP EP12832750.9A patent/EP2807801A1/en not_active Withdrawn
- 2012-09-05 RU RU2014133872/08A patent/RU2601190C2/ru active
- 2012-09-05 JP JP2014554684A patent/JP5941163B2/ja active Active
- 2012-09-05 WO PCT/RO2012/000022 patent/WO2013112061A1/en active Application Filing
-
2014
- 2014-06-10 IL IL233057A patent/IL233057B/en active IP Right Grant
-
2015
- 2015-09-07 US US14/846,895 patent/US10212114B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6732149B1 (en) * | 1999-04-09 | 2004-05-04 | International Business Machines Corporation | System and method for hindering undesired transmission or receipt of electronic messages |
RU2331913C2 (ru) * | 2003-03-03 | 2008-08-20 | Майкрософт Корпорейшн | Контур обратной связи для предотвращения несанкционированной рассылки |
Also Published As
Publication number | Publication date |
---|---|
KR101686144B1 (ko) | 2016-12-28 |
CA2859135C (en) | 2019-10-22 |
US20150381539A1 (en) | 2015-12-31 |
US10212114B2 (en) | 2019-02-19 |
AU2012367397B2 (en) | 2016-09-08 |
WO2013112061A1 (en) | 2013-08-01 |
IL233057B (en) | 2018-01-31 |
US20130191468A1 (en) | 2013-07-25 |
IL233057A0 (en) | 2014-07-31 |
US9130778B2 (en) | 2015-09-08 |
JP2015506642A (ja) | 2015-03-02 |
CA2859135A1 (en) | 2013-08-01 |
CN104040963B (zh) | 2017-08-08 |
EP2807801A1 (en) | 2014-12-03 |
CN104040963A (zh) | 2014-09-10 |
JP5941163B2 (ja) | 2016-06-29 |
KR20140115314A (ko) | 2014-09-30 |
RU2014133872A (ru) | 2016-03-20 |
AU2012367397A1 (en) | 2014-07-03 |
SG11201403440PA (en) | 2014-09-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2601190C2 (ru) | Система и способы обнаружения спама с помощью частотных спектров строк символов | |
RU2601193C2 (ru) | Системы и способы обнаружения спама с помощью символьных гистограмм | |
US10708288B2 (en) | Computerized system and method for automatically determining malicious IP clusters using network activity data | |
US11425148B2 (en) | Identifying malicious network devices | |
CN108833186B (zh) | 一种网络攻击预测方法及装置 | |
Ranganayakulu et al. | Detecting malicious urls in e-mail–an implementation | |
US20200067980A1 (en) | Increasing security of network resources utilizing virtual honeypots | |
CN111752973B (zh) | 生成用于识别垃圾电子邮件的启发式规则的系统和方法 | |
US8170978B1 (en) | Systems and methods for rating online relationships | |
CN116738369A (zh) | 一种流量数据的分类方法、装置、设备及存储介质 | |
Rawat et al. | A real time spam classification of twitter data with comparative analysis of classifiers | |
US12041075B2 (en) | Detecting malicious activity associated with resetting authentication information | |
Kinger et al. | Malicious URL Detection Using Machine Learning | |
Kavitha et al. | A Visionary Approach to Detect Spoofing Website using Machine Learning Algorithms | |
CN116318781A (zh) | 钓鱼邮件检测方法、装置、电子设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PD4A | Correction of name of patent owner |