RU2740856C1

RU2740856C1 - Способ и система для идентификации кластеров аффилированных веб-сайтов

Info

Publication number: RU2740856C1
Application number: RU2020127038A
Authority: RU
Inventors: Илья Олегович Рожнов
Original assignee: Групп-Ай Би Глобал Прайвет Лимитед
Priority date: 2020-07-15
Filing date: 2020-08-12
Publication date: 2021-01-21
Also published as: US20220019630A1; US11475090B2; NL2026283B1

Abstract

Изобретение относится к способу и системе определения принадлежности веб-ресурса к кластерам аффилированных веб-ресурсов. Технический результат заключается в определении принадлежности веб-ресурса. В способе на этапе обучения сканируют сети связи для обнаружения множества веб-ресурсов; производят поиск информации, связанной с каждым из множества веб-ресурсов; генерируют соответствующие паттерны каждого из множества веб-ресурсов; производят группировку множества веб-ресурсов во множество кластеров, причем группировка основана на аффилированности множества паттернов веб-ресурсов; сохраняют множества кластеров веб-ресурсов в памяти; на рабочем этапе получают URL ссылку на ранее не исследованный веб-ресурс; производят поиск информации о данном веб-ресурсе; генерируют новый паттерн данного веб-ресурса; анализируют аффилированность нового паттерна с паттернами, связанными с множеством кластеров веб-ресурсов; вычисляют коэффициент аффилированности паттерна данного веб-ресурса с каждым из множества кластеров; в ответ на превышение коэффициентом аффилированности паттерна с одним из множества кластеров заранее заданного порогового значения, связывают данный веб-ресурс с одним конкретным кластером; обновляют множество кластеров, хранящихся в базе данных, на основе аффилированности данного веб-ресурса. 2 н. и 8 з.п. ф-лы, 8 ил.

Description

ОБЛАСТЬ ТЕХНИКИ

[0001] Настоящее техническое решение относится к области информационной безопасности, в частности, к способу и системе для определения кластеров аффилированных веб-ресурсов.

УРОВЕНЬ ТЕХНИКИ

[0002] Самым простым и популярным способом совершения киберпреступления является мошенничество в сети. Например, по данным статистики Group-IB средний ущерб только от фишинговой атаки составляет около 20 тыс. $. Стоит отметить, что кроме такого значительного материального ущерба компании также несут и репутационные потери.

[0003] Можно выделить две категории целей фишинговых атак: отдельно взятые пользователи и компании. Как правило, в первом случае атакой часто занимаются киберпреступники поодиночке, так как это достаточно просто и не требует каких-либо специальных знаний. Распространению данного типа фишинговой атаки способствуют программы “phishing kits”, которые можно приобрести в даркнете (нелегально).

[0004] Атаки на вторую категорию целей, а именно компании и их бренды, устроены по-другому. Так на практике для совершения успешной фишинговой атаки, например, на банк, киберпреступникам необходимо обладать знаниями как минимум в области программирования и социальной инженерии для произведения первичных разведок по жертвам, что приводит преступников к необходимости создания группировок.

[0005] Например, по подсчетам компании Group-IB только в России действует порядка 15 преступных группировок, занимающихся фишингом, и это число продолжает постоянно расти. Каждая из группировок может одновременно владеть несколькими сотнями фишинговых страниц, направленных как на один бренд, так и на разные бренды компаний.

[0006] Стоит также отметить, что многие фишинговые страницы создаются “по шаблону”, т.е. и существуют непродолжительный период времени, а потом заменяются новыми точно такими же, но, например, на другом хостинге, с другой электронной почтой и т.д. При появлении каждой новой фишинговой страницы счет идет на минуты, чтобы предотвратить серьезные финансовые ущербы.

[0007] Именно поэтому существует необходимость в способе определения кластеров веб-ресурсов, которые каким-либо образом связаны, а именно были созданы одним и тем же владельцем/группой лиц или принадлежат одному владельцу/группе лиц, целью которых является своевременное определение связанных фишинговых страниц, построение стратегии защиты и оценки убытков.

[0008] Из уровня техники известен патент RU 2681699 C1 (MILESHIN et al., Способ и сервер для поиска связанных сетевых ресурсов, опубл. 12.03.2019, кл. G06F 15/00), целью которого является повышение точности поиска связанных сетевых ресурсов. Данный способ предполагает: - сканирование сети с целью поиска сетевых ресурсов; причем на этапе сканирования сети находят первый сетевой ресурс и второй сетевой ресурс; - извлечение информации о найденных ресурсах, включающей параметр первого сетевого ресурса и параметр второго сетевого ресурса; - в ответ на то, что указанный по меньшей мере один параметр первого сетевого ресурса совпадает с указанным по меньшей мере одним параметром второго сетевого ресурса, построение связи между первым сетевым ресурсом и вторым сетевым ресурсом. Однако такой подход является ограниченным для целей кластеризации аффилированных веб-ресурсов нацеленных на бренды компаний.

[0009] Также из уровня техники известно решение WO 2019/010182 A1 (CLEVELAND et al., Способ и система обнаружения фишинга, кл. H04L 29/06, опубликован 10.01.2019), которое предполагает: получение изображение визуального контента, визуализацию связей с источником, и идентификацию домена источника; выполнение обнаружения объекта с использованием сверточной нейронной сети обнаружения объекта (CNN) на одном или нескольких логотипах торговых марок, расположенных в визуальном контенте, для обнаружения экземпляров одного или нескольких целевых торговых марок; определение на основании обнаружения объекта, что, по меньшей мере, часть визуального контента напоминает контент бренда-кандидата; сравнение домена источника с одним или несколькими авторизованными доменами потенциального бренда; и объявление фишингового события, когда сравнение указывает, что домен источника не является одним из авторизованных доменов бренда-кандидата.

[0010] Из уровня техники также известен документ US 2016/0055490 A1 (Yoav Keren et al., кл. G06Q 30/00, опубликован 25.02.2016), в котором описан метод защиты торговой марки владельца бренда, включающий: (a) обход глобальной сети связи для выявления и сбора данных о веб-сайтах, которые могут злоупотреблять торговой маркой; (b) для каждого веб-сайта, который, возможно, злоупотребляет торговой маркой, анализ, использует ли веб-сайт торговую марку или нет, причем происходит анализ, по крайней мере, одного из: (i) содержимого указанного веб-сайта; и (ii) данные о владельце указанного веб-сайта. Кроме того описанный метод также раскрывает возможность на основе данных, собранных в ROA, находить доменные имена, которые имеют одинаковые (или похожие) контактные данные, или аналогичные или повторяющиеся данные в WHOIS, или аналогичные или те же номера телефонов, DNS-серверы, DNS записи, IP-адреса веб-сайтов и / или DNS-серверов, а также процесс может проверять: записи A, записи MX, c-name, SOA, может искать домены или веб-сайты, на которых один и тот же поставщик услуг хостинга находится в той же ферме хостинга; тот же регистратор (например, обычно большой дешевый регистратор); время регистрации; похожие веб-сайты: похожая структура страниц с различным содержанием; проверять, какие доменные имена зарегистрированы в том же ccTLD; проверять, может ли владелец нарушающих доменных имен использовать прокси, то есть скрывать, кто действительно владеет доменными именами. Процесс может группировать доменные имена с такими сходствами. Для дальнейшего выявления подозрительных подсказок соберите статистику по странам. Регистраторы. Хостинг расходных материалов и / или DNS-серверов.

[0011] Недостатком описанного выше уровня техники является громоздкость решения и задействование большого числа ресурсов. Кроме того в описанных решениях происходит создание кластеров, основанных только на одном конкретном параметре, например DNS адресе, что в дальнейшем не может служить для быстрого и точного реагирования на инцидент безопасности информационной системы, а также их предотвращения.

[0012] Настоящие изобретение создано для решения части выявленных при анализе выше проблем предшествующего уровня техники.

СУЩНОСТЬ ИЗОБРЕТЕНИЯ

[0013] Задача предполагаемого изобретения заключается в разработке системы и способа определения кластеров аффилированных веб-ресурсов.

[0014] Техническим результатом заявленной группы изобретений заключается в обеспечении определения кластеров аффилированных веб-ресурсов.

[0015] Данный технический результат достигается за счет предложенного способа определения принадлежности к кластерам аффилированных веб-ресурсов выполняющийся на вычислительном устройстве, имеющим по меньшей мере, процессор и память, которая хранит исполняемые инструкции, которые при выполнении:

на этапе обучения:

сканируют сети связи для обнаружения множества веб-ресурсов;

производят поиск информации, связанной с множеством веб-ресурсов;

на основе информации, связанной с каждым из множества веб-ресурсов, генерируют соответствующий паттерн;

на основе сгенерированного паттерна производят группировку множества веб-ресурсов во множество кластеров, причем группировка основана на аффилированности множества паттернов веб-ресурсов;

сохраняют указанные множества кластеров веб-ресурсов в памяти;

на рабочем этапе:

получают URL ссылку на веб-ресурс;

производят поиск информации о данном веб-ресурсе;

генерируют новый паттерн данного веб-ресурса;

анализируют аффилированность нового паттерна с паттернами, связанными с множеством кластеров веб-ресурсов;

вычисление отношения присоединения к конкретному из множества кластеров;

в ответ на коэффициент аффилированности паттерна к конкретному из множества кластеров, превышающий заранее заданное пороговое значение, связывают данный веб-ресурс с конкретным кластером из множества кластеров веб ресурсов;

обновляют множество кластеров, хранящихся в базе данных, на основе данного веб ресурса.

[0016] Дополнительно в одном частном варианте заявленного изобретения, в котором соответствующий паттерн содержит матрицу отличительных признаков, связанных с соответствующим одним из множества веб-ресурсов, идентифицированных с помощью анализа информации, связанной с множеством веб-ресурсов.

[0017] Дополнительно в одном частном варианте заявленного изобретения, в котором отличительные признаки связаны с соответствующим одним из множества веб-ресурсов и содержат по меньшей мере одно из: размер по меньшей мере одного блока страницы в пределах по меньшей мере одной страницы, связанной с соответствующим один из множества веб-ресурсов; положение, по меньшей мере, одного блока страницы на, по меньшей мере, одной странице; заголовок, связанный по меньшей мере с одним блоком страницы; параметры области, связанные по меньшей мере с одной страницей; по меньшей мере один целевой домен, связанный по меньшей мере с одной страницей, причем дополнительно определяют по меньшей мере одно из: ссылки, размещенные как минимум на одной странице и ведущие на целевой домен, и связанные с ними типы переходов, причем тип перехода может быть по меньшей одним из: напрямую или через перенаправление; контактную информацию; шаблоны путей к соответствующим структурным элементам по меньшей мере одной страницы и стилям, связанный с ними; и названия структурных элементов.

[0018] Дополнительно в одном частном варианте заявленного изобретения, в котором информация, связанная с множеством веб-ресурсов, включает в себя для данного веб-ресурса, по меньшей мере, одно из: URL данного веб-ресурса; HTML-код, связанный с данным веб-ресурсом; скриншот хотя бы одной веб-страницы, связанной с данной страницей веб-ресурса и ее хеш-значение; дата обнаружения данного веб-ресурса; и данные регистрации домена, связанные с данным веб-ресурсом, в том числе: дату регистрации, регистратора, имя владельца и контактные данные; IP-адрес; NS сервер; хостинг-провайдер; последняя дата активности.

[0019] Дополнительно в одном частном варианте заявленного изобретения, в котором матрица отличительных признаков содержит, по меньшей мере, один отличительный признак, связанный с соответствующим одним из множества веб-ресурсов.

[0020] Дополнительно в одном частном варианте заявленного изобретения, в котором каждый из отличительных признаков был выбран на основе предварительно определенного параметра характерности R, причем предварительно определенный параметр характерности указывает на максимальное пороговое значение степени характерности данного отличительного признака для его использования.

[0021] Дополнительно в одном частном варианте заявленного изобретения, в котором отличительность выбранного характерного признака определяется на основе следующего неравенства p _i <R, где p показывает число ресурсов во множестве веб-ресурсов, связанных данным характерным признаком.

[0022] Дополнительно в одном частном варианте заявленного изобретения, в котором вычисление коэффициента аффилированности дополнительно содержит вычисление количества отличительных характерных признаков, связанных с данным веб-ресурсом, которые похожи на те, которые связаны с одним из множества кластеров.

[0023] Дополнительно в одном частном варианте заявленного изобретения, в котором анализ аффилированности нового паттерна с паттернами, связанными с множеством кластеров, дополнительно содержит применение метода перекрестной корреляции.

[0024] Дополнительно в одном частном варианте заявленного изобретения технический результат обеспечивается за счет системы для определения принадлежности веб-ресурса к множеству кластеров веб ресурсов, причем система, содержит вычислительное устройство, которое дополнительно включает:

процессор;

постоянный машиночитаемый носитель, содержащий инструкции;

причем процессор после выполнения инструкций сконфигурирован для:

на этапе обучения:

на рабочем этапе:

получают URL ссылку на веб-ресурс;

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

[0025] Реализация изобретения будет описана в дальнейшем в соответствии с прилагаемыми чертежами, которые представлены для пояснения сути изобретения и никоим образом не ограничивают область изобретения. К заявке прилагаются следующие чертежи:

[0026] Фиг. 1 иллюстрирует примерный вариант реализации системы определения кластеров аффилированных веб-ресурсов.

[0027] Фиг. 2 иллюстрирует примерный вариант осуществления подготовительного этапа выполнения способа определения кластеров аффилированных веб-ресурсов.

[0028] Фиг. 3 иллюстрирует примерный вариант созданного паттерна веб-ресурса, сохраняемого во внутренней базе данных системой

[0029] Фиг. 4А-4С иллюстрируют пример шаблонов аффилированных веб-сайтов.

[0030] Фиг. 5 иллюстрирует примерный вариант осуществления рабочего этапа выполнения способа определения кластеров аффилированных веб-ресурсов.

[0031] Фиг. 6 иллюстрирует пример общей схемы вычислительного устройства, необходимого для выполнения способа определения кластеров аффилированных веб-ресурсов.

ДЕТАЛЬНОЕ ОПИСАНИЕ ИЗОБРЕТЕНИЯ

[0032] Следующее далее подробное описание представлено, чтобы дать возможность любому специалисту в данной области для осуществления и использования настоящего изобретения. Для целей описания конкретные детали приводятся, чтобы дать глубокое понимание настоящего изобретения. Однако специалисту в данной области будет ясно, что эти конкретные детали не являются необходимыми для осуществления настоящего изобретения. Описания конкретных применений приводятся только как репрезентативные примеры. Различные модификации предпочтительных вариантов осуществления будут очевидны специалистам в данной области, и общие принципы, определенные в настоящем документе, могут применяться к другим вариантам осуществления и применениям без отклонения от рамок настоящего изобретения.

[0033] Описанное в данном документе решение, как предполагается, не является ограниченным указанными вариантами осуществления, но должно соответствовать самым широким возможным рамкам, совместимым с принципами и признаками, описанными в настоящем документе.

[0034] Настоящее изобретение направлено на обеспечение системы и способа определения кластеров аффилированных веб-ресурсов.

[0035] На фиг. 1 представлен один из возможных вариантов осуществления системы определения кластеров аффилированных веб-ресурсов (100).

[0036] В некоторых вариантах осуществления система 100 содержит модуль сбора данных 110, который может быть коммуникативно связан с сетью 120.

[0037] В некоторых неограничивающих вариантах осуществления настоящей технологии сеть 120 является сетью Интернет и / или Интранет. Кроме того, можно предусмотреть несколько вариантов осуществления сети 120, что станет очевидным для специалиста в данной области техники. Далее, реализация линии связи между системой 100 и сетью 120 будет зависеть, в частности, от того, как реализована система 100, и при этом может включать в себя, но не ограничиваться, основной канал связи и/или канал беспроводной связи (такой как канал сетевой связи Wi-Fi, канал сетевой связи 3G / 4G и т.п.).

[0038] В некоторых неограничивающих вариантах осуществления настоящей технологии, модуль сбора данных 110 может сканировать сеть 120 для получения соответствующих URL-ссылок на множество веб-ресурсов и сохранять их во внутренней базе данных (не показана), коммуникативно связанной с модулем сбора данных 110.

[0039] В альтернативных неограничивающих вариантах осуществления настоящей технологии, модуль сбора данных 110 может быть сконфигурирован для связи с внешним хранилищем данных (не изображенным) для получения соответствующих URL-ссылок на множество веб-ресурсов для дальнейшего анализа.

[0040] Со ссылкой на фиг. 2 представлена блок-схема способа 200 для определения кластеров веб-ресурсов в соответствии с некоторыми неограничивающими вариантами осуществления настоящей технологии. Так, способ 200 может быть выполнен с помощью вычислительного устройства 600.

ШАГ 210: СКАНИРОВАНИЕ СЕТИ СВЯЗИ ДЛЯ ОБНАРУЖЕНИЯ МНОЖЕСТВА ВЕБ-РЕСУРСОВ.

[0041] Способ 200 начинается на этапе 210, на котором вычислительное устройство 600 сконфигурировано для сканирования сети 120.

[0042] На данном этапе идентифицируют множество веб-ресурсов для дальнейшего анализа. Причем стоит отметить, как вычислительное устройство 600 сконфигурировано для сканирования сети 120, не ограничено, и в некоторых неограничивающих вариантах осуществления настоящей технологии, может быть выполнено с использованием любого известного специального программного обеспечения для сканирования сети связи.

[0043] В альтернативных неограничивающих вариантах осуществления настоящей технологии веб-ресурсы могут быть получены вычислительным устройством 600 из базы данных веб-ресурсов, которая может быть, например, размещена внутри вычислительного устройства 600 или коммуникативно подключена к нему через сеть 120.

[0044] Следовательно, способ 200 переходит на этап 220.

ШАГ 220: ПОЛУЧЕНИЕ ИНФОРМАЦИИ, СВЯЗАННОЙ С МНОЖЕСТВОМ ВЕБ-РЕСУРСОВ.

[0045] На этапе 220 согласно определенному неограничивающему варианту осуществления настоящей технологии после получения URL-ссылки на данный веб-ресурс также может быть получена информация, связанная с ним.

[0046] В некоторых неограничивающих вариантах осуществления настоящей технологии вычислительное устройство 600 может быть выполнено с возможностью извлечения информации, связанной с данным веб-ресурсом, включая по крайней мере одно из:

URL-адрес данного веб-ресурса;

HTML код по меньшей мере одной страницы, связанной с данным веб-ресурсом;

скриншот по меньшей одной страницы, связанной с данным веб-ресурсом, и ее хэш сумма;

дата обнаружения данного веб-ресурса; и

регистрационные данные домена, связанные с данным веб-ресурсом, дополнительно включающие по меньшей мере:

дату регистрации и регистратора, имя владельца и контактные данные; IP-адрес; NS сервер; хостинг-провайдер; дату последней активности.

[0047] Кроме того, в некоторых неограничивающих вариантах осуществления настоящей технологии вычислительное устройство 600 может быть сконфигурировано для хранения информации, связанной с данным веб-ресурсом в базе данных веб-ресурсов.

[0048] Согласно некоторым неограничивающим вариантам осуществления настоящей технологии, вычислительное устройство 600 может быть дополнительно сконфигурировано для анализа HTML-кода, по меньшей мере, одной страницы, связанной с данным веб-ресурсом для выявления отличительных признаков, связанных с данный веб-ресурсом.

[0049] В некоторых неограничивающих вариантах осуществления настоящей технологии вычислительное устройство 600 может быть сконфигурировано для проведения анализа HTML-кода с предоставлением страниц веб-ресурса автоматически, например, с использованием специализированного программного обеспечения, которое может обнаружить отличительные признаки, связанные с данным веб-ресурсом

[0050] В дополнительных неограничивающих вариантах осуществления настоящей технологии анализ вычислительным устройством 600 HTML-кода, связанного с веб-ресурсом, может быть выполнен для определения отличительных признаков страниц, связанных с данным веб-ресурсом, которые в дальнейшем могут быть использованы для анализа сходства их паттернов.

[0051] Согласно некоторым неограничивающим вариантам осуществления настоящей технологии, отличительные признаки, выявленные путем анализа HTML-кода, связанного с данной страницей веб-ресурса, могут включать в себя по меньшей мере одно из:

размер по меньшей мере одного блока страницы в пределах по меньшей мере одной страницы, связанной с соответствующим один из множества веб-ресурсов;

положение по меньшей мере одного блока страницы на по меньшей мере одной странице;

заголовок, связанный по меньшей мере с одним блоком страницы;

региональные параметры, связанные как минимум с одной страницей;

по меньшей мере один целевой домен, связанный по меньшей мере с одной страницей веб-ресурса, включая по меньшей мере одно из:

ссылки, размещенные как минимум на одной странице, и связанные с ними типы переходов, при этом типы переходов дополнительно включают в себя, по меньшей мере, одно из: прямой переход и переход с перенаправлением;

контактные данные - например, контактные данные, связанные с регистратором по меньшей мере одной страницы, связанной с указанными веб-ресурсами, или размещенная на них;

паттерны путей к соответствующим структурным элементам по меньшей мере одной страницы и стилей связанный ней; и

название каждого из соответствующих структурных элементов.

[0052] В некоторых неограничивающих вариантах осуществления настоящей технологии каждый из вышеупомянутых отличительных признаков может быть представлен соответствующей последовательностью байтов в HTML-коде по меньшей мере одной страницы или может содержать последовательность байтов, указывающих на один из брендов и/или фишинговую цель данного веб-ресурса.

[0053] В некоторых неограниченных вариантах осуществления настоящей технологии вычислительное устройство 600 может быть сконфигурировано для хранения в базе данных веб-ресурсов хэш-значения по меньшей мере одной страницы, связанной с данным веб-ресурсом

[0054] Следует четко понимать, что в соответствии с неограничивающими вариантами осуществления в настоящей технологии значение хеш-функции может быть получено с использованием любого подходящего алгоритма хеширования, например, такого как универсальная хеш-функция, некриптографическая хеш-функция, криптографическая хеш-функция с ключом и тому подобное.

[0055] В контексте настоящего описания, снимок экрана (или скриншот) данной веб-страницы означает графическое представление (например, изображение) содержимого данной веб-страницы. Такое графическое представление может быть сохранено в виде файла в базах данных веб-ресурсов, связанных с вычислительным устройством 600. Кроме того, данные, указывающие на снимок экрана, вместе со связанными значениями хеш-функции, могут использоваться для определения коэффициента аффилированности, связанного с этими параметрами. Снимки экрана можно сравнивать как побитово, так и на основе значений хеш-функций связанных страниц.

[0056] В некоторых неограниченных вариантах осуществления настоящей технологии, вычислительное устройство 600 может быть дополнительно сконфигурировано для определения регистрационных данных домена, включающих, по меньшей мере, одно из: дату регистрации, регистратора, владельца (например, имя и контактные данные).

[0057] Следует отметить, что способы определения регистрационных данных домена не ограниченны; тем не менее, в конкретных неограничивающих вариантах осуществления настоящей технологии, для определения регистрационных данных домена вычислительное устройство 600 может быть выполнено с возможностью доступа через сеть 120 к службе поиска доменов WHOIS. Как правило, служба поиска доменов WHOIS может быть настроена на предоставление в ответ на соответствующий запрос WHOIS подробной информации о домене данного веб-ресурса, включая, но не являясь ограничением: дату и время регистрации, дату и время истечения срока домена, текущий DNS-сервер домена, его статусы, а также информацию о регистраторе, который владеет доменным именем, причем если доменное имя не существует, в ответ на соответствующий запрос WHOIS может указываться, что доменное имя не было найдено. В определенных сценариях, если доменная зона не предоставляет информацию о имени владельце домена, в ответе на соответствующий запрос WHOIS, служба поиска доменов WHOIS может быть настроена на запрос этой информации у регистратора домена.

[0058] Следовательно, способ 200 переходит к этапу 230.

ШАГ 230: НА ОСНОВЕ ИНФОРМАЦИИ, ДЛЯ КАЖДОГО ИЗ МНОЖЕСТВА ВЕБ-РЕСУРСОВ, ГЕНЕРАЦИЯ СООТВЕТСТВУЮЕГО ПАТТЕРНА.

[0059] На этапе 230, после извлечения необходимой информации, связанной с данным веб-ресурсом, вычислительное устройство 600 может дополнительно быть настроено для генерации соответствующего паттерна для данного веб-ресурса.

[0060] В некоторых неограничивающих вариантах осуществления настоящей технологии соответствующий паттерн для заданных веб-ресурсов может содержать матрицу отличительных признаков, связанных с данным веб-ресурсом.

[0061] Со ссылкой на фиг.3 изображена принципиальная схема паттерна 302, сгенерированного вычислительным устройством 600 для данного веб-ресурса, в соответствии с некоторыми неограничивающими вариантами осуществления настоящей технологии.

[0062] Как можно понять, паттерн 302 был сгенерирован вычислительным устройством 600 на основе полученной информации во время анализа данного веб-ресурса, учитывая выявленные отличительные признаки, связанные с этим.

[0063] Как упоминалось ранее, в некоторых неограничивающих вариантах осуществления настоящей технологии, информация, связанная с данным веб-ресурсом, может включать в себя: положение и размер по меньшей мере одного блока страницы в пределах по меньшей мере одной веб страницы, связанной с данным веб-ресурсом.

[0064] Ниже приведен пример выдержки из HTML-кода по меньшей мере одной страницы, связанной с данным веб-ресурсом относительно позиции «block_1»:

#block_1 {

top: 82px; /* Расстояние от верхнего края */

left: 170px; /* Расстояние от левого края */

right: 73px /* Расстояние от правого края */

bottom: 0/* Расстояние снизу */

height: 80px; /* Высота*/

width: 150px; /*Ширина*/

}

[0065] В приведенном примере показано позиционирование блока_1 (block_1) на странице веб-ресурса, а именно он расположен на расстоянии 82 пикселя от верхнего края, 170 пикселей от левого края, 73 пикселя от правого края и 0 пикселей внизу страницы веб-ресурса, а также имеющий ширину 150 пикселей и высоту 80.

[0066] Кроме того, в некоторых неограничивающих вариантах осуществления настоящей технологии информация, связанная с данным веб-ресурсом может включать дату создания веб-ресурса и регистратора домена, связанного с данным веб-ресурсом.

[0067] Например, после запроса WHOIS, сделанного на этапе 220 способа (результаты приведены ниже в таблице 1) можно узнать что домен GROUP-IB.RU был зарегистрирован 14.06.2007, а регистратором данного домена является REGRU-RU

Табл. 1

Домен	GROUP-IB.RU
Сервер DNS
Сервер DNS
Регистратор	REGRU-RU
Дата регистрации	2007-06-14T20:00:00Z
Дата окончания регистрации	2020-06-14T21:00:00Z

[0068] Как упоминалось ранее, в других неограничивающих вариантах осуществления настоящей технологии, вычислительное устройство 600 может быть дополнительно сконфигурировано для извлечения ссылок, размещенных на как минимум одной странице, и типы переходов, связанные с ней, причем типы переходов могут включать по меньшей мере одно из следующего: тип прямого перехода и переход с перенаправлением; и контактные данные, связанные по крайней мере с одной веб-страницей.

[0069] Кроме того, в некоторых неограничивающих вариантах осуществления настоящей технологии соответствующий паттерн может быть сгенерирован на основе любой комбинации отличительных признаков, определенных в шаге 220.

[0070] Поэтому в некоторых неограничивающих вариантах осуществления настоящей технологии паттерн 302, связанный с данными веб-ресурсами, включает в себя, по меньшей мере, один отличительный признак, который должен использоваться для дальнейшего анализа.

[0072] Со ссылкой на фиг. 4А-4В, схематически изображен паттерн аффилированности между двумя аффилированными веб-ресурсами соответственно, причем представлен пример аффилированности первой веб страницы 402 (изображенной на фиг. 4А) и второй веб страницы 404 (изображенной на фиг. 4В), в соответствии с некоторыми неограничивающими вариантами осуществления настоящей технологии

[0073] Кроме того, со ссылкой на фиг. 4С изображен общий паттерн 406, который сгенерирован вычислительным устройством 600 для первой веб страницы 402 и второй веб страницы 404, изображенных на фиг.4А и 4В, соответственно, на основе анализа их аффилированности в соответствии с определенным неограничивающими вариантами осуществления настоящей технологии.

[0074] В соответствии с некоторыми неограничивающими вариантами осуществления настоящей технологии первая страница 402 и вторая страница 404 могут иметь аналогичные соответствующие паттерны (помечены), однако настоящая технология подразумевает, что паттерны сравниваемых страниц могут отличаться в пределах определенного доверительного интервала. В связи с этим на основе анализа аффилированности паттерна, описанное здесь ниже в отношении этапа 240 способа 200, подразумевает что вычислительное устройство 600 может быть дополнительно сконфигурировано для генерации общего шаблона 406 для первой веб страницы 402, и второй веб страницы 404, тем самым предопределяя связь между ними. В некоторых неограничивающих вариантах осуществления настоящей технологии, общий шаблон 406 может быть дополнительно изменен и обновлен, если это необходимо, например, при идентификации новых отличительных атрибутов, связанных с первой веб страницей и второй веб страницей, в качестве примера, как будет описано ниже.

[0075] Таким образом, способ 200 далее переходит к этапу 240.

ШАГ 240: ОСНОВЫВАЯСЬ НА СООТВЕТСТВУЮЩЕМ ПАТТЕРНЕ, ГРУППИРУЮТ МНОЖЕСТВО ВЕБ-РЕСУРСОВ ВО МНОЖЕСТВО КЛАСТЕРОВ, ОСНОВЫВАЯСЬ НА АФИЛИРОВАННОСТИ ИХ ПАТТЕРНОВ;

[0076] На этапе 240 множество веб-ресурсов, полученных на этапе 220 способа 200, дополнительно группируются (или иным образом кластеризуются) на основе заранее определенного параметра, указывающего на аффилированность соответствующих им паттернов.

[0077] С этой целью вычислительное устройство 600 может быть выполнено с возможностью определения для множества веб ресурсов, набора отличительных параметров, которые должны быть включены в соответствующий паттерн.

[0078] В соответствии с некоторыми неограничивающими вариантами осуществления настоящей технологии, вычислительное устройство 600 может быть выполнено с возможностью определения набора отличительных признаков на основе связанной с ними степени характерности для данного ресурса.

[0079] В некоторых неограничивающих вариантах осуществления настоящей технологии для определения степени характерности каждого из отличительных признаков, связанных с данным веб-ресурсом, может использоваться заданный параметр R. В этих вариантах осуществления предварительно заданный параметр характерности R может быть определен посредством экспериментальных способов с использованием тестовых выборок в целях определения отличительных признаков для предопределенных кластеров веб-ресурсов как можно точнее. В некоторых не ограничивающих вариантах осуществления настоящей технологии заданный параметр характерности R может определяется алгоритмом машинного обучения, обученным на основе тестовых выборок.

[0080] В соответствии с некоторыми неограничивающими вариантами осуществления настоящей технологии, заданный параметр характерности R может быть выбран так, чтобы превышать максимальный размер группы веб-ресурсов. Например, значение заданного параметра характерности R также может быть рассчитано по следующей формуле:

R = 0,7 ∙ V, (1)

где V — это объем базы данных веб-ресурсов, связанных с вычислительным устройством 600.

[0081] Кроме того, следует отметить, что другие коэффициенты, например, такие как 0,3, 0,5, 0,8 или 1,2 также могут использоваться для определения значения заранее определенного параметра характерности R в зависимости от конкретной реализации настоящей технологии.

[0082] Кроме того, для каждого отличительного признака вычислительное устройство 600 может быть сконфигурировано для определения соответствующего значения p, которое показывает сколько ресурсов из сохраненных в базе данных веб ресурсов связаны этим признаком.

[0083] Кроме того, соответствующее значение p может быть выбрано таким образом, чтобы оно не превышало значение заранее определенного параметра характерности R, который соответствует предполагаемому максимальному размеру данной группы веб-ресурсов, то есть соответствующее значение p может удовлетворять следующему неравенству:

p _i<R (2).

[0084] Кроме того, эти отличительные признаки, связанные с соответствующими значениями р, которые меньше значения R могут считаться (достаточно) отличительными для данного ресурса и, таким образом, будут выбраны в наборе отличительных признаков для генерации соответствующего паттерна.

[0085] Таким образом, в некоторых неограничивающих вариантах осуществления настоящей технологии, соответствующий паттерн в том числе может содержать матрицу отличительных признаков, связанных с данным веб-ресурсом. Таким образом, вычислительное устройство 600 может быть сконфигурировано для генерации соответствующей матрицы для каждого из множества веб-ресурсов, определенных на этапе 220 способа 200 как описано выше.

[0086] Кроме того, в некоторых неограничивающих вариантах осуществления настоящей технологии вычислительное устройство 600 может быть сконфигурировано для анализа соответствующих матриц, связанных между собой множества веб-ресурсов. В итоге, в некоторых неограничивающих вариантах осуществления настоящей технологии анализ может содержать по меньшей мере сравнение соответствующих матриц между собой, причем сравнение матриц друг с другом происходит с помощью методов взаимной корреляции.

[0087] В контексте настоящего описания термин «метод взаимной корреляции» относится к области теории вероятности и статистики, а именно относится к методу определения сходства между записями двух наборов данных, таких как отличительные признаки соответствующих матриц связанных с двумя веб-ресурсами - например, путем построения функции взаимной корреляции, описывающей сходство между двумя наборами данных.

[0088] Таким образом, в соответствии с некоторыми неограничивающими вариантами осуществления настоящей технологии, вычислительное устройство 600 может быть выполнено с возможностью определения пропорции соответствия отличительных признаков между двумя данными веб-ресурсами, тем самым определяя отношения аффилированности между ними, т. о. доля совпадающих признаков принимается за коэффициент аффилированности ресурсов.

[0089] Как правило, соответствующие матрицы могут быть разных размеров. В данной ситуации коэффициент аффилированности может быть рассчитан как соотношение между количеством совпадающих отличительных признаков, связанных с данным веб ресурсом и количеством отличительных признаков, связанных с одним из множества веб-ресурсов в наименьшем паттерне, т.е в данном случае коэффициент аффилированности считается как отношение количества совпадающих признаков к количеству признаков в наименьшем паттерне.

[0090] В некоторых неограничивающих вариантах осуществления настоящей технологии вычислительное устройство 600 может быть выполнено с возможностью применять метод взаимной корреляции одновременно для, по меньшей мере, нескольких из множества веб-ресурсов. В других не ограничивающих вариантах осуществления настоящей технологии вычислительное устройство 600 может быть выполнено с возможностью применять метод взаимной корреляции поэтапно к каждой паре множества веб-ресурсов.

[0091] Таким образом, посредством этого, согласно некоторым неограничивающим вариантам осуществления настоящей технологии, вычислительное устройство 600 может быть сконфигурировано для генерации множества кластеров для группировки в нем множества веб-ресурсов.

[0092] Следовательно, способ 200 переходит к этапу 250.

[0093] Наконец, согласно некоторым неограничивающим вариантам осуществления настоящей технологии на этапе 250 вычислительное устройство 600 может быть настроено для хранения множества кластеров веб-ресурсов в одной из баз данных веб-ресурсов, связанной с вычислительным устройством 600, и/или внутренней базы данных системы 100.

[0094] Этап обучения способа 200, следовательно, заканчивается.

[0095] Согласно некоторым неограничивающим вариантам осуществления настоящей технологии, сгенерированное множество кластеров для множества веб-ресурсов хранится на вычислительном устройстве 600, которое может быть дополнительно сконфигурировано для определения принадлежности нового веб-ресурса к такому уже идентифицированному множеству кластеров. С этой целью вычислительное устройство 600 может быть сконфигурировано для выполнения рабочего этапа способа 300, блок-схема которого изображена на фиг.5.

ШАГ 310: ПОЛУЧЕНИЕ ССЫЛКИ URL-АДРЕСА ВЕБ- РЕСУРСА.

[0096] На этапе 310 вычислительное устройство может быть сконфигурировано для приема нового URL-адреса, связанного с новым веб-ресурсом, который будет проанализирован на предмет принадлежности к множеству кластеров веб-ресурсов. Вычислительное устройство 600 может быть сконфигурировано для приема нового URL адреса как описано выше в отношении реализации этапа 210 подготовительного этапа способа 200.

ШАГ 320: ИЗВЛЕЧЕНИЕ ИНФОРМАЦИИ О ЗАДАННОМ ВЕБ-РЕСУРСЕ.

[0097] Далее, на шаге 320, извлекается информация о новом веб-ресурсе. Основываясь на этой информации, вычислительное устройство 600 может быть сконфигурировано таким образом, чтобы идентифицировать отличительные признаки, связанные с новым веб-ресурсом аналогично тому, что описано выше в отношении этапа 220 подготовительного этапа способа 200.

ШАГ 330: ГЕНЕРАЦИЯ НОВОГО ШАБЛОНА ЗАДАННОГО ВЕБ-РЕСУРСА.

[0098] На основе полученной информации на этапе 330 вычислительное устройство 600 может быть дополнительно сконфигурировано для генерации нового шаблона, связанного с новым заданным веб-ресурсом, расположенным по адресу новой URL-ссылки, полученной на этапе 310 рабочего этапа способа 300.

ШАГ 340: АНАЛИЗ АФФИЛИРОВАННОСТИ НОВОГО ПАТТЕРНА С ПАТТЕРНАМИ, СВЯЗАННЫМИ С МНОЖЕСТВОМ КЛАСТЕРОВ ВЕБ-РЕСУРСОВ.

[0099] Таким образом, на этапе 340 вычислительное устройство 600 может быть сконфигурировано для анализа нового паттерна по сравнению с каждым из соответствующих паттернов, связанных со множеством кластеров веб-ресурсов, хранящихся в базе данных веб-ресурсов, связанной с вычислительным устройством 600, и будучи идентифицированными посредством выполнения этапа обучения способа 200.

350 ШАГ: РАСЧЕТ КОЭФФИЦИЕНТА АФФИЛИРОВАННОСТИ ПАТТЕРНА ВЕБ РЕСУРСА С ПАТТЕРНОМ КАЖДОГО ИЗ МНОЖЕСТВА КЛАСТЕРОВ

[0100] На этапе 350 вычислительное устройство 600 может быть сконфигурировано для расчёта соответствующего коэффициента аффилированности между новым шаблоном страницы веб ресурса и теми, которые связаны с множеством кластеров.

ШАГ 360: В ОТВЕТ НА КОЭФФИЦИЕНТ АФФИЛИРОВАННОСТИ, ПРЕВЫШАЮЩИЙ ЗАРАНЕЕ ЗАДАННОЕ ПОРОГОВОЕ ЗНАЧЕНИЕ, ОПРЕДЕЛЯЮТ ПРИНАДЛЕЖНОСТЬ ПАТТЕРНА ВЕБ РЕСУРСА К ОДНОМУ КОНКРЕТНОМУ ИЗ МНОЖЕСТВА КЛАСТЕРОВ.

[0101] Далее, на этапе 360, в ответ на рассчитанный коэффициент аффилированности между новым паттерном и каждым из паттернов конкретных кластеров, который превышает заранее заданное пороговое значение, вычислительное устройство 600 может быть выполнено с возможностью определения нового паттерна нового веб ресурса, как связанного с конкретным одним из множества кластеров. И наоборот, если соответствующий коэффициент аффилированности не превышает предварительно определенного порогового значения, новый шаблон может быть идентифицирован как не связанный ни с одним из множества кластеров.

ШАГ 370: ОБНОВЛЕНИЕ МНОЖЕСТВА КЛАСТЕРОВ, ХРАНЯЩИХСЯ В БАЗЕ ДАННЫХ НА ОСНОВЕ ЗАДАННОГО ВЕБ-РЕСУРСА

[0102] Наконец, на этапе 370 вычислительное устройство 600 может быть сконфигурировано для обновления конкретного из множества кластеров и соответствующего шаблона, связанного с ним, например, на основе отличительных признаков, связанных с новым веб-ресурсом.

[0103] В дополнительных неограниченных вариантах осуществления настоящей технологии вычислительное устройство 600 может быть сконфигурировано для формирования подробного аналитического отчета, включающего данные, свидетельствующие о принадлежности нового веб-ресурса относительно каждого из множества кластеров.

[0104] Следовательно, рабочий этап способа 300 завершается.

[0105] Со ссылкой на Фиг.6 изображен пример функциональной схемы вычислительного устройства 600, конфигурируемого для реализации определенных неограничивающих вариантов осуществления вычислительного устройства (600) на основе современных технологий.

[0106] В общем случае устройство (600) содержит такие компоненты, как: один или более процессоров (601), по меньшей мере одну память (602), средство хранения данных (603), интерфейсы ввода/вывода (604), средство В/В (605), средства сетевого взаимодействия (606).

[0107] Процессор (601) устройства выполняет основные вычислительные операции, необходимые для функционирования устройства (600) или функциональности одного или более его компонентов. Процессор (601) исполняет необходимые машиночитаемые команды, содержащиеся в оперативной памяти (602).

[0108] Память (602), как правило, выполнена в виде ОЗУ и содержит необходимую программную логику, обеспечивающую требуемый функционал.

[0109] Средство хранения данных (603) может выполняться в виде HDD, SSD дисков, рейд массива, сетевого хранилища, флэш-памяти, оптических накопителей информации (CD, DVD, MD, Blue-Ray дисков) и т.п. Средство (603) позволяет выполнять долгосрочное хранение различного вида информации, например, вышеупомянутых документов с наборами данных пользователей, базы данных, содержащих записи измеренных для каждого пользователя временных интервалов, идентификаторов пользователей и т.п.

[0110] Интерфейсы (604) представляют собой стандартные средства для подключения и работы с серверной частью, например, USB, RS232, RJ45, LPT, COM, HDMI, PS/2, Lightning, FireWire и т.п.

[0111] Выбор интерфейсов (604) зависит от конкретного исполнения устройства (600), которое может представлять собой персональный компьютер, мейнфрейм, серверный кластер, тонкий клиент, смартфон, ноутбук и т.п.

[0112] В качестве средств В/В данных (605) в любом воплощении системы, реализующей описываемый способ, должна использоваться клавиатура. Аппаратное исполнение клавиатуры может быть любым известным: это может быть, как встроенная клавиатура, используемая на ноутбуке или нетбуке, так и обособленное устройство, подключенное к настольному компьютеру, серверу или иному компьютерному устройству. Подключение при этом может быть, как проводным, при котором соединительный кабель клавиатуры подключен к порту PS/2 или USB, расположенному на системном блоке настольного компьютера, так и беспроводным, при котором клавиатура осуществляет обмен данными по каналу беспроводной связи, например, радиоканалу, с базовой станцией, которая, в свою очередь, непосредственно подключена к системному блоку, например, к одному из USB-портов. Помимо клавиатуры, в составе средств В/В данных также может использоваться: джойстик, дисплей (сенсорный дисплей), проектор, тачпад, манипулятор мышь, трекбол, световое перо, динамики, микрофон и т.п.

[0113] Средства сетевого взаимодействия (606) выбираются из устройства, обеспечивающий сетевой прием и передачу данных, например, Ethernet карту, WLAN/Wi-Fi модуль, Bluetooth модуль, BLE модуль, NFC модуль, IrDa, RFID модуль, GSM модем и т.п. С помощью средств (606) обеспечивается организация обмена данными по проводному или беспроводному каналу передачи данных, например, WAN, PAN, ЛВС (LAN), Интранет, Интернет, WLAN, WMAN или GSM.

[0114] Компоненты устройства (600) сопряжены посредством общей шины передачи данных (610).

[0115] В настоящих материалах заявки было представлено предпочтительное раскрытие осуществление заявленного технического решения, которое не должно использоваться как ограничивающее иные, частные воплощения его реализации, которые не выходят за рамки испрашиваемого объема правовой охраны и являются очевидными для специалистов в соответствующей области техники.

Claims

1. Способ определения принадлежности веб-ресурса к кластерам аффилированных веб-ресурсов, выполняющийся на вычислительном устройстве, имеющем, по меньшей мере, процессор и память, которая хранит исполняемые инструкции, способ, в котором:

на этапе обучения:

производят поиск информации, связанной с каждым из множества веб-ресурсов;

на основе информации, связанной с каждым из множества веб-ресурсов, генерируют соответствующие паттерны каждого из множества веб-ресурсов;

на основе сгенерированных паттернов производят группировку множества веб-ресурсов во множество кластеров, причем группировка основана на аффилированности множества паттернов веб-ресурсов;

на рабочем этапе:

получают URL ссылку на ранее не исследованный веб-ресурс;

производят поиск информации о данном ранее не исследованном веб-ресурсе;

генерируют новый паттерн данного ранее не исследованного веб-ресурса;

вычисляют коэффициент аффилированности паттерна данного ранее не исследованного веб-ресурса с каждым из множества кластеров;

в ответ на превышение коэффициентом аффилированности паттерна с одним из множества кластеров заранее заданного порогового значения связывают данный ранее не исследованный веб-ресурс с одним конкретным кластером из множества кластеров веб-ресурсов;

обновляют множество кластеров, хранящихся в базе данных, на основе аффилированности данного веб-ресурса.

2. Способ по п. 1, в котором соответствующий паттерн содержит матрицу отличительных признаков, связанных с соответствующим одним из множества веб-ресурсов, идентифицированных с помощью анализа информации, связанной с множеством веб-ресурсов.

3. Способ по п. 2, в котором отличительные признаки связаны с соответствующим одним из множества веб-ресурсов и содержат по меньшей мере одно из:

заголовок, связанный по меньшей мере с одним блоком страницы; параметры области, связанные по меньшей мере с одной страницей;

по меньшей мере один целевой домен, связанный по меньшей мере с одной страницей, причем дополнительно определяют по меньшей мере одно из: ссылки, размещенные как минимум на одной странице и ведущие на целевой домен, и связанные с ними типы переходов, причем тип перехода может быть по меньшей одним из: напрямую или через перенаправление;

контактную информацию;

шаблоны путей к соответствующим структурным элементам по меньшей мере одной страницы и стилям, связанный с ними; и названия структурных элементов.

4. Способ по п. 2, в котором информация, связанная с множеством веб-ресурсов, включает в себя для данного веб-ресурса по меньшей мере одно из: URL данного веб-ресурса; HTML-код, связанный с данным веб-ресурсом; скриншот хотя бы одной веб-страницы, связанной с данной страницей веб-ресурса, и ее хеш-значение; дата обнаружения данного веб-ресурса и данные регистрации домена, связанные с данным веб-ресурсом, в том числе: дату регистрации, регистратора, имя владельца и контактные данные; IP-адрес; NS сервер; хостинг-провайдер; последняя дата активности.

5. Способ по п. 2, в котором матрица отличительных признаков содержит по меньшей мере один отличительный признак, связанный с соответствующим одним из множества веб-ресурсов.

6. Способ по п. 2, в котором каждый из отличительных признаков был выбран на основе предварительно определенного параметра характерности R, причем предварительно определенный параметр характерности указывает на максимальное пороговое значение степени характерности данного отличительного признака для его использования.

7. Способ по п. 6, в котором отличительность выбранного характерного признака определяется на основе следующего неравенства pi<R, где p показывает число ресурсов во множестве веб-ресурсов, связанных данным характерным признаком.

8. Способ по п. 1, в котором вычисление коэффициента аффилированности дополнительно содержит вычисление количества отличительных характерных признаков, связанных с данным веб-ресурсом, которые похожи на те, которые связаны с одним из множества кластеров.

9. Способ по п. 1, в котором анализ аффилированности нового паттерна с паттернами, связанными с множеством кластеров, дополнительно содержит применение метода перекрестной корреляции.

10. Система для определения принадлежности веб-ресурса к множеству кластеров аффилированных веб-ресурсов, причем система содержит вычислительное устройство, которое дополнительно включает:

процессор;

постоянный машиночитаемый носитель, который хранит инструкции, при исполнении которых процессор выполнен с возможностью осуществлять:

на этапе обучения:

сканирование сети связи для обнаружения множества веб-ресурсов;

поиск информации, связанной с каждым из множества веб-ресурсов;

генерацию соответствующих паттернов каждого из множества веб-ресурсов на основе информации, связанной с каждым из множества веб-ресурсов;

группировку множества веб-ресурсов во множество кластеров на основе сгенерированных паттернов веб-ресурсов, причем группировка основана на аффилированности паттернов множества веб-ресурсов;

сохранение указанного множества кластеров веб-ресурсов в памяти;

на рабочем этапе:

получение URL ссылки на ранее не исследованный веб-ресурс;

поиск информации о данном ранее не исследованном веб-ресурсе;

генерацию нового паттерна данного ранее не исследованного веб-ресурса;

анализ аффилированности нового паттерна ранее не исследованного веб-ресурса с паттернами, связанными с множеством кластеров веб-ресурсов;

вычисление коэффициента аффилированности паттерна данного ранее не исследованного веб-ресурса с каждым из множества кластеров веб-ресурсов;

в ответ на превышение коэффициентом аффилированности паттерна с одним из множества кластеров заранее заданного порогового значения, связывание данного ранее не исследованного веб-ресурса с одним конкретным кластером из множества кластеров веб-ресурсов;

обновление множества кластеров, хранящихся в базе данных, на основе аффилированности данного веб-ресурса.