WO2021075995A1

WO2021075995A1 - Способ формирования поисковой выдачи в рекламном виджите

Info

Publication number: WO2021075995A1
Application number: PCT/RU2019/000741
Authority: WO
Inventors: Андрей Владимирович КОРХОВ; Алексей Николаевич АРХИПЕНКО; Михаил Александрович БЕБИШЕВ
Original assignee: Общество С Ограниченной Ответственностью "Сарафан Технологии"
Priority date: 2019-10-16
Filing date: 2019-10-16
Publication date: 2021-04-22
Also published as: US20220261856A1

Abstract

Настоящее техническое решение относится к области вычислительной техники, в частности, к способу формирования поисковой выдачи в рекламном виджете. Технический результат заключается в достоверности распознавания объектов с контекстно- медийного сайта для автоматического поиска релевантных товаров в электронных каталогах магазинов. Реализуемый компьютером способ формирования поисковой выдачи в рекламном виджете, заключающийся в выполнении этапов, на которых с помощью по меньшей мере одной нейронной сети (НС): - принимают изображение и текстовое описание, полученные с контекстно-медийного сайта; - обрабатывают полученное изображение исследуемой области путем обнаружения объектов на изображении, выделяют признаки объектов на изображении; - анализируют выделенные признаки, и на основе анализа осуществляет выделение обнаруженных объектов для разделения их на классы; - выделяют признаки текстового описания; - используя признаки объектов на изображении и признаки текстового описания вычисляют вектора, соответствующие объектам в семантическом пространстве; - используют полученную комбинацию векторов для поиска релевантных товаров в электронных каталогах магазинов; - формируют поисковую выдачу в рекламном виджете.

Description

СПОСОБ ФОРМИРОВАНИЯ ПОИСКОВОЙ ВЫДАЧИ В РЕКЛАМНОМ

ВИДЖЕТЕ

ОБЛАСТЬ ТЕХНИКИ

Настоящее техническое решение относится к области вычислительной техники, в частности, к способу формирования поисковой выдачи в рекламном виджете.

УРОВЕНЬ ТЕХНИКИ

Из уровня техники известна система ранжирования по подобию и её применению в рекомендательных системах, которая раскрыта в патентной заявке WO2018/148493 А1, опубл. 2018-08-16.

Недостатками данного решения является то, что в ней отсутствует использование детектора перед применением нейросети для вычисления векторного представления. Использование детектора даёт существенное более качественные векторные представления за счёт отсечения фона и других объектов, которые могут присутствовать на изображении. Кроме того, в данном решении метод генерации триплетов основан на использовании случайного объекта как отрицательного примера без дополнительного уточнения каким образом выбирается этот случайный объект. Если просто выбирать произвольный случайный объект, то обучение будет крайне неэффективным. Большинство триплетов будет классифицироваться правильно на ранних стадиях обучения и не будет давать никакого прироста качества векторного представления. При этом, эффективность обучения сильно замедлится.

Кроме того, в известном решении существенным недостатком является то, что в нем распознают только изображения, а текстовые описания игнорируются.

СУЩНОСТЬ ИЗОБРЕТЕНИЯ

Данное техническое решение направлено на устранение недостатков, присущих существующим решениям.

Технической проблемой, на решение которой направлено заявленное техническое решение, является создание компьютерно-реализуемого способа формирования поисковой выдачи в рекламном виджете, который охарактеризован в независимом пункте формулы. Дополнительные варианты реализации настоящего изобретения представлены в зависимых пунктах изобретения.

Технический результат заключается в достоверности распознавания объектов с контекстно- медийного сайта для автоматического поиска релевантных товаров в электронных каталогах магазинов.

В предпочтительном варианте реализации заявлен: реализуемый компьютером способ формирования поисковой выдачи в рекламном виджете, заключающийся в выполнении этапов, на которых с помощью по меньшей мере одной нейронной сети (НС): - принимают изображение и текстовое описание, полученные с контекстно-медийного сайта;

- обрабатывают полученное изображение исследуемой области путем обнаружения объектов на изображении, выделяют признаки объектов на изображении;

- анализируют выделенные признаки, и на основе анализа осуществляет выделение обнаруженных объектов для разделения их на классы;

- выделяют признаки текстового описания;

- используя признаки объектов на изображении и признаки текстового описания вычисляют вектора, соответствующие объектам в семантическом пространстве;

- используют полученную комбинацию векторов для поиска релевантных товаров в электронных каталогах магазинов;

- формируют поисковую выдачу в рекламном виджете.

В частном варианте выделение обнаруженных объектов осуществляют ограничивающими прямоугольниками.

В другом частном варианте признаки исходного изображения, не относящиеся к выделенному объекту, подавляются с помощью выделения объекта по контуру.

В другом частном варианте классификаторы формируют на этапе обучения с использованием обучающей выборки, генерируя оптимальные классификаторы.

В другом частном варианте для анализа выделенных признаков применяют нейронную сеть с архитектурой Mask R-CNN. В другом частном варианте для вычисления вектора в семантическом пространстве используется обученная на триплетах нейронная сеть.

В другом частном варианте дополнительно применяют нейронную сеть для классификации качества изображения.

В другом частном варианте отображают пользователю релевантные товары с возможностью перейти на конкретную страницу товара для покупок

ОПИСАНИЕ ЧЕРТЕЖЕЙ

Реализация изобретения будет описана в дальнейшем в соответствии с прилагаемыми чертежами, которые представлены для пояснения сути изобретения и никоим образом не ограничивают область изобретения. К заявке прилагаются следующие чертежи:

Фиг. 1 иллюстрирует компьютерно-реализуемый способ формирования поисковой выдачи в рекламном виджете;

Фиг. 2 иллюстрирует схему анализа контента с контекстно-медийного сайта;

Фиг. 3 иллюстрирует схему анализа каталога товаров;

Фиг. 4 иллюстрирует структуру заявленного решения;

Фиг. 5 иллюстрирует пример общей схемы компьютерного устройства.

ДЕТАЛЬНОЕ ОПИСАНИЕ ИЗОБРЕТЕНИЯ

В приведенном ниже подробном описании реализации изобретения приведены многочисленные детали реализации, призванные обеспечить отчетливое понимание настоящего изобретения. Однако, квалифицированному в предметной области специалисту, будет очевидно каким образом можно использовать настоящее изобретение, как с данными деталями реализации, так и без них. В других случаях хорошо известные методы, процедуры и компоненты не были описаны подробно, чтобы не затруднять излишне понимание особенностей настоящего изобретения.

Кроме того, из приведенного изложения будет ясно, что изобретение не ограничивается приведенной реализацией. Многочисленные возможные модификации, изменения, вариации и замены, сохраняющие суть и форму настоящего изобретения, будут очевидными для квалифицированных в предметной области специалистов.

Ниже будут описаны понятия и термины, необходимые для понимания данного технического решения. Искусственная нейронная сеть (далее - ИНС) - вычислительная или логическая схема, построенная из однородных процессорных элементов, являющихся упрощенными функциональными моделями нейронов.

Нейрон - это отдельный вычислительный элемент сети; каждый нейрон связан с нейронами предыдущего и следующего слоёв сети. Когда на вход поступает изображение, видео- или аудиофайл, оно последовательно проходит обработку всеми слоями сети. В зависимости от результатов, сеть может изменить свою конфигурацию (веса связей, значения смещений и пр.).

В настоящее время искусственные нейронные сети являются важным инструментом для решения многих прикладных задач. Они уже позволили справиться с рядом непростых проблем и обещают создание новых изобретений, способных решать задачи, которые пока под силу только человеку. Искусственные нейронные сети, также, как и биологические, представляют собой системы, состоящие из огромного количества функционирующих процессоров-нейронов, каждый из которых выполняет какой-либо небольшой объем работ, возложенный на него, при этом обладая большим числом связей с остальными, что и характеризует силу вычислений сети.

Виджет - это небольшой графический элемент или модуль, вставляемый на сайт или выводимый на рабочий стол для отображения важной и часто обновляемой информации.

Контекстно-медийный сайт - система размещения контекстной рекламы и рекламы, учитывающей интересы пользователей, на страницах сайтов-участников партнёрской сети.

Настоящее изобретение направлено на обеспечение компьютерно-реализуемого способа формирования поисковой выдачи в рекламном виджете.

Как представлено на Фиг. 1, заявленный компьютерно-реализуемый способ (100) реализован следующим образом:

На этапе (101) принимают изображение и текстовое описание, полученные с контекстно- медийного сайта.

На этапе (102) обрабатывают полученное изображение исследуемой области путем обнаружения объектов на изображении, выделяют признаки объектов на изображении.

Далее на этапе (103) анализируют выделенные признаки, и на основе анализа осуществляет выделение обнаруженных объектов для разделения их на классы.

После чего на этапе (104) выделяют признаки текстового описания. Используя признаки объектов на изображении и признаки текстового описания на этапе

(105) вычисляют вектора, соответствующие объектам в семантическом пространстве. На этапе (106) используют полученную комбинацию векторов для поиска релевантных товаров в электронных каталогах магазинов. И на этапе (107) формируют поисковую выдачу в рекламном виджете.

На фиг. 2 представлена схема анализа контента с контекстно-медийного сайта, где на первом этапе осуществляют:

1. Получение изображения (201) с сайта;

2. Извлечение признаков изображений с помощью нейросети (203); 3. Анализ выделенных признаков нейросетью обнаружения объектов (205);

4. Выделение объектов ограничивающим прямоугольником (bounding boxes);

5. Выделение объектов по контуру (masks).

На втором этапе осуществляют анализ текста, связанного с изображением (тест статьи, описание изображения): 1. Получение ассоциированного с изображением текста (202) (например, подписи под изображением, текста или заголовка статьи);

2. Извлечение признаков текста с помощью нейросети (204).

На третьем этапе получают результат по итогам процессов на первом и втором этапах:

1. Анализ выделенных признаков нейросетью для классификации (206); 2. Вычисление признаков объекта с помощью нейросети формирования векторного представления объекта (207);

3. Векторное представление объекта (208).

Таким образом, в результате анализа контекстно-медийного сайта для каждого изображения получают набор объектов, каждый из которых характеризуется своим классом и векторным представлением.

На фиг. 3 представлена схема анализа каталога товаров, где на первом этапе осуществляют анализ изображения в продуктовом каталоге:

1. Получение изображения (301) из каталога; 2. Извлечение признаков изображений (303);

3. Определение качества изображения нейросетью (305);

4. Присвоение класса в зависимости от качества изображения;

5. Обнаружение объектов на изображении с помощью детектора объектов (307); 6. Выделение объектов ограничивающим прямоугольником (bounding boxes);

7. Выделение объектов по контуру (masks).

На втором этапе осуществляют анализ текста, связанного с изображением (тест статьи, описание изображения):

1. Получение ассоциированного с изображением текста (302) (например, названия товара, его описания или характеристик);

2. Извлечение признаков текста с помощью нейросети (304).

1. Анализ выделенных признаков нейросетью для классификации (305);

2. Вычисление признаков объекта с помощью нейросети формирования векторного представления объекта (309);

3. Векторное представление товара (310).

В качестве нейросети извлечения признаков изображения может быть использована, например, нейросеть с архитектурой ResNet, ResNeXt, MobileNet и др. в зависимости от требований к производительности системы и качеству поиска. В качестве детектора и классификатора объектов может быть использована сеть с архитектурой Mask R-CNN, что позволяет выделять на изображениях контуры («маски») экземпляров разных объектов, даже если таких экземпляров несколько, они имеют различный размер и частично перекрываются.

Для извлечения признаков текстового описания может быть использована библиотека LASER, которая позволяет использовать тексты на большом количестве языков.

В результате двух вышеописанных процессов получают два вектора для сопоставления объектов из разных источников, проведение анализа соответствия результатов с помощью уникального набора метрик и подстановки результатов в виджет. Ниже приведен способ обучения нейронных сетей заявленного решения.

Постановка задачи

Задача поиска похожих товаров сводится к задаче поиска ближайших векторов в метрическом пространстве (kNN - k-nearest neighbors). Задачи нейросетей: обнаружить интересующие нас объекты на изображениях и отобразить каждый объект в некоторый вектор в пространстве с сохранением подобия. Аналогичный подход применяется в задаче распознавания лиц.

Данные для обучения

Для обучения используется специально собранный и подготовленный набор данных состоящий из 2х миллионов изображений. Этот набор изображений состоит из: фотографий с сайтов, инстаграм и каталогов товаров. Изображениям из каталогов товаров сопоставлены парные изображения из других источников. Пары могут формироваться как из изображений одинаковых товаров, так и похожих. Большая часть изображений имеют текстовые описания.

Для обучения детектора объектов часть этих изображений была размечена полигональными масками объектов. Каждой маске сопоставлен класс объекта. После этого был обучен детектор на основе Mask R-CNN.

Полученный детектор в заявленном решении применили для обнаружения объектов на всех оставшихся изображениях. Далее из пар изображений были сформированы пары объектов на этих изображениях. Каждой паре сопоставлена оценка подобия (rank).

Обучение нейросетей

Как видно из фиг. 2 и фиг. 3, обработка изображения начинается с извлечения признаков, и эта часть нейросети используется во всех остальных этапах. Это создаёт дополнительные сложности при обучении. Для простоты рассмотрим сначала отдельно обучение разных головных частей.

Детектор

Обучение этой части происходит обычным образом как описано в оригинальной статье (Mask R-CNN 2017, https://arxiv.org/abs/1703.06870). Используется подмножество изображений, размеченных масками.

Классификатор Поскольку все маски имеют также и метку класса, то при обучении Mask R-CNN также происходит обучение классификатора. Но для более качественной классификации в заявленном решении используют дополнительные данные о классах автоматически обнаруженных объектов. Этот режим аналогичен обучению детектора за исключением того, что части RPN и mask head не обучаются. Классификатору доступны также предварительно вычисленные признаки текстового описания объекта.

Обучение ранжированию

Нейросеть формирования векторного представления обучается с помощью триплетов и triplet loss (FaceNet 2015, https://arxiv.org/abs/1503.03832). Триплеты генерируются автоматически из имеющихся пар объектов с учётом оценки подобия и состояния нейросети. Положительная пара берётся из базы данных, а отрицательная выбирается случайным образом из результатов поиска с использованием текущей версии нейросети.

Входными данными для нейросети формирования векторного представления являются признаки исходного изображения, приведённые к ограничивающему прямоугольнику объекта (aligned feature maps), маска объекта и признаки текстового описания объекта.

Классификатор качества изображения

Это вспомогательная нейросеть для бинарной классификации изображений товаров. Она используется для выбора наиболее качественной фотографии для показа. Эта сеть обучается на подмножестве изображений, размеченных бинарными классами.

Обучение извлечения признаков

Обучение нейросети извлечения признаков изображения для настолько разнообразных применений представляет собой непростую задачу. Основная сложность состоит в том, что обучение ранжированию с помощью триплетов требует в три раза больше памяти. Поэтому при обучении ранжированию используется облегчённая версия нейросети извлечения признаков.

В целом обучение происходит последовательно под разные головные части. Для каждой головной части выполняется определённое количество шагов, затем головная часть меняется на другую и процесс продолжается.

Структура заявленного решения представлена на фиг. 4. Основными функциональными элементами являются:

1. Пользовательские устройства (401 ); 2. Веб-сервер контекстно-медийного сайта (402);

3. Веб-сервер электронного каталога магазина (403);

4. Веб-сервер формирования виджета (404);

5. Сервер поиска (405);

6. Сервер индексирования (406);

7. База данных (407).

В качестве пользовательского устройства может выступать персональный компьютер, смартфон, телевизор или другие устройства с доступом в интернет. Пользовательское устройство формирует запрос на отображение виджета, получает информацию о содержимом виджета от веб-сервера виджета (404), отображает виджет и осуществляет взаимодействие виджета и пользователя. При выборе товара в виджете пользователь перенаправляется на веб-сервер электронного каталога магазина (403).

Электронный каталог магазина также служит источником информации для сервера индексирования (406), который периодически обновляет информацию о товарах в базе данных (407). При обнаружении новых товаров сервер индексирования выполняет их анализ и вычисляет для них векторные представления.

Формирование виджета происходит на стороне веб-сервера виджета. Возможны несколько сценариев формирования виджета. Рассмотрим наиболее типовые из них.

Сценарий 1

Виджет встраивается в контекстно-медийный сайт и показывает предложения товаров, связанные с фотографиями на этом сайте.

В этом случае анализ сайта происходит в режиме оффлайн. Для каждой фотографии на сайте сервером поиска (405) формируется поисковая выдача, которая сохраняется в базе данных (407). При запросе на отображение виджета поисковая выдача поступает из базы данных без какой-либо ресурсоемкой обработки.

Сценарий 2

Виджет встраивается в сайт или приложение и показывает предложения товаров, связанные с пользовательскими фотографиями, которые могут создаваться в реальном времени. В этом случае формирование поисковой выдачи происходит в режиме онлайн в момент обращения пользовательского устройства к веб-серверу виджета. Веб-сервер виджета обращается к серверу поиска, который выполняет процесс, изображенный на фиг. 1. В зависимости от типа и характеристик пользовательского устройства этапы (101)-(105) процесса анализа контента могут быть перенесены на сторону пользовательского устройства. В этом случае веб-сервер виджета вместо контента принимает только векторные представления объектов.

Сценарий 3

Виджет встраивается в видеопроигрыватель и активируется при постановке видео на паузу или нажатии специальной кнопки. В этом случае анализу может подвергаться не одно изображение, а ряд кадров, предшествующих этому событию. В качестве источника текстовых данных могут быть использованы, например, субтитры или преобразованное в текст звуковое сопровождение. Обработка может происходить как в режиме онлайн, так и оффлайн. Как и в предыдущем случае, существенная часть вычислительной нагрузки может быть перенесена на пользователское устройство.

На Фиг. 5 далее будет представлена общая схема компьютерного устройства (500), обеспечивающего обработку данных, необходимую для реализации заявленного решения.

В общем случае устройство (500) содержит такие компоненты, как: один или более процессоров (501), по меньшей мере одну память (502), средство хранения данных (503), интерфейсы ввода/вывода (504), средство В/В (505), средства сетевого взаимодействия (506).

Процессор (501) устройства выполняет основные вычислительные операции, необходимые для функционирования устройства (500) или функциональности одного или более его компонентов. Процессор (501) исполняет необходимые машиночитаемые команды, содержащиеся в оперативной памяти (502).

Память (502), как правило, выполнена в виде ОЗУ и содержит необходимую программную логику, обеспечивающую требуемый функционал.

Средство хранения данных (503) может выполняться в виде HDD, SSD дисков, рейд массива, сетевого хранилища, флэш-памяти, оптических накопителей информации (CD, DVD, MD, Blue-Ray дисков) и т.п. Средство (503) позволяет выполнять долгосрочное хранение различного вида информации, например, вышеупомянутых файлов с наборами данных пользователей, базы данных, содержащих записи измеренных для каждого пользователя временных интервалов, идентификаторов пользователей и т.п. Интерфейсы (504) представляют собой стандартные средства для подключения и работы с серверной частью, например, USB, RS232, RJ45, LPT, COM, HDMI, PS/2, Lightning, FireWire и т.п.

Выбор интерфейсов (504) зависит от конкретного исполнения устройства (500), которое может представлять собой персональный компьютер, мейнфрейм, серверный кластер, тонкий клиент, смартфон, ноутбук и т.п.

В качестве средств В/В данных (505) в любом воплощении системы, реализующей описываемый способ, должна использоваться клавиатура. Аппаратное исполнение клавиатуры может быть любым известным: это может быть, как встроенная клавиатура, используемая на ноутбуке или нетбуке, так и обособленное устройство, подключенное к настольному компьютеру, серверу или иному компьютерному устройству. Подключение при этом может быть, как проводным, при котором соединительный кабель клавиатуры подключен к порту PS/2 или USB, расположенному на системном блоке настольного компьютера, так и беспроводным, при котором клавиатура осуществляет обмен данными по каналу беспроводной связи, например, радиоканалу, с базовой станцией, которая, в свою очередь, непосредственно подключена к системному блоку, например, к одному из USB- портов. Помимо клавиатуры, в составе средств В/В данных также может использоваться: джойстик, дисплей (сенсорный дисплей), проектор, тачпад, манипулятор мышь, трекбол, световое перо, динамики, микрофон и т.п.

Средства сетевого взаимодействия (506) выбираются из устройства, обеспечивающий сетевой прием и передачу данных, например, Ethernet карту, WLAN/Wi-Fi модуль, Bluetooth модуль, BLE модуль, NFC модуль, IrDa, RFID модуль, GSM модем и т.п. С помощью средств (505) обеспечивается организация обмена данными по проводному или беспроводному каналу передачи данных, например, WAN, PAN, ЛВС (LAN), Интранет, Интернет, WLAN, WMAN или GSM.

Компоненты устройства (500) сопряжены посредством общей шины передачи данных (510).

В настоящих материалах заявки было представлено предпочтительное раскрытие осуществление заявленного технического решения, которое не должно использоваться как ограничивающее иные, частные воплощения его реализации, которые не выходят за рамки испрашиваемого объема правовой охраны и являются очевидными для специалистов в соответствующей области техники.

Claims

Формула

1. Реализуемый компьютером способ формирования поисковой выдачи в рекламном виджете, заключающийся в выполнении этапов, на которых с помощью по меньшей мере одной нейронной сети (НС): - принимают изображение и текстовое описание, полученные с контекстно-медийного сайта;

- выделяют признаки текстового описания;

2. Способ по п.1, характеризующийся тем, что выделение обнаруженных объектов осуществляют ограничивающими прямоугольниками.

3. Способ по п.1, характеризующийся тем, что признаки исходного изображения, не относящиеся к выделенному объекту, подавляются с помощью выделения объекта по контуру.

4. Способ по п.1, характеризующийся тем, что классификаторы формируют на этапе обучения с использованием обучающей выборки, генерируя оптимальные классификаторы.

5. Способ по п.1, характеризующийся тем, что для анализа выделенных признаков применяют нейронную сеть с архитектурой Mask R-CNN.

6. Способ по п.1, характеризующийся тем, что для вычисления вектора в семантическом пространстве используется обученная на триплетах нейронная сеть.

7. Способ по п.1, характеризующийся тем, что дополнительно применяют нейронную сеть для классификации качества изображения.

8. Способ по п.1, характеризующийся тем, что отображают пользователю релевантные товары с возможностью перейти на конкретную страницу товара для покупок.