WO2021075995A1 - Способ формирования поисковой выдачи в рекламном виджите - Google Patents

Способ формирования поисковой выдачи в рекламном виджите Download PDF

Info

Publication number
WO2021075995A1
WO2021075995A1 PCT/RU2019/000741 RU2019000741W WO2021075995A1 WO 2021075995 A1 WO2021075995 A1 WO 2021075995A1 RU 2019000741 W RU2019000741 W RU 2019000741W WO 2021075995 A1 WO2021075995 A1 WO 2021075995A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
objects
features
neural network
search results
Prior art date
Application number
PCT/RU2019/000741
Other languages
English (en)
French (fr)
Inventor
Андрей Владимирович КОРХОВ
Алексей Николаевич АРХИПЕНКО
Михаил Александрович БЕБИШЕВ
Original Assignee
Общество С Ограниченной Ответственностью "Сарафан Технологии"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Общество С Ограниченной Ответственностью "Сарафан Технологии" filed Critical Общество С Ограниченной Ответственностью "Сарафан Технологии"
Priority to PCT/RU2019/000741 priority Critical patent/WO2021075995A1/ru
Priority to US17/627,610 priority patent/US20220261856A1/en
Publication of WO2021075995A1 publication Critical patent/WO2021075995A1/ru

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0641Shopping interfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0277Online advertisement
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0603Catalogue ordering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0895Weakly supervised learning, e.g. semi-supervised or self-supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising

Definitions

  • the present technical solution relates to the field of computing, in particular, to a method for generating search results in an advertising widget.
  • the disadvantages of this solution are that it does not use a detector before using the neural network to calculate the vector representation.
  • the use of the detector gives a significantly higher quality vector representation due to the clipping of the background and other objects that may be present in the image.
  • the triplet generation method is based on using a random object as a negative example without further specifying how this random object is selected. If you just choose an arbitrary random object, then training will be extremely ineffective. Most triplets will be classified correctly in the early stages of learning and will not give any gain in the quality of the vector representation. At the same time, the effectiveness of training will be greatly slowed down.
  • the technical problem to be solved by the claimed technical solution is the creation of a computer-implemented method of generating search results in an advertising widget, which is characterized in an independent claim. Additional embodiments of the present invention are presented in the dependent claims.
  • the technical result consists in the reliability of object recognition from a context-media site for automatic search for relevant goods in electronic store catalogs.
  • a computer-implemented method of generating search results in an advertising widget which consists in performing the steps at which, using at least one neural network (NN): - receive an image and a text description obtained from a context-media site;
  • NN neural network
  • vectors are calculated corresponding to the objects in the semantic space
  • the selection of detected objects is carried out by bounding rectangles.
  • the features of the original image that are not related to the selected object are suppressed by selecting the object along the contour.
  • classifiers are formed at the training stage using a training sample, generating optimal classifiers.
  • a neural network with the Mask R-CNN architecture is used to analyze the extracted features.
  • a neural network trained on triplets is used to compute a vector in the semantic space.
  • a neural network is additionally used to classify the image quality.
  • relevant products are displayed to the user with the ability to go to a specific product page for purchases
  • FIG. 1 illustrates a computer-implemented method of generating search results in an advertising widget
  • FIG. 2 illustrates a diagram for analyzing content from a display site
  • FIG. 3 illustrates an analysis diagram of a product catalog
  • FIG. 4 illustrates the structure of the claimed solution
  • FIG. 5 illustrates an example of a general arrangement of a computing device.
  • An artificial neural network (hereinafter - ANN) is a computational or logical circuit built from homogeneous processing elements, which are simplified functional models of neurons.
  • a neuron is a separate computational element of a network; each neuron is connected to the neurons of the previous and next layers of the network.
  • each neuron is connected to the neurons of the previous and next layers of the network.
  • the network can change its configuration (link weights, offset values, etc.).
  • Artificial neural networks are an important tool for solving many applied problems. They have already made it possible to cope with a number of difficult problems and promise the creation of new inventions capable of solving problems that only man can do so far. Artificial neural networks, just like biological ones, are systems consisting of a huge number of functioning processors-neurons, each of which performs some small amount of work assigned to it, while having a large number of connections with the rest, which characterizes the power of network computing.
  • a widget is a small graphic element or module that is inserted into a website or displayed on the desktop to display important and frequently updated information.
  • Contextual media site is a system for placing contextual advertising and advertising that takes into account the interests of users on the pages of sites-participants of the partner network.
  • the present invention is aimed at providing a computer-implemented method for generating search results in an advertising widget.
  • the claimed computer-implemented method (100) is implemented as follows:
  • step (101) an image and a text description obtained from the contextual media site are received.
  • the obtained image of the investigated area is processed by detecting objects in the image, and features of objects in the image are distinguished.
  • step (103) the selected features are analyzed, and on the basis of the analysis, the detected objects are extracted to separate them into classes.
  • step (104) the features of the text description are distinguished. Using the signs of objects in the image and signs of a text description at the stage
  • step (106) calculate vectors corresponding to objects in the semantic space.
  • step (106) the obtained vector combination is used to search for relevant goods in electronic store catalogs.
  • step (107) the search results are generated in the advertising widget.
  • FIG. 2 shows a diagram of content analysis from a contextual media site, where at the first stage they carry out:
  • the text associated with the image is analyzed (article test, image description): 1. Obtaining the text associated with the image (202) (for example, an image caption, text or article title);
  • the result is obtained based on the results of the processes at the first and second stages:
  • FIG. 3 shows a diagram of the analysis of the catalog of goods, where, at the first stage, the image in the product catalog is analyzed:
  • the result is obtained based on the results of the processes at the first and second stages:
  • a neural network for image feature extraction for example, a neural network with the architecture of ResNet, ResNeXt, MobileNet, etc. can be used, depending on the requirements for system performance and search quality.
  • a network with the Mask R-CNN architecture can be used, which makes it possible to highlight the contours ("masks") of instances of different objects in the images, even if there are several such instances, they have different sizes and partially overlap.
  • the LASER library can be used, which allows using texts in a large number of languages.
  • the task of finding similar goods is reduced to the task of finding the nearest vectors in the metric space (kNN - k-nearest neighbors).
  • the tasks of neural networks are to detect objects of interest to us in images and map each object into a certain vector in space while maintaining similarity. A similar approach is used in the face recognition problem.
  • a specially collected and prepared dataset consisting of 2 million images is used for training.
  • This set of images consists of: photos from websites, instagram and product catalogs. Images from product catalogs are matched with paired images from other sources. Pairs can be formed both from images of the same products, and similar ones. Most of the images have text descriptions.
  • the resulting detector in the claimed solution was used to detect objects in all remaining images. Then, pairs of objects in these images were formed from pairs of images. A similarity score (rank) is associated with each pair.
  • image processing begins with feature extraction, and this part of the neural network is used in all other stages. This creates additional learning difficulties. For the sake of simplicity, let's first consider the training of different warheads separately.
  • the vector representation formation neural network is trained using triplets and triplet loss (FaceNet 2015, https://arxiv.org/abs/1503.03832). Triplets are generated automatically from the existing pairs of objects, taking into account the similarity assessment and the state of the neural network. The positive pair is taken from the database, and the negative pair is chosen randomly from the search results using the current version of the neural network.
  • the input data for the neural network for the formation of a vector representation are the features of the original image reduced to the object's bounding rectangle (aligned feature maps), the object mask and the features of the textual description of the object.
  • Training an image feature extraction neural network for such a variety of applications is not an easy task.
  • the main difficulty is that learning to rank using triplets requires three times as much memory. Therefore, when teaching ranking, a lightweight version of the feature extraction neural network is used.
  • training takes place sequentially for different head units. For each head, a certain number of steps are performed, then the head is changed to another and the process continues.
  • User devices (401); 2. The web server of the contextual media site (402);
  • the user device can be a personal computer, smartphone, TV or other devices with Internet access.
  • the user device generates a request to display the widget, receives information about the content of the widget from the widget's web server (404), displays the widget, and interacts between the widget and the user.
  • the user is redirected to the web server of the store's electronic catalog (403).
  • the electronic store catalog also serves as a source of information for the indexing server (406), which periodically updates information about the products in the database (407). When new products are found, the index server analyzes them and calculates vector representations for them.
  • the widget is formed on the side of the widget's web server. Several scenarios for the formation of the widget are possible. Let's consider the most typical ones.
  • the widget is embedded in a contextual media site and displays product offers associated with the photos on that site.
  • the search server (405) generates search results, which is stored in the database (407).
  • the search results come from the database without any resource-intensive processing.
  • the widget is embedded in a site or application and shows product offers associated with custom photos, which can be generated in real time.
  • the formation of search results occurs online at the time the user device accesses the widget's web server.
  • Web server widget accesses a search server which executes the process of FIG. 1.
  • the steps (101) - (105) of the content analysis process may be transferred to the user device side.
  • the widget's web server accepts only vector representations of objects instead of content.
  • the widget is embedded in the video player and is activated when the video is paused or a special button is pressed. In this case, not one image can be analyzed, but a number of frames preceding this event.
  • a source of text data can be used, for example, subtitles or converted into text audio. Processing can take place both online and offline. As in the previous case, a significant part of the computational load can be transferred to the user's device.
  • FIG. 5 a general diagram of a computer device (500) will be presented that provides data processing necessary for the implementation of the claimed solution.
  • the device (500) contains such components as: one or more processors (501), at least one memory (502), data storage means (503), input / output interfaces (504), I / O means ( 505), networking tools (506).
  • the processor (501) of the device performs the basic computational operations necessary for the operation of the device (500) or the functionality of one or more of its components.
  • the processor (501) executes the necessary computer readable instructions contained in the main memory (502).
  • Memory (02), as a rule, is made in the form of RAM and contains the necessary program logic that provides the required functionality.
  • the data storage medium (503) can be performed in the form of HDD, SSD disks, raid array, network storage, flash memory, optical information storage devices (CD, DVD, MD, Blue-Ray disks), etc.
  • the means (503) allows performing long-term storage of various types of information, for example, the aforementioned files with user data sets, a database containing records of time intervals measured for each user, user identifiers, etc.
  • Interfaces (504) are standard means for connecting and working with the server side, for example, USB, RS232, RJ45, LPT, COM, HDMI, PS / 2, Lightning, FireWire, etc.
  • interfaces (504) depends on the specific implementation of the device (500), which can be a personal computer, mainframe, server cluster, thin client, smartphone, laptop, etc.
  • a keyboard should be used.
  • the hardware design of the keyboard can be any known: it can be either a built-in keyboard used on a laptop or netbook, or a stand-alone device connected to a desktop computer, server or other computer device.
  • the connection can be either wired, in which the connecting cable of the keyboard is connected to the PS / 2 or USB port located on the system unit of the desktop computer, or wireless, in which the keyboard exchanges data via a wireless communication channel, for example, a radio channel, with base station, which, in turn, is directly connected to the system unit, for example, to one of the USB ports.
  • I / O data can also include: joystick, display (touchscreen display), projector, touchpad, mouse, trackball, light pen, speakers, microphone, etc.
  • Networking means (506) are selected from a device that provides network reception and transmission of data, for example, Ethernet card, WLAN / Wi-Fi module, Bluetooth module, BLE module, NFC module, IrDa, RFID module, GSM modem, etc.
  • the means (505) the organization of data exchange via a wired or wireless data transmission channel is provided, for example, WAN, PAN, LAN, Intranet, Internet, WLAN, WMAN or GSM.
  • the components of the device (500) are interconnected via a common data bus (510).

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Настоящее техническое решение относится к области вычислительной техники, в частности, к способу формирования поисковой выдачи в рекламном виджете. Технический результат заключается в достоверности распознавания объектов с контекстно- медийного сайта для автоматического поиска релевантных товаров в электронных каталогах магазинов. Реализуемый компьютером способ формирования поисковой выдачи в рекламном виджете, заключающийся в выполнении этапов, на которых с помощью по меньшей мере одной нейронной сети (НС): - принимают изображение и текстовое описание, полученные с контекстно-медийного сайта; - обрабатывают полученное изображение исследуемой области путем обнаружения объектов на изображении, выделяют признаки объектов на изображении; - анализируют выделенные признаки, и на основе анализа осуществляет выделение обнаруженных объектов для разделения их на классы; - выделяют признаки текстового описания; - используя признаки объектов на изображении и признаки текстового описания вычисляют вектора, соответствующие объектам в семантическом пространстве; - используют полученную комбинацию векторов для поиска релевантных товаров в электронных каталогах магазинов; - формируют поисковую выдачу в рекламном виджете.

Description

СПОСОБ ФОРМИРОВАНИЯ ПОИСКОВОЙ ВЫДАЧИ В РЕКЛАМНОМ
ВИДЖЕТЕ
ОБЛАСТЬ ТЕХНИКИ
Настоящее техническое решение относится к области вычислительной техники, в частности, к способу формирования поисковой выдачи в рекламном виджете.
УРОВЕНЬ ТЕХНИКИ
Из уровня техники известна система ранжирования по подобию и её применению в рекомендательных системах, которая раскрыта в патентной заявке WO2018/148493 А1, опубл. 2018-08-16.
Недостатками данного решения является то, что в ней отсутствует использование детектора перед применением нейросети для вычисления векторного представления. Использование детектора даёт существенное более качественные векторные представления за счёт отсечения фона и других объектов, которые могут присутствовать на изображении. Кроме того, в данном решении метод генерации триплетов основан на использовании случайного объекта как отрицательного примера без дополнительного уточнения каким образом выбирается этот случайный объект. Если просто выбирать произвольный случайный объект, то обучение будет крайне неэффективным. Большинство триплетов будет классифицироваться правильно на ранних стадиях обучения и не будет давать никакого прироста качества векторного представления. При этом, эффективность обучения сильно замедлится.
Кроме того, в известном решении существенным недостатком является то, что в нем распознают только изображения, а текстовые описания игнорируются.
СУЩНОСТЬ ИЗОБРЕТЕНИЯ
Данное техническое решение направлено на устранение недостатков, присущих существующим решениям.
Технической проблемой, на решение которой направлено заявленное техническое решение, является создание компьютерно-реализуемого способа формирования поисковой выдачи в рекламном виджете, который охарактеризован в независимом пункте формулы. Дополнительные варианты реализации настоящего изобретения представлены в зависимых пунктах изобретения.
Технический результат заключается в достоверности распознавания объектов с контекстно- медийного сайта для автоматического поиска релевантных товаров в электронных каталогах магазинов.
В предпочтительном варианте реализации заявлен: реализуемый компьютером способ формирования поисковой выдачи в рекламном виджете, заключающийся в выполнении этапов, на которых с помощью по меньшей мере одной нейронной сети (НС): - принимают изображение и текстовое описание, полученные с контекстно-медийного сайта;
- обрабатывают полученное изображение исследуемой области путем обнаружения объектов на изображении, выделяют признаки объектов на изображении;
- анализируют выделенные признаки, и на основе анализа осуществляет выделение обнаруженных объектов для разделения их на классы;
- выделяют признаки текстового описания;
- используя признаки объектов на изображении и признаки текстового описания вычисляют вектора, соответствующие объектам в семантическом пространстве;
- используют полученную комбинацию векторов для поиска релевантных товаров в электронных каталогах магазинов;
- формируют поисковую выдачу в рекламном виджете.
В частном варианте выделение обнаруженных объектов осуществляют ограничивающими прямоугольниками.
В другом частном варианте признаки исходного изображения, не относящиеся к выделенному объекту, подавляются с помощью выделения объекта по контуру.
В другом частном варианте классификаторы формируют на этапе обучения с использованием обучающей выборки, генерируя оптимальные классификаторы.
В другом частном варианте для анализа выделенных признаков применяют нейронную сеть с архитектурой Mask R-CNN. В другом частном варианте для вычисления вектора в семантическом пространстве используется обученная на триплетах нейронная сеть.
В другом частном варианте дополнительно применяют нейронную сеть для классификации качества изображения.
В другом частном варианте отображают пользователю релевантные товары с возможностью перейти на конкретную страницу товара для покупок
ОПИСАНИЕ ЧЕРТЕЖЕЙ
Реализация изобретения будет описана в дальнейшем в соответствии с прилагаемыми чертежами, которые представлены для пояснения сути изобретения и никоим образом не ограничивают область изобретения. К заявке прилагаются следующие чертежи:
Фиг. 1 иллюстрирует компьютерно-реализуемый способ формирования поисковой выдачи в рекламном виджете;
Фиг. 2 иллюстрирует схему анализа контента с контекстно-медийного сайта;
Фиг. 3 иллюстрирует схему анализа каталога товаров;
Фиг. 4 иллюстрирует структуру заявленного решения;
Фиг. 5 иллюстрирует пример общей схемы компьютерного устройства.
ДЕТАЛЬНОЕ ОПИСАНИЕ ИЗОБРЕТЕНИЯ
В приведенном ниже подробном описании реализации изобретения приведены многочисленные детали реализации, призванные обеспечить отчетливое понимание настоящего изобретения. Однако, квалифицированному в предметной области специалисту, будет очевидно каким образом можно использовать настоящее изобретение, как с данными деталями реализации, так и без них. В других случаях хорошо известные методы, процедуры и компоненты не были описаны подробно, чтобы не затруднять излишне понимание особенностей настоящего изобретения.
Кроме того, из приведенного изложения будет ясно, что изобретение не ограничивается приведенной реализацией. Многочисленные возможные модификации, изменения, вариации и замены, сохраняющие суть и форму настоящего изобретения, будут очевидными для квалифицированных в предметной области специалистов.
Ниже будут описаны понятия и термины, необходимые для понимания данного технического решения. Искусственная нейронная сеть (далее - ИНС) - вычислительная или логическая схема, построенная из однородных процессорных элементов, являющихся упрощенными функциональными моделями нейронов.
Нейрон - это отдельный вычислительный элемент сети; каждый нейрон связан с нейронами предыдущего и следующего слоёв сети. Когда на вход поступает изображение, видео- или аудиофайл, оно последовательно проходит обработку всеми слоями сети. В зависимости от результатов, сеть может изменить свою конфигурацию (веса связей, значения смещений и пр.).
В настоящее время искусственные нейронные сети являются важным инструментом для решения многих прикладных задач. Они уже позволили справиться с рядом непростых проблем и обещают создание новых изобретений, способных решать задачи, которые пока под силу только человеку. Искусственные нейронные сети, также, как и биологические, представляют собой системы, состоящие из огромного количества функционирующих процессоров-нейронов, каждый из которых выполняет какой-либо небольшой объем работ, возложенный на него, при этом обладая большим числом связей с остальными, что и характеризует силу вычислений сети.
Виджет - это небольшой графический элемент или модуль, вставляемый на сайт или выводимый на рабочий стол для отображения важной и часто обновляемой информации.
Контекстно-медийный сайт - система размещения контекстной рекламы и рекламы, учитывающей интересы пользователей, на страницах сайтов-участников партнёрской сети.
Настоящее изобретение направлено на обеспечение компьютерно-реализуемого способа формирования поисковой выдачи в рекламном виджете.
Как представлено на Фиг. 1, заявленный компьютерно-реализуемый способ (100) реализован следующим образом:
На этапе (101) принимают изображение и текстовое описание, полученные с контекстно- медийного сайта.
На этапе (102) обрабатывают полученное изображение исследуемой области путем обнаружения объектов на изображении, выделяют признаки объектов на изображении.
Далее на этапе (103) анализируют выделенные признаки, и на основе анализа осуществляет выделение обнаруженных объектов для разделения их на классы.
После чего на этапе (104) выделяют признаки текстового описания. Используя признаки объектов на изображении и признаки текстового описания на этапе
(105) вычисляют вектора, соответствующие объектам в семантическом пространстве. На этапе (106) используют полученную комбинацию векторов для поиска релевантных товаров в электронных каталогах магазинов. И на этапе (107) формируют поисковую выдачу в рекламном виджете.
На фиг. 2 представлена схема анализа контента с контекстно-медийного сайта, где на первом этапе осуществляют:
1. Получение изображения (201) с сайта;
2. Извлечение признаков изображений с помощью нейросети (203); 3. Анализ выделенных признаков нейросетью обнаружения объектов (205);
4. Выделение объектов ограничивающим прямоугольником (bounding boxes);
5. Выделение объектов по контуру (masks).
На втором этапе осуществляют анализ текста, связанного с изображением (тест статьи, описание изображения): 1. Получение ассоциированного с изображением текста (202) (например, подписи под изображением, текста или заголовка статьи);
2. Извлечение признаков текста с помощью нейросети (204).
На третьем этапе получают результат по итогам процессов на первом и втором этапах:
1. Анализ выделенных признаков нейросетью для классификации (206); 2. Вычисление признаков объекта с помощью нейросети формирования векторного представления объекта (207);
3. Векторное представление объекта (208).
Таким образом, в результате анализа контекстно-медийного сайта для каждого изображения получают набор объектов, каждый из которых характеризуется своим классом и векторным представлением.
На фиг. 3 представлена схема анализа каталога товаров, где на первом этапе осуществляют анализ изображения в продуктовом каталоге:
1. Получение изображения (301) из каталога; 2. Извлечение признаков изображений (303);
3. Определение качества изображения нейросетью (305);
4. Присвоение класса в зависимости от качества изображения;
5. Обнаружение объектов на изображении с помощью детектора объектов (307); 6. Выделение объектов ограничивающим прямоугольником (bounding boxes);
7. Выделение объектов по контуру (masks).
На втором этапе осуществляют анализ текста, связанного с изображением (тест статьи, описание изображения):
1. Получение ассоциированного с изображением текста (302) (например, названия товара, его описания или характеристик);
2. Извлечение признаков текста с помощью нейросети (304).
На третьем этапе получают результат по итогам процессов на первом и втором этапах:
1. Анализ выделенных признаков нейросетью для классификации (305);
2. Вычисление признаков объекта с помощью нейросети формирования векторного представления объекта (309);
3. Векторное представление товара (310).
В качестве нейросети извлечения признаков изображения может быть использована, например, нейросеть с архитектурой ResNet, ResNeXt, MobileNet и др. в зависимости от требований к производительности системы и качеству поиска. В качестве детектора и классификатора объектов может быть использована сеть с архитектурой Mask R-CNN, что позволяет выделять на изображениях контуры («маски») экземпляров разных объектов, даже если таких экземпляров несколько, они имеют различный размер и частично перекрываются.
Для извлечения признаков текстового описания может быть использована библиотека LASER, которая позволяет использовать тексты на большом количестве языков.
В результате двух вышеописанных процессов получают два вектора для сопоставления объектов из разных источников, проведение анализа соответствия результатов с помощью уникального набора метрик и подстановки результатов в виджет. Ниже приведен способ обучения нейронных сетей заявленного решения.
Постановка задачи
Задача поиска похожих товаров сводится к задаче поиска ближайших векторов в метрическом пространстве (kNN - k-nearest neighbors). Задачи нейросетей: обнаружить интересующие нас объекты на изображениях и отобразить каждый объект в некоторый вектор в пространстве с сохранением подобия. Аналогичный подход применяется в задаче распознавания лиц.
Данные для обучения
Для обучения используется специально собранный и подготовленный набор данных состоящий из 2х миллионов изображений. Этот набор изображений состоит из: фотографий с сайтов, инстаграм и каталогов товаров. Изображениям из каталогов товаров сопоставлены парные изображения из других источников. Пары могут формироваться как из изображений одинаковых товаров, так и похожих. Большая часть изображений имеют текстовые описания.
Для обучения детектора объектов часть этих изображений была размечена полигональными масками объектов. Каждой маске сопоставлен класс объекта. После этого был обучен детектор на основе Mask R-CNN.
Полученный детектор в заявленном решении применили для обнаружения объектов на всех оставшихся изображениях. Далее из пар изображений были сформированы пары объектов на этих изображениях. Каждой паре сопоставлена оценка подобия (rank).
Обучение нейросетей
Как видно из фиг. 2 и фиг. 3, обработка изображения начинается с извлечения признаков, и эта часть нейросети используется во всех остальных этапах. Это создаёт дополнительные сложности при обучении. Для простоты рассмотрим сначала отдельно обучение разных головных частей.
Детектор
Обучение этой части происходит обычным образом как описано в оригинальной статье (Mask R-CNN 2017, https://arxiv.org/abs/1703.06870). Используется подмножество изображений, размеченных масками.
Классификатор Поскольку все маски имеют также и метку класса, то при обучении Mask R-CNN также происходит обучение классификатора. Но для более качественной классификации в заявленном решении используют дополнительные данные о классах автоматически обнаруженных объектов. Этот режим аналогичен обучению детектора за исключением того, что части RPN и mask head не обучаются. Классификатору доступны также предварительно вычисленные признаки текстового описания объекта.
Обучение ранжированию
Нейросеть формирования векторного представления обучается с помощью триплетов и triplet loss (FaceNet 2015, https://arxiv.org/abs/1503.03832). Триплеты генерируются автоматически из имеющихся пар объектов с учётом оценки подобия и состояния нейросети. Положительная пара берётся из базы данных, а отрицательная выбирается случайным образом из результатов поиска с использованием текущей версии нейросети.
Входными данными для нейросети формирования векторного представления являются признаки исходного изображения, приведённые к ограничивающему прямоугольнику объекта (aligned feature maps), маска объекта и признаки текстового описания объекта.
Классификатор качества изображения
Это вспомогательная нейросеть для бинарной классификации изображений товаров. Она используется для выбора наиболее качественной фотографии для показа. Эта сеть обучается на подмножестве изображений, размеченных бинарными классами.
Обучение извлечения признаков
Обучение нейросети извлечения признаков изображения для настолько разнообразных применений представляет собой непростую задачу. Основная сложность состоит в том, что обучение ранжированию с помощью триплетов требует в три раза больше памяти. Поэтому при обучении ранжированию используется облегчённая версия нейросети извлечения признаков.
В целом обучение происходит последовательно под разные головные части. Для каждой головной части выполняется определённое количество шагов, затем головная часть меняется на другую и процесс продолжается.
Структура заявленного решения представлена на фиг. 4. Основными функциональными элементами являются:
1. Пользовательские устройства (401 ); 2. Веб-сервер контекстно-медийного сайта (402);
3. Веб-сервер электронного каталога магазина (403);
4. Веб-сервер формирования виджета (404);
5. Сервер поиска (405);
6. Сервер индексирования (406);
7. База данных (407).
В качестве пользовательского устройства может выступать персональный компьютер, смартфон, телевизор или другие устройства с доступом в интернет. Пользовательское устройство формирует запрос на отображение виджета, получает информацию о содержимом виджета от веб-сервера виджета (404), отображает виджет и осуществляет взаимодействие виджета и пользователя. При выборе товара в виджете пользователь перенаправляется на веб-сервер электронного каталога магазина (403).
Электронный каталог магазина также служит источником информации для сервера индексирования (406), который периодически обновляет информацию о товарах в базе данных (407). При обнаружении новых товаров сервер индексирования выполняет их анализ и вычисляет для них векторные представления.
Формирование виджета происходит на стороне веб-сервера виджета. Возможны несколько сценариев формирования виджета. Рассмотрим наиболее типовые из них.
Сценарий 1
Виджет встраивается в контекстно-медийный сайт и показывает предложения товаров, связанные с фотографиями на этом сайте.
В этом случае анализ сайта происходит в режиме оффлайн. Для каждой фотографии на сайте сервером поиска (405) формируется поисковая выдача, которая сохраняется в базе данных (407). При запросе на отображение виджета поисковая выдача поступает из базы данных без какой-либо ресурсоемкой обработки.
Сценарий 2
Виджет встраивается в сайт или приложение и показывает предложения товаров, связанные с пользовательскими фотографиями, которые могут создаваться в реальном времени. В этом случае формирование поисковой выдачи происходит в режиме онлайн в момент обращения пользовательского устройства к веб-серверу виджета. Веб-сервер виджета обращается к серверу поиска, который выполняет процесс, изображенный на фиг. 1. В зависимости от типа и характеристик пользовательского устройства этапы (101)-(105) процесса анализа контента могут быть перенесены на сторону пользовательского устройства. В этом случае веб-сервер виджета вместо контента принимает только векторные представления объектов.
Сценарий 3
Виджет встраивается в видеопроигрыватель и активируется при постановке видео на паузу или нажатии специальной кнопки. В этом случае анализу может подвергаться не одно изображение, а ряд кадров, предшествующих этому событию. В качестве источника текстовых данных могут быть использованы, например, субтитры или преобразованное в текст звуковое сопровождение. Обработка может происходить как в режиме онлайн, так и оффлайн. Как и в предыдущем случае, существенная часть вычислительной нагрузки может быть перенесена на пользователское устройство.
На Фиг. 5 далее будет представлена общая схема компьютерного устройства (500), обеспечивающего обработку данных, необходимую для реализации заявленного решения.
В общем случае устройство (500) содержит такие компоненты, как: один или более процессоров (501), по меньшей мере одну память (502), средство хранения данных (503), интерфейсы ввода/вывода (504), средство В/В (505), средства сетевого взаимодействия (506).
Процессор (501) устройства выполняет основные вычислительные операции, необходимые для функционирования устройства (500) или функциональности одного или более его компонентов. Процессор (501) исполняет необходимые машиночитаемые команды, содержащиеся в оперативной памяти (502).
Память (502), как правило, выполнена в виде ОЗУ и содержит необходимую программную логику, обеспечивающую требуемый функционал.
Средство хранения данных (503) может выполняться в виде HDD, SSD дисков, рейд массива, сетевого хранилища, флэш-памяти, оптических накопителей информации (CD, DVD, MD, Blue-Ray дисков) и т.п. Средство (503) позволяет выполнять долгосрочное хранение различного вида информации, например, вышеупомянутых файлов с наборами данных пользователей, базы данных, содержащих записи измеренных для каждого пользователя временных интервалов, идентификаторов пользователей и т.п. Интерфейсы (504) представляют собой стандартные средства для подключения и работы с серверной частью, например, USB, RS232, RJ45, LPT, COM, HDMI, PS/2, Lightning, FireWire и т.п.
Выбор интерфейсов (504) зависит от конкретного исполнения устройства (500), которое может представлять собой персональный компьютер, мейнфрейм, серверный кластер, тонкий клиент, смартфон, ноутбук и т.п.
В качестве средств В/В данных (505) в любом воплощении системы, реализующей описываемый способ, должна использоваться клавиатура. Аппаратное исполнение клавиатуры может быть любым известным: это может быть, как встроенная клавиатура, используемая на ноутбуке или нетбуке, так и обособленное устройство, подключенное к настольному компьютеру, серверу или иному компьютерному устройству. Подключение при этом может быть, как проводным, при котором соединительный кабель клавиатуры подключен к порту PS/2 или USB, расположенному на системном блоке настольного компьютера, так и беспроводным, при котором клавиатура осуществляет обмен данными по каналу беспроводной связи, например, радиоканалу, с базовой станцией, которая, в свою очередь, непосредственно подключена к системному блоку, например, к одному из USB- портов. Помимо клавиатуры, в составе средств В/В данных также может использоваться: джойстик, дисплей (сенсорный дисплей), проектор, тачпад, манипулятор мышь, трекбол, световое перо, динамики, микрофон и т.п.
Средства сетевого взаимодействия (506) выбираются из устройства, обеспечивающий сетевой прием и передачу данных, например, Ethernet карту, WLAN/Wi-Fi модуль, Bluetooth модуль, BLE модуль, NFC модуль, IrDa, RFID модуль, GSM модем и т.п. С помощью средств (505) обеспечивается организация обмена данными по проводному или беспроводному каналу передачи данных, например, WAN, PAN, ЛВС (LAN), Интранет, Интернет, WLAN, WMAN или GSM.
Компоненты устройства (500) сопряжены посредством общей шины передачи данных (510).
В настоящих материалах заявки было представлено предпочтительное раскрытие осуществление заявленного технического решения, которое не должно использоваться как ограничивающее иные, частные воплощения его реализации, которые не выходят за рамки испрашиваемого объема правовой охраны и являются очевидными для специалистов в соответствующей области техники.

Claims

Формула
1. Реализуемый компьютером способ формирования поисковой выдачи в рекламном виджете, заключающийся в выполнении этапов, на которых с помощью по меньшей мере одной нейронной сети (НС): - принимают изображение и текстовое описание, полученные с контекстно-медийного сайта;
- обрабатывают полученное изображение исследуемой области путем обнаружения объектов на изображении, выделяют признаки объектов на изображении;
- анализируют выделенные признаки, и на основе анализа осуществляет выделение обнаруженных объектов для разделения их на классы;
- выделяют признаки текстового описания;
- используя признаки объектов на изображении и признаки текстового описания вычисляют вектора, соответствующие объектам в семантическом пространстве;
- используют полученную комбинацию векторов для поиска релевантных товаров в электронных каталогах магазинов;
- формируют поисковую выдачу в рекламном виджете.
2. Способ по п.1, характеризующийся тем, что выделение обнаруженных объектов осуществляют ограничивающими прямоугольниками.
3. Способ по п.1, характеризующийся тем, что признаки исходного изображения, не относящиеся к выделенному объекту, подавляются с помощью выделения объекта по контуру.
4. Способ по п.1, характеризующийся тем, что классификаторы формируют на этапе обучения с использованием обучающей выборки, генерируя оптимальные классификаторы.
5. Способ по п.1, характеризующийся тем, что для анализа выделенных признаков применяют нейронную сеть с архитектурой Mask R-CNN.
6. Способ по п.1, характеризующийся тем, что для вычисления вектора в семантическом пространстве используется обученная на триплетах нейронная сеть.
7. Способ по п.1, характеризующийся тем, что дополнительно применяют нейронную сеть для классификации качества изображения.
8. Способ по п.1, характеризующийся тем, что отображают пользователю релевантные товары с возможностью перейти на конкретную страницу товара для покупок.
PCT/RU2019/000741 2019-10-16 2019-10-16 Способ формирования поисковой выдачи в рекламном виджите WO2021075995A1 (ru)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/RU2019/000741 WO2021075995A1 (ru) 2019-10-16 2019-10-16 Способ формирования поисковой выдачи в рекламном виджите
US17/627,610 US20220261856A1 (en) 2019-10-16 2019-10-16 Method for generating search results in an advertising widget

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/RU2019/000741 WO2021075995A1 (ru) 2019-10-16 2019-10-16 Способ формирования поисковой выдачи в рекламном виджите

Publications (1)

Publication Number Publication Date
WO2021075995A1 true WO2021075995A1 (ru) 2021-04-22

Family

ID=75538569

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/RU2019/000741 WO2021075995A1 (ru) 2019-10-16 2019-10-16 Способ формирования поисковой выдачи в рекламном виджите

Country Status (2)

Country Link
US (1) US20220261856A1 (ru)
WO (1) WO2021075995A1 (ru)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11989254B2 (en) * 2020-09-10 2024-05-21 Taboola.Com Ltd. Semantic meaning association to components of digital content

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2473127C2 (ru) * 2006-12-20 2013-01-20 Майкрософт Корпорейшн Интеграция рекламы и расширяемые темы для операционных систем
US8781887B2 (en) * 2007-11-26 2014-07-15 Raymond Ying Ho Law Method and system for out-of-home proximity marketing and for delivering awarness information of general interest
WO2016037278A1 (en) * 2014-09-10 2016-03-17 Sysomos L.P. Systems and methods for continuous analysis and procurement of advertisement campaigns
RU2595597C2 (ru) * 2011-09-29 2016-08-27 Амазон Текнолоджис, Инк. Электронная торговая площадка размещаемых образов услуг

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5121599B2 (ja) * 2008-06-30 2013-01-16 キヤノン株式会社 画像処理装置、画像処理方法およびそのプログラムならびに記憶媒体
WO2017153354A1 (de) * 2016-03-07 2017-09-14 SensoMotoric Instruments Gesellschaft für innovative Sensorik mbH Verfahren und vorrichtung zum bewerten von blickabbildungen
KR20190117584A (ko) * 2017-02-09 2019-10-16 페인티드 도그, 인크. 스트리밍 비디오 내의 객체를 검출하고, 필터링하고 식별하기 위한 방법 및 장치
CN108038880B (zh) * 2017-12-20 2019-12-13 百度在线网络技术(北京)有限公司 用于处理图像的方法和装置
US11003856B2 (en) * 2018-02-22 2021-05-11 Google Llc Processing text using neural networks
US10902051B2 (en) * 2018-04-16 2021-01-26 Microsoft Technology Licensing, Llc Product identification in image with multiple products
US11244205B2 (en) * 2019-03-29 2022-02-08 Microsoft Technology Licensing, Llc Generating multi modal image representation for an image

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2473127C2 (ru) * 2006-12-20 2013-01-20 Майкрософт Корпорейшн Интеграция рекламы и расширяемые темы для операционных систем
US8781887B2 (en) * 2007-11-26 2014-07-15 Raymond Ying Ho Law Method and system for out-of-home proximity marketing and for delivering awarness information of general interest
RU2595597C2 (ru) * 2011-09-29 2016-08-27 Амазон Текнолоджис, Инк. Электронная торговая площадка размещаемых образов услуг
WO2016037278A1 (en) * 2014-09-10 2016-03-17 Sysomos L.P. Systems and methods for continuous analysis and procurement of advertisement campaigns

Also Published As

Publication number Publication date
US20220261856A1 (en) 2022-08-18

Similar Documents

Publication Publication Date Title
Katsurai et al. Image sentiment analysis using latent correlations among visual, textual, and sentiment views
US11514235B2 (en) Information extraction from open-ended schema-less tables
JP6397144B2 (ja) 画像からの事業発見
Yuan et al. Sentribute: image sentiment analysis from a mid-level perspective
US8649602B2 (en) Systems and methods for tagging photos
US11182806B1 (en) Consumer insights analysis by identifying a similarity in public sentiments for a pair of entities
US10685183B1 (en) Consumer insights analysis using word embeddings
US20160034512A1 (en) Context-based metadata generation and automatic annotation of electronic media in a computer network
Chen et al. Discovering informative social subgraphs and predicting pairwise relationships from group photos
WO2018184518A1 (zh) 微博数据处理方法、装置、计算机设备及存储介质
US20160242699A1 (en) System and method for evaluating a cognitive load on a user corresponding to a stimulus
US9817904B2 (en) Method and system for generating augmented product specifications
CN109271624A (zh) 一种目标词确定方法、装置及存储介质
US11030539B1 (en) Consumer insights analysis using word embeddings
US20200097759A1 (en) Table Header Detection Using Global Machine Learning Features from Orthogonal Rows and Columns
WO2021075995A1 (ru) Способ формирования поисковой выдачи в рекламном виджите
Huang et al. Analyzing group-level emotion with global alignment kernel based approach
Dogariu et al. A Textual Filtering of HOG-Based Hierarchical Clustering of Lifelog Data.
Maynard et al. Entity-based opinion mining from text and multimedia
US20170293863A1 (en) Data analysis system, and control method, program, and recording medium therefor
JP6178480B1 (ja) データ分析システム、その制御方法、プログラム、及び、記録媒体
Shipman et al. Towards a distributed digital library for sign language content
Su et al. Cross-modality based celebrity face naming for news image collections
US11042520B2 (en) Computer system
CN113704623A (zh) 一种数据推荐方法、装置、设备及存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19949330

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19949330

Country of ref document: EP

Kind code of ref document: A1

122 Ep: pct application non-entry in european phase

Ref document number: 19949330

Country of ref document: EP

Kind code of ref document: A1

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 20.10.2022)

122 Ep: pct application non-entry in european phase

Ref document number: 19949330

Country of ref document: EP

Kind code of ref document: A1