RU2812413C1

RU2812413C1 - Method for image generation based on user preference analysis

Info

Publication number: RU2812413C1
Application number: RU2023121696A
Authority: RU
Inventors: Александр Васильевич Жмурко; Евгения Владимировна Крупина; Дмитрий Викторович Борзов
Original assignee: Общество С Ограниченной Ответственностью "Дизайнер"
Filing date: 2023-11-07
Publication date: 2024-01-30

Abstract

FIELD: generating images.

SUBSTANCE: initial training of the neural network and text marking of elements in the image is done by loading a dataset from several images of one element, whereas connections with the ontology are built; images are fed to the input of the CLIP neural network for marking, where parallel analysis of the image and text description is carried out, due to which a feature vector is created; the downloaded images are analysed by segmenting the image in several iterations, by highlighting large objects; a mask with a segmented image is formed; classification of selected objects is carried out using a neural network; in parallel with the identification of objects, image tagging is carried out; at the final stage, images are generated based on an existing library of images, and each image is equipped with a set of tags that determine the possibility of its use in a specific composition.

EFFECT: improvement of quality of image generation.

1 cl, 6 dwg

Description

ОБЛАСТЬ ТЕХНИКИTECHNICAL FIELD

Настоящее техническое решение относится к области вычислительной техники, в частности, к способам генераций изображений.This technical solution relates to the field of computer technology, in particular, to methods for generating images.

УРОВЕНЬ ТЕХНИКИBACKGROUND OF THE ART

Из уровня техники известно решение, выбранное в качестве наиболее близкого аналога, US 2012231425 (А1), опубл. 13.09.2012. Решение характеризует способ предоставления рекомендаций по проектированию ландшафтного дизайна, включающий: получение захваченного изображения ландшафтной территории для ландшафтного дизайна; создание каталога данных, относящихся к ландшафтной области, причем каталог содержит информацию о местоположении в ландшафтной области, причем информация основана на природных характеристиках местоположения в ландшафтной области; получение информации о продукте с мобильного устройства, при этом продукты должны быть встроены в ландшафтную зону; сопоставление информации о продукте с каталогом данных, относящихся к местам в ландшафтной зоне, посредством использования устройства обработки, при этом сопоставление продукта с местоположением в ландшафтной зоне основано, по меньшей мере частично, на природных характеристиках местоположения на ландшафтной территории и природных характеристик продукции; и представление продуктов и показателей, связанных с продуктами, в видеопотоке в реальном времени на мобильном устройстве, в рекомендуемом месте в ландшафтной зоне, рекомендуемое местоположение основано, по крайней мере частично, на сопоставлении информации о продукте с каталогом данных, касающихся местоположения в пределах ландшафтной территории.The solution chosen as the closest analogue is known from the prior art, US 2012231425 (A1), publ. 09.13.2012. The solution describes a method for providing recommendations for landscape design, including: obtaining a captured image of a landscape area for landscape design; creating a catalog of data relating to a landscape domain, wherein the catalog contains information about a location in the landscape domain, wherein the information is based on the natural characteristics of the location in the landscape domain; receiving information about a product from a mobile device, while the products must be built into the landscape area; matching the product information to a catalog of data relating to locations in the landscape area through the use of a processing device, wherein the matching of the product to a location in the landscape area is based at least in part on the natural characteristics of the location in the landscape area and the natural characteristics of the product; and the presentation of products and product-related metrics in a real-time video stream on a mobile device, at a recommended location within a landscape area, the recommended location being based, at least in part, on matching product information to a catalog of location-related data within the landscape area .

Предлагаемое техническое решение направлено на устранение недостатков современного уровня техники и отличается от известных ранее тем, что предложенное решение качественно и ресурсоемко осуществляет генерирование изображений ландшафтного дизайна на основе вектора пользовательских предпочтений.The proposed technical solution is aimed at eliminating the shortcomings of the current level of technology and differs from previously known ones in that the proposed solution generates images of landscape design based on a vector of user preferences in a high-quality and resource-intensive manner.

СУЩНОСТЬ ИЗОБРЕТЕНИЯSUMMARY OF THE INVENTION

Технической задачей, на решение которой направлено заявленное решение, является создание способа генераций изображений.The technical problem that the claimed solution is aimed at is creating a method for generating images.

Технический результат заключается в реализации назначения заявленного способа.The technical result consists in realizing the purpose of the claimed method.

Заявленный технический результат достигается за счет осуществления способа генераций изображений, включающего этапы, на которых: осуществляется первоначальное обучение нейронной сети и текстовая разметка элементов на изображении, за счет загрузки датасета из нескольких изображений одного элемента, при этом, осуществляется построение связей с онтологией; изображения поступают на вход нейронной сети CLIP (Contrastive Language-Image Pre-training) для разметки, где осуществляется параллельный анализ изображения и текстового описания, за счет чего создается вектор признаков, содержащий текстовое описание изображения; осуществляется анализ загруженных изображений за счет сегментирования изображения в несколько итераций, путем выделения крупных объектов, и при необходимости выделение более маленьких сегментов изображения; за счет предыдущего этапа формируется маска с сегментированным изображением, где пиксели одного сегмента помечены одинаковой меткой и образуют связную область; далее, посредством нейронной сети, осуществляется классификация выделенных объектов; параллельно с определением объектов осуществляется тэгирование изображения; на финальном этапе осуществляется генерация изображений на основе существующей библиотеки изображений, причем каждое из изображений снабжено набором тегов, обусловливающих возможность его использования в определенной композиции, при этом процесс генерации изображения состоит из следующих шагов: составляется фактологическое описание картины; формируется координатная решетка, к узлам которой осуществляется привязка объектов; происходит генерация пула вариантов, где исходными данными является набор объектов, которые необходимо разместить на решетке, причем генерируемый вариант размещения проверяется на соответствие посредством базы правил.The claimed technical result is achieved by implementing a method for generating images, including stages at which: initial training of the neural network and text marking of elements in the image are carried out, by loading a dataset of several images of one element, while building connections with the ontology; images are input to the CLIP (Contrastive Language-Image Pre-training) neural network for marking, where parallel analysis of the image and text description is carried out, thereby creating a feature vector containing a text description of the image; the downloaded images are analyzed by segmenting the image in several iterations, by selecting large objects, and, if necessary, selecting smaller image segments; due to the previous stage, a mask with a segmented image is formed, where the pixels of one segment are marked with the same label and form a connected area; then, using a neural network, the selected objects are classified; In parallel with the identification of objects, image tagging is carried out; at the final stage, images are generated based on an existing library of images, each of the images is equipped with a set of tags that determine the possibility of its use in a certain composition, and the image generation process consists of the following steps: a factual description of the picture is compiled; a coordinate grid is formed, to the nodes of which objects are linked; a pool of options is generated, where the initial data is a set of objects that need to be placed on the grid, and the generated placement option is checked for compliance using a rule base.

ОПИСАНИЕ ЧЕРТЕЖЕЙDESCRIPTION OF DRAWINGS

Реализация изобретения будет описана в дальнейшем в соответствии с прилагаемым чертежом, который представлен для пояснения сути изобретения и никоим образом не ограничивает область изобретения. К заявке прилагается следующий чертеж:The implementation of the invention will be described further in accordance with the accompanying drawing, which is presented to explain the essence of the invention and in no way limits the scope of the invention. The following drawing is attached to the application:

Фиг. 1 иллюстрирует процессы в блоке первоначального обучения.Fig. 1 illustrates the processes in the initial training block.

Фиг. 2 иллюстрирует блок анализа изображений.Fig. 2 illustrates an image analysis block.

Фиг.3 иллюстрирует блок демонстрации и работы с текстовыми данными.Figure 3 illustrates a block for demonstrating and working with text data.

Фиг. 4 иллюстрирует блок генерации.Fig. 4 illustrates the generation block.

Фиг. 5 иллюстрирует функциональную модель интеллектуальной системы поддержки принятия решений с генерацией изображений на основе анализа пользовательских предпочтений.Fig. Figure 5 illustrates the functional model of an intelligent decision support system with image generation based on the analysis of user preferences.

Фиг. 6 иллюстрирует модель потоков данных между основными элементами системы.Fig. 6 illustrates a model of data flows between the main elements of the system.

ДЕТАЛЬНОЕ ОПИСАНИЕ ИЗОБРЕТЕНИЯDETAILED DESCRIPTION OF THE INVENTION

В приведенном ниже подробном описании реализации изобретения приведены многочисленные детали реализации, призванные обеспечить отчетливое понимание настоящего изобретения. Однако, квалифицированному в предметной области специалисту, будет очевидно каким образом можно использовать настоящее изобретение, как с данными деталями реализации, так и без них. В других случаях хорошо известные методы, процедуры и компоненты не были описаны подробно, чтобы не затруднять излишне понимание особенностей настоящего изобретения.The following detailed description of the invention sets forth numerous implementation details designed to provide a clear understanding of the present invention. However, it will be apparent to one skilled in the art how the present invention can be used with or without these implementation details. In other cases, well-known methods, procedures and components have not been described in detail so as not to unduly obscure the features of the present invention.

Кроме того, из приведенного изложения будет ясно, что изобретение не ограничивается приведенной реализацией. Многочисленные возможные модификации, изменения, вариации и замены, сохраняющие суть и форму настоящего изобретения, будут очевидными для квалифицированных в предметной области специалистов.In addition, from the above discussion it will be clear that the invention is not limited to the above implementation. Numerous possible modifications, alterations, variations and substitutions, while retaining the spirit and form of the present invention, will be apparent to those skilled in the art.

Настоящее техническое решение относится к сфере генерации фотореалистичных изображений с помощью алгоритмов машинного обучения в сфере дизайна, в частности, в сфере ландшафтного дизайна и благоустройства территорий. Решение может быть использовано как самостоятельно, так и с использованием аппаратного комплекса с камерой, что обеспечивает быстрое принятие решения о формировании ландшафтных объектов.This technical solution relates to the field of generating photorealistic images using machine learning algorithms in the field of design, in particular in the field of landscape design and landscaping. The solution can be used either independently or using a hardware complex with a camera, which ensures quick decision-making on the formation of landscape objects.

Сервисы по генерации изображений, работающие по принципу "text-to-picture", такие как Midjourney, Dall-E, могут создавать изображения ландшафтного дизайна, но при этом не учитываются предпочтения пользователя, его предыдущий выбор, параметры зоны, в которой необходимо разместить объекта, а также не учитывается какие именно объекты должны быть размещены. Также необходимо отметить, что предлагаемый в решении подход совмещения глубокого анализа предпочтений пользователя, основанный на эмоциональном и подсознательном выборе, с генерацией изображений, основанных на этом анализе применен впервые.Image generation services operating on the "text-to-picture" principle, such as Midjourney, Dall-E, can create images of landscape design, but this does not take into account the user's preferences, his previous choice, or the parameters of the zone in which the object must be placed , and also does not take into account which objects should be placed. It should also be noted that the approach proposed in the solution of combining a deep analysis of user preferences, based on emotional and subconscious choice, with the generation of images based on this analysis, was used for the first time.

На данный момент не существует решений, генерирующих изображения ландшафтного дизайна на основе вектора пользовательских предпочтений, получаемого из анализа графической информации, вводимых фактологических данных и неструктурированного текста.There are currently no solutions that generate landscape design images based on a vector of user preferences obtained from the analysis of graphical information, factual input and unstructured text.

Известно несколько подходов к генерации изображений.There are several approaches to image generation.

Генеративно-состязательная сеть (Generative adversarial network, GAN).Generative adversarial network (GAN).

«GAN» состоит из двух сетей:"GAN" consists of two networks:

1. Генератор, способный генерировать изображения по входному вектору шума;1. A generator capable of generating images from an input noise vector;

2. Дискриминатор, который различает настоящую картину и "поддельную". Модели генерации, использующие «GAN», имеют несколько существенных недостатков:2. A discriminator that distinguishes between a real picture and a “fake” one. Generation models using "GANs" have several significant disadvantages:

- Высокие требования к вычислительным мощностям;- High requirements for computing power;

- Низкая скорость генерации;- Low generation speed;

- Проблема «переобучения» - возможна ситуация, когда генератор будет выдавать практически одинаковые изображения на дискриминатор.- The problem of “overtraining” - a situation is possible when the generator will produce almost identical images to the discriminator.

При этом более предпочтительным оказалось использование метода обратной диффузии. Данный метод используют: DALLE 2, Midjourney, Imagen и др.In this case, the use of the reverse diffusion method turned out to be more preferable. This method is used by: DALLE 2, Midjourney, Imagen, etc.

Диффузионные модели используются для создания данных, подобных тем данным, на которых они обучаются.Diffusion models are used to create data similar to the data they are trained on.

Обучение диффузионной модели:Training the diffusion model:

1. Используется изображение реального или нарисованного объекта;1. An image of a real or drawn object is used;

2. Добавляется гауссовский шум в необходимой мере для того, чтобы итоговое изображение имело необходимое количество сходных черт с исходным;2. Gaussian noise is added to the required extent so that the final image has the required number of similarities with the original one;

3. Происходит обучение модели шумоподавлению для создания результата. Была протестирована сеть Stable Diffusion, созданая StabilityAl (https://stablediffusionweb.com). Stable Diffusion основывается на работе по синтезу изображений с высоким разрешением с использованием моделей скрытой диффузии Ромбаха и др.3. The model is trained to perform noise reduction to create a result. The Stable Diffusion network created by StabilityAl (https://stablediffusionweb.com) was tested. Stable Diffusion builds on work on high-resolution image synthesis using latent diffusion models by Rombach et al.

Полная архитектура стабильной диффузии состоит из трех моделей:The complete stable diffusion architecture consists of three models:

1. Кодировщик текста, который принимает текстовое приглашение и обеспечивает преобразование текста в векторы признаков;1. Text encoder, which accepts a text prompt and provides conversion of text into feature vectors;

2. U-Net - диффузионная модель, отвечающая за генерацию изображений. Архитектура показана на Рисунке 19.2. U-Net is a diffusion model responsible for generating images. The architecture is shown in Figure 19.

3. Вариационный автоэнкодер, состоящий из модели кодера и декодера.3. Variational autoencoder, consisting of an encoder and decoder model.

Кодировщик используется для уменьшения размеров изображения, с которыми и работает диффузионная модель UNet. Затем декодер отвечает за восстановление изображения, сгенерированного диффузионной моделью, до его первоначального размера.The encoder is used to reduce the image size, which is what the UNet diffusion model works with. The decoder is then responsible for restoring the image generated by the diffusion model to its original size.

Из-за итеративного характера процесса распространения процесс обучения и генерации более стабилен, чем в GAN. В диффузионных моделях переходы от чистого шума к изображению делаются в несколько шагов, а в GAN за один шаг, что является одним из источников нестабильного обучения GAN.Due to the iterative nature of the propagation process, the training and generation process is more stable than in GANs. In diffusion models, transitions from pure noise to an image are made in several steps, and in GANs in one step, which is one of the sources of unstable GAN training.

Предлагаемое техническое решение позволяет в несколько раз сократить анализ предпочтений, при этом дополнительно на выходе формируются готовые фотореалистичные изображения, а также дополнительная документация, необходимая для проектов ландшафтного дизайна.The proposed technical solution makes it possible to reduce the analysis of preferences by several times, while additionally producing ready-made photorealistic images as an output, as well as additional documentation necessary for landscape design projects.

Важной особенностью заявленного технического решения является возможность использования, как в виде самостоятельной системы, так и совместно с камерами. В последнем случае, возможна генерация непосредственно сразу после фотографирования земельного участка.An important feature of the claimed technical solution is the ability to be used both as a stand-alone system and in conjunction with cameras. In the latter case, generation is possible immediately after photographing the land plot.

Преимуществом заявленного технического решения является цифровизация процессов по определению предпочтений пользователя для создания уникальных дизайн-проектов среды, согласно предпочтениям и потребностям пользователя в таких сложных областях, как различные виды дизайна (интерьерный, ландшафтный, дизайн вещей, архитектурный), где значительную роль играет выбор на основе подсознательных решений и неструктурированной информации. Для проработки моделей и дальнейшего апробирования было выбрано направление ландшафтного дизайна и благоустройства, которое является одним из самых сложных с точки зрения создания полноценных проектов. Разработанное решение может быть применено к различным областям дизайна вещей и среды.The advantage of the claimed technical solution is the digitalization of processes for determining user preferences to create unique environmental design projects, according to the preferences and needs of the user in such complex areas as various types of design (interior, landscape, design of things, architectural), where the choice of based on subconscious decisions and unstructured information. To develop the models and further test them, the direction of landscape design and landscaping was chosen, which is one of the most difficult from the point of view of creating full-fledged projects. The developed solution can be applied to various areas of design of things and environments.

Стандартным подходом к созданию ландшафтного дизайна, при работе специалиста - дизайнера, является демонстрация клиенту изображений, с различными готовыми проектами, фотографии садов, клумб и так далее, а также проведение опросов: какие растения нравятся какие элементы дизайна должны быть, какое расположение их должно быть на участке и так далее. Полученную информацию дизайнер анализирует, и на основе визуальных предпочтений пользователя, а также на основе профессиональных знаний относительно норм и правил, специалист создает проект, который должен быть уникальным для каждого пользователя.The standard approach to creating landscape design, when working as a specialist designer, is to show the client images with various finished projects, photographs of gardens, flower beds, and so on, as well as conducting surveys: what plants do you like, what design elements should be there, what their location should be on the site and so on. The designer analyzes the information received, and based on the user’s visual preferences, as well as on the basis of professional knowledge regarding norms and rules, the specialist creates a project that should be unique for each user.

Однако, в настоящем изобретении были использованы методы быстрой и автоматической оценки пользовательских предпочтений с использованием различных информационных технологий, а также предложена оригинальная модель оценки на основе анализа демонстрируемых изображений.However, the present invention used methods for quickly and automatically assessing user preferences using various information technologies, and also proposed an original assessment model based on the analysis of displayed images.

Рассмотрим более подробно основные блоки, с помощью которых реализуется заявленный способ.Let us consider in more detail the main blocks with the help of which the claimed method is implemented.

1. Определение или оценка пользовательских предпочтений;1. Determining or assessing user preferences;

2. Генерация изображений на основе определенных предпочтений пользователя.2. Generating images based on certain user preferences.

Модель определения пользовательских предпочтений состоит из двух взаимодополняющих контуров анализа:The model for determining user preferences consists of two complementary lines of analysis:

1. Анализ стилистических предпочтений (общий стиль ЛД, стили отдельных элементов ландшафтного дизайна (ЛД));1. Analysis of stylistic preferences (general style of LD, styles of individual elements of landscape design (LD));

2. Анализ предпочтений типов объектов.2. Analysis of preferences for object types.

Основой анализа является:The basis of the analysis is:

- Использование размеченных фотографий различных стилей ЛД;- Use of marked photographs of various LD styles;

- Использование библиотек объектов;- Using object libraries;

- Использование специальной онтологии;- Use of a special ontology;

- Обученная сверточная нейронная сеть.- Trained convolutional neural network.

Размеченные фотографии стилей и отдельных объектов позволяют системе научиться «понимать» какие именно объекты вызывают интерес пользователя.Tagged photographs of styles and individual objects allow the system to learn to “understand” which objects are of interest to the user.

Работа модели строится на следующих блоках:The work of the model is based on the following blocks:

1. Блок первоначального обучения;1. Initial training block;

2. Блок анализа изображений ЛД;2. LD image analysis unit;

3. Блок демонстрации и работы с текстовыми данными.3. Block for demonstrating and working with text data.

Рассмотрим их подробнее.Let's take a closer look at them.

Блок первоначального обучения.Initial training block.

В данном блоке проходит первоначальное обучение нейронной сети и текстовая разметка (тэгирование) элементов ЛД. Под элементами ЛД понимаются - любые объекты классов растения, МАФ и так далее. При этом элемент может быть составным, например, объект типа «клумба» должен распознаваться на комплексных изображениях ЛД, при этом, он должен отдельно быть распознан по составляющим его частям.In this block, the initial training of the neural network and text marking (tagging) of LD elements takes place. LD elements are understood as any objects of the classes plant, MAF, and so on. In this case, the element can be composite, for example, an object like a “flower bed” should be recognized on complex LD images, while it should be separately recognized by its constituent parts.

Процесс распознавания элементов.Element recognition process.

Осуществляется загрузка датасета из нескольких фотографий одного элемента (не менее 100, используются подготовленные датасеты из iNaturalist или ImageNet). При этом, должна быть простроена связь с онтологией - т.е. при загрузке фиксируется к какому классу относятся данные экземпляры. Для данной модели была разработана собственная онтология, которая описывает все элементы и объекты ландшафтного дизайна, со всеми возможными свойствами и атрибутами. Для разных типов объектов сформированы перечни возможных атрибутов (признаков). Объекты и признаки являются частями онтологии.A dataset is loaded from several photographs of one element (at least 100, prepared datasets from iNaturalist or ImageNet are used). At the same time, a connection with ontology must be built - i.e. When loading, it is recorded which class these instances belong to. For this model, our own ontology was developed, which describes all elements and objects of landscape design, with all possible properties and attributes. For different types of objects, lists of possible attributes (features) have been generated. Objects and features are parts of the ontology.

Изображения поступают на вход нейронной сети.The images are input to the neural network.

Для разметки используется нейронная сеть под названием CLIP (Contrastive Language-Image Pre-training), которая позволяет значительно ускорить процесс предобработки графических объектов и их классификацию (тэгирование).Основной принцип работы - параллельный анализ как изображения, так и текстового описания, что позволяет создать вектор признаков, содержащее текстовое описание изображения (цветок, соцветие белого цвета, стебель гладкий, листья темно-зеленые, стреловидные). Фактически происходит автоматизация классификации изображений и при этом изображение тэгируется. В нашем случае, полученные тэги сверяются с онтологией и тем самым конкретная фотография привязывается как экземпляр класса.For marking, a neural network called CLIP (Contrastive Language-Image Pre-training) is used, which can significantly speed up the process of preprocessing graphic objects and their classification (tagging). The main operating principle is parallel analysis of both images and text descriptions, which allows you to create a feature vector containing a text description of the image (flower, white inflorescence, smooth stem, dark green, arrow-shaped leaves). In fact, image classification is automated and the image is tagged. In our case, the received tags are checked against the ontology and thus a specific photo is linked as an instance of the class.

Блок анализа изображений ЛД.LD image analysis unit.

В данном блоке анализируются сложные комплексные изображения с использованием нейронной сети, обученной ранее на библиотеке элементов.In this block, complex complex images are analyzed using a neural network previously trained on a library of elements.

Алгоритм действий.Algorithm of actions.

Автоматически загружается фотография ЛД.The LD photo is automatically loaded.

Далее изображение сегментируется, при этом в несколько итераций - т.е. сначала выделяются крупные объекты, например, дома, МАФы, объекты ЛД, и только потом, сегментируется все на более мелкие сегменты. В результате работы алгоритма мы получаем маску с сегментированным изображением, где пиксели одного сегмента помечены одинаковой меткой и образуют связную область. Алгоритм отлично себя показывает для решения задачи первичного выделения границ интересующих объектов на изображении (Watershed boxing). Варьируя начальные настройки алгоритма, среди которых порог чувствительности, а также ограничения на размер объектов, можно получить релевантную подборку объектов для дальнейшей обработки.Next, the image is segmented, in several iterations - i.e. First, large objects are identified, for example, houses, MAFs, LD objects, and only then everything is segmented into smaller segments. As a result of the algorithm, we obtain a mask with a segmented image, where the pixels of one segment are labeled with the same label and form a connected area. The algorithm performs well for solving the problem of primary identification of the boundaries of objects of interest in an image (Watershed boxing). By varying the initial settings of the algorithm, including the sensitivity threshold, as well as restrictions on the size of objects, you can obtain a relevant selection of objects for further processing.

Далее, с использованием нейронной сети, из блока первоначального обучения осуществляется классификация выделенных объектов. Если объект не распознан автоматически - то он должен быть выделен и направлен аналитику для ручной классификации и сохранения в БД элементов.Next, using a neural network, the selected objects are classified from the initial training block. If an object is not automatically recognized, then it must be selected and sent to an analyst for manual classification and storage in the elements database.

Параллельно с определением объектов осуществляется тэгирование изображение - т.е., автоматическое добавление служебной информации к изображению стиля.In parallel with the definition of objects, tagging of the image is carried out - that is, automatic addition of service information to the style image.

Таким образом, на входе блока изображение с ЛД, а на выходе вектор признаков изображения, включающий в себя:Thus, the input of the block is an image with an LD, and the output is a vector of image features, including:

Стиль ЛД (определен по итогам обучения);LD style (determined based on training results);

Перечень найденных объектов, с иерархией включения (т.е. если это цветок, то он входит в клумбу и так далее);A list of found objects, with a hierarchy of inclusion (i.e. if it is a flower, then it is included in the flowerbed, and so on);

Свойства объектов.Properties of objects.

Описание модели генерации изображений.Description of the image generation model.

Предложена следующая модель генерации, основные процессы которой проиллюстрированы на фигуре 4.The following generation model is proposed, the main processes of which are illustrated in Figure 4.

Используется последовательный подход работы с генерацией:A sequential approach to working with generation is used:

1. Упрощенная (быстрая) генерация;1. Simplified (fast) generation;

2. Полнофункциональная генерация. Быстрая генерация.2. Fully functional generation. Fast generation.

1. При достаточном наборе данных задаются параметры генерации:1. If there is a sufficient set of data, the generation parameters are set:

- Стиль;- Style;

- Типы объектов;- Types of objects;

- Количество объектов;- Number of objects;

- Свойства объектов (класс, атрибуты);- Properties of objects (class, attributes);

- Расположения объектов.- Location of objects.

2. Далее, с помощью нейронной сети, создается план расположения объектов с учетом заданных параметров.2. Next, using a neural network, a plan for the location of objects is created taking into account the specified parameters.

Генерация изображений осуществляется на основе существующей библиотеки изображений. Каждое из изображений снабжено набором тегов, обусловливающих возможность его использования в определенной композиции. Процесс построения изображения состоит из следующих шагов:Image generation is carried out based on an existing image library. Each of the images is equipped with a set of tags that determine the possibility of its use in a specific composition. The imaging process consists of the following steps:

1. Составляется фактологическое описание картины, которое включает в себя:1. A factual description of the picture is drawn up, which includes:

- стиль композиции;- style of composition;

- набор обязательных объектов (и их количество);- a set of required objects (and their number);

- набор предпочтений, влияющих на правила размещения объектов.- a set of preferences that influence the rules for placing objects.

2. Формируется координатная решетка, к узлам которой будет осуществляться привязка объектов. Выбор размера решетки влияет, с одной стороны, на быстродействие алгоритма, с другой - на визуальные эффекты2. A coordinate grid is formed, to the nodes of which objects will be linked. The choice of lattice size affects, on the one hand, the performance of the algorithm, and on the other hand, the visual effects

3. Происходит генерация пула вариантов. Исходными данными является набор объектов, которые необходимо разместить на решетке. Генерируемый вариант размещения проверяется на соответствие базе правил, выбранных из базы данных применительно к композиции. Правила могут быть выражены как в декларативном, так и в нечетком виде, допускающем размытое толкование.3. A pool of options is generated. The initial data is a set of objects that need to be placed on the grid. The generated placement option is checked against a base of rules selected from the database in relation to the composition. Rules can be expressed both in declarative and in vague form, allowing for vague interpretation.

4. Для ускорения процесса подбора вариантов, удовлетворяющих правилам, используется реализация генетического алгоритма.4. To speed up the process of selecting options that satisfy the rules, an implementation of a genetic algorithm is used.

При генерации работают правила типа С, в частности С21 ('Хвойные деревья одной породы рядом нежелательны'), заданное с 80% точностью. Заданные для координатной решетки параметры минимального и максимального расстояния между цветами и деревьями также определяют характер размещения объектовDuring generation, rules of type C work, in particular C21 ('Coniferous trees of the same species nearby are undesirable'), specified with 80% accuracy. The parameters of the minimum and maximum distance between flowers and trees specified for the coordinate grid also determine the nature of the placement of objects

Для более точного удовлетворения запроса пользователя, при генерации возможно использование фона в виде фотографий, загруженных ранее.To more accurately satisfy the user's request, during generation it is possible to use a background in the form of photographs uploaded earlier.

После того, как пользователь останавливает демонстрацию, для отобранных им изображений, созданных с использованием простой генерации, включается механизм полнофункциональной генерации.After the user stops the demo, the images he selected, created using simple generation, are enabled for full-featured generation.

Архитектура системы.System architecture.

1. Функциональная модель системы.1. Functional model of the system.

Рассмотренные модели по определению пользовательских предпочтений и генерации изображений представляют из себя систему взаимосвязанных функциональных компонентов. Для выстраивания концептуального видения работы системы, организации видения информационных потоков сформулирована функциональная модель работы системы по аналогии с нотацией IDEF0.The considered models for determining user preferences and generating images are a system of interconnected functional components. To build a conceptual vision of the system’s operation and organize a vision of information flows, a functional model of the system’s operation is formulated by analogy with the IDEF0 notation.

Управляющее воздействие на все функциональные модули оказывают элементы онтологии и правил ландшафтного дизайна, а также размеченные изображения с вектором присвоенных признаков.The control influence on all functional modules is exerted by elements of the ontology and rules of landscape design, as well as marked images with a vector of assigned features.

Модель потоков данных системы состоит из следующих элементов:The system data flow model consists of the following elements:

- сущностей проектируемой системы, включая технические функциональные модули, а также модули, взаимодействующие с внешней средой;- entities of the designed system, including technical functional modules, as well as modules that interact with the external environment;

- хранилищ и накопителей данных (баз данных);- data storage and storage devices (databases);

- потоков данных между сущностями;- data flows between entities;

- процессов;- processes;

- субъектов, задействованных в процессах;- subjects involved in processes;

- внешних объектов (устройств).- external objects (devices).

Для генерации изображений ландшафтного дизайна в соответствии с пользовательскими предпочтениями обучена специальная диффузионная модель с условием. Для обучения модели из открытых источников были собраны 102 000 изображений ландшафтного дизайна. Данные изображения были приведены к единому размеру (512x512 рх) и проанализированы Детектором с целью извлечения вектора признаков. На входы дииффузионной модели в процессе ее обучения подавалась одновременно информация о признаках изображений и сами изображения. Для генерации изображений ландшафтного дизайна выбрана технология стабильной диффузии (библиотека diffusers). Для ускорения процесса генерации используется подготовка моделью семейства Unet скрытого слоя, из которого затем автоэнкодер восстанавливает целевое изображение. Т.к. система производит генерацию по условию, выбрана модель Unet2dConditionModel.A special conditional diffusion model is trained to generate landscape design images according to user preferences. To train the model, 102,000 images of landscape design were collected from open sources. The image data was reduced to a single size (512x512 px) and analyzed by the Detector to extract a feature vector. During its training, the inputs of the diffusion model were simultaneously supplied with information about the features of the images and the images themselves. To generate images of landscape design, stable diffusion technology (diffusers library) was selected. To speed up the generation process, the Unet family model prepares a hidden layer, from which the autoencoder then reconstructs the target image. Because the system generates according to condition, the Unet2dConditionModel is selected.

Тренировка диффузионной модели специально для генерации изображений ландшафтного дизайна позволило сократить время генерации изображений с 3.5 с до 1 с на GPU Nvidia Т4, а также повысить разнообразие объектов и сцен на сгенерированных изображениях.Training a diffusion model specifically for generating landscape design images allowed us to reduce image generation time from 3.5 s to 1 s on an Nvidia T4 GPU, as well as increase the variety of objects and scenes in the generated images.

Решение позволяет детектировать растения на сгенерированном изображении и подобрать похожие изображения в базе данных сервиса с учетом зимостойкости, освещенности и бюджета для последующего их заказа в питомниках.The solution allows you to detect plants in the generated image and select similar images in the service database, taking into account winter hardiness, lighting and budget for their subsequent ordering in nurseries.

Алгоритм подбора растений.Plant selection algorithm.

1. Получая запрос на подбор из основного операционного блока, осуществляется отправка http-запроса в сервис детекции.1. Upon receiving a selection request from the main operating unit, an http request is sent to the detection service.

2. Сервис детекции, получив указанный запрос, анализирует сгенерированное изображение и возвращает бинарный поток сериализованных данных: метка класса обнаруженного растения, координаты ограничивающей рамки, а также само графическое содержимое.2. The detection service, having received the specified request, analyzes the generated image and returns a binary stream of serialized data: the class label of the detected plant, the coordinates of the bounding box, as well as the graphic content itself.

3. Сервис подбора растений, получив данные от сервиса детекции, выделяет векторы признаков изображений (эмбеддинги) растений и сравнивает их с векторами растений из базы данных сервиса, вычисляя коссинусное расстояние между ними. В целях извлечения эмбеддингов изображений предварительно обучена модель машинного обучения - автоэнкодер архитектуры DINOv2. Данная модель была обучена на изображениях, используемых для обучения сервиса детекции изображений и впоследствии обработанных сервисом детекции.3. The plant selection service, having received data from the detection service, selects feature vectors of images (embeddings) of plants and compares them with plant vectors from the service database, calculating the cosine distance between them. In order to extract image embeddings, a machine learning model was pre-trained - an autoencoder of the DINOv2 architecture. This model was trained on images used to train the image detection service and subsequently processed by the detection service.

4. Информация о подобранных таким образом растениях представляется пользователю.4. Information about the plants selected in this way is presented to the user.

Сгенерированные изображения сохраняются в объектное хранилище S3, а информация о них заносится в Базу данных для дальнейшего использования в рамках подбора растений, генерации ракурсов и встраивания пользовательских объектов в изображение.The generated images are saved to S3 object storage, and information about them is entered into the Database for further use in selecting plants, generating angles, and embedding custom objects in the image.

Полученная диффузионная модель машинного обучения справляется с задачей генерации изображения на видеоускорителе Nvidia Р100 за 1.2 с и занимает 1.5 Гб видеопамяти, что существенно ниже показателей стандартных моделей семейства Stable Diffusion общего назначения. Качество полученных изображений практически совпадает с фотографиями реальных объектов. Сервис имеет информацию для подключения к стороннему S3-хранилищу и производит предобработку и последующую отправку изображений в хранилище, а также отправку запроса на регистрацию информации об изображении в Базе данных приложения. Сервис в процессе своей работы использует сервис детекции объектов для получения информации о загружаемом изображении, а также бэкенд приложения для сохранения этой информации. Данный сервис в свою очередь использует сервис генерации приложений для сохранения результатов своей работы.The resulting diffusion machine learning model copes with the task of generating an image on an Nvidia P100 video accelerator in 1.2 s and occupies 1.5 GB of video memory, which is significantly lower than the standard models of the general-purpose Stable Diffusion family. The quality of the resulting images is almost identical to photographs of real objects. The service has information for connecting to a third-party S3 storage and performs pre-processing and subsequent sending of images to the storage, as well as sending a request to register information about the image in the application Database. During its operation, the service uses an object detection service to obtain information about the downloaded image, as well as the backend of the application to save this information. This service, in turn, uses the application generation service to save the results of its work.

Вычислительная система, способная обеспечивать обработку данных, необходимую для реализации заявленного решения, в общем случае, содержат такие компоненты как: один или более процессоров, по меньшей мере одну память, средство хранения данных, интерфейсы ввода/вывода, средство ввода, средства сетевого взаимодействия.A computing system capable of providing data processing necessary to implement the claimed solution, in the general case, contains components such as: one or more processors, at least one memory, data storage means, input/output interfaces, input means, network communication means.

При исполнении машиночитаемых команд, содержащихся в оперативной памяти, конфигурируют процессор устройства для выполнения основных вычислительных операций, необходимых для функционирования устройства или функциональности одного, или более его компонентов.When executing machine-readable instructions contained in the RAM, the processor of the device is configured to perform basic computing operations necessary for the operation of the device or the functionality of one or more of its components.

Память, как правило, выполнена в виде ОЗУ, куда загружается необходимая программная логика, обеспечивающая требуемый функционал. При осуществлении работы предлагаемого решения выделяют объем памяти, необходимый для осуществления предлагаемого решения.Memory, as a rule, is made in the form of RAM, into which the necessary program logic is loaded to provide the required functionality. When implementing the proposed solution, the amount of memory necessary to implement the proposed solution is allocated.

Средство хранения данных может выполняться в виде HDD, SSD дисков, рейд массива, сетевого хранилища, флэш-памяти и т.п. Средство позволяет выполнять долгосрочное хранение различного вида информации, например, вышеупомянутых файлов с наборами данных пользователей/пассажиров, базы данных, содержащих записи измеренных для каждого пользователя временных интервалов, идентификаторов пользователей и т.п.The data storage medium can be in the form of HDDs, SSDs, raid arrays, network storage, flash memory, etc. The tool allows long-term storage of various types of information, for example, the above-mentioned files with user/passenger data sets, databases containing records of time intervals measured for each user, user IDs, etc.

Интерфейсы представляют собой стандартные средства для подключения и работы периферийных и прочих устройств, например, USB, RS232, RJ45, СОМ, HDMI, PS/2, Lightning и т.п.Interfaces are standard means for connecting and operating peripheral and other devices, for example, USB, RS232, RJ45, COM, HDMI, PS/2, Lightning, etc.

Выбор интерфейсов зависит от конкретного исполнения устройства, которое может представлять собой персональный компьютер, мейнфрейм, серверный кластер, тонкий клиент, смартфон, ноутбук и т.п.The choice of interfaces depends on the specific design of the device, which can be a personal computer, mainframe, server cluster, thin client, smartphone, laptop, etc.

В качестве средств ввода данных в любом воплощении системы, реализующей описываемый способ, может использоваться клавиатура. Аппаратное исполнение клавиатуры может быть любым известным: это может быть, как встроенная клавиатура, используемая на ноутбуке или нетбуке, так и обособленное устройство, подключенное к настольному компьютеру, серверу или иному компьютерному устройству. Подключение при этом может быть, как проводным, при котором соединительный кабель клавиатуры подключен к порту PS/2 или USB, расположенному на системном блоке настольного компьютера, так и беспроводным, при котором клавиатура осуществляет обмен данными по каналу беспроводной связи, например, радиоканалу, с базовой станцией, которая, в свою очередь, непосредственно подключена к системному блоку, например, к одному из USB-портов. Помимо клавиатуры, в составе средств ввода данных также может использоваться: джойстик, дисплей (сенсорный дисплей), проектор, тачпад, манипулятор мышь, трекбол, световое перо, динамики, микрофон и т.п.A keyboard can be used as a data input means in any embodiment of a system that implements the described method. The hardware design of the keyboard can be any known: it can be either a built-in keyboard used on a laptop or netbook, or a separate device connected to a desktop computer, server or other computer device. The connection can be either wired, in which the keyboard connecting cable is connected to the PS/2 or USB port located on the system unit of the desktop computer, or wireless, in which the keyboard exchanges data via a wireless communication channel, for example, a radio channel, with base station, which, in turn, is directly connected to the system unit, for example, to one of the USB ports. In addition to the keyboard, data input means can also include: joystick, display (touch display), projector, touchpad, mouse, trackball, light pen, speakers, microphone, etc.

Средства сетевого взаимодействия выбираются из устройства, обеспечивающий сетевой прием и передачу данных, например, Ethernet карту, WLAN/Wi-Fi модуль, Bluetooth модуль, BLE модуль, NFC модуль, IrDa, RFID модуль, GSM модем и т.п. С помощью средств обеспечивается организация обмена данными по проводному или беспроводному каналу передачи данных, например, WAN, PAN, ЛВС (LAN), Интранет, Интернет, WLAN, WMAN или GSM.The means of network interaction are selected from a device that provides network reception and transmission of data, for example, an Ethernet card, WLAN/Wi-Fi module, Bluetooth module, BLE module, NFC module, IrDa, RFID module, GSM modem, etc. The tools ensure the organization of data exchange via a wired or wireless data transmission channel, for example, WAN, PAN, LAN, Intranet, Internet, WLAN, WMAN or GSM.

Компоненты устройства сопряжены посредством общей шины передачи данных.The device components are interconnected via a common data bus.

В настоящих материалах заявки было представлено предпочтительное раскрытие осуществление заявленного технического решения, которое не должно использоваться как ограничивающее иные, частные воплощения его реализации, которые не выходят за рамки испрашиваемого объема правовой охраны и являются очевидными для специалистов в соответствующей области техники.In these application materials, a preferred disclosure of the implementation of the claimed technical solution was presented, which should not be used as limiting other, private embodiments of its implementation, which do not go beyond the scope of the requested scope of legal protection and are obvious to specialists in the relevant field of technology.

Claims

A method for generating images, including stages at which: initial training of a neural network and text marking of elements in the image is carried out by loading a dataset of several images of one element, while building connections with the ontology; images are input to the CLIP (Contrastive Language-Image Pre-training) neural network for marking, where parallel analysis of the image and text description is carried out, thereby creating a feature vector containing a text description of the image; the downloaded images are analyzed by segmenting the image in several iterations, by selecting large objects, and, if necessary, selecting smaller image segments; due to the previous stage, a mask with a segmented image is formed, where the pixels of one segment are marked with the same label and form a connected area; then, using a neural network, the selected objects are classified; In parallel with the identification of objects, image tagging is carried out; at the final stage, images are generated based on an existing library of images, each of the images is equipped with a set of tags that determine the possibility of its use in a certain composition, and the image generation process consists of the following steps: a factual description of the picture is compiled; a coordinate grid is formed, to the nodes of which objects are linked; a pool of options is generated, where the initial data is a set of objects that need to be placed on the grid, and the generated placement option is checked for compliance using a rule base.