RU2817316C2 - Method and apparatus for training image generation model, method and apparatus for generating images and their devices - Google Patents

Method and apparatus for training image generation model, method and apparatus for generating images and their devices Download PDF

Info

Publication number
RU2817316C2
RU2817316C2 RU2023121327A RU2023121327A RU2817316C2 RU 2817316 C2 RU2817316 C2 RU 2817316C2 RU 2023121327 A RU2023121327 A RU 2023121327A RU 2023121327 A RU2023121327 A RU 2023121327A RU 2817316 C2 RU2817316 C2 RU 2817316C2
Authority
RU
Russia
Prior art keywords
image
model
training
transformation model
samples
Prior art date
Application number
RU2023121327A
Other languages
Russian (ru)
Other versions
RU2023121327A (en
Inventor
Ань ЛИ
Юйлэ ЛИ
Вэй СЯН
Original Assignee
Биго Текнолоджи Пте. Лтд.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Биго Текнолоджи Пте. Лтд. filed Critical Биго Текнолоджи Пте. Лтд.
Publication of RU2023121327A publication Critical patent/RU2023121327A/en
Application granted granted Critical
Publication of RU2817316C2 publication Critical patent/RU2817316C2/en

Links

Abstract

FIELD: data processing.
SUBSTANCE: invention relates to image processing. Method of training an image generation model, comprising: obtaining a first transformation model through training, wherein the first transformation model is configured to generate a first training image based on the first noise sample, and the first training image is a first style image, obtaining a reconstruction model by training based on the first transformation model, obtaining a second transformation model by training, wherein the second transformation model is configured to generate a second training image based on the second noise sample, and the second training image is a second style image, generating a spliced transformation model by splicing the first transformation model with a second transformation model and creating an image generation model based on the reconstruction model and the spliced transformation model.
EFFECT: wider range of tools for image generation.
15 cl, 10 dwg

Description

Ссылка на родственные заявкиLink to related applications

[0001] Данная заявка основана на национальной фазе международной заявки №PCT/CN2022/074499 в России, поданной 28 января 2022 года, которая испрашивает приоритет по заявке на патент Китая №2021101439270 под названием «Способ и устройство для обучения модели генерирования изображений, способ и устройство для генерирования изображений, а также входящие в их состав устройства», поданной 2 февраля 2021 года, содержание которых полностью включено в настоящий документ посредством ссылки.[0001] This application is based on the national phase of international application No. PCT/CN2022/074499 in Russia, filed on January 28, 2022, which claims priority to Chinese patent application No. 2021101439270 entitled “Method and apparatus for training an image generation model, method and image-generating device and its constituent devices,” filed February 2, 2021, the contents of which are incorporated herein by reference in their entirety.

Область техники, к которой относится настоящее изобретениеField of technology to which the present invention relates

[0002] Варианты осуществления настоящего изобретения относятся к технической области машинного обучения и обработки изображений, в частности, к способу и устройству для обучения модели генерирования изображений, к способу и устройству для генерирования изображений, а также к входящим в их состав устройствам.[0002] Embodiments of the present invention relate to the technical field of machine learning and image processing, in particular, to a method and apparatus for training an image generation model, to a method and apparatus for generating images, and to devices included therein.

Предшествующий уровень техники настоящего изобретенияBACKGROUND OF THE INVENTION

[0003] Машинное обучение широко используется в технической области обработки изображений. К примеру, на основе машинного обучения можно менять стили изображений.[0003] Machine learning is widely used in the technical field of image processing. For example, based on machine learning, you can change image styles.

Краткое раскрытие настоящего изобретенияBrief Disclosure of the Present Invention

[0004] Некоторыми вариантами осуществления настоящего изобретения предложен способ и устройство для обучения модели генерирования изображений, способ и устройство для генерирования изображений, а также входящие в их состав устройства. Технические решения описаны ниже.[0004] Some embodiments of the present invention provide a method and apparatus for training an image generation model, a method and apparatus for generating images, and devices included therein. Technical solutions are described below.

[0005] Согласно одному из аспектов вариантов осуществления настоящего изобретения предложен способ обучения модели генерирования изображений. Этот способ предусматривает:[0005] According to one aspect of embodiments of the present invention, a method for training an image generation model is provided. This method provides:

[0006] получение первой модели преобразования посредством обучения, причем первая модель преобразования выполнена с возможностью генерирования первого обучающего изображения в соответствии с первым образцом шума, а первое обучающее изображение представляет собой изображение первого стиля;[0006] obtaining a first transformation model by training, the first transformation model configured to generate a first training image according to the first noise pattern, and the first training image is a first style image;

[0007] получение модели реконструкции посредством обучения на основании первой модели преобразования, причем модель реконструкции выполнена с возможностью привязки образца исходного изображения к скрытой переменной, соответствующей образцу исходного изображения;[0007] obtaining a reconstruction model by learning based on the first transformation model, wherein the reconstruction model is configured to associate a sample of the original image with a latent variable corresponding to the sample of the original image;

[0008] получение второй модели преобразования посредством обучения, причем вторая модель преобразования выполнена с возможностью генерирования второго обучающего изображения в соответствии со вторым образцом шума, а второе обучающее изображение представляет собой изображение второго стиля;[0008] obtaining a second transformation model by training, the second transformation model configured to generate a second training image in accordance with the second noise pattern, and the second training image is a second style image;

[0009] генерирование сращенной модели преобразования путем сращивания первой модели преобразования со второй моделью преобразования; и[0009] generating a spliced transformation model by splicing the first transformation model with a second transformation model; And

[0010] создание модели генерирования изображений на основании модели реконструкции и сращенной модели преобразования, причем модель генерирования изображений выполнена с возможностью преобразования подлежащего преобразованию изображения первого стиля в целевое изображение второго стиля.[0010] creating an image generation model based on the reconstruction model and the spliced transformation model, wherein the image generation model is configured to transform the first style image to be transformed into a target image of the second style.

[0011] Согласно другому аспекту вариантов осуществления настоящего изобретения предложен способ генерирования изображений. Этот способ предусматривает:[0011] According to another aspect of embodiments of the present invention, a method for generating images is provided. This method provides:

[0012] генерирование скрытой переменной, соответствующей подлежащему преобразованию изображению, путем ввода подлежащего преобразованию изображения первого стиля в модель реконструкции; и[0012] generating a latent variable corresponding to the image to be transformed by inputting the first style image to be transformed into the reconstruction model; And

[0013] генерирование на основании скрытой переменной, соответствующей подлежащему преобразованию изображению целевого изображения, соответствующего подлежащему преобразованию изображению, с использованием сращенной модели преобразования, причем целевое изображение представляет собой изображение второго стиля;[0013] generating, based on the latent variable corresponding to the image to be transformed, a target image corresponding to the image to be transformed using a spliced transformation model, the target image being a second style image;

[0014] при этом сращенная модель преобразования представляет собой модель, сгенерированную путем сращивания первой модели преобразования со второй моделью преобразования; первая модель преобразования выполнена с возможностью генерирования изображения первого стиля в соответствии с первым образцом шума; а вторая модель преобразования выполнена с возможностью генерирования изображения второго стиля в соответствии со вторым образцом шума.[0014] wherein the spliced transformation model is a model generated by splicing a first transformation model with a second transformation model; the first transformation model is configured to generate a first style image in accordance with the first noise sample; and the second transformation model is configured to generate a second style image in accordance with the second noise pattern.

[0015] Согласно еще одному из аспектов вариантов осуществления настоящего изобретения предложено устройство для обучения модели генерирования изображений. Это устройство включает в себя:[0015] According to yet another aspect of embodiments of the present invention, an apparatus for training an image generation model is provided. This device includes:

[0016] модуль обучения модели, выполненный с возможностью получения первой модели преобразования посредством обучения, причем первая модель преобразования выполнена с возможностью генерирования первого обучающего изображения в соответствии с первым образцом шума, а первое обучающее изображение представляет собой изображение первого стиля, при этом:[0016] a model learning module configured to obtain a first transformation model by training, the first transformation model configured to generate a first training image in accordance with the first noise sample, and the first training image is a first style image, wherein:

[0017] модуль обучения модели выполнен с дополнительной возможностью получения модели реконструкции посредством обучения на основании первой модели преобразования, причем модель реконструкции выполнена с возможностью привязки образца исходного изображения к скрытой переменной, соответствующей образцу исходного изображения; и[0017] the model learning module is further configured to obtain a reconstruction model by learning based on the first transformation model, the reconstruction model being configured to associate a sample of the original image with a latent variable corresponding to the sample of the original image; And

[0018] модуль обучения модели выполнен с дополнительной возможностью получения второй модели преобразования посредством обучения, причем вторая модель преобразования выполнена с возможностью генерирования второго обучающего изображения в соответствии со вторым образцом шума, а второе обучающее изображение представляет собой изображение второго стиля; и[0018] the model learning module is further configured to obtain a second transformation model by training, the second transformation model is configured to generate a second training image in accordance with the second noise pattern, and the second training image is a second style image; And

[0019] модуль генерирования модели, выполненный с возможностью генерирования сращенной модели преобразования путем сращивания первой модели преобразования со второй моделью преобразования, при этом:[0019] a model generation module configured to generate a spliced transformation model by splicing a first transformation model with a second transformation model, wherein:

[0020] модуль генерирования модели выполнен с дополнительной возможностью генерирования модели генерирования изображений на основании модели реконструкции и сращенной модели преобразования, причем модель генерирования изображений выполнена с возможностью преобразования подлежащего преобразованию изображения первого стиля в целевое изображение второго стиля.[0020] The model generation module is further configured to generate an image generation model based on the reconstruction model and the spliced transformation model, wherein the image generation model is configured to transform the first style image to be transformed into a second style target image.

[0021] Согласно еще одному из аспектов вариантов осуществления настоящего изобретения предложено устройство для генерирования изображений. Это устройство включает в себя:[0021] According to yet another aspect of embodiments of the present invention, an image generating apparatus is provided. This device includes:

[0022] модуль генерирования переменных, выполненный с возможностью генерирования скрытой переменной, соответствующей подлежащему преобразованию изображению, путем ввода подлежащего преобразованию изображения первого стиля в модель реконструкции; и[0022] a variable generation module configured to generate a latent variable corresponding to the image to be transformed by inputting the first style image to be transformed into the reconstruction model; And

[0023] модуль генерирования изображений, выполненный с возможностью генерировании на основании скрытой переменной, соответствующей подлежащему преобразованию изображению целевого изображения, соответствующего подлежащему преобразованию изображению, с использованием сращенной модели преобразования, причем целевое изображение представляет собой изображение второго стиля;[0023] an image generation module configured to generate, based on a latent variable corresponding to an image to be transformed, a target image corresponding to the image to be transformed using a spliced transformation model, wherein the target image is a second style image;

[0024] при этом сращенная модель преобразования представляет собой модель, сгенерированную путем сращивания первой модели преобразования со второй моделью преобразования; первая модель преобразования выполнена с возможностью генерирования изображения первого стиля в соответствии с первым образцом шума; а вторая модель преобразования выполнена с возможностью генерирования изображения второго стиля в соответствии со вторым образцом шума.[0024] wherein the spliced transformation model is a model generated by splicing the first transformation model with the second transformation model; the first transformation model is configured to generate a first style image in accordance with the first noise sample; and the second transformation model is configured to generate a second style image in accordance with the second noise pattern.

[0025] Согласно еще одному из аспектов вариантов осуществления настоящего изобретения предложено компьютерное устройство. Это компьютерное устройство включает в себя процессор и память. В памяти хранится одна или несколько компьютерных программ. Одна или несколько компьютерных программ при их загрузке и выполнении процессором компьютерного устройства инициирует реализацию компьютерным устройством способа обучения модели генерирования изображений, описанного выше, или реализацию способа генерирования изображений, описанного выше.[0025] According to yet another aspect of embodiments of the present invention, a computer device is provided. This computer device includes a processor and memory. The memory stores one or more computer programs. One or more computer programs, when downloaded and executed by a processor of a computer device, causes the computer device to implement the method of training an image generation model described above, or to implement the image generation method described above.

[0026] Согласно еще одному из аспектов вариантов осуществления настоящего изобретения предложен машиночитаемый носитель данных для хранения на нем одной или нескольких компьютерных программ. Одна или несколько компьютерных программ при их загрузке и выполнении процессором инициирует реализацию процессором способа обучения модели генерирования изображений, описанного выше, или реализацию способа генерирования изображений, описанного выше.[0026] According to yet another aspect of embodiments of the present invention, there is provided a computer-readable storage medium for storing one or more computer programs. The one or more computer programs, when loaded and executed by the processor, causes the processor to implement the method of training an image generation model described above, or to implement the image generation method described above.

[0027] Согласно еще одному из аспектов вариантов осуществления настоящего изобретения предложен компьютерный программный продукт.Этот компьютерный программный продукт при его загрузке и приведении в исполнение процессором инициирует реализацию способа обучения модели генерирования изображений, описанного выше, или реализацию способа генерирования изображений, описанного выше.[0027] According to yet another aspect of embodiments of the present invention, a computer program product is provided. The computer program product, when loaded and executed by a processor, initiates an implementation of the image generation model training method described above or an implementation of the image generation method described above.

Краткое описание чертежейBrief description of drawings

[0028] На фиг. 1 представлена блок-схема, иллюстрирующая способ обучения модели генерирования изображений согласно некоторым вариантам осуществления настоящего изобретения;[0028] In FIG. 1 is a flowchart illustrating a method for training an image generation model according to some embodiments of the present invention;

[0029] На фиг. 2 схематически показано сращивание моделей согласно некоторым вариантам осуществления настоящего изобретения;[0029] In FIG. 2 is a schematic illustration of model splicing according to some embodiments of the present invention;

[0030] На фиг. 3 представлена блок-схема, иллюстрирующая способ обучения модели генерирования изображений согласно некоторым вариантам осуществления настоящего изобретения;[0030] In FIG. 3 is a flowchart illustrating a method for training an image generation model according to some embodiments of the present invention;

[0031] На фиг. 4 показана структурная схема первой модели преобразования согласно некоторым вариантам осуществления настоящего изобретения;[0031] In FIG. 4 is a block diagram of a first conversion model according to some embodiments of the present invention;

[0032] На фиг. 5 показана структурная схема модели реконструкции согласно некоторым вариантам осуществления настоящего изобретения;[0032] In FIG. 5 is a block diagram of a reconstruction model according to some embodiments of the present invention;

[0033] На фиг. 6 представлена блок-схема, иллюстрирующая способ генерирования изображений согласно некоторым вариантам осуществления настоящего изобретения;[0033] In FIG. 6 is a flowchart illustrating a method for generating images according to some embodiments of the present invention;

[0034] На фиг. 7 схематически проиллюстрирован способ генерирования изображений согласно некоторым вариантам осуществления настоящего изобретения;[0034] In FIG. 7 schematically illustrates a method for generating images according to some embodiments of the present invention;

[0035] На фиг. 8 показана структурная схема устройства для обучения модели генерирования изображений согласно некоторым вариантам осуществления настоящего изобретения;[0035] In FIG. 8 is a block diagram of an apparatus for training an image generation model according to some embodiments of the present invention;

[0036] На фиг. 9 показана структурная схема устройства для обучения модели генерирования изображений согласно некоторым вариантам осуществления настоящего изобретения;и[0036] In FIG. 9 is a block diagram of an apparatus for training an image generation model according to some embodiments of the present invention; and

[0037] На фиг. 10 показана структурная схема устройства для генерирования изображений согласно некоторым вариантам осуществления настоящего изобретения.[0037] In FIG. 10 is a block diagram of an image generating apparatus according to some embodiments of the present invention.

Подробное раскрытие настоящего изобретенияDetailed Disclosure of the Present Invention

[0038] Согласно некоторым практическим подходам к обработке изображений на основе машинного обучения сначала обеспечивается получение большого числа пар обучающих образцов. Каждый обучающий образец включает в себя изображение реального лица и соответствующее комичное изображение лица. Затем выполняется множество повторяющихся сеансов обучения непосредственно в отношении модели обучения с использованием большого числа пар обучающих образцов, а обученная модель обучения представляет собой модель генерирования изображений. Такое обучение модели генерирования изображений требует огромного количества образцов, и процесс обучения занимает много времени.[0038] Some practical machine learning image processing approaches first provide a large number of pairs of training samples. Each training sample includes an image of a real face and a corresponding comical face image. Then, many repeated training sessions are performed directly on the training model using a large number of pairs of training samples, and the trained training model is an image generation model. This training of an image generation model requires a huge number of samples, and the training process takes a long time.

[0039] Преобразование лиц является одним из обычных способов обработки изображений при машинном распознавании образов. Модель генерирования изображений, обученная с использованием способа согласно вариантам осуществления настоящего изобретения, применима к целевым приложениям (таким как видеоприложение, приложение для социальных сетей, приложение для вещания в прямом эфире, приложение для совершения покупок или приложение для обработки изображений). Преобразованное целевое изображение генерируется путем ввода изображения, подлежащего преобразованию (картинки или видео), в целевое приложение. Модель генерирования изображений записывается в целевое приложение или на сервер, который предоставляет целевому приложению услуги по фоновой обработке. В необязательном варианте преобразование лиц применимо к таким сценариям, как шаржирование лиц, стилизация лиц и редактирование характерных особенностей лиц (например, изменение возраста или пола в изображении), что не носит ограничительного характера в настоящем документе.[0039] Face transformation is one of the common image processing methods in machine pattern recognition. An image generation model trained using the method according to embodiments of the present invention is applicable to target applications (such as a video application, a social networking application, a live broadcast application, a shopping application, or an image processing application). The converted target image is generated by inputting the image to be converted (picture or video) into the target application. The image generation model is written to the target application or to a server that provides background processing services to the target application. Optionally, face transformation is applicable to scenarios such as face caricature, face stylization, and facial feature editing (eg, changing age or gender in an image), which is not intended to be limiting herein.

[0040] В рамках способа согласно некоторым вариантам осуществления настоящего изобретения каждая стадия выполняется компьютерным устройством, которое представляет собой электронное устройство, обладающее возможностями по вычислению, обработке и сохранению данных. Компьютерным устройством служит терминал, такой как персональный компьютер (ПК), планшетных компьютер, смартфон, носимое устройство, робот с искусственным интеллектом или иное устройство подобного рода, или сервер. Сервером служит автономный физический сервер, группа серверов или распределенная система, состоящая из множества физических серверов, или облачный сервер, предоставляющий услуги по облачным вычислениям.[0040] In a method according to some embodiments of the present invention, each step is performed by a computer device, which is an electronic device having capabilities for computing, processing, and storing data. A computing device is a terminal such as a personal computer (PC), tablet computer, smartphone, wearable device, artificial intelligence robot or other similar device, or server. A server is a stand-alone physical server, a group of servers or a distributed system consisting of many physical servers, or a cloud server that provides cloud computing services.

[0041] Технические решения настоящего изобретения описаны и проиллюстрированы ниже на примере некоторых вариантов его осуществления.[0041] The technical solutions of the present invention are described and illustrated below using the example of some embodiments.

[0042] На фиг. 1 представлена блок-схема, иллюстрирующая способ обучения модели генерирования изображений согласно некоторым вариантам осуществления настоящего изобретения. Как показано на фиг. 1, для вариантов осуществления настоящего изобретения представлено описание с использованием сценария, в котором предложенный способ применим к компьютерному устройству, описанному выше в качестве примера. Предложенный способ предусматривает выполнение стадий, описанных ниже (стадии 101-105).[0042] In FIG. 1 is a flowchart illustrating a method for training an image generation model according to some embodiments of the present invention. As shown in FIG. 1, embodiments of the present invention are described using a scenario in which the proposed method is applied to the computer device described above as an example. The proposed method involves performing the steps described below (steps 101-105).

[0043] На стадии 101 обеспечивается получение первой модели преобразования посредством обучения. Первая модель преобразования выполнена с возможностью генерирования первого обучающего изображения в соответствии с первым образцом шума. Первое обучающее изображение представляет собой изображение первого стиля.[0043] At step 101, the first transformation model is obtained through training. The first transformation model is configured to generate a first training image in accordance with the first noise sample. The first training image is the first style image.

[0044] В некоторых вариантах осуществления настоящего изобретения обеспечивается получение соответствующего первого обучающего изображения, что осуществляется путем ввода первого образца шума в первую модель преобразования, после чего на основании первого обучающего изображения корректируются параметры первой модели преобразования. Затем в отношении первой преобразованной модели выполняется следующий итеративный сеанс обучения путем ввода остальных первых образцов шума в первую модель преобразования до тех пор, пока обучение первой модели преобразования не будет завершено. Первый образец шума подвергается векторизации и вводится в первую модель преобразования в векторной форме или в матричной форме.[0044] In some embodiments of the present invention, a corresponding first training image is obtained by inputting a first noise sample into a first transformation model and then adjusting the parameters of the first transformation model based on the first training image. The first transformed model is then subjected to the next iterative training session by feeding the remaining first noise samples into the first transformation model until training of the first transformation model is completed. The first noise sample is vectorized and input into the first transformation model in either vector or matrix form.

[0045] В вариантах осуществления настоящего изобретения первая модель преобразования выполнена с возможностью генерирования первого обучающего изображения, которое согласуется с первым признаком. Первым признаком служит объективно существующий признак человека, объекта или сцены. В некоторых примерах первым признаком является признак реального лица. Иначе говоря, первое обучающее изображение представляет собой изображение, которое имитирует реальное лицо. В процессе обучения весовой параметр первой модели преобразования корректируется путем распознавания вероятности того, что лицо в первом обучающем изображении согласуется с признаком реального лица, благодаря чему первая модель преобразования может сгенерировать изображение, которое согласуется с признаком реального лица.[0045] In embodiments of the present invention, the first transformation model is configured to generate a first training image that is consistent with the first feature. The first sign is an objectively existing sign of a person, object or scene. In some examples, the first feature is a feature of a real person. In other words, the first training image is an image that simulates a real face. During the training process, the weight parameter of the first transformation model is adjusted by recognizing the probability that the face in the first training image matches the feature of a real face, so that the first transformation model can generate an image that matches the feature of a real face.

[0046] В необязательном варианте первый образец шума представляет собой случайно генерируемый шум. В некоторых вариантах осуществления настоящего изобретения плотность распределения вероятностей первого образца шума подвергается гауссовскому распределению.[0046] Optionally, the first noise sample is randomly generated noise. In some embodiments of the present invention, the probability density function of the first noise sample is subject to a Gaussian distribution.

[0047] На стадии 102 обеспечивается получение модели реконструкции посредством обучения на основании первой модели преобразования. Модель реконструкции выполнена с возможностью привязки образца исходного изображения к скрытой переменной, соответствующей образцу исходного изображения.[0047] At step 102, a reconstruction model is obtained by training based on the first transformation model. The reconstruction model is made with the ability to link a sample of the original image to a latent variable corresponding to the sample of the original image.

[0048] В необязательном варианте скрытая переменная представляет собой переменную, которая является ненаблюдаемой. В некоторых вариантах осуществления настоящего изобретения модель реконструкции выполнена с возможностью привязки (путем кодирования) образца исходного изображения к соответствующей скрытой переменной таким образом, что образец исходного изображения высокой размерности преобразуется в скрытую переменную меньшей размерности, что уменьшает сложность и время вычислений модели, благодаря чему также уменьшаются временные затраты на обучение модели.[0048] Optionally, a latent variable is a variable that is unobservable. In some embodiments of the present invention, the reconstruction model is configured to link (by encoding) a sample of the original image to a corresponding latent variable such that a high-dimensional sample of the original image is converted to a lower-dimensional latent variable, which reduces the complexity and computational time of the model, thereby also time spent on model training is reduced.

[0049] На стадии 103 обеспечивается получение второй модели преобразования посредством обучения. Вторая модель преобразования выполнена с возможностью генерирования второго обучающего изображения в соответствии со вторым образцом шума. Второе обучающее изображение представляет собой изображение второго стиля.[0049] At step 103, the second transformation model is obtained through training. The second transformation model is configured to generate a second training image in accordance with the second noise sample. The second training image is the second style image.

[0050] В некоторых вариантах осуществления настоящего изобретения получение соответствующего второго обучающего изображения обеспечивается путем ввода второго образца шума во вторую модель преобразования, после чего параметры второй модели преобразования корректируются на основании соответствующего второго обучающего изображения. Затем в отношении второй преобразованной модели выполняется следующий итеративный сеанс обучения путем ввода остальных вторых образцов шума во вторую модель преобразования до тех пор, пока обучение второй модели преобразования не будет завершено.[0050] In some embodiments of the present invention, obtaining a corresponding second training image is achieved by inputting a second noise sample into a second transform model, and then the parameters of the second transform model are adjusted based on the corresponding second training image. The second transformed model is then subjected to the next iterative training session by inputting the remaining second noise samples into the second transformation model until training of the second transformation model is completed.

[0051] В вариантах осуществления настоящего изобретения второй стиль представляет собой комичный стиль (такой как комиксный стиль или шаржевый стиль), стиль живописи тушью, стиль живописи кистью, стиль живописи маслом, стиль живописи акварелью, стиль рисунка карандашом, стиль абстрактной живописи или стиль портретной живописи, что не носит ограничительного характера в настоящем документе.[0051] In embodiments of the present invention, the second style is a comic style (such as a comic style or a cartoon style), an ink painting style, a brush painting style, an oil painting style, a watercolor painting style, a pencil drawing style, an abstract painting style, or a portrait style. painting, which is not limiting in this document.

[0052] В необязательном варианте в процессе обучения исходным весовым параметром второй модели преобразования является весовой параметр первой модели преобразования. Иначе говоря, получение второй модели преобразования дополнительно обеспечивается путем обучения на основании первой модели преобразования.[0052] Optionally, during training, the initial weight parameter of the second transformation model is the weight parameter of the first transformation model. In other words, the second transformation model is further provided by learning from the first transformation model.

[0053] На стадии 104 генерируется сращенная модель преобразования путем сращивания первой модели преобразования со второй моделью преобразования.[0053] At step 104, a spliced transformation model is generated by splicing the first transformation model with the second transformation model.

[0054] В необязательном варианте сращенная модель преобразования генерируется путем сращивания разных частей весовых параметров, соответственно выбранных из первой модели преобразования и второй модели преобразования. Сращенная модель преобразования обладает как характеристиками первой модели преобразования для генерирования или сохранения первого признака изображения, так и характеристиками второй модели преобразования для генерирования изображения второго стиля.[0054] Optionally, a spliced transformation model is generated by splicing different portions of weight parameters respectively selected from the first transformation model and the second transformation model. The spliced transformation model has both the characteristics of a first transformation model for generating or storing a first image feature and the characteristics of a second transformation model for generating a second image style.

[0055] В некоторых вариантах осуществления настоящего изобретения сращенная модель преобразования генерируется путем сращивания слоев п весовой сети из числа множества слоев весовой сети в первой модели преобразования со слоями m весовой сети из числа множества слоев весовой сети во второй модели преобразования. При этом предусмотрено разное количество слоев п весовой сети и слоев m весовой сети. Величина п является целым положительным числом, и величина m является целым положительным числом. В необязательном варианте первая модель преобразования и вторая модель преобразования характеризуются одинаковой или схожей структурой и содержат одинаковое количество слоев весовой сети. Сращенная модель преобразования генерируется путем сращивания последних слоев п весовой сети в первой модели преобразования с первыми слоями m весовой сети во второй модели преобразования. В необязательном варианте сращенная модель преобразования содержит такое же количество слоев, что и весовая сеть первой модели преобразования или второй модели преобразования. Сращенная модель преобразования обладает такой же или схожей структурой, что и первая модель преобразования или вторая модель преобразования.[0055] In some embodiments of the present invention, a spliced transformation model is generated by splicing n weight network layers from among the plurality of weight network layers in the first transformation model with m weight network layers from among the plurality of weight network layers in the second transformation model. In this case, a different number of layers n of the weight network and layers m of the weight network are provided. The value n is a positive integer, and the value m is a positive integer. Optionally, the first transformation model and the second transformation model have the same or similar structure and contain the same number of weight network layers. The spliced transformation model is generated by splicing the last n layers of the weight network in the first transformation model with the first m layers of the weight network in the second transformation model. Optionally, the spliced transformation model contains the same number of layers as the weight network of the first transformation model or the second transformation model. The spliced transformation model has the same or similar structure as the first transformation model or the second transformation model.

[0056] Следует отметить, что величина п выражена значениями 2, 3, 4, 5, 6, 7, 8, 9 и т.д. В необязательном варианте конкретное значение величины п определяется специалистами в данной области техники в соответствии с фактическими потребностями, что не носит ограничительного характера в настоящем документе. Величина m выражена значениями 2, 3, 4, 5, 6, 7, 8, 9 и т.д. В необязательном варианте конкретное значение величины m определяется специалистами в данной области техники в соответствии с фактическими потребностями, что не носит ограничительного характера в настоящем документе.[0056] It should be noted that the value of n is expressed by the values 2, 3, 4, 5, 6, 7, 8, 9, etc. Optionally, the specific value of n is determined by those skilled in the art in accordance with actual needs, which is not intended to be limiting herein. The value of m is expressed by the values 2, 3, 4, 5, 6, 7, 8, 9, etc. Optionally, the specific value of m is determined by those skilled in the art in accordance with actual needs, which is not intended to be limiting herein.

[0057] В необязательном варианте сумма величин n и m является количеством слоев весовой сети в первой модели преобразования или во второй модели преобразования.[0057] Optionally, the sum of n and m is the number of weight network layers in the first transformation model or in the second transformation model.

[0058] В некоторых примерах, как это показано на фиг. 2, первая модель 21 преобразования и вторая модель 22 преобразования характеризуются одинаковой структурой, а обе весовые сети двух моделей содержат по 14 слоев. Сращенная модель 25 преобразования создается путем сращивания последних шести слоев весовой сети 23 в первой модели 21 преобразования с первыми восемью слоями весовой сети 24 во второй модели 22 преобразования.[0058] In some examples, as shown in FIG. 2, the first transformation model 21 and the second transformation model 22 are characterized by the same structure, and both weight networks of the two models contain 14 layers. The spliced transformation model 25 is created by splicing the last six layers of the weight network 23 in the first transformation model 21 with the first eight layers of the weight network 24 in the second transformation model 22.

[0059] В других вариантах осуществления настоящего изобретения сращенная модель преобразования генерируется путем выполнения операции суммирования, или операции усреднения, или операции разности в отношении весовых параметров множества слоев весовой сети в первой модели преобразования и соответствующих весовых параметров множества слоев весовой сети во второй модели преобразования. В необязательном варианте первая модель преобразования, вторая модель преобразования и сращенная модель преобразования характеризуются одинаковой или схожей структурой, а их весовые сети также обладают абсолютно одинаковой структурой и количеством слоев. В некоторых примерах i-ый весовой параметр весовой сети в сращенной модели преобразования может быть получен путем выполнения операции суммирования, или операции усреднения, или операции разности в отношении i-oгo весового параметра весовой сети в первой модели преобразования и i-oгo весового параметра весовой сети во второй модели преобразования, причем величина i является целым положительным числом; и т.п., при этом обеспечивается получение всех весовых параметров весовой сети сращенной модели преобразования. В необязательном варианте операция суммирования представляет собой операцию взвешенного суммирования, а весовые коэффициенты, используемые для расчета весовых параметров весовой сети в сращенной модели преобразования, будут одинаковыми.[0059] In other embodiments of the present invention, a spliced transformation model is generated by performing a sum operation or an averaging operation or a difference operation on the weight parameters of a plurality of weight network layers in a first transformation model and the corresponding weight parameters of a plurality of weight network layers in a second transformation model. Optionally, the first transformation model, the second transformation model, and the spliced transformation model have the same or similar structure, and their weight networks also have exactly the same structure and number of layers. In some examples, the i-th weight parameter of the weight network in the spliced transformation model can be obtained by performing a sum operation, or an averaging operation, or a difference operation on the i-th weight parameter of the weight network in the first transformation model and the i-th weight parameter of the weight network in the second transformation model, and the value i is a positive integer; etc., this ensures that all weight parameters of the weight network of the spliced transformation model are obtained. Optionally, the sum operation is a weighted sum operation, and the weights used to calculate the weight parameters of the weight network in the spliced transformation model will be the same.

[0060] На стадии 105 создается модель генерирования изображений на основании модели реконструкции и сращенной модели преобразования.[0060] At step 105, an image generation model is created based on the reconstruction model and the spliced transformation model.

[0061] В необязательном варианте модель генерирования изображений выполнена с возможностью преобразования подлежащего преобразованию изображения первого стиля в целевое изображение второго стиля. В некоторых вариантах осуществления настоящего изобретения модель генерирования изображений может быть получена путем объединения модели реконструкции со сращенной моделью преобразования. Изображение, подлежащее преобразованию, представляет собой изображение первого стиля, а целевое изображение представляет собой изображение второго стиля. Целевое изображение генерируется путем ввода подлежащего преобразованию изображения в модель генерирования изображений, в результате чего подлежащее преобразованию изображение изменяет свой стиль с первого на второй. Таким образом, для подлежащего преобразованию изображения обеспечивается преобразование стиля.[0061] Optionally, the image generation model is configured to transform the first style image to be transformed into a target second style image. In some embodiments of the present invention, an image generation model may be obtained by combining a reconstruction model with a spliced transformation model. The image to be converted is the first style image, and the target image is the second style image. The target image is generated by inputting the image to be transformed into an image generation model, causing the image to be transformed to change its style from the first to the second. Thus, a style conversion is provided for the image to be converted.

[0062] В некоторых вариантах осуществления настоящего изобретения стадия 105 включает в себя следующие подстадии:[0062] In some embodiments of the present invention, step 105 includes the following substeps:

[0063] 1. Получение комбинированной модели преобразования путем объединения модели реконструкции со сращенной моделью преобразования.[0063] 1. Obtaining a combined transformation model by combining a reconstruction model with a spliced transformation model.

[0064] 2. Получение четвертой выборки обучающих образцов. Четвертая выборка обучающих образцов включает в себя, по меньшей мере, один образец исходного изображения и изображение второго стиля, соответствующее, по меньшей мере, одному образцу исходного изображения.[0064] 2. Obtaining the fourth sample of training samples. The fourth set of training samples includes at least one source image sample and a second style image corresponding to at least one source image sample.

[0065] 3. Создание модели генерирования изображений путем подстройки комбинированной модели преобразования с использованием четвертой выборки обучающих образцов.[0065] 3. Create an image generation model by tuning the combined transform model using the fourth set of training samples.

[0066] В некоторых вариантах осуществления настоящего изобретения комбинированная модель преобразования может быть получена путем сращивания сращенной модели преобразования с моделью реконструкции, после чего получается модель генерирования изображений путем подстройки весового параметра комбинированной модели преобразования посредством обучения модели.[0066] In some embodiments of the present invention, a combined transformation model can be obtained by splicing the spliced transformation model with a reconstruction model, and then obtaining an image generation model by adjusting the weight parameter of the combined transformation model through model training.

[0067] Резюмируем, что в технических решениях, реализованных в вариантах осуществления настоящего изобретения, первая модель преобразования и вторая модель преобразования обучаются по отдельности. Первая модель преобразования обладает преимуществом, состоящим в том, что она хорошо сохраняет целевой признак изображения, а вторая модель преобразования обладает преимуществом, состоящим в том, что она генерирует яркое изображение второго стиля. В процессе обучения первая модель преобразования и вторая модель преобразования обучаются по отдельности для обеспечения целевого преимущества каждой из них, а сращенная модель преобразования генерируется путем сращивания обученной первой модели преобразования и обученной второй модели преобразования. Модель генерирования изображения создается на основании модели реконструкции и сращенной модели преобразования. Таким образом, существенно уменьшается сложность обучения модели с соответствующим сокращением количества требуемых обучающих образцов и итераций при обучении, в результате чего сокращаются временные затраты на обучение модели.[0067] To summarize, in the technical solutions implemented in embodiments of the present invention, the first transformation model and the second transformation model are trained separately. The first transformation model has the advantage that it preserves the target image feature well, and the second transformation model has the advantage that it generates a vivid image of the second style. In the training process, the first transformation model and the second transformation model are trained separately to achieve the target advantage of each, and a spliced transformation model is generated by splicing the trained first transformation model and the trained second transformation model. The image generation model is created based on the reconstruction model and the spliced transformation model. Thus, the complexity of model training is significantly reduced with a corresponding reduction in the number of required training samples and training iterations, resulting in a reduction in the time spent on model training.

[0068] На фиг. 3 представлена блок-схема, иллюстрирующая способ обучения модели генерирования изображений согласно некоторым вариантам осуществления настоящего изобретения. Как показано на фиг. 3, для вариантов осуществления настоящего изобретения представлено описание с использованием сценария, в котором предложенный способ применим к компьютерному устройству, описанному выше в качестве примера. Предложенный способ предусматривает выполнение стадий, описанных ниже (стадии 301-312).[0068] In FIG. 3 is a flowchart illustrating a method for training an image generation model according to some embodiments of the present invention. As shown in FIG. 3, embodiments of the present invention are described using a scenario in which the proposed method is applied to the computer device described above as an example. The proposed method involves performing the steps described below (steps 301-312).

[0069] На стадии 301 обеспечивается получение первой выборки обучающих образцов. Первая выборка обучающих образцов включает в себя множество первых образцов шума.[0069] At step 301, a first sample of training samples is obtained. The first set of training samples includes many of the first noise samples.

[0070] В необязательном варианте первый образец шума представляет собой образец шума, используемый при обучении первой модели преобразования. В некоторых вариантах осуществления настоящего изобретения первая выборка обучающих образцов может быть получена путем генерирования множества случайных первых образцов шума с использованием функции генерирования случайных шумов.[0070] Optionally, the first noise sample is a noise sample used in training the first transformation model. In some embodiments of the present invention, a first set of training samples may be obtained by generating a plurality of random first noise samples using a random noise generation function.

[0071] В необязательном варианте первая модель преобразования представляет собой модель генеративно-состязательной сети-V2 (StyleGAN-V2). Как показано на фиг. 4, первая модель преобразования включает в себя первую сеть 41 отображения и первую сеть 42 синтеза. Первая сеть 41 отображения включает в себя восемь полно связанных слоев (FC). Первая сеть 42 синтеза включает в себя, по меньшей мере, один слой обучаемого аффинного преобразования; по меньшей мере, одну модель модуляции (mod-demod); по меньшей мере, один слой повышающей дискретизации; по меньшей мере, один постоянный слой; и, по меньшей мере, один слой параметров шума. В необязательном варианте модель модуляции использует для расчета первое уравнение, второе уравнение и третье уравнение, которые представлены ниже.[0071] Optionally, the first transformation model is a Generative Adversarial Network-V2 (StyleGAN-V2) model. As shown in FIG. 4, the first transformation model includes a first mapping network 41 and a first synthesis network 42. The first display network 41 includes eight fully connected (FC) layers. The first synthesis network 42 includes at least one learnable affine transform layer; at least one modulation model (mod-demod); at least one upsampling layer; at least one permanent layer; and at least one noise parameter layer. Optionally, the modulation model uses the first equation, the second equation, and the third equation for calculation, which are presented below.

[0072] Первое уравнение:[0072] First equation:

[0073] Второе уравнение:[0073] Second equation:

[0074] Третье уравнение:[0074] Third equation:

[0075] Величины i, j и k обозначают числовые значения скрытых переменных модели модуляции в разных измерениях; величина Wujk обозначает пронумерованную (i, j, k) скрытую переменную; величина Wijk обозначает результат расчета первого уравнения; величина σj обозначает результат расчета второго уравнения; величина ∈ обозначает сверхмалое число; а величина обозначает результат расчета третьего уравнения.[0075] The quantities i, j and k denote the numerical values of the latent variables of the modulation model in different dimensions; the value W ujk denotes the numbered (i, j, k) latent variable; the value W ijk denotes the result of calculating the first equation; the value σ j denotes the result of calculating the second equation; the value ∈ denotes an ultra-small number; and the magnitude denotes the result of calculating the third equation.

[0076] В некоторых вариантах осуществления настоящего изобретения первая модель преобразования включает в себя первую сеть отображения и первую сеть синтеза.[0076] In some embodiments of the present invention, the first transformation model includes a first mapping network and a first synthesis network.

[0077] На стадии 302 обеспечивается получение скрытых переменных, соответствующих множеству первых образцов шума, что осуществляется путем ввода множества первых образцов шума в первую сеть отображения.[0077] At step 302, latent variables corresponding to the plurality of first noise samples are obtained by inputting the plurality of first noise samples into the first mapping network.

[0078] В некоторых вариантах осуществления настоящего изобретения первая сеть отображения включает в себя множество полносвязанных слоев. Множество первых образцов шума обрабатывается множеством полносвязанных слоев после их ввода в первую сеть отображения. Затем обеспечивается получение скрытых переменных, соответствующих множеству первых образцов шума.[0078] In some embodiments of the present invention, the first display network includes a plurality of fully connected layers. The plurality of first noise samples are processed by the plurality of fully connected layers after they are input to the first mapping network. It then provides latent variables corresponding to the first set of noise samples.

[0079] На стадии 303 обеспечивается получение первых обучающих изображений, соответствующих множеству первых образцов шума, что осуществляется путем ввода скрытых переменных, соответствующих множеству первых образцов шума, в первую сеть синтеза.[0079] At step 303, first training images corresponding to the plurality of first noise samples are obtained by inputting latent variables corresponding to the plurality of first noise samples into the first synthesis network.

[0080] В некоторых вариантах осуществления настоящего изобретения предусмотрено, что после того, как скрытые переменные, соответствующие множеству первых образцов шума, будут подвергнуты аффинному преобразованию, модуляции и повышающей дискретизации в первой сети синтеза после их ввода в первую сеть синтеза, будут получены первые обучающие изображения, соответствующие множеству первых образцов шума.[0080] In some embodiments of the present invention, it is provided that after the latent variables corresponding to the plurality of first noise samples are affine transformed, modulated, and upsampled in the first synthesis network after being input to the first synthesis network, the first training images corresponding to the first set of noise samples.

[0081] На стадии 304 выполняется коррекция весового параметра первой модели преобразования на основании первых обучающих изображений, соответствующих множеству первых образцов шума.[0081] At step 304, a weight parameter of the first transform model is adjusted based on the first training images corresponding to the plurality of first noise samples.

[0082] В необязательном варианте предусмотрено, что после получения первых обучающих изображений, соответствующих множеству первых образцов шума, весовой параметр первой модели преобразования подвергается коррекции по результатам распознавания первых обучающих изображений, соответствующих множеству первых образцов шума.[0082] Optionally, after receiving the first training images corresponding to the plurality of first noise samples, the weight parameter of the first transformation model is adjusted based on the recognition results of the first training images corresponding to the plurality of first noise samples.

[0083] В некоторых вариантах осуществления настоящего изобретения первая модель преобразования включает в себя первую дискриминационную сеть. Стадия 304 дополнительно включает в себя подстадии, описанные ниже.[0083] In some embodiments of the present invention, the first transformation model includes a first discrimination network. Step 304 further includes substeps described below.

[0084] 1. Получение первых дискриминационных потерь, соответствующих множеству первых образцов шума, путем ввода первых обучающих изображений, соответствующих множеству первых образцов шума, в первую дискриминационную сеть.[0084] 1. Obtaining first discrimination losses corresponding to a plurality of first noise samples by inputting first training images corresponding to a plurality of first noise samples into a first discrimination network.

[0085] 2. Коррекция весового параметра первой модели преобразования на основании первых дискриминационных потерь, соответствующих множеству первых образцов шума.[0085] 2. Correcting a weight parameter of the first transform model based on the first discrimination losses corresponding to the plurality of first noise samples.

[0086] В этом примере реализации первые обучающие изображения, соответствующие множеству первых образцов шума, распознаются с использованием первой дискриминационной сети в первой модели преобразования, а затем определяются генерационные свойства первых обучающих изображений, соответствующих множеству первых образцов шума, по результатам чего определяются первые дискриминационные потери, соответствующие множеству первых образцов шума. На основании этого осуществляется коррекция весового параметра модели преобразования. В необязательном варианте предусмотрено, что при коррекции весового параметра модели преобразования также корректируется весовой параметр первой дискриминационной сети. В необязательном варианте первой дискриминационной сетью служит генеративно-состязательная сеть (GAN), а первые дискриминационные потери выражены величиной GAN_loss.[0086] In this embodiment, first training images corresponding to a plurality of first noise samples are recognized using a first discrimination network in a first transformation model, and then the generation properties of the first training images corresponding to a plurality of first noise samples are determined, from which a first discrimination loss is determined , corresponding to the set of first noise samples. Based on this, the weight parameter of the transformation model is corrected. Optionally, it is provided that when the weight parameter of the transformation model is adjusted, the weight parameter of the first discrimination network is also adjusted. Optionally, the first discriminatory network is a generative adversarial network (GAN), and the first discriminatory loss is expressed as GAN_loss.

[0087] В некоторых примерах первое обучающее изображение представляет собой изображение лица, смоделированное на основании первого образца шума, а первая дискриминационная сеть выполнена с возможностью распознавания вероятности того, что первое обучающее изображение согласуется с изображением реального лица. Например, чем детальнее лицо в первом обучающем изображении, тем меньше будут первые дискриминационные потери; и, например, чем больше соотносятся черты лица в первом обучающем изображении с чертами реального лица, тем меньше будут первые дискриминационные потери.[0087] In some examples, the first training image is a face image modeled based on the first noise sample, and the first discrimination network is configured to recognize the probability that the first training image is consistent with an image of a real face. For example, the more detailed the face in the first training image, the smaller the first discriminative loss will be; and, for example, the more closely the facial features in the first training image correspond to the features of a real face, the smaller the first discriminatory loss will be.

[0088] В некоторых вариантах осуществления настоящего изобретения предусмотрено, что по завершении обучения первой модели преобразования первая сеть отображения первой модели преобразования удаляется, а остальная часть первой модели преобразования, отличная от первой сети отображения, определяется в качестве первой модели преобразования.[0088] In some embodiments of the present invention, it is provided that upon completion of training of the first transformation model, the first mapping network of the first transformation model is removed, and the rest of the first transformation model, other than the first mapping network, is determined as the first transformation model.

[0089] На стадии 305 обеспечивается получение второй выборки обучающих образцов. Вторая выборка обучающих образцов включает в себя множество образцов исходного изображения.[0089] At step 305, a second set of training samples is obtained. The second set of training samples includes many samples of the original image.

[0090] В необязательном варианте образец исходного изображения представляет собой изображение первого стиля. В некоторых вариантах осуществления настоящего изобретения образец исходного изображения представляет собой необработанное изображение реального лица.[0090] Optionally, the sample source image is a first style image. In some embodiments of the present invention, the sample source image is a raw image of a real face.

[0091] На стадии 306 генерируются скрытые переменные, соответствующие множеству образцов исходного изображения, что осуществляется путем ввода множества образцов исходного изображения в модель реконструкции.[0091] At step 306, latent variables corresponding to the plurality of source image samples are generated by inputting the plurality of source image samples into the reconstruction model.

[0092] В некоторых вариантах осуществления настоящего изобретения предусмотрено, что после ввода множества образцов исходного изображения в модель реконструкции они кодируются моделью реконструкции по отдельности, и модель реконструкции генерирует скрытые переменные, соответствующие множеству образцов исходного изображения.[0092] In some embodiments of the present invention, it is provided that after multiple source image samples are input to a reconstruction model, they are encoded by the reconstruction model individually, and the reconstruction model generates latent variables corresponding to the plurality of source image samples.

[0093] В некоторых примерах, как это показано на фиг. 5, модель реконструкции включает в себя входной слой 51, множество остаточных сетевых (resblock) слоев 52 и полносвязанный слой 53.[0093] In some examples, as shown in FIG. 5, the reconstruction model includes an input layer 51, a plurality of residual network layers 52, and a fully connected layer 53.

[0094] На стадии 307 генерируются реконструированные изображения, соответствующие множеству образцов исходного изображения, что осуществляется путем ввода скрытых переменных, соответствующих множеству образцов исходного изображения, в первую модель преобразования.[0094] At step 307, reconstructed images corresponding to the plurality of source image samples are generated by inputting latent variables corresponding to the plurality of source image samples into the first transformation model.

[0095] В некоторых вариантах осуществления настоящего изобретения реконструированные изображения, соответствующие множеству образцов исходного изображения, генерируются путем непосредственного ввода скрытых переменных, соответствующих множеству образцов исходного изображения, в первую сеть синтеза первой модели преобразования. В необязательном варианте множество образцов исходного изображения и реконструированные изображения, соответствующие множеству образцов исходного изображения, представляют собой изображения первого стиля.[0095] In some embodiments of the present invention, reconstructed images corresponding to a plurality of source image samples are generated by directly inputting latent variables corresponding to the plurality of source image samples into a first synthesis network of the first transform model. Optionally, the plurality of original image samples and the reconstructed images corresponding to the plurality of original image samples are first style images.

[0096] Следует отметить, что при обучении модели реконструкции первая модель преобразования представляет собой модель, которая была обучена, и параметры которой не изменяются.[0096] It should be noted that when training a reconstruction model, the first transformation model is a model that has been trained and whose parameters do not change.

[0097] На стадии 308 определяются потери модели реконструкции, соответствующие множеству образцов исходного изображения, что осуществляется на основании множества образцов исходного изображения и реконструированных изображений, соответствующих множеству образцов исходного изображения.[0097] At step 308, the reconstruction model loss corresponding to the plurality of source image samples is determined, which is done based on the plurality of source image samples and reconstructed images corresponding to the plurality of source image samples.

[0098] В некоторых вариантах осуществления настоящего изобретения предусмотрено определение множества подпотерь, входящих в состав потерь в модели реконструкции, что осуществляется на основании множества образцов исходного изображения и выходных данных реконструированных изображений, соответствующих множеству образцов исходного изображения в сетях или функциях.[0098] In some embodiments of the present invention, a plurality of sub-losses included in the loss in a reconstruction model is determined based on a plurality of source image samples and reconstructed image outputs corresponding to a plurality of source image samples in networks or functions.

[0099] В некоторых вариантах осуществления настоящего изобретения стадия 308 дополнительно включает в себя подстадии, описанные ниже.[0099] In some embodiments of the present invention, step 308 further includes the substeps described below.

[00100] 1. Получение первых подпотерь на основании выходного результата, полученного путем ввода каждого из реконструированных изображений, соответствующих множеству образцов исходного изображения, в первую дискриминационную сеть. Первые подпотери обозначают первую характеристику реконструированного изображения.[00100] 1. Obtaining the first sub-loss based on the output obtained by inputting each of the reconstructed images corresponding to a plurality of original image samples into the first discrimination network. The first sub-loss denotes the first characteristic of the reconstructed image.

[00101] В необязательном варианте первой характеристикой служит степень соответствия реконструированного изображения признаку, который должен содержаться в реконструированном изображении. В некоторых примерах предусмотрено, что если реконструированное изображение является изображением лица, то первая характеристика представляет собой степень соответствия реконструированного изображения определенной черте лица; и чем больше лицо в реконструированном изображении соответствует реальному лицу, тем меньше будут первые подпотери.[00101] Optionally, the first characteristic is the degree to which the reconstructed image matches a feature to be contained in the reconstructed image. Some examples provide that if the reconstructed image is an image of a face, then the first characteristic is the degree to which the reconstructed image matches a particular facial feature; and the more the face in the reconstructed image matches the real face, the smaller the first sub-loss will be.

[00102] 2. Получение вторых подпотерь на основании выходного результата, полученного путем ввода каждого из множества образцов исходного изображения и каждого из реконструированных изображений, соответствующих множеству образцов исходного изображения, в перцепционную сеть. Вторые подпотери обозначают первую степень соответствия образца исходного изображения реконструированному изображению, соответствующему образцу исходного изображения, по критерию целевого признака.[00102] 2. Obtaining the second sub-loss based on the output obtained by inputting each of the plurality of original image samples and each of the reconstructed images corresponding to the plurality of original image samples into the perceptual network. The second subloss denotes the first degree of correspondence of the source image sample to the reconstructed image corresponding to the source image sample, according to the criterion of the target feature.

[00103] В необязательном варианте на основании целевого признака определяется, является ли реконструированное изображение изображением, сгенерированным на основании образца исходного изображения. В некоторых примерах целевым признаком служит идентификационный признак лица, причем идентификационный признак лица выполнен с возможностью проведения различия между разными лицами. Вероятность того, что образец исходного изображения и реконструированное изображение, соответствующее образцу исходного изображения, являются изображениями лица одного и того же человека, определяется путем сравнения идентификационного признака лица в образце исходного изображения с идентификационным признаком лица в реконструированном изображении, которое соответствует образцу исходного изображения, вследствие чего определяются вторые подпотери. В необязательном варианте вторые подпотери представляют собой перцепционные потери. В необязательном варианте вторые подпотери рассчитываются по четвертому уравнению, представленному ниже.[00103] Optionally, based on the target feature, it is determined whether the reconstructed image is an image generated based on a sample of the original image. In some examples, the target feature is a face identification feature, wherein the face identification feature is configured to distinguish between different individuals. The probability that a sample source image and a reconstructed image corresponding to a sample source image are face images of the same person is determined by comparing the face identification feature in the sample source image with the face identification feature in the reconstructed image that matches the sample source image, due to what determines the second sub-losses. Optionally, the second sub-loss is a perceptual loss. Optionally, the second sub-loss is calculated using the fourth equation below.

[00104] Четвертое уравнение:[00104] Fourth equation:

Перцепционные потери = E((VGG(x)-VGG(G(x)))2)Perceptual loss = E((VGG(x)-VGG(G(x))) 2 )

[00105] Термин «Перцепционные потери» обозначает вторые подпотери; величина х обозначает образец исходного изображения; величина VGG(x) обозначает выходной результат, полученный путем ввода образца исходного изображения в сверточную нейронную сеть VGG-16 (Visual Geometry Group Network-16); величина G(x) обозначает реконструированное изображение, соответствующее образцу исходного изображения; а величина VGG(G(x))2 обозначает выходной результат, полученный путем ввода реконструированного изображения, соответствующего образцу исходного изображения, в сеть VGG-16.[00105] The term "Perceptual loss" refers to the second sub-loss; the x value denotes a sample of the original image; the value VGG(x) denotes the output result obtained by inputting a sample of the original image into the VGG-16 (Visual Geometry Group Network-16) convolutional neural network; the value G(x) denotes the reconstructed image corresponding to the sample of the original image; and the value VGG(G(x)) 2 denotes the output result obtained by inputting the reconstructed image corresponding to the sample of the original image into the VGG-16 network.

[00106] 3. Определение третьих подпотерь на основании выходного результата, полученного путем ввода каждого из образцов исходного изображения и каждого из реконструированных изображений, соответствующих множеству образцов исходного изображения, в функцию регрессии. Третьи подпотери обозначают вторую степень соответствия образца исходного изображения реконструированному изображению, соответствующему образцу исходного изображения, по критерию целевого признака.[00106] 3. Determining the third sub-loss based on the output obtained by inputting each of the original image samples and each of the reconstructed images corresponding to the plurality of original image samples into a regression function. The third subloss denotes the second degree of correspondence of the source image sample to the reconstructed image corresponding to the source image sample, according to the criterion of the target feature.

[00107] В необязательном варианте функцией регрессии служит функция L1 или функция L2. Третьи подпотери определяются по выходному результату, полученному путем ввода образца исходного изображения и реконструированного изображения, соответствующего образцу исходного изображения, в функцию L. В необязательном варианте третьи подпотери выражаются величиной L1_loss. В необязательном варианте третьи подпотери рассчитываются по пятому уравнению, представленному ниже.[00107] Optionally, the regression function is an L1 function or an L2 function. The third sub-loss is determined from the output obtained by inputting a sample of the original image and a reconstructed image corresponding to the sample of the original image into the L function. Optionally, the third sub-loss is expressed by the value L1_loss. Optionally, the third sub-loss is calculated using the fifth equation below.

[00108] Пятое уравнение:[00108] Fifth equation:

L1loss=E(x-G(x))L1 loss =E(xG(x))

[00109] Величина L1_loss обозначает третьи подпотери; величина х обозначает образец исходного изображения; а величина VGG(x) обозначает выходной результат, полученный путем ввода образца исходного изображения в сеть VGG-16.[00109] The value L1_loss denotes the third sub-loss; the x value denotes a sample of the original image; and the value VGG(x) denotes the output result obtained by inputting a sample of the original image into the VGG-16 network.

[00110] 4. Определение потерь модели реконструкции на основании первых подпотерь, вторых подпотерь и третьих подпотерь.[00110] 4. Determining the loss of the reconstruction model based on the first sub-loss, the second sub-loss and the third sub-loss.

[00111] В некоторых примерах потери модели реконструкции рассчитываются непосредственно путем суммирования или взвешенного суммирования первых подпотерь, вторых подпотерь и третьих подпотерь. В некоторых вариантах осуществления настоящего изобретения предусмотрено, что при взвешенном суммировании первых подпотерь, вторых подпотерь и третьих подпотерь значения весовых показателей, которые соответствуют первым подпотерям, вторым подпотерям и третьим подпотерям, определяются специалистами в данной области техники в зависимости от фактических потребностей, что не носит ограничительного характера в настоящем документе.[00111] In some examples, the reconstruction model loss is calculated directly by adding or weighting the first subloss, the second subloss, and the third subloss. In some embodiments of the present invention, it is provided that in the weighted summation of the first sub-losses, second sub-losses and third sub-losses, the weights that correspond to the first sub-losses, second sub-losses and third sub-losses are determined by those skilled in the art depending on actual needs, which is not restrictive in this document.

[00112] В некоторых примерах потери модели реконструкции рассчитываются по шестому уравнению, которое представлено ниже.[00112] In some examples, the reconstruction model loss is calculated using the sixth equation, which is presented below.

[00113] Шестое уравнение:[00113] Sixth equation:

Loss=GANloss+Перцепционные потери+Llloss Loss=GAN loss +Perceptual loss+Ll loss

[00114] Величина Loss обозначает потери модели реконструкции; величина GAN loss обозначает первые подпотери; термин «Перцепционные потери» обозначает вторые подпотери; а величина L1_loss обозначает третьи подпотери. [00114] The Loss value denotes the loss of the reconstruction model; the GAN loss value denotes the first sub-loss; the term "Perceptual loss" refers to the second sub-loss; and the value L1_loss denotes the third sub-loss.

[00115] На стадии 309 осуществляется коррекция весового параметра модели реконструкции на основании потерь модели реконструкции, соответствующих множеству образцов исходного изображения.[00115] At step 309, the reconstruction model weight parameter is adjusted based on the reconstruction model loss corresponding to the plurality of source image samples.

[00116] В необязательном варианте, исходя из потерь модели реконструкции, соответствующих множеству образцов исходного изображения, осуществляется коррекция весового параметра модели реконструкции таким образом, что потери модели реконструкции оказываются минимально возможными. В некоторых вариантах осуществления настоящего изобретения предусмотрено, что когда количество повторяющихся сеансов обучения достигает заданного числа раз, обучение модели реконструкции считается завершенным. В других вариантах осуществления настоящего изобретения предусмотрено, что обучение модели реконструкции считается завершенным в том случае, если потери модели реконструкции постоянно держатся на уровне меньше порогового значения потерь при реконструкции. В необязательном варианте конкретное пороговое значение потерь при реконструкции определяется специалистами в данной области техники в зависимости от фактических потребностей, что не носит ограничительного характера в настоящем документе.[00116] Optionally, based on the reconstruction model losses corresponding to the plurality of source image samples, the reconstruction model weight parameter is adjusted so that the reconstruction model losses are as minimal as possible. In some embodiments of the present invention, it is provided that when the number of repeated training sessions reaches a predetermined number of times, training of the reconstruction model is considered complete. In other embodiments, the present invention provides that training of a reconstruction model is considered complete if the reconstruction model's loss is consistently kept below a reconstruction loss threshold. Optionally, the specific reconstruction loss threshold is determined by those skilled in the art based on actual needs, which is not intended to be limiting herein.

[00117] На стадии 310 обеспечивается получение второй модели преобразования посредством обучения. Вторая модель преобразования выполнена с возможностью генерирования второго обучающего изображения в соответствии со вторым образцом шума. Второе обучающее изображение представляет собой изображение второго стиля.[00117] At step 310, a second transformation model is obtained through training. The second transformation model is configured to generate a second training image in accordance with the second noise sample. The second training image is the second style image.

[00118] Содержание стадии 310 идентично или схоже с содержанием стадий 301-304 в вариантах осуществления настоящего изобретения, раскрытых выше, и поэтому далее по тексту эта стадия дополнительно не описывается.[00118] The content of step 310 is identical or similar to the content of steps 301-304 in the embodiments of the present invention disclosed above, and therefore this step is not further described hereinafter.

[00119] На стадии 311 осуществляется генерирование сращенной модели преобразования путем сращивания первой модели преобразования со второй моделью преобразования.[00119] At step 311, the spliced transformation model is generated by splicing the first transformation model with the second transformation model.

[00120] Содержание стадии 311 идентично или схоже с содержанием стадии 104 в вариантах осуществления настоящего изобретения, раскрытых выше, и поэтому далее по тексту эта стадия дополнительно не описывается.[00120] The content of step 311 is identical or similar to the content of step 104 in the embodiments of the present invention disclosed above, and therefore this step is not further described hereinafter.

[00121] На стадии 312 создается модель генерирования изображения на основании модели реконструкции и сращенной модели преобразования. Модель генерирования изображения выполнена с возможностью преобразования подлежащего преобразованию изображения первого стиля в целевое изображение второго стиля.[00121] At step 312, an image generation model is created based on the reconstruction model and the spliced transformation model. The image generation model is configured to convert a first style image to be converted into a target second style image.

[00122] Содержание стадии 312 идентично или схоже с содержанием стадии 105 в вариантах осуществления настоящего изобретения, раскрытых выше, и поэтому далее по тексту эта стадия дополнительно не описывается.[00122] The content of step 312 is identical or similar to the content of step 105 in the embodiments of the present invention disclosed above, and therefore this step is not further described hereinafter.

[00123] Резюмируем, что в технических решениях, реализованных в вариантах осуществления настоящего изобретения, сначала обеспечивается получение первой модели преобразования посредством обучения, а затем обеспечивается получение модели реконструкции посредством обучения на основании первой модели преобразования. Таким образом, сокращается время, потребное для обучения модели реконструкции, благодаря чему дополнительно сокращаются общие временные затраты на обучение модели.[00123] To summarize, the solutions implemented in embodiments of the present invention first obtain a first transformation model by learning, and then obtain a reconstruction model by learning based on the first transformation model. This reduces the time required to train the reconstruction model, further reducing the overall time required to train the model.

[00124] В вариантах осуществления настоящего изобретения предусмотрено, что весовой параметр первой модели преобразования, которая была полностью обучена, определяется в качестве исходного параметра второй модели преобразования при ее обучении, вследствие чего вторая модель преобразования может сохранять некоторые характеристики первой модели преобразования, что способствует улучшению совместимости между первой моделью преобразования и второй моделью преобразования после их сращивания.[00124] In embodiments of the present invention, it is provided that the weight parameter of the first transformation model, which has been fully trained, is determined as an input parameter of the second transformation model when it is trained, whereby the second transformation model can retain some characteristics of the first transformation model, which helps to improve compatibility between the first transformation model and the second transformation model after they are spliced.

[00125] Далее по тексту в привязке к фиг. 6 и 7 будет описан способ генерирования изображений согласно некоторым вариантам осуществления настоящего изобретения. Для вариантов осуществления заявленного изобретения представлено описание с использованием сценария, в котором предложенный способ применим к компьютерному устройству, описанному выше в качестве примера. Как показано на фиг. 6, предложенный способ предусматривает выполнение стадий, описанных ниже (стадии 601-602).[00125] Further in the text in connection with Fig. 6 and 7, a method for generating images according to some embodiments of the present invention will be described. For embodiments of the claimed invention, a description is provided using a scenario in which the proposed method is applied to the computer device described above as an example. As shown in FIG. 6, the proposed method involves performing the steps described below (steps 601-602).

[00126] На стадии 601, как это показано на фиг. 7, генерируется скрытая переменная 73, соответствующая изображению 71, подлежащему преобразованию, что осуществляется путем ввода подлежащего преобразованию изображения 71 первого стиля в модель 72 реконструкции.[00126] At step 601, as shown in FIG. 7, a latent variable 73 corresponding to the image 71 to be transformed is generated by inputting the first style image 71 to be transformed into the reconstruction model 72.

[00127] В необязательном варианте изображение 71, подлежащее преобразованию, представляет собой необработанное изображение реального лица.[00127] Optionally, the image 71 to be transformed is a raw image of a real face.

[00128] На стадии 602 осуществляется генерирование целевого изображения 75, соответствующего подлежащему преобразованию изображению 71, на основании скрытой переменной 73, соответствующей подлежащему преобразованию изображению 71, с использованием сращенной модели 74 преобразования. Целевое изображение 75 представляет собой изображение второго стиля.[00128] At step 602, a target image 75 corresponding to the image 71 to be transformed is generated based on a latent variable 73 corresponding to the image 71 to be transformed using a spliced transformation model 74. Target image 75 is a second style image.

[00129] В необязательном варианте сращенная модель 74 преобразования представляет собой модель, сгенерированную путем сращивания первой модели преобразования со второй моделью преобразования. Первая модель преобразования выполнена с возможностью генерирования первого обучающего изображения в соответствии с первым образцом шума, причем первое обучающее изображение представляет собой изображение первого стиля. Вторая модель преобразования выполнена с возможностью генерирования второго обучающего изображения в соответствии со вторым образцом шума, причем второе обучающее изображение представляет собой изображение второго стиля.[00129] Optionally, spliced transformation model 74 is a model generated by splicing a first transformation model with a second transformation model. The first transformation model is configured to generate a first training image in accordance with the first noise pattern, the first training image being a first style image. The second transformation model is configured to generate a second training image in accordance with the second noise pattern, the second training image being a second style image.

[00130] В некоторых вариантах осуществления настоящего изобретения весовая сеть (от второй модели преобразования) в сращенной модели 74 преобразования сначала стилизует подлежащее преобразованию изображение 71 на основании скрытой переменной 73, соответствующей подлежащему преобразованию изображению 71, вследствие чего подлежащее преобразованию изображение 71 преобразуется в изображение второго стиля. Затем весовая сеть (от первой модели преобразования) сращенной модели 74 преобразования корректирует целевой признак в подлежащем преобразованию стилизованном изображении 71 таким образом, что получается окончательное целевое изображение 75. В отношении описания целевых признаков можно обратиться к стадии 308 в вариантах осуществления настоящего изобретения, раскрытых выше в привязке к фиг. 3, и поэтому далее по тексту оно не повторяется.[00130] In some embodiments of the present invention, the weight network (from the second transformation model) in the spliced transformation model 74 first stylizes the image 71 to be transformed based on a latent variable 73 corresponding to the image 71 to be transformed, whereby the image 71 to be transformed is transformed into the image of the second style. The weight network (from the first transformation model) of the spliced transformation model 74 then adjusts the target feature in the stylized image 71 to be transformed so that the final target image 75 is obtained. With respect to the description of the target features, reference may be made to step 308 in the embodiments of the present invention disclosed above. in relation to Fig. 3, and therefore it is not repeated further in the text.

[00131] Резюмируем, что в технических решениях, реализованных в вариантах осуществления настоящего изобретения, целевое изображение 75 генерируется моделью генерирования изображений, полученной путем сращивания первой модели преобразования со второй моделью преобразования. Модель генерирования изображений (сращенная модель 74 преобразования) обладает как преимуществом первой модели преобразования, которая хорошо сохраняет целевой признак изображения, так и преимуществом второй модели преобразования, которая генерирует яркое изображение второго стиля. Следовательно, модель генерирования изображений выполнена с возможностью генерирования целевого изображения 75 в ярком стиле, исходя из возможности сохранения целевого признака подлежащего преобразованию изображения, что улучшает эффект преобразования модели генерирования изображений.[00131] To summarize, in the technical solutions implemented in embodiments of the present invention, the target image 75 is generated by an image generation model obtained by splicing a first transformation model with a second transformation model. The image generation model (spliced transformation model 74) has both the advantage of the first transformation model, which preserves the target image feature well, and the advantage of the second transformation model, which generates a vivid image of the second style. Therefore, the image generation model is configured to generate the target image 75 in a vivid style based on the ability to retain the target feature of the image to be converted, which improves the conversion effect of the image generation model.

[00132] Ниже раскрыты варианты осуществления устройства согласно настоящему изобретению, используемые для реализации вариантов осуществления способа согласно настоящему изобретению. В отношении деталей, не раскрытых в вариантах осуществления устройства согласно настоящему изобретению, следует обратиться к вариантам осуществления способа согласно настоящему изобретению, которые дополнительно не описываются далее по тексту настоящего документа.[00132] Disclosed below are embodiments of the apparatus of the present invention used to implement embodiments of the method of the present invention. For details not disclosed in the embodiments of the apparatus of the present invention, reference should be made to embodiments of the method of the present invention which are not further described herein.

[00133] На фиг. 8 показана структурная схема устройства для обучения модели генерирования изображений согласно некоторым вариантам осуществления настоящего изобретения. Как показано на фиг. 8, предложенное устройство обладает функцией практической реализации описанных выше вариантов осуществления настоящего изобретения, иллюстрирующих способ обучения модели генерирования изображений. Эта функция реализована аппаратно, или же она реализована аппаратными средствами, приводящими в исполнение программные средства. Устройство 800 включает в себя модуль 810 обучения модели и модуль 820 генерирования модели.[00133] In FIG. 8 is a block diagram of an apparatus for training an image generation model according to some embodiments of the present invention. As shown in FIG. 8, the proposed apparatus has the function of practically implementing the above-described embodiments of the present invention illustrating a method for training an image generation model. This function is implemented in hardware, or it is implemented in hardware that executes software. The device 800 includes a model training module 810 and a model generation module 820.

[00134] Модуль 810 обучения модели выполнен с возможностью получения первой модели преобразования посредством обучения. Первая модель преобразования выполнена с возможностью генерирования первого обучающего изображения в соответствии с первым образцом шума. Первое обучающее изображение представляет собой изображение первого стиля.[00134] The model learning module 810 is configured to obtain a first transformation model through learning. The first transformation model is configured to generate a first training image in accordance with the first noise sample. The first training image is the first style image.

[00135] Модуль 810 обучения модели выполнен с дополнительной возможностью получения модели реконструкции посредством обучения на основании первой модели преобразования. Модель реконструкции выполнена с возможностью привязки образца исходного изображения к скрытой переменной, соответствующей образцу исходного изображения.[00135] The model learning module 810 is further configured to obtain a reconstruction model by learning from the first transformation model. The reconstruction model is made with the ability to link a sample of the original image to a latent variable corresponding to the sample of the original image.

[00136] Модуль 810 обучения модели выполнен с дополнительной возможностью получения второй модели преобразования посредством обучения. Вторая модель преобразования выполнена с возможностью генерирования второго обучающего изображения в соответствии со вторым образцом шума. Второе обучающее изображение представляет собой изображение второго стиля.[00136] The model training module 810 is further configured to obtain a second transformation model through training. The second transformation model is configured to generate a second training image in accordance with the second noise sample. The second training image is the second style image.

[00137] Модуль 820 генерирования модели выполнен с возможностью генерирования сращенной модели преобразования путем сращивания первой модели преобразования со второй моделью преобразования.[00137] Model generation module 820 is configured to generate a spliced transformation model by splicing a first transformation model with a second transformation model.

[00138] Модуль 820 генерирования модели выполнен с дополнительной возможностью создания модели генерирования изображений на основании модели реконструкции и сращенной модели преобразования. Модель генерирования изображений выполнена с возможностью преобразования подлежащего преобразованию изображению первого стиля в целевое изображение второго стиля.[00138] The model generation module 820 is further configured to generate an image generation model based on the reconstruction model and the spliced transformation model. The image generation model is configured to convert a first style image to be transformed into a target second style image.

[00139] Резюмирует, что в технических решениях, реализованных в вариантах осуществления настоящего изобретения, первая модель преобразования и вторая модель преобразования обучаются по отдельности. Первая модель преобразования обладает преимуществом, состоящим в том, что она хорошо сохраняет целевой признак изображения, а вторая модель преобразования обладает преимуществом, состоящим в том, что она генерирует яркое изображение второго стиля. В процессе обучения первая модель преобразования и вторая модель преобразования обучаются по отдельности для обеспечения целевого преимущества каждой из них, а сращенная модель преобразования генерируется путем сращивания обученной первой модели преобразования и обученной второй модели преобразования. Модель генерирования изображения создается на основании модели реконструкции и сращенной модели преобразования. Таким образом, существенно уменьшается сложность обучения модели с соответствующим сокращением количества требуемых обучающих образцов и итераций при обучении, в результате чего сокращается время на обучение модели.[00139] Summarizes that in the technical solutions implemented in embodiments of the present invention, the first transformation model and the second transformation model are trained separately. The first transformation model has the advantage that it preserves the target image feature well, and the second transformation model has the advantage that it generates a vivid image of the second style. In the training process, the first transformation model and the second transformation model are trained separately to achieve the target advantage of each, and a spliced transformation model is generated by splicing the trained first transformation model and the trained second transformation model. The image generation model is created based on the reconstruction model and the spliced transformation model. Thus, the complexity of model training is significantly reduced with a corresponding reduction in the number of required training samples and training iterations, resulting in reduced time for model training.

[00140] В некоторых примерах осуществления настоящего изобретения первая модель преобразования включает в себя первую сеть отображения и первую сеть синтеза. Как показано на фиг. 9, модуль 810 обучения модели включает в себя подмодуль 811 получения образцов, подмодуль 812 генерирования переменных, подмодуль 813 генерирования изображений и подмодуль 814 коррекции параметров.[00140] In some embodiments of the present invention, the first transformation model includes a first mapping network and a first synthesis network. As shown in FIG. 9, the model training module 810 includes a sample acquisition submodule 811, a variable generation submodule 812, an image generation submodule 813, and a parameter correction submodule 814.

[00141] Подмодуль 811 получения образцов выполнен с возможностью получения первой выборки обучающих образцов. Первая выборка обучающих образцов включает в себя множество первых образцов шума.[00141] The sample acquisition submodule 811 is configured to obtain a first set of training samples. The first set of training samples includes many of the first noise samples.

[00142] Подмодуль 812 генерирования переменных выполнен с возможностью получения скрытых переменных, соответствующих множеству первых образцов шума, что осуществляется путем ввода первых образцов шума в первую сеть отображения.[00142] The variable generation submodule 812 is configured to obtain latent variables corresponding to a plurality of first noise samples, which is accomplished by inputting the first noise samples into the first mapping network.

[00143] Подмодуль 813 генерирования изображений выполнен с возможностью получения первых обучающих изображений, соответствующих множеству первых образцов шума, что осуществляется путем ввода скрытых переменных, соответствующих множеству первых образцов шума, в первую сеть синтеза.[00143] The image generation submodule 813 is configured to obtain first training images corresponding to the plurality of first noise samples, which is accomplished by inputting latent variables corresponding to the plurality of first noise samples into the first synthesis network.

[00144] Подмодуль 814 коррекции параметров выполнен с возможностью коррекции весового параметра первой модели преобразования на основании первых обучающих изображений, соответствующих множеству первых образцов шума.[00144] The parameter correction submodule 814 is configured to correct a weight parameter of the first transformation model based on the first training images corresponding to the plurality of first noise samples.

[00145] В некоторых примерах осуществления настоящего изобретения первая модель преобразования включает в себя первую дискриминационную сеть. Подмодуль 814 коррекции параметров, как это показано на фиг. 9, выполнен с возможностью:[00145] In some embodiments of the present invention, the first transformation model includes a first discrimination network. Parameter correction submodule 814, as shown in FIG. 9, is configured to:

[00146] получения первых дискриминационных потерь, соответствующих множеству первых образцов шума, что осуществляется путем ввода первых обучающих изображений, соответствующих множеству первых образцов шума, в первую дискриминационную сеть; и[00146] obtaining first discrimination losses corresponding to the plurality of first noise samples, which is accomplished by inputting first training images corresponding to the plurality of first noise samples into the first discrimination network; And

[00147] коррекции весового параметра первой модели преобразования на основании первых дискриминационных потерь, соответствующих множеству первых образцов шума.[00147] adjusting the weight parameter of the first transform model based on the first discriminative losses corresponding to the plurality of first noise samples.

[00148] В некоторых примерах осуществления настоящего изобретения, как это показано на фиг. 9, модуль 810 обучения модели включает в себя подмодуль 815 определения потерь.[00148] In some embodiments of the present invention, as shown in FIG. 9, model training module 810 includes a loss determination submodule 815.

[00149] Подмодуль 811 получения образцов выполнен с дополнительной возможностью получения второй выборки обучающих образцов. Вторая выборка обучающих образцов включает в себя множество образцов исходного изображения.[00149] The sample acquisition submodule 811 is configured with the additional capability of obtaining a second set of training samples. The second set of training samples includes many samples of the original image.

[00150] Подмодуль 812 генерирования переменных выполнен с дополнительной возможностью генерирования скрытых переменных, соответствующих множеству образцов исходного изображения, что осуществляется путем ввода множества образцов исходного изображения в модель реконструкции.[00150] The variable generation submodule 812 is further configured to generate latent variables corresponding to a plurality of source image samples, which is accomplished by inputting the plurality of source image samples into the reconstruction model.

[00151] Подмодуль 813 генерирования изображений выполнен с дополнительной возможностью генерирования реконструированных изображений, соответствующих множеству образцов исходного изображения, что осуществляется путем ввода скрытых переменных, соответствующих множеству образцов исходного изображения, в первую модель преобразования. Множество образцов исходного изображения и реконструированные изображения, соответствующие множеству образцов исходного изображения, представляют собой изображения первого стиля.[00151] The image generation submodule 813 is further configured to generate reconstructed images corresponding to a plurality of source image samples, which is accomplished by inputting latent variables corresponding to the plurality of source image samples into the first transformation model. The plurality of original image samples and the reconstructed images corresponding to the plurality of original image samples are the first style images.

[00152] Подмодуль 815 определения потерь выполнен с возможностью определения - на основании множества образцов исходного изображения и реконструированных изображений, соответствующих множеству образцов исходного изображения потерь модели реконструкции, соответствующих множеству образцов исходного изображения.[00152] The loss determination submodule 815 is configured to determine, based on a plurality of original image samples and reconstructed images corresponding to the plurality of original image samples, a reconstruction model loss corresponding to the plurality of original image samples.

[00153] Подмодуль 814 коррекции параметров выполнен с дополнительной возможностью коррекции весового параметра модели реконструкции на основании потерь модели реконструкции, соответствующих множеству образцов исходного изображения.[00153] The parameter correction submodule 814 is further configured to correct a reconstruction model weight parameter based on the reconstruction model loss corresponding to a plurality of source image samples.

[00154] В некоторых примерах осуществления настоящего изобретения первая модель преобразования включает в себя первую дискриминационную сеть. Подмодуль 815 определения потерь, как это показано на фиг. 9, выполнен с возможностью:[00154] In some embodiments of the present invention, the first transformation model includes a first discrimination network. Loss determination submodule 815, as shown in FIG. 9, is configured to:

[00155] определения первых подпотерь на основании выходного результата, полученного путем ввода каждого из реконструированных изображений, соответствующих множеству образцов исходного изображения, в первую дискриминационную сеть, причем первые подпотери обозначают первую характеристику реконструированного изображения;[00155] determining first sub-losses based on an output obtained by inputting each of the reconstructed images corresponding to a plurality of original image samples into a first discrimination network, the first sub-losses indicating a first characteristic of the reconstructed image;

[00156] определения вторых подпотерь на основании выходного результата, полученного путем ввода каждого из множества образцов исходного изображения и каждого из реконструированных изображений, соответствующих множеству образцов исходного изображения, в перцепционную сеть, причем вторые подпотери обозначают первую степень соответствия образца исходного изображения реконструированному изображению, соответствующему образцу исходного изображения, по критерию целевого признака;[00156] determining second sub-losses based on the output obtained by inputting each of the plurality of source image samples and each of the reconstructed images corresponding to the plurality of source image samples into the perceptual network, wherein the second sub-loss denotes a first degree of correspondence between the source image sample and the reconstructed image corresponding to sample of the source image, according to the criterion of the target feature;

[00157] определения третьих подпотерь на основании выходного результата, полученного путем ввода каждого из множества образцов исходного изображения и каждого из реконструированных изображений, соответствующих множеству образцов исходного изображения, в функцию регрессии, причем третьи подпотери обозначают вторую степень соответствия образца исходного изображения реконструированному изображению, соответствующему образцу исходного изображения, по критерию целевого признака; и[00157] determining the third sub-loss based on the output obtained by inputting each of the plurality of original image samples and each of the reconstructed images corresponding to the plurality of original image samples into a regression function, the third sub-loss indicating a second degree of correspondence between the original image sample and the reconstructed image corresponding to sample of the source image, according to the criterion of the target feature; And

[00158] определения потерь модели реконструкции на основании первых подпотерь, вторых подпотерь и третьих подпотерь.[00158] determining the loss of the reconstruction model based on the first sub-loss, the second sub-loss and the third sub-loss.

[00159] В некоторых примерах осуществления настоящего изобретения предусмотрено, что в процессе обучения исходным весовым параметром второй модели преобразования служит весовой параметр первой модели преобразования.[00159] In some embodiments of the present invention, it is provided that during the training process, the initial weight parameter of the second transformation model is the weight parameter of the first transformation model.

[00160] В некоторых примерах осуществления настоящего изобретения модуль 820 генерирования модели выполнен с возможностью генерирования сращенной модели преобразования путем сращивания слоев n весовой сети из числа множества слоев весовой сети в первой модели преобразования со слоями m весовой сети из числа множества слоев весовой сети во второй модели преобразования; при этом предусмотрено разное количество слоев n весовой сети и слоев m весовой сети, величина n является целым положительным числом, и величина m является целым положительным числом; или генерирования сращенной модели преобразования путем выполнения операции суммирования, или операции усреднения, или операции разности в отношении весовых параметров множества слоев весовой сети в первой модели преобразования и соответствующих весовых параметров множества слоев весовой сети во второй модели преобразования.[00160] In some embodiments of the present invention, model generation module 820 is configured to generate a spliced transformation model by splicing weight network layers n from among the plurality of weight network layers in the first transformation model with weight network layers m from among the plurality of weight network layers in the second model transformations; wherein there are different numbers of layers n of the weight network and layers m of the weight network, the value n is a positive integer number, and the value m is a positive integer number; or generating a spliced transformation model by performing a sum operation or an averaging operation or a difference operation with respect to the weight parameters of the plurality of weight network layers in the first transformation model and the corresponding weight parameters of the plurality of weight network layers in the second transformation model.

[00161] В некоторых примерах осуществления настоящего изобретения модуль 820 генерирования модели выполнен с возможностью:[00161] In some embodiments of the present invention, model generation module 820 is configured to:

[00162] получения комбинированной модели преобразования путем объединения модели реконструкции и сращенной модели преобразования;[00162] obtaining a combined transformation model by combining the reconstruction model and the spliced transformation model;

[00163] получения четвертой выборки обучающих образцов, причем четвертая выборка обучающих образцов включает в себя, по меньшей мере, один образец исходного изображения и изображение второго стиля, соответствующее, по меньшей мере, одному образцу исходного изображения; и[00163] obtaining a fourth set of training samples, the fourth set of training samples including at least one sample of the original image and a second style image corresponding to the at least one sample of the original image; And

[00164] создания модели генерирования изображений путем подстройки комбинированной модели преобразования с использованием четвертой выборки обучающих образцов.[00164] creating an image generation model by adjusting the combined transform model using the fourth set of training samples.

[00165] На фиг. 10 показана структурная схема устройства для генерирования изображений согласно некоторым вариантам осуществления настоящего изобретения. Как показано на фиг. 10, предложенное устройство обладает функцией практической реализации раскрытых выше вариантов осуществления настоящего изобретения, иллюстрирующих способ генерирования изображений. Эта функция реализуется аппаратно, или же она реализуется аппаратными средствами, приводящими в исполнение программные средства. Устройство 1000 включает в себя модуль 1010 генерирования переменных и модуль 1020 генерирования изображений.[00165] In FIG. 10 is a block diagram of an image generating apparatus according to some embodiments of the present invention. As shown in FIG. 10, the proposed apparatus has the function of practicing the above-disclosed embodiments of the present invention illustrating a method for generating images. This function is implemented in hardware, or it is implemented by hardware executing software. The device 1000 includes a variable generating unit 1010 and an image generating unit 1020.

[00166] Модуль 1010 генерирования переменных выполнен с возможностью генерирования скрытой переменной, соответствующей подлежащему преобразованию изображению, что осуществляется путем ввода подлежащего преобразованию изображения первого стиля в модель реконструкции.[00166] The variable generating unit 1010 is configured to generate a latent variable corresponding to the image to be transformed, which is accomplished by inputting the first style image to be transformed into the reconstruction model.

[00167] Модуль 1020 генерирования изображений выполнен с возможностью генерирования - на основании скрытой переменной, соответствующей подлежащему преобразованию изображению целевого изображения, соответствующего подлежащего преобразованию изображению, с использованием сращенной модели преобразования. Целевое изображение представляет собой изображение второго стиля. Сращенная модель преобразования является моделью, сгенерированной путем сращивания первой модели преобразования со второй моделью преобразования. Первая модель преобразования выполнена с возможностью генерирования изображения первого стиля в соответствии с первым образцом шума, а вторая модель преобразования выполнена с возможностью генерирования изображения второго стиля в соответствии со вторым образцом шума.[00167] The image generating unit 1020 is configured to generate, based on a latent variable corresponding to an image to be transformed, a target image corresponding to the image to be transformed using a spliced transformation model. The target image is the second style image. A spliced transformation model is a model generated by splicing a first transformation model with a second transformation model. The first transformation model is configured to generate a first style image in accordance with the first noise sample, and the second transformation model is configured to generate a second style image in accordance with the second noise sample.

[00168] Резюмируем, что в технических решениях, реализованных в вариантах осуществления настоящего изобретения, целевое изображение генерируется моделью генерирования изображений, полученной путем сращивания первой модели преобразования со второй моделью преобразования. Модель генерирования изображений (сращенная модель преобразования) обладает как преимуществом первой модели преобразования, которая хорошо сохраняет целевой признак изображения, так и преимуществом второй модели преобразования, которая генерирует яркое изображение второго стиля. Следовательно, модель генерирования изображений выполнена с возможностью генерирования целевого изображения в ярком стиле, исходя из возможности сохранения целевого признака подлежащего преобразованию изображения, что улучшает эффект преобразования модели генерирования изображений.[00168] To summarize, in the technical solutions implemented in embodiments of the present invention, the target image is generated by an image generation model obtained by splicing a first transformation model with a second transformation model. The image generation model (spliced transformation model) has both the advantage of the first transformation model, which preserves the target image feature well, and the advantage of the second transformation model, which generates a vivid image of the second style. Therefore, the image generation model is configured to generate a target image in a vivid style based on the ability to preserve the target feature of the image to be converted, which improves the conversion effect of the image generation model.

[00169] Следует отметить, что представленное описание акцентировано лишь на разделении функциональных модулей устройства согласно вариантам осуществления настоящего изобретения, описанным выше. На практике функции предложенного устройства могут возлагаться на различные функциональные модули и выполняться ими в зависимости от фактических потребностей. Иначе говоря, предложенное устройство в плане своей внутренней структуры делиться на разные функциональные модули для реализации некоторых или всех функций, описанных выше. Кроме того, устройство согласно описанным выше вариантам осуществления настоящего изобретения основано на той же идее, что и варианты осуществления способа согласно настоящему изобретению, а частный процесс реализации этого устройства подробно раскрыт в вариантах осуществления способа согласно заявленному изобретению, и поэтому он дополнительно не описывается в настоящем документе.[00169] It should be noted that the present description focuses only on the separation of functional modules of the device according to the embodiments of the present invention described above. In practice, the functions of the proposed device can be assigned to and performed by various functional modules depending on the actual needs. In other words, the proposed device, in terms of its internal structure, is divided into different functional modules to implement some or all of the functions described above. In addition, the device according to the above-described embodiments of the present invention is based on the same idea as the embodiments of the method according to the present invention, and the particular process for implementing this device is disclosed in detail in the embodiments of the method according to the claimed invention, and therefore it is not further described herein. document.

[00170] В некоторых примерах осуществления настоящего изобретения предложено компьютерное устройство. Компьютерное устройство содержит процессор и память, причем в памяти хранится одна или несколько компьютерных программ. Одна или несколько компьютерных программ при их загрузке и выполнении процессором компьютерного устройства инициирует реализацию компьютерным устройством способа обучения модели генерирования изображений, описанного выше.[00170] In some embodiments of the present invention, a computer device is provided. A computer device includes a processor and a memory, wherein the memory stores one or more computer programs. One or more computer programs, when downloaded and executed by a processor of a computer device, causes the computer device to implement the image generation model learning method described above.

[00171] В некоторых примерах осуществления настоящего изобретения предложено компьютерное устройство. Компьютерное устройство содержит процессор и память, причем в памяти хранится одна или несколько компьютерных программ. Одна или несколько компьютерных программ при их загрузке и выполнении процессором компьютерного устройства инициирует реализацию компьютерным устройством способа генерирования изображений, описанного выше.[00171] In some embodiments of the present invention, a computer device is provided. A computer device includes a processor and a memory, wherein the memory stores one or more computer programs. One or more computer programs, when downloaded and executed by a processor of a computer device, causes the computer device to implement the image generation method described above.

[00172] В некоторых примерах осуществления настоящего изобретения предложен машиночитаемый носитель данных. Машиночитаемый носитель данных предназначен для хранения на нем одной или нескольких компьютерных программ. Одна или несколько компьютерных программ при их загрузке и выполнении процессором инициирует реализацию этим процессором способа обучения модели генерирования изображений, описанного выше.[00172] In some embodiments of the present invention, a computer-readable storage medium is provided. A computer-readable storage medium is intended for storing one or more computer programs. One or more computer programs, when loaded and executed by a processor, causes the processor to implement the image generation model learning method described above.

[00173] В некоторых примерах осуществления настоящего изобретения предложен машиночитаемый носитель данных. Машиночитаемый носитель данных предназначен для хранения на нем одной или нескольких компьютерных программ. Одна или несколько компьютерных программ при их загрузке и выполнении процессором инициирует реализацию этим процессором способа генерирования изображений, описанного выше.[00173] In some embodiments of the present invention, a computer-readable storage medium is provided. A computer-readable storage medium is intended for storing one or more computer programs. One or more computer programs, when downloaded and executed by a processor, causes the processor to implement the image generation method described above.

[00174] В некоторых примерах осуществления настоящего изобретения предложен компьютерный программный продукт. Компьютерный программный продукт при его загрузке и выполнении процессором инициирует реализацию этим процессором способа обучения модели генерирования изображений, описанного выше.[00174] In some embodiments of the present invention, a computer program product is provided. The computer program product, when loaded and executed by a processor, causes the processor to implement the image generation model learning method described above.

[00175] В некоторых примерах осуществления настоящего изобретения предложен компьютерный программный продукт. Компьютерный программный продукт при его загрузке и выполнении процессором инициирует реализацию этим процессором способа генерирования изображений, описанного выше.[00175] In some embodiments of the present invention, a computer program product is provided. The computer program product, when loaded and executed by a processor, causes the processor to implement the image generation method described above.

[00176] Следует отметить, что термин «множество», используемый в настоящем документе, обозначает «один или более». Символ «/» обычно означает, что контекстно-зависимые объекты находятся в соотношении «ИЛИ».[00176] It should be noted that the term “multiple” as used herein means “one or more.” The "/" symbol usually means that context-sensitive objects are in an "OR" relationship.

[00177] Выше описаны лишь иллюстративные варианты осуществления настоящего изобретения, которые никоим образом его не ограничивают. Следовательно, любые модификации, эквивалентные замены, усовершенствования и иные изменения подобного рода, внесенные без отступления от сущности и принципов настоящего изобретения, должны быть включены в объем правовой охраны заявленного изобретения.[00177] The above describes only illustrative embodiments of the present invention, which in no way limit it. Consequently, any modifications, equivalent replacements, improvements and other changes of this kind, made without departing from the essence and principles of the present invention, must be included in the scope of legal protection of the claimed invention.

Claims (56)

1. Способ обучения модели генерирования изображений, предусматривающий:1. A method for training an image generation model, including: получение первой модели преобразования посредством обучения, причем первая модель преобразования выполнена с возможностью генерирования первого обучающего изображения на основании первого образца шума, а первое обучающее изображение представляет собой изображение первого стиля;obtaining a first transformation model by training, wherein the first transformation model is configured to generate a first training image based on the first noise sample, and the first training image is a first style image; получение модели реконструкции посредством обучения на основании первой модели преобразования, причем модель реконструкции выполнена с возможностью привязки образа исходного изображения к скрытой переменной, соответствующей образцу исходного изображения;obtaining a reconstruction model by learning based on the first transformation model, wherein the reconstruction model is configured to link an image of the original image to a latent variable corresponding to an example of the original image; получение второй модели преобразования посредством обучения, причем вторая модель преобразования выполнена с возможностью генерирования второго обучающего изображения на основании второго образца шума, а второе обучающее изображение представляет собой изображение второго стиля;obtaining a second transformation model by training, the second transformation model configured to generate a second training image based on the second noise sample, and the second training image is a second style image; генерирование сращенной модели преобразования путем сращивания первой модели преобразования со второй моделью преобразования; иgenerating a spliced transformation model by splicing the first transformation model with the second transformation model; And создание модели генерирования изображений на основании модели реконструкции и сращенной модели преобразования, причем модель генерирования изображений выполнена с возможностью преобразования подлежащего преобразованию изображения первого стиля в целевое изображение второго стиля.creating an image generation model based on the reconstruction model and the spliced transformation model, wherein the image generation model is configured to transform the first style image to be transformed into a second style target image. 2. Способ по п. 1, в котором:2. The method according to claim 1, in which: первая модель преобразования содержит первую сеть отображения и первую сеть синтеза; аthe first transformation model contains a first mapping network and a first synthesis network; A получение первой модели преобразования посредством обучения предусматривает:obtaining the first transformation model through training involves: получение первой выборки обучающих образцов, причем первая выборка обучающих образцов содержит множество первых образцов шума;obtaining a first sample of training samples, wherein the first sample of training samples contains a plurality of first noise samples; получение скрытых переменных, соответствующих множеству первых образцов шума, что осуществляется путем ввода множества первых образцов шума в первую сеть отображения;obtaining latent variables corresponding to the plurality of first noise samples, which is accomplished by inputting the plurality of first noise samples into the first mapping network; получение первых обучающих изображений, соответствующих множеству первых образцов шума, что осуществляется путем ввода скрытых переменных, соответствующих множеству первых образцов шума, в первую сеть синтеза; иobtaining first training images corresponding to the plurality of first noise samples, which is accomplished by inputting latent variables corresponding to the plurality of first noise samples into the first synthesis network; And коррекцию весового параметра первой модели преобразования на основании первых обучающих образцов, соответствующих множеству первых образцов шума.adjusting the weight parameter of the first transformation model based on the first training samples corresponding to the plurality of first noise samples. 3. Способ по п. 2, в котором:3. The method according to claim 2, in which: первая модель преобразования содержит первую дискриминационную сеть; аthe first transformation model contains a first discrimination network; A коррекция весового параметра первой модели преобразования на основании первых обучающих образцов, соответствующих множеству первых образцов шума, предусматривает:correction of the weight parameter of the first transformation model based on the first training samples corresponding to the plurality of first noise samples provides: получение первых дискриминационных потерь, соответствующих множеству первых образцов шума, путем ввода первых обучающих изображений, соответствующих множеству первых образцов шума, в первую дискриминационную сеть; иobtaining first discrimination losses corresponding to the plurality of first noise samples by inputting first training images corresponding to the plurality of first noise samples into the first discrimination network; And коррекцию весового параметра первой модели преобразования на основании первых дискриминационных потерь, соответствующих множеству первых образцов шума.adjusting a weight parameter of the first transform model based on the first discrimination losses corresponding to the plurality of first noise samples. 4. Способ по п. 1, в котором получение модели реконструкции посредством обучения на основании первой модели преобразования предусматривает:4. The method according to claim 1, in which obtaining a reconstruction model by training based on the first transformation model involves: получение второй выборки обучающих образцов, причем вторая выборка обучающих образцов содержит множество образцов исходного изображения;obtaining a second set of training samples, wherein the second set of training samples contains a plurality of samples of the original image; генерирование скрытых переменных, соответствующих множеству образцов исходного изображения, что осуществляется путем ввода множества образцов исходного изображения в модель реконструкции;generating latent variables corresponding to the plurality of source image samples, which is done by inputting the plurality of source image samples into the reconstruction model; генерирование реконструированных изображений, соответствующих множеству образцов исходного изображения, что осуществляется путем ввода скрытых переменных, соответствующих множеству образцов исходного изображения, в первую модель преобразования, причем множество образцов исходного изображения и реконструированные изображения, соответствующие множеству образцов исходного изображения, представляют собой изображения первого стиля;generating reconstructed images corresponding to a plurality of original image samples, which is accomplished by inputting latent variables corresponding to a plurality of original image samples into a first transformation model, wherein the plurality of original image samples and the reconstructed images corresponding to the plurality of original image samples are first style images; определение потерь модели реконструкции, соответствующих множеству образцов исходного изображения, на основании множества образцов исходного изображения и реконструированных изображений, соответствующих множеству образцов исходного изображения; иdetermining a loss of a reconstruction model corresponding to the plurality of source image samples based on the plurality of source image samples and reconstructed images corresponding to the plurality of source image samples; And коррекцию весового параметра модели реконструкции на основании потерь модели реконструкции, соответствующих множеству образцов исходного изображения.adjusting the weight parameter of the reconstruction model based on the losses of the reconstruction model corresponding to the set of samples of the original image. 5. Способ по п. 4, в котором:5. The method according to claim 4, in which: первая модель преобразования включает в себя первую дискриминационную сеть; а определение потерь модели реконструкции, соответствующих множеству образцов исходного изображения, на основании множества образцов исходного изображения и реконструированных изображений, соответствующих множеству образцов исходного изображения, предусматривает:the first transformation model includes a first discrimination network; and determining the loss of the reconstruction model corresponding to the plurality of source image samples, based on the plurality of source image samples and the reconstructed images corresponding to the plurality of source image samples, involves: определение первых подпотерь на основании выходного результата, полученного путем ввода каждого из реконструированных изображений, соответствующих множеству образцов исходного изображения, в первую дискриминационную сеть, причем первые подпотери обозначают первую характеристику реконструированного изображения;determining first sub-losses based on an output obtained by inputting each of the reconstructed images corresponding to the plurality of samples of the original image into a first discrimination network, the first sub-losses indicating a first characteristic of the reconstructed image; определение вторых подпотерь на основании выходного результата, полученного путем ввода каждого из множества образцов исходного изображения и каждого из реконструированных изображений, соответствующих множеству образцов исходного изображения, в перцепционную сеть, причем вторые подпотери обозначают первую степень соответствия образца исходного изображения реконструированному изображению, соответствующему образцу исходного изображения, по критерию целевого признака;determining a second sub-loss based on an output obtained by inputting each of the plurality of source image samples and each of the reconstructed images corresponding to the plurality of source image samples into the perceptual network, the second sub-loss denoting a first-degree match of the source image sample to a reconstructed image corresponding to the source image sample , according to the criterion of the target attribute; определение третьих подпотерь на основании выходного результата, полученного путем ввода каждого из множества образцов исходного изображения и каждого из реконструированных изображений, соответствующих множеству образцов исходного изображения, в функцию регрессии, причем третьи подпотери обозначают вторую степень соответствия образца исходного изображения реконструированному изображению, соответствующему образцу исходного изображения, по критерию целевого признака; иdetermining a third sub-loss based on an output obtained by inputting each of the plurality of original image samples and each of the reconstructed images corresponding to the plurality of original image samples into a regression function, the third sub-loss indicating a second degree of correspondence of the original image sample to a reconstructed image corresponding to the original image sample , according to the criterion of the target attribute; And определение потерь модели реконструкции на основании первых подпотерь, вторых подпотерь и третьих подпотерь.determining the reconstruction model losses based on the first sublosses, the second sublosses and the third sublosses. 6. Способ по любому из пп. 1-5, в котором в процессе обучения исходным весовым параметром второй модели преобразования служит весовой параметр первой модели преобразования.6. Method according to any one of paragraphs. 1-5, in which during the training process the initial weight parameter of the second transformation model is the weight parameter of the first transformation model. 7. Способ по любому из пп. 1-5, в котором генерирование сращенной модели преобразования путем сращивания первой модели преобразования со второй моделью преобразования предусматривает:7. Method according to any one of paragraphs. 1-5, in which generating a spliced transformation model by splicing a first transformation model with a second transformation model involves: генерирование сращенной модели преобразования путем сращивания слоев n весовой сети из числа множества слоев весовой сети в первой модели преобразования со слоями m весовой сети из числа множества слоев весовой сети во второй модели преобразования, причем предусмотрено разное количество слоев n весовой сети и слоев m весовой сети, величина n является целым положительным числом, и величина m является целым положительным числом; илиgenerating a spliced transformation model by splicing n weight network layers from among the plurality of weight network layers in the first transformation model with m weight network layers from among the plurality of weight network layers in the second transformation model, wherein a different number of n weight network layers and m weight network layers are provided, the value n is a positive integer and the value m is a positive integer; or генерирование сращенной модели преобразования путем выполнения операции суммирования, или операции усреднения, или операции разности в отношении весовых параметров множества слоев весовой сети в первой модели преобразования и соответствующих весовых параметров множества слоев весовой сети во второй модели преобразования.generating a spliced transformation model by performing a summation operation or an averaging operation or a difference operation with respect to the weight parameters of the plurality of weight network layers in the first transformation model and the corresponding weight parameters of the plurality of weight network layers in the second transformation model. 8. Способ по любому из пп. 1-5, в котором создание модели генерирования изображений на основании модели реконструкции и сращенной модели преобразования предусматривает:8. Method according to any one of paragraphs. 1-5, in which the creation of an image generation model based on the reconstruction model and the spliced transformation model involves: получение комбинированной модели преобразования путем объединения модели реконструкции и сращенной модели преобразования;obtaining a combined transformation model by combining the reconstruction model and the spliced transformation model; получение четвертой выборки обучающих образцов, причем четвертая выборка обучающих образцов включает в себя по меньшей мере один образец исходного изображения и изображение второго стиля, соответствующее по меньшей мере одному образцу исходного изображения; иobtaining a fourth set of training samples, the fourth set of training samples including at least one sample of the original image and a second style image corresponding to the at least one sample of the original image; And создание модели генерирования изображений путем подстройки комбинированной модели преобразования с использованием четвертой выборки обучающих образцов.creating an image generation model by adjusting the combined transformation model using the fourth set of training samples. 9. Способ генерирования изображений, предусматривающий:9. A method for generating images, comprising: генерирование скрытой переменной, соответствующей подлежащему преобразованию изображению, что осуществляется путем ввода подлежащего преобразования изображения первого стиля в модель реконструкции; иgenerating a latent variable corresponding to the image to be transformed, which is done by inputting the first style image to be transformed into the reconstruction model; And генерирование – на основании скрытой переменной, соответствующей подлежащему преобразованию изображению – целевого изображения, соответствующего подлежащему преобразованию изображению, с использованием сращенной модели преобразования, причем целевое изображение представляет собой изображение второго стиля;generating, based on the latent variable corresponding to the image to be transformed, a target image corresponding to the image to be transformed using a spliced transformation model, the target image being a second style image; при этом сращенная модель преобразования представляет собой модель, сгенерированную путем сращивания первой модели преобразования со второй моделью преобразования; первая модель преобразования выполнена с возможностью генерирования изображения первого стиля в соответствии с первым образцом шума; а вторая модель преобразования выполнена с возможностью генерирования изображения второго стиля в соответствии со вторым образцом шума.wherein the spliced transformation model is a model generated by splicing the first transformation model with the second transformation model; the first transformation model is configured to generate a first style image in accordance with the first noise sample; and the second transformation model is configured to generate a second style image in accordance with the second noise pattern. 10. Устройство для обучения модели генерирования изображений, содержащее:10. A device for training an image generation model, containing: модуль обучения модели, выполненный с возможностью получения первой модели преобразования посредством обучения, причем первая модель преобразования выполнена с возможностью генерирования первого обучающего изображения в соответствии с первым образцом шума, а первое обучающее изображение представляет собой изображение первого стиля, при этом:a model learning module configured to obtain a first transformation model by training, wherein the first transformation model is configured to generate a first training image in accordance with the first noise sample, and the first training image is a first style image, wherein: модуль обучения модели выполнен с дополнительной возможностью получения модели реконструкции посредством обучения на основании первой модели преобразования, причем модель реконструкция выполнена с возможностью привязки образца исходного изображения к скрытой переменной, соответствующей образцу исходного изображения; иthe model training module is configured with the additional ability to obtain a reconstruction model by training based on the first transformation model, wherein the reconstruction model is configured to link a sample of the original image to a latent variable corresponding to the sample of the original image; And модуль обучения модели выполнен с дополнительной возможностью получения второй модели преобразования посредством обучения, причем вторая модель преобразования выполнена с возможностью генерирования второго обучающего изображения в соответствии со вторым образцом шума, а второе обучающее изображение представляет собой изображение второго стиля; иthe model training module is further configured to obtain a second transformation model by training, the second transformation model is configured to generate a second training image in accordance with the second noise pattern, and the second training image is a second style image; And модуль генерирования модели, выполненный с возможностью генерирования сращенной модели преобразования путем сращивания первой модели преобразования со второй моделью преобразования; при этом:a model generation module configured to generate a spliced transformation model by splicing a first transformation model with a second transformation model; wherein: модуль генерирования модели выполнен с дополнительной возможностью создания модели генерирования изображений на основании модели реконструкции и сращенной модели преобразования, причем модель генерирования изображений выполнена с возможностью преобразования подлежащего преобразованию изображения первого стиля в целевое изображение второго стиля.the model generation module is further configured to create an image generation model based on the reconstruction model and the spliced transformation model, wherein the image generation model is configured to convert the first style image to be transformed into a second style target image. 11. Устройство для генерирования изображений, содержащее:11. An image generating device comprising: модуль генерирования переменных, выполненный с возможностью генерирования скрытой переменной, соответствующей подлежащему преобразованию изображению, путем ввода подлежащего преобразованию изображения первого стиля в модель реконструкции; иa variable generation module configured to generate a latent variable corresponding to the image to be transformed by inputting the first style image to be transformed into the reconstruction model; And модуль генерирования изображений, выполненный с возможностью генерирования – на основании скрытой переменной, соответствующей подлежащему преобразованию изображению – целевого изображения, соответствующего подлежащего преобразованию изображению, с использованием сращенной модели преобразования, причем целевое изображение представляет собой изображение второго стиля;an image generating module configured to generate, based on a latent variable corresponding to an image to be transformed, a target image corresponding to the image to be transformed using a spliced transformation model, wherein the target image is a second style image; при этом сращенная модель преобразования является моделью, сгенерированной путем сращивания первой модели преобразования со второй моделью преобразования, первая модель преобразования выполнена с возможностью генерирования изображения первого стиля в соответствии с первым образцом шума, а вторая модель преобразования выполнена с возможностью генерирования изображения второго стиля в соответствии со вторым образцом шума.wherein the spliced transform model is a model generated by splicing a first transform model with a second transform model, the first transform model is configured to generate a first style image in accordance with the first noise sample, and the second transform model is configured to generate a second style image in accordance with second noise sample. 12. Компьютерное устройство для обучения модели генерирования изображений, содержащее процессор и память, в которой хранится одна или несколько компьютерных программ, причем одна или несколько компьютерных программ при их загрузке и выполнении процессором компьютерного устройства инициирует реализацию компьютерным устройством способа обучения модели генерирования изображений по любому из пп. 1-8.12. A computer device for training an image generation model, comprising a processor and memory in which one or more computer programs are stored, wherein one or more computer programs, when loaded and executed by the processor of the computer device, initiates the implementation by the computer device of a method for training the image generation model according to any of pp. 1-8. 13. Машиночитаемый носитель данных для хранения на нем одной или нескольких компьютерных программ, причем одна или несколько компьютерных программ при их загрузке и выполнении процессором инициирует реализацию этим процессором способа обучения модели генерирования изображений по любому из пп. 1-8.13. A computer-readable storage medium for storing on it one or more computer programs, wherein one or more computer programs, when loaded and executed by a processor, initiates implementation by this processor of a method for training an image generation model according to any one of claims. 1-8. 14. Компьютерное устройство для генерирования изображений, содержащее процессор и память, причем в памяти хранится одна или несколько компьютерных программ, причем одна или несколько компьютерных программ при их загрузке и выполнении процессором компьютерного устройства инициирует реализацию компьютерным устройством способа генерирования изображений по п. 9.14. A computer device for generating images, comprising a processor and a memory, wherein the memory stores one or more computer programs, wherein the one or more computer programs, when loaded and executed by the processor of the computer device, causes the computer device to implement the image generation method of claim 9. 15. Машиночитаемый носитель данных для хранения на нем одной или нескольких компьютерных программ, причем одна или несколько компьютерных программ при их загрузке и выполнении процессором инициирует реализацию этим процессором способа генерирования изображений по п. 9.15. A computer-readable storage medium for storing on it one or more computer programs, wherein one or more computer programs, when loaded and executed by a processor, causes the processor to implement the image generation method of claim 9.
RU2023121327A 2021-02-02 2022-01-28 Method and apparatus for training image generation model, method and apparatus for generating images and their devices RU2817316C2 (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110143927.0 2021-02-02

Publications (2)

Publication Number Publication Date
RU2023121327A RU2023121327A (en) 2023-10-04
RU2817316C2 true RU2817316C2 (en) 2024-04-15

Family

ID=

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2594101C2 (en) * 2010-10-26 2016-08-10 Конинклейке Филипс Электроникс Н.В. Device and method for hybrid reconstruction of object from projection data
CN107577985A (en) * 2017-07-18 2018-01-12 南京邮电大学 The implementation method of the face head portrait cartooning of confrontation network is generated based on circulation
CN108205813A (en) * 2016-12-16 2018-06-26 微软技术许可有限责任公司 Image stylization based on learning network
RU2690001C1 (en) * 2017-12-29 2019-05-30 Федеральное государственное бюджетное образовательное учреждение высшего образования "Московский государственный университет имени М.В. Ломоносова" (МГУ) Method of processing vector signals for pattern recognition based on wavelet analysis
RU2709437C1 (en) * 2017-12-29 2019-12-17 Циньхуа Юниверсити Image processing method, an image processing device and a data medium

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2594101C2 (en) * 2010-10-26 2016-08-10 Конинклейке Филипс Электроникс Н.В. Device and method for hybrid reconstruction of object from projection data
CN108205813A (en) * 2016-12-16 2018-06-26 微软技术许可有限责任公司 Image stylization based on learning network
CN107577985A (en) * 2017-07-18 2018-01-12 南京邮电大学 The implementation method of the face head portrait cartooning of confrontation network is generated based on circulation
RU2690001C1 (en) * 2017-12-29 2019-05-30 Федеральное государственное бюджетное образовательное учреждение высшего образования "Московский государственный университет имени М.В. Ломоносова" (МГУ) Method of processing vector signals for pattern recognition based on wavelet analysis
RU2709437C1 (en) * 2017-12-29 2019-12-17 Циньхуа Юниверсити Image processing method, an image processing device and a data medium

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
GUANG-YUAN HAO. et al. "MIXGAN: Learning Concepts from Different Domains for Mixture Generation", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, опубл. 04.07.2018 ONLINE LIBRARY CORNELL UNIVERSITY ITHACA, URL:https://arxiv.org/pdf/1807.01659v1.pdf. *

Similar Documents

Publication Publication Date Title
Lu et al. Image generation from sketch constraint using contextual gan
US20230022387A1 (en) Method and apparatus for image segmentation model training and for image segmentation
EP4290448A1 (en) Image generation model training method, generation method, apparatus, and device
CN112733795A (en) Method, device and equipment for correcting sight of face image and storage medium
CN115908613B (en) AI model generation method, system and storage medium based on artificial intelligence
CN113837942A (en) Super-resolution image generation method, device, equipment and storage medium based on SRGAN
CN111108508B (en) Face emotion recognition method, intelligent device and computer readable storage medium
US20220101122A1 (en) Energy-based variational autoencoders
CN113658091A (en) Image evaluation method, storage medium and terminal equipment
CN110570375A (en) image processing method, image processing device, electronic device and storage medium
CN107729885B (en) Face enhancement method based on multiple residual error learning
CN113763268A (en) Blind restoration method and system for face image
US20230237630A1 (en) Image processing method and apparatus
CN113538254A (en) Image restoration method and device, electronic equipment and computer readable storage medium
CN112884648A (en) Method and system for multi-class blurred image super-resolution reconstruction
RU2817316C2 (en) Method and apparatus for training image generation model, method and apparatus for generating images and their devices
CN116758379A (en) Image processing method, device, equipment and storage medium
WO2023231182A1 (en) Image processing method and apparatus, and computer device, storage medium and program product
US20220101145A1 (en) Training energy-based variational autoencoders
CN116152391A (en) Diversified editing method and system for high-resolution face image
CN113077379B (en) Feature latent code extraction method and device, equipment and storage medium
CN112818820B (en) Image generation model training method, image generation device and electronic equipment
CN115564638A (en) Network training method, image face changing method, device and electronic equipment
CN114419691A (en) Method for generating human face aging image, model training method, device and medium
CN113744158A (en) Image generation method and device, electronic equipment and storage medium