RU2720361C1 - Multi-frame training of realistic neural models of speakers heads - Google Patents

Multi-frame training of realistic neural models of speakers heads Download PDF

Info

Publication number
RU2720361C1
RU2720361C1 RU2019125940A RU2019125940A RU2720361C1 RU 2720361 C1 RU2720361 C1 RU 2720361C1 RU 2019125940 A RU2019125940 A RU 2019125940A RU 2019125940 A RU2019125940 A RU 2019125940A RU 2720361 C1 RU2720361 C1 RU 2720361C1
Authority
RU
Russia
Prior art keywords
network
person
generator
head
meta
Prior art date
Application number
RU2019125940A
Other languages
Russian (ru)
Inventor
Егор Олегович ЗАХАРОВ
Александра Петровна ШИШЕЯ
Егор Андреевич БУРКОВ
Виктор Сергеевич Лемпицкий
Original Assignee
Самсунг Электроникс Ко., Лтд.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Самсунг Электроникс Ко., Лтд. filed Critical Самсунг Электроникс Ко., Лтд.
Priority to RU2019125940A priority Critical patent/RU2720361C1/en
Priority to KR1020200011360A priority patent/KR20200112647A/en
Priority to US16/823,752 priority patent/US11568645B2/en
Priority to CN202080019713.6A priority patent/CN113544706A/en
Priority to EP20773074.8A priority patent/EP3874415A4/en
Priority to PCT/KR2020/003852 priority patent/WO2020190083A1/en
Application granted granted Critical
Publication of RU2720361C1 publication Critical patent/RU2720361C1/en
Priority to US18/102,161 priority patent/US20230169349A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation

Abstract

FIELD: computer equipment.
SUBSTANCE: present invention relates to computer engineering. Method comprises steps of: receiving at least one video frame from a single sequence of frames of said person; evaluating head orientation and facial expression descriptors for at least one video frame; computing an N-dimensional embedding vector which characterizes a person-specific information, based on at least one video frame using a meta-trained embedded network; implementing a generator network based on a set of parameters of a meta-trained generator network and an N-dimensional embedding vector; and fine tuning network parameters of generator to match at least one video frame, when the generator network is provided with head orientation and facial expression descriptors, synthesising a sequence of images of the talking persona head for said person using a finely tuned generator network and a previously unobserved sequence of head orientation and facial expression descriptors.
EFFECT: technical result consists in improvement of quality of synthesized images.
9 cl, 5 dwg

Description

Область техникиTechnical field

[0001] Настоящая заявка относится к способу и устройствам для обучения по нескольким кадрам (few–shot learning) (фотоснимкам) реалистичных нейронных моделей голов говорящих персон, а также к способу и устройствам для создания персонализированных фотореалистичных последовательностей изображений головы говорящей персоны, т.е. модулям программного обеспечения и/или аппаратных средств, которые могут синтезировать последовательности правдоподобных видео головы конкретного индивидуума в процессе эмоционального разговора и мимики. Также раскрыты считываемые компьютером носители, хранящие исполняемые компьютером инструкции, которые, при исполнении процессором устройства, побуждают процессор выполнять любой один из раскрытых способов.[0001] This application relates to a method and apparatus for training in several frames (few – shot learning) (photographs) of realistic neural models of the heads of talking persons, as well as to a method and apparatus for creating personalized photorealistic sequences of images of the head of a speaking person, i.e. . software and / or hardware modules that can synthesize sequences of plausible videos of the head of a particular individual during an emotional conversation and facial expressions. Computer-readable media that store computer-executable instructions are also disclosed that, when executed by a processor of a device, cause the processor to perform any one of the disclosed methods.

Предшествующий уровень техникиState of the art

[0002] В настоящей заявке рассматривается задача создания персонализированных фотореалистичных моделей головы говорящей персоны, т.е. систем, которые могут синтезировать последовательности правдоподобных видео эмоций и мимики при разговоре конкретного индивидуума. Более конкретно, рассматривается проблема синтезирования фотореалистичных персонализированных изображений головы, при заданном наборе распознаваемых элементов (ориентиров) лица, которые стимулируют анимацию модели. Такая способность имеет практические применения для дистанционного присутствия (телеприсутствия), включая режим видеоконференции и многопользовательские игры, а также индустрию спецэффектов. Известно, что синтезирование последовательностей реалистичных изображений головы говорящей персоны является затруднительным по двум причинам. Во–первых, человеческие головы характеризуются высокой фотометрической, геометрической и кинематической сложностью. Эта сложность обусловлена не только моделированием лиц (для чего существует большое количество методов моделирования), но и моделированием полости рта, волос и одежды. Вторым фактором сложности является острота зрительной системы человека даже к малейшим погрешностям в моделировании внешнего вида голов людей (так называемый “эффект зловещей долины [24]). Такой малый допуск для погрешностей моделирования объясняет то, что в настоящее время преобладают не–фотореалистичные карикатурно–подобные аватары во многих практически развертываемых системах телеконференции.[0002] This application considers the task of creating personalized photorealistic models of the head of a talking person, i.e. systems that can synthesize sequences of plausible videos of emotions and facial expressions when talking to a specific individual. More specifically, the problem of synthesizing photorealistic personalized images of the head is considered, with a given set of recognizable elements (landmarks) of the face that stimulate the animation of the model. This ability has practical applications for telepresence (telepresence), including video conferencing and multiplayer games, as well as the special effects industry. It is known that synthesizing sequences of realistic images of the head of a talking person is difficult for two reasons. Firstly, human heads are characterized by high photometric, geometric and kinematic complexity. This complexity is caused not only by face modeling (for which there are a large number of modeling methods), but also by modeling the oral cavity, hair and clothing. The second factor of complexity is the sharpness of the human visual system, even to the smallest errors in modeling the appearance of people's heads (the so-called “sinister valley effect [24]). Such a small tolerance for modeling errors explains the fact that currently non-photorealistic caricature-like avatars prevail in many practically deployed teleconferencing systems.

Связанные работыRelated work

[0003] Для преодоления упомянутых проблем, был представлен ряд работ по синтезированию связанных последовательностей изображений головы путем деформирования одиночного или нескольких статических кадров. Как классические алгоритмы деформации [5, 28], так и поля деформации, синтезированные с использованием машинного обучения (включая глубокое обучение) [11, 29, 40], могут быть использованы для такой цели. Хотя основанные на деформации системы могут создавать последовательности изображений головы говорящей персоны даже из одиночного изображения, однако величина движения, поворота головы и устранения перекрытия (дезокклюзии), которую они могут обрабатывать без заметных артефактов, является ограниченной.[0003] To overcome the aforementioned problems, a number of works were presented on synthesizing related sequences of images of the head by deforming a single or several static frames. Both classical deformation algorithms [5, 28] and deformation fields synthesized using machine learning (including deep learning) [11, 29, 40] can be used for this purpose. Although deformation-based systems can create sequences of images of the head of a talking person even from a single image, the amount of movement, head rotation, and elimination of overlap (de-occlusion) that they can process without noticeable artifacts is limited.

[0004] Прямой (без деформации) синтез кадров видео с использованием состязательно–обучаемых глубоких сверточных сетей (ConvNets) представляет новое решение, с которым связаны надежды на создание фотореалистичных изображений головы говорящей персоны. В последнее время, некоторые весьма реалистичные результаты были продемонстрированы такими системами [16, 20, 37]. Однако, чтобы добиться успеха, такие способы должны обучать большие сети, где как генератор, так и дискриминатор имеют десятки миллионов параметров для каждой головы говорящей персоны. Поэтому таким системам требуются видео длительностью несколько минут [20, 37] или большие наборы данных фотоснимков [16], а также часы обучения GPU, чтобы создать новую персонализированную модель головы говорящей персоны. Хотя такие усилия меньше, чем те, которые требуются системам, которые конструируют фотореалистичные модели головы говорящей персоны с использованием сложного физического и оптического моделирования [1], они все еще является непомерными для большинства практических сценариев телеприсутствия, где желательно обеспечить возможность пользователям создавать их персонализированные модели головы говорящей персоны с наименьшими возможными усилиями.[0004] Direct (no deformation) synthesis of video frames using competitively-trained deep convolutional networks (ConvNets) presents a new solution that has hopes for creating photorealistic images of the head of a talking person. Recently, some very realistic results have been demonstrated by such systems [16, 20, 37]. However, in order to succeed, such methods must train large networks where both the generator and the discriminator have tens of millions of parameters for each head of the talking person. Therefore, such systems require a few minutes of video [20, 37] or large datasets of photographs [16], as well as GPU training hours to create a new personalized model of the head of a talking person. Although such efforts are less than those required by systems that construct photorealistic models of the head of a talking person using complex physical and optical modeling [1], they are still exorbitant for most practical telepresence scenarios, where it is desirable to enable users to create their personalized models the heads of the talking person with the least effort possible.

[0005] Огромное количество работ посвящено статистическому моделированию внешнего вида человеческих лиц [6], причем весьма хорошие результаты получены как классическими методами [35], так и, в последнее время, с помощью глубокого обучения [22, 25] (только в качестве нескольких примеров). Хотя моделирование лица является задачей, довольно тесно связанной с моделированием головы говорящей персоны, обе эти задачи не являются идентичными, так как последняя также предполагает моделирование не относящихся к лицу частей, таких как волосы, шея, полость рта и часто плечи/верхняя одежда. Эти не относящиеся к лицу части не могут быть обработаны некоторым тривиальным расширением способов моделирования лица, поскольку они намного меньше поддаются точному совмещению и часто имеют более высокую вариабельность и более высокую сложность, чем части лица. В принципе, результаты моделирования лица [35] или моделирования губ [31] могут быть “вшиты” в существующее видео головы. Однако такое проектирование не позволяет осуществить полное управление по повороту головы в результирующем видео и поэтому не приводит в результате к полностью отработанной системе моделирования головы говорящей персоны.[0005] A huge number of works are devoted to statistical modeling of the appearance of human faces [6], and very good results were obtained both by classical methods [35] and, recently, with the help of deep learning [22, 25] (only as a few examples). Although facial modeling is a task quite closely related to modeling the head of a speaking person, both of these tasks are not identical, since the latter also involves modeling non-facial parts such as hair, neck, oral cavity and often shoulders / outerwear. These non-face parts cannot be handled by some trivial extension of face modeling methods, since they are much less amenable to precise alignment and often have higher variability and higher complexity than face parts. In principle, the results of face modeling [35] or lip modeling [31] can be “sewn” into an existing head video. However, such a design does not allow full control over the rotation of the head in the resulting video and therefore does not result in a fully developed system for modeling the head of a talking person.

[0006] Безразличный к модели модуль обучения (MAML) [10] использует мета–обучение, чтобы получать начальное состояние классификатора изображения, из которого он может быстро конвергировать к классификатору изображения классов без подготовки, если задано несколько обучающих выборок. Эта идея высокого уровня используется способом, предложенным в настоящем документе, хотя ее реализация является довольно затруднительной. Было представлено несколько работ, которые объединяют состязательное обучение с мета–обучением. Так, GAN с увеличением данных [3], мета–GAN [43], состязательное мета–обучение [41] используют состязательно обучаемые сети, чтобы генерировать дополнительные примеры для классов, не наблюдаемых на стадии мета–обучения. В то время как эти способы сфокусированы на повышении эффективности классификации по нескольким кадрам, способ, раскрытый в настоящем документе, направлен на обучение моделей генерации изображения с использованием состязательных целей. В итоге, в настоящем изобретении, состязательная тонкая настройка вносится в инфраструктуру мета–обучения. Первая применяется после того, как начальное состояние сетей генератора и дискриминатора получено посредством стадии мета–обучения.[0006] The model-insensitive learning module (MAML) [10] uses meta-training to obtain the initial state of the image classifier, from which it can quickly convert to class image classifier without preparation if several training samples are specified. This high-level idea is used in the manner proposed in this document, although its implementation is rather difficult. Several papers were presented that combine competitive learning with meta-learning. So, GAN with increasing data [3], meta-GAN [43], adversarial meta-learning [41] use ad-hoc trained networks to generate additional examples for classes not observed at the meta-learning stage. While these methods are focused on improving the classification efficiency for several frames, the method disclosed herein is aimed at training image generation models using competitive goals. As a result, in the present invention, adversarial fine-tuning is introduced into the meta-learning infrastructure. The first is applied after the initial state of the generator and discriminator networks is obtained through the meta-learning stage.

[0007] Наконец, две последние работы относятся к генерации из текста в речь [4, 18]. Их назначение (обучение по нескольким кадрам генеративных моделей) и некоторые из компонентов (автономная сеть встраивания, тонкая настройка генератора) также используются в настоящем изобретении. Тем не менее, отличия настоящего изобретения заключаются по меньшей мере в области применения, использовании состязательного обучения, его специфической адаптации к процессу мета–обучения и многочисленных деталях реализации. Упомянутые отличия детально описаны ниже в разделе “Подробное описание изобретения”.[0007] Finally, the last two works relate to generation from text to speech [4, 18]. Their purpose (training on several frames of generative models) and some of the components (autonomous integration network, fine tuning of the generator) are also used in the present invention. Nevertheless, the differences of the present invention are at least in the field of application, the use of competitive training, its specific adaptation to the meta-learning process and numerous implementation details. These differences are described in detail below in the section “Detailed Description of the Invention”.

Краткое описание сущности изобретенияSUMMARY OF THE INVENTION

[0008] В настоящей заявке раскрыты способ, устройства и системы для создания моделей головы говорящей персоны из небольшого количества (“горстки”) фотоснимков (так называемое обучение по нескольким кадрам). Фактически, предложенная система может генерировать приемлемый результат на основе одного фотоснимка (обучение на одном кадре), хотя добавление несколько большего количества фотоснимков повышает точность персонализации. Подобно [16, 20, 37], “говорящие головы”, созданные моделью, раскрытой здесь, соответствуют глубоким ConvNets, которые синтезируют кадры видео прямым способом посредством последовательности операций свертки, а не посредством деформации. “Говорящие головы”, созданные системой, раскрытой в настоящем документе, могут, поэтому, обрабатывать большое разнообразие поз, что выходит за пределы возможностей систем, основанных на деформации.[0008] The present application discloses a method, device and system for creating models of the head of a speaking person from a small number (“handful") of photographs (the so-called multi-frame training ). In fact, the proposed system can generate an acceptable result based on a single photograph ( training on a single frame ), although adding a few more photographs increases the accuracy of personalization. Like [16, 20, 37], “talking heads” created by the model disclosed here correspond to deep ConvNets, which synthesize video frames in a direct way through a sequence of convolution operations, rather than through deformation. The “talking heads” created by the system disclosed herein can therefore handle a wide variety of postures that go beyond the capabilities of deformation based systems.

[0009] Способность обучения по нескольким кадрам получена посредством экстенсивного предварительного обучения (мета–обучения, meta-learning) на большом корпусе (совокупности) видео голов говорящих персон, соответствующих разным говорящим с различным внешнем видом. В ходе мета–обучения, предложенная система моделирует задачи обучения по нескольким кадрам и обучается трансформировать положения ориентиров в реалистично выглядящие персонализированные фотоснимки, при заданном небольшом обучающем наборе изображений данного человека. После этого небольшой набор фотоснимков нового человека ставит новую проблему состязательного обучения с высокопроизводительным генератором и дискриминатором, предварительно обученным посредством мета–обучения. Новая состязательная проблема конвергирует в состояние, которое генерирует реалистичные и персонализированные изображения после нескольких этапов обучения.[0009] The ability to learn in several frames was obtained through extensive preliminary training ( meta-learning, meta-learning ) on a large body (set) of videos of the heads of speaking people corresponding to different speakers with different appearance. During meta-training, the proposed system simulates learning tasks in several frames and learns to transform the positions of landmarks into realistic looking personalized photographs, given a small training set of images of a given person. After that, a small set of photographs of a new person poses a new problem of competitive training with a high-performance generator and discriminator, previously trained through meta-training. A new adversarial problem converts into a state that generates realistic and personalized images after several stages of training.

[0010] Архитектура предложенной системы заимствует многое из последних достижений в генеративном моделировании изображений. Так, архитектура, предложенная в настоящем документе, использует состязательное обучение и, более конкретно, идеи, лежащие в основе условных дискриминаторов, включая дискриминаторы проекции. Стадия мета–обучения использует адаптивный механизм нормализации экземпляра (образца), который проявил себя полезным в задачах крупномасштабной условной генерации. Таким образом, настоящее изобретение обеспечивает улучшенное качество синтезированных изображений и исключение эффекта зловещей долины из таких изображений.[0010] The architecture of the proposed system borrows much of the latest advances in generative image modeling. Thus, the architecture proposed in this document uses adversarial learning and, more specifically, the ideas underlying conditional discriminators, including projection discriminators. The meta-learning stage uses an adaptive mechanism to normalize an instance (sample), which has proved to be useful in large-scale conditional generation tasks. Thus, the present invention provides improved quality of synthesized images and eliminates the sinister valley effect from such images.

Краткое описание чертежейBrief Description of the Drawings

[Фиг. 1] Фиг. 1 иллюстрирует предложенную архитектуру мета–обучения в соответствии с вариантом осуществления настоящего изобретения.[FIG. 1] FIG. 1 illustrates a proposed meta-learning architecture in accordance with an embodiment of the present invention.

[Фиг. 2] Фиг. 2 иллюстрирует вариант осуществления способа синтезирования последовательности изображений головы говорящей персоны для произвольной персоны в соответствии с настоящим изобретением.[FIG. 2] FIG. 2 illustrates an embodiment of a method for synthesizing a sequence of images of the head of a talking person for an arbitrary person in accordance with the present invention.

[Фиг. 3] Фиг. 3 иллюстрирует вариант осуществления обучения по нескольким кадрам сети генератора в соответствии с настоящим изобретением.[FIG. 3] FIG. 3 illustrates an embodiment of training on multiple frames of a generator network in accordance with the present invention.

[Фиг. 4] Фиг. 4 иллюстрирует вариант осуществления мета–обучения сети генератора в соответствии с настоящим изобретением.[FIG. 4] FIG. 4 illustrates an embodiment of meta-training of a generator network in accordance with the present invention.

[Фиг. 5] Фиг. 5 иллюстрирует упрощенную структурную схему вычислительного устройства, которое способно выполнять способ синтезирования модели головы говорящей персоны для произвольной персоны в соответствии с вариантом осуществления настоящего изобретения.[FIG. 5] FIG. 5 illustrates a simplified block diagram of a computing device that is capable of performing a method for synthesizing a head model of a talking person for an arbitrary person in accordance with an embodiment of the present invention.

Детальное описание изобретенияDETAILED DESCRIPTION OF THE INVENTION

[0011] Архитектура и обозначение. Стадия мета–обучения предложенного способа предполагает доступность M последовательностей видео, содержащих изображения голов различных говорящих персон.

Figure 00000001
обозначает
Figure 00000002
–ую последовательность видео и
Figure 00000003
обозначает
Figure 00000004
–ый кадр видео упомянутой последовательности видео. Во время мета–обучения, а также во время тестирования, местоположения ориентиров лица предполагаются доступными для всех кадров (стандартный код совмещения лиц [7] может быть использован для получения местоположений ориентиров лица). Ориентиры растризованы (преобразованы в растровый формат) в трехканальные изображения (т.е. изображения ориентиров лица) с использованием предопределенного набора цветов, чтобы связывать определенные ориентиры с линейными сегментами.
Figure 00000005
обозначает полученное в результате изображение ориентиров лица, вычисленное для
Figure 00000003
.[0011]Architecture and designation.Stage meta-training of the proposed method involves accessibilityMvideo sequences containing images of the heads of various talking persons.
Figure 00000001
denotes
Figure 00000002
Sequence of video and
Figure 00000003
denotes
Figure 00000004
–– video frame of the mentioned video sequence. During meta-training, as well as during testing, the locations of landmarks are assumed to be accessible to all frames (the standard face registration code [7] can be used to obtain locations of landmarks). Landmarks are rasterized (converted to raster format) into three-channel images (i.e. face landmark images) using a predefined set of colors to associate certain landmarks with linear segments.
Figure 00000005
denotes the resulting face landmark image calculated for
Figure 00000003
.

[0012] Как показано на Фиг. 1, предложенная архитектура мета–обучения использует сеть встраивания (встраивателя, embedder) которая отображает изображения головы (с оцененными ориентирами лица) на векторы встраивания (эмбеддинга), которые содержат зависимую от позы информацию, сеть генератора, которая отображает входные ориентиры лица на выходные кадры через набор сверточных уровней, которые модулированы векторами встраивания через адаптивную нормализацию образца (AdaIN). Обычно, во время стадии мета–обучения, наборы кадров из того же самого видео пропускаются через сеть встраивателя, результирующие встраивания усредняются и используются, чтобы предсказывать адаптивные параметры сети генератора. Затем, ориентиры другого кадра пропускаются через сеть генератора, и сгенерированное изображение сравнивается контрольными (истинно верными) данными. Целевая функция включает в себя потери из–за восприятия (перцепционные) и состязательности, причем последнее реализуется через сеть дискриминатора условной проекции. Архитектура мета–обучения и соответствующие операции описаны ниже более детально.[0012] As shown in FIG. 1, the proposed meta-learning architecture uses an embedder network (which embeds the head images (with estimated face references) onto embedding vectors) that contain posture-dependent information, a generator network that maps face input landmarks to output frames through a set of convolutional levels that are modulated by embedding vectors through adaptive sample normalization (AdaIN). Usually, during the meta-learning stage, frames from the same video are passed through the embedder’s network, the resulting embeddings are averaged and used to predict the adaptive parameters of the generator network. Then, the landmarks of another frame are passed through the generator network, and the generated image is compared with control (true) data. The objective function includes losses due to perception (perceptual) and competition, the latter being realized through a discriminator projection network. The meta-learning architecture and related operations are described in more detail below.

[0013] Таким образом, на стадии мета–обучения предложенного способа, обучаются следующие три сети (совместно упоминаемые как состязательная сеть или генеративная состязательная сеть (GAN)) (см. Фиг. 1):[0013] Thus, at the meta-learning stage of the proposed method, the following three networks are trained (collectively referred to as adversarial network or generative adversarial network (GAN)) (see Fig. 1 ):

1. Встраиватель E(

Figure 00000006
). Встраиватель сконфигурирован, чтобы брать кадр видео
Figure 00000007
, ассоциированное изображение ориентиров лица
Figure 00000008
и отображать эти входы на N–мерный вектор встраивания
Figure 00000009
. Кадр видео
Figure 00000007
берется из обучающей последовательности, т.е. из множества M последовательностей видео, содержащих изображения голов говорящих персон, отличающихся от произвольной персоны, для которой позже должна быть синтезирована модель головы говорящей персоны. Здесь,
Figure 00000010
обозначает параметры встраивателя, которые обучаются во время стадии мета–обучения. В принципе, целью стадии мета–обучения для встраивателя E является обучение
Figure 00000011
таким образом, что N–мерный вектор встраивания
Figure 00000012
содержит специфическую для видео информацию (такую как идентичность человека), которая инвариантна к позе и мимике в конкретном кадре s. N–мерные вектора встраивания s, вычисленные встраивателем, обозначаются как
Figure 00000013
.1. Embedded E (
Figure 00000006
) Embedded configured to take video frame
Figure 00000007
, associated face landmark image
Figure 00000008
and map these inputs to the N-dimensional embed vector
Figure 00000009
. Video frame
Figure 00000007
taken from the training sequence, i.e. from the set of M video sequences containing images of the heads of speaking persons different from an arbitrary person, for which a model of the head of the speaking person should later be synthesized. Here,
Figure 00000010
denotes the parameters of the embedder that are trained during the meta-learning stage. In principle, the goal of the meta-learning stage for Embedded E is to teach
Figure 00000011
so that the N-dimensional embedding vector
Figure 00000012
contains video-specific information (such as a person’s identity) that is invariant to posture and facial expression in a particular frame s . N – dimensional embedment vectors s calculated by the embedder are denoted as
Figure 00000013
.

2. Генератор G(

Figure 00000014
). Генератор сконфигурирован, чтобы брать изображение ориентиров лица
Figure 00000005
для кадра видео
Figure 00000015
, не наблюдавшегося встраивателем E, и соответственно вычисленный N–мерный вектор встраивания
Figure 00000016
и генерировать синтезированный кадр видео
Figure 00000017
. Генератор G обучается максимизировать подобие между его выходами (т.е. синтезированными кадрами видео
Figure 00000018
) и соответствующими истинно верными кадрами. Все параметры генератора G разбиты на два набора: общие для человека параметры
Figure 00000019
и специфические для человека параметры
Figure 00000020
. Во время стадии мета–обучения, только общие для человека параметры
Figure 00000021
обучаются напрямую, в то время как специфические для человека параметры
Figure 00000020
предсказываются из N–мерного вектора встраивания
Figure 00000022
во время стадии тонкой настройки (которая подробно описана ниже) мета–обучения с использованием обучаемой матрицы проекции
Figure 00000023
:
Figure 00000024
.2. Generator G (
Figure 00000014
) The generator is configured to take facial landmarks
Figure 00000005
for frame video
Figure 00000015
, not observed by the embedder E, and, accordingly, the calculated N – dimensional embedding vector
Figure 00000016
and generate a synthesized video frame
Figure 00000017
. Generator G learns to maximize the similarity between its outputs (i.e. synthesized video frames
Figure 00000018
) and the corresponding truly faithful frames. All parameters of the generator G are divided into two sets: parameters common to humans
Figure 00000019
and human-specific parameters
Figure 00000020
. During the meta-training stage, only parameters common to humans
Figure 00000021
learn directly while human-specific parameters
Figure 00000020
predicted from the N-dimensional embedding vector
Figure 00000022
during the fine-tuning stage (which is described in detail below) of meta-training using a trained projection matrix
Figure 00000023
:
Figure 00000024
.

3. Дискриминатор D(

Figure 00000025
). Дискриминатор сконфигурирован, чтобы брать входной кадр видео
Figure 00000026
, ассоциированное изображение ориентиров лица
Figure 00000005
и индекс обучающей последовательности
Figure 00000002
и вычислять оценку реалистичности r (одиночный скаляр). Здесь,
Figure 00000027
обозначают параметры дискриминатора, которые обучаются во время стадии мета–обучения. Дискриминатор содержит часть V(
Figure 00000028
) сверточной сети (ConvNet), которая сконфигурирована, чтобы отображать входной кадр видео
Figure 00000026
и ассоциированное изображение ориентиров лица
Figure 00000005
на N–мерный вектор. Оценка реалистичности r затем вычисляется дискриминатором на основе упомянутого N–мерного вектора и параметров дискриминатора
Figure 00000029
. Оценка реалистичности r указывает, является ли входной кадр видео
Figure 00000015
реальным (т.е. не синтезированным) кадром видео
Figure 00000002
–ой последовательности видео, и соответствует ли входной кадр видео
Figure 00000026
ассоциированному изображению ориентиров лица
Figure 00000005
. Кадр видео
Figure 00000026
, который вводится в дискриминатор, может быть синтезированным кадром видео
Figure 00000017
; однако, тот факт, что входной кадр видео
Figure 00000017
является синтезированным, не известен дискриминатору. 3.Discriminator D(
Figure 00000025
) The discriminator is configured to take the input frame of the video
Figure 00000026
, associated face landmark image
Figure 00000005
and training sequence index
Figure 00000002
and calculate a realistic estimater(single scalar). Here,
Figure 00000027
denote the discriminator parameters that are trained during the meta-learning stage. The discriminator contains partV(
Figure 00000028
) a convolutional network (ConvNet) that is configured to display the input video frame
Figure 00000026
and associated face landmarks
Figure 00000005
on theN–measured vector. Realistic Ratingr then calculated by the discriminator based on the aboveN–dimensional vector and discriminator parameters
Figure 00000029
. Realistic Ratingrindicates whether the input frame of the video
Figure 00000015
real (i.e. not synthesized) video frame
Figure 00000002
–Th video sequence, and whether the input frame of the video matches
Figure 00000026
associated face landmarks
Figure 00000005
. Video frame
Figure 00000026
that is introduced into the discriminator may be a synthesized video frame
Figure 00000017
; however, the fact that the input frame of the video
Figure 00000017
is synthesized, not known to the discriminator.

[0014] Стадия мета–обучения. Во время стадии мета–обучения предложенного способа, параметры всех трех сетей обучаются состязательным способом. Это может осуществляться путем моделирования эпизодов K–кадрового обучения. K было равно 8 в экспериментах, выполненных авторами настоящего изобретения. Однако настоящее изобретение не должно быть ограничено вариантом осуществления, в котором K=8, поскольку K может выбираться специалистом в данной области техники, чтобы быть больше или меньше, чем 8, в зависимости от производительности аппаратных средств, используемых для стадии мета–обучения, или в зависимости от точности изображений, генерируемых мета–обучаемой GAN, и целей, для которых осуществляется мета–обучение такой GAN. В каждом эпизоде, обучающая последовательность видео

Figure 00000002
и одиночный истинно верный кадр видео
Figure 00000026
из этой последовательности выбираются случайным образом. В дополнение к
Figure 00000026
, дополнительные K кадров видео
Figure 00000030
выбираются из той же самой обучающей последовательности видео
Figure 00000002
. Затем, во встраивателе E, N–мерный вектор встраивания
Figure 00000013
вычисляется для обучающей последовательности видео
Figure 00000002
путем усреднения N–мерных векторов встраивания
Figure 00000031
, вычисленных для дополнительных K кадров видео следующим образом:[0014]Stage of meta-training. During the meta-learning stage of the proposed method, the parameters of all three networks are trained in an adversarial way. This can be done by modeling episodes.K–Framework training.K was equal to 8 in experiments performed by the authors of the present invention. However, the present invention should not be limited to an embodiment in whichK= 8 sinceKmay be selected by a person skilled in the art to be more or less than 8, depending on the performance of the hardware used for the meta-learning stage, or depending on the accuracy of the images generated by the meta-trained GAN, and the purposes for which meta-training of such a GAN. In each episode, a training video sequence
Figure 00000002
and single truly true frame video
Figure 00000026
from this sequence are randomly selected. In addition to
Figure 00000026
additionalKvideo frames
Figure 00000030
are selected from the same video training sequence
Figure 00000002
. Then, in the embedE, N – dimensional embedding vector
Figure 00000013
calculated for training video sequence
Figure 00000002
by averaging N – dimensional embedding vectors
Figure 00000031
calculated for additionalK video frames as follows:

Figure 00000032
(1)
Figure 00000032
(1)

[0015] Затем, в генераторе G, синтезированный кадр видео

Figure 00000017
(т.е. реконструкция
Figure 00000004
–го кадра) вычисляется на основе вычисленного N–мерного вектора встраивания
Figure 00000013
, т.е.:[0015] Then, in the generator G , the synthesized video frame
Figure 00000017
(i.e. reconstruction
Figure 00000004
–Th frame) is calculated based on the calculated N – dimensional embedding vector
Figure 00000013
i.e.:

Figure 00000033
(2)
Figure 00000033
(2)

Параметры модуля встраивания E и генератора G затем оптимизируются, чтобы минимизировать следующую целевую функцию, которая содержит член потерь содержимого

Figure 00000034
, состязательный член
Figure 00000035
и член соответствия встраивания
Figure 00000036
:The parameters of the embedder E and the generator G are then optimized to minimize the next objective function that contains the content loss term
Figure 00000034
adversarial member
Figure 00000035
and embed compliance member
Figure 00000036
:

Figure 00000037
(3)
Figure 00000037
(3)

В целевой функции (3), член потерь содержимого

Figure 00000034
измеряет различие между истинно верным кадром видео
Figure 00000026
и синтезированным кадром видео
Figure 00000038
с использованием меры перцепционного подобия. В качестве примера, может использоваться мера перцепционного сходства, которая соответствует сети VGG19, обучаемой для классификации ILSVRC, и сети VGGFace, обучаемой для верификации лица. Однако настоящее изобретение не должно быть ограничено таким примером меры перцепционного сходства, поскольку в нем могут быть использованы любые меры перцепционного сходства, известные из предшествующего уровня техники. Если сети VGG19 и VGGFace используются для получения меры перцепционного сходства, член потерь содержимого
Figure 00000034
может быть вычислен как взвешенная сумма потерь L 1 между признаками упомянутых сетей.In the objective function (3), the term content loss
Figure 00000034
measures the difference between a true true frame of video
Figure 00000026
and synthesized video frame
Figure 00000038
using measures of perceptual similarity. As an example, a measure of perceptual similarity can be used, which corresponds to the VGG19 network trained for ILSVRC classification and the VGGFace network trained for face verification. However, the present invention should not be limited to such an example of a measure of perceptual similarity, since any measures of perceptual similarity known from the prior art can be used in it. If the VGG19 and VGGFace networks are used to obtain a measure of perceptual similarity, a member of the content loss
Figure 00000034
can be calculated as the weighted sum of losses L 1 between the features of the mentioned networks.

[0016] Состязательный член

Figure 00000035
в целевой функции (3) соответствует оценке реалистичности r, вычисленной дискриминатором D, которая должна быть максимизирована, и члену соответствия признаков
Figure 00000039
, который по существу является мерой перцепционного подобия, вычисленному с использованием дискриминатора (это улучшает стабильность мета–обучения):[0016] Adversarial Member
Figure 00000035
in the objective function (3) corresponds to the estimate of the realism r calculated by the discriminator D , which should be maximized, and to the term of correspondence of attributes
Figure 00000039
, which is essentially a measure of perceptual similarity calculated using a discriminator (this improves meta-learning stability):

Figure 00000040
(4)
Figure 00000040
(4)

Следуя подходу дискриминатора проекции, столбцы матрицы

Figure 00000041
содержат N–мерные векторы встраивания, которые соответствуют индивидуальным видео. Дискриминатор D сначала отображает свои входы (т.е. входной кадр видео
Figure 00000026
, ассоциированное изображение ориентиров лица
Figure 00000005
и индекс обучающей последовательности
Figure 00000002
) на N–мерный вектор V(
Figure 00000028
) и затем вычисляет оценку реалистичности r следующим образом:Following the projection discriminator approach, the columns of the matrix
Figure 00000041
contain N-dimensional embedment vectors that correspond to individual videos. The discriminator D first displays its inputs (i.e., the input frame of the video
Figure 00000026
, associated face landmark image
Figure 00000005
and training sequence index
Figure 00000002
) on N is the dimensional vector V (
Figure 00000028
) and then computes a realistic estimate of r as follows:

Figure 00000042
(5)
Figure 00000042
(5)

где

Figure 00000043
обозначает
Figure 00000002
–ый столбец матрицы
Figure 00000041
. В то же время,
Figure 00000044
и
Figure 00000045
не зависят от индекса видео, так что эти члены соответствуют обобщенной реалистичности
Figure 00000046
и ее совместимости с изображением ориентиров лица
Figure 00000005
.Where
Figure 00000043
denotes
Figure 00000002
–Th column of the matrix
Figure 00000041
. In the same time,
Figure 00000044
and
Figure 00000045
independent of the video index, so these terms correspond to generalized realism
Figure 00000046
and its compatibility with face landmarks
Figure 00000005
.

[0017] Таким образом, имеется два типа N–мерных векторов встраивания в предложенной системе: одни, вычисленные встраивателем E, и другие, которые соответствуют столбцам матрицы

Figure 00000041
в дискриминаторе D. Член соответствия
Figure 00000047
в вышеуказанной целевой функции (3) стимулирует подобие двух типов N–мерных векторов встраивания путем штрафования L 1–разности между
Figure 00000048
и W i .[0017] Thus, there are two types of N-dimensional embedment vectors in the proposed system: one computed by the embedderE, and others that match the columns of the matrix
Figure 00000041
in discriminatorD. Compliance Member
Figure 00000047
in the above objective function (3) stimulates the similarity of two types of N-dimensional embedding vectors by fineL 1–Differences between
Figure 00000048
and W i .

[0018] Когда параметры

Figure 00000010
встраивателя E и параметры
Figure 00000021
генератора G обновляются, параметры
Figure 00000049
дискриминатора D также обновляются. Обновление приводится в действие минимизацией следующей целевой функции “потери шарнира” (hinge–loss) (6), что стимулирует увеличение оценки реалистичности r по реальным (т.е. нефальсифицированным) кадрам видео
Figure 00000026
и ее снижение по синтезированным (т.е. фальсифицированным) кадрам видео
Figure 00000038
:[0018] When the parameters
Figure 00000010
Embedded E and parameters
Figure 00000021
generator G are updated, parameters
Figure 00000049
discriminator D is also updated. The update is driven by minimizing the next target function “hinge-loss” (6), which stimulates an increase in the estimate of the realism r from real (i.e., falsified) video frames
Figure 00000026
and its decrease in synthesized (i.e., falsified) video frames
Figure 00000038
:

Figure 00000050
(6)
Figure 00000050
(6)

Целевая функция (6), таким образом, сравнивает реалистичность фальсифицированного образца

Figure 00000038
и реального образца
Figure 00000026
и затем обновляет параметры дискриминатора, чтобы сдвигать эти оценки ниже –1 и выше +1 соответственно. Мета–обучение продолжается попеременными обновлениями параметров встраивателя E и генератора G, которые минимизируют потери
Figure 00000034
,
Figure 00000035
и
Figure 00000036
, с обновлениями дискриминатора D, которые минимизируют потери
Figure 00000051
.The objective function (6) thus compares the realism of a falsified sample
Figure 00000038
and real sample
Figure 00000026
and then updates the discriminator parameters to shift these ratings below –1 and above +1, respectively. Meta-learning continues with alternate updates of the parameters of the embedded E and generator G , which minimize losses
Figure 00000034
,
Figure 00000035
and
Figure 00000036
, with discriminator D updates that minimize loss
Figure 00000051
.

[0019] Обучение по нескольким кадрам посредством тонкой настройки. После достижения конвергенции мета–обучения, предложенная система может дополнительно обучаться, чтобы синтезировать модели головы говорящей персоны для нового человека, не наблюдавшегося во время стадии мета–обучения. Как ранее, синтез кондиционируется на изображениях ориентиров лиц. Система обучается способом обучения по нескольким кадрам, в предположении, что задано T обучающих изображений x(1), x(2),…, x(T) (т.е. T кадров того же самого видео), и что y(1), y(2),…, y(T) являются соответствующими изображениями ориентиров лица. Отметим, что число T кадров не обязательно должно быть равно K, используемым на стадии мета–обучения. Предложенная система может генерировать приемлемый результат на основе одного фотоснимка (обучение на одном кадре, T=1), в то время как добавление еще нескольких фотоснимков (обучение по нескольким кадрам, T>1) увеличивает точность персонализации. Эксперименты, выполненные авторами настоящего изобретения, охватывают диапазон [1, 33] для T. Однако настоящее изобретение не должно быть ограничено вариантом осуществления, в котором T лежит в пределах диапазона [1, 33], поскольку T может выбираться специалистом в данной области техники, чтобы превышать этот диапазон, в зависимости от производительности аппаратных средств, используемых для обучения по нескольким кадрам, или в зависимости от точности изображений, генерируемых обучаемой по нескольким кадрам GAN (которая была предварительно мета–обучена, как описано выше), и целей, для достижения которых мета–обученная GAN обучается по нескольким кадрам (т.е. подвергается тонкой настройке).[0019]Multi-frame training through fine-tuning. After the convergence of meta-learning is achieved, the proposed system can be further trained to synthesize models of the head of a speaking person for a new person who was not observed during the meta-learning stage. As previously, synthesis is conditioned on landmark images. The system is trained in the way of training in several frames, assuming thatT training imagesx(1),x(2), ...,x(T) (i.e., T frames of the same video), and thaty(1),y(2), ...,y(T) are corresponding face landmark images. Note that the numberT frames do not have to be equalKused at the meta-learning stage. The proposed system can generate an acceptable result based on one photograph (single shot training, T= 1), while adding a few more photos (multi-training, T>1) increases the accuracy of personalization. The experiments performed by the authors of the present invention cover the range [1, 33] forT. However, the present invention should not be limited to an embodiment in whichT lies within the range [1, 33], sinceTcan be selected by a person skilled in the art to exceed this range, depending on the performance of the hardware used for training in multiple frames, or depending on the accuracy of the images generated by the student across multiple GAN frames (which was previously meta-trained as described above), and the goals for which the meta-trained GAN is trained in several frames (i.e., is subject to fine-tuning).

[0020] Предпочтительно, мета–обученный встраиватель E используется в текущей стадии обучения по нескольким кадрам, чтобы вычислить N–мерные векторы встраивания

Figure 00000052
для нового человека, для которого должна быть синтезирована модель головы говорящей персоны. Иными словами, вычисление
Figure 00000052
может выполняться в соответствии со следующим:[0020] Preferably, the meta-trained embedder E is used in the current learning stage in multiple frames to calculate the N-dimensional embedment vectors
Figure 00000052
for a new person for whom the model of the head of the talking person should be synthesized. In other words, the calculation
Figure 00000052
may be performed in accordance with the following:

Figure 00000053
(7)
Figure 00000053
(7)

повторно используя параметры

Figure 00000010
встраивателя E, ранее полученные на стадии мета–обучения. Простым способом генерировать новые синтезированные кадры, соответствующие новым изображениям ориентиров, является тогда применение генератора G, использующего вычисленный N–мерный вектор встраивания
Figure 00000052
и полученные мета–обучением параметры
Figure 00000021
генератора G, а также матрицы проекции P. Авторами настоящего изобретения установлено, что при таком выполнении синтезированные изображения головы говорящей персоны являются верными и реалистичными, однако часто имеется значительный пробел в идентичности, который является неприемлемым для большинства приложений, нацеленных на высокую степень персонализации.reusing parameters
Figure 00000010
Embedded E , previously obtained at the meta-learning stage. An easy way to generate new synthesized frames corresponding to new landmark images is then to use the generator G using the calculated N-dimensional embedding vector
Figure 00000052
and meta-learning parameters
Figure 00000021
generator G , as well as the projection matrix P. The authors of the present invention found that with this embodiment, the synthesized images of the head of a talking person are true and realistic, however, there is often a significant gap in identity, which is unacceptable for most applications aimed at a high degree of personalization.

[0021] Этот пробел в идентичности часто может быть перекрыт посредством стадии тонкой настройки, предложенной в настоящем документе. Процесс тонкой настройки может рассматриваться как упрощенная версия мета–обучения с единственной последовательностью видео и малым числом кадров. Процесс тонкой настройки включает в себя следующие компоненты:[0021] This gap in identity can often be closed by the fine-tuning step proposed herein. The fine-tuning process can be considered as a simplified version of meta-training with a single video sequence and a small number of frames. The fine-tuning process includes the following components:

1. Генератор G(

Figure 00000054
) теперь заменяется генератором G’( y
Figure 00000055
). Как ранее, генератор G’ сконфигурирован, чтобы получать изображение ориентиров лица y
Figure 00000056
и генерировать синтезированный кадр видео
Figure 00000057
. Важно, что специфические для человека параметры генератора, которые теперь обозначены как
Figure 00000058
, напрямую оптимизируются на стадии обучения по нескольким кадрам, вместе с общими для человека параметрами
Figure 00000021
. Вычисленные N–мерные векторы встраивания
Figure 00000052
и матрица проекции P, полученная на стадии мета–обучения, могут по–прежнему использоваться, чтобы инициализировать специфические для человека параметры генератора
Figure 00000058
, т.е.
Figure 00000059
. 1. Generator G (
Figure 00000054
) is now replaced by the generator G '( y
Figure 00000055
) As previously, the generator G ′ is configured to receive landmark images of the face y
Figure 00000056
and generate a synthesized video frame
Figure 00000057
. It is important that the human-specific parameters of the generator, which are now designated as
Figure 00000058
are directly optimized at the training stage for several frames, together with parameters common to humans
Figure 00000021
. Computed N-dimensional embedding vectors
Figure 00000052
and the projection matrix P obtained at the meta-learning stage can still be used to initialize human-specific generator parameters
Figure 00000058
, i.e.
Figure 00000059
.

2. Дискриминатор D’(

Figure 00000060
), как ранее на стадии мета–обучения, сконфигурирован, чтобы вычислять оценку реалистичности r. Параметры
Figure 00000061
части V(
Figure 00000062
) ConvNet дискриминатора D’ и смещение b инициализируются в те же самые параметры
Figure 00000061
, b, полученные на стадии мета–обучения. Инициализация
Figure 00000063
описана ниже.2. DiscriminatorD '(
Figure 00000060
), as previously in the meta-learning stage, is configured to calculate a realistic scorer. Parameters
Figure 00000061
partsV(
Figure 00000062
) ConvNet discriminatorD 'and offsetbinitialized to the same parameters
Figure 00000061
,bobtained at the stage of meta-learning. Initialization
Figure 00000063
described below.

[0022] Во время стадии тонкой настройки, оценку реалистичности r дискриминатора D’ получают аналогичным путем, как на стадии мета–обучения:[0022] During the fine-tuning stage, an estimate of the realism r of the discriminator D 'is obtained in the same way as in the meta-learning stage:

Figure 00000064
(8)
Figure 00000064
(8)

Как можно видеть из сравнения выражений (5) и (8), роль вектора

Figure 00000065
на стадии тонкой настройки является той же самой, что и роль вектора
Figure 00000066
на стадии мета–обучения. Для инициализации
Figure 00000065
на стадии обучения по нескольким кадрам, аналог
Figure 00000043
не доступен для нового человека (поскольку кадры видео этого человека не использовались в обучающем наборе данных мета–обучения). Однако член соответствия
Figure 00000067
в процессе мета–обучения гарантирует подобие между N–мерными векторами встраивания дискриминатора и N–мерными векторами встраивания, вычисленными встраивателем. Поэтому,
Figure 00000063
инициализируется на стадии обучения по нескольким кадрам в сумму w 0 и
Figure 00000052
.As can be seen from a comparison of expressions (5) and (8), the role of the vector
Figure 00000065
at the stage of fine tuning is the same as the role of the vector
Figure 00000066
at the meta-training stage. To initialize
Figure 00000065
at the training stage in several frames, analog
Figure 00000043
not available for a new person (since this person’s video frames were not used in the training meta-training data set). However member of compliance
Figure 00000067
in the process of meta-learning, it guarantees the similarity between the N-dimensional vectors of embedding the discriminator and the N-dimensional vectors of embedding calculated by the embedder. Therefore,
Figure 00000063
initialized at the training stage for several frames in the amount of w 0 and
Figure 00000052
.

[0023] После того как новая проблема обучения установлена, функции потерь стадии тонкой настройки непосредственно следуют из вариантов мета–обучения. Таким образом, специфические для человека параметры

Figure 00000058
и общие для человека параметры
Figure 00000021
генератора G’ оптимизируются, чтобы минимизировать упрощенную целевую функцию:[0023] Once a new learning problem has been identified, the loss functions of the fine-tuning stage directly follow from the meta-learning options. Thus, human-specific parameters
Figure 00000058
and parameters common to humans
Figure 00000021
generators G 'are optimized to minimize the simplified objective function:

Figure 00000068
(9)
Figure 00000068
(9)

где t ∈ {1…T} является номером примера обучения.where t ∈ {1 ... T } is the number of the training example.

[0024] Параметры дискриминатора

Figure 00000061
, w new, b оптимизируются путем минимизации той же самой функции hinge loss, что и в (6):[0024] Discriminator Parameters
Figure 00000061
, w new , b are optimized by minimizing the same hinge loss function as in (6):

Figure 00000069
(10)
Figure 00000069
(10)

[0025] В большинстве ситуаций, генератор тонкой настройки обеспечивает намного лучшее соответствие обучающей последовательности. Инициализация всех параметров через стадию мета–обучения является, таким образом, критической. Как выявлено в экспериментах, такая инициализация предварительно вводит высоко реалистичное изображение головы говорящей персоны, что позволяет раскрытой модели экстраполировать и предсказывать реалистичные изображения для поз (ориентаций) с изменяющимися ориентациями головы и выражениями лиц.[0025] In most situations, a fine tuning generator provides much better learning sequence compliance. The initialization of all parameters through the meta-learning stage is thus critical. As revealed in experiments, such initialization first introduces a highly realistic image of the head of a talking person, which allows the disclosed model to extrapolate and predict realistic images for poses (orientations) with changing head orientations and facial expressions.

[0026] Детали реализации и конкретные варианты осуществления. Сеть генератора G(

Figure 00000014
) может быть основана на архитектуре переноса изображения к изображению, предложенной Johnson et. al. [19], но слои понижающей дискретизации и повышающей дискретизации должны быть заменены остаточными блоками с нормализацией образца. Специфические для человека параметры
Figure 00000020
служат в качестве аффинных коэффициентов слоев нормализации образца, следуя методу адаптивной нормализации образца, известному в технике, хотя слои регулярной (неадаптивной) нормализации образца в блоках понижающей дискретизации, которые кодируют изображения ориентиров лица
Figure 00000005
, все еще используются.[0026] Implementation Details and specific embodiments. Generator Network G (
Figure 00000014
) may be based on the image-to-image transfer architecture proposed by Johnson et. al. [19], but the layers of downsampling and upsampling should be replaced by residual blocks with normalization of the sample. Human Specific Parameters
Figure 00000020
serve as the affine coefficients of the normalization layers of the sample, following the method of adaptive normalization of the sample known in the art, although layers of regular (non-adaptive) normalization of the sample in downsampling units that encode face landmark images
Figure 00000005
are still in use.

[0027] Для модуля встраивания E(

Figure 00000006
) и части V(
Figure 00000028
) ConvNet дискриминатора, могут использоваться подобные сети, которые состоят из остаточных блоков понижающей дискретизации (тех же, что и те, которые используются в генераторе, но без слоев нормализации). Сеть дискриминатора, по сравнению со встраивателем, имеет дополнительный остаточный блок на конце, который работает при пространственном разрешении 4×4. Чтобы получить векторизованные выходы в обеих сетях, может выполняться глобально суммарный опрос по пространственным размерностям с последующим выпрямленным линейным блоком (ReLU).[0027] For the integration module E (
Figure 00000006
) and part V (
Figure 00000028
) ConvNet discriminator, similar networks can be used, which consist of residual downsampling blocks (the same as those used in the generator, but without normalization layers). The discriminator network, in comparison with the embedder, has an additional residual block at the end, which operates at a spatial resolution of 4 × 4. To obtain vectorized outputs in both networks, a global survey of spatial dimensions can be performed globally followed by a rectified linear block (ReLU).

[0028] Спектральная нормализация может быть использована для всех сверточных и полностью связанных слоев во всех сетях. Блоки самообслуживания также используются. Они вставляются с пространственным разрешением 32×32 во всех частях понижающей дискретизации сетей и с разрешением 64×64 в части повышающей дискретизации генератора.[0028] Spectral normalization can be used for all convolutional and fully related layers in all networks. Self-service units are also used. They are inserted with a spatial resolution of 32 × 32 in all parts of the downsampling networks and with a resolution of 64 × 64 in terms of upsampling the generator.

[0029] Для вычисления

Figure 00000034
, потеря L 1 может оцениваться между активациями слоев Conv1,6,11,20,29 VGG19 и слоев Conv1,6,11,18,25 VGGFace для реалистичных и фальсифицированных изображений. Эти потери с весами равными 1⋅10–2 для VGG19 и 2⋅10–3 для членов VGGFace могут суммироваться. Могут использоваться Caffe–обученные версии для обеих из этих сетей. Для
Figure 00000039
, могут использоваться активации после каждого остаточного блока сети дискриминатора и веса равные 1⋅101. Наконец, для
Figure 00000036
вес устанавливается на 8⋅101.[0029] To calculate
Figure 00000034
, the loss of L 1 can be estimated between activations of the Conv1,6,11,20,29 VGG19 layers and the Conv1,6,11,18,25 VGGFace layers for realistic and falsified images. These losses with weights of 1–10 –2 for VGG19 and 2–10 –3 for VGGFace members can be added up. Caffe-trained versions for both of these networks can be used. For
Figure 00000039
, activations after each residual block of the discriminator network and weights of 1 × 10 1 can be used. Finally for
Figure 00000036
weight is set to 8⋅10 1 .

[0030] Минимальное число каналов в сверточных слоях может быть установлено на 64, и максимальное число каналов, а также размер N векторов встраивания могут быть установлены на 512. В итоге, встраиватель имеет 15 миллионов параметров, генератор имеет 38 миллионов параметров. Часть ConvNet дискриминатора имеет 20 миллионов параметров. Сети могут быть оптимизированы с использованием метода Adam. Скорость обучения сетей встраивателя и генератора могут быть установлены на 5×10–5 и на 2×10–4 для дискриминатора, таким образом, выполняя два шага обновления для последнего на один для первого. Настоящее изобретение не должно ограничиваться вышеописанными конкретными подходами, значениями и деталями, поскольку некоторые изменения и модификации в вышеописанных подходах, значениях и деталях будут очевидны для специалиста в данной области техники без приложения каких–либо творческих усилий. Таким образом, такие изменения и модификации считаются входящими в объем формулы изобретения.[0030] The minimum number of channels in the convolutional layers can be set to 64, and the maximum number of channels, as well as the size N of the embedding vectors can be set to 512. As a result, the embedder has 15 million parameters, the generator has 38 million parameters. The ConvNet discriminator part has 20 million parameters. Networks can be optimized using the Adam method. The learning speed of the embedded and generator networks can be set to 5 × 10 –5 and 2 × 10 –4 for the discriminator, thus performing two update steps for the latter to one for the first. The present invention should not be limited to the above specific approaches, meanings and details, since some changes and modifications to the above approaches, meanings and details will be apparent to a person skilled in the art without any creative effort. Thus, such changes and modifications are considered to be included in the scope of the claims.

Наилучший вариант осуществления вышеописанного способаThe best option for implementing the above method

[0031] Способ синтезирования последовательности изображений головы говорящей персоны для произвольной персоны с использованием сети генератора, сконфигурированной, чтобы отображать дескрипторы ориентации головы и мимики на одно или несколько изображений последовательности изображений головы говорящей персоны на вычислительном устройстве (20), обеспечен в соответствии с первым аспектом настоящего раскрытия. Способ содержит этапы выполнения (S105) обучения по нескольким кадрам сети генератора, мета–обученной (S100) на множестве M последовательностей видео, содержащих изображения головы говорящих персон, отличающихся от произвольной персоны, и синтезирования (S110) последовательности изображений головы говорящей персоны для упомянутой персоны с использованием тонко настроенной сети генератора и ранее не наблюдавшейся последовательности дескрипторов ориентации головы и мимики,

Figure 00000070
. См. Фиг. 2.[0031] A method for synthesizing a sequence of images of the head of a talking person for an arbitrary person using a generator network configured to map head orientation descriptors and facial expressions to one or more images of a sequence of images of the head of a talking person on a computing device (20) is provided in accordance with the first aspect of the present disclosure. The method comprises the steps of executing (S105) training on several frames of a generator network meta-trained (S100) on a plurality of M video sequences containing images of the heads of talking persons other than an arbitrary person, and synthesizing (S110) a sequence of images of the heads of the talking person for said person using a finely tuned generator network and a previously unseen sequence of head orientation and facial expressions descriptors,
Figure 00000070
. See FIG. 2 .

[0032] Этап выполнения (S105) обучения по нескольким кадрам сети генератора, мета–обученной (S100) на множестве M последовательностей видео, содержащих изображения головы говорящих персон, отличающихся от произвольной персоны, содержит подэтапы: приема (S105.1) по меньшей мере одного кадра видео

Figure 00000071
из единственной последовательности кадров упомянутой персоны, для которой должна быть синтезирована последовательность изображений головы говорящей персоны; оценивания (S105.2) дескрипторов ориентации головы и мимики
Figure 00000072
для по меньшей мере одного кадра видео
Figure 00000071
; вычисления (S105.3) N–мерного вектора встраивания
Figure 00000073
, характеризующего специфическую для персоны информацию, на основе по меньшей мере одного кадра видео
Figure 00000071
с использованием мета–обученной сети встраивателя; реализации (создания экземпляра) (S105.4) сети генератора на основе набора параметров мета–обученной сети генератора и N–мерного вектора встраивания
Figure 00000074
’; и тонкой настройки (S105.5) параметров сети генератора, чтобы соответствовать по меньшей мере одному кадру видео
Figure 00000071
, когда сеть генератора обеспечивается дескрипторами ориентации головы и мимики
Figure 00000072
. Набор параметров мета–обученной сети генератора является входом на этап (S105), а набор параметров тонко настроенной сети генератора является выходом этапа (S105). См. Фиг. 3.[0032] The step of performing (S105) training on several frames of a generator network meta-trained (S100) on the setMvideo sequences containing images of the heads of talking people different from an arbitrary person, contains sub-steps: receiving (S105.1) at least one frame of the video
Figure 00000071
from a single sequence of frames of the said person for which a sequence of images of the head of the talking person should be synthesized; evaluating (S105.2) descriptors of head orientation and facial expressions
Figure 00000072
for at least one frame of video
Figure 00000071
; computing (S105.3) the N-dimensional embedding vector
Figure 00000073
characterizing information specific to a person, based on at least one frame of video
Figure 00000071
using the meta-trained network of the embedder; implementation (creating an instance) (S105.4) of the generator network based on a set of parameters of the meta-trained generator network and the N-dimensional embedding vector
Figure 00000074
’; and fine-tuning (S105.5) parameters of the generator network to correspond to at least one video frame
Figure 00000071
when the generator network is provided with heading descriptors and facial expressions
Figure 00000072
. The parameter set of the meta-trained generator network is the input to step (S105), and the parameter set of the finely tuned generator network is the output of the step (S105). Cm.FIG. 3.

[0033] Дескрипторы ориентации головы и мимики

Figure 00000072
и
Figure 00000070
могут содержать, но без ограничения, ориентиры лица. Дескрипторы ориентации головы и мимики
Figure 00000075
используются вместе с по меньшей мере одним кадром видео
Figure 00000071
, чтобы вычислять N–мерный вектор встраивания
Figure 00000076
.[0033] Descriptors of orientation of the head and facial expressions
Figure 00000072
and
Figure 00000070
may include, but are not limited to, landmarks of the face. Descriptors of orientation of the head and facial expressions
Figure 00000075
used together with at least one frame of video
Figure 00000071
to calculate the N-dimensional embedment vector
Figure 00000076
.

[0034] Мета–обучение сети генератора и сети встраивателя выполняется в эпизодах K–кадрового обучения, где K является предопределенным целым числом, и каждый из эпизодов содержит этапы: приема (S100.1) по меньшей мере одного кадра видео

Figure 00000077
из одной последовательности видео из множества M последовательностей видео, содержащих изображения головы говорящих персон, отличающихся от произвольной персоны; оценивания (S100.2) дескрипторов ориентации головы и мимики
Figure 00000078
для по меньшей мере одного кадра видео
Figure 00000077
; вычисления (S100.3) N–мерного вектора встраивания
Figure 00000073
, характеризующего специфическую для персоны информацию, на основе по меньшей мере одного кадра видео
Figure 00000077
; реализации (S100.4) сети генератора на основе текущего набора параметров сети генератора и N–мерного вектора встраивания
Figure 00000074
; и обновления (S100.5) набора параметров сети генератора и набора параметров сети встраивателя на основе соответствия между выходом сети генератора для оцененных дескрипторов ориентации головы и мимики
Figure 00000078
и последовательности из по меньшей мере одного кадра видео
Figure 00000077
. См. Фиг. 4.[0034] Meta-training of the generator network and the embedded network is performed in episodesK–Framework whereK is a predefined integer, and each of the episodes comprises the steps of: receiving (S100.1) at least one frame of a video
Figure 00000077
from one sequence of video from manyMvideo sequences containing images of the heads of speaking persons different from an arbitrary person; evaluating (S100.2) heading descriptors and facial expressions
Figure 00000078
for at least one frame of video
Figure 00000077
; computing (S100.3) the N-dimensional embedding vector
Figure 00000073
characterizing information specific to a person, based on at least one frame of video
Figure 00000077
; implementations (S100.4) of the generator network based on the current set of generator network parameters and the N-dimensional embedment vector
Figure 00000074
; and updates (S100.5) of the generator network parameter set and the embedder network parameter set based on the correspondence between the generator network output for the estimated descriptors of head orientation and facial expressions
Figure 00000078
and sequences of at least one frame of video
Figure 00000077
. See FIG. 4.

[0035] Сеть генератора и сеть встраивателя могут представлять собой традиционные сверточные сети. Во время этапов реализации (S105.4, S100.4), коэффициенты нормализации в реализованной сети генератора вычисляются на основе N–мерных векторов встраивания, вычисленных сетью встраивателя. Сеть дискриминатора мета–обучается вместе с сетью генератора и сетью встраивателя, причем способ дополнительно содержит этап: вычисления с использованием сети дискриминатора оценки реалистичности r выхода сети генератора, и обновления параметров сети генератора и сети встраивателя на основе оценки реалистичности r ; обновления параметров сети дискриминатора, чтобы увеличить оценку реалистичности r по кадрам видео из множества M последовательностей видео и уменьшить оценку реалистичности r по выходу (т.е. синтезированному изображению) сети генератора.[0035] The generator network and the embedder network may be conventional convolutional networks. During the implementation steps (S105.4, S100.4), the normalization coefficients in the implemented generator network are calculated based on the N-dimensional embedding vectors calculated by the embedder network. The meta-discriminator network is trained together with the generator network and the embedder’s network, the method further comprising the step of: calculating, using the discriminator’s network, estimates of the realism r of the generator network output, and updating the generator network and the embedder’s parameters based on the realisticness r ; updating the discriminator network parameters in order to increase the realistic estimate of r by video frames from the set of M video sequences and reduce the realistic estimate of r by the output (i.e., the synthesized image) of the generator network.

[0036] Сеть дискриминатора представляет собой сеть дискриминатора проекции, которая сконфигурирована, чтобы вычислять оценку реалистичности r выхода сети генератора с использованием N–мерного вектора встраивания w, отличающегося от N–мерного вектора встраивания

Figure 00000074
, который обучается для каждой из последовательностей видео во множестве M последовательностей видео. Различия между N–мерным вектором встраивания
Figure 00000074
и N–мерным вектором встраивания w штрафуются во время мета–обучения (S100), дискриминатор проекции используется во время стадии тонкой настройки (S105), и N–мерный вектор встраивания w дискриминатора проекции инициализируется в N–мерный вектор встраивания
Figure 00000074
’ в начале тонкой настройки.[0036] The discriminator network is a projection discriminator network that is configured to calculate an estimate of the realisticness r of the output of the generator network using an N-dimensional embedding vector w different from the N-dimensional embedding vector
Figure 00000074
that is trained for each of the video sequences in a plurality of M video sequences. Differences between the N-dimensional embedding vector
Figure 00000074
and the N-dimensional embedment vector w are fined during meta-training (S100), the projection discriminator is used during the fine-tuning stage (S105), and the N-dimensional embedment vector w of the projection discriminator is initialized to the N-dimensional embedment vector
Figure 00000074
'at the beginning of fine tuning.

[0037] Вычислительное устройства (20) обеспечено в соответствии с вторым аспектом настоящего раскрытия. Все этапы вышеописанного способа могут выполняться вычислительным устройством (20), проиллюстрированным на Фиг. 5. Вычислительное устройство (20) содержит процессор (20.1) и память (20.3). Память (20.3) сконфигурирована, чтобы хранить исполняемые компьютером инструкции, которые, при исполнении процессором (20.1) вычислительного устройства, побуждают процессор выполнять раскрытый способ синтезирования модели головы говорящей персоны для произвольной персоны с использованием сети генератора. Опционально, вычислительное устройство (20) может содержать камеру (20.2), сконфигурированную, чтобы захватывать видео или одиночный кадр человека, для которого должна быть синтезирована модель головы говорящей персоны. Вычислительное устройство (20) может представлять собой смартфон, планшет, PC, ноутбук или любое другое пользовательское вычислительное устройство такое как, например, AR–очки, VR–очки, смарт–часы и т.п. Процессор (20.1) вычислительного устройства (20) может представлять собой любое вычислительное средство, включая, но без ограничения, специализированную интегральную схему (ASIC), программируемую пользователем вентильную матрицу (FPGA) или систему на кристалле (SoC). Любые типы данных могут обрабатываться предложенными способами, устройствами и системами.[0037] Computing device (20) is provided in accordance with a second aspect of the present disclosure. All steps of the above method can be performed by the computing device (20) illustrated in FIG. 5 . The computing device (20) comprises a processor (20.1) and a memory (20.3). The memory (20.3) is configured to store computer-executable instructions that, when executed by the processor (20.1) of the computing device, cause the processor to perform the disclosed method of synthesizing a model of the head of a talking person for an arbitrary person using a generator network. Optionally, the computing device (20) may comprise a camera (20.2) configured to capture a video or a single frame of a person for whom a model of the head of the talking person should be synthesized. Computing device (20) can be a smartphone, tablet, PC, laptop, or any other user computing device such as, for example, AR glasses, VR glasses, smart watches, etc. The processor (20.1) of the computing device (20) can be any computing tool, including, but not limited to, a specialized integrated circuit (ASIC), a user-programmable gate array (FPGA), or a system on a chip (SoC). Any data types can be processed by the proposed methods, devices and systems.

[0038] Различные способы, устройства и системы, обеспечивающие фотореалистичные аватары, могут быть практически осуществлены на основе вышеизложенного раскрытия. Дополнительно, различные способы, устройства и системы для обучения по нескольким кадрам реалистичных нейронных моделей голов говорящей персоны и/или использования обученных таким образом моделей/сетей для обеспечения фотореалистичных аватаров могут быть созданы на основе вышеизложенного раскрытия. Варианты осуществления раскрытия также могут быть реализованы как не–переходный (не–временный) машиночитаемый носитель, переносящий исполняемые компьютером инструкции, которые, при исполнении блоком обработки устройства, побуждают блок обработки выполнять раскрытый способ синтезирования модели головы говорящей персоны для произвольной персоны с использованием состязательной сети.[0038] Various methods, devices, and systems providing photorealistic avatars can be practiced based on the foregoing disclosure. Additionally, various methods, devices and systems for training in several frames of realistic neural models of the heads of a talking person and / or using the models / networks thus trained to provide photorealistic avatars can be created based on the foregoing disclosure. Embodiments of the disclosure may also be implemented as a non-transitional (non-temporary) computer-readable medium transferring computer-executable instructions that, when executed by a processing unit of a device, cause the processing unit to perform the disclosed method of synthesizing a model of the head of a speaking person for an arbitrary person using an adversarial network .

[0039] Предложенный способ также может быть реализован как система для синтезирования модели головы говорящей персоны для произвольной персоны с использованием состязательной сети. В такой системе, конкретные этапы способа могут быть реализованы как различные функциональные блоки, схемы и/или процессоры. Однако должно быть очевидно, что любое подходящее распределение функциональности между различными функциональными блоками, схемами и/или процессорами может быть использовано без отклонения от описанных вариантов осуществления. [0039] The proposed method can also be implemented as a system for synthesizing a model of the head of a talking person for an arbitrary person using an adversarial network. In such a system, the specific steps of the method can be implemented as various functional blocks, circuits, and / or processors. However, it should be obvious that any suitable distribution of functionality between different functional blocks, circuits, and / or processors can be used without deviating from the described embodiments.

[0040] Варианты осуществления могут быть реализованы в любой подходящей форме, включая аппаратные средства, программное обеспечение, встроенное программное обеспечение или любую их комбинацию. Варианты осуществления опционально могут быть реализованы, по меньшей мере частично, как компьютерное программное обеспечение, исполняющееся на одном или нескольких процессорах данных и/или процессорах цифровых сигналов. Элементы и компоненты любого варианта осуществления могут быть физически, функционально или логически реализованы любым подходящим способом. Фактически, функциональность может быть реализована в одном блоке, во множестве блоков или как часть других блоков общего назначения.[0040] Embodiments may be implemented in any suitable form, including hardware, software, firmware, or any combination thereof. Embodiments may optionally be implemented, at least in part, as computer software running on one or more data processors and / or digital signal processors. Elements and components of any embodiment may be physically, functionally, or logically implemented in any suitable manner. In fact, functionality can be implemented in one unit, in multiple units, or as part of other general purpose units.

[0041] Предшествующие описания вариантов осуществления изобретения являются иллюстративными, и предполагается, что модификации в конфигурации и реализации будут входить в объем формулы изобретения. Например, в то время как варианты осуществления изобретения в основном описаны по отношению к этапам способа, эти описания являются иллюстративными. Хотя заявленный предмет описан в терминах, специфических для структурных признаков и методологических действий, должно быть понятно, что заявленный предмет, определенный в приложенной формуле изобретения, не обязательно ограничен конкретными признаками или действиями, описанными выше. Скорее, конкретные признаки и действия, описанные выше, раскрыты как примерные формы реализации пунктов формулы изобретения. Более того, изобретение не ограничено иллюстрируемым порядком этапов способа, порядок может быть модифицирован специалистом в данной области техники без приложения творческих усилий. Некоторые или все из этапов способа могут выполняться последовательно или одновременно. Соответственно, подразумевается, что объем варианта осуществления изобретения должен быть ограничен только следующей формулой изобретения.[0041] The preceding descriptions of embodiments of the invention are illustrative, and modifications to the configuration and implementation are intended to be included within the scope of the claims. For example, while embodiments of the invention are mainly described with respect to process steps, these descriptions are illustrative. Although the claimed subject matter is described in terms specific to structural features and methodological actions, it should be understood that the claimed subject matter as defined in the appended claims is not necessarily limited to the specific features or actions described above. Rather, the specific features and acts described above are disclosed as exemplary forms of implementing the claims. Moreover, the invention is not limited to the illustrated order of the steps of the method, the order can be modified by a person skilled in the art without the application of creative efforts. Some or all of the steps of the method may be performed sequentially or simultaneously. Accordingly, it is understood that the scope of an embodiment of the invention should be limited only by the following claims.

Claims (24)

1. Способ синтезирования последовательности изображений головы говорящей персоны для произвольной персоны с использованием сети генератора, сконфигурированной, чтобы отображать дескрипторы ориентации головы и мимики на одно или несколько изображений последовательности изображений головы говорящей персоны на вычислительном устройстве (20), причем способ содержит этапы:1. A method of synthesizing a sequence of images of the head of a talking person for an arbitrary person using a generator network configured to map head orientation descriptors and facial expressions to one or more images of a sequence of images of a head of a talking person on a computing device (20), the method comprising the steps of: выполнения обучения по нескольким кадрам (S105) сети генератора, мета–обученной (S100) на множестве M последовательностей видео, содержащих изображения голов говорящих персон, отличающихся от упомянутой произвольной персоны, посредством:performing training on several frames (S105) of the generator network, meta-trained (S100) on the set M of video sequences containing images of the heads of talking persons different from the said arbitrary person, by: приема (S105.1) по меньшей мере одного кадра
Figure 00000079
видео из единственной последовательности кадров упомянутой персоны, для которой должна быть синтезирована последовательность изображений головы говорящей персоны;
receiving (S105.1) at least one frame
Figure 00000079
video from a single sequence of frames of the said person for which a sequence of images of the head of the talking person should be synthesized;
оценивания (S105.2) дескрипторов
Figure 00000080
ориентации головы и мимики для по меньшей мере одного кадра
Figure 00000079
видео;
evaluating (S105.2) descriptors
Figure 00000080
head orientation and facial expressions for at least one frame
Figure 00000079
video;
вычисления (S105.3) N–мерного вектора
Figure 00000081
встраивания, характеризующего специфическую для персоны информацию, на основе по меньшей мере одного кадра
Figure 00000079
видео с использованием мета–обученной сети встраивателя; и
calculation (S105.3)N–Dimensional vector
Figure 00000081
embedding characterizing information specific to a person, based on at least one frame
Figure 00000079
video using the meta-trained network of the embedder; and
реализации (S105.4) сети генератора на основе набора параметров мета–обученной сети генератора и N–мерного вектора
Figure 00000082
встраивания; и
implementations (S105.4) of a generator network based on a set of parameters of a meta-trained generator network and an N- dimensional vector
Figure 00000082
embedding; and
тонкой настройки (S105.5) параметров сети генератора, чтобы соответствовать по меньшей мере одному кадру
Figure 00000079
видео, когда сеть генератора обеспечивается дескрипторами
Figure 00000080
ориентации головы и мимики;
fine-tuning (S105.5) parameters of the generator network to correspond to at least one frame
Figure 00000079
video when the generator network is provided by descriptors
Figure 00000080
head orientation and facial expressions;
синтезирования (S110) последовательности изображений головы говорящей персоны для упомянутой персоны с использованием тонко настроенной сети генератора и ранее не наблюдавшейся последовательности дескрипторов
Figure 00000083
ориентации головы и мимики.
synthesizing (S110) a sequence of images of the head of a talking person for said person using a finely tuned generator network and a previously not observed sequence of descriptors
Figure 00000083
orientation of the head and facial expressions.
2. Способ по п. 1, причем дескрипторы
Figure 00000080
и
Figure 00000083
ориентации головы и мимики содержат изображения ориентиров лица.
2. The method according to claim 1, wherein the descriptors
Figure 00000080
and
Figure 00000083
head orientations and facial expressions contain landmark images of the face.
3. Способ по п. 1, причем дескрипторы
Figure 00000084
ориентации головы и мимики используются вместе с по меньшей мере одним кадром
Figure 00000079
видео, чтобы вычислять N–мерный вектор
Figure 00000085
встраивания.
3. The method of claim 1, wherein the descriptors
Figure 00000084
 head orientations and facial expressions are used together with at least one frame
Figure 00000079
 video to calculateN–Dimensional vector
Figure 00000085
 embedding.
4. Способ по п. 1, причем мета–обучение сети генератора и сети встраивателя выполняется в эпизодах K–кадрового обучения, причем K является предопределенным целым числом, и каждый из эпизодов содержит этапы:4. The method according to claim 1, wherein the meta-training of the generator network and the embedded network is performed in episodes of K- frame training, K being a predetermined integer, and each of the episodes contains the steps: приема (S100.1) по меньшей мере одного кадра
Figure 00000086
видео из одной последовательности видео из множества M последовательностей видео, содержащих изображения голов говорящих персон, отличающихся от упомянутой произвольной персоны;
receiving (S100.1) at least one frame
Figure 00000086
video from a single video sequence from a plurality of M video sequences containing images of the heads of speaking persons different from said arbitrary person;
оценивания (S100.2) дескрипторов
Figure 00000087
ориентации головы и мимики для по меньшей мере одного кадра
Figure 00000086
видео;
evaluating (S100.2) descriptors
Figure 00000087
head orientation and facial expressions for at least one frame
Figure 00000086
video;
вычисления (S100.3) N–мерного вектора
Figure 00000085
встраивания, характеризующего специфическую для персоны информацию, на основе по меньшей мере одного кадра
Figure 00000086
видео;
calculation (S100.3)N–Dimensional vector
Figure 00000085
 embedding characterizing information specific to a person, based on at least one frame
Figure 00000086
 video;
реализации (S100.4) сети генератора на основе текущего набора параметров сети генератора и N–мерного вектора
Figure 00000082
встраивания; и
implementations (S100.4) of the generator network based on the current set of generator network parameters and the N- dimensional vector
Figure 00000082
embedding; and
обновления (S100.5) набора параметров сети генератора и набора параметров сети встраивателя на основе соответствия между выходом сети генератора для оцененных дескрипторов
Figure 00000087
ориентации головы и мимики и последовательности из по меньшей мере одного кадра
Figure 00000086
видео.
updating (S100.5) the generator network parameter set and the embedder network parameter set based on the correspondence between the generator network output for the estimated descriptors
Figure 00000087
head orientation and facial expressions and sequences of at least one frame
Figure 00000086
video.
5. Способ по любому из пп. 1–4, причем сеть генератора и сеть встраивателя представляют собой сверточные сети, причем во время этапов реализации (S105.4, S100.4) коэффициенты нормализации в пределах реализованной сети генератора вычисляются на основе N–мерных векторов встраивания, вычисленных сетью встраивания.5. The method according to any one of paragraphs. 1–4, wherein the generator network and the embedder’s network are convolutional networks, and during the implementation stages (S105.4, S100.4), the normalization coefficients within the implemented generator network are calculated based on N- dimensional embedding vectors calculated by the embedding network. 6. Способ по п. 4, причем сеть дискриминатора мета–обучается вместе с сетью генератора и сетью встраивания, причем способ дополнительно содержит этапы:6. The method according to claim 4, wherein the meta-discriminator network is trained together with the generator network and the embed network, the method further comprising the steps of: вычисления с использованием сети дискриминатора оценки r реалистичности выхода сети генератора; и computing, using a discriminator network, estimates of the r realistic output of the generator network; and обновления параметров сети генератора и сети встраивателя на основе оценки r реалистичности;updating the parameters of the generator network and the embedded network based on an assessment of r realism; обновления параметров сети дискриминатора, чтобы увеличить оценку r реалистичности по кадрам видео из множества M последовательностей видео и уменьшить оценку r реалистичности по выходу сети генератора.updating the discriminator network parameters in order to increase the estimate of r realism by video frames from the set of M video sequences and reduce the estimate of r realism by the output of the generator network. 7. Способ по п. 6, причем сеть дискриминатора представляет собой сеть дискриминатора проекции, сконфигурированную, чтобы оценивать оценку r реалистичности выхода сети генератора с использованием N–мерного вектора w встраивания, отличающегося от N–мерного вектора
Figure 00000082
встраивания, которым выполнено обучение для каждой из последовательностей видео во множестве M последовательностей видео.
7. The method of claim. 6, the discriminator network is a network discriminator projection configured to estimate r realistic estimate generator output network using the N -dimensional vector w embedding different from N -dimensional vectors
Figure 00000082
embeddings that have been trained for each of the video sequences in a plurality of M video sequences.
8. Способ по п. 7, причем различия между N–мерным вектором
Figure 00000082
встраивания и N–мерным вектором w встраивания штрафуются во время мета–обучения (S100), дискриминатор проекции используется во время стадии точной настройки (S105), и N–мерный вектор w встраивания дискриминатора проекции инициализируется в N–мерный вектор
Figure 00000082
встраивания в начале тонкой настройки.
8. The method according to p. 7, the differences between the N- dimensional vector
Figure 00000082
embedding and an N- dimensional embedding vector w are fined during meta-training (S100), the projection discriminator is used during the fine-tuning step (S105), and the N- dimensional embedding vector of the projection discriminator w is initialized to the N- dimensional vector
Figure 00000082
embedding at the beginning of fine tuning.
9. Вычислительное устройство (20), содержащее память (20.3), хранящую исполняемые компьютером инструкции, которые, при исполнении процессором (20.1) вычислительного устройства, побуждают процессор выполнять способ синтезирования последовательности изображений головы говорящей персоны для произвольной персоны с использованием сети генератора в соответствии с любым одним из пп. 1–8.9. A computing device (20) containing memory (20.3) storing computer-executable instructions that, when executed by the processor (20.1) of the computing device, cause the processor to perform a method of synthesizing a sequence of images of the head of a talking person for an arbitrary person using a generator network in accordance with any one of paragraphs. 1-8.
RU2019125940A 2019-03-21 2019-08-16 Multi-frame training of realistic neural models of speakers heads RU2720361C1 (en)

Priority Applications (7)

Application Number Priority Date Filing Date Title
RU2019125940A RU2720361C1 (en) 2019-08-16 2019-08-16 Multi-frame training of realistic neural models of speakers heads
KR1020200011360A KR20200112647A (en) 2019-03-21 2020-01-30 Electronic device and controlling method thereof
US16/823,752 US11568645B2 (en) 2019-03-21 2020-03-19 Electronic device and controlling method thereof
CN202080019713.6A CN113544706A (en) 2019-03-21 2020-03-20 Electronic device and control method thereof
EP20773074.8A EP3874415A4 (en) 2019-03-21 2020-03-20 Electronic device and controlling method thereof
PCT/KR2020/003852 WO2020190083A1 (en) 2019-03-21 2020-03-20 Electronic device and controlling method thereof
US18/102,161 US20230169349A1 (en) 2019-03-21 2023-01-27 Electronic device and controlling method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2019125940A RU2720361C1 (en) 2019-08-16 2019-08-16 Multi-frame training of realistic neural models of speakers heads

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
RU2019108227 Substitution 2019-03-21 2019-03-21

Publications (1)

Publication Number Publication Date
RU2720361C1 true RU2720361C1 (en) 2020-04-29

Family

ID=70553112

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2019125940A RU2720361C1 (en) 2019-03-21 2019-08-16 Multi-frame training of realistic neural models of speakers heads

Country Status (1)

Country Link
RU (1) RU2720361C1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11551394B2 (en) 2020-07-30 2023-01-10 Tata Consultancy Services Limited Audio-speech driven animated talking face generation using a cascaded generative adversarial network
RU2813485C1 (en) * 2023-03-29 2024-02-12 Самсунг Электроникс Ко., Лтд. Method of creating full-length animated avatar of person from one image of person, computing device and machine-readable medium for implementation thereof

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000123192A (en) * 1998-10-09 2000-04-28 Mitsubishi Electric Inf Technol Center America Inc Face animation generating method
RU2004126185A (en) * 2003-08-29 2006-02-10 Самсунг Электроникс Ко.,Лтд (Kr) METHOD AND DEVICE FOR PHOTO-REALISTIC THREE-DIMENSIONAL MODELING OF FACE ON THE BASIS OF THE IMAGE
US20060192785A1 (en) * 2000-08-30 2006-08-31 Microsoft Corporation Methods and systems for animating facial features, and methods and systems for expression transformation
CN102568023A (en) * 2010-11-19 2012-07-11 微软公司 Real-time animation for an expressive avatar
US20180174348A1 (en) * 2016-06-23 2018-06-21 LoomAi, Inc. Systems and Methods for Animating Models from Audio Data

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000123192A (en) * 1998-10-09 2000-04-28 Mitsubishi Electric Inf Technol Center America Inc Face animation generating method
US20060192785A1 (en) * 2000-08-30 2006-08-31 Microsoft Corporation Methods and systems for animating facial features, and methods and systems for expression transformation
RU2004126185A (en) * 2003-08-29 2006-02-10 Самсунг Электроникс Ко.,Лтд (Kr) METHOD AND DEVICE FOR PHOTO-REALISTIC THREE-DIMENSIONAL MODELING OF FACE ON THE BASIS OF THE IMAGE
CN102568023A (en) * 2010-11-19 2012-07-11 微软公司 Real-time animation for an expressive avatar
US20180174348A1 (en) * 2016-06-23 2018-06-21 LoomAi, Inc. Systems and Methods for Animating Models from Audio Data

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11551394B2 (en) 2020-07-30 2023-01-10 Tata Consultancy Services Limited Audio-speech driven animated talking face generation using a cascaded generative adversarial network
RU2813485C1 (en) * 2023-03-29 2024-02-12 Самсунг Электроникс Ко., Лтд. Method of creating full-length animated avatar of person from one image of person, computing device and machine-readable medium for implementation thereof

Similar Documents

Publication Publication Date Title
Egger et al. 3d morphable face models—past, present, and future
US11775829B2 (en) Generative adversarial neural network assisted video reconstruction
Lu et al. Attribute-guided face generation using conditional cyclegan
Zakharov et al. Few-shot adversarial learning of realistic neural talking head models
US11610435B2 (en) Generative adversarial neural network assisted video compression and broadcast
US11568645B2 (en) Electronic device and controlling method thereof
US20170076474A1 (en) System for Beauty, Cosmetic, and Fashion Analysis
CN108960020A (en) Information processing method and information processing equipment
CN110084193B (en) Data processing method, apparatus, and medium for face image generation
CN111383307A (en) Video generation method and device based on portrait and storage medium
Gu et al. Flnet: Landmark driven fetching and learning network for faithful talking facial animation synthesis
JP2021077376A (en) Image conversion device and method, and computer-readable recording medium
Singh et al. Neural style transfer: A critical review
CN111401101A (en) Video generation system based on portrait
WO2023155533A1 (en) Image driving method and apparatus, device and medium
CN113544706A (en) Electronic device and control method thereof
Hajarolasvadi et al. Generative adversarial networks in human emotion synthesis: A review
RU2720361C1 (en) Multi-frame training of realistic neural models of speakers heads
WO2022093475A1 (en) Human characteristic normalization with an autoencoder
WO2023124697A1 (en) Image enhancement method, apparatus, storage medium, and electronic device
Póka et al. Data augmentation powered by generative adversarial networks
Yoo et al. FastSwap: A Lightweight One-Stage Framework for Real-Time Face Swapping
Ye et al. Coherence and identity learning for arbitrary-length face video generation
Ferrari et al. 3DMM for accurate reconstruction of depth data
Shreekumar et al. Improved viseme recognition using generative adversarial networks