RU2764144C1 - Быстрый двухслойный нейросетевой синтез реалистичных изображений нейронного аватара по одному снимку - Google Patents

Быстрый двухслойный нейросетевой синтез реалистичных изображений нейронного аватара по одному снимку Download PDF

Info

Publication number
RU2764144C1
RU2764144C1 RU2020124828A RU2020124828A RU2764144C1 RU 2764144 C1 RU2764144 C1 RU 2764144C1 RU 2020124828 A RU2020124828 A RU 2020124828A RU 2020124828 A RU2020124828 A RU 2020124828A RU 2764144 C1 RU2764144 C1 RU 2764144C1
Authority
RU
Russia
Prior art keywords
texture
image
network
avatar
generator
Prior art date
Application number
RU2020124828A
Other languages
English (en)
Inventor
Егор Олегович ЗАХАРОВ
Алексей Александрович Ивахненко
Александра Петровна ШИШЕЯ
Виктор Сергеевич Лемпицкий
Original Assignee
Самсунг Электроникс Ко., Лтд.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Самсунг Электроникс Ко., Лтд. filed Critical Самсунг Электроникс Ко., Лтд.
Priority to RU2020124828A priority Critical patent/RU2764144C1/ru
Priority to PCT/KR2021/000795 priority patent/WO2021177596A1/en
Application granted granted Critical
Publication of RU2764144C1 publication Critical patent/RU2764144C1/ru

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

Изобретение относится к области компьютерной графики и может быть использовано для синтеза говорящей головы, анимации лица. Техническим результатом является повышение разрешения и повышение быстродействия. Предложенная система создает нейронные аватары по одной фотографии. Согласно предложенному подходу внешний вид человека моделируется путем разложения его на два слоя. Первый слой - это зависящее от позы грубое изображение, которое синтезируется относительно малой нейросетью. Второй слой определяется независимым от позы текстурным изображением, содержащим высокочастотные детали. Текстурное изображение создается в автономном режиме и искажается, а затем добавляется к грубому изображению, чтобы обеспечить высокое эффективное разрешение синтезированных видов головы. 9 з.п. ф-лы, 2 ил.

Description

Область техники, к которой относится изобретение
Изобретение относится к областям компьютерной графики, глубокого обучения, состязательного обучения, к синтезу говорящей головы, нейронным аватарам, нейронному рендерингу, синтезу лица, анимации лица.
Описание известного уровня техники
Персонализированные нейронные аватары (головы) на основе ключевых точек или других представлений мимики/позы представляют собой технологию, которая имеет множество применений в системах телеприсутствия, играх, приложениях AR/VR (дополненной или виртуальной реальности) и создании спецэффектов. Моделирование внешнего вида головы субъекта представляет сложную задачу, в которой еще много нерешенных проблем. В течение как минимум двух десятилетий нейронные аватары (модели говорящих голов) создавались с помощью инструментов компьютерной графики с использованием поверхностных моделей на основе сетки и текстурных карт. разработанные системы делятся на две группы. Одни из них способны моделировать конкретных людей с очень высокой реалистичностью после приложения значительных усилий по захвату и проектированию, затраченных на этих людей. Другие системы способны создавать модели говорящих голов всего по одной фотографии, но им не хватает фотореализма.
В последние годы, из-за стремления достичь как высокой реалистичности, так и простоты создания, альтернативой классическому конвейеру компьютерной графики стали нейронные говорящие головы. В первых работах требовалось видео или даже несколько видео для создания нейронной сети, которая могла бы синтезировать вид говорящей головы субъекта. Совсем недавно в нескольких работах были представлены системы, позволяющие создавать нейронные аватары по нескольким фотографиям (установка по нескольким снимкам) или всего одной фотографии (установка по одному снимку), что вызывает как энтузиазм, так и опасения, что такая технология может использоваться не по назначению.
Методы нейронного синтеза реалистичных последовательностей говорящих голов можно разделить на методы, основанные на множестве снимков (т.е. требующие видео или несколько видео целевого субъекта для обучения модели) [11, 16, 18, 27], и на более современную группу методов, основанных на нескольких или одном снимке, которые позволяют получить модель субъекта по одной или нескольким фотографиям [24, 28, 29]. Предлагаемый метод относится ко второй категории, так как он сфокусирован на сценарии с одним снимком (моделирование по одной фотографии).
Согласно другому аспекту эти методы можно разделить в соответствии с архитектурой сети генератора. При этом в нескольких методах [16, 24, 27, 29] используются генераторы на основе прямого синтеза, когда изображение создается с использованием последовательности сверточных операторов, чередующихся с поэлементными нелинейностями и нормализациями. Информацию идентичности можно вводить в такую архитектуру либо с продолжительным обучением (в сценарии с множеством снимков) [16,27], либо используя адаптивные нормализации, зависящие от вложений [4,24,29] для конкретного субъекта. Оба этих подхода эффективно объединены в методе [29], в котором идентичность вводится через адаптивные нормализации, а затем осуществляется тонкая настройка полученного генератора на обучающем наборе на основе нескольких снимков. Метод прямого синтеза головы субъекта берет начало от работы [23], в которой были сгенерированы губы субъекта (Обамы) в последовательности говорящей головы, и затем он получил развитие до первых работ по условному сверточному нейронному синтезу общих объектов, таких как [2].
Альтернативой прямому синтезу изображения является использование дифференцируемой деформации [12] внутри архитектуры. Эту деформацию можно применить к одному из кадров. В подходе X2Face [28] деформация применяется дважды, сначала от исходного изображения к стандартизированному изображению (текстуре), а затем к целевому изображению. Система аватара кодека [18] синтезирует зависящую от позы текстуру для упрощенной геометрии сетки. Система MareoNETte [8] применяет деформацию к представлениям промежуточных признаков. Система из видео в видео по небольшому количеству снимков объединяет прямой синтез с деформацией предыдущего кадра для получения непрерывности во времени. Система моделей движения первого порядка [21] обучается деформировать представление промежуточного признака генератора на основе "неконтролируемых" ключевых точек, которые обучаются на данных. Помимо голов, дифференцируемое деформирование было недавно использовано для поворота лица, нормализации лица, рендеринга всего тела. Ранее в системе Deep Warp [5] использовалась нейронная деформация для изменения вида глаз с целью перенаправления взгляда, вместе с тем, что в ней использовалась нейронная деформация для повторного синтеза базовых сцен. В предлагаемом методе прямой синтез изображения объединяется с деформацией по-новому, так как в нем используется независимая от позы текстура RGB, содержащая мелкие детали, а также крупнозернистый зависимый от позы компонент RGB, который синтезируется нейронной сетью.
Существующие системы нейронных аватаров на основе нескольких снимков позволяют достичь замечательных результатов, но они все еще имеют ограничения в двух аспектах. Во-первых, они имеют ограниченное разрешение (до 256×256 пикселей). Это ограничение обусловлено необходимостью сбора большого и разнообразного набора данных видео в естественных условиях, что возможно при таком низком разрешении и намного сложнее при более высоком. Во-вторых, несмотря на низкое разрешение и в отличие от некоторых аватаров на основе графики, нейронные системы слишком медленны для их развертывания на мобильных устройствах и требуют высокопроизводительного графического процессора для работы в режиме реального времени. Следует отметить, что большинство сценариев применения нейронных аватаров, особенно связанных с телеприсутствием, существенно бы выиграли от возможности работать на мобильном устройстве в реальном времени.
СУЩНОСТЬ ИЗОБРЕТЕНИЯ
В настоящем изобретении решаются две проблемы систем нейронных аватаров по одному снимку и разработан подход, который позволяет работать с более высоким разрешением и гораздо быстрее, чем известные системы. Для достижения этого результата применяется двухслойное представление, при котором изображение аватара в новой позе генерируется путем суммирования двух компонентов: грубого изображения, непосредственно предсказываемого сетью рендеринга, и деформированного текстурного изображения. Хотя деформация текстуры также прогнозируется сетью рендеринга, сама текстура оценивается во время создания аватара и фиксируется во время выполнения. Для обеспечения возможности создания аватара по нескольким снимкам используется этап метаобучения на наборе данных видео, на котором осуществляется (мета)-обучение сети рендеринга, сети генератора вложений, а также сети генератора текстуры.
Разделение целевых кадров на два слоя позволяет повысить как эффективное разрешение, так и скорость нейронного рендеринга. Это достигается благодаря возможности использования автономной стадии создания аватара для синтеза текстуры с высоким разрешением, а при тестировании первый компонент (грубое изображение) и деформация текстуры не требуют наличия высокочастотных деталей и поэтому могут прогнозироваться относительно небольшой сетью рендеринга. Эти преимущества предлагаемой системы подтверждаются всесторонними сравнениями с ранее предложенными системами нейронных аватаров. Авторы также сообщают о реализации предлагаемой системы на базе смартфона в режиме реального времени, что было невозможно для ранее предложенных систем.
Предложено аппаратное обеспечение, содержащее программные продукты, выполняющие способ создания фотореалистичных изображений нейронного аватара по одному снимку, содержащий следующие этапы:
этап инициализации для создания нейронного аватара, заключающийся в том, что:
кодируют конкатенацию исходного изображения
Figure 00000001
и исходной позы
Figure 00000002
, закодированной как изображение ориентиров, в стек спрогнозированных вложений
Figure 00000003
с помощью сети генератора вложений
Figure 00000004
;
инициализируют адаптивные параметры из спрогнозированных вложений
Figure 00000005
и декодируют врисованную высокочастотную текстуру исходного изображения
Figure 00000006
с помощью сети генератора текстуры
Figure 00000007
;
создают нейронный аватар путем инициализации адаптивных параметров сети генератора текстуры
Figure 00000008
, используя вложения
Figure 00000009
, и прогнозируют текстуру
Figure 00000010
с помощью сети генератора текстуры
Figure 00000011
;
этап предсказания для создания изображений нейронного аватара, заключающийся в том, что:
инициализируют адаптивные параметры сети генератора предсказания
Figure 00000012
, используя вложения
Figure 00000013
, и используют целевую позу
Figure 00000014
для прогнозирования низкочастотной составляющей
Figure 00000015
изображения аватара и деформирующего поля
Figure 00000016
с помощью сети генератора предсказания
Figure 00000017
, которая генерирует высокочастотную составляющую
Figure 00000018
изображения аватара
Figure 00000019
путем применения к текстуре
Figure 00000020
деформирующего поля
Figure 00000016
, а именно
Figure 00000021
, применение обозначено знаком «०»,
при этом изображение аватара
Figure 00000022
вычисляют как сумму высокочастотной составляющей
Figure 00000023
и низкочастотной составляющей
Figure 00000015
, а именно
Figure 00000024
.
При этом позу
Figure 00000025
определяют вектором координат ключевой точки лица. Этап инициализации выполняется всего один раз для каждого аватара. При этом текстура может быть высокочастотной текстурой. На этапе инициализации дополнительно обновляют высокочастотную текстуру, используя сеть обновителя текстуры, обученную добавлять индивидуальные детали субъекта к текстуре, соблюдая несоответствие между исходным изображением
Figure 00000026
и изображением аватара для исходной позы
Figure 00000027
, полученным перед обновлением текстуры. При этом деформирующее поле
Figure 00000016
представляет собой отображение между текстурными координатными пространствами и изображением аватара. Сеть генератора вложений
Figure 00000028
, сеть генератора текстуры
Figure 00000029
, сеть генератора предсказания
Figure 00000030
обучаются в сквозном режиме. При этом в способе создания фотореалистичных изображений нейронного аватара дополнительно отображают реальное или синтезированное целевое изображения, конкатенированное с целевой позой, в оценки реалистичности сетью дискриминатора
Figure 00000031
. Целевую позу
Figure 00000032
получают с помощью внешнего процесса отслеживания ориентиров. Процесс отслеживания можно применить к другой видеопоследовательности для того же самого или другого субъекта на основании голосового сигнала этого субъекта или создать каким-либо другим способом.
Краткое описание чертежей
Представленные выше и/или другие аспекты станут более понятными из описания примерных вариантов осуществления со ссылкой на прилагаемые чертежи.
Фиг. 1 иллюстрирует создание выходного изображения.
Фиг. 2 иллюстрирует общий конвейер выполнения метода.
Подробное описание
Разработанную модель можно использовать для синтеза искусственных изображений людей на основе представления позы. Эта модель может работать на облачных платформах, в настольных системах и мобильных устройствах.
Предложенное изобретение можно реализовать на сервере для инициализации и в смартфоне для предсказания, т.е. компонент инициализации может быть передан смартфону.
Модель создает реалистичное изображение субъекта при наличии одного исходного изображения (так называемое "обучение по одному снимку") и набора ключевых точек субъекта, которые кодируют выражение лица и повороты головы ("синтез говорящей головы"). Принципиальным отличием от других моделей является возможность ее реализации мобильными устройствами в режиме реального времени. Основная новизна предлагаемого способа заключается в том, что выходное изображение раскладывается на низкочастотные и высокочастотные составляющие. Поэтому низкочастотную составляющую можно синтезировать в режиме реального времени с использованием традиционных подходов, но гораздо более "быстрой" моделью, чем в предыдущей работе. Высокочастотная составляющая прогнозируется посредством деформации текстуры, причем она фиксируется во время предсказания.
Это позволяет "сбросить" некоторые вычисления, обычно выполняемые во время предсказания, на этап инициализации для конкретного субъекта. На этом этапе получают одно исходное изображение субъекта и инициализируют внутренние параметры модели, специфичные для этого субъекта. Еще одно новшество состоит в применении известного метода "обучения градиентным спуском" для текстуры, который позволяет дополнительно адаптировать ее к конкретному субъекту на этапе инициализации и уменьшить расхождение идентичности в создаваемом аватаре.
Методы
Для обучения используются видеопоследовательности, аннотированные ключевыми точками и, при необходимости, маски сегментации. t-й кадр i-й видеопоследовательности обозначается как xi(t), соответствующие ключевые точки как yi(t), а маски сегментации как mi(t). Индекс t используется для обозначения целевого кадра, а s - исходного кадра. Кроме того, все тензоры, связанные с генерируемыми изображениями, помечены символом крышечки, например,
Figure 00000033
. Предлагается принять пространственный размер всех кадров постоянным и обозначить его как HxW. В некоторых модулях введенные ключевые точки кодируются как RGB-изображение, что является стандартным подходом в большом количестве предыдущих работ [8,25,29]. В данном решении это называется изображением ориентиров. Однако в отличие от известных подходов ключевые точки вводятся непосредственно в генератор предсказания в качестве вектора. Это позволяет значительно сократить время предсказания для данного метода.
Архитектура
Как показано на фиг. 1, выходное изображение создается в два этапа: инициализация и пресказание. Во время инициализации прогнозируются вложения с использованием исходного кадра, инициализируются адаптивные параметры как генератора предсказания, так и генератора текстуры, а также прогнозируется высокочастотная текстура. Этап инициализации выполняется всего один раз для каждого аватара. Во время предсказания используются целевые ключевые точки (целевая поза) для прогнозирования низкочастотной составляющей выходного изображения и деформирующего поля, которые при приложении к текстуре дают высокочастотную составляющую. Эти составляющие, а именно изображение спрогнозированной низкочастотной составляющей и деформированное текстурное изображение, складываются вместе, образуя выходные данные.
В предлагаемом методе следующие сети обучаются в сквозном режиме:
- Сеть генератора вложений
Figure 00000034
кодирует конкатенацию исходного изображения и изображения ориентиров в стек вложений
Figure 00000035
, которые используются для инициализации адаптивных параметров внутри генераторов.
- Сеть генератора текстуры
Figure 00000036
инициализирует свои адаптивные параметры из вложений и декодирует врисованную высокочастотную составляющую исходного изображения, называемую текстурой
Figure 00000037
.
Сеть генератора предсказания
Figure 00000038
отображает целевые позы в изображение аватара
Figure 00000039
. Эта сеть состоит из трех частей. Часть генератора вложений позы отображает вектор позы в пространственный тензор, который используется в качестве ввода для сверточной части. Сверточная часть выполняет повышающую дискретизацию на основе адаптивных параметров, спрогнозированных из вложений. Выход сверточной части делится на
Figure 00000040
(низкочастотный слой выходного изображения), который кодирует основные черты лица, цвет кожи и источники света, и
Figure 00000041
(отображение между текстурными координатными пространствами и выходным изображением). Эти выходы объединяются в составляющей части. Высокочастотный слой выходного изображения получается путем деформации спрогнозированной текстуры:
Figure 00000042
, и добавляется к низкочастотной компоненте, чтобы образовать изображение аватара:
Figure 00000043
В завершение, сеть дискриминатора
Figure 00000044
, которая является условным [19] релятивистским [14] PatchGAN [11], отображает реальное или синтезированное целевое изображение, конкатенированное с целевым изображением ориентиров, в оценки реалистичности
Figure 00000045
.
Во время обучения выходное изображение создается за два этапа: специфичная для субъекта инициализация и предсказание (см. фиг. 1). На этапе инициализации сначала вводят в генератор вложений исходное изображение
Figure 00000046
и исходную позу
Figure 00000047
, кодированную как изображение ориентиров. На выходе генератора вложений получают К тензоров
Figure 00000048
, которые используются для прогнозирования адаптивных параметров генератора текстуры и генератора предсказания. Затем генератор текстуры синтезирует высокочастотную текстуру
Figure 00000049
исходного изображения, и на этом инициализация завершается. На этапе предсказания вводят только соответствующую целевую позу
Figure 00000050
в генератор предсказания. Он прогнозирует низкочастотную составляющую выходного изображения
Figure 00000051
непосредственно, а высокочастотную составляющую
Figure 00000052
путем деформации текстуры с помощью спрогнозированного поля
Figure 00000053
. Изображение аватара
Figure 00000054
представляет собой сумму этих двух составляющих.
Важно отметить, что хотя генератор текстуры вручную побуждают генерировать только высокочастотную составляющую изображения через программную структуру функций потери, он не ограничивается конкретно выполнением врисовки. Это поведение вытекает из того факта, что для инициализации и для расчета потерь используются два различных изображения с различными позами.
На фиг.2 показан общий конвейер выполнения метода. Модуль инициализации получает изображение пользователя. Затем графическому процессору NVIDIA требуется 100 мс для инициализации аватара, т.е. для предварительного вычисления весов сети генератора предсказания и текстуры, а также для корректировки текстуры. После такой инициализации модуль предсказания может получить новое изображение аватара для новой позы, определенной положениями ключевых точек лица за гораздо меньшее время (например, 42 мс на мобильном графическом процессоре Snapdragon 855).
Процесс обучения
Для обучения используется множество функций потерь. Основная функция потерь, отвечающая за реалистичность выводов, обучается состязательным путем [7]. Также используются попиксельные потери, чтобы сохранить условия источника освещения, и перцептивные потери [13] для соответствия источнику идентичности на выходах. В заключение, выполняется регуляризация отображения текстуры для повышения устойчивости к случайной инициализации модели.
Состязательная потеря
Состязательная потеря оптимизируется как сетью генератора, так и сетью дискриминатора. Обычно она напоминает функцию потери двоичной классификации между реальными и ложными изображениями, когда дискриминатор оптимизирован для минимизации, а генератор - для максимизации [7]. Авторы руководствуются большим объемом предыдущих работ [1,8,25,29] и используют кусочно-линейную функцию потерь вместо первоначальной потери двоичной кросс-энтропии. Также вычисляются оценки релятивистского реализма [14], руководствуясь его недавним успехом в таких задачах, как суперразрешение [27] и шумоподавление [15]. Предполагается, что это дополнение сделает состязательное обучение более стабильным [14]. Поэтому используются уравнения 2 и 3 для вычисления оценок реалистичности для реальных и ложных изображений, соответственно, в которых in и tn обозначают индексы элементов минипакета, N - размер минипакета и
Figure 00000055
:
Figure 00000056
Кроме того, используется формулировка PatchGAN [11] для состязательного обучения. В ней вместо одного прогноза дискриминатор выдает на выходе матрицу оценок реалистичности, и каждый элемент этой матрицы рассматривается как оценка реалистичности для соответствующего патча во входном изображении. Эта формулировка также используется в большом количестве релевантных работ [8, 25, 26] и улучшает стабильность состязательного обучения. Если обозначать размер матрицы оценок
Figure 00000057
как Hs
Figure 00000058
, то полученные цели можно записать следующим образом:
Figure 00000059
Уравнение 4 является единственным термином, который используется для обучения дискриминатора. Для генератора также рассчитывается потеря соответствия признаков [26], которая теперь стала стандартным компонентом моделей преобразования изображения в изображение с привлечением учителя. С этой целью авторы стремятся минимизировать расстояние между отображениями промежуточных признаков дискриминатора, вычисленными с использованием соответствующих целевого и сгенерированного изображений. Если обозначить как
Figure 00000060
признаки при различных пространственных разрешениях
Figure 00000061
, то цель соответствия признаков можно вычислить следующим образом:
Figure 00000062
Попиксельные и перцептивные потери обеспечивают соответствие спрогнозированных изображений истине, и они соответственно применяются к низко и высокочастотным составляющим выходных изображений. Поскольку использование попиксельных потерь предполагает, что все пиксели в изображении статистически независимы, эмпирически данный процесс оптимизации приводит к размытым изображениям [11], что оптимально для низкочастотной составляющей вывода. Что же касается оптимизации перцептивных потерь, она приводит к получению более четких и реалистичных изображений [13], которые используются для обучения высокочастотной составляющей. Если устранить это разделение между составляющими и обучать их совместно с помощью одной цели, то метод станет нестабильным в отношении выбора архитектуры и даже качества изображений в наборе данных, и весь обучающий сигнал получит либо низкочастотная, либо высокочастотная составляющая, в то время как другая не получит почти ничего, что приводит к неоптимальной производительности после достижения сходимости.
Попиксельные потери вычисляются простым измерением среднего расстояния L1 между целевым изображением и низкочастотной составляющей:
Figure 00000063
Для вычисления перцептивной потери необходимо использовать оператор стоп-градиента SG, который позволяет предотвратить градиентный поток в низкочастотную составляющую. Поэтому введенное сгенерированное изображение вычисляется следующим образом:
Figure 00000064
Руководствуясь работами [8] и [29], предлагаемый вариант перцептивных потерь состоит из двух компонентов: признаков, оцененных с помощью предобученной сети VGG19 ILSVRC (ImageNet) [22] и сети VGGFace [20], обученной распознаванию лиц. Если обозначить промежуточные признаки этих сетей как
Figure 00000065
и
Figure 00000066
и их пространственный размер как
Figure 00000067
, то цели можно записать следующим образом:
Figure 00000068
Важно отметить, что в отличие от этих парных потерь состязательные потери распространяются обратно как на низкочастотную, так и на высокочастотную составляющую, что приводит к более высокой реалистичности и сохранению поз на спрогнозированных изображениях.
Для повышения стабильности обучения предлагается применять регуляризацию отображения текстуры. Обучающий сигнал, который получает генератор текстуры Gtex, сначала деформируется деформирующим полем
Figure 00000069
, спрогнозированным генератором предсказания. В результате этого произвольные инициализации сетей обычно приводят к неоптимальным текстурам, в которых лицо исходного субъекта занимает небольшую часть общей площади текстуры. По мере обучения это приводит к менее эффективному разрешению выходного изображения, поскольку процесс оптимизации не способен избежать этих плохих локальных оптимальных решений. Для решения этой проблемы выход сети рассматривается как дельта для отображения идентичности, а также применяется штрафная величина к этой дельте на ранних итерациях. Вес этого штрафа мультипликативно снижается до нуля во время обучения, поэтому он не влияет на итоговую производительность модели. Более конкретно, выходное деформирующее поле разлагается на сумму двух слагаемых:
Figure 00000070
, где
Figure 00000071
обозначает отображение идентичности, и применяется штраф
Figure 00000072
, усредненный по количеству пространственных положений в отображении, ко второму члену:
Figure 00000073
Сети генераторов, то есть генератора вложений изображений, генератора текстуры и генератора предсказания, обучаются совместно на одной цели
Figure 00000074
, которая представляет собой взвешенную сумму целей 5-7, 9-11, и, необязательно,
Figure 00000075
.
Тонкая настройка
Обучение на индивидуальных исходных данных субъекта приводит к значительному улучшению реалистичности и сохранению идентичности синтезированных изображений [29], но требует больших вычислительных затрат, если оно включает в себя оптимизацию параметров модели или использование "тяжелых" целей типа состязательных или перцептивных потерь. Более того, если исходных данных недостаточно, как в сценарии с одним снимком, тонкая настройка может привести к переобучению и ухудшению производительности, что наблюдается в [29].
Для решения обеих этих проблем используется метод обученного градиентного спуска (LGD), чтобы оптимизировать только синтезированную текстуру
Figure 00000076
. Оптимизация в отношении тензора текстуры предотвращает переобучение модели, в то время как LGD позволяет выполнять оптимизацию в отношении вычислительно затратных целей путем выполнения прямых проходов по предобученной сети.
В частности, вводится легковесная функция потерь
Figure 00000077
(используется сумма квадратов ошибок), которая измеряет расстояние между сгенерированным изображением и истиной в пиксельном пространстве, и сеть обновления текстуры
Figure 00000078
, которая использует текущее состояние текстуры и градиент этой функции относительно текстуры для создания обновления
Figure 00000079
. Во время тонкой настройки рекурсивно выполняется М шагов обновления, на каждом из которых измеряются градиенты
Figure 00000080
относительно обновленной текстуры. Более конкретно:
Figure 00000081
где
Figure 00000082
обозначает номер итерации, при
Figure 00000083
. Во время тестирования выполняются те же самые М обновлений текстуры, и полученная
Figure 00000084
используется для предсказания.
Сеть
Figure 00000085
обучают обратному распространению в течение всех М шагов. Для обучения используется та же самая цель
Figure 00000086
, которая использовалась при обучении базовой модели. Она оценивается с использованием целевого кадра
Figure 00000087
и сгенерированного кадра
Figure 00000088
Важно подчеркнуть, что
Figure 00000080
использовалась для обучения
Figure 00000078
, но она просто руководит обновлениями текстуры. Кроме того, градиенты относительно этой потери оцениваются на исходном изображении, в то время как цель рассчитывается на целевом изображении, что подразумевает, что сеть должна создавать обновления для всей текстуры, а не только для области, "видимой" на исходном изображении. И наконец, хотя на часть генератора базовой модели не распространяются какие-либо градиенты, обучение дискриминатора продолжается с использованием той же самой цели
Figure 00000089
. Несмотря на то, что обучение сети обновлений совместно с базовым генератором возможно и может привести к повышению качества (руководствуясь успехом метода метаобучения, независимого от модели [3]), однако из-за ограничений памяти применяется двухэтапное обучение.
Сегментация
Было обнаружено опытным путем, что средняя площадь, занимаемая лицом на целевых изображениях, влияет на производительность предлагаемого метода. Обучение деформации из текстурного координатного пространства в пространство изображения осуществляется без привлечения учителя и сильно зависит от набора данных. Например, если существует сильная корреляция между кадрами в обучающих видео, у генератора текстуры нет стимула создавать правильную текстуру с ошибочными признаками, учитывая цель соответствовать целевому изображению. В этом случае модель может просто декодировать исходное изображение из вложения и давать хорошие результаты. Этот случай неудачи приводит к плохой экстраполяции на новые точки наблюдения и может быть достигнут, если, например, значительно увеличить площадь заднего плана, поскольку она сильно коррелирована между исходным и целевым кадрами.
Следовательно, для увеличения размера обрезки в целях размещения в нем полностью головы необходимо выполнить сегментацию переднего плана, чтобы отфильтровать обучающий сигнал, связанный с задним планом. Для этого используется современная модель сегментации лица и тела [6] для получения масок истины. Затем прогнозируется маска
Figure 00000090
через генератор предсказания вместе с другими его выходами, и обучение осуществляется через потерю
Figure 00000091
двоичной кросс-энтропии, чтобы соответствовать истине
Figure 00000092
. Чтобы отфильтровать обучающий сигнал, связанный с задним планом, изучалось несколько вариантов. Невозможно просто маскировать градиенты, которые подаются в генератор, так как это приведет к переобучению дискриминатора. Также невозможно применять маски истины ко всем изображениям в наборе данных, поскольку модель [6] работает настолько хорошо, что создает четкую границу между передним и задним планом, вызывая появление краевых артефактов во время обучения.
Вместо этого было обнаружено, что намного лучше работает использование прогнозов
Figure 00000093
. Они гладкие и предотвращают переобучение дискриминатора на отсутствие фона или на резкость границы.
Figure 00000094
используется для маскирования всех синтезированных изображений и истинного изображения до применения потерь на основе изображений. Оператор стоп-градиента гарантирует, что обучение не сойдется к вырожденному состоянию.
Детали реализации
Предлагаемые сети состоят из остаточных блоков предварительной активации [9] с протекающими активациями ReLU. Минимальное количество признаков в этих блоках установлено на 64, а максимальное на 512. В конфигурации по умолчанию используется половина количества признаков в генераторе предсказания, но авторы также оценивают предложенную модель с полной и четвертной производительностью предсказания с результатами, представленными в экспериментах.
Во всех сетях, кроме генератора вложений и обновителя текстуры используется пакетная нормализация [10]. Внутри генератора текстуры пакетная нормализация связана с адаптивными слоями SPADE [25]. Эти слои модифицируются для прогнозирования пиксельного масштаба и коэффициентов смещения с использованием карт признаков, которые рассматриваются в качестве параметров модели вместо их введения из другой сети. Это позволяет экономить память за счет удаления дополнительных сетей и отображений промежуточных признаков из процесса оптимизации и увеличивать размер пакета. Кроме того, руководствуясь [25], прогнозируются веса для всех сверток 1×1 в сети из вложений
Figure 00000095
, что включает в себя отображения масштаба и смещения в слоях AdaSPADE и замыкающие соединения в остаточных блоках повышенной дискретизации. В генераторе предсказания используются стандартные слои адаптивной пакетной нормализации [1], но также прогнозируются веса для замыкающих соединений из вложений. Для вложения векторной позы используется многослойный персептрон, выход которого преобразуется во ввод сверточной части.
Одновременный градиентный спуск реализуется на параметрах сетей генератора и дискриминатора с использованием Adam [17] со скоростью обучения
Figure 00000096
. Для состязательных потерь используется вес 0.5 (уравнение 4-5) а для всех других потерь, кроме перцептивной потери VGGFace, установленной на 0.01, вес 10 (уравнение 10). Затем вес регуляризатора (уравнение 11) мультипликативно уменьшается на 0.9 через каждые 50 итераций. Предложенные модели обучаются на 8 графических процессорах NVIDIA P40 с размером пакета 48 для базовой модели и размером пакета 32 для модели обновителя. Глубина М развертывания обновителя установлена на 4, и в качестве облегченной цели используется сумма квадратов элементов. Во время обучения статистика нормализации пакетов синхронизируется во всех графических процессорах. Во время предсказания они заменяются "постоянной" статистикой, аналогично [1], что значительно улучшает качество выводов по сравнению с использованием текущей статистики. Во всех линейных и сверточных слоях всех сетей также применяется спектральная нормализация.
Подробное описание архитектуры предлагаемой модели, а также обсуждение признаков обучения и архитектуры, принятых авторами, можно найти в дополнительных материалах.
Приведенные выше примерные варианты осуществления являются примерами и не должны рассматриваться как ограничивающие. Кроме того, описание примерных вариантов осуществления предназначено для иллюстрации и не ограничивает объем формулы изобретения, и для специалистов в данной области техники будут очевидны многие альтернативы, модификации и варианты.
Литература:
1. Brock, A., Donahue, J., Simonyan, K.: Large scale GAN training for high fidelity natural image synthesis. In: 7th International Conference on Learning Representations, ICLR 2019 (2019)
2. Dosovitskiy, A., Tobias Springenberg, J., Brox, Т.: Learning to generate chairs with convolutional neural networks. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 1538-1546 (2015)
3. Finn, C., Abbeel, P., Levine, S.: Model-agnostic meta-learning for fast adaptation of deep networks. In: Proceedings of the 34th International Conference on Machine Learning, ICML 2017 (2017)
4. Fu, C., Hu, Y., Wu, X., Wang, G., Zhang, Q., He, R.: High fidelity face manipulation with extreme pose and expression. arXiv preprint arXiv: 1903.12003 (2019)
5. Ganin, Y., Kononenko, D., Sungatullina, D., Lempitsky, V.: Deepwarp: Photorealistic image resynthesis for gaze manipulation. In: European Conference on Computer Vision, pp. 311-326. Springer (2016)
6. Gong, K., Gao, Y., Liang, X., Shen, X., Wang, M., Lin, L.: Graphonomy: Universal human parsing via graph transfer learning. In: IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2019 (2019)
7. Goodfellow, I.J., Pouget-Abadie, J., Mirza, M., Xu, В., Warde-Farley, D., Ozair, S., Courville, A.C., Bengio, Y.: Generative adversarial nets. In: Advances in Neural Information Processing Systems 27: Annual Conference on Neural Information Processing Systems 2014 (2014)
8. Ha, S., Kersner, M., Kim, В., Seo, S., Kim, D.: Marionette: Few-shot face reenactment preserving identity of unseen targets. CoRR abs/1911.08139 (2019)
9. He, K., Zhang, X., Ren, S., Sun, J.: Identity mappings in deep residual networks. In: Computer Vision - ECCV 2016-14th European Conference (2016)
10. Ioffe, S., Szegedy, C.: Batch normalization: Accelerating deep network training by reducing internal covariate shift. In: Proceedings of the 32nd International Conference on Machine Learning, ICML 2015 (2015)
11. Isola, P., Zhu, J., Zhou, Т., Efros, A.A.: Image-to-image translation with conditional adversarial networks. In: 2017 IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2017 (2017)
12. Jaderberg, M., Simonyan, K., Zisserman, A., Kavukcuoglu, K.: Spatial transformer networks, pp. 2017-2025 (2015)
13. Johnson, J., Alahi, A., Fei-Fei, L.: Perceptual losses for real-time style transfer and super-resolution. In: Computer Vision - ECCV 2016-14th European Conference (2016)
14. Jolicoeur-Martineau, A.: The relativistic discriminator: a key element missing from standard GAN. In: 7th International Conference on Learning Representations, ICLR 2019 (2019)
15. Kim, D., Chung, J.R., Jung, S.: GRDN: grouped residual dense network for real image denoising and gan-based real-world noise modeling. In: IEEE Conference on Computer Vision and Pattern Recognition Workshops, CVPR Workshops 2019 (2019)
16. Kim, H., Garrido, P., Tewari, A., Xu, W., Thies, J., Niefiner, M., Perez, P., Richardt, C., Zollhofer, M., Theobalt, C.: Deep video portraits. arXiv preprint arXiv: 1805.11714 (2018)
17. Kingma, D.P., Ba, J.: Adam: A method for stochastic optimization. CoRR abs/1412.6980 (2014)
18. Lombardi, S., Saragih, J., Simon, Т., Sheikh, Y.: Deep appearance models for face rendering. ACM Transactions on Graphics (TOG) 37(4), 68 (2018)
19. Mirza, M., Osindero, S.: Conditional generative adversarial nets. CoRR abs/1411.1784 (2014)
20. Parkhi, O.M., Vedaldi, A., Zisserman, A.: Deep face recognition. In: Proceedings of the British Machine Vision Conference 2015, BMVC 2015 (2015)
21. Siarohin, A., Lathuiliere, S., Tulyakov, S., Ricci, E., Sebe, N.: First order motion model for image animation. In: Advances in Neural Information Processing Systems 32: Annual Conference on Neural Information Processing Systems 2019, NeurlPS 2019 (2019)
22. Simonyan, K., Zisserman, A.: Very deep convolutional networks for large-scale image recognition. CoRR abs/1409.1556 (2014), http://arxiv.org/abs/1409.1556
23. Suwajanakorn, S., Seitz, S.M., Kemelmacher-Shlizerman, I.: Synthesizing Obama: learning lip sync from audio. ACM Transactions on Graphics (TOG) 36(4), 95 (2017)
24. Tripathy, S., Kannala, J., Rahtu, E.: Icface: Interpretable and controllable face reenactment using gans. CoRR abs/1904.01909 (2019), http://arxiv.org/abs/1904.01909
25. Wang, Т., Liu, M., Tao, A., Liu, G., Catanzaro, В., Kautz, J.: Few-shot video-to-video synthesis. In: Advances in Neural Information Processing Systems 32: Annual Conference on Neural Information Processing Systems 2019, NeurlPS 2019 (2019)
26. Wang, Т., Liu, M., Zhu, J., Tao, A., Kautz, J., Catanzaro, В.: High-resolution image synthesis and semantic manipulation with conditional gans. In: 2018 IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2018 (2018)
27. Wang, X, Yu, K, Wu, S., Gu, J., Liu, Y., Dong, C., Qiao, Y, Loy, C.C.: ESRGAN: enhanced super-resolution generative adversarial networks. In: Computer Vision - ECCV 2018 Workshops (2018)
28. Wiles, О., Sophia Koepke, A., Zisserman, A.: X2face: A network for controlling face generation using images, audio, and pose codes. In: The European Conference on Computer Vision (ECCV) (September 2018)
29. Zakharov, E., Shysheya, A., Burkov, E., Lempitsky, V.S.: Few-shot adversarial learning of realistic neural talking head models. In: IEEE International Conference on Computer Vision, ICCV 2019 (2019)

Claims (18)

1. Способ создания фотореалистичных изображений нейронного аватара по одному снимку, причем способ содержит следующие этапы:
этап инициализации для создания нейронного аватара, заключающийся в том, что:
кодируют конкатенацию исходного изображения
Figure 00000097
и исходной позы
Figure 00000098
, закодированной как изображение ориентиров, в стек спрогнозированных вложений
Figure 00000099
с помощью сети генератора вложений
Figure 00000100
;
инициализируют адаптивные параметры из спрогнозированных вложений
Figure 00000099
и декодируют врисованную высокочастотную текстуру исходного изображения
Figure 00000097
с помощью сети генератора текстуры
Figure 00000101
;
создают нейронный аватар путем инициализации адаптивных параметров сети генератора текстуры
Figure 00000101
, используя вложения
Figure 00000102
, и прогнозируют текстуру
Figure 00000103
с помощью сети генератора текстуры
Figure 00000101
;
этап предсказания для создания изображений нейронного аватара, заключающийся в том, что:
инициализируют адаптивные параметры сети генератора предсказания
Figure 00000104
, используя вложения
Figure 00000102
, и используют целевую позу
Figure 00000105
для прогнозирования низкочастотной составляющей
Figure 00000106
изображения аватара и деформирующего поля
Figure 00000107
с помощью сети генератора предсказания
Figure 00000104
, которая генерирует высокочастотную составляющую
Figure 00000108
изображения аватара
Figure 00000109
путем применения к текстуре
Figure 00000103
деформирующего поля
Figure 00000107
,
при этом изображение аватара
Figure 00000109
вычисляют как сумму высокочастотной составляющей
Figure 00000108
и низкочастотной составляющей
Figure 00000106
, а именно
Figure 00000110
.
2. Способ по п.1, в котором целевую позу
Figure 00000105
определяют вектором координат ключевых точек лица.
3. Способ по п.1, в котором этап инициализации выполняют всего один раз для каждого аватара.
4. Способ по п.1, в котором текстура может быть высокочастотной текстурой.
5. Способ по п.1, в котором на этапе инициализации дополнительно обновляют высокочастотную текстуру, используя сеть обновителя текстуры, обученную добавлять индивидуальные детали человека к текстуре, соблюдая несоответствие между исходным изображением
Figure 00000097
и изображением аватара для исходной позы
Figure 00000098
, полученным перед обновлением текстуры.
6. Способ по п.1, в котором деформирующее поле
Figure 00000107
представляет собой отображение между текстурными координатными пространствами и изображением аватара.
7. Способ по п.1, в котором сеть генератора вложений
Figure 00000100
, сеть генератора текстуры
Figure 00000101
, сеть генератора предсказания
Figure 00000104
обучаются в сквозном режиме.
8. Способ по п.1, в котором дополнительно отображают реальное или синтезированное целевое изображение, конкатенированное с целевой позой, в оценке реалистичности с помощью сети дискриминатора
Figure 00000111
.
9. Способ по п.1, в котором целевую позу
Figure 00000105
получают с помощью внешнего процесса отслеживания ориентиров.
10. Способ по п.9, в котором процесс отслеживания можно применить к другой видеопоследовательности того же самого или другого человека на основании голосового сигнала этого человека.
RU2020124828A 2020-03-03 2020-07-27 Быстрый двухслойный нейросетевой синтез реалистичных изображений нейронного аватара по одному снимку RU2764144C1 (ru)

Priority Applications (2)

Application Number Priority Date Filing Date Title
RU2020124828A RU2764144C1 (ru) 2020-07-27 2020-07-27 Быстрый двухслойный нейросетевой синтез реалистичных изображений нейронного аватара по одному снимку
PCT/KR2021/000795 WO2021177596A1 (en) 2020-03-03 2021-01-20 Fast bi-layer neural synthesis of one-shot realistic images of neural avatar

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2020124828A RU2764144C1 (ru) 2020-07-27 2020-07-27 Быстрый двухслойный нейросетевой синтез реалистичных изображений нейронного аватара по одному снимку

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
RU2020109348 Substitution 2020-03-03 2020-03-03

Publications (1)

Publication Number Publication Date
RU2764144C1 true RU2764144C1 (ru) 2022-01-13

Family

ID=80040352

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2020124828A RU2764144C1 (ru) 2020-03-03 2020-07-27 Быстрый двухслойный нейросетевой синтез реалистичных изображений нейронного аватара по одному снимку

Country Status (1)

Country Link
RU (1) RU2764144C1 (ru)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114862716A (zh) * 2022-05-12 2022-08-05 平安科技(深圳)有限公司 人脸图像的图像增强方法、装置、设备及存储介质
CN114913104A (zh) * 2022-05-11 2022-08-16 平安科技(深圳)有限公司 图像处理方法、图像处理装置、电子设备及存储介质
CN114998601A (zh) * 2022-06-29 2022-09-02 齐鲁工业大学 基于Transformer的在线更新目标跟踪方法及系统
CN116310659A (zh) * 2023-05-17 2023-06-23 中数元宇数字科技(上海)有限公司 训练数据集的生成方法及设备
WO2023225891A1 (zh) * 2022-05-25 2023-11-30 浙江大学 一种基于多分辨率网络结构的神经绘制方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180240281A1 (en) * 2017-02-22 2018-08-23 Andre R. Vincelette Systems and methods to create a virtual object or avatar
WO2018154331A1 (en) * 2017-02-27 2018-08-30 Metail Limited Method of generating an image file of a 3d body model of a user wearing a garment
RU2679986C2 (ru) * 2014-04-29 2019-02-14 МАЙКРОСОФТ ТЕКНОЛОДЖИ ЛАЙСЕНСИНГ, ЭлЭлСи Отслеживание выражения лица
WO2019177870A1 (en) * 2018-03-15 2019-09-19 Magic Leap, Inc. Animating virtual avatar facial movements
RU2713695C1 (ru) * 2019-02-21 2020-02-06 Самсунг Электроникс Ко., Лтд. Текстурированные нейронные аватары

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2679986C2 (ru) * 2014-04-29 2019-02-14 МАЙКРОСОФТ ТЕКНОЛОДЖИ ЛАЙСЕНСИНГ, ЭлЭлСи Отслеживание выражения лица
US20180240281A1 (en) * 2017-02-22 2018-08-23 Andre R. Vincelette Systems and methods to create a virtual object or avatar
WO2018154331A1 (en) * 2017-02-27 2018-08-30 Metail Limited Method of generating an image file of a 3d body model of a user wearing a garment
WO2019177870A1 (en) * 2018-03-15 2019-09-19 Magic Leap, Inc. Animating virtual avatar facial movements
RU2713695C1 (ru) * 2019-02-21 2020-02-06 Самсунг Электроникс Ко., Лтд. Текстурированные нейронные аватары

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
EGOR ZAKHAROV ET AL. Few-Shot Adversarial Learning of Realistic Neural Talking Head Models. 25.09.2019 [он-лайн], [найдено 24.02.2021]. Найдено в Интернет:URL: https://arxiv.org/pdf/1905.08233.pdf. *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114913104A (zh) * 2022-05-11 2022-08-16 平安科技(深圳)有限公司 图像处理方法、图像处理装置、电子设备及存储介质
CN114862716A (zh) * 2022-05-12 2022-08-05 平安科技(深圳)有限公司 人脸图像的图像增强方法、装置、设备及存储介质
WO2023225891A1 (zh) * 2022-05-25 2023-11-30 浙江大学 一种基于多分辨率网络结构的神经绘制方法
CN114998601A (zh) * 2022-06-29 2022-09-02 齐鲁工业大学 基于Transformer的在线更新目标跟踪方法及系统
CN116310659A (zh) * 2023-05-17 2023-06-23 中数元宇数字科技(上海)有限公司 训练数据集的生成方法及设备
CN116310659B (zh) * 2023-05-17 2023-08-08 中数元宇数字科技(上海)有限公司 训练数据集的生成方法及设备

Similar Documents

Publication Publication Date Title
Zakharov et al. Fast bi-layer neural synthesis of one-shot realistic head avatars
Liu et al. Generative adversarial networks for image and video synthesis: Algorithms and applications
Ren et al. Pirenderer: Controllable portrait image generation via semantic neural rendering
US11861936B2 (en) Face reenactment
US11995758B2 (en) Photorealistic real-time portrait animation
US10019826B2 (en) Real-time high-quality facial performance capture
Cole et al. Synthesizing normalized faces from facial identity features
US10839586B1 (en) Single image-based real-time body animation
KR20210117304A (ko) 모바일 디바이스에서 사실적인 머리 회전들 및 얼굴 애니메이션 합성을 위한 방법들 및 시스템들
Bermano et al. Facial performance enhancement using dynamic shape space analysis
WO2021228183A1 (en) Facial re-enactment
RU2764144C1 (ru) Быстрый двухслойный нейросетевой синтез реалистичных изображений нейронного аватара по одному снимку
WO2021177596A1 (en) Fast bi-layer neural synthesis of one-shot realistic images of neural avatar
JP2022525552A (ja) 高分解能なリアルタイムでのアーティスティックスタイル転送パイプライン
RU2713695C1 (ru) Текстурированные нейронные аватары
Kabadayi et al. Gan-avatar: Controllable personalized gan-based human head avatar
US20230126829A1 (en) Point-based modeling of human clothing
Karim et al. Face Image Animation with Adversarial Learning and Motion Transfer.
RU2775825C1 (ru) Нейросетевой рендеринг трехмерных человеческих аватаров
RU2770132C1 (ru) Генераторы изображений с условно независимым синтезом пикселей
Nandal Motion Imitation for Monocular Videos
Chatziagapi et al. MIGS: Multi-Identity Gaussian Splatting via Tensor Decomposition
Jeong et al. SeamsTalk: Seamless Talking Face Generation via Flow-Guided Inpainting
Wang et al. A Survey on 3D Human Avatar Modeling--From Reconstruction to Generation
Zhang et al. REFA: Real-time Egocentric Facial Animations for Virtual Reality