RU2748779C1

RU2748779C1 - Способ и система автоматизированного генерирования видеопотока с цифровым аватаром на основе текста

Info

Publication number: RU2748779C1
Application number: RU2020135847A
Authority: RU
Inventors: Александр Владимирович Зырянов; Александр Николаевич Куриленков; Сергей Владимирович Ивленков; Максим Александрович Левин
Original assignee: Общество с ограниченной ответственностью "СДН-видео"
Priority date: 2020-10-30
Filing date: 2020-10-30
Publication date: 2021-05-31

Abstract

Изобретение относится к области обработки изображений. Технический результат заключается в повышении точности генерирования аватара на основе текстовых данных. Способ содержит этапы, на которых: получают текстовые данные и осуществляют их разделение на семантические единицы, при этом разделение осуществляется в соответствии с паузами в произношении и типом разделения; преобразуют полученные семантические единицы в аудиоданные; с помощью обученной искусственной нейронной сети (ИНС) осуществляют разделение преобразованных аудиоданных на фрагменты; осуществляют сопоставление полученных фрагментов с ключевыми кадрами видеопотока; осуществляют генерацию кадров с помощью интерполяции ключевых кадров и осуществляют их преобразование в последовательность скетчей; обрабатывают с помощью состязательной ИНС (СИНС) полученную последовательность скетчей и соответствующие им фрагменты аудиоданных и формируют последовательность фотореалистичных изображений; осуществляют объединение полученных фотореалистичных изображений в видеопоток и соответствующих им аудиоданных в аудиопоток; выполняют проверку синхронизации полученных видеопотока и аудиопотока. 2 н. и 15 з.п. ф-лы, 2 ил.

Description

Заявленное изобретение относится к области обработки изображений, а более конкретно, к способу и системе автоматизированного генерирования видеопотока с цифровым аватаром на основе текста.

В последние годы генерация цифрового аватара оказывается всё более востребована: цифровые аватары используются при удалённом взаимодействии, в виде виртуальных помощников и гидов, в качестве ведущих новостей и презентеров, и во многих других областях. При этом существует несколько различных способов создания цифровых аватаров: от технологий захвата движений, когда действия актёра или актрисы преобразуются в действия цифрового аватара, до технологий автоматической генерации изображений.

Автоматическая генерация, как правило, предпочтительна, поскольку она проще в использовании и позволяет производить видео с цифровыми аватарами в больших объёмах и по более низкой стоимости. Однако автоматическая генерация подвержена таким проблемам, как неестественность генерируемой мимики или движений, рассинхронизация видео и аудио, и ряду других. В зависимости от метода эти недостатки преодолеваются за счёт использования большего объёма входных данных, применения более сложных алгоритмов обработки данных, или использования оператора для оценки и корректировки определённых стадий генерации видеопотока.

Известна система виртуальных фотореалистичных цифровых актеров для удаленного обслуживания клиентов (US 10163111 B2, 28.03.2014), осуществляющая генерацию видео с цифровым аватаром в реальном времени. Недостатком указанного способа является большой объём разнообразных данных, который необходимо подготовить перед началом использования системы. Также указанный способ генерирует элементы изображения (части лица и тела цифрового аватара) по отдельности с независимым друг от друга управлением, что может привести к нереалистично выглядящему итоговому изображению из-за неудачной комбинации элементов. Кроме того, указанный способ частично полагается на голосовые входные данные, что может понизить точность работы при использовании системы несколькими операторами с различными голосами. Также указанный способ накладывает существенные ограничения на позу актёра или актрисы в видео, используемом для обучения системы.

Другим известным решением является система формирования цифровых аватаров (US 20180174348 A1, 21.06.2018). Данный способ основывается на формировании ригов (англ. rig), по которым будет строиться мимика цифрового аватара с помощью моделей машинного обучения, обеспечивающих генерирование мимики по ключевым точкам лицевого скелета, соответствующим тем или иным словам/фразам. На основании ригов осуществляется синхронизация 3Д модели аватара и воспроизводимой речи для каждого кадра последовательности анимации аватара. Риги также отвечают за формирование 2Д семплов, формирующих анимацию 3Д аватара, учитывая специфику мимики в ответ на поступающую аудио данные, текст и видеоряд. Недостатком данного решения является невысокая относительная точность при конечном генерировании аватара.

Настоящее изобретение направлено на решение технической проблемы в части эффективного метода формирования цифрового аватара на основе текстовых данных.

Технический результат заключается в повышении точности генерирования аватара на основе текстовых данных.

В предпочтительном варианте осуществления изобретения заявлен способ автоматизированного генерирования видеопотока с цифровым аватаром на основе текста, выполняемый с помощью компьютерного устройства, при этом способ содержит этапы, на которых:

получают текстовые данные и осуществляют их разделение на семантические единицы, при этом разделение осуществляется в соответствии с паузами в произношении и типом разделения, представляющего собой по меньшей мере одно из: новый параграф или новое предложение;

преобразуют полученные семантические единицы в аудио данные;

с помощью обученной искусственной нейронной сети (ИНС) осуществляют разделение преобразованных аудио данных на фрагменты таким образом, чтобы каждому фрагменту соответствовала ровно одна фонема, причём на вход ИНС также подаётся текст, соответствующий аудио данным;

осуществляют сопоставление полученных фрагментов с ключевыми кадрами видеопотока, причем кадры состоят из множества координат ключевых точек лица и тела;

осуществляют генерацию кадров с помощью интерполяции ключевых кадров и осуществляют их преобразование в последовательность скетчей, представляющих собой чёрно-белое изображения, состоящие из ключевых точек лица и тела, причём каждая группа ключевых точек лица дополнительно соединена сплайнами, а различные ключевые точки тела соединены сплайнами в соответствии с анатомической структурой тела;

обрабатывают с помощью состязательной ИНС (СИНС) полученную последовательность скетчей и соответствующие им фрагменты аудио данных и формируют последовательность фотореалистичных изображений, содержащих визуальный образ цифрового аватара, мимика лица и поза которого соответствует полученным скетчам;

осуществляют объединение полученных фотореалистичных изображений в видеопоток и соответствующих им аудио данных в аудиопоток;

выполняют проверку синхронизации полученных видеопотока и аудиопотока на основании временного положения очередного фотореалистичного изображения и аудио фрагмента, и если величина рассинхронизации превышает заданное пороговое значение, то последующие аудио фрагменты растягиваются или сжимаются на заданную величину ссохранением тембра голоса, причём растяжение или сжатие прекращаются, когда величина рассинхронизации окажется меньше заданного порогового значения.

В одном из примеров реализации изобретения сопоставление фрагментов аудио данных с ключевыми кадрами осуществляется на основании текущего фрагмента, или нескольких предыдущих фрагментов.

В другом примере реализации изобретения учитывается положение фрагмента в семантической единице и/или тип разделения.

В другом примере реализации изобретения на основании типа разделения происходит определение первого и последнего ключевых кадров.

В другом примере реализации изобретения интерполяция осуществляется на основе одного или более ключевого кадра до и после интерполируемого кадра.

В другом примере реализации изобретения для кадров на границе семантической единицы применяется отдельный метод интерполяции.

В другом примере реализации изобретения генерация фотореалистичного изображения осуществляется на основе текущего скетча, одного или нескольких предыдущих скетчей и/или на основе одного или нескольких ранее сгенерированных фотореалистичных изображений.

В другом примере реализации изобретения при генерации кадров сохраняется вектор перемещения каждой из ключевых точек лица и тела.

В другом примере реализации изобретения информация о векторах перемещения используется на этапе генерации фотореалистичных изображений для размытия движения различных областей лица и тела с целью придания изображению большей реалистичности.

В другом примере реализации изобретения текстовые данные также содержат метки эмоций и/или поз.

В другом примере реализации изобретения ИНС обучена на кадрах видеопотока произношения текста людьми и соответствующих этим кадрам скетчам.

В другом примере реализации изобретения сопоставление фрагментов аудио данных с ключевыми кадрами осуществляется на основании словаря, формируемого на основании видеопотока произношения текста людьми.

В другом примере реализации изобретения к кадрам видеопотока применяются методы обработки изображений, позволяющие уменьшить размытие изображения, вызываемое движением.

В другом примере реализации изобретения осуществляется отбор кадров с различающейся мимикой произношения одной фонемы.

В другом примере реализации изобретения дополнительно учитывается тип разделения текста.

В другом примере реализации изобретения при добавлении ключевых точек в словарь также осуществляется распознавание состояния моргания, причём, если присутствует моргание, но при этом отсутствует кадр, на котором глаз полностью закрыт, соответствующие верхнему веку ключевые точки будут смещены таким образом, чтобы обеспечить полное закрытие глаза.

В другом предпочтительном варианте осуществления изобретения заявлена система автоматизированного генерирования видеопотока с цифровым аватаром на основе текста, содержащая по меньшей мере один процессор и память, в которой хранятся машиночитаемые инструкции, которые при их выполнении процессором реализуют указанный выше способ.

На Фиг. 1 представлена схема пошагового выполнения способа.

На Фиг. 2 представлен пример формируемого скетча.

На Фиг. 1 представлен общий процесс выполнения заявленного способа 100 генерирования цифрового аватара. Способ представляет собой вычислительный процесс, реализуемый на одном или нескольких вычислительных устройствах, например, компьютере, сервере, серверном кластере, и может выполняться с помощью программных, или программно-аппаратных модулей, обеспечивающих выполнение заданного функционала.

На первом этапе 110 осуществляется получение и первичная обработка входных текстовых данных. Текстовые данные могут поступать из любого канала передачи информации, в том числе с помощью непосредственной загрузки, передачи из чата, пользовательский ввод и т.п. Далее текст разделяется на семантические единицы S в соответствии с паузами в произношении (например, пауза после точки, или между частями сложного предложения). Также при разделении учитывается тип разделения текстовой информации, например, новый параграф, новый абзац и др. Семантический анализ может быть реализован с помощью, например, решающих деревьев, либо иным известным из уровня техники методом, пригодным для выполнения данной функции.

На этапе 120 каждая семантическая единица S преобразуется в аудио данные A (аудиофайлы) с использованием нейронной сети, внешних систем озвучивания текста, либо иным известным из уровня техники методом. Получаемая последовательность аудиофайлов A, соответствующие им фрагменты текста T, а также информация о типе разделения семантических единиц B (новое предложение, новый параграф и т.д.) используются в последующем для генерации мимики цифрового аватара.

Далее на этапе 130 с помощью сверточной искусственной нейронной сети (ИНС) осуществляется разделение каждого аудиофайла A на фрагменты F таким образом, чтобы каждому фрагменту F соответствовала ровно одна фонема, причём на вход ИНС также подаётся соответствующий аудиофайлу A текст T и тип разделения B. Выделение фонем F осуществляется с помощью ИНС, причём полученный вместе с аудиофайлом текст T также подаётся на вход нейронной сети, что повышает точность распознавания при наличии шума, или при изменении голоса.

После генерирования фрагментов F на этапе 140 осуществляется сопоставление ключевых кадров K, которые состоят из множества координат ключевых точек лица (положение глаз, бровей, носа, овала лица, внешней и внутренней границы губ) и тела (положение ладоней, локтей, плеч, туловища, колен, ступней), по словарю L, полученному в результате обучения вычислительной системы для реализации способа 100.

При этом сопоставление может осуществляться не только на основе текущего фрагмента F, но и на основе некоторого количества предыдущих фрагментов Fi-Fn, а также на основе положения фрагмента F в семантической единице S (первый, последний, или промежуточный), и/или на основе типа разделения B. Также вычисляется первый ключевой кадр K на основе предыдущего типа разделения (либо используется заданный в конфигурации нейтральный ключевой кадр NK, если предыдущий тип разделения отсутствует) и последний ключевой кадр K на основе текущего типа разделения.

После этого на этапе 150 на основе заданной в конфигурации частоты кадров генерируемого видео производится генерация кадров I путём интерполяции ключевых кадров K. При этом в зависимости от метода для интерполяции может быть использован один или более ключевой кадр K до и после интерполируемого кадра, причём для промежуточных кадров на границе семантической единицы S возможно использование отдельного метода интерполяции. При этом ключевые кадры K могут использоваться в качестве кадров I, если их временное положение (определяемое на основе продолжительности фрагментов F) кратно интервалу между кадрами генерируемого видео. Полученные кадры I преобразуются в скетчи D, где скетч – чёрно-белое изображение (Фиг. 2), состоящее из ключевых точек лица и тела, причём каждая группа точек лица дополнительно соединена сплайнами (соединены все точки, относящиеся к овалу лица, все точки, относящиеся к границам губ и т.д.), а различные точки тела соединены между собой сплайнами в соответствие с анатомической структурой тела (ладони соединены с локтями, локти с плечами и т.д.).

С помощью порождающей состязательной нейронной сети (СИНС) на этапе 160 по сформированной последовательности скетчей D и соответствующих им аудио фрагментов F генерируется последовательность фотореалистичных изображений P, содержащих визуальный образ цифрового аватара, мимика лица и поза которого соответствует скетчам D. При этом генерация может осуществляться на основе текущего скетча, одного или нескольких предыдущих скетчей и/или на основе одного или нескольких ранее сгенерированных фотореалистичных изображений.

Далее полученные изображения P и соответствующие им аудио фрагменты F используются на этапе 170 для объединения полученных фотореалистичных изображений P в видеопоток и соответствующих им аудио данных в аудиопоток. Последовательность изображений P и соответствующие им аудио фрагменты F объединяются изображений в видеопоток с заданной в конфигурации частотой кадров, а также объединение аудио фрагментов F в аудиопоток. При этом на этапе 180 осуществляется проверка синхронизации аудио и видео на основе временного положения очередного изображения P и аудио фрагмента F, и если величина рассинхронизации превышает заданный в конфигурации порог, последующие аудио фрагменты растягиваются или сжимаются на заданную в конфигурации величину с сохранением тембра голоса, причём растяжение или сжатие прекращаются, когда величина рассинхронизации окажется меньше заданного в конфигурации порога. Получаемый в результате аудио-видео поток сохраняется в виде файла, либо передаётся в виде потокового видео на заданное устройство.

Подготовка данных для использования в настоящем способе 100, а также для обучения сверточной ИНС, равно как и СИНС, может осуществляться с помощью программного модуля, реализующего подсистему обучения. При получении видеозаписи, на которой актёр/актриса произносят текст, произношение которого включает все фонемы языка и типы разделения не менее определённого количества раз, подсистема обучения, используя, например, преобразование Фурье, нейронную сеть, внешнюю систему обработки изображений, либо иной известный из уровня техники метод, уменьшает размытие изображения, вызываемое движением актёра/актрисы во время съёмки видео. Далее из всех кадров видеозаписи выбирается заданное количество кадров таким образом, чтобы мимика актёра/актрисы отличалась наиболее существенным образом (была разнообразной), после чего на выбранных кадрах осуществляется разметка ключевых точек лица и тела.

Выбор кадров и разметка ключевых точек может осуществляться при помощи экспертного анализа, либо с использованием тех или иных методов распознавания лиц, поз и анализа изображений. Затем на основе размеченных кадров, используя, например, гистограммы направленных градиентов с линейным классификатором с применением метода скользящего окна, внешней системы отслеживания движения, либо иным известным из уровня техники методом, осуществляется разметка ключевых точек для всех остальных кадров видеозаписи. После этого осуществляется выбор ключевых кадров, соответствующих каждой из фонем и каждому из типов разделений. Кадр не считается ключевым, если положение ключевых точек этого кадра может быть получено с заданной точностью путём интерполяции положения ключевых точек предыдущего и последующего ключевых кадров.

На основе ключевых точек ключевых кадров строится словарь L, причём одной фонеме может соответствовать либо одна последовательность кадров (например, среднее между всеми вариантами), либо несколько (в этом случае при использовании словаря будет выбираться либо один из вариантов путем последовательного перебора, случайно или иным образом, либо та или иная комбинация имеющихся вариантов). Также на основе скетчей и соответствующих им изображений осуществляется обучение используемой в подсистеме генерации кадров видеопотока сверточной ИНС.

При генерации кадров I также сохраняется вектор перемещения каждой из ключевых точек лица и тела. Информация о векторах перемещения используется на этапе генерации фотореалистичных изображений P для размытия движения различных областей лица и тела с целью придания изображению большей реалистичности.

В тексте могут также присутствовать метки эмоций и/или метки позы, которые используются при разделении текста на семантические единицы, преобразовании текста в аудио A, при выборе ключевых кадров K из словаря L, а также на этапе генерации фотореалистичных изображений P.

Также, при добавлении ключевых точек в словарь L осуществляется распознавание состояния моргания, причём, если присутствует моргание, но при этом отсутствует кадр, на котором глаз полностью закрыт, соответствующие верхнему веку ключевые точки будут смещены таким образом, чтобы обеспечить полное закрытие глаза.

Вышеописанный способ генерации цифрового аватара 100 может быть реализован с помощью стандартных средств обработки данных, осуществляемых с помощью одного нескольких процессоров с помощью реализации программных команд и инструкций. Способ 100 целиком, равно как и каждый из этапов 110-170, может выполняться как на одном компьютерном устройстве, так и на различных устройствах, объединенных в единую систему или посредством сети передачи данных, например, Интранет и/или Интернет.

Из изложенного выше специалисту будет понятно, что заявленное изобретение не требует предварительной подготовки большого объёма разнообразных данных, не допускает генерации изображения с нереалистично сочетающимися компонентами (частями лица и тела цифрового аватара), не полагается на определённый вид голосового ввода и не накладывает существенных ограничений на позу актёра или актрисы в видео, используемом для обучения системы генерирования, что позволяет путем реализации вышеописанных этапов повысить итоговое качество и реалистичность формирования цифрового аватара.

Хотя выше был описан предпочтительный вариант осуществления настоящего изобретения, специалисту будет понятно, что настоящее изобретение не ограничено этим предпочтительным вариантом осуществления. Более того, различные изменения и модификации могут быть выполнены в пределах сущности и объёма настоящего изобретения, как определено в следующей ниже формуле изобретения.

Claims

1. Способ автоматизированного генерирования видеопотока с цифровым аватаром на основе текста, выполняемый с помощью компьютерного устройства, характеризующийся тем, что содержит этапы, на которых:

получают текстовые данные и осуществляют их разделение на семантические единицы, при этом разделение осуществляется в соответствии с паузами в произношении и типом разделения, представляющее собой по меньшей мере одно из: новый параграф или новое предложение;

преобразуют полученные семантические единицы в аудиоданные;

с помощью обученной искусственной нейронной сети (ИНС) осуществляют разделение преобразованных аудиоданных на фрагменты таким образом, чтобы каждому фрагменту соответствовала ровно одна фонема, причём на вход ИНС также подаётся текст, соответствующий аудиоданным;

осуществляют генерацию кадров с помощью интерполяции ключевых кадров и осуществляют их преобразование в последовательность скетчей, представляющих собой чёрно-белые изображения, состоящие из ключевых точек лица и тела, причём каждая группа ключевых точек лица дополнительно соединена сплайнами, а различные ключевые точки тела соединены сплайнами в соответствии с анатомической структурой тела;

обрабатывают с помощью состязательной ИНС (СИНС) полученную последовательность скетчей и соответствующие им фрагменты аудиоданных и формируют последовательность фотореалистичных изображений, содержащих визуальный образ цифрового аватара, мимика лица и поза которого соответствует полученным скетчам;

осуществляют объединение полученных фотореалистичных изображений в видеопоток и соответствующих им аудиоданных в аудиопоток;

выполняют проверку синхронизации полученных видеопотока и аудиопотока на основании временного положения очередного фотореалистичного изображения и аудиофрагмента, и если величина рассинхронизации превышает заданное пороговое значение, то последующие аудиофрагменты растягиваются или сжимаются на заданную величину с сохранением тембра голоса, причём растяжение или сжатие прекращается, когда величина рассинхронизации окажется меньше заданного порогового значения.

2. Способ по п.1, в котором сопоставление фрагментов аудиоданных с ключевыми кадрами осуществляется на основании текущего фрагмента или нескольких предыдущих фрагментов.

3. Способ по п.2, в котором учитывается положение фрагмента в семантической единице и/или тип разделения.

4. Способ по п.3, в котором на основании типа разделения происходит определение первого и последнего ключевых кадров.

5. Способ по п.1, в котором интерполяция осуществляется на основе одного или более ключевого кадра до и после интерполируемого кадра.

6. Способ по п.5, в котором для кадров на границе семантической единицы применяется отдельный метод интерполяции.

7. Способ по п.1, в котором генерация фотореалистичного изображения осуществляется на основе текущего скетча, одного или нескольких предыдущих скетчей и/или на основе одного или нескольких ранее сгенерированных фотореалистичных изображений.

8. Способ по п.1, в котором при генерации кадров сохраняется вектор перемещения каждой из ключевых точек лица и тела.

9. Способ по п.8, в котором информация о векторах перемещения используется на этапе генерации фотореалистичных изображений для размытия движения различных областей лица и тела с целью придания изображению большей реалистичности.

10. Способ по п.1, в котором текстовые данные также содержат метки эмоций и/или поз.

11. Способ по п.1, в котором ИНС обучена на кадрах видеопотока произношения текста людьми и соответствующих этим кадрам скетчам.

12. Способ по п.1, в котором сопоставление фрагментов аудиоданных с ключевыми кадрами осуществляется на основании словаря, формируемого на основании видеопотока произношения текста людьми.

13. Способ по любому из пп.11-12, в котором к кадрам видеопотока применяются методы обработки изображений, позволяющие уменьшить размытие изображения, вызываемое движением.

14. Способ по любому из пп.11-12, в котором осуществляется отбор кадров с различающейся мимикой произношения одной фонемы.

15. Способ по п.14, в котором дополнительно учитывается тип разделения текста.

16. Способ по п.12, в котором при добавлении ключевых точек в словарь также осуществляется распознавание состояния моргания, причём, если присутствует моргание, но при этом отсутствует кадр, на котором глаз полностью закрыт, соответствующие верхнему веку ключевые точки будут смещены таким образом, чтобы обеспечить полное закрытие глаза.

17. Система автоматизированного генерирования видеопотока с цифровым аватаром на основе текста, характеризующаяся тем, что содержит по меньшей мере один процессор и память, в которой хранятся машиночитаемые инструкции, которые при их выполнении процессором реализуют способ по любому из пп. 1-16.