RU2748779C1 - Способ и система автоматизированного генерирования видеопотока с цифровым аватаром на основе текста - Google Patents

Способ и система автоматизированного генерирования видеопотока с цифровым аватаром на основе текста Download PDF

Info

Publication number
RU2748779C1
RU2748779C1 RU2020135847A RU2020135847A RU2748779C1 RU 2748779 C1 RU2748779 C1 RU 2748779C1 RU 2020135847 A RU2020135847 A RU 2020135847A RU 2020135847 A RU2020135847 A RU 2020135847A RU 2748779 C1 RU2748779 C1 RU 2748779C1
Authority
RU
Russia
Prior art keywords
frames
video stream
text
audio data
audio
Prior art date
Application number
RU2020135847A
Other languages
English (en)
Inventor
Александр Владимирович Зырянов
Александр Николаевич Куриленков
Сергей Владимирович Ивленков
Максим Александрович Левин
Original Assignee
Общество с ограниченной ответственностью "СДН-видео"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Общество с ограниченной ответственностью "СДН-видео" filed Critical Общество с ограниченной ответственностью "СДН-видео"
Priority to RU2020135847A priority Critical patent/RU2748779C1/ru
Application granted granted Critical
Publication of RU2748779C1 publication Critical patent/RU2748779C1/ru

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Processing Or Creating Images (AREA)

Abstract

Изобретение относится к области обработки изображений. Технический результат заключается в повышении точности генерирования аватара на основе текстовых данных. Способ содержит этапы, на которых: получают текстовые данные и осуществляют их разделение на семантические единицы, при этом разделение осуществляется в соответствии с паузами в произношении и типом разделения; преобразуют полученные семантические единицы в аудиоданные; с помощью обученной искусственной нейронной сети (ИНС) осуществляют разделение преобразованных аудиоданных на фрагменты; осуществляют сопоставление полученных фрагментов с ключевыми кадрами видеопотока; осуществляют генерацию кадров с помощью интерполяции ключевых кадров и осуществляют их преобразование в последовательность скетчей; обрабатывают с помощью состязательной ИНС (СИНС) полученную последовательность скетчей и соответствующие им фрагменты аудиоданных и формируют последовательность фотореалистичных изображений; осуществляют объединение полученных фотореалистичных изображений в видеопоток и соответствующих им аудиоданных в аудиопоток; выполняют проверку синхронизации полученных видеопотока и аудиопотока. 2 н. и 15 з.п. ф-лы, 2 ил.

Description

Заявленное изобретение относится к области обработки изображений, а более конкретно, к способу и системе автоматизированного генерирования видеопотока с цифровым аватаром на основе текста.
В последние годы генерация цифрового аватара оказывается всё более востребована: цифровые аватары используются при удалённом взаимодействии, в виде виртуальных помощников и гидов, в качестве ведущих новостей и презентеров, и во многих других областях. При этом существует несколько различных способов создания цифровых аватаров: от технологий захвата движений, когда действия актёра или актрисы преобразуются в действия цифрового аватара, до технологий автоматической генерации изображений.
Автоматическая генерация, как правило, предпочтительна, поскольку она проще в использовании и позволяет производить видео с цифровыми аватарами в больших объёмах и по более низкой стоимости. Однако автоматическая генерация подвержена таким проблемам, как неестественность генерируемой мимики или движений, рассинхронизация видео и аудио, и ряду других. В зависимости от метода эти недостатки преодолеваются за счёт использования большего объёма входных данных, применения более сложных алгоритмов обработки данных, или использования оператора для оценки и корректировки определённых стадий генерации видеопотока.
Известна система виртуальных фотореалистичных цифровых актеров для удаленного обслуживания клиентов (US 10163111 B2, 28.03.2014), осуществляющая генерацию видео с цифровым аватаром в реальном времени. Недостатком указанного способа является большой объём разнообразных данных, который необходимо подготовить перед началом использования системы. Также указанный способ генерирует элементы изображения (части лица и тела цифрового аватара) по отдельности с независимым друг от друга управлением, что может привести к нереалистично выглядящему итоговому изображению из-за неудачной комбинации элементов. Кроме того, указанный способ частично полагается на голосовые входные данные, что может понизить точность работы при использовании системы несколькими операторами с различными голосами. Также указанный способ накладывает существенные ограничения на позу актёра или актрисы в видео, используемом для обучения системы.
Другим известным решением является система формирования цифровых аватаров (US 20180174348 A1, 21.06.2018). Данный способ основывается на формировании ригов (англ. rig), по которым будет строиться мимика цифрового аватара с помощью моделей машинного обучения, обеспечивающих генерирование мимики по ключевым точкам лицевого скелета, соответствующим тем или иным словам/фразам. На основании ригов осуществляется синхронизация 3Д модели аватара и воспроизводимой речи для каждого кадра последовательности анимации аватара. Риги также отвечают за формирование 2Д семплов, формирующих анимацию 3Д аватара, учитывая специфику мимики в ответ на поступающую аудио данные, текст и видеоряд. Недостатком данного решения является невысокая относительная точность при конечном генерировании аватара.
Настоящее изобретение направлено на решение технической проблемы в части эффективного метода формирования цифрового аватара на основе текстовых данных.
Технический результат заключается в повышении точности генерирования аватара на основе текстовых данных.
В предпочтительном варианте осуществления изобретения заявлен способ автоматизированного генерирования видеопотока с цифровым аватаром на основе текста, выполняемый с помощью компьютерного устройства, при этом способ содержит этапы, на которых:
получают текстовые данные и осуществляют их разделение на семантические единицы, при этом разделение осуществляется в соответствии с паузами в произношении и типом разделения, представляющего собой по меньшей мере одно из: новый параграф или новое предложение;
преобразуют полученные семантические единицы в аудио данные;
с помощью обученной искусственной нейронной сети (ИНС) осуществляют разделение преобразованных аудио данных на фрагменты таким образом, чтобы каждому фрагменту соответствовала ровно одна фонема, причём на вход ИНС также подаётся текст, соответствующий аудио данным;
осуществляют сопоставление полученных фрагментов с ключевыми кадрами видеопотока, причем кадры состоят из множества координат ключевых точек лица и тела;
осуществляют генерацию кадров с помощью интерполяции ключевых кадров и осуществляют их преобразование в последовательность скетчей, представляющих собой чёрно-белое изображения, состоящие из ключевых точек лица и тела, причём каждая группа ключевых точек лица дополнительно соединена сплайнами, а различные ключевые точки тела соединены сплайнами в соответствии с анатомической структурой тела;
обрабатывают с помощью состязательной ИНС (СИНС) полученную последовательность скетчей и соответствующие им фрагменты аудио данных и формируют последовательность фотореалистичных изображений, содержащих визуальный образ цифрового аватара, мимика лица и поза которого соответствует полученным скетчам;
осуществляют объединение полученных фотореалистичных изображений в видеопоток и соответствующих им аудио данных в аудиопоток;
выполняют проверку синхронизации полученных видеопотока и аудиопотока на основании временного положения очередного фотореалистичного изображения и аудио фрагмента, и если величина рассинхронизации превышает заданное пороговое значение, то последующие аудио фрагменты растягиваются или сжимаются на заданную величину ссохранением тембра голоса, причём растяжение или сжатие прекращаются, когда величина рассинхронизации окажется меньше заданного порогового значения.
В одном из примеров реализации изобретения сопоставление фрагментов аудио данных с ключевыми кадрами осуществляется на основании текущего фрагмента, или нескольких предыдущих фрагментов.
В другом примере реализации изобретения учитывается положение фрагмента в семантической единице и/или тип разделения.
В другом примере реализации изобретения на основании типа разделения происходит определение первого и последнего ключевых кадров.
В другом примере реализации изобретения интерполяция осуществляется на основе одного или более ключевого кадра до и после интерполируемого кадра.
В другом примере реализации изобретения для кадров на границе семантической единицы применяется отдельный метод интерполяции.
В другом примере реализации изобретения генерация фотореалистичного изображения осуществляется на основе текущего скетча, одного или нескольких предыдущих скетчей и/или на основе одного или нескольких ранее сгенерированных фотореалистичных изображений.
В другом примере реализации изобретения при генерации кадров сохраняется вектор перемещения каждой из ключевых точек лица и тела.
В другом примере реализации изобретения информация о векторах перемещения используется на этапе генерации фотореалистичных изображений для размытия движения различных областей лица и тела с целью придания изображению большей реалистичности.
В другом примере реализации изобретения текстовые данные также содержат метки эмоций и/или поз.
В другом примере реализации изобретения ИНС обучена на кадрах видеопотока произношения текста людьми и соответствующих этим кадрам скетчам.
В другом примере реализации изобретения сопоставление фрагментов аудио данных с ключевыми кадрами осуществляется на основании словаря, формируемого на основании видеопотока произношения текста людьми.
В другом примере реализации изобретения к кадрам видеопотока применяются методы обработки изображений, позволяющие уменьшить размытие изображения, вызываемое движением.
В другом примере реализации изобретения осуществляется отбор кадров с различающейся мимикой произношения одной фонемы.
В другом примере реализации изобретения дополнительно учитывается тип разделения текста.
В другом примере реализации изобретения при добавлении ключевых точек в словарь также осуществляется распознавание состояния моргания, причём, если присутствует моргание, но при этом отсутствует кадр, на котором глаз полностью закрыт, соответствующие верхнему веку ключевые точки будут смещены таким образом, чтобы обеспечить полное закрытие глаза.
В другом предпочтительном варианте осуществления изобретения заявлена система автоматизированного генерирования видеопотока с цифровым аватаром на основе текста, содержащая по меньшей мере один процессор и память, в которой хранятся машиночитаемые инструкции, которые при их выполнении процессором реализуют указанный выше способ.
На Фиг. 1 представлена схема пошагового выполнения способа.
На Фиг. 2 представлен пример формируемого скетча.
На Фиг. 1 представлен общий процесс выполнения заявленного способа 100 генерирования цифрового аватара. Способ представляет собой вычислительный процесс, реализуемый на одном или нескольких вычислительных устройствах, например, компьютере, сервере, серверном кластере, и может выполняться с помощью программных, или программно-аппаратных модулей, обеспечивающих выполнение заданного функционала.
На первом этапе 110 осуществляется получение и первичная обработка входных текстовых данных. Текстовые данные могут поступать из любого канала передачи информации, в том числе с помощью непосредственной загрузки, передачи из чата, пользовательский ввод и т.п. Далее текст разделяется на семантические единицы S в соответствии с паузами в произношении (например, пауза после точки, или между частями сложного предложения). Также при разделении учитывается тип разделения текстовой информации, например, новый параграф, новый абзац и др. Семантический анализ может быть реализован с помощью, например, решающих деревьев, либо иным известным из уровня техники методом, пригодным для выполнения данной функции.
На этапе 120 каждая семантическая единица S преобразуется в аудио данные A (аудиофайлы) с использованием нейронной сети, внешних систем озвучивания текста, либо иным известным из уровня техники методом. Получаемая последовательность аудиофайлов A, соответствующие им фрагменты текста T, а также информация о типе разделения семантических единиц B (новое предложение, новый параграф и т.д.) используются в последующем для генерации мимики цифрового аватара.
Далее на этапе 130 с помощью сверточной искусственной нейронной сети (ИНС) осуществляется разделение каждого аудиофайла A на фрагменты F таким образом, чтобы каждому фрагменту F соответствовала ровно одна фонема, причём на вход ИНС также подаётся соответствующий аудиофайлу A текст T и тип разделения B. Выделение фонем F осуществляется с помощью ИНС, причём полученный вместе с аудиофайлом текст T также подаётся на вход нейронной сети, что повышает точность распознавания при наличии шума, или при изменении голоса.
После генерирования фрагментов F на этапе 140 осуществляется сопоставление ключевых кадров K, которые состоят из множества координат ключевых точек лица (положение глаз, бровей, носа, овала лица, внешней и внутренней границы губ) и тела (положение ладоней, локтей, плеч, туловища, колен, ступней), по словарю L, полученному в результате обучения вычислительной системы для реализации способа 100.
При этом сопоставление может осуществляться не только на основе текущего фрагмента F, но и на основе некоторого количества предыдущих фрагментов Fi-Fn, а также на основе положения фрагмента F в семантической единице S (первый, последний, или промежуточный), и/или на основе типа разделения B. Также вычисляется первый ключевой кадр K на основе предыдущего типа разделения (либо используется заданный в конфигурации нейтральный ключевой кадр NK, если предыдущий тип разделения отсутствует) и последний ключевой кадр K на основе текущего типа разделения.
После этого на этапе 150 на основе заданной в конфигурации частоты кадров генерируемого видео производится генерация кадров I путём интерполяции ключевых кадров K. При этом в зависимости от метода для интерполяции может быть использован один или более ключевой кадр K до и после интерполируемого кадра, причём для промежуточных кадров на границе семантической единицы S возможно использование отдельного метода интерполяции. При этом ключевые кадры K могут использоваться в качестве кадров I, если их временное положение (определяемое на основе продолжительности фрагментов F) кратно интервалу между кадрами генерируемого видео. Полученные кадры I преобразуются в скетчи D, где скетч – чёрно-белое изображение (Фиг. 2), состоящее из ключевых точек лица и тела, причём каждая группа точек лица дополнительно соединена сплайнами (соединены все точки, относящиеся к овалу лица, все точки, относящиеся к границам губ и т.д.), а различные точки тела соединены между собой сплайнами в соответствие с анатомической структурой тела (ладони соединены с локтями, локти с плечами и т.д.).
С помощью порождающей состязательной нейронной сети (СИНС) на этапе 160 по сформированной последовательности скетчей D и соответствующих им аудио фрагментов F генерируется последовательность фотореалистичных изображений P, содержащих визуальный образ цифрового аватара, мимика лица и поза которого соответствует скетчам D. При этом генерация может осуществляться на основе текущего скетча, одного или нескольких предыдущих скетчей и/или на основе одного или нескольких ранее сгенерированных фотореалистичных изображений.
Далее полученные изображения P и соответствующие им аудио фрагменты F используются на этапе 170 для объединения полученных фотореалистичных изображений P в видеопоток и соответствующих им аудио данных в аудиопоток. Последовательность изображений P и соответствующие им аудио фрагменты F объединяются изображений в видеопоток с заданной в конфигурации частотой кадров, а также объединение аудио фрагментов F в аудиопоток. При этом на этапе 180 осуществляется проверка синхронизации аудио и видео на основе временного положения очередного изображения P и аудио фрагмента F, и если величина рассинхронизации превышает заданный в конфигурации порог, последующие аудио фрагменты растягиваются или сжимаются на заданную в конфигурации величину с сохранением тембра голоса, причём растяжение или сжатие прекращаются, когда величина рассинхронизации окажется меньше заданного в конфигурации порога. Получаемый в результате аудио-видео поток сохраняется в виде файла, либо передаётся в виде потокового видео на заданное устройство.
Подготовка данных для использования в настоящем способе 100, а также для обучения сверточной ИНС, равно как и СИНС, может осуществляться с помощью программного модуля, реализующего подсистему обучения. При получении видеозаписи, на которой актёр/актриса произносят текст, произношение которого включает все фонемы языка и типы разделения не менее определённого количества раз, подсистема обучения, используя, например, преобразование Фурье, нейронную сеть, внешнюю систему обработки изображений, либо иной известный из уровня техники метод, уменьшает размытие изображения, вызываемое движением актёра/актрисы во время съёмки видео. Далее из всех кадров видеозаписи выбирается заданное количество кадров таким образом, чтобы мимика актёра/актрисы отличалась наиболее существенным образом (была разнообразной), после чего на выбранных кадрах осуществляется разметка ключевых точек лица и тела.
Выбор кадров и разметка ключевых точек может осуществляться при помощи экспертного анализа, либо с использованием тех или иных методов распознавания лиц, поз и анализа изображений. Затем на основе размеченных кадров, используя, например, гистограммы направленных градиентов с линейным классификатором с применением метода скользящего окна, внешней системы отслеживания движения, либо иным известным из уровня техники методом, осуществляется разметка ключевых точек для всех остальных кадров видеозаписи. После этого осуществляется выбор ключевых кадров, соответствующих каждой из фонем и каждому из типов разделений. Кадр не считается ключевым, если положение ключевых точек этого кадра может быть получено с заданной точностью путём интерполяции положения ключевых точек предыдущего и последующего ключевых кадров.
На основе ключевых точек ключевых кадров строится словарь L, причём одной фонеме может соответствовать либо одна последовательность кадров (например, среднее между всеми вариантами), либо несколько (в этом случае при использовании словаря будет выбираться либо один из вариантов путем последовательного перебора, случайно или иным образом, либо та или иная комбинация имеющихся вариантов). Также на основе скетчей и соответствующих им изображений осуществляется обучение используемой в подсистеме генерации кадров видеопотока сверточной ИНС.
При генерации кадров I также сохраняется вектор перемещения каждой из ключевых точек лица и тела. Информация о векторах перемещения используется на этапе генерации фотореалистичных изображений P для размытия движения различных областей лица и тела с целью придания изображению большей реалистичности.
В тексте могут также присутствовать метки эмоций и/или метки позы, которые используются при разделении текста на семантические единицы, преобразовании текста в аудио A, при выборе ключевых кадров K из словаря L, а также на этапе генерации фотореалистичных изображений P.
Также, при добавлении ключевых точек в словарь L осуществляется распознавание состояния моргания, причём, если присутствует моргание, но при этом отсутствует кадр, на котором глаз полностью закрыт, соответствующие верхнему веку ключевые точки будут смещены таким образом, чтобы обеспечить полное закрытие глаза.
Вышеописанный способ генерации цифрового аватара 100 может быть реализован с помощью стандартных средств обработки данных, осуществляемых с помощью одного нескольких процессоров с помощью реализации программных команд и инструкций. Способ 100 целиком, равно как и каждый из этапов 110-170, может выполняться как на одном компьютерном устройстве, так и на различных устройствах, объединенных в единую систему или посредством сети передачи данных, например, Интранет и/или Интернет.
Из изложенного выше специалисту будет понятно, что заявленное изобретение не требует предварительной подготовки большого объёма разнообразных данных, не допускает генерации изображения с нереалистично сочетающимися компонентами (частями лица и тела цифрового аватара), не полагается на определённый вид голосового ввода и не накладывает существенных ограничений на позу актёра или актрисы в видео, используемом для обучения системы генерирования, что позволяет путем реализации вышеописанных этапов повысить итоговое качество и реалистичность формирования цифрового аватара.
Хотя выше был описан предпочтительный вариант осуществления настоящего изобретения, специалисту будет понятно, что настоящее изобретение не ограничено этим предпочтительным вариантом осуществления. Более того, различные изменения и модификации могут быть выполнены в пределах сущности и объёма настоящего изобретения, как определено в следующей ниже формуле изобретения.

Claims (25)

1. Способ автоматизированного генерирования видеопотока с цифровым аватаром на основе текста, выполняемый с помощью компьютерного устройства, характеризующийся тем, что содержит этапы, на которых:
получают текстовые данные и осуществляют их разделение на семантические единицы, при этом разделение осуществляется в соответствии с паузами в произношении и типом разделения, представляющее собой по меньшей мере одно из: новый параграф или новое предложение;
преобразуют полученные семантические единицы в аудиоданные;
с помощью обученной искусственной нейронной сети (ИНС) осуществляют разделение преобразованных аудиоданных на фрагменты таким образом, чтобы каждому фрагменту соответствовала ровно одна фонема, причём на вход ИНС также подаётся текст, соответствующий аудиоданным;
осуществляют сопоставление полученных фрагментов с ключевыми кадрами видеопотока, причем кадры состоят из множества координат ключевых точек лица и тела;
осуществляют генерацию кадров с помощью интерполяции ключевых кадров и осуществляют их преобразование в последовательность скетчей, представляющих собой чёрно-белые изображения, состоящие из ключевых точек лица и тела, причём каждая группа ключевых точек лица дополнительно соединена сплайнами, а различные ключевые точки тела соединены сплайнами в соответствии с анатомической структурой тела;
обрабатывают с помощью состязательной ИНС (СИНС) полученную последовательность скетчей и соответствующие им фрагменты аудиоданных и формируют последовательность фотореалистичных изображений, содержащих визуальный образ цифрового аватара, мимика лица и поза которого соответствует полученным скетчам;
осуществляют объединение полученных фотореалистичных изображений в видеопоток и соответствующих им аудиоданных в аудиопоток;
выполняют проверку синхронизации полученных видеопотока и аудиопотока на основании временного положения очередного фотореалистичного изображения и аудиофрагмента, и если величина рассинхронизации превышает заданное пороговое значение, то последующие аудиофрагменты растягиваются или сжимаются на заданную величину с сохранением тембра голоса, причём растяжение или сжатие прекращается, когда величина рассинхронизации окажется меньше заданного порогового значения.
2. Способ по п.1, в котором сопоставление фрагментов аудиоданных с ключевыми кадрами осуществляется на основании текущего фрагмента или нескольких предыдущих фрагментов.
3. Способ по п.2, в котором учитывается положение фрагмента в семантической единице и/или тип разделения.
4. Способ по п.3, в котором на основании типа разделения происходит определение первого и последнего ключевых кадров.
5. Способ по п.1, в котором интерполяция осуществляется на основе одного или более ключевого кадра до и после интерполируемого кадра.
6. Способ по п.5, в котором для кадров на границе семантической единицы применяется отдельный метод интерполяции.
7. Способ по п.1, в котором генерация фотореалистичного изображения осуществляется на основе текущего скетча, одного или нескольких предыдущих скетчей и/или на основе одного или нескольких ранее сгенерированных фотореалистичных изображений.
8. Способ по п.1, в котором при генерации кадров сохраняется вектор перемещения каждой из ключевых точек лица и тела.
9. Способ по п.8, в котором информация о векторах перемещения используется на этапе генерации фотореалистичных изображений для размытия движения различных областей лица и тела с целью придания изображению большей реалистичности.
10. Способ по п.1, в котором текстовые данные также содержат метки эмоций и/или поз.
11. Способ по п.1, в котором ИНС обучена на кадрах видеопотока произношения текста людьми и соответствующих этим кадрам скетчам.
12. Способ по п.1, в котором сопоставление фрагментов аудиоданных с ключевыми кадрами осуществляется на основании словаря, формируемого на основании видеопотока произношения текста людьми.
13. Способ по любому из пп.11-12, в котором к кадрам видеопотока применяются методы обработки изображений, позволяющие уменьшить размытие изображения, вызываемое движением.
14. Способ по любому из пп.11-12, в котором осуществляется отбор кадров с различающейся мимикой произношения одной фонемы.
15. Способ по п.14, в котором дополнительно учитывается тип разделения текста.
16. Способ по п.12, в котором при добавлении ключевых точек в словарь также осуществляется распознавание состояния моргания, причём, если присутствует моргание, но при этом отсутствует кадр, на котором глаз полностью закрыт, соответствующие верхнему веку ключевые точки будут смещены таким образом, чтобы обеспечить полное закрытие глаза.
17. Система автоматизированного генерирования видеопотока с цифровым аватаром на основе текста, характеризующаяся тем, что содержит по меньшей мере один процессор и память, в которой хранятся машиночитаемые инструкции, которые при их выполнении процессором реализуют способ по любому из пп. 1-16.
RU2020135847A 2020-10-30 2020-10-30 Способ и система автоматизированного генерирования видеопотока с цифровым аватаром на основе текста RU2748779C1 (ru)

Priority Applications (1)

Application Number Priority Date Filing Date Title
RU2020135847A RU2748779C1 (ru) 2020-10-30 2020-10-30 Способ и система автоматизированного генерирования видеопотока с цифровым аватаром на основе текста

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2020135847A RU2748779C1 (ru) 2020-10-30 2020-10-30 Способ и система автоматизированного генерирования видеопотока с цифровым аватаром на основе текста

Publications (1)

Publication Number Publication Date
RU2748779C1 true RU2748779C1 (ru) 2021-05-31

Family

ID=76301429

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2020135847A RU2748779C1 (ru) 2020-10-30 2020-10-30 Способ и система автоматизированного генерирования видеопотока с цифровым аватаром на основе текста

Country Status (1)

Country Link
RU (1) RU2748779C1 (ru)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120130717A1 (en) * 2010-11-19 2012-05-24 Microsoft Corporation Real-time Animation for an Expressive Avatar
US20170308904A1 (en) * 2014-03-28 2017-10-26 Ratnakumar Navaratnam Virtual Photorealistic Digital Actor System for Remote Service of Customers
US20180174348A1 (en) * 2016-06-23 2018-06-21 LoomAi, Inc. Systems and Methods for Animating Models from Audio Data
US20190147838A1 (en) * 2014-08-22 2019-05-16 Zya, Inc. Systems and methods for generating animated multimedia compositions
RU2723454C1 (ru) * 2019-12-27 2020-06-11 Публичное Акционерное Общество "Сбербанк России" (Пао Сбербанк) Способ и система для создания мимики на основе текста

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120130717A1 (en) * 2010-11-19 2012-05-24 Microsoft Corporation Real-time Animation for an Expressive Avatar
US20170308904A1 (en) * 2014-03-28 2017-10-26 Ratnakumar Navaratnam Virtual Photorealistic Digital Actor System for Remote Service of Customers
US20190147838A1 (en) * 2014-08-22 2019-05-16 Zya, Inc. Systems and methods for generating animated multimedia compositions
US20180174348A1 (en) * 2016-06-23 2018-06-21 LoomAi, Inc. Systems and Methods for Animating Models from Audio Data
RU2723454C1 (ru) * 2019-12-27 2020-06-11 Публичное Акционерное Общество "Сбербанк России" (Пао Сбербанк) Способ и система для создания мимики на основе текста

Similar Documents

Publication Publication Date Title
Kucherenko et al. Gesticulator: A framework for semantically-aware speech-driven gesture generation
JP7210774B2 (ja) テキストに基づくアバターの行動制御方法、デバイス及びコンピュータプログラム
CN111145322B (zh) 用于驱动虚拟形象的方法、设备和计算机可读存储介质
WO2021169431A1 (zh) 交互方法、装置、电子设备以及存储介质
CN110866968A (zh) 基于神经网络生成虚拟人物视频的方法及相关设备
WO2022048405A1 (zh) 基于文本的虚拟对象动画生成方法及装置、存储介质、终端
Sadoughi et al. Speech-driven expressive talking lips with conditional sequential generative adversarial networks
WO2021196643A1 (zh) 交互对象的驱动方法、装置、设备以及存储介质
US11551393B2 (en) Systems and methods for animation generation
CN111383307A (zh) 基于人像的视频生成方法及设备、存储介质
Ma et al. Styletalk: One-shot talking head generation with controllable speaking styles
CN116250036A (zh) 用于合成语音的照片级真实感视频的系统和方法
CN112465935A (zh) 虚拟形象合成方法、装置、电子设备和存储介质
CN111459452B (zh) 交互对象的驱动方法、装置、设备以及存储介质
US11847726B2 (en) Method for outputting blend shape value, storage medium, and electronic device
CN111401101A (zh) 基于人像的视频生成系统
WO2023284435A1 (zh) 生成动画的方法及装置
CN114357135A (zh) 交互方法、交互装置、电子设备以及存储介质
Chu et al. A face-to-face neural conversation model
CN113903067A (zh) 虚拟对象视频的生成方法、装置、设备及介质
Rebol et al. Real-time gesture animation generation from speech for virtual human interaction
CN113314104A (zh) 交互对象驱动和音素处理方法、装置、设备以及存储介质
CN117528135A (zh) 语音驱动的脸部视频生成方法、装置、电子设备及介质
CN115937375B (zh) 数字分身合成方法、装置、计算机设备及存储介质
RU2748779C1 (ru) Способ и система автоматизированного генерирования видеопотока с цифровым аватаром на основе текста