RU2487411C2 - Способ и устройство для изменения формы губ и получения анимации губ в управляемой голосом анимации - Google Patents
Способ и устройство для изменения формы губ и получения анимации губ в управляемой голосом анимации Download PDFInfo
- Publication number
- RU2487411C2 RU2487411C2 RU2011124736/08A RU2011124736A RU2487411C2 RU 2487411 C2 RU2487411 C2 RU 2487411C2 RU 2011124736/08 A RU2011124736/08 A RU 2011124736/08A RU 2011124736 A RU2011124736 A RU 2011124736A RU 2487411 C2 RU2487411 C2 RU 2487411C2
- Authority
- RU
- Russia
- Prior art keywords
- shape
- lip
- model
- value
- lips
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 230000008859 change Effects 0.000 claims abstract description 105
- 230000005236 sound signal Effects 0.000 claims abstract description 58
- 238000006073 displacement reaction Methods 0.000 claims description 30
- 230000008569 process Effects 0.000 claims description 8
- 238000005070 sampling Methods 0.000 claims description 7
- 230000007423 decrease Effects 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 abstract description 8
- 239000000126 substance Substances 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 5
- 238000004519 manufacturing process Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 150000001875 compounds Chemical class 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/80—2D [Two Dimensional] animation, e.g. using sprites
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/205—3D [Three Dimensional] animation driven by audio data
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
- G10L2021/105—Synthesis of the lips movements from speech, e.g. for talking heads
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Processing Or Creating Images (AREA)
Abstract
Изобретение относится к области компьютерных технологий и раскрывает способ и устройство для изменения формы губ и получения анимации губ в управляемой голосом анимации. Технический результат заключается в упрощении алгоритма изменения формы губ в управляемой голосом анимации. Такой результат достигается за счет того, что способ изменения формы губ включает: получение аудиосигналов и получение пропорциональной величины изменения формы губ на основе характеристик этих аудиосигналов; получение введенной пользователем модели исходной формы губ, а также генерацию величины изменения формы губ согласно модели исходной формы губ и полученной пропорциональной величине изменения формы губ и генерацию набора сеточных моделей формы губ согласно полученной величине изменения формы губ и предварительно сконфигурированной библиотеке моделей артикуляции губ. Устройство для изменения формы губ в управляемой голосом анимации содержит модуль получения, первый модуль генерации и второй модуль генерации. 4 н. и 12 з.п. ф-лы, 8 ил.
Description
Область техники
Изобретение относится к технологиям видеоанимации, а более конкретно - к способу и устройству для изменения формы губ и получения анимации губ в управляемой голосом анимации.
Уровень техники
Система Интерактивного Речевого Ответа (система ИРО) представляет собой продукт, основанный на передаче голоса. Большинство пользователей сети Интернет пользуются средствами самопредставления и отображения индивидуальности. Поэтому необходимы технологические и концептуальные усовершенствования системы ИРО, например, для улучшения выразительности голоса, что можно обеспечить при помощи технологий видеоанимации. В качестве платформы для технологии видеоанимации можно использовать мобильный телефон или веб-страницу, на которых можно осуществлять конфигурирование голоса с использованием самоопределяемой видеоанимации, чтобы тем самым придать голосу выразительность.
Одной из важных технологий видеоанимации является технология изменения формы губ в управляемой голосом анимации. Из уровня техники известно решение, согласно которому аудиосигналам путем использования режима машинного самообучения сопоставляются формы губ в параметрах анимации лица. Однако это техническое решение характеризуется сложностью алгоритма и высокой стоимостью вычислений.
Сущность изобретения
Задача настоящего изобретения заключается в разработке таких способа и устройства для изменения формы губ и получения анимации губ в управляемой голосом анимации, которые характеризовались бы упрощенным алгоритмом изменения формы губ в управляемой голосом анимации и уменьшенной стоимостью вычислений.
Сущность предложенных решений пояснена ниже.
Настоящее изобретение относится к способу изменения формы губ в управляемой голосом анимации, включающему:
получение аудиосигналов и получение пропорциональной величины изменения формы губ на основе характеристик этих аудиосигналов;
получение введенной пользователем модели исходной формы губ, а также генерацию величины изменения формы губ согласно модели исходной формы губ и полученной пропорциональной величине изменения формы губ
и генерацию набора сеточных моделей формы губ согласно сгенерированной величине изменения формы губ и предварительно сконфигурированной библиотеке моделей артикуляции губ.
Кроме того, изобретение относится к устройству для изменения формы губ в управляемой голосом анимации, содержащему:
модуль получения, выполненный с возможностью получения аудиосигналов и получения пропорциональной величины изменения формы губ на основе характеристик этих аудиосигналов;
первый модуль генерации, выполненный с возможностью получения введенной пользователем модели исходной формы губ, а также с возможностью генерации величины изменения формы губ согласно модели исходной формы губ и полученной пропорциональной величине изменения формы губ;
и второй модуль генерации, выполненный с возможностью генерации набора сеточных моделей формы губ согласно сгенерированной величине изменения формы губ и предварительно сконфигурированной библиотеке моделей артикуляции губ.
В соответствии с настоящим изобретением, изменение формы губ производят на основе голоса с использованием библиотеки моделей артикуляции губ; по сравнению с известным уровнем техники решения, предложенные в рамках настоящего изобретения, отличаются простым алгоритмом и низкой стоимостью.
Также изобретение относится к способу получения анимации губ в управляемой голосом анимации, включающему:
получение аудиосигналов и получение пропорциональной величины изменения формы губ на основе характеристик этих аудиосигналов;
получение введенной пользователем модели исходной формы губ, а также генерацию величины изменения формы губ согласно модели исходной формы губ и полученной пропорциональной величине изменения формы губ;
генерацию набора сеточных моделей формы губ согласно сгенерированной величине изменения формы губ и предварительно сконфигурированной библиотеке моделей артикуляции губ
и генерацию анимации губ согласно набору сеточных моделей формы губ.
Наконец, изобретение также относится к устройству для получения анимации губ в управляемой голосом анимации, содержащему:
модуль получения, выполненный с возможностью получения аудиосигналов и получения пропорциональной величины изменения формы губ на основе характеристик этих аудиосигналов;
первый модуль генерации, выполненный с возможностью получения введенной пользователем модели исходной формы губ, а также с возможностью генерации величины изменения формы губ согласно модели исходной формы губ и полученной пропорциональной величине изменения формы губ;
второй модуль генерации, выполненный с возможностью генерации набора сеточных моделей формы губ согласно сгенерированной величине изменения формы губ и предварительно сконфигурированной библиотеке моделей артикуляции губ;
и третий модуль генерации, выполненный с возможностью генерации анимации губ согласно набору сеточных моделей формы губ.
В соответствии с настоящим изобретением, изменение формы губ производят на основе голоса с использованием библиотеки моделей артикуляции губ; по сравнению с известным уровнем техники решения, предложенные в рамках настоящего изобретения, отличаются простым алгоритмом и низкой стоимостью.
Краткое описание чертежей
Ниже приведено краткое описание чертежей, иллюстрирующих аспекты настоящего изобретения, а также примеры, характеризующие известный уровень техники. Разумеется, описанные ниже чертежи относятся не ко всем, а только к некоторым вариантам изобретения, но специалистам данной области техники должно быть понятно, что на основе этих чертежей можно получить и другие чертежи, причем выполняемые для этого действия не требуют от специалиста изобретательского шага.
Фиг.1 изображает блок-схему, иллюстрирующую способ изменения формы губ в управляемой голосом анимации, соответствующий первому аспекту изобретения.
Фиг.2 изображает соответствующую первому аспекту изобретения зависимость между количеством видеокадров и пропорциональной величиной изменения формы губ.
Фиг.3 изображает схему, иллюстрирующую библиотеку моделей артикуляции губ, соответствующую первому аспекту изобретения.
Фиг.4 изображает блок-схему, иллюстрирующую способ получения анимации губ в управляемой голосом анимации, соответствующий второму аспекту изобретения.
Фиг.5 изображает схему, иллюстрирующую устройство для изменения формы губ в управляемой голосом анимации, соответствующее третьему аспекту изобретения.
Фиг.6 изображает схему, иллюстрирующую другое устройство для изменения формы губ в управляемой голосом анимации, соответствующее третьему аспекту изобретения.
Фиг.7 изображает схему, иллюстрирующую еще одно устройство для изменения формы губ в управляемой голосом анимации, соответствующее третьему аспекту изобретения.
Фиг.8 изображает схему, иллюстрирующую устройство для получения анимации губ, соответствующее четвертому аспекту изобретения.
Подробное описание изобретения
Ниже изобретение описано более подробно со ссылкой на прилагаемые чертежи, поясняющие его назначение, преимущества и модификации. Разумеется, описанные ниже примеры являются только частными примерами изобретения, не исчерпывающими все его возможные варианты. Соответственно, объем правовой охраны изобретения распространяется и на другие варианты, которые основаны на раскрытых в заявке примерах осуществления и могут быть получены специалистами данной области техники без применения изобретательского шага.
Согласно первому аспекту изобретения, оно относится к способу изменения формы губ на основе голоса. Как показано на фиг.1, данный способ включает следующие этапы.
Этап 101: получают аудиосигналы и получают пропорциональную величину изменения формы губ на основе характеристик этих аудиосигналов.
Говоря более конкретно, этап, на котором получают пропорциональную величину изменения формы губ на основе характеристик аудиосигналов, включает нижеперечисленные этапы.
Этап 101А: анализируют аудиосигналы и получают максимальное значение maxSampleValue дискретных данных аудиосигналов.
Этап 101В: разделяют аудиосигналы по окнам, разделяют каждое окно на группы; получают среднее значение дискретных данных в каждой группе; получают среднее значение avgGroup группы в каждом окне, причем это среднее значение avgGroup группы состоит из средних значений, соответствующих группам в окне получают максимальное значение из средних значений avgGroup групп в каждом окне; и получают максимальное значение windowPeak по группам, которое содержит максимальные значения, соответствующие всем окнам.
Основной речевой единицей является слог. В частности, в китайском языке каждый слог соответствует одному типу формы губ, и при слитном произношении требуется 200-300 миллисекунд, чтобы произнести один слог. Во время произнесения каждого слога может происходить изменение голоса, поэтому необходимо разделять слог на фонемы. Согласно вышеизложенному принципу, полученные аудиосигналы разделяют по окнам, имеющим определенную длину, причем каждое окно соответствует одному слогу; далее каждое окно разделяют на группы, имеющие определенную длину, причем каждая группа соответствует одной фонеме. Предположим, что для произнесения слога требуется x секунд, а длина окна обозначается как WindowLen, тогда WindowLen=x*частота дискретизации аудиосигнала; предположим, что для произнесения фонемы требуется у секунд, а длина группы обозначается как GroupLen, тогда GroupLen=y*частота дискретизации аудиосигнала.
Говоря более конкретно, среднее значение дискретных данных в каждой группе определяют как сумму всех значений дискретных данных в группе, деленную на значение GroupLen, и это среднее значение используют в качестве среднего значения avgGroup группы; выбирают максимальное значение из средних значений avgGroup групп и используют как максимальное значение windowPeak по группам.
Если возникает необходимость исключить избыточность изменения формы губ и обеспечить плавность их изменения, то при получении аудиосигналов их обрабатывают для подавления шумов.
Этап 101С: получают максимальную величину изменения формы губ, соответствующую текущему окну, согласно полученному максимальному значению windowPeak по группам и полученному максимальному значению дискретных данных.
Говоря более конкретно, определяют среднее значение дискретных данных по каждой группе в текущем окне i(i≥0), определяют максимальное значение windowPeak[i] из средних значений, соответствующих группам в текущем окне i; вычисляют отношение scale[i] максимального значения windowPeak[i] к максимальному значению дискретных аудиоданных maxSampleValue. Для каждого значения scale[i] масштабируемой группы вычисляют максимальную величину extent[i] изменения формы губ, соответствующую текущему окну i, т.е. extent[i]=scale[i]*maxLen, где maxLen является максимальной величиной изменения формы губ по всем окнам.
Этап 101D: получают пропорциональную величину изменения формы губ в каждом видеокадре, соответствующем текущему окну, согласно максимальной величине изменения формы губ, соответствующей текущему окну.
Говоря более конкретно, определяют пропорциональную величину scaleForFrame[k] изменения формы губ в j-м видеокадре, соответствующем текущему окну i, т.е. scaleForFrame[k]=j*(scale[i]/(frameNumber/2)), где k=frameNumber*i+j, 0≤k< общее количество видеокадров, frameNumber является количеством видеокадров, соответствующих каждому окну, frameNumber=х*частота дискретизации видеосигнала, x является продолжительностью произнесения каждого слога. В данном варианте изобретения значение по умолчанию для частоты дискретизации видеосигнала составляет 30 кадров в секунду, причем это значение может быть изменено пользователем согласно требованиям; значение j увеличивается от 0 до frameNumber/2 и затем уменьшается от frameNumber/2 до 0, j является целым числом.
Этап 102: получают введенную пользователем модель исходной формы губ и генерируют величину изменения формы губ согласно модели исходной формы губ и полученной пропорциональной величине изменения формы губ.
Говоря более конкретно, величина изменения формы губ включает: величину изменения формы губ в вертикальном направлении и величину изменения формы губ в горизонтальном направлении; величина изменения в горизонтальном направлении равна Length*scaleForFrame[k], а величина изменения в вертикальном направлении равна Width*scaleForFrame[k], где 0≤k< общее количество видеокадров, при этом Length и Width являются, соответственно, длиной и шириной исходной формы губ.
Следует отметить, что введенная пользователем модель исходной формы губ может варьироваться в зависимости от целей применения.
Этап 103: генерируют набор сеточных моделей формы губ согласно полученной величине изменения формы губ и предварительно сконфигурированной библиотеке моделей артикуляции губ.
На этом этапе образуют библиотеку моделей артикуляции губ, основанную на особенностях произношения в китайском языке. В китайском языке слово состоит из начального согласного звука и гласного звука, поэтому форма губ в основном определяется произношением гласного звука. Гласные звуки подразделяются на одиночные гласные, сложные гласные и носовые гласные. Одиночный гласный звук состоит из одного гласного, и когда он произносится, форма губ остается неизменной. Сложный гласный звук состоит из двух или трех гласных, и когда он произносится, форма губ постепенно изменяется. При произнесении носового гласного звука форма губ изменяется незначительно. Следовательно, модели артикуляции, устанавливаемые для формы губ, в целом основываются на особенностях произношения одиночных гласных звуков. Произношение одиночных гласных звуков включает произношение звуков "а", "во", "э", "и", "у", "ю", представляющих шесть китайских символов, произношение которых соответствует одиночным гласным звукам. Звукам "у" и "ю" соответствуют одинаковые формы губ, поэтому эти два вида формы губ объединяются в один вид формы губ. Звукам "э" и "и" соответствуют одинаковые формы губ, поэтому эти два вида формы губ объединяются в один вид формы губ. Следовательно, в библиотеке моделей артикуляции губ содержатся четыре типа моделей артикуляции губ, используемые для представления формы губ при произношении одиночных гласных звуков (см. фиг.3). Библиотека моделей артикуляции губ должна содержать: одну модель исходной формы губ и различные модели артикуляции губ, установленные согласно вышеизложенному принципу и основанные на модели исходной формы губ. Следует отметить, что состав библиотеки моделей артикуляции губ не ограничивается только вышеуказанными четырьмя моделями артикуляции губ для одиночных гласных звуков. Модели артикуляции губ в библиотеке моделей артикуляции губ могут варьироваться в зависимости от особенностей произношения в различных языках. Например, согласно особенностям произношения в английском языке, в библиотеку моделей артикуляции губ включаются модели артикуляции губ, соответствующие гласным звукам "а", "е", "и", "о", "у" английского языка.
Говоря более конкретно, этап генерации набора сеточных моделей формы губ согласно величине изменения формы губ и предварительно сконфигурированной библиотеке моделей артикуляции губ, включает нижеперечисленные этапы.
Этап 103A: произвольным образом выбирают одну модель артикуляции губ из предварительно сконфигурированной библиотеки моделей артикуляции губ и принимают эту модель в качестве исходной модели артикуляции для текущей формы губ.
Этап 103В: получают вершины исходной модели артикуляции и модель исходной формы губ в библиотеке моделей артикуляции губ, вычисляют пропорциональную величину смещения для каждой вершины в исходной модели артикуляции. Говоря подробнее, смещение между вершиной z в исходной модели артикуляции и вершиной z в модели исходной формы губ в библиотеке моделей артикуляции губ составляет x_hor в горизонтальном направлении и y_ver в вертикальном направлении, причем пропорциональная величина смещения вершины z в горизонтальном направлении равна x_hor/modelLength, а пропорциональная величина смещения вершины z в вертикальном направлении равна y_ver/modelWidth, где modelLength и modelWidth являются, соответственно, длиной и шириной модели исходной формы губ в библиотеке моделей артикуляции губ, 0≤z<количество вершин в исходной модели артикуляции.
Этап 103С: получают смещения вершин в текущем видеокадре путем умножения пропорциональной величины смещения каждой вершины в исходной модели артикуляции на величину изменения формы губ в текущем видеокадре, соответствующем этой вершине.
Этап 103D: получают модель формы губ в текущем видеокадре путем наложения соответствующих смещений вершин в текущем видеокадре на введенную пользователем модель исходной формы губ.
Этап 103E: упорядочивают модели формы губ по всем видеокадрам согласно аудиопоследовательности и генерируют набор сеточных моделей формы губ.
В соответствии с настоящим изобретением, изменение формы губ производят на основе голоса с использованием библиотеки моделей артикуляции губ; по сравнению с известным уровнем техники решения, предложенные в рамках настоящего изобретения, отличаются простым алгоритмом и низкой стоимостью.
Согласно второму аспекту изобретения, предложен способ получения анимации губ. Как показано на фиг.4, этот способ включает следующие этапы.
Этап 201: получают аудиосигналы и получают пропорциональную величину изменения формы губ на основе характеристик этих аудиосигналов.
Этап 201 идентичен этапу 101 и поэтому здесь не описывается.
Этап 202: получают введенную пользователем модель исходной формы губ и генерируют величину изменения формы губ согласно модели исходной формы губ и полученной пропорциональной величине изменения формы губ.
Этап 202 идентичен этапу 102 и поэтому здесь не описывается.
Этап 203: генерируют набор сеточных моделей формы губ согласно полученной величине изменения формы губ и предварительно сконфигурированной библиотеке моделей артикуляции губ.
Этап 203 идентичен этапу 103 и поэтому здесь не описывается.
Этап 204: генерируют анимацию губ согласно набору сеточных моделей формы губ.
Говоря более подробно, анимация губ может быть сгенерирована с использованием общей технологии интерполяции на основе набора сеточных моделей формы губ и модели исходной формы губ.
В соответствии с настоящим изобретением, изменение формы губ производят на основе голоса с использованием библиотеки моделей артикуляции губ; по сравнению с известным уровнем техники решения, предложенные в рамках настоящего изобретения, отличаются простым алгоритмом и низкой стоимостью.
Согласно своему третьему аспекту, изобретение относится к устройству для изменения формы губ в управляемой голосом анимации. Как показано на фиг.5, это устройство содержит:
модуль 501 получения, выполненный с возможностью получения аудиосигналов и получения пропорциональной величины изменения формы губ на основе характеристик этих аудиосигналов;
первый модуль 502 генерации, выполненный с возможностью получения введенной пользователем модели исходной формы губ, а также с возможностью генерации величины изменения формы губ согласно этой модели исходной формы губ и полученной пропорциональной величине изменения формы губ;
и второй модуль 503 генерации, выполненный с возможностью генерации набора сеточных моделей формы губ согласно сгенерированной величине изменения формы губ и предварительно сконфигурированной библиотеке моделей артикуляции губ.
Как следует из фиг.6, в состав модуля 501 получения входят:
первый блок 5011 получения, выполненный с возможностью прослеживания аудиосигналов и получения максимального значения дискретных данных;
второй блок 5012 получения, выполненный с возможностью совершения следующих действий: разделение аудиосигналов по окнам; разделение каждого окна на группы; получение среднего значения дискретных данных в каждой группе; получение среднего значения avgGroup группы в каждом окне, причем среднее значение avgGroup группы содержит средние значения, соответствующие группам в окне; получение максимального значения из средних значений avgGroup групп в каждом окне и получение максимального значения windowPeak по группам, которое содержит максимальные значения, соответствующие всем окнам;
третий блок 5013 получения, выполненный с возможностью получения максимальной величины изменения формы губ, соответствующей текущему окну i, согласно полученному максимальному значению windowPeak по группам и полученному максимальному значению дискретных данных;
и четвертый блок 5014 получения, выполненный с возможностью получения пропорциональной величины изменения формы губ в текущем видеокадре, соответствующем текущему окну i, согласно максимальной величине изменения формы губ, соответствующей текущему окну i.
В состав второго блока 5012 получения входят:
пятый блок получения, выполненный с возможностью получения среднего значения дискретных данных в каждой группе в текущем окне i;
шестой блок получения, выполненный с возможностью получения максимального значения windowPeak[i] из средних значений, соответствующих группам в текущем окне i;
седьмой блок получения, выполненный с возможностью вычисления отношения scale[i] максимального значения windowPeak[i] к максимальному значению дискретных аудиоданных maxSampleValue,
восьмой блок получения, выполненный с возможностью вычисления максимальной величины extent[i] изменения формы губ, соответствующей текущему окну i, причем extent[i]=scale[i]*maxLen,
где i≥0 и maxLen является максимальной величиной изменения формы губ по всем окнам.
Кроме того, четвертый блок 5014 получения выполнен с возможностью получения пропорциональной величины scaleForFrame[k] изменения формы губ в j-м видеокадре, соответствующем текущему окну i, то есть scaleForFrame[k]=j*(scale[i]/(frameNumber/2)), где k=frameNumber*i+j, 0≤k<общее количество видеокадров, frameNumber является количеством видеокадров, соответствующих каждому окну, frameNumber=х*частота дискретизации видеосигнала, x является продолжительностью произнесения каждого слога; значение j увеличивается от 0 до frameNumber/2 и затем уменьшается от frameNumber/2 до 0, значение j является целым числом.
Для первого модуля 502 генерации, генерирующего величину изменения формы губ согласно модели исходной формы губ и полученной пропорциональной величине изменения формы губ, также справедливо следующее:
первый модуль 502 генерации выполнен с возможностью вычисления величины Length*scaleForFrame[k] изменения формы губ в горизонтальном направлении и вычисления величины Width*scaleForFrame[k] изменения формы губ в вертикальном направлении, где 0≤k<общее количество видеокадров, Length и Width являются, соответственно, длиной и шириной исходной формы губ.
Как показано на фиг.7, в состав второго модуля 503 генерации входят:
блок 5031 выбора, выполненный с возможностью произвольного выбора одной модели артикуляции губ из предварительно сконфигурированной библиотеки моделей артикуляции губ, а также с возможностью принятия этой модели в качестве исходной модели артикуляции для текущей формы губ;
девятый блок 5032 получения, выполненный с возможностью получения вершин исходной модели артикуляции и модели исходной формы губ в библиотеке моделей артикуляции губ, а также с возможностью вычисления пропорциональной величины смещения каждой вершины в исходной модели артикуляции;
десятый блок 5033 получения, выполненный с возможностью получения смещений вершин в текущем видеокадре путем умножения пропорциональной величины смещения каждой вершины в исходной модели артикуляции на величину изменения формы губ в текущем видеокадре, соответствующем вершине;
одиннадцатый блок 5034 получения, выполненный с возможностью получения модели формы губ в текущем видеокадре путем наложения соответствующих смещений вершин в текущем видеокадре на введенную пользователем полученную модель исходной формы губ;
блок 5035 генерации набора моделей, выполненный с возможностью упорядочивания моделей формы губ по всем видеокадрам и с возможностью генерации набора сеточных моделей формы губ.
Для девятого блока 5032 получения, вычисляющего пропорциональную величину смещения каждой вершины в исходной модели артикуляции, также справедливо следующее:
девятый блок 5032 получения выполнен с возможностью вычисления пропорциональной величины x_hor/modelLength смещения вершины z в исходной модели артикуляции в горизонтальном направлении и с возможностью вычисления пропорциональной величины y_ver/modelWidth смещения вершины z в вертикальном направлении, где modelLength и modelWidth являются, соответственно, длиной и шириной модели исходной формы губ в библиотеке моделей артикуляции губ; 0≤z<количество вершин в исходной модели артикуляции.
Кроме того, модуль 501 получения выполнен с возможностью обработки аудиосигналов для подавления шумов.
Следует отметить, что детали процесса, выполняемого модулем 501 получения и заключающегося в получении аудиосигналов, а также в получении пропорциональной величины изменения формы губ согласно характеристикам аудиосигналов, можно узнать, обратившись к этапу 101, описанному в отношении первого аспекта изобретения.
Следует отметить, что детали процесса, выполняемого первым модулем 502 генерации и заключающегося в получении введенной пользователем модели исходной формы губ, а также в генерации величины изменения формы губ согласно модели исходной формы губ и полученной пропорциональной величине изменения формы губ, можно узнать, обратившись к этапу 102, описанному в отношении первого аспекта изобретения.
Следует отметить, что детали процесса, выполняемого вторым модулем 503 генерации и заключающегося в генерации набора сеточных моделей формы губ согласно полученной величине изменения формы губ, а также предварительно сконфигурированной библиотеке моделей артикуляции губ, можно узнать, обратившись к этапу 103, описанному в отношении первого варианта изобретения.
В соответствии с настоящим изобретением, изменение формы губ производят на основе голоса с использованием библиотеки моделей артикуляции губ; по сравнению с известным уровнем техники решения, предложенные в рамках настоящего изобретения, отличаются простым алгоритмом и низкой стоимостью.
Четвертый аспект изобретения относится к устройству для получения анимации губ. Как следует из фиг.8, это устройство содержит:
модуль 601 получения, выполненный с возможностью получения аудиосигналов и получения пропорциональной величины изменения формы губ на основе характеристик этих аудиосигналов;
первый модуль 602 генерации, выполненный с возможностью получения введенной пользователем модели исходной формы губ, а также с возможностью генерации величины изменения формы губ согласно модели исходной формы губ и полученной пропорциональной величине изменения формы губ;
второй модуль 603 генерации, выполненный с возможностью генерации набора сеточных моделей формы губ согласно сгенерированной величине изменения формы губ и предварительно сконфигурированной библиотеке моделей артикуляции губ;
и третий модуль 604 генерации, выполненный с возможностью генерации анимации губ согласно набору сеточных моделей формы губ.
Модуль 601 получения, первый модуль 602 генерации и второй модуль 603 генерации эквивалентны, соответственно, модулю получения, первому модулю генерации и второму модулю генерации, относящимся к третьему аспекту изобретения, и поэтому не описываются здесь подробно.
Следует отметить, что детали процесса, выполняемого модулем 601 получения и заключающегося в получении аудиосигналов, а также в получении пропорциональной величины изменения формы губ согласно характеристикам аудиосигналов, можно узнать, обратившись к этапу 101, описанному в отношении первого аспекта изобретения.
Следует отметить, что детали процесса, выполняемого первым модулем 602 генерации и заключающегося в получении введенной пользователем модели исходной формы губ, а также в генерации величины изменения формы губ согласно модели исходной формы губ и полученной пропорциональной величине изменения формы губ, можно узнать, обратившись к этапу 102, описанному в отношении первого аспекта изобретения.
Следует отметить, что детали процесса, выполняемого вторым модулем 603 генерации и заключающегося в генерации набора сеточных моделей формы губ согласно полученной величине изменения формы губ, а также предварительно сконфигурированной библиотеке моделей артикуляции губ, можно узнать, обратившись к этапу 103, описанному в отношении первого аспекта изобретения.
В соответствии с настоящим изобретением, изменение формы губ производят на основе голоса с использованием библиотеки моделей артикуляции губ; по сравнению с известным уровнем техники решения, предложенные в рамках настоящего изобретения, отличаются простым алгоритмом и низкой стоимостью.
Технические решения, соответствующие четырем вышеописанным аспектам изобретения, можно применять, в частности, для видеоанимации на терминалах или видеоанимации на веб-страницах в развлекательных целях, причем возможно использование не только китайского языка, но и английского, французского или других языков. Настоящее изобретение, во всех его четырех аспектах, для удобства описано на примере китайского языка; однако обработка других языков выполняется аналогичным образом и поэтому здесь не рассматривается. Вводимая пользователем модель исходной формы губ может быть получена из изображений человеческих лиц, морд животных, персонажей мультфильмов и так далее; аудиосигналы также определяются пользователем, например, используется аудиосигнал обычного разговора или пения либо специально обработанный аудиосигнал.
Специалисты данной области техники должны понимать, что все этапы предложенных способов или только часть этих этапов могут быть реализованы с использованием аппаратных средств, управляемых программным обеспечением, причем это программное обеспечение может храниться на считываемом компьютером носителе данных, а в качестве такого носителя данных можно использовать гибкий диск, жесткий диск или компакт-диск.
Выше были описаны предпочтительные варианты изобретения, не ограничивающие объем его правовой охраны. Все модификации, замены и усовершенствования, соответствующие сущности настоящего изобретения, должны рассматриваться как входящие в объем его правовой охраны.
Claims (16)
1. Способ изменения формы губ в управляемой голосом анимации, включающий:
получение аудиосигналов и получение пропорциональной величины изменения формы губ на основе характеристик этих аудиосигналов;
получение введенной пользователем модели исходной формы губ, а также генерацию величины изменения формы губ согласно модели исходной формы губ и полученной пропорциональной величине изменения формы губ; и
генерацию набора сеточных моделей формы губ согласно сгенерированной величине изменения формы губ и предварительно сконфигурированной библиотеке моделей артикуляции губ, в котором этап получения пропорциональной величины изменения формы губ на основе характеристик этих аудиосигналов включает:
прослеживание аудиосигналов и получение максимального значения дискретных данных аудиосигналов;
разделение аудиосигналов по окнам, разделение каждого окна на группы, получение среднего значения дискретных данных в каждой группе, получение среднего значения avgGroup группы в каждом окне, причем это среднее значение avgGroup группы состоит из средних значений, соответствующих группам в окне; получение максимального значения из средних значений avgGroup групп в каждом окне, получение максимального значения windowPeak по группам, содержащего максимальные значения, соответствующие всем окнам;
получение максимальной величины изменения формы губ, соответствующей текущему окну i, согласно полученному максимальному значению windowPeak по группам и полученному максимальному значению дискретных данных; и получение пропорциональной величины изменения формы губ в текущем видеокадре, соответствующем текущему окну i, согласно максимальной величине изменения формы губ, соответствующей текущему окну i, где i>=0.
получение аудиосигналов и получение пропорциональной величины изменения формы губ на основе характеристик этих аудиосигналов;
получение введенной пользователем модели исходной формы губ, а также генерацию величины изменения формы губ согласно модели исходной формы губ и полученной пропорциональной величине изменения формы губ; и
генерацию набора сеточных моделей формы губ согласно сгенерированной величине изменения формы губ и предварительно сконфигурированной библиотеке моделей артикуляции губ, в котором этап получения пропорциональной величины изменения формы губ на основе характеристик этих аудиосигналов включает:
прослеживание аудиосигналов и получение максимального значения дискретных данных аудиосигналов;
разделение аудиосигналов по окнам, разделение каждого окна на группы, получение среднего значения дискретных данных в каждой группе, получение среднего значения avgGroup группы в каждом окне, причем это среднее значение avgGroup группы состоит из средних значений, соответствующих группам в окне; получение максимального значения из средних значений avgGroup групп в каждом окне, получение максимального значения windowPeak по группам, содержащего максимальные значения, соответствующие всем окнам;
получение максимальной величины изменения формы губ, соответствующей текущему окну i, согласно полученному максимальному значению windowPeak по группам и полученному максимальному значению дискретных данных; и получение пропорциональной величины изменения формы губ в текущем видеокадре, соответствующем текущему окну i, согласно максимальной величине изменения формы губ, соответствующей текущему окну i, где i>=0.
2. Способ по п.1, в котором
этап получения максимальной величины изменения формы губ, соответствующей текущему окну i, согласно полученному максимальному значению windowPeak по группам и полученному максимальному значению дискретных данных, включает:
получение среднего значения дискретных данных в каждой группе в текущем окне i;
получение максимального значения windowPeak[i] из средних значений, соответствующих группам в текущем окне i;
вычисление отношения scale[i] максимального значения windowPeak[i] к максимальному значению дискретных аудиоданных maxSampleValue,
вычисление максимальной величины extent[i] изменения формы губ, соответствующей текущему окну i, причем extent[I]=scale[i]*maxLen,
где maxLen является максимальной величиной изменения формы губ по всем окнам.
этап получения максимальной величины изменения формы губ, соответствующей текущему окну i, согласно полученному максимальному значению windowPeak по группам и полученному максимальному значению дискретных данных, включает:
получение среднего значения дискретных данных в каждой группе в текущем окне i;
получение максимального значения windowPeak[i] из средних значений, соответствующих группам в текущем окне i;
вычисление отношения scale[i] максимального значения windowPeak[i] к максимальному значению дискретных аудиоданных maxSampleValue,
вычисление максимальной величины extent[i] изменения формы губ, соответствующей текущему окну i, причем extent[I]=scale[i]*maxLen,
где maxLen является максимальной величиной изменения формы губ по всем окнам.
3. Способ по п.1, в котором
этап получения пропорциональной величины изменения формы губ в текущем видеокадре, соответствующем текущему окну i, согласно максимальной величине изменения формы губ, соответствующей текущему окну i, включает:
получение пропорциональной величины scaleForFrame[k] изменения формы губ в j-ом видеокадре, соответствующем текущему окну i, причем scaleForFrame[k]=j*(scale[I]/(frameNumber/2));
где k=frameNumber*i+j, 0=<k< общее количество видеокадров,
frameNumber является количеством видеокадров, соответствующих каждому окну, frameNumber=х* частота дискретизации видеосигнала, х является продолжительностью произнесения каждого слога, значение j увеличивается от 0 до frameNumber/2 и затем уменьшается от frameNumber/2 до 0, значение j является целым числом.
этап получения пропорциональной величины изменения формы губ в текущем видеокадре, соответствующем текущему окну i, согласно максимальной величине изменения формы губ, соответствующей текущему окну i, включает:
получение пропорциональной величины scaleForFrame[k] изменения формы губ в j-ом видеокадре, соответствующем текущему окну i, причем scaleForFrame[k]=j*(scale[I]/(frameNumber/2));
где k=frameNumber*i+j, 0=<k< общее количество видеокадров,
frameNumber является количеством видеокадров, соответствующих каждому окну, frameNumber=х* частота дискретизации видеосигнала, х является продолжительностью произнесения каждого слога, значение j увеличивается от 0 до frameNumber/2 и затем уменьшается от frameNumber/2 до 0, значение j является целым числом.
4. Способ по п.3, в котором
этап генерации величины изменения формы губ согласно модели исходной формы губ и полученной пропорциональной величине изменения формы губ включает:
вычисление величины Length*scaleForFrame[k] изменения формы губ в горизонтальном направлении и вычисление величины Width*scaleForFrame[k] изменения формы губ в вертикальном направлении, где Length и Width являются, соответственно, длиной и шириной в модели исходной формы губ.
этап генерации величины изменения формы губ согласно модели исходной формы губ и полученной пропорциональной величине изменения формы губ включает:
вычисление величины Length*scaleForFrame[k] изменения формы губ в горизонтальном направлении и вычисление величины Width*scaleForFrame[k] изменения формы губ в вертикальном направлении, где Length и Width являются, соответственно, длиной и шириной в модели исходной формы губ.
5. Способ по любому из пп.1-4, в котором этап генерации набора сеточных моделей формы губ согласно сгенерированной величине изменения формы губ и предварительно сконфигурированной библиотеке моделей артикуляции губ, включает:
произвольный выбор одной модели артикуляции губ из предварительно сконфигурированной библиотеки моделей артикуляции губ, а также принятие этой модели в качестве исходной модели артикуляции для текущей формы губ;
получение вершин исходной модели артикуляции и модели исходной формы губ в библиотеке моделей артикуляции губ, а также вычисление пропорциональной величины смещения каждой вершины в исходной модели артикуляции;
получение смещений вершин в текущем видеокадре путем умножения пропорциональной величины смещения каждой вершины в исходной модели артикуляции на величину изменения формы губ в текущем видеокадре, соответствующем этой вершине;
получение модели формы губ в текущем видеокадре путем наложения соответствующих смещений вершин в текущем видеокадре на полученную введенную пользователем модель исходной формы губ;
упорядочивание моделей формы губ по всем видеокадрам и генерацию набора сеточных моделей формы губ.
произвольный выбор одной модели артикуляции губ из предварительно сконфигурированной библиотеки моделей артикуляции губ, а также принятие этой модели в качестве исходной модели артикуляции для текущей формы губ;
получение вершин исходной модели артикуляции и модели исходной формы губ в библиотеке моделей артикуляции губ, а также вычисление пропорциональной величины смещения каждой вершины в исходной модели артикуляции;
получение смещений вершин в текущем видеокадре путем умножения пропорциональной величины смещения каждой вершины в исходной модели артикуляции на величину изменения формы губ в текущем видеокадре, соответствующем этой вершине;
получение модели формы губ в текущем видеокадре путем наложения соответствующих смещений вершин в текущем видеокадре на полученную введенную пользователем модель исходной формы губ;
упорядочивание моделей формы губ по всем видеокадрам и генерацию набора сеточных моделей формы губ.
6. Способ по п.5, в котором этап вычисления пропорциональной величины смещения каждой вершины в исходной модели артикуляции включает: вычисление пропорциональной величины x_hor/modelLength смещения вершины z в исходной модели артикуляции в горизонтальном направлении и вычисление пропорциональной величины y_ver/modelWidth смещения вершины z в вертикальном направлении;
причем modelLength и modelWidth являются, соответственно, длиной и шириной в модели исходной формы губ в библиотеке моделей артикуляции губ, x_hor является смещением в горизонтальном направлении между вершиной z в исходной модели артикуляции и вершиной z в модели исходной формы губ в библиотеке моделей артикуляции губ, y_ver является смещением в вертикальном направлении между вершиной z в исходной модели артикуляции и вершиной z в модели исходной формы губ в библиотеке моделей артикуляции губ; при этом 0=<z< количество вершин в исходном модуле артикуляции.
причем modelLength и modelWidth являются, соответственно, длиной и шириной в модели исходной формы губ в библиотеке моделей артикуляции губ, x_hor является смещением в горизонтальном направлении между вершиной z в исходной модели артикуляции и вершиной z в модели исходной формы губ в библиотеке моделей артикуляции губ, y_ver является смещением в вертикальном направлении между вершиной z в исходной модели артикуляции и вершиной z в модели исходной формы губ в библиотеке моделей артикуляции губ; при этом 0=<z< количество вершин в исходном модуле артикуляции.
7. Способ по п.5, дополнительно содержащий этап обработки аудиосигналов для подавления шумов в них.
8. Способ получения анимации губ, включающий:
получение аудиосигналов и получение пропорциональной величины изменения формы губ на основе характеристик этих аудиосигналов;
получение введенной пользователем модели исходной формы губ, а также генерацию величины изменения формы губ согласно модели исходной формы губ и полученной пропорциональной величине изменения формы губ;
генерацию набора сеточных моделей формы губ согласно сгенерированной величине изменения формы губ и предварительно сконфигурированной библиотеке моделей артикуляции губ; и
генерацию анимации губ согласно набору сеточных моделей формы губ, в котором
этап получения пропорциональной величины изменения формы губ на основе характеристик этих аудиосигналов включает:
прослеживание аудиосигналов и получение максимального значения дискретных данных аудиосигналов;
разделение аудиосигналов по окнам, разделение каждого окна на группы, получение среднего значения дискретных данных в каждой группе, получение среднего значения avgGroup группы в каждом окне, причем это среднее значение avgGroup группы состоит из средних значений, соответствующих группам в окне; получение максимального значения из средних значений avgGroup групп в каждом окне, получение максимального значения windowPeak по группам, содержащего максимальные значения, соответствующие всем окнам;
получение максимальной величины изменения формы губ, соответствующей текущему окну i, согласно полученному максимальному значению windowPeak по группам и полученному максимальному значению дискретных данных; и
получение пропорциональной величины изменения формы губ в текущем видеокадре, соответствующем текущему окну i, согласно максимальной величине изменения формы губ, соответствующей текущему окну i, где i>=0.
получение аудиосигналов и получение пропорциональной величины изменения формы губ на основе характеристик этих аудиосигналов;
получение введенной пользователем модели исходной формы губ, а также генерацию величины изменения формы губ согласно модели исходной формы губ и полученной пропорциональной величине изменения формы губ;
генерацию набора сеточных моделей формы губ согласно сгенерированной величине изменения формы губ и предварительно сконфигурированной библиотеке моделей артикуляции губ; и
генерацию анимации губ согласно набору сеточных моделей формы губ, в котором
этап получения пропорциональной величины изменения формы губ на основе характеристик этих аудиосигналов включает:
прослеживание аудиосигналов и получение максимального значения дискретных данных аудиосигналов;
разделение аудиосигналов по окнам, разделение каждого окна на группы, получение среднего значения дискретных данных в каждой группе, получение среднего значения avgGroup группы в каждом окне, причем это среднее значение avgGroup группы состоит из средних значений, соответствующих группам в окне; получение максимального значения из средних значений avgGroup групп в каждом окне, получение максимального значения windowPeak по группам, содержащего максимальные значения, соответствующие всем окнам;
получение максимальной величины изменения формы губ, соответствующей текущему окну i, согласно полученному максимальному значению windowPeak по группам и полученному максимальному значению дискретных данных; и
получение пропорциональной величины изменения формы губ в текущем видеокадре, соответствующем текущему окну i, согласно максимальной величине изменения формы губ, соответствующей текущему окну i, где i>=0.
9. Устройство для изменения формы губ в управляемой голосом анимации, содержащее:
модуль получения, выполненный с возможностью получения аудиосигналов и получения пропорциональной величины изменения формы губ на основе характеристик этих аудиосигналов; первый модуль генерации, выполненный с возможностью получения введенной пользователем модели исходной формы губ, а также с возможностью генерации величины изменения формы губ согласно модели исходной формы губ и полученной пропорциональной величине изменения формы губ; и
второй модуль генерации, выполненный с возможностью генерации набора сеточных моделей формы губ согласно сгенерированной величине изменения формы губ и предварительно сконфигурированной библиотеке моделей артикуляции губ, причем модуль получения содержит:
первый блок получения, выполненный с возможностью прослеживания аудиосигналов и получения максимального значения дискретных данных; второй блок получения, выполненный с возможностью разделения аудиосигналов по окнам, разделения каждого окна на группы, получения среднего значения дискретных данных в каждой группе, получения среднего значения avgGroup группы в каждом окне, причем это среднее значение avgGroup группы состоит из средних значений, соответствующих группам в окне, получения максимального значения из средних значений avgGroup групп в каждом окне, получения максимального значения windowPeak по группам, содержащего максимальные значения, соответствующие всем окнам;
третий блок получения, выполненный с возможностью получения максимальной величины изменения формы губ, соответствующей текущему окну i, согласно полученному максимальному значению windowPeak по группам и полученному максимальному значению дискретных данных; и
четвертый блок получения, выполненный с возможностью получения пропорциональной величины изменения формы губ в текущем видеокадре, соответствующем текущему окну i, согласно максимальной величине изменения формы губ, соответствующей текущему окну i.
модуль получения, выполненный с возможностью получения аудиосигналов и получения пропорциональной величины изменения формы губ на основе характеристик этих аудиосигналов; первый модуль генерации, выполненный с возможностью получения введенной пользователем модели исходной формы губ, а также с возможностью генерации величины изменения формы губ согласно модели исходной формы губ и полученной пропорциональной величине изменения формы губ; и
второй модуль генерации, выполненный с возможностью генерации набора сеточных моделей формы губ согласно сгенерированной величине изменения формы губ и предварительно сконфигурированной библиотеке моделей артикуляции губ, причем модуль получения содержит:
первый блок получения, выполненный с возможностью прослеживания аудиосигналов и получения максимального значения дискретных данных; второй блок получения, выполненный с возможностью разделения аудиосигналов по окнам, разделения каждого окна на группы, получения среднего значения дискретных данных в каждой группе, получения среднего значения avgGroup группы в каждом окне, причем это среднее значение avgGroup группы состоит из средних значений, соответствующих группам в окне, получения максимального значения из средних значений avgGroup групп в каждом окне, получения максимального значения windowPeak по группам, содержащего максимальные значения, соответствующие всем окнам;
третий блок получения, выполненный с возможностью получения максимальной величины изменения формы губ, соответствующей текущему окну i, согласно полученному максимальному значению windowPeak по группам и полученному максимальному значению дискретных данных; и
четвертый блок получения, выполненный с возможностью получения пропорциональной величины изменения формы губ в текущем видеокадре, соответствующем текущему окну i, согласно максимальной величине изменения формы губ, соответствующей текущему окну i.
10. Устройство по п.9, в котором второй блок получения содержит:
пятый блок получения, выполненный с возможностью получения среднего значения дискретных данных в каждой группе в текущем окне i;
шестой блок получения, выполненный с возможностью получения максимального значения windowPeak[i] из средних значений, соответствующих группам в текущем окне i;
седьмой блок получения, выполненный с возможностью вычисления
отношения scale[i] максимального значения windowPeak[i] к максимальному значению maxSampleValue дискретных аудиоданных;
восьмой блок получения, выполненный с возможностью вычисления максимальной величины extent[i] изменения формы губ, соответствующей текущему окну i, причем extent[i]=scale[i]*maxLen;
где i>=0, a maxLen является максимальной величиной изменения формы губ по всем окнам.
пятый блок получения, выполненный с возможностью получения среднего значения дискретных данных в каждой группе в текущем окне i;
шестой блок получения, выполненный с возможностью получения максимального значения windowPeak[i] из средних значений, соответствующих группам в текущем окне i;
седьмой блок получения, выполненный с возможностью вычисления
отношения scale[i] максимального значения windowPeak[i] к максимальному значению maxSampleValue дискретных аудиоданных;
восьмой блок получения, выполненный с возможностью вычисления максимальной величины extent[i] изменения формы губ, соответствующей текущему окну i, причем extent[i]=scale[i]*maxLen;
где i>=0, a maxLen является максимальной величиной изменения формы губ по всем окнам.
11. Устройство по п.9, в котором четвертый блок получения выполнен с возможностью получения пропорциональной величины scaleForFrame[k] изменения формы губ в j-ом видеокадре, соответствующем текущему окну i, причем scaleForFrame[k]=j*(scale[i]/(frameNumber/2)), где k=frameNumber*i+j, 0=<k< общее количество видеокадров, frameNumber является количеством видеокадров, соответствующих каждому окну, frameNumber=х* частота дискретизации видеосигнала, х является продолжительностью произнесения каждого слога; значение j увеличивается от 0 до frameNumber/2 и затем уменьшается от frameNumber/2 до 0, значение j является целым числом.
12. Устройство по п.11, в котором первый модуль генерации выполнен с возможностью вычисления величины Length*scaleForFrame[k] изменения формы губ в горизонтальном направлении и с возможностью вычисления величины Width*scaleForFrame[k] изменения формы губ в вертикальном направлении, где Length и Width являются, соответственно, длиной и шириной в модели исходной формы губ.
13. Устройство по любому из пп.9-12, в котором второй модуль генерации содержит:
блок выбора, выполненный с возможностью произвольного выбора одной модели артикуляции губ из предварительно сконфигурированной библиотеки моделей артикуляции губ, а также с возможностью принятия этой модели в качестве исходной модели артикуляции для текущей формы губ;
девятый блок получения, выполненный с возможностью получения вершин исходной модели артикуляции и модели исходной формы губ в библиотеке моделей артикуляции губ, а также с возможностью вычисления пропорциональной величины смещения каждой вершины в исходной модели артикуляции;
десятый блок получения, выполненный с возможностью получения смещений вершин в текущем видеокадре путем умножения пропорциональной величины смещения каждой вершины в исходной модели артикуляции на величину изменения формы губ в текущем видеокадре, соответствующем этой вершине;
одиннадцатый блок получения, выполненный с возможностью получения модели формы губ в текущем видеокадре путем наложения соответствующих смещений вершин в текущем видеокадре на введенную пользователем полученную модель исходной формы губ;
блок генерации набора моделей, выполненный с возможностью упорядочивания моделей формы губ по всем видеокадрам и с возможностью генерации набора сеточных моделей формы губ.
блок выбора, выполненный с возможностью произвольного выбора одной модели артикуляции губ из предварительно сконфигурированной библиотеки моделей артикуляции губ, а также с возможностью принятия этой модели в качестве исходной модели артикуляции для текущей формы губ;
девятый блок получения, выполненный с возможностью получения вершин исходной модели артикуляции и модели исходной формы губ в библиотеке моделей артикуляции губ, а также с возможностью вычисления пропорциональной величины смещения каждой вершины в исходной модели артикуляции;
десятый блок получения, выполненный с возможностью получения смещений вершин в текущем видеокадре путем умножения пропорциональной величины смещения каждой вершины в исходной модели артикуляции на величину изменения формы губ в текущем видеокадре, соответствующем этой вершине;
одиннадцатый блок получения, выполненный с возможностью получения модели формы губ в текущем видеокадре путем наложения соответствующих смещений вершин в текущем видеокадре на введенную пользователем полученную модель исходной формы губ;
блок генерации набора моделей, выполненный с возможностью упорядочивания моделей формы губ по всем видеокадрам и с возможностью генерации набора сеточных моделей формы губ.
14. Устройство по п.13, в котором девятый блок получения выполнен с возможностью вычисления пропорциональной величины x_hor/modelLength смещения вершины z в исходной модели артикуляции в горизонтальном направлении и с возможностью вычисления пропорциональной величины y_ver/modelWidth смещения вершины z в вертикальном направлении, причем modelLength и modelWidth являются, соответственно, длиной и шириной в модели исходной формы губ в библиотеке моделей артикуляции губ, x_hor является смещением в горизонтальном направлении между вершиной z в исходной модели артикуляции и вершиной z в модели исходной формы губ в библиотеке моделей артикуляции губ, y_ver является смещением в вертикальном направлении между вершиной z в исходной модели артикуляции и вершиной z в модели исходной формы губ в библиотеке моделей артикуляции губ, 0=<z< количество вершин в исходной модели артикуляции.
15. Устройство по п.14, в котором указанный модуль получения также выполнен с возможностью обработки аудиосигналов для подавления шумов в них.
16. Устройство для получения анимации губ, содержащее
модуль получения, выполненный с возможностью получения аудиосигналов и получения пропорциональной величины изменения формы губ на основе характеристик этих аудиосигналов;
первый модуль генерации, выполненный с возможностью получения введенной пользователем модели исходной формы губ, а также с возможностью генерации величины изменения формы губ согласно модели исходной формы губ и полученной пропорциональной величине изменения формы губ;
второй модуль генерации, выполненный с возможностью генерации набора сеточных моделей формы губ согласно сгенерированной величине изменения формы губ и предварительно сконфигурированной библиотеке моделей артикуляции губ; и
третий модуль генерации, выполненный с возможностью генерации анимации губ согласно набору сеточных моделей формы губ,
причем модуль получения содержит:
первый блок получения, выполненный с возможностью прослеживания аудиосигналов и получения максимального значения дискретных данных; второй блок получения, выполненный с возможностью разделения аудиосигналов по окнам, разделения каждого окна на группы, получения среднего значения дискретных данных в каждой группе, получения среднего значения avgGroup группы в каждом окне, причем это среднее значение avgGroup группы состоит из средних значений, соответствующих группам в окне, получения максимального значения из средних значений avgGroup групп в каждом окне, получения максимального значения windowPeak по группам, содержащего максимальные значения, соответствующие всем окнам;
третий блок получения, выполненный с возможностью получения максимальной величины изменения формы губ, соответствующей текущему окну i, согласно полученному максимальному значению windowPeak по группам и полученному максимальному значению дискретных данных;
и четвертый блок получения, выполненный с возможностью получения пропорциональной величины изменения формы губ в текущем видеокадре, соответствующем текущему окну i, согласно максимальной величине изменения формы губ, соответствующей текущему окну i.
модуль получения, выполненный с возможностью получения аудиосигналов и получения пропорциональной величины изменения формы губ на основе характеристик этих аудиосигналов;
первый модуль генерации, выполненный с возможностью получения введенной пользователем модели исходной формы губ, а также с возможностью генерации величины изменения формы губ согласно модели исходной формы губ и полученной пропорциональной величине изменения формы губ;
второй модуль генерации, выполненный с возможностью генерации набора сеточных моделей формы губ согласно сгенерированной величине изменения формы губ и предварительно сконфигурированной библиотеке моделей артикуляции губ; и
третий модуль генерации, выполненный с возможностью генерации анимации губ согласно набору сеточных моделей формы губ,
причем модуль получения содержит:
первый блок получения, выполненный с возможностью прослеживания аудиосигналов и получения максимального значения дискретных данных; второй блок получения, выполненный с возможностью разделения аудиосигналов по окнам, разделения каждого окна на группы, получения среднего значения дискретных данных в каждой группе, получения среднего значения avgGroup группы в каждом окне, причем это среднее значение avgGroup группы состоит из средних значений, соответствующих группам в окне, получения максимального значения из средних значений avgGroup групп в каждом окне, получения максимального значения windowPeak по группам, содержащего максимальные значения, соответствующие всем окнам;
третий блок получения, выполненный с возможностью получения максимальной величины изменения формы губ, соответствующей текущему окну i, согласно полученному максимальному значению windowPeak по группам и полученному максимальному значению дискретных данных;
и четвертый блок получения, выполненный с возможностью получения пропорциональной величины изменения формы губ в текущем видеокадре, соответствующем текущему окну i, согласно максимальной величине изменения формы губ, соответствующей текущему окну i.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009100030839A CN101482976B (zh) | 2009-01-19 | 2009-01-19 | 语音驱动嘴唇形状变化的方法、获取嘴唇动画的方法及装置 |
CN200910003083.9 | 2009-01-19 | ||
PCT/CN2010/070026 WO2010081395A1 (zh) | 2009-01-19 | 2010-01-05 | 语音驱动动画中嘴唇形状变化、获取嘴唇动画的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
RU2011124736A RU2011124736A (ru) | 2013-02-27 |
RU2487411C2 true RU2487411C2 (ru) | 2013-07-10 |
Family
ID=40880071
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2011124736/08A RU2487411C2 (ru) | 2009-01-19 | 2010-01-05 | Способ и устройство для изменения формы губ и получения анимации губ в управляемой голосом анимации |
Country Status (7)
Country | Link |
---|---|
US (1) | US8350859B2 (ru) |
CN (1) | CN101482976B (ru) |
BR (1) | BRPI1006026B1 (ru) |
CA (1) | CA2744347C (ru) |
MX (1) | MX2011006703A (ru) |
RU (1) | RU2487411C2 (ru) |
WO (1) | WO2010081395A1 (ru) |
Families Citing this family (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101482976B (zh) * | 2009-01-19 | 2010-10-27 | 腾讯科技(深圳)有限公司 | 语音驱动嘴唇形状变化的方法、获取嘴唇动画的方法及装置 |
CN102054287B (zh) * | 2009-11-09 | 2015-05-06 | 腾讯科技(深圳)有限公司 | 面部动画视频生成的方法及装置 |
CN102368198A (zh) * | 2011-10-04 | 2012-03-07 | 上海量明科技发展有限公司 | 通过嘴唇图像进行信息提示的方法及系统 |
CN110164437B (zh) * | 2012-03-02 | 2021-04-16 | 腾讯科技(深圳)有限公司 | 一种即时通信的语音识别方法和终端 |
CN104392729B (zh) * | 2013-11-04 | 2018-10-12 | 贵阳朗玛信息技术股份有限公司 | 一种动画内容的提供方法及装置 |
CN103705218B (zh) * | 2013-12-20 | 2015-11-18 | 中国科学院深圳先进技术研究院 | 构音障碍识别的方法、系统和装置 |
CN104298961B (zh) * | 2014-06-30 | 2018-02-16 | 中国传媒大学 | 基于口型识别的视频编排方法 |
CN106203235B (zh) * | 2015-04-30 | 2020-06-30 | 腾讯科技(深圳)有限公司 | 活体鉴别方法和装置 |
CN104869326B (zh) * | 2015-05-27 | 2018-09-11 | 网易(杭州)网络有限公司 | 一种配合音频的图像显示方法和设备 |
CN105405160B (zh) * | 2015-10-14 | 2018-05-01 | 佛山精鹰传媒股份有限公司 | 一种简单规则模型变化效果的实现方法 |
CN105632497A (zh) * | 2016-01-06 | 2016-06-01 | 昆山龙腾光电有限公司 | 一种语音输出方法、语音输出系统 |
CN107808191A (zh) * | 2017-09-13 | 2018-03-16 | 北京光年无限科技有限公司 | 虚拟人多模态交互的输出方法和系统 |
US10586368B2 (en) * | 2017-10-26 | 2020-03-10 | Snap Inc. | Joint audio-video facial animation system |
US10635893B2 (en) * | 2017-10-31 | 2020-04-28 | Baidu Usa Llc | Identity authentication method, terminal device, and computer-readable storage medium |
CN108538308B (zh) * | 2018-01-09 | 2020-09-29 | 网易(杭州)网络有限公司 | 基于语音的口型和/或表情模拟方法及装置 |
US10657972B2 (en) * | 2018-02-02 | 2020-05-19 | Max T. Hall | Method of translating and synthesizing a foreign language |
CN108538282B (zh) * | 2018-03-15 | 2021-10-08 | 上海电力学院 | 一种由唇部视频直接生成语音的方法 |
US11386900B2 (en) * | 2018-05-18 | 2022-07-12 | Deepmind Technologies Limited | Visual speech recognition by phoneme prediction |
CN108847234B (zh) * | 2018-06-28 | 2020-10-30 | 广州华多网络科技有限公司 | 唇语合成方法、装置、电子设备及存储介质 |
CN108986191B (zh) * | 2018-07-03 | 2023-06-27 | 百度在线网络技术(北京)有限公司 | 人物动作的生成方法、装置及终端设备 |
US11568864B2 (en) * | 2018-08-13 | 2023-01-31 | Carnegie Mellon University | Processing speech signals of a user to generate a visual representation of the user |
CN111953922B (zh) * | 2019-05-16 | 2022-05-27 | 南宁富联富桂精密工业有限公司 | 视频会议的人脸辨识方法、服务器及计算机可读存储介质 |
CN110277099A (zh) * | 2019-06-13 | 2019-09-24 | 北京百度网讯科技有限公司 | 基于语音的嘴型生成方法和装置 |
CN111415677B (zh) * | 2020-03-16 | 2020-12-25 | 北京字节跳动网络技术有限公司 | 用于生成视频的方法、装置、设备和介质 |
CN113240781A (zh) * | 2021-05-20 | 2021-08-10 | 东营友帮建安有限公司 | 基于语音驱动及图像识别的影视动画制作方法、系统 |
CN113506563A (zh) * | 2021-07-06 | 2021-10-15 | 北京一起教育科技有限责任公司 | 一种发音识别的方法、装置及电子设备 |
CN115222856B (zh) * | 2022-05-20 | 2023-09-26 | 一点灵犀信息技术(广州)有限公司 | 表情动画生成方法及电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5426460A (en) * | 1993-12-17 | 1995-06-20 | At&T Corp. | Virtual multimedia service for mass market connectivity |
US5657426A (en) * | 1994-06-10 | 1997-08-12 | Digital Equipment Corporation | Method and apparatus for producing audio-visual synthetic speech |
RU2004126185A (ru) * | 2003-08-29 | 2006-02-10 | Самсунг Электроникс Ко.,Лтд (Kr) | Способ и устройство для фотореалистического трехмерного моделирования лица на основе изображения |
CN1936889A (zh) * | 2005-09-20 | 2007-03-28 | 文化传信科技(澳门)有限公司 | 动画生成系统以及方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6737572B1 (en) * | 1999-05-20 | 2004-05-18 | Alto Research, Llc | Voice controlled electronic musical instrument |
US6654018B1 (en) * | 2001-03-29 | 2003-11-25 | At&T Corp. | Audio-visual selection process for the synthesis of photo-realistic talking-head animations |
CN1320497C (zh) * | 2002-07-03 | 2007-06-06 | 中国科学院计算技术研究所 | 基于统计与规则结合的语音驱动人脸动画方法 |
JP2006162760A (ja) * | 2004-12-03 | 2006-06-22 | Yamaha Corp | 語学学習装置 |
CN100369469C (zh) * | 2005-08-23 | 2008-02-13 | 王维国 | 语音驱动头部图像合成影音文件的方法 |
CN100476877C (zh) * | 2006-11-10 | 2009-04-08 | 中国科学院计算技术研究所 | 语音和文本联合驱动的卡通人脸动画生成方法 |
CN101482976B (zh) * | 2009-01-19 | 2010-10-27 | 腾讯科技(深圳)有限公司 | 语音驱动嘴唇形状变化的方法、获取嘴唇动画的方法及装置 |
-
2009
- 2009-01-19 CN CN2009100030839A patent/CN101482976B/zh active Active
-
2010
- 2010-01-05 MX MX2011006703A patent/MX2011006703A/es active IP Right Grant
- 2010-01-05 BR BRPI1006026A patent/BRPI1006026B1/pt active IP Right Grant
- 2010-01-05 WO PCT/CN2010/070026 patent/WO2010081395A1/zh active Application Filing
- 2010-01-05 CA CA2744347A patent/CA2744347C/en active Active
- 2010-01-05 RU RU2011124736/08A patent/RU2487411C2/ru active
-
2011
- 2011-05-27 US US13/117,244 patent/US8350859B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5426460A (en) * | 1993-12-17 | 1995-06-20 | At&T Corp. | Virtual multimedia service for mass market connectivity |
US5657426A (en) * | 1994-06-10 | 1997-08-12 | Digital Equipment Corporation | Method and apparatus for producing audio-visual synthetic speech |
RU2004126185A (ru) * | 2003-08-29 | 2006-02-10 | Самсунг Электроникс Ко.,Лтд (Kr) | Способ и устройство для фотореалистического трехмерного моделирования лица на основе изображения |
CN1936889A (zh) * | 2005-09-20 | 2007-03-28 | 文化传信科技(澳门)有限公司 | 动画生成系统以及方法 |
Also Published As
Publication number | Publication date |
---|---|
MX2011006703A (es) | 2011-07-28 |
RU2011124736A (ru) | 2013-02-27 |
CN101482976B (zh) | 2010-10-27 |
BRPI1006026A8 (pt) | 2017-10-10 |
US8350859B2 (en) | 2013-01-08 |
CA2744347A1 (en) | 2010-07-22 |
BRPI1006026B1 (pt) | 2020-04-07 |
CN101482976A (zh) | 2009-07-15 |
WO2010081395A1 (zh) | 2010-07-22 |
US20110227931A1 (en) | 2011-09-22 |
CA2744347C (en) | 2014-02-25 |
BRPI1006026A2 (pt) | 2016-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2487411C2 (ru) | Способ и устройство для изменения формы губ и получения анимации губ в управляемой голосом анимации | |
US9361722B2 (en) | Synthetic audiovisual storyteller | |
CN116250036A (zh) | 用于合成语音的照片级真实感视频的系统和方法 | |
JP2003530654A (ja) | キャラクタのアニメ化 | |
CN113744755A (zh) | 一种从音频信号生成语音动画的装置及方法 | |
KR102489498B1 (ko) | 음성 합성 및 영상 합성 기술을 통해 고인을 모사하는 가상 인물과 커뮤니케이션을 수행하는 방법 및 시스템 | |
CN114999441A (zh) | 虚拟形象生成方法、装置、设备、存储介质以及程序产品 | |
CN114255737B (zh) | 语音生成方法、装置、电子设备 | |
CN116363268A (zh) | 一种口型动画的生成方法、装置、电子设备和存储介质 | |
CN113706669A (zh) | 动画合成方法、装置、电子设备及存储介质 | |
Thangthai et al. | Synthesising visual speech using dynamic visemes and deep learning architectures | |
CN117275485B (zh) | 一种音视频的生成方法、装置、设备及存储介质 | |
US11776528B2 (en) | Method for changing speed and pitch of speech and speech synthesis system | |
Chu et al. | CorrTalk: Correlation Between Hierarchical Speech and Facial Activity Variances for 3D Animation | |
JP2002108382A (ja) | リップシンクを行うアニメーション方法および装置 | |
CN112331184A (zh) | 语音口型同步方法、装置、电子设备及存储介质 | |
CN116912375A (zh) | 面部动画生成方法、装置、电子设备及存储介质 | |
Brooke et al. | Two-and three-dimensional audio-visual speech synthesis | |
CN114999440B (zh) | 虚拟形象生成方法、装置、设备、存储介质以及程序产品 | |
CN113362432B (zh) | 一种面部动画生成方法及装置 | |
Kolivand et al. | Realistic lip syncing for virtual character using common viseme set | |
CN113744368A (zh) | 动画合成方法、装置、电子设备及存储介质 | |
CN114255307A (zh) | 虚拟人脸的控制方法、装置、设备及存储介质 | |
Li et al. | TellMeTalk: Multimodal-driven talking face video generation | |
Xie et al. | Visual Speech Animation |