WO2010081395A1 - 语音驱动动画中嘴唇形状变化、获取嘴唇动画的方法及装置 - Google Patents

语音驱动动画中嘴唇形状变化、获取嘴唇动画的方法及装置 Download PDF

Info

Publication number
WO2010081395A1
WO2010081395A1 PCT/CN2010/070026 CN2010070026W WO2010081395A1 WO 2010081395 A1 WO2010081395 A1 WO 2010081395A1 CN 2010070026 W CN2010070026 W CN 2010070026W WO 2010081395 A1 WO2010081395 A1 WO 2010081395A1
Authority
WO
WIPO (PCT)
Prior art keywords
lip
shape
lip shape
model
motion amplitude
Prior art date
Application number
PCT/CN2010/070026
Other languages
English (en)
French (fr)
Inventor
路依莎
王建宇
Original Assignee
腾讯科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=40880071&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=WO2010081395(A1) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by 腾讯科技(深圳)有限公司 filed Critical 腾讯科技(深圳)有限公司
Priority to CA2744347A priority Critical patent/CA2744347C/en
Priority to RU2011124736/08A priority patent/RU2487411C2/ru
Priority to BRPI1006026A priority patent/BRPI1006026B1/pt
Priority to MX2011006703A priority patent/MX2011006703A/es
Publication of WO2010081395A1 publication Critical patent/WO2010081395A1/zh
Priority to US13/117,244 priority patent/US8350859B2/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/802D [Two Dimensional] animation, e.g. using sprites
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/2053D [Three Dimensional] animation driven by audio data
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L2021/105Synthesis of the lips movements from speech, e.g. for talking heads

Definitions

  • the present invention relates to video animation technology, and more particularly to a method and apparatus for changing lip shape and acquiring lip animation in a voice-driven animation. Background technique
  • Interactive Voice Response is a product type based on sound propagation.
  • IVRs need to be technologically and conceptually innovative: giving sound better expressiveness, and video animation technology can meet this need.
  • Video animation technology uses a mobile phone or web page as a platform to assist the sound with a custom personalized video animation, giving the sound a more vivid expression.
  • the present invention provides a method and apparatus for changing a lip shape in a voice-driven animation, and acquiring a lip animation.
  • the present invention provides a method for changing a shape of a lip in a voice-driven animation, comprising: acquiring an audio signal, and obtaining a ratio of a motion amplitude of a lip shape according to a feature of the audio signal; Obtaining an initial lip shape model input by the user, and generating a motion amplitude value of the lip shape according to the initial lip shape model and the motion amplitude ratio of the lip shape;
  • a set of varying lip shape mesh models is generated based on the magnitude of the motion of the lip shape and a library of pre-established lip pronunciation models.
  • the present invention provides an apparatus for changing a shape of a lip in a voice-driven animation, comprising: an acquisition module, configured to acquire an audio signal, and obtain a lip-shaped motion amplitude ratio according to a characteristic of the audio signal;
  • a first generating module configured to acquire an initial lip shape model input by the user, and generate a motion amplitude value of the lip shape according to the initial lip shape model and the obtained motion amplitude ratio of the lip shape;
  • a second generating module configured to generate a changed lip shape mesh model set according to the obtained motion amplitude value of the lip shape and the pre-established lip pronunciation model library.
  • the lip shape change is realized by the voice-driven model library, and the technical solution provided by the embodiment of the present invention is simple and low in cost.
  • the invention also provides a method for obtaining a lip animation, comprising:
  • a lip animation is generated based on the varying set of lip shape mesh models.
  • An embodiment of the present invention provides an apparatus for acquiring an animation of a lip, including:
  • An acquisition module configured to acquire an audio signal, and obtain a lip shape according to characteristics of the audio signal ⁇ The ratio of the magnitude of the large movement;
  • a first generating module configured to acquire an initial lip shape model input by the user, and generate a motion amplitude value of the lip shape according to the initial lip shape model and the obtained motion amplitude ratio of the lip shape;
  • a second generating module configured to generate a changed lip shape mesh model set according to the obtained motion amplitude value of the lip shape and the pre-established lip pronunciation model library
  • a third generating module configured to generate a lip animation according to the changed lip shape mesh model set.
  • the lip shape change is realized by the voice driving, and the lip shape is obtained by the voice driving.
  • the technical solution provided by the embodiment of the present invention is simple and low in cost.
  • FIG. 1 is a flow chart of a method for changing a shape of a lip in a voice-driven animation according to Embodiment 1 of the present invention
  • FIG. 2 is a schematic diagram showing a ratio of the number of video frames and the motion amplitude of a lip shape according to Embodiment 1 of the present invention
  • FIG. 3 is a schematic diagram of a lip pronunciation model library provided by Embodiment 1 of the present invention.
  • FIG. 4 is a flow chart of a method for acquiring a lip animation according to Embodiment 2 of the present invention
  • FIG. 5 is a structural diagram of an apparatus for changing a lip shape in a voice-driven animation according to Embodiment 3 of the present invention
  • 6 is a structural diagram of an apparatus for changing a shape of a lip in another voice-driven animation according to Embodiment 3 of the present invention
  • Figure 7 is a structural diagram of an apparatus for changing a shape of a lip in a third voice-driven animation provided in Embodiment 3 of the present invention.
  • FIG. 8 is a structural diagram of an apparatus for acquiring a lip animation according to Embodiment 4 of the present invention.
  • DETAILED DESCRIPTION OF THE EMBODIMENTS In order to make the objects, technical solutions, and advantages of the present invention more comprehensible, the embodiments of the present invention will be further described in detail below. It is apparent that the described embodiments are only a part of the embodiments of the invention, and not all of the embodiments. All other embodiments obtained by those skilled in the art based on the embodiments of the present invention without creative efforts are within the scope of the present invention.
  • Embodiment 1 of the present invention provides a method for voice-driven lip change, as shown in FIG. 1, including:
  • Step 101 Acquire an audio signal, and obtain a motion amplitude ratio of the lip shape according to the characteristics of the audio signal.
  • the step of obtaining the ratio of the motion amplitude of the lip shape according to the characteristics of the audio signal includes:
  • Step 101A traversing the audio signal to obtain a maximum sampled data value maxSample Value of the audio signal.
  • Step 101B Perform window and group division on the audio signal, obtain an average array avgGroup of sample data values in each group, and obtain an array of maximum values in the average of sample data values of all groups in each window, windowPeak.
  • a syllable is a natural unit of speech. Specifically, in Chinese, each syllable corresponds to a shape of a lip. When hooking, it takes about 200 to 300 milliseconds to complete a syllable. There will also be a phonetic change during each syllable pronunciation period, so it is necessary to divide the syllables again and subdivide the sounds. Prime.
  • the acquired audio signal can be divided into windows according to a certain length, and one window corresponds to one syllable; in each window, the group is divided according to a certain length, and one group corresponds to one phoneme.
  • the average value of the sampled data values in each group obtained is the sum of all sampled data values in the group divided by groupLen, and the average value is placed in the average array avgGroup; and all the sampled data values in each window are obtained.
  • the maximum value in the average array avgGroup is placed in the maximum value windowPeak.
  • the audio signal may be denoised when the audio signal is acquired.
  • Step 101C Acquire a maximum motion amplitude value of a lip shape corresponding to the current window according to the obtained maximum value array windowPeak and the obtained maximum sampling data value.
  • Step 101D Obtain a motion amplitude ratio of a lip shape of each video frame corresponding to the current window according to a maximum motion amplitude value of the lip shape corresponding to the current window.
  • the video sampling rate defaults to 30 frames/second, and the user can also perform 4 tampering according to requirements; j ranges from 0 to frameNumber/2, and then decreases from frameNumber/2 to 0. , as shown in picture 2.
  • Step 102 Acquire an initial lip shape model input by the user, and generate a motion amplitude value of the lip shape according to the initial lip shape model and the obtained motion amplitude ratio of the lip shape.
  • the magnitude of the motion amplitude of the lip shape is divided into: the amplitude value of the lip shape motion in the vertical direction and the horizontal direction; the motion amplitude value of the lip shape in the horizontal direction is calculated as length*scaleForFrame[k], and the vertical direction is 1 r ⁇ lip shape
  • Step 103 Generate a modified lip shape mesh model set according to the obtained motion amplitude value of the lip shape and the pre-established lip pronunciation model library.
  • the lip pronunciation model library is based on the pronunciation characteristics of Chinese.
  • Chinese the word consists of the initial and the final, and the focus of the lip shape is placed on the pronunciation of the final.
  • the finals are divided into single vowels, complex vowels and nasal vowels.
  • the pronunciation of a single final is composed of one vowel, and the shape of the lips is constant from beginning to end; the complex final is composed of two or three vowels, the sound is gradual, and the shape of the lips is also gradual; and the effect of the nasal vowel on the shape of the lips Not big. Therefore, when establishing a pronunciation model for the shape of the lips, the pronunciation characteristics of the pronunciation of the single finals are mainly used.
  • the pronunciation of a single vowel is: "Ah, oh, goose, clothes, house, yu", in which the "house” and “yu” lips are similar in shape, so a kind of synthetic; “goose” and “cloth” lip shape comparison Similar, so synthesize one; finally get a lip pronunciation model composed of four lip pronunciation models to represent the lip shape of the single final, as shown in Figure 3, the lip pronunciation model library must include: a primitive lip model and the basis of this model Various lip pronunciation models built on the above principles. It should be noted that the lip pronunciation model library is not limited. The lip pronunciation model of the above four single finals can be different according to the pronunciation characteristics of the language. The lip pronunciation model in the lip pronunciation model library can also be different. For example, according to the pronunciation specificity of the English, the lip pronunciation model can have a simulated English vowel. "aeiou" pronunciation features a lip pronunciation model.
  • the step of generating a varying lip shape mesh model set based on the pre-established lip pronunciation model library and the motion amplitude values of the lip shape comprises:
  • Step 103 A randomly selecting a lip pronunciation model from the pre-established lip pronunciation model library as the original pronunciation model of the current lip shape.
  • Step 103B Acquire an original lip model of the original pronunciation model vertex and the lip pronunciation model library, and calculate an offset ratio of each vertex of the original pronunciation model, and the calculation method is: the vertex of the original pronunciation model relative to the vertex of the original lip model in the lip pronunciation model library.
  • Step 103C Multiply the offset ratios of the vertices of the original pronunciation model by the lip shape motion amplitude values of the current frame to obtain the vertex offset of the current frame.
  • Step 103D In the initial lip shape model of the acquired user input, respectively accumulate the vertex offset of the current frame to obtain a lip shape model of the current frame.
  • step 103E the lip shape models of all the frames are arranged in the corresponding audio order to generate a set of varying lip shape mesh models.
  • the lip shape change is realized by the voice-driven model library, and the technical solution provided by the embodiment of the present invention is simple and low in cost.
  • Embodiment 2 of the present invention provides a method for acquiring a lip animation. As shown in FIG. 4, the method includes the following steps: Step 201: Acquire an audio signal, and obtain a motion shape of a lip shape according to characteristics of the audio signal. Degree ratio.
  • Step 201 is the same as step 101, and details are not described herein again.
  • Step 202 Acquire an initial lip shape model input by the user, and generate a motion amplitude value of the lip shape according to the initial lip shape model and the obtained motion amplitude ratio of the lip shape.
  • Step 202 is the same as step 102, and details are not described herein again.
  • Step 203 Generate a changed lip shape mesh model set according to the obtained motion amplitude value of the lip shape and the pre-established lip pronunciation model library.
  • Step 203 is the same as step 103, and details are not described herein again.
  • Step 204 Generate a lip animation according to the changed lip shape mesh model set.
  • lip animation can be obtained by ordinary interpolation techniques.
  • the lip shape change is realized by the voice driving, and the lip shape is obtained by the voice driving.
  • the technical solution provided by the embodiment of the present invention is simple and low in cost.
  • Embodiment 3 of the present invention provides a device for changing a shape of a lip in a voice-driven animation, as shown in FIG. 5, comprising:
  • the obtaining module 501 is configured to acquire an audio signal, and obtain a lip-shaped motion amplitude ratio according to the feature of the audio signal;
  • a first generating module 502 configured to acquire an initial lip shape model input by the user, and generate a motion amplitude value of the lip shape according to the initial lip shape model and the obtained motion amplitude ratio of the lip shape;
  • the second generating module 503 is configured to generate a changed lip shape mesh model set according to the obtained motion amplitude value of the lip shape and the pre-established lip pronunciation model library.
  • the obtaining module 501 includes:
  • the first obtaining module 5011 is configured to traverse the audio signal to obtain a maximum sampled data value.
  • the second obtaining module 5012 is configured to perform window and group division on the audio signal, obtain an average array avgGroup of sampled data values in each group, and obtain an average array avgGroup of sampled data values of all groups in each window. The largest array in the windowPeak;
  • the third obtaining module 5013 is configured to obtain, according to the obtained maximum value array windowPeak and the obtained maximum sampled data value, a maximum motion amplitude value of the lip shape corresponding to the current window i.
  • the fourth obtaining module 5014 is configured to correspond to the current window i.
  • the maximum motion amplitude of the lip shape obtains the proportion of the lip shape motion amplitude of the current frame video corresponding to the current window i.
  • the second obtaining module 5012 includes:
  • a fifth obtaining module configured to obtain an average value of all the group sampled data values in the current window i; a sixth obtaining module, configured to obtain a maximum value of the average value of the sampled data values windowPeak[i]; a seventh obtaining module, configured to Calculate the ratio scale [i] of windowPeak[i] and the largest audio sample data value maxSample Value;
  • An eighth obtaining module configured to calculate a maximum motion amplitude value of a lip shape corresponding to the current window i
  • the first generating module 502 generates a motion amplitude value of the lip shape according to the initial lip shape model and the motion amplitude ratio of the lip shape, including:
  • the second generating module 503 includes:
  • a selection module 5031 configured to randomly select a lip pronunciation model from the pre-established lip pronunciation model library as the original pronunciation model of the current lip shape
  • a ninth obtaining module 5032 configured to obtain an original lip model of the original pronunciation model vertex and a lip pronunciation model library, and calculate an offset ratio of each vertex of the original pronunciation model;
  • a tenth obtaining module 5033 configured to multiply the offset ratios of the vertices of the original pronunciation model by the lip shape motion amplitude value of the current frame to obtain a vertex offset of the current frame;
  • An eleventh obtaining module 5034 configured to accumulate a vertex offset of the current frame on the initial lip shape model of the obtained user input, to obtain a lip shape model of the current frame;
  • a model set generation module 5035 is configured to arrange lip shape models of all frames to generate a set of varying lip shape mesh models.
  • the ninth obtaining module 5032 calculates an offset ratio of each vertex of the original pronunciation model, including:
  • the obtaining module 501 is further configured to perform denoising processing on the audio signal.
  • the obtaining module 501 obtains an audio signal, and the detailed process of obtaining the motion amplitude ratio of the lip shape according to the characteristics of the audio signal can be referred to step 101 in Embodiment 1.
  • the first generation module 502 acquires an initial lip shape model, and generates a lip shape according to the initial lip shape model and the obtained motion amplitude ratio of the lip shape.
  • the first generation module 502 acquires an initial lip shape model, and generates a lip shape according to the initial lip shape model and the obtained motion amplitude ratio of the lip shape.
  • the detailed process of generating the changed lip shape mesh model set by the second generation module 503 according to the obtained motion amplitude value of the lip shape and the pre-established lip pronunciation model library may refer to step 103 in Embodiment 1. .
  • the lip shape change is realized by the voice-driven model library, and the technical solution provided by the embodiment of the present invention is simple and low in cost.
  • the embodiment 4 of the present invention provides an apparatus for acquiring a lip animation, as shown in FIG. 8, comprising: an obtaining module 601, configured to acquire an audio signal, and obtain a lip-shaped motion amplitude ratio according to a characteristic of the audio signal;
  • a first generating module 602 configured to acquire an initial lip shape model input by the user, and generate a motion amplitude value of the lip shape according to the initial lip shape model and the obtained motion amplitude ratio of the lip shape;
  • a second generating module 603, configured to generate a changed lip shape mesh model set according to the obtained motion amplitude value of the lip shape and the pre-established lip pronunciation model library;
  • the third generation module 604 is configured to generate a lip animation according to the changed lip shape mesh model set.
  • the obtaining module 601, the first generating module 602, and the second generating module 603 are respectively equivalent to the obtaining module, the first generating module, and the second generating module in Embodiment 3, and details are not described herein.
  • the acquisition module 601 obtains an audio signal, and the detailed process of obtaining the motion amplitude ratio of the lip shape according to the characteristics of the audio signal can be referred to step 101 in Embodiment 1.
  • the first generation module 602 acquires an initial lip shape model, and a detailed process of generating a motion amplitude value of the lip shape according to the initial lip shape model and the obtained motion amplitude ratio of the lip shape can be seen in Embodiment 1 Step 102 in.
  • the second generation module 603 is based on the obtained motion amplitude of the lip shape.
  • the lip shape change is realized by the voice driving, and the lip shape is obtained by the voice driving.
  • the technical solution provided by the embodiment of the present invention is simple and low in cost.
  • the technical solutions of the embodiments 1-4 of the present invention can be applied to, but not limited to, a terminal video animation or an entertainment web video animation field, and are applicable not only to Chinese but also to English, French, or other languages.
  • the technical solutions of the inventive embodiments 1-4 are only taken in the example of Chinese, and the processing of other languages is similar, and will not be described again.
  • the initial lip shape model input by the user may be from a face, an animal face, a cartoon image, etc.; the audio signal is also user-defined, such as an audio signal that is normally spoken, sung, or specially processed.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明公开了语音驱动动画中嘴唇形状变化的方法、获取嘴唇动画的方法及装置,属于计算机技术领域。该语音驱动动画中嘴唇形状变化的方 法包括:获取音频信号,根据所述音频信号的特征得到嘴唇形状的运动幅度比例;获取初始的嘴唇形状模型,根据所述初始的嘴唇形状模型和所述嘴唇形状的运动幅度比例生成嘴唇形状的运动幅度值;根据所述嘴唇形状的运动幅度值和预先建立的嘴唇发音模型库,生成变化的嘴唇形状网格模 型集合。该语音驱动动画中嘴唇形状变化的装置包括:获取模块、第一生成模块和第二生成模块。 本发明还提供了一种获取嘴唇动画的方法和装置。本发明提供的技术方案算法简单,且成本低。

Description

语音驱动动画中嘴唇形状变化、 获取嘴唇动画的方法及装置 技术领域
本发明涉及视频动画技术, 特别涉及一种语音驱动动画中嘴唇形状变 化、 获取嘴唇动画的方法及装置。 背景技术
互动式语音应答 ( IVR, Interactive Voice Response )是基于声音传播的 一种产品类型。 而互联网用户的主流受众喜欢展示自我, 张扬个性。 在这 样的背景下, IVR有必要进行技术及理念上的革新: 给予声音更好的表现 力, 而视频动画技术可以满足这种需求。 视频动画技术通过使用手机或网 页为平台, 辅助声音以自定义个性的视频动画, 赋予了声音更加生动的表 现力。
视频动画技术中一个重要组成是语音驱动嘴唇形状变化的实现技术, 关于语音驱动动画中嘴唇形状变化的实现, 现有技术提供了一种利用机器 学习的方式将音频信号映射到人脸动画参数中的嘴唇形状上的解决方案, 但该方案算法复杂, 运算成本高。 发明内容
为了筒化语音驱动动画中嘴唇形状变化的算法并降低运算成本, 本发 明提供了一种语音驱动动画中嘴唇形状变化、 获取嘴唇动画的方法及装置。
所述技术方案如下:
本发明提供了一种语音驱动动画中嘴唇形状变化的方法, 包括: 获取音频信号, 根据所述音频信号的特征得到嘴唇形状的运动幅度比 例; 获取用户输入的初始的嘴唇形状模型, 根据所述初始的嘴唇形状模型 和所述嘴唇形状的运动幅度比例, 生成嘴唇形状的运动幅度值;
根据所述嘴唇形状的运动幅度值和预先建立的嘴唇发音模型库, 生成 变化的嘴唇形状网格模型集合。
本发明提供了一种语音驱动动画中嘴唇形状变化的装置, 包括: 获取模块, 用于获取音频信号, 根据所述音频信号的特征得到嘴唇形 ^大的运动幅度比例;
第一生成模块, 用于获取用户输入的初始的嘴唇形状模型, 根据所述 初始的嘴唇形状模型和所述得到的嘴唇形状的运动幅度比例生成嘴唇形状 的运动幅度值;
第二生成模块, 用于根据所述得到的嘴唇形状的运动幅度值和预先建 立的嘴唇发音模型库, 生成变化的嘴唇形状网格模型集合。
在本发明实施例中, 利用嘴唇发音模型库, 通过语音驱动实现了嘴唇 形状变化, 相对于现有技术, 本发明实施例提供的技术方案算法筒单, 且 成本低。
本发明还提供了一种获取嘴唇动画的方法, 包括:
获取音频信号, 根据所述音频信号的特征得到嘴唇形状的运动幅度比 例;
获取用户输入的初始的嘴唇形状模型, 根据所述初始的嘴唇形状模型 和所述得到的嘴唇形状的运动幅度比例生成嘴唇形状的运动幅度值;
根据所述得到的嘴唇形状的运动幅度值和预先建立的嘴唇发音模型 库, 生成变化的嘴唇形状网格模型集合;
根据所述变化的嘴唇形状网格模型集合生成嘴唇动画。
本发明实施例提供了一种获取嘴唇动画的装置, 包括:
获取模块, 用于获取音频信号, 根据所述音频信号的特征得到嘴唇形 ^大的运动幅度比例;
第一生成模块, 用于获取用户输入的初始的嘴唇形状模型, 根据所述 初始的嘴唇形状模型和所述得到的嘴唇形状的运动幅度比例生成嘴唇形状 的运动幅度值;
第二生成模块, 用于根据所述得到的嘴唇形状的运动幅度值和预先建 立的嘴唇发音模型库, 生成变化的嘴唇形状网格模型集合;
第三生成模块, 用于根据所述变化的嘴唇形状网格模型集合生成嘴唇 动画。
在本发明实施例中, 利用嘴唇发音模型库, 通过语音驱动实现了嘴唇 形状变化, 进而得到嘴唇动画, 相对于现有技术, 本发明实施例提供的技 术方案算法筒单, 且成本低。 附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案, 下面将对 实施例或现有技术描述中所需要使用的附图作一筒单地介绍, 显而易见地, 下面描述中的附图仅仅是本发明的一些实施例, 对于本领域普通技术人员 来讲, 在不付出创造性劳动性的前提下, 还可以根据这些附图获得其他的 附图。
图 1是本发明实施例 1提供的一种语音驱动动画中嘴唇形状变化的方 法流程图;
图 2是本发明实施例 1提供的视频帧的个数与嘴唇形状的运动幅度比 例的示意图;
图 3是本发明实施例 1提供的嘴唇发音模型库的示意图;
图 4是本发明实施例 2提供的一种获取嘴唇动画的方法流程图; 图 5是本发明实施例 3提供的一种语音驱动动画中嘴唇形状变化的装 置的结构图; 图 6是本发明实施例 3提供的另一种语音驱动动画中嘴唇形状变化的 装置的结构图;
图 7是本发明实施例 3提供的第三种语音驱动动画中嘴唇形状变化的 装置的结构图;
图 8是本发明实施例 4提供的一种获取嘴唇动画的装置的结构图。 具体实施方式 为使本发明的目的、 技术方案和优点更加清楚, 下面将结合附图对本 发明实施方式作进一步地详细描述。 显然, 所描述的实施例仅仅是本发明 一部分实施例, 而不是全部的实施例。 基于本发明中的实施例, 本领域普 通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例, 都属 于本发明保护的范围。
本发明实施例 1提供了一种语音驱动嘴唇变化的方法, 如图 1所示, 包括:
步骤 101 , 获取音频信号,根据音频信号的特征得到嘴唇形状的运动幅 度比例。
具体地, 根据音频信号的特征获取嘴唇形状的运动幅度比例的步骤包 括:
步骤 101A , 遍历音频信号, 得到音频信号的最大的采样数据值 maxSample Value。
步骤 101B , 对音频信号进行窗口和小组的划分, 获取每个小组内的采 样数据值的平均值数组 avgGroup, 以及获取每个窗口内所有小组的采样数 据值的平均值中的最大值数组 windowPeak。
音节是自然的语音单位, 具体地, 在汉语里, 每一个音节对应一种嘴 唇形状, 勾速时, 完成一个音节读音大约需要 200至 300毫秒。 在每个音 节发音时间段内也会有语音变化, 所以需要将音节再进行划分, 细分出音 素。 依据上述原理, 可以将获取的音频信号按照一定长度进行窗口划分, 一个窗口对应一个音节; 在每个窗口内再按照一定长度进行小组划分, 一 个小组对应一个音素。 假设音节占用 X秒时间, 窗口长度为 WindowLen, 则 WindowLen = X * 音频采样率; 假设定义音素占用 y秒时间, 小组长度 为 GroupLen, GroupLen = y * 音频采样率。
具体地, 获取的每个小组内采样数据值的平均值为组内所有采样数据 值的总和除以 groupLen, 将该平均值放在平均值数组 avgGroup; 获取每个 窗口内所有小组采样数据值的平均值数组 avgGroup中的最大值, 放在最大 值数组 windowPeak。
可选地, 为了避免嘴唇形状不必要的运动及在必要运动时显得更加得 流畅, 可以在获取音频信号时对音频信号进行去噪处理。
步骤 101C, 根据获取的最大值数组 windowPeak和获取的最大采样数 据值获取当前窗口对应的嘴唇形状的最大运动幅度值。
具体地, 获取第 i窗口内 (i>=0 )所有小组采样数据值的平均值; 获取 采样数据值的平均值中的最大值 windowPeak[i];计算最大值 windowPeak[i] 与最大的音频采样数据值的 maxSample Value的比值 scale[i]。 对于 scale数 组中的每个数组值 scale[i] , 计算当前窗口 i对应的嘴唇形状的最大运动幅 度值 extent[i]=scale[i] * maxLen, 其中, maxLen为所有窗口的嘴唇形状的 最大运动幅度值。
步骤 101D, 根据当前窗口对应的嘴唇形状的最大运动幅度值, 获取当 前窗口对应的每一视频帧的嘴唇形状的运动幅度比例。
具体地, 获取当前窗口 i对应的第 j帧视频中的嘴唇形状的运动幅度比 例 scaleForFrame [k] =j * ( scale [i] I (frameNumber/2) ) , 其 中 , k=frameNumber*i+j , 0=<k<视频总帧数, frameNumber为每个窗口对应的动 画视频帧的个数, frameNumber = x * 视频采样率, x为每个音节占用时间 长度, 本实施例中, 视频采样率默认为 30帧 /秒, 用户也可以根据需要进行 4爹改; j取值范围为从 0依次递增到 frameNumber/2, 再从 frameNumber/2 依次递减到 0, 如图 2所示。
步骤 102, 获取用户输入的初始的嘴唇形状模型, 根据初始的嘴唇形状 模型和得到的嘴唇形状的运动幅度比例, 生成嘴唇形状的运动幅度值。
具体地, 嘴唇形状的运动幅度值分为: 垂直方向和水平方向的嘴唇形 状运动幅度值; 计算水平方向的嘴唇形状的运动幅度值为 length*scaleForFrame[k] , 垂直方向的 1 r觜唇形 ^大的运动幅度值为 width*scaleForFrame[k] , 其中, 0=<k<视频总帧数, length和 width分另' J为 初始的嘴唇形状模型的长度和宽度。
需要说明的是, 用户输入的初始的嘴唇形状模型根据实际情况不同会 发生变化。
步骤 103 ,根据得到的嘴唇形状的运动幅度值和预先建立的嘴唇发音模 型库, 生成变化的嘴唇形状网格模型集合。
在本步骤中, 嘴唇发音模型库是依据汉语的发音特点建立的。 在汉语 中, 词由声母和韵母组成, 嘴唇形状的重点会放在韵母的发音上。 韵母又 分单韵母、 复韵母和鼻韵母。 单韵母的发音由一个元音组成, 从始至终嘴 唇形状不变; 复韵母由两个或三个元音组成, 声音是渐变的, 嘴唇形状也 是渐变的; 而鼻韵母对嘴唇形状的影响不大。 因此, 在对嘴唇形状建立发 音模型时,主要依照单韵母的发音的发音特点。单韵母的发音是: "啊, 哦, 鵝, 衣, 屋, 于", 其中 "屋" 和 "于" 的嘴唇形状比较相似, 所以合成一 种; "鵝" 和 "衣" 的嘴唇形状比较相似, 所以合成一种; 最后得到用四种 嘴唇发音模型组成嘴唇发音模型库来表示单韵母的嘴唇形状, 如图 3所示, 嘴唇发音模型库必须包括: 一个原始嘴唇模型和在此模型基础上按以上原 理建立起来的各种嘴唇发音模型。 需要说明的是, 嘴唇发音模型库中不限 于以上四种单韵母的嘴唇发音模型, 依据语言的发音特点不同, 嘴唇发音 模型库中的嘴唇发音模型也可以不同, 例如, 根据英语的发音特定, 嘴唇 发音模型库中可以有模拟英语元音 "a e i o u" 发音特点的嘴唇发音模型 。
具体地, 根据预先建立的嘴唇发音模型库和嘴唇形状的运动幅度值生 成变化的嘴唇形状网格模型集合的步骤包括:
步骤 103 A, 从预先建立的嘴唇发音模型库中随机选择一个嘴唇发音模 型, 作为当前嘴唇形状的原始发音模型。
步骤 103B ,获取原始发音模型顶点和嘴唇发音模型库中原始嘴唇模型, 计算原始发音模型各个顶点的偏移量比例, 计算方法为: 原始发音模型顶 点 Z相对嘴唇发音模型库中原始嘴唇模型的顶点 Z的偏移量在水平方向为 x_hor , 在垂直方向为 y_ver , 那么顶点 z 在水平方向的偏移量比例为 x_hor/modelLength, 顶点 z在垂直方向的偏移量比例为 y_ver/modelWidth, 其中 modelLength和 modelWidth为发音模型库中原始嘴唇模型的长度和宽 度, 0=<z<原始发音模型顶点个数。
步骤 103C, 将原始发音模型各个顶点的偏移量比例, 各自乘以当前帧 的嘴唇形状运动幅度值, 得到当前帧的顶点偏移量。
步骤 103D, 在获取的用户输入的初始的嘴唇形状模型, 分别累加当前 帧的顶点偏移量, 得到当前帧的嘴唇形状模型。
步骤 103E, 将所有帧的嘴唇形状模型按照对应的音频顺序进行排列, 生成变化的嘴唇形状网格模型集合。
在本发明实施例中, 利用嘴唇发音模型库, 通过语音驱动实现了嘴唇 形状变化, 相对于现有技术, 本发明实施例提供的技术方案算法筒单, 且 成本低。
本发明实施例 2提供了一种获取嘴唇动画的方法, 如图 4所示, 包括: 步骤 201 , 获取音频信号,根据音频信号的特征得到嘴唇形状的运动幅 度比例。
步骤 201与步骤 101相同, 在此不再赘述。
步骤 202, 获取用户输入的初始的嘴唇形状模型, 根据初始的嘴唇形状 模型和得到的嘴唇形状的运动幅度比例, 生成嘴唇形状的运动幅度值。
步骤 202与步骤 102相同, 在此不再赘述。
步骤 203 ,根据得到的嘴唇形状的运动幅度值和预先建立的嘴唇发音模 型库, 生成变化的嘴唇形状网格模型集合。
步骤 203与步骤 103相同, 在此不再赘述。
步骤 204, 根据该变化的嘴唇形状网格模型集合生成嘴唇动画。
具体地, 根据该变化的嘴唇形状网格模型集合, 结合原始的嘴唇形状 图像, 利用普通的插值技术即可得到嘴唇动画。
在本发明实施例中, 利用嘴唇发音模型库, 通过语音驱动实现了嘴唇 形状变化, 进而得到嘴唇动画, 相对于现有技术, 本发明实施例提供的技 术方案算法筒单, 且成本低。
本发明实施例 3提供了一种语音驱动动画中嘴唇形状变化的装置, 如 图 5所示, 包括:
获取模块 501 , 用于获取音频信号,根据该音频信号的特征得到嘴唇形 ^大的运动幅度比例;
第一生成模块 502, 用于获取用户输入的初始的嘴唇形状模型, 根据该 初始的嘴唇形状模型和该得到的嘴唇形状的运动幅度比例, 生成嘴唇形状 的运动幅度值;
第二生成模块 503 ,用于根据该得到的嘴唇形状的运动幅度值和预先建 立的嘴唇发音模型库, 生成变化的嘴唇形状网格模型集合。
进一步地, 如图 6所示, 获取模块 501包括:
第一获取模块 5011 , 用于遍历音频信号, 获取最大的采样数据值; 第二获取模块 5012, 用于对该音频信号进行窗口和小组的划分, 获取 每个小组内的采样数据值的平均值数组 avgGroup , 获取每个窗口内所有小 组的采样数据值的平均值数组 avgGroup中的最大值数组 windowPeak;
第三获取模块 5013 , 用于根据获取的最大值数组 windowPeak和获取 的最大采样数据值, 获取当前窗口 i对应的嘴唇形状的最大运动幅度值; 第四获取模块 5014 , 用于根据当前窗口 i对应的嘴唇形状最大运动幅 度获取当前窗口 i对应的当前帧视频的嘴唇形状运动幅度比例。
进一步地, 第二获取模块 5012, 包括:
第五获取模块, 用于获取当前窗口 i内所有小组采样数据值的平均值; 第六获取模块,用于获取采样数据值的平均值的最大值 windowPeak[i] ; 第七获取模块, 用于计算 windowPeak[i]和最大的音频采样数据值 maxSample Value的比值 scale [i] ;
第八获取模块,用于计算当前窗口 i对应的嘴唇形状的最大运动幅度值
Figure imgf000011_0001
其中, i>=0 , maxLen为所有窗口的 ^ '觜唇形状的最大运动幅度值。
进一步地, 第四获取模块 5014, 具体用于获取当前窗口 i对应的第 j 帧视频中的嘴唇形状运动幅度比例 scaleForFrame[k]=j * ( scale [i] I (irameNumber/2) ) , 其中, k=frameNumber*i+j , 0=<k<视频总帧数, frameNumber为每个窗口对应的动画视频帧的个数, frameNumber = x *视 频采样率, X 为每音节占用的时间, j 取值范围为从 0 依次递增到
Figure imgf000011_0002
进一步地, 该第一生成模块 502根据该初始的嘴唇形状模型和该嘴唇 形状的运动幅度比例, 生成嘴唇形状的运动幅度值, 包括:
计算水平方向的嘴唇形状的运动幅度值为 length*scaleForFrame[k] , 垂 直方向的嘴唇形状的运动幅度值为 width*scaleForFrame[k] , 其中, length 和 width分别为初始的嘴唇形状模型的长度和宽度。
进一步地, 如图 7所示, 第二生成模块 503 , 包括:
选择模块 5031 , 用于从该预先建立嘴唇发音模型库中随机选择一个嘴 唇发音模型, 作为当前嘴唇形状的原始发音模型;
第九获取模块 5032, 用于获取该原始发音模型顶点和嘴唇发音模型库 中原始嘴唇模型, 计算原始发音模型各个顶点的偏移量比例;
第十获取模块 5033 , 用于将该原始发音模型各个顶点的偏移量比例各 自都乘以当前帧的嘴唇形状运动幅度值得到当前帧的顶点偏移量;
第十一获取模块 5034, 用于在获取的用户输入的初始的嘴唇形状模型 上, 分别累加当前帧的顶点偏移量, 得到当前帧的嘴唇形状模型;
模型集合生成模块 5035 , 用于将所有帧的嘴唇形状模型排列起来, 生 成变化的嘴唇形状网格模型集合。
进一步地, 第九获取模块 5032计算原始发音模型各个顶点的偏移量比 例, 包括:
计算原始发音模型顶点 Z 在水平方向的偏移量比例为 x_hor/modelLength, 在垂直方向的偏移量比例为 y_ver/modelWidth , 其中 modelLength和 modelWidth为发音模型库中原始嘴唇模型的长度和宽度, x_hor、 y_ver分别为原始发音模型顶点 z相对嘴唇发音模型库中原始嘴唇 模型的顶点 z在水平方向和垂直方向的偏移量, 其中, 0=<z<原始发音模型 顶点个数。
进一步地, 获取模块 501 , 还用于对该音频信号进行去噪处理。
需要说明的是, 获取模块 501 获取音频信号, 根据该音频信号的特征 得到嘴唇形状的运动幅度比例的详细过程可以参见实施例 1中的步骤 101。
需要说明的是, 第一生成模块 502获取初始的嘴唇形状模型, 根据该 初始的嘴唇形状模型和该得到的嘴唇形状的运动幅度比例生成嘴唇形状的 运动幅度值的详细过程可以参见实施例 1中的步骤 102。
需要说明的是, 第二生成模块 503根据该得到的嘴唇形状的运动幅度 值和预先建立的嘴唇发音模型库, 生成变化的嘴唇形状网格模型集合的详 细过程可以参见实施例 1中的步骤 103。
在本发明实施例中, 利用嘴唇发音模型库, 通过语音驱动实现了嘴唇 形状变化, 相对于现有技术, 本发明实施例提供的技术方案算法筒单, 且 成本低。
本发明实施例 4提供了一种获取嘴唇动画的装置, 如图 8所示, 包括: 获取模块 601 , 用于获取音频信号,根据该音频信号的特征得到嘴唇形 ^大的运动幅度比例;
第一生成模块 602, 用于获取用户输入的初始的嘴唇形状模型, 根据该 初始的嘴唇形状模型和该得到的嘴唇形状的运动幅度比例生成嘴唇形状的 运动幅度值;
第二生成模块 603 ,用于根据该得到的嘴唇形状的运动幅度值和预先建 立的嘴唇发音模型库, 生成变化的嘴唇形状网格模型集合;
第三生成模块 604,用于根据该变化的嘴唇形状网格模型集合生成嘴唇 动画。
获取模块 601、第一生成模块 602和第二生成模块 603分别等同于实施 例 3中的获取模块、 第一生成模块和第二生成模块, 具体不再赘述。
需要说明的是, 获取模块 601 获取音频信号, 根据该音频信号的特征 得到嘴唇形状的运动幅度比例的详细过程可以参见实施例 1中的步骤 101。
需要说明的是, 第一生成模块 602获取初始的嘴唇形状模型, 根据该 初始的嘴唇形状模型和该得到的嘴唇形状的运动幅度比例, 生成嘴唇形状 的运动幅度值的详细过程可以参见实施例 1中的步骤 102。
需要说明的是, 第二生成模块 603根据该得到的嘴唇形状的运动幅度 值和预先建立的嘴唇发音模型库, 生成变化的嘴唇形状网格模型集合的详 细过程可以参见实施例 1中的步骤 103。
在本发明实施例中, 利用嘴唇发音模型库, 通过语音驱动实现了嘴唇 形状变化, 进而得到嘴唇动画, 相对于现有技术, 本发明实施例提供的技 术方案算法筒单, 且成本低。
本发明实施例 1-4 的技术方案可以应用于但不限于终端视频动画或娱 乐性的网页视频动画领域, 不仅适用于汉语, 还可以适用于英语、 法语或 其他语种, 为了叙述筒便, 本发明实施例 1-4的技术方案仅以汉语为例, 其 他语种的处理类似, 不再赘述。 其中, 用户输入的初始的嘴唇形状模型可 能是来自于人脸、 动物脸、 卡通图像等; 音频信号也是用户自定义的, 例 如是正常说话、 唱歌, 或特效处理过的音频信号等。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步 骤是可以通过程序来指令相关的硬件来完成, 所述程序可以存储于计算机 可读取存储介质中, 所述存储介质为计算机的软盘、 硬盘或光盘等。
以上所述仅为本发明的较佳实施例, 并不用以限制本发明, 凡在本发 明的精神和原则之内, 所作的任何修改、 等同替换、 改进等, 均应包含在 本发明的保护范围之内。

Claims

权利要求书
1、 一种语音驱动动画中嘴唇形状变化的方法, 其特征在于, 包括: 获取音频信号, 根据所述音频信号的特征得到嘴唇形状的运动幅度 比例;
获取用户输入的初始的嘴唇形状模型, 根据所述初始的嘴唇形状模 型和所述嘴唇形状的运动幅度比例, 生成嘴唇形状的运动幅度值;
根据所述嘴唇形状的运动幅度值和预先建立的嘴唇发音模型库, 生 成变化的嘴唇形状网格模型集合。
2、 如权利要求 1所述的语音驱动动画中嘴唇形状变化的方法, 其特 征在于, 根据所述音频信号的特征得到嘴唇形状的运动幅度比例, 包括: 遍历音频信号, 获取最大的采样数据值;
对所述音频信号进行窗口和小组的划分, 获取每个小组内的采样数 据值的平均值数组 avgGroup, 获取每个窗口内所有小组的采样数据值的 平均值数组 avgGroup中的最大值数组 windowPeak;
根据获取的最大值数组 windowPeak和获取的最大采样数据值获取 当前窗口 i对应的嘴唇形状的最大运动幅度值;
根据当前窗口 i对应的嘴唇形状的最大运动幅度值, 获取当前窗口 i 对应的当前视频帧的嘴唇形状的运动幅度比例;
其中, i>=0。
3、 如权利要求 2所述的语音驱动动画中嘴唇形状变化的方法, 其特 征在于,
所述根据获取的最大值数组 windowPeak和获取的最大采样数据值, 获取当前窗口 i对应的嘴唇形状的最大运动幅度值, 包括:
获取当前窗口 i内所有小组采样数据值的平均值;
获取采样数据值的平均值的最大值 windowPeak[i]; 计算最大值 windowPeak[i]和最大的音频采样数据值 maxSample Value 的比值 scale [i] ;
计算当前窗口 i对应的嘴唇形状的最大运动幅度值 extent[i]=scale[i] * maxLen;
其中, maxLen为所有窗口的嘴唇形状的最大运动幅度值。
4、 如权利要求 2所述的语音驱动动画中嘴唇形状变化的方法, 其特 征在于, 所述根据当前窗口 i对应的嘴唇形状最大运动幅度值, 获取当前 窗口 i对应的当前视频帧的嘴唇形状运动幅度比例, 包括:
获取当前窗口 i 对应的第 j 帧视频中的嘴唇形状运动幅度比例 scaleForFrame [k] =j * ( scale[i] / (irameNumber/2) );
其中, k=frameNumber*i+j , 0=<k<视频总帧数, frameNumber为每个 窗口对应的动画视频帧的个数, frameNumber = x * 视频采样率, x为每 个音节占用的时间, j取值范围为从 0依次递增到 frameNumber/2, 再从 frameNumber/2依次递减到 0。
5、 如权利要求 4所述的语音驱动动画中嘴唇形状变化的方法, 其 特征在于, 所述根据所述初始的嘴唇形状模型和所述嘴唇形状的运动幅 度比例生成嘴唇形状的运动幅度值, 包括:
计算水平方向的嘴唇形状的运动幅度值为 length*scaleForFrame[k] , 垂直方向的嘴唇形状的运动幅度值为 width*scaleForFrame[k] , 其中, length和 width分别为初始的嘴唇形状模型的长度和宽度。
6、 如权利要求 1至 5任一项所述的语音驱动动画中嘴唇形状变化的 方法, 其特征在于, 根据所述得到嘴唇形状的运动幅度值和预先建立的 嘴唇发音模型库, 生成变化的嘴唇形状网格模型集合, 包括:
从所述预先建立的嘴唇发音模型库中随机选择一个嘴唇发音模型, 作为当前嘴唇形状的原始发音模型; 获取所述原始发音模型顶点和嘴唇发音模型库中原始嘴唇模型, 计 算原始发音模型各个顶点的偏移量比例;
将所述原始发音模型各个顶点的偏移量比例, 各自乘以当前帧的嘴 唇形状运动幅度值, 得到当前帧的顶点偏移量;
在获取的用户输入的初始的嘴唇形状模型上, 分别累加当前帧的顶 点偏移量, 得到当前帧的嘴唇形状模型;
将所有帧的嘴唇形状模型排列, 生成变化的嘴唇形状网格模型集合。
7、 如权利要求 6所述的语音驱动动画中嘴唇形状变化的方法, 其特 征在于, 所述计算原始发音模型各个顶点的偏移量比例, 包括:
计算每个原始发音模型顶点 Z 在水平方向的偏移量比例为 x_hor/modelLength , 在垂直方向的偏移量比例为 y_ver/modelWidth;
其中 modelLength和 modelWidth为发音模型库中原始嘴唇模型的长 度和宽度, x_hor、 y_ver分别为原始发音模型顶点 z相对嘴唇发音模型 库中原始嘴唇模型的顶点 z在水平方向和垂直方向的偏移量,其中, 0=<z< 原始发音模型顶点个数。
8、 如权利要求 6所述的语音驱动动画中嘴唇形状变化的方法, 其特 征在于, 所述获取音频信号, 还包括: 对所述音频信号进行去噪处理。
9、 一种获取嘴唇动画的方法, 其特征在于, 包括:
获取音频信号, 根据所述音频信号的特征得到嘴唇形状的运动幅度 比列;
获取用户输入的初始的嘴唇形状模型, 根据所述初始的嘴唇形状模 型和所述嘴唇形状的运动幅度比例, 生成嘴唇形状的运动幅度值;
根据所述嘴唇形状的运动幅度值和预先建立的嘴唇发音模型库, 生 成变化的嘴唇形状网格模型集合;
根据所述变化的嘴唇形状网格模型集合生成嘴唇动画。
10、 一种语音驱动动画中嘴唇形状变化的装置, 其特征在于, 包括: 获取模块, 用于获取音频信号, 根据所述音频信号的特征得到嘴唇 形状的运动幅度比例;
第一生成模块, 用于获取用户输入的初始的嘴唇形状模型, 根据所 述初始的嘴唇形状模型和所述嘴唇形状的运动幅度比例, 生成嘴唇形状 的运动幅度值;
第二生成模块, 用于根据所述得到的嘴唇形状的运动幅度值和预先 建立的嘴唇发音模型库, 生成变化的嘴唇形状网格模型集合。
11、 如权利要求 10所述的语音驱动动画中嘴唇形状变化的装置, 其 特征在于, 所述获取模块包括:
第一获取模块, 用于遍历音频信号, 获取最大的采样数据值; 第二获取模块, 用于对所述音频信号进行窗口和小组的划分, 获取 每个小组内的采样数据值的平均值数组 avgGroup, 获取每个窗口内所有
'J、组的采样数据值的平均值数组 avgGroup中的最大值数组 windowPeak; 第三获取模块,用于根据获取的最大值数组 windowPeak和获取的最 大采样数据值获取当前窗口对应的嘴唇形状的最大运动幅度值;
第四获取模块, 用于根据当前窗口对应的嘴唇形状最大运动幅度获 取当前窗口对应的当前帧视频的嘴唇形状运动幅度比例。
12、 如权利要求 10所述的语音驱动动画中嘴唇形状变化的装置, 其 特征在于, 所述第二获取模块, 包括:
第五获取模块, 用于获取当前窗口 i 内所有小组采样数据值的平均 值;
第六获取模块, 用于获取采样数据值的平均值的最大值 windowPeak [i];
第七获取模块, 用于计算最大值 windowPeak[i]和最大的音频采样数 据值 maxSample Value的比值 scale [i] ;
第八获取模块,用于计算当前窗口 i对应的嘴唇形状的最大运动幅度 extent[i]=scale[i] * maxLen;
其中, i>=0, maxLen为所有窗口的嘴唇形状的最大运动幅度值。
13、 如权利要求 10所述的语音驱动动画中嘴唇形状变化的装置, 其 特征在于, 所述第四获取模块, 具体用于获取当前窗口 i对应的第 j帧视 频中 的嘴唇形状运动幅度比例 scaleForFrame[k]=j* ( scale [i] I (irameNumber/2) ) , 其中, k=frameNumber*i+j , 0=<k<视频总帧数, frameNumber为每个窗口对应的动画视频帧的个数, frameNumber = x * 视频采样率, X 为每音节占用的时间, j 取值范围为从 0 依次递增到 frameNumber/2, 再从 frameNumber/2依次递减到 0。
14、 如权利要求 13所述的语音驱动动画中嘴唇形状变化的装置, 其 特征在于, 所述第一生成模块根据所述初始的嘴唇形状模型和所述嘴唇 形状的运动幅度比例, 生成嘴唇形状的运动幅度值, 包括:
计算水平方向的嘴唇形状的运动幅度值为 length*scaleForFrame[k] , 垂直方向的嘴唇形状的运动幅度值为 width*scaleForFrame[k] , 其中, length和 width分别为初始的嘴唇形状模型的长度和宽度。
15、 如权利要求 10至 14任一项所述的语音驱动动画中嘴唇形状变 化的装置, 其特征在于, 所述第二生成模块, 包括:
选择模块, 用于从所述预先建立嘴唇发音模型库中随机选择一个嘴 唇发音模型, 作为当前嘴唇形状的原始发音模型;
第九获取模块, 用于获取所述原始发音模型顶点和嘴唇发音模型库 中原始嘴唇模型, 计算原始发音模型各个顶点的偏移量比例;
第十获取模块, 用于将所述原始发音模型各个顶点的偏移量比例各 自都乘以当前帧的嘴唇形状运动幅度值得到当前帧的顶点偏移量; 第十一获取模块, 用于在获取的用户输入的初始的嘴唇形状模型上, 分别累加当前帧的顶点偏移量, 得到当前帧的嘴唇形状模型;
模型集合生成模块, 用于将所有帧的嘴唇形状模型排列, 生成变化 的嘴唇形状网格模型集合。
16、 如权利要求 15所述的语音驱动动画中嘴唇形状变化的装置, 其 特征在于, 第九获取模块计算原始发音模型各个顶点的偏移量比例, 包 括:
计算原始发音模型顶点 z 在水平方向的偏移量比例为 x_hor/modelLength, 在垂直方向的偏移量比例为 y_ver/modelWidth, 其中 modelLength和 modelWidth为发音模型库中原始嘴唇模型的长度和宽度, x_hor、 y_ver分别为原始发音模型顶点 z相对嘴唇发音模型库中原始嘴 唇模型的顶点 z在水平方向和垂直方向的偏移量, 其中, 0=<z<原始发音 模型顶点个数。
17、 如权利要求 16所述的语音驱动动画中嘴唇形状变化的装置, 其 特征在于, 所述获取模块, 还用于对所述音频信号进行去噪处理。
18、 一种获取嘴唇动画的装置, 其特征在于, 包括:
获取模块, 用于获取音频信号, 根据所述音频信号的特征得到嘴唇 形状的运动幅度比例;
第一生成模块, 用于获取用户输入的初始的嘴唇形状模型, 根据所 述初始的嘴唇形状模型和所述得到的嘴唇形状的运动幅度比例生成嘴唇 形状的运动幅度值;
第二生成模块, 用于根据所述得到的嘴唇形状的运动幅度值和预先 建立的嘴唇发音模型库, 生成变化的嘴唇形状网格模型集合;
第三生成模块, 用于根据所述变化的嘴唇形状网格模型集合生成嘴 唇动画。
PCT/CN2010/070026 2009-01-19 2010-01-05 语音驱动动画中嘴唇形状变化、获取嘴唇动画的方法及装置 WO2010081395A1 (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CA2744347A CA2744347C (en) 2009-01-19 2010-01-05 Method and apparatus for changing lip shape and obtaining lip animation in voice-driven animation
RU2011124736/08A RU2487411C2 (ru) 2009-01-19 2010-01-05 Способ и устройство для изменения формы губ и получения анимации губ в управляемой голосом анимации
BRPI1006026A BRPI1006026B1 (pt) 2009-01-19 2010-01-05 método e aparelho para alteração do formato de lábio e obtenção de animação de lábio em animação acionada por voz
MX2011006703A MX2011006703A (es) 2009-01-19 2010-01-05 Metodo y aparato para cambiar la forma de los labios y obtener animacion de los labios en animacion estimulada por voz.
US13/117,244 US8350859B2 (en) 2009-01-19 2011-05-27 Method and apparatus for changing lip shape and obtaining lip animation in voice-driven animation

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2009100030839A CN101482976B (zh) 2009-01-19 2009-01-19 语音驱动嘴唇形状变化的方法、获取嘴唇动画的方法及装置
CN200910003083.9 2009-01-19

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US13/117,244 Continuation US8350859B2 (en) 2009-01-19 2011-05-27 Method and apparatus for changing lip shape and obtaining lip animation in voice-driven animation

Publications (1)

Publication Number Publication Date
WO2010081395A1 true WO2010081395A1 (zh) 2010-07-22

Family

ID=40880071

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2010/070026 WO2010081395A1 (zh) 2009-01-19 2010-01-05 语音驱动动画中嘴唇形状变化、获取嘴唇动画的方法及装置

Country Status (7)

Country Link
US (1) US8350859B2 (zh)
CN (1) CN101482976B (zh)
BR (1) BRPI1006026B1 (zh)
CA (1) CA2744347C (zh)
MX (1) MX2011006703A (zh)
RU (1) RU2487411C2 (zh)
WO (1) WO2010081395A1 (zh)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101482976B (zh) 2009-01-19 2010-10-27 腾讯科技(深圳)有限公司 语音驱动嘴唇形状变化的方法、获取嘴唇动画的方法及装置
CN102054287B (zh) * 2009-11-09 2015-05-06 腾讯科技(深圳)有限公司 面部动画视频生成的方法及装置
CN102368198A (zh) * 2011-10-04 2012-03-07 上海量明科技发展有限公司 通过嘴唇图像进行信息提示的方法及系统
CN110164437B (zh) * 2012-03-02 2021-04-16 腾讯科技(深圳)有限公司 一种即时通信的语音识别方法和终端
CN104392729B (zh) * 2013-11-04 2018-10-12 贵阳朗玛信息技术股份有限公司 一种动画内容的提供方法及装置
CN103705218B (zh) * 2013-12-20 2015-11-18 中国科学院深圳先进技术研究院 构音障碍识别的方法、系统和装置
CN104298961B (zh) * 2014-06-30 2018-02-16 中国传媒大学 基于口型识别的视频编排方法
CN106203235B (zh) * 2015-04-30 2020-06-30 腾讯科技(深圳)有限公司 活体鉴别方法和装置
CN104869326B (zh) * 2015-05-27 2018-09-11 网易(杭州)网络有限公司 一种配合音频的图像显示方法和设备
CN105405160B (zh) * 2015-10-14 2018-05-01 佛山精鹰传媒股份有限公司 一种简单规则模型变化效果的实现方法
CN105632497A (zh) * 2016-01-06 2016-06-01 昆山龙腾光电有限公司 一种语音输出方法、语音输出系统
CN107808191A (zh) * 2017-09-13 2018-03-16 北京光年无限科技有限公司 虚拟人多模态交互的输出方法和系统
US10586368B2 (en) * 2017-10-26 2020-03-10 Snap Inc. Joint audio-video facial animation system
US10635893B2 (en) * 2017-10-31 2020-04-28 Baidu Usa Llc Identity authentication method, terminal device, and computer-readable storage medium
CN108538308B (zh) * 2018-01-09 2020-09-29 网易(杭州)网络有限公司 基于语音的口型和/或表情模拟方法及装置
US10657972B2 (en) * 2018-02-02 2020-05-19 Max T. Hall Method of translating and synthesizing a foreign language
CN108538282B (zh) * 2018-03-15 2021-10-08 上海电力学院 一种由唇部视频直接生成语音的方法
US11386900B2 (en) * 2018-05-18 2022-07-12 Deepmind Technologies Limited Visual speech recognition by phoneme prediction
CN108847234B (zh) * 2018-06-28 2020-10-30 广州华多网络科技有限公司 唇语合成方法、装置、电子设备及存储介质
CN108986191B (zh) * 2018-07-03 2023-06-27 百度在线网络技术(北京)有限公司 人物动作的生成方法、装置及终端设备
US11568864B2 (en) * 2018-08-13 2023-01-31 Carnegie Mellon University Processing speech signals of a user to generate a visual representation of the user
CN111953922B (zh) * 2019-05-16 2022-05-27 南宁富联富桂精密工业有限公司 视频会议的人脸辨识方法、服务器及计算机可读存储介质
CN110277099A (zh) * 2019-06-13 2019-09-24 北京百度网讯科技有限公司 基于语音的嘴型生成方法和装置
CN111415677B (zh) * 2020-03-16 2020-12-25 北京字节跳动网络技术有限公司 用于生成视频的方法、装置、设备和介质
CN113240781A (zh) * 2021-05-20 2021-08-10 东营友帮建安有限公司 基于语音驱动及图像识别的影视动画制作方法、系统
CN113506563A (zh) * 2021-07-06 2021-10-15 北京一起教育科技有限责任公司 一种发音识别的方法、装置及电子设备
CN115222856B (zh) * 2022-05-20 2023-09-26 一点灵犀信息技术(广州)有限公司 表情动画生成方法及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1731833A (zh) * 2005-08-23 2006-02-08 孙丹 语音驱动头部图像合成影音文件的方法
JP2006162760A (ja) * 2004-12-03 2006-06-22 Yamaha Corp 語学学習装置
CN1936889A (zh) * 2005-09-20 2007-03-28 文化传信科技(澳门)有限公司 动画生成系统以及方法
CN101482976A (zh) * 2009-01-19 2009-07-15 腾讯科技(深圳)有限公司 语音驱动嘴唇形状变化的方法、获取嘴唇动画的方法及装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5426460A (en) * 1993-12-17 1995-06-20 At&T Corp. Virtual multimedia service for mass market connectivity
US5657426A (en) * 1994-06-10 1997-08-12 Digital Equipment Corporation Method and apparatus for producing audio-visual synthetic speech
US6737572B1 (en) * 1999-05-20 2004-05-18 Alto Research, Llc Voice controlled electronic musical instrument
US6654018B1 (en) * 2001-03-29 2003-11-25 At&T Corp. Audio-visual selection process for the synthesis of photo-realistic talking-head animations
CN1320497C (zh) * 2002-07-03 2007-06-06 中国科学院计算技术研究所 基于统计与规则结合的语音驱动人脸动画方法
RU2358319C2 (ru) * 2003-08-29 2009-06-10 Самсунг Электроникс Ко., Лтд. Способ и устройство для фотореалистического трехмерного моделирования лица на основе изображения
CN100476877C (zh) * 2006-11-10 2009-04-08 中国科学院计算技术研究所 语音和文本联合驱动的卡通人脸动画生成方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006162760A (ja) * 2004-12-03 2006-06-22 Yamaha Corp 語学学習装置
CN1731833A (zh) * 2005-08-23 2006-02-08 孙丹 语音驱动头部图像合成影音文件的方法
CN1936889A (zh) * 2005-09-20 2007-03-28 文化传信科技(澳门)有限公司 动画生成系统以及方法
CN101482976A (zh) * 2009-01-19 2009-07-15 腾讯科技(深圳)有限公司 语音驱动嘴唇形状变化的方法、获取嘴唇动画的方法及装置

Also Published As

Publication number Publication date
MX2011006703A (es) 2011-07-28
BRPI1006026B1 (pt) 2020-04-07
BRPI1006026A8 (pt) 2017-10-10
US8350859B2 (en) 2013-01-08
RU2487411C2 (ru) 2013-07-10
BRPI1006026A2 (pt) 2016-05-10
CN101482976A (zh) 2009-07-15
RU2011124736A (ru) 2013-02-27
US20110227931A1 (en) 2011-09-22
CA2744347A1 (en) 2010-07-22
CN101482976B (zh) 2010-10-27
CA2744347C (en) 2014-02-25

Similar Documents

Publication Publication Date Title
WO2010081395A1 (zh) 语音驱动动画中嘴唇形状变化、获取嘴唇动画的方法及装置
WO2022048403A1 (zh) 基于虚拟角色的多模态交互方法、装置及系统、存储介质、终端
US9361722B2 (en) Synthetic audiovisual storyteller
US7636662B2 (en) System and method for audio-visual content synthesis
CN113256821B (zh) 一种三维虚拟形象唇形生成方法、装置及电子设备
CN112001992A (zh) 基于深度学习的语音驱动3d虚拟人表情音画同步方法及系统
CN113744755A (zh) 一种从音频信号生成语音动画的装置及方法
CN106327555A (zh) 一种获得唇形动画的方法及装置
CN117275485B (zh) 一种音视频的生成方法、装置、设备及存储介质
JP4631077B2 (ja) アニメーション作成装置
CN116912375A (zh) 面部动画生成方法、装置、电子设备及存储介质
CN109525787B (zh) 面向直播场景的实时字幕翻译及系统实现方法
CN116366872A (zh) 基于中之人和人工智能的直播方法、装置及系统
CN115223224A (zh) 数字人说话视频生成方法、系统、终端设备及介质
CN113362432B (zh) 一种面部动画生成方法及装置
CN114999440A (zh) 虚拟形象生成方法、装置、设备、存储介质以及程序产品
CN113990295A (zh) 一种视频生成方法和装置
CN112331184A (zh) 语音口型同步方法、装置、电子设备及存储介质
Craig et al. A linear model of acoustic-to-facial mapping: Model parameters, data set size, and generalization across speakers
CN117975991B (zh) 基于人工智能的数字人驱动方法及装置
Ra et al. Visual-to-speech conversion based on maximum likelihood estimation
CN114255307A (zh) 虚拟人脸的控制方法、装置、设备及存储介质
Xie et al. Visual Speech Animation
CN114972589A (zh) 虚拟数字形象的驱动方法及其装置
CN117975991A (zh) 基于人工智能的数字人驱动方法及装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 10731029

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2744347

Country of ref document: CA

WWE Wipo information: entry into national phase

Ref document number: MX/A/2011/006703

Country of ref document: MX

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 2011124736

Country of ref document: RU

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC, EPO FORM 1205A DATED 14.12.2011.

122 Ep: pct application non-entry in european phase

Ref document number: 10731029

Country of ref document: EP

Kind code of ref document: A1

REG Reference to national code

Ref country code: BR

Ref legal event code: B01A

Ref document number: PI1006026

Country of ref document: BR

ENP Entry into the national phase

Ref document number: PI1006026

Country of ref document: BR

Kind code of ref document: A2

Effective date: 20110624