WO2010081395A1

WO2010081395A1 - 语音驱动动画中嘴唇形状变化、获取嘴唇动画的方法及装置

Info

Publication number: WO2010081395A1
Application number: PCT/CN2010/070026
Authority: WO
Inventors: 路依莎; 王建宇
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2009-01-19
Filing date: 2010-01-05
Publication date: 2010-07-22
Also published as: MX2011006703A; BRPI1006026B1; BRPI1006026A8; US8350859B2; RU2487411C2; BRPI1006026A2; CN101482976A; RU2011124736A; US20110227931A1; CA2744347A1; CN101482976B; CA2744347C

Abstract

本发明公开了语音驱动动画中嘴唇形状变化的方法、获取嘴唇动画的方法及装置，属于计算机技术领域。该语音驱动动画中嘴唇形状变化的方法包括：获取音频信号，根据所述音频信号的特征得到嘴唇形状的运动幅度比例；获取初始的嘴唇形状模型，根据所述初始的嘴唇形状模型和所述嘴唇形状的运动幅度比例生成嘴唇形状的运动幅度值；根据所述嘴唇形状的运动幅度值和预先建立的嘴唇发音模型库，生成变化的嘴唇形状网格模型集合。该语音驱动动画中嘴唇形状变化的装置包括：获取模块、第一生成模块和第二生成模块。本发明还提供了一种获取嘴唇动画的方法和装置。本发明提供的技术方案算法简单，且成本低。

Description

语音驱动动画中嘴唇形状变化、获取嘴唇动画的方法及装置技术领域

本发明涉及视频动画技术，特别涉及一种语音驱动动画中嘴唇形状变化、获取嘴唇动画的方法及装置。背景技术

互动式语音应答 ( IVR, Interactive Voice Response )是基于声音传播的一种产品类型。而互联网用户的主流受众喜欢展示自我，张扬个性。在这样的背景下， IVR有必要进行技术及理念上的革新：给予声音更好的表现力，而视频动画技术可以满足这种需求。视频动画技术通过使用手机或网页为平台，辅助声音以自定义个性的视频动画，赋予了声音更加生动的表现力。

视频动画技术中一个重要组成是语音驱动嘴唇形状变化的实现技术，关于语音驱动动画中嘴唇形状变化的实现，现有技术提供了一种利用机器学习的方式将音频信号映射到人脸动画参数中的嘴唇形状上的解决方案，但该方案算法复杂，运算成本高。发明内容

为了筒化语音驱动动画中嘴唇形状变化的算法并降低运算成本，本发明提供了一种语音驱动动画中嘴唇形状变化、获取嘴唇动画的方法及装置。

所述技术方案如下：

本发明提供了一种语音驱动动画中嘴唇形状变化的方法，包括：获取音频信号，根据所述音频信号的特征得到嘴唇形状的运动幅度比例；获取用户输入的初始的嘴唇形状模型，根据所述初始的嘴唇形状模型和所述嘴唇形状的运动幅度比例，生成嘴唇形状的运动幅度值；

根据所述嘴唇形状的运动幅度值和预先建立的嘴唇发音模型库，生成变化的嘴唇形状网格模型集合。

本发明提供了一种语音驱动动画中嘴唇形状变化的装置，包括：获取模块，用于获取音频信号，根据所述音频信号的特征得到嘴唇形 ^大的运动幅度比例；

第一生成模块，用于获取用户输入的初始的嘴唇形状模型，根据所述初始的嘴唇形状模型和所述得到的嘴唇形状的运动幅度比例生成嘴唇形状的运动幅度值；

第二生成模块，用于根据所述得到的嘴唇形状的运动幅度值和预先建立的嘴唇发音模型库，生成变化的嘴唇形状网格模型集合。

在本发明实施例中，利用嘴唇发音模型库，通过语音驱动实现了嘴唇形状变化，相对于现有技术，本发明实施例提供的技术方案算法筒单，且成本低。

本发明还提供了一种获取嘴唇动画的方法，包括：

获取音频信号，根据所述音频信号的特征得到嘴唇形状的运动幅度比例；

获取用户输入的初始的嘴唇形状模型，根据所述初始的嘴唇形状模型和所述得到的嘴唇形状的运动幅度比例生成嘴唇形状的运动幅度值；

根据所述得到的嘴唇形状的运动幅度值和预先建立的嘴唇发音模型库，生成变化的嘴唇形状网格模型集合；

根据所述变化的嘴唇形状网格模型集合生成嘴唇动画。

本发明实施例提供了一种获取嘴唇动画的装置，包括：

获取模块，用于获取音频信号，根据所述音频信号的特征得到嘴唇形 ^大的运动幅度比例；

第二生成模块，用于根据所述得到的嘴唇形状的运动幅度值和预先建立的嘴唇发音模型库，生成变化的嘴唇形状网格模型集合；

第三生成模块，用于根据所述变化的嘴唇形状网格模型集合生成嘴唇动画。

在本发明实施例中，利用嘴唇发音模型库，通过语音驱动实现了嘴唇形状变化，进而得到嘴唇动画，相对于现有技术，本发明实施例提供的技术方案算法筒单，且成本低。附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一筒单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图 1是本发明实施例 1提供的一种语音驱动动画中嘴唇形状变化的方法流程图；

图 2是本发明实施例 1提供的视频帧的个数与嘴唇形状的运动幅度比例的示意图；

图 3是本发明实施例 1提供的嘴唇发音模型库的示意图；

图 4是本发明实施例 2提供的一种获取嘴唇动画的方法流程图；图 5是本发明实施例 3提供的一种语音驱动动画中嘴唇形状变化的装置的结构图；图 6是本发明实施例 3提供的另一种语音驱动动画中嘴唇形状变化的装置的结构图；

图 7是本发明实施例 3提供的第三种语音驱动动画中嘴唇形状变化的装置的结构图；

图 8是本发明实施例 4提供的一种获取嘴唇动画的装置的结构图。具体实施方式为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例 1提供了一种语音驱动嘴唇变化的方法，如图 1所示，包括：

步骤 101 , 获取音频信号，根据音频信号的特征得到嘴唇形状的运动幅度比例。

具体地，根据音频信号的特征获取嘴唇形状的运动幅度比例的步骤包括：

步骤 101A , 遍历音频信号，得到音频信号的最大的采样数据值 maxSample Value。

步骤 101B , 对音频信号进行窗口和小组的划分，获取每个小组内的采样数据值的平均值数组 avgGroup, 以及获取每个窗口内所有小组的采样数据值的平均值中的最大值数组 windowPeak。

音节是自然的语音单位，具体地，在汉语里，每一个音节对应一种嘴唇形状，勾速时，完成一个音节读音大约需要 200至 300毫秒。在每个音节发音时间段内也会有语音变化，所以需要将音节再进行划分，细分出音素。依据上述原理，可以将获取的音频信号按照一定长度进行窗口划分，一个窗口对应一个音节；在每个窗口内再按照一定长度进行小组划分，一个小组对应一个音素。假设音节占用 X秒时间，窗口长度为 WindowLen, 则 WindowLen = X * 音频采样率；假设定义音素占用 y秒时间，小组长度为 GroupLen, GroupLen = y * 音频采样率。

具体地，获取的每个小组内采样数据值的平均值为组内所有采样数据值的总和除以 groupLen, 将该平均值放在平均值数组 avgGroup; 获取每个窗口内所有小组采样数据值的平均值数组 avgGroup中的最大值，放在最大值数组 windowPeak。

可选地，为了避免嘴唇形状不必要的运动及在必要运动时显得更加得流畅，可以在获取音频信号时对音频信号进行去噪处理。

步骤 101C, 根据获取的最大值数组 windowPeak和获取的最大采样数据值获取当前窗口对应的嘴唇形状的最大运动幅度值。

具体地，获取第 i窗口内（i>=0 )所有小组采样数据值的平均值；获取采样数据值的平均值中的最大值 windowPeak[i]；计算最大值 windowPeak[i] 与最大的音频采样数据值的 maxSample Value的比值 scale[i]。对于 scale数组中的每个数组值 scale[i] , 计算当前窗口 i对应的嘴唇形状的最大运动幅度值 extent[i]=scale[i] * maxLen, 其中， maxLen为所有窗口的嘴唇形状的最大运动幅度值。

步骤 101D, 根据当前窗口对应的嘴唇形状的最大运动幅度值，获取当前窗口对应的每一视频帧的嘴唇形状的运动幅度比例。

具体地，获取当前窗口 i对应的第 j帧视频中的嘴唇形状的运动幅度比例 scaleForFrame [k] =j * ( scale [i] I (frameNumber/2) ) , 其中 , k=frameNumber*i+j , 0=<k<视频总帧数， frameNumber为每个窗口对应的动画视频帧的个数， frameNumber = x * 视频采样率， x为每个音节占用时间长度，本实施例中，视频采样率默认为 30帧 /秒，用户也可以根据需要进行 4爹改； j取值范围为从 0依次递增到 frameNumber/2, 再从 frameNumber/2 依次递减到 0, 如图 2所示。

步骤 102, 获取用户输入的初始的嘴唇形状模型，根据初始的嘴唇形状模型和得到的嘴唇形状的运动幅度比例，生成嘴唇形状的运动幅度值。

具体地，嘴唇形状的运动幅度值分为：垂直方向和水平方向的嘴唇形状运动幅度值；计算水平方向的嘴唇形状的运动幅度值为 length*scaleForFrame[k] , 垂直方向的 ^{1 r}觜唇形 ^大的运动幅度值为 width*scaleForFrame[k] , 其中， 0=<k<视频总帧数， length和 width分另' J为初始的嘴唇形状模型的长度和宽度。

需要说明的是，用户输入的初始的嘴唇形状模型根据实际情况不同会发生变化。

步骤 103 ,根据得到的嘴唇形状的运动幅度值和预先建立的嘴唇发音模型库，生成变化的嘴唇形状网格模型集合。

在本步骤中，嘴唇发音模型库是依据汉语的发音特点建立的。在汉语中，词由声母和韵母组成，嘴唇形状的重点会放在韵母的发音上。韵母又分单韵母、复韵母和鼻韵母。单韵母的发音由一个元音组成，从始至终嘴唇形状不变；复韵母由两个或三个元音组成，声音是渐变的，嘴唇形状也是渐变的；而鼻韵母对嘴唇形状的影响不大。因此，在对嘴唇形状建立发音模型时，主要依照单韵母的发音的发音特点。单韵母的发音是： "啊，哦，鵝，衣，屋，于"，其中 "屋" 和 "于" 的嘴唇形状比较相似，所以合成一种； "鵝" 和 "衣" 的嘴唇形状比较相似，所以合成一种；最后得到用四种嘴唇发音模型组成嘴唇发音模型库来表示单韵母的嘴唇形状，如图 3所示，嘴唇发音模型库必须包括：一个原始嘴唇模型和在此模型基础上按以上原理建立起来的各种嘴唇发音模型。需要说明的是，嘴唇发音模型库中不限于以上四种单韵母的嘴唇发音模型，依据语言的发音特点不同，嘴唇发音模型库中的嘴唇发音模型也可以不同，例如，根据英语的发音特定，嘴唇发音模型库中可以有模拟英语元音 "a e i o u" 发音特点的嘴唇发音模型。

具体地，根据预先建立的嘴唇发音模型库和嘴唇形状的运动幅度值生成变化的嘴唇形状网格模型集合的步骤包括：

步骤 103 A, 从预先建立的嘴唇发音模型库中随机选择一个嘴唇发音模型，作为当前嘴唇形状的原始发音模型。

步骤 103B ,获取原始发音模型顶点和嘴唇发音模型库中原始嘴唇模型，计算原始发音模型各个顶点的偏移量比例，计算方法为：原始发音模型顶点 Z相对嘴唇发音模型库中原始嘴唇模型的顶点 Z的偏移量在水平方向为 x_hor , 在垂直方向为 y_ver , 那么顶点 z 在水平方向的偏移量比例为 x_hor/modelLength, 顶点 z在垂直方向的偏移量比例为 y_ver/modelWidth, 其中 modelLength和 modelWidth为发音模型库中原始嘴唇模型的长度和宽度， 0=<z<原始发音模型顶点个数。

步骤 103C, 将原始发音模型各个顶点的偏移量比例，各自乘以当前帧的嘴唇形状运动幅度值，得到当前帧的顶点偏移量。

步骤 103D, 在获取的用户输入的初始的嘴唇形状模型，分别累加当前帧的顶点偏移量，得到当前帧的嘴唇形状模型。

步骤 103E, 将所有帧的嘴唇形状模型按照对应的音频顺序进行排列，生成变化的嘴唇形状网格模型集合。

本发明实施例 2提供了一种获取嘴唇动画的方法，如图 4所示，包括：步骤 201 , 获取音频信号，根据音频信号的特征得到嘴唇形状的运动幅度比例。

步骤 201与步骤 101相同，在此不再赘述。

步骤 202, 获取用户输入的初始的嘴唇形状模型，根据初始的嘴唇形状模型和得到的嘴唇形状的运动幅度比例，生成嘴唇形状的运动幅度值。

步骤 202与步骤 102相同，在此不再赘述。

步骤 203 ,根据得到的嘴唇形状的运动幅度值和预先建立的嘴唇发音模型库，生成变化的嘴唇形状网格模型集合。

步骤 203与步骤 103相同，在此不再赘述。

步骤 204, 根据该变化的嘴唇形状网格模型集合生成嘴唇动画。

具体地，根据该变化的嘴唇形状网格模型集合，结合原始的嘴唇形状图像，利用普通的插值技术即可得到嘴唇动画。

在本发明实施例中，利用嘴唇发音模型库，通过语音驱动实现了嘴唇形状变化，进而得到嘴唇动画，相对于现有技术，本发明实施例提供的技术方案算法筒单，且成本低。

本发明实施例 3提供了一种语音驱动动画中嘴唇形状变化的装置，如图 5所示，包括：

获取模块 501 , 用于获取音频信号，根据该音频信号的特征得到嘴唇形 ^大的运动幅度比例；

第一生成模块 502, 用于获取用户输入的初始的嘴唇形状模型，根据该初始的嘴唇形状模型和该得到的嘴唇形状的运动幅度比例，生成嘴唇形状的运动幅度值；

第二生成模块 503 ,用于根据该得到的嘴唇形状的运动幅度值和预先建立的嘴唇发音模型库，生成变化的嘴唇形状网格模型集合。

进一步地，如图 6所示，获取模块 501包括：

第一获取模块 5011 , 用于遍历音频信号，获取最大的采样数据值；第二获取模块 5012, 用于对该音频信号进行窗口和小组的划分，获取每个小组内的采样数据值的平均值数组 avgGroup , 获取每个窗口内所有小组的采样数据值的平均值数组 avgGroup中的最大值数组 windowPeak;

第三获取模块 5013 , 用于根据获取的最大值数组 windowPeak和获取的最大采样数据值，获取当前窗口 i对应的嘴唇形状的最大运动幅度值；第四获取模块 5014 , 用于根据当前窗口 i对应的嘴唇形状最大运动幅度获取当前窗口 i对应的当前帧视频的嘴唇形状运动幅度比例。

进一步地，第二获取模块 5012, 包括：

第五获取模块，用于获取当前窗口 i内所有小组采样数据值的平均值；第六获取模块，用于获取采样数据值的平均值的最大值 windowPeak[i] ; 第七获取模块，用于计算 windowPeak[i]和最大的音频采样数据值 maxSample Value的比值 scale [i] ;

第八获取模块，用于计算当前窗口 i对应的嘴唇形状的最大运动幅度值

其中， i>=0 , maxLen为所有窗口的 ^ '觜唇形状的最大运动幅度值。

进一步地，第四获取模块 5014, 具体用于获取当前窗口 i对应的第 j 帧视频中的嘴唇形状运动幅度比例 scaleForFrame[k]=j * ( scale [i] I (irameNumber/2) ) , 其中， k=frameNumber*i+j , 0=<k<视频总帧数， frameNumber为每个窗口对应的动画视频帧的个数， frameNumber = x *视频采样率， X 为每音节占用的时间， j 取值范围为从 0 依次递增到

进一步地，该第一生成模块 502根据该初始的嘴唇形状模型和该嘴唇形状的运动幅度比例，生成嘴唇形状的运动幅度值，包括：

计算水平方向的嘴唇形状的运动幅度值为 length*scaleForFrame[k] , 垂直方向的嘴唇形状的运动幅度值为 width*scaleForFrame[k] , 其中， length 和 width分别为初始的嘴唇形状模型的长度和宽度。

进一步地，如图 7所示，第二生成模块 503 , 包括：

选择模块 5031 , 用于从该预先建立嘴唇发音模型库中随机选择一个嘴唇发音模型，作为当前嘴唇形状的原始发音模型；

第九获取模块 5032, 用于获取该原始发音模型顶点和嘴唇发音模型库中原始嘴唇模型，计算原始发音模型各个顶点的偏移量比例；

第十获取模块 5033 , 用于将该原始发音模型各个顶点的偏移量比例各自都乘以当前帧的嘴唇形状运动幅度值得到当前帧的顶点偏移量；

第十一获取模块 5034, 用于在获取的用户输入的初始的嘴唇形状模型上，分别累加当前帧的顶点偏移量，得到当前帧的嘴唇形状模型；

模型集合生成模块 5035 , 用于将所有帧的嘴唇形状模型排列起来，生成变化的嘴唇形状网格模型集合。

进一步地，第九获取模块 5032计算原始发音模型各个顶点的偏移量比例，包括：

计算原始发音模型顶点 Z 在水平方向的偏移量比例为 x_hor/modelLength, 在垂直方向的偏移量比例为 y_ver/modelWidth , 其中 modelLength和 modelWidth为发音模型库中原始嘴唇模型的长度和宽度， x_hor、 y_ver分别为原始发音模型顶点 z相对嘴唇发音模型库中原始嘴唇模型的顶点 z在水平方向和垂直方向的偏移量，其中， 0=<z<原始发音模型顶点个数。

进一步地，获取模块 501 , 还用于对该音频信号进行去噪处理。

需要说明的是，获取模块 501 获取音频信号，根据该音频信号的特征得到嘴唇形状的运动幅度比例的详细过程可以参见实施例 1中的步骤 101。

需要说明的是，第一生成模块 502获取初始的嘴唇形状模型，根据该初始的嘴唇形状模型和该得到的嘴唇形状的运动幅度比例生成嘴唇形状的运动幅度值的详细过程可以参见实施例 1中的步骤 102。

需要说明的是，第二生成模块 503根据该得到的嘴唇形状的运动幅度值和预先建立的嘴唇发音模型库，生成变化的嘴唇形状网格模型集合的详细过程可以参见实施例 1中的步骤 103。

本发明实施例 4提供了一种获取嘴唇动画的装置，如图 8所示，包括：获取模块 601 , 用于获取音频信号，根据该音频信号的特征得到嘴唇形 ^大的运动幅度比例；

第一生成模块 602, 用于获取用户输入的初始的嘴唇形状模型，根据该初始的嘴唇形状模型和该得到的嘴唇形状的运动幅度比例生成嘴唇形状的运动幅度值；

第二生成模块 603 ,用于根据该得到的嘴唇形状的运动幅度值和预先建立的嘴唇发音模型库，生成变化的嘴唇形状网格模型集合；

第三生成模块 604,用于根据该变化的嘴唇形状网格模型集合生成嘴唇动画。

获取模块 601、第一生成模块 602和第二生成模块 603分别等同于实施例 3中的获取模块、第一生成模块和第二生成模块，具体不再赘述。

需要说明的是，获取模块 601 获取音频信号，根据该音频信号的特征得到嘴唇形状的运动幅度比例的详细过程可以参见实施例 1中的步骤 101。

需要说明的是，第一生成模块 602获取初始的嘴唇形状模型，根据该初始的嘴唇形状模型和该得到的嘴唇形状的运动幅度比例，生成嘴唇形状的运动幅度值的详细过程可以参见实施例 1中的步骤 102。

需要说明的是，第二生成模块 603根据该得到的嘴唇形状的运动幅度值和预先建立的嘴唇发音模型库，生成变化的嘴唇形状网格模型集合的详细过程可以参见实施例 1中的步骤 103。

本发明实施例 1-4 的技术方案可以应用于但不限于终端视频动画或娱乐性的网页视频动画领域，不仅适用于汉语，还可以适用于英语、法语或其他语种，为了叙述筒便，本发明实施例 1-4的技术方案仅以汉语为例，其他语种的处理类似，不再赘述。其中，用户输入的初始的嘴唇形状模型可能是来自于人脸、动物脸、卡通图像等；音频信号也是用户自定义的，例如是正常说话、唱歌，或特效处理过的音频信号等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述程序可以存储于计算机可读取存储介质中，所述存储介质为计算机的软盘、硬盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

权利要求书

1、一种语音驱动动画中嘴唇形状变化的方法，其特征在于，包括：获取音频信号，根据所述音频信号的特征得到嘴唇形状的运动幅度比例；

获取用户输入的初始的嘴唇形状模型，根据所述初始的嘴唇形状模型和所述嘴唇形状的运动幅度比例，生成嘴唇形状的运动幅度值；

2、如权利要求 1所述的语音驱动动画中嘴唇形状变化的方法，其特征在于，根据所述音频信号的特征得到嘴唇形状的运动幅度比例，包括：遍历音频信号，获取最大的采样数据值；

对所述音频信号进行窗口和小组的划分，获取每个小组内的采样数据值的平均值数组 avgGroup, 获取每个窗口内所有小组的采样数据值的平均值数组 avgGroup中的最大值数组 windowPeak;

根据获取的最大值数组 windowPeak和获取的最大采样数据值获取当前窗口 i对应的嘴唇形状的最大运动幅度值；

根据当前窗口 i对应的嘴唇形状的最大运动幅度值，获取当前窗口 i 对应的当前视频帧的嘴唇形状的运动幅度比例；

其中， i>=0。

3、如权利要求 2所述的语音驱动动画中嘴唇形状变化的方法，其特征在于，

所述根据获取的最大值数组 windowPeak和获取的最大采样数据值，获取当前窗口 i对应的嘴唇形状的最大运动幅度值，包括：

获取当前窗口 i内所有小组采样数据值的平均值；

获取采样数据值的平均值的最大值 windowPeak[i]；计算最大值 windowPeak[i]和最大的音频采样数据值 maxSample Value 的比值 scale [i] ;

计算当前窗口 i对应的嘴唇形状的最大运动幅度值 extent[i]=scale[i] * maxLen;

其中， maxLen为所有窗口的嘴唇形状的最大运动幅度值。

4、如权利要求 2所述的语音驱动动画中嘴唇形状变化的方法，其特征在于，所述根据当前窗口 i对应的嘴唇形状最大运动幅度值，获取当前窗口 i对应的当前视频帧的嘴唇形状运动幅度比例，包括：

获取当前窗口 i 对应的第 j 帧视频中的嘴唇形状运动幅度比例 scaleForFrame [k] =j * ( scale[i] / (irameNumber/2) );

其中, k=frameNumber*i+j , 0=<k<视频总帧数, frameNumber为每个窗口对应的动画视频帧的个数， frameNumber = x * 视频采样率， x为每个音节占用的时间， j取值范围为从 0依次递增到 frameNumber/2, 再从 frameNumber/2依次递减到 0。

5、如权利要求 4所述的语音驱动动画中嘴唇形状变化的方法，其特征在于，所述根据所述初始的嘴唇形状模型和所述嘴唇形状的运动幅度比例生成嘴唇形状的运动幅度值，包括：

计算水平方向的嘴唇形状的运动幅度值为 length*scaleForFrame[k] , 垂直方向的嘴唇形状的运动幅度值为 width*scaleForFrame[k] , 其中， length和 width分别为初始的嘴唇形状模型的长度和宽度。

6、如权利要求 1至 5任一项所述的语音驱动动画中嘴唇形状变化的方法，其特征在于，根据所述得到嘴唇形状的运动幅度值和预先建立的嘴唇发音模型库，生成变化的嘴唇形状网格模型集合，包括：

从所述预先建立的嘴唇发音模型库中随机选择一个嘴唇发音模型，作为当前嘴唇形状的原始发音模型；获取所述原始发音模型顶点和嘴唇发音模型库中原始嘴唇模型，计算原始发音模型各个顶点的偏移量比例；

将所述原始发音模型各个顶点的偏移量比例，各自乘以当前帧的嘴唇形状运动幅度值，得到当前帧的顶点偏移量；

在获取的用户输入的初始的嘴唇形状模型上，分别累加当前帧的顶点偏移量，得到当前帧的嘴唇形状模型；

将所有帧的嘴唇形状模型排列，生成变化的嘴唇形状网格模型集合。

7、如权利要求 6所述的语音驱动动画中嘴唇形状变化的方法，其特征在于，所述计算原始发音模型各个顶点的偏移量比例，包括：

计算每个原始发音模型顶点 Z 在水平方向的偏移量比例为 x_hor/modelLength , 在垂直方向的偏移量比例为 y_ver/modelWidth;

其中 modelLength和 modelWidth为发音模型库中原始嘴唇模型的长度和宽度， x_hor、 y_ver分别为原始发音模型顶点 z相对嘴唇发音模型库中原始嘴唇模型的顶点 z在水平方向和垂直方向的偏移量，其中， 0=<z< 原始发音模型顶点个数。

8、如权利要求 6所述的语音驱动动画中嘴唇形状变化的方法，其特征在于，所述获取音频信号，还包括：对所述音频信号进行去噪处理。

9、一种获取嘴唇动画的方法，其特征在于，包括：

获取音频信号，根据所述音频信号的特征得到嘴唇形状的运动幅度比列；

根据所述嘴唇形状的运动幅度值和预先建立的嘴唇发音模型库，生成变化的嘴唇形状网格模型集合；

根据所述变化的嘴唇形状网格模型集合生成嘴唇动画。

10、一种语音驱动动画中嘴唇形状变化的装置，其特征在于，包括：获取模块，用于获取音频信号，根据所述音频信号的特征得到嘴唇形状的运动幅度比例；

第一生成模块，用于获取用户输入的初始的嘴唇形状模型，根据所述初始的嘴唇形状模型和所述嘴唇形状的运动幅度比例，生成嘴唇形状的运动幅度值；

11、如权利要求 10所述的语音驱动动画中嘴唇形状变化的装置，其特征在于，所述获取模块包括：

第一获取模块，用于遍历音频信号，获取最大的采样数据值；第二获取模块，用于对所述音频信号进行窗口和小组的划分，获取每个小组内的采样数据值的平均值数组 avgGroup, 获取每个窗口内所有

'J、组的采样数据值的平均值数组 avgGroup中的最大值数组 windowPeak; 第三获取模块，用于根据获取的最大值数组 windowPeak和获取的最大采样数据值获取当前窗口对应的嘴唇形状的最大运动幅度值；

第四获取模块，用于根据当前窗口对应的嘴唇形状最大运动幅度获取当前窗口对应的当前帧视频的嘴唇形状运动幅度比例。

12、如权利要求 10所述的语音驱动动画中嘴唇形状变化的装置，其特征在于，所述第二获取模块，包括：

第五获取模块，用于获取当前窗口 i 内所有小组采样数据值的平均值；

第六获取模块，用于获取采样数据值的平均值的最大值 windowPeak [i]；

第七获取模块，用于计算最大值 windowPeak[i]和最大的音频采样数据值 maxSample Value的比值 scale [i] ;

第八获取模块，用于计算当前窗口 i对应的嘴唇形状的最大运动幅度 extent[i]=scale[i] * maxLen;

其中， i>=0, maxLen为所有窗口的嘴唇形状的最大运动幅度值。

13、如权利要求 10所述的语音驱动动画中嘴唇形状变化的装置，其特征在于，所述第四获取模块，具体用于获取当前窗口 i对应的第 j帧视频中的嘴唇形状运动幅度比例 scaleForFrame[k]=j* ( scale [i] I (irameNumber/2) ) , 其中， k=frameNumber*i+j , 0=<k<视频总帧数， frameNumber为每个窗口对应的动画视频帧的个数， frameNumber = x * 视频采样率， X 为每音节占用的时间， j 取值范围为从 0 依次递增到 frameNumber/2, 再从 frameNumber/2依次递减到 0。

14、如权利要求 13所述的语音驱动动画中嘴唇形状变化的装置，其特征在于，所述第一生成模块根据所述初始的嘴唇形状模型和所述嘴唇形状的运动幅度比例，生成嘴唇形状的运动幅度值，包括：

15、如权利要求 10至 14任一项所述的语音驱动动画中嘴唇形状变化的装置，其特征在于，所述第二生成模块，包括：

选择模块，用于从所述预先建立嘴唇发音模型库中随机选择一个嘴唇发音模型，作为当前嘴唇形状的原始发音模型；

第九获取模块，用于获取所述原始发音模型顶点和嘴唇发音模型库中原始嘴唇模型，计算原始发音模型各个顶点的偏移量比例；

第十获取模块，用于将所述原始发音模型各个顶点的偏移量比例各自都乘以当前帧的嘴唇形状运动幅度值得到当前帧的顶点偏移量；第十一获取模块，用于在获取的用户输入的初始的嘴唇形状模型上，分别累加当前帧的顶点偏移量，得到当前帧的嘴唇形状模型；

模型集合生成模块，用于将所有帧的嘴唇形状模型排列，生成变化的嘴唇形状网格模型集合。

16、如权利要求 15所述的语音驱动动画中嘴唇形状变化的装置，其特征在于，第九获取模块计算原始发音模型各个顶点的偏移量比例，包括：

计算原始发音模型顶点 z 在水平方向的偏移量比例为 x_hor/modelLength, 在垂直方向的偏移量比例为 y_ver/modelWidth, 其中 modelLength和 modelWidth为发音模型库中原始嘴唇模型的长度和宽度， x_hor、 y_ver分别为原始发音模型顶点 z相对嘴唇发音模型库中原始嘴唇模型的顶点 z在水平方向和垂直方向的偏移量，其中， 0=<z<原始发音模型顶点个数。

17、如权利要求 16所述的语音驱动动画中嘴唇形状变化的装置，其特征在于，所述获取模块，还用于对所述音频信号进行去噪处理。

18、一种获取嘴唇动画的装置，其特征在于，包括：

获取模块，用于获取音频信号，根据所述音频信号的特征得到嘴唇形状的运动幅度比例；