WO2019174131A1

WO2019174131A1 - 身份认证方法、服务器及计算机可读存储介质

Info

Publication number: WO2019174131A1
Application number: PCT/CN2018/089204
Authority: WO
Inventors: 王义文; 王健宗; 肖京
Original assignee: 平安科技（深圳）有限公司
Priority date: 2018-03-12
Filing date: 2018-05-31
Publication date: 2019-09-19
Also published as: CN108427874A

Abstract

一种身份认证方法，该方法包括：提取视频数据中目标用户的动态口型影像，通用口型识别模型识别出所述动态口型影像对应的口型语意，并且将所述动态口型影像与用户数据库进行映射以获得该动态口型影像对应的目标用户身份，将所述口型语意与参考口型语意进行比对分析以对该用户进行活体认证，从而完成身份认证。所述身份认证方法、服务器及计算机可读存储介质可以快速对用户的身份进行验证，提高身份验证的速度、准确度，极大地节约了成本、提高了工作效率。

Description

身份认证方法、服务器及计算机可读存储介质

优先权申明

本申请要求于2018年03月12日提交中国专利局、申请号为201810198704.2，名称为“身份认证方法、服务器及计算机可读存储介质”的中国专利申请的优先权，该中国专利申请的整体内容以参考的方式结合本申请中。

技术领域

本申请涉及信息安全领域，尤其涉及一种身份认证方法、服务器及计算机可读存储介质。

背景技术

目前，很多公司业务范围广，涉及多个方面，每个业务范畴都需要同客户进行沟通，而这些业务包含了大量的重复性对话，如业务咨询、办理业务的客户信息获取。为了满足业务需求，目前很多公司主要采用人工和计算机引导的方式处理此类业务。但是当公司的客户群体庞大，靠人工处理业务就显得费时费力，增加业务成本，而计算机引导灵活性较差，只能针对特定的业务流程，切计算机处理时难以快速、准确的获知客户的真实身份，无法对客户的身份进行快速有效的验证。

因此，如何快速对客户身份进行识别验证，成为当下亟需解决的一大问题。

发明内容

有鉴于此，本申请提出一种身份认证方法及服务器，以解决如何的问题。

首先，为实现上述目的，本申请提出一种身份认证方法，该方法包括步骤：

一种身份认证方法，应用于服务器，其特征在于，所述方法包括步骤：

提取该目标用户的动态口型影像；

将所述动态口型影像输入预先训练的通用口型识别模型，该通用口型识别模型识别出所述动态口型影像对应的口型语意，并且所述通用口型识别模型将所述动态口型影像与所述通用口型识别模型中的用户数据库进行映射以获得该动态口型影像对应的目标用户身份；及

将所述口型语意与预设参考口型语意进行比对分析以对该目标用户进行活体认证，若所述口型语意与参考口型语意的语意相近或者相同，则所述目标用户活体认证成功，若所述目标用户具有所述目标用户身份，则该目标用户的身份验证成功；

其中，所述预设参考口型语意为系统给出的阅读信息。

此外，为实现上述目的，本申请还提供一种服务器，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的身份认证系统，所述身份认证系统被所述处理器执行时实现如上述的身份认证方法的步骤。

进一步地，为实现上述目的，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质存储有身份认证系统，所述身份认证系统可被至少一个处理器执行，以使所述至少一个处理器执行如上述的身份认证方法的步骤。

相较于现有技术，本申请所提出的身份认证方法、服务器及计算机可读存储介质，首先在接收到待进行身份验证的目标用户根据系统提示阅读的视频数据后，提取该目标用户的动态口型影像；其次，将所述动态口型影像输入预先训练的通用口型识别模型，该通用口型识别模型识别出所述动态口型影像对应的口型语意，并且所述通用口型识别模型将所述动态口型影像与所述通用口型识别模型中的用户数据库进行映射以获得该动态口型影像对应的目标用户身份；最后，将所述口型语意与参考口型语意进行比对分析以对该用户进行活体认证，同时完成对该目标用户的身份进行验证。采用本申请所提出的身份认证方法、服务器及计算机可读存储介质可以快速对用户的身份进行验证，提高身份验证的速度、准确度，极大地节约了成本、提高了工作效率。

附图说明

图1是本申请服务器一可选的硬件架构的示意图；

图2是本申请身份认证系统第一实施例的程序模块示意图；

图3是本申请身份认证方法第一实施例的流程示意图；

图4是本申请身份认证方法第二实施例的流程示意图；

图5是本申请身份认证方法第三实施例的流程示意图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，在本申请中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本申请要求的保护范围之内。

参阅图1所示，是本申请服务器1一可选的硬件架构的示意图。

本实施例中，所述服务器1可包括，但不仅限于，可通过系统总线相互通信连接存储器11、处理器12、网络接口13。需要指出的是，图1仅示出了具有组件11-13的服务器1，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

其中，所述服务器1可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器等计算设备，该服务器1可以是独立的服务器，也可以是多个服务器所组成的服务器集群。

所述存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器11可以是所述服务器1的内部存储单元，例如该服务器1的硬盘或内存。在另一些实施例中，所述存储器11也可以是所述服务器1的外部存储设备，例如该服务器1上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，所述存储器11还可以既包括所述服务器1的内部存储单元也包括其外部存储设备。本实施例中，所述存储器11通常用于存储安装于所述服务器1的操作系统和各类应用软件，例如身份认证系统2的程序代码等。此外，所述存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器12在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器12通常用于控制所述服务器1的总体操作。本实施例中，所述处理器12用于运行所述存储器11中存储的程序代码或者处理数据，例如运行所述的身份认证系统2等。

所述网络接口13可包括无线网络接口或有线网络接口，该网络接口13通常用于在所述服务器1与其他电子设备之间建立通信连接。

至此，己经详细介绍了本申请相关设备的硬件结构和功能。下面，将基于上述介绍提出本申请的各个实施例。

首先，本申请提出一种身份认证系统2。

参阅图2所示，是本申请身份认证系统2第一实施例的程序模块图。

本实施例中，所述身份认证系统2包括一系列的存储于存储器11上的计算机程序指令，当该计算机程序指令被处理器12执行时，可以实现本申请各实施例的身份认证操作。在一些实施例中，基于该计算机程序指令各部分所实现的特定的操作，身份认证系统2可以被划分为一个或多个模块。例如，在图3中，所述身份认证系统2可以被分割成接收及预处理模块20、提取模块21、识别模块22、映射模块23、对比模块24及确认模块25。其中：

所述接收及预处理模块20，用于接收待进行身份验证的目标用户根据系统提示录入的所述视频数据，对所述视频数据进行预处理。

具体地，系统提示阅读的信息可以是数字、字符串、一句话，也可以是它们的组合，比如可以使“abc”、“13579abc”、“你好9527”等。

具体地，用于接收所述视频数据的装置可以是网络摄像机。

所述提取模块21，用于提取视频数据中目标用户的动态口型影像。

具体地，获取所述目标用户的动态口型影像的步骤包括：获取被验证者的视频图像；对预所述视频图像进行人脸检测；对检测到的人脸进行唇部定位；及对唇部进行特征提取，从而获取有效口型特征以识别口型语意。

具体地，所述的特征提取包括步骤：唇部轮廓提取；唇部轮廓追踪；唇部轮廓特征提取。

所述识别模块22，用于将所述动态口型影像输入预先训练的通用口型识别模型，该通用口型识别模型识别出所述动态口型影像对应的口型语意。

具体地，所述通用口型识别模型基于深度神经网络而构建，该深度神经网络用于上述处理后的语音视频数据进行训练，该网络的结构包括9层，三层STCNN后连接Flatten层，经过三层卷基层卷积计算后的数据经过Flatten层压平处理，使得多维数据一维化，Flatten层后连接两层Bi-GRU对深度神经网络进行训练，第二层Bi-GRU连接一层全连接层Dense使得前面一层的每个单元都与后面一层的相连接，全连接层后连接归一化层softmax，softmax层连接一层CTC，CTC为连接时序分类，CTC允许多序列的概率计算，这些序列是语音样例的所有可能的字符级转译集合。

具体地，STCNN为时空卷积，卷积神经网络在图像空间上进行卷积堆叠操作，有助于提高计算机视觉任务的性能。时空卷积可以在时间域上进行卷积从而可以对视频数据进行处理，一个不包含偏置的由C通道变为C′通道的卷积计算如下：

其中x为输入，w为卷积核权重，

时空卷积可以在时间域上进行卷积从而可以对视频数据进行处理；

GRU为门控重复单元，GRU是一种循环神经网络(RNN)，通过添加细胞和控制门来改进早期的RNN，并学习控制该信息流，门控重复单元可以使RNN具有更多持久的记忆从而支持更长的序列，我们使用双向GRU,即Bi-GRU，使用双层Bi-GRU来训练深度神经网络可以学习到更多的东西，对于预测准确率的提升有较大帮助。GRU标准公式为：

[u _t,r _t] ^T＝sigm(W _zz _t+W _hh _t-1+b _g)

其中z:＝{z ₁,...,z _T}为RNN的输入序列，⊙表示元素乘法，我们使用双向GRU(Bi-GRU)，RNN序列为：

对每一个时间步t使得p(u _t|z)＝softmax(mlp(h _t；W _mlp))，其中mlp是含有权重W _mlp的前馈神经网络。然后我们可以定义时间序列分布：

p(u _t,...,u _T|z)＝∏ _1≤t≤Tp(u _t|z)

其中T由GRU的输入z决定。在该模型中z为STCNN的输出；

CTC损失函数广泛应用于语音识别，它可以消除输入与目标输出对齐的步骤。给定一个模型，通过用特殊的“空白”标记增加词汇表输出离散分布序列，CTC通过边界化所有被定义为与该序列相同的序列来计算可能序列概率，避免了将输入输出一一对应的步骤。

令表示单个时间步长输入词汇表的集合

其中○为“空白”标记。定义函数

给定字符串

删除相邻的重复字符并删除空白。对于一个标签序列y∈V ^*，CTC定义：

其中T为模型序列的时间步长。例如，T＝3，则CTC定义字符串“am”的可能性为：

p(aam)+p(amm)+p(○am)+p(a○m)+p(am○)

所述映射模块23，用于将所述动态口型影像与所述通用口型识别模型中的用户数据库进行映射以获得该动态口型影像对应的目标用户身份。

具体地，该通用口型识别模型还包括用户数据库，该用户数据库包括输入的语音视频数据对应的用户身份，也就是说，经过所述深度神经网络进行训练后，该通用口型识别模型将用户身份与语音视频数据中的口型影像数据一一映射。

具体地，不同的用户具有不同的口型特征，本识别系统通过深度神经网络模型，对用户的口型影像数据进行深度挖掘，构建用户说话口型的深度特征和说话时的上下文关系，这样用户A，用户B，用户C的身份就与其各自的口型影像一一对应。

所述对比模块24，将所述口型语意与参考口型语意进行比对分析以对该用户进行活体认证。

具体地，其中，所述参考口型语意可以包括语音识别的语意，例如通用口型识别模型中可以包括语音识别模型，该语音识别模型可以获取目标用户的语音数据，对所述语音数据进行分析后可以得到所述语音数据对应的语意，所述参考口型语意还可以是系统提供的语意，例如，当进行身份验证时，系统会给出字符、字符串、语句等让目标用户读出，此时系统可以得知正确的语意。

所述确认模块25，用于对所述目标用户的活体认证及身份认证进行确认。

具体地，若获取的口型语意与参考口型语意的语意相近或者相同，则活体认证成功，同时所述目标用户与用户数据库中的用户映射成功，则完成对该目标用户的身份进行验证，该目标用户的身份验证成功。

具体地，为了进一步提高口型识别验证的可靠性，本申请中，所述口型识别验证模块验证至少检测三次，并在多次检测成功后提示身份认证成功。

具体地，第一次验证成功后，系统在提供了第一次字符组合后，再随机提供第二组字符组合，由被验证者读出该第二组字符组合，再进行验证，如果第二次口型识别验证通过，则进行第三次验证，由系统再随机提供第三组字符组合，由被验证者读出该第三组字符组合，再进行验证，三次验证成功后，提示验证通过。当然，也可以根据需要设置更多次的验证，具体不限。

进一步地，本系统全部模块都在线上运行，通过GPU并行加速计算。可以显著的减少训练与识别时间，能够有效降低相关业务的人力成本。

此外，本申请还提出一种身份认证方法。

参阅图3所示，是本申请身份认证方法第一实施例的流程示意图。在本实施例中，根据不同的需求，图3所示的流程图中的步骤的执行顺序可以改变，某些步骤可以省略。

步骤S110，提取视频数据中目标用户的动态口型影像。

步骤S120，将所述动态口型影像输入预先训练的通用口型识别模型，该通用口型识别模型识别出所述动态口型影像对应的口型语意，并且所述通用口型识别模型将所述动态口型影像与所述通用口型识别模型中的用户数据库进行映射以获得该动态口型影像对应的目标用户身份。

具体地，所述通用口型识别模型基于深度神经网络而构建，该网络的结构包括9层，三层STCNN后连接Flatten层，经过三层卷基层卷积计算后的数据经过Flatten层压平处理，使得多维数据一维化，Flatten层后连接两层Bi-GRU对深度神经网络进行训练，第二层Bi-GRU连接一层全连接层Dense使得前面一层的每个单元都与后面一层的相连接，全连接层后连接归一化层softmax，softmax层连接一层CTC，CTC为连接时序分类，CTC允许多序列的概率计算，这些序列是语音样例的所有可能的字符级转译集合。

步骤S130，将所述口型语意与参考口型语意进行比对分析以对该用户进行活体认证，若获取的口型语意与参考口型语意的语意相近或者相同，则活体认证成功，同时完成对该目标用户的身份进行验证，该目标用户的身份验证成功。

具体地，为了增加身份验证的可靠性，还可以增加人脸识别，语音识别等识别方式，例如，当口型识别验证通过后，再增加人脸识别及语音识别以增强识别的准确性。

具体地，所述人脸识别方法可以采用基于特征脸(PCA)的人脸识别方法：特征脸方法是基于KL变换的人脸识别方法，KL变换是图像压缩的一种最优正交变换。高维的图像空间经过KL变换后得到一组新的正交基，保留其中重要的正交基，由这些基可以张成低维线性空间。如果假设人脸在这些低维线性空间的投影具有可分性，就可以将这些投影用作识别的特征矢量，这就是特征脸方法的基本思想。这些方法需要较多的训练样本，而且完全是基于图像灰度的统计特性的。当然，在其他实施方式中，还可以采用几何特征的人脸识别方法、神经网络的人脸识别方法、弹性图匹配的人脸识别方法、线段Hausdorff距离(LHD)的人脸识别方法等，在此不再赘述。

如图4所示，是本申请身份认证方法的第二实施例的流程示意图。本实施例中，根据不同的需求，图4所示的流程图中的步骤的执行顺序可以改变，某些步骤可以省略。

该方法包括以下步骤：

步骤S210，接收待进行身份验证的目标用户根据系统提示阅读的所述视频数据，对所述视频数据进行预处理。

具体地，预处理步骤包括对人脸图像通过做色阶、对比度、色彩平衡、锐化、降噪、去模糊、超解析、直方图均衡化等方法进行增强。

步骤S220，提取视频数据中目标用户的动态口型影像。

具体地，获取所述动态口型影像的步骤包括：获取被验证者的实时图像(网络摄像机)、视频图像预处理、人脸检测、唇部定位、特征提取(嘴唇轮廓提取、嘴唇轮廓追踪、嘴唇轮廓特征提取)。

步骤S230，将所述动态口型影像输入预先训练的通用口型识别模型，该通用口型识别模型识别出所述动态口型影像对应的口型语意，并且所述通用口型识别模型将所述动态口型影像与所述通用口型识别模型中的用户数据库进行映射以获得该动态口型影像对应的目标用户身份。

步骤S240，将所述口型语意与参考口型语意进行比对分析以对该用户进行活体认证，若获取的口型语意与参考口型语意的语意相近或者相同，则活体认证成功，同时完成对该目标用户的身份进行验证，该目标用户的身份验证成功。

图4所述身份认证方法的步骤S6220-S240与第一实施例的步骤S110-S130相类似，区别在于该方法还包括步骤S210。

如图5所示，是本申请身份认证方法的第三实施例的流程示意图。本实施例中，所述身份认证方法的通用口型识别模型基于深度神经网络而构建，所述通用口型识别模型的构建方法包括以下步骤：

步骤S310，获取服务器中的语音视频样本，对所述语音视频样本进行处理，所述处理方式包括人脸检测、嘴唇定位、数据标注、视频分帧。

具体地，对所述语音视频样本进行处理可以使得这些语音视频样本更加符合训练所述通用口型识别模型的要求。

具体地，人脸检测是指在动态的场景与复杂的背景中判断是否存在面像，并分离出这种面像。一般有下列几种方法：参考模板法，首先设计一个或数个标准人脸的模板，然后计算测试采集的样品与标准模板之间的匹配程度，并通过阈值来判断是否存在人脸；人脸规则法，由于人脸具有一定的结构分布特征，所谓人脸规则的方法即提取这些特征生成相应的规则以判断测试样品是否包含人脸；样品学习法，这种方法即采用模式识别中人工神经网络的方法，即通过对面像样品集和非面像样品集的学习产生分类器；肤色模型法，这种方法是依据面貌肤色在色彩空间中分布相对集中的规律来进行检测；特征子脸法，这种方法是将所有面像集合视为一个面像子空间，并基于检测样品与其在子孔间的投影之间的距离判断是否存在面像。

步骤S320，构建深度神经网络。

具体地，该网络的结构包括9层，三层STCNN后连接Flatten层，经过三层卷基层卷积计算后的数据经过Flatten层压平处理，使得多维数据一维化，Flatten层后连接两层Bi-GRU对深度神经网络进行训练，第二层Bi-GRU连接一层全连接层Dense使得前面一层的每个单元都与后面一层的相连接，全连接层后连接归一化层softmax，softmax层连接一层CTC，CTC为连接时序分类，CTC允许多序列的概率计算，这些序列是语音样例的所有可能的字符级转译集合。

步骤S330，使用处理后的语音视频数据对所述深度神经网络进行训练，得到所述通用口型识别模型，该通用口型识别模型可以识别出输入口型影像对应的口型语意。

具体地，本模型以单字符为基本单元，以上下文关系为桥梁，实现句子级别的识别。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

一种身份认证方法，应用于服务器，其特征在于，所述方法包括步骤：

提取视频数据中目标用户的动态口型影像；

将所述动态口型影像输入预先训练的通用口型识别模型，该通用口型识别模型识别出所述动态口型影像对应的口型语意，并且所述通用口型识别模型将所述动态口型影像与所述通用口型识别模型中的用户数据库进行映射以获得该动态口型影像对应的目标用户身份；及

将所述口型语意与预设参考口型语意进行比对分析以对该目标用户进行活体认证，若所述口型语意与参考口型语意的语意相近或者相同，则所述目标用户活体认证成功，若所述目标用户具有所述目标用户身份，则该目标用户的身份验证成功；

其中，所述预设参考口型语意为系统给出的阅读信息。
如权利要求1所述的身份认证方法，其特征在于，获取所述目标用户的动态口型影像的步骤包括：

获取所述目标用户的视频图像；

对预所述视频图像进行人脸检测；

对检测到的人脸进行唇部定位；及

对唇部进行特征提取，从而获取有效口型特征，将所述有效口型特征作为所述动态口型影像。
如权利要求2所述的身份认证方法，其特征在于，所述的对唇部进行特征提取包括：

对所述唇部进行唇部轮廓提取；

对所述唇部进行唇部轮廓追踪；及

对所述唇部进行唇部轮廓特征提取。
如权利要求1-3所述的身份认证方法，其特征在于，在获取所述动态口型影像之前还包括步骤：接收所述目标用户根据系统提示录入的视频数据，对所述视频数据进行预处理，所述预处理包括步骤：对所述视频图像通过做色阶、对比度、色彩平衡、锐化、降噪、去模糊、超解析、直方图均衡化的处理进行图像增强。
如权利要求4所述的身份认证方法，其特征在于，所述通用口型识别模型基于深度神经网络而构建，该深度神经网络的结构包括9层，三层时空卷积后连接压平层，压平层后连接两层Bi-GRU，第二层Bi-GRU连接一层全连接层，全连接层后连接归一化层，归一化层连接一层连接时序分类层，其中，所述时空卷积可以在时间域上进行卷积从而可以对视频数据进行处理，所述压平层使得多维数据一维化，所述Bi-GRU为双向门控重复单元。
如权利要求5所述的身份认证方法，其特征在于，构建所述通用口型识别模型的步骤包括：

获取服务器中的语音视频样本，对所述语音视频样本进行处理，所述处理方式包括人脸检测、嘴唇定位、数据标注、视频分帧；

构建深度神经网络；及

使用处理后的语音视频数据对所述深度神经网络进行训练，得到所述通用口型识别模型，该通用口型识别模型可以识别出输入口型影像对应的口型语意。
如权利要求6所述的身份认证方法，其特征在于，所述通用口型识别模型还包括用户数据库，该用户数据库包括输入的语音视频数据对应的用户身份，所述通用口型识别模型将用户身份与所述语音视频数据中的口型影像数据一一映射。
如权利要求7所述的身份认证方法，其特征在于，对所述目标用户的身份验证至少检测三次，并在多次检测成功后提示身份认证成功。
一种服务器，其特征在于，所述服务器包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的身份认证系统，所述身份认证系统被所述处理器执行时实现如下步骤：

提取视频数据中目标用户的动态口型影像；

将所述动态口型影像输入预先训练的通用口型识别模型，该通用口型识别模型识别出所述动态口型影像对应的口型语意，并且所述通用口型识别模型将所述动态口型影像与所述通用口型识别模型中的用户数据库进行映射以获得该动态口型影像对应的目标用户身份；及

将所述口型语意与预设参考口型语意进行比对分析以对该目标用户进行活体认证，若所述口型语意与参考口型语意的语意相近或者相同，则所述目标用户活体认证成功，若所述目标用户具有所述目标用户身份，则该目标用户的身份验证成功；

其中，所述预设参考口型语意为系统给出的阅读信息。
如权利要求9所述的服务器，其特征在于，获取所述目标用户的动态口型影像的步骤包括：

获取所述目标用户的视频图像；

对预所述视频图像进行人脸检测；

对检测到的人脸进行唇部定位；及

对唇部进行特征提取，从而获取有效口型特征，将所述有效口型特征作为所述动态口型影像。
如权利要求10所述的服务器，其特征在于，所述的对唇部进行特征提取包括：

对所述唇部进行唇部轮廓提取；

对所述唇部进行唇部轮廓追踪；及

对所述唇部进行唇部轮廓特征提取。
如权利要求9所述的服务器，其特征在于，在获取所述动态口型影像之前还包括步骤：接收所述目标用户根据系统提示录入的视频数据，对所述视频数据进行预处理，所述预处理包括步骤：对所述视频图像通过做色阶、对比度、色彩平衡、锐化、降噪、去模糊、超解析、直方图均衡化的处理进行图像增强。
如权利要求12所述的服务器，其特征在于，所述通用口型识别模型基于深度神经网络而构建，该深度神经网络的结构包括9层，三层时空卷积后连接压平层，压平层后连接两层Bi-GRU，第二层Bi-GRU连接一层全连接层，全连接层后连接归一化层，归一化层连接一层连接时序分类层，其中，所述时空卷积可以在时间域上进行卷积从而可以对视频数据进行处理，所述压平层使得多维数据一维化，所述Bi-GRU为双向门控重复单元。
如权利要求13所述的服务器，其特征在于，构建所述通用口型识别模型的步骤包括：

获取服务器中的语音视频样本，对所述语音视频样本进行处理，所述处理方式包括人脸检测、嘴唇定位、数据标注、视频分帧；

构建深度神经网络；及

使用处理后的语音视频数据对所述深度神经网络进行训练，得到所述通用口型识别模型，该通用口型识别模型可以识别出输入口型影像对应的口型语意。
如权利要求14所述的服务器，其特征在于，所述通用口型识别模型还包括用户数据库，该用户数据库包括输入的语音视频数据对应的用户身份，所述通用口型识别模型将用户身份与所述语音视频数据中的口型影像数据一一映射。
如权利要求15所述的服务器，其特征在于，对所述目标用户的身份验证至少检测三次，并在多次检测成功后提示身份认证成功。
一种计算机可读存储介质，所述计算机可读存储介质存储有身份认证系统，所述身份认证系统可被至少一个处理器执行时，实现如下步骤：

提取视频数据中目标用户的动态口型影像；

将所述动态口型影像输入预先训练的通用口型识别模型，该通用口型识别模型识别出所述动态口型影像对应的口型语意，并且所述通用口型识别模型将所述动态口型影像与所述通用口型识别模型中的用户数据库进行映射以获得该动态口型影像对应的目标用户身份；及

将所述口型语意与预设参考口型语意进行比对分析以对该目标用户进行活体认证，若所述口型语意与参考口型语意的语意相近或者相同，则所述目标用户活体认证成功，若所述目标用户具有所述目标用户身份，则该目标用户的身份验证成功；

其中，所述预设参考口型语意为系统给出的阅读信息。
如权利要求17所述的计算机可读存储介质，其特征在于，获取所述目标用户的动态口型影像的步骤包括：

获取所述目标用户的视频图像；

对预所述视频图像进行人脸检测；

对检测到的人脸进行唇部定位；及

对唇部进行特征提取，从而获取有效口型特征，将所述有效口型特征作为所述动态口型影像。
如权利要求18所述的计算机可读存储介质，其特征在于，所述的对唇部进行特征提取包括：

对所述唇部进行唇部轮廓提取；

对所述唇部进行唇部轮廓追踪；及

对所述唇部进行唇部轮廓特征提取。
如权利要求17所述的计算机可读存储介质，其特征在于，在获取所述动态口型影像之前还包括步骤：接收所述目标用户根据系统提示录入的视频数据，对所述视频数据进行预处理，所述预处理包括步骤：对所述视频图像通过做色阶、对比度、色彩平衡、锐化、降噪、去模糊、超解析、直方图均衡化的处理进行图像增强。