WO2019223102A1

WO2019223102A1 - 身份合法性的校验方法、装置、终端设备及介质

Info

Publication number: WO2019223102A1
Application number: PCT/CN2018/097449
Authority: WO
Inventors: 王义文; 王健宗; 肖京
Original assignee: 平安科技（深圳）有限公司
Priority date: 2018-05-22
Filing date: 2018-07-27
Publication date: 2019-11-28
Also published as: CN108763897A

Abstract

一种身份合法性的校验方法、装置、终端设备及介质，适用于信息处理技术领域，该方法包括：当检测到用户发出的语音信号时，采集用户的视频图像(S101)；对视频图像进行人脸检测处理，以确定出视频图像中的人脸区域(S102)；定位人脸区域中的唇部像素点(S103)；根据定位的唇部像素点，分别生成各个时刻唇部像素点对应的第一特征向量(S104)；将各个第一特征向量输入预设的循环神经网络模型，以输出每一时刻所对应的文本信息(S105)；根据文本信息以及预设的身份验证信息，确定用户的身份合法性(S106)。视频图像并不会受到外部环境的吵杂声的干扰，保证了基于视频图像所得到的文本信息来确定用户的身份合法性时，能提高身份识别的准确率，降低了身份合法性的校验难度。

Description

身份合法性的校验方法、装置、终端设备及介质

本申请要求于2018年05月22日提交中国专利局、申请号为201810496073.2、发明名称为“身份合法性的校验方法、终端设备及介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请属于信息处理技术领域，尤其涉及一种身份合法性的校验方法、装置、终端设备及介质。

背景技术

随着语音识别技术的不断发展，基于用户的声纹特征来验证用户的身份已发展成为了一种新的身份验证技术。例如，银行系统可接收用户发出的语音信号，并通过提取语音信号中的声纹特征，与预先存储的账户合法声纹特征作对比，进而根据对比结果来确定用户是否为账户的合法用户等。

然而，在银行等人数较多的应用场景之下，用户在发出语音信号时，语音信号中往往都夹杂有大量的环境噪声。此时，银行系统基于语音识别技术来对该语音信号来进行识别操作时，也会因环境噪声的存在而导致声纹特征的提取准确率降低，因此，也间接降低了对用户身份验证的识别准确率。

技术问题

有鉴于此，本申请实施例提供了一种身份合法性的校验方法、装置、终端设备及介质，以解决现有技术中用户身份验证的识别准确率较为低下的问题。

技术解决方案

本申请实施例的第一方面提供了一种身份合法性的校验方法，包括：

当检测到用户发出的语音信号时，采集所述用户的视频图像；

对所述视频图像进行人脸检测处理，以确定出所述视频图像中的人脸区域；

定位所述人脸区域中的唇部像素点；

根据定位的所述唇部像素点，分别生成各个时刻所述唇部像素点对应的第一特征向量；

将各个所述第一特征向量输入预设的循环神经网络模型，以输出每一时刻所对应的文本信息；其中，所述循环神经网络模型用于识别第一特征向量所匹配的文本信息；

根据所述文本信息以及预设的身份验证信息，确定所述用户的身份合法性。

本申请实施例的第二方面提供了一种身份合法性的校验装置，包括：

采集单元，用于当检测到用户发出的语音信号时，采集所述用户的视频图像；

检测单元，用于对所述视频图像进行人脸检测处理，以确定出所述视频图像中的人脸区域；

定位单元，用于定位所述人脸区域中的唇部像素点；

生成单元，用于根据定位的所述唇部像素点，分别生成各个时刻所述唇部像素点对应的第一特征向量；

输入单元，用于将各个所述第一特征向量输入预设的循环神经网络模型，以输出每一时刻所对应的文本信息；其中，所述循环神经网络模型用于识别第一特征向量所匹配的文本信息；

确定单元，用于根据所述文本信息以及预设的身份验证信息，确定所述用户的身份合法性。

本申请实施例的第三方面提供了一种终端设备，包括存储器以及处理器，所述存储器中存储有可在所述处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现如第一方面所述的身份合法性的校验方法的步骤。

本申请实施例的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如第一方面所述的身份合法性的校验方法的步骤。

有益效果

本申请实施例中，由于用户在说话过程中，嘴唇唇形会产生动态变化，因而通过采集用户在发出语音信号过程中的视频图像，并定位出视频图像中的唇部像素点，分别构建各个不同时刻与唇部像素点对应的特征向量，使得预先训练得到的神经网络模型能够直接输出用户在各个时刻所需表达的文本信息。由于视频图像的获取并不会受到外部环境的吵杂声的干扰，由此保证了基于视频图像所得到的文本信息来确定用户的身份合法性时，能够提高身份识别的准确率，降低了复杂噪音环境下身份合法性的校验难度。

附图说明

图1是本申请实施例提供的身份合法性的校验方法的实现流程图；

图2是本申请实施例提供的身份合法性的校验方法S102的具体实现流程图；

图3是本申请实施例提供的身份合法性的校验方法S103的具体实现流程图；

图4是本申请实施例提供的包含人脸特征点所对应的标签值的人脸区域示意图；

图5是本申请实施例提供的身份合法性的校验方法S104的具体实现流程图；

图6是本申请实施例提供的身份合法性的校验方法S105的具体实现流程图；

图7是本申请实施例提供的身份合法性的校验装置的结构框图；

图8是本申请实施例提供的终端设备的示意图。

本发明的实施方式

为了说明本申请所述的技术方案，下面通过具体实施例来进行说明。

图1示出了本申请实施例提供的身份合法性的校验方法的实现流程，详述如下：

S101：当检测到用户发出的语音信号时，采集所述用户的视频图像。

本申请实施例中，通过预设的语音接收器，检测外界所产生的语音信号。若检测到语音信号的幅值强度大于预设值，则确定当前语音信号为用户发出的语音信号。此时，启动摄像头，以通过该摄像头，采集用户的视频图像。

S102：对所述视频图像进行人脸检测处理，以确定出所述视频图像中的人脸区域。

本申请实施例中，通过预设的人脸检测算法，对摄取得到的各帧视频图像进行识别处理。上述人脸检测算法例如可以是AdaBoost人脸识别算法以及基于人脸特征的OPENCV检测算法等，在此不作限定。根据识别得到的各个人脸特征的位置点，可确定出视频图像中的人脸区域。

作为本申请的一个实施例，图2示出了本申请实施例提供的身份合法性的校验方法S102的具体实现流程，详述如下：

S1021：分别获取所述视频图像中每一像素点在横轴方向上的第一图像梯度信息以及在纵轴方向上的第二图像梯度信息。

S1022：对各个所述第一图像梯度信息以及所述第二图像梯度信息进行量化，以构建得到所述视频图像的第二特征向量。

S1023：将所述第二特征向量输入人脸检测模型，以输出视频图像中各个人脸特征点的标记位置。

本申请实施例中，对每一帧视频图像，通过以下公式，计算该帧视频图像中每一像素点分别在x轴方向上的第一图像梯度G _x(x,y)和在y轴方向上的第二图像梯度G _y(x,y)：

其中，(x,y)表示视频图像中像素点的坐标，H(x,y)为基于openCV所提供的Sobel算子对坐标为(x,y)这一像素点的像素值进行运行处理后所得到的输出值。

优选地，在计算视频图像中每一像素点在x轴方向上的第一图像梯度信息以及在y轴方向上的第二图像梯度信息之前，将视频图像进行归一化处理，包括：分别获取视频图像中像素点在各个颜色通道上的灰度值，计算各个灰度值的平方根。由此，实现了对视频图像的压缩，有效地降低了因视频图像局部的阴影和光照变化而带来后续运算过程中的识别误差。

本申请实施例中，对各个第一图像梯度信息以及第二图像梯度信息进行量化，以构建得到视频图像的第二特征向量。将上述第二特征向量输入基于Dlib库的人脸检测模型。上述Dlib库的人脸检测模型通过方向梯度直方图(Histogram Of Gradient，HOG)来识别出第二特征向量所表示出的各个人脸特征，再通过预设的向量机(Support Vector Machine，SVM)来对识别出各人脸特征所分别对应的分类类型。上述分类类型可以是指人脸器官中的一个位置，即，每一分类类型与视频图像中的一个位置点匹配。因此，在确定出各分类类型后，可在视频图像的各个坐标位置，确定已标记的各个人脸特征点。

本申请实施例中，上述基于Dlib库的人脸检测模型用于标记视频图像中的68个人脸特征点。

S1024：根据各个人脸特征点的所述标记位置确定所述视频图像中的人脸区域。

在上述得到的68个人脸特征点中，分别检测出纵坐标值最大、纵坐标值最小、横坐标值最大以及横坐标值最小的四个人脸特征点。生成外切于上述四个人脸特征点的矩形检测框，则该矩形检测框所包围的图像区域即为当前视频图像中的人脸区域。

本申请实施例中，通过获取视频图像中每一像素点在横轴方向上的第一图像梯度信息以及在纵轴方向上的第二图像梯度信息，基于第一图像梯度信息以及第二图像梯度信息来构建视频图像的特征向量，使得该特征向量能够被用于描述视频图像中局部图像的内容，且对该视频图像内的像素变化具有相对不变性。通过将特征向量输入人脸检测模型，以根据输出的人脸特征点的标记位置来确定视频图像中的人脸区域，实现了在识别人脸特征点的同时，准确定位并标记每一人脸特征点的具体位置，因此，提高了人脸区域的识别准确度。

S103：定位所述人脸区域中的唇部像素点。

本申请实施例中，人脸区域包含有人脸对应各个器官位置的人脸特征点。通过预设的唇部特征定位算法，识别出人脸区域中的唇部轮廓后，可将邻近于唇部轮廓以及唇部轮廓中的各个人脸特征点进行提取，以得到人脸区域中的各个唇部像素点。

优选地，在上一实施例的基础之上，步骤S1023还包括：获取所述人脸检测模型输出的所述视频图像中各个人脸特征点所对应的标签值；所述标签值用于表示所述人脸特征点的特征类别。此时，作为本申请的一个实施例，图3示出了本申请实施例提供的身份合法性的校验方法S103的具体实现流程，详述如下：

S1031：获取预先设置的与唇部像素点对应的标签阈值。

本申请实施例中，人脸检测模型在输出视频图像中各个人脸特征点的标记位置时，还在标记位置展示各个人脸特征点的标签值。其中，每一标签值用于表示当前标记位置所指示的人脸特征点所属的一个特征类别。上述标签值以数字序号的形式来进行展示。示例性地，图4为视频图像中，包含有68个人脸特征点所对应的标签值的人脸区域示意图。可见，标签值为27至35的人脸特征点表示这些人脸特征点所属的特征类别为鼻子。

本申请实施例中，获取预先设置的与唇部像素点对应的标签阈值。标签阈值表示唇部像素点所对应的标签值中，数值最小的一个标签值。例如，唇部像素点所对应的标签阈值为48。

S1032：在所述人脸检测模型所标记的各个所述人脸特征点中，将所述标签值大于或等于所述标签阈值的所述人脸特征点确定为所述人脸区域中的唇部像素点。

对每一人脸特征点所对应的标签值，判断该标签值是否大于或等于上述标签阈值。若该标签值大于或等于上述标签阈值，则将该人脸特征点识别为人脸区域中的一个唇部像素点。若该标签值小于上述标签阈值，则将该人脸特征点识别为非唇部像素点。如此类推，直至人脸区域中的各个人脸特征点均分类完成。

本申请实施例中，通过人脸检测模型输出视频图像中各个人脸特征点所对应的标签值，实现了基于标签值与标签阈值的大小关系来完成对唇部像素点的识别，无须再依赖于复杂的唇部精确定位算法来对视频图像进行处理，因此，提高了对唇部像素点的识别效率以及识别准确率。

S104：根据定位的所述唇部像素点，分别生成各个时刻所述唇部像素点对应的第一特征向量。

图5示出了本申请实施例提供的身份合法性的校验方法S104的具体实现流程，详述如下：

S1041：将所述视频图像划分为多个子图像。

S1042：分别生成每一所述子图像所对应的加权梯度方向直方图HOG，所述HOG包含多个区间。

S1043：对每一所述区间，计算该区间内各个像素点的梯度幅度的模值，并将各个所述模值进行叠加，以得到该区间对应的第三特征向量。

S1044：根据预设的扫描步长，读取所述视频图像的中各个所述区间的所述第三特征向量，并将各个所述第三特征向量所串联得到的向量确定为当前时刻所述唇部像素点对应的第一特征向量。

根据上述视频图像中每一像素点分别在x方向上的第一图像梯度G _x(x,y)和在y方向上的第二图像梯度G _y(x,y)，计算出视频图像中该像素点的梯度幅值G(x,y)以及梯度方向角β：

本申请实施例中，将视频图像划分为多个等分的子图像。对每一子图像，生成该子图像对应的一个加权梯度方向直方图HOG，并根据上述梯度方向角，沿梯度方向将该HOG平均划分为9个区间。其中，划分区间为0°至360°。即，沿梯度方向将HOG分成9组，使得每一组所匹配的角度范围为40°。

对属于同一区间下的各个像素点，读取各个像素点的梯度幅值，并将各个梯度幅值进行叠加后，得到该区间的特征值。

本申请实施例中，将每相邻的4个子图像作为一个图像块，把一个图像块所对应的各个区间的特征值进行联合，得到36维的特征向量。以一个图像块为单位，对当前的视频图像帧进行扫描，扫描步长为一个单位。将所有图像块的特征向量串联起来后，将得到的向量输出为该帧视频图像中与唇部像素点对应的第一特征向量。

优选地，在将每相邻的4个子图像作为一个图像块后，对图像块内的HOG进行归一化处理，以使各个子图像能够组合成空间上连通的图像块。由于归一化操作能够对图像块的光照、阴影以及边缘进行压缩，因此，基于归一化后的图像块所得到的第一特征向量，能够在后续识别唇部像素点所对应的文本信息的过程中，提高文本信息的识别准确率。

由于在不同时刻所捕获的视频图像不同，故根据预设时长内所连续捕获得到的多帧视频图像，可通过上述方式获取得到唇部像素点分别在各个时刻所对应的第一特征向量。

S105：将各个所述第一特征向量输入预设的循环神经网络模型，以输出每一时刻所对应的文本信息；其中，所述循环神经网络模型用于识别第一特征向量所匹配的文本信息。

本申请实施例中，使用循环神经网络模型对唇部像素点在各个时刻所对应的第一特征向量进行处理。其中，循环神经网络模型以预设的多个第一特征向量以及已知的文本信息来作为训练样本。通过上述循环神经网络模型，在空间和时间上对第一特征向量做卷积，相当于在空间或者平面上加上一维时间，以表征时间序列在空间上变化。循环神经网络模型所使用的卷积核为三维的卷积核，在时间的维度上所卷积得到的结果用于表征唇部像素点在时间上的变化特征。

本申请实施例中，循环神经网络模型包含有三个卷积层和三个池化层。池化层用于提取第一特征向量中的主要特征，以降低第一特征向量的维度，提高神经网络模型的泛化能力，同时引入平移、旋转和尺度不变性。

优选地，为了保持输出文本信息的序列不变，循环神经网络模型中，池化层的时间维度为一。

优选地，作为本申请的一个实施例，图6示出了本申请实施例提供的身份合法性的校验方法S105的具体实现流程，详述如下：

S1051：获取预设的循环神经网络模型，所述循环神经网络模型包含两个双向长短期记忆网络LSTM层。

S1052：将各个所述第一特征向量依序通过所述双向LSTM层，以输出每一时刻所对应的发音音素。

S1053：依照所述发音音素的输出顺序，构建包含静音音素以及包含各个所述发音音素的音素序列。

S1054：基于所述音素序列中所存在的所述静音音素，将所述音素序列分成多个音素组，并通过预设算法，将每一所述音素组转换为对应的文本字符。

本申请实施例中，循环神经网络模型包含有两个双向LSTM层，将唇部像素点分别在各个时刻所对应的第一特征向量依序通过上述两个LSTM层后，输出关联的各个发音音素以及每一发音音素的发音时长。发音音素例如可以是“a”“o”以及“b”等拼音字母。依照各个发音音素的输出顺序，构建包含各个发音音素的音素序列。其中，若检测到任意两个发音音素之间的时长间隔大于预设值，则在音素序列中，在上述两个发音音素之间插入一静音音素。

以静音音素为分隔符，对包含静音音素以及发音音素的音素序列进行切分，使得该音素序列能够被分割为仅包含发音音素的多个音素组。

在每一音素组，将连续出现的多个发音音素进行串接，并通过预设算法，识别出与这些发音音素匹配文本字符。至此，获取得到用户在发出语音信号的时间段内，该语音信号所对应的文本信息。

特别地，若与发音音素匹配的文本字符有多个，则根据各个文本字符所构成词组的使用频率高低，依序输出各个词组。

例如，若音素组中所依序出现的发音音素为“w-o-s-h-i-s-h-u-i”，则匹配的文本字符可以是“我是谁”以及“我是水”等。此时，将“我是谁”以及“我是水”均输出为第一特征向量所对应的文本信息。

S106：根据所述文本信息以及预设的身份验证信息，确定所述用户的身份合法性。

本申请实施例中，获取用户所预先自定义的身份验证信息。上述身份验证信息包括但不限于语音信息以及文本信息。其中，当身份验证信息为语音信息时，通过语音识别算法对该语音信息进行处理，以输出该语音信息对应的文本信息。

将上述S105所得到的文本信息与当前身份验证信息中的文本信息进行对比，判断二者是否相同。若判断结果为是，则确定当前用户为合法用户；若判断结果为否，则确定当前用户为非法用户。

特别地，若上述S105中所得到的文本信息有多个，则分别将得到的各文本信息与当前身份验证信息中的文本信息进行对比。若存在相同的文本信息，则确定当前用户为合法用户；若不存在相同的文本信息，则确定当前用户为非法用户。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

对应于本申请实施例所提供的身份合法性的校验方法，图7示出了本申请实施例提供的身份合法性的校验装置的结构框图。为了便于说明，仅示出了与本实施例相关的部分。

参照图7，该装置包括：

采集单元71，用于当检测到用户发出的语音信号时，采集所述用户的视频图像。

检测单元72，用于对所述视频图像进行人脸检测处理，以确定出所述视频图像中的人脸区域。

定位单元73，用于定位所述人脸区域中的唇部像素点。

生成单元74，用于根据定位的所述唇部像素点，分别生成各个时刻所述唇部像素点对应的第一特征向量。

输入单元75，用于将各个所述第一特征向量输入预设的循环神经网络模型，以输出每一时刻所对应的文本信息；其中，所述循环神经网络模型用于识别第一特征向量所匹配的文本信息。

确定单元76，用于根据所述文本信息以及预设的身份验证信息，确定所述用户的身份合法性。

可选地，所述检测单元72包括：

第一获取子单元，用于分别获取所述视频图像中每一像素点在横轴方向上的第一图像梯度信息以及在纵轴方向上的第二图像梯度信息。

量化子单元，用于对各个所述第一图像梯度信息以及所述第二图像梯度信息进行量化，以构建得到所述视频图像的第二特征向量。

输入子单元，用于将所述第二特征向量输入人脸检测模型，以输出视频图像中各个人脸特征点的标记位置。

确定子单元，用于根据各个人脸特征点的所述标记位置确定所述视频图像中的人脸区域。

可选地，所述输入子单元还用于：

获取所述人脸检测模型输出的所述视频图像中各个人脸特征点所对应的标签值；所述标签值用于表示所述人脸特征点的特征类别；

所述定位单元73还用于：获取预先设置的与唇部像素点对应的标签阈值；在所述人脸检测模型所标记的各个所述人脸特征点中，将所述标签值大于或等于所述标签阈值的所述人脸特征点确定为所述人脸区域中的唇部像素点。

可选地，所述生成单元74包括：

分割子单元，用于将所述视频图像划分为多个子图像。

生成子单元，用于分别生成每一所述子图像所对应的加权梯度方向直方图HOG，所述HOG包含多个区间。

计算子单元，用于对每一所述区间，计算该区间内各个像素点的梯度幅度的模值，并将各个所述模值进行叠加，以得到该区间对应的第三特征向量。

读取子单元，用于根据预设的扫描步长，读取所述视频图像的中各个所述区间的所述第三特征向量，并将各个所述第三特征向量所串联得到的向量确定为当前时刻所述唇部像素点对应的第一特征向量。

可选地，所述输入单元75包括：

第二获取子单元，用于获取预设的循环神经网络模型，所述循环神经网络模型包含两个双向长短期记忆网络LSTM层。

输出子单元，用于将各个所述第一特征向量依序通过所述双向LSTM层，以输出每一时刻所对应的发音音素。

构建子单元，用于依照所述发音音素的输出顺序，构建包含静音音素以及包含各个所述发音音素的音素序列。

转换子单元，用于基于所述音素序列中所存在的所述静音音素，将所述音素序列分成多个音素组，并通过预设算法，将每一所述音素组转换为对应的文本字符。

图8是本申请一实施例提供的终端设备的示意图。如图8所示，该实施例的终端设备8包括：处理器80以及存储器81，所述存储器81中存储有可在所述处理器80上运行的计算机可读指令82，例如身份合法性的校验程序。所述处理器80执行所述计算机可读指令82时实现上述各个身份合法性的校验方法实施例中的步骤，例如图1所示的步骤101至106。或者，所述处理器80执行所述计算机可读指令82时实现上述各装置实施例中各模块/单元的功能，例如图7所示单元71至76的功能。

示例性的，所述计算机可读指令82可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器81中，并由所述处理器80执行，以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段，该指令段用于描述所述计算机可读指令82在所述终端设备8中的执行过程。

所述终端设备8可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括，但不仅限于处理器80和存储器81。本领域技术人员可以理解，图8仅仅是终端设备8的示例，并不构成对终端设备8的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器80可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器81可以是所述终端设备8的内部存储单元，例如终端设备8的硬盘或内存。所述存储器81也可以是所述终端设备8的外部存储设备，例如所述终端设备8上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器81还可以既包括所述终端设备8的内部存储单元也包括外部存储设备。所述存储器81用于存储所述计算机可读指令以及所述终端设备所需的其他程序和数据。所述存储器81还可以用于暂时地存储已经输出或者将要输出的数据。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

一种身份合法性的校验方法，其特征在于，包括：

当检测到用户发出的语音信号时，采集所述用户的视频图像；

对所述视频图像进行人脸检测处理，以确定出所述视频图像中的人脸区域；

定位所述人脸区域中的唇部像素点；

根据定位的所述唇部像素点，分别生成各个时刻所述唇部像素点对应的第一特征向量；

将各个所述第一特征向量输入预设的循环神经网络模型，以输出每一时刻所对应的文本信息；其中，所述循环神经网络模型用于识别第一特征向量所匹配的文本信息；

根据所述文本信息以及预设的身份验证信息，确定所述用户的身份合法性。
如权利要求1所述的身份合法性的校验方法，其特征在于，所述对所述视频图像进行人脸检测处理，以确定出所述视频图像中的人脸区域，包括：

分别获取所述视频图像中每一像素点在横轴方向上的第一图像梯度信息以及在纵轴方向上的第二图像梯度信息；

对各个所述第一图像梯度信息以及所述第二图像梯度信息进行量化，以构建得到所述视频图像的第二特征向量；

将所述第二特征向量输入人脸检测模型，以输出视频图像中各个人脸特征点的标记位置；

根据各个人脸特征点的所述标记位置确定所述视频图像中的人脸区域。
如权利要求2所述的身份合法性的校验方法，其特征在于，所述将所述第二特征向量输入人脸检测模型，以输出视频图像中各个人脸特征点的标记位置，还包括：

获取所述人脸检测模型输出的所述视频图像中各个人脸特征点所对应的标签值；所述标签值用于表示所述人脸特征点的特征类别；

所述定位所述人脸区域中的唇部像素点，包括：

获取预先设置的与唇部像素点对应的标签阈值；

在所述人脸检测模型所标记的各个所述人脸特征点中，将所述标签值大于或等于所述标签阈值的所述人脸特征点确定为所述人脸区域中的唇部像素点。
如权利要求1所述的身份合法性的校验方法，其特征在于，所述根据定位的所述唇部像素点，分别生成各个时刻所述唇部像素点对应的第一特征向量，包括：

将所述视频图像划分为多个子图像；

分别生成每一所述子图像所对应的加权梯度方向直方图HOG，所述HOG包含多个区间；

对每一所述区间，计算该区间内各个像素点的梯度幅度的模值，并将各个所述模值进行叠加，以得到该区间对应的第三特征向量；

根据预设的扫描步长，读取所述视频图像的中各个所述区间的所述第三特征向量，并将各个所述第三特征向量所串联得到的向量确定为当前时刻所述唇部像素点对应的第一特征向量。
如权利要求1所述的身份合法性的校验方法，其特征在于，所述将各个所述第一特征向量输入预设的循环神经网络模型，以输出每一时刻所对应的文本信息，包括：

获取预设的循环神经网络模型，所述循环神经网络模型包含两个双向长短期记忆网络LSTM层；

将各个所述第一特征向量依序通过所述双向LSTM层，以输出每一时刻所对应的发音音素；

依照所述发音音素的输出顺序，构建包含静音音素以及包含各个所述发音音素的音素序列；

基于所述音素序列中所存在的所述静音音素，将所述音素序列分成多个音素组，并通过预设算法，将每一所述音素组转换为对应的文本字符。
一种身份合法性的校验装置，其特征在于，包括：

采集单元，用于当检测到用户发出的语音信号时，采集所述用户的视频图像；

检测单元，用于对所述视频图像进行人脸检测处理，以确定出所述视频图像中的人脸区域；

定位单元，用于定位所述人脸区域中的唇部像素点；

生成单元，用于根据定位的所述唇部像素点，分别生成各个时刻所述唇部像素点对应的第一特征向量；

输入单元，用于将各个所述第一特征向量输入预设的循环神经网络模型，以输出每一时刻所对应的文本信息；其中，所述循环神经网络模型用于识别第一特征向量所匹配的文本信息；

确定单元，用于根据所述文本信息以及预设的身份验证信息，确定所述用户的身份合法性。
根据权利要求6所述的身份合法性的校验装置，其特征在于，所述检测单元包括：

第一获取子单元，用于分别获取所述视频图像中每一像素点在横轴方向上的第一图像梯度信息以及在纵轴方向上的第二图像梯度信息；

量化子单元，用于对各个所述第一图像梯度信息以及所述第二图像梯度信息进行量化，以构建得到所述视频图像的第二特征向量；

输入子单元，用于将所述第二特征向量输入人脸检测模型，以输出视频图像中各个人脸特征点的标记位置；

确定子单元，用于根据各个人脸特征点的所述标记位置确定所述视频图像中的人脸区域。
根据权利要求7所述的身份合法性的校验装置，其特征在于，所述输入子单元还用于：

获取所述人脸检测模型输出的所述视频图像中各个人脸特征点所对应的标签值；所述标签值用于表示所述人脸特征点的特征类别；

所述定位单元还用于：

获取预先设置的与唇部像素点对应的标签阈值；

在所述人脸检测模型所标记的各个所述人脸特征点中，将所述标签值大于或等于所述标签阈值的所述人脸特征点确定为所述人脸区域中的唇部像素点。
根据权利要求6所述的身份合法性的校验装置，其特征在于，所述生成单元包括：

分割子单元，用于将所述视频图像划分为多个子图像；

生成子单元，用于分别生成每一所述子图像所对应的加权梯度方向直方图HOG，所述HOG包含多个区间；

计算子单元，用于对每一所述区间，计算该区间内各个像素点的梯度幅度的模值，并将各个所述模值进行叠加，以得到该区间对应的第三特征向量；

读取子单元，用于根据预设的扫描步长，读取所述视频图像的中各个所述区间的所述第三特征向量，并将各个所述第三特征向量所串联得到的向量确定为当前时刻所述唇部像素点对应的第一特征向量。
根据权利要求6所述的身份合法性的校验装置，其特征在于，所述输入单元包括：

第二获取子单元，用于获取预设的循环神经网络模型，所述循环神经网络模型包含两个双向长短期记忆网络LSTM层；

输出子单元，用于将各个所述第一特征向量依序通过所述双向LSTM层，以输出每一时刻所对应的发音音素；

构建子单元，用于依照所述发音音素的输出顺序，构建包含静音音素以及包含各个所述发音音素的音素序列；

转换子单元，用于基于所述音素序列中所存在的所述静音音素，将所述音素序列分成多个音素组，并通过预设算法，将每一所述音素组转换为对应的文本字符。
一种终端设备，其特征在于，包括存储器以及处理器，所述存储器中存储有可在所述处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现如下步骤：

当检测到用户发出的语音信号时，采集所述用户的视频图像；

对所述视频图像进行人脸检测处理，以确定出所述视频图像中的人脸区域；

定位所述人脸区域中的唇部像素点；

根据定位的所述唇部像素点，分别生成各个时刻所述唇部像素点对应的第一特征向量；

将各个所述第一特征向量输入预设的循环神经网络模型，以输出每一时刻所对应的文本信息；其中，所述循环神经网络模型用于识别第一特征向量所匹配的文本信息；

根据所述文本信息以及预设的身份验证信息，确定所述用户的身份合法性。
根据权利要求11所述的终端设备，其特征在于，所述对所述视频图像进行人脸检测处理，以确定出所述视频图像中的人脸区域，包括：

分别获取所述视频图像中每一像素点在横轴方向上的第一图像梯度信息以及在纵轴方向上的第二图像梯度信息；

对各个所述第一图像梯度信息以及所述第二图像梯度信息进行量化，以构建得到所述视频图像的第二特征向量；

将所述第二特征向量输入人脸检测模型，以输出视频图像中各个人脸特征点的标记位置；

根据各个人脸特征点的所述标记位置确定所述视频图像中的人脸区域。
根据权利要求12所述的终端设备，其特征在于，所述将所述第二特征向量输入人脸检测模型，以输出视频图像中各个人脸特征点的标记位置，还包括：

获取所述人脸检测模型输出的所述视频图像中各个人脸特征点所对应的标签值；所述标签值用于表示所述人脸特征点的特征类别；

所述定位所述人脸区域中的唇部像素点，包括：

获取预先设置的与唇部像素点对应的标签阈值；

在所述人脸检测模型所标记的各个所述人脸特征点中，将所述标签值大于或等于所述标签阈值的所述人脸特征点确定为所述人脸区域中的唇部像素点。
根据权利要求11所述的终端设备，其特征在于，所述根据定位的所述唇部像素点，分别生成各个时刻所述唇部像素点对应的第一特征向量，包括：

将所述视频图像划分为多个子图像；

分别生成每一所述子图像所对应的加权梯度方向直方图HOG，所述HOG包含多个区间；

对每一所述区间，计算该区间内各个像素点的梯度幅度的模值，并将各个所述模值进行叠加，以得到该区间对应的第三特征向量；

根据预设的扫描步长，读取所述视频图像的中各个所述区间的所述第三特征向量，并将各个所述第三特征向量所串联得到的向量确定为当前时刻所述唇部像素点对应的第一特征向量。
根据权利要求11所述的终端设备，其特征在于，所述将各个所述第一特征向量输入预设的循环神经网络模型，以输出每一时刻所对应的文本信息，包括：

获取预设的循环神经网络模型，所述循环神经网络模型包含两个双向长短期记忆网络LSTM层；

将各个所述第一特征向量依序通过所述双向LSTM层，以输出每一时刻所对应的发音音素；

依照所述发音音素的输出顺序，构建包含静音音素以及包含各个所述发音音素的音素序列；

基于所述音素序列中所存在的所述静音音素，将所述音素序列分成多个音素组，并通过预设算法，将每一所述音素组转换为对应的文本字符。
一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，其特征在于，所述计算机可读指令被至少一个处理器执行时实现如下步骤：

当检测到用户发出的语音信号时，采集所述用户的视频图像；

对所述视频图像进行人脸检测处理，以确定出所述视频图像中的人脸区域；

定位所述人脸区域中的唇部像素点；

根据定位的所述唇部像素点，分别生成各个时刻所述唇部像素点对应的第一特征向量；

将各个所述第一特征向量输入预设的循环神经网络模型，以输出每一时刻所对应的文本信息；其中，所述循环神经网络模型用于识别第一特征向量所匹配的文本信息；

根据所述文本信息以及预设的身份验证信息，确定所述用户的身份合法性。
根据权利要求16所述的计算机可读存储介质，其特征在于，所述对所述视频图像进行人脸检测处理，以确定出所述视频图像中的人脸区域，包括：

分别获取所述视频图像中每一像素点在横轴方向上的第一图像梯度信息以及在纵轴方向上的第二图像梯度信息；

对各个所述第一图像梯度信息以及所述第二图像梯度信息进行量化，以构建得到所述视频图像的第二特征向量；

将所述第二特征向量输入人脸检测模型，以输出视频图像中各个人脸特征点的标记位置；

根据各个人脸特征点的所述标记位置确定所述视频图像中的人脸区域。
根据权利要求17所述的计算机可读存储介质，其特征在于，所述将所述第二特征向量输入人脸检测模型，以输出视频图像中各个人脸特征点的标记位置，还包括：

获取所述人脸检测模型输出的所述视频图像中各个人脸特征点所对应的标签值；所述标签值用于表示所述人脸特征点的特征类别；

所述定位所述人脸区域中的唇部像素点，包括：

获取预先设置的与唇部像素点对应的标签阈值；

在所述人脸检测模型所标记的各个所述人脸特征点中，将所述标签值大于或等于所述标签阈值的所述人脸特征点确定为所述人脸区域中的唇部像素点。
根据权利要求16所述的计算机可读存储介质，其特征在于，所述根据定位的所述唇部像素点，分别生成各个时刻所述唇部像素点对应的第一特征向量，包括：

将所述视频图像划分为多个子图像；

分别生成每一所述子图像所对应的加权梯度方向直方图HOG，所述HOG包含多个区间；

对每一所述区间，计算该区间内各个像素点的梯度幅度的模值，并将各个所述模值进行叠加，以得到该区间对应的第三特征向量；

根据预设的扫描步长，读取所述视频图像的中各个所述区间的所述第三特征向量，并将各个所述第三特征向量所串联得到的向量确定为当前时刻所述唇部像素点对应的第一特征向量。
根据权利要求16所述的计算机可读存储介质，其特征在于，所述将各个所述第一特征向量输入预设的循环神经网络模型，以输出每一时刻所对应的文本信息，包括：

获取预设的循环神经网络模型，所述循环神经网络模型包含两个双向长短期记忆网络LSTM层；

将各个所述第一特征向量依序通过所述双向LSTM层，以输出每一时刻所对应的发音音素；

依照所述发音音素的输出顺序，构建包含静音音素以及包含各个所述发音音素的音素序列；

基于所述音素序列中所存在的所述静音音素，将所述音素序列分成多个音素组，并通过预设算法，将每一所述音素组转换为对应的文本字符。