WO2020140665A1

WO2020140665A1 - 双录视频质量检测方法、装置、计算机设备和存储介质

Info

Publication number: WO2020140665A1
Application number: PCT/CN2019/122478
Authority: WO
Inventors: 熊玮
Original assignee: 深圳壹账通智能科技有限公司
Priority date: 2019-01-04
Filing date: 2019-12-02
Publication date: 2020-07-09
Also published as: CN109729383A; CN109729383B

Abstract

一种双录视频质量检测方法，包括：接收终端发送的携带待检测节点的节点标识的质量检测请求；根据节点标识查找对应的质检规则；根据质检规则从待检测节点对应的双录视频中抽取多帧视频图像，对抽取的各帧视频图像进行人脸识别，得到对应的人脸识别结果，根据人脸识别结果得到视频检测结果；从待检测节点对应的双录视频中获取双录音频数据，对双录音频数据进行语音转换，得到双录文本；根据质检规则对双录文本进行词语检测，得到音频检测结果；根据视频检测结果及音频检测结果得到待检测节点对应的质量检测结果；当质量检测结果为未通过时，根据节点标识生成重录指令并发送至终端，重录指令用于指示终端跳转至节点标识对应的节点。

Description

双录视频质量检测方法、装置、计算机设备和存储介质

相关申请的交叉引用

本申请要求于2019年01月04日提交中国专利局，申请号为2019100074351，申请名称为“双录视频质量检测方法、装置、计算机设备和存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及一种双录视频质量检测方法、装置、计算机设备和存储介质。

背景技术

为了响应中国银监会办公厅关于加强银行业金融机构内控管理有效防范柜面业务风险的通知中对加强业务录音录像的要求，各大银行业金融机构、保险公司在销售保险产品、理财产品等时纷纷增加了双录业务。

传统技术中，通常是双录终端在录制结束后，将整个双录视频发送至质检员终端，质检员终端在得到整个双录视频的质检结果后，若是双录视频中存在不符合要求的地方，则双录终端需要对整个视频重新录制，然而，发明人意识到，这种方式，由于每次都需要重新录制整个视频，导致双录终端系统资源的浪费。

发明内容

根据本申请公开的各种实施例，提供一种双录视频质量检测方法、装置、计算机设备和存储介质。

一种双录视频质量检测方法包括：

接收终端发送的质量检测请求，所述质量检测请求中携带待检测节点的节点标识；

根据所述节点标识查找对应的质检规则；

根据所述质检规则从所述待检测节点对应的双录视频中抽取多帧视频图像，对抽取的各帧所述视频图像进行人脸识别，得到各帧视频图像对应的人脸识别结果，根据各帧视频图像对应的人脸识别结果得到所述待检测节点的视频检测结果；

从所述待检测节点对应的双录视频中获取双录音频数据，对所述双录音频数据进行语音转换，得到双录文本；

根据所述质检规则对所述双录文本进行词语检测，得到所述待检测节点对应的音频检测结果；根据所述视频检测结果及所述音频检测结果得到所述待检测节点对应的质量检测结果；

当所述质量检测结果为未通过时，根据所述节点标识生成重录指令；及

将所述重录指令发送至所述终端，所述重录指令用于指示所述终端跳转至所述节点标识对应的节点。

一种双录视频质量检测装置包括：

质量检测请求模块，用于接收终端发送的质量检测请求，所述质量检测请求中携带待检测节点的节点标识；

质检规则查找模块，用于根据所述节点标识查找对应的质检规则；

视频检测结果获取模块，用于根据所述质检规则从所述待检测节点对应的双录视频中抽取多帧视频图像，对抽取的各帧所述视频图像进行人脸识别，得到各帧视频图像对应的人脸识别结果，根据各帧视频图像对应的人脸识别结果得到所述待检测节点的视频检测结果；

双录文本获取模块，用于从所述待检测节点对应的双录视频中获取双录音频数据，对所述双录音频数据进行语音转换，得到双录文本；

词语检测模块，用于根据所述质检规则对所述双录文本进行词语检测，得到所述待检测节点对应的音频检测结果；质量检测结果判定模块，用于根据所述视频检测结果及所述音频检测结果得到所述待检测节点对应的质量检测结果；

重录指令生成模块，用于当所述质量检测结果为未通过时，根据所述节点标识生成重录指令，将所述重录指令发送至所述终端，所述重录指令用于指示所述终端跳转至所述节点标识对应的节点。

一种计算机设备，包括存储器和一个或多个处理器，所述存储器中储存有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述一个或多个处理器实现上述双录视频质量检测方法的步骤。

一个或多个存储有计算机可读指令的非易失性计算机可读存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器实现上述双录视频质量检测方法的步骤。

本申请的一个或多个实施例的细节在下面的附图和描述中提出。本申请的其它特征和优点将从说明书、附图以及权利要求书变得明显。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为根据一个或多个实施例中双录视频质量检测方法的应用场景图。

图2为根据一个或多个实施例中双录视频质量检测方法的流程示意图。

图3为根据一个或多个实施例中双录视频质量检测方法的流程示意图。

图4为根据一个或多个实施例中双录视频质量检测装置的框图。

图5为根据一个或多个实施例中计算机设备的框图。

具体实施方式

为了使本申请的技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的双录视频质量检测方法，可以应用于如图1所示的应用环境中。终端102通过网络与服务器104通过网络进行通信。当终端102进入任意一个双录节点时，将该节点作为待检测节点，并根据该待检测节点的节点标识生成质量检测请求，将该质量检测请求发送至服务器104，服务器104根据质量检测请求中携带的节点标识查找对应的质检规则，然后根据质检规则从待检测节点对应的双录视频中抽取多帧视频图像，对抽取的各帧视频图像进行人脸识别，得到各帧视频图像对应的人脸识别结果，根据各帧视频图像对应的人脸识别结果得到待检测节点的视频检测结果，并从待检测节点对应的双录视频中获取双录音频数据，对双录音频数据进行语音转换，得到双录文本，根据质检规则对双录文本进行词语检测，得到待检测节点对应的音频检测结果，最后根据视频检测结果及音频检测结果得到待检测节点对应的质量检测结果，在质量检测结果为未通过时，根据节点标识生成重录指令，将重录指令发送至终端102，终端102可以跳转至节点标识对应的节点进行重新录制。

终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一些实施例中，如图2所示，提供了一种双录视频质量检测方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤S202，接收终端发送的质量检测请求，质量检测请求中携带待检测节点的节点标识。

具体地，双录流程由多个节点组成，每一个节点对应双录中不同的环节，例如，某个银行理财产品可以包括以下三个节点：1、讲述客户购买的具体产品信息；2、征求客户同意；3、明确具体的免责条款。终端可按照预设的顺序依次自动地进入各个节点进行双录，也可以是在监测到对某个节点的触发事件时，进入该节点进行双录。对某个节点的触发事件可以是用户在终端的点击操作，例如，用户点击切换至下一个节点的按钮，也可以是用户的语音，例如，用户可以说出固定的语音来触发进入下一个节点。当终端进入到某个节点开始双录时，根据该节点的节点标识生成质量检测请求，并发送至服务器，服务器接收到该质量检测请求后，对该质量检测请求进行解析，获取其中携带的节点标识，然后对该节点对应的双录视频进行实时质量检测。节点标识用于唯一标识某个双录节点。

步骤S204，根据节点标识查找对应的质检规则。

具体地，不同的节点，由于功能不同，所以其质检规则也不相同，质检规则与节点标识之间事先建立一一对应的映射关系，服务器在接收到质量检测请求后，就可以根据质量检测请求中携带的节点标识去查找对应的质检规则。质检规则包括视频图像帧抽取频率、关键词、禁用词，视频图像抽取帧频率指的是从双录视频中抽取视频图像帧进行人脸识别的频率，关键词指的是在双录过程中必须说的词语；禁用词指的是双录的过程中禁止说的词语。可以理解，本实施例中的质检规则为根据经验进行事先设定的，也可以根据具体需要进行配置修改。

步骤S206，根据质检规则从待检测节点对应的双录视频中抽取多帧视频图像，对抽取的各帧视频图像进行人脸识别，得到各帧视频图像对应的人脸识别结果，根据各帧视频图像对应的人脸识别结果得到待检测节点的视频检测结果。

具体地，服务器根据质检规则中的视频图像帧抽取频率从待检测节点对应的双录视频中抽取视频图像，每次抽取的视频由质检规则进行确定。例如，质检规则中的视频图像帧抽取频率为每5S抽取一帧图像，则服务器每隔5秒从终端的双录视频中抽取一帧视频图像。进一步，服务器每抽取一次视频图像后，可对抽取的视频图像进行人脸识别，然后结合抽取的各帧视频图像的人脸识别结果得到待检测节点的视频检测结果。

在一些实施例中，服务器可根据各帧视频图像的人脸识别结果计算人脸识别通过率，判断人脸识别通过率是否大于预设阈值，若是，则判定待检测节点对应的视频检测结果为通过；否则，判定待检测节点对应的视频检测结果为不通过。举个例子，总共对10帧视频图像进行了人脸识别，其中有8帧视频图像的人脸识别结果为通过，则待检测节点对应的人脸识别通过率为80％，若预设阈值为75％，则待检测节点对应的视频检测结果为通过。

步骤S208，从待检测节点对应的双录视频中获取双录音频数据，对双录音频数据进行语音转换，得到双录文本。

具体地，服务器可以按照预先设定的频率从终端获取双录音频数据。在一些实施例中，服务器可以每隔预设的时间段从终端获取双录音频数据，例如每隔30S从终端获取音频数据；在另一些实施例中，服务器可以待检测节点的双录结束后一次性获取待检测节点的双录音频数据。进一步，服务器在获取到双录音频数据后，对双录音频数据进行语音转换，以得到对应的双录文本。

步骤S210，根据质检规则对双录文本进行词语检测，得到待检测节点对应的音频检测结果。具体地，服务器可以首先对双录文本进行分词，并根据质检规则对分词得到的词语进行词语检测，具体来说，检测分词得到的词语中是否出现质检规则中列出的禁用词、是否缺少质检规则中列出的关键词，当检测到分词得到的词语中未出现质检规则中列出的禁用词且未缺少质检规则中列出的关键词时，则判定获取到的双录音频数据对应的音频检测结果为通过，反之，当出现“分词得到的词语中出现质检规则中列出的禁用词”、“缺少质检规则中列出的关键词”中的任意一种情况时，则判定获取到的双录音频数据对应的音频检测结果为不通过。进一步，当待检测节点对应的多个双录音频数据中的任意一个双录音频数据的音频检测结果为不通过时，该待检测节点对应的音频检测结果为不通过时。

进一步，当待检测节点对应的音频检测结果为不通过时，服务器可以根据具体的检测结果生成初检建议，例如，当未检测到关键词“是否同意”时，生成初检建议“未提及关键词[是否同意]”。

步骤S212，根据视频检测结果及音频检测结果得到待检测节点对应的质量检测结果。

具体地，当视频检测结果及音频检测结果中的任意一个为未通过时，则待检测节点对应的质量检测结果为未通过；当视频检测结果及音频检测结果均为通过时，则待检测节点对应的质量检测结果为通过。

进一步，服务器可以将待检测节点的质量检测结果发送至终端。具体地，服务器可以在接收到服务器发送的质量检测结果获取请求后将质量检测结果发送至终端；也可以在得到待检测节点的质量检测结果后主动将质量检测结果发送至终端。

步骤S214，当质量检测结果为未通过时，根据节点标识生成重录指令，将重录指令发送至终端，重录指令用于指示终端跳转至节点标识对应的节点。

具体地，对于质量检测结果为未通过的节点，服务器可根据该节点的节点标识生成重录指令，并将重录指令发送至终端，终端在接收到重录指令后，对该重录指令进行解析，获取节点标识。

在一些实施例中，在获取到节点标识后，终端可自动跳转至节点标识对应的节点；在另一些实施例中，终端获取到节点标识后，可以在接收到确认跳转的操作后跳转至节点标识对应的节点，例如，终端可以在接收到重录指令后在显示屏上显示“确认跳转”按钮，在检测到用户对该“确认跳转”按钮的点击操作后，跳转至节点标识对应的节点，开始对该节点进行重录。

上述双录视频质量检测方法中，通过将双录视频分成多个节点进行录制，服务器在接收到对单个节点的质量检测请求后，可以对单个节点进行质量检测，并在检测结果为未通过时，对该节点生成重录指令使得终端能够及时对不合格的视频节点进行重新录制，避免了由于视频中某个地方不合格时，对整个视频进行重新录制，节省了终端的系统资源。

进一步，通过预先设置质检规则，服务器在接收到质量检测请求后，根据节点标识查找对应的质检规则后，根据质检规则可以自动地对待检测节点的视频图像、音频数据进行检测，得到对应的视频检测结果及音频检测结果，最后根据视频检测结果及音频检测结果得到，待检测节点对应的质量检测结果，实现了对实现了双录视频质量的自动检测，不仅节省了人工检测的时间，提高双录视频的质量检测效率，而且可以提高质量检测的准确性。

在一些实施例中，根据质检规则从待检测节点对应的双录视频中抽取多帧视频图像之后，上述方法还包括：从抽取的各帧视频图像中提取人脸图像；对人脸图像提取表情特征，根据表情特征采用已训练的欺诈概率预测模型，得到各帧视频图像对应的欺诈概率；根据各帧视频图像对应的人脸识别结果得到待检测节点的视频检测结果，包括：根据各帧视频图像对应的人脸识别结果及欺诈概率得到待检测节点对应的视频检测结果。

具体地，服务器首先对抽取的各帧视频图像进行人脸检测，得到人脸图像，对人脸图像采用特征提取算法提取表情特征，表情特征包括人脸器官、纹理区域以及预定义的特征点等等，根据这些表情特征得到视频图像对应的表情特征向量，将表情特征向量输入预先已训练的欺诈概率预测模型中得到欺诈概率，欺诈概率用于表征人脸图像对应的主体的欺诈可能性大小，欺诈概率越大则表示欺诈可能性越大。人脸检测算法包括但不限于基于直方图粗分割和奇异值特征的人脸检测算法、基于二进小波变换的人脸检测算法、基于AdaBoost算法的人脸检测、基于面部双眼结构特征的人脸检测算法等；表情特征提取方法包括但不限于主成分分析法(Principal Component Analysis,PCA)、独立成分分析法(Indenpent Compondent Analysis，ICA)和线性判别分析法(Linear Discriminant Analysis，LDA)、Gabor小波法、LBP算子法等。

在具体实施时，大多数场景下，进行双录时，通常是由代理人与客户一起进行双录，这种情况下，对视频图像进行人脸检测时，会得到两个人脸图像，分别是代理人对应的第一人脸图像及客户对应的第二人脸图像，然后对第一人脸图像提取表情特征，根据提取的表情特征得到第一表情特征向量，将第一表情特征向量输入预先已训练的欺诈概率预测模型中得到代理人对应的第一欺诈概率，同时对第二人脸图像提取表情特征，根据提取的表情特征得到第二表情特征向量，将第二表情特征向量输入预先已训练的欺诈概率预测模型中得到客户对应的第二欺诈概率。

在一些实施例中，欺诈概率预测模型的训练步骤如下：首先从网络信息或音视频资料库中选取明显存在欺诈行为的视频样本和无欺诈行为的视频样本，为每个视频样本分配一个欺诈标注，欺诈标注表示该视频样本中的人物有无欺诈嫌疑，例如1表示有欺诈嫌疑，0表示无欺诈嫌疑，从视频样本中提取表情特征，根据表情特征得到表情特征向量，将表情特征向量作为输入样本，将对应的欺诈标注作为期望的输出样本进行有监督地模型训练，从而得到训练好的欺诈概率预测模型。

进一步，服务器得到各帧视频图像对应的欺诈概率后，可计算各帧图像对应的欺诈概率计算得到欺诈概率平均值，当欺诈概率平均值不超过预设阈值且人脸识别结果通过率超过预设阈值时，则表示待检测节点对应的视频检测结果为通过；反之，则表示待检测节点对应的视频检测结果为未通过。

在一些实施例中，从待检测节点对应的双录视频中获取双录音频数据之后，上述方法还包括：对双录音频数据提取声纹特征，将提取到的声纹特征与预先存储的声纹特征进行比对，根据比对结果对双录文本进行标记；根据质检规则对双录文本进行词语检测，得到待检测节点对应的音频检测结果，包括：根据标记结果及质检规则对双录文本进行词语检测，得到待检测节点对应的音频检测结果。

具体地，预先存储的声纹特征为代理人的声纹特征，服务器在获取到双录音频数据后，可从双录音频数据中提取声纹特征，与预先存储的代理人的声纹特征进行比对，当比对成功时，将对应的双录文本标记为代理人语音文本；当比对不成功时，将对应的双录文本标记为客户语音文本。在进行声纹特征提取时，可利用梅尔倒谱系数进行提取。

本实施例中，为使得音频检测的结果更加准备，在配置质检规则时，将代理人和客户的质检规则分开配置，即质检规则可以包括代理人对应的关键词、代理人对应的禁用语，以及客户对应的关键词、客户对应的禁用语。服务器在完成标记后，可将代理人对应的语音文本按照代理人对应的质检规则进行词语检测，将客户对应的语音文本按照客户对应的质检规则进行词语检测，具体来说，对代理人对应的语音文本检测是否缺少代理人对应的关键词、是否包含了代理人对应的禁用语，对客户对应的语音文本检测是否缺少客户对应的关键词、是否包含了客户对应的禁用语，只有当代理人对应的语音文本未缺少代理人对应的关键词且未包含代理人对应的禁用语，同时客户对应的语音文本未缺少客户对应的关键词且未包含客户对应的禁用语时，该双录音频数据对应的音频质检结果才为通过，其他情况下，该双录音频数据对应的音频质检结果均为未通过。

本实施例中，通过对双录文本进行标记，对代理人语音文本和客户语音文本进行区分检测，可以使得双录视频的质量检测结果更加准确。

在一些实施例中，如图3所示，提供了一种双录视频质量检测方法，包括以下步骤：

步骤S302，接收终端发送的质量检测请求，质量检测请求中携带待检测节点的节点标识。

步骤S304，根据节点标识查找对应的质检规则。

步骤S306，根据质检规则从待检测节点对应的双录视频中抽取多帧视频图像，对抽取的各帧视频图像进行人脸识别，得到各帧视频图像对应的人脸识别结果。

步骤S308，从抽取的各帧视频图像中提取人脸图像。

步骤S310，对人脸图像提取表情特征，根据表情特征采用已训练的欺诈概率预测模型，得到各帧视频图像对应的欺诈概率。

步骤S312，根据各帧视频图像对应的人脸识别结果及欺诈概率得到当前节点对应的视频检测结果。

步骤S314，从待检测节点对应的双录视频中获取双录音频数据，对双录音频数据进行语音转换，得到双录文本。

步骤S316，对双录音频数据提取声纹特征，将提取到的声纹特征与预先存储的声纹特征进行比对，根据比对结果对双录文本进行标记。

步骤S318，根据标记结果及质检规则对双录文本进行词语检测，得到待检测节点对应的音频检测结果。

步骤S320，根据视频检测结果及音频检测结果得到待检测节点对应的质量检测结果。

步骤S322，当质量检测结果为未通过时，根据节点标识生成重录指令，将重录指令发送至终端，重录指令用于指示终端跳转至节点标识对应的节点。

上述实施例中，通过对双录视频图像进行欺诈检测，对双录音频进行标记检测，可以进一步提高双录视频质量检测的准确性。

在一些实施例中，对抽取的各帧视频图像进行人脸识别，得到各帧视频图像对应的人脸识别结果，包括：对抽取的各帧视频图像进行人脸检测，得到第一人脸图像和第二人脸图像；将第一人脸图像和第二人脸图像分别与预先存储的人脸图像进行比对，分别得到第一人脸图像对应的两个人脸识别分数及第二人脸图像对应的两个人脸识别分数；从第一人脸图像对应的两个人脸识别分数中获取数值较大的人脸识别分数作为第一人脸图像对应的第一目标人脸识别分数，从第二人脸图像对应的两个人脸识别分数中获取数值最大的人脸识别分数作为第二人脸图像对应的第二目标人脸识别分数；根据第一目标人脸识别分数及第二目标人脸识别分数，得到各帧视频图像对应的人脸识别结果。

第一人脸图像为代理人对应的人脸图像，第二人脸图像为客户对应的人脸图像，在检测到人脸图像时，由于无法判断各个人脸图像对应的身份，因此，需要将检测到的两个人脸图像分别与预先存储的代理人对应的人脸图像与客户对应的人脸图像进行两次比对，在比对的过程中，身份相匹配的两个人脸图像的人脸识别分数显然比身份不匹配的两个人脸图像的人脸识别分数高些，因此，可以将比对得到的人脸识别分数中数值较大的人脸识别分数作为目标人脸识别分数，从而可以分别得到代理人对应的目标人脸识别分数及客户对应的目标人脸识别分数。

进一步，当代理人对应的目标人脸识别分数及客户对应的目标人脸识别分数均超过各自对应的分数阈值时，则该帧视频图像的人脸识别结果为通过，当代理人对应的目标人脸识别分数、客户对应的目标人脸识别分数中任意一个不超过其对应的分数阈值时，则该帧视频图像的人脸识别结果为未通过。

应该理解的是，虽然图2-3的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-3中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一些实施例中，如图4所示，提供了一种双录视频质量检测装置400，包括：

质量检测请求模块402，用于接收终端发送的质量检测请求，质量检测请求中携带待检测节点的节点标识；

质检规则查找模块404，用于根据节点标识查找对应的质检规则；

视频检测结果获取模块406，用于根据质检规则从待检测节点对应的双录视频中抽取多帧视频图像，对抽取的各帧视频图像进行人脸识别，得到各帧视频图像对应的人脸识别结果，根据各帧视频图像对应的人脸识别结果得到待检测节点的视频检测结果；

双录文本获取模块408，用于从待检测节点对应的双录视频中获取双录音频数据，对双录音频数据进行语音转换，得到双录文本；

词语检测模块410，用于根据质检规则对双录文本进行词语检测，得到待检测节点对应的音频检测结果；

质量检测结果判定模块412，用于根据视频检测结果及音频检测结果得到待检测节点对应的质量检测结果；

重录指令生成模块414，用于当质量检测结果为未通过时，根据节点标识生成重录指令；将重录指令发送至终端，重录指令用于指示终端跳转至节点标识对应的节点。

在一些实施例中，视频检测结果获取模块406还用于从抽取的各帧视频图像中提取人脸图像；对人脸图像提取表情特征，根据表情特征采用已训练的欺诈概率预测模型，得到各帧视频图像对应的欺诈概率；根据各帧视频图像对应的人脸识别结果及欺诈概率得到待检测节点对应的视频检测结果。

在一些实施例中，双录文本获取模块408还用于对双录音频数据提取声纹特征，将提取到的声纹特征与预先存储的声纹特征进行比对，根据比对结果对双录文本进行标记；词语检测模块410还用于根据标记结果及质检规则对双录文本进行词语检测，得到待检测节点对应的音频检测结果。

在一些实施例中，视频检测结果获取模块406还用于对抽取的各帧视频图像进行人脸检测，得到第一人脸图像和第二人脸图像；将第一人脸图像和第二人脸图像分别与预先存储的人脸图像进行比对，分别得到第一人脸图像对应的两个人脸识别分数及第二人脸图像对应的两个人脸识别分数；从第一人脸图像对应的两个人脸识别分数中获取数值较大的人脸识别分数作为第一人脸图像对应的第一目标人脸识别分数，从第二人脸图像对应的两个人脸识别分数中获取数值最大的人脸识别分数作为第二人脸图像对应的第二目标人脸识别分数；根据第一目标人脸识别分数及第二目标人脸识别分数，得到各帧视频图像对应的人脸识别结果。

关于双录视频质量检测装置的具体限定可以参见上文中对于双录视频质量检测方法的限定，在此不再赘述。上述双录视频质量检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一些实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机可读指令和数据库。该内存储器为非易失性存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的数据库用于存储双录视频质量检测过程中的相关数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种双录视频质量检测方法。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

一种计算机设备，包括存储器和一个或多个处理器，存储器中存储有计算机可读指令，计算机可读指令被处理器执行时实现本申请任意一个实施例中提供的双录视频质量检测方法的步骤。

一个或多个存储有计算机可读指令的非易失性计算机可读存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器实现本申请任意一个实施例中提供的双录视频质量检测方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，所述的计算机可读指令可存储于一非易失性计算机可读取存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

一种双录视频质量检测方法，包括：

接收终端发送的质量检测请求，所述质量检测请求中携带待检测节点的节点标识；

根据所述节点标识查找对应的质检规则；

根据所述质检规则从所述待检测节点对应的双录视频中抽取多帧视频图像，对抽取的各帧所述视频图像进行人脸识别，得到各帧视频图像对应的人脸识别结果，根据各帧视频图像对应的人脸识别结果得到所述待检测节点的视频检测结果；

从所述待检测节点对应的双录视频中获取双录音频数据，对所述双录音频数据进行语音转换，得到双录文本；

根据所述质检规则对所述双录文本进行词语检测，得到所述待检测节点对应的音频检测结果；

根据所述视频检测结果及所述音频检测结果得到所述待检测节点对应的质量检测结果；

当所述质量检测结果为未通过时，根据所述节点标识生成重录指令；及

将所述重录指令发送至所述终端，所述重录指令用于指示所述终端跳转至所述节点标识对应的节点。
根据权利要求1所述的方法，其特征在于，在所述根据所述质检规则从所述待检测节点对应的双录视频中抽取多帧视频图像之后，所述方法包括：

从抽取的各帧所述视频图像中提取人脸图像；

对所述人脸图像提取表情特征，根据所述表情特征采用已训练的欺诈概率预测模型，得到各帧所述视频图像对应的欺诈概率；及

所述根据各帧视频图像对应的人脸识别结果得到所述待检测节点的视频检测结果，包括：

根据各帧视频图像对应的人脸识别结果及欺诈概率得到待检测节点对应的视频检测结果。
根据权利要求1所述的方法，其特征在于，在所述从所述待检测节点对应的双录视频中获取双录音频数据之后，所述方法还包括：

对所述双录音频数据提取声纹特征，将提取到的所述声纹特征与预先存储的声纹特征进行比对，根据比对结果对双录文本进行标记；及

所述根据所述质检规则对所述双录文本进行词语检测，得到所述待检测节点对应的音频检测结果，包括：

根据标记结果及所述质检规则对所述双录文本进行词语检测，得到所述待检测节点对应的音频检测结果。
根据权利要求1至3任意一项所述的方法，其特征在于，所述对抽取的各帧所述视频图像进行人脸识别，得到各帧视频图像对应的人脸识别结果，包括：

对抽取的各帧视频图像进行人脸检测，得到第一人脸图像和第二人脸图像；

将所述第一人脸图像和第二人脸图像分别与预先存储的人脸图像进行比对，分别得到第一人脸图像对应的两个人脸识别分数及第二人脸图像对应的两个人脸识别分数；

从第一人脸图像对应的两个人脸识别分数中获取数值较大的人脸识别分数作为所述第一人脸图像对应的第一目标人脸识别分数，从第二人脸图像对应的两个人脸识别分数中获取数值最大的人脸识别分数作为所述第二人脸图像对应的第二目标人脸识别分数；及

根据所述第一目标人脸识别分数及所述第二目标人脸识别分数，得到各帧视频图像对应的人脸识别结果。
根据权利要求1所述的方法，其特征在于，所述根据各帧视频图像对应的人脸识别结果得到所述待检测节点的视频检测结果，包括：

根据各帧视频图像的人脸识别结果计算人脸识别通过率；

判断所述人脸识别通过率是否大于预设阈值；

若是，则判定所述待检测节点对应的视频检测结果为第一结果，所述第一结果用于表征对所述待检测节点对应的视频质量检测通过；及

若否，则判定所述待检测节点对应的视频检测结果为第二结果，所述第二结果用于表征对所述待检测节点对应的视频质量检测未通过。
根据权利要求2所述的方法，其特征在于，所述欺诈概率预测模型按照以下步骤训练得到：

从预设的视频资料库中获取视频样本；所述视频样本包括第一视频样本及第二视频样本；所述第一视频样本为存在欺诈行为的视频样本；所述第二视频样本为不存在欺诈行为的视频样本；

获取所述视频样本对应的欺诈标注；及

从所述视频样本中提取表情特征，根据提取到的所述表情特征得到表情特征向量，将得到的所述表情特征向量作为输入样本，将对应的欺诈标注作为期望的输出样本进行模型训练，得到训练好的欺诈概率预测模型。
一种双录视频质量检测装置，其特征在于，所述装置包括：

质量检测请求模块，用于接收终端发送的质量检测请求，所述质量检测请求中携带待检测节点的节点标识；

质检规则查找模块，用于根据所述节点标识查找对应的质检规则；

视频检测结果获取模块，用于根据所述质检规则从所述待检测节点对应的双录视频中抽取多帧视频图像，对抽取的各帧所述视频图像进行人脸识别，得到各帧视频图像对应的人脸识别结果，根据各帧视频图像对应的人脸识别结果得到所述待检测节点的视频检测结果；

双录文本获取模块，用于从所述待检测节点对应的双录视频中获取双录音频数据，对所述双录音频数据进行语音转换，得到双录文本；

词语检测模块，用于根据所述质检规则对所述双录文本进行词语检测，得到所述待检测节点对应的音频检测结果；

质量检测结果判定模块，用于根据所述视频检测结果及所述音频检测结果得到所述待检测节点对应的质量检测结果；及

重录指令生成模块，用于当所述质量检测结果为未通过时，根据所述节点标识生成重录指令，将所述重录指令发送至所述终端，所述重录指令用于指示所述终端跳转至所述节点标识对应的节点。
根据权利要求7所述的装置，其特征在于，所述视频检测结果获取模块还用于从抽取的各帧所述视频图像中提取人脸图像；对所述人脸图像提取表情特征，根据所述表情特征采用已训练的欺诈概率预测模型，得到各帧所述视频图像对应的欺诈概率；及根据各帧视频图像对应的人脸识别结果及欺诈概率得到待检测节点对应的视频检测结果。
一种计算机设备，包括存储器及一个或多个处理器，所述存储器中储存有计算机可读指令，所述计算机可读指令被所述一个或多个处理器执行时，使得所述一个或多个处理器执行以下步骤：

接收终端发送的质量检测请求，所述质量检测请求中携带待检测节点的节点标识；

根据所述节点标识查找对应的质检规则；

根据所述质检规则从所述待检测节点对应的双录视频中抽取多帧视频图像，对抽取的各帧所述视频图像进行人脸识别，得到各帧视频图像对应的人脸识别结果，根据各帧视频图像对应的人脸识别结果得到所述待检测节点的视频检测结果；

从所述待检测节点对应的双录视频中获取双录音频数据，对所述双录音频数据进行语音转换，得到双录文本；

根据所述质检规则对所述双录文本进行词语检测，得到所述待检测节点对应的音频检测结果；

根据所述视频检测结果及所述音频检测结果得到所述待检测节点对应的质量检测结果；

当所述质量检测结果为未通过时，根据所述节点标识生成重录指令；及

将所述重录指令发送至所述终端，所述重录指令用于指示所述终端跳转至所述节点标识对应的节点。
根据权利要求9所述的计算机设备，其特征在于，所述处理器执行所述计算机可读指令时还执行以下步骤：

从抽取的各帧所述视频图像中提取人脸图像；

对所述人脸图像提取表情特征，根据所述表情特征采用已训练的欺诈概率预测模型，得到各帧所述视频图像对应的欺诈概率；及

根据各帧视频图像对应的人脸识别结果及欺诈概率得到待检测节点对应的视频检测结果。
根据权利要求9所述的计算机设备，其特征在于，所述处理器执行所述计算机可读指令时还执行以下步骤：

对所述双录音频数据提取声纹特征，将提取到的所述声纹特征与预先存储的声纹特征进行比对，根据比对结果对双录文本进行标记；及

根据标记结果及所述质检规则对所述双录文本进行词语检测，得到所述待检测节点对应的音频检测结果。
根据权利要求9至11任意一项所述的计算机设备，其特征在于，所述处理器执行所述计算机可读指令时还执行以下步骤：

对抽取的各帧视频图像进行人脸检测，得到第一人脸图像和第二人脸图像；

将所述第一人脸图像和第二人脸图像分别与预先存储的人脸图像进行比对，分别得到第一人脸图像对应的两个人脸识别分数及第二人脸图像对应的两个人脸识别分数；

从第一人脸图像对应的两个人脸识别分数中获取数值较大的人脸识别分数作为所述第一人脸图像对应的第一目标人脸识别分数，从第二人脸图像对应的两个人脸识别分数中获取数值最大的人脸识别分数作为所述第二人脸图像对应的第二目标人脸识别分数；及

根据所述第一目标人脸识别分数及所述第二目标人脸识别分数，得到各帧视频图像对应的人脸识别结果。
根据权利要求9所述的计算机设备，其特征在于，所述处理器执行所述计算机可读指令时还执行以下步骤：

根据各帧视频图像的人脸识别结果计算人脸识别通过率；

判断所述人脸识别通过率是否大于预设阈值；

若是，则判定所述待检测节点对应的视频检测结果为第一结果，所述第一结果用于表征对所述待检测节点对应的视频质量检测通过；及

若否，则判定所述待检测节点对应的视频检测结果为第二结果，所述第二结果用于表征对所述待检测节点对应的视频质量检测未通过。
根据权利要求10所述的计算机设备，其特征在于，所述处理器执行所述计算机可读指令时还执行以下步骤：

从预设的视频资料库中获取视频样本；所述视频样本包括第一视频样本及第二视频样本；所述第一视频样本为存在欺诈行为的视频样本；所述第二视频样本为不存在欺诈行为的视频样本；

获取所述视频样本对应的欺诈标注；及

从所述视频样本中提取表情特征，根据提取到的所述表情特征得到表情特征向量，将得到的所述表情特征向量作为输入样本，将对应的欺诈标注作为期望的输出样本进行模型训练，得到训练好的欺诈概率预测模型。
一个或多个存储有计算机可读指令的非易失性计算机可读存储介质，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行以下步骤：

接收终端发送的质量检测请求，所述质量检测请求中携带待检测节点的节点标识；

根据所述节点标识查找对应的质检规则；

根据所述质检规则从所述待检测节点对应的双录视频中抽取多帧视频图像，对抽取的各帧所述视频图像进行人脸识别，得到各帧视频图像对应的人脸识别结果，根据各帧视频图像对应的人脸识别结果得到所述待检测节点的视频检测结果；

从所述待检测节点对应的双录视频中获取双录音频数据，对所述双录音频数据进行语音转换，得到双录文本；

根据所述质检规则对所述双录文本进行词语检测，得到所述待检测节点对应的音频检测结果；

根据所述视频检测结果及所述音频检测结果得到所述待检测节点对应的质量检测结果；

当所述质量检测结果为未通过时，根据所述节点标识生成重录指令；及

将所述重录指令发送至所述终端，所述重录指令用于指示所述终端跳转至所述节点标识对应的节点。
根据权利要求15所述的存储介质，其特征在于，所述计算机可读指令被所述处理器执行时还执行以下步骤：

从抽取的各帧所述视频图像中提取人脸图像；

对所述人脸图像提取表情特征，根据所述表情特征采用已训练的欺诈概率预测模型，得到各帧所述视频图像对应的欺诈概率；及

根据各帧视频图像对应的人脸识别结果及欺诈概率得到待检测节点对应的视频检测结果。
根据权利要求15所述的存储介质，其特征在于，所述计算机可读指令被所述处理器执行时还执行以下步骤：

对所述双录音频数据提取声纹特征，将提取到的所述声纹特征与预先存储的声纹特征进行比对，根据比对结果对双录文本进行标记；及

根据标记结果及所述质检规则对所述双录文本进行词语检测，得到所述待检测节点对应的音频检测结果。
根据权利要求15至17任意一项所述的存储介质，其特征在于，所述计算机可读指令被所述处理器执行时还执行以下步骤：

对抽取的各帧视频图像进行人脸检测，得到第一人脸图像和第二人脸图像；

将所述第一人脸图像和第二人脸图像分别与预先存储的人脸图像进行比对，分别得到第一人脸图像对应的两个人脸识别分数及第二人脸图像对应的两个人脸识别分数；

从第一人脸图像对应的两个人脸识别分数中获取数值较大的人脸识别分数作为所述第一人脸图像对应的第一目标人脸识别分数，从第二人脸图像对应的两个人脸识别分数中获取数值最大的人脸识别分数作为所述第二人脸图像对应的第二目标人脸识别分数；及

根据所述第一目标人脸识别分数及所述第二目标人脸识别分数，得到各帧视频图像对应的人脸识别结果。
根据权利要求15所述的存储介质，其特征在于，所述计算机可读指令被所述处理器执行时还执行以下步骤：

根据各帧视频图像的人脸识别结果计算人脸识别通过率；

判断所述人脸识别通过率是否大于预设阈值；

若是，则判定所述待检测节点对应的视频检测结果为第一结果，所述第一结果用于表征对所述待检测节点对应的视频质量检测通过；及

若否，则判定所述待检测节点对应的视频检测结果为第二结果，所述第二结果用于表征对所述待检测节点对应的视频质量检测未通过。
根据权利要求16所述的存储介质，其特征在于，所述计算机可读指令被所述处理器执行时还执行以下步骤：

从预设的视频资料库中获取视频样本；所述视频样本包括第一视频样本及第二视频样本；所述第一视频样本为存在欺诈行为的视频样本；所述第二视频样本为不存在欺诈行为的视频样本；

获取所述视频样本对应的欺诈标注；及

从所述视频样本中提取表情特征，根据提取到的所述表情特征得到表情特征向量，将得到的所述表情特征向量作为输入样本，将对应的欺诈标注作为期望的输出样本进行模型训练，得到训练好的欺诈概率预测模型。