WO2021068485A1

WO2021068485A1 - 多方视频的用户身份验证方法、装置及计算机设备

Info

Publication number: WO2021068485A1
Application number: PCT/CN2020/087025
Authority: WO
Inventors: 齐燕
Original assignee: 深圳壹账通智能科技有限公司
Priority date: 2019-10-12
Filing date: 2020-04-26
Publication date: 2021-04-15
Also published as: CN111126124A

Abstract

本申请公开了多方视频的用户身份验证方法、装置、计算机设备及存储介质。该方法包括与视频连接同意请求对应的请求端建立连接；根据请求端发送的当前图像进行人脸识别，得到对应的用户身份识别信息；若有至少一个与请求端对应的协助端未与服务器建立连接，获取请求端在当前时刻对应的视频信息，根据视频信息中各信息对应的取值组成视频特征序列，将其输入至卷积神经网络得到对应的视频场景分类结果；获取与其对应的背景音乐库，并随机选择其中一首音乐的音频数据发送至请求端或协助端。该方法实现了进行多方视频时实时验证参与方的身份真实性，还能在视频等待期间根据视频场景分类结果对应随机播放等待期间的音乐，提高视频的数据安全性。

Description

多方视频的用户身份验证方法、装置及计算机设备

本申请要求于2019年10月12日提交中国专利局、申请号为201910968909.9，发明名称为“多方视频的用户身份验证方法、装置及计算机设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及图像识别技术领域，尤其涉及一种多方视频的用户身份验证方法、装置、计算机设备及存储介质。

背景技术

目前，在进行多方视频的过程中，一般是多人同时参与视频，在一方发起视频请求邀请多方参与者进行视频时，受邀的参与者在操作终端接收视频请求时，可以是本人接收视频请求，也可以是他人代替本人来接收视频请求，发明人意识到这就导致一方发起视频请求时，无法确保受邀的各参与者是本人参与视频。即在多方视频时是无法验证各参与方的身份真实性，也就无法确保是参与者本人来参与多方视频会议，导致视频的安全性低下。

发明内容

本申请实施例提供了一种多方视频的用户身份验证方法、装置、计算机设备及存储介质，旨在解决现有技术中进行多方视频时是无法验证各参与方的身份真实性，也就无法确保是参与者本人来参与多方视频会议，导致视频的安全性低下的问题。

第一方面，本申请实施例提供了一种多方视频的用户身份验证方法，该方法包括若检测到请求端发送的与当前录入编号对应的视频连接同意请求，与所述视频连接同意请求对应的请求端建立连接；根据请求端发送的当前图像进行人脸识别，得到对应的用户身份识别信息；若检测到已将定位信息获取指令发送至请求端，接收请求端根据服务器所发送的定位信息获取指令对应推送的当前定位信息；判断在预设的第一时间阈值内是否有至少一个与请求端对应的协助端未与服务器建立连接；若有至少一个与请求端对应的协助端未与服务器建立连接，获取请求端在当前时刻对应的视频信息，根据所述视频信息中各信息对应的取值组成视频特征序列，将所述视频特征序列输入至预先训练的卷积神经网络，得到与所述视频特征序列对应的视频场景分类结果；获取与所述视频场景分类结果对应的背景音乐库，并随机选择其中一首音乐的音频数据发送至请求端或协助端。

第二方面，本申请实施例提供了一种多方视频的用户身份验证装置，其包括：

连接建立单元，用于若检测到请求端发送的与当前录入编号对应的视频连接同意请求，与所述视频连接同意请求对应的请求端建立连接；

身份识别单元，用于根据请求端发送的当前图像进行人脸识别，得到对应的用户身份识别信息；

定位单元，用于若检测到已将定位信息获取指令发送至请求端，接收请求端根据服务器所发送的定位信息获取指令对应推送的当前定位信息；

连接判断单元，用于判断在预设的第一时间阈值内是否有至少一个与请求端对应的协助端未与服务器建立连接；

视频场景获取单元，用于若有至少一个与请求端对应的协助端未与服务器建立连接，获取请求端在当前时刻对应的视频信息，根据所述视频信息中各信息对应的取值组成视频特征序列，将所述视频特征序列输入至预先训练的卷积神经网络，得到与所述视频特征序列对应的视频场景分类结果；其中，所述视频信息包括当前时刻对应的时间参数、请求端的当前定位信息、视频场景的背景色信息；以及

音频数据发送单元，用于获取与所述视频场景分类结果对应的背景音乐库，并随机选择其中一首音乐的音频数据发送至请求端或协助端。

第三方面，本申请实施例又提供了一种计算机设备，其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现一种用户身份验证方法，该方法包括若检测到请求端发送的与当前录入编号对应的视频连接同意请求，与所述视频连接同意请求对应的请求端建立连接；根据请求端发送的当前图像进行人脸识别，得到对应的用户身份识别信息；若检测到已将定位信息获取指令发送至请求端，接收请求端根据服务器所发送的定位信息获取指令对应推送的当前定位信息；判断在预设的第一时间阈值内是否有至少一个与请求端对应的协助端未与服务器建立连接；若有至少一个与请求端对应的协助端未与服务器建立连接，获取请求端在当前时刻对应的视频信息，根据所述视频信息中各信息对应的取值组成视频特征序列，将所述视频特征序列输入至预先训练的卷积神经网络，得到与所述视频特征序列对应的视频场景分类结果；获取与所述视频场景分类结果对应的背景音乐库，并随机选择其中一首音乐的音频数据发送至请求端或协助端。。

第四方面，本申请实施例还提供了一种计算机可读存储介质，其中所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行一种多方视频的用户身份验证方法，该方法包括若检测到请求端发送的与当前录入编号对应的视频连接同意请求，与所述视频连接同意请求对应的请求端建立连接；根据请求端发送的当前图像进行人脸识别，得到对应的用户身份识别信息；若检测到已将定位信息获取指令发送至请求端，接收请求端根据服务器所发送的定位信息获取指令对应推送的当前定位信息；判断在预设的第一时间阈值内是否有至少一个与请求端对应的协助端未与服务器建立连接；若有至少一个与请求端对应的协助端未与服务器建立连接，获取请求端在当前时刻对应的视频信息，根据所述视频信息中各信息对应的取值组成视频特征序列，将所述视频特征序列输入至预先训练的卷积神经网络，得到与所述视频特征序列对应的视频场景分类结果；获取与所述视频场景分类结果对应的背景音乐库，并随机选择其中一首音乐的音频数据发送至请求端或协助端。

本申请实施例提供了一种多方视频的用户身份验证方法、装置、计算机设备及存储介质。实现了进行多方视频时实时验证参与方的身份真实性，确保是参与者本人来参与多方视频会议，还能在视频等待期间根据视频场景分类结果对应随机播放等待期间的背景音乐，提高了视频的数据安全性。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的多方视频的用户身份验证方法的应用场景示意图；

图2为本申请实施例提供的多方视频的用户身份验证方法的流程示意图；

图3为本申请实施例提供的多方视频的用户身份验证方法的另一流程示意图；

图4为本申请实施例提供的多方视频的用户身份验证方法中服务器的用户交互界面的显示区域分布示意图；

图5为本申请实施例提供的多方视频的用户身份验证方法的子流程示意图；

图6为本申请实施例提供的多方视频的用户身份验证方法的另一子流程示意图；

图7为本申请实施例提供的多方视频的用户身份验证装置的示意性框图；

图8为本申请实施例提供的多方视频的用户身份验证装置的另一示意性框图；

图9为本申请实施例提供的多方视频的用户身份验证装置的子单元示意性框图；

图10为本申请实施例提供的多方视频的用户身份验证装置的另一子单元示意性框图；

图11为本申请实施例提供的计算机设备的示意性框图。

具体实施方式

请参阅图1和图2，图1为本申请实施例提供的多方视频的用户身份验证方法的应用场景示意图；图2为本申请实施例提供的多方视频的用户身份验证方法的流程示意图，该多方视频的用户身份验证方法应用于服务器中，该方法通过安装于服务器中的应用软件进行执行。

如图2所示，该方法包括步骤S110～S160。

S110、若检测到请求端发送的与当前录入编号对应的视频连接同意请求，与所述视频连接同意请求对应的请求端建立连接。

在本实施例中，为了更清楚的理解本申请的技术方案，下面对具体应用场景及所涉及的终端进行介绍。本申请是站在服务器的角度描述技术方案。

一是服务器，对应审核人操作的终端(如台式电脑)，用于在多方视频的场景下接收请求端和/或协助端的视频数据，对请求端和/或协助端对应的用户进行身份验证，并根据视频数据在多方视频的等待期间自动生成背景配乐。

二是请求端，对应的是请求人(也可以理解为申请人)操作的终端(如智能手机或平安电脑)，用于将请求人的申请信息发送至服务器，并可将请求人的实时视频等数据发送至服务器。

三是协助端，对应的是请求人所设置的协助人员操作的终端(如智能手机或平安电脑)，用于将协助人员的身份信息发送至服务器，并可将协助人员的实时视频数据发送至服务器。

当服务器检测到操作人员所录入的当前录入编号时，则进入等待请求端接入的等待状态。具体的，当服务器检测到操作人员所录入的当前录入编号后，服务器将视频连接请求发送至与当前录入编号对应的请求端，请求端根据视频连接请求对应发送视频连接同意请求至服务器。若检测到请求端发送的与当前录入编号对应的视频连接同意请求，与所述视频连接同意请求对应的请求端建立连接，此时服务器与所述请求端进行视频通讯。

例如，将本申请的具体使用场景设置为信贷业务的多人视频面审场景，申请人请求信贷业务提供方进行视频面审之前，可以预先设置1-2个增信人(如申请人的配偶或好友，这些增信人使用协助端参与多人视频面审)以辅助参与视频面审。当申请人完成了申请信息(包括贷款申请信息、借款人信息、抵押信息及其他贷款信息)的编辑后，生成订单及与订单对应的唯一的订单编号，该订单编号会存储在服务器中。

当服务器对应的审核人此时需与申请人建立连接时，表示审核人已做好多方视频面审的准备工作，此时可以输入当前时刻可进行面审的订单编号。一旦审核人在服务器中完成订单编号的输入，则申请人对应的请求端的用户交互界面中更新一个“参与面审”的按钮。当申请人在请求端上点击订单所对应的“参与面审”按钮时，则向服务器发出视频连接请求。若服务器未在预设的答复时间阈值(如20-30s内任意一个时间值)内与请求端建立连接，则服务器自动向请求端发送“客服不在线”的提示信息。若服务器在所述答复时间阈值与请求端建立连接，则所述服务器与所述请求端进行视频通讯。

在一实施例中，如图3所示，步骤S110之后还包括：

S111、将所述请求端对应的视频数据在预先设置的申请人显示区域进行显示；

S112、根据所述视频连接请求对应的申请信息获取协助端信息；

S113、将协助视频连接请求发送至与所述协助端信息对应的协助端。

在本实施例中，当请求端与服务器建立连接后，请求端对应的申请人视频数据在如图4所示的用户交互界面的左上角区域(即申请人显示区域)进行显示，服务器对应的审核人视频数据在如图4所示用户交互界面的右下角(即审核人显示区域)进行显示。如图4所示用户交互界面的右上角和左下角则为增信人显示区域，也就是协助端的用户参与该多方面审时，是显示在用户交互界面的右上角和左下角则为增信人显示区域(例如用户交互界面的右上角为增信人1显示区域，左下角则为增信人2显示区域)。如图4所示用户交互界面中还设置有申请信息显示区域，用于显示申请信息。

当请求端与服务器成功建立连接后，此时需及时的通知协助端对应的增信人及时上线以参与多方视频。此时服务器为了精准的通知协助端，需要先根据所述视频连接请求对应的请求端上传的申请信息获取协助端信息(主要是获取协助端的电话号码或用户账号等信息)，之后服务器根据协助端信息将协助视频连接请求发送至对应的协助端。这样即可实现当请求端对应的申请人和服务器对应的审核人均在线时，及时的通知协助端上线。

S120、根据请求端发送的当前图像进行人脸识别，得到对应的用户身份识别信息。

在本实施例中，请求端对应的申请人视频数据在如图4所示用户交互界面的左上角进行显示时，服务器对应的审核人选中左上角的申请人视频数据的头像右下角按钮后，选中申请人并显示在如图4所示用户交互界面的中央处的申请人放大显示区域。点击中央处的申请人放大显示区域下方的“人脸识别”按钮，服务器将申请人的头像与公安部留存的照片(即人脸数据库中已存储的特征模板)进行匹配验证，并在右侧的申请人及增信人身份验证结果显示区域显示相似度系数(一般是100％)，实现申请人身份验证。

在一实施例中，如图5所示，步骤S120包括：

S121、若检测到与请求端对应的人脸识别同意请求，获取与所述人脸识别同意请求对应时刻的当前图像；

S122、将所述当前图像对应的特征向量与人脸数据库中已存储的特征模板进行比对，以判断人脸数据库中已存储的特征模板中是否存在与所述当前图像对应的图片特征向量相同的特征模板；

S123、若人脸数据库中已存储的特征模板中存在与所述当前图像对应的图片特征向量相同的特征模板，获取对应的用户身份识别信息；

S124、若人脸数据库中已存储的特征模板中不存在与所述当前图像对应的图片特征向量相同的特征模板，进行增加当前用户身份识别信息的提示。

在本实施例中，当服务器与请求端建立连接后，服务器向请求端发出人脸识别请求，当请求端对应的申请人同意人脸识别时，则请求端向服务器发送人脸识别同意请求。当服务器检测到与请求端对应的人脸识别同意请求，获取与所述人脸识别同意请求对应时刻的当前图像(也即请求端采集当前图像后上传至服务器进行人脸识别)。之后将所述当前图像对应的特征向量与与人脸数据库中已存储的特征模板进行比对，若人脸数据库中已存储的特征模板中存在与所述当前图像对应的图片特征向量相同的特征模板，获取对应的用户身份识别信息。

在一实施例中，如图5所示，步骤S122之前还包括：

S1221、对所述当前图像进行灰度校正及噪声过滤，得到预处理后图片；

S1222、通过卷积神经网络模型获取与所述预处理后图片对应的图片特征向量。

在本实施例中，对于人脸的图像预处理是基于人脸检测结果，对图像进行处理并最终服务于特征提取的过程。服务器获取的原始图像由于受到各种条件的限制和随机干扰，往往不能直接使用，必须在图像处理的早期阶段对它进行灰度校正、噪声过滤等图像预处理。对于人脸图像而言，其预处理过程主要包括人脸图像的光线补偿、灰度变换、直方图均衡化、归一化、几何校正、滤波以及锐化等。

在获取图片的特征向量时，先获取与预处理后图片对应的像素矩阵，然后将预处理后图片对应的像素矩阵作为卷积神经网络模型中输入层的输入，得到多个特征图，之后将特征图输入池化层，得到每一特征图对应的最大值所对应一维行向量，最后将每一特征图对应的最大值所对应一维行向量输入至全连接层，得到与预处理后图片对应的图片特征向量。

由于人脸数据库中已存储的特征模板中存储了已采集的海量的人脸图片对应的特征向量，也即每一个人的人脸均对应唯一的特征向量，有了这些海量的特征模板为数据基础后，可以用来确定预处理后图片对应的一个或多个人，从而实现人脸识别。

最后，所得到的用户身份识别信息可以是用户的身份证号，由于每一公民的身份证号是唯一的，可以作为其唯一识别码。当完成了对申请人的用户身份识别之后与申请信息中对应的用户身份信息一致时，即可确保申请人是本人参与多方视频。

S130、若检测到已将定位信息获取指令发送至请求端，接收请求端根据服务器所发送的定位信息获取指令对应推送的当前定位信息。

在本实施例中，服务器需要获取请求端的定位信息时，先由服务器触发一个定位信息获取指令，然后由服务器将所述定位信息获取指令发送至请求端，请求端在获取了当前定位信息后将当前定位信息发送至服务器，最后服务器接收由请求端发送的当前定位信息，即实现了审核人员可实时监测申请人的位置信息，也即可以再次核实申请人提供的申请信息中所包括的地址信息是否有误。例如，请求端所发送的当前定位信息在如图4所示的用户交互界面中的定位信息显示区域进行显示。

S140、判断在预设的第一时间阈值内是否有至少一个与请求端对应的协助端未与服务器建立连接。

在本实施例中，当服务器与请求端成功建立连接后，此时服务器发送协助端上线请求至与请求端对应的一个或多个协助端。当协助端均及时在所述第一时间阈值(如设置第一时间阈值为5-10s)响应协助端上线请求并上线时，所有的协助端均及时上线参与多方视频，此时请求端和服务器在等待协助端上线的过程较短，无需做等待处理。具体的，所述第一时间阈值内无请求端对应的协助端未与服务器建立连接，将协助端对应的视频数据在如图4预先设置的增信人显示区域进行显示。当协助端与服务器连接成功时，也可在如图4设置的定位信息显示区域显示协助端对应的当前定位信息，例如此时申请人、增信人1和增信人2均在线时，此时定位信息显示区域以电子地图中点位点的方式分别显示申请人、增信人1和增信人2的地理位置定位点，从而实现人员地理分布图的显示效果，直观的显示各人员当前地理位置。

S150、若有至少一个与请求端对应的协助端未与服务器建立连接，获取请求端在当前时刻对应的视频信息，根据所述视频信息中各信息对应的取值组成视频特征序列，将所述视频特征序列输入至预先训练的卷积神经网络，得到与所述视频特征序列对应的视频场景分类结果；其中，所述视频信息包括当前时刻对应的时间参数、请求端的当前定位信息、视频场景的背景色信息。

在本实施例中，由于多方视频面审时，需要申请人和协助人员参与，此时若服务器检测到在请求端连接成功后，仍存在至少一个协助端未与服务器连接时，可在等待连接的区间，由服务器自动根据请求端在当前时刻对应的视频信息获取视频场景分类结果，由视频场景分类结果确定一个等待音乐进行播放，作为请求端和服务器中等待协助端连接过程中的背景音乐。

在一实施例中，如图6所示，步骤S150包括：

S151、获取所述视频信息中当前时刻对应的时间参数，将所述时间参数除以24进行归一化，得到第一取值；

S152、获取所述视频信息中所述当前定位信息，根据所述当前定位信息对应获取时区编号，将所述时区编号除以24进行归一化，得到第二取值；

S153、获取所述视频信息中所述视频场景的背景色信息，根据所述背景色信息对应获取RGB参数值，将所述RGB参数值除以256，得到第三取值序列；

S154、将所述第一取值、第二取值、第三取值序列进行串接，得到视频特征序列。

在本实施例中，例如当前时刻为12点整，则第一取值为12/24＝0、5；所述当前定位信息对应的经纬度处于东8区，则所述第二取值为8/24＝1/3。由于背景色信息一般包括R、G、B三个参数值，故将所述所述RGB参数值除以256，得到由三个值组成的第三取值序列；

例如背景色信息的RGB参数值为(128,128,128,)，则第三取值序列为128/256 128/256 128/256，即0、5 0、5 0、5。上述举例的第一取值、第二取值、第三取值序列进行串接后，得到视频特征序列为[1/2 1/3 1/2 1/2 1/2]。

在一实施例中，步骤S150之前还包括：

将训练集中每一视频特征序列作为待训练卷积神经网络的输入，将对应的视频场景分类结果作为待训练卷积神经网络的输出，对所述待训练卷积神经网络进行训练，得到用于分类视频场景的卷积神经网络；

训练集中与每一视频特征序列对应的视频场景分类结果是预先标注的，例如视频场景分类结果可以标注的值为1-10，其中1表示欢快的场景，2表示严肃的场景等。

S160、获取与所述视频场景分类结果对应的背景音乐库，并随机选择其中一首音乐的音频数据发送至请求端或协助端。

在本实施例中，当得到与所述视频特征序列对应的视频场景分类结果之后，需要在该视频场景分类结果对应的背景音乐库中随机获取一首音乐作为当前推送的音频文件发送至请求端或协助端。例如视频场景分类结果为1时(表示欢快的场景)，其对应的背景音乐库为音乐库1(其中保存的欢快风格的音乐)，从音乐库1中随机选择其中一首音乐的音频数据发送至请求端或协助端，以作为请求端或协助端的等待音乐。

在一实施例中，步骤S160之后还包括：

若所述音频数据发送至请求端或协助端的发送时间与当前系统时间之间的间隔超出预先设置的第二时间阈值，将开启多方视频的提示信息发送至请求端和协助端。

在本实施例中，在请求端的申请人或至少一个已连接服务器的协助端对应的协助人员在收听了与第二时间阈值(如设置为30-120秒)等时长的音频后，此时为了尽快开启多方视频面审，可以将开启多视频方面审的提示信息发送至已连接服务器的请求端和协助端，提示在缺少一个协助端的情况下开启多方视频面审的视频会议，以减少等待时间。

在一实施例中，步骤S160之后还包括：

若检测到当前视频数据的获取指令，获取与请求端相对应预设时长的目标视频数据，通过流光法对所述目标视频数据进行预处理，得到与所述目标视频数据对应的目标图片集合。

在本实施例中，当请求端、协助端均与服务器建立连接并开启多方视频时，此时服务器在如图4所示的用户交互界面上点击“表情检测”按钮时，即可获取与请求端相对应预设时长的目标视频数据。此时通过光流法对申请人的微表情进行识别，以判断是否存在欺诈。

光流法的原理是当人的眼睛观察运动物体时，物体的景象在人眼的视网膜上形成一系列连续变化的图像，这一系列连续变化的信息不断“流过”视网膜(即图像平面)，好像是一种光的“流”，故称之为光流。光流表达图像的变化，包含目标运动的信息，可用来确定目标的运动。光流三个要素：一是运动速度场,这是形成光流的必要条件；二是带光学特征的部分例如有灰度的象素点，它可以携带运动信息；三是成像投影从场景到图像平面，因而能被观察到。

定义光流以点为基础，具体来说，设(u,v)为图像点(x,y)的光流，则把(x,y,u,v)称为光流点。所有光流点的集合称为光流场。当带光学特性的物体在三维空间运动时，在图像平面上就形成了相应的图像运动场，或称为图像速度场。在理想情况下，光流场对应于运动场。

给图像中的每个像素点赋予一个速度矢量，这样就形成了一个运动矢量场。根据各个像素点的速度矢量特征，可以对图像进行动态分析。如果图像中没有运动目标，则光流矢量在整个图像区域是连续变化的。当图像中有运动物体时(当用户有微表情时，脸部会有运动，相当于运动物体)，目标和背景存在着相对运动。运动物体所形成的速度矢量必然和背景的速度矢量有所不同，如此便可以计算出运动物体的位置。通过光流法进行预处理，获取与所述目标视频数据对应的目标图片集合。通过光流法进行预处理，获取了由目标视频数据中存在微表情的图片组成的目标图片集合。

此时，可以将所述目标图片集合推送至对应的接收端(这一接收端可以是另一用于微表情检测的云服务器，也可以是服务器中设置的用于微表情检测的子模块)进行微表情分析，判断申请人在于服务器进行视频通讯的过程中是否存在欺诈的可能。

该方法实现了进行多方视频时实时验证参与方的身份真实性，确保是参与者本人来参与多方视频会议，还能在视频等待期间根据视频场景分类结果对应随机播放等待期间的背景音乐，提高了视频的数据安全性。

本申请实施例还提供一种多方视频的用户身份验证装置，该多方视频的用户身份验证装置用于执行前述多方视频的用户身份验证方法的任一实施例。具体地，请参阅图7，图7是本申请实施例提供的多方视频的用户身份验证装置的示意性框图。该多方视频的用户身份验证装置100可以配置于服务器中。

如图7所示，多方视频的用户身份验证装置100包括连接建立单元110、身份识别单元120、定位单元130、连接判断单元140、视频场景获取单元150、音频数据发送单元160。

连接建立单元110，用于若检测到请求端发送的与当前录入编号对应的视频连接同意请求，与所述视频连接同意请求对应的请求端建立连接。

在本实施例中，当服务器检测到操作人员所录入的当前录入编号时，则进入等待请求端接入的等待状态。具体的，当服务器检测到操作人员所录入的当前录入编号后，服务器将视频连接请求发送至与当前录入编号对应的请求端，请求端根据视频连接请求对应发送视频连接同意请求至服务器。若检测到请求端发送的与当前录入编号对应的视频连接同意请求，与所述视频连接同意请求对应的请求端建立连接，此时服务器与所述请求端进行视频通讯。

在一实施例中，如图8所示，多方视频的用户身份验证装置100还包括：

申请人视频显示单元111，用于将所述请求端对应的视频数据在预先设置的申请人显示区域进行显示；

协助端信息获取单元112，用于根据所述视频连接请求对应的申请信息获取协助端信息；

协助端连接发送单元113，用于将协助视频连接请求发送至与所述协助端信息对应的协助端。

身份识别单元120，用于根据请求端发送的当前图像进行人脸识别，得到对应的用户身份识别信息。

在一实施例中，如图9所示，身份识别单元120包括：

当前图像获取单元121，用于若检测到与请求端对应的人脸识别同意请求，获取与所述人脸识别同意请求对应时刻的当前图像；

比对单元122，用于将所述当前图像对应的特征向量与人脸数据库中已存储的特征模板进行比对，以判断人脸数据库中已存储的特征模板中是否存在与所述当前图像对应的图片特征向量相同的特征模板；

第一处理单元123，用于若人脸数据库中已存储的特征模板中存在与所述当前图像对应的图片特征向量相同的特征模板，获取对应的用户身份识别信息；

第二处理单元124，用于若人脸数据库中已存储的特征模板中不存在与所述当前图像对应的图片特征向量相同的特征模板，进行增加当前用户身份识别信息的提示。

在一实施例中，如图9所示，身份识别单元120还包括：

预处理单元1221，用于对所述当前图像进行灰度校正及噪声过滤，得到预处理后图片；

特征向量获取单元1222，用于通过卷积神经网络模型获取与所述预处理后图片对应的图片特征向量。

定位单元130，用于若检测到已将定位信息获取指令发送至请求端，接收请求端根据服务器所发送的定位信息获取指令对应推送的当前定位信息。

连接判断单元140，用于判断在预设的第一时间阈值内是否有至少一个与请求端对应的协助端未与服务器建立连接。

视频场景获取单元150，用于若有至少一个与请求端对应的协助端未与服务器建立连接，获取请求端在当前时刻对应的视频信息，根据所述视频信息中各信息对应的取值组成视频特征序列，将所述视频特征序列输入至预先训练的卷积神经网络，得到与所述视频特征序列对应的视频场景分类结果；其中，所述视频信息包括当前时刻对应的时间参数、请求端的当前定位信息、视频场景的背景色信息。

在一实施例中，如图10所示，视频场景获取单元150包括：

第一取值计算单元151，用于获取所述视频信息中当前时刻对应的时间参数，将所述时间参数除以24进行归一化，得到第一取值；

第二取值计算单元152，用于获取所述视频信息中所述当前定位信息，根据所述当前定位信息对应获取时区编号，将所述时区编号除以24进行归一化，得到第二取值；

第三取值序列获取单元153，用于获取所述视频信息中所述视频场景的背景色信息，根据所述背景色信息对应获取RGB参数值，将所述RGB参数值除以256，得到第三取值序列；

取值串接单元154，用于将所述第一取值、第二取值、第三取值序列进行串接，得到视频特征序列。

在一实施例中，多方视频的用户身份验证装置100还包括：

模型训练单元，用于将训练集中每一视频特征序列作为待训练卷积神经网络的输入，将对应的视频场景分类结果作为待训练卷积神经网络的输出，对所述待训练卷积神经网络进行训练，得到用于分类视频场景的卷积神经网络；

视频场景获取单元160，用于获取与所述视频场景分类结果对应的背景音乐库，并随机选择其中一首音乐的音频数据发送至请求端或协助端。

在一实施例中，多方视频的用户身份验证装置100还包括：

连接提示单元，用于若所述音频数据发送至请求端或协助端的发送时间与当前系统时间之间的间隔超出预先设置的第二时间阈值，将开启多方视频的提示信息发送至请求端和协助端。

在一实施例中，多方视频的用户身份验证装置100还包括：

微表情识别单元，用于若检测到当前视频数据的获取指令，获取与请求端相对应预设时长的目标视频数据，通过流光法对所述目标视频数据进行预处理，得到与所述目标视频数据对应的目标图片集合。

该装置实现了进行多方视频时实时验证参与方的身份真实性，确保是参与者本人来参与多方视频会议，还能在视频等待期间根据视频场景分类结果对应随机播放等待期间的背景音乐，提高了视频的数据安全性。

上述多方视频的用户身份验证装置可以实现为计算机程序的形式，该计算机程序可以在如图11所示的计算机设备上运行。

请参阅图11，图11是本申请实施例提供的计算机设备的示意性框图。该计算机设备500 是服务器，服务器可以是独立的服务器，也可以是多个服务器组成的服务器集群。

参阅图11，该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括非易失性存储介质503和内存储器504。

该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时，可使得处理器502执行多方视频的用户身份验证方法。

该处理器502用于提供计算和控制能力，支撑整个计算机设备500的运行。

该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行多方视频的用户身份验证方法。

该网络接口505用于进行网络通信，如提供数据信息的传输等。本领域技术人员可以理解，图11中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备500的限定，具体的计算机设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现本申请实施例公开的多方视频的用户身份验证方法。

本领域技术人员可以理解，图11中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定，在其他实施例中，计算机设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。例如，在一些实施例中，计算机设备可以仅包括存储器及处理器，在这样的实施例中，存储器及处理器的结构及功能与图11所示实施例一致，在此不再赘述。

应当理解，在本申请实施例中，处理器502可以是中央处理单元(Central ProcessingUnit，CPU)，该处理器502还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在本申请的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性或可以为易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序，其中计算机程序被处理器执行时实现本申请实施例公开的多方视频的用户身份验证方法。

在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

一种多方视频的用户身份验证方法，其中，包括：

若检测到请求端发送的与当前录入编号对应的视频连接同意请求，与所述视频连接同意请求对应的请求端建立连接；

根据请求端发送的当前图像进行人脸识别，得到对应的用户身份识别信息；

若检测到已将定位信息获取指令发送至请求端，接收请求端根据服务器所发送的定位信息获取指令对应推送的当前定位信息；

判断在预设的第一时间阈值内是否有至少一个与请求端对应的协助端未与服务器建立连接；

若有至少一个与请求端对应的协助端未与服务器建立连接，获取请求端在当前时刻对应的视频信息，根据所述视频信息中各信息对应的取值组成视频特征序列，将所述视频特征序列输入至预先训练的卷积神经网络，得到与所述视频特征序列对应的视频场景分类结果；其中，所述视频信息包括当前时刻对应的时间参数、请求端的当前定位信息、视频场景的背景色信息；以及

获取与所述视频场景分类结果对应的背景音乐库，并随机选择其中一首音乐的音频数据发送至请求端或协助端。
根据权利要求1所述的多方视频的用户身份验证方法，所述若检测到请求端发送的与当前录入编号对应的视频连接同意请求，与所述视频连接同意请求对应的请求端建立连接之后，还包括：

将所述请求端对应的视频数据在预先设置的申请人显示区域进行显示；

根据所述视频连接请求对应的申请信息获取协助端信息；

将协助视频连接请求发送至与所述协助端信息对应的协助端。
根据权利要求2所述的多方视频的用户身份验证方法，其中，所述获取与所述视频场景分类结果对应的背景音乐库，并随机选择其中一首音乐的音频数据发送至请求端或协助端之后，还包括：

若所述音频数据发送至请求端或协助端的发送时间与当前系统时间之间的间隔超出预先设置的第二时间阈值，将开启多方视频的提示信息发送至请求端和协助端。
根据权利要求3所述的多方视频的用户身份验证方法，其中，所述获取与所述视频场景分类结果对应的背景音乐库，并随机选择其中一首音乐的音频数据发送至请求端或协助端之后，还包括：

若检测到当前视频数据的获取指令，获取与请求端相对应预设时长的目标视频数据，通过流光法对所述目标视频数据进行预处理，得到与所述目标视频数据对应的目标图片集合。
根据权利要求1-4任一项所述的多方视频的用户身份验证方法，其中，所述根据请求端发送的当前图像进行人脸识别，得到对应的用户身份识别信息，包括：

若检测到与请求端对应的人脸识别同意请求，获取与所述人脸识别同意请求对应时刻的当前图像；

将所述当前图像对应的特征向量与人脸数据库中已存储的特征模板进行比对，以判断人脸数据库中已存储的特征模板中是否存在与所述当前图像对应的图片特征向量相同的特征模板；

若人脸数据库中已存储的特征模板中存在与所述当前图像对应的图片特征向量相同的特征模板，获取对应的用户身份识别信息；

若人脸数据库中已存储的特征模板中不存在与所述当前图像对应的图片特征向量相同的特征模板，进行增加当前用户身份识别信息的提示。
根据权利要求5所述的多方视频的用户身份验证方法，其中，所述将所述当前图像对应的特征向量与人脸数据库中已存储的特征模板进行比对之前，还包括：

对所述当前图像进行灰度校正及噪声过滤，得到预处理后图片；

通过卷积神经网络模型获取与所述预处理后图片对应的图片特征向量。
根据权利要求1-4任一项所述的多方视频的用户身份验证方法，其中，所述获取请求端在当前时刻对应的视频信息，根据所述视频信息中各信息对应的取值组成视频特征序列，包括：

获取所述视频信息中当前时刻对应的时间参数，将所述时间参数除以24进行归一化，得到第一取值；

获取所述视频信息中所述当前定位信息，根据所述当前定位信息对应获取时区编号，将所述时区编号除以24进行归一化，得到第二取值；

获取所述视频信息中所述视频场景的背景色信息，根据所述背景色信息对应获取RGB参数值，将所述RGB参数值除以256，得到第三取值序列；

将所述第一取值、第二取值、第三取值序列进行串接，得到视频特征序列。
一种多方视频的用户身份验证装置，其中，包括：

连接建立单元，用于若检测到请求端发送的与当前录入编号对应的视频连接同意请求，与所述视频连接同意请求对应的请求端建立连接；

身份识别单元，用于根据请求端发送的当前图像进行人脸识别，得到对应的用户身份识别信息；

定位单元，用于若检测到已将定位信息获取指令发送至请求端，接收请求端根据服务器所发送的定位信息获取指令对应推送的当前定位信息；

连接判断单元，用于判断在预设的第一时间阈值内是否有至少一个与请求端对应的协助端未与服务器建立连接；

视频场景获取单元，用于若有至少一个与请求端对应的协助端未与服务器建立连接，获取请求端在当前时刻对应的视频信息，根据所述视频信息中各信息对应的取值组成视频特征序列，将所述视频特征序列输入至预先训练的卷积神经网络，得到与所述视频特征序列对应的视频场景分类结果；其中，所述视频信息包括当前时刻对应的时间参数、请求端的当前定位信息、视频场景的背景色信息；以及

音频数据发送单元，用于获取与所述视频场景分类结果对应的背景音乐库，并随机选择其中一首音乐的音频数据发送至请求端或协助端。
一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现一种多方视频的用户身份验证方法，包括：

若检测到请求端发送的与当前录入编号对应的视频连接同意请求，与所述视频连接同意请求对应的请求端建立连接；

根据请求端发送的当前图像进行人脸识别，得到对应的用户身份识别信息；

若检测到已将定位信息获取指令发送至请求端，接收请求端根据服务器所发送的定位信息获取指令对应推送的当前定位信息；

判断在预设的第一时间阈值内是否有至少一个与请求端对应的协助端未与服务器建立连接；

若有至少一个与请求端对应的协助端未与服务器建立连接，获取请求端在当前时刻对应的视频信息，根据所述视频信息中各信息对应的取值组成视频特征序列，将所述视频特征序列输入至预先训练的卷积神经网络，得到与所述视频特征序列对应的视频场景分类结果；其中，所述视频信息包括当前时刻对应的时间参数、请求端的当前定位信息、视频场景的背景色信息；以及

获取与所述视频场景分类结果对应的背景音乐库，并随机选择其中一首音乐的音频数据发送至请求端或协助端。
根据权利要求9所述的一种计算机设备，所述若检测到请求端发送的与当前录入编号对应的视频连接同意请求，与所述视频连接同意请求对应的请求端建立连接之后，还包括：

将所述请求端对应的视频数据在预先设置的申请人显示区域进行显示；

根据所述视频连接请求对应的申请信息获取协助端信息；

将协助视频连接请求发送至与所述协助端信息对应的协助端。
根据权利要求10所述的计算机设备，其中，所述获取与所述视频场景分类结果对应的背景音乐库，并随机选择其中一首音乐的音频数据发送至请求端或协助端之后，还包括：

若所述音频数据发送至请求端或协助端的发送时间与当前系统时间之间的间隔超出预先设置的第二时间阈值，将开启多方视频的提示信息发送至请求端和协助端。
根据权利要求11所述的计算机设备，其中，所述获取与所述视频场景分类结果对应的背景音乐库，并随机选择其中一首音乐的音频数据发送至请求端或协助端之后，还包括：

若检测到当前视频数据的获取指令，获取与请求端相对应预设时长的目标视频数据，通过流光法对所述目标视频数据进行预处理，得到与所述目标视频数据对应的目标图片集合。
根据权利要求9-12任一项所述的计算机设备，其中，所述根据请求端发送的当前图像进行人脸识别，得到对应的用户身份识别信息，包括：

若检测到与请求端对应的人脸识别同意请求，获取与所述人脸识别同意请求对应时刻的当前图像；

将所述当前图像对应的特征向量与人脸数据库中已存储的特征模板进行比对，以判断人脸数据库中已存储的特征模板中是否存在与所述当前图像对应的图片特征向量相同的特征模板；

若人脸数据库中已存储的特征模板中存在与所述当前图像对应的图片特征向量相同的特征模板，获取对应的用户身份识别信息；

若人脸数据库中已存储的特征模板中不存在与所述当前图像对应的图片特征向量相同的特征模板，进行增加当前用户身份识别信息的提示。
根据权利要求13所述的计算机设备，其中，所述将所述当前图像对应的特征向量与人脸数据库中已存储的特征模板进行比对之前，还包括：

对所述当前图像进行灰度校正及噪声过滤，得到预处理后图片；

通过卷积神经网络模型获取与所述预处理后图片对应的图片特征向量。
根据权利要求9-12任一项所述的计算机设备，其中，所述获取请求端在当前时刻对应的视频信息，根据所述视频信息中各信息对应的取值组成视频特征序列，包括：

获取所述视频信息中当前时刻对应的时间参数，将所述时间参数除以24进行归一化，得到第一取值；

获取所述视频信息中所述当前定位信息，根据所述当前定位信息对应获取时区编号，将所述时区编号除以24进行归一化，得到第二取值；

获取所述视频信息中所述视频场景的背景色信息，根据所述背景色信息对应获取RGB参数值，将所述RGB参数值除以256，得到第三取值序列；

将所述第一取值、第二取值、第三取值序列进行串接，得到视频特征序列。
一种计算机可读存储介质，其中，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行一种多方视频的用户身份验证方法，其中，包括：

若检测到请求端发送的与当前录入编号对应的视频连接同意请求，与所述视频连接同意请求对应的请求端建立连接；

根据请求端发送的当前图像进行人脸识别，得到对应的用户身份识别信息；

若检测到已将定位信息获取指令发送至请求端，接收请求端根据服务器所发送的定位信息获取指令对应推送的当前定位信息；

判断在预设的第一时间阈值内是否有至少一个与请求端对应的协助端未与服务器建立连接；

若有至少一个与请求端对应的协助端未与服务器建立连接，获取请求端在当前时刻对应的视频信息，根据所述视频信息中各信息对应的取值组成视频特征序列，将所述视频特征序列输入至预先训练的卷积神经网络，得到与所述视频特征序列对应的视频场景分类结果；其中，所述视频信息包括当前时刻对应的时间参数、请求端的当前定位信息、视频场景的背景色信息；以及

获取与所述视频场景分类结果对应的背景音乐库，并随机选择其中一首音乐的音频数据发送至请求端或协助端。
根据权利要求16所述的计算机可读存储介质，所述若检测到请求端发送的与当前录入编号对应的视频连接同意请求，与所述视频连接同意请求对应的请求端建立连接之后，还包括：

将所述请求端对应的视频数据在预先设置的申请人显示区域进行显示；

根据所述视频连接请求对应的申请信息获取协助端信息；

将协助视频连接请求发送至与所述协助端信息对应的协助端。
根据权利要求17所述的计算机可读存储介质，其中，所述获取与所述视频场景分类结果对应的背景音乐库，并随机选择其中一首音乐的音频数据发送至请求端或协助端之后，还包括：

若所述音频数据发送至请求端或协助端的发送时间与当前系统时间之间的间隔超出预先设置的第二时间阈值，将开启多方视频的提示信息发送至请求端和协助端。
根据权利要求18所述的计算机可读存储介质，其中，所述获取与所述视频场景分类结果对应的背景音乐库，并随机选择其中一首音乐的音频数据发送至请求端或协助端之后，还包括：

若检测到当前视频数据的获取指令，获取与请求端相对应预设时长的目标视频数据，通过流光法对所述目标视频数据进行预处理，得到与所述目标视频数据对应的目标图片集合。
根据权利要求16-19任一项所述的计算机可读存储介质，其中，所述根据请求端发送的当前图像进行人脸识别，得到对应的用户身份识别信息，包括：

若检测到与请求端对应的人脸识别同意请求，获取与所述人脸识别同意请求对应时刻的当前图像；

将所述当前图像对应的特征向量与人脸数据库中已存储的特征模板进行比对，以判断人脸数据库中已存储的特征模板中是否存在与所述当前图像对应的图片特征向量相同的特征模板；

若人脸数据库中已存储的特征模板中存在与所述当前图像对应的图片特征向量相同的特征模板，获取对应的用户身份识别信息；

若人脸数据库中已存储的特征模板中不存在与所述当前图像对应的图片特征向量相同的特征模板，进行增加当前用户身份识别信息的提示。