WO2021042513A1

WO2021042513A1 - 视频聊天中添加表情的方法、装置、计算机设备及存储介质

Info

Publication number: WO2021042513A1
Application number: PCT/CN2019/116756
Authority: WO
Inventors: 陈爽; 黄秋凤
Original assignee: 平安科技（深圳）有限公司
Priority date: 2019-09-03
Filing date: 2019-11-08
Publication date: 2021-03-11
Also published as: CN110650306A; CN110650306B

Abstract

本申请实施例公开了一种视频聊天中添加表情的方法、装置、计算机设备及存储介质。所述方法包括下述步骤：获取第一客户端用户在视频通话时的面部视频；根据所述面部视频确定所述用户的情绪状态；从预设的动效数据库中选取所述情绪状态相匹配的动效设计，并将所述动效设计添加到所述面部视频中，以在第二客户端进行显示。该方法通过截取视频通话过程中的面部图像，对面部图像的情绪进行识别，并根据情绪来匹配动效设计，该方法通过面部表情可以准确的识别用户的情绪，提高匹配的准确度。此外，还可以解决网速慢，声音小或者说话不清楚时出现的匹配错误或者无法匹配的问题。

Description

视频聊天中添加表情的方法、装置、计算机设备及存储介质

本申请要求于2019年9月3日提交中国专利局、申请号为201910828395.7，发明名称为“视频聊天中添加表情的方法、装置、计算机设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请实施例涉及金融领域，尤其是一种视频聊天中添加表情的方法、装置、计算机设备及存储介质。

背景技术

随着互联网技术的发展，移动终端的普及，视频通话技术越来越受到人们的青睐。

目前，视频通话可以支持一对一的视频通话，也可以支持多方视频通话。在进行视频时，一方发起会话请求，另一方回应后，双方建立视频通话连接，双方视频采集模块采集到双方的图像并传递给对方，同时双方的音频采集模块采集各自的语音信号发送给对方，这样双方都能看到对方的图像，并进行语音实时交流。

发明人意识到，目前的视频通话仅仅是将视频流和音频流传递到对方进行播放，内容单调，缺乏趣味性。

发明内容

本申请实施例提供一种视频聊天中添加表情的方法、装置、计算机设备及存储介质。

为解决上述技术问题，本申请创造的实施例采用的一个技术方案是：提供一种视频聊天中添加表情的方法，包括下述步骤：获取第一客户端用户在视频通话时的面部视频；根据所述面部视频确定所述用户的情绪状态；从预设的动效数据库中选取所述情绪状态相匹配的动效设计，并将所述动效设计添加到所述面部视频中，以在第二客户端进行显示。

为解决上述技术问题，本申请实施例还提供一种视频聊天中添加表情的装置，包括：获取模块，用于获取第一客户端用户在视频通话时的面部视频；处理模块，用于根据所述面部视频确定所述用户的情绪状态；执行模块，用于从预设的动效数据库中选取所述情绪状态相匹配的动效设计，并将所述动效设计添加到所述面部视频中，以在第二客户端进行显示。

为解决上述技术问题，本申请实施例还提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行一种视频聊天中添加表情的方法的步骤；其中，所述视频聊天中添加表情的方法包括以下步骤：获取第一客户端用户在视频通话时的面部视频；根据所述面部视频确定所述用户的情绪状态；从预设的动效数据库中选取所述情绪状态相匹配的动效设计，并将所述动效设计添加到所述面部视频中，以在第二客户端进行显示。

为解决上述技术问题，本申请实施例还提供一种存储有计算机可读指令的非易失性存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行一种视频聊天中添加表情的方法的步骤；其中，所述视频聊天中添加表情的方法包括以下步骤：获取第一客户端用户在视频通话时的面部视频；根据所述面部视频确定所述用户的情绪状态；从预设的动效数据库中选取所述情绪状态相匹配的动效设计，并将所述动效设计添加到所述面部视频中，以在第二客户端进行显示。

本申请实施例通过截取视频通话过程中的面部图像，对面部图像的情绪进行识别，并根据情绪来匹配动效设计，该方法通过面部表情可以准确的识别用户的情绪，提高匹配的准确度。此外，还可以解决网速慢，声音小或者说话不清楚时出现的匹配错误或者无法匹配的问题。

附图说明

图1为本申请实施例提供的一种视频聊天中添加表情的方法的基本流程示意图；

图2为本申请实施例提供的一种获取服务器发送的第一客户端用户在视频通话时的面部视频的方法的基本流程示意图；

图3为本申请实施例提供的一种根据多个视频图像确定第一客户端用户的面部视频的方法的基本流程示意图；

图4为本申请实施例提供的一种根据面部视频确定用户的情绪状态的方法的基本流程示意图；

图5为本申请实施例提供一种将动效设计添加到面部视频中的方法的基本流程示意图；

图6为本申请实施例提供的一种添加动效设计的方法的基本流程示意图；

图7为本申请实施例提供的另一种添加动效设计的方法的基本流程示意图；

图8为本申请实施例提供的一种视频聊天中添加表情的装置基本结构框图；

图9为本申请实施例提供的计算机设备基本结构框图。

具体实施方式

具体地，请参阅图1，图1为本实施例视频聊天中添加表情的方法的基本流程示意图。

如图1所示，视频聊天中添加表情的方法包括下述步骤：

S1100、获取第一客户端用户在视频通话时的面部视频；

实际应用中，用户在视频通话过程中，采用面对面的方式进行交谈来增强互动性。但是在通常情况，由于通讯信号或者交流中问题可能会出现画面中没有人像的情况，因此，第二客户端从服务器中获取第一客户端发送的视频流，并按照预设的时间间隔截取视频流中的图像帧，以及对图像帧进行识别判断其是否为面部图像。当该图像帧为面部图像时，以该时间点为起始点截取视频数据直到截取的图像帧为非面部图像时为止，得到用户的面部视频。

需要说明的是，第一客户端为本实施例中发送视频流的客户端，第二客户端为接收视频流的客户端。实际上，在视频通话过程中，由于第一客户端和第二客户端同时发送视频流和接收视频流，所以第一客户端同时也是第二客户端，第二客户端同时也是第一客户端。

S1200、根据面部视频确定用户的情绪状态；

获取该面部视频中截取的多个图像帧，按照图像帧的截取顺序依次将多个图像帧输入到预先训练至收敛的情绪识别模型中得到分类值，按照分类值确定每个图像帧的情绪状态。为了增强趣味性，可以设置多个情绪状态，例如，快乐，搞笑、大笑，翻白眼，抿嘴笑、不屑，鄙视，伤心，平静等等。

其中，面部表情样本图像可以选用各种微表情图像，例如，斜眼笑，抿嘴笑，翻白眼等等。通过面部表情样本图像对卷积神经网络模型进行训练，直至训练后的模型可以收敛为止。

在一些实施方式中，在视频通话时可能会存在多个情绪状态，即将视频通话按照情绪状态可以分为多种面部视频，每一种面部视频为一种情绪状态。可以按照情绪状态划分面部视频，并将该面部视频中图像帧的情绪状态作为该面部视频的情绪状态。

举例说明，截取到的多个图像帧分别为a,b,c,d,e,f,g，其对应的时间点分别为1s,1.2s,1.4s,1.6s,1.8s,2s,2.2s。设a,b,c,d的情绪状态为快乐的情绪状态，e,f,g的情绪状态为平静的情绪状态，因此，确定由时间节点1s到1.6s组成的面部视频的情绪状态为快乐，确定由时间节点1.8s到2.2s组成的面部视频的情绪状态为平静。

S1300、从预设的动效数据库中选取所述情绪状态相匹配的动效设计，并将动效设计添加到面部视频中，以在第二客户端进行显示。

动效数据库预存在第二客户端中，包括按照情绪状态识别码进行分类后的多个动效设计。该动效设计可以是在用户脸上添加表情，例如，增加一个哈哈大笑的嘴，一个笑弯了的眼睛，在嘴上露一颗闪闪发光的金牙等等。

在实际应用中为了便于选取，可以对每种情绪状态设置识别码，通过识别码在动效数据库中查找与识别码对应的动效集合，并从动效集合中任选一种。

本实施例在添加动效设计时，第二客户端获取视频中的面部轮廓尺寸，将选取的动效设计的预设的轮廓尺寸按照面部轮廓尺寸进行缩放，并将二者进行重合，进而实现在第二客户端添加动效设计的目的。

在一些实施方式中，当视频通话为比较正式的场合，不应添加动效设计时，可以在第二客户端中显示提示用户是否添加动效设计的提示信息，当接收用户触发的取消添加消息后，显示第一客户端用户的原始面部视频；当接收到用户触发的确认添加的消息后，添加动效设计。

在一个应用场景中，为了增强趣味性，第二客户端可以接收第二客户端用户触发的动效设计，并将该动效设计添加到通话视频的面部。其中，第二客户端的显示界面中显示多个表情，包括各种恶搞表情，用户通过点击表情来触发。

在一个应用场景中，第一客户端用户也可以对自身的面部视频进行修饰或者添加动效设计，并通过服务器将处理后的面部视频发送给第二客户端，为了便于第二客户端用户的选择，服务器在获取第一客户端用户处理过的面部视频时同时获取第一客户端用户的原始面部视频，因此，在这种情况下：第二客户端接收服务器发送的用于提示第一客户端视频为处理的面部视频的提示信息；向服务器发送原始面部视频的获取请求；接收服务器发送的第一客户端用户的原始视频，以在第二客户端中进行显示。

上述视频聊天中添加表情方法，通过截取视频通话过程中的面部图像，对面部图像的情绪进行识别，并根据情绪来匹配动效设计，该方法通过面部表情可以准确的识别用户的情绪，提高匹配的准确度。此外，还可以解决网速慢，声音小或者说话不清楚时出现的匹配错误或者无法匹配的问题。

本申请实施例提供一种获取服务器发送的第一客户端用户在视频通话时的面部视频的方法，如图2所示，图2为本申请实施例提供的一种获取服务器发送的第一客户端用户在视频通话时的面部视频的方法的基本流程示意图。

具体地，如图2所示，步骤S1100包括下述步骤：

S1110、接收服务器发送的第一客户端的视频流；

第一客户端为发送视频流的客户端，视频流为用户在视频通话过程中产生的视频数据。在视频通话过程中，第二客户端从服务器中截取视频流。可以按照预设的时间间隔来截取视频流片段，也可以截取完整的视频流。

S1120、按照第一预设时间间隔依次从视频流中截取多个视频图像；

S1130、根据多个视频图像确定第一客户端用户的面部视频。

第一预设时间间隔为预设的时间间隔，通过按照预设时间间隔截取视频图像，即视频帧，并判断视频帧中是否包含面部图像，当该图像帧为面部图像时，以该时间点为起始点截取视频数据直到截取的图像帧为非面部图像时为止，得到用户的面部视频。在实际应用中，在视频通话过程中很可能会产生不包含用户面部图像的视频片段，在这种情况下，利用上述方法，可以准确的确定视频流中包含用户面部视频的数据，避免后续表情添加出错的问题。

本申请实施例提供一种根据多个视频图像确定第一客户端用户的面部视频的方法，如图3所示，图3为本申请实施例提供的一种根据多个视频图像确定第一客户端用户的面部视频的方法的基本流程示意图。

具体地，如图3所示，步骤S1130包括下述步骤：

S1131、按照截取视频图像的顺序依次判断多个视频图像是否为人脸图像；

在实际应用中，可以利用预先训练得到的人脸识别模型依次对截取的视频图像进行判断，以确定其是否为人脸图像。例如，可以利用神经网络模型等。

S1132、按照顺序将包含多个连续的人脸图像组中第一顺序位的人脸图像确定为第一目标图像，以及将与多个连续的人脸图像组中最后顺序位的人脸图像相邻的非人脸图像确定为第二目标图像；

S1133、分别将截取第一目标图像和第二目标图像的时间点确定为起始时刻和终止时刻，以及将起始时刻和终止时刻之间的视频确定为面部视频。

本申请实施例中，第一目标图像包含人脸图像，第二目标图像不包含人脸图像只包含非人脸图像。需要说明的是，面部视频为截取的视频图像中均为包含人脸图像的视频。因此，在确定面部视频时，按照视频图像的截取顺序，确定每个连续视频图像包含人脸图像，只有在这种情况下，将该连续视频图像的第一顺序位的视频图像确定为第一目标图像，将与连续视频图像中最后顺序位的视频图像相邻的非人脸图像，即不包含人脸图像的视频图像确定为第二目标图像，以及将第一目标图像和第二目标图像的时间点作为起始时刻和终止时刻截取面部视频。

需要说明的是，按照本实施例中面部视频的确定方法，可以得到一个或多个面部视频。在实际应用中，对于多个面部视频，可以分别添加动效设计。本实施例中，还可能会出现多个连续的非人脸图像组成的视频，可以对该视频不作处理；本实施例中，由于是按照时间间隔截取的视频图像，因此，还可能会出现未截取的视频图像中存在非人脸图像的面部视频，在此情况下，由于面部视频中出现的非人脸图像的时间段极短，因此，按照上述方法处理即可。

本申请实施例提供一种根据面部视频确定用户的情绪状态的方法，如图4所示，图4为本申请实施例提供的一种根据面部视频确定用户的情绪状态的方法的基本流程示意图。

具体地，如图4所示，步骤S1200包括下述步骤：

S1210、按照第二预设时间间隔依次从面部视频截取多个面部图像；

S1220、分别识别多个面部图像的情绪状态；

在识别面部图像的情绪状态时，可以按照图像帧的截取顺序依次将多个图像帧输入到预先训练至收敛的情绪识别模型中得到分类值，按照分类值确定每个图像帧的情绪状态。其中，可以设置多个情绪状态，例如，快乐，搞笑、大笑，翻白眼，抿嘴笑、不屑，鄙视，伤心，平静等等。

需要说明的是，面部表情样本图像可以选用各种微表情图像，例如，斜眼笑，抿嘴笑，翻白眼等等。通过面部表情样本图像对卷积神经网络模型进行训练，直至训练后的模型可以收敛为止。

S1230、判断具有相同情绪状态且相邻的面部图像的个数是否大于预设个数；

S1240、当大于预设个数时，将由相邻的多个面部图像组成的面部视频的情绪状态确定为目标情绪状态。

在实际应用中，整个视频通话过程中，会存在多个情绪状态，本申请实施例中，按照情绪状态可以分为多种面部视频，每一种面部视频为一种情绪状态。可以按照情绪状态划分面部视频，并将该面部视频中图像帧的情绪状态作为该面部视频的情绪状态。

举例说明，截取到的多个图像帧分别为a,b,c,d,e,f,g，其对应的时间点分别为1s,1.2s,1.4s,1.6s,1.8s,2s,2.2s。设a,b,c,d的情绪状态为快乐的情绪状态，e,f,g的情绪状态为平静的情绪状态，因此，确定由时间节点1s到1.6s组成的面部视频的情绪状态为快乐，确定由时间节点 1.8s到2.2s组成的面部视频的情绪状态为平静。

需要说明的是，当按照情绪状态划分面部视频时，可以对整个视频进行视频帧截取，并判断每个视频帧中的面部图像拥有相同的情绪状态，当具有相同的情绪状态时，按照面部视频的确定方法截取具有相同情绪状态的视频，并将该视频确定为某种情绪状态下的面部视频。

本申请实施例提供一种将动效设计添加到面部视频中的方法，如图5所示，图5为本申请实施例提供一种将动效设计添加到面部视频中的方法的基本流程示意图。

具体地，如图5所示，步骤S1300包括下述步骤：

S1311、获取面部视频中人脸尺寸；

S1312、按照人脸尺寸将动效设计的尺寸进行缩放；

动效设计可以是在用户脸上添加表情，例如，增加一个哈哈大笑的嘴，一个笑弯了的眼睛，在嘴上露一颗闪闪发光的金牙等等。因此，为了将动效设计与人脸尺寸进行匹配，本申请实施例中，将动效设计的尺寸按照人脸的的尺寸进行缩放，并将动效设计添加到人脸图像中。

在一些实施方式中，在选取动效设计时，可以按照用户的指令进行选取，例如在终端界面中显示动效设计库，用户单击动效设计发送选取指令，终端接收到指令后按照人脸图像尺寸大小将动效设计添加到人脸图像中。

在一些实施方式中，为了提高便利性，终端可以从某一情绪状态的动效数据库中随机选取动效设计，还可以根据用户偏好，例如，按照用户使用某种动效设计的次数，选取次数最多的动效设计。

S1313、将缩放后的动效设计与人脸图像重合。

本申请实施例还提供一种添加动效设计的方法，如图6所示，图6为本申请实施例提供的一种添加动效设计的方法的基本流程示意图。

具体地，如图6所示，步骤S1300之后，还包括下述步骤：

S1321、接收第二客户端用户触发的第一动效设计；

S1322、将第一动效设计添加到面部视频中。

为了增强趣味性，第一客户端可以接收第二客户端用户触发的动效设计，并将该动效设计添加到通话视频的面部。其中，第二客户端的显示界面中显示多个表情，包括各种恶搞表情，用户通过点击表情来触发。需要说明的是，该功能可以按照权限进行分配，例如，第二客户端用户的权限较高，则第一客户端中显示的动效设计则按照第二客户端选择的动效设计进行显示，举例说明，第一客户端用户和第二客户端用户在视频通话过程中，第二客户端用户的权限较高，则其选取某中动效设计在第一客户端的视频中进行显示。通过对权限进行设计，还可以进一步增加用户的对该软件的使用率。

本申请实施例还提供另一种添加动效设计的方法，如图7所示，图7为本申请实施例提供的另一种添加动效设计的方法的基本流程示意图。

具体地，如图7所示，步骤S1300之后，还包括下述步骤：

S1331、接收服务器发送的用于提示第一客户端的视频流为已处理的视频流的提示信息；

提示信息为用于向第二客户端用户提示第一客户端的视频流已经处理。例如，当第一客户端的视频流为已经美颜的视频，则提示信息提示该视频流已经经过美颜处理。

S1332、向服务器发送获取请求，其中，获取请求用于获取所述已处理的视频流对应的原始视频流；

S1333、接收服务器发送的原始视频流，以在第二客户端进行显示。

当第二客户端用户不希望看到处理过的视频时，第二客户端向服务器发送获取所述已处理的视频流对应的原始视频流的请求并请求服务器发送第一客户端的原始视频。

为解决上述技术问题本申请实施例还提供一种视频聊天中添加表情的装置。具体请参阅图8，图8为本实施例视频聊天中添加表情的装置基本结构框图。

如图8所示，一种视频聊天中添加表情的装置，包括：获取模块2100、处理模块2200和执行模块2300。其中，获取模块2100，用于获取第一客户端用户在视频通话时的面部视频；处理模块2200，用于根据所述面部视频确定所述用户的情绪状态；执行模块2300，用于从预设的动效数据库中选取所述情绪状态相匹配的动效设计，并将所述动效设计添加到所述面部视频中，以在第二客户端进行显示。

视频聊天中添加表情的装置通过截取视频通话过程中的面部图像，对面部图像的情绪进行识别，并根据情绪来匹配动效设计，该方法通过面部表情可以准确的识别用户的情绪，提高匹配的准确度。此外，还可以解决网速慢，声音小或者说话不清楚时出现的匹配错误或者无法匹配的问题。

在一些实施方式中，所述获取模块包括：第一获取子模块，用于接收服务器发送的所述第一客户端的视频流；第一处理子模块，用于按照第一预设时间间隔依次从所述视频流中截取多个视频图像；第一执行子模块，用于根据所述多个视频图像确定所述第一客户端用户的面部视频。

在一些实施方式中，所述处理模块包括：第二处理子模块，用于按照截取视频图像的顺序依次判断所述多个视频图像是否为人脸图像；第三处理子模块，用于按照所述顺序将包含多个连续的人脸图像组中第一顺序位的人脸图像确定为第一目标图像，以及将与所述多个连续的人脸图像组中最后顺序位的人脸图像相邻的非人脸图像确定为第二目标图像；第二执行子模块，用于分别将截取所述第一目标图像和第二目标图像的时间点确定为起始时刻和终止时刻，以及将所述起始时刻和所述终止时刻之间的视频确定为所述面部视频。

在一些实施方式中，所述执行模块包括：第二获取子模块，用于按照第二预设时间间隔依次从所述面部视频截取多个面部图像；第四处理子模块，用于分别识别所述多个面部图像的情绪状态；第五处理子模块，用于判断具有相同情绪状态且相邻的面部图像的个数是否大于预设个数；第三执行子模块，用于当大于所述预设个数时，将由相邻的多个面部图像组成的面部视频的情绪状态确定为目标情绪状态。

在一些实施方式中，所述执行模块包括：第三获取子模块，用于获取所述面部视频中人脸尺寸；第六处理子模块，用于按照所述人脸尺寸将所述动效设计的尺寸进行缩放；第四执行子模块，用于将缩放后的动效设计与人脸图像重合。

在一些实施方式中，还包括：第四获取子模块，用于接收所述第二客户端用户触发的第一动效设计；第五执行子模块将所述第一动效设计添加到所述面部视频中。

在一些实施方式中，还包括：第五获取子模块，用于接收服务器发送的用于提示所述第一客户端的视频流为已处理的视频流的提示信息；第七处理子模块，用于向所述服务器发送获取请求，其中，所述获取请求用于获取所述已处理的视频流对应的原始视频流；第六执行子模块，用于接收所述服务器发送的原始视频流，以在所述第二客户端进行显示。

为解决上述技术问题，本申请实施例还提供计算机设备。具体请参阅图9，图9为本实施例计算机设备基本结构框图。

如图9所示，计算机设备的内部结构示意图。如图9所示，该计算机设备包括通过系统总线连接的处理器、存储介质、存储器和网络接口。其中，该计算机设备的存储介质存储有操作系统、数据库和计算机可读指令，数据库中可存储有控件信息序列，该计算机可读指令被处理器执行时，可使得处理器实现一种视频聊天中添加表情的方法，在一些实施方式中，所述存储介质可以为为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等易失性存储介质。该计算机设备的处理器用于提供计算和控制能力，支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行一种视频聊天中添加表情的方法。其中，所述视频聊天中添加表情的方法包括以下步骤：获取第一客户端用户在视频通话时的面部视频；根据所述面部视频确定所述用户的情绪状态；从预设的动效数据库中选取所述情绪状态相匹配的动效设计，并将所述动效设计添加到所述面部视频中，以在第二客户端进行显示。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解，图9中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本实施方式中处理器用于执行图8中获取模块2100、处理模块2200和执行模块2300的具体内容，存储器存储有执行上述模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有视频聊天中添加表情的方法中执行所有子模块所需的程序代码及数据，服务器能够调用服务器的程序代码及数据执行所有子模块的功能。

计算机设备通过截取视频通话过程中的面部图像，对面部图像的情绪进行识别，并根据情绪来匹配动效设计，该方法通过面部表情可以准确的识别用户的情绪，提高匹配的准确度。此外，还可以解决网速慢，声音小或者说话不清楚时出现的匹配错误或者无法匹配的问题。

本申请还提供一种存储有计算机可读指令的存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行一种视频聊天中添加表情的方法的步骤；其中，所述视频聊天中添加表情的方法包括以下步骤：获取第一客户端用户在视频通话时的面部视频；根据所述面部视频确定所述用户的情绪状态；从预设的动效数据库中选取所述情绪状态相匹配的动效设计，并将所述动效设计添加到所述面部视频中，以在第二客户端进行显示。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等易失性存储介质。

Claims

一种在视频聊天中添加表情的方法，包括下述步骤：

获取第一客户端用户在视频通话时的面部视频；

根据所述面部视频确定所述用户的情绪状态；

从预设的动效数据库中选取所述情绪状态相匹配的动效设计，并将所述动效设计添加到所述面部视频中，以在第二客户端进行显示。
根据权利要求1所述的在视频聊天中添加表情的方法，所述获取第一客户端用户在视频通话时的面部视频，包括：

接收服务器发送的所述第一客户端的视频流；

按照第一预设时间间隔依次从所述视频流中截取多个视频图像；

根据所述多个视频图像确定所述第一客户端用户的面部视频。
根据权利要求2所述的在视频聊天中添加表情的方法，所述根据所述多个视频图像确定所述第一客户端用户的面部视频，包括：

按照截取视频图像的顺序依次判断所述多个视频图像是否为人脸图像；

按照所述顺序将包含多个连续的人脸图像组中第一顺序位的人脸图像确定为第一目标图像，以及将与所述多个连续的人脸图像组中最后顺序位的人脸图像相邻的非人脸图像确定为第二目标图像；

将第一目标图像和第二目标图像的时间点确定为起始时刻和终止时刻，以及将所述起始时刻和所述终止时刻之间的视频确定为所述面部视频。
根据权利要求1所述的在视频聊天中添加表情的方法，所述根据所述面部视频确定所述用户的情绪状态，包括：

按照第二预设时间间隔依次从所述面部视频截取多个面部图像；

分别识别所述多个面部图像的情绪状态；

判断具有相同情绪状态且相邻的面部图像的个数是否大于预设个数；

当大于所述预设个数时，将由相邻的多个面部图像组成的面部视频的情绪状态确定为目标情绪状态。
根据权利要求1所述的在视频聊天中添加表情的方法，所述将所述动效设计添加到所述面部视频中，包括：

获取所述面部视频中人脸尺寸；

按照所述人脸尺寸将所述动效设计的尺寸进行缩放；

将缩放后的动效设计与人脸图像重合。
根据权利要求1至5任一项所述的在视频聊天中添加表情的方法，所述将所述动效设计添加到所述面部视频中之后，还包括：

接收所述第二客户端用户触发的第一动效设计；

将所述第一动效设计添加到所述面部视频中。
根据权利要求1至5任一项所述的在视频聊天中添加表情的方法，所述将所述动效设计添加到所述面部视频中之后，还包括：

接收服务器发送的用于提示所述第一客户端的视频流为已处理的视频流的提示信息；

向所述服务器发送获取请求，其中，所述获取请求用于获取所述已处理的视频流对应的原始视频流；

接收所述服务器发送的原始视频流，以在所述第二客户端进行显示。
一种视频聊天中添加表情的装置，包括：

获取模块，用于获取第一客户端用户在视频通话时的面部视频；

处理模块，用于根据所述面部视频确定所述用户的情绪状态；

执行模块，用于从预设的动效数据库中选取所述情绪状态相匹配的动效设计，并将所述动效设计添加到所述面部视频中，以在第二客户端进行显示。
一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行一种视频聊天中添加表情的方法的步骤；

其中，所述视频聊天中添加表情的方法包括以下步骤：

获取第一客户端用户在视频通话时的面部视频；

根据所述面部视频确定所述用户的情绪状态；

从预设的动效数据库中选取所述情绪状态相匹配的动效设计，并将所述动效设计添加到所述面部视频中，以在第二客户端进行显示。
根据权利要求9所述的计算机设备，所述获取第一客户端用户在视频通话时的面部视频，包括：

接收服务器发送的所述第一客户端的视频流；

按照第一预设时间间隔依次从所述视频流中截取多个视频图像；

根据所述多个视频图像确定所述第一客户端用户的面部视频。
根据权利要求10所述的计算机设备，所述根据所述多个视频图像确定所述第一客户端用户的面部视频，包括：

按照截取视频图像的顺序依次判断所述多个视频图像是否为人脸图像；

按照所述顺序将包含多个连续的人脸图像组中第一顺序位的人脸图像确定为第一目标图像，以及将与所述多个连续的人脸图像组中最后顺序位的人脸图像相邻的非人脸图像确定为第二目标图像；

将第一目标图像和第二目标图像的时间点确定为起始时刻和终止时刻，以及将所述起始时刻和所述终止时刻之间的视频确定为所述面部视频。
根据权利要求9所述的计算机设备，所述根据所述面部视频确定所述用户的情绪状态，包括：

按照第二预设时间间隔依次从所述面部视频截取多个面部图像；

分别识别所述多个面部图像的情绪状态；

判断具有相同情绪状态且相邻的面部图像的个数是否大于预设个数；

当大于所述预设个数时，将由相邻的多个面部图像组成的面部视频的情绪状态确定为目标情绪状态。
根据权利要求9所述的计算机设备，所述将所述动效设计添加到所述面部视频中，包括：

获取所述面部视频中人脸尺寸；

按照所述人脸尺寸将所述动效设计的尺寸进行缩放；

将缩放后的动效设计与人脸图像重合。
根据权利要求9至13任一项所述的计算机设备，所述将所述动效设计添加到所述面部视频中之后，还包括：

接收所述第二客户端用户触发的第一动效设计；

将所述第一动效设计添加到所述面部视频中。
根据权利要求9至13任一项所述的计算机设备，所述将所述动效设计添加到所述面部视频中之后，还包括：

接收服务器发送的用于提示所述第一客户端的视频流为已处理的视频流的提示信息；

向所述服务器发送获取请求，其中，所述获取请求用于获取所述已处理的视频流对应的原始视频流；

接收所述服务器发送的原始视频流，以在所述第二客户端进行显示。
一种存储有计算机可读指令的非易失性存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行一种视频聊天中添加表情的方法的步骤；

其中，所述视频聊天中添加表情的方法包括以下步骤：

获取第一客户端用户在视频通话时的面部视频；

根据所述面部视频确定所述用户的情绪状态；

从预设的动效数据库中选取所述情绪状态相匹配的动效设计，并将所述动效设计添加到所述面部视频中，以在第二客户端进行显示。
根据权利要求16所述的非易失性存储介质，所述获取第一客户端用户在视频通话时的面部视频，包括：

接收服务器发送的所述第一客户端的视频流；

按照第一预设时间间隔依次从所述视频流中截取多个视频图像；

根据所述多个视频图像确定所述第一客户端用户的面部视频。
根据权利要求17所述的非易失性存储介质，所述根据所述多个视频图像确定所述第一客户端用户的面部视频，包括：

按照截取视频图像的顺序依次判断所述多个视频图像是否为人脸图像；

按照所述顺序将包含多个连续的人脸图像组中第一顺序位的人脸图像确定为第一目标图像，以及将与所述多个连续的人脸图像组中最后顺序位的人脸图像相邻的非人脸图像确定为第二目标图像；

将第一目标图像和第二目标图像的时间点确定为起始时刻和终止时刻，以及将所述起始时刻和所述终止时刻之间的视频确定为所述面部视频。
根据权利要求16所述的非易失性存储介质，所述根据所述面部视频确定所述用户的情绪状态，包括：

按照第二预设时间间隔依次从所述面部视频截取多个面部图像；

分别识别所述多个面部图像的情绪状态；

判断具有相同情绪状态且相邻的面部图像的个数是否大于预设个数；

当大于所述预设个数时，将由相邻的多个面部图像组成的面部视频的情绪状态确定为目标情绪状态。
根据权利要求16所述的非易失性存储介质，所述将所述动效设计添加到所述面部视频中，包括：

获取所述面部视频中人脸尺寸；

按照所述人脸尺寸将所述动效设计的尺寸进行缩放；

将缩放后的动效设计与人脸图像重合。