WO2022121592A1

WO2022121592A1 - 一种直播互动方法及装置

Info

Publication number: WO2022121592A1
Application number: PCT/CN2021/129237
Authority: WO
Inventors: 南天骄
Original assignee: 北京字跳网络技术有限公司
Priority date: 2020-12-11
Filing date: 2021-11-08
Publication date: 2022-06-16
Also published as: CN114630135A

Abstract

本发明实施例提供了一种直播互动方法及装置，涉及人机交互技术领域。该方法包括：接收终端设备发送的互动信息，所述互动信息为用户在虚拟对象的直播间输入的互动信息；根据所述互动信息获取反馈数据，所述反馈数据包括所述虚拟对象的面部表情数据和/或所述虚拟对象的肢体动作数据；基于所述反馈数据生成直播视频流；向终端设备发送所述直播视频流。本发明实施例用于解决虚拟直播时无法与观众进行实时互动的问题。

Description

一种直播互动方法及装置

本申请要求于2020年12月11日提交中国国家知识产权局、申请号为202011458910.6、申请名称为“一种直播互动方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及人机交互技术领域，尤其涉及一种直播互动方法及装置。

背景技术

近年来，随着流媒体技术的进步以及网络带宽的飞速增长，视频业务日趋火热，各种直播节目已逐渐应用于人们生活的方方面面。

观看直播时进行实时互动已成为一种潮流趋势。在传统直播方式中，主播侧和观众侧均为实时在线的用户，观众侧用户可以在观看主播侧用户实时生成的视频的过程中输入互动信息，主播侧用户则能够查看观众侧用户输入的互动信息，并对互动信息进行反馈。然而，随着直播类别的不断丰富，直播已不再局限于真人直播，而是可以基于人工智能(Artificial Intelligence，AI)技术生成虚拟主播，并基于虚拟主播进行虚拟直播。目前，虚拟直播时虚拟主播均是按照预设定的流程和场景进行直播，无法与观众进行实时互动。

发明内容

有鉴于此，本发明提供了一种直播互动方法及装置，用于解决虚拟直播时无法与观众进行实时互动的问题。

为了实现上述目的，本发明实施例提供技术方案如下：

第一方面，本发明的实施例提供一种直播互动方法，包括：

接收终端设备发送的互动信息，所述互动信息为用户在虚拟对象的直播间输入的互动信息；

根据所述互动信息获取反馈数据，所述反馈数据包括所述虚拟对象的面部表情数据和/或所述虚拟对象的肢体动作数据；

基于所述反馈数据生成直播视频流；

向终端设备发送所述直播视频流。

作为本发明实施例一种可选的实施方式，所述根据所述互动信息获取反馈数据，包括：

解析所述互动信息获取情绪标签，所述情绪标签用于表征对所述互动信息进行反馈时所述虚拟对象的情绪；

基于第一对应关系和所述情绪标签获取所述面部表情数据和/或基于第二对应关系和所述情绪标签获取所述肢体动作数据；

其中，所述第一对应关系包括各情绪标签与所述虚拟对象的面部表情数据的对应关系，所述第二对应关系包括各情绪标签与所述虚拟对象的肢体动作数据的对应关系。

根据所述互动信息和第一反馈模型获取所述面部表情数据和/或根据所述互动信息和第二反馈模型获取所述肢体动作数据；

其中，所述第一反馈模型为基于样本互动信息和与所述样本互动信息对应的面部表情数据对第一算法模型进行训练获取的模型，所述第二反馈模型为基于样本互动信息和与所述样本互动信息对应的肢体动作数据对第二算法模型进行训练获取的模型。

作为本发明实施例一种可选的实施方式，所述方法还包括：

根据所述互动信息获取用于对所述互动信息进行回复的回复文本；

基于所述回复文本和所述虚拟对象的音色生成所述直播视频流的音频数据。

作为本发明实施例一种可选的实施方式，所述根据所述互动信息获取用于对所述互动信息进行回复的回复文本，包括：

获取所述互动信息的语义；

基于第一回复文本库、第二回复文本库以及所述互动信息的语义获取所述回复文本；

其中，所述第一回复文本库包括至少一个语义对应的回复文本，所述第二回复文本库包括各语义对应的回复文本。

作为本发明实施例一种可选的实施方式，所述第一回复文本库中各回复文本与所述虚拟对象的匹配度大于或等于所述第二回复文本库中各回复文本与所述虚拟角色的匹配度；所述基于第一回复文本库、第二回复文本库以及所述互动信息的语义获取所述回复文本，包括：

判断所述第一回复文本库中是否包含所述互动信息的语义对应的回复文本；

若是，则基于所述第一回复文本库和所述互动信息的语义获取所述回复文本；

若否，则基于所述第二回复文本库和所述互动信息的语义获取所述回复文本。

作为本发明实施例一种可选的实施方式，在基于第一回复文本库、第二回复文本库以及所述互动信息的语义获取所述回复文本之前，所述方法还包括：

接收用户基于所述虚拟对象的性格设定输入的至少一个语义对应的回复文本；

根据用户输入的所述至少一个语义对应的回复文本生成所述第一回复文本库；

基于大数据获取各个语义类别对应的回复文本；

根据基于大数据获取回复文本生成所述第二回复文本库。

作为本发明实施例一种可选的实施方式，所述方法还包括：

向所述终端设备发送所述回复文本。

作为本发明实施例一种可选的实施方式，所述方法还包括：

根据所述回复文本对应的语音获取所述虚拟对象的口型数据；

所述基于所述反馈数据生成直播视频流，包括：

根据所述反馈数据和所述口型数据生成所述直播视频流。

第二方面，本发明实施例提供一种直播互动方法，包括：

接收用户在虚拟对象的直播间输入的互动信息；

向直播服务器发送所述互动信息；

接收所述直播服务器发送的直播视频流，所述直播视频流为所述直播服务器基于所述互动信息对应的反馈数据生成的视频流，所述反馈数据包括所述虚拟对象的面部表情数据和/或所述虚拟对象的肢体动作数据；

在所述虚拟对象的直播间显示所述直播视频流。

作为本发明实施例一种可选的实施方式，所述方法还包括：

接收所述直播服务器发送的音频数据，所述音频数据为所述直播服务器基于用于对所述互动信息进行回复的回复文本和所述虚拟对象的音色生成的音频数据；

在所述虚拟对象的直播间播放所述音频数据。

作为本发明实施例一种可选的实施方式，所述方法还包括：

接收所述直播服务器发送的所述回复文本；

在所述虚拟对象的直播间显示所述回复文本。

第三方面，本发明实施例提供一种直播服务器，包括：

接收单元，用于接收终端设备发送的互动信息，所述互动信息为用户在虚拟对象的直播间输入的互动信息；

处理单元，用于根据所述互动信息获取反馈数据，所述反馈数据包括所述虚拟对象的面部表情数据和/或所述虚拟对象的肢体动作数据；

生成单元，用于基于所述反馈数据生成直播视频流；

发送单元，用于向终端设备发送所述直播视频流。

作为本发明实施例一种可选的实施方式，所述处理单元，具体用于解析所述互动信息获取情绪标签，基于第一对应关系和所述情绪标签获取所述面部表情数据和/或基于第二对应关系和所述情绪标签获取所述肢体动作数据；

其中，所述情绪标签用于表征对所述互动信息进行反馈时所述虚拟对象的情绪所述第一对应关系包括各情绪标签与所述虚拟对象的面部表情数据的对应关系，所述第二对应关系包括各情绪标签与所述虚拟对象的肢体动作数据的对应关系。

作为本发明实施例一种可选的实施方式，所述处理单元，具体用于根据所述互动信息和第一反馈模型获取所述面部表情数据和/或根据所述互动信息和第二反馈模型获取所述肢体动作数据；

作为本发明实施例一种可选的实施方式，

所述处理单元，还用于根据所述互动信息获取用于对所述互动信息进行回复的回复文本；

所述生成单元，还用于基于所述回复文本和所述虚拟对象的音色生成音频数据；

所述发送单元，还用于向所述终端设备发送所述所述音频数据。

作为本发明实施例一种可选的实施方式，所述处理单元，具体用于获取所述互动信息的语义，基于第一回复文本库、第二回复文本库以及所述互动信息的语义获取所述回复文本；

作为本发明实施例一种可选的实施方式，所述第一回复文本库中各回复文本与所述虚拟对象的匹配度大于或等于所述第二回复文本库中各回复文本与所述虚拟角色的匹配度；

所述处理单元，具体用于判断所述第一回复文本库中是否包含所述互动信息的语义对应的回复文本；若是，则基于所述第一回复文本库和所述互动信息的语义获取所述回复文本；若否，则基于所述第二回复文本库和所述互动信息的语义获取所述回复文本。

作为本发明实施例一种可选的实施方式，所述处理单元，还用于在基于第一回复文本库、第二回复文本库以及所述互动信息的语义获取所述回复文本之前，接收用户基于所述虚拟对象的性格设定输入的至少一个语义对应的回复文本；根据用户输入的所述至少一个语义对应的回复文本；基于大数据获取各个语义类别对应的回复文本；根据基于大数据获取回复文本生成所述第二回复文本库。

作为本发明实施例一种可选的实施方式，所述发送单元，还用于向所述终端设备发送所述回复文本。

作为本发明实施例一种可选的实施方式，

所述处理单元，还用于根据所述回复文本对应的语音获取所述虚拟对象的口型数据；

所述生成单元，具体用于根据所述反馈数据和所述口型数据生成所述直播视频流。

第四方面，本发明实施例提供一种终端设备，包括：

用户输入单元，用于接收用户在虚拟对象的直播间输入的互动信息；

发送单元，用于向直播服务器发送所述互动信息；

接收单元，用于接收所述直播服务器发送的直播视频流，所述直播视频流为所述直播服务器基于所述互动信息对应的反馈数据生成的视频流，所述反馈数据包括所述虚拟对象的面部表情数据和/或所述虚拟对象的肢体动作数据；

输出单元，用于在所述虚拟对象的直播间显示所述直播视频流。

作为本发明实施例一种可选的实施方式，

所述直播视频流还包括音频数据，所述直播视频流的音频数据为所述直播服务器基于用于对所述互动信息进行回复的回复文本和所述虚拟对象的音色生成的音频数据。

作为本发明实施例一种可选的实施方式，

所述接收单元，还用于接收所述直播服务器发送的所述回复文本；

所述输出单元，还用于在所述虚拟对象的直播间显示所述回复文本。

第五方面，本发明实施例提供一种电子设备，包括：存储器和处理器，存储器用于存储计算机程序；处理器用于在调用计算机程序时执行第一方面或第一方面任一种可选的实施方式或第二方面或第二方面任一种可选的实施方式所述的直播互动方法。

第六方面，本发明实施例提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现第一方面或第一方面任一种可选的实施方式或第二方面或第二方面任一种可选的实施方式所述的直播互动方法。

本发明实施例提供的直播互动方法在接收终端设备发送的用户在虚拟对象的直播间输入的互动信息时，根据所述互动信息获取包括所述虚拟对象的面部表情数据和/或所述虚拟对象的肢体动作数据的反馈数据，然后基于所述反馈数据生成直播视频流，并向终端设备发送所述直播视频流。由于本发明实施例提供的直播互动方法可以在接收到用户在直播间中输入互动信息时，获取虚拟对象的面部表情数据和/或所述虚拟对象的肢体动作数据，并通过虚拟对象的面部表情数据和/或所述虚拟对象的肢体动作数据生成直播视频流，从而通过虚拟对象的面部表情数据和/或肢体动作对用户输入的互动信息进行反馈，因此本发明实施例可以解决虚拟直播时无法与观众进行实时互动的问题。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的直播互动方法的步骤流程图；

图2为本发明实施例提供的直播视频流的图像帧的示意图；

图3为本发明实施例提供的回复文本的示意图；

图4为本发明实施例提供的直播互动装置的结构示意图；

图5为本发明实施例提供的终端设备的结构示意图；

图6为本发明实施例提供的电子设备的硬件结构示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面将对本发明的方案进行进一步描述。需要说明的是，在不冲突的情况下，本发明的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但本发明还可以采用其他不同于在此描述的方式来实施；显然，说明书中的实施例只是本发明的一部分实施例，而不是全部的实施例。

本发明的说明书和权利要求书中的术语“第一”和“第二”等是用于区别同步的对象，而不是用于描述对象的特定顺序。例如，第一对应关系和第二对应关系是用于区别不同的对应关系，而不是用于描述对应关系的特定顺序。

在本发明实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本发明实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。此外，在本发明实施例的描述中，除非另有说明，“多个”的含义是指两个或两个以上。

本文中术语“和/或”，用于描述关联对象的关联关系，具体表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。

本发明实施例提供了一种直播互动方法，参照图1所示，该直播互动方法包括如下步骤S101至S106：

S101、终端设备接收用户在虚拟对象的直播间输入的互动信息。

本发明实施例中的终端设备，可以为手机、平板电脑、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本、个人数字助理(personal digital assistant，PDA)、智能手表、智能手环等终端设备，或者该终端设备还可以为其他类型的终端设备，本发明实施例对终端设备的类型不作限定。

本发明实施例中的虚拟对象是指基于人工或人工智能技术生成的虚拟主播的模型，本发明实施例中对虚拟对象的形象不做限定，示例性的，虚拟对象可以为二次元卡通人物、真人模拟形象等。

本发明实施例中的互动信息可以为文本评论内容、表情包中的表情、语音、点赞、赠送虚拟礼物等。

S102、终端设备向直播服务器发送所述互动信息。

对应的，直播服务器接收所述终端设备发送的互动信息。其中，所述互动信息为用户在虚拟对象的直播间输入的互动信息。

本发明实施例中的直播服务器可以为任意与终端设备互联的服务器。例如：云服务器、台式服务器、机架式服务器、机柜式服务器、刀片式服务器等。

S103、直播服务器根据所述互动信息获取反馈数据。

其中，所述反馈数据包括所述虚拟对象的面部表情数据和/或所述虚拟对象的肢体动作数据。

示例性的，本发明实施例中的面部表情数据可以包括：用于表征虚拟对象微笑、大笑、大哭、兴奋、害羞、厌恶等表情的数据，肢体动作数据可以包括：用于表征虚拟对象点头、摇头、鼓掌、手舞足蹈等动作的数据。

作为本发明实施例一种可选的实施方式，上述步骤S103(直播服务器根据所述互动信息获取反馈数据)可以包括如下步骤a和步骤b：

步骤a、解析所述互动信息获取情绪标签。

其中，所述情绪标签用于表征对所述互动信息进行反馈时所述虚拟对象的情绪。

具体的，当互动信息为文本内容时，可以基于自然语言处理(Natural Language Processing，NPL)技术理解文字评论的内容获取情绪标签，当互动信息为表情包中的表情、语音、点赞、赠送虚拟礼物等非文本内容时，可以先将互动信息转换为文本内容，然后再基于NPL技术理解文字评论的内容获取情绪标签。例如：当互动信息为“你好笨”时，直接基于NPL技术解析所述互动信息获取的情绪标签“愤怒”，再例如：当互动信息为点赞时，可先将互动信息转换为文本内容“你很棒”，然后再基于NPL技术解析互动信息转换得到的文本获取的情绪标签“喜悦”。

示例性的，本发明实施例中的情绪标签可以包括：喜悦、愤怒、悲伤、恐惧、委屈等。

步骤b、基于第一对应关系和所述情绪标签获取所述面部表情数据和/或基于第二对应关系和所述情绪标签获取所述肢体动作数据。

其中，所述第一对应关系包括各情绪标签与面部表情数据的对应关系，所述第二对应关系包括各情绪标签与肢体动作数据的对应关系。

即，预先建立各情绪标签与虚拟对象的面部表情数据的对应关系和/或各情绪标签与虚拟对象的肢体动作数据的对应关系，在获取互动信息后，先解析互动信息获取情绪标签，然后在根据情绪标签和预先建立的对应关系获取虚拟对象的面部表情数据和/或所述虚拟对象的肢体动作数据。

作为本发明实施例一种可选的实施例，上述步骤S103(直播服务器根据所述互动信息获取反馈数据)包括：

根据所述互动信息和第一反馈模型获取所述面部表情数据和/或根据所述互动信息和第二反馈模型获取所述肢体动作数据。

示例性的，第一算法模型和第二算法模型可以为深度学习神经网络模型、卷积神经网络模型等机器学习算法模型，且第一算法模型和第二算法模型可以相同，也可以不同。本发明实施例对第一算法模型和第二算法模型的具体类型不做限定。

还需要说明的是，上述实施例中的第一反馈模型和第二反馈模型可为两个独立的模型，也可以为模型中的两个子模型。

S104、直播服务器基于所述反馈数据生成直播视频流。

示例性的，参照图2所示，图2中以互动信息为“你好漂亮”、反馈数据包括：所述虚拟对象的面部表情数据和所述虚拟对象的肢体动作数据为例示出。如图2所示直播视频流的视图帧，当接收的互动信息时，基于所述反馈数据生成的直播视频流中虚拟对象通过面部表情“微笑”以及肢体动作“鼓掌”对互动信息“你好漂亮”进行反馈。

S105、直播服务器向终端设备发送所述直播视频流。

对应的，终端设备接收所述直播服务器发送的直播视频流。其中，终端设备的直播视频流为所述直播视频流为所述直播服务器基于所述互动信息对应的反馈数据生成的视频流。所述反馈数据包括所述虚拟对象的面部表情数据和/或所述虚拟对象的肢体动作数据。

S106、终端设备在所述虚拟对象的直播间显示所述直播视频流。

作为本发明实施例一种可选的实施方式，在上述实施例的基础上，本发明实施例提供的直播互动方法还包括：

直播服务器根据所述互动信息获取用于对所述互动信息进行回复的回复文本；

直播服务器基于所述回复文本和所述虚拟对象的音色生成所述直播视频流的音频数据。

即，终端设备接收到的直播视频流还包括音频数据，且直播视频流的音频数据所述直播视频流的音频数据为所述直播服务器基于用于对所述互动信息进行回复的回复文本和所述虚拟对象的音色生成的音频数据。

具体的，虚拟对象的音色可以由开发人员预先设定。基于所述回复文本和所述虚拟对象的音色生成所述直播视频流的音频数据，可以为：通过语音合成(Text-To-Speech，TTS)技术，将回复文本转换为语音格式，然后再根据转换得到的语音生成所述直播视频流的音频数据的音频数据。

可选的，在上实施例的基础上，本发明实施例提供的方法还包括：

直播服务器根据所述回复文本对应的语音获取所述虚拟对象的口型数据。

所述上述步骤S105(直播服务器基于所述反馈数据生成直播视频流)，包括：直播服务器根据所述反馈数据和所述口型数据生成所述直播视频流。

由于上述实施例中直播服务器还会根据所述回复文本对应的语音获取所述虚拟对象的口型数据，并根据所述反馈数据和所述口型数据生成所述直播视频流，因此上述实施例可以在播放回复文本对应的语音控制虚拟对象口型变化。从而使虚拟对象更加立体生动。

可选的，根据所述互动信息获取用于对所述互动信息进行回复的回复文本的实现方式可以包括如下步骤Ⅰ和步骤Ⅱ。

步骤Ⅰ、直播服务器获取所述互动信息的语义。

具体的，可以基于NPL技术对互动信息进行解析，从而获取所述互动信息的语义。

步骤Ⅱ、直播服务器基于第一回复文本库、第二回复文本库以及所述互动信息的语义获取所述回复文本。

可选的，第一回复文本库中各回复文本与对应的语义的匹配度大于或等于所述第二回复文本库中各回复文本与对应的语义的匹配度。

作为本发明实施例一种可选的实施方式，构建第一回复文本库的方式可以为：

接收用户基于所述虚拟对象的性格设定输入的至少一个语义对应的回复文本，并根据用户输入的所述至少一个语义对应的回复文本生成第一回复文本库。

即，用户可以根据对虚拟对象的性格设定设置一个或多个语义对应的回复文本，从而构建第一回复文本库。例如：虚拟对象的性格设定为“温柔”，则用户可以将互动信息“你好笨”的语义对应的回复文本设置为“你这样说我会很伤心的”。再例如：虚拟对象的性格设定为“暴躁”，则用户可以将互动信息“你好笨”的语义对应的回复文本设置为“你才笨，气死我了”。

作为本发明实施例一种可选的实施方式，构建第二回复文本库的方式可以为：

基于大数据获取各个语义类别对应的回复文本；

根据基于大数据获取回复文本生成所述第二回复文本库。

即，可以通过大数据收集各个语义对应的文本回复，并将每一个语义对应的文本回复均添加到第二回复文本库中。

由于第一回复文本库中的回复文本为用户基于虚拟对象的性格设定而专门设计的回复文本，第二回复文本库中的回复文本是从大数据中收集获取的，因此第一回复文本库的特点为：数据可能不全面，一些语义对应的回复文本没有被收录或设定，但回复文本与虚拟对象的匹配度较高，第二回复文本库的特点为：数据更加全面，几乎可以涵盖全部语义对应的回复文本，但一些回复文本与虚拟对象的匹配度较低。即，存在所述第一回复文本库中各回复文本与所述虚拟对象的匹配度大于或等于所述第二回复文本库中各回复文本与所述虚拟角色的匹配度。

在上述实施例的基础上，上述步骤Ⅱ(直播服务器基于第一回复文本库、第二回复文本库以及所述互动信息的语义获取所述回复文本)，包括：

直播服务器判断所述第一映射关系中是否包含所述互动信息的语义与回复文本的对应关系；

若是，则直播服务器基于所述第一映射关系和所述互动信息的语义获取所述回复文本；

若否，则直播服务器基于所述第二映射关系和所述互动信息的语义获取所述回复文本。

即，所述第一回复文本库中各回复文本与所述虚拟对象的匹配度大于或等于所述第二回复文本库中各回复文本与所述虚拟角色的匹配度，且在获取互动信息的语义对应的回复文本时，先判断第一回复文本库中是否包含所述互动信息的语义对应的回复文本，若第一回复文本库中包含所述互动信息的语义与回复文本的对应关系，则基于所述第一回复文本库获取所述互动信息的语义对应的回复文本，若第一回复文本库中不包含所述互动信息的语义对应的回复文本，则基于所述第二回复文本库获取所述互动信息的语义对应的回复文本。

示例性的，以下以获取用于对语义为“你好笨”的互动信息进行回复的回复文本、第一回复文本库包括用户基于所述虚拟对象的性格设定“温柔”而输入的对应的回复内容“你这样说我会很伤心的”、第二回复文本库包括从大数据中获取的对应的回复内容“你才笨，气死我了”、“我一点也不笨”、“你这样说我会很伤心的”为例对上述实施例进行说明。由于第一回复文本库包含所述互动信息的语义“你好笨”对应的回复文本，因此基于所述第一回复文本库和所述互动信息的语义获取所述回复文本，最终获取的回复文本为“你这样说我会很伤心的”。

示例性的，以下以获取用于对语义为“你真漂亮”的互动信息进行回复的回复文本、第一回复文本库不包括互动信息的语义“你真漂亮”对应的回复文本、第二数据库中第二回复文本库包括从大数据中获取的对应的回复内容“谢谢你的夸奖”、“你真有眼光”、“真的吗”为例对上述实施例进行说明。由于第一回复文本库不包含所述互动信息的语义“你真漂亮”对应的回复文本，因此基于所述第二回复文本库和所述互动信息的语义获取所述回复文本，由于第二回复文本库中语义“你真漂亮”对应的回复文本包括“谢谢你的夸奖”、“你真有眼光”、“真的吗”3个，因此可以基于预设规则从中选取一个作为该语义的回复文本，例如：随机选取。

由于所述第一回复文本库中各回复文本与所述虚拟对象的匹配度大于或等于所述第二回复文本库中各回复文本与所述虚拟角色的匹配度，因此在获取回复文本时，首先判断第一回复文本库中是否包含所述互动信息的语义对应的回复文本，若第一回复文本库中包含与所述虚拟对象的匹配度较高的回复文本，则基于第一回复文本库获取回复文本，从而保证回复文本与虚拟对象的匹配度，若第一回复文本库中不具互动信息的语义对应的回复文本，则基于第二回复文本库获取回复文本，从而避免无法对所述互动信息进行回复。

可选的，在上述实施例的从基础上，本发明实施例提供的直播互动方法还包括：

直播服务器向所述终端设备发送所述回复文本。

对应的，终端设备接收所述直播服务器发送的所述回复文本，并在所述虚拟对象的直播间显示所述回复文本。

示例性的，参照图3所示，图3中以互动信息为“你好漂亮”、回复文本为“你真有眼光”为例示出。如图3所示，终端设备在所述虚拟对象的直播间显示所述回复文本的方式可以为：将回复文本“你真有眼光”31叠加显示于所述互动视频的视频播放界面中。

基于同一发明构思，作为对上述方法的实现，本发明实施例还提供了一种直播服务器和一种终端设备，该直播服务器和终端设备实施例与前述方法实施例对应，为便于阅读，本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述，但应当明确，本实施例中的直播服务器能够对应实现前述方法实施例中直播服务器所执行的全部步骤，终端设备能够对应实现前述方法实施例中终端设备所执行的全部步骤。

图4为本发明实施例提供的直播服务器的结构示意图，如图4所示，本实施例提供的直播服务器400包括：

接收单元41，用于接收终端设备发送的互动信息，所述互动信息为用户在虚拟对象的直播间输入的互动信息；

处理单元42，用于根据所述互动信息获取反馈数据，所述反馈数据包括所述虚拟对象的面部表情数据和/或所述虚拟对象的肢体动作数据；

生成单元43，用于基于所述反馈数据生成直播视频流；

发送单元44，用于向终端设备发送所述直播视频流。

作为本发明实施例一种可选的实施方式，所述处理单元42，具体用于解析所述互动信息获取情绪标签，基于第一对应关系和所述情绪标签获取所述面部表情数据和/或基于第二对应关系和所述情绪标签获取所述肢体动作数据；

作为本发明实施例一种可选的实施方式，所述处理单元42，具体用于根据所述互动信息和第一反馈模型获取所述面部表情数据和/或根据所述互动信息和第二反馈模型获取所述肢体动作数据；

作为本发明实施例一种可选的实施方式，

所述处理单元42，还用于根据所述互动信息获取用于对所述互动信息进行回复的回复文本；

所述生成单元43，还用于基于所述回复文本和所述虚拟对象的音色生成音频数据；

所述发送单元44，还用于向所述终端设备发送所述音频数据。

作为本发明实施例一种可选的实施方式，所述处理单元42，具体用于获取所述互动信息的语义，基于第一回复文本库、第二回复文本库以及所述互动信息的语义获取所述回复文本；

所述处理单元42，具体用于判断所述第一回复文本库中是否包含所述互动信息的语义对应的回复文本；若是，则基于所述第一回复文本库和所述互动信息的语义获取所述回复文本；若否，则基于所述第二回复文本库和所述互动信息的语义获取所述回复文本。

作为本发明实施例一种可选的实施方式，所述处理单元42，还用于在基于第一回复文本库、第二回复文本库以及所述互动信息的语义获取所述回复文本之前，接收用户基于所述虚拟对象的性格设定输入的至少一个语义对应的回复文本；根据用户输入的所述至少一个语义对应的回复文本；基于大数据获取各个语义类别对应的回复文本；根据基于大数据获取回复文本生成所述第二回复文本库。

作为本发明实施例一种可选的实施方式，所述发送单元44，还用于向所述终端设备发送所述回复文本。

作为本发明实施例一种可选的实施方式，

所述处理单元42，还用于根据所述回复文本对应的语音获取所述虚拟对象的口型数据；

所述生成单元43，具体用于根据所述反馈数据和所述口型数据生成所述直播视频流。

本实施例提供的直播服务器可以执行上述方法实施例提供的直播互动方法中直播服务器所执行的全部步骤，其实现原理与技术效果类似，此处不再赘述。

图5为本发明实施例提供的终端设备的结构示意图，如图5所示，本实施例提供的终端设备500包括：

用户输入单元51，用于接收用户在虚拟对象的直播间输入的互动信息；

发送单元52，用于向直播服务器发送所述互动信息；

接收单元53，用于接收所述直播服务器发送的直播视频流，所述直播视频流为所述直播服务器基于所述互动信息对应的反馈数据生成的视频流，所述反馈数据包括所述虚拟对象的面部表情数据和/或所述虚拟对象的肢体动作数据；

输出单元54，用于在所述虚拟对象的直播间显示所述直播视频流。

作为本发明实施例一种可选的实施方式，

所述接收单元53，还用于接收所述直播服务器发送的所述回复文本；

所述输出单元54，还用于在所述虚拟对象的直播间显示所述回复文本。

本实施例提供的终端设备可以执行上述方法实施例提供的直播互动方法中终端设备所执行的各个步骤，其实现原理与技术效果类似，此处不再赘述。

基于同一发明构思，本发明实施例还提供了一种电子设备。图6为本发明实施例提供的电子设备的结构示意图，如图6所示，本实施例提供的电子设备包括：存储器61和处理器62，存储器61用于存储计算机程序；处理器62用于在调用计算机程序时执行上述方法实施例提供的直播互动方法中直播服务器或终端设备所执行的各步骤。

具体的，存储器61可用于存储软件程序以及各种数据。存储器61可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子设备的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器61可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器62是电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器61中的软件程序和/或模块，以及调用存储在存储器61中的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。处理器62可包括一个或多个处理单元。

此外，应当理解的是，本发明实施例提供的电子设备还可以包括：射频单元、网络模块、音频输出单元、接收单元、传感器、显示单元、用户接收单元、接口单元、以及电源等部件。本领域技术人员可以理解，上述描述出的电子设备的结构并不构成对电子设备的限定，电子设备可以包括更多或更少的部件，或者组合某些部件，或者不同的部件布置。在本发明实施例中，电子设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备、以及计步器等。

其中，射频单元可用于收发信息或通话过程中，信号的接收和发送，具体的，将来自基站的下行数据接收后，给处理器62处理；另外，将上行的数据发送给基站。通常，射频单元包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外，射频单元还可以通过无线通信系统与网络和其他设备通信。

电子设备通过网络模块为用户提供了无线的宽带互联网访问，如帮助用户收发电子邮件、浏览网页和访问流式媒体等。

音频输出单元可以将射频单元或网络模块接收的或者在存储器61中存储的音频数据转换成音频信号并且输出为声音。而且，音频输出单元还可以提供与电子设备执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出单元包括扬声器、蜂鸣器以及受话器等。

接收单元用于接收音频或视频信号。接收单元可以包括图形处理器(Graphics Processing Unit，GPU)和麦克风，图形处理器对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元上。经图形处理器处理后的图像帧可以存储在存储器(或其它存储介质)中或者经由射频单元或网络模块进行发送。麦克风可以接收声音，并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元发送到移动通信基站的格式输出。

电子设备还包括至少一种传感器，比如光传感器、运动传感器以及其他传感器。具体地，光传感器包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板的亮度，接近传感器可在电子设备移动到耳边时，关闭显示面板和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别电子设备姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；传感器还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等，在此不再赘述。

显示单元用于显示由用户输入的信息或提供给用户的信息。显示单元可包括显示面板，可以采用液晶显示器(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板。

用户接收单元可用于接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入。具体地，用户接收单元包括触控面板以及其他输入设备。触控面板，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板上或在触控面板附近的操作)。触控面板可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器62，接收处理器62发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板。除了触控面板，用户接收单元还可以包括其他输入设备。具体地，其他输入设备可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

进一步的，触控面板可覆盖在显示面板上，当触控面板检测到在其上或附近的触摸操作后，传送给处理器62以确定触摸事件的类型，随后处理器62根据触摸事件的类型在显示面板上提供相应的视觉输出。一般情况下，触控面板与显示面板是作为两个独立的部件来实现电子设备的输入和输出功能，但是在某些实施例中，可以将触控面板与显示面板集成而实现电子设备的输入和输出功能，具体此处不做限定。

接口单元为外部装置与电子设备连接的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元可以用于接收来自外部装置的输入(例如，数据信息、电力等等)并且将接收到的输入传输到电子设备中的一个或多个元件或者可以用于在电子设备和外部装置之间传输数据。

电子设备还可以包括给各个部件供电的电源(比如电池)，可选的，电源可以通过电源管理系统与处理器62逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

本发明实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述方法实施例提供的评论显示方法。

本领域技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。

计算机可读介质包括永久性和非永久性、可移动和非可移动存储介质。存储介质可以由任何方法或技术来实现信息存储，信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。根据本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitorymedia)，如调制的数据信号和载波。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所述的这些实施例，而是要符合与本文所发明的原理和新颖特点相一致的最宽的范围。

Claims

一种直播互动方法，其特征在于，包括：

接收终端设备发送的互动信息，所述互动信息为用户在虚拟对象的直播间输入的互动信息；

根据所述互动信息获取反馈数据，所述反馈数据包括：所述虚拟对象的面部表情数据和/或所述虚拟对象的肢体动作数据；

基于所述反馈数据生成直播视频流；

向终端设备发送所述直播视频流。
根据权利要求1所述的方法，其特征在于，所述根据所述互动信息获取反馈数据，包括：

解析所述互动信息获取情绪标签，所述情绪标签用于表征对所述互动信息进行反馈时所述虚拟对象的情绪；

基于第一对应关系和所述情绪标签获取所述面部表情数据，和/或，基于第二对应关系和所述情绪标签获取所述肢体动作数据；

其中，所述第一对应关系包括各情绪标签与面部表情数据的对应关系，所述第二对应关系包括各情绪标签与肢体动作数据的对应关系。
根据权利要求1所述的方法，其特征在于，所述根据所述互动信息获取反馈数据，包括：

根据所述互动信息和第一反馈模型获取所述面部表情数据，和/或，根据所述互动信息和第二反馈模型获取所述肢体动作数据；

其中，所述第一反馈模型为基于样本互动信息和与所述样本互动信息对应的面部表情数据对第一算法模型进行训练获取的模型，所述第二反馈模型为基于样本互动信息和与所述样本互动信息对应的肢体动作数据对第二算法模型进行训练获取的模型。
根据权利要求1-3所述的方法，其特征在于，所述方法还包括：

根据所述互动信息获取用于对所述互动信息进行回复的回复文本；

基于所述回复文本和所述虚拟对象的音色生成所述直播视频流的音频数据。
根据权利要求4所述的方法，其特征在于，所述根据所述互动信息获取用于对所述互动信息进行回复的回复文本，包括：

获取所述互动信息的语义；

基于第一回复文本库、第二回复文本库以及所述互动信息的语义获取所述回复文本；

其中，所述第一回复文本库包括至少一个语义对应的回复文本，所述第二回复文本库包括各语义对应的回复文本。
根据权利要求5所述的方法，其特征在于，所述第一回复文本库中各回复文本与所述虚拟对象的匹配度大于或等于所述第二回复文本库中各回复文本与所述虚拟角色的匹配度；所述基于第一回复文本库、第二回复文本库以及所述互动信息的语义获取所述回复文本，包括：

判断所述第一回复文本库中是否包含所述互动信息的语义对应的回复文本；

若是，则基于所述第一回复文本库和所述互动信息的语义获取所述回复文本；

若否，则基于所述第二回复文本库和所述互动信息的语义获取所述回复文本。
根据权利要求6所述的方法，其特征在于，在基于第一回复文本库、第二回复文本库以及所述互动信息的语义获取所述回复文本之前，所述方法还包括：

接收用户基于所述虚拟对象的性格设定输入的至少一个语义对应的回复文本；

根据用户输入的所述至少一个语义对应的回复文本生成所述第一回复文本库；

基于大数据获取各个语义类别对应的回复文本；

根据基于大数据获取回复文本生成所述第二回复文本库。
根据权利要求4所述的方法，其特征在于，所述方法还包括：

向所述终端设备发送所述回复文本。
根据权利要求4所述的方法，其特征在于，所述方法还包括：

根据所述回复文本对应的语音获取所述虚拟对象的口型数据；

所述基于所述反馈数据生成直播视频流，包括：

根据所述反馈数据和所述口型数据生成所述直播视频流。
一种直播方法，其特征在于，包括：

接收用户在虚拟对象的直播间输入的互动信息；

向直播服务器发送所述互动信息；

接收所述直播服务器发送的直播视频流，所述直播视频流为所述直播服务器基于所述互动信息对应的反馈数据生成的视频流，所述反馈数据包括所述虚拟对象的面部表情数据和/或所述虚拟对象的肢体动作数据；

在所述虚拟对象的直播间显示所述直播视频流。
根据权利要求10所述的方法，其特征在于，所述直播视频流还包括音频数据，所述直播视频流的音频数据为所述直播服务器基于用于对所述互动信息进行回复的回复文本和所述虚拟对象的音色生成的音频数据。
根据权利要求11所述的方法，其特征在于，所述方法还包括：

接收所述直播服务器发送的所述回复文本；

在所述虚拟对象的直播间显示所述回复文本。
一种直播服务器，其特征在于，包括：

接收单元，用于接收终端设备发送的互动信息，所述互动信息为用户在虚拟对象的直播间输入的互动信息；

处理单元，用于根据所述互动信息获取反馈数据，所述反馈数据包括所述虚拟对象的面部表情数据和/或所述虚拟对象的肢体动作数据；

生成单元，用于基于所述反馈数据生成直播视频流；

发送单元，用于向终端设备发送所述直播视频流。
一种终端设备，其特征在于，包括：

用户输入单元，用于接收用户在虚拟对象的直播间输入的互动信息；

发送单元，用于向直播服务器发送所述互动信息；

接收单元，用于接收所述直播服务器发送的直播视频流，所述直播视频流为所述直播服务器基于所述互动信息对应的反馈数据生成的视频流，所述反馈数据包括所述虚拟对象的面部表情数据和/或所述虚拟对象的肢体动作数据；

输出单元，用于在所述虚拟对象的直播间显示所述直播视频流。
一种电子设备，其特征在于，包括：存储器和处理器，存储器用于存储计算机程序；处理器用于在调用计算机程序时执行权利要求1-12任一项所述的直播互动方法。
一种计算机可读存储介质，其特征在于，其上存储有计算机程序，计算机程序被处理器执行时实现权利要求1-12任一项所述的直播互动方法。