WO2023071221A1

WO2023071221A1 - 一种游戏中的交互方法、装置、计算机设备、存储介质、计算机程序及计算机程序产品

Info

Publication number: WO2023071221A1
Application number: PCT/CN2022/098707
Authority: WO
Inventors: 孙阳霆; 周航; 刘宇
Original assignee: 上海商汤智能科技有限公司
Priority date: 2021-10-29
Filing date: 2022-06-14
Publication date: 2023-05-04
Also published as: CN113952723A

Abstract

本公开实施例提供了一种游戏中的交互方法、装置、计算机设备、存储介质、计算机程序及计算机程序产品，其中，应用于智能体；所述游戏包括多个虚拟对象；多个所述虚拟对象中包括受控于所述智能体的目标虚拟对象；所述方法包括：获取当前游戏状态信息；所述当前游戏状态信息包括下述至少一种：所述目标虚拟对象的当前状态信息、非目标虚拟对象的当前状态信息、游戏场景的当前状态信息；利用预先训练的目标神经网络，基于所述当前游戏状态信息进行交互动作预测处理，得到目标虚拟对象执行交互动作的目标时刻、以及目标类型；响应于当前时刻到达所述目标时刻，控制所述目标虚拟对象执行所述目标类型的交互动作。

Description

一种游戏中的交互方法、装置、计算机设备、存储介质、计算机程序及计算机程序产品

相关申请的交叉引用

本公开基于申请号为202111269017.3、申请日为2021年10月29日、申请名称为“一种游戏中的交互方法、装置、计算机设备及存储介质”的中国专利申请提出，并要求该中国专利申请的优先权，该中国专利申请的全部内容在此引入本公开作为参考。

技术领域

本公开涉及但不限于深度学习技术领域，尤其涉及一种游戏中的交互方法、装置、计算机设备、存储介质、计算机程序及计算机程序产品。

背景技术

随着计算机技术的发展，将人工智能(Artificial Intelligence，AI)应用到游戏领域已经成为当前游戏行业的发展趋势，相关技术中，在一些游戏中使用了由深度强化学习训练的智能体来担任玩家的游戏伙伴；这类智能体通常可以根据游戏局面和玩家的操作信息作出相对应的操作来进行配合，配合程度低。

发明内容

本公开实施例至少提供一种游戏中的交互方法、装置、计算机设备、存储介质、计算机程序及计算机程序产品。

本公开实施例提供了一种游戏中的交互方法，应用于智能体；所述游戏包括多个虚拟对象；多个所述虚拟对象中包括受控于所述智能体的目标虚拟对象；所述方法包括：获取当前游戏状态信息；所述当前游戏状态信息包括下述至少一种：所述目标虚拟对象的当前状态信息、非目标虚拟对象的当前状态信息、游戏场景的当前状态信息；利用预先训练的目标神经网络，基于所述当前游戏状态信息进行交互动作预测处理，得到所述目标虚拟对象执行交互动作的目标时刻、以及目标类型；响应于当前时刻到达所述目标时刻，控制所述目标虚拟对象执行所述目标类型的交互动作。

这样，利用预先训练的目标神经网络，基于游戏过程中目标虚拟对象的当前状态信息、非目标虚拟对象的当前状态信息、以及游戏场景的当前状态系信息中的至少一种，对目标虚拟对象执行交互动作的目标时刻、以及目标类型进行预测，并在当前时刻到达目标时刻后，控制目标虚拟对象执行目标类型的交互动作，从而能够将操作的意图告知给其他的智能体或者玩家，实现玩家和智能体之间、智能体和智能体之间的相互配合，提升游戏过程中的配合度。

在一些实施方式中，所述目标虚拟对象的当前状态信息包括下述至少一种：所述目标虚拟对象具有的第一虚拟资源类型、第一虚拟资源量、第一建筑状态、第一技能状态、在所述游戏场景中的第一位置、第一生命值、第一魔法值、第一阵营信息、第一增益数据、第一减益数据；所述非目标虚拟对象的当前状态信息包括下述至少一种：所述非目标虚拟对象具有的第二虚拟资源类型、第二虚拟资源量、第二建筑状态、第二技能状态、在所述游戏场景中的第二位置、第二生命值、第二魔法值、第二阵营信息、第二增益数据、第二减益数据、类型信息、以及交互动作信息；所述游戏场景的当前状态信息包括下述至少一种：所述目标虚拟对象的可视区域信息、第三虚拟资源类型、虚拟资源位置、以及虚拟资源刷新的剩余时间。

在一些实施方式中，所述交互动作包括下述至少一种：在游戏场景的地图中进行动作标记、向同一阵营的非目标虚拟对象发送语音交互信息、向同一阵营的非目标虚拟对象发送文字交互信息；所述交互动作的类型包括下述至少一种：撤退、进攻、防守、以及请求支援。

在一些实施方式中，所述目标神经网络采用下述方式训练得到：基于多个玩家分别在游戏中的对战等级、游戏对局时长、交互动作出现的次数中的至少一种，从多个玩家分别参与的第一游戏对局中，确定目标游戏对局；基于所述目标游戏对局，确定至少一种待预测类型的交互动作分别对应的第一游戏数据；所述第一游戏数据包括：所述目标游戏对局中，第一时间点和第二时间点之间的至少一帧目标游戏状态信息；其中，所述第一时间点为早于在所述交互动作的发生时间的时间点，所述第二时间点为同于、或者晚于所述交互动作的发生时间的时间点；将所述第一游戏数据作为样本数据，训练原始神经网络，得到所述目标神经网络。

这样，通过在第一游戏对局中，基于多个玩家分别在游戏中的对战等级、游戏对局时长、交互动作出现的次数中的至少一种，选取游戏质量较高的目标游戏对局，提高了样本数据的质量，从而提高了生成的目标神经网络的质量。

在一些实施方式中，所述基于所述目标游戏对局，确定至少一种待预测类型的交互动作分别对应的第一游戏数据之前，还包括：对所述目标游戏对局中出现的不同类型的交互动作的次数进行统计，得到不同类型的交互动作分别对应的出现总次数；基于所述不同类型的交互动作分别对应的出现总次数，确定所述待预测类型。

这样，能够便捷在目标游戏对局中包含的不同类型的交互动作中确定待预测类型的交互动作，改善了交互数据重要性分析困难的问题。

在一些实施方式中，所述基于所述目标游戏对局，确定至少一种待预测类型的交互动作分别对应的第一游戏数据，包括：针对每个目标游戏对局，确定所述待预测类型的交互动作在所述每个目标游戏对局中的发生时间；基于所述发生时间，确定所述第一时间点和所述第二时间点；基于所述第一时间点和所述第二时间点，从所述每个目标游戏对局对应的原始游戏数据中，截取所述待预测类型的交互动作在所述每个目标游戏对局中的目标游戏状态信息；所述目标游戏对局对应的原始游戏数据中包括多帧游戏状态信息。

在一些实施方式中，所述将所述第一游戏数据作为样本数据，训练原始神经网络，得到所述目标神经网络，包括：将所述第一游戏数据作为样本数据，将所述第一游戏数据对应的交互动作的待识别类型作为监督数据，对所述原始神经网络进行监督训练，得到多个初始化神经网络；其中，不同初始化神经网络在训练时的训练参数不同；基于不同的初始化神经网络构成不同的智能体，并利用不同的智能体控制虚拟角色进行游戏对局，得到第二原始游戏数据；利用所述第二原始游戏数据对对应的初始化神经网络进行强化训练，得到多个初始化神经网络分别对应的备选神经网络；基于所述备选神经网络分别对应的性能信息，从所述备选神经网络中，确定至少一个目标神经网络。

这样，利用监督学习的方式，训练目标神经网络，使得训练得到的目标神经网络学习到人类玩家的不同类型的交互动作，例如可以包括攻击、撤退、防守、请求支援等多种类型的交互动作；此外，采用多智能体强化学习的方式，训练目标神经网络，增加了最终生成的目标神经网络的合作意识，使目标神经网络具有更好地对战能力。

在一些实施方式中，所述备选神经网络分别对应的性能信息，包括：利用所述备选神经网络对应的初始化神经网络进行游戏对局时的游戏评分。

本公开实施例提供一种游戏中的交互装置，包括：应用于智能体；所述游戏包括多个虚拟对象；多个所述虚拟对象中包括受控于所述智能体的目标虚拟对象；所述装置包括：获取部分，被配置为获取当前游戏状态信息；所述当前游戏状态信息包括下述至少一种：所述目标虚拟对象的当前状态信息、非目标虚拟对象的当前状态信息、游戏场景的当前状态信息；处理部分，被配置为利用预先训练的目标神经网络，基于所述当前游戏状态信息进行交互动作预测处理，得到所述目标虚拟对象执行交互动作的目标时刻、以及目标类型；控制部分，被配置为响应于当前时刻到达所述目标时刻，控制所述目标虚拟对象执行所述目标类型的交互动作。

在一些实施方式中，所述处理部分还被配置为采用下述方式训练得到所述目标神经网络：基于多个玩家分别在游戏中的对战等级、游戏对局时长、交互动作出现的次数中的至少一种，从多个玩家分别参与的第一游戏对局中，确定目标游戏对局；基于所述目标游戏对局，确定至少一种待预测类型的交互动作分别对应的第一游戏数据；所述第一游戏数据包括：所述目标游戏对局中，第一时间点和第二时间点之间的至少一帧目标游戏状态信息；其中，所述第一时间点为早于在所述交互动作的发生时间的时间点，所述第二时间点为同于、或者晚于所述交互动作的发生时间的时间点；将所述第一游戏数据作为样本数据，训练原始神经网络，得到所述目标神经网络。

在一些实施方式中，所述处理部分在所述基于所述目标游戏对局，确定至少一种待预测类型的交互动作分别对应的第一游戏数据之前，还被配置为：对所述目标游戏对局中出现的不同类型的交互动作的次数进行统计，得到不同类型的交互动作分别对应的出现总次数；基于所述不同类型的交互动作分别对应的出现总次数，确定所述待预测类型。

在一些实施方式中，所述处理部分在所述基于所述目标游戏对局，确定至少一种待预测类型的交互动作分别对应的第一游戏数据时，还被配置为：针对每个目标游戏对局，确定所述待预测类型的交互动作在所述每个目标游戏对局中的发生时间；基于所述发生时间，确定所述第一时间点和所述第二时间点；基于所述第一时间点和所述第二时间点，从所述每个目标游戏对局对应的原始游戏数据中，截取所述待预测类型的交互动作在所述每个目标游戏对局中的目标游戏状态信息；所述目标游戏对局对应的原始游戏数据中包括多帧游戏状态信息。

在一些实施方式中，所述处理部分在所述将所述第一游戏数据作为样本数据，训练原始神经网络，得到所述目标神经网络时，还被配置为：将所述第一游戏数据作为样本数据，将所述第一游戏数据对应的交互动作的待识别类型作为监督数据，对所述原始神经网络进行监督训练，得到多个初始化神经网络；其中，不同初始化神经网络在训练时的训练参数不同；基于不同的初始化神经网络构成不同的智能体，并利用不同的智能体控制虚拟角色进行游戏对局，得到第二原始游戏数据；利用所述第二原始游戏数据对对应的初始化神经网络进行强化训练，得到多个初始化神经网络分别对应的备选神经网络；基于所述备选神经网络分别对应的性能信息，从所述备选神经网络中，确定至少一个目标神经网络。

本公开实施例提供一种计算机设备，包括：处理器、存储器，所述存储器存储有所述处理器可执行的机器可读指令，所述处理器用于执行所述存储器中存储的机器可读指令，所述机器可读指令被所述处理器执行时，所述处理器执行上述方法中的部分或全部步骤。

本公开实施例提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被运行时执行上述方法中的部分或全部步骤。

本公开实施例提供一种计算机程序，包括计算机可读代码，在所述计算机可读代码在计算机设备中运行的情况下，所述计算机设备中的处理器执行用于实现上述方法中的部分或全部步骤。

本公开实施例提供一种计算机程序产品，所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，所述计算机程序被计算机读取并执行时，实现上述方法中的部分或全部步骤。

关于上述游戏中的交互装置、计算机设备、计算机可读存储介质、计算机程序及计算机程序产品的效果描述参见上述游戏中的交互方法的说明。

为使本公开实施例的上述目的、特征和优点能更明显易懂，下文特举示例性实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，此处的附图被并入说明书中并构成本说明书中的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。应当理解，以下附图仅示出了本公开的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本公开实施例所提供的一种游戏中的交互方法的实现流程示意图；

图2为本公开实施例所提供的游戏中的交互方法中，一种在游戏场景地图中进行动作标记后的展示界面的示意图；

图3为本公开实施例所提供的游戏中的交互方法中，一种目标神经网络的训练方法的实现流程示意图；

图4为本公开实施例所提供的一种游戏中的交互装置的组成结构示意图；

图5为本公开实施例所提供的一种计算机设备的组成结构示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。通常在此处描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此，以下对本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围，而是仅仅表示本公开的选定实施例。基于本公开的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

经研究发现，智能体设计是多人合作类游戏设计中一项重要组成部分，智能体具有一定的决策智能，利用所具有的决策智能，能够在游戏中控制虚拟对象和玩家进行游戏。在多人合作类游戏中，除真实玩家互相组队外，现有的游戏伙伴通常是由硬编码的机器人(bot)充当。少部分即时战略游戏(Real-Time Strategy Game，RTS)或者多人在线战术竞技游戏(Multiplayer Online Battle Arena，MOBA)类游戏中使用了由深度强化学习训练的智能体来担任玩家的游戏伙伴；在实际游戏过程中，不同玩家之间为了能够更好的配合，在共同游戏的过程中，还会相互发出交互信号；但智能体通常仅能根据游戏局面和玩家的操作信息作出相对应的操作，其操作意图通常是无法告知其他玩家、或者其他的智能体的，导致了当前利用智能体来进行游戏时，配合度差的问题。

智能体与玩家互动能力差会导致游戏体验下降，同时对于多人合作类游戏来说，了解队友真实意图又对游戏战局起到至关重要的影响，所以不能实时交互的智能体对游戏表现的影响也是不可忽视的。因此，可交互式智能体即成了多人游戏设计中一个重要的技术。

基于上述研究，本公开实施例提供了一种游戏中的交互方法，利用预先训练的目标神经网络，基于游戏过程中目标虚拟对象的当前状态信息、非目标虚拟对象的当前状态信息、以及游戏场景的当前状态系信息中的至少一种，对目标虚拟对象执行交互动作的目标时刻、以及目标类型进行预测，并在当前时刻到达目标时刻后，控制目标虚拟对象执行目标类型的交互动作，从而能够将操作的意图告知给其他的智能体或者玩家，实现玩家和智能体之间、智能体和智能体之间的相互配合，提升游戏过程中的配合度。

针对相关技术中的方案所存在的缺陷以及所提出的解决方案，均是发明人在经过实践并仔细研究后得出的结果，因此，上述问题的发现过程以及文中本公开实施例针对上述问题所提出的解决方案，都应该是发明人在本公开过程中对本公开做出的贡献。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

为便于对本公开实施例进行理解，首先对本公开实施例所公开的一种游戏中的交互方法进行详细介绍，本公开实施例所提供的游戏中的交互方法的执行主体一般为具有一定计算能力的计算机设备，该计算机设备例如包括：终端设备或服务器或其它处理设备，终端设备可以为用户设备(User Equipment，UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字助理(Personal Digital Assistant，PDA)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中，该游戏中的交互方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

下面对本公开实施例提供的游戏中的交互方法加以说明。

图1为本公开实施例提供的一种游戏中的交互方法的实现流程示意图，如图1所示，所述方法应用于智能体；所述游戏包括多个虚拟对象；多个虚拟对象中包括受控于智能体的目标虚拟对象；所述方法包括步骤S101～S103，其中：

S101、获取当前游戏状态信息。

其中，智能体包括利用深度学习技术、以及强化学习等技术训练生成的，能够操控游戏中的目标虚拟对象进行游戏的人工智能(Artificial Intelligence，AI)；游戏中包含多个虚拟对象，其中，多个虚拟对象包括：目标虚拟对象、以及非目标虚拟对象；其中，目标虚拟对象包括游戏中被智能体控制的虚拟对象；非目标虚拟对象例如可以包括但不限于人类玩家控制的虚拟对象、其他的智能体控制的虚拟对象、以及游戏中的非玩家虚拟角色，这里游戏中的非玩家虚拟角色例如可以包括但不限于游戏场景中的非玩家角色(Non-Player Character，NPC)等。

在实施中，当前游戏状态信息包括但不限于下述至少一种：目标虚拟对象的当前状态信息、非目标虚拟对象的当前状态信息、游戏场景的当前状态信息；其中，目标虚拟对象的当前状态信息包括但不限于下述至少一种：目标虚拟对象具有的第一虚拟资源类型、第一虚拟资源量、第一建筑状态、第一技能状态、在游戏场景中的第一位置、第一生命值、第一魔法值、第一阵营信息、第一增益数据、第一减益数据等。

这里，第一虚拟资源类型例如可以包括但不限于游戏中目标虚拟对象拥有的用于购买道具等物品的金币、目标虚拟对象拥有的建筑材料、目标虚拟对象拥有的建筑、以及目标虚拟对象拥有的战斗单位的种类等中的至少一种；第一虚拟资源量例如可以包括对应虚拟资源的数量，如目标虚拟对象拥有的金币数量、目标虚拟对象拥有的建筑材料数量、目标虚拟对象拥有的建筑数量、以及目标虚拟对象拥有的战斗单位的数量等中的至少一种；第一建筑状态包括目标虚拟角色拥有的建筑所处的状态，例如可以包括但不限于：已完成建设状态、未建设状态、正在建设状态、损坏状态、剩余血量等中的至少一种；第一技能状态例如可以包括但不限于：目标虚拟对象具有的技能数量、技能等级、技能是否在冷却状态、技能类型等中的至少一种，其中，若技能处于冷却状态中时，第一技能状态还包括该技能需要冷却的时间；技能类型例如可以包括攻击技能、防守技能等中的至少一种；在游戏场景中的第一位置包括目标虚拟对象在游戏场景中的位置信息；第一阵营信息例如可以包括但不限于：目标虚拟对象所归属的阵营，例如包括：友方阵营、敌方阵营、中立阵营等；第一增益数据(buff)例如可以包括但不限于：目标虚拟对象的生命值增益数据、魔法值增益数据、状态增益等中的至少一种；第一减益数据(debuff)例如可以包括但不限于：目标虚拟对象的生命值减益数据、魔法值减益数据、状态减益等中的至少一种。

另外，非目标虚拟对象的当前状态信息例如可以包括但不限于下述至少一种：非目标虚拟对象具有的第二虚拟资源类型、第二虚拟资源量、第二建筑状态、第二技能状态、在游戏场景中的第二位置、第二生命值、第二魔法值、第二阵营信息、第二增益数据、第二减益数据、类型信息、以及交互动作信息；这里，第二虚拟资源类型例如可以包括但不限于游戏中非目标虚拟对象拥有的用于购买道具等物品的金币、非目标虚拟对象拥有的建筑材料、非目标虚拟对象拥有的建筑、以及非目标虚拟对象拥有的兵种等中的至少一种；第二虚拟资源量可以包括对应的虚拟资源的数量，如非目标虚拟对象拥有的金币数量、非目标虚拟对象拥有的建筑材料数量、非目标虚拟对象拥有的建筑数量、以及非目标虚拟对象拥有的战斗单位的数量等中的至少一种；第二建筑状态包括非目标虚拟角色拥有的建筑所处的状态，例如可以包括但不限于：已完成建设状态、未建设状态、正在建设状态、损坏状态、剩余血量等中的至少一种；第二技能状态例如可以包括但不限于：非目标虚拟对象具有的技能数量、技能等级、技能是否在冷却状态、技能类型等中的至少一种，其中，若技能处于冷却状态中时，第二技能状态还包括该技能需要冷却的时间；技能类型例如可以包括攻击技能、防守技能等中的至少一种；在游戏场景中的第二位置包括非目标虚拟对象在游戏场景中的位置信息；第二阵营信息例如可以包括但不限于：非目标虚拟对象所归属的阵营，例如可以包括但不限于友方阵营、敌方阵营、中立阵营等；第二增益数据(buff)例如可以包括但不限于：非目标虚拟对象的生命值增益数据、魔法值增益数据、状态增益等中的至少一种；第二减益数据(debuff)例如可以包括但不限于：非目标虚拟对象的生命值减益数据、魔法值减益数据、状态减益等中的至少一种；类型信息包括玩家控制的游戏角色、游戏场景中的小兵、游戏场景中的野怪等中的至少一种；这里，玩家控制的游戏角色和游戏场景中的小兵可以属于相同阵营，也可以属于不同阵营，但游戏场景中的野怪与玩家控制的游戏角色、以及游戏场景中的小兵属于不同阵营，即敌对阵营；交互动作信息可以包括但不限于：交互动作发出的时刻、以及交互动作的类型等中的至少一种，这里交互动作的类型例如可以包括但不限于：用于通知队友进行撤退的撤退交互动作、用于通知队友进行进攻的进攻交互动作、用于通知队友进行防守的防守交互动作、以及用于请求队友支援的请求支援交互动作等中的至少一种。

另外，游戏场景的当前状态信息例如可以包括但不限于下述至少一种：目标虚拟对象的可视区域信息、第三虚拟资源类型、虚拟资源位置、以及虚拟资源刷新的剩余时间等；其中，目标虚拟对象的可视区域信息可以包括但不限于：位于目标虚拟角色当前可视范围内的游戏地图区域；第三虚拟资源类型例如可以包括但不限于：游戏场景中未占据的建筑、以及未被招纳的战斗单位、未采集的资源等中的至少一种；虚拟资源位置例如可以包括但不限于上述资源在游戏场景中的所处位置，例如游戏场未占据的建筑的位置、以及未被招纳的战斗单位的位置、未采集的资源的位置等中的至少一种；虚拟资源刷新的剩余时间例如可以包括但不限于：游戏场景中可供采集的资源的可供采集时间、游戏场景中野怪、小怪等的刷新时间等中的至少一种。

在一些实施方式中，在游戏过程中，基于S101获取当前时刻游戏中目标虚拟对象的当前状态信息、以及非目标虚拟对象的当前状态信息、以及游戏场景的当前状态信息后，本公开实施例可以通过如下步骤S102进行下一步处理：

S102、利用预先训练的目标神经网络，基于所述当前游戏状态信息进行交互动作预测处理，得到目标虚拟对象执行交互动作的目标时刻、以及目标类型。

其中，交互动作例如可以包括但不限于下述至少一种：在游戏场景的地图中进行动作标记、向同一阵营的非目标虚拟对象发送语音交互信息、向同一阵营的非目标虚拟对象发送文字交互信息等；这里，可以通过广播形式、或者私聊等中的至少一种方式向同一阵营的非目标虚拟对象发送语音交互信息、文字交互信息。示例性的，在游戏场景地图中进行动作标记后的展示界面的示意图可以如图2所示，在游戏场景10中以黑色圆点标识标记出防守标记点11，以提示游戏中的玩家和智能体对防守标记点11所在的位置进行防守。

在一些实施方式中，可以通过下述方式训练得到目标神经网络：基于多个玩家分别在游戏中的对战等级、游戏对局时长、交互动作出现的次数中的至少一种，从与多个玩家分别参与的第一游戏对局中，确定目标游戏对局；基于目标游戏对局，确定至少一种待预测类型的交互动作分别对应的第一游戏数据；将第一游戏数据作为样本数据，训练原始神经网络，得到目标神经网络。

其中，第一游戏数据可以包括但不限于：目标游戏对局中，第一时间点和第二时间点之间的至少一帧目标游戏状态信息；其中，第一时间点为早于在交互动作的发生时间的时间点，第二时间点为同于、或者晚于交互动作的发生时间的时间点；目标游戏状态信息例如可以包括但不限于：目标虚拟对象的状态信息、非目标虚拟对象的状态信息、游戏场景的状态信息等中的至少一种，这里关于目标游戏状态信息的相关描述可以参见S101中针对当前游戏状态信息的相关描述。

在训练目标神经网络过程中，为了提高目标神经网络的质量，因此需要在大量的人类对局游戏数据(即多个玩家分别参与的第一游戏对局)中选取高质量对局游戏数据，从而才能对玩家行为进行无偏大的有效模拟，所以可以根据但不限于下述A1～A6中的至少一种，对第一游戏对局进行筛选，选取高质量的目标游戏对局：

A1、基于第一游戏对局分别对应的对战等级，选取对战等级大于预设对战等级阈值的第一游戏对局，作为目标游戏对局。

其中，对战等级可以包括第一游戏对局中每局游戏对应的对战等级，可以根据每局游戏中多个玩家分别操控的虚拟对象对应的等级确定；预设对战等级阈值可以根据需要设定，在此不做限制。在一些实施方式中，每局游戏中多个玩家分别操控的虚拟对象对应的等级可以是根据每局游戏中多个玩家分别操控的虚拟对象所获得的游戏评分确定的。

示例性的，当一局游戏中位于我方的三个玩家分别操控的虚拟对象对应的等级包括：50、60、66；位于敌方的三个玩家分别操控的虚拟对象对应的等级包括：55、58、70；则可以根据该局游戏中包含的多个玩家分别操控的虚拟对象的等级，确定该局游戏对应的对战等级包括：60；此时由于该局游戏对应的对战等级60大于预设对战等级阈值50，确定该局游戏为高质量游戏对局，则可以将该局游戏作为目标游戏对局。

A2、根据第一游戏对局分别对应的对战等级，将第一游戏对局按照对战等级从大到小的顺序进行排列，基于排列结果，将排列顺序位于第一预设排列顺序位之前的第一游戏对局，作为目标游戏对局。

其中，第一预设排列顺序位可以根据实际需求设定，此处不做限制。

示例性的，第一预设排列顺序位为10，则可以将对战等级位于前9的第一游戏对局，作为目标游戏对局。

A3、基于第一游戏对局分别对应的游戏对局时长，选取游戏对局时长大于预设对局时长阈值的第一游戏对局，作为目标游戏对局。

其中，预设对局时长阈值可以根据需求设定，此处不做限制。

示例性的，若预设对局时长阈值包括20分钟，则可以基于第一游戏对局分别对应的游戏对局时长，将游戏对局时长大于20分钟的第一游戏对局，作为目标游戏对局。

A4、根据第一游戏对局分别对应的游戏对局时长，将第一游戏对局按照游戏对局时长从大到小的顺序进行排列，基于排列结果，将排列顺序位于第二预设排列顺序位之前的第一游戏对局，作为目标游戏对局。

其中，第二预设排列顺序位可以根据实际需求设定，此处不做限制。

示例性的，第二预设排列顺序位为8，则可以将游戏对局时长位于前7 的第一游戏对局，作为目标游戏对局。

A5、基于第一游戏对局分别对应的交互动作出现的次数，选取交互动作出现的次数大于第一预设次数阈值的第一游戏对局，作为目标游戏对局。

其中，第一预设次数阈值可以根据实际需求设定，此处不做限制。

示例性的，可以对第一游戏对局中每局游戏进行交互动作识别，确定每局游戏中交互动作出现的次数，若第一预设次数阈值包括5次，则可以选取第一游戏对局中交互动作出现的次数大于5次的第一游戏对局，作为目标游戏对局。

A6、根据第一游戏对局分别对应的交互动作出现的次数，将第一游戏对局按照交互动作出现的次数由多到少的顺序进行排列，基于排列结果，将排列顺序位于第三预设排列顺序位之前的第一游戏对局，作为目标游戏对局。

其中，第三预设排列顺序位可以根据实际需求设定，此处不做限制。

示例性的，第三预设排列顺序位为6，则可以将交互动作出现的次数位于前5的第一游戏对局，作为目标游戏对局。

在基于上述A1～A6，从与多个玩家分别参与的第一游戏对局中，确定目标游戏对局后，可以对目标游戏对局中出现的多种类型的交互动作进行筛选，选取其中出现频率最高的待预测类型的交互动作，例如攻击、防守、请求支援以及撤退等类型的交互动作，剔除目标游戏对局中出现的重要程度较低的交互动作，比如移动、生产、以及局内普通沟通对话等类型的交互动作，在一些实施方式中：可以对目标游戏对局中出现的不同类型的交互动作的次数进行统计，得到不同类型的交互动作分别对应的出现总次数；基于不同类型交互动作分别对应的出现总次数，确定待预测类型。

其中，不同类型的交互动作例如可以包括但不限于：攻击、防守、请求支援、撤退、以及集结。

在一些实施方式中，在对目标游戏对局中出现的不同类型的交互动作的次数进行统计，得到不同类型的交互动作分别对应的出现总次数后，可以基于不同类型的交互动作分别对应的出现总次数，选取出现总次数大于第二预设次数阈值的交互动作的类型，作为待预测类型。

其中，第二预设次数阈值可以根据实际需求设定，此处不做限制；第一预设次数阈值与第二预设次数阈值可以相同，也可以不同。

在一些实施方式中，在对目标游戏对局中出现的不同类型的交互动作的次数进行统计，得到不同类型的交互动作分别对应的出现总次数后，可以基于不同类型的交互动作分别对应的出现总次数，按照出现总次数由大到小的顺序，对不同类型的交互动作进行排列，基于排列结果，将排列顺序位于第四预设排列顺序位之前的交互动作的类型，作为待预测类型。

其中，第四预设排列顺序位可以根据实际需求设定，此处不做限制；需要说明的是，第一预设排列顺序位、第二预设排列顺序位、第三预设排列顺序位、第四预设排列顺序位可以相同，也可以不同。

在一些实施方式中，可以基于目标游戏对局中的游戏数据，对目标游戏对局中出现的不同类型的交互动作的重要程度进行分析，将重要程度大于预设重要程度阈值的交互动作的类型，作为待预测类型；其中，预设重要程度阈值可以根据实际需求设定，此处不做限制。

在一些实施方式中，在目标游戏对局中，筛选出待预测类型的交互动作后，可以针对每个目标游戏对局，确定待预测类型的交互动作在每个目标游戏对局中的发生时间；基于发生时间，确定第一时间点和第二时间点；基于第一时间点和第二时间点，从每个目标游戏对局对应的原始游戏数据中，截取待预测类型的交互动作在每个目标游戏对局中的目标游戏状态信息。

其中，目标游戏对局对应的原始游戏数据中包括多帧游戏状态信息。

示例性的，在确定待预测类型的交互动作之后，可以针对每个目标游戏对局，在各目标游戏对局中确定待预测类型的交互动作发生的第一时间点和第二时间点，并基于各目标游戏对局中第一时间点到第二时间点之间的原始游戏数据，确定待预测类型的交互动作在各目标游戏对局中的目标游戏状态信息。

在确定各种待预测类型的交互动作在各目标游戏对局中的目标游戏状态信息，即确定各待预测类型的交互动作分别对应的第一游戏数据后，可以基于下述方法，训练原始神经网络，以得到目标神经网络：将第一游戏数据作为样本数据，将第一游戏数据对应的交互动作的待识别类型作为监督数据，对原始神经网络进行监督训练，得到多个初始化神经网络；基于不同的初始化神经网络构成不同的智能体，并利用不同的智能体控制虚拟角色进行游戏对局，得到第二原始游戏数据；利用第二原始游戏数据对对应的初始化神经网络进行强化训练，得到多个初始化神经网络分别对应的备选神经网络；基于备选神经网络分别对应的性能信息，从备选神经网络中，确定至少一个目标神经网络。

其中，原始神经网络可以包括但不限于：由卷积神经网络、循环神经网络构成的具有复杂结构的网络；不同初始化神经网络在训练时的训练参数不同；第二原始游戏数据包括利用由不同的初始化神经网络构成的智能体控制虚拟对象进行对局后所产生的原始游戏数据；备选神经网络分别对应的性能信息可以包括但不限于：利用备选神经网络对应的初始化神经网络进行游戏对局时的游戏评分。

示例性的，将至少一种待预测类型的交互动作在各目标游戏对局中的目标游戏状态信息作为样本数据，将目标游戏状态信息对应的交互动作的类型作为监督数据，利用不同的训练参数，对原始神经网络进行监督训练，得到不同的初始化神经网络。

在通过监督训练，得到多个不同的初始化神经网络后，可以基于不同的初始化神经网络构成不同的智能体，利用不同的智能体控制虚拟角色进行游戏对局产生第二原始游戏数据；并利用第二原始游戏数据对产生该第二原始游戏数据时所利用的初始化神经网络进行强化训练，得到各初始化神经网络分别对应的备选神经网络；在得到备选神经网络后，可以基于备选神经网络对应的初始化神经网络控制虚拟对象进行游戏对局时的游戏评分，从备选神经网络中，选取游戏评分大于预设评分阈值的备选神经网络(即选取更善于在游戏过程中进行配合的备选神经网络)，作为目标神经网络；其中，预设评分阈值可以根据实际需求设定，在此不做限制。

在本公开的另一实施例中，还提供了一种目标神经网络的训练方法，图3为本公开实施例提供的一种目标神经网络的训练方法的实现流程示意图，如图3所示，该训练方法包括如下步骤S301至S304：

S301、基于多个玩家分别在游戏中的对战等级、游戏对局时长、交互动作出现的次数中的至少一种，从与多个玩家分别参与的第一游戏对局中，确定目标游戏对局。

S302、对目标游戏对局中出现的不同类型的交互动作的次数进行统计，得到不同类型的交互动作分别对应的出现总次数；基于不同类型的交互动作分别对应的出现总次数，确定待预测类型。

S303、针对每个目标游戏对局，确定待预测类型的交互动作在每个目标游戏对局中的发生时间；基于发生时间，确定第一时间点和第二时间点；基于第一时间点和第二时间点，从每个目标游戏对局对应的原始游戏数据中，截取待预测类型的交互动作在所述每个目标游戏对局中的目标游戏状态信息，以确定至少一种待预测类型的交互动作分别对应的第一游戏数据。

S304、将第一游戏数据作为样本数据，将第一游戏数据对应的交互动作的待识别类型作为监督数据，对原始神经网络进行监督训练，得到多个初始化神经网络；基于不同的初始化神经网络构成不同的智能体，并利用不同的智能体控制虚拟角色进行游戏对局，得到第二原始游戏数据；利用第二原始游戏数据对对应的初始化神经网络进行强化训练，得到多个初始化神经网络分别对应的备选神经网络；基于备选神经网络分别对应的性能信息，从备选神经网络中，确定至少一个目标神经网络。

这里，S301～S304的实施方式可参见上述相关实施方式中的描述。

在一些实施方式中，在生成目标神经网络之后，可以将当前游戏状态信息输入到目标神经网络中，利用目标神经网络对目标虚拟对象执行交互动作的目标时刻和目标类型进行预测。

在对目标虚拟对象执行交互动作的目标时刻、以及目标类型进行预测处理后，本公开实施例还包括：

S103、响应于当前时刻到达所述目标时刻，控制所述目标虚拟对象执行所述目标类型的交互动作。

示例性的，若将当前游戏状态信息输入到目标神经网络中，利用目标神经网络对目标虚拟对象执行交互动作的目标时刻和目标类型进行预测后，得到目标虚拟对象执行交互动作的目标时刻为第一时刻，交互动作的目标类型为防守；则在当前时刻到达第一时刻后，控制目标虚拟对象在游戏场景的地图中进行防守动作标记。

本公开实施例中，利用预先训练的目标神经网络，基于游戏过程中目标虚拟对象的当前状态信息、非目标虚拟对象的当前状态信息、以及游戏场景的当前状态系信息中的至少一种，对目标虚拟对象执行交互动作的目标时刻、以及目标类型进行预测，并在当前时刻到达目标时刻后，控制目标虚拟对象执行目标类型的交互动作，从而能够将操作的意图告知给其他的智能体或者玩家，实现玩家和智能体之间、智能体和智能体之间的相互配合，提升游戏过程中的配合度。此外，通过采用监督学习的方式对目标神经网络进行训练，可以支持更简单的目标神经网络来提升智能体学习交流的效率。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

基于同一技术构思，本公开实施例中还提供了与一种游戏中的交互方法对应的一种游戏中的交互装置，由于本公开实施例中的装置解决问题的原理与本公开实施例上述一种游戏中的交互方法相似，因此装置的实施可以参见方法的实施。

参照图4所示，为本公开实施例提供的一种游戏中的交互装置的示意图，所述装置应用于智能体，所述游戏包括多个虚拟对象；多个所述虚拟对象中包括受控于所述智能体的目标虚拟对象，所述装置包括：获取部分401、处理部分402、控制部分403；其中，

获取部分401，被配置为获取当前游戏状态信息；所述当前游戏状态信息包括下述至少一种：所述目标虚拟对象的当前状态信息、非目标虚拟对象的当前状态信息、游戏场景的当前状态信息；处理部分402，被配置为利用预先训练的目标神经网络，基于所述当前游戏状态信息进行交互动作预测处理，得到目标虚拟对象执行交互动作的目标时刻、以及目标类型；控制部分403，被配置为响应于当前时刻到达所述目标时刻，控制所述目标虚拟对象执行所述目标类型的交互动作。

在一些实施方式中，处理部分402还被配置为采用下述方式训练得到所述目标神经网络：基于多个玩家分别在游戏中的对战等级、游戏对局时长、交互动作出现的次数中的至少一种，从多个玩家分别参与的第一游戏对局中，确定目标游戏对局；基于所述目标游戏对局，确定至少一种待预测类型的交互动作分别对应的第一游戏数据；所述第一游戏数据包括：所述目标游戏对局中，第一时间点和第二时间点之间的至少一帧目标游戏状态信息；其中，所述第一时间点为早于在所述交互动作的发生时间的时间点，所述第二时间点为同于、或者晚于所述交互动作的发生时间的时间点；将所述第一游戏数据作为样本数据，训练原始神经网络，得到所述目标神经网络。

在一些实施方式中，处理部分402在所述基于所述目标游戏对局，确定至少一种待预测类型的交互动作分别对应的第一游戏数据之前，还被配置为：对所述目标游戏对局中出现的不同类型的交互动作的次数进行统计，得到不同类型的交互动作分别对应的出现总次数；基于所述不同类型的交互动作分别对应的出现总次数，确定所述待预测类型。

在一些实施方式中，处理部分402在所述基于所述目标游戏对局，确定至少一种待预测类型的交互动作分别对应的第一游戏数据时，还被配置为：针对每个目标游戏对局，确定所述待预测类型的交互动作在所述每个目标游戏对局中的发生时间；基于所述发生时间，确定所述第一时间点和所述第二时间点；基于所述第一时间点和第二时间点，从所述每个目标游戏对局对应的原始游戏数据中，截取所述待预测类型的交互动作在所述每个目标游戏对局中的目标游戏状态信息；所述目标游戏对局对应的原始游戏数据中包括多帧游戏状态信息。

在一些实施方式中，处理部分402在所述将所述第一游戏数据作为样本数据，训练原始神经网络，得到所述目标神经网络时，还被配置为：将所述第一游戏数据作为样本数据，将所述第一游戏数据对应的交互动作的待识别类型作为监督数据，对所述原始神经网络进行监督训练，得到多个初始化神经网络；其中，不同初始化神经网络在训练时的训练参数不同；基于不同的初始化神经网络构成不同的智能体，并利用不同的智能体控制虚拟角色进行游戏对局，得到第二原始游戏数据；利用所述第二原始游戏数据对对应的初始化神经网络进行强化训练，得到多个初始化神经网络分别对应的备选神经网络；基于所述备选神经网络分别对应的性能信息，从所述备选神经网络中，确定至少一个目标神经网络。

关于装置中的各部分的处理流程、以及各部分之间的交互流程的描述可以参照上述方法实施例中的相关说明。

需要说明的是，在本公开实施例以及其他的实施例中，“部分”可以是部分电路、部分处理器、部分程序或软件等等，当然也可以是单元，还可以是模块也可以是非模块化的。

基于同一技术构思，本申请实施例还提供了一种计算机设备。参照图5所示，为本申请实施例提供的计算机设备500的结构示意图，包括处理器501、存储器502、和总线503。其中，存储器502用于存储执行指令，包括内存5021和外部存储器5022；这里的内存5021也称内存储器，用于暂时存放处理器501中的运算数据，以及与硬盘等外部存储器5022交换的数据，处理器501通过内存5021与外部存储器5022进行数据交换，当计算机设备500运行时，处理器501与存储器502之间通过总线503通信，使得处理器501执行以下指令：

获取当前游戏状态信息；所述当前游戏状态信息包括下述至少一种：所述目标虚拟对象的当前状态信息、非目标虚拟对象的当前状态信息、游戏场景的当前状态信息；利用预先训练的目标神经网络，基于所述当前游戏状态信息进行交互动作预测处理，得到目标虚拟对象执行交互动作的目标时刻、以及目标类型；响应于当前时刻到达所述目标时刻，控制所述目标虚拟对象执行所述目标类型的交互动作。

其中，处理器501的处理流程可以参照上述方法实施例的记载。

本公开实施例提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法实施例中所述的游戏中的交互方法的步骤。其中，该存储介质可以是易失性或非易失的计算机可读取存储介质。

本公开实施例提供一种计算机程序，所述计算机程序包括计算机可读代码，在所述计算机可读代码在计算机设备中运行的情况下，所述计算机设备中的处理器执行用于实现上述方法实施例中的部分或全部步骤。

本公开实施例提供一种计算机程序产品，该计算机程序产品承载有程序代码，所述程序代码包括的指令可用于执行上述方法实施例中所述的游戏中的交互方法的步骤，可参见上述方法实施例。

其中，上述计算机程序产品可以通过硬件、软件或其结合的方式实现。在一些实施例中，所述计算机程序产品可以体现为计算机存储介质，在另一些实施例中，计算机程序产品可以体现为软件产品，例如软件开发包(Software Development Kit，SDK)等等。

这里需要指出的是：以上计算机设备、存储介质、计算机程序及计算机程序产品实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本公开计算机设备、存储介质、计算机程序及计算机程序产品实施例中未披露的技术细节，请参照本公开方法实施例的描述而理解。

本公开涉及增强现实领域，通过获取现实环境中的目标对象的图像信息，进而借助各类视觉相关算法实现对目标对象的相关特征、状态及属性进行检测或识别处理，从而得到与具体应用匹配的虚拟与现实相结合的AR效果。示例性的，目标对象可涉及与人体相关的脸部、肢体、手势、动作等，或者与物体相关的标识物、标志物，或者与场馆或场所相关的沙盘、展示区域或展示物品等。视觉相关算法可涉及视觉定位、SLAM、三维重建、图像注册、背景分割、对象的关键点提取及跟踪、对象的位姿或深度检测等。具体应用不仅可以涉及跟真实场景或物品相关的导览、导航、讲解、重建、虚拟效果叠加展示等交互场景，还可以涉及与人相关的特效处理，比如妆容美化、肢体美化、特效展示、虚拟模型展示等交互场景。可通过卷积神经网络，实现对目标对象的相关特征、状态及属性进行检测或识别处理。上述卷积神经网络是基于深度学习框架进行模型训练而得到的网络模型。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的工作过程，可以参考前述方法实施例中的对应过程。在本公开所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本公开的示例性实施方式，用以说明本公开的技术方案，而非对其限制，本公开的保护范围并不局限于此，尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围，都应涵盖在本公开的保护范围之内。

工业实用性

本公开实施例提供了一种游戏中的交互方法、装置、计算机设备、存储介质、计算机程序及计算机程序产品，其中，应用于智能体；所述游戏包括多个虚拟对象；多个所述虚拟对象中包括受控于所述智能体的目标虚拟对象；所述方法包括：获取当前游戏状态信息；所述当前游戏状态信息包括下述至少一种：所述目标虚拟对象的当前状态信息、非目标虚拟对象的当前状态信息、游戏场景的当前状态信息；利用预先训练的目标神经网络，基于所述当前游戏状态信息进行交互动作预测处理，得到目标虚拟对象执行交互动作的目标时刻、以及目标类型；响应于当前时刻到达所述目标时刻，控制所述目标虚拟对象执行所述目标类型的交互动作。根据本公开实施例，智能体能够在游戏中将操作的意图告知给其他的智能体或者玩家，实现玩家和智能体之间、智能体和智能体之间的相互配合，提升游戏过程中的配合度。

Claims

一种游戏中的交互方法，应用于智能体；所述游戏包括多个虚拟对象；多个所述虚拟对象中包括受控于所述智能体的目标虚拟对象；所述方法包括：

获取当前游戏状态信息；所述当前游戏状态信息包括下述至少一种：所述目标虚拟对象的当前状态信息、非目标虚拟对象的当前状态信息、游戏场景的当前状态信息；

利用预先训练的目标神经网络，基于所述当前游戏状态信息进行交互动作预测处理，得到所述目标虚拟对象执行交互动作的目标时刻、以及目标类型；

响应于当前时刻到达所述目标时刻，控制所述目标虚拟对象执行所述目标类型的交互动作。
根据权利要求1所述的方法，其中，所述目标虚拟对象的当前状态信息包括下述至少一种：所述目标虚拟对象具有的第一虚拟资源类型、第一虚拟资源量、第一建筑状态、第一技能状态、在所述游戏场景中的第一位置、第一生命值、第一魔法值、第一阵营信息、第一增益数据、第一减益数据；

所述非目标虚拟对象的当前状态信息包括下述至少一种：所述非目标虚拟对象具有的第二虚拟资源类型、第二虚拟资源量、第二建筑状态、第二技能状态、在所述游戏场景中的第二位置、第二生命值、第二魔法值、第二阵营信息、第二增益数据、第二减益数据、类型信息、以及交互动作信息；

所述游戏场景的当前状态信息包括下述至少一种：所述目标虚拟对象的可视区域信息、第三虚拟资源类型、虚拟资源位置、以及虚拟资源刷新的剩余时间。
根据权利要求1或2所述的方法，其中，所述交互动作包括下述至少一种：在游戏场景的地图中进行动作标记、向同一阵营的非目标虚拟对象发送语音交互信息、向同一阵营的非目标虚拟对象发送文字交互信息；

所述交互动作的类型包括下述至少一种：撤退、进攻、防守、以及请求支援。
根据权利要求1-3任一项所述的方法，其中，所述目标神经网络采用下述方式训练得到：

基于多个玩家分别在游戏中的对战等级、游戏对局时长、交互动作出现的次数中的至少一种，从多个玩家分别参与的第一游戏对局中，确定目标游戏对局；

基于所述目标游戏对局，确定至少一种待预测类型的交互动作分别对应的第一游戏数据；所述第一游戏数据包括：所述目标游戏对局中，第一时间点和第二时间点之间的至少一帧目标游戏状态信息；其中，所述第一时间点为早于所述交互动作的发生时间的时间点，所述第二时间点为同于、或者晚于所述交互动作的发生时间的时间点；

将所述第一游戏数据作为样本数据，训练原始神经网络，得到所述目标神经网络。
根据权利要求4所述的方法，其中，所述基于所述目标游戏对局，确定至少一种待预测类型的交互动作分别对应的第一游戏数据之前，还包括：

对所述目标游戏对局中出现的不同类型的交互动作的次数进行统计，得到不同类型的交互动作分别对应的出现总次数；

基于所述不同类型的交互动作分别对应的出现总次数，确定所述待预测类型。
根据权利要求4或5所述的方法，其中，所述基于所述目标游戏对局，确定至少一种待预测类型的交互动作分别对应的第一游戏数据，包括：

针对每个目标游戏对局，确定所述待预测类型的交互动作在所述每个目标游戏对局中的发生时间；

基于所述发生时间，确定所述第一时间点和所述第二时间点；

基于所述第一时间点和所述第二时间点，从所述每个目标游戏对局对应的原始游戏数据中，截取所述待预测类型的交互动作在所述每个目标游戏对局中的目标游戏状态信息；

所述目标游戏对局对应的原始游戏数据中包括多帧游戏状态信息。
根据权利要求4-6任一项所述的方法，其中，所述将所述第一游戏数据作为样本数据，训练原始神经网络，得到所述目标神经网络，包括：

将所述第一游戏数据作为样本数据，将所述第一游戏数据对应的交互动作的待识别类型作为监督数据，对所述原始神经网络进行监督训练，得到多个初始化神经网络；其中，不同初始化神经网络在训练时的训练参数不同；

基于不同的初始化神经网络构成不同的智能体，并利用不同的智能体控制虚拟角色进行游戏对局，得到第二原始游戏数据；

利用所述第二原始游戏数据对对应的初始化神经网络进行强化训练，得到多个初始化神经网络分别对应的备选神经网络；

基于所述备选神经网络分别对应的性能信息，从所述备选神经网络中，确定至少一个目标神经网络。
根据权利要求7所述的方法，其中，所述备选神经网络分别对应的性能信息，包括：利用所述备选神经网络对应的初始化神经网络进行游戏对局时的游戏评分。
一种游戏中的交互装置，应用于智能体；所述游戏包括多个虚拟对象；多个所述虚拟对象中包括受控于所述智能体的目标虚拟对象；所述装置包括：

获取部分，被配置为获取当前游戏状态信息；所述当前游戏状态信息包括下述至少一种：所述目标虚拟对象的当前状态信息、非目标虚拟对象的当前状态信息、游戏场景的当前状态信息；

处理部分，被配置为利用预先训练的目标神经网络，基于所述当前游戏状态信息进行交互动作预测处理，得到所述目标虚拟对象执行交互动作的目标时刻、以及目标类型；

控制部分，被配置为响应于当前时刻到达所述目标时刻，控制所述目标虚拟对象执行所述目标类型的交互动作。
根据权利要求9所述的装置，其中，所述目标虚拟对象的当前状态信息包括下述至少一种：所述目标虚拟对象具有的第一虚拟资源类型、第一虚拟资源量、第一建筑状态、第一技能状态、在所述游戏场景中的第一位置、第一生命值、第一魔法值、第一阵营信息、第一增益数据、第一减益数据；所述非目标虚拟对象的当前状态信息包括下述至少一种：所述非目标虚拟对象具有的第二虚拟资源类型、第二虚拟资源量、第二建筑状态、第二技能状态、在所述游戏场景中的第二位置、第二生命值、第二魔法值、第二阵营信息、第二增益数据、第二减益数据、类型信息、以及交互动作信息；所述游戏场景的当前状态信息包括下述至少一种：所述目标虚拟对象的可视区域信息、第三虚拟资源类型、虚拟资源位置、以及虚拟资源刷新的剩余时间。
根据权利要求9或10所述的装置，其中，所述交互动作包括下述至少一种：在游戏场景的地图中进行动作标记、向同一阵营的非目标虚拟对象发送语音交互信息、向同一阵营的非目标虚拟对象发送文字交互信息；所述交互动作的类型包括下述至少一种：撤退、进攻、防守、以及请求支援。
根据权利要求9至11中任一项所述的装置，其中，所述处理部分还被配置为采用下述方式训练得到所述目标神经网络：基于多个玩家分别在游戏中的对战等级、游戏对局时长、交互动作出现的次数中的至少一种，从多个玩家分别参与的第一游戏对局中，确定目标游戏对局；基于所述目标游戏对局，确定至少一种待预测类型的交互动作分别对应的第一游戏数据；所述第一游戏数据包括：所述目标游戏对局中，第一时间点和第二时间点之间的至少一帧目标游戏状态信息；其中，所述第一时间点为早于在所述交互动作的发生时间的时间点，所述第二时间点为同于、或者晚于所述交互动作的发生时间的时间点；将所述第一游戏数据作为样本数据，训练原始神经网络，得到所述目标神经网络。
根据权利要求12所述的装置，其中，所述处理部分在所述基于所述目标游戏对局，确定至少一种待预测类型的交互动作分别对应的第一游戏数据之前，还被配置为：对所述目标游戏对局中出现的不同类型的交互动作的次数进行统计，得到不同类型的交互动作分别对应的出现总次数；基于所述不同类型的交互动作分别对应的出现总次数，确定所述待预测类型。
根据权利要求12或13所述的装置，其中，所述处理部分在所述基于所述目标游戏对局，确定至少一种待预测类型的交互动作分别对应的第一游戏数据时，还被配置为：针对每个目标游戏对局，确定所述待预测类型的交互动作在所述每个目标游戏对局中的发生时间；基于所述发生时间，确定所述第一时间点和所述第二时间点；基于所述第一时间点和所述第二时间点，从所述每个目标游戏对局对应的原始游戏数据中，截取所述待预测类型的交互动作在所述每个目标游戏对局中的目标游戏状态信息；所述目标游戏对局对应的原始游戏数据中包括多帧游戏状态信息。
根据权利要求12至14中任一项所述的装置，其中，所述处理部分在所述将所述第一游戏数据作为样本数据，训练原始神经网络，得到所述目标神经网络时，还被配置为：将所述第一游戏数据作为样本数据，将所述第一游戏数据对应的交互动作的待识别类型作为监督数据，对所述原始神经网络进行监督训练，得到多个初始化神经网络；其中，不同初始化神经网络在训练时的训练参数不同；基于不同的初始化神经网络构成不同的智能体，并利用不同的智能体控制虚拟角色进行游戏对局，得到第二原始游戏数据；利用所述第二原始游戏数据对对应的初始化神经网络进行强化训练，得到多个初始化神经网络分别对应的备选神经网络；基于所述备选神经网络分别对应的性能信息，从所述备选神经网络中，确定至少一个目标神经网络。
根据权利要求15所述的装置，其中，所述备选神经网络分别对应的性能信息，包括：利用所述备选神经网络对应的初始化神经网络进行游戏对局时的游戏评分。
一种计算机设备，包括：处理器、存储器，所述存储器存储有所述处理器可执行的机器可读指令，所述处理器用于执行所述存储器中存储的机器可读指令，所述机器可读指令被所述处理器执行时，所述处理器执行如权利要求1至8任一项所述的游戏中的交互方法的步骤。
一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被计算机设备运行时，所述计算机设备执行如权利要求1至8任一项所述的游戏中交互方法的步骤。
一种计算机程序，包括计算机可读代码，在所述计算机可读代码在计算机设备中运行的情况下，所述计算机设备中的处理器执行用于实现权利要求1至8中任一所述的方法中的步骤。
一种计算机程序产品，所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，所述计算机程序被计算机读取并执行时，实现权利要求1至8任一项所述方法中的步骤。