WO2023206771A1

WO2023206771A1 - 基于决策流图的环境建模方法、装置和电子设备

Info

Publication number: WO2023206771A1
Application number: PCT/CN2022/101444
Authority: WO
Inventors: 秦熔均; 朱焕焕; 高耸屹
Original assignee: 南栖仙策(南京)科技有限公司
Priority date: 2022-04-24
Filing date: 2022-06-27
Publication date: 2023-11-02
Also published as: CN114924684A; EP4290351A1

Abstract

本申请实施例公开了一种基于决策流图的环境建模方法、装置和电子设备，该方法包括：获取待建模的目标业务场景中的目标业务特征和目标业务特征的特征信息；基于目标业务特征，构建目标业务场景对应的目标决策流图，其中，目标决策流图中的业务节点包括：至少一个环境状态节点和至少一个决策智能体节点；基于目标决策流图中的每个业务节点所绑定的业务特征和各个业务节点之间的数据流向信息，构建目标计算图；基于目标计算图和目标业务特征的特征信息进行环境建模，确定目标业务场景对应的目标虚拟环境模型。

Description

基于决策流图的环境建模方法、装置和电子设备

本申请要求在2022年4月24日提交中国专利局、申请号为202210434180.9的中国专利申请的优先权，该申请的全部内容通过引用结合在本申请中。

本申请要求在2022年5月25日提交中国专利局、申请号为202210579742.9的中国专利申请的优先权，该申请的全部内容通过引用结合在本申请中。

技术领域

本申请实施例涉及计算机技术，例如涉及一种基于决策流图的环境建模方法、装置和电子设备。

背景技术

随着计算机技术的快速发展，强化学习作为机器学习的一种方式受到了越来越多的关注。强化学习是智能体(Agent)以“试错”的方式进行学习，通过与环境进行交互获得的奖赏指导行为，目标是使智能体获得最大的奖赏。

目前，在封闭的运行环境或者规则非常清楚的环境，比如游戏环境中，可以通过大量的“试错”采样进行强化学习，从而获得较好的学习效果。然而，大部分的业务场景中的业务环境是开放的，不确定的，边界模糊的，从而在这些业务环境中进行强化学习是难以实现的并且需要大量的学习成本，从而当前急需一种更加便捷地对业务场景进行环境建模的方式，以便支持不同业务场景下的强化学习。

发明内容

本申请实施例提供了一种基于决策流图的环境建模方法、装置和电子设备，以基于决策流图可以更加便捷地构建出不同业务场景下的虚拟环境模型，从而满足用户的个性化需求。

根据本申请的一方面，提供了一种基于决策流图的环境建模方法，包括：

获取待建模的目标业务场景中的目标业务特征和所述目标业务特征的特征信息；

基于所述目标业务特征，构建所述目标业务场景对应的目标决策流图，其中，所述目标决策流图中的业务节点包括：至少一个环境状态节点和至少一个决策智能体节点，所述至少一个环境状态节点包括当前环境状态子节点、环境状态转移子节点和下一环境状态子节点；

基于所述目标决策流图中的每个业务节点所绑定的业务特征和多个业务节点之间的数据流向信息，构建目标计算图；

基于所述目标计算图和所述目标业务特征的特征信息进行环境建模，确定所述目标业务场景对应的目标虚拟环境模型。

根据本申请的另一方面，提供了一种基于决策流图的环境建模装置，包括：

目标业务特征获取模块，设置为获取待建模的目标业务场景中的目标业务特征和所述目标业务特征的特征信息；

目标决策流图构建模块，设置为基于所述目标业务特征，构建所述目标业务场景对应的目标决策流图，其中，所述目标决策流图中的业务节点包括：至少一个环境状态节点和至少一个决策智能体节点，所述至少一个环境状态节点包括当前环境状态子节点、环境状态转移子节点和下一环境状态子节点；

目标计算图构建模块，设置为基于所述目标决策流图中的每个业务节点所绑定的业务特征和多个业务节点之间的数据流向信息，构建目标计算图；

目标虚拟环境模型确定模块，设置为基于所述目标计算图和所述目标业务特征的特征信息进行环境建模，确定所述目标业务场景对应的目标虚拟环境模型。

根据本申请的又一方面，提供了一种电子设备，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行本申请任一实施例所述的基于决策流图的环境建模方法。

根据本申请的又一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质包括：计算机程序，所述计算机程序被处理器执行时，能够实现本申请任一实施例所述的基于决策流图的环境建模方法。

附图说明

图1是本申请实施例一提供的一种基于决策流图的环境建模方法的流程图；

图2是本申请实施例一所涉及的一种决策流图的示例；

图3是本申请实施例二提供的一种基于决策流图的环境建模方法的流程图；

图4是本申请实施例三提供的一种基于决策流图的环境建模装置的结构示意图；

图5是实现本申请实施例的基于决策流图的环境建模方法的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“目标”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例一

图1为本申请实施例一提供的一种基于决策流图的环境建模方法的流程图，本实施例可适用于对任意一种业务场景进行环境建模的情况。该方法可以是基于决策流图的环境建模装置来执行，该装置可以采用硬件和/或软件的形式实现，该装置可配置于电子设备中。如图1所示，该方法包括以下步骤：

S110、获取待建模的目标业务场景中的目标业务特征和目标业务特征的特征信息。

其中，目标业务场景可以是任意一种存在决策需求的业务场景。本实施例中的目标业务场景可以是开放的，不确定的，边界模糊的业务场景。例如，目标业务场景可以是物品搜索场景，示例性的为：用户输入搜索内容进行搜索请求之后，基于该搜索请求确定出搜索出的推荐物品信息以及推荐物品展示顺序。由于给用户展示的推荐物品的顺序是非常重要的，直接影响了用户的购买行为，若利用决策方式对推荐顺序进行强化学习，并且也不想干扰用户的正常使用，因而需要构建一个接近真实的物品搜索场景的虚拟环境模型，以便在这个虚拟环境中，通过推荐一些物品，并与环境中的虚拟用户进行交互，也就是购买行为的交互，从而可以在该虚拟环境中通过强化学习得到推荐商品顺序，进而基于学习得出的决策可以提高真实的物品搜索场景中的用户购买率。又如，目标业务场景可以是拣货派单场景，示例性的为：将订单分配给拣货人员，以确定拣货时间最短的订单分配方式，若利用决策方式对订单分配方式进行强化学习，并且也不想干扰用户的正常使用，从而需要构建一个接近真实的拣货派单场景的虚拟环境模型，以便在这个虚拟环境中，通过一些虚拟订单与这个环境进行交互，从而可以在该虚拟环境中强化学习得到拣货时间最短的订单分配方式。

其中，目标业务特征可以是在目标业务场景中采集的所有业务特征，可以利用业务参数标识进行表征。目标业务特征的特征信息可以是指目标业务特征的具体数据，也就是具体的业务参数值。目标业务特征可以包括业务环境特征和业务决策特征，其中，业务环境特征可以包括决策之前的环境参数信息和决策之后的环境参数信息。业务决策特征可以是按照预设决策方式与环境进行交互而获得的决策参数信息，即智能体执行的多个动作信息。预设决策方式可以为相关技术中的决策方式。例如，在物品搜索场景中，预设决策方式可以是按照物品销量和/或物品评价得分进行排序的方式。在拣货派单场景中，预设决策方式可以是按照最短路径进行订单分配的方式。

示例性地，本实施例可以对目标业务场景中的目标业务特征和目标业务特征的特征信息进行特征处理，获得时间序列形式的特征信息。例如，时间序列形式的特征信息为：{轨迹1：时刻1的状态，决策动作1，决策结果1，时刻2的状态，决策动作2…，终止时刻N的状态}、{轨迹2：时刻1的状态，决策动作1，决策结果1，时刻2的状态，决策动作2…，终止时刻N的状态…}等。

S120、基于目标业务特征，构建目标业务场景对应的目标决策流图，其中，目标决策流图中的业务节点包括：至少一个环境状态节点和至少一个决策智能体节点，至少一个环境状态节点包括当前环境状态子节点、环境状态转移子节点和下一环境状态子节点。

其中，目标决策流图可以是一个有向无环图，其可以用于表征每个时间点不同业务特征之间的决策关系。目标决策流图中的数据流的输入与输出不能形成循环，也就是目标决策流图的结构符合有向无环图的结构。目标决策流图中的每个业务节点代表了用于计算该节点参数所使用的决策过程，业务节点之间的连线代表了数据流向。环境状态节点是一种组合节点，环境状态节点包括当前环境状态子节点、环境状态转移子节点和下一环境状态子节点，或者，环境状态节点包括当前环境状态子节点和下一环境状态子节点。其中，当前环境状态子节点是完整业务交互环境中的起点时刻的环境观测值。环境状态转移子节点是环境中由当前时刻环境状态和智能体动作计算下一时刻环境状态的过程。下一环境状态子节点是在完整业务交互完成后，可以作为下一轮业务交互起点时刻的环境状态观测值。决策智能体节点可以是目标业务场景中决策的关键主体节点，用于决策出在不同环境状态下所执行的动作。例如，在赛车场景中，游戏场景是环境，赛车是决策智能体，赛车的位置是状态，对赛车的操作是动作，如何操作赛车是决策，比赛得分是奖励。本实施例构建出的目标决策流图中可以包括至少一个环境状态节点和决策智能体节点，其数量可以基于目标业务场景的实际情况进行确定。

其中，当前环境状态子节点支持数据流的输出。环境状态转移子节点支持数据流的输入，且输出给下一环境状态子节点。决策智能体节点可以同时支持数据流的输入和输出，从而利用环境状态节点和决策智能体节点可以更加准确地描述出目标业务场景中的数据流向和决策过程。

示例性地，目标决策流图中的业务节点还包括：至少一个环境智能体节点和/或至少一个静态变量节点。其中，环境智能体节点可以是指目标业务场景中拥有决策能力的其他主体节点，用于辅助决策出在不同环境状态下所执行的动作。静态变量节点可以是指目标业务场景中固定不变的业务特征，其可以参与并影响业务环境与决策，以便可以更加准确地表征出决策过程。本实施例中的环境智能体节点可以同时支持数据流的输入和输出；静态变量节点仅支持数据流的输出，不支持数据流的输入。本实施例构建出的目标决策流图中还可以包括至少一个环境智能体节点和静态变量节点，其数量可以基于目标业务场景的实际情况进行确定。示例性地，图2给出了一种决策流图的示例。如图2所示，决策流图可以包括一个环境状态节点(例如包括当前环境状态子节点、环境状态转移子节点和下一环境状态子节点)、两个决策智能体节点、一个环境智能体节点以及一个静态变量节点，多个节点之间的数据流向如图2所示。

本实施例可以基于目标业务特征自动构建出目标决策流图，以提高构建效率。本实施例也可以基于用户在可视化界面上触发的配置操作，手动构建出目标决策流图，以便满足用户的个性化需求，实现动态配置。本实施例通过构建决策流图的方式，以统一格式更加规范地描述出多个业务参数的决策过程，以便后续基于该决策流图可以更加便捷准确地进行环境建模。

示例性地，S120可以包括：对目标业务特征进行特征分析，确定多个目标业务特征之间的依赖关系；基于依赖关系，创建多个业务节点，并确定多个业务节点之间的数据流向信息，构建出目标业务场景对应的目标决策流图。

示例性地，可以对时间序列形式中的每个时刻下的目标业务特征进行特征分析，确定每个目标业务特征对应的特征类型，比如环境状态特征、决策智能体、环境智能体或者静态变量，以及多个目标业务特征之间的依赖关系，比如，业务特征A需要基于业务特征B和业务特征C进行确定。基于每个目标业务特征对应的特征类型，创建相应的业务节点。例如，若目标业务特征为环境状态特征，则创建该业务特征对应的环境状态节点；若目标业务特征为决策智能体，则创建该目标业务特征对应的决策智能体节点；若目标业务特征为环境智能体，则创建该目标业务特征对应的环境智能体节点；若目标业务特征为静态变量，则创建该目标业务特征对应的静态变量节点。基于多个目标业务特征之间的依赖关系确定多个业务节点之间的数据流向信息，比如，可以将业务特征B和业务特征C的数据流输出到业务特征A中，从而可以自动构建出目标决策流图。该目标决策流图可以表征出从时刻T到时刻T+1之间的数据流向关系。若时刻T不是终止时刻，每条符合要求的轨迹在每个时刻T均满足目标决策流图中的数据流向关系。

示例性地，S120还可以包括：基于用户在可视化界面上触发的节点添加操作，获取用户添加的多个空节点；基于用户针对每个空节点触发的节点信息配置操作，确定每个空节点对应的业务配置信息，其中，业务配置信息包括：节点名称信息和节点所绑定的业务特征；基于业务配置信息对相应的空节点进行配置，获得相应的业务节点；基于用户对多个业务节点触发的连线操作，获取多个业务节点之间的数据流向信息，构建出目标业务场景对应的目标决策流图。

示例性地，用户可以对多个目标业务特征进行时序梳理，确定目标业务场景中所涉及到的每个节点，并在可视化界面上通过节点添加操作，比如节点拖拽方式，添加相应的空节点，比如，环境状态节点、决策智能体节点、环境智能体节点或者静态变量节点，并针对添加的每个空节点配置相应的节点信息，比如配置节点对应的节点名称信息，并通过节点绑定操作，将该节点与相应的业务特征进行绑定，从而可以获得配置后的每个业务节点，并基于多个业务参数之间的行为影响关系，对多个业务节点进行连线处理，基于用户的连线操作可以获得多个业务节点之间的数据流向信息，从而用户可以基于业务需求手动构建出目标决策流图，满足用户的个性化需求。

其中，节点配置信息还可以包括：节点数据类型、数据取值范围和插入函数信息。节点数据类型包括：连续类型、离散类型和默认类型，其中，离散类型包括：离散有序类型和离散无序类型。插入函数信息可以是基于专家经验构建的函数，从而通过插入该函数使得决策流图中可以混合专家经验，提高构建的灵活性和准确性。示例性地，用户还可以动态配置每个节点的节点数据类型、数据取值范围和插入函数信息，从而可以构建出更加符合实际情况且准确的目标决策流图。

S130、基于目标决策流图中的每个业务节点所绑定的业务特征和多个业务节点之间的数据流向信息，构建目标计算图。

其中，目标计算图(computation graph)可以是指可计算的决策流图。目标决策流图可以对应一个目标计算图。目标计算图可以直接用于目标业务场景对应的虚拟环境模型的构建中。

示例性地，可以基于目标决策流图中的每个业务节点所绑定的业务特征和多个业务节点之间的数据流向信息，将目标决策流图转换为可直接用于环境建模中的目标计算图。

示例性地，S130可以包括：对目标决策流图进行格式转换，确定结构化数据格式的目标决策数据；基于目标决策数据中的每个业务节点所绑定的业务特征和多个业务节点之间的数据流向信息，确定多个计算节点以及多个计算节点之间的计算关系，构建出目标计算图。

其中，结构化数据格式可以是但不限于YAML(Yet Another Markup Language) 标记语言格式或者JSON(JavaScript Object Notation)格式等。示例性地，可以将目标决策流图转换为结构化数据格式的目标决策数据，比如，获得YAML格式的目标决策文件并进行文件存储。根据目标决策数据中的每个业务节点所绑定的业务特征和多个业务节点之间的数据流向信息，可以确定出深度学习网络框架(比如TensorFlow、Pytorch等)中的所有计算节点以及计算节点之间的计算关系，从而构建出目标计算图。其中，每个计算节点是一个带有参数的可计算函数，例如可以是深度神经网络或其他参数化的函数。

需要说明的是，本实施例可以利用目标业务特征的特征信息去验证和判断目标计算图中的节点决策逻辑关系的正确性。例如，可以利用时间序列形式的特征信息验证目标计算图中的每个计算节点的数据格式的准确性以及计算节点之间的数据流向的准确性。相关技术中构建数据流图需要写代码配置数据流向以及定义函数节点。数据流图通常是方便研发任意去查看业务场景中所涉及到哪些节点以及节点之间的关系，并基于自己的理解去编写代码，编写代码实现的方式会与实际的数据流图存在一定的偏差，并且与实际业务特征信息相脱节，并且也不会考虑到兼容深度学习网络模型的训练。本实施例通过构建可直接用于环境建模中的目标计算图，从而可以更加准确合理地进行环境建模，保证了虚拟环境模型的准确性。

S140、基于目标计算图和目标业务特征的特征信息进行环境建模，确定目标业务场景对应的目标虚拟环境模型。

其中，目标虚拟环境模型可以是一种深度学习网络模型，其可以模仿目标业务场景中的真实环境的运行。

示例性地，基于目标计算图可以构建出初始的虚拟环境模型，并基于目标业务特征的特征信息可以对该虚拟环境模型进行训练，获得训练结束后的目标虚拟环境模型，以便利用目标虚拟环境模型代替实际的目标业务环境进行强化学习，提高了强化学习效果，并且满足了用户的个性化需求，进而也可以使得强化学习落地到真实的业务场景中。

示例性地，在S140之后还包括：基于目标虚拟环境模型，对目标业务场景中的预设决策模型进行强化学习，获得强化学习后的目标决策模型。

其中，预设决策模型可以是指目标决策流图中的一个决策智能体节点。预设决策模型设置为在不同的环境状态决策采取的行为动作信息，以使轨迹上的累计奖励最大化。示例性地，在目标虚拟环境模型中，预设决策模型与该虚拟环境在一段连续时间内不断进行交互可以产生一个交互轨迹，并通过对交互轨迹上的累计奖励进行最大化的方式，对预设决策模型进行强化学习，训练出最优的决策方式，获得最终的目标决策模型，从而可以在目标虚拟环境模型中更加便捷地对预设决策模型进行强化学习，无需干扰真实用户，并且保证了目标决策模型的学习效果。

本申请实施例的技术方案，通过基于待建模的目标业务场景中的目标业务特征，构建出目标业务场景对应的目标决策流图，该目标决策流图中的各个业务节点可以包括：至少一个环境状态节点和至少一个决策智能体节点，其中，至少一个环境状态节点可以包括当前环境状态子节点、环境状态转移子节点和下一环境状态子节点。基于目标决策流图中的每个业务节点所绑定的业务特征和多个业务节点之间的数据流向信息，构建可直接参与环境建模中的目标计算图。基于目标计算图和目标业务特征的特征信息进行环境建模，可以更加便捷地确定出目标业务场景对应的目标虚拟环境模型，从而可以利用目标虚拟环境模型代替实际的目标业务环境进行强化学习，大幅降低了在实际目标业务环境试错的成本，进而提高了强化学习效果，并且满足了用户的个性化需求。

实施例二

图3为本申请实施例二提供的一种基于决策流图的环境建模方法的流程图，本实施例在上述实施例的基础上，对目标虚拟环境模型的构建过程进行了详细描述。其中与上述实施例相同或相应的术语的解释在此不再赘述。参见图3，本实施例提供基于决策流图的环境建模方法包括：

S310、获取待建模的目标业务场景中的目标业务特征和目标业务特征的特征信息。

S320、基于目标业务特征，构建目标业务场景对应的目标决策流图。

S330、基于目标决策流图中的每个业务节点所绑定的业务特征和多个业务节点之间的数据流向信息，构建目标计算图。

S340、基于目标计算图，创建初始虚拟环境模型。

示例性地，可以基于目标计算图，创建出预先设置好的深度学习网络框架对应的初始虚拟环境模型，或者基于用户当前配置的机器学习框架创建相应的初始虚拟环境模型。例如，可以基于预设超参空间进行超参配置，不同的业务场景配置不同的超参，以构建出最佳的初始虚拟环境模型。例如，若配置了自动调参，则在环境模型训练过程中可以自动搜索最优参数。例如，深度学习网络框架中的模型结构可以包括但不限于：卷积神经网络CNN(Convolutional Neural Network)、长短期记忆网络LSTM(Long Short Term Mermory network)和残差网络ResNet中的至少一种，从而可以构建出不同结构的初始虚拟环境模型。

S350、基于目标业务特征的特征信息，确定交互样本数据和交互样本对应的实际轨迹。

示例性地，智能体与虚拟环境各执行一次的过程被称为一次交互或一步，决策智能体与虚拟环境在一段连续时间内不断进行交互所产生的一系列数据被称为轨迹。可以基于目标计算图中的每个业务节点所绑定的业务特征信息和多个业务节点之间的数据流向信息，从目标业务特征信息中提取出优化目标所对应的交互样本数据以及在目标业务场景中该交互样本数据所对应的实际轨迹。

S360、将交互样本数据输入至初始虚拟环境模型中，并根据初始虚拟环境模型的输出，获得仿真轨迹。

示例性地，将交互样本数据输入至待训练的初始虚拟环境模型中，确定在决策智能体与虚拟环境每次交互后获得环境状态数据，并基于在一段连续时间内不断进行交互所产生的多个环境状态数据可以获得在初始虚拟环境模型中确定出的仿真轨迹。

S370、基于仿真轨迹和实际轨迹，确定轨迹相似度，并基于轨迹相似度调整初始虚拟环境模型中的参数权重，直至达到预设收敛条件时训练结束，获得目标业务场景对应的目标虚拟环境模型。

其中，轨迹相似度可以用于表征虚拟环境与真实环境之间的差异。轨迹相似度越高，则表明虚拟环境越接近真实环境

示例性地，类似于监督学习的方式，本实施例可以基于平均绝对误差函数或者平均平方误差函数等预设误差函数，确定出仿真轨迹与实际轨迹之间的轨迹相似度，即环境得分，并可以在轨迹相似度大于预设阈值时，对初始虚拟环境模型中的参数权重进行调整，并继续对调整后的初始虚拟环境模型进行训练。在轨迹相似度小于预设阈值或者变化趋于平稳时，可以确定达到预设收敛条件，初始虚拟环境模型训练结束，获得目标虚拟环境模型。

本实施例的技术方案，通过基于仿真轨迹和实际轨迹确定轨迹相似度，并基于轨迹相似度调整初始虚拟环境模型中的参数权重，直至达到预设收敛条件时训练结束，获得目标业务场景对应的目标虚拟环境模型，从而可以基于监督学习的方式进行环境建模，可以更加准确便捷地训练出目标虚拟环境模型。

以下是本申请实施例提供的基于决策流图的环境建模装置的实施例，该装置与上述各实施例的基于决策流图的环境建模方法属于同一个发明构思，在基于决策流图的环境建模装置的实施例中未详尽描述的细节内容，可以参考上述基于决策流图的环境建模方法的实施例。

实施例三

图4为本申请实施例三提供的一种基于决策流图的环境建模装置的结构示意图。如图4所示，该装置包括：目标业务特征获取模块410、目标决策流图构建模块420、目标计算图构建模块430和目标虚拟环境模型确定模块440。

其中，目标业务数据获取模块410，设置为获取待建模的目标业务场景中的目标业务特征和目标业务特征的特征信息；目标决策流图构建模块420，设置为基于目标业务特征，构建目标业务场景对应的目标决策流图，其中，目标决策流图中的业务节点包括：至少一个环境状态节点和至少一个决策智能体节点，至少一个环境状态节点包括当前环境状态子节点、环境状态转移子节点和下一环境状态子节点；目标计算图构建模块430，设置为基于目标决策流图中的每个业务节点所绑定的业务特征和多个业务节点之间的数据流向信息，构建目标计算图；目标虚拟环境模型确定模块440，设置为基于目标计算图和目标业务特征的特征信息进行环境建模，确定目标业务场景对应的目标虚拟环境模型。

本申请实施例的技术方案，通过基于待建模的目标业务场景中的目标业务特征，构建出目标业务场景对应的目标决策流图，该目标决策流图中的各个业务节点可以包括：至少一个环境状态节点和至少一个决策智能体节点，其中，至少一个环境状态节点可以包括当前环境状态子节点、环境状态转移子节点和下一环境状态子节点。基于目标决策流图中的每个业务节点所绑定的业务特征和多个业务节点之间的数据流向信息，构建可直接参与环境建模中的目标计算图。基于目标计算图和目标业务特征的特征信息进行环境建模，可以更加便捷地确定出目标业务场景对应的目标虚拟环境模型，从而可以利用目标虚拟环境模型代替实际的目标业务环境进行强化学习，进而提高了强化学习效果，并且满足了用户的个性化需求。

可选地，当前环境状态子节点支持数据流的输出；环境状态转移子节点支持数据流的输入，且输出给下一环境状态子节点；决策智能体节点支持数据流的输入和输出。

可选地，目标决策流图中的业务节点还包括：至少一个环境智能体节点和/或至少一个静态变量节点；其中，环境智能体节点支持数据流的输入和输出；静态变量节点仅支持数据流的输出，不支持数据流的输入。

可选地，目标业务特征的数量为多个，目标决策流图构建模块420，设置为：

对多个目标业务特征进行特征分析，确定多个目标业务特征之间的依赖关系；基于依赖关系，创建多个业务节点，并确定多个业务节点之间的数据流向信息，构建出目标业务场景对应的目标决策流图。

可选地，目标决策流图构建模块420，还设置为：

基于用户在可视化界面上触发的节点添加操作，获取用户添加的多个空节点；基于用户针对每个空节点触发的节点信息配置操作，确定每个空节点对应的业务配置信息，其中，业务配置信息包括：节点名称信息和节点所绑定的业务特征；基于业务配置信息对相应的空节点进行配置，获得相应的业务节点；基于用户对多个业务节点触发的连线操作，获取多个业务节点之间的数据流向信息，构建出目标业务场景对应的目标决策流图。

可选地，节点配置信息还包括：节点数据类型、数据取值范围和插入函数信息；节点数据类型包括：连续类型、离散类型和默认类型，其中，离散类型包括：离散有序类型和离散无序类型。

可选地，目标计算图构建模块430，设置为：

对目标决策流图进行格式转换，确定结构化数据格式的目标决策数据；基于目标决策数据中的每个业务节点所绑定的业务特征和多个业务节点之间的数据流向信息，确定多个计算节点以及多个计算节点之间的计算关系，构建出目标计算图。

可选地，目标虚拟环境模型确定模块440，设置为：

基于目标计算图，创建初始虚拟环境模型

基于目标业务特征的特征信息，确定交互样本数据和交互样本对应的实际轨迹；

将交互样本数据输入至初始虚拟环境模型中，并根据初始虚拟环境模型的输出，获得仿真轨迹；

基于仿真轨迹和实际轨迹，确定轨迹相似度，并基于轨迹相似度调整初始虚拟环境模型中的参数权重，直至达到预设收敛条件时训练结束，获得目标业务场景对应的目标虚拟环境模型。

可选地，该装置还包括：

强化学习模块，设置为在确定目标业务场景对应的目标虚拟环境模型之后，基于目标虚拟环境模型，对目标业务场景中的预设决策模型进行强化学习，获得强化学习后的目标决策模型。

本申请实施例所提供的基于决策流图的环境建模装置可执行本申请任意实施例所提供的基于决策流图的环境建模方法，具备执行基于决策流图的环境建模方法相应的功能模块。

值得注意的是，上述基于决策流图的环境建模装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。

实施例四

图5示出了可以用来实施本申请的实施例的电子设备10的结构示意图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图5所示，电子设备10包括至少一个处理器11，以及与至少一个处理器11通信连接的存储器，如只读存储器(Read-Only Memory，ROM)12、随机访问存储器(Random Access Memory，RAM)13等，其中，存储器存储有可被至少一个处理器执行的计算机程序，处理器11可以根据存储在只读存储器(ROM)12中的计算机程序或者从存储单元18加载到随机访问存储器(RAM)13中的计算机程序，来执行各种适当的动作和处理。在RAM 13中，还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM 12以及RAM 13通过总线14彼此相连。输入/输出(Input/Output，I/O)接口15也连接至总线14。

电子设备10中的多个部件连接至I/O接口15，包括：输入单元16，例如键盘、鼠标等；输出单元17，例如各种类型的显示器、扬声器等；存储单元18，例如磁盘、光盘等；以及通信单元19，例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(Central Processing Unit，CPU)、图形处理单元(Graphics Processing Unit，GPU)、各种专用的人工智能(Artificial Intelligence，AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(Digital Signal Processing，DSP)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理，例如基于决策流图的环境建模方法。

在一些实施例中，基于决策流图的环境建模方法可被实现为计算机程序，其被有形地包含于计算机可读存储介质，例如存储单元18。在一些实施例中，计算机程序的部分或者全部可以经由ROM 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM 13并由处理器11执行时，可以执行上文描述的基于决策流图的环境建模方法的至少一个步骤。备选地，在其他实施例中，处理器11可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行基于决策流图的环境建模方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(Field Programmable Gate Array，FPGA)、专用集成电路(Application Specific Integrated Circuit，ASIC)、专用标准产品(Application Specific Standard Parts，ASSP)、芯片上系统的系统(System on Chip，SOC)、负载可编程逻辑设备(Complex Programmable Logic Device，CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在至少一个计算机程序中，该至少一个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

为了提供与用户的交互，可以在电子设备上实施此处描述的系统和技术，该电子设备具有：用于向用户显示信息的显示装置(例如，阴极射线管(Cathode Ray Tube，CRT)或者液晶显示器(Liquid Crystal Display，LCD)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(Local Area Network，LAN)、广域网(Wide Area Network，WAN)、区块链网络和互联网。

计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与虚拟专用服务器(Virtual Private Server，VPS)服务中，存在的管理难度大，业务扩展性弱的缺陷。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请的技术方案所期望的结果，本文在此不进行限制。

Claims

一种基于决策流图的环境建模方法，包括：

获取待建模的目标业务场景中的目标业务特征和所述目标业务特征的特征信息；

基于所述目标业务特征，构建所述目标业务场景对应的目标决策流图，其中，所述目标决策流图中的业务节点包括：至少一个环境状态节点和至少一个决策智能体节点，所述至少一个环境状态节点包括当前环境状态子节点、环境状态转移子节点和下一环境状态子节点；

基于所述目标决策流图中的每个业务节点所绑定的业务特征和多个业务节点之间的数据流向信息，构建目标计算图；

基于所述目标计算图和所述目标业务特征的特征信息进行环境建模，确定所述目标业务场景对应的目标虚拟环境模型。
根据权利要求1所述的方法，其中，所述当前环境状态子节点支持数据流的输出；所述环境状态转移子节点支持数据流的输入，且输出给所述下一环境状态子节点；所述决策智能体节点支持数据流的输入和输出。
根据权利要求1所述的方法，其中，所述目标决策流图中的业务节点还包括：至少一个环境智能体节点和至少一个静态变量节点中的至少之一；其中，每个环境智能体节点支持数据流的输入和输出；每个静态变量节点仅支持数据流的输出，不支持数据流的输入。
根据权利要求1所述的方法，其中，所述目标业务特征的数量为多个，所述基于所述目标业务特征，构建所述目标业务场景对应的目标决策流图，包括：

对多个目标业务特征进行特征分析，确定所述多个目标业务特征之间的依赖关系；

基于所述依赖关系，创建多个业务节点，并确定所述多个业务节点之间的数据流向信息，构建出所述目标业务场景对应的目标决策流图。
根据权利要求1所述的方法，其中，所述基于所述目标业务特征，构建所述目标业务场景对应的目标决策流图，包括：

基于用户在可视化界面上触发的节点添加操作，获取用户添加的多个空节点；

基于用户针对每个空节点触发的节点信息配置操作，确定每个空节点对应的业务配置信息，其中，所述业务配置信息包括：节点名称信息和节点所绑定的业务特征；

基于所述业务配置信息对相应的空节点进行配置，获得相应的业务节点；

基于用户对多个业务节点触发的连线操作，获取多个业务节点之间的数据流向信息，构建出所述目标业务场景对应的目标决策流图。
根据权利要求5所述的方法，其中，所述节点配置信息还包括：节点数据类型、数据取值范围和插入函数信息；所述节点数据类型包括：连续类型、离散类型和默认类型，其中，所述离散类型包括：离散有序类型和离散无序类型。
根据权利要求1所述的方法，其中，所述基于所述目标决策流图中的每个业务节点所绑定的业务特征和多个业务节点之间的数据流向信息，构建目标计算图，包括：

对所述目标决策流图进行格式转换，确定结构化数据格式的目标决策数据；

基于所述目标决策数据中的每个业务节点所绑定的业务特征和所述多个业务节点之间的数据流向信息，确定多个计算节点以及所述多个计算节点之间的计算关系，构建出目标计算图。
根据权利要求1所述的方法，其中，所述基于所述目标计算图和所述目标业务特征的特征信息进行环境建模，确定所述目标业务场景对应的目标虚拟环境模型，包括：

基于所述目标计算图，创建初始虚拟环境模型；

基于所述目标业务特征的特征信息，确定交互样本数据和所述交互样本对应的实际轨迹；

将所述交互样本数据输入至所述初始虚拟环境模型中，并根据所述初始虚拟环境模型的输出，获得仿真轨迹；

基于所述仿真轨迹和实际轨迹，确定轨迹相似度，并基于所述轨迹相似度调整初始虚拟环境模型中的参数权重，直至达到预设收敛条件时训练结束，获得所述目标业务场景对应的目标虚拟环境模型。
根据权利要求1-8任一项所述的方法，在确定所述目标业务场景对应的目标虚拟环境模型之后，还包括：

基于所述目标虚拟环境模型，对所述目标业务场景中的预设决策模型进行强化学习，获得强化学习后的目标决策模型。
一种基于决策流图的环境建模装置，包括：

目标业务特征获取模块，设置为获取待建模的目标业务场景中的目标业务特征和所述目标业务特征的特征信息；

目标决策流图构建模块，设置为基于所述目标业务特征，构建所述目标业务场景对应的目标决策流图，其中，所述目标决策流图中的业务节点包括：至少一个环境状态节点和至少一个决策智能体节点，所述至少一个环境状态节点包括当前环境状态子节点、环境状态转移子节点和下一环境状态子节点；

目标计算图构建模块，设置为基于所述目标决策流图中的每个业务节点所绑定的业务特征和多个业务节点之间的数据流向信息，构建目标计算图；

目标虚拟环境模型确定模块，设置为基于所述目标计算图和所述目标业务特征的特征信息进行环境建模，确定所述目标业务场景对应的目标虚拟环境模型。
一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-9中任一项所述的基于决策流图的环境建模方法。
一种计算机可读存储介质，包括：计算机程序，所述计算机程序被处理器执行时，能够实现权利要求1-9中任一项所述的基于决策流图的环境建模方法。