WO2023108987A1

WO2023108987A1 - 基于强化学习的风险预测的方法、装置、设备及存储介质

Info

Publication number: WO2023108987A1
Application number: PCT/CN2022/090029
Authority: WO
Inventors: 肖京; 郭骁; 王磊; 王媛; 刘云风; 谭韬; 陈又新
Original assignee: 平安科技（深圳）有限公司
Priority date: 2021-12-15
Filing date: 2022-04-28
Publication date: 2023-06-22
Also published as: CN114240656A

Abstract

一种基于强化学习的风险预测的方法、装置、设备及存储介质，涉及人工智能领域。其中方法包括：接收目标标的物的风险预测请求，该风险预测请求包括预测日期（S201）；获取该风险预测请求的接收日期和接收日期的前N天目标标的物的目标历史数据（S202）；对目标历史数据进行特征提取，得到多个预设特征维度中每一预设特征维度对应的目标状态特征（S203）；将目标状态特征输入至第一风险预测模型，得到目标标的物在预测日期的风险值（S204），其中，第一风险预测模型是基于第一训练集、第一Critic模型或第二Critic模型，对第一Actor模型进行优化得到的模型。该方法可以提高风险预测的准确率，有利于进行风险决策。

Description

基于强化学习的风险预测的方法、装置、设备及存储介质

优先权申明

本申请要求于2021年12月15日提交中国专利局、申请号为202111535520.9，发明名称为“基于强化学习的风险预测的方法、装置、设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能领域，尤其涉及一种基于强化学习的风险预测的方法、装置、设备及存储介质。

背景技术

近年来，伴随着互联网的飞速发展，人工智能算法领域有了很大的进步。强化学习也逐步发展起来，成为人工智能的一个重要分支。强化学习是一种通过智能体(agent)相对于环境(environment)的运动，从环境中获得回报(reward)，从而最大化回报的一种机器学习算法。强化学习受到广大研究者的青睐，已成功应用在自动化，智能控制，自动驾驶等领域。

目前，在金融领域的应用是强化学习当下研究的热点，主要用于对金融市场进行分析研究与决策。基于强化学习的模型对金融市场中的标的物(例如，股票、基金、期货、债券、衍生品等)的风险值进行预测，可以极大减少了人主观计算，人主观情绪化操作带来的一些损失，以及人工操作失误带来的影响。然而，发明人意识到标的物的数据具有高度时变性，导致模型表现不佳，实际预测效果差。

发明内容

本申请实施例提供了一种基于强化学习的风险预测的方法、装置、设备及存储介质，可以提高风险预测的准确率，有利于进行风险决策。

第一方面，本申请实施例提供了一种基于强化学习的风险预测的方法，其中：

接收目标标的物的风险预测请求，所述风险预测请求包括预测日期；

获取所述风险预测请求的接收日期和所述接收日期的前N天所述目标标的物的目标历史数据，所述N为大于或等于1的正整数；

对所述目标历史数据进行特征提取，得到多个预设特征维度中每一预设特征维度对应的目标状态特征；

将所述目标状态特征输入至第一风险预测模型，得到所述目标标的物在所述预测日期的风险值，其中，所述第一风险预测模型是基于第一训练集、第一Critic模型或第二Critic模型，对第一Actor模型进行优化得到的模型，所述第一Actor模型是基于第二训练集进行训练得到的，所述第一训练集和所述第二训练集是从预设数据库中提取的历史数据，所述预设数据库包括所述目标历史数据。

第二方面，本申请实施例提供了一种基于强化学习的风险预测的装置，其中：

接收单元，用于接收目标标的物的风险预测请求，所述风险预测请求包括预测日期；

处理单元，用于获取所述风险预测请求的接收日期和所述接收日期的前N天所述目标标的物的目标历史数据，所述N为大于或等于1的正整数；

第三方面，本申请实施例提供了一种计算机设备，其中，包括处理器、存储器和通信接口，其中，所述存储器存储有计算机程序，所述计算机程序被配置由所述处理器执行，所述计算机程序包括用于执行以下步骤的指令：

第四方面，本申请实施例提供了一种计算机可读存储介质，其中，所述计算机可读存储介质存储计算机程序，所述计算机程序使得计算机执行以下步骤的指令：

实施本申请实施例，将具有如下有益效果：

采用上述的基于强化学习的风险预测的方法、装置、设备及存储介质，在接收目标标的物的风险预测请求之后，获取风险预测请求的接收日期和所述接收日期的前N天目标标的物的目标历史数据，对该目标历史数据进行特征提取，得到多个预设特征维度中每一预设特征维度对应的目标状态特征。然后将该目标状态特征输入至第一预测模型，从而得到目标标的物在预测日期的风险值。其中，第一风险预测模型是基于第一训练集、第一Critic模型或第二Critic模型，对第一Actor模型进行优化得到的模型，第一Actor模型是基于第二训练集进行训练得到的，第一训练集和第二训练集是从预设数据库中提取的历史数据，预设数据库包括所述目标历史数据。如此，经过多次训练和优化得到的模型进行风险预测，可以提升风险预测的准确率，有利于进行风险决策。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以基于这些附图获得其他的附图。其中：

图1为本申请实施例提供的一种Actor-Critic算法的工作原理示意图；

图2为本申请实施例提供的一种基于强化学习的风险预测的方法的流程示意图；

图3为本申请实施例提供的一种LSTM算法的结构示意图；

图4为本申请实施例提供的一种基于LSTM算法的第一Actor模型的结构示意图；

图5为本申请实施例提供的一种Actor-Critic交互训练流程图；

图6为本申请实施例提供的一种基于强化学习的风险预测的装置的结构示意图；

图7为本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

具体地，该基于强化学习的风险预测的方法可以应用在银行、证券、保险等金融机构配置的电子设备或服务器上。目前，在金融领域的应用是强化学习当下研究的热点，主要用于对金融市场进行分析研究与决策。

强化学习是一种通过智能体(agent)相对于环境(environment)的运动，从环境中获得回报(reward)，从而最大化回报的一种机器学习算法。因此，强化学习算法存在几个基本的要素：智能体，环境，状态，动作，回报(或称为奖励)。为了便于理解，下文首先介绍这几个基本的概念。

(1)智能体，也称为“代理”、“代理者”、“智能主体”等。智能体可以根据外界环境的变化，而自动地对自己的行为和状态进行调整，而不是仅仅被动地接受外界的刺激，具有自我管理自我调节的能力。此外，智能体还可以积累或学习经验和知识，并修改自己的行为以适应新环境。

(2)环境，是系统中除智能体以外的部分，可以向智能体反馈状态和奖励，还可以按照一定的规律发生变化。对于金融领域而言，环境可以是金融市场。

(3)状态，是系统在每一个时间段所处的客观条件。对于金融市场中的某只标的物而言，在某个时间段可以有上涨、下跌和盘整三种状态。

(4)动作，也称决策。在时间和状态确定后，智能体会根据环境所处的状态做出不同的选择，从而使得当前状态可以确定地转移或者以一定概率转移到下一状态，这个过程称为动作。针对于某只标的物的操作可以有买进、卖出和持有三种不同的动作。

(5)回报，也称奖励，可以定义为采取某一动作之后带来的后续收益。回报可以是正的，也可以是负的。

强化学习的算法大致可以分为以值为基础(value-based)的算法和以策略为基础(policy-based)的算法。以值为基础的算法典型代表为Q-Learning算法，以策略为基础的算法典型代表是策略梯度(policy gradient，PG)。

在金融领域，Q-Learning算法主要是通过定义市场状态。然后根据贪心(ε-greedy)策略去选择交易动作，再与环境交互得到回报。该算法的主要思想就是将状态和动作构成一个Q值表来存储Q值，然后根据回报更新Q值表，从而达到优化交易动作的目的。但是，当状态或动作的维度太大时，Q-Learning算法很难收敛。

与Q-Learning算法类似，PG算法在金融领域的应用同样是定义市场状态，根据已有策略选择最有利的动作。通过环境反馈得到该动作的回报，然后反向更新策略算法。PG算法可以用于高维度的动作空间，但是PG算法容易陷入局部最优，而且基于回合更新相对低效。

Actor-Critic算法，顾名思义，包括两部分，分别是演员(Actor)和评委(Critic)。该算法结合了PG算法和Q-Learning算法的优点。Actor作为策略网络基于概率来选行为，而Critic基于Actor的行为评判行为的得分。然后Actor根据Critic的评分修改选择动作的概率。两者结合，可使策略网络根据值函数进行梯度更新，以优化模型参数，获得不同环境状态下的最优动作选择，相较于传统的PG回合更新快。Actor-Critic算法工作原理如图1所示。

Actor模型使用策略网络，对策略函数进行近似估计，策略函数的形式可以表示为：

π _θ(s,a)＝P(a|s)

其含义是，π为智能体面对环境做出决策的方式，动作a是基于状态s和网络权重θ的条件概率。当给定t时刻状态s _t，计算可得概率最大的动作a _t，并使之于环境交互，得到实际奖励值r _t+1和下一时刻状态s _t+1。

Critic模型使用价值网络，对价值函数进行近似估计，价值函数的形式可以包括如下几种：

(1)状态价值函数

v(s,w)≈v _π(s)

或者：

(2)状态-动作价值函数

q(s,a,w)≈q _π(s,a)

策略网络参数则根据策略梯度进行更新：

其中，w是Critic模型的网络参数，θ和θ′分别为更新前后策略网络参数，α为更新步长，α根据实际情况进行选择。

Critic模型的评估方法可以基于以下几种函数：

(1)状态价值函数：

(2)状态-动作价值函数：

(3)时间差分函数：

其中，时间差分项的表达式可利用状态价值函数，即δ(t)＝r _t+1+γV(s _t+1,w)-V(s _t,w)或利用状态-动作价值函数δ(t)＝r _t+1+γQ(s _t+1,a _t+1,w)-Q(s _t,a _t,w)。

(4)优势函数：

其中，优势函数状态-动作价值函数与状态价值函数的差值，为A(s _t,a _t,w,β)＝Q(s _t,a _t,w,ρ)-V(s _t,w,β)，β是优势函数的网络参数。

(5)TD(λ)差分：

其中，E(t)为状态的效用迹，可以表示为：

对于Critic本身的模型参数w，一般使用均方误差损失函数进行迭代更新。以基于状态价值函数的时间差分函数为例，Critic网络参数w的更新公式可以表示为：

δ(t)＝r _t+1+γV(s _t+1)-V(s _t)

如图1所示，Actor-Critic算法中，首先，以当前状态的特征向量s _t作为Actor策略网络的输入，输出动作a _t，并与环境交互得到新状态s _t+1，当前奖励值r _t。其次，使用当前状态s _t和新状态s _t+1作为Critic价值网络的输入，分别得到价值V(s _t)和V(s _t+1)，以及当前奖励值r _t。接着，根据价值V(s _t)和V(s _t+1)，以及当前奖励值r _t，计算时间差分δ，得到该时间差分δ＝r _t+γV(s _t+1)-V(s _t)。然后，使用均方差损失函数∑(r _t+γV(s _t+1)-V(s _t)) ²对Critic价值网络参数w进行更新。最后，通过损失函数

对Actor策略网络参数θ进行更新。输入新的表示当前状态的特征向量s _t，以重复执行以上步骤直至达到训练次数或目标函数收敛。其中，训练次数可以为T，状态特征维度可以为Y，动作空间可以为A，步长可以为α，β，衰减因子γ，γ的取值可以介于0.0和1.0之间。

以上，为Actor-Critic算法的介绍，上述方法在传统的强化学习任务中，通常通过计算累积奖励学习最优策略。这种方法虽然简单直接，但是在多步决策中需要巨大的数据量进行奖励累积，而巨大的搜索空间使得金融市场决策问题中的样本十分稀缺，从而造成了奖励的稀疏，因此无法有效优化决策模型参数。

本申请实施例主要针对强化学习中的Actor-Critic算法进行改进，以提高风险预测的准确率，有利于进行风险决策。具体的，请参照图2，图2是本申请实施例提供的一种基于强化学习的风险预测的方法的流程示意图。以该方法应用在电子设备为例进行举例说明，包括以下步骤S201-S204，其中：

步骤S201：接收目标标的物的风险预测请求，风险预测请求包括预测日期。

在本申请实施例中，目标标的物可以是某一只或者多只股票，还可以是债券、基金、期货等金融产品。风险预测请求可以是根据用户的操作生成的，也可以是预测周期到达时自动触发的，在此不做限定。该预测周期可以是每个工作日。例如：每个工作日15点闭市后，向电子设备发送风险预测请求。如此，在预测周期到达时，可以对目标标的物进行风险预测。

在本申请实施例中，预测日期可以是当前日期的后一天，也可以是当前日期后一周的某一天，在此不做限定。如果获取到风险预测请求中的预测日期为标的物对应的交易市场休市时间，如双休日或节假日，则预测日期往后顺延至工作日。示例地，当前日期为2021年10月17日，预测日期可以是2021年10月18日，也可以是2021年10月19日。如果获取到风险预测请求中的预测日期为2021年10月17日(周日)，则将预测日期顺延至2021年10月18日(周一)。如果风险预测请求中没有指定预测日期，则默认预测日期为当前日期的后一天，遇双休日或节假日顺延。

步骤S202：获取风险预测请求的接收日期和接收日期的前N天目标标的物的目标历史数据。

在本申请实施例中，接收日期是指电子设备接收到风险预测请求的日期。N可以为大于1或等于1的任一正整数，不对N的具体取值做出限定。示例地，N可以取10，也还可以取30，还可以取60。N还可以基于预测日期和接收日期之间的时间间隔进行确定，例如，时间间隔越大，N越大。

目标历史数据可以从预设数据库中提取。预设数据库可以预先存储于电子设备中，或者，存储在服务器中，电子设备通过访问服务器获取预设数据库。预设数据库中可以包括从历史时间到当前时间之间的标的物的常用价量指标数据。其中，历史时间可以指已经过去的任一时间。示例地，历史时间可以是2010年1月1日，也可以2018年12月31日，还可以是2020年1月1日等，对此不做限定。且本申请对于预设数据库中数据的数据类型不做限定，请参照表1，预设数据库中的数据可以包括标的物的开盘价、收盘价、最高价、最低价、成交量、5日均线、10日均线、20日均线、60日均线等。

表1标的物的常用价量指标数据

编号	指标代码	指标名称
1	Pop	开盘价
2	Pcl	收盘价
3	Phi	最高价
4	Plo	最低价
5	Volume	成交量
6	MA5	5日均线
7	MA10	10日均线
8	MA20	20日均线
9	MA60	60日均线

预设数据库可以包括专家因子库的数据。专家因子是指与各标的物下行风险有一定定性和定量关系的因子。如表2所示，专家因子库可以包括以下八大维度：宏观大类指标、行业产业指标、特色衍生指标、资本技术指标、资金流向指标、衍生市场指标和舆情热度指标。每一预设特征维度对应一定量的目标状态特征，具体可以参照表2。示例地，资本技术指标对应的目标状态特征可以是N日均线、N日波动率、布林线、麦克线等；资金流向指标对应的目标状态特征可以是北向资金流入、南向资金流入、主力资金流入等。

进一步地，预设数据库还可以包括表2中所示的采购经理人指数(purchasing managers'index，PMI)、布林线、北向资金流入等；或者可以包括表2中未示出的大盘指数，例如，上证指数、深证指数、创业板指数、恒生指数和标普500 指数等，本申请实施例对此不作限定。

表2标的物的专家因子库的数据

预设数据库的数据来源可以是从金融相关的网页或应用程序中导出数据，也可以是统计局发布经济数据、企业财务报表、沪/深/境外市场数据、社交媒体统计数据等，在此不做限定。

步骤S203：对目标历史数据进行特征提取，得到多个预设特征维度中每一预设特征维度对应的目标状态特征。

在一些可能的实施方式中，在执行步骤S202之后，还可以包括以下步骤：对目标历史数据中的异常数据进行预处理，得到待处理数据。步骤S203可以包括：对待处理数据进行特征提取，得到多个预设特征维度中每一预设特征维度对应的目标状态特征。

在本申请实施例中，异常数据可以包括缺失值和噪声值。噪声值是指干扰数据，可以为对场景描述不准确的数据。例如，计算测量变量中的随机误差或方差，确定小于随机误差或方差的数值为噪声值等。对目标历史数据中的异常数据进行预处理可以包括：缺失值的填补和噪声值的处理。对于缺失值的填补的方式，本申请实施例不做出限定，可以采用平均值填充(mean/mode completer)、热卡填充(hot deck imputation)、K最近距离邻法(k-means clustering)等方式对缺失值进行填补。本申请实施例不对处理噪声值的方法进行限定，可以采用分箱、聚类或回归中的一种或者多种方式来处理噪声值。对异常数据进行预处理，得到待处理数据之后，还可以对待处理数据进行归一化处理。可以理解，对异常数据进行预处理，有利于提高数据处理的效率和准确率。

在本申请实施例中，预设特征维度可以是表2所示的专家因子库的数据，在此不再赘述。需要说明的是，表2所示的预设特征维度和对应的目标状态特征仅为示例，还可以包括其他与标的物相关的特征维度和对应的目标状态特征，本申请实施例对此不做出限定。

可以理解，专家因子是通过金融市场理论和实践经验总结的特征。因此，本申请实施例基于专家因子得到的目标状态特征，相比于表1所示的传统的价量和技术指标，对于下行风险的预测具有更直接的指导意义，可以为强化学习算法提供更高级的状态输入，从而能够控制模型的过拟合。

步骤S204：将目标状态特征输入至第一风险预测模型，得到目标标的物在预测日期的风险值。

在本申请实施中，以风险值作为第一风险预测模型的输出。风险值是指目标标的物是否存在显著下跌的趋势，风险值的取值可以是1或0时。例如，1代表预测标的物未来将有显著下跌风险，0代表预测标的物未来没有显著下跌的风险。

在本申请实施例中，所述第一风险预测模型是基于第一训练集、第一Critic模型或第二Critic模型，对第一Actor模型进行优化得到的模型，所述第一Actor模型是基于第二训练集进行训练得到的，所述第一训练集和所述第二训练集是从预设数据库中提取的历史数据，所述预设数据库包括所述目标历史数据。

在本申请实施例中，可以根据时间戳对预设数据库进行划分，得到第一训练集和第二训练集。例如，可以从预设数据库中获取一段时间的数据，将这段时间中一定的比例(例如前1/5)的数据划分为第二训练集，这段时间剩下的数据划分为第一训练集。示例地，从预设数据库中获取某只标的物由2010年1月1日到2020年12月31日十年的数据作为训练数据。那么，可以将2010年1月1日至2012年12月31日这两年的数据划分为第二训练集，2013年1月1日至2020年12月31日数据划分为第一训练集。

本申请对于第一Actor模型、第一Critic模型或第二Critic模型的获取方法不做限定，以下先对第一Actor模型的获取方法进行介绍。

在一些可能的实施方式中，在执行步骤S204之前，还可以包括以下步骤：从所述预设数据库提取所述第二训练集；基于预设专家规则对所述第二训练集进行计算，得到不同状态下对应的第一动作集合；基于所述第一动作集合进行机器学习，得到所述第一Actor模型。

其中，预设专家规则是指长期以来总结的某类金融指标与下行风险之间的高度关联的理论认知和金融风险控制理论。在本申请实施例中，预设专家规则包括但不限于布林带、阻力支撑相对强度(resistance support relative strength，RSRS)、指数平滑移动平均线(moving average convergence and divergence，MACD)、市场情绪等量化择时方法。这类方法在拟合下行风险信号时往往基于启发式规则或对若干关键指标的相对关系进行计算，与单纯基于数据驱动的算法相比所需样本较少。

本申请实施例以布林带信号为例对预设专家规则的使用进行介绍。布林带(bollinger band)以发明者约翰·布林格(John Bollinger)名字命名，用以刻画价格波动的区间。布林带的基本形态是由三条轨道线组成的带状通道(中轨和上、下轨各一条)。

中轨(MA)，即t日前N日收盘价的移动平均线：

其中，

为第n日的当日收盘价，n为样本数。n的取值根据实际情况而定，一般为20。

上轨(UT)，即比中轨高两倍标准差的距离价格：

下轨(LT)，即比中轨高低倍标准差的距离价格：

布林带卖出信号的计算公式：

如布林带卖出信号

的公式所示，本问题已转化为一个0-1分类任务。当

即当日收盘价不高于当日布林带下轨时，

时，预测为风险信号，此时应对目标标的物进行清仓。其他情况，当

时，满仓买入该目标标的物。当连续两个时刻均出现同样的信号时，例如，连续出现信号为1或0时，前者由于上一时刻已经清仓，因此无法再次执行卖出动作，而后者则因为前一时刻已经全额建仓，则无法再次执行买入动作。

可以看出，预设专家规则可以对第一Actor模型进行预训练，使其决策水平在与Critic模型进行交替训练前逼近预设专家规则的水平。在样本稀缺的环境中，可以快速采样得到高价值的奖励，避免了Actor-Critic算法初期大量低效甚至无效采样。

本申请实施例可以采用模仿学习的方式，先利用预设专家规则对金融市场状态进行拟合，得到专家动作标签，并用这些标签进行监督式预训练。具体实现过程如下：

首先从预设数据库中提取第二训练集作为状态输入，第二训练集的定义请参考前文的描述，在此不做赘述。然后利用预设专家规则对第二训练集进行计算，得到相应的第一动作集合，即专家动作，从而得到由状态到动作的映射，并形成一套交易策略。此时，可以获得一组专家决策数据τ＝{τ ₁,τ ₂,…,τ _m}，其中m为专家模型的数量。每个专家决策数据包含状态和动作序列

其中n为采样数量。将所有状态-动作元组合并构建新的集合D＝{(s ₁,a ₁),(s ₂,a ₂),…。此时，将状态作为特征，将动作作为标签，进行分类(对应离散动作)或回归(对应连续动作)的监督式学习，从而可以得到第一Actor模型。

在本申请实施例中，第一Actor模型对应的策略网络可以采用递归神经网络(recurrent neural networks，RNN)，也可以采用长短期记忆网络(long-short time memory，LSTM)，还可以采用门控循环单元(gated recurrent unit，GRU)，本申请实施例对此不做出限定。本申请实施例以采用LSTM算法为例构建第一Actor模型。

LSTM模型是一种特殊的RNN模型，通过引入门(gate)机制，解决RNN模型不具备的长记忆性问题。具体来说，LSTM模型的1个神经元包含了1个细胞状态(cell)和3个门(gate)机制。细胞状态(cell)是LSTM模型的关键所在，类似于存储器，是模型的记忆空间。细胞状态随着时间而变化，记录的信息由门机制决定和更新。门机制是让信息选择式通过的方法，通过sigmoid函数和点乘操作实现。sigmoid取值介于0-1之间，点乘则决定了传送的信息量(每个部分有多少量可以通过)。当sigmoid取0时表示舍弃信息，取1时表示完全传输(即完全记住)。LSTM通过遗忘门(forget gate)、更新门(update gate)和输出门(output gate)三个门在任意时刻维护信息。

请参照图3,图3是本申请实施例提供的一种LSTM算法的结构示意图,如图3所示，以LSTM算法构建的第一Actor模型的输入可以包括金融市场的当前时刻t的当前状态s _t、记录有历史数据间的时间关联的LSTM网络中的隐藏状态h _t+1和上一时刻t-1的决策a _t-1，其输出当前时刻的决策a _t。

可以看出，LSTM算法中有向循环的体系结构创建的网络的内部状态，能够处理基于时间的序列数据并记住时序联系，因此可以解决长期依赖问题。大型LSTM算法具有高度表示特征的能力，即可以学习到丰富的时间特征表示，基于LSTM算法的智能体可以挖掘金融市场数据中的时序模式，并且记忆历史状态和动作。

如图4所示，基于LSTM算法的第一Actor模型由输入层、LSTM层、输出层组成，其中输入和输出层为与特征和动作输出维度相同的全连接层。利用LSTM网络，可对市场状态序列进行刻画形成输入特征，有利于解决机器学习方法由于使用截面数据而无法捕捉市场状态变化规律的缺陷。

在本申请实施例中，第一Actor模型可以通过以下步骤预训练得到：

步骤A1：准备集合

并进行随机重排序；

步骤A2：随机初始化第一Actor模型的权重值θ；

步骤A3：从D中选取样本

使用当前网络，以状态s _n为输入计算输出动作a _n；

步骤A4：计算损失函数值L，及其对第一Actor模型各权重值的导数

即第一Actor模型的网络参数的梯度；

步骤A5：以步长α，沿第一Actor模型的网络参数的梯度方向更新该网络参数；

步骤A6：重复步骤A3-A5，直至达到训练时长或损失函数值L收敛。

在本申请实施例中，第一Actor模型损失函数值L可以包括但不限于二元交叉熵等。下面以二元交叉熵为例，衡量预设专家规则计算动作信号

和与预测值a _t之间的差异。在一个二分类问题中，每一个样本的交叉熵可以被表示为：

则整个集合的交叉熵为：

其中，N是样本数，

为样本被预测为1的概率，x _t为输出全连接层的输出。动作输出为：

可以看出，利用预设专家规则，通过以金融市场行情数据为状态输入，以专家决策动作为标签展开监督式学习，可以将第一Actor模型对应的策略网络由初始化的“一无所知”提升至近似专家水平。此时，在金融市场的风险预警中，已经可以使用第一Actor模型在环境中进行相应的预测。

然而，以布林带信号为代表的预设专家规则只使用历史收盘价计算上、中、下轨指标，并与当天收盘价相比较计算危险信号得到专家动作。而策略网络的输入维度则在专家因子库中进行选择，其维度大于布林带信号输入的维度。因此，第一Actor模型具有局限性。

因此，在一些可能的实施方式中，可以利用第一训练集对第一Actor模型进一步优化得到第一风险预测模型，从而取得更优决策。具体地，在所述基于所述第一动作集合进行机器学习，得到所述第一Actor模型之后，还包括以下步骤：从所述预设数据库提取所述第一训练集；基于预设专家规则对所述第一训练集进行计算，得到不同状态下对应的第二动作集合；基于所述第二动作集合对所述第一Actor模型进行优化，得到所述第一风险预测模型。

在本申请实施例中，将利用预设专家规则预训练得到的第一Actor模型在第一训练集中，基于预设专家规则进行下行风险预测，得到第二动作集合a _t。在设计的量化下行风险指标存在一个真实的标签

在本申请实施例中，与第一Actor模型的预训练过程类似，同样以监督学习的方法，对二元交叉熵函数进行计算，并将梯度反传至第一Actor模型，保持对其持续优化，从而得到第一风险预测模型。

可以看出，基于第一训练集对第一Actor模型进行优化的方法，没有直接使用Critic模型，而是以真实数据为依据。可以使第一Actor模型不会受限于Critic模型的水平，提高模型预测准确性。

在一些可能的实施方式中，可以利用第一Critic模型对第一Actor模型进行优化，得到第一风险预测模型，以提高模型的风险预测的准确性。

下面介绍第一Critic模型的构建过程。在一些可能的实施方式中，第一Critic模型的构建过程可以包括以下步骤：对所述第一训练集进行特征提取，得到第一状态特征和第二状态特征；对所述第一状态特征和所述第二状态特征进行拼接，得到第三状态特征；基于所述第三状态特征进行机器学习，得到基模型；将所述第三状态特征输入至所述基模型，得到基模型训练结果；根据所述基模型训练结果获取所述基模型的排序结果；根据所述排序结果确定所述基模型的加权权重；根据所述加权权重对所述基模型进行模型融合，得到所述第一Critic模型。

在本申请实施例中，第一训练集是从预设数据库中提取的，第一训练集的定义请参考前文的描述，在此不做赘述。第一状态特征可以是传统价量指标特征，第二状态特征可以是专家因子的特征；或者第一状态特征可以是专家因子的特征，第二状态特征可以是是传统价量指标特征，本申请实施例对此不做出限定。第三状态特征是专家因子库数据与传统的价量指标数据进行拼接得到的。示例地，传统价量指标特征维度为P维，专家因子的特征维度为Q维，则拼接后得到的第三状态特征维度为P+Q维。

具体地，以第三状态特征作为状态输入，分别送入各机器学习基模型进行训练。在本申请实施例中，机器学习方法可在逻辑回归、决策树、随机森林、自适应增强(adaptive boosting，AdaBoost)等分类机器学习算法进行选择，对此不做出限定。在本申请实施例中，可以采用0-1逻辑变量作为空头信号，1代表预测标的物未来将有显著下跌风险，0代表预测标的物未来没有显著下跌的风险。此时，输出类型与第一Actor模型保持一致。

将得到的基模型进行模型融合，得到第一Critic模型。融合方法可以使用加权平均法，将筛选后的基模型结果在基模型集合中根据预设评测指标进行排序。示例地，将各基模型按其在验证集上的预测准确率由高到低分为5档，准确率越高，档位越高。使用各模型的排序分位数档位作为加权权重，通过加权平均得到综合模型结果，最终使用某固定阈值进行激活转化为逻辑变量，最终生成可以指导择时交易的空头信号。至此，又可以得到一组专家状态-动作数据D＝{(s ₁,a′ ₁),(s ₂,a′ ₂),…}。

考虑到前期预训练得到的第一Actor模型只使用简单的专家规则进行训练，没有挖掘状态变量与风险信号之间的深层关系。在一些可能的实施方式中，可以利用第一Critic模型对第一Actor模型进行优化，从而得到第一风险预测模型，以提高模型的预测准确性。具体地，可以采用状态作为特征，将动作作为标签，进行监督式学习，对第一Actor模型进一步优化，得到第一风险预测模型，以提高模型的收敛性。

在一些可能的实施方式中，可以利用第二Critic模型对第一Actor模型进行优化，得到第一风险预测模型，以提高模型的风险预测的准确性。

下面介绍第二Critic模型的构建过程。在一些可能的实施方式中，第二Critic模型的构建过程可以包括以下步骤：构建所述第二Critic模型的价值网络，其中，所述价值网络的网络结构与所述第一Actor模型的网络结构相同；将所述第一Actor模型的输出层之外的权重值复制给所述价值网络；基于所述第一训练集，对所述价值网络进行训练，以更新所述价值网络的权重值；将训练完成得到的所述价值网络作为所述第二Critic模型。

在本申请实施例中，可以采用价值网络构建第二Critic模型。价值网络可以应对资本市场的时变性，提高模型的泛化能力。第二Critic模型的主体网络结构与第一Actor模型相同，但第二Critic模型的最终输出为一维连续值，即输出为对状态价值或状态-动作价值。

具体地，可以将第一Actor模型的权重值由浅至深复制给第二Critic模型，直至最后一层输出层之前。由于在之前的训练中，第一Actor模型已经被训练过若干次。其权重值对状态变量深层特征的已经有了较强的提取能力，将输出层之外的权重复制到第二Critic模型，比从权重随机初始化开始训练，无需额外消耗数据样本。因此，在模型优化的采样效率上进一步提高。

在构建第二Critic模型之前，第一Actor模型和第一Critic模型已经可以在不同状态下输出下行风险信号，并据此执行卖出动作。用第一Actor模型和第一Critic模型分别在交易环境中利用第一训练集根据状态输入s _t，执行相应动作a _t，得到奖励r _t+1和下一步的状态s _t+1。那么，任意时刻t开始可以得到轨迹[(s _t,a _t),r _t+1,s _t+1]。这里奖励值做如下设置：

假设预测目标标的物是第二天价格将出现下跌，当a _t＝1时，以当日收盘价p _t将持有的份额为的证券全部委托卖出，可得t时刻资产价值Q _t。其中，Q _t＝p _t×H _t当a _t＝0时，则以当日收盘价委托买入。同时，市场后续的真实走势会得到次日收盘价p _t+1，可得t+1时刻资产价值Q _t+1，Q _t+1＝p _t+1×H _t。则奖励值r则设置为t时刻至t+1时刻资产价值的变化值与t时刻资产价值的比例，即：

因此，预测走势与实际走势是否符合决定了奖励值的符号，其奖励符号对应关系如表3所示。

表3预测走势与实际走势和奖励符号之间的对应关系

序号	输出	输出含义	p _t+1-p _t条件	实际走势	奖励符号
1	1	下跌风险	>0	价格上涨	-
2	1	下跌风险	<0	价格下跌	+
3	0	无下跌风险	>0	价格上涨	+
4	0	无下跌风险	<0	价格下跌	-

对存储的轨迹中任意状态开始，计算累计折扣奖励作为真实价值：

R _t＝r _t+1+γr _t+2+γ ²r _t+3+…+γ ^T-tr _T

与此同时，通过轨迹[(s _t,a _t),r _t+1,s _t+1]，将不同时刻的状态s _t作为输入，用第二Critic模型计算其价值v _t，计算R _t与v _t之间的差作为优势函数A _t。并求第二Critic模型的损失函数

其中M为采样数量。然后反向传播更新第二Critic模型。

在本申请实施例中，第二Critic模型和第一Actor模型进行交互训练过程可以参考图5。如图5所示，该交互训练图包括一个Critic网络和两个Actor网络(新Actor网络和旧Actor网络)，训练过程包括以下步骤：

步骤B1：在t时刻，将环境的状态变量s _t输入到新Actor网络。

新Actor网络输出维度是2，分别为得到μ和σ，当作类别分布函数(categorical distribution)分别对应0-1两类输出的概率。示例地，如果类别分布函数中抽样得到0和1的概率分别为70％和30％，则μ和σ可以分别等于7和3。构建类别分布的目的是对动作a _t进行抽样。将动作a _t输入到环境中得到奖励r _t和下一步的状态s _t+1，然后存储轨迹[(s _t,a _t),r _t+1,s _t+1]。再将s _t+1输入到新Actor网络，循环这一步骤，直至存储一定数量的轨迹。需要说明的是，在此过程中新Actor网络并没有更新。

步骤B2：对存储的轨迹中任意状态开始，计算累计折扣奖励作为真实价值：

R _t＝r _t+1+γr _t+2+γ ²r _t+3+…+γ ^T-tr _T

步骤B3：将存储的所有s组合输入到Critic网络中，得到所有状态的价值函数估计值v _t。计算R _t与v _t之间的差作为优势函数A _t。并求Critic网络的损失函数

其中M为采样数量。然后反向传播更新Critic网络。

步骤B4：将存储的所有s组合输入旧Actor网络和新Actor网络，分别得到各自输出，<μ ₁,σ ₁>和<μ ₂,σ ₂>。其中，旧Actor网络和新Actor网络两者网络结构一样，因此，可得旧Actor网络和新Actor网络各自的概率密度函数(probability density function，PDF)，分别为PDF1和PDF2。从而得到存储的各动作在PDF1和PDF2上对应的概率每个动作对应的prob1和prob2，然后用prob2与prob1比值得到重要性权重(importance weight，IW)，即IW＝prob2/prob1。

步骤B5：计算替代目标函数

和裁剪替代目标函数

其中，剪裁替代目标函数，当A>0时，若IW>1+ξ，则

若IW<1+ξ，则

当A<0时，若IW>1-ξ，则

若IW<1-ξ，则

ξ为裁剪比例，可以取0.2。在存储的轨迹上计算目标函数

然后反向传播，更新新Actor网络。

步骤B6：循环B4-B5步骤一定步数后，循环结束，用新Actor网络权重来更新旧Actor网络；

步骤B7：循环B1-B6步骤，直至模型收敛或达到指定步数。

可以看出，第二Critic模型累积的有效奖励可以在优化第一Actor模型得到更大的参数梯度，可以使第一风险预测模型收敛更快。

在一些可能的实施方式中，为了使第一Actor模型对金融市场的时变性具备应对能力，还可以将优化目标定为兼顾第一Critic模型、第二Critic模型和实盘表现。此时，该优化问题变为一个多任务优化问题。对第一Actor模型的优化过程还可以包括以下步骤：

基于所述预设数据库获取风险函数；基于所述第一Critic模型和所述第二Critic模型，对所述风险函数进行优化，得到优化风险函数；基于所述优化风险函数对所述第一Actor模型进行优化，得到所述第一风险预测模型。

具体地，从预设数据库中获取实盘数据构建风险函数，实盘数据是指预设数据库中标的物的金融时序数据，这些金融时序数据具有时变性。示例地，实盘数据可以是开盘价、收盘价、最高价、最低价和成交量等。基于所述第一Critic模型和所述第二Critic模型，对所述风险函数进行优化，得到优化风险函数。此时，基于优化风险函数对第一Actor模型优化得到的第一风险预测模型，同时兼顾了第一Critic模型、第二Critic模型和实盘数据的表现。从而使得第一风险预测模型对金融市场的时变性具备一定的应对能力。

在一些可能的实施方式中，在执行步骤S204之后，还可以包括以下步骤：从所述预设数据库中提取验证数据集；基于所述验证数据集对第一风险预测模型进行验证，得到第二风险预测模型；基于所述第一训练集和所述第二训练集对所述第二风险预测模型进行训练，得到第三风险预测模型；将所述目标状态特征输入至所述第三风险预测模型，得到所述目标标的物在所述预测日期的风险值。

在本申请实施例中，验证数据集是从预设数据库中获取的。如果根据时间戳对预设数据库进行划分，得到第一训练集、第二训练集和验证数据集，那么验证数据集是第一训练集和第二训练集以外，时间较近的数据。示例地，若采用2010年1月1日到2020年12月31日十年的数据作为第一训练集和第二训练集，那么验证数据集可以是2021年1月1日到当前时间的数据。

在前文的描述中，可以利用第一训练集、第一Critic模型、第二Critic模型以及风险函数中的一个或者多个对第一Actor模型进行优化，得到第一风险预测模型。在本申请实施例中，可以将不同优化方式得到的第一风险预测模型在验证数据集中进行验证，选择在验证数据集上预测准确率最高的模型作为第二风险预测模型。固定第二风险预测模型的训练设置方式，其中训练设置方式可以是模型结构、模型参数或训练方式的设置，对此不做出限定。将第一训练集和第二训练集合并，对第二风险预测模型进行训练，得到第三风险预测模型。将目标状态作为第三风险预测模型的输入，预测目标标的物的风险值。如此，经过多次训练得到的第三风险预测模型，可以提升风险预测的准确率，有利于进行风险决策。

可以看出，在本申请实施例中，根据强化学习的在线学习特性，通过第一训练集、第一Critic模型和第二Critic模型等不同形式，对第一Actor模型进行进一步优化得到的第一风险预测模型，为第一Actor模型继续提升表现提供探索空间。此时，第一风险预测模型具有高度收敛性，使其可以根据市场时变特征动态优化，使得风险预测模型的适应性、鲁棒性和抗干扰能力得以进一步提升。如此，可以提高风险预测的准确率，有利于提供可靠的决策方案。

上述详细阐述了本申请实施例的方法，下面提供了本申请实施例的装置。

请参照图6，图6是本申请实施例提供的一种基于强化学习的风险预测的装置的结构示意图。该装置应用于电子设备。如图6所示，该基于强化学习的风险预测的装置600包括接收单元601和处理单元602各个单元的详细描述如下：

接收单元601用于接收目标标的物的风险预测请求，所述风险预测请求包括预测日期；

处理单元602用于获取所述风险预测请求的接收日期和所述接收日期的前N天所述目标标的物的目标历史数据，所述N为大于或等于1的正整数；对所述目标历史数据进行特征提取，得到多个预设特征维度中每一预设特征维度对应的目标状态特征；将所述目标状态特征输入至第一风险预测模型，得到所述目标标的物在所述预测日期的风险值，其中，所述第一风险预测模型是基于第一训练集、第一Critic模型或第二Critic模型，对第一Actor模型进行优化得到的模型，所述第一Actor模型是基于第二训练集进行训练得到的，所述第一训练集和所述第二训练集是从预设数据库中提取的历史数据，所述预设数据库包括所述目标历史数据。

在一些可能的实施方式中，所述处理单元602还用于从所述预设数据库提取所述第二训练集；基于预设专家规则对所述第二训练集进行计算，得到不同状态下对应的第一动作集合；基于所述第一动作集合进行机器学习，得到所述第一Actor模型。

在一些可能的实施方式中，所述处理单元602还用于对所述第一训练集进行特征提取，得到第一状态特征和第二状态特征；对所述第一状态特征和所述第二状态特征进行拼接，得到第三状态特征；基于所述第三状态特征进行机器学习，得到基模型；将所述第三状态特征输入至所述基模型，得到基模型训练结果；根据所述基模型训练结果获取所述基模型的排序结果；根据所述排序结果确定所述基模型的加权权重；根据所述加权权重对所述基模型进行模型融合，得到所述第一Critic模型。

在一些可能的实施方式中，所述处理单元602还用于构建所述第二Critic模型的价值网络，其中，所述价值网络的网络结构与所述第一Actor模型的网络结构相同；将所述第一Actor模型的输出层之外的权重值复制给所述价值网络；基于所述第一训练集，对所述价值网络进行训练，以更新所述价值网络的权重值；将训练完成得到的所述价值网络作为所述第二Critic模型。

在一些可能的实施方式中，所述处理单元602还用于从所述预设数据库提取所述第一训练集；基于预设专家规则对所述第一训练集进行计算，得到不同状态下对应的第二动作集合；基于所述第二动作集合对所述第一Actor模型进行优化，得到所述第一风险预测模型；或者基于所述第一Critic模型或所述第二Critic模型对所述第一Actor模型进行优化，得到所述第一风险预测模型。

在一些可能的实施方式中，所述处理单元602还用于基于所述预设数据库获取风险函数；基于所述第一Critic模型和所述第二Critic模型，对所述风险函数进行优化，得到优化风险函数；基于所述优化风险函数对所述第一Actor模型进行优化，得到所述第一风险预测模型。

在一些可能的实施方式中，所述处理单元602还用于从所述预设数据库中提取验证数据集；基于所述验证数据集对第一风险预测模型进行验证，得到第二风险预测模型；基于所述第一训练集和所述第二训练集对所述第二风险预测模型进行训练，得到第三风险预测模型；将所述目标状态特征输入至所述第三风险预测模型，得到所述目标标的物在所述预测日期的风险值。

需要说明的是，各个单元的实现还可以对应参照图2所示的方法实施例的相应描述。

请参照图7，图7是本申请实施例提供的一种计算机设备的结构示意图。如图7所示，该计算机设备700包括处理器701、存储器702和通信接口703，其中存储器702存储有计算机程序704。处理器701、存储器702、通信接口703以及计算机程序704之间可以通过总线705连接。

当计算机设备为电子设备时，上述计算机程序704用于执行以下步骤的指令：

在一些可能的实施方式中，将所述目标状态特征输入至第一风险预测模型，得到所述目标标的物在所述预测日期的风险值之前，所述计算机程序704还用于执行以下步骤的指令：

从所述预设数据库提取所述第二训练集；

基于预设专家规则对所述第二训练集进行计算，得到不同状态下对应的第一动作集合；

基于所述第一动作集合进行机器学习，得到所述第一Actor模型。

在一些可能的实施方式中，在所述从预设数据库提取所述第二训练集之后，所述计算机程序704还用于执行以下步骤的指令：

对所述第一训练集进行特征提取，得到第一状态特征和第二状态特征；

对所述第一状态特征和所述第二状态特征进行拼接，得到第三状态特征；

基于所述第三状态特征进行机器学习，得到基模型；

将所述第三状态特征输入至所述基模型，得到基模型训练结果；

根据所述基模型训练结果获取所述基模型的排序结果；

根据所述排序结果确定所述基模型的加权权重；

根据所述加权权重对所述基模型进行模型融合，得到所述第一Critic模型。

构建所述第二Critic模型的价值网络，其中，所述价值网络的网络结构与所述第一Actor模型的网络结构相同；

将所述第一Actor模型的输出层之外的权重值复制给所述价值网络；

基于所述第一训练集，对所述价值网络进行训练，以更新所述价值网络的权重值；

将训练完成得到的所述价值网络作为所述第二Critic模型。

在一些可能的实施方式中，在所述基于所述第一动作集合进行机器学习，得到所述第一Actor模型之后，所述计算机程序704还用于执行以下步骤的指令：

从所述预设数据库提取所述第一训练集；

基于预设专家规则对所述第一训练集进行计算，得到不同状态下对应的第二动作集合；

基于所述第二动作集合对所述第一Actor模型进行优化，得到所述第一风险预测模型；或者

基于所述第一Critic模型或所述第二Critic模型对所述第一Actor模型进行优化，得到所述第一风险预测模型。

在一些可能的实施方式中，所述计算机程序704还用于执行以下步骤的指令：

基于所述预设数据库获取风险函数；

基于所述第一Critic模型和所述第二Critic模型，对所述风险函数进行优化，得到优化风险函数；

基于所述优化风险函数对所述第一Actor模型进行优化，得到所述第一风险预测模型。

在一些可能的实施方式中，在所述将所述目标状态特征输入至第一风险预测模型，得到所述目标标的物在所述预测日期的风险值之后，所述计算机程序704还用于执行以下步骤的指令：

从所述预设数据库中提取验证数据集；

基于所述验证数据集对第一风险预测模型进行验证，得到第二风险预测模型；

基于所述第一训练集和所述第二训练集对所述第二风险预测模型进行训练，得到第三风险预测模型；

将所述目标状态特征输入至所述第三风险预测模型，得到所述目标标的物在所述预测日期的风险值。

本领域技术人员可以理解，为了便于说明，图7中仅示出了一个存储器和处理器。在实际的终端或服务器中，可以存在多个处理器和存储器。存储器702也可以称为存储介质或者存储设备等，本申请实施例对此不做限定。

应理解，在本申请实施例中，处理器701可以是中央处理单元(central processing unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(digital signal processing，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现成可编程门阵列(field－programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

还应理解，本申请实施例中提及的存储器702可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory，ROM)、可编程只读存储器(programmable ROM，PROM)、可擦除可编程只读存储器(erasable PROM，EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(static RAM，SRAM)、动态随机存取存储器(dynamic RAM，DRAM)、同步动态随机存取存储器(synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器synchronize link DRAM，SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM，DR RAM)。

需要说明的是，当处理器701为通用处理器、DSP、ASIC、FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件时，存储器(存储模块)集成在处理器中。

应注意，本文描述的存储器702旨在包括但不限于这些和任意其它适合类型的存储器。

该总线705除包括数据总线之外，还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见，在图中将各种总线都标为总线。

本申请实施例还提供一种计算机存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行以实现如上述方法实施例中记载的任何一种基于强化学习的风险预测的方法的部分或全部步骤。所述计算机可读存储介质可以是非易失性，也可以是易失性。

本申请实施例还提供一种计算机程序产品，所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，所述计算机程序可操作来使计算机执行如上述方法实施例中记载的任何一种基于强化学习的风险预测的方法的部分或全部步骤。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

一种基于强化学习的风险预测的方法，其中，包括：

接收目标标的物的风险预测请求，所述风险预测请求包括预测日期；

获取所述风险预测请求的接收日期和所述接收日期的前N天所述目标标的物的目标历史数据，所述N为大于或等于1的正整数；

对所述目标历史数据进行特征提取，得到多个预设特征维度中每一预设特征维度对应的目标状态特征；

将所述目标状态特征输入至第一风险预测模型，得到所述目标标的物在所述预测日期的风险值，其中，所述第一风险预测模型是基于第一训练集、第一Critic模型或第二Critic模型，对第一Actor模型进行优化得到的模型，所述第一Actor模型是基于第二训练集进行训练得到的，所述第一训练集和所述第二训练集是从预设数据库中提取的历史数据，所述预设数据库包括所述目标历史数据。
根据权利要求1所述的方法，其中，在所述将所述目标状态特征输入至第一风险预测模型，得到所述目标标的物在所述预测日期的风险值之前，所述方法还包括：

从所述预设数据库提取所述第二训练集；

基于预设专家规则对所述第二训练集进行计算，得到不同状态下对应的第一动作集合；

基于所述第一动作集合进行机器学习，得到所述第一Actor模型。
根据权利要求2所述的方法，其中，在所述从所述预设数据库提取所述第二训练集之后，所述方法还包括：

对所述第一训练集进行特征提取，得到第一状态特征和第二状态特征；

对所述第一状态特征和所述第二状态特征进行拼接，得到第三状态特征；

基于所述第三状态特征进行机器学习，得到基模型；

将所述第三状态特征输入至所述基模型，得到基模型训练结果；

根据所述基模型训练结果获取所述基模型的排序结果；

根据所述排序结果确定所述基模型的加权权重；

根据所述加权权重对所述基模型进行模型融合，得到所述第一Critic模型。
根据权利要求2所述的方法，其中，在所述从所述预设数据库提取所述第二训练集之后，所述方法还包括：

构建所述第二Critic模型的价值网络，其中，所述价值网络的网络结构与所述第一Actor模型的网络结构相同；

将所述第一Actor模型的输出层之外的权重值复制给所述价值网络；

基于所述第一训练集，对所述价值网络进行训练，以更新所述价值网络的权重值；

将训练完成得到的所述价值网络作为所述第二Critic模型。
根据权利要求2所述的方法，其中，在所述基于所述第一动作集合进行机器学习，得到所述第一Actor模型之后，所述方法还包括：

从所述预设数据库提取所述第一训练集；

基于预设专家规则对所述第一训练集进行计算，得到不同状态下对应的第二动作集合；

基于所述第二动作集合对所述第一Actor模型进行优化，得到所述第一风险预测模型；或者

基于所述第一Critic模型或所述第二Critic模型对所述第一Actor模型进行优化，得到所述第一风险预测模型。
根据权利要求1所述的方法，其中，所述方法还包括：

基于所述预设数据库获取风险函数；

基于所述第一Critic模型和所述第二Critic模型，对所述风险函数进行优化，得到优化风险函数；

基于所述优化风险函数对所述第一Actor模型进行优化，得到所述第一风险预测模型。
根据权利要求6所述的方法，其中，在所述将所述目标状态特征输入至第一风险预测模型，得到所述目标标的物在所述预测日期的风险值之后，所述方法还包括：

从预设数据库中提取验证数据集；

基于所述验证数据集对第一风险预测模型进行验证，得到第二风险预测模型；

基于所述第一训练集和所述第二训练集对所述第二风险预测模型进行训练，得到第三风险预测模型；

将所述目标状态特征输入至所述第三风险预测模型，得到所述目标标的物在所述预测日期的风险值。
一种基于强化学习的风险预测的装置，其中，包括：

接收单元，用于接收目标标的物的风险预测请求，所述风险预测请求包括预测日期；

处理单元，用于获取所述风险预测请求的接收日期和所述接收日期的前N天所述目标标的物的目标历史数据，所述N为大于或等于1的正整数；

对所述目标历史数据进行特征提取，得到多个预设特征维度中每一预设特征维度对应的目标状态特征；

将所述目标状态特征输入至第一风险预测模型，得到所述目标标的物在所述预测日期的风险值，其中，所述第一风险预测模型是基于第一训练集、第一Critic模型或第二Critic模型，对第一Actor模型进行优化得到的模型，所述第一Actor模型是基于第二训练集进行训练得到的，所述第一训练集和所述第二训练集是从预设数据库中提取的历史数据，所述预设数据库包括所述目标历史数据。
一种计算机设备，其中，包括处理器、存储器和通信接口，其中，所述存储器存储有计算机程序，所述计算机程序被配置由所述处理器执行，所述计算机程序包括用于执行以下步骤的指令：

接收目标标的物的风险预测请求，所述风险预测请求包括预测日期；

获取所述风险预测请求的接收日期和所述接收日期的前N天所述目标标的物的目标历史数据，所述N为大于或等于1的正整数；

对所述目标历史数据进行特征提取，得到多个预设特征维度中每一预设特征维度对应的目标状态特征；

将所述目标状态特征输入至第一风险预测模型，得到所述目标标的物在所述预测日期的风险值，其中，所述第一风险预测模型是基于第一训练集、第一Critic模型或第二Critic模型，对第一Actor模型进行优化得到的模型，所述第一Actor模型是基于第二训练集进行训练得到的，所述第一训练集和所述第二训练集是从预设数据库中提取的历史数据，所述预设数据库包括所述目标历史数据。
根据权利要求9所述的计算机设备，其中，将所述目标状态特征输入至第一风险预测模型，得到所述目标标的物在所述预测日期的风险值之前，所述计算机程序还用于执行以下步骤的指令：

从所述预设数据库提取所述第二训练集；

基于预设专家规则对所述第二训练集进行计算，得到不同状态下对应的第一动作集合；

基于所述第一动作集合进行机器学习，得到所述第一Actor模型。
根据权利要求10所述的计算机设备，其中，在所述从预设数据库提取所述第二训练集之后，所述计算机程序还用于执行以下步骤的指令：

对所述第一训练集进行特征提取，得到第一状态特征和第二状态特征；

对所述第一状态特征和所述第二状态特征进行拼接，得到第三状态特征；

基于所述第三状态特征进行机器学习，得到基模型；

将所述第三状态特征输入至所述基模型，得到基模型训练结果；

根据所述基模型训练结果获取所述基模型的排序结果；

根据所述排序结果确定所述基模型的加权权重；

根据所述加权权重对所述基模型进行模型融合，得到所述第一Critic模型。
根据权利要求10所述的计算机设备，其中，在所述从预设数据库提取所述第二训练集之后，所述计算机程序还用于执行以下步骤的指令：

构建所述第二Critic模型的价值网络，其中，所述价值网络的网络结构与所述第一Actor模型的网络结构相同；

将所述第一Actor模型的输出层之外的权重值复制给所述价值网络；

基于所述第一训练集，对所述价值网络进行训练，以更新所述价值网络的权重值；

将训练完成得到的所述价值网络作为所述第二Critic模型。
根据权利要求10所述的计算机设备，其中，在所述基于所述第一动作集合进行机器学习，得到所述第一Actor模型之后，所述计算机程序还用于执行以下步骤的指令：

从所述预设数据库提取所述第一训练集；

基于预设专家规则对所述第一训练集进行计算，得到不同状态下对应的第二动作集合；

基于所述第二动作集合对所述第一Actor模型进行优化，得到所述第一风险预测模型；或者

基于所述第一Critic模型或所述第二Critic模型对所述第一Actor模型进行优化，得到所述第一风险预测模型。
根据权利要求9所述的计算机设备，其中，所述计算机程序还用于执行以下步骤的指令：

基于所述预设数据库获取风险函数；

基于所述第一Critic模型和所述第二Critic模型，对所述风险函数进行优化，得到优化风险函数；

基于所述优化风险函数对所述第一Actor模型进行优化，得到所述第一风险预测模型。
一种计算机可读存储介质，其中，所述计算机可读存储介质存储计算机程序，所述计算机程序使得计算机执行以下步骤的指令：

接收目标标的物的风险预测请求，所述风险预测请求包括预测日期；

获取所述风险预测请求的接收日期和所述接收日期的前N天所述目标标的物的目标历史数据，所述N为大于或等于1的正整数；

对所述目标历史数据进行特征提取，得到多个预设特征维度中每一预设特征维度对应的目标状态特征；

将所述目标状态特征输入至第一风险预测模型，得到所述目标标的物在所述预测日期的风险值，其中，所述第一风险预测模型是基于第一训练集、第一Critic模型或第二Critic模型，对第一Actor模型进行优化得到的模型，所述第一Actor模型是基于第二训练集进行训练得到的，所述第一训练集和所述第二训练集是从预设数据库中提取的历史数据，所述预设数据库包括所述目标历史数据。
根据权利要求15所述的计算机可读存储介质，其中，将所述目标状态特征输入至第一风险预测模型，得到所述目标标的物在所述预测日期的风险值之前，所述计算机程序还用于执行以下步骤的指令：

从所述预设数据库提取所述第二训练集；

基于预设专家规则对所述第二训练集进行计算，得到不同状态下对应的第一动作集合；

基于所述第一动作集合进行机器学习，得到所述第一Actor模型。
根据权利要求16所述的计算机可读存储介质，其中，在所述从预设数据库提取所述第二训练集之后，所述计算机程序还用于执行以下步骤的指令：

对所述第一训练集进行特征提取，得到第一状态特征和第二状态特征；

对所述第一状态特征和所述第二状态特征进行拼接，得到第三状态特征；

基于所述第三状态特征进行机器学习，得到基模型；

将所述第三状态特征输入至所述基模型，得到基模型训练结果；

根据所述基模型训练结果获取所述基模型的排序结果；

根据所述排序结果确定所述基模型的加权权重；

根据所述加权权重对所述基模型进行模型融合，得到所述第一Critic模型。
根据权利要求16所述的计算机可读存储介质，其中，在所述从预设数据库提取所述第二训练集之后，所述计算机程序还用于执行以下步骤的指令：

构建所述第二Critic模型的价值网络，其中，所述价值网络的网络结构与所述第一Actor模型的网络结构相同；

将所述第一Actor模型的输出层之外的权重值复制给所述价值网络；

基于所述第一训练集，对所述价值网络进行训练，以更新所述价值网络的权重值；

将训练完成得到的所述价值网络作为所述第二Critic模型。
根据权利要求16所述的计算机可读存储介质，其中，在所述基于所述第一动作集合进行机器学习，得到所述第一Actor模型之后，所述计算机程序还用于执行以下步骤的指令：

从所述预设数据库提取所述第一训练集；

基于预设专家规则对所述第一训练集进行计算，得到不同状态下对应的第二动作集合；

基于所述第二动作集合对所述第一Actor模型进行优化，得到所述第一风险预测模型；或者

基于所述第一Critic模型或所述第二Critic模型对所述第一Actor模型进行优化，得到所述第一风险预测模型。
根据权利要求15所述的计算机可读存储介质，其中，所述计算机程序还用于执行以下步骤的指令：

基于所述预设数据库获取风险函数；

基于所述第一Critic模型和所述第二Critic模型，对所述风险函数进行优化，得到优化风险函数；

基于所述优化风险函数对所述第一Actor模型进行优化，得到所述第一风险预测模型。