WO2021073118A1

WO2021073118A1 - 基于强化学习的信息处理方法、装置、设备和存储介质

Info

Publication number: WO2021073118A1
Application number: PCT/CN2020/093423
Authority: WO
Inventors: 刘卓; 孙行智; 赵惟; 徐卓扬
Original assignee: 平安科技（深圳）有限公司
Priority date: 2019-10-18
Filing date: 2020-05-29
Publication date: 2021-04-22
Also published as: CN110928936A; CN110928936B

Abstract

一种基于强化学习的信息处理的方法、装置、设备和存储介质，属于人工智能的数据分析技术领域。所述方法包括：获取原始数据并对原始数据进行预处理，得到样本数据（S1）；获取目标值，提取样本数据中的实际值，将目标值与实际值入参到预设的奖惩函数中进行计算，得到实际值的评分权重（S2）；获取样本数据对应的多个备选方案数据，将各备选方案数据和实际值的评分权重导入到用于强化学习模型中进行评分后，得到各备选方案数据的初始评分（S3）；根据预设的加分策略对初始评分进行处理后得到备选方案数据的最终评分（S4）；根据预设的业务逻辑对各备选方案数据进行过滤，以过滤后的备选方案数据中最终评分最高项作为原始数据的目标方案数据（S5）。提升了信息处理的速度和准确性。

Description

基于强化学习的信息处理方法、装置、设备和存储介质

本申请要求于2019年10月18日提交中国专利局、申请号为201910991379.X，发明名称为“基于强化学习的信息处理的方法、装置、设备和存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能的数据分析技术领域，尤其涉及一种基于强化学习的信息处理的方法、装置、设备和存储介质。

背景技术

目前，人工智能已经被广泛应用于生产生活的各个领域，计算机可以利用强化学习、深度学习和神经网络等方式对信息进行处理，从而提出最优方案以解决复杂问题。

然而，发明人意识到单一的利用强化学习模型对信息进行处理，然后得到最终方案，存在着准确性低，收敛速度慢等缺点，无法应用到复杂信息处理场景。

技术问题

本申请的主要目的为提供一种基于强化学习的信息处理方法、装置、设备和存储介质，旨在解决针对单一的利用强化学习模型对信息进行处理，然后得到最终方案，存在着准确性低，收敛速度慢等缺点，无法应用到复杂信息处理场景的技术问题。

技术解决方案

基于此，针对单一的利用强化学习模型对信息进行处理，然后得到最终方案，存在着准确性低，收敛速度慢等缺点，无法应用到复杂信息处理场景的问题，提供一种基于强化学习的信息处理方法、装置、设备和存储介质。

一种基于强化学习的信息处理方法，包括如下步骤：

获取原始数据并对所述原始数据进行预处理，得到样本数据；

获取所述样本数据中达到参数期望的目标值，提取所述样本数据中参数的实际值，并将所述目标值与所述实际值入参到预设的奖惩函数中进行计算，得到所述实际值的评分权重；

获取所述样本数据对应的多个备选方案数据，将各所述备选方案数据和所述实际值的评分权重导入到用于评分的强化学习模型中进行评分后，得到各所述备选方案数据的初始评分；

根据预设的加分策略对所述初始评分进行处理后得到所述备选方案数据的最终评分；

根据预设的业务逻辑对各所述备选方案数据进行过滤，并以过滤后的备选方案数据中最终评分最高项作为所述原始数据的目标方案数据。

一种基于强化学习的信息处理装置，包括如下模块：

数据采集模块，设置为获取原始数据并对所述原始数据进行预处理，得到样本数据；

评分权重模块，设置为获取所述样本数据中达到参数期望的目标值，提取所述样本数据中参数的实际值，并将所述目标值与所述实际值入参到预设的奖惩函数中进行计算，得到所述实际值的评分权重；

初始评分模块，设置为获取所述样本数据对应的多个备选方案数据，将各所述备选方案数据和所述实际值的评分权重导入到用于评分的强化学习模型中进行评分后，得到各所述备选方案数据的初始评分；

最终评分模块，设置为根据预设的加分策略对所述初始评分进行处理后得到所述备选方案数据的最终评分；

目标方案模块，设置为根据预设的业务逻辑对各所述备选方案数据进行过滤，并以过滤后的备选方案数据中最终评分最高项作为所述原始数据的目标方案数据。

一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行上述基于强化学习的信息处理方法，包括如下步骤：

一种存储有计算机可读指令的存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述基于强化学习的信息处理方法，，包括如下步骤：

有益效果

与现有机制相比，本申请通过奖惩函数、加分策略和业务逻辑对强化学习过程进行条件限制，从而提升了用于评分的强化学习模型进行信息处理的速度，同时提升了用于评分的强化学习模型进行信息处理的准确性。

附图说明

图1为本申请在一个实施例中的一种基于强化学习的信息处理方法的整体流程图；

图2为本申请在一个实施例中的一种基于强化学习的信息处理方法中的待评价数据生成过程示意图；

图3为本申请在一个实施例中的一种基于强化学习的信息处理方法中的初始评分过程示意图；

图4为本申请在一个实施例中的一种基于强化学习的信息处理装置的结构图。

本发明的最佳实施方式

图1为本申请在一个实施例中的一种基于强化学习的信息处理方法的整体流程图，一种基于强化学习的信息处理方法，包括以下步骤：

S1、获取原始数据并对所述原始数据进行预处理，得到样本数据；

具体的，原始数据可以是结构化数据，也可以是非结构化数据，如在一个具体的应用场景中，所述原始数据为医疗访视数据，包括多个病人的数据，以及每个病人的多次方式的数据，一个病人的一次访视就是一个原始数据。

以糖尿病学的检查数据为例，原始数据详情见下表：

在进行预处理时，主要包括特征选择和样本筛选。特征选择是根据医学知识进行的，具体而言就是从原始数据中去除与糖尿病无关的特征(列)，保留有关的特征。而样本筛选是指去除一些不能够用于训练的样本，包括关键特征的数据缺失(例如没有血糖数据、没有用药记录等)、数据出现异常状况(例如年龄超过120岁，糖化血红蛋白高于100％等)。筛选后，保留下来的正常样本构成了样本数据。

S2、获取所述样本数据中达到参数期望的目标值，提取所述样本数据中参数的实际值，并将所述目标值与所述实际值入参到预设的奖惩函数中进行计算，得到所述实际值的评分权重；

具体的，根据样本数据具体的类型从数据库中可以查询到样本数据中达到参数期望的目标值。其中，目标值可以分为短期目标值和长期目标值，还是以步骤S1中的糖尿病检测为例，根据知识设定长短期疗效的优化目标，接着根据目标设定奖励与惩罚，用于指导模型的训练。参考医学知识，本发明中糖尿病治疗的优化目标是：

a.短期目标值：下次糖化血红蛋白值(HbA1c，下面简称为糖化)达标(<7％)或者下降。

b.长期目标值：最后一次访视时，糖化达标，并且没有并发症。

根据上面的目标，本发明采用了下面的公式计算奖励与惩罚。公式的思路是：使得下次糖化达标的用药方案获得正分，使得下次糖化下降的方案获得正分，使得最后一次糖化达标得较大正分，使得最后一次无并发症得正分；而反之，则都获得对应的负分。

公式具体为：

其中，r是奖惩函数，它与当次访视的糖化血红蛋白值(实际值A)：

下次访视的糖化血红蛋白值(实际值B)：

以及最后一次访视的并发症数量(实际值C)：

有关。a,b,c,d是平衡各种奖惩得分的系数。经过试验，本发明最终调整它们为a＝2.5，b＝0.8，c＝20。另外，公式中的sgn指符号函数(自变量大于等于0时为1，小于0时为-1)。

其中，在本步骤中奖惩函数就为实际值的评分权重。

S3、获取所述样本数据对应的多个备选方案数据，将各所述备选方案数据和所述实际值的评分权重导入到用于评分的强化学习模型中进行评分后，得到各所述备选方案数据的初始评分；

具体的，如表一中的样本数据，展示了一位年龄为50岁的糖尿病患者的样本数据，从这个样本数据中可以得知，该名患者同时患有高血压，那么对于该名患者的治疗方案中就需要考虑高血压这个因素。因此，备选方案可以通过关键词“高血压”和“糖尿病”从医疗数据库中得到如下：(1)每日注射胰岛素3次，同时服用β－阻滞剂；(2)每日注射胰岛素2次，同时服用卡托普利；(3)口服格列吡嗪和卡托普利等等。上述方案都是在没有进行其它生化参数评估时得到的原始方案。

在将各备选方案数据和所述实际值的评分权重导入到用于评分的强化学习模型中进行评分时，可以先对强化学习模型进行初始化，设定两层全连接层构成的模型结构，并随机生成模型中待训练的各个参数。将待评价数据和各实际值输入强化学习模型，得到输出即初始评分。并应用损失函数通过反向传播的算法传递给模型，用于调整各个参数。

S4、根据预设的加分策略对初始评分进行处理后得到所述备选方案数据的最终评分；

具体的，以糖尿病检测为例，加分策略可以是根据医学知识中的建议整理和总结出的。这些加分策略会被医学权威指南或医生群体评价等级。依照等级从B到D，其权威性、普适性、可信性逐渐递减。

如，一条来自医学指南的加分策略是：“糖尿病人有肾病并发症，建议使用双胍类药”，这其中的特征词为“肾病”、“建议”和“双胍类药”，根据这些特征词可知，此条加分策略对应的等级为C，则给予初始评分以等级C对应的附加评分，如初始评分为60，等级C的分数为20，则最终评分为80.、

S5、根据预设的业务逻辑对各所述备选方案数据进行过滤，并以过滤后的备选方案数据中最终评分最高项作为所述原始数据的目标方案数据。

具体的，业务逻辑可以同样样来自于对医学知识的整理与总结。例如，一个业务逻辑为来自医学指南的说明：“磺脲类药易引起病人发生低血糖事件，因此不应该给有低血糖风险的病人开磺脲类药物”。因此根据此业务指南对应的业务逻辑，当病例中显示病人过往发生过低血糖事件时，备选方案数据中包含磺脲类的用药方案数据会被过滤排除。

本实施例，通过奖惩函数、加分策略和业务逻辑对强化学习过程进行条件限制，从而提升了用于评分的强化学习模型进行信息处理的速度，同时提升了用于评分的强化学习模型进行信息处理的准确性。

图2为本申请在一个实施例中的一种基于强化学习的信息处理方法中的待评价数据生成过程示意图，如图所示，所述S1、获取原始数据并对所述原始数据进行预处理，得到样本数据，包括：

S11、对所述原始数据中的文字数据进行词向量转换，得到多个数据词向量；

具体的，词向量(Word embedding)，又叫Word嵌入式自然语言处理(NLP)中的一组语言建模和特征学习技术的统称，其中来自词汇表的单词或短语被映射到实数的向量。从概念上讲，它涉及从每个单词一维的空间到具有更低维度的连续向量空间的数学嵌入。

在进行词向量转换时，首先要对样本数据进行分类，将样本数据分为数值数据和文字数据，对于文字数据可以采用Word2vec词向量转换模型对样本数据中的文字数据进行词向量转化，转换后得到多个数据词向量。

S12、根据预设的筛选策略对所述数据词向量进行词向量转换，得到策略词向量；

具体的，在将预设的筛选策略进行词向量转换时，可以根据筛选策略中的特殊符号，如“，”、“、”等将所述筛选策略划分为数个子段，然后在将每一个子段进行词向量的转换。

S13、将各所述数据词向量和所述策略词向量进行乘积，得到多个词向量矩阵，计算各所述词向量矩阵的特征值，并根据所述特征值对所述文字数据进行处理后，得到所述样本数据。

具体的，在将所述数据词向量和所述策略词向量进行乘积前，需要将数据词向量和策略词向量进行降维，都降维到二维向量，再将两者进行乘积。

在进行筛选时，还可以对样本数据中数字进行筛选，具体的，根据数字在所述样本数据中的位置，抽取出所述数字临近的文字数据，根据所述文字数据对应的预设阈值，对所述数字的异常性进行判断，即所述数字大于或者小于阈值，则为异常数字数据，需要删除。

本实施例，通过词向量转换的方式对样本数据进行有效的筛选，从而剔除了样本数据中的错误数据和无用数据，从而提升了进行信息处理时的效率。

在一个实施例中，所述S2、获取所述样本数据中达到参数期望的目标值，提取所述样本数据中参数的实际值，并将所述目标值与所述实际值入参到预设的奖惩函数中进行计算，得到所述实际值的评分权重，包括：

采用实体抽取技术抽取所述样本数据中的实体名称信息，并根据所述实体名称信息从预置数据库中提取出包含有所述实体名称信息的信息字段；

其中，在进行样本数据分析时，需要用到知识图谱技术，在知识图谱中，将信息分为实体、关系和属性三种形式。在进行目标值选取时需要利用知识抽取技术，以确定所述样本数据应该达到的目标值。还是以糖尿病的案例为例子，在上面的实施例中，7％就是一个预期目标。其通过在样本数据中的实体名称信息“糖化血红蛋白”，可以从数据库中提取有关“糖化血红蛋白”的所有信息如“糖化血红蛋白大于7％”、“糖化血红蛋白不测试”等等。

从所述信息字段中提取出所述目标值；

具体的，从信息字段中抽取出所有数值信息，然后将数值信息与预设的取值范围进行比较，若在所述取值范围内，则所述数值信息为所述目标值，否则不是所述目标值。如上一步骤中的例子，可以根据关系词，如“大于”、“等于”等的位置，确定“糖化血红蛋白”的目标值为7％。

将所述目标值和所述实际值入参到预设的奖惩函数进行计算，得到所述实际值的评分权重，其中，评分权重的计算公式为：

r(S _t+1)＝a[sgn(A-S _t+1)]+b(S _t-S _t+1)，

式子中，r(S _t+1)为第t+1个实际值的评分权重，a，b为平衡常数0≤a≤1、0≤b≤1，sgn()为符号函数，A为目标值，S _t为第t个实际值，S _t+1为第t+1个实际值。

本实施例，通过知识抽取和奖惩函数有效的确定了样本数据所要达到的目标值，从而在进行信息处理时有了准确的目标。

图3为本申请在一个实施例中的一种基于强化学习的信息处理方法中的初始评分过程示意图，如图所示，所述S3、将各所述备选方案数据和所述实际值的评分权重导入到用于评分的强化学习模型中进行评分后，得到各所述备选方案数据的初始评分，包括：

S31、根据所述评分权重，生成所述强化学习模型中参数的初始奖励权重；

其中，强化学习模型中的参数有奖励值、贡献值和动作最大值，奖惩函数的函数值如果大于奖励值或者贡献值，则以所述奖惩函数值作为新的奖励值或者贡献值。并且根据奖惩函数值和奖励值或者贡献值的差值作为，得到不同参数的奖励权重。

S32、将各所述备选方案数据和所述实际值的评分权重导入到所述强化学习模型，获取所述强化学习模型的实时状态，将所述实时状态与状态库中的状态进行匹配，得到所述实时状态的贡献值；

其中，状态奖励库为预先构建的存储了状态节点和对应奖励值的集合，在接收到训练请求之后，获取强化学习网络的当前状态，并提取当前状态的特征数据，通过该当前状态的特征数据计算得到当前状态的贡献值，然后，在状态奖励库中对当前状态进行匹配，得到当前状态的奖励值。状态奖励库分为n个奖励组，分别对应n个特殊状态的奖励值，数据的开头存储了奖励值组数n，数据库的结尾存储了一般状态的奖励值，即第(n+1)个奖励值，每一个奖励组都包括不同的状态节点，即不同状态值，不同的状态节点对应着不同范围的状态值。

S33、根据所述实时状态的贡献值，对所述初始奖励权重进行修正后，得到最终奖励权重；

具体的，实时状态的贡献值与状态节点的状态值的差值，作为初始权重改变的参数，不断对初始权重值进行调整，使实时状态和状态节点的状态相一致。

S34、根据所述最终奖励权重，对各所述备选方案数据进行评分后，得到各所述备选方案数据的初始评分。

本实施例，通过强化学习模型对待分析数据进行评分，从而能够快速的对备选方案数据进行分析。

在一个实施例中，所述根据预设的加分策略对所述初始评分进行处理后得到所述备选方案数据的最终评分，包括：

获取所述备选方案数据中符合所述加分策略且达到所述样本数据的参数期望的目标值以及所述样本数据中参数的实际值；

获取所述加分策略对应的预置等级分，并将所述目标值、所述实际值和所述等级分入参到附加评分函数进行计算，得到所述附加评分：

其中，所述附加评分函数为：

式子中，r _new为附加评分，{match}为备选方案数据符合加分策略的数量，d _i为第i个加分策略对应的等级分，gi为在第i个加分策略下的目标值与实际值的差值，h为常数；

将所述初始评分和所述附加评分相加后得到所述最终评分。

具体的，如样本数据为糖尿病和肾病的并发症，则双胍类药的用药方案数据的20个数据中符合加分策略的数量为1，目标值和实际值的差值为-1，就可以计算出采用双胍类药治疗样本数据的附加分数为r_ _new＝-1*20*exp(-1)＝-7.36。

本实施例，通过对待分析数据是否符合加分策略进行有效的判断，从而使优选的方案评分提升，进而准确的获得目标方案数据。

在一个实施例中，所述根据预设的业务逻辑对各所述备选方案数据进行过滤，包括：

采用预置分词器对所述备选方案数据进行分词，得到各方案数据对应的分词集；

其中，分词器可以将备选方案数据中的文字数据和数字数据进行分割，然后将文字数据进行打包形成分词集，本实施采用的分词器可以是spark分词器。

依次将所述分词集中的分词与预置敏感词库进行对比，输出所述备选方案数据对应的分词集中所包含的多个敏感词；

具体的，在敏感词库中存储有多个敏感词，如“肾病”、“心脏病”、“低血压”、“阿奇霉素”、“布洛芬”等等，将分词集中的文字与上述敏感词进行一一比对后，就可以得到分词集中所包含的敏感词。

采用预置正则匹配式，确定所述各敏感词在所述备选方案数据中的逻辑表述关系，并判断所述逻辑关系是否符合预设的业务逻辑；

其中，正则匹配式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”。应用正则匹配式可以对敏感词之间的逻辑关系进行有效的确定，如将一个分词集中的敏感词“肾病”和“阿奇霉素”进行正则匹配后为“是”。

若所述逻辑表述关系符合所述业务逻辑，则保留该备选方案数据，否则删除该备选方案数据。

本实施例，利用敏感词的逻辑关系与业务逻辑进行比较能过快速准确的过滤掉不合适的备选方案数据。

上述任一所对应的实施例或实施方式中所提及的技术特征也同样适用于本申请中的图4所对应的实施例，后续类似之处不再赘述。

以上对本申请中一种基于强化学习的信息处理方法进行说明，以下对执行上述基于强化学习的信息处理装置进行描述。

如图4所示的一种基于强化学习的信息处理装置的结构图，其可应用于基于强化学习的信息处理。本申请实施例中的基于强化学习的信息处理装置能够实现对应于上述图1所对应的实施例中所执行的基于强化学习的信息处理方法的步骤。基于强化学习的信息处理装置实现的功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块，所述模块可以是软件和/或硬件。

在一个实施例中，提出了一种基于强化学习的信息处理装置，如图4所示，包括如下模块：

在其中一个实施例中，所述数据采集模块，还用于：

对所述原始数据中的文字数据进行词向量转换，得到多个数据词向量；

根据预设的筛选策略对所述数据词向量进行词向量转换，得到策略词向量；

将各所述数据词向量和所述策略词向量进行乘积，得到多个词向量矩阵，计算各所述词向量矩阵的特征值，并根据所述特征值对所述文字数据进行处理后，得到所述样本数据。

在一个实施例中，提出了一种计算机设备，所述计算机设备包括存储器和处理器，存储器中存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行上述各实施例中的所述基于强化学习的信息处理方法的步骤。

在一个实施例中，提出了一种存储有计算机可读指令的存储介质，计算机可读存储介质可以是非易失性，也可以是易失性。该计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述各实施例中的所述基于强化学习的信息处理方法的步骤。其中，所述存储介质可以为非易失性存储介质。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁盘或光盘等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请一些示例性实施例，其中描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

一种基于强化学习的信息处理方法，其中，包括：

获取原始数据并对所述原始数据进行预处理，得到样本数据；

获取所述样本数据中达到参数期望的目标值，提取所述样本数据中参数的实际值，并将所述目标值与所述实际值入参到预设的奖惩函数中进行计算，得到所述实际值的评分权重；

获取所述样本数据对应的多个备选方案数据，将各所述备选方案数据和所述实际值的评分权重导入到用于评分的强化学习模型中进行评分后，得到各所述备选方案数据的初始评分；

根据预设的加分策略对所述初始评分进行处理后得到所述备选方案数据的最终评分；

根据预设的业务逻辑对各所述备选方案数据进行过滤，并以过滤后的备选方案数据中最终评分最高项作为所述原始数据的目标方案数据。
根据权利要求1所述的基于强化学习的信息处理方法，其中，所述获取原始数据并对所述原始数据进行预处理，得到样本数据，包括：

对所述原始数据中的文字数据进行词向量转换，得到多个数据词向量；

根据预设的筛选策略对所述数据词向量进行词向量转换，得到策略词向量；

将各所述数据词向量和所述策略词向量进行乘积，得到多个词向量矩阵，计算各所述词向量矩阵的特征值，并根据所述特征值对所述文字数据进行处理后，得到所述样本数据。
根据权利要求1所述的基于强化学习的信息处理的方法，其中，所述获取所述样本数据中达到参数期望的目标值，提取所述样本数据中参数的实际值，并将所述目标值与所述实际值入参到预设的奖惩函数中进行计算，得到所述实际值的评分权重，包括：

采用实体抽取技术抽取所述样本数据中的实体名称信息，并根据所述实体名称信息从预置数据库中提取出包含有所述实体名称信息的信息字段；

从所述信息字段中提取出所述目标值；

将所述目标值和所述实际值入参到预设的奖惩函数进行计算，得到所述实际值的评分权重，其中，评分权重的计算公式为：

r(S _t+1)＝a[sgn(A-S _t+1)]+b(S _t-S _t+1)，

式子中，r(S _t+1)为第t+1个实际值的评分权重，a，b为平衡常数0≤a≤1、0≤b≤1，sgn()为符号函数，A为目标值，S _t为第t个实际值，S _t+1为第t+1个实际值。
根据权利要求1所述的基于强化学习的信息处理方法，其中，所述将各所述备选方案数据和所述实际值的评分权重导入到用于评分的强化学习模型中进行评分后，得到各所述备选方案数据的初始评分，包括：

根据所述评分权重，生成所述强化学习模型中参数的初始奖励权重；

将各所述备选方案数据和所述实际值的评分权重导入到所述强化学习模型，获取所述强化学习模型的实时状态，将所述实时状态与状态库中的状态进行匹配，得到所述实时状态的贡献值；

根据所述实时状态的贡献值，对所述初始奖励权重进行修正后，得到最终奖励权重；

根据所述最终奖励权重，对各所述备选方案数据进行评分后，得到各所述备选方案数据的初始评分。
根据权利要求1所述的基于强化学习的信息处理方法，其中，所述根据预设的加分策略对所述初始评分进行处理后得到所述备选方案数据的最终评分，包括：

获取所述备选方案数据中符合所述加分策略且达到所述样本数据的参数期望的目标值以及所述样本数据中参数的实际值；

获取所述加分策略对应的预置等级分，并将所述目标值、所述实际值和所述等级分入参到附加评分函数进行计算，得到所述附加评分：

其中，所述附加评分函数为：

式子中，r _new为附加评分，{match}为备选方案数据符合加分策略的数量，d _i为第i个加分策略对应的等级分，g _i为在第i个加分策略下的目标值与实际值的差值，h为常数；

将所述初始评分和所述附加评分相加后得到所述最终评分。
根据权利要求1至5任一项所述的基于强化学习的信息处理方法，其中，所述根据预设的业务逻辑对各所述备选方案数据进行过滤，包括：

采用预置分词器对所述备选方案数据进行分词，得到各方案数据对应的分词集；

依次将所述分词集中的分词与预置敏感词库进行对比，输出所述备选方案数据对应的分词集中所包含的多个敏感词；

采用预置正则匹配式，确定所述各敏感词在所述备选方案数据中的逻辑表述关系，并判断所述逻辑关系是否符合预设的业务逻辑；

若所述逻辑表述关系符合所述业务逻辑，则保留该备选方案数据，否则删除该备选方案数据。
一种基于强化学习的信息处理装置，其中，包括以下模块：

数据采集模块，设置为获取原始数据并对所述原始数据进行预处理，得到样本数据；

评分权重模块，设置为获取所述样本数据中达到参数期望的目标值，提取所述样本数据中参数的实际值，并将所述目标值与所述实际值入参到预设的奖惩函数中进行计算，得到所述实际值的评分权重；

初始评分模块，设置为获取所述样本数据对应的多个备选方案数据，将各所述备选方案数据和所述实际值的评分权重导入到用于评分的强化学习模型中进行评分后，得到各所述备选方案数据的初始评分；

最终评分模块，设置为根据预设的加分策略对所述初始评分进行处理后得到所述备选方案数据的最终评分；

目标方案模块，设置为根据预设的业务逻辑对各所述备选方案数据进行过滤，并以过滤后的备选方案数据中最终评分最高项作为所述原始数据的目标方案数据。
根据权利要求7所述的基于强化学习的信息处理装置，其中，所述数据采集模块，还用于：

对所述原始数据中的文字数据进行词向量转换，得到多个数据词向量；

根据预设的筛选策略对所述数据词向量进行词向量转换，得到策略词向量；

将各所述数据词向量和所述策略词向量进行乘积，得到多个词向量矩阵，计算各所述词向量矩阵的特征值，并根据所述特征值对所述文字数据进行处理后，得到所述样本数据。
一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，其中，所述计算机可读指令被所述处理器执行时，使得所述处理器执行基于强化学习的信息处理方法，其中，基于强化学习的信息处理方法，包括：

获取原始数据并对所述原始数据进行预处理，得到样本数据；

获取所述样本数据中达到参数期望的目标值，提取所述样本数据中参数的实际值，并将所述目标值与所述实际值入参到预设的奖惩函数中进行计算，得到所述实际值的评分权重；

获取所述样本数据对应的多个备选方案数据，将各所述备选方案数据和所述实际值的评分权重导入到用于评分的强化学习模型中进行评分后，得到各所述备选方案数据的初始评分；

根据预设的加分策略对所述初始评分进行处理后得到所述备选方案数据的最终评分；

根据预设的业务逻辑对各所述备选方案数据进行过滤，并以过滤后的备选方案数据中最终评分最高项作为所述原始数据的目标方案数据。
根据权利要求9所述的计算机设备，其中，所述获取原始数据并对所述原始数据进行预处理，得到样本数据，包括：

对所述原始数据中的文字数据进行词向量转换，得到多个数据词向量；

根据预设的筛选策略对所述数据词向量进行词向量转换，得到策略词向量；

将各所述数据词向量和所述策略词向量进行乘积，得到多个词向量矩阵，计算各所述词向量矩阵的特征值，并根据所述特征值对所述文字数据进行处理后，得到所述样本数据。
根据权利要求9所述的计算机设备，其中，所述获取所述样本数据中达到参数期望的目标值，提取所述样本数据中参数的实际值，并将所述目标值与所述实际值入参到预设的奖惩函数中进行计算，得到所述实际值的评分权重，包括：

采用实体抽取技术抽取所述样本数据中的实体名称信息，并根据所述实体名称信息从预置数据库中提取出包含有所述实体名称信息的信息字段；

从所述信息字段中提取出所述目标值；

将所述目标值和所述实际值入参到预设的奖惩函数进行计算，得到所述实际值的评分权重，其中，评分权重的计算公式为：

r(S _t+1)＝a[sgn(A-S _t+1)]+b(S _t-S _t+1)，

式子中，r(S _t+1)为第t+1个实际值的评分权重，a，b为平衡常数0≤a≤1、0≤b≤1，sgn()为符号函数，A为目标值，S _t为第t个实际值，S _t+1为第t+1个实际值。
根据权利要求9所述的计算机设备，其中，所述将各所述备选方案数据和所述实际值的评分权重导入到用于评分的强化学习模型中进行评分后，得到各所述备选方案数据的初始评分，包括：

根据所述评分权重，生成所述强化学习模型中参数的初始奖励权重；

将各所述备选方案数据和所述实际值的评分权重导入到所述强化学习模型，获取所述强化学习模型的实时状态，将所述实时状态与状态库中的状态进行匹配，得到所述实时状态的贡献值；

根据所述实时状态的贡献值，对所述初始奖励权重进行修正后，得到最终奖励权重；

根据所述最终奖励权重，对各所述备选方案数据进行评分后，得到各所述备选方案数据的初始评分。
根据权利要求9所述的计算机设备，其中，所述根据预设的加分策略对所述初始评分进行处理后得到所述备选方案数据的最终评分，包括：

获取所述备选方案数据中符合所述加分策略且达到所述样本数据的参数期望的目标值以及所述样本数据中参数的实际值；

获取所述加分策略对应的预置等级分，并将所述目标值、所述实际值和所述等级分入参到附加评分函数进行计算，得到所述附加评分：

其中，所述附加评分函数为：

式子中，r _new为附加评分，{match}为备选方案数据符合加分策略的数量，d _i为第i个加分策略对应的等级分，g _i为在第i个加分策略下的目标值与实际值的差值，h为常数；

将所述初始评分和所述附加评分相加后得到所述最终评分。
根据权利要求9至13任一项所述的计算机设备，其中，所述根据预设的业务逻辑对各所述备选方案数据进行过滤，包括：

采用预置分词器对所述备选方案数据进行分词，得到各方案数据对应的分词集；

依次将所述分词集中的分词与预置敏感词库进行对比，输出所述备选方案数据对应的分词集中所包含的多个敏感词；

采用预置正则匹配式，确定所述各敏感词在所述备选方案数据中的逻辑表述关系，并判断所述逻辑关系是否符合预设的业务逻辑；

若所述逻辑表述关系符合所述业务逻辑，则保留该备选方案数据，否则删除该备选方案数据。
一种存储有计算机可读指令的存储介质，其中，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行基于强化学习的信息处理方法，其中，基于强化学习的信息处理方法，包括：

获取原始数据并对所述原始数据进行预处理，得到样本数据；

获取所述样本数据中达到参数期望的目标值，提取所述样本数据中参数的实际值，并将所述目标值与所述实际值入参到预设的奖惩函数中进行计算，得到所述实际值的评分权重；

获取所述样本数据对应的多个备选方案数据，将各所述备选方案数据和所述实际值的评分权重导入到用于评分的强化学习模型中进行评分后，得到各所述备选方案数据的初始评分；

根据预设的加分策略对所述初始评分进行处理后得到所述备选方案数据的最终评分；

根据预设的业务逻辑对各所述备选方案数据进行过滤，并以过滤后的备选方案数据中最终评分最高项作为所述原始数据的目标方案数据。
根据权利要求15所述的存储有计算机可读指令的存储介质，其中，所述获取原始数据并对所述原始数据进行预处理，得到样本数据，包括：

对所述原始数据中的文字数据进行词向量转换，得到多个数据词向量；

根据预设的筛选策略对所述数据词向量进行词向量转换，得到策略词向量；

将各所述数据词向量和所述策略词向量进行乘积，得到多个词向量矩阵，计算各所述词向量矩阵的特征值，并根据所述特征值对所述文字数据进行处理后，得到所述样本数据。
根据权利要求15所述的存储有计算机可读指令的存储介质，其中，所述获取所述样本数据中达到参数期望的目标值，提取所述样本数据中参数的实际值，并将所述目标值与所述实际值入参到预设的奖惩函数中进行计算，得到所述实际值的评分权重，包括：

采用实体抽取技术抽取所述样本数据中的实体名称信息，并根据所述实体名称信息从预置数据库中提取出包含有所述实体名称信息的信息字段；

从所述信息字段中提取出所述目标值；

将所述目标值和所述实际值入参到预设的奖惩函数进行计算，得到所述实际值的评分权重，其中，评分权重的计算公式为：

r(S _t+1)＝a[sgn(A-S _t+1)]+b(S _t-S _t+1)，

式子中，r(S _t+1)为第t+1个实际值的评分权重，a，b为平衡常数0≤a≤1、0≤b≤1，sgn()为符号函数，A为目标值，S _t为第t个实际值，S _t+1为第t+1个实际值。
根据权利要求15所述的存储有计算机可读指令的存储介质，其中，所述将各所述备选方案数据和所述实际值的评分权重导入到用于评分的强化学习模型中进行评分后，得到各所述备选方案数据的初始评分，包括：

根据所述评分权重，生成所述强化学习模型中参数的初始奖励权重；

将各所述备选方案数据和所述实际值的评分权重导入到所述强化学习模型，获取所述强化学习模型的实时状态，将所述实时状态与状态库中的状态进行匹配，得到所述实时状态的贡献值；

根据所述实时状态的贡献值，对所述初始奖励权重进行修正后，得到最终奖励权重；

根据所述最终奖励权重，对各所述备选方案数据进行评分后，得到各所述备选方案数据的初始评分。
根据权利要求15所述的存储有计算机可读指令的存储介质，其中，所述根据预设的加分策略对所述初始评分进行处理后得到所述备选方案数据的最终评分，包括：

获取所述备选方案数据中符合所述加分策略且达到所述样本数据的参数期望的目标值以及所述样本数据中参数的实际值；

获取所述加分策略对应的预置等级分，并将所述目标值、所述实际值和所述等级分入参到附加评分函数进行计算，得到所述附加评分：

其中，所述附加评分函数为：

式子中，r _new为附加评分，{match}为备选方案数据符合加分策略的数量，d _i为第i个加分策略对应的等级分，g _i为在第i个加分策略下的目标值与实际值的差值，h为常数；

将所述初始评分和所述附加评分相加后得到所述最终评分。
根据权利要求15至19任一项所述的存储有计算机可读指令的存储介质，其中，所述根据预设的业务逻辑对各所述备选方案数据进行过滤，包括：

采用预置分词器对所述备选方案数据进行分词，得到各方案数据对应的分词集；

依次将所述分词集中的分词与预置敏感词库进行对比，输出所述备选方案数据对应的分词集中所包含的多个敏感词；

采用预置正则匹配式，确定所述各敏感词在所述备选方案数据中的逻辑表述关系，并判断所述逻辑关系是否符合预设的业务逻辑；

若所述逻辑表述关系符合所述业务逻辑，则保留该备选方案数据，否则删除该备选方案数据。