WO2021139106A1

WO2021139106A1 - 分群决策模型生成、分群处理方法、装置、设备及介质

Info

Publication number: WO2021139106A1
Application number: PCT/CN2020/098829
Authority: WO
Inventors: 徐卓扬; 孙行智; 赵惟; 左磊; 蒋雪涵; 胡岗
Original assignee: 平安科技（深圳）有限公司
Priority date: 2020-05-13
Filing date: 2020-06-29
Publication date: 2021-07-15
Also published as: CN111666494B; CN111666494A

Abstract

一种分群决策模型生成、分群处理方法、装置、设备及介质。所述方法包括：获取个体样本数据中个体特征的短期贡献和长期贡献，将短期贡献和长期贡献输入至预设的贡献度函数后，输出特征贡献度；将特征贡献度输入至预设reward函数后，输出reward值，并将个体样本数据的群体知识值标签定义为行为变量，将个体样本数据的个体特征定义为状态变量；将行为变量、状态变量和reward值输入至待训练预设分群决策模型进行训练，获取生成的Q值，并将reward值和Q值输入至损失函数后获取损失值；在判定损失值不再下降时，将待训练分群决策模型标记为训练完成的分群决策模型。还涉及区块链技术，所述个体样本数据可存储于区块链节点中。

Description

分群决策模型生成、分群处理方法、装置、设备及介质

本申请要求于2020年05月13日提交中国专利局、申请号为202010403130.5，发明名称为“分群决策模型生成、分群处理方法、装置、设备及介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及大数据领域，尤其涉及一种分群决策模型生成、分群处理方法、装置、设备及介质。

背景技术

目前很多公司为了实现降低成本，实现个性化推荐和提升推荐效果的目的，因此相似群体的划分是很多公司非常重要的任务，并且相似群体的划分在很多应用场景中都需应用到，例如：饮食优化、运动方式推荐和相似群体的商品推荐等。但发明人意识到目前的相似群体划分方法有以下不足：1.目前大部分决策考虑的群体知识库不足；2.若对群体划分时考虑了多个群体知识库，但在进行分群的过程中多个群体知识库中往往有至少一处群体知识的冲突的部分，且当前并不存在对这种冲突的部分进行决策的方案；上述提到的两点将导致群体划分存在准确性低、全面性低和不合理的问题。因此本领域人员亟需寻找一种技术方案能解决上述提到的问题。

技术问题

基于此，有必要针对上述技术问题，提供一种分群决策模型生成、分群处理方法、装置、设备及介质，通过该分群决策模型可精准、全面且合理确定出待分群的个体样本数据所属的群体。

技术解决方案

一种分群决策模型生成方法，包括：

获取待分群的个体样本数据，利用预设分群决策树建立至少两个群体知识库；每一个所述群体知识库中均包含与所有所述个体样本数据关联的群体知识，所述个体样本数据中包括多个个体特征；至少两个所述群体知识库中与同一个所述个体样本数据关联的群体知识相互冲突；

通过特征贡献度评估器的预测短期结局模型调用SHAP方法评估所述个体样本数据中个体特征的短期贡献，通过所述特征贡献度评估器的预测长期结局模型调用SHAP方法评估所述个体样本数据中个体特征的长期贡献，将所述短期贡献和所述长期贡献输入至所述特征贡献度评估器的预设的贡献度函数后，输出所述个体特征的特征贡献度；所述特征贡献度评估器基于XGBoost模型的SHAP方法建立；

获取所述个体样本数据与各所述群体知识库中相关联的所述群体知识之间的匹配关系，根据获取的所有所述匹配关系为所述个体样本数据标记样本群体值标签后，将所述个体样本数据的所有所述个体特征的特征贡献度输入至预设reward函数后，输出所述个体样本数据的reward值，并将所述个体样本数据的群体知识值标签定义为行为变量，将所述个体样本数据的个体特征定义为状态变量；

将所述个体样本数据的行为变量、状态变量和reward值输入至待训练预设分群决策模型的free-stable DQN网络进行训练，获取free-stable DQN网络根据所述行为变量和所述状态变量生成Q值，并将所述个体样本数据的所述reward值和所述Q值输入至所述待训练分群决策型的损失函数后获取所述个体样本数据的损失值；

在判定所述个体样本数据在经历过预设训练早停系数后所述损失值不再下降时，将所述待训练分群决策模型标记为训练完成的分群决策模型。

一种分群决策模型生成装置，包括：

建立模块，用于获取待分群的个体样本数据，利用预设分群决策树建立至少两个群体知识库；每一个所述群体知识库中均包含与所有所述个体样本数据关联的群体知识，所述个体样本数据中包括多个个体特征；至少两个所述群体知识库中与同一个所述个体样本数据关联的群体知识相互冲突；

输出模块，用于通过特征贡献度评估器的预测短期结局模型调用SHAP方法评估所述个体样本数据中个体特征的短期贡献，通过所述特征贡献度评估器的预测长期结局模型调用SHAP方法评估所述个体样本数据中个体特征的长期贡献，将所述短期贡献和所述长期贡献输入至所述特征贡献度评估器的预设的贡献度函数后，输出所述个体特征的特征贡献度；所述特征贡献度评估器基于XGBoost模型的SHAP方法建立；

定义模块，用于获取所述个体样本数据与各所述群体知识库中相关联的所述群体知识之间的匹配关系，根据获取的所有所述匹配关系为所述个体样本数据标记样本群体值标签后，将所述个体样本数据的所有所述个体特征的特征贡献度输入至预设reward函数后，输出所述个体样本数据的reward值，并将所述个体样本数据的群体知识值标签定义为行为变量，将所述个体样本数据的个体特征定义为状态变量；

获取模块，用于将所述个体样本数据的行为变量、状态变量和reward值输入至待训练预设分群决策模型的free-stable DQN网络进行训练，获取free-stable DQN网络根据所述行为变量和所述状态变量生成Q值，并将所述个体样本数据的所述reward值和所述Q值输入至所述待训练分群决策型的损失函数后获取所述个体样本数据的损失值；

标记模块，用于在判定所述个体样本数据在经历过预设训练早停系数后所述损失值不再下降时，将所述待训练分群决策模型标记为训练完成的分群决策模型。

一种分群处理方法，包括：

获取待确定群体的个体数据，并获取所述个体数据中与至少两个群体知识库一一对应的至少两个分群决策结果；一个所述群体知识库包含至少一个确定群体，所述分群决策结果是指所述个体数据属于所述群体知识库中包含的其中一个所述确定群体；一个所述确定群体与一个所述群体知识库中的一个群体知识关联；

若至少两个所述分群决策结果不一致，则将所述个体数据输入至分群决策模型后，得到所述分群决策模型输出的最终分群结果；所述最终分群结果与其所属的个体数据的群体值标签关联；

若至少两个所述分群决策结果均一致，则确定该分群决策结果为所述个体数据的最终分群结果。

一种分群处理装置，包括：

分群决策结果获取模块，用于获取待确定群体的个体数据，并获取所述个体数据中与至少两个群体知识库一一对应的至少两个分群决策结果；一个所述群体知识库包含至少一个确定群体，所述分群决策结果是指所述个体数据属于所述群体知识库中包含的其中一个所述确定群体；一个所述确定群体与一个所述群体知识库中的一个群体知识关联；

输入模块，用于若至少两个所述分群决策结果不一致，则将所述个体数据输入至分群决策模型后，得到所述分群决策模型输出的最终分群结果；所述最终分群结果与其所属的个体数据的群体值标签关联；

最终分群结果确定模块，用于若至少两个所述分群决策结果均一致，则确定该分群决策结果为所述个体数据的最终分群结果。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述分群决策模型生成方法或分群处理方法。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述分群决策模型生成方法或分群处理方法。

有益效果

上述分群决策模型生成方法、装置、设备及介质，对待分群的个体样本数据进行数据处理后来解决两个群体知识库中与同一个个体样本数据关联的群体知识均相互冲突的问题，也即最后通过训练建立一个分群决策模型来对待分群的个体样本数据进行识别后输出个体样本数据的样本群体值标签，进而通过该分群决策模型可精准高效确定出待分群的个体样本数据所属的群体，且在模型的识别过程中，能全面考虑群体知识库中的群体知识，识别完成后输出的个体样本数据所属的群体也具备高合理性高的优点。

上述分群处理方法、装置、设备及介质，通过上述训练完成的分群决策模型对待确定群体的个体数据来精准、高效、合理和全面确定出个体数据所属的最终分群结果。

附图说明

图1是本申请一实施例中分群决策模型生成方法的一应用环境示意图；

图2是本申请一实施例中分群决策模型生成方法的一流程示意图；

图3是本申请一实施例中分群决策模型生成装置的结构示意图；

图4是本申请一实施例中分群处理方法的一流程示意图；

图5是本申请一实施例中分群处理装置的结构示意图；

图6是本申请一实施例中计算机设备的一示意图。

本发明的最佳实施方式

本申请提供的分群决策模型生成方法，可应用在如图1的应用环境中，其中，客户端通过网络与服务器进行通信。其中，客户端可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一实施例中，如图2所示，提供一种分群决策模型生成方法，以该方法应用在图1中的服务器为例进行说明，包括如下步骤：

S10，获取待分群的个体样本数据，利用预设分群决策树建立至少两个群体知识库；每一个所述群体知识库中均包含与所有所述个体样本数据关联的群体知识，所述个体样本数据中包括多个个体特征；至少两个所述群体知识库中与同一个所述个体样本数据关联的群体知识相互冲突；

可理解地，待分群的个体样本数据可指代大量个体在某个应用场景下的长期跟踪数据(每次跟踪数据收集完成后会记录一个跟踪次数)，比如大量个体在饮食方式优化、/用药管理方式/运动方式推荐/相似群体的商品推荐等应用场景下的跟踪数据；且待分群的个体样本数据都存在多个个体特征，因此可通过收集预设时间段的个体样本数据而得到多个个体特征，在饮食方式优化的应用场景下，可收集个体样本数据中的身份信息个体特征(包括但不限于个体的性别、年龄和体重等)、健康情况个体特征(包括但不限于BMI,身体质量指数、体脂率等)、饮食情况个体特征、短期结局个体特征(个体下一次BMI是否在控制范围内)和长期结局个体特征(个体下一次是否已死亡)，或者在用药管理方式的场景下，可收集个体样本数据中的检查指标个体特征、疾病史个体特征、用药史个体特征、短期疗效个体特征和长期疗效个体特征；群体知识库中包含了群体知识，主要是指示人群划分的知识，在上述饮食方式优化的应用场景，群体知识库中的群体知识为饮食方式推荐的人群划分方式，比如“老年人应多吃含钙食物，儿童应补充各种营养”就划分出了“老年人”、“儿童”两个群体。具体地，对每个群体知识库，利用预设分群决策树可将上述提到的饮食方式推荐方式的各种规则转换成决策树的形式，并且需要说明的是，各决策树与同一个个体样本数据关联的群体知识有可能相互冲突，比如A群体知识库、B群体知识库与同一个个体样本数据关联的各种饮食的用量相互冲突。

进一步地，所述获取待分群的个体样本数据，包括：

获取预设时间段的所有所述个体样本数据，并在预设数据图谱中以所述个体样本数据查询出至少一个预设个体特征项目，并以预设个体特征项目收集所述个体特征。

可理解地，个体样本数据的类型不同(应用场景不同)，预设时间段也应该不同，以上述提到的饮食方式优化的应用场景，该应用场景下，预设时间段可为一个季度；由于每个应用场景不同，因此个体样本数据中的个体特征也必须不同；具体可通过预设数据图谱建立起每个应用场景下对应的预设个体特征项目，并在确定出要收集一个应用场景下的个体样本数据时，可产生出与该个体样本数据相关的各个个体特征；通过本实施例可确定出要收集的个体样本数据的各个个体特征，加快收集的规范性和提高收集的效率性。

S20，通过特征贡献度评估器的预测短期结局模型调用SHAP方法评估所述个体样本数据中个体特征的短期贡献，通过所述特征贡献度评估器的预测长期结局模型调用SHAP方法评估所述个体样本数据中个体特征的长期贡献，将所述短期贡献和所述长期贡献输入至所述特征贡献度评估器的预设的贡献度函数后，输出所述个体特征的特征贡献度；所述特征贡献度评估器基于XGBoost模型的SHAP方法建立；

可理解地，特征贡献度评估器是基于XGBoost模型和SHAP方法建立的，而特征贡献度评估器中主要包括预测短期结局模型和预测长期结局模型(这两个模型预测目标不一致)，且这两个模型均为XGBoost模型。XGBoost模型利用集成思想，训练时串行地生成多棵决策树(其中每棵决策树拟合上一棵决策树的残差)，使用时利用所有决策树经过多轮决策后得到一个预测结果。在训练时，预测短期结局的XGBoost模型和预测长期结局的XGBoost模型使用的数据都为S10中抽取出的大量个体样本数据(除了最后一次跟踪数据，因为最后一次跟踪数据一般没有短期结局和长期结局个体特征)。两个XGBoost模型的输入特征都为已抽取出个体样本数据中的各个体特征(非结局)，预测短期结局的XGBoost模型输出为短期结局个体特征，预测长期结局的XGBoost模型输出为长期结局个体特征。在XGBoost模型训练完成后，使用两个XGBoost模型可调用SHAP方法(通过SHAP值的方式定义特征的重要性，显示XGBoost模型最终如何到达预测输出的预测结果，该预测结果为上述提到的短期结局和长期结局)，SHAP方法是度量机器学习模型的特征重要性的经典方法；在上述提到的饮食方式优化的应用场景下，预测短期结局模型可用于预测个体下一次BMI是否在控制范围内的短期贡献等，而预测长期结局模型可用于预测个体下一次是否已死亡的长期贡献等；特征贡献度评估器的预设的贡献度函数为Contribution(i,j,k)＝SHAP _M1(i,j)[k]-α*SHAP _M2(i,j)[k]，其中，α为超参数，且α需大于1，大于1是因为长期结局结果一般比短期结局结果重要，所以α用于调节长期结局结果与短期结局结果的相对重要程度，运用相差是因为短期结局结果一般定义为良性结局，因此短期结局结果越大越好，而长期结局一般定义为恶性结局(例如下一次个体是否死亡)，因此长期结局结果越小越好，i指个体样本数据，j指个体样本数据的跟踪次数，k指个体样本数据的某个个体特征；SHAP _M1为预测短期结局模型(预测短期结局模型标记为M1)输出的短期贡献，SHAP _M2为预测短期结局模型(预测长期结局模型标记为M2)输出的长期贡献。

进一步地，通过所述特征贡献度评估器的预测短期结局模型调用SHAP方法评估所述个体样本数据中个体特征的短期贡献，通过所述特征贡献度评估器的预测长期结局模型调用SHAP方法评估所述个体样本数据中个体特征的长期贡献，包括：

获取所述个体样本数据对应于至少两个所述群体知识库的至少两个分群决策结果；一个所述群体知识库包含至少一个群体，所述分群决策结果为所述个体样本数据属于所述群体知识库包含的一个所述群体；一个所述群体与一个所述群体知识关联；

若至少两个所述分群决策结果不一致，则通过特征贡献度评估器的预测短期结局模型调用SHAP方法评估所述个体样本数据中个体特征的短期贡献，通过所述特征贡献度评估器的预测长期结局模型调用SHAP方法评估所述个体样本数据中个体特征的长期贡献。

可理解地，群体知识库中包含的群体数量与群体知识库包含的群体知识相关，一个群体知识库中包含的群体知识越多，群体知识库中包含的群体数量就越多。

在本实施例中，提前判断个体样本数据是否需要进一步地去执行步骤S20之后的训练步骤，可通过获取个体样本数据对应于至少两个群体知识库的至少两个分群决策结果，并用来判定分群决策结果是否为一致，比如，在饮食方式优化的应用场景下，A群体知识库中的群体知识向该个体样本数据推荐所属群体的蔬菜饮食用量为80g-100g，而B群体知识库中的群体知识向该个体样本数据推荐所属群体的蔬菜饮食用量为30g-50g，可见两个分群决策结果不一致而将引起相互冲突。因此需执行步骤S20之后的训练步骤来解决上述的相互冲突的问题。可见，本实施例可有效通过对应的手段解决个体样本数据所属群体的问题。

在一实施例中，所述获取所述个体样本数据对应于至少两个所述群体知识库的至少两个分群决策结果之后，还包括：

若至少两个所述分群决策结果均一致，则删除所述个体样本数据。

S30，获取所述个体样本数据与各所述群体知识库中相关联的所述群体知识之间的匹配关系，根据获取的所有所述匹配关系为所述个体样本数据标记样本群体值标签后，将所述个体样本数据的所有所述个体特征的特征贡献度输入至预设reward函数后，输出所述个体样本数据的reward值，并将所述个体样本数据的群体知识值标签定义为行为变量，将所述个体样本数据的个体特征定义为状态变量；

可理解地，步骤S10所在的实施例只是建立了与个体样本数据关联的群体知识库，步骤S20过滤掉了各群体知识库中群体知识的分群决策结果一致的个体样本数据，而本实施例是为了确定个体样本数据与关联的群体知识库直接的匹配关系，也即从个体样本数据中的各个个体特征来确定与群体知识库中的群体知识之间的匹配关系，比如，在饮食方式优化的应用场景下，个体样本数据中的饮食情况个体特征为一天蔬菜饮食用量为40g，而A群体知识库中的群体知识向该个体样本数据推荐所属群体的蔬菜饮食用量为80g-100g，B群体知识库中的群体知识向该个体样本数据推荐所属群体的蔬菜饮食用量为30g-50g，因此个体样本数据与A群体知识库中的群体知识不匹配而跟A群体知识库中的群体知识匹配，从而通过获取的所有匹配关系为个体样本数据标记样本群体值标签(0,1)，可通过类似的原理(符合群体知识库中的群体知识就标记1，不符合群体知识库中的群体知识就标记0)从而可得到其他情况下的样本群体值标签(数学上的坐标值)，在此需要说明的是，存在的群体知识库越多，标记样本群体值标签的坐标维度就越多；预设reward函数为reward(i,j)＝∑ _kek(contribution(i,j+1,k)-contribution(i,j,k)，其中，K指个体样本数据的所有个体特征(而k是指个体样本数据的一个个体特征)，i和j同上述提到的贡献度函数一致；行为变量为强化学习中的action，状态变量为强化学习中的state，强化学习是通过“试错”的方式进行学习，在state的条件下执行某个action后，通过与环境交互获得的reward值来优化action的选择。

S40，将所述个体样本数据的行为变量、状态变量和reward值输入至待训练预设分群决策模型的free-stable DQN网络进行训练，获取free-stable DQN网络根据所述行为变量和所述状态变量生成Q值，并将所述个体样本数据的所述reward值和所述Q值输入至所述待训练分群决策型的损失函数后获取所述个体样本数据的损失值；所述损失函数包括所述reward值和所述Q值；

可理解地，基于Q-learning的强化学习方法是用一个Q值表来存储每一个状态state和在这个状态state条件下每个行为action所拥有的Q值，但state中很多维度是连续的，用表格来存储每个state的每个action的Q值是一件很困难的事，而free-stable DQN(使用一个四层DQN网络，输入层与state有相同维度，中间有两个维度分别为32、64的隐藏层，输出层与action有相同维度，上述提到的四个层之间均为全连接。)融合的神经网络和Q-learning，因此利用神经网络来生成Q值以解决state维度是连续的问题；Q值的生成公式为

而损失函数为

其中,

φ _j为step j(在此提到的j表示强化学习里个体样本数据一个episode的第j个step，可以理解为上述S20提到个体样本数据的跟踪次数)时的状态变量，

为step j时的行为变量，θ为网络参数，r _j为个体样本数据在step j的reward值，γ为衰减因子(表示距离当前step j越远，受当前的reward影响越小)，Q为Q值，表示预期价值，φ _j+1为下一个状态变量(step j+1时的状态)，

为可以得到最大Q值的行为，θ ^-为同θ一致，也为网络参数，θ _t-1为当前训练轮次的l轮之前的参数(l为可指定的超参数)。需要说明的是，由于在对样本数据进行群体划分时，群体划分效果会在某个个体样本数据的下一次跟踪数据才会产生，因此需利用多个个体样本数据不断回放来进行学习训练，但此时reward值的定义对该传统DQN模型的训练影响还是比较敏感的，且传统DQN模型中的损失函数由于与最大的Q值有关，在接近收敛时，传统DQN模型的参数可能还在波动，因此本实施例重新定义了传统DQN模型中的损失函数，因此使用该待训练分群决策型的损失函数可减少上述定义的reward值的主观性，其中在该损失函数加入类似正则化项的功能可减少强化学习中参数波动的问题，从而可提高待训练分群决策型的稳定性。

S50，在判定所述个体样本数据在经历过预设训练早停系数后所述损失值不再下降时，将所述待训练分群决策模型标记为训练完成的分群决策模型。

可理解地，在预设训练早停系数的轮数训练后，确定待训练分群决策模型中的损失值未发生大幅度波动且不再下降就可以说明待训练分群决策模型为趋于收敛，也可说明待训练分群决策模型已训练完成为分群决策模型。

综上所述，上述提供了一种分群决策模型生成方法，对待分群的个体样本数据进行数据处理后来解决两个群体知识库中与同一个个体样本数据关联的群体知识均相互冲突的问题，也即最后通过训练建立一个分群决策模型来对待分群的个体样本数据进行识别后输出个体样本数据的样本群体值标签，进而通过该分群决策模型可精准和高效确定出待分群的个体样本数据所属的群体，且在模型的识别过程中，能较全面考虑群体知识库中的群体知识，识别完成后输出的个体样本数据所属的群体也具备高合理性高的优点。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

在一实施例中，提供一种分群决策模型生成装置，该分群决策模型生成装置与上述实施例中分群决策模型生成方法一一对应。如图3所示，该分群决策模型生成装置包括建立模块11、输出模块12、定义模块13、获取模块14和标记模块15。各功能模块详细说明如下：

建立模块11，用于获取待分群的个体样本数据，利用预设分群决策树建立至少两个群体知识库；每一个所述群体知识库中均包含与所有所述个体样本数据关联的群体知识，所述个体样本数据中包括多个个体特征；至少两个所述群体知识库中与同一个所述个体样本数据关联的群体知识相互冲突；

输出模块12，用于通过特征贡献度评估器的预测短期结局模型调用SHAP方法评估所述个体样本数据中个体特征的短期贡献，通过所述特征贡献度评估器的预测长期结局模型调用SHAP方法评估所述个体样本数据中个体特征的长期贡献，将所述短期贡献和所述长期贡献输入至所述特征贡献度评估器的预设的贡献度函数后，输出所述个体特征的特征贡献度；所述特征贡献度评估器基于XGBoost模型的SHAP方法建立；

定义模块13，用于获取所述个体样本数据与各所述群体知识库中相关联的所述群体知识之间的匹配关系，根据获取的所有所述匹配关系为所述个体样本数据标记样本群体值标签后，将所述个体样本数据的所有所述个体特征的特征贡献度输入至预设reward函数后，输出所述个体样本数据的reward值，并将所述个体样本数据的群体知识值标签定义为行为变量，将所述个体样本数据的个体特征定义为状态变量；

获取模块14，用于将所述个体样本数据的行为变量、状态变量和reward值输入至待训练预设分群决策模型的free-stable DQN网络进行训练，获取free-stable DQN网络根据所述行为变量和所述状态变量生成Q值，并将所述个体样本数据的所述reward值和所述Q值输入至所述待训练分群决策型的损失函数后获取所述个体样本数据的损失值；

标记模块15，用于在判定所述个体样本数据在经历过预设训练早停系数后所述损失值不再下降时，将所述待训练分群决策模型标记为训练完成的分群决策模型。

进一步地，所述建立模块包括：

收集子模块，用于获取预设时间段的所有所述个体样本数据，并在预设数据图谱中以所述个体样本数据查询出至少一个预设个体特征项目，并以预设个体特征项目收集所述个体特征。

进一步地，所述输出模块包括：

获取子模块，用于获取所述个体样本数据对应于至少两个所述群体知识库的至少两个分群决策结果；一个所述群体知识库包含至少一个群体，所述分群决策结果为所述个体样本数据属于所述群体知识库包含的一个所述群体；一个所述群体与一个所述群体知识关联；

评估子模块，用于若至少两个所述分群决策结果不一致，则通过特征贡献度评估器的预测短期结局模型调用SHAP方法评估所述个体样本数据中个体特征的短期贡献，通过所述特征贡献度评估器的预测长期结局模型调用SHAP方法评估所述个体样本数据中个体特征的长期贡献。

进一步地，所述输出模块还包括：

删除子模块，用于若至少两个所述分群决策结果均一致，则删除所述个体样本数据。

关于分群决策模型生成装置的具体限定可以参见上文中对于分群决策模型生成方法的限定，在此不再赘述。上述分群决策模型生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

本申请还提供的评估数据处理方法，可应用在如图1的应用环境中，其中，客户端通过网络与服务器进行通信。其中，客户端可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一实施例中，如图4所示，提供一种分群处理方法，以该方法应用在图1中的服务端为例进行说明，包括如下步骤：

S50，获取待确定群体的个体数据，并获取所述个体数据中与至少两个群体知识库一一对应的至少两个分群决策结果；一个所述群体知识库包含至少一个确定群体，所述分群决策结果是指所述个体数据属于所述群体知识库中包含的其中一个所述确定群体；一个所述确定群体与一个所述群体知识库中的一个群体知识关联；可理解地，上述提到的确定群体包括但不限于饮食群体、运动群体和相似商品推荐群体等。

S60，若至少两个所述分群决策结果不一致，则将所述个体数据输入至分群决策模型后，得到所述分群决策模型输出的最终分群结果；所述最终分群结果与其所属的个体数据的群体值标签关联；可理解地，训练完成分群决策模型用于识别个体样本数据后输出个体样本数据的群体值标签，并通过群体值标签确定所属的群体，比如，若得到的群体值标签还为上述步骤S30提到的(0，1)，则说明个体样本数据所属的群体为B群体知识库中所对应的确定群体，若得到的群体值标签为(1，0)，则说明个体样本数据所属的群体为A群体知识库中所对应的确定群体，通过确认出来的确定群体可进一步地向用户推荐适合的三餐的饮食情况、运动方式推荐和似群体的商品推荐等。需要说明的是，在模型的使用过程中可对分群决策模型进行优化，将所述个体数据的下一次新的个体数据中的所有个体特征关联的reward值、行为变量和状态变量直接输入至分群决策模型后以对分群决策模型进行优化而适应新的个体样本数据；

S70，若至少两个所述分群决策结果均一致，则确定该分群决策结果为所述个体数据的最终分群结果。

可理解地，在至少两个分群决策结果不一致时，通过分群决策模型去识别个体数据后，获取该模型输出的个体数据的群体值标签，并通过群体值标签确定出个体数据的最终分群结果，与上述提到的步骤S50原理一致；在两个分群决策结果一致时，个体样本数据可同时属于分群决策结果所包含的确定群体。

综上所述，上述提供了一种分群处理方法，通过上述训练完成的分群决策模型对待确定群体的个体数据来精准、高效、合理和全面确定出个体数据所属的最终分群结果。

在一实施例中，提供一种分群处理装置，该分群处理装置与上述实施例中评估数据处理方法一一对应。如图5所示，该分群处理装置包括分群决策结果获取模块21、输入模块22和最终分群结果确定模块23。各功能模块详细说明如下：

分群决策结果获取模块21，用于获取待确定群体的个体数据，并获取所述个体数据中与至少两个群体知识库一一对应的至少两个分群决策结果；一个所述群体知识库包含至少一个确定群体，所述分群决策结果是指所述个体数据属于所述群体知识库中包含的其中一个所述确定群体；一个所述确定群体与一个所述群体知识库中的一个群体知识关联；

输入模块22，用于若至少两个所述分群决策结果不一致，则将所述个体数据输入至分群决策模型后，得到所述分群决策模型输出的最终分群结果；所述最终分群结果与其所属的个体数据的群体值标签关联；

最终分群结果确定模块23，用于若至少两个所述分群决策结果均一致，则确定该分群决策结果为所述个体数据的最终分群结果。

关于分群处理装置的具体限定可以参见上文中对于评估模型生成方法的限定，在此不再赘述。上述分群处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储分群决策模型生成方法中涉及到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种分群决策模型生成方法，或者该计算机程序被处理器执行时以实现一种分群处理方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中分群决策模型生成方法的步骤，或者处理器执行计算机程序时实现上述实施例中分群处理方法的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机可读存储介质可以是非易失性，也可以是易失性，计算机程序被处理器执行时实现上述实施例中分群决策模型生成方法的步骤，或者计算机程序被处理器执行时实现上述实施例中分群处理方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

一种分群决策模型生成方法，其中，包括：

获取待分群的个体样本数据，利用预设分群决策树建立至少两个群体知识库；每一个所述群体知识库中均包含与所有所述个体样本数据关联的群体知识，所述个体样本数据中包括多个个体特征；至少两个所述群体知识库中与同一个所述个体样本数据关联的群体知识相互冲突；

通过特征贡献度评估器的预测短期结局模型调用SHAP方法评估所述个体样本数据中个体特征的短期贡献，通过所述特征贡献度评估器的预测长期结局模型调用SHAP方法评估所述个体样本数据中个体特征的长期贡献，将所述短期贡献和所述长期贡献输入至所述特征贡献度评估器的预设的贡献度函数后，输出所述个体特征的特征贡献度；所述特征贡献度评估器基于XGBoost模型的SHAP方法建立；

获取所述个体样本数据与各所述群体知识库中相关联的所述群体知识之间的匹配关系，根据获取的所有所述匹配关系为所述个体样本数据标记样本群体值标签后，将所述个体样本数据的所有所述个体特征的特征贡献度输入至预设reward函数后，输出所述个体样本数据的reward值，并将所述个体样本数据的群体知识值标签定义为行为变量，将所述个体样本数据的个体特征定义为状态变量；

将所述个体样本数据的行为变量、状态变量和reward值输入至待训练预设分群决策模型的free-stable DQN网络进行训练，获取free-stable DQN网络根据所述行为变量和所述状态变量生成Q值，并将所述个体样本数据的所述reward值和所述Q值输入至所述待训练分群决策型的损失函数后获取所述个体样本数据的损失值；

在判定所述个体样本数据在经历过预设训练早停系数后所述损失值不再下降时，将所述待训练分群决策模型标记为训练完成的分群决策模型。
根据权利要求1所述的分群决策模型生成方法，其中，所述获取待分群的个体样本数据，包括：

获取预设时间段的所有所述个体样本数据，并在预设数据图谱中以所述个体样本数据查询出至少一个预设个体特征项目，并以预设个体特征项目收集所述个体特征。
根据权利要求1所述的分群决策模型生成方法，其中，所述通过所述特征贡献度评估器的预测短期结局模型调用SHAP方法评估所述个体样本数据中个体特征的短期贡献，通过所述特征贡献度评估器的预测长期结局模型调用SHAP方法评估所述个体样本数据中个体特征的长期贡献，包括：

获取所述个体样本数据对应于至少两个所述群体知识库的至少两个分群决策结果；一个所述群体知识库包含至少一个群体，所述分群决策结果为所述个体样本数据属于所述群体知识库包含的一个所述群体；一个所述群体与一个所述群体知识关联；

若至少两个所述分群决策结果不一致，则通过特征贡献度评估器的预测短期结局模型调用SHAP方法评估所述个体样本数据中个体特征的短期贡献，通过所述特征贡献度评估器的预测长期结局模型调用SHAP方法评估所述个体样本数据中个体特征的长期贡献。
根据权利要求3所述的分群决策模型生成方法，其中，所述获取所述个体样本数据对应于至少两个所述群体知识库的至少两个分群决策结果之后，还包括：

若至少两个所述分群决策结果均一致，则删除所述个体样本数据。
一种分群处理方法，其中，包括：

获取待确定群体的个体数据，并获取所述个体数据中与至少两个群体知识库一一对应的至少两个分群决策结果；一个所述群体知识库包含至少一个确定群体，所述分群决策结果是指所述个体数据属于所述群体知识库中包含的其中一个所述确定群体；一个所述确定群体与一个所述群体知识库中的一个群体知识关联；

若至少两个所述分群决策结果不一致，则将所述个体数据输入至分群决策模型后，得到所述分群决策模型输出的最终分群结果；所述最终分群结果与其所属的个体数据的群体值标签关联；

若至少两个所述分群决策结果均一致，则确定该分群决策结果为所述个体数据的最终分群结果。
一种分群决策模型生成装置，其中，包括如下模块：

建立模块，用于获取待分群的个体样本数据，利用预设分群决策树建立至少两个群体知识库；每一个所述群体知识库中均包含与所有所述个体样本数据关联的群体知识，所述个体样本数据中包括多个个体特征；至少两个所述群体知识库中与同一个所述个体样本数据关联的群体知识相互冲突；

输出模块，用于通过特征贡献度评估器的预测短期结局模型调用SHAP方法评估所述个体样本数据中个体特征的短期贡献，通过所述特征贡献度评估器的预测长期结局模型调用SHAP方法评估所述个体样本数据中个体特征的长期贡献，将所述短期贡献和所述长期贡献输入至所述特征贡献度评估器的预设的贡献度函数后，输出所述个体特征的特征贡献度；所述特征贡献度评估器基于XGBoost模型的SHAP方法建立；

定义模块，用于获取所述个体样本数据与各所述群体知识库中相关联的所述群体知识之间的匹配关系，根据获取的所有所述匹配关系为所述个体样本数据标记样本群体值标签后，将所述个体样本数据的所有所述个体特征的特征贡献度输入至预设reward函数后，输出所述个体样本数据的reward值，并将所述个体样本数据的群体知识值标签定义为行为变量，将所述个体样本数据的个体特征定义为状态变量；

获取模块，用于将所述个体样本数据的行为变量、状态变量和reward值输入至待训练预设分群决策模型的free-stable DQN网络进行训练，获取free-stable DQN网络根据所述行为变量和所述状态变量生成Q值，并将所述个体样本数据的所述reward值和所述Q值输入至所述待训练分群决策型的损失函数后获取所述个体样本数据的损失值；

标记模块，用于在判定所述个体样本数据在经历过预设训练早停系数后所述损失值不再下降时，将所述待训练分群决策模型标记为训练完成的分群决策模型。
根据权利要求6所述的分群决策模型生成装置，其中，所述输出模块包括：

获取子模块，用于获取所述个体样本数据对应于至少两个所述群体知识库的至少两个分群决策结果；一个所述群体知识库包含至少一个群体，所述分群决策结果为所述个体样本数据属于所述群体知识库包含的一个所述群体；一个所述群体与一个所述群体知识关联；

评估子模块，用于若至少两个所述分群决策结果不一致，则通过特征贡献度评估器的预测短期结局模型调用SHAP方法评估所述个体样本数据中个体特征的短期贡献，通过所述特征贡献度评估器的预测长期结局模型调用SHAP方法评估所述个体样本数据中个体特征的长期贡献。
根据权利要求7所述的分群决策模型生成装置，其中，所述输出模块还包括：

删除子模块，用于若至少两个所述分群决策结果均一致，则删除所述个体样本数据。
根据权利要求6所述的分群决策模型生成装置，其中，所述建立模块包括：

收集子模块，用于获取预设时间段的所有所述个体样本数据，并在预设数据图谱中以所述个体样本数据查询出至少一个预设个体特征项目，并以预设个体特征项目收集所述个体特征。
一种分群处理装置，其中，包括如下模块：

分群决策结果获取模块，用于获取待确定群体的个体数据，并获取所述个体数据中与至少两个群体知识库一一对应的至少两个分群决策结果；一个所述群体知识库包含至少一个确定群体，所述分群决策结果是指所述个体数据属于所述群体知识库中包含的其中一个所述确定群体；一个所述确定群体与一个所述群体知识库中的一个群体知识关联；

输入模块，用于若至少两个所述分群决策结果不一致，则将所述个体数据输入至分群决策模型后，得到所述分群决策模型输出的最终分群结果；所述最终分群结果与其所属的个体数据的群体值标签关联；

最终分群结果确定模块，用于若至少两个所述分群决策结果均一致，则确定该分群决策结果为所述个体数据的最终分群结果。
一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现分群决策模型生成方法，包括：

获取待分群的个体样本数据，利用预设分群决策树建立至少两个群体知识库；每一个所述群体知识库中均包含与所有所述个体样本数据关联的群体知识，所述个体样本数据中包括多个个体特征；至少两个所述群体知识库中与同一个所述个体样本数据关联的群体知识相互冲突；

通过特征贡献度评估器的预测短期结局模型调用SHAP方法评估所述个体样本数据中个体特征的短期贡献，通过所述特征贡献度评估器的预测长期结局模型调用SHAP方法评估所述个体样本数据中个体特征的长期贡献，将所述短期贡献和所述长期贡献输入至所述特征贡献度评估器的预设的贡献度函数后，输出所述个体特征的特征贡献度；所述特征贡献度评估器基于XGBoost模型的SHAP方法建立；

获取所述个体样本数据与各所述群体知识库中相关联的所述群体知识之间的匹配关系，根据获取的所有所述匹配关系为所述个体样本数据标记样本群体值标签后，将所述个体样本数据的所有所述个体特征的特征贡献度输入至预设reward函数后，输出所述个体样本数据的reward值，并将所述个体样本数据的群体知识值标签定义为行为变量，将所述个体样本数据的个体特征定义为状态变量；

将所述个体样本数据的行为变量、状态变量和reward值输入至待训练预设分群决策模型的free-stable DQN网络进行训练，获取free-stable DQN网络根据所述行为变量和所述状态变量生成Q值，并将所述个体样本数据的所述reward值和所述Q值输入至所述待训练分群决策型的损失函数后获取所述个体样本数据的损失值；

在判定所述个体样本数据在经历过预设训练早停系数后所述损失值不再下降时，将所述待训练分群决策模型标记为训练完成的分群决策模型。
根据权利要求11所述的计算机设备，其中，所述获取待分群的个体样本数据，包括：

获取预设时间段的所有所述个体样本数据，并在预设数据图谱中以所述个体样本数据查询出至少一个预设个体特征项目，并以预设个体特征项目收集所述个体特征。
根据权利要求11所述的计算机设备，其中，所述通过所述特征贡献度评估器的预测短期结局模型调用SHAP方法评估所述个体样本数据中个体特征的短期贡献，通过所述特征贡献度评估器的预测长期结局模型调用SHAP方法评估所述个体样本数据中个体特征的长期贡献，包括：

获取所述个体样本数据对应于至少两个所述群体知识库的至少两个分群决策结果；一个所述群体知识库包含至少一个群体，所述分群决策结果为所述个体样本数据属于所述群体知识库包含的一个所述群体；一个所述群体与一个所述群体知识关联；

若至少两个所述分群决策结果不一致，则通过特征贡献度评估器的预测短期结局模型调用SHAP方法评估所述个体样本数据中个体特征的短期贡献，通过所述特征贡献度评估器的预测长期结局模型调用SHAP方法评估所述个体样本数据中个体特征的长期贡献。
根据权利要求13所述的计算机设备，其中，所述获取所述个体样本数据对应于至少两个所述群体知识库的至少两个分群决策结果之后，还包括：

若至少两个所述分群决策结果均一致，则删除所述个体样本数据。
一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现分群处理方法，包括：

获取待确定群体的个体数据，并获取所述个体数据中与至少两个群体知识库一一对应的至少两个分群决策结果；一个所述群体知识库包含至少一个确定群体，所述分群决策结果是指所述个体数据属于所述群体知识库中包含的其中一个所述确定群体；一个所述确定群体与一个所述群体知识库中的一个群体知识关联；

若至少两个所述分群决策结果不一致，则将所述个体数据输入至分群决策模型后，得到所述分群决策模型输出的最终分群结果；所述最终分群结果与其所属的个体数据的群体值标签关联；

若至少两个所述分群决策结果均一致，则确定该分群决策结果为所述个体数据的最终分群结果。
一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其中，所述计算机程序被处理器执行时实现分群决策模型生成方法，包括：

获取待分群的个体样本数据，利用预设分群决策树建立至少两个群体知识库；每一个所述群体知识库中均包含与所有所述个体样本数据关联的群体知识，所述个体样本数据中包括多个个体特征；至少两个所述群体知识库中与同一个所述个体样本数据关联的群体知识相互冲突；

通过特征贡献度评估器的预测短期结局模型调用SHAP方法评估所述个体样本数据中个体特征的短期贡献，通过所述特征贡献度评估器的预测长期结局模型调用SHAP方法评估所述个体样本数据中个体特征的长期贡献，将所述短期贡献和所述长期贡献输入至所述特征贡献度评估器的预设的贡献度函数后，输出所述个体特征的特征贡献度；所述特征贡献度评估器基于XGBoost模型的SHAP方法建立；

获取所述个体样本数据与各所述群体知识库中相关联的所述群体知识之间的匹配关系，根据获取的所有所述匹配关系为所述个体样本数据标记样本群体值标签后，将所述个体样本数据的所有所述个体特征的特征贡献度输入至预设reward函数后，输出所述个体样本数据的reward值，并将所述个体样本数据的群体知识值标签定义为行为变量，将所述个体样本数据的个体特征定义为状态变量；

将所述个体样本数据的行为变量、状态变量和reward值输入至待训练预设分群决策模型的free-stable DQN网络进行训练，获取free-stable DQN网络根据所述行为变量和所述状态变量生成Q值，并将所述个体样本数据的所述reward值和所述Q值输入至所述待训练分群决策型的损失函数后获取所述个体样本数据的损失值；

在判定所述个体样本数据在经历过预设训练早停系数后所述损失值不再下降时，将所述待训练分群决策模型标记为训练完成的分群决策模型。
根据权利要求16所述的计算机可读存储介质，其中，所述获取待分群的个体样本数据，包括：

获取预设时间段的所有所述个体样本数据，并在预设数据图谱中以所述个体样本数据查询出至少一个预设个体特征项目，并以预设个体特征项目收集所述个体特征。
根据权利要求16所述的计算机可读存储介质，其中，所述通过所述特征贡献度评估器的预测短期结局模型调用SHAP方法评估所述个体样本数据中个体特征的短期贡献，通过所述特征贡献度评估器的预测长期结局模型调用SHAP方法评估所述个体样本数据中个体特征的长期贡献，包括：

获取所述个体样本数据对应于至少两个所述群体知识库的至少两个分群决策结果；一个所述群体知识库包含至少一个群体，所述分群决策结果为所述个体样本数据属于所述群体知识库包含的一个所述群体；一个所述群体与一个所述群体知识关联；

若至少两个所述分群决策结果不一致，则通过特征贡献度评估器的预测短期结局模型调用SHAP方法评估所述个体样本数据中个体特征的短期贡献，通过所述特征贡献度评估器的预测长期结局模型调用SHAP方法评估所述个体样本数据中个体特征的长期贡献。
根据权利要求18所述的计算机可读存储介质，其中，所述获取所述个体样本数据对应于至少两个所述群体知识库的至少两个分群决策结果之后，还包括：

若至少两个所述分群决策结果均一致，则删除所述个体样本数据。
一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其中，所述计算机程序被处理器执行时实现分群处理方法，包括：

获取待确定群体的个体数据，并获取所述个体数据中与至少两个群体知识库一一对应的至少两个分群决策结果；一个所述群体知识库包含至少一个确定群体，所述分群决策结果是指所述个体数据属于所述群体知识库中包含的其中一个所述确定群体；一个所述确定群体与一个所述群体知识库中的一个群体知识关联；

若至少两个所述分群决策结果不一致，则将所述个体数据输入至分群决策模型后，得到所述分群决策模型输出的最终分群结果；所述最终分群结果与其所属的个体数据的群体值标签关联；

若至少两个所述分群决策结果均一致，则确定该分群决策结果为所述个体数据的最终分群结果。