WO2021147568A1

WO2021147568A1 - 基于gbdt高阶特征组合的推荐方法、装置及存储介质

Info

Publication number: WO2021147568A1
Application number: PCT/CN2020/136398
Authority: WO
Inventors: 陈宏斌; 孙立博
Original assignee: 平安科技（深圳）有限公司
Priority date: 2020-08-27
Filing date: 2020-12-15
Publication date: 2021-07-29
Also published as: CN112035453A; CN112035453B

Abstract

涉及大数据领域，一种基于GBDT高阶特征组合的推荐方法，包括：构建建模宽表，并对建模宽表中的待处理数据进行预处理，以确定训练数据；其中，待处理数据包括用户因子数据和物品因子数据（S110）；基于训练数据对GBDT模型进行训练，以形成推荐模型（S120）；基于推荐模型获取待处理数据的可解释性的交叉特征（S130）；对交叉特征进行分析处理，获取对应的特征排序（S140）；基于特征排序进行预测推荐（S150）。还涉及区块链技术，待处理数据存储于区块链中。可以提高基于GBDT高阶特征组合的推荐效率及准确度。

Description

基于GBDT高阶特征组合的推荐方法、装置及存储介质

本申请要求申请号为202010880908.1，申请日为2020年8月27日，申请创造名称为“基于GBDT高阶特征组合的推荐方法、装置及存储介质”的专利申请的优先权。

技术领域

本申请涉及大数据领域，尤其涉及一种基于GBDT高阶特征组合的推荐的方法、系统、装置、及计算机可读存储介质。

背景技术

特征组合也叫特征交叉，是特征工程中的一种特征生成方式，除了一般对于连续型特征的加减乘除生成新的特征以外，还可以对多个特征(连续特征离散化)进行组合，这里的离散化的特征需要进行一定的分析，离散规划且合理，形成新的特征。

在推荐领域，为了提高推荐预测的准确性，时常需要通过构造组合特征来表达更强的区分能力，常见的组合特征有单特征交叉、二阶特征交叉、高阶特征交叉等方式。在得到组合特征之后，即可通过组合特征的相关指标挖掘出学习目标重要的数据。

目前，申请人意识到传统的特征组合方法主要包括穷举法、基于规则的组合法以及基于模型的二阶特征组合法等，其中的穷举法在特征数量较大时，容易导致高阶交叉后的特征组合数量呈指数增长，难以穷举。基于规则的组合法对规则的设计要求很高，需要对业务有深刻理解，存在耗费大量人力和时间，并且基于构造范式的特征组合依然存在面临指数爆炸，难以穷举的问题。而基于模型的二阶特征组合法仅适用于二阶交叉特征的挖掘，适用范围受限。

申请内容

本申请提供一种基于GBDT高阶特征组合的推荐方法、系统、电子装置及计算机可读存储介质，其主要目的在于提高基于GBDT高阶特征组合的推荐效率及准确度。

第一方面，本申请提供一种基于GBDT高阶特征组合的推荐方法，包括：

构建建模宽表，并对所述建模宽表中的待处理数据进行预处理，以确定训练数据；其中，所述待处理数据包括用户因子数据和物品因子数据；

基于所述训练数据对GBDT模型进行训练，以形成推荐模型；

基于所述推荐模型获取所述待处理数据的可解释性的交叉特征；

对所述交叉特征进行分析处理，获取对应的特征排序；

基于所述特征排序进行预测推荐。

第二方面，本申请还提供一种基于GBDT高阶特征组合的推荐系统，所述系统包括：

建模宽表构建模块，用于构建建模宽表，并对所述建模宽表中的待处理数据进行预处理，以确定训练数据；其中，所述待处理数据包括用户因子数据和物品因子数据；

推荐模型推荐模块，用于基于所述训练数据对GBDT模型进行训练，以形成推荐模型；

交叉特征获取模块，用于基于所述推荐模型获取所述待处理数据的可解释性的交叉特征；

特征排序获取模块，用于对所述交叉特征进行分析处理，获取对应的特征排序；

推荐模块，用于基于所述特征排序进行预测推荐。

第三方面，本申请还提供一种电子装置，所述电子装置包括：

存储器，存储至少一个指令；及

处理器，执行所述存储器中存储的指令以实现如下步骤：

基于所述训练数据对GBDT模型进行训练，以形成推荐模型；

对所述交叉特征进行分析处理，获取对应的特征排序；

基于所述特征排序进行预测推荐。

第四方面，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一个指令，所述至少一个指令被电子设备中的处理器执行以实现上述所述的基于GBDT高阶特征组合的推荐方法。

本申请实施例通过构建建模宽表，并对所述建模宽表中的待处理数据进行预处理，获取对应的训练数据，并根据训练数据对GBDT模型进行训练，以形成推荐模型，通过推荐模型获取待处理数据的可解释性的交叉特征及特征排序，可挖掘出有价值的特征和高阶特征组合，进而根据特征排序结果进行预测推荐，相比现有通过穷举、组合以及二阶特征的特征获取方式，能够实现推荐模型的可解释性，提升挖掘有价值的重要的特征组合的效率。

附图说明

图1为本申请一实施例提供的基于GBDT高阶特征组合的推荐方法的流程示意图；

图2为本申请一实施例提供的第一算法的原理图；

图3为本申请一实施例提供的第二算法的原理图；

图4为本申请一实施例提供的基于GBDT高阶特征组合的推荐系统的模块示意图；

图5为本申请一实施例提供的实现基于GBDT高阶特征组合的推荐方法的电子设备的内部结构示意图；

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供一种基于GBDT高阶特征组合的推荐方法。参照图1所示，为本申请一实施例提供的基于GBDT高阶特征组合的推荐方法的流程示意图。该方法可以由一个装置执行，该装置可以由软件和/或硬件实现。

在本实施例中，基于GBDT高阶特征组合的推荐方法包括：

S110：构建建模宽表，并对建模宽表中的待处理数据进行预处理，以确定训练数据；其中，待处理数据包括用户因子数据和物品因子数据。需要强调的是，为进一步保证上述待处理数据的私密和安全性，上述待处理数据还可以存储于一区块链的节点中。

具体地，可使用HIVE在大数据Hadoop平台上整合必要的用户因子数据和物品因子数据，其中的用户因子数据包括用户在手机APP上的操作行为、用户本身的基本信息以及用户历史信息等，物品因子数据包括物品的价格、类别、销量等特征。其中，一个用户与一个物品拼接在一起构成一条样本，同时，确定推荐模型的Label为是否点击该功能。

具体地，对建模宽表中的待处理数据进行预处理的过程包括：

1、使用Python对待处理数据做清洗和缺失值填充，对不平衡样本进行采样；2、对清洗完及缺失值填充后的数据做单变量分析，剔除异常或区别度、饱和度低于预设值的因子，以确定最终进入推荐模型的因子作为训练数据。可知，区别度和饱和度的预设值可自行设定。

S120：基于所述训练数据对GBDT模型进行训练，以形成推荐模型。

其中，训练数据用于训练推荐模型，推荐模型的建模工具可选用Anaconda、Pycharm 等Python的编译环境，能够提供Python的编辑和执行的功能和开发环境的管理等功能。

在该步骤中，基于训练数据对GBDT模型进行训练的过程包括：

1、采用LightGBM的GBDT模型作为基础模型；

2、设定基础模型的最大树深度、最大叶子节点数、最小叶子节点数、特征采样率以及样本采样率，以形成训练模型；

3、获取训练数据在训练模型中的每一个树所对应的叶子节点的编号；

4、对编号进行独热编码，以实现对GBDT模型的训练。

作为具体示例，使用LightGBM的GBDT作为推荐模型的基础模型，设置最大树深度为5、最大叶子节点数为31、最小叶子数据为1000、特征采样率为0.5，样本采样率为0.7作为训练模型。然后，计算数据集中的所有数据在GBDT模型里每一个树所对应的叶子节点的编号，然后对其做独热编码，该步骤也可以理解为GBDT转换；其中的数据集中的所有数据即为建模宽表中的用户因子数据和物品因子数据等待处理数据。

S130：基于所述推荐模型获取所述待处理数据的可解释性的交叉特征。

其中，训练完成的推荐模型可以json文件的形式保存为model文件，通过第一算法对其进行解析，获取每个叶子节点对应的高阶交叉特征，然后通过第二算法获取与所述高阶交叉特征对应的可解释性的交叉特征。其中，高阶交叉特征的阶数由决策树的最大深度来决定，可自行设定。

具体地，图2示出了根据本申请实施例的第一算法原理图。

如图2所示，在第一算法过程中：

首先，预训练推荐模型的GBDT模型；

然后，将原始特征向量x输入所述GBDT模型中，对叶子节点进行独热编码，获取与每个原始特征向量相对应的一串GBDT编码；

最后，将编码后的GBDT向量作为所述GBDT模型的输入，训练获取所述高阶交叉特征。

上述第一算法，先利用GBDT对原始特征进行高阶的特征组合和特征选择，得到最有区分度的高阶组合特征编码；然后，再利用LR模型快速计算，并增强模型的泛化性，融合了GBDT和LR的优点。

具体地，第二算法过程包括：

步骤一：获取推荐模型的GBDT的一颗决策树，并将指针指向该决策树的节点；其中，指针为保存变量地址的变量；

步骤二：判断节点是否为叶子节点；如果所述节点不是叶子节点，则将节点代表的特征压入栈，否则，则存储整堆栈当前的交叉特征数据，然后保存叶子对应的样本量、信息增益信息，并且压入一个空值；

步骤三：将指针指向所述节点的左子树，并且重复执行步骤二，直至所有的左子树都被遍历，推出栈顶的数据；同时，

将所述指针指向所述节点的右子树，并且重复执行步骤二，直至所有的右子树都被遍历，推出栈顶的数据；

步骤四：返回步骤二中保存的所有数据，该所有数据即为该决策树的所有可解释性的交叉特征。

最后，取GBDT中的下一颗决策树，并循环执行上述各步骤，直至GBDT中的所所有数均被处理一遍。

作为具体示例，图3示出了根据本申请实施例的第二算法的原理。

如图3示出，在该实施例中，推荐模型包括有决策树Tree1、Tree2至TreeN，在每棵决策树中均包括含有对应的节点，通过上述步骤对节点进行处理，获取交叉特征数据，进而确定推出栈顶的所有数据，所有数据即为该决策树的所有可解释性的交叉特征，例如，男X30岁以下、无房、非活跃…续保且连续3年以上等。

上述第二算法是一种基于底柜的二叉树遍历算法，结合了堆栈的思想，完成对GBDT中的决策的解析，继而可知道GBDT中的每一个叶子节点所对应的价差特征，或者也可以理解为叶子节点对应的客群。

可知，在得到GBDT编码对应的高阶组合特征之后，就可以运用指标，如IV值，或者简单模型如逻辑回归，挖掘其中的重要高阶组合特征。具体地可使用逻辑回归模型，利用转化后的GBDT编码训练模型，提取其逻辑回归系数的降序排名。在具体应用场景中，通过APP功能点击率预测业务场景，能够挖掘重要的高阶交叉特征高达30+个。

S140：对交叉特征进行分析处理，获取对应的特征排序。

其中，对交叉特征的分析处理，主要是利用交叉特征的相关性指标，例如：皮尔森系数、信息熵、IV值(信息值或信息量)；或者简单模型，如：逻辑回归模型、决策树模型等等，对特征进行分析，输出特征排序，挖掘重要的高阶交叉特征。此外，由于我们更加直观的了解了模型的内在，这时模型对于我们不再是一个黑箱，我们可以发现其中存在一些因为数据本身不合理导致的逻辑错误和问题。并可在发现问题的情况下，返回步骤S110，重新构建建模宽表或者优化训练数据(处理特征)，否则，在没有问题的情况下，可直接进行下一步骤进行推荐预测。

S150：基于所述特征排序进行预测推荐。

其中，经过上述各步骤的处理后，已获得一个效果良好且可解释的预测模型或推荐模型，在对其应用过程中，可基于预测模型或特征排序对用户任何一个商品的购买率或者使用率等指标(可根据需求定义模型实现对不同指标的预测)做预测。

例如，取一个用户的特征，然后针对商品池(假设有N个商品)中的每一个商品，一一把用户的特征与商品的拼接在一起并且预测概率，最终我们将得到N个概率，对应N个商品。最终应用的时候，我们可以针对概率最大的商品(可能是用户最喜欢的)推送给用户。或者针对概率最大的Top N个商品，形成一个列表，在用户打开APP或者搜索的时候展示给用户，最终的目标是提升用户点击或者购买商品的行为发生。

可知，传统的特征组合或者特征交叉发，如穷举法，是要把所有分解两两组合(二阶交叉)。这样，当特征数量为n时，特征要求的

个组合参数。这在维度n巨大的时候，参数成指数增长而无法被训练。而本申请基于GBDT高阶特征组合的推荐方法，可通过最小化基尼系数不纯度分割特征，天然具有挖掘特征组合的特性，能够提升挖掘重要特征组合的效率，节省计算时间；此外，现有的基于模型的特征组合挖掘算法，如基于FM的二阶交叉特征的挖掘算法，只支持特征的二阶的交叉组合。而本申请提出的基于GBDT的交叉特征挖掘算法支持高阶的组合特征挖掘，提供了更加多样的特征组合，阶数可以根据业务需求和数据情况自定义。目前，已挖掘出高正相关，高负相关的高阶特征组合40+个。

另外，本申请高阶特征组合挖掘功能的实现，能够增强模型的可解释性，使得开发人员更加深刻的理解模型的工作机制，而不是盲目调参，提高了工作效率与模型优化的上限。

可知，本申请基于GBDT高阶特征组合的推荐方法，能够提升挖掘重要特征组合的效率，节省计算时间；且能够提供更加多样的组合特征，阶数可根据也无需求和数据情况进行自定义，增强模型的可解释性，使得开发人员更加深刻的了解模型的工作机制，提高工作效率与模型优化的上限。

如图4所示，是本申请实施例基于GBDT高阶特征组合的推荐系统的功能模块图。

本申请所述基于GBDT高阶特征组合的推荐系统100可以安装于电子设备中。根据实现的功能，所述基于GBDT高阶特征组合的推荐系统可以包括：建模宽表构建模块101、推荐模型推荐模块102、交叉特征获取模块103、特征排序获取模块104以及推荐模块105。本发所述模块也可以称之为单元，是指一种能够被电子设备处理器所执行，并且能够完成固定功能的一系列计算机程序段，其存储在电子设备的存储器中。

在本实施例中，关于各模块/单元的功能如下：

建模宽表构建模块101，用于构建建模宽表，并对所述建模宽表中的待处理数据进行预处理，以确定训练数据；其中，所述待处理数据包括用户因子数据和物品因子数据。

其中，所述用户因子数据包括：用于在APP上的操作行为、用户自身的基本信息以及用户历史信息；

所述物品因子数据包括：物品的价格、类别以及销量。

进一步地，所述建模宽表构建模块101包括：

待处理数据处理模块，用于使用Python对所述待处理数据做清洗和缺失值填充；

训练数据确定模块，用于对清洗完及缺失值填充后的数据做单变量分析，剔除异常或区别度、饱和度低于预设值的因子，以确定所述训练数据。

推荐模型推荐模块102，用于基于所述训练数据对GBDT模型进行训练，以形成推荐模型。

其中，所述推荐模型推荐模块102包括：

基础模型确定模块，用于采用LightGBM的GBDT模型作为基础模型；

训练模型形成模块，用于设定所述基础模型的最大树深度、最大叶子节点数、最小叶子节点数、特征采样率以及样本采样率，已形成训练模型；

编号获取模块，用于获取训练数据在所述训练模型中的每一个树所对应的叶子节点的编号；

训练完成模块，用于对所述编号进行独热编码，以实现对所述GBDT模型的训练。

交叉特征获取模块103，用于基于所述推荐模型获取所述待处理数据的可解释性的交叉特征。

其中，所述交叉特征获取模块103包括：

第一算法模块，用于通过第一算法对所述推荐模型进行解析，获取每个叶子节点对应的高阶交叉特征；

第二算法模块，用于通过第二算法获取与所述高阶交叉特征对应的可解释性的交叉特征。

具体地，所述第一算法模块包括：

预训练所述推荐模型的GBDT模型；

将原始特征向量输入所述GBDT模型中，对叶子节点进行独热编码，获取与每个原始特征向量相对应的一串GBDT编码；

将编码后的GBDT向量作为所述GBDT模型的输入，训练获取所述高阶交叉特征。

另外，所述第二算法模块包括：

步骤一：获取所述推荐模型的GBDT的一颗决策树，并将指针指向该决策树的节点；其中，所述指针为保存变量地址的变量；

步骤二：判断所述节点是否为叶子节点；如果所述节点不是叶子节点，则将节点代表的特征压入栈，否则，则存储整堆栈当前的交叉特征数据，然后保存叶子对应的样本量、信息增益信息，并且压入一个空值；

步骤三：将所述指针指向所述节点的左子树，并且重复执行所述步骤二，直至所有的左子树都被遍历，推出栈顶的数据；同时，

将所述指针指向所述节点的右子树，并且重复执行所述步骤二，直至所有的右子树都被遍历，推出栈顶的数据；

步骤四：返回所述步骤二中保存的所有数据，该所有数据即为该决策树的所有可解释性的交叉特征。

特征排序获取模块104，用于对所述交叉特征进行分析处理，获取对应的特征排序。

推荐模块105，用于基于所述特征排序进行预测推荐。

需要强调的是，为进一步保证上述待处理数据的私密和安全性，上述待处理数据还可以存储于一区块链的节点中。

基于GBDT高阶特征组合的推荐系统100的实施例可参考基于GBDT高阶特征组合的推荐方法实施例中的描述，此处不再一一赘述。

如图5所示，是本申请实现基于GBDT高阶特征组合的推荐方法的电子装置的结构示意图。

所述电子装置1可以包括处理器10、存储器11和总线，还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序，如基于GBDT高阶特征组合的推荐程序12。

其中，所述存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如：SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子装置1的内部存储单元，例如该电子装置1的移动硬盘。所述存储器11在另一些实施例中也可以是电子装置1的外部存储装置，例如电子装置1上配备的插接式移动硬盘、智能存储卡(Smart Media Card，SMC)、安全数字(Secure Digital，SD)卡、闪存卡(Flash Card)等。进一步地，所述存储器11还可以既包括电子装置1的内部存储单元也包括外部存储装置。所述存储器11不仅可以用于存储安装于电子装置1的应用软件及各类数据，例如基于GBDT高阶特征组合的推荐程序的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

所述处理器10在一些实施例中可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器(Central Processing unit，CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子装置的控制核心(Control Unit)，利用各种接口和线路连接整个电子装置的各个部件，通过运行或执行存储在所述存储器11内的程序或者模块(例如基于GBDT高阶特征组合的推荐程序等)，以及调用存储在所述存储器11内的数据，以执行电子装置1的各种功能和处理数据。

所述总线可以是外设部件互连标准(peripheral component interconnect，简称PCI)总线或扩展工业标准结构(extended industry standard architecture，简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。

图5仅示出了具有部件的电子装置，本领域技术人员可以理解的是，图5示出的结构并不构成对所述电子装置1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

例如，尽管未示出，所述电子装置1还可以包括给各个部件供电的电源(比如电池)，优选地，电源可以通过电源管理装置与所述至少一个处理器10逻辑相连，从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子装置1还可以包括多种传感器、蓝牙模块、Wi-Fi模块等，在此不再赘述。

进一步地，所述电子装置1还可以包括网络接口，可选地，所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等)，通常用于在该电子装置1与其他电子装置之间建立通信连接。

可选地，该电子装置1还可以包括用户接口，用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard))，可选地，用户接口还可以是标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在电子装置1中处理的信息以及用于显示可视化的用户界面。

应该了解，所述实施例仅为说明之用，在专利申请范围上并不受此结构的限制。

所述电子装置1中的所述存储器11存储的基于GBDT高阶特征组合的推荐程序12是多个指令的组合，在所述处理器10中运行时，可以实现：

基于所述训练数据对GBDT模型进行训练，以形成推荐模型；

对所述交叉特征进行分析处理，获取对应的特征排序；

基于所述特征排序进行预测推荐。

可选地，所述用户因子数据包括：用于在APP上的操作行为、用户自身的基本信息以及用户历史信息；

所述物品因子数据包括：物品的价格、类别以及销量。

可选地，所述待处理数据存储于区块链中，对所述建模宽表中的待处理数据进行预处理的过程包括：

使用Python对所述待处理数据做清洗和缺失值填充；

对清洗完及缺失值填充后的数据做单变量分析，剔除异常或区别度、饱和度低于预设值的因子，以确定所述训练数据。

可选地，基于所述训练数据对GBDT模型进行训练的过程包括：

采用LightGBM的GBDT模型作为基础模型；

设定所述基础模型的最大树深度、最大叶子节点数、最小叶子节点数、特征采样率以及样本采样率，已形成训练模型；

获取训练数据在所述训练模型中的每一个树所对应的叶子节点的编号；

对所述编号进行独热编码，以实现对所述GBDT模型的训练。

可选地，基于所述推荐模型获取所述待处理数据的可解释性的交叉特征的过程包括：

通过第一算法对所述推荐模型进行解析，获取每个叶子节点对应的高阶交叉特征；

通过第二算法获取与所述高阶交叉特征对应的可解释性的交叉特征。

可选地，所述第一算法包括：

预训练所述推荐模型的GBDT模型；

可选地，所述第二算法包括：

步骤三：将所述指针指向所述节点的左子树，并且重复执行步骤二，直至所有的左子树都被遍历，推出栈顶的数据；同时，

具体地，所述处理器10对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述，在此不赘述。需要强调的是，为进一步保证上述待处理数据的私密和安全性，上述待处理数据还可以存储于一区块链的节点中。

进一步地，所述电子装置1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)。

其中，计算机可读存储介质可以是非易失性，也可以是易失性。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其他的具体形式实现本申请。

因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。

本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本申请的技术方案而非限制，尽管参照较佳实施例对本申请进行了详细说明，本领域的普通技术人员应当理解，可以对本申请的技术方案进行修改或等同替换，而不脱离本申请技术方案的精神和范围。

Claims

一种基于GBDT高阶特征组合的推荐方法，其特征在于，所述方法包括：

构建建模宽表，并对所述建模宽表中的待处理数据进行预处理，以确定训练数据；其中，所述待处理数据包括用户因子数据和物品因子数据；

基于所述训练数据对GBDT模型进行训练，以形成推荐模型；

基于所述推荐模型获取所述待处理数据的可解释性的交叉特征；

对所述交叉特征进行分析处理，获取对应的特征排序；

基于所述特征排序进行预测推荐。
如权利要求1所述的基于GBDT高阶特征组合的推荐方法，其特征在于，

所述用户因子数据包括：用于在APP上的操作行为、用户自身的基本信息以及用户历史信息；

所述物品因子数据包括：物品的价格、类别以及销量。
如权利要求1所述的基于GBDT高阶特征组合的推荐方法，其特征在于，所述待处理数据存储于区块链中，对所述建模宽表中的待处理数据进行预处理的过程包括：

使用Python对所述待处理数据做清洗和缺失值填充；

对清洗完及缺失值填充后的数据做单变量分析，剔除异常或区别度、饱和度低于预设值的因子，以确定所述训练数据。
如权利要求1所述的基于GBDT高阶特征组合的推荐方法，其特征在于，基于所述训练数据对GBDT模型进行训练的过程包括：

采用LightGBM的GBDT模型作为基础模型；

设定所述基础模型的最大树深度、最大叶子节点数、最小叶子节点数、特征采样率以及样本采样率，已形成训练模型；

获取训练数据在所述训练模型中的每一个树所对应的叶子节点的编号；

对所述编号进行独热编码，以实现对所述GBDT模型的训练。
如权利要求1所述的基于GBDT高阶特征组合的推荐方法，其特征在于，所述基于所述推荐模型获取所述待处理数据的可解释性的交叉特征的过程包括：

通过第一算法对所述推荐模型进行解析，获取每个叶子节点对应的高阶交叉特征；

通过第二算法获取与所述高阶交叉特征对应的可解释性的交叉特征。
如权利要求5所述的基于GBDT高阶特征组合的推荐方法，其特征在于，所述第一算法包括：

预训练所述推荐模型的GBDT模型；

将原始特征向量输入所述GBDT模型中，对叶子节点进行独热编码，获取与每个原始特征向量相对应的一串GBDT编码；

将编码后的GBDT向量作为所述GBDT模型的输入，训练获取所述高阶交叉特征。
如权利要求5所述的基于GBDT高阶特征组合的推荐方法，其特征在于，所述第二算法包括：

步骤一：获取所述推荐模型的GBDT的一颗决策树，并将指针指向该决策树的节点；其中，所述指针为保存变量地址的变量；

步骤二：判断所述节点是否为叶子节点；如果所述节点不是叶子节点，则将节点代表的特征压入栈，否则，则存储整堆栈当前的交叉特征数据，然后保存叶子对应的样本量、信息增益信息，并且压入一个空值；

步骤三：将所述指针指向所述节点的左子树，并且重复执行所述步骤二，直至所有的左子树都被遍历，推出栈顶的数据；同时，

将所述指针指向所述节点的右子树，并且重复执行所述步骤二，直至所有的右子树都被遍历，推出栈顶的数据；

步骤四：返回所述步骤二中保存的所有数据，该所有数据即为该决策树的所有可解释性的交叉特征。
如权利要求1所述的基于GBDT高阶特征组合的推荐方法，其特征在于，所述对所述交叉特征进行分析处理，获取对应的特征排序包括：

对所述交叉特征的相关性指标进行分析处理；或者，通过简单模型对所述交叉特征进行分析处，以获取对应的特征排序。
如权利要求8所述的基于GBDT高阶特征组合的推荐方法，其特征在于，

所述相关性指标至少包括皮尔森系数、信息熵和信息值；

所述简单模型至少包括逻辑回归模型和决策树模型。
一种基于GBDT高阶特征组合的推荐系统，其特征在于，所述系统包括：

建模宽表构建模块，用于构建建模宽表，并对所述建模宽表中的待处理数据进行预处理，以确定训练数据；其中，所述待处理数据包括用户因子数据和物品因子数据；

推荐模型推荐模块，用于基于所述训练数据对GBDT模型进行训练，以形成推荐模型；

交叉特征获取模块，用于基于所述推荐模型获取所述待处理数据的可解释性的交叉特征；

特征排序获取模块，用于对所述交叉特征进行分析处理，获取对应的特征排序；

推荐模块，用于基于所述特征排序进行预测推荐。
如权利要求10所述的基于GBDT高阶特征组合的推荐系统，其特征在于，

所述用户因子数据包括：用于在APP上的操作行为、用户自身的基本信息以及用户历史信息；

所述物品因子数据包括：物品的价格、类别以及销量。
如权利要求10所述的基于GBDT高阶特征组合的推荐系统，其特征在于，所述建模宽表构建模块包括：

待处理数据处理模块，用于使用Python对所述待处理数据做清洗和缺失值填充；

训练数据确定模块，用于对清洗完及缺失值填充后的数据做单变量分析，剔除异常或区别度、饱和度低于预设值的因子，以确定所述训练数据。
如权利要求10所述的基于GBDT高阶特征组合的推荐系统，其特征在于，所述推荐模型推荐模块包括：

基础模型确定模块，用于采用LightGBM的GBDT模型作为基础模型；

训练模型形成模块，用于设定所述基础模型的最大树深度、最大叶子节点数、最小叶子节点数、特征采样率以及样本采样率，已形成训练模型；

编号获取模块，用于获取训练数据在所述训练模型中的每一个树所对应的叶子节点的编号；

训练完成模块，用于对所述编号进行独热编码，以实现对所述GBDT模型的训练。
如权利要求10所述的基于GBDT高阶特征组合的推荐系统，其特征在于，所述交叉特征获取模块包括：

第一算法模块，用于通过第一算法对所述推荐模型进行解析，获取每个叶子节点对应的高阶交叉特征；

第二算法模块，用于通过第二算法获取与所述高阶交叉特征对应的可解释性的交叉特征。
如权利要求14所述的基于GBDT高阶特征组合的推荐系统，其特征在于，所述第一算法模块包括：

预训练所述推荐模型的GBDT模型；

将原始特征向量输入所述GBDT模型中，对叶子节点进行独热编码，获取与每个原始特征向量相对应的一串GBDT编码；

将编码后的GBDT向量作为所述GBDT模型的输入，训练获取所述高阶交叉特征。
如权利要求14所述的基于GBDT高阶特征组合的推荐系统，其特征在于，所述第二算法模块包括：

步骤一：获取所述推荐模型的GBDT的一颗决策树，并将指针指向该决策树的节点；其中，所述指针为保存变量地址的变量；

步骤二：判断所述节点是否为叶子节点；如果所述节点不是叶子节点，则将节点代表的特征压入栈，否则，则存储整堆栈当前的交叉特征数据，然后保存叶子对应的样本量、信息增益信息，并且压入一个空值；

步骤三：将所述指针指向所述节点的左子树，并且重复执行所述步骤二，直至所有的左子树都被遍历，推出栈顶的数据；同时，

将所述指针指向所述节点的右子树，并且重复执行所述步骤二，直至所有的右子树都被遍历，推出栈顶的数据；

步骤四：返回所述步骤二中保存的所有数据，该所有数据即为该决策树的所有可解释性的交叉特征。
一种电子装置，其特征在于，所述电子装置包括：

至少一个处理器；以及，

与所述处理器通信连接的存储器；其中，

所述存储器存储有可被所述处理器执行的指令，所述指令被所述处理器执行，以使所述处理器能够执行如下所示步骤：

构建建模宽表，并对所述建模宽表中的待处理数据进行预处理，以确定训练数据；其中，所述待处理数据包括用户因子数据和物品因子数据；

基于所述训练数据对GBDT模型进行训练，以形成推荐模型；

基于所述推荐模型获取所述待处理数据的可解释性的交叉特征；

对所述交叉特征进行分析处理，获取对应的特征排序；

基于所述特征排序进行预测推荐。。
如权利要求17所述的电子装置，其特征在于，

所述待处理数据存储于区块链中，对所述建模宽表中的待处理数据进行预处理的过程包括：

使用Python对所述待处理数据做清洗和缺失值填充；

对清洗完及缺失值填充后的数据做单变量分析，剔除异常或区别度、饱和度低于预设值的因子，以确定所述训练数据。
如权利要求17所述的电子装置，其特征在于，

基于所述训练数据对GBDT模型进行训练的过程包括：

采用LightGBM的GBDT模型作为基础模型；

设定所述基础模型的最大树深度、最大叶子节点数、最小叶子节点数、特征采样率以及样本采样率，已形成训练模型；

获取训练数据在所述训练模型中的每一个树所对应的叶子节点的编号；

对所述编号进行独热编码，以实现对所述GBDT模型的训练。
一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至9中任一所述的基于GBDT高阶特征组合的推荐方法。