WO2023280316A1

WO2023280316A1 - 一种基于改进型XGBoost类方法的数据分析方法、定价方法以及相关设备

Info

Publication number: WO2023280316A1
Application number: PCT/CN2022/104694
Authority: WO
Inventors: 杨光
Original assignee: 杨光
Priority date: 2021-07-09
Filing date: 2022-07-08
Publication date: 2023-01-12
Also published as: CN115601182A

Abstract

本发明公开了一种基于改进型XGBoost类方法的数据分析方法、定价方法以及相关设备；本方案采用改进型XGBoost类算法，所述改进型XGBoost类方法对目标函数的二阶泰勒展开做修正，修改了其h i项，使得改进后的XGBoost类方法的适用性不局限于凸损失函数。本方案在该改进型XGBoost类方法的基础上，进一步提出多元正则化提升树方法,将预测变量的概率分布从单参数推广到多参数，可广泛应用于各种领域。特别是非寿(General)险定价领域。

Description

一种基于改进型XGBoost类方法的数据分析方法、定价方法以及相关设备

技术领域

本发明涉及机器学习技术和精算技术，具体涉及相应的大数据分析方法。

背景技术

一.纯保费测算模型。

在非寿险定价中，保险公司会对被保险人的纯保费进行测算，纯保费指被保险人的期望净赔付额。因非寿险保险期间较短，本文中的纯保费不考虑利息因素。要测算纯保费最好对损失(赔付)金额(单次出险的或保险期间内出险总和的)的概率分布做估计，而不能简单的只对损失额(赔付额)的期望值做估计。因为在补偿型保险中，一般对一次出险损失额或保险期间内的总损失的赔付有一个免赔额(或限额)，只有测算出的损失额(赔付额)的概率分布，才能对免赔额(或限额)的调整使得纯保费的调整做相应的处理。

其中，测算总损失额(赔付额)的概率分布有两类方法：

1.直接对保险期间内总损失额(赔付额)的概率分布做估计。

2.分别对保险期间内出险次数(赔付次数)的概率分布和每次出险的损失强度(赔付强度)的概率分布分别做估计。用复合分布模型对此两种概率分布做整合得到总损失(总赔付)的概率分布。一般也有两种假设：

a.标准假设。假设此两种分布相互独立，每次出险的损失(赔付)强度服从独立同分布。

b.此两种分布有关联，或者损失(赔付)强度不服从独立同分布。

标准假设是a假设，求总损失(总赔付)的概率分布的方法有特征函数类变换法(傅里叶变换法)或随机模拟法。对b假设，由于待估参数过多，可能存在过拟合的风险，业界很少采用。一般而言，第二类方法是更精细的方法，相比第一类方法有着诸多好处。

XGBoost方法是一种极限梯度提升树方法，其预测性能优异，在很多领域都取得了非常好的成绩。

该方法的主要过程描述如下：

一个样本集D＝{(x _i,y _i)}(|D|＝n,x _i∈R ^m,y _i∈R),有m个特征，n个样本。一个集成树模型，用K颗树函数相加得到预测结果。

其中F＝{f(x)＝ω _q(x)}(q:R ^m→T,ω∈R ^T)是回归树空间。q表示每棵树的结构，把一个样本映射到对应的叶子结点。T是一颗树的叶子结点的个数。每个f _k对应一个独立的树结构q及其叶子权重ω。每一颗回归树的每一个叶子结点都有一个连续值得分，用ω _i表示第i个叶子结点的得分。为了学习模型中的这些树函数，最小化下面的正则化目标：

其中，

l是可导凸函数，表示损失函数。Ω(f _k)是正则项。

XGBoost算法用提升树算法去最小化目标函数，假设

是第i个样本的第t次迭代的预测值，将其加上一个f _t，最小化如下目标函数：

在一般情况下，为了快速优化目标函数。用二阶泰勒展开对其做近似：

其中，

将常数项移除，得到第t次迭代的目标函数：

定义I _j＝{i|q(x _i)＝j}是划分到叶子结点j的样本点的集合，重写

得到

对一个固定的树结构q(x),求

对每一个ω _j的偏导数等于0的ω _j值，得到叶子结点j的最优权重得分：

最优目标函数值为：

树结构q采用贪婪算法求得，迭代的从一个单一的叶子结点开始添加分枝。

假设I _L和I _R表示分裂后的左右结点的样本集，I＝I _L∪I _R。

分裂后的目标函数的减少值由下式给出：

此公式用来计算候选划分点。

类似于学习率，收缩尺度技术在每一步提升树后用一个因子η，也用来防止过拟合。此外还有列采样技术防止过拟合。

另外，有的开源代码还提供额外的l ₁正则化项：

得到

其中，β≥0，找到每一个ω _j的最合适取值使得

最小，得到叶子结点j的最优权重得分：

当

时,

当

时,,

当

时,

将

代入

得到最优目标函数值。

计算左右结点样本集的最优目标函数值，记录分裂的增益，作为最优划分结点的标准。

XGBoost类方法的缺点有：

XGBoost算法对损失函数

的要求较严格，要求其对

可导，并且是凸函数。如果l不是全局凸函数，则不能保证初始目标函数收敛到全局最小点。举例说明如下：

假设只有一个样本点(x ₁,y ₁)，

的自变量是

y ₁看作参数，形状如图1：

以标准的正则化项为例：设γ和λ较小，可以忽略不计，则目标函数近似于损失函数.用考察损失函数代替考察目标函数不影响得到的结论。

由于只有一个样本点，T＝1。可能由于没有控制学习率η，使得第t-1次迭代后的

在

的某个邻域内是凹函数，其对

的一阶导数为g ₁为正，二阶导数h ₁为负。使得第t次迭代的该样本的最优权重得分

当λ<|h ₁|时，

则

更加偏离

的全局最小点。

此外，现有的XGBoost类方法仅局限于拟合单参数概率分布。对于多参数概率分布，现有的XGBoost类方法无法同时对多个参数进行优化求解，很多时候不能得到最优的预测性能。例如，一般(General)保险定价中的损失频率如果服从双参数的负二项分布，用单参数的泊松分布去拟合是不合适的。

发明内容

针对现有大数据分析预测技术所存在的问题，需要一种新的数据分析处理方案。

为此，本发明的目的在于提供一种基于改进型的XGBoost类方法的数据分析方法，由此来有效提高大数据分析预测的性能。在此基础上，本发明进一步提供基于改进型的XGBoost类方法的定价方法，有效克服现有方案所存在的缺陷。

为了达到上述目的，本发明提供的基于改进型XGBoost类方法的数据分析方法，采用改进型XGBoost类方法基于获取到的变量参数进行预测评估，所述改进型XGBoost类方法对XGBoost类算法中的目标函数近似表达的二阶泰勒展开做修正，h _i不恒为非负时，通过修改其h _i相关项，改进型XGBoost类方法的适用性不局限于凸损失函数。

进一步地，所述改进型XGBoost类方法将XGBoost类方法从单变量预测推广到参数概率分布的多参数预测，形成多轮循环改进型XGBoost类数据分析方法。

进一步地，所述改进型XGBoost类方法中，设定损失函数

在讨论的范围内，对

二阶可导；有且仅有一个局部极小值点并且仅在该点导数为0，或者严格单调。

进一步地，所述改进型XGBoost类方法中，对第t次迭代的目标函数

可采用以下近似之一：

(1)

或

(2)

或(1)式和(2)式的各h _i相关项加权平均表达。

对近似(1)，对损失函数

的可导性要求可放宽至对

一阶可导。

为了达到上述目的，本发明提供的定价方法，所述定价方法基于上述的数据分析方法进行非寿险精算定价。

进一步地，所述定价方法包括：

(1)首先选择要预测的随机变量，收集样本数据，包括样本属性和预测变量的观测值；

(2)对样本数据进行预处理；

(3)进行特征工程，得到更新后的样本集D＝{(x _i,y _i)}；x _i是第i个样本的特征向量；

(4)将样本集划分为训练集，验证集和测试集；所述训练集用来训练用于预测预测变量的学习模型，验证集用来调整超参数，测试集用来评估学习模型性能；

(5)选择预测随机变量的参数分布类型，用改进型XGBoost类方法求得预测变量的条件概率分布；

(6)在候选分布中重新选择需要拟合的分布，重复以上步骤(5)，用测试集的评估指标确定最优参数数分布。当对预测变量的参数分布类型有自信时，也可直接指定最优参数分布。此时，候选参数分布中只有此一种参数分布。

进一步地，所述定价方法基于改进型XGBoost类方法求得预测变量的条件概率分布，包括：

(1)从候选参数概率分布中选择某一分布，确定其参数，对同一分布可以有不同的参数化形式；

(2)将预测变量的期望值表达式作为期望参数，对该概率分布的表达式进行变形，将期望参数作为预测参数，预测参数以外的参数看作麻烦(nuisance)参数、超参数；如该分布表达式本身已含期望参数，则不需要变形，直接设定预测参数和超参数；

(3)确定目标函数，以该分布的负对数似然函数作为损失函数；确认该损失函数满足改进型XGBoost方法对损失函数的要求。

(4)对超参数，运用网格搜寻法或先验经验或其他方法确定其值；

(5)当超参数固定时，用改进型XGBoost类算法求得预测参数的预测值；

(6)更换超参数取值，重复步骤(5)，用验证集的评估指标确定最优参数预测值和最优超参数取值；从而得到预测变量的预测值和其概率分布。如果对某个超参数的取值有自信，也可直接设定唯一的超参数取值。

为了达到上述目的，本发明提供一种数据分析方法，其将改进型XGBoost类方法直接推广至多元，形成多元正则化提升树方法，所述多元正则化提升树方法对XGBoost类算法中的目标函数近似表达的二阶泰勒展开做修正，修改了其h _i相关项，使得改进型XGBoost类方法的适用性不局限于凸损失函数。本方法可同时对多元损失函数中的多个变量(即考察的待估参数)进行优化求解。

进一步地，所述多元正则化提升树方法中，设定损失函数l在讨论的范围内：(1)二阶可微或一阶可微，有且仅有一个局部极小值点；(2)选定任意的某个待估参数作为考察变量后，当其余参数固定时，有且仅有一个局部极小值点；仅在前段所述局部极小值点对待估参数偏导数为0，或者严格单调。

注：y _i作为观测值看作固定的参数，不看做变量或待估参数。对于待估参数的讨论范围，可以合理的自由选择。在实际运用中，合理的预测结果都不会刚好落在理论上的极端边界点。在有些时候，可以将讨论的范围区间看成是闭区间，也可以使区间的边界离理论上的边界点有一点的合理的距离。

进一步地，所述多元正则化提升树方法中目标函数的表达式为：

其中Ω是正则化项；

…,

是

的正则项超参数，

是

中一棵树的叶子结点个数，l是待估参数的个数，k是对应的预测待估参数的提升树的层数。

也可将l ₁正则化项额外加入到Ω中：

进一步地，所述多元正则化提升树方法中，对第t次迭代的目标函数

采用以下近似之一：

(1)

(2)

或(1)式和(2)式的各h _i相关项加权平均表达(3)；

(3)

其中，

是损失函数

对

的偏导数，

是损失函数

对

的二阶偏导数。

对于近似(1)，对损失函数的可微性条件可放宽至一阶可微。

为了达到上述目的，本发明提供一种定价方法，所述定价方法基于上述的数据分析方法进行精算定价。

进一步地，所述定价方法包括：

(2)对样本数据进行预处理；

(4)将样本集划分为训练集，验证集和测试集；所述训练集用来训练用于预测参数分布的待估参数的学习模型，验证集用来调整超参数，测试集用来评估学习模型性能；

(5)选择预测随机变量的参数分布类型，用多元正则化提升树方法求得预测变量的条件概率分布；

(6)在候选分布中重新选择需要拟合的分布，重复以上步骤(5)，用测试集的评估指标确定最优参数分布。当对预测变量的参数分布类型有自信时，也可直接指定最优参数分布。此时，候选参数分布中只有此一种参数分布。

进一步地，所述定价方法基于多元正则化提升树方法求得预测变量的条件概率分布，包括：

(1)从候选参数概率分布中选择某一分布，确定其参数形式；对同一种分布，可以有不同的参数化形式。

(2)确定目标函数，以该分布的负对数似然函数作为损失函数。确认该损失函数满足多元正则化提升树方法对损失函数的要求。

(3)以感兴趣的待估参数作为自变量，用多元正则化提升树方法求得该分布所有参数的预测值；从而得到预测变量的具体概率分布表达式。如果有对取值比较自信的参数，可以用经验或其他方法确定其值，这些参数作为固定值不参与提升树的迭代。

本发明采用改进后的XGBoost类方法进行数据分析，有效克服现有技术方案中的各种缺陷。

本发明提供的基于多轮循环改进型XGBoost类方法的数据分析方法运用改进型XGBoost类方法进行循环多参数建模，进一步提高了模型的预测性能。

本发明提供的多元正则化提升树方法，并运用该方法进行数据分析，进一步提高了大数据预测方法包括非寿险定价方法的预测性能，并提高了计算运行效率和模型的可解释性。

在上述方案的基础上，本发明进一步提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现上述数据分析方法或定价方法的步骤。

在上述方案的基础上，本发明进一步提供了一种处理器，所述处理器用于运行程序，所述程序运行时实现上述数据分析方法或定价方法的步骤。

在上述方案的基础上，本发明进一步提供了一种终端设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，所述程序代码由所述处理器加载并执行以实现上述数据分析方法或定价方法的步骤。

在上述方案的基础上，本发明进一步提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行数据分析方法或定价方法的步骤。

附图说明

以下结合附图和具体实施方式来进一步说明本发明。

图1为现有XGBoost算法中对非凸损失函数图像示例图；

图2为实例2中对损失强度的预测时非凸损失函数图像示例图；

图3为实例2中对损失次数的预测时非凸损失函数图像示例图；

图4为实例3中固定相应的参数后，l(损失函数)的示例函数图像示例图；

图5为实例4中固定相应的参数后，l(损失函数)的示例函数图像示例图。

具体实施方式

为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合具体图示，进一步阐述本发明。

针对现有技术所存在的缺陷，本方案对XGBoost类方法进行改进，实现将精准预测性能与传统统计技术结合，进一步提高预测性能。

这里以非寿险定价为例，本方案在应用于非寿险定价时，其可将得到的改进型XGBoost类方法以及派生出的多元正则化提升树方法运用于非寿险定价，从而可有效克服背景技术中所阐述现有技术的缺陷，同时保留现有技术的优点。取得对非寿险定价技术中对于损失(赔付)次数和损失(赔付)强度以及总损失金额(或总赔付金额)优异的预测性能，从而达到测算纯保费的理想效果。

实例1

本实例中通过改进XGBoost类方法以构建相应的改进型XGBoost类方法，以克服现有技术中XGBoost类方法对损失函数必须是凸函数的要求。

本实例给出的改进型XGBoost类算法中，通过对目标函数近似表达的二阶泰勒展开做修正，修改了其h _i相关项，使得改进型XGBoost类方法的适用性不局限于凸损失函数。

对此，以下举例进一步说明。

本实例中，将损失函数

设定为预测变量概率分布的负对数似然函数。进一步设定损失函数

在讨论的范围内，对

二阶可偏导；有且仅有一个局部极小值点并且仅在该点导数为0，或者严格单调。

在此基础上，对目标函数

采用以下近似之一均可：

(1)

(2)

当采用近似(1)时，对损失函数的可导性要求可放宽至对

一阶可导；

显然，对于(1)和(2)式的某种加权平均(线性组合)也可看作近似公式的一种变形，如

(3)

如果|g _i|特别大，即|g _i|大于某一个足够大的正数M，

可设置g _i的取值，令

用

代替g _i，下文中仍用g _i表示

当|g _i|特别大时，用

代替g _i，可使得

的绝对值减小，从而使算法收敛更快。特别地，当g _i在某一点无穷大时，如此可使得算法收敛。

对于式(1)进行变量带入，有：

对一个固定的树结构q(x),求

最优目标函数值为：

分裂后的目标函数的减少值由下式给出：

此公式用来计算候选划分点。

对于式(2)进行变量带入，有：

对一个固定的树结构q(x),求

最优目标函数值为：

分裂后的目标函数的减少值由下式给出，

此公式用来计算候选划分点。

对于(3)式，其相应的算法推导如下：

进行变量代入，有

对一个固定的树结构q(x),求

最优目标函数值为：

分裂后的目标函数的减少值由下式给出，

此公式用来计算候选划分点。

此外，对于l ₁正则化项，改进型Xgboost类方法可同样适用。

注意到(1)，(2)两式是(3)式的特殊情况，以(3)式为例做一个说明：

得到

对一个固定的树结构q(x),找到每一个ω _j的最合适取值使得

最小，得到叶子结点j的最优权重得分：

当

时,

当

时,

当

时,

其中，β≥0.

将

代入

得到最优目标函数值。

在此基础上，本改进型XGBoost类方法的其它构成技术方案可采用现有XGBoost类算法中相应的构成方案，此处不加以赘述。

其中，M可看作先验经验设定，也可当做超参数处理。

由于

的表达式的分母始终为正，其始终与该叶子结点内样本的平均梯度符号相反；如此保证了算法在满足条件下可以收敛。

当损失函数

满足相应条件时，设定一个较小的学习速率η，一个合适的M和一个非零的λ，可以使目标函数

收敛于全局最小值点。一个合适的初始迭代值，可以减少训练轮数，加快收敛速度。

优选地，预测随机变量的极大似然估计值可作为预测变量的初始迭代值，以提高算法的收敛速度和方法模型的可解释性。

对于第t步迭代后，可能使

超过讨论的范围。若此种情况发生，只需对f _t(x _i)的取值或关于此样本点的此轮迭代的超参数η的取值做修正，使得

的取值刚好处在讨论范围的边界处即可。

实例2

本实例中利用实例1中形成的改进型XGBoost类方法形成非寿险保险定价方法。在独立性假设下，将负对数似然函数作为损失函数，并将均值参数作为XGBoost类方法的待估参数。

本实例中利用所述改进型XGBoost类方法改进非寿险定价中求损失(赔付)强度或损失(赔付)次数的概率分布的方法。

据此，本实例利用改进型XGBoost类方法改进非寿险定价中求损失(赔付)强度或损失(赔付)次数的概率分布的过程主要包括如下步骤：

(1)首先选择要预测的随机变量，如损失次数随机变量或损失强度随机变量。收集样本数据，包括样本属性和预测变量的观测值。以车险的单次损失金额为例，样本属性可能包括车型，已开里程数，车价，车主年龄，上一年的理赔情况，交通违法记录等等，预测变量的观测值为在保险期间内出险的单次损失金额。

(2)对样本数据进行预处理，包括处理异常值等。

(3)进行特征工程，得到更新后的样本集D＝{(x _i,y _i)}。x _i是第i个样本的特征向量。

(4)将样本集划分为训练集，验证集和测试集。训练集用来训练模型，该模型为对要预测的变量做出预测的学习模型，验证集用来调整超参数，测试集用来评估模型性能。如可用留出法，kfold交叉验证法等。

(5)在候选参数分布中选择预测随机变量的参数分布类型，用实例1中形成的改进型XGBoost类方法来求得预测变量的条件概率分布。

(6)在候选分布中重新选择需要拟合的分布，重复以上步骤步骤(5)，用测试集的评估指标确定最优参数分布。若候选分布中只是一种分布，则不用再次选择。

本实例中采用改进型XGBoost类方法来求得预测变量的条件概率分布的过程包括：

(5.1)从候选参数概率分布中选择某一分布，确定其参数。

本步骤中，将该分布的期望表达式代入该参数分布，以其期望表达式作为该概率分布的参数，即期望参数，进一步以期望参数作为改进型的XGBoost类方法的待估预测变量；如该分布表达式本身已含期望参数，则不需要变形，直接设定预测参数和超参数。

需要说明的是，同广义线性模型类似，对期望参数也可添加不同的连接，如对期望参数添加一个对数连接。添加连接相当于不同的参数化形式，无论何种参数化形式都有相应的损失函数，只要满足方法的条件就能适用。

(5.2)将其余参数看作麻烦参数、超参数，运用网格搜寻法或先验经验或其他方法确定其值；

(5.3)当超参数固定时，用的改进型XGBoost类算法来求得期望参数的预测值。

(5.4)更换超参数取值，重复步骤(5.3)，用验证集的评估指标确定最优参数预测值和最优超参数取值；从而得到预测变量的预测值和其具体概率分布表达式。对有些确定取值的超参数，可用其他方法比如经验确定其值，不用更换其值。

其原理和广义线性模型的原理类似，不同之处在于广义线性模型将预测变量的期望连接到线性组合模型，而本方法将待估预测变量的期望连接到改进型XGBoost类提升树模型。从而使得改进型XGBoost类方法能结合广义线性模型方法和XGBoost类方法的优点，克服各自的缺点。

在此基础上，本实例针对该改进型XGBoost类方法，增加一种评估指标的方法，用训练集的损失函数作为验证集和测试集的评估指标，使得损失函数和评估指标完美统一。当目标函数可最优求解时，用预测变量概率分布的对数似然函数或其相反数作为评估指标符合统计原理惯例。

以留出法为例，具体求得预测变量的条件概率分布方法如下：

根据经验从候选参数分布中选择预测随机变量Y的分布类型。

本实例中假定要分析的随机变量Y _i(i＝1,…,n，n为集合内的样本数量)服从同一类型的参数分布，并且有如下性质：

Y _i相互独立(以各自的特征和参数条件独立)。

将Y _i概率值或概率密度写成f(y _i；μ _i,θ)的形式(如果Y _i是离散型，则f(y _i；μ _i,θ)代表其概率值；如果Y _i是连续型，则f(y _i；μ _i,θ)代表其概率密度)，

(μ _i,θ是该分布的参数，θ是除了μ _i以外的参数，如果θ存在)。

其中E(Y _i)＝μ _i，θ与μ _i无关，对每一个Y _i都有相同取值，看作是麻烦参数或超参数。将μ _i作为XGBoost模型的待估预测变量，

是XGBoost树函数。

为了与陈天奇的论文符号保持一致，以下用

代替

定义样本(x _i,y _i)的损失函数

如果

在讨论的范围内，对任意可能的θ和y _i都对

二阶可导(或相应的一阶可导)；有且仅有一个局部极小值点并且仅在该点导数为0，或者严格单调。则继续。否则，需要从候选参数分布中更换需的拟合分布。

整个集合的损失函为

用改进型XGBoost类方法最小化如下目标函数:

其中，

当θ已知时，通过改进型XGBoost类方法对训练集做训练，

求得预测函数

以上过程得到μ _i的估计值。

在此技术基础上，举例如下：

(a)对于损失(赔付)强度的预测：

定义：

缩放分布：如果一个随机变量服从某个参数分布，该随机变量乘以某个正常数形成新的随机变量，新随机变量依然服从该参数分布。该参数分布称为缩放分布。

缩放参数：一个随机变量服从某个缩放分布，可能的取值范围非负，一个缩放分布的某个参数满足如下两个条件称为缩放参数：该随机变量乘以某个正常数形成新的随机变量，新的缩放分布的缩放参数同样乘以该正常数。新缩放分布的其余参数不变。

当面对通货膨胀和货币单位转换时，缩放分布对损失金额的处理特别方便，优选缩放分布作为损失金额随机变量的候选分布。缩放参数记为β。该缩放分布的期望μ可以写成β·f的形式，f是除β以外参数的函数。则

这里以例子(1)来说明对于损失(赔付)强度的预测。

例1：

伽马分布是一个厚尾的缩放分布，β是缩放参数，其概率密度函数如下：

其期望μ＝α·β，

将此概率密度函数写成f(y；μ,θ)的形式：

假设所要分析的损失(赔付)强度随机变量Y _i服从伽马分布，Y _i相互独立(以各自特征和参数的条件独立)。其概率密度函数为

是XGBoost类树函数,α>0，μ _i>0。

训练集的损失函数为

对

二阶可导；有且仅有一个局部极小值点并且仅在该点导数为0，或者严格单调。但不是

的凸函数。

当α＝5，y _i＝4时，

的函数图像如图2所示。

如果α和超参数的取值确定，运用改进型XGBoost类方法，就能求得初始目标函数的预测最小值，预测变量的预测值，相应的损失函数取值以及损失(赔付)强度的条件概率分布。

对于损失(赔付)次数的预测：

以一个例子(2)说明。

例2：

设Y服从退化后的0分布和泊松分布的混合分布，其概率分布如下：

该分布属于(a,b,1)类，不属于指数分布族。μ＝E(Y)＝αλ。

假设保险期间内损失(赔付)次数Y _i服从该分布。Y _i相互独立。其概率分布函数为：

训练集的损失函数为

对

二阶可导；有且仅有一个局部极小值点并且仅在该点导数为0，或者严格单调。但当y _i＝0时，不是

的凸函数。

当α＝0.5，y _i＝0时，

的函数图像如图3所示。

如果α和超参数的取值确定，运用改进型XGBoost类方法，就能求得初始目标函数的预测最小值，预测变量的预测值，相应的损失函数取值以及损失(赔付)次数的条件概率分布。

如果得到θ的估计值，就能得到预测随机变量的条件概率分布。

对于评估指标的选择，最好使评估指标与损失函数相统一。

优选地，可使用验证集和测试集上的对数似然函数的相反数

作为对应的评估指标，n是样本对应集合的样本数量。由于θ是未知参数。而超参数γ和λ需要通过网格搜寻法等方法在验证集上寻找最优值。此时，将θ看作麻烦参数、超参数处理，用网格搜寻法等方法寻找使得验证集上损失函数

最小的

作为θ的估计值。

在此基础上，再利用验证集的评估指标选择超参数和

的取值，并确定最优模型结构。获得

的取值和超参数取值以及模型结构后，合并训练集和验证集作为新的训练集，用该模型结构设定重新训练模型，得到更新后的模型和模型参数。用更新后的模型对测试集的样本做预测，得到模型在测试集上的评估指标取值。选择其他可能的参数分布，重复之前步骤重新建模，但测试集不改变，得到新的评估指标取值。重复此步，直到对所有可能合适的参数分布都进行建模。比较对应的评估指标取值，选择评估值最好的一个或几个模型作为预测模型。保留模型结构设置，用所有样本数据(包括测试集)重新训练更新模型，得到最终的预测模型。

如果采用kfold交叉验证法，可以取k次训练得到的

平均值作为θ的估计值。

以上符号含义同背景技术的介绍。

可采用不同的特征工程方案，重复以上步骤，利用验证集的评估指标评估方案的优劣。

在上述方案的基础上，本实例在求得损失(赔付)次数和损失(赔付)强度的条件概率分布后，运用纯保费测算模型求得纯保费，总损失额概率分布，总赔付额概率分布等非寿险定价要素。

实例3

本实例构成的改进型XGBoost类方法中，还可进一步将改进型XGBoost类方法从单变量预测推广到参数随机分布的多参数预测，形成多轮循环改进型XGBoost类数据分析方法，从而实现对预测随机变量常见的参数概率分布的所有参数的提升树方法预测。

本实例中，利用改进型XGBoost类方法模型，对预测随机变量Y _i多轮循环建模，可提高预测性能。

这里的随机变量Y _i指损失(赔付)强度或保险期间内损失(赔付)次数的随机变量。

具体地，本实例可针对实例2的方案进一步扩展。当求得μ _i和麻烦参数的估计值θ ₁，…θ _l(l是麻烦参数的个数)后，

(1)将μ _i和θ ₂，…θ _n的估计值当做固定参数，损失函数为相应的l(y _i,μ _i,θ _1,i,θ ₂…,θ _l)，如果l(y _i,μ _i,θ _1,i,…,θ _l)对任意的y _i,μ _i,θ ₂，…θ _l取值都对θ _1,i二阶可偏导(或对应的一阶可偏导)；有且仅有一个局部极小值点并且仅在该点导数为0，或者严格单调。将θ _1,i作为预测变量，利用改进型XGBoost类方法对θ _1,i做预测建模，得到θ _1,i的预测值

可选的，用(*)式中得到的θ ₁的估计值作为

的初始值，提高收敛速度。

(2)将μ _i和θ _1,i，θ ₃…θ _n的估计值当做固定参数，损失函数为相应

如果

对任意的y _i,μ _i,

θ ₃,…,θ _l的取值都对θ _2,i二阶可偏导(或对应的一阶可偏导)；有且仅有一个局部极小值点并且仅在该点导数为0，或者严格单调。

将θ _2,i作为预测变量，利用XGBoost方法对θ _2,i做预测建模，得到θ _2,i的预测值：

可选的，用(*)式中得到的θ ₂的估计值作为

的初始值，提高收敛速度。

(3)重复以上步骤，求得θ _3i,…,θ _ni的预测值。

说明：XGBoost类方法的正则项可以使得各叶子结点的得分不至于差异过大。

举例如下：

接实例2中的例子(1)

当运用改进后的XGBoost方法求得μ _i和α的估计值后，固定每一个μ _i，将α视作预测变量，损失函数为

对任意y _i，μ _i。

对

二阶可偏导；有且仅有一个局部极小值点并且仅在该点导数为0，或者严格单调。满足改进型XGBoost类方法对收敛性的要求。

固定相应的参数后，

的几个示例函数图像如图4所示。

建立改进型XGBoost类方法预测模型，得到

(4)将

作为θ的取值，用改进型XGBoost类方法预测μ _i。

重复以上步骤得到新一轮的

的预测值。可选的，用(*)式中得到的θ _j(j＝1,2,…,l)的估计值作为的相应的初始迭代值，提高收敛速度。

(5)重复第4步，直到验证集的评估指标收敛。保留以上每步的模型，用测试集选出最优的概率分布和参数结构。

关于验证集评估指标的选择，如果采用传统的评估指标如均方误差，则验证过程与步骤(2)一致。如果采用验证集上负对数似然函数做评估指标，对于预测变量为θ _j,i的模型，则负对数似然函数的固定参数为

n是验证集样本的个数。μ _i,

分别为训练得到的改进型XGBoost类模型预测函数值

可选的，将测试集划出一部分样本作为第2次验证集(也可将全体样本重新划分为训练集，第1次验证集，第2次验证集和测试集)，用来验证初始预测变量Y _i的某种概率分布在各种参数结构下(不同的循环轮次和不同的参数迭代次数有不同的概率分布参数结构)的预测性能，即以上每次迭代过程得到的模型的拟合效果。用测试集去评估该概率分布的拟合效果。如此划分2个验证集可尽量避免过拟合。

实例4

本实例在改进型XGBoost类方法方案的基础上，进一步给出多元正则化提升树方案。

本实例将改进型XGBoost类方法推广到预测多个待估参数，用一个算法模型同时预测参数概率分布的多个待估参数，如此可增加模型的预测性能并提高运算效率和可解释性。

设l元损失函数为

假设在讨论范围内，二阶可微，有且仅有一个局部极小值点；如采用下文中目标函数的近似表达式(1)，对损失函数l的要求可放宽至一阶可微，有且仅有一个局部极小值点；

选定任意的某个待估参数后，当其余参数固定时，有且仅有一个局部极小值点；

仅在前段所述局部极小值点对待估参数偏导数为0，或者严格单调。

注：y _i是观测值，看作固定的参数，不看做变量或待估参数。对于待估参数的讨论范围，可以合理的自由选择。在实际运用中，合理的预测结果都不会刚好落在理论上的极端边界点。在有些时候，可以将讨论的范围区间看成是闭区间，也可以使区间的边界离理论上的边界点有一点的合理的距离。

一个样本集D＝{(x _i,y _i)}(|D|＝n,x _i∈R ^m,y _i∈R),有m个特征，n个样本。用K _j颗树函数相加得到

的参数

预测结果

其中F＝{f(x)＝ω _q(x)}(q:R ^m→T,ω∈R ^T)是回归树空间。q表示每棵树的结构，把一个样本映射到对应的叶子结点。T是一颗树的叶子结点的个数。每个

对应一个独立的树结构q及其叶子权重ω。为了学习模型中的这些树函数，最小化下面的正则化目标：

其中，

…，

是

的正则项超参数，

是

中一棵树的叶子结点个数。

对第t次迭代的目标函数

采用以下近似之一：

(1)

(2)

类似于改进型XGBoost方法对第t次迭代目标函数的近似表达，对于(1)和(2)式的各h _i相关项某种加权平均(线性组合)也可看作近似公式的一种变形：

(3)

其中，

是损失函数

对

的偏导数，

是损失函数

对

的二阶偏导数。

本多元正则化提升树方法不局限于某h _i不恒为非负的情形，当所有的h _i恒为非负时也适用，此时，近似表达式(2)在形式上化简为：

每一轮训练同时最多训练l颗树，每棵树有独自的超参数。

如果

特别大，即

大于某一个足够大的正数M _j，

可设置

的取值，令

用

代替

仍用

表示

如此能使算法收敛更快。特别地，当

在某一点无穷大时，如此可使得算法收敛。

将每一个参数θ _j独立看待，

的结构和函数表达式同改进型XGBoost类算法。

对每一个待估参数θ _j，都有一个学习速率η _j和训练轮数K _j以及超参数M _j。

对于确定性比较强的待估参数，可以单独设定较少的训练轮数K。优选方案是，设置迭代轮数间隔，使其总训练轮数减少。

对于算法的其余细节包括树的分裂和

的预测值以及额外添加l ₁正则化项同实例1中改进型XGBoost类方法。

待估参数θ _j的初始迭代值可用训练集的极大似然估计(不考虑x _i)求得。

以非寿险定价为例，改进解决实例2方案中第5步中求得预测变量的条件概率分布。选择合适的参数概率分布，在独立性假设下，用其负对数使然函数作损失函数

当损失函数满足相应条件时，可继续，否则需要从候选分布中更换拟合分布或更换参数形式。假定某损失函数l在讨论的范围内：二阶可微，有且仅有一个局部极小值点；如采用近似表达式(1)，对损失函数l的要求可放宽至一阶可微，有且仅有一个局部极小值点；选定任意的某个待估参数后，当其余参数固定时，有且仅有一个局部极小值点；仅在前段所述局部极小值点对待估参数偏导数为0，或者严格单调。

以一个例子(3)说明。

例3：

假设保险期间内损失次数Y _i服从负二项分布,作为预测变量。Y _i相互独立。其概率分布函数的一种经典形式为：

训练集的损失函数为

对待估参数β _i,γ _i可以设置任意的合理的讨论范围，一种方法是设定β _i∈[ε ₁,M ₁],γ _i∈[ε ₂,M ₂],ε ₁,ε ₂是足够小的正数，M ₁,M ₂是足够大的正数。

可以验证，损失函数

在讨论范围内，二阶可微，有且仅有一个局部极小值点；

选定任意的某个待估参数

后，当其余参数固定时，有且仅有一个局部极小值点；

(注：在此例中

)

满足多元正则化提升树方法对损失函数的要求。

可以用多元正则化提升树方法求得预测变量Y _i的具体条件概率分布。

但当固定住y _i和γ _i后该损失函数未必是β _i的凸函数。

举例说明如下：

当y _i＝0，γ _i＝1时，损失函数l是β _i的凹函数，其函数图像如图5所示。

以留出法为例，对模型的各项超参数进行网格搜寻或其他方法确定其值，使得验证集的评估指标最小，得到模型结构和提升树模型内的参数取值以及最优超参数值。

以上建模过程，可采用不同的特征工程方案。合并训练集和验证集，用学得的超参数，重新训练模型。更换预测变量的候选概率分布类型，重复建模训练。对测试集运用学得的模型做预测，选择一种或几种评估指标最小的概率分布及对应的预测模型作为最优模型。合并所有样本集，用学得的超参数，重新训练模型，得到最终模型并投入生产。优选评估指标为负对数似然函数。

由于LightGBM方法,CatBoost方法等方法与XGBoost方法非常相似，本专利对XGBoost类方法的改进指对所有类似XGBoost方法的方法的改进，如著名的LightGBM方法和CatBoost方法。

对于改进型XGBoost类方法，多轮循环XGBoost类方法，多元正则化提升树方法，在实际应用时，只要求解满足损失函数条件的目标函数最小化的最优化问题或求解满足损失函数条件的参数概率分布的各参数的极大似然估计(对不同样本特征的各样本点的条件极大似然估计)，就可以运用，不仅仅适用于非寿险定价，可广泛应用于各种领域。

本发明实施例还提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现上述实例1-实例4中任意一种或多种方案的步骤。

本发明实施例还提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行上述实例1-实例4中任意一种或多种方案的步骤。

本发明实施例还提供了一种终端设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，所述程序代码由所述处理器加载并执行以实现上述实例1-实例4中任意一种或多种方案的步骤。

本发明还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行上述实例1-实例4中任意一种或多种方案的步骤。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本发明的实施例可提供为方法、系统或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

基于改进型XGBoost类方法的数据分析方法，其特征在于，采用改进型XGBoost类方法基于获取到的变量参数进行预测评估，所述改进型XGBoost类方法对XGBoost类算法中的目标函数近似表达的二阶泰勒展开做修正，h _i不恒为非负时，通过修改其h _i相关项，改进型XGBoost类方法的适用性不局限于凸损失函数。
根据权利要求1所述的基于改进型XGBoost类方法的数据分析方法，其特征在于，所述改进型XGBoost类方法将XGBoost类方法从单变量预测推广到参数分布的多参数预测，形成多轮循环改进型XGBoost类数据分析方法。
根据权利要求1所述的基于改进型XGBoost类方法的数据分析方法，其特征在于，所述改进型XGBoost类方法中，设定损失函数
在讨论的范围内：对
二阶可导或对
一阶可导；有且仅有一个局部极小值点并且仅在该点导数为0，或者严格单调。
根据权利要求3所述的基于改进型XGBoost类方法的数据分析方法，其特征在于，所述改进型XGBoost类方法中，对第t次迭代的目标函数
采用以下近似之一：

或

或

(1)式和(2)式的加权平均表达。
一种定价方法，其特征在于，所述定价方法基于权利要求1-4中任一项所述的数据分析方法进行精算定价。
根据权利要求5所述的定价方法，其特征在于，所述定价方法包括：

(1)首先选择要预测的随机变量，收集样本数据，包括样本属性和预测变量的观测值；

(2)对样本数据进行预处理；

(3)进行特征工程，得到更新后的样本集D＝{(x _i，y _i)}；x _i是第i个样本的特征向量；

(4)将样本集划分为训练集，验证集和测试集；所述训练集用来训练用于预测预测变量的学习模型，验证集用来调整超参数，测试集用来评估学习模型性能；

(5)选择预测随机变量的参数分布类型，用改进型XGBoost类方法求得预测变量的条件概率分布；

(6)在候选分布中重新选择需要拟合的分布，重复以上步骤(5)，用测试集的评估指标确定最优参数分布。
根据权利要求6所述的定价方法，其特征在于，所述定价方法基于改进型XGBoost类方法求得预测变量的条件概率分布，包括：

(1)从候选参数概率分布中选择某一分布，确定其参数；

(2)将预测变量的期望值表达式作为期望参数，对该概率分布的表达式进行变形，将期望参数作为预测参数，预测参数以外的参数看作麻烦参数、超参数；如该分布表达式本身已含期望参数，则不需要变形，直接设定预测参数和超参数；

(3)确定目标函数，以该分布的负对数似然函数作为损失函数；

(4)对超参数确定其值；

(5)当超参数固定时，用改进型XGBoost类算法求得预测参数的预测值；

(6)更换超参数取值，重复步骤(5)，用验证集的评估指标确定最优参数预测值和最优超参数取值；从而得到预测变量的预测值和其具体概率分布表达式。
一种数据分析方法，其特征在于，形成改进型XGBoost类方法，并直接推广至多元，形成多元正则化提升树方法，所述多元正则化提升树方法对XGBoost类方法中的目标函数近似表达的二阶泰勒展开做修正，修改其h _i相关项，使得多元正则化提升树方法的适用性不局限于凸损失函数，并在算法层面同时最优化求解多元目标函数的多个变量。
根据权利要求8所述的数据分析方法，其特征在于，所述多元正则化提升树方法中，设定损失函数l在讨论的范围内：(1)二阶可微，有且仅有一个局部极小值点；或一阶可微，有且仅有一个局部极小值点；(2)选定任意的某个待估参数作为考察变量后，当其余参数固定时，有且仅有一个局部极小值点；

仅在前段所述局部极小值点对考察变量的偏导数为0，或者严格单调。
根据权利要求8所述的数据分析方法，其特征在于，所述多元正则化提升树方法中目标函数的表达式为：

其中Ω是正则化项；

是
的正则项超参数，
是
中一棵树的叶子结点个数，l是待估参数的个数，k是对应的预测待估参数的提升树的层数，

也可将l ₁正则化项额外加入到Ω中。
根据权利要求8所述的数据分析方法，其特征在于，所述多元正则化提升树方法中，对第t次迭代的目标函数
采用以下近似之一：

或

或(1)式和(2)式各h _i相关项的加权平均表达；

其中，
是损失函数
对
的偏导数，

是损失函数
对
的二阶偏导数。
一种定价方法，其特征在于，所述定价方法基于权利要求8-11项中任一项所述的数据分析方法进行精算定价。
根据权利要求12所述的定价方法，其特征在于，所述定价方法包括：

(1)首先选择要预测的随机变量，收集样本数据，包括样本属性和预测变量的观测值；

(2)对样本数据进行预处理；

(3)进行特征工程，得到更新后的样本集D＝{(x _i，y _i)}；x _i是第i个样本的特征向量；

(4)将样本集划分为训练集，验证集和测试集；所述训练集用来训练用于预测参数分布的待估参数的学习模型，验证集用来调整超参数，测试集用来评估学习模型性能；

(5)选择预测随机变量的参数分布类型，用多元正则化提升树方法求得预测变量的条件概率分布；

(6)在候选分布中重新选择需要拟合的分布，重复以上步骤(5)，用测试集的评估指标确定最优参数分布。
根据权利要求13所述的定价方法，其特征在于，所述定价方法基于多元正则化提升树方法求得预测变量的条件概率分布，包括：

(1)从候选参数概率分布中选择某一分布，确定其参数形式；

(2)确定目标函数，以该分布的负对数似然函数作为损失函数。

(3)用多元正则化提升树方法求得该分布所有参数的预测值；从而得到预测变量的具体概率分布表达式。
一种计算机可读存储介质，其上存储有程序，其特征在于，所述程序被处理器执行时实现权利要求1-4中任一项或权利要求8-11中任一项所述数据分析方法或权利要求5-7中任一项或权利要求12-14中任一项所述定价方法的步骤。
一种处理器，所述处理器用于运行程序，其特征在于，所述程序运行时实现权利要求1-4中任一项或权利要求8-11中任一项所述数据分析方法或权利要求5-7中任一项或权利要求12-14中任一项所述定价方法的的步骤。
一种终端设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，其特征在于，所述程序代码由所述处理器加载并执行以实现权利要求1-4中任一项或权利要求8-11中任一项所述数据分析方法或权利要求5-7中任一项或权利要求12-14中任一项所述定价方法的步骤。
一种计算机程序产品，其特征在于，当在数据处理设备上执行时，适于执行权利要求1-4中任一项或权利要求8-11中任一项所述数据分析方法或权利要求5-7中任一项或权利要求12-14中任一项所述定价方法的步骤。