WO2018107906A1

WO2018107906A1 - 一种训练分类模型的方法、数据分类的方法及装置

Info

Publication number: WO2018107906A1
Application number: PCT/CN2017/107626
Authority: WO
Inventors: 尹红军
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2016-12-12
Filing date: 2017-10-25
Publication date: 2018-06-21
Also published as: CN108615044A; US20190197429A1; US11386353B2

Abstract

本申请公开了一种训练分类模型的方法及装置，通过在初始分类模型的梯度损失函数中引入距离因子，该距离因子表示实际分类所属类别与预测分类所属类别之间的差距，这样，当产生不同的分类错误时，即预测分类与实际分类之间的差异程度不同时，对应的距离因子会不同，从而使得梯度损失函数不同，进而使得根据梯度损失函数确定出的实际分类与预测分类之间的残差不同，由于不同大小的残差对应不同程度的分类错误，因此，可以根据不同大小的残差对初始分类模型进行有针对性地的修正，可以快速提高分类模型的精度。本申请实施例还提供相应的数据分类的方法及装置。

Description

一种训练分类模型的方法、数据分类的方法及装置

本申请要求于2016年12月12日提交中国专利局、申请号201611139498.5、申请名称为“一种分类模型训练的方法、数据分类的方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及数据处理技术领域，具体涉及训练分类模型、数据分类的方法及装置。

背景技术

集成树模型(eXtreme Gradient Boosting，简称Xgboost)是根据迭代的决策树(Gradient Boosting Decision Tree，GBDT)原理，基于C++实现的分类集成学习模型，其特点是利用中央处理器(Central Processing Unit，CPU)的多线程，实现高精度和快运算速度的分类。

Xgboost在进行分类时会发生分类错误的问题，如：将小学生分类成初中生或者将小学生分类成博士生，都属于分类错误，即存在分类不精确的问题。此外，在模型训练阶段会对分类错误的情况进行代价惩罚，从而逐步提高模型分类的精度，但是，目前对所有分类错误的情况都给予相同的代价惩罚，不利于快速提高模型的分类精度。

发明内容

为了解决现有技术中分类模型训练不精确、训练速度慢的问题，本申请实施例提供一种训练分类模型的方法，通过在初始分类模型的梯度损失函数中引入表征实际分类所属类别与预测分类所属类别之间差距的距离因子，可以针对不同的分类错误产生不同大小的残差，从而可以快速提高分类模型的分类精度。本申请实施例还提供了相应的数据分类方法，可以提高数据分类的精确度。本申请实施例还提供了相应的装置。

本申请实施例提供一种训练分类模型的方法，包括：

获取训练样本，该训练样本包括训练参数以及训练参数对应的实际分类；

使用该训练参数对初始分类模型进行分类训练，得到预测分类；

根据该初始分类模型所包含的梯度损失函数，确定该实际分类与该预测分类之间的残差，该梯度损失函数包括表征第一类别与第二类别之间差距的距离因子，该第一类别为该预测分类所属类别，该第二类别为该实际分类所属类别；

根据该残差，对该初始分类模型进行修正，得到最终分类模型。

在一种可能的实现方式中，使用该训练参数对初始分类模型进行分类训练，得到预测分类，包括：

使用该训练参数对初始分类模型进行迭代计算，得到每轮迭代所使用的分类模型产生的预测分类；

对应地，根据该初始分类模型所包含的梯度损失函数，确定该实际分类与该预测分类之间的残差，包括：

根据该初始分类模型所包含的梯度损失函数，确定该实际分类与每轮迭代产生的预测分类之间的残差；

对应地，根据该残差，对该初始分类模型进行修正，得到最终分类模型，包括：

根据M轮迭代确定的残差，修正M轮迭代所使用的分类模型，得到M+1轮迭代所使用的分类模型，通过至少一轮迭代修正后得到最终分类模型，其中，M轮迭代所使用的分类模型为根据第M-1轮迭代确定的残差对第M-1轮迭代所使用的分类模型进行修正得到的，M为大于1的正整数。

在一种可能的实现方式中，根据该初始分类模型所包含的梯度损失函数，确定该实际分类与每轮迭代产生的预测分类之间的残差，包括：

根据该训练参数、该实际分类、以及表征该实际分类所属类别与每轮预测分类所属类别之间差距的距离因子，确定该实际分类与每轮预测分类之间的残差。

在一种可能的实现方式中，根据该训练参数、该实际分类、以及表征该实际分类所属类别与每轮预测分类所属类别之间差距的距离因子，确定该实际分类与每轮预测分类之间的残差，包括：

使用如下公式确定第k轮迭代产生的预测分类与该实际分类之间的残差；

F′_k(x_i)＝D_yk*F_k(x_i)

其中，x_i为该训练参数，i为大于1的正整数，y_ik为该实际分类，

为第k轮迭代产生的预测分类与该实际分类之间的残差，p_k(x_i)为第k轮迭代的预测概率函数，F_k(x_i)为第k轮迭代的预测函数，D_yk为表征该实际分类所属类别与第k轮预测分类所属类别之间差距的距离因子，F′_k(x_i)为第k轮迭代的修正预测函数，F′_l(x_i)为第l轮迭代的修正预测函数，l的取值从1到K，其中，K为该实际分类的分类数量。

在该实现方式中，通过在初始分类模型的梯度损失函数中引入表示实际分类所属类别与预测分类所属类别之间差距的距离因子，这样，当产生不同的分类错误时，即该预测分类与该实际分类之间的差异程度不同时，对应的距离因子会不同，从而使得梯度损失函数不同，进而使得根据梯度损失函数确定出的该实际分类与该预测分类之间的残差不同，由于不同大小的残差对应不同程度的分类错误，因此，可以根据不同大小的残差对初始分类模型进行有针对性地的修正，可以快速提高分类模型的精度。

本申请实施例提供一种数据分类的方法，包括：

接收待分类数据；

使用目标分类模型对该待分类数据进行分类，得到分类结果；其中，该目标分类模型为根据前述一种训练分类模型的方法中任一项方法得到的最终分类模型；

输出该分类结果。

当利用前述一种训练分类模型的方法中任一项方法得到的最终分类模型进行数据分类时，由于该最终分类模型的分类精度较高，因此提高了数据分类的精确度。

本申请实施例提供一种训练分类模型的装置，包括：

样本获取单元，用于获取训练样本，该训练样本包括训练参数以及该训练参数对应的实际分类；

模型训练单元，用于使用该样本获取单元获取的该训练参数对初始分类模型进行分类训练，得到预测分类；

残差确定单元，用于根据该初始分类模型所包含的梯度损失函数，确定该实际分类与该模型训练单元训练的该预测分类之间的残差，该梯度损失函数表征第一类别与第二类别之间差距的距离因子，该第一类别为该预测分类所属类别，该第二类别为该实际分类所属类别；

模型修正单元，用于根据该残差确定单元确定的残差，对该初始分类模型进行修正，得到最终分类模型。

在一种可能的实现方式中，该模型训练单元，用于使用该训练参数对初始分类模型进行迭代计算，得到每轮迭代所使用的分类模型产生的预测分类；

该残差确定单元，用于根据该初始分类模型所包含的梯度损失函数，确定该实际分类与每轮迭代产生的预测分类之间的残差；

该模型修正单元，用于根据M轮迭代确定的残差，修正M轮迭代所使用的分类模型，得到M+1轮迭代所使用的分类模型，通过至少一轮迭代修正后得到最终分类模型，其中，M轮迭代所使用的分类模型为根据第M-1轮迭代确定的残差对第M-1轮迭代所使用的分类模型进行修正得到的，M为大于1的正整数。

在一种可能的实现方式中，该残差确定单元，用于根据该训练参数、该实际分类、以及表征该实际分类所属类别与每轮预测分类所属类别之间差距的距离因子，确定该实际分类与每轮预测分类之间的残差。

在一种可能的实现方式中，该残差确定单元，用于使用如下公式确定第k轮迭代产生的预测分类与该实际分类之间的残差；

F′_k(x_i)＝D_yk*F_k(x_i)

本申请实施例提供一种训练分类模型的装置中各个部分可能的实现方式的有益效果，参见前述一种训练分类模型的方法中与之对应的方法的有益效果。

本申请实施例提供一种数据分类的装置，包括：

数据接收单元，用于接收待分类数据；

数据分类单元，用于使用目标分类模型对该数据接收单元接收的待分类数据进行分类，得到分类结果；其中，该目标分类模型为根据前述一种训练分类模型的装置中任一项训练分类模型的装置得到的最终分类模型；

数据输出单元，用于输出该数据分类单元分类得到的该分类结果。

本申请实施例提供一种数据分类的装置中各个部分可能的实现方式的有益效果，参见一种数据分类的方法中与之对应的方法有益效果。

本申请实施例提供一种训练分类模型的设备，包括：

处理器以及存储器；

该存储器用于存储程序代码，并将该程序代码传输给该处理器；

该处理器用于根据该程序代码中的指令执行前述一种训练分类模型的方法中任一项训练分类模型的方法。

本申请实施例提供一种数据分类的设备，该设备包括：

处理器以及存储器；

该处理器用于根据该程序代码中的指令执行前述一种数据分类的方法中任一项数据分类的方法。

本申请实施例提供一种数据分类的设备中各个部分可能的实现方式的有益效果，参见一种数据分类的方法中与之对应的方法的有益效果。

本申请实施例提供一种存储介质，该存储介质用于存储程序代码，该程序代码用于执行前述一种训练分类模型的方法中任一项训练分类模型的方法。

本申请实施例提供一种存储介质中各个部分可能的实现方式的有益效果，参见一种训练分类模型的方法中与之对应的方法的有益效果。

本申请实施例提供一种存储介质，该存储介质用于存储程序代码，该程序代码用于执行前述一种数据分类的方法中任一项数据分类的方法。

本申请实施例提供一种存储介质中各个部分可能的实现方式的有益效果，参见一种数据分类的方法中与之对应的方法的有益效果。

本申请实施例提供一种包括指令的计算机程序产品，当其在计算机上运行时，使得该计算机执行前述一种训练分类模型的方法中任一项训练分类模型的方法。

本申请实施例提供一种包括指令的计算机程序产品中各个部分可能的实现方式的有益效果，参见一种训练分类模型的方法中与之对应的方法的有益效果。

本申请实施例提供一种包括指令的计算机程序产品，当其在计算机上运行时，使得该计算机执行前述一种数据分类的方法中任一项数据分类的方法。

本申请实施例提供一种包括指令的计算机程序产品中各个部分可能的实现方式的有益效果，参见一种数据分类的方法中与之对应的方法的有益效果。

本申请实施例提供一种训练分类模型的方法，包括：

终端获取训练样本，该训练样本包括训练参数以及该训练参数对应的实际分类；

终端使用该训练参数对初始分类模型进行分类训练，得到预测分类；

终端根据该初始分类模型所包含的梯度损失函数，确定该实际分类与该预测分类之间的残差，该梯度损失函数包括表征第一类别与第二类别之间差距的距离因子，该第一类别为该预测分类所属类别，该第二类别为该实际分类所属类别；

终端根据该残差，对该初始分类模型进行修正，得到最终分类模型。

在一种可能的实现方式中，该终端使用该训练参数对初始分类模型进行分类训练，得到预测分类，包括：

终端使用该训练参数对初始分类模型进行迭代计算，得到每轮迭代所使用的分类模型产生的预测分类；

对应地，该终端根据该初始分类模型所包含的梯度损失函数，确定该实际分类与该预测分类之间的残差，包括：

终端根据该初始分类模型所包含的梯度损失函数，确定该实际分类与每轮迭代产生的预测分类之间的残差；

对应地，该终端根据该残差，对该初始分类模型进行修正，得到最终分类模型，包括：

终端根据M轮迭代确定的残差，修正M轮迭代所使用的分类模型，得到M+1轮迭代所使用的分类模型，通过至少一轮迭代修正后得到最终分类模型，其中，M轮迭代所使用的分类模型为根据第M-1轮迭代确定的残差对第M-1轮迭代所使用的分类模型进行修正得到的，M为大于1的正整数。

在一种可能的实现方式中，该终端根据该初始分类模型所包含的梯度损失函数，确定该实际分类与每轮迭代产生的预测分类之间的残差，包括：

终端根据该训练参数、该实际分类、以及表征该实际分类所属类别与每轮预测分类所属类别之间差距的距离因子，确定该实际分类与每轮预测分类之间的残差。

在一种可能的实现方式中，终端根据该训练参数、该实际分类、以及表征该实际分类所属类别与每轮预测分类所属类别之间差距的距离因子，确定该实际分类与每轮预测分类之间的残差，包括：

终端使用如下公式确定第k轮迭代产生的预测分类与该实际分类之间的残差；

F′_k(x_i)＝D_yk*F_k(x_i)

其中，x_i为该参数，i为大于1的正整数，y_ik为该实际分类，

本申请实施例提供一种数据分类的方法，包括：

终端接收待分类数据；

终端使用目标分类模型对该待分类数据进行分类，得到分类结果；其中，该目标分类模型为根据前述任一项训练分类模型的方法得到的最终分类模型；

终端输出该分类结果。

与现有技术中分类模型训练不精确、训练速度慢相比，本申请实施例提供的训练分类模型的方法中，所述训练样本包括训练参数和实际分类，所述实际分类是与训练参数实际对应的分类，在对初始分类模型进行分类训练得到预测分类后，由于所述预测分类与所述实际分类可能不同，因此，可以在初始分类模型的梯度损失函数中引入距离因子，利用所述距离因子表示所述实际分类所属类别与所述预测分类所属类别之间的差距，这样，当产生不同的分类错误时，即所述预测分类与所述实际分类之间的差异程度不同时，对应的距离因子会不同，从而使得梯度损失函数不同，进而使得根据梯度损失函数确定出的所述实际分类与所述预测分类之间的残差不同，由于不同大小的残差对应不同程度的分类错误，因此，可以根据不同大小的残差对初始分类模型进行有针对性地的修正，可以快速提高分类模型的精度。进一步地，当分类模型的分类精确度提高后，当利用该分类模型进行数据分类时，也提高了数据分类的精确度。

附图说明

图1是本申请实施例中训练分类模型的方法的一实施例示意图；

图2是本申请实施例中数据分类的方法的一实施例示意图；

图3是本申请实施例中训练分类模型的装置的一实施例示意图；

图4是本申请实施例中数据分类的装置的一实施例示意图；

图5是本申请实施例中训练分类模型的装置的另一实施例示意图；

图6是本申请实施例中数据分类的装置的另一实施例示意图。

具体实施方式

本申请实施例提供一种训练分类模型的方法，通过在初始分类模型的梯度损失函数中引入距离因子，这样，当产生不同的分类错误时，对应的距离因子会不同，从而使得梯度损失函数不同，进而使得根据梯度损失函数确定出的所述实际分类与所述预测分类之间的残差不同，由于不同大小的残差对应不同程度的分类错误，因此，可以根据不同大小的残差对初始分类模型进行有针对性地修正，可以快速提高分类模型的精度。本申请实施例还提供了相应的数据分类方法，使用了前述方法训练得到的分类模型进行数据分类，可以提高数据分类的精确度。本申请实施例还提供了相应的装置。以下分别进行详细说明。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。

数据分类通常是把具有共同属性或特征的数据归并在一起。数据分类在多个领域中都有广泛应用，例如：在信息推广方面，可以根据用户在网络中的历史浏览信息对该用户的学历进行分类，或者，可以根据用户在网络中的历史浏览信息对用户的年龄进行分类，从而方便为用户推送一些合适该学历或者该年龄的信息，以实现精准推送。

申请人经研究发现，在进行数据分类时，通常可以使用预先训练好的分类模型对数据进行分类，其中，xgboost是目前所使用的分类精度较高的分类模型，xgboost的全称是eXtreme Gradient Boosting。Boosting分类器属于集成学习模型，它基本思想是把成百上千个分类准确率较低的树模型组合起来，成为一个准确率很高的模型。这个模型会不断地迭代，每次迭代就生成一颗新的树。xgboost模型则是在每次迭代生成一棵新的树的时候采用梯度下降的思想，即以之前迭代生成的所有树为基础，向着最小化给定目标函数的方向继续进行迭代。

因使用当前方法训练xgboost分类模型时，利用训练样本得到的预测分类可能会不同，即发生不同的分类错误，但是当前训练xgboost分类模型的方法，针对不同的分类错误所产生的残差都是相同的，例如：以学历为例，可以将学历分为博士、硕士、本科、大专、高中、初中和小学七个类别。将一个小学生的训练样本分类到初中和将一个小学生的训练样本分类到博士，是针对该小学生的训练样本发生的不同分类错误，但是二者所产生的残差相等，则不容易确定该分类模型修正的方向。因此，为解决将训练样本分到不同类所产生的残差相等，导致无法根据残差对不同的分类错误进行针对性地修正，进而导致分类模型训练速度低下的问题，本申请实施例提供一种训练分类模型的方法，可以快速的训练出高精确度的分类模型。

由于分类和回归在数学模型中本质是一样的，二者区别在于分类处理的是离散数据，回归处理的是连续数据。所以本申请实施例所提供的分类模型实际上是分类回归模型，该分类模型不限于应用于数据分类，也可以应用于数据回归。

参阅图1，本申请实施例提供的训练分类模型的方法的一实施例包括：

101、获取训练样本，所述训练样本包括训练参数以及所述训练参数对应的实际分类。

训练分类模型需要大量的训练样本，每个训练样本中可以包括用于训练分类模型的训练参数和实际分类，实际分类可以是训练参数对应的分类方向，实际分类是准确的，训练参数可以是与实际分类有关联的一系列参数，训练参数与实际分类相对应。以训练年龄分类模型为例，训练参数可以是喜欢的颜色、运动种类、饮食偏好和着装偏好等种类的参数，实际分类可以为18岁、30岁和50岁等年龄数值。若以学历为例，训练参数可以是读书的类型、参加活动的类型和关注公众号的类型等种类的参数，实际分类可以是博士、硕士、本科、大专、高中、初中和小学。

102、使用所述训练参数对初始分类模型进行分类训练，得到预测分类。

其中，初始分类模型可以是开发人员预先开发好并存入计算机的，在该计算机中输入训练参数，该初始分类模型即可以开始迭代过程。

本申请实施例中，每轮迭代可以产生该轮迭代所使用的分类模型产生的预测分类，每轮迭代的预测分类都可以用于优化下一轮迭代所使用的分类模型。

103、根据所述初始分类模型所包含的梯度损失函数，确定所述实际分类与所述预测分类之间的残差，所述梯度损失函数包括表征第一类别与第二类别之间差距的距离因子，所述第一类别为所述预测分类所属类别，所述第二类别为所述实际分类所属类别。

本申请实施例中的类别可以用数值标签的形式来表示，例如：以类别为学历为例，学历类别对应的类别标签如下表1所示：

表1：类别标签表

类别	标签
博士	0
硕士	1
本科	2
大专	3
高中	4
初中	5
小学	6

当然，本处表1只是举例说明，学历类别的划分不限于这几种，还可以有幼儿园、博士后和中专等类别，然无论有多少种类别，原理都是相同的，每种类别都会对应有一个类别标签。

如果训练参数为小学生，那么对小学生的实际分类则为小学，小学的标签数值为6，若将小学生分类到了博士，那么预测分类为博士，博士的标签数值为0，则表征小学和博士之间差距的距离因子取值为6。若将小学生分类到了初中生，则预测分类为初中，初中的标签数值为5，则表征小学和初中之间差距的距离因子取值为1。

可见，在使用分类模型时，将小学生错分为初中和错分为博士的两种分类错误产生的距离因子不同，从而使得二者的梯度损失函数不同，进而使得根据梯度损失函数确定出的所述实际分类与所述预测分类之间的残差不同。由于不同大小的残差对应不同程度的分类错误，接下来，便可以根据不同大小的残差对初始分类模型进行有针对性地的修正。

104、根据所述残差，对所述初始分类模型进行修正，得到最终分类模型。

在本实施例中，由于最终分类模型是利用训练样本对初始分类模型不断地进行迭代、修正得到的，因此所述使用所述训练参数对初始分类模型进行分类训练，得到预测分类，可以包括：

使用所述训练参数对初始分类模型进行迭代计算，得到每轮迭代所使用的分类模型产生的预测分类；

对应地，所述根据所述初始分类模型所包含的梯度损失函数，确定所述实际分类与所述预测分类之间的残差，可以包括：

根据所述初始分类模型所包含的梯度损失函数，确定所述实际分类与每轮的预测结果之间的残差；

对应地，所述根据所述残差，对所述初始分类模型进行修正，得到最终分类模型，可以包括：

本申请实施例中，每轮迭代都可以得到该轮迭代所使用的分类模型产生预测分类，例如：该轮为第M轮，可以根据第M轮迭代所使用的分类模型产生的预测分类与实际分类，确定第M轮的残差，用第M轮的残差修正第M轮所使用的分类模型，实现对分类模型的一次优化。例如：若M＝1，则是使用训练参数训练初始分类模型，产生第一轮的预测分类，根据第一轮的预测分类和实际分类确定第一轮的残差，使用第一轮的残差优化该初始分类模型，得到第2轮迭代所使用的分类模型，再执行第2轮的迭代操作。

作为一种示例，所述根据所述初始分类模型所包含的梯度损失函数，确定所述实际分类与每轮迭代产生的预测分类之间的残差，包括：

在实施过程中，当根据该训练参数、该实际分类、以及表征该实际分类所属类别与每轮预测分类所属类别之间差距的距离因子，确定该实际分类与每轮预测分类之间的残差时，具体可以使用如下公式确定第k轮迭代产生的预测分类与所述实际分类之间的残差；

F′_k(x_i)＝D_yk*F_k(x_i)

其中，x_i为所述训练参数，i为大于1的正整数，y_ik为所述实际分类，

为第k轮迭代产生的预测分类与所述实际分类之间的残差，p_k(x_i)为第k轮迭代的预测概率函数，F_k(x_i)为第k轮迭代的预测函数，D_yk为表征所述实际分类所属类别与第k轮预测分类所属类别之间差距的距离因子，F′_k(x_i)为第k轮迭代的修正预测函数，F′_l(x_i)为第l轮迭代的修正预测函数，l的取值从1到K，其中，K为所述实际分类的分类数量。

需要说明的是，xgboost分类模型在梯度损失函数中未引入距离因子(原梯度损失函数)训练，第k轮迭代的预测概率函数为

下面以使用原梯度损失函数为例说明在发生分类错误的情况下的残差计算过程。

还是以表1中的学历分类为例，下面有3个训练样本，如表2所示：

表2：学历分类训练样本

样本	label	学历	Xgboost标识label
y₁	6	小学	y₁＝(0,0,0,0,0,0,1)
y₂	5	初中	y₂＝(0,0,0,0,0,1,0)
y₃	0	博士	y₃＝(1,0,0,0,0,0,0)

以对小学生的训练样本y₁的预测过程为例：设第k-1棵树模型的预测分类为F_k-1(x)＝(0,0,0,0.3,0,0.8,0)，该预测分类结果则是把小学生预测为初中，那么第k棵树模型对应的残差为：

T arg et_k＝y₁-p_k-1

＝(0,0,0,0,0,0,1)-(0.12,0.12,0.12,0.16,0.12,0.26,0.12)

＝(-0.12,-0.12,-0.12,-0.16,-0.12,-0.26,0.88)

假设预测分类为F_k-1(x)＝(0.8,0,0,0.3,0,0,0)，该预测分类结果则是把小学生预测为博士，那么第k棵树模型对应的残差为：

T arg et_k＝y₁-p_k-1

＝(0,0,0,0,0,0,1)-(0.26,0.12,0.12,0.16,0.12,0.12,0.12)

＝(-0.26,-0.12,-0.12,-0.16,-0.12,-0.12,0.88)

从以上两个结果可以看出，预测分类为初中得到的残差和预测分类为博士得到的残差在数值上相等，只是在向量中的位置不同。

继续以表2中训练样本y¹的预测过程为例，若使用本申请实施例中的梯度损失函数在发生分类错误的情况下计算残差，则残差的计算过程如下：

把小学生预测为初中时，

所产生的残差为：

T arg et_k＝y₁-p_k-1

＝(0,0,0,0,0,0,1)-(0.12,0.12,0.12,0.16,0.12,0.26,0.12)

＝(-0.12,-0.12,-0.12,-0.16,-0.12,-0.26,0.88)

把小学生预测为博士时，

所产生的残差为：

T arg et_k＝y₁-p_k-1

＝(0,0,0,0,0,0,1)-(0.95,0.008,0.008,0.01,0.008,0.008,0.008)

＝(-0.95,-0.008,-0.008,-0.01,-0.12,-0.008,0.92)

本申请上述示例中的T arg et_k为

由以上两个结果的对比可见，使用本申请实施例中的梯度损失函数计算残差时，可以针对不同的分类错误，产生不同的残差，即在预测分类为初中得到的残差和预测分类为博士得到的残差是不同的，这样可以明确修改目标，有利于快速优化分类模型。

本申请实施例为不同的分类错误提供了不同的残差，即提供了不同的代价惩罚，从而整体上提高xgboost分类模型的精度。本技术方案可以用来做有序性分类比如年龄和学历等。

参阅图2，本申请实施例提供的数据分类的方法的一实施例包括：

201、接收待分类数据。

202、使用目标分类模型对所述待分类数据进行分类，得到分类结果；其中，所述目标分类模型为使用前述实施例中训练分类模型的方法得到的最终分类模型。

203、输出所述分类结果。

参阅图3，本申请实施例提供的训练分类模型的装置30的一实施例包括：

样本获取单元301，用于获取训练样本，所述训练样本包括训练参数以及所述训练参数对应的实际分类；

模型训练单元302，用于使用所述样本获取单元301获取的所述训练参数对初始分类模型进行分类训练，得到预测分类；

残差确定单元303，用于根据所述初始分类模型所包含的梯度损失函数，确定所述实际分类与所述模型训练单元302训练的所述预测分类之间的残差，所述梯度损失函数包括表征第一类别与第二类别之间差距的距离因子，所述第一类别为所述预测分类所属类别，所述第二类别为所述实际分类所属类别；

模型修正单元304，用于根据所述残差确定单元303确定的残差，对所述初始分类模型进行修正，得到最终分类模型。

本申请实施例中，样本获取单元301获取用于训练分类模型的训练样本，所述训练样本包括训练参数和与训练参数对应的实际分类；模型训练单元302使用所述样本获取单元301获取的所述训练参数对初始分类模型进行分类训练，得到预测分类；残差确定单元303根据所述初始分类模型所包含的梯度损失函数，确定所述实际分类与所述模型训练单元302训练的所述预测分类之间的残差，所述梯度损失函数包括表征第一类别与第二类别之间差距的距离因子，所述第一类别为所述预测分类所属类别，所述第二类别为所述实际分类所属类别；模型修正单元304根据所述残差确定单元303确定的残差，对所述初始分类模型进行修正，得到最终分类模型。

作为一种示例，本申请实施例提供的训练分类模型的装置30的另一实施例中，

所述模型训练单元，用于使用所述训练参数对初始分类模型进行迭代计算，得到每轮迭代所使用的分类模型产生的预测分类；

所述残差确定单元，用于根据所述初始分类模型所包含的梯度损失函数，确定所述实际分类与每轮迭代产生的预测分类之间的残差；

所述模型修正单元，用于根据M轮迭代确定的残差，修正M轮迭代所使用的分类模型，得到M+1轮迭代所使用的分类模型，通过至少一轮迭代修正后得到最终分类模型，其中，M轮迭代所使用的分类模型为根据第M-1轮迭代确定的残差对第M-1轮迭代所使用的分类模型进行修正得到的，M为大于1的正整数。

所述残差确定单元，用于根据该训练参数、该实际分类、以及表征该实际分类所属类别与每轮预测分类所属类别之间差距的距离因子，确定该实际分类与每轮预测分类之间的残差。

所述残差确定单元，还用于使用如下公式确定第k轮迭代产生的预测分类与所述实际分类之间的残差；

F′_k(x_i)＝D_yk*F_k(x_i)

为第k轮迭代产生的预测分类与所述实际分类之间的残差，p_k(x_i)为第k轮迭代的预测概率函数， F_k(x_i)为第k轮迭代的预测函数，D_yk为表征所述实际分类所属类别与第k轮预测分类所属类别之间差距的距离因子，F′_k(x_i)为第k轮迭代的修正预测函数，F′_l(x_i)为第l轮迭代的修正预测函数，l的取值从1到K，其中，K为所述实际分类的分类数量。

本申请实施例提供的训练分类模型的装置可以参阅前述方法部分的描述进行理解，本处不再重复赘述。

参阅图4，本申请实施例提供的数据分类的装置40的一实施例包括：

数据接收单元401，用于接收待分类数据；

数据分类单元402，用于使用目标分类模型对所述数据接收单元401接收的所述待分类数据进行分类，得到分类结果；其中，所述目标分类模型为根据前述训练分类模型的装置得到的最终分类模型；

数据输出单元403，用于输出所述数据分类单元402分类得到的所述分类结果。

本申请实施例中，数据接收单元401接收待分类数据；数据分类单元402使用目标分类模型对所述数据接收单元401接收的所述待分类数据进行分类，得到分类结果；其中，所述目标分类模型为根据前述训练分类模型的装置得到的最终分类模型；数据输出单元403输出所述数据分类单元402分类得到的所述分类结果。本申请实施例提供的数据分类的装置，因分类模型的分类精确度提高，从而也提高了数据分类的精确度。

需要说明的是，本实施例中的目标分类模型，可以根据图3任一实施例得到的，因此，本实施例中的装置40可以包括图3任一实施例包括的单元。

本申请实施例中，训练分类模型的装置可以由计算机等计算设备来完成，下面结合计算设备的形态，介绍计算设备用于训练分类模型的过程。

图5是本申请实施例提供的训练分类模型的装置50的结构示意图。所述训练分类模型的装置50包括处理器510、存储器550和收发器530，存储器550可以包括只读存储器和随机存取存储器，并向处理器510提供操作指令和数据。存储器550的一部分还可以包括非易失性随机存取存储器(NVRAM)。

在一些实施方式中，存储器550存储了如下的元素，可执行模块或者数据结构，或者他们的子集，或者他们的扩展集:

在本申请实施例中，通过调用存储器550存储的操作指令(该操作指令可存储在操作系统中)，

通过收发器530获取训练样本，所述训练样本包括训练参数以及所述训练参数对应的实际分类；

使用所述训练参数对初始分类模型进行分类训练，得到预测分类；

根据所述初始分类模型所包含的梯度损失函数，确定所述实际分类与所述预测分类之间的残差，所述梯度损失函数包括表征第一类别与第二类别之间差距的距离因子，所述第一类别为所述预测分类所属类别，所述第二类别为所述实际分类所属类别；

根据所述残差，对所述初始分类模型进行修正，得到最终分类模型。

处理器510控制训练分类模型的装置50的操作，处理器510还可以称为CPU(Central Processing Unit，中央处理单元)。存储器550可以包括只读存储器和随机存取存储器，并向处理器510提供指令和数据。存储器550的一部分还可以包括非易失性随机存取存储器(NVRAM)。具体的应用中训练分类模型的装置50的各个组件通过总线系统520耦合在一起，其中总线系统520除包括数据总线之外，还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见，在图中将各种总线都标为总线系统520。

上述本申请实施例揭示的方法可以应用于处理器510中，或者由处理器510实现。处理器510可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器510中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器510可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器550，处理器510读取存储器550中的信息，结合其硬件完成上述方法的步骤。

作为一种示例，处理器510用于：

根据所述初始分类模型所包含的梯度损失函数，确定所述实际分类与每轮迭代产生的预测分类之间的残差；

作为一种示例，处理器510用于：

在实施过程中，处理器510可以使用如下公式确定第k轮迭代产生的预测分类与所述实际分类之间的残差；

F′_k(x_i)＝D_yk*F_k(x_i)

本申请实施例提供的训练分类模型的装置可以参阅图1至图4部分的相关描述进行理解，本处不再重复赘述。

图6是本申请实施例提供的数据分类的装置60的结构示意图。所述数据分类的装置60包括处理器610、存储器650和收发器630，存储器650可以包括只读存储器和随机存取存储器，并向处理器610提供操作指令和数据。存储器650的一部分还可以包括非易失性随机存取存储器(NVRAM)。

在一些实施方式中，存储器650存储了如下的元素，可执行模块或者数据结构，或者他们的子集，或者他们的扩展集:

在本申请实施例中，通过调用存储器650存储的操作指令(该操作指令可存储在操作系统中)，

通过收发器630接收待分类数据；

使用目标分类模型对所述待分类数据进行分类，得到分类结果；其中，所述目标分类模型为根据前述实施例中训练分类模型的装置50得到的最终分类模型；

通过收发器630输出所述分类结果。

与现有技术中数据分类精确度不够高相比，本申请实施例提供的数据分类的装置，因分类模型的分类精确度提高，从而也提高了数据分类的精确度。

处理器610控制数据分类的装置60的操作，处理器610还可以称为CPU(Central Processing Unit，中央处理单元)。存储器650可以包括只读存储器和随机存取存储器，并向处理器610提供指令和数据。存储器650的一部分还可以包括非易失性随机存取存储器(NVRAM)。具体的应用中数据分类的装置60的各个组件通过总线系统620耦合在一起，其中总线系统620除包括数据总线之外，还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见，在图中将各种总线都标为总线系统620。

上述本申请实施例揭示的方法可以应用于处理器610中，或者由处理器610实现。处理器610可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器610中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器610可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器650，处理器610读取存储器650中的信息，结合其硬件完成上述方法的步骤。

需要说明的是，本实施例中的目标分类模型，可以根据图5任一实施例得到的，因此，本实施例中的处理器610可以执行图5任一实施例执行的操作指令。

本申请实施例提供的数据分类的装置可以参阅图1至图4部分的相关描述进行理解，本处不再重复赘述。

本申请实施例还提供了一种包括指令的计算机程序产品，当其在计算机上运行时，使得所述计算机执行前述实施例中任一项所述的训练分类模型的方法。

本申请实施例还提供了一种包括指令的计算机程序产品，当其在计算机上运行时，使得所述计算机执行前述实施例中任一项所述的数据分类的方法。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：ROM、RAM、磁盘或光盘等。

以上对本申请实施例所提供的分类模型训练的方法、数据分类的方法以及装置进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

一种训练分类模型的方法，包括：

获取训练样本，所述训练样本包括训练参数以及所述训练参数对应的实际分类；

使用所述训练参数对初始分类模型进行分类训练，得到预测分类；

根据所述初始分类模型所包含的梯度损失函数，确定所述实际分类与所述预测分类之间的残差，所述梯度损失函数包括表征第一类别与第二类别之间差距的距离因子，所述第一类别为所述预测分类所属类别，所述第二类别为所述实际分类所属类别；

根据所述残差，对所述初始分类模型进行修正，得到最终分类模型。
根据权利要求1所述的方法，所述使用所述训练参数对初始分类模型进行分类训练，得到预测分类，包括：

使用所述训练参数对初始分类模型进行迭代计算，得到每轮迭代所使用的分类模型产生的预测分类；

对应地，所述根据所述初始分类模型所包含的梯度损失函数，确定所述实际分类与所述预测分类之间的残差，包括：

根据所述初始分类模型所包含的梯度损失函数，确定所述实际分类与每轮迭代产生的预测分类之间的残差；

对应地，所述根据所述残差，对所述初始分类模型进行修正，得到最终分类模型，包括：

根据M轮迭代确定的残差，修正M轮迭代所使用的分类模型，得到M+1轮迭代所使用的分类模型，通过至少一轮迭代修正后得到最终分类模型，其中，所述M轮迭代所使用的分类模型为根据第M-1轮迭代确定的残差对第M-1轮迭代所使用的分类模型进行修正得到的，所述M为大于1的正整数。
根据权利要求2所述的方法，所述根据所述初始分类模型所包含的梯度损失函数，确定所述实际分类与每轮迭代产生的预测分类之间的残差，包括：

根据所述训练参数、所述实际分类、以及表征所述实际分类所属类别与每轮预测分类所属类别之间差距的距离因子，确定所述实际分类与每轮预测分类之间的残差。
根据权利要求3所述的方法，所述根据所述训练参数、所述实际分类、以及表征所述实际分类所属类别与每轮预测分类所属类别之间差距的距离因子，确定所述实际分类与每轮预测分类之间的残差，包括：

使用如下公式确定第k轮迭代产生的预测分类与所述实际分类之间的残差；

F′_k(x_i)＝D_yk*F_k(x_i)

其中，x_i为所述训练参数，i为大于1的正整数，y_ik为所述实际分类，
为第k轮迭代产生的预测分类与所述实际分类之间的残差，p_k(x_i)为第k轮迭代的预测概率函数，F_k(x_i)为第k轮迭代的预测函数，D_yk为表征所述实际分类所属类别与第k轮预测分类所属类别之间差距的距离因子，F′_k(x_i)为第k轮迭代的修正预测函数，F_l'(x_i)为第l轮迭代的修正预测函数，l的取值从1到K，其中，K为所述实际分类的分类数量。
一种数据分类的方法，包括：

接收待分类数据；

使用目标分类模型对所述待分类数据进行分类，得到分类结果；其中，所述目标分类模型为根据权利要求1至4任一项所述方法得到的最终分类模型；

输出所述分类结果。
一种训练分类模型的装置，包括：

样本获取单元，用于获取训练样本，所述训练样本包括训练参数以及所述训练参数对应的实际分类；

模型训练单元，用于使用所述样本获取单元获取的所述训练参数对初始分类模型进行分类训练，得到预测分类；

残差确定单元，用于根据所述初始分类模型所包含的梯度损失函数，确定所述实际分类与所述模型训练单元训练的所述预测分类之间的残差，所述梯度损失函数表征第一类别与第二类别之间差距的距离因子，所述第一类别为所述预测分类所属类别，所述第二类别为所述实际分类所属类别；

模型修正单元，用于根据所述残差确定单元确定的残差，对所述初始分类模型进行修正，得到最终分类模型。
根据权利要求6所述的装置，

所述模型训练单元，用于使用所述训练参数对初始分类模型进行迭代计算，得到每轮迭代所使用的分类模型产生的预测分类；

所述残差确定单元，用于根据所述初始分类模型所包含的梯度损失函数，确定所述实际分类与每轮迭代产生的预测分类之间的残差；

所述模型修正单元，用于根据M轮迭代确定的残差，修正M轮迭代所使用的分类模型，得到M+1轮迭代所使用的分类模型，通过至少一轮迭代修正后得到最终分类模型，其中，所述M轮迭代所使用的分类模型为根据第M-1轮迭代确定的残差对第M-1轮迭代所使用的分类模型进行修正得到的，所述M为大于1的正整数。
根据权利要求7所述的装置，

所述残差确定单元，用于根据所述训练参数、所述实际分类、以及表征所述实际分类所属类别与每轮预测分类所属类别之间差距的距离因子，确定所述实际分类与每轮预测分类之间的残差。
根据权利要求8所述的装置，

所述残差确定单元，用于使用如下公式确定第k轮迭代产生的预测分类与所述实际分类之间的残差；

F′_k(x_i)＝D_yk*F_k(x_i)

其中，x_i为所述训练参数，i为大于1的正整数，y_ik为所述实际分类，
为第k轮迭代产生的预测分类与所述实际分类之间的残差，p_k(x_i)为第k轮迭代的预测概率函数，F_k(x_i)为第k轮迭代的预测函数，D_yk为表征所述实际分类所属类别与第k轮预测分类所属类别之间差距的距离因子，F′_k(x_i)为第k轮迭代的修正预测函数，F_l'(x_i)为第l轮迭代的修正预测函数，l的取值从1到K，其中，K为所述实际分类的分类数量。
一种数据分类的装置，包括：

数据接收单元，用于接收待分类数据；

数据分类单元，用于使用目标分类模型对所述数据接收单元接收的所述待分类数据进行分类，得到分类结果；其中，所述目标分类模型为根据权利要求6至9任一项所述装置得到的最终分类模型；

数据输出单元，用于输出所述数据分类单元分类得到的所述分类结果。
一种训练分类模型的设备，所述设备包括：

处理器以及存储器；

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行权利要求1-4任一项所述的训练分类模型的方法。
一种数据分类的设备，所述设备包括：

处理器以及存储器；

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行权利要求5所述的数据分类的方法。
一种存储介质，所述存储介质用于存储程序代码，所述程序代码用于执行权利要求1-4任一项所述的训练分类模型的方法。
一种存储介质，所述存储介质用于存储程序代码，所述程序代码用于执行权利要求5所述的数据分类的方法
一种包括指令的计算机程序产品，当其在计算机上运行时，使得所述计算机执行权利要求1-4任一项所述的训练分类模型的方法。
一种包括指令的计算机程序产品，当其在计算机上运行时，使得所述计算机执行权利要求5任一项所述的数据分类的方法。
一种训练分类模型的方法，包括：

终端获取训练样本，所述训练样本包括训练参数以及所述训练参数对应的实际分类；

终端使用所述训练参数对初始分类模型进行分类训练，得到预测分类；

终端根据所述初始分类模型所包含的梯度损失函数，确定所述实际分类与所述预测分类之间的残差，所述梯度损失函数包括表征第一类别与第二类别之间差距的距离因子，所述第一类别为所述预测分类所属类别，所述第二类别为所述实际分类所属类别；

终端根据所述残差，对所述初始分类模型进行修正，得到最终分类模型。
根据权利要求17所述的方法，所述终端使用所述训练参数对初始分类模型进行分类训练，得到预测分类，包括：

终端使用所述训练参数对初始分类模型进行迭代计算，得到每轮迭代所使用的分类模型产生的预测分类；

对应地，所述终端根据所述初始分类模型所包含的梯度损失函数，确定所述实际分类与所述预测分类之间的残差，包括：

终端根据所述初始分类模型所包含的梯度损失函数，确定所述实际分类与每轮迭代产生的预测分类之间的残差；

对应地，所述终端根据所述残差，对所述初始分类模型进行修正，得到最终分类模型，包括：

终端根据M轮迭代确定的残差，修正M轮迭代所使用的分类模型，得到M+1轮迭代所使用的分类模型，通过至少一轮迭代修正后得到最终分类模型，其中，所述M轮迭代所使用的分类模型为根据第M-1轮迭代确定的残差对第M-1轮迭代所使用的分类模型进行修正得到的，所述M为大于1的正整数。
根据权利要求18所述的方法，所述终端根据所述初始分类模型所包含的梯度损失函数，确定所述实际分类与每轮迭代产生的预测分类之间的残差，包括：

终端根据所述训练参数、所述实际分类、以及表征所述实际分类所属类别与每轮预测分类所属类别之间差距的距离因子，确定所述实际分类与每轮预测分类之间的残差。
根据权利要求19所述的方法，所述终端根据所述训练参数、所述实际分类、以及表征所述实际分类所属类别与每轮预测分类所属类别之间差距的距离因子，确定所述实际分类与每轮预测分类之间的残差，包括：

终端使用如下公式确定第k轮迭代产生的预测分类与所述实际分类之间的残差；

F′_k(x_i)＝D_yk*F_k(x_i)

其中，x_i为所述参数，i为大于1的正整数，y_ik为所述实际分类，
为第k轮迭代产生的预测分类与所述实际分类之间的残差，p_k(x_i)为第k轮迭代的预测概率函数，F_k(x_i)为第k轮迭代的预测函数，D_yk为表征所述实际分类所属类别与第k轮预测分类所属类别之间差距的距离因子，F′_k(x_i)为第k轮迭代的修正预测函数，F_l'(x_i)为第l轮迭代的修正预测函数，l的取值从1到K，其中，K为所述实际分类的分类数量。
一种数据分类的方法，包括：

终端接收待分类数据；

终端使用目标分类模型对所述待分类数据进行分类，得到分类结果；其中，所述目标分类模型为根据权利要求17至20任一项所述方法得到的最终分类模型；

终端输出所述分类结果。