WO2019001359A1

WO2019001359A1 - 数据处理方法和数据处理装置

Info

Publication number: WO2019001359A1
Application number: PCT/CN2018/092390
Authority: WO
Inventors: 宋文鹏; 沈雄
Original assignee: 众安信息技术服务有限公司
Priority date: 2017-06-30
Filing date: 2018-06-22
Publication date: 2019-01-03
Also published as: US20190220710A1; CN107330464A; KR20190075962A

Abstract

一种数据处理方法和数据处理装置，该数据处理方法包括根据增量数据生成至少一个增量决策树；基于分类模型中的多个模型决策树和至少一个增量决策树对增量数据进行预测并获得预测结果；根据预测结果对分类模型进行更新。本发明实施例提供的数据处理方法通过利用增量数据生成增量决策树，然后基于分类模型中的模型决策树和增量决策树对增量数据进行预测，根据预测结果对分类模型进行更新的方式，实现了分类模型的自适应更新，并且实现了在模型的业务周期内不再需要人工干预的目的，大大节约了成本。

Description

数据处理方法和数据处理装置

本申请要求2017年06月30日提交的申请号为No.201710523102.5的中国申请的优先权，通过引用将其全部内容并入本文。

技术领域

本发明属于数据处理领域，尤其涉及一种数据处理方法和数据处理装置。

发明背景

随着互联网技术的发展，出现了大量的网络应用，例如：网络社交、网络阅读、股票基金交易等等。网络应用提供方为了向用户推荐具有针对性的信息，通常会周期性地对当前的数据进行处理，然后，向用户推送预测性的信息。为了提高预测效率和准确性，在大多数网络应用中通常采用分类模型进行分类预测。

随机森林分类模型是应用比较普遍的分类模型之一，该分类模型由多棵决策树组成，当待分类样本进入随机森林时，由该多棵决策树进行分类，最后选取被所有决策树选择次数最多的类别作为最终的分类结果。在传统应用中，通常采用离线的机器学习过程构造该分类模型，通过对全量的用户行为数据的学习、分析与训练，得出关于分类的知识，从而完成对分类模型的构建并部署上线。随着时间的推移，在线上部署的分类模型通常会逐渐退化，其分类的准确率可能无法满足要求。

在传统的机器学习领域，一般都是基于离线学习的机器学习模型。然而，随着数据量的增大，机器学习模型的处理能力越来越下降，特别在金融交易领域，信息瞬息万变，离线的机器学习模型会导致交易系统出现一定程度的滞后性。

因此，亟需一种能够自动进行更新的预测模型对数据进行处理。

发明内容

有鉴于此，本发明实施例提出一种数据处理方法和数据处理装置，以解决现有预测模型均为离线预测模式，无法实现自适应更新的问题。

第一方面，本发明实施例提供一种数据处理方法，该数据处理方法包括根据增量数据生成至少一个增量决策树；基于分类模型中的多个模型决策树和至少一个增量决策树对增量数据进行预测并获得预测结果；根据预测结果对分类模型进行更新。

在本发明一实施例中，根据增量数据生成至少一个增量决策树，包括基于增量数据有放回地抽取多个样本集；基于多个样本集生成至少一个增量决策树，其中增量决策树的数量基于模型决策树的数量来确定。

在本发明一实施例中，根据预测结果对分类模型进行更新，包括根据预测结果得出至少一个增量决策树和多个模型决策树的综合性能；基于增量决策树和模型决策树的综合性能，从多个模型决策树和至少一个增量决策树中选取预定数量的决策树来作为更新后分类模型中的模型决策树。

在本发明一实施例中，预定数量等于多个模型决策树的数量。

在本发明一实施例中，根据预测结果得出至少一个增量决策树和多个模型决策树的综合性能，包括基于至少一个增量决策树和多个模型决策树的建立时间和针对增量数据的预测准确率来确定综合性能。

在本发明一实施例中，基于分类模型中的多个模型决策树和至少一个增量决策树对增量数据进行预测，包括基于分类模型中的多个模型决策树和至少一个增量决策树对增量数据进行标签预测。

在本发明一实施例中，还包括根据标签预测的结果来确定多个模型决策树和至少一个增量决策树对增量数据的预测准确率；将多个模型决策树和至少一个增量决策树的建立时间作为确定综合性能的权重，并对增量数据的预测准确率进行排序，其中建立时间长的决策树的权重小于建立时间短的决策树的权重。

在本发明一实施例中，增量决策树的数量根据模型决策树的数量确定。

在本发明一实施例中，增量决策树的数量等于模型决策树的数量的10％至30％。

在本发明一实施例中，还包括获取预定时间段内的增量数据，并基于是否存在分类模型来确定生成至少一个增量决策树的数量；其中，若存在分类模型，根据增量数据生成至少一个增量决策树。

在本发明一实施例中，还包括若不存在分类模型，根据历史数据创建包括多个模型决策树的分类模型，其中，历史数据是已分类的数据。

在本发明另一实施例中，数据处理方法包括获取预定时间段内的增量数据，并基于是否存在分类模型来确定生成决策树的数量；若存在分类模型，则根据增量数据生成增量决策树，并基于增量决策树和分类模型中的模型决策树和增量决策树来对增量数据进行标签预测，其中，增量决策树的数量基于更新前的模型决策树的数量来确定；确定分类模型中的模型决策树和增量决策树中的各个决策树的综合性能；基于各个决策树的综合性能，从分类模型中的模型决策树和增量决策树中选取预定数量的决策树来作为更新后的分类模型中的模型决策树。

第二方面，本发明实施例还提供一种数据处理装置，该数据处理装置包括增量决策树生成模块，用于根据增量数据生成至少一个增量决策树；预测模块，用于基于分类模型中的多个模型决策树和至少一个增量决策树对增量数据进行预测并获得预测结果；更新模块，用于根据预测结果对分类模型进行更新。

在本发明一实施例中，增量决策树生成模块包括抽样单元，用于基于增量数据有放回地抽取多个样本集；生成单元，用于基于多个样本集生成至少一个增量决策树，其中至少一个增量决策树的数量基于多个模型决策树的数量来确定。

在本发明一实施例中，更新模块包括综合性能判定单元，用于根据预测结果得出至少一个增量决策树和多个模型决策树的综合性能；更新单元，用于基于至少一个增量决策树和多个模型决策树的综合性能，从多个模型决策树和至少一个增量决策树中选取预定数量的决策树来作为更新后分类模型中的模型决策树。

在本发明一实施例中，数据处理装置包括：增量数据输入单元，被配置为获取预定时间段内的增量数据；判断单元，被配置为根据是否存在分类模型来生成表征存在分类模型的第一信号以及表征不存在分类模型的第二信号；决策树生成单元，被配置为基于响应的第一信号来根据增量数据生成增量决策树；标签预测单元，被配置为根据分类模型中的模型决策树和增量决策树来对增量数据进行标签预测；决策树选择单元，被配置为根据分类模型中的模型决策树和增量决策树中的各个决策树的综合性能来选择预定数量的决策树；模型更新单元，被配置为将经选择的预定数量的决策树作为更新后的分类模型中的模型决策树。

在本发明一实施例中，更新单元中的预定数量等于多个模型决策树的数量。

在本发明一实施例中，综合性能判定单元还用于基于至少一个增量决策树和多个模型决策树的建立时间和针对增量数据的预测准确率来确定综合性能。

在本发明一实施例中，预测模块用于基于分类模型中的多个模型决策树和至少一个增量决策树对增量数据进行标签预测。

在本发明一实施例中，预测模块还用于根据标签预测的结果来确定多个模型决策树和至少一个增量决策树对增量数据的预测准确率；将多个模型决策树和至少一个增量决策树的建立时间作为确定综合性能的权重，并对增量数据的预测准确率进行排序，其中建立时间长的决策树的权重小于建立时间短的决策树的权重。

在本发明一实施例中，增量决策树生成模块中的至少一个增量决策树的数量根据多个模型决策树的数量确定。

在本发明一实施例中，增量决策树生成模块中的至少一个增量决策树的数量等于多个模型决策树的数量的10％至30％。

在本发明一实施例中，增量决策树生成模块还用于获取预定时间段内的增量数据，并基于是否存在分类模型来确定生成至少一个增量决策树的数量；其中，若存在分类模型，根据增量数据生成至少一个增量决策树。

在本发明一实施例中，增量决策树生成模块还用于若不存在分类模型，根据历史数据创建包括多个模型决策树的分类模型，其中，历史数据是已分类的数据。

第三方面，本发明实施例还提供一种计算机存储介质，该计算机可读存储介质上存储有数据处理程序，该数据处理程序被处理器执行时实现上述任一实施例所提及的数据处理方法的操作。

本发明实施例提供的数据处理方法通过利用增量数据进行分类模型的更新，使得分类模型能够及时地或者近似实时地根据样本数据的变化做出相应的调整，实现了分类模型与最新样本数据的同步。也就是说，本发明实施例提供的数据处理方法能够基于当前新获得的数据进行自适应更新，从而适应数据的新的趋势变化，进而保证了预测的准确性。此外，本发明实施例通过初始的操作设置，实现了在模型的业务周期内不再需要人工干预的目的，大大节约了成本，使本发明实施例提供的数据处理方法具备了智能化、高效性的特点。

附图简要说明

参考附图示出并阐明实施例。这些附图用于阐明基本原理，从而仅仅示出了对于理解基本原理必要的方面。这些附图不是按比例的。在附图中，相同的附图标记表示相似的特征。

图1所示为本发明一实施例提供的数据处理方法的流程示意图。

图2所示为本发明一实施例提供的数据处理方法的根据增量数据生成至少一个增量决策树操作的流程示意图。

图3所示为本发明一实施例提供的数据处理方法的根据预测结果对分类模型进行更新操作的流程示意图。

图4所示为本发明另一实施例提供的数据处理方法的流程示意图。

图5所示为本发明一实施例提供的数据处理装置的结构示意图。

图6所示为本发明一实施例提供的数据处理装置的增量决策树生成模块的结构示意图。

图7所示为本发明一实施例提供的数据处理装置的更新模块的结构示意图。

图8所示为本发明另一实施例提供的数据处理装置的结构示意图。

图9所示为本发明一实施例提供的数据处理装置的决策树选择单元的结构示意图。

图10所示为本发明一实施例提供的电子设备的结构示意图。

实施本发明的方式

在以下优选的实施例的具体描述中，将参考构成本发明一部分的所附的附图。所附的附图通过示例的方式示出了能够实现本发明的特定的实施例。示例的实施例并不旨在穷尽根据本发明的所有实施例。可以理解，在不偏离本发明的范围的前提下，可以利用其他实施例，也可以进行结构性或者逻辑性的修改。因此，以下的具体描述并非限制性的，且本发明的范围由所附的权利要求所限定。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。对于附图中的各单元之间的连线，仅仅是为了便于说明，其表示至少连线两端的单元是相互通信的，并非旨在限制未连线的单元之间无法通信。

发明人通过研究发现，在传统的机器学习领域，一般都是基于离线学习的机器学习模型。然而，随着数据量的增大，机器学习模型的处理能力越来越下降，特别在金融交易领域，信息瞬息万变，离线的机器学习模型会导致交易系统出现一定程度的滞后性。另外，虽然当前也存在一些基于在线学习的机器学习模型，但是复杂的结构导致工作效率较低，难以进行推广应用，尤其是难以应用在需要快速给出分析结果的金融领域。

基于上述发明构思，本发明实施例提出了基于增量数据来生成增量决策树，然后对分类模型进行更新的技术方案。可以理解的，该增量数据可以是来自经由网络传输的金融产品信息，譬如，价格、交易金额、交易量等等。

在机器学习中，随机森林分类模型是一个包含多个决策树的分类器，并且其输出的分类结果是由单个决策树输出的分类结果的总数而定。具体来说，随机森林分类的基本思想是：从原始样本集中有放回地随机抽取N个样本集，且每个样本集的样本容量都与原始样本集一样；对N个样本集分别建立N个决策树，每个决策树都有一票选择权来选择分类结果，得到N种分类结果；根据N种分类结果对每个样本进行投票表决以决定其最终分类。随机森林生成的过程就是训练每个决策树的过程。

训练每个决策树的过程包括如下内容：(1)有放回地随机选择M个样本，用这M个样本来训练一棵决策树；(2)每个样本有多个属性，在决策树中需要分裂节点时，从这多个属性中随机选取m个属性，然后从这m个属性中采用特定的策略选择最佳属性作为当前节点的分裂属性；(3)决策树的每个节点的分裂都按照(2)进行，直到不能分裂为止。

在实际的业务应用中，获取用户行为数据后，可以先利用已在线上部署的分类模型，即由预定数量的模型决策树组成的分类模型，通过打分的方式进行类别预测，将得分最高的类别(选择该类别的决策树数量最多)作为预测类别，并基于该预测类别开展预先设定的业务应用，例如按类别进行判断价格的涨跌等。

图1所示为本发明一实施例提供的数据处理方法的流程示意图。图1的方法由服务器或计算设备执行。如图1所示，本发明实施例提供的数据处理方法包括如下内容。

11：根据增量数据生成至少一个增量决策树。

在11中，增量数据是指从数据存储设备或服务器获取的某一时间段(譬如，10分钟、1小时或1天)内的新增数据。增量决策树是一种树形结构，其中，增量决策树的每个内部节点表示一个属性测试，每个分支代表一个测试输出，每个叶节点代表一种类别。

应当理解，增量决策树中各节点所代表的属性以及类别等应根据分类模型和实际应用情况进行设定。

12：基于分类模型中的多个模型决策树和至少一个增量决策树对增量数据进行预测，获得预测结果。

同样，模型决策树也是一种树形结构，其中，模型决策树的每个内部节点表示一个属性测试，每个分支代表一个测试输出，每个叶节点代表一种类别。

优选地，借助标签预测方法来进行增量数据的预测操作。比如，对增量数据进行有放回抽样，抽取一定数量的样本集，然后基于抽取的样本集生成相应数量的增量决策树，最后基于生成的增量决策树对增量数据进行标签预测操作。

13：根据预测结果对分类模型进行更新。

应当理解，预测结果应当能够反映出增量决策树的综合性能，尤其是针对于增量数据的预测准确率。

在实际应用过程中，首先根据增量数据生成增量决策树，然后基于模型决策树和增量决策树对增量数据进行预测并获得预测结果，最后根据预测结果对分类模型中的模型决策树进行更新操作。

在本发明一实施例中，更新操作指的是选取综合性能较好的增量决策树来替换掉更新前的分类模型中的综合性能较差的模型决策树。

本发明实施例提供的数据处理方法通过利用增量数据生成增量决策树，然后基于分类模型中的模型决策树和增量决策树对增量数据进行预测，根据预测结果对分类模型进行更新的方式，实现了分类模型的自适应更新，并且实现了在模型的业务周期内不再需要人工干预的目的，大大节约了成本。

图2所示为本发明一实施例提供的数据处理方法的根据增量数据生成至少一个增量决策树操作的流程示意图。如图2所示，在本发明实施例提供的数据处理方法中，根据增量数据生成至少一个增量决策树(11)，包括：

21：基于增量数据有放回地抽取多个样本集。

22：基于多个样本集生成至少一个增量决策树，其中至少一个增量决策树的数量基于多个模型决策树的数量来确定。

在实际的应用过程中，首先基于增量数据有放回地抽取多个样本集，然后基于抽取的样本集生成增量决策树，其中增量决策树的数量基于模型决策树的数量来确定，然后基于分类模型中的模型决策树和增量决策树对增量数据进行预测并获得预测结果，最后根据获得的预测结果对分类模型进行更新操作。

本发明实施例提供的数据处理方法通过采用有放回地抽取多个样本集的方式来生成增量决策树，实现了使增量决策树的每个节点均选自于该样本集的特征的目的，从而为最终提高分类模型的预测精准性提供了前提条件。

图3所示为本发明一实施例提供的数据处理方法的根据预测结果对分类模型进行更新操作的流程示意图。如图3所示，在本发明实施例提供的数据处理方法中，根据预测结果对分类模型进行更新(13)，包括：

31：根据预测结果得出至少一个增量决策树和多个模型决策树的综合性能。

应当理解，综合性能中的评判参数可根据实际情况自行设定，包括但不限于为建立时间、预测准确率等评判参数。

32：基于至少一个增量决策树和多个模型决策树的综合性能，从多个模型决策树和至少一个增量决策树中选取预定数量的决策树来作为更新后分类模型中的模型决策树。

也就是说，本发明实施例提供的数据处理方法根据各决策树的综合性能来对更新前的分类模型中的模型决策树进行选择性更新，利用综合性能较好的增量决策树来替换更新前的分类模型中的模型决策树，从而最终实现更新后的分类模型的精准预测。

图4所示为本发明另一实施例提供的数据处理方法的流程示意图。如图4所示，本发明实施例提供的数据处理方法包括如下内容。

41：获取增量数据。

在本发明一实施例中，获取增量数据指的是从金融交易服务器或特定的存储装置中获取预定时间段的增量数据。其中，该预定时间段是指位于当前时间之前的一个时间段，预定时间段的长度可以根据具体的需求进行设置，只要预定时间段内的用户行为数据已经处于可获取的状态并且已经包含了实际的类别标签信息即可。比如，预定时间段的长度预定时间段可以以天为单位、以小时为单位或以分钟为单位。

在本发明实施例中，以金融产品(比如股票)交易为例进行说明。例如，在股票交易系统中，获取距离当前时间5分钟的交易数据，数据的标签可以是上涨、下跌、平，也就是说，预定时间段为在当前时间之前的5分钟内的时间段。应当理解，在其他的实施方式中，数据的标签也可能有多种其它的形式。

42：判断是否存在线上的分类模型。

在42中，将判断是否存在能够使用的分类模型，如果存在，则执行43，否则执行49。

下面对基于分类模型是否存在不同场景分别进行阐述。

场景1：存在分类模型。

43：对增量数据进行有放回抽样，抽取k个样本集。

在43中，对获得的增量数据进行有放回抽样，生成K个训练样本集，每个样本都有类似如下所示的形式：(x ₁,x ₂……x _n:c)，其中x _i(i＝1,2……n)表示该样本的具体属性，c则表示该样本的实际类别。例如，在本实施例的一个具体例子中，在金融交易业务领域，采用分类模型对股票价格的趋势进行分类预测，每个样本的属性可以选择性地包括股票名称、价格、交易量等具体属性。

应当理解，K的具体取值可根据实际情况自行设定，以充分提高本发明实施例提供的数据处理方法的适应能力和应用广泛性，本发明实施例对此不进行统一限定。

44：基于K个样本集，创建K个增量决策树。

在44中，每个样本集生长为相应的增量决策树，即树的每个节点均是选自于该样本集的特征。

45：基于分类模型中的模型决策树和K个增量决策树对增量数据进行标签预测。

在45中，将基于分类模型中的模型决策树(假设为T个)和K个增量决策树对增量数据进行标签预测(即分类预测)，对未经分类的增量数据进行分类，如此，共有T+K个决策树对增量数据进行标签预测。由于参与预测的决策树总量的增加以及该K个增量决策树往往能代表新的趋势变化，因此利用T+K个决策树有利于提升分类模型预测的准确率。

在本发明一实施例中，为了使得新增的K个增量决策树不会损坏分类模型的准确性和适用性，设定K的取值范围为0.1T至0.3T。

注意，字母T、K仅用于表征分类模型中的模型决策树和根据增量数据生成的增量决策树的数量不同，并不旨在将T、K限定为某一具体值，例如大于或等于1的整数。

46：获得预测结果，并确定各决策树的当前准确率和建立时间。

在46中，首先将基于45中所执行的标签预测操作获得预测结果，然后将预测结果与真实的结果进行比对，从而得出各决策树的当前准确率，即针对增量数据的预测准确率。相应地，还可以获得每个决策树的建立时间，即每个决策树已经存在的时间。

47：确定各决策树的综合性能。

通过执行46，已经可以确定每个决策树的预测准确率和建立时间。在本实施方式中，将通过该两个参数来确定每个决策树的综合性能。

在一实施方式中，综合性能＝a*建立时间+b*预测准确率，其中，a、b分别为建立时间和预测准确率的权重，a、b的取值可以根据实际情况进行调整。由此可知，决策树的生成时间对综合性能也产生影响，也就是说，最接近当前时间的决策树的权重比离当前时间相隔长的决策树的权重大。换而言之，通过对a、b值的配置，能够使得当两个决策树的预测准确率相同时，具备较短的建立时间的决策树的综合性能优于具备较长的建立时间的决策树的综合性能。

可以理解的，这里所例举出来的综合性能与建立时间、预测准确率之间的表达式仅仅旨在说明综合性能与二者相关，并非用来限定综合性能只能等于建立时间与预测准确率之和。下面结合表1对决策树综合性能的确定进行阐述。

表1 决策树综合性能

决策树ID	预测准确率	建立时间(小时)	综合性能排序
3	90％	5	1
1	85％	5	2
2	83％	8	3
4	80％	8	4
5	80％	9	5

在本实施方式中，引入了建立时间作为影响决策树综合性能的权重。对于两个决策树的预测准确率相同的情形(比如决策树4和决策树5的预测准确率均为80％)，则进一步根据该两个决策树的建立时间来确定的该两个决策树的综合性能，即，由于决策树4的建立时间短，因此得出决策树4的综合性能优于决策树5的综合性能的结论。

48：基于决策树的综合性能，选择预定数量的决策树对分类模型进行更新。

在48中，将基于决策树的综合性能，从中选择预定数量的决策树作为更新后的分类模型的模型决策树，其中，各决策树的综合性能排序根据各决策树对增量数据的标签预测结果得出。具体而言，基于决策树的综合性能来排序，以获得表1中示出的依据综合性能排序的决策树序列，并根据排序结果选择综合性能优秀的决策树。由前述可知，当考虑建立时间的权重时，决策树4的综合性能将优于决策树5的综合性能，因此若需要选择4个决策树丢弃1个决策树，则决策树5将被丢弃，将选择决策树1至4作为分类模型的模型决策树，更新后的分类模型将用于对后续的增量数据进行预测。

由上可知，本发明实施例提供的数据处理方法能够在保证分类模型预测准确率的前提下，实现对分类模型的更新操作。

优选地，增量决策树的数量K基于分类模型中模型决策树的数量T而确定。

在本发明一实施例中，增量决策树的数量K的范围为分类模型中的模型决策树的数量T的10％至30％。进一步地，K的具体值可以根据用户的指令或应用场景随机地在T的10％至30％之间确定，从而使得分类模型中的模型决策树的数量T也可以产生相应的变化。应当理解，本发明实施例对增量决策树的数量所进行的限定，实现了在对分类模型进行更新的情况下，不影响分类模型的稳定性的目的。

在另一种实施方式中，所选取的预定数量的决策树的数量等于分类模型中的原有的模型决策树的数量，即分类模型中的模型决策树的数量始终保持为T个，丢弃的决策树的数量等于增量决策树的数量。

为了更好地表达本发明实施例的构思，下面以T＝200，K＝40为例进行阐述。请再参考图4，在本发明实施例中，通过执行45，将使用T+K(即240)个决策树对增量数据进行标签预测，然后基于预测结果对决策树的综合性能进行排序。根据排序的结果，可以从该240个决策树中选择190、200或210个决策树来作为分类模型的模型决策树，进而完成对分类模型的更新。相应地，在下次利用该分类模型进行更新时，K可以是0.1T至0.3T中的任一数量或用户指定数量。

场景2：不存在分类模型。

继续参考图4，若42中判断为不存在可以利用的分类模型，则执行49，即基于历史数据生成模型决策树，譬如，对历史数据进行抽样，形成T个样本集，然后基于该T个样本集生成T个模型决策树。可以理解的是，历史数据是已分类的数据。

再执行410，基于49所生成的T个模型决策树构成分类模型。通过执行410，可以利用新创建的分类模型对增量数据进行标签预测(即继续执行43等后续操作)。

注意，本发明实施例没有采用基于全量数据重新构建分类模型的传统离线计算方法，而是采用增量数据进行分类模型的更新，使得分类模型能够及时地或者近似实时地根据样本数据的变化做出相应的调整，实现了分类模型与最新样本数据的同步。同时，本发明实施例通过初始的操作设置，实现了在模型的业务周期内不再需要人工干预的目的，大大节约了成本，使本发明实施例提供的数据处理方法具备了智能化、高效性的特点。

图5所示为本发明一实施例提供的数据处理装置的结构示意图。如图5所示，本发明实施例提供的数据处理装置包括：

增量决策树生成模块51，用于根据增量数据生成至少一个增量决策树。

预测模块52，用于基于分类模型中的多个模型决策树和至少一个增量决策树对增量数据进行预测，获得预测结果。

更新模块53，用于根据预测结果对分类模型进行更新。

在本发明一实施例中，预测模块52用于基于分类模型中的多个模型决策树和至少一个增量决策树对增量数据进行标签预测。

在本发明另一实施例中，预测模块52还用于根据标签预测的结果来确定多个模型决策树和至少一个增量决策树对增量数据的预测准确率；将多个模型决策树和至少一个增量决策树的建立时间作为确定综合性能的权重，并对增量数据的预测准确率进行排序，其中建立时间长的决策树的权重小于建立时间短的决策树的权重。

在本发明一实施例中，增量决策树生成模块51中的至少一个增量决策树的数量根据多个模型决策树的数量确定。

在本发明另一实施例中，增量决策树生成模块51中的至少一个增量决策树的数量等于多个模型决策树的数量的10％至30％。

在本发明另一实施例中，增量决策树生成模块51还用于获取预定时间段内的增量数据，并基于是否存在分类模型来确定生成至少一个增量决策树的数量；其中，若存在分类模型，根据增量数据生成至少一个增量决策树。

在本发明另一实施例中，增量决策树生成模块51还用于若不存在分类模型，根据历史数据创建包括多个模型决策树的分类模型，其中，历史数据是已分类的数据。

图6所示为本发明一实施例提供的数据处理装置的增量决策树生成模块的结构示意图。如图6所示，本发明实施例提供的数据处理装置的增量决策树生成模块51包括：

抽样单元61，用于基于增量数据有放回地抽取多个样本集。

生成单元62，用于基于多个样本集生成至少一个增量决策树，其中至少一个增量决策树的数量基于多个模型决策树的数量来确定。

图7所示为本发明一实施例提供的数据处理装置的更新模块的结构示意图。如图7所示，本发明实施例提供的数据处理装置的更新模块53包括：

综合性能判定单元71，用于根据预测结果得出至少一个增量决策树和多个模型决策树的综合性能。

更新单元72，用于基于至少一个增量决策树和多个模型决策树的综合性能，从多个模型决策树和至少一个增量决策树中选取预定数量的决策树来作为更新后分类模型中的模型决策树。

在本发明一实施例中，更新单元72中的预定数量等于多个模型决策树的数量。

在本发明一实施例中，综合性能判定单元71还用于基于至少一个增量决策树和多个模型决策树的建立时间和针对增量数据的预测准确率来确定综合性能。

图8所示为本发明另一实施例提供的数据处理装置的结构示意图。如图8所示，本发明实施例提供的数据处理装置包括：

增量数据输入单元81，被配置为获取预定时间段内的增量数据。

判断单元82，被配置为根据是否存在分类模型来生成表征存在分类模型的第一信号以及表征不存在分类模型的第二信号。

决策树生成单元83，被配置为基于第一信号来根据增量数据生成增量决策树。

标签预测单元84，被配置为根据分类模型中的模型决策树和增量决策树来对增量数据进行标签预测。

决策树选择单元85，被配置为根据分类模型中的模型决策树和增量决策树中的各个决策树的综合性能来选择预定数量的决策树。

模型更新单元86，被配置为将经选择的预定数量的决策树作为更新后的分类模型中的模型决策树。

由此，本发明实施例提供的数据处理装置可以在获取增量数据后，利用分类模型对该增量数据进行预测，并且还能够基于该增量数据对分类模型进行更新。也就是说，本发明实施例提供的数据处理装置实现了分类模型的自适应更新。

在一种实施方式中，决策树选择单元85所选取的预定数量的决策树的数量等于分类模型中原有的模型决策树的数量。

在本发明一实施例中，数据处理装置还包括被配置为获取经分类的历史数据的历史数据输入单元87。具体地，当判断单元82未发现有可使用的分类模型时，决策树生成单元83基于判断单元82所生成的第二信号来根据历史数据生成模型决策树，进而生成可以使用的分类模型。

图9所示为本发明一实施例提供的数据处理装置的决策树选择单元的结构示意图。如图9所示，在本发明实施例提供的数据处理装置中，决策树选择单元85包括准确率确定单元91和决策树综合性能排序单元92，其中，准确率确定单元91被配置为根据标签预测的结果来确定各个决策树针对增量数据的预测准确率，决策树综合性能排序单元92被配置为基于各个决策树的建立时间以及对增量数据的预测准确率进行排序；其中，建立时间长的决策树的权重小于建立时间短的决策树的权重。应当理解，本发明实施例提供的数据处理装置使得分类模型能够根据数据变化的趋势来进行调整，有助于提升或保持模型的预测准确率。

应当理解，图5至图9提供的数据处理装置中的增量决策树生成模块51、预测模块52和更新模块53，以及增量决策树生成模块51中包含的抽样单元61和生成单元62，更新模块53中包含的综合性能判定单元71和更新单元72的操作和功能可以参考上述图1至图4提供的数据处理方法，为了避免重复，在此不再赘述。

图10所示为本发明一实施例提供的电子设备的结构示意图。图10提供的电子设备用于执行图1至图4的实施例中描述的数据处理方法。如图10所示，该电子设备包括处理器101、存储器102和总线103。

处理器101，用于通过总线103调用存储器102中存储的代码，以根据增量数据生成至少一个增量决策树；基于分类模型中的多个模型决策树和至少一个增量决策树对增量数据进行预测并获得预测结果；根据预测结果对分类模型进行更新。

应当理解，该电子设备包括但不限于为手机、平板电脑等电子设备。

在本发明一实施例中，还提供一种计算机存储介质，该计算机可读存储介质上存储有数据处理程序，该数据处理程序被处理器执行时实现上述任一实施例所提及的数据处理方法的操作。

应当理解，该计算机可读介质如CD-ROM、软盘、硬盘、数字通用光盘(DVD)、蓝光光盘或其它形式的存储器。替代的，图1至图4中的示例方法中的一些操作或所有操作可利用专用集成电路(ASIC)、可编程逻辑器件(PLD)、现场可编程逻辑器件(EPLD)、离散逻辑、硬件、固件等的任意组合被实现。另外，虽然图1至图4所示的流程图描述了该数据处理方法，但可对该处理方法中的操作进行修改、删除或合并。

如上所述，可利用编码指令(如计算机可读指令)来实现图1至图4任一的示例过程，该编程指令存储于有形计算机可读介质上，如硬盘、闪存、只读存储器(ROM)、光盘(CD)、数字通用光盘(DVD)、高速缓存器、随机访问存储器(RAM)和/或任何其他存储介质，在该存储介质上信息可以存储任意时间(例如，长时间，永久地，短暂的情况，临时缓冲，和/或信息的缓存)。如在此所用的，该术语有形计算机可读介质被明确定义为包括任意类型的计算机可读存储的信号。附加地或替代地，可利用编码指令(如计算机可读指令)实现图1的示例过程，该编码指令存储于非暂时性计算机可读介质，如硬盘，闪存，只读存储器，光盘，数字通用光盘，高速缓存器，随机访问存储器和/或任何其他存储介质，在该存储介质信息可以存储任意时间(例如，长时间，永久地，短暂的情况，临时缓冲，和/或信息的缓存)。

因此，虽然参照特定的示例来描述了本发明，其中这些特定的示例仅仅旨在是示例性的，而不是对本发明进行限制，但对于本领域普通技术人员来说显而易见的是，在不脱离本发明的精神和保护范围的基础上，可以对所公开的实施例进行改变、增加或者删除。

Claims

一种数据处理方法，其特征在于，包括：

根据增量数据生成至少一个增量决策树；

基于分类模型中的多个模型决策树和所述至少一个增量决策树对所述增量数据进行预测，获得预测结果；

根据所述预测结果对所述分类模型进行更新。
如权利要求1所述的数据处理方法，其特征在于，所述根据增量数据生成至少一个增量决策树，包括：

基于所述增量数据有放回地抽取多个样本集；

基于所述多个样本集生成至少一个增量决策树，其中所述至少一个增量决策树的数量基于所述多个模型决策树的数量来确定。
如权利要求1或2所述的数据处理方法，其特征在于，所述根据所述预测结果对所述分类模型进行更新，包括：

根据所述预测结果得出所述至少一个增量决策树和所述多个模型决策树的综合性能；

基于所述至少一个增量决策树和所述多个模型决策树的综合性能，从所述多个模型决策树和所述至少一个增量决策树中选取预定数量的决策树来作为更新后分类模型中的模型决策树。
如权利要求3所述的数据处理方法，其特征在于，所述预定数量等于所述多个模型决策树的数量。
如权利要求3或4所述的数据处理方法，其特征在于，所述根据所述预测结果得出所述至少一个增量决策树和所述多个模型决策树的综合性能，包括：

基于所述至少一个增量决策树和所述多个模型决策树的建立时间和针对所述增量数据的预测准确率来确定所述综合性能。
如权利要求1至5任一所述的数据处理方法，其特征在于，所述基于分类模型中的多个模型决策树和所述至少一个增量决策树对所述增量数据进行预测，包括：

基于分类模型中的多个模型决策树和所述至少一个增量决策树对所述增量数据进行标签预测。
如权利要求6所述的数据处理方法，其特征在于，还包括：

根据所述标签预测的结果来确定所述多个模型决策树和所述至少一个增量决策树对所述增量数据的预测准确率；

将所述多个模型决策树和所述至少一个增量决策树的建立时间作为确定所述综合性能的权重，并对所述增量数据的预测准确率进行排序，其中建立时间长的决策树的权重小于建立时间短的决策树的权重。
如权利要求1至7任一所述的数据处理方法，其特征在于，所述至少一个增量决策树的数量根据所述多个模型决策树的数量确定。
如权利要求8所述的数据处理方法，其特征在于，所述至少一个增量决策树的数量等于所述多个模型决策树的数量的10％至30％。
如权利要求1至9任一所述的数据处理方法，其特征在于，还包括：

获取预定时间段内的所述增量数据，并基于是否存在所述分类模型来确定生成所述至少一个增量决策树的数量；

其中，若存在所述分类模型，根据所述增量数据生成所述至少一个增量决策树。
如权利要求10所述的数据处理方法，其特征在于，还包括：

若不存在所述分类模型，根据历史数据创建包括所述多个模型决策树的所述分类模型，其中，所述历史数据是已分类的数据。
一种数据处理装置，其特征在于，包括：

增量决策树生成模块，用于根据增量数据生成至少一个增量决策树；

预测模块，用于基于分类模型中的多个模型决策树和所述至少一个增量决策树对所述增量数据进行预测，获得预测结果；

更新模块，用于根据所述预测结果对所述分类模型进行更新。
如权利要求12所述的数据处理装置，其特征在于，所述增量决策树生成模块包括：

抽样单元，用于基于所述增量数据有放回地抽取多个样本集；

生成单元，用于基于所述多个样本集生成至少一个增量决策树，其中所述至少一个增量决策树的数量基于所述多个模型决策树的数量来确定。
如权利要求12或13所述的数据处理装置，其特征在于，所述更新模块包括：

综合性能判定单元，用于根据所述预测结果得出所述至少一个增量决策树和所述多个模型决策树的综合性能；

更新单元，用于基于所述至少一个增量决策树和所述多个模型决策树的综合性能，从所述多个模型决策树和所述至少一个增量决策树中选取预定数量的决策树来作为更新后分类模型中的模型决策树。
如权利要求14所述的数据处理装置，其特征在于，所述更新单元中的预定数量等于所述多个模型决策树的数量。
如权利要求14或15所述的数据处理装置，其特征在于，所述综合性能判定单元用于基于所述至少一个增量决策树和所述多个模型决策树的建立时间和针对所述增量数据的预测准确率来确定所述综合性能。
如权利要求12至16任一所述的数据处理装置，其特征在于，所述预测模块用于基于分类模型中的多个模型决策树和所述至少一个增量决策树对所述增量数据进行标签预测。
如权利要求17所述的数据处理装置，其特征在于，所述预测模块还用于根据所述标签预测的结果来确定所述多个模型决策树和所述至少一个增量决策树对所述增量数据的预测准确率；将所述多个模型决策树和所述至少一个增量决策树的建立时间作为确定所述综合性能的权重，并对所述增量数据的预测准确率进行排序，其中建立时间长的决策树的权重小于建立时间短的决策树的权重。
如权利要求12至18任一所述的数据处理装置，其特征在于，所述增量决策树生成模块中的所述至少一个增量决策树的数量根据所述多个模型决策树的数量确定。
如权利要求19所述的数据处理装置，其特征在于，所述增量决策树生成模块中的至少一个增量决策树的数量等于所述多个模型决策树的数量的10％至30％。
如权利要求12至20任一所述的数据处理装置，其特征在于，所述增量决策树生成模块还用于获取预定时间段内的所述增量数据，并基于是否存在所述分类模型来确定生成所述至少一个增量决策树的数量；其中，若存在所述分类模型，根据所述增量数据生成所述至少一个增量决策树。
如权利要求21所述的数据处理装置，其特征在于，所述增量决策树生成模块还用于若不存在所述分类模型，根据历史数据创建包括所述多个模型决策树的所述分类模型，其中，所述历史数据是已分类的数据。
一种计算机存储介质，其特征在于，所述计算机可读存储介质上存储有数据处理程序，所述数据处理程序被处理器执行时实现如权利要求1至11中任一项所述的数据处理方法的操作。