WO2020253038A1

WO2020253038A1 - 一种模型构建方法及装置

Info

Publication number: WO2020253038A1
Application number: PCT/CN2019/117071
Authority: WO
Inventors: 苏宇; 石英伦; 朱凡; 蒋旭昂
Original assignee: 平安普惠企业管理有限公司
Priority date: 2019-06-18
Filing date: 2019-11-11
Publication date: 2020-12-24
Also published as: CN110335067A

Abstract

一种模型构建方法及装置，该方法适用于机器学习，该方法包括：获取M个商户聚集区域中各个商户聚集区域在P个不同时间段内的P组原始数据，以得到M*P组原始数据（S101），再从各个商户聚集区域对应的各组原始数据中筛选出K种目标参数对应的目标数据，以得到M*P组目标数据（S102），将M*P组目标数据包括的每种目标参数对应的M*P个数据进行离散化处理后得到训练样本集（S103），最后基于训练样本集中的M*P个训练样本以及M*P组原始数据中的M*P个交易成功数量构建交易预测模型（S104）。采用所述方法，可以在特定的场景下构建交易预测模型，从而基于该交易预测模型预测城市中不同区域未来的交易成功数量。

Description

一种模型构建方法及装置

本申请要求于2019年6月18日提交中国专利局、申请号为201910529288.4、申请名称为“一种交易预测模型构建方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机技术领域，尤其涉及一种模型构建方法及装置。

背景技术

目前，现有的预测模型主要有线性回归模型、卡尔曼滤波预测模型、投入产出预测模型、人工神经网络预测模型等。但在交易预测场景下，由于交易所涉及的数据庞大、且各种数据之间的关系未知，故现有的预测模型不能应用在交易预测场景下预测交易数量。

发明内容

本申请实施例提供一种模型构建方法及装置，可以在特定的场景下构建交易预测模型，从而基于该交易预测模型预测城市中不同区域未来的交易成功数量。

第一方面，本申请实施例提供了一种模型构建方法，该方法包括：

获取M个商户聚集区域中各个商户聚集区域在P个不同时间段内的P组原始数据，以得到M*P组原始数据，其中，一个时间段对应一组原始数据，每个商户聚集区域对应P组原始数据，每组原始数据包括至少一种商户参数和至少一种交易参数，该交易参数中至少包括交易成功数量，每组原始数据中包括的商户参数和交易参数的数量之和为N；

从各个商户聚集区域对应的各组原始数据中筛选出K种目标参数对应的目标数据，以得到M*P组目标数据，各组目标数据包括的K种目标参数相同，K小于或等于N-1；

将该M*P组目标数据包括的每种目标参数对应的M*P个数据进行离散化处理后得到训练样本集，该训练样本集中包括M*P个训练样本，每个训练样本包括该K种目标参数对应的数据离散化后的特征，该K种目标参数中包括商户数量、商户比重、交易申请数量、交易取消数量以及交易趋势中的一种或者多种；

基于该训练样本集中的M*P个训练样本以及该M*P组原始数据中的M*P个交易成功数量构建交易预测模型，该交易预测模型用于基于目标商户聚集区域在第一时间段内的一组目标数据预测该目标商户聚集区域在该第一时间段之后的第二时间段内的交易成功数量。

第二方面，本申请实施例提供了一种模型构建装置，该装置包括：

第一获取模块，用于获取M个商户聚集区域中各个商户聚集区域在P个不同时间段内的P组原始数据，以得到M*P组原始数据，其中，一个时间段对应一组原始数据，每个商户聚集区域对应P组原始数据，每组原始数据包括至少一种商户参数和至少一种交易参数，该交易参数中至少包括交易成功数量，每组原始数据中包括的商户参数和交易参数的数量之和为N；

筛选模块，用于从各个商户聚集区域对应的各组原始数据中筛选出K种目标参数对应的目标数据，以得到M*P组目标数据，各组目标数据包括的K种目标参数相同，K小于或等于N-1；

离散处理模块，用于将该M*P组目标数据包括的每种目标参数对应的M*P个数据进行离散化处理后得到训练样本集，该训练样本集中包括M*P个训练样本，每个训练样本包括该K种目标参数对应的数据离散化后的特征，该K种目标参数中包括商户数量、商户比重、交易申请数量、交易取消数量以及交易趋势中的一种或者多种；

构建模块，用于基于该训练样本集中的M*P个训练样本以及该M*P组原始数据中的M*P个交易成功数量构建交易预测模型，该交易预测模型用于基于目标商户聚集区域在第一时间段内的一组目标数据预测该目标商户聚集区域在该第一时间段之后的第二时间段内的交易成功数量。

第三方面，本申请实施例提供了一种终端，包括处理器和存储器，该处理器和存储器相互连接，其中，该存储器用于存储支持终端执行上述方法的计算机程序，该计算机程序包括程序指令，该处理器被配置用于调用该程序指令，执行上述第一方面的模型构建方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，该计算机存储介质存储有计算机程序，该计算机程序包括程序指令，该程序指令当被处理器执行时使该处理器执行上述第一方面的模型构建方法。

本申请实施例基于特定的训练样本集构建交易预测模型，可以在特定的场景下构建交易预测模型，从而基于该交易预测模型预测城市中不同区域未来的交易成功数量。

附图说明

图1是本申请实施例提供的模型构建方法的一示意流程图；

图2是本申请实施例提供的模型构建方法的另一示意流程图；

图3a是本申请实施例提供的训练过程的一示意图；

图3b是本申请实施例提供的训练过程的另一示意图；

图4是本申请实施例提供的模型构建装置的一示意性框图；

图5是本申请实施例提供的终端的一示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

下面将结合图1至图5，对本申请实施例提供的模型构建方法及装置进行说明。

参见图1，是本申请实施例提供的模型构建方法的一示意流程图。如图1所示，该模型构建方法可包括步骤：

S101，获取M个商户聚集区域中各个商户聚集区域在P个不同时间段内的P组原始数据，以得到M*P组原始数据。

在一些可行的实施方式中，终端可以从区域数据库中获取目标城市内的M个商户聚集区域。区域数据库可以用于存储各个城市划分好的商户聚集区域，每个商户聚集区域中包括一个或多个商户。目标城市可以为地级市城市或直辖市城市，如珠海市、深圳市、上海市等。终端可以获取该M个商户聚集区域中各个商户聚集区域在P个不同时间段内的P组原始数据，以得到M*P组原始数据。其中，P可以为24，一个时间段可以为一个月，P个不同的时间段可以为历史连续的24个月，比如2016年11月到2018年11月。一个月可以对应一组原始数据，一组原始数据可以表示一个商户聚集区域在一个时间段内真实存在的数据。每个商户聚集区域在连续的24个月内有24组原始数据，那么M个商户聚集区域在历史连续的24个月内总共有M*24组原始数据。每组原始数据可以包括至少一种商户参数和至少一种交易参数，该至少一种交易参数可以包括交易申请数量、交易成功数量、交易失败数量、交易取消数量、交易成功率或交易趋势等；该至少一种商户参数可以包括商户数量(包括不同类型商户的商户数量，如电子类商户的商户数量、服装类商户的商户数量、美妆类商户的商户数量等等)、商户比重(包括不同类型商户的商户比重)或商户密度等。每组原始数据包括的商户参数与交易参数的数量之和为N，且各组原始数据包括的参数种类可以相同，即各组原始数据包括的N种参数相同。M可以为大于或等于1的整数，N可以为大于或等于2的整数。本申请实施例中涉及的交易可以为贷款。

S102，从各个商户聚集区域对应的各组原始数据中筛选出K种目标参数对应的目标数据，以得到M*P组目标数据。

在一些可行的实施方式中，由于上述各组原始数据中包括N种参数，终端可以获取各个商户聚集区域对应的各组原始数据，并可以将该各组原始数据的N种参数以及该N种参数的各种参数携带的标签输入决策树中进行参数筛选。终端可以获取该决策树基于该各组原始数据的N种参数输出的N-1种参数对交易成功数量的贡献度(比如该决策树中用信息增益来表示贡献度，那么各种参数的信息增益值即为各种参数对交易成功数量这个参数的贡献度)。终端可以获取贡献度阈值。终端可以从该决策树输出的N-1种参数中筛选出对交易成功数量这个参数的贡献度大于或等于该贡献度阈值的K种目标参数，并可以从该各个商户聚集区域对应的各组原始数据中提取出该K种目标参数对应的目标数据，得到M*P组目标数据。其中，各组目标数据包括的K种目标参数可以相同，K可以小于或等于N-1。贡献度阈值可以为预设的值，比如贡献度阈值为0.2。

在一些可行的实施方式中，上述贡献度阈值的获取方式具体为：终端可以将该决策树输出的N-1种参数中各种参数对交易成功数量这个参数的贡献度按照从大到小的顺序进行排列，得到贡献度序列。终端可以获取预设的筛选百分比，并可以计算该N-1与该筛选百分比的乘积取整后的目标值，再可以将该贡献度序列中第目标值个贡献度确定为贡献度阈值。例如，假设N＝100，筛选百分比为70％。终端将N-1种参数中各种参数对交易成功数量这个参数的贡献度按照从大到小的顺序进行排列，得到贡献度序列。终端计算N-1＝99与筛选百分比70％之间的乘积69.3取整后的目标值69。终端将贡献度序列中第69个贡献度(假设为0.35)作为贡献度阈值。

S103，将M*P组目标数据包括的每种目标参数对应的M*P个数据进行离散化处理后得到训练样本集。

在一些可行的实施方式中，针对上述K种目标参数中的每种目标参数均进行以下操作：终端可以提取上述M*P组目标数据中目标参数m对应的M*P个数据，并可以基于聚类算法如基于密度的聚类算法(Density-Based Spatial Clustering of Applications with Noise，DBSCAN)对该目标参数m对应的M*P个数据进行离散化处理，得到M*P个特征，该M*P个特征分别属于M个商户聚集区域。终端可以获取该K种目标参数对应的M*P*K个特征，一种目标参数对应M*P个特征，并可以根据该M*P*K个特征以及每个特征所属的商户聚集区域和时间段，确定出包括M*P个训练样本的训练样本集。其中，每个训练样本可以包括一个商户聚集区域在一个时间段内的一组目标数据中K种目标参数对应的数据经过离散化后的特征。K种目标参数中可以包括商户数量、商户比重、交易申请数量、交易取消数量以及交易趋势中的一种或者多种参数。

例如，M＝100，P＝24，K＝50。以K种目标参数中的商户数量这个目标参数为例。终端获取100*24组目标数据中每组目标数据的商户数量这个目标参数对应的数据，由于一组目标数据包括商户数量这个目标参数对应的一个数据，所以100*24组目标数据得到100*24个数据。由于这100*24个数据都属于商户数量这一类参数，故终端基于DBSCAN对这100*24个数据进行离散化处理，以得到100*24个特征。这100*24个特征中每个特征表示一个商户聚集区域在一个时间段内的商户数量离散化抽象出的值。假设商户数量这个目标参数对应的数据包括500家、600家、70家、100家、82家、550家、120家、150家、65家、167家这10个数据，终端基于DBSCAN对这10个数据进行离散化处理，得到商户数量<100家作为I类，100家≤商户数量≤200家作为II类，商户数量≥500家作为III类。假设I类用二进制00表示，II类用二进制01表示，III类用二进制10表示。那么这10个数据离散化后的特征依次为二进制10、10、00、01、00、10、01、01、00、01。

S104，基于训练样本集中的M*P个训练样本以及M*P组原始数据中的M*P个交易成功数量构建交易预测模型。

在一些可行的实施方式中，终端可以获取上述M*P组原始数据中的M*P个交易成功数量。终端可以获取预先设定的基础模型，该基础模型可以包括多种树形模型构成的回归模型。终端可以将上述训练样本集中的M*P个训练样本以及该M*P个交易成功数量输入该基础模型中进行训练，以使该基础模型学习训练样本的各种目标参数与交易成功数量这个参数之间的关系。当该基础模型达到收敛时，即该基础模型基于M*P个训练样本输出的交易成功数量(这里指基础模型输出的预测值)与真实发生的交易成功数量(即上述原始数据中的交易成功数量)之间的差值均在固定范围内波动时，终端可以将此时的基础模型确定为交易预测模型。其中，该交易预测模型可以用于基于一个商户聚集区域在历史的一段时间内的一组目标数据预测这个商户聚集区域在历史的这个时间段的下一时间段内的交易成功数量。比如，将商户聚集区域area_1在2018年12月的一组目标数据(这组目标数据包括上述K种目标参数)输入该交易预测模型中进行预测处理，得到该交易预测模型输出的area_1在2019年1月的交易成功数量。本申请实施例通过将商户聚集区域在不同时间段内的原始数据(包括商户数量、商户比重、交易申请数量、交易成功数量、交易取消数量以及交易趋势等)处理成训练样本，再基于这些训练样本构建交易预测模型，可以针对交易这一特定的场景下构建交易预测模型，从而基于该交易预测模型预测出城市中不同区域未来的交易成功数量。

在本申请实施例中，终端通过获取M个商户聚集区域中各个商户聚集区域在P个不同时间段内的P组原始数据，以得到M*P组原始数据，再从各个商户聚集区域对应的各组原始数据中筛选出K种目标参数对应的目标数据，以得到M*P组目标数据，将M*P组目标数据包括的每种目标参数对应的M*P个数据进行离散化处理后得到训练样本集，最后基于训练样本集中的M*P个训练样本以及M*P组原始数据中的M*P个交易成功数量构建交易预测模型。可以在特定的场景下构建交易预测模型，从而基于该交易预测模型预测出城市中不同区域未来的交易成功数量。

参见图2，是本申请实施例提供的模型构建方法的另一示意流程图。如图2所示，该模型构建方法可包括步骤：

S201，获取M个商户聚集区域中各个商户聚集区域在P个不同时间段内的P组原始数据，以得到M*P组原始数据。

S202，从各个商户聚集区域对应的各组原始数据中筛选出K种目标参数对应的目标数据，以得到M*P组目标数据。

S203，将M*P组目标数据包括的每种目标参数对应的M*P个数据进行离散化处理后得到训练样本集。

在一些可行的实施方式中，本申请实施例中的步骤S201-步骤S203可参考图1所示实施例的步骤S101-步骤S103的实现方式，在此不再赘述。

S204，基于训练样本集中的M*P个训练样本以及M个商户聚集区域在P个不同时间段内的M*P个交易成功数量构建第一回归模型。

在一些可行的实施方式中，上述训练样本集中可以包括M*P个训练样本。每个训练样本可以包括一个商户聚集区域在一个时间段内的一组目标数据中K种目标参数对应的数据经过离散化后的特征。K种目标参数中可以包括商户数量、商户比重、交易申请数量、交易取消数量以及交易趋势中的一种或者多种参数。终端可以获取上述M个商户聚集区域在上述P个不同时间段内的M*P个交易成功数量。终端可以获取预先设定的第一基础模型，该第一基础模型可以包括多种树形模型，该多种树形模型可以串联形成一个回归模型。终端可以将上述训练样本集中的M*P个训练样本以及该M*P个交易成功数量输入该第一基础模型中进行训练，以使该第一基础模型学习训练样本中的各种目标参数与交易成功数量这个参数之间的关系，即确定该第一基础模型中各种树形模型的权重。当该第一基础模型达到收敛时，即各种目标参数与交易成功数量这个参数之间的关系趋于稳定或该第一基础模型中各种树形模型的权重变化范围小时，则终端可以将此时的第一基础模型确定为第一回归模型。其中，该第一回归模型可以主要用于预测商户聚集区域在未来一段时间内的交易成功数量。

例如，如图3a所示，是本申请实施例提供的训练过程的一示意图。其中，第一基础模型包括A1、A2、A3、A4、…、An这n个树形模型。每个树形模型选择(人工设定或模型自己选择)一个训练样本中不同的部分特征进行训练，即每个树形模型学习K种目标参数中不同目标参数与交易成功数量这个参数之间的关系。假设树形模型A1选择任一商户聚集区域在2018年1月这个训练样本中的a1、a2、a3这3种目标参数离散化后的特征进行训练，树形模型A2选择任一商户聚集区域在2018年1月这个训练样本中的b5、b7这2种目标参数离散化后的特征进行训练；那么任一商户聚集区域在2018年2月这个训练样本中树形模型A1仍然选择a1、a2、a3这3种目标参数离散化后的特征进行训练，任一商户聚集区域在2018年2月这个训练样本中树形模型A2仍然选择b5、b7这2种目标参数离散化后的特征进行训练，以此类推，以便于训练出各种目标参数与验证集中真实的交易成功数量之间的关系(即模型的权重)。如图3a所示，以第一基础模型的一次训练过程为例。终端将上述M个商户聚集区域在上述P个不同时间段内的M*P个交易成功数量作为验证集。终端从训练样本集中取出某个商户聚集区域，假设area_1在2018年1月的训练样本，并从验证集中取出相应的交易成功数量(即相同商户聚集区域即area_1在2018年1月的交易成功数量)，将取出的训练样本以及交易成功数量输入第一基础模型中进行训练，以得到第一基础模型中各个树形模型的权重，如图3a中的权重W1、W2、W3、W4、…、Wn。在下一次训练时，则更新第一基础模型中各个树形模型的权重，直到各个树形模型的权重不再发生变化或变化范围在固定范围内时，则停止训练，将停止训练后的第一基础模型作为第一回归模型。

S205，基于训练样本集中的M*P个训练样本、M个商户聚集区域在P个不同时间段内的M*P个交易成功数量以及第一回归模型，构建第二回归模型。

S206，将第一回归模型以及第二回归模型合成为交易预测模型。

在一些可行的实施方式中，在构建出上述第一回归模型之后，终端可以获取上述M个商户聚集区域在上述P个不同时间段内的M*P个交易成功数量，并将该M*P个交易成功数量作为验证集。终端对上述M*P个训练样本中的每个训练样本均进行以下操作：终端可以将任一商户聚集区域i在上述P个不同时间段的任一时间段f内的训练样本h输入上述第一回归模型中进行预测处理，并可以获取该第一回归模型基于该训练样本h输出的该商户聚集区域i在该时间段f的下一时间段的预测值(即第一交易成功数量)。终端可以计算该第一交易成功数量与该验证集中该商户聚集区域i在时间段f的下一时间段内的交易成功数量之间的差值。由此可知，一个训练样本经过第一回归模型处理后可以得到一个预测值(第一交易成功数量)，每个预测值(第一交易成功数量)与验证集中对应的真实值(交易成功数量)之间存在一个差值，那么M*P个训练样本就对应M*P个差值。故终端可以获取M*P个训练样本对应的M*P个第一交易成功数量，再可以获取各个第一交易成功数量与该验证集中对应的交易成功数量之间的差值，得到M*P个差值。终端可以获取预先设定的第二基础模型，该第二基础模型可以为回归模型。终端可以将该M*P个差值以及该训练样本中的M*P个训练样本输入该第二基础模型中进行训练，以使该第二基础模型学习差值与训练样本中各种目标参数之间的关系。当该第二基础模型达到收敛时，即该第二基础模型输出的预测值(第二交易成功数量)与该验证集中对应的真实值(交易成功数量)之间的差值在固定范围内波动，则将此时的第二基础模型确定为第二回归模型。终端可以将上述第一回归模型的输出通过减法器与该第二回归模型的输入连接起来，合成为交易预测模型。其中，该第二回归模型可以主要用于根据各种目标参数对该第一回归模型输出的预测值(第一交易成功数量)进行调整，以使经过该第二回归模型调整后的预测值(第二交易成功数量)更接近验证集中对应的真实值(交易成功数量)。

例如，如图3b所示，是本申请实施例提供的训练过程的另一示意图。其中，以第二基础模型的一次训练过程为例。终端将任一商户聚集区域area_1在2018年1月的训练样本依次输入第一回归模型中进行预测处理，得到第一回归模型输出的商户聚集区域area_1在2018年2月的预测值(第一交易成功数量)。终端计算商户聚集区域area_1在2018年2月的第一交易成功数量与验证集中对应的真实值(即area_1在2018年2月的交易成功数量)之间的差值。终端获取预先设定的第二基础模型，并将商户聚集区域area_1在2018年2月的预测值与真实值之间的差值以及area_1在2018年2月的训练样本一起输入第二基础模型中进行训练，以使第二基础模型学习预测值与真实值的差值与各种目标参数之间的关系。在下一次训练时，则对第二基础模型的模型参数进行调整，直到第二基础模型达到收敛时，停止训练，将停止训练后的第二基础模型作为第二回归模型。终端将第一回归模型与第二回归模型合成为交易预测模型。

在一些可行的实施方式中，由于第一回归模型中各个树形模型学习的是不同的目标参数与交易成功数量这个参数之间的关系的。故终端在构建出上述第一回归模型之后，可以获取该第一回归模型中各种树形模型的权重，并可以根据该各种树形模型的权重对M*P个训练样本进行更新。比如，终端将第一回归模型中树形模型的权重大于权重阈值的树形模型所对应的目标参数提取出来。每个训练样本中只保留提取出来的目标参数所对应的特征，其他特征就从每个训练样本中剔除，得到新的训练样本。M*P个训练样本经过更新后就得到M*P个新的训练样本。终端可以基于该M*P个新的训练样本、上述M个商户聚集区域在上述P个不同时间段内的M*P个交易成功数量以及上述第一回归模型构建第二回归模型。

S207，获取目标商户聚集区域在第一时间段内包括K种目标参数的目标数据。

S208，将目标商户聚集区域在第一时间段内的目标数据输入交易预测模型中进行处理，并获取交易预测模型基于第一时间段内的目标数据输出的目标商户聚集区域在第一时间段之后的第二时间段内的交易成功数量。

在一些可行的实施方式中，终端在构建出交易预测模型之后，可以从上述M个商户聚集区域中任选一个商户聚集区域作为目标商户聚集区域，并可以获取该目标商户聚集区域在第一时间段内包括上述K种目标参数(指构建交易预测模型所需的K种目标参数)的目标数据。终端可以将该目标商户聚集区域在该第一时间段内的目标数据输入上述交易预测模型中进行处理，并可以获取该交易预测模型基于该第一时间段内的目标数据输出的该目标商户聚集区域在该第一时间段之后的第二时间段内的交易成功数量。其中，目标数据可以包括商户数量、商户比重、交易申请数量、交易取消数量以及交易趋势中的一种或者多种参数。第一时间段可以不属于上述P个不同时间段，假设P个不同时间段为2016年11月到2018年11月之间的24个月，那么第一时间段可以为这P个不同时间段之后的时间段，如2018年12月。第一时间段与第二时间段的时间长度相同，比如，第一时间段为2018年12月，那么第二时间段为2019年1月，第一时间段与第二时间段的时间长度均为一个月。本申请实施例通过将商户聚集区域在不同时间段内的原始数据(包括商户数量、商户比重、交易申请数量、交易成功数量、交易取消数量以及交易趋势等)处理成训练样本，再基于这些训练样本构建交易预测模型，在交易预测模型构建好之后，基于该交易预测模型预测城市中不同区域未来的交易成功数量，从而指导业务员更有针对性的开展业务。

在本申请实施例中，终端通过获取M个商户聚集区域中各个商户聚集区域在P个不同时间段内的P组原始数据，以得到M*P组原始数据，再从各个商户聚集区域对应的各组原始数据中筛选出K种目标参数对应的目标数据，以得到M*P组目标数据，将M*P组目标数据包括的每种目标参数对应的M*P个数据进行离散化处理后得到训练样本集。然后基于训练样本集中的M*P个训练样本以及M个商户聚集区域在P个不同时间段内的M*P个交易成功数量构建第一回归模型，基于训练样本集中的M*P个训练样本、M个商户聚集区域在P个不同时间段内的M*P个交易成功数量以及第一回归模型，构建第二回归模型，将第一回归模型以及第二回归模型合成为交易预测模型。最后基于交易预测模型预测目标商户聚集区域在未来一段时间内的交易成功数量。从而指导业务员更有针对性的开展业务。

参见图4，是本申请实施例提供的模型构建装置的一示意性框图。如图4所示，本申请实施例的装置包括：

第一获取模块10，用于获取M个商户聚集区域中各个商户聚集区域在P个不同时间段内的P组原始数据，以得到M*P组原始数据，其中，一个时间段对应一组原始数据，每个商户聚集区域对应P组原始数据，每组原始数据包括至少一种商户参数和至少一种交易参数，该交易参数中至少包括交易成功数量，每组原始数据中包括的商户参数和交易参数的数量之和为N；

筛选模块20，用于从各个商户聚集区域对应的各组原始数据中筛选出K种目标参数对应的目标数据，以得到M*P组目标数据，各组目标数据包括的K种目标参数相同，K小于或等于N-1；

离散处理模块30，用于将该M*P组目标数据包括的每种目标参数对应的M*P个数据进行离散化处理后得到训练样本集，该训练样本集中包括M*P个训练样本，每个训练样本包括该K种目标参数对应的数据离散化后的特征，该K种目标参数中包括商户数量、商户比重、交易申请数量、交易取消数量以及交易趋势中的一种或者多种；

构建模块40，用于基于该训练样本集中的M*P个训练样本以及该M*P组原始数据中的M*P个交易成功数量构建交易预测模型，该交易预测模型用于基于目标商户聚集区域在第一时间段内的一组目标数据预测该目标商户聚集区域在该第一时间段之后的第二时间段内的交易成功数量。

在一些可行的实施方式中，上述筛选模块20还用于：

将该各个商户聚集区域对应的各组原始数据的N种参数以及各种参数所携带的标签输入决策树中进行筛选；获取该决策树基于该各个商户聚集区域对应的各组原始数据的N种参数输出的N-1种参数对交易成功数量的贡献度；从输出的N-1种参数中筛选出对交易成功数量的贡献度大于或等于贡献度阈值的K种目标参数，从该各个商户聚集区域对应的各组原始数据中提取出该K种目标参数对应的目标数据，得到M*P组目标数据。

在一些可行的实施方式中，该装置还包括第二获取模块50、输入模块60以及第三获取模块70。该第二获取模块50，用于获取目标商户聚集区域在第一时间段内包括该K种目标参数的目标数据；该输入模块60，用于将该目标商户聚集区域在第一时间段内的目标数据输入该交易预测模型中进行处理；该第三获取模块70，用于获取该交易预测模型基于该第一时间段内的目标数据输出的该目标商户聚集区域在该第一时间段之后的第二时间段内的交易成功数量，该第一时间段与该第二时间段的时间长度一致。

在一些可行的实施方式中，上述构建模块40包括第一构建单元401、第二构建单元402以及合成单元403。该第一构建单元401，用于基于该M*P个训练样本以及该M个商户聚集区域在该P个不同时间段内的M*P个交易成功数量构建第一回归模型；该第二构建单元402，用于基于该M*P个训练样本、该M个商户聚集区域在该P个不同时间段内的M*P个交易成功数量以及该第一回归模型，构建第二回归模型；该合成单元403，用于将该第一回归模型以及该第二回归模型合成为交易预测模型。

在一些可行的实施方式中，上述第二构建单元402具体用于：对该M*P个训练样本中的每个训练样本均进行以下操作：将任一商户聚集区域i在该P个不同时间段的任一时间段f内的训练样本h输入该第一回归模型中进行处理，获取该第一回归模型基于该训练样本h输出的该商户聚集区域i在该时间段f的下一时间段的第一交易成功数量；获取该第一交易成功数量与该商户聚集区域i在该时间段f的下一时间段内的交易成功数量之间的差值。

获取M*P个训练样本对应的M*P个第一交易成功数量，并获取各个第一交易成功数量与对应的交易成功数量之间的差值，得到M*P个差值，其中一个训练样本对应一个第一交易成功数量；基于该M*P个差值和该M*P个训练样本构建第二回归模型，以使该第二回归模型学习该差值与该K种目标参数的各种目标参数之间的关系。

具体实现中，上述模型构建装置可通过上述各个模块执行上述图1或图2所提供的实现方式中各个步骤所提供的实现方式，实现上述各实施例中所实现的功能，具体可参见上述图1或图2所示的方法实施例中各个步骤提供的相应描述，在此不再赘述。

在本申请实施例中，模型构建装置通过获取M个商户聚集区域中各个商户聚集区域在P个不同时间段内的P组原始数据，以得到M*P组原始数据，再从各个商户聚集区域对应的各组原始数据中筛选出K种目标参数对应的目标数据，以得到M*P组目标数据，将M*P组目标数据包括的每种目标参数对应的M*P个数据进行离散化处理后得到训练样本集，最后基于训练样本集中的M*P个训练样本以及M*P组原始数据中的M*P个交易成功数量构建交易预测模型。可以在特定的场景下构建交易预测模型，从而基于该交易预测模型预测出城市中不同区域未来的交易成功数量。

参见图5，是本申请实施例提供的终端的一示意性框图。如图5所示，本申请实施例中的终端可以包括：一个或多个处理器501和存储器502。上述处理器501和存储器502通过总线503连接。存储器502用于存储计算机程序，所述计算机程序包括程序指令，处理器501用于执行存储器502存储的程序指令。其中，处理器501被配置用于调用所述程序指令执行：

获取M个商户聚集区域中各个商户聚集区域在P个不同时间段内的P组原始数据，以得到M*P组原始数据，其中，一个时间段对应一组原始数据，每个商户聚集区域对应P组原始数据，每组原始数据包括至少一种商户参数和至少一种交易参数，该交易参数中至少包括交易成功数量，每组原始数据中包括的商户参数和交易参数的数量之和为N；从各个商户聚集区域对应的各组原始数据中筛选出K种目标参数对应的目标数据，以得到M*P 组目标数据，各组目标数据包括的K种目标参数相同，K小于或等于N-1；将该M*P组目标数据包括的每种目标参数对应的M*P个数据进行离散化处理后得到训练样本集，该训练样本集中包括M*P个训练样本，每个训练样本包括该K种目标参数对应的数据离散化后的特征，该K种目标参数中包括商户数量、商户比重、交易申请数量、交易取消数量以及交易趋势中的一种或者多种；基于该训练样本集中的M*P个训练样本以及该M*P组原始数据中的M*P个交易成功数量构建交易预测模型，该交易预测模型用于基于目标商户聚集区域在第一时间段内的一组目标数据预测该目标商户聚集区域在该第一时间段之后的第二时间段内的交易成功数量。

应当理解，在本申请实施例中，所称处理器501可以是中央处理单元(Central Processing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

该存储器502可以包括只读存储器和随机存取存储器，并向处理器501提供指令和数据。存储器502的一部分还可以包括非易失性随机存取存储器。例如，存储器502还可以存储设备类型的信息。

具体实现中，本申请实施例中所描述的处理器501可执行本申请实施例提供的模型构建方法中所描述的实现方式，也可执行本申请实施例所描述的模型构建装置的实现方式，在此不再赘述。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序包括程序指令，该程序指令被处理器执行时实现图1或图2所示的模型构建方法，具体细节请参照图1或图2所示实施例的描述，在此不再赘述。

上述计算机可读存储介质可以是前述任一实施例所述的模型构建装置或电子设备的内部存储单元，例如电子设备的硬盘或内存。该计算机可读存储介质也可以是该电子设备的外部存储设备，例如该电子设备上配备的插接式硬盘，智能存储卡(smart media card,SMC)，安全数字(secure digital,SD)卡，闪存卡(flash card)等。进一步地，该计算机可读存储介质还可以既包括该电子设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该电子设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

一种模型构建方法，其特征在于，包括：

获取M个商户聚集区域中各个商户聚集区域在P个不同时间段内的P组原始数据，以得到M*P组原始数据，其中，一个时间段对应一组原始数据，每个商户聚集区域对应P组原始数据，每组原始数据包括至少一种商户参数和至少一种交易参数，所述交易参数中至少包括交易成功数量，每组原始数据中包括的商户参数和交易参数的数量之和为N；

从各个商户聚集区域对应的各组原始数据中筛选出K种目标参数对应的目标数据，以得到M*P组目标数据，各组目标数据包括的K种目标参数相同，K小于或等于N-1；

将所述M*P组目标数据包括的每种目标参数对应的M*P个数据进行离散化处理后得到训练样本集，所述训练样本集中包括M*P个训练样本，每个训练样本包括所述K种目标参数对应的数据离散化后的特征，所述K种目标参数中包括商户数量、商户比重、交易申请数量、交易取消数量以及交易趋势中的一种或者多种；

基于所述训练样本集中的M*P个训练样本以及所述M*P组原始数据中的M*P个交易成功数量构建交易预测模型，所述交易预测模型用于基于目标商户聚集区域在第一时间段内的一组目标数据预测所述目标商户聚集区域在所述第一时间段之后的第二时间段内的交易成功数量。
根据权利要求1所述的方法，其特征在于，所述从所述各个商户聚集区域对应的各组原始数据中筛选出K种目标参数对应的目标数据，以得到M*P组目标数据之前，所述方法还包括：

将所述各个商户聚集区域对应的各组原始数据的N种参数以及各种参数所携带的标签输入决策树中进行筛选；

获取所述决策树基于所述各个商户聚集区域对应的各组原始数据的N种参数输出的N-1种参数对交易成功数量的贡献度；

从输出的N-1种参数中筛选出对交易成功数量的贡献度大于或等于贡献度阈值的K种目标参数。
根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取目标商户聚集区域在第一时间段内包括所述K种目标参数的目标数据；

将所述目标商户聚集区域在第一时间段内的目标数据输入所述交易预测模型中进行处理，并获取所述交易预测模型基于所述第一时间段内的目标数据输出的所述目标商户聚集区域在所述第一时间段之后的第二时间段内的交易成功数量，所述第一时间段与所述第二时间段的时间长度一致。
根据权利要求1-3任一项所述的方法，其特征在于，所述基于所述训练样本集中的M*P个训练样本以及所述M*P组原始数据中的M*P个交易成功数量构建交易预测模型，包括：

基于所述M*P个训练样本以及所述M个商户聚集区域在所述P个不同时间段内的M*P个交易成功数量构建第一回归模型；

基于所述M*P个训练样本、所述M个商户聚集区域在所述P个不同时间段内的M*P 个交易成功数量以及所述第一回归模型，构建第二回归模型；

将所述第一回归模型以及所述第二回归模型合成为交易预测模型。
根据权利要求4所述的方法，其特征在于，所述基于所述M*P个训练样本、所述M个商户聚集区域在所述P个不同时间段内的M*P个交易成功数量以及所述第一回归模型，构建第二回归模型，包括：

对所述M*P个训练样本中的每个训练样本均进行以下操作：

将任一商户聚集区域i在所述P个不同时间段的任一时间段f内的训练样本h输入所述第一回归模型中进行处理，获取所述第一回归模型基于所述训练样本h输出的所述商户聚集区域i在所述时间段f的下一时间段的第一交易成功数量；

获取所述第一交易成功数量与所述商户聚集区域i在所述时间段f的下一时间段内的交易成功数量之间的差值；

获取M*P个训练样本对应的M*P个第一交易成功数量，并获取各个第一交易成功数量与对应的交易成功数量之间的差值，得到M*P个差值，其中一个训练样本对应一个第一交易成功数量；

基于所述M*P个差值和所述M*P个训练样本构建第二回归模型，以使所述第二回归模型学习所述差值与所述K种目标参数的各种目标参数之间的关系。
根据权利要求2所述的方法，其特征在于，所述获取所述决策树基于所述各个商户聚集区域对应的各组原始数据的N种参数输出的N-1种参数对交易成功数量的贡献度之后，所述方法还包括：

将所述决策树输出的N-1种参数中各种参数对交易成功数量的贡献度按照从大到小的顺序进行排列，得到贡献度序列；

获取预设的筛选百分比，并计算N-1与所述筛选百分比的乘积取整后的目标值；

将所述贡献度序列中第目标值个贡献度确定为贡献度阈值。
根据权利要求4所述的方法，其特征在于，所述基于所述M*P个训练样本以及所述M个商户聚集区域在所述P个不同时间段内的M*P个交易成功数量构建第一回归模型，包括：

获取预先设定的第一基础模型，所述第一基础模型包括多种树形模型，所述多种树形模型串联为回归模型；

将所述M*P个训练样本以及所述M*P个交易成功数量输入所述第一基础模型中进行训练；

将收敛的所述第一基础模型确定为第一回归模型。
一种模型构建装置，其特征在于，包括：

第一获取模块，用于获取M个商户聚集区域中各个商户聚集区域在P个不同时间段内的P组原始数据，以得到M*P组原始数据，其中，一个时间段对应一组原始数据，每个商户聚集区域对应P组原始数据，每组原始数据包括至少一种商户参数和至少一种交易参数，所述交易参数中至少包括交易成功数量，每组原始数据中包括的商户参数和交易参数的数量之和为N；

筛选模块，用于从各个商户聚集区域对应的各组原始数据中筛选出K种目标参数对应的目标数据，以得到M*P组目标数据，各组目标数据包括的K种目标参数相同，K小于或等于N-1；

离散处理模块，用于将所述M*P组目标数据包括的每种目标参数对应的M*P个数据进行离散化处理后得到训练样本集，所述训练样本集中包括M*P个训练样本，每个训练样本包括所述K种目标参数对应的数据离散化后的特征，所述K种目标参数中包括商户数量、商户比重、交易申请数量、交易取消数量以及交易趋势中的一种或者多种；

构建模块，用于基于所述训练样本集中的M*P个训练样本以及所述M*P组原始数据中的M*P个交易成功数量构建交易预测模型，所述交易预测模型用于基于目标商户聚集区域在第一时间段内的一组目标数据预测所述目标商户聚集区域在所述第一时间段之后的第二时间段内的交易成功数量。
根据权利要求8所述的装置，其特征在于，所述筛选模块还用于：

将所述各个商户聚集区域对应的各组原始数据的N种参数以及各种参数所携带的标签输入决策树中进行筛选；

获取所述决策树基于所述各个商户聚集区域对应的各组原始数据的N种参数输出的N-1种参数对交易成功数量的贡献度；

从输出的N-1种参数中筛选出对交易成功数量的贡献度大于或等于贡献度阈值的K种目标参数。
根据权利要求8所述的装置，其特征在于，所述装置还包括：

第二获取模块，用于获取目标商户聚集区域在第一时间段内包括所述K种目标参数的目标数据；

输入模块，用于将所述目标商户聚集区域在第一时间段内的目标数据输入所述交易预测模型中进行处理；

第三获取模块，用于获取所述交易预测模型基于所述第一时间段内的目标数据输出的所述目标商户聚集区域在所述第一时间段之后的第二时间段内的交易成功数量，所述第一时间段与所述第二时间段的时间长度一致。
根据权利要求8-10任一项所述的装置，其特征在于，所述构建模块包括：

第一构建单元，用于基于所述M*P个训练样本以及所述M个商户聚集区域在所述P个不同时间段内的M*P个交易成功数量构建第一回归模型；

第二构建单元，用于基于所述M*P个训练样本、所述M个商户聚集区域在所述P个不同时间段内的M*P个交易成功数量以及所述第一回归模型，构建第二回归模型；

合成单元，用于将所述第一回归模型以及所述第二回归模型合成为交易预测模型。
根据权利要求11所述的装置，其特征在于，所述第二构建单元具体用于：

对所述M*P个训练样本中的每个训练样本均进行以下操作：

将任一商户聚集区域i在所述P个不同时间段的任一时间段f内的训练样本h输入所述第一回归模型中进行处理，获取所述第一回归模型基于所述训练样本h输出的所述商户聚集区域i在所述时间段f的下一时间段的第一交易成功数量；

获取所述第一交易成功数量与所述商户聚集区域i在所述时间段f的下一时间段内的交易成功数量之间的差值；

获取M*P个训练样本对应的M*P个第一交易成功数量，并获取各个第一交易成功数量与对应的交易成功数量之间的差值，得到M*P个差值，其中一个训练样本对应一个第一交易成功数量；

基于所述M*P个差值和所述M*P个训练样本构建第二回归模型，以使所述第二回归模型学习所述差值与所述K种目标参数的各种目标参数之间的关系。
根据权利要求9所述的装置，其特征在于，所述筛选模块还用于：

将所述决策树输出的N-1种参数中各种参数对交易成功数量的贡献度按照从大到小的顺序进行排列，得到贡献度序列；

获取预设的筛选百分比，并计算N-1与所述筛选百分比的乘积取整后的目标值；

将所述贡献度序列中第目标值个贡献度确定为贡献度阈值。
根据权利要求11所述的装置，其特征在于，所述第一构建单元具体用于：

获取预先设定的第一基础模型，所述第一基础模型包括多种树形模型，所述多种树形模型串联为回归模型；

将所述M*P个训练样本以及所述M*P个交易成功数量输入所述第一基础模型中进行训练；

将收敛的所述第一基础模型确定为第一回归模型。
一种终端，其特征在于，包括处理器和存储器，所述处理器和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行：

获取M个商户聚集区域中各个商户聚集区域在P个不同时间段内的P组原始数据，以得到M*P组原始数据，其中，一个时间段对应一组原始数据，每个商户聚集区域对应P组原始数据，每组原始数据包括至少一种商户参数和至少一种交易参数，所述交易参数中至少包括交易成功数量，每组原始数据中包括的商户参数和交易参数的数量之和为N；

从各个商户聚集区域对应的各组原始数据中筛选出K种目标参数对应的目标数据，以得到M*P组目标数据，各组目标数据包括的K种目标参数相同，K小于或等于N-1；

将所述M*P组目标数据包括的每种目标参数对应的M*P个数据进行离散化处理后得到训练样本集，所述训练样本集中包括M*P个训练样本，每个训练样本包括所述K种目标参数对应的数据离散化后的特征，所述K种目标参数中包括商户数量、商户比重、交易申请数量、交易取消数量以及交易趋势中的一种或者多种；

基于所述训练样本集中的M*P个训练样本以及所述M*P组原始数据中的M*P个交易成功数量构建交易预测模型，所述交易预测模型用于基于目标商户聚集区域在第一时间段内的一组目标数据预测所述目标商户聚集区域在所述第一时间段之后的第二时间段内的交易成功数量。
根据权利要求15所述的终端，其特征在于，所述处理器还用于：

将所述各个商户聚集区域对应的各组原始数据的N种参数以及各种参数所携带的标签输入决策树中进行筛选；

获取所述决策树基于所述各个商户聚集区域对应的各组原始数据的N种参数输出的N-1种参数对交易成功数量的贡献度；

从输出的N-1种参数中筛选出对交易成功数量的贡献度大于或等于贡献度阈值的K种目标参数。
根据权利要求15所述的终端，其特征在于，所述处理器还用于：

获取目标商户聚集区域在第一时间段内包括所述K种目标参数的目标数据；

将所述目标商户聚集区域在第一时间段内的目标数据输入所述交易预测模型中进行处理，并获取所述交易预测模型基于所述第一时间段内的目标数据输出的所述目标商户聚集区域在所述第一时间段之后的第二时间段内的交易成功数量，所述第一时间段与所述第二时间段的时间长度一致。
根据权利要求15-17任一项所述的终端，其特征在于，所述处理器具体用于：

基于所述M*P个训练样本以及所述M个商户聚集区域在所述P个不同时间段内的M*P个交易成功数量构建第一回归模型；

基于所述M*P个训练样本、所述M个商户聚集区域在所述P个不同时间段内的M*P个交易成功数量以及所述第一回归模型，构建第二回归模型；

将所述第一回归模型以及所述第二回归模型合成为交易预测模型。
根据权利要求18所述的终端，其特征在于，所述处理器还具体用于：

对所述M*P个训练样本中的每个训练样本均进行以下操作：

将任一商户聚集区域i在所述P个不同时间段的任一时间段f内的训练样本h输入所述第一回归模型中进行处理，获取所述第一回归模型基于所述训练样本h输出的所述商户聚集区域i在所述时间段f的下一时间段的第一交易成功数量；

获取所述第一交易成功数量与所述商户聚集区域i在所述时间段f的下一时间段内的交易成功数量之间的差值；

获取M*P个训练样本对应的M*P个第一交易成功数量，并获取各个第一交易成功数量与对应的交易成功数量之间的差值，得到M*P个差值，其中一个训练样本对应一个第一交易成功数量；

基于所述M*P个差值和所述M*P个训练样本构建第二回归模型，以使所述第二回归模型学习所述差值与所述K种目标参数的各种目标参数之间的关系。
一种计算机非易失性可读存储介质，其特征在于，所述计算机非易失性可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1-7任一项所述的方法。