WO2018036402A1

WO2018036402A1 - 模型中关键变量的探测方法及装置

Info

Publication number: WO2018036402A1
Application number: PCT/CN2017/097434
Authority: WO
Inventors: 席炎
Original assignee: 阿里巴巴集团控股有限公司
Priority date: 2016-08-26
Filing date: 2017-08-15
Publication date: 2018-03-01
Also published as: PH12019500406A1; CN107784411A; TW201807623A; US20190220924A1; SG11201901614SA; TWI677830B

Abstract

一种模型中关键变量的探测方法及装置，其中的方法包括：将目标样本输入模型得到第一结果；所述目标样本包含若干变量（101）；将所述目标样本中的变量的取值依次替换为与该变量对应的探测阈值（102）；将变量的取值依次被替换后的目标样本分别输入所述模型得到第二结果集合（103）；基于所述第二结果集合中的每一个第二结果与所述第一结果之间的差值，确定对所述第一结果影响度最高的关键变量（104）。本方法及装置可以降低在探测对模型的输出结果影响度最高的变量时的复杂度。

Description

模型中关键变量的探测方法及装置

本申请要求2016年08月26日递交的申请号为201610741714.7、发明名称为“模型中关键变量的探测方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机应用领域，尤其涉及一种模型中关键变量的探测方法及装置。

背景技术

在相关技术中，通常可以在某一业务场景下采集大量来自用户的业务数据作为建模样本，然后通过统计模型或者机器学习的方法对建模样本进行训练，来构建业务模型。当业务模型构建完成后，可以将业务数据输入该业务模型，并根据该业务模型的输出结果，在该业务场景下进行相应的业务预测。

然而，在实际应用中，在将业务数据作为业务样本输入业务模型得到结果后，由于输入的业务数据通常可能包含若干业务变量，而模型通常无法确定该业务样本中的哪一个业务变量对最终输出的业务结果影响度最高，因此无法满足实际的业务需求。

发明内容

本申请提出一种模型中关键变量的探测方法，该方法包括：

将目标样本输入模型得到第一结果；所述目标样本包含若干变量；

将所述目标样本中的变量的取值依次替换为与该变量对应的探测阈值；

将变量的取值依次被替换后的目标样本分别输入所述模型得到第二结果集合；

基于所述第二结果集合中的每一个第二结果与所述第一结果之间的差值，确定对所述第一结果影响度最高的关键变量。

本申请还提出一种信用提升指引方法，该方法包括：

将目标样本输入信用评价模型得到第一信用评分；所述目标样本包含若干变量；

将变量的取值依次被替换后的目标样本分别输入所述信用评价模型得到第二信用评分集合；

基于所述第二信用评分集合中的每一个第二信用评分与所述第一信用评分之间的差值，确定对所述第一信用评分影响度最高的关键变量；

将该影响度最高的关键变量对应的物理含义作为信用提升指引输出给所述目标样本对应的用户。

本申请还提出一种评价模型中关键变量的探测装置，该装置包括：

第一输入模块，用于将目标样本输入模型得到第一结果；所述目标样本包含若干变量；

第一替换模块，用于将所述目标样本中的变量的取值依次替换为与该变量对应的探测阈值；

第二输入模块，用于将变量的取值依次被替换后的目标样本分别输入所述模型得到第二结果集合；

第一确定模块，用于基于所述第二结果集合中的每一个第二结果与所述第一结果之间的差值，确定对所述第一结果影响度最高的关键变量。

本申请还提出一种信用提升指引装置，该装置包括：

第三输入模块，用于将目标样本输入信用评价模型得到第一信用评分；所述目标样本包含若干变量；

第二替换模块，用于将所述目标样本中的变量的取值依次替换为与该变量对应的探测阈值；

第四输入模块，用于将变量的取值依次被替换后的目标样本分别输入所述信用评价模型得到第二信用评分集合；

第二确定模块，用于基于所述第二信用评分集合中的每一个第二信用评分与所述第一信用评分之间的差值，确定对所述第一信用评分影响度最高的关键变量；

输出模块，用于将该影响度最高的关键变量对应的物理含义作为信用提升指引输出给所述目标样本对应的用户。

本申请中，通过将目标样本输入模型得到第一结果；将所述目标样本中的变量的取值依次替换为与该变量对应的探测阈值，并将变量的取值依次被替换后的目标样本分别输入所述模型得到第二结果集合；然后基于所述第二结果集合中的每一个第二结果与所述第一结果之间的差值，确定对所述第一结果最高的关键变量，实现了通过比较变量的取值被依次替换后，目标样本在模型中得到的第二结果，与该目标样本实际的得到的第一结果之间的差异，就可以确定出对第一结果影响度最高的关键变量，而不需要深入理解模型的算法；

当本申请的技术方案应用于信用评价模型中时，可以实现通过比较变量的取值被依次替换后，目标样本在信用评价模型中得到的信用评分，与该目标样本实际的得到的信用评分之间的差异，就可以确定出对用户的信用评分影响度最高的关键变量，而不需要深入理解模型的算法，从而可以降低在探测对信用评分影响度最高的变量时的复杂度；同时，通过将该关键变量对应的物理含义作为信用提升指引输出给所述目标样本对应的用户，可以使用户能够直观的了解到提升自身信用的途径，从而可以提升用户体验。

附图说明

图1是本申请一实施例提供的一种模型中关键变量的探测方法的流程图；

图2是本申请一实施例提供的一种信用提升指引方法的流程图；

图3是本申请一实施例提供的一种信用评价模型中输出信用提升指引的处理流程图；

图4是本申请一实施例提供的一种模型中关键变量的探测装置的逻辑框图；

图5是本申请一实施例提供的承载所述一种模型中关键变量的探测装置的服务端的硬件结构图；

图6是本申请一实施例提供的一种信用评分提升指引装置的逻辑框图；

图7是本申请一实施例提供的承载所述信用评分提升指引装置的服务端的硬件结构图。

具体实施方式

业务风险模型，是一种用于对业务风险进行评估的评价模型。在相关技术中，通常可以在某一业务场景下采集大量业务数据作为建模样本，并基于建模样本中是否包含预先定义的业务风险事件对建模样本进行分类，然后通过统计模型或者机器学习的方法对建模样本进行训练，来构建业务风险模型。

当业务风险模型构建完成后，可以将采集到的业务数据作为目标样本输入该业务风险模型进行风险评估，来预测在未来一段时间内发生这种业务风险事件的概率，然后将该概率转换为对应的业务风险评分，来反映业务的风险等级。

在实际应用中，在通过将采集到的业务数据作为目标样本，输入构建完成的评价模型，得到对应的业务风险评分后，通常希望能够探测出该目标样本所包含的若干变量中，对最终输出的风险评分影响度最高的关键变量。

例如，在信贷业务的应用场景中，当上述业务风险模型为信用风险评价模型时，征信公司将用户的业务数据作为目标样本，输入模型中进行信用评估输出该用户的信用评分后，用户通常会有着比较强烈的提升信用评分的诉求；因此，征信公司需要了解该用户的业务数据中，哪一个变量对最终的信用评分影响度最高，到底是哪一个变量拉低了该用户信用评分，从而可以基于该用户的信用短板，有针对性的向该用户输出信用提升指引。

在相关技术中，在探测目标样本中对风险评分影响度最高的关键变量时，通常可以通过特定的探测算法来进行实现；

例如，在信贷业务的应用场景中，可以通过深入到评价模型的建模算法内部，来设计特定的信用提升指引算法，通过该信用提升指引算法，来探测用户的目标样本中，对最终得到的信用评分影响度最高的关键变量，然后将与该关键变量对应的业务行为作为信用提升指引向用户输出。

可见，在以上技术方案中，上述探测算法的设计，通常需要深入了解评价模型的建模算法。对于传统的诸如逻辑回归算法，决策树算法等建模算法而言，由于基于这些算法构建的模型具有结构简洁，以及高度的可解释性的特性，因此在深入这些算法来设计上述探测算法，通常不会造成困难。

然而，随着大数据挖掘技术的发展以及计算机计算性能的提升，越来越多的复杂算法被应用在了评价模型中，例如GBDT(Gradient Boosting Decision Tree，迭代的决策树算法)，深度神经网络等算法，由于基于这些复杂算法生成的模型不易解读，由此引申出的问题是，在设计上述探测算法时，通常难以深入到模型的算法内部，从而在上述探测算法的设计上会存在困难。

有鉴于此，本申请通过将目标样本输入模型得到第一结果；将所述目标样本中的变量的取值依次替换为与该变量对应的探测阈值，并将变量的取值依次被替换后的目标样本分别输入所述模型得到第二结果集合；然后基于所述第二结果集合中的每一个第二结果与所述第一结果之间的差值，确定对所述第一结果最高的关键变量，实现了通过比较变量的取值被依次替换后，目标样本在模型中得到的第二结果，与该目标样本实际的得到的第一结果之间的差异，就可以确定出对第一结果影响度最高的关键变量，而不需要深入理解模型的算法；

下面通过具体实施例并结合具体的应用场景对本申请进行描述。

请参考图1，图1是本申请一实施例提供的一种模型中关键变量的探测方法，应用于服务端，所述方法执行以下步骤：

步骤101，将目标样本输入模型得到第一结果；所述目标样本包含若干变量；

步骤102，将所述目标样本中的变量的取值依次替换为与该变量对应的探测阈值；

步骤103，将变量的取值依次被替换后的目标样本分别输入所述模型得到第二结果集合；

步骤104，基于所述第二结果集合中的每一个第二结果与所述第一结果之间的差值，确定对所述第一结果影响度最高的关键变量。

上述服务端，可以包括用于训练以及使用业务模型的服务器、服务器集群或者基于服务器集群构建的云平台。

上述模型，可以包括基于预设的建模算法，对采集到的大量的建模样本进行训练后，构建出的用于进行业务预测的数学模型。例如，在实际应用中，上述业务模型可以是评价模型，通过该模型可以对用户未来一段时间的业务风险进行评分，并输出评分结果。

其中，在基于采集到的大量的建模样本进行训练来构建模型的具体过程，在本申请中不再进行详述，本领域技术人员可以参考相关技术中的记载；例如，在实际应用中，上述服务端在训练上述模型时，可以采用诸如评分卡、回归分析或者神经网络等建模方法，利用诸如SAS(Statistical Analysis System，统计分析系统)以及SPSS(Statistical Product and Service Solutions，统计产品与服务解决方案)等较为成熟的数据挖掘工具，通过对采集到的大量建模样本进行训练，来构建上述业务模型。

在本例中，当上述业务模型训练完成后，上述服务端可以采集目标用户的目标样本。其中，在作为上述目标样本以及建模样本的业务数据中，均可以包括若干业务变量，而在这些业务变量中，还可以包含若干行为变量。例如，当上述业务模型为评价模型时，上述目标样本以及建模样本中包含的变量，可以是对业务造成影响的变量，而在这些变量中还可以包括与用户的业务行为对应的业务变量。

需要说明的是，上述目标样本以及建模样本中所包含的行为变量的数量，可以基于实际的需求进行自定义。例如，在实际应用中，为了探测对业务模型的输出结果影响度最高的用户行为，可以将上述目标样本中的变量，全部定义为行为变量。

当上述服务端采集到目标用户的目标样本后，可以将该目标样本输入训练完成的评价模型中进行业务预测，得到与该目标样本对应的第一结果。

当将上述目标样本输入模型进行业务预测，得到第一结果后，为了探测上述目标样本中，对该第一结果影响度最高的变量，上述服务端可以将上述业务样本中所包含的变量的取值，依次替换为与该变量对应的探测阈值，然后将变量的取值依次被替换后的该目标样本分别输入上述业务模型中进行业务预测。

上述探测阈值，可以是一个能够表征采集到的目标样本中所包含的变量的取值，在目标用户人群中的整体水平的阈值。其中，该目标样本包含的所有变量，可以分别对应一个用于对该变量的取值进行替换的探测阈值。

上述目标用户人群，可以定义为实施与上述目标样本对应的业务的所有人群，也可以定义为与上述目标样本对应的目标用户，所属的某一个特定的业务人群，在本例中不进行特别限定。

在示出的一种实施方式中，上述探测阈值，可以定义为其对应的业务变量的取值，在目标用户人群中的平均数、中位数或者众数中的任一。其中，平均数、中位数以及众数，均为基础的统计学概念。平均数，是指所有取值样本相加后除以取值样本的数量得到的平均值。中位数，是指将所有取值样本高低排序后找出正中间的一个，或者正中间的两个的平均值。众数，是指所有取值样本中出现次数最多的取值样本的取值。

通过这种方式，只需要对上述目标样本中的变量，在目标用户人群中对应的取值作为取值样本，进行简单的统计分析计算，就可以为上述目标样本中的变量分别设置探测阈值。

其中，当将众数作为上述探测阈值时，由于众数可能为多个，因此在这种情况下，可以将该多个众数的平均值，或者其中的任意一个作为上述探测阈值。

在本例中，在将上述目标样本中的变量的取值依次替换与该变量对应的探测阈值时，通常情况下，可以将目标样本中的变量逐个替换为与该变量对应的探测阈值即可。

然而，在实际应用中，上述目标样本中可能会包含多个对应于同一行为的行为变量；在这种情况下，如果上述目标样本中，包含多个行为变量，并且该多个行为变量对应于同一行为，则可以将该多个行为变量的取值同时替换为与该多个行为变量分别对应的探测阈值。

在本例中，当将上述目标样本中的变量的取值，依次替换与该变量对应的探测阈值后，还可以将变量的取值依次被替换后的得到的多个目标样本，分别输入上述业务模型中进行业务预测，得到一个第二结果集合。

另外，在本例中，在将变量的取值依次被替换后得到的多个目标样本，分别输入上述业务模型中进行业务预测后，上述服务端还可以保存取值被替换的变量，与该变量的取值被替换后的上述目标样本，在输入上述业务模型中得到的业务信用评分之间的对应关系。

通过这种方式，后续服务端可以基于上述第二结果集合中的任一第二结果，通过查询该对应关系，来定位到对应的取值被替换的业务变量。

在本例中，上述服务端在探测针对上述第一结果影响度最高的关键变量时，可以将已经得出的上述第一结果与上述第二结果集合中的各第二结果进行数值比较，计算上述第一结果与上述第二结果中各第二结果之间的差值，然后基于计算得到的该差值，来确定对上述第一结果影响度最高的关键变量。

在示出的一种实施方式中，上述服务端可以分别计算上述第二结果集合中的每个第二结果减去上述第一结果之间的差。在确定对上述第一结果影响最高的变量时，可以将第二结果集合中与第一结果之间的差最大的第二结果，确定为关键结果。在确定出关键结果后，上述服务端可以将该关键结果作为查询索引，在预先保存上述对应关系，来确定与该关键结果对应的取值被替换的变量。此时确定出的与该关键结果存在对应关系的变量，即为最终探测到的对第一结果影响度最高的关键变量。

可见，通过这种方式，通过比较变量的取值被依次替换后目标样本在模型中得到的结果，与该目标样本不进行变量取值替换时实际得到的结果之间的差异，就可以快速简易的确定出对第一结果影响度最高的关键业务变量，而不需要深入理解模型的算法，从而可以降低在确定对第一结果影响度最高的变量时的复杂度。

需要说明的是，在实际应用中，上述业务模型可以是信用评价模型。以下以上述业务模型为信用评价模型为例进行说明。

请参考图2，图2是本申请一实施例提供的一种信用提升指引方法，应用于服务端，所述方法执行以下步骤：

步骤201，将目标样本输入信用评价模型得到第一信用评分；所述目标样本包含若干变量；

上述服务端，可以包括用于训练以及使用信用评价模型的服务器、服务器集群或者基于服务器集群构建的云平台。

上述信用评价模型，可以包括基于预设的建模算法，对采集到的大量的建模样本进行训练后，构建出的用于进行信用评估的数学模型。例如，在实际应用中，上述信用评价模型可以是信用风险评估模型，通过该模型可以对用户的信用风险进行评分，并输出评分结果。

上述信用评分，为上述信用评价模型针对采集到的目标样本进行信用评估后得到的信用评分，该信用评分用于衡量用户在未来一段时间内的信用风险。

例如，在信贷业务的场景中，该信用评价模型可以针对从特定的信贷业务场景中采集到的业务数据进行信用风险评估，得到相应的信用评分，此时该信用评分用于衡量一个用户在未来一段时间内发生信用违约的概率。

其中，在基于采集到的大量的建模样本进行训练来构建信用评价模型的具体过程，在本申请中不再进行详述，本领域技术人员可以参考相关技术中的记载；

例如，在实际应用中，上述服务端在训练上述信用评价模型时，可以采用诸如评分卡、回归分析或者神经网络等建模方法，利用诸如SAS(Statistical Analysis System，统计分析系统)以及SPSS(Statistical Product and Service Solutions，统计产品与服务解决方案)等较为成熟的数据挖掘工具，通过对采集到的大量建模样本进行训练，来构建上述信用评价模型。

在本例中，当上述信用评价模型训练完成后，上述服务端可以采集目标用户的目标样本。该目标用户，即为需要进行信用风险评估的用户。上述建模样本以及上述目标样本，均可以包括从具体的业务场景下采集到的业务数据。作为建模样本的业务数据可以用于模型的训练，而作为目标样本的业务数据则可以用于对目标用户的信用风险进行评估。

其中，在作为上述目标样本以及建模样本的业务数据中，均可以包括若干可能对用户的信用风险造成影响的变量，而在这些变量中，还可以包含若干行为变量。

例如，在信贷业务场景中上述目标样本以及建模样本中包含的变量，可以是对信用风险造成影响的变量；比如，可以包括用户的收入消费数据、历史信贷数据、违约数据、用户的就业状况等等对信用风险造成影响的变量。而在这些变量中，收入消费数据、历史信贷数以及违约数据，分别与用户的消费行为、信贷行为以及违约行为相对应，因此收入消费数据、历史信贷数据以及违约数据可以称之为目标样本中的行为变量。

需要说明的是，上述目标样本以及建模样本中所包含的行为变量的数量，可以基于实际的需求进行自定义。例如，在实际应用中，为了探测对信用评分影响度最高的用户行为，可以将上述目标样本中的变量，全部定义为行为变量。

当上述服务端采集到目标用户的目标样本后，可以将该目标样本输入训练完成的信用评价模型中进行风险评估，得到与该目标样本对应的第一信用评分。

步骤202，将所述目标样本中的变量的取值依次替换为与该变量对应的探测阈值；

步骤203，将变量的取值依次被替换后的目标样本分别输入所述信用评价模型得到第二信用评分集合；

当将上述目标样本输入模型进行信用风险评估，得到第一信用评分后，为了探测上述目标样本中，对该第一信用评分影响度最高的变量，上述服务端可以将上述业务样本中所包含的变量的取值，依次替换为与该变量对应的探测阈值，然后将变量的取值依次被替换后的该目标样本分别输入上述信用评价模型中进行信用风险评估。

在示出的一种实施方式中，上述探测阈值，可以定义为其对应的业务变量的取值，在目标用户人群中的平均数、中位数或者众数中的任一。

在相关技术中，在衡量某一个变量的取值在某一目标用户人群中的整体水平时，通常可以采集该目标用户人群中所有用户，对应于该变量的取值作为取值样本，然后计算采集到的所有取值样本的平均数、中位数或者众数，并使用平均数、中位数或者众数中的任一来表征该变量的取值在某一个目标用户人群中的整体水平。

例如，在信贷业务的应用场景中，上述目标样本可以包括诸如收入消费数据、历史信贷数据、违约数据、用户的就业状况等业务变量。假设需要确定收入消费数据这一业务变量在目标用户人群中的整体水平的话，此时可以采集该目标用户人群中所有用户的收入消费数据作为取值样本，然后计算采集到的所有用户的收入消费数据对应的具体消费数额的平均数、中位数或者众数，并使用平均数、中位数或者众数中的任一，作为该目标用户人群中的整体水平。

其中，平均数、中位数以及众数，均为基础的统计学概念。

平均数，是指所有取值样本相加后除以取值样本的数量得到的平均值。

中位数，是指将所有取值样本高低排序后找出正中间的一个，或者正中间的两个的平均值。

众数，是指所有取值样本中出现次数最多的取值样本的取值。

因此，在实际应用中，可以将上述目标样本中的变量的取值，在上述目标用户人群中的平均数、中位数或者众数中的任一，直接设置为上述探测阈值。通过这种方式，只需要对上述目标样本中的变量，在目标用户人群中对应的取值作为取值样本，进行简单的统计分析计算，就可以为上述目标样本中的变量分别设置探测阈值。

在示出的另一种实施方式中，上述探测阈值还可以定义为，通过特定的统计分析算法针对上述目标样本中的变量，在上述目标用户人群中的取值样本进行统计分析后，得到的能够表征上述目标样本中的变量的取值在上述目标用户人群中的整体水平的阈值。

由于上述目标样本中的业务变量的取值，在目标用户人群中的平均数、中位数或者众数，通常并不能精确的反映该业务变量的取值在目标用户人群中的整体水平。

因此，在实际应用中，除了可以将上述目标样本中的变量的取值，在目标用户人群中的平均数、中位数或者众数中的任一，定义为上述探测阈值以外，在衡量某一个变量的取值在某一目标用户人群中的整体水平时，也可以将该目标用户人群中所有用户，对应于该变量的取值作为取值样本，然后通过特定的统计分析算法进行统计分析，得出一个能够表征上述目标样本中的变量的取值在上述目标用户人群中的整体水平的阈值，然后将该得到的该阈值定义为上述探测阈值。

其中，在针对上述取值样本进行统计分析时，所采用的统计分析算法，可以与构建上述评价模型采用的算法相同，也可以不同。

例如，在实际应用中，也可以采用诸如回归分析等算法，利用诸如SAS或SPSS等较为成熟的数据挖掘工具，针对上述取值样本进行统计分析，得到所有取值样本的取值分布规律，然后基于该取值分布规律确定出一个能够表征该取值变量的取值，在该目标用户人群中的整体水平的阈值，其具体的统计分析过程在本例中不再进行详述，本领域技术人员在付诸实施时可以参考相关技术中的记载。

当然，除了以上示出的针对上述探测阈值的定义方法以外，在实际应用中，也可以通过其它的数学量化方法，来为上述目标样本中的业务变量分别定义探测阈值。

需要强调的是，无论采用何种数学量化方法，最终为上述目标样本中的业务变量分别定义的探测阈值，旨在表征该业务变量的取值，在上述目标用户人群中的整体水平，在本例中不再进行一一列举。

例如，假设该目标样本包含三个变量V1、V2和V3，V1、V2和V3对应的探测阈值分别为V1-t、V2-t和V3-t。那么，首先可以使用V1-t替换变量V1的取值，得到一个由变量V1-t、V2和V3构成的目标样本。其次，再使用V2-t替换变量V2的取值，得到一个由变量V1、V2-t和V3构成的目标样本。最后，再使用V3-t替换变量V3的取值，得到一个由变量V1、V2和V3-t构成的目标样本。

然而，在实际应用中，上述目标样本中可能会包含多个对应于同一行为的行为变量。

例如，在信贷业务的应用场景中，假设上述目标样本同时包括“违约金额”、“违约次数”、“收入消费数据”等变量，对于变量“收入消费数据”而言，它与用户的消费行为唯一对应；而对于变量“违约金额”和“违约次数”而言，均与用户的违约行为对应。在这种情况下，变量“违约金额”和“违约次数”即为该目标样本中，对应于同一行为的行为变量。

在本例中，如果上述目标样本中，包含对应于同一行为的多个行为变量，可以将该多个行为变量的取值，同时替换为与该多个行为变量分别对应的探测阈值。

例如，假设该目标样本包含三个变量V1、V2和V3，V1、V2和V3对应的探测阈值分别为V1-t、V2-t和V3-t。其中，V2和V3对应同一种行为。那么，首先可以使用V1-t替换变量V1的取值，得到一个由变量V1-t、V2和V3构成的目标样本。其次，再同时使用V2-t和V3-t分别替换变量V2和V3的取值，得到一个由变量V1、V2-t和V3-t构成的目标样本。

在本例中，当将上述目标样本中的变量的取值，依次替换与该变量对应的探测阈值后，还可以将变量的取值依次被替换后的得到的多个目标样本，分别输入上述信用评价模型中进行信用风险评估，得到一个第二信用评分集合。

例如，假设该目标样本包含三个变量V1、V2和V3，V1、V2和V3对应的探测阈值分别为V1-t、V2-t和V3-t。将变量V1、V2和V3的取值依次替换为V1-t、V2-t和V3-t后，会得到一个由变量V1-t、V2和V3构成的目标样本、一个由变量V1、V2-t和V3构成的目标样本，以及一个由变量V1、V2和V3-t构成的目标样本。在这种情况下，可以将以上三个目标样本分别输入信用评价模型进行信用风险评估，得到一个信用评分集合，此时该评分集合包含3个信用评分。

另外，在本例中，在将变量的取值依次被替换后得到的多个目标样本，分别输入上述信用评价模型中进行信用风险评估后，上述服务端还可以保存取值被替换的变量，与该变量的取值被替换后的上述目标样本，在输入上述评价模型中得到的信用评分之间的对应关系。

通过这种方式，后续服务端可以基于上述第二信用评分集合中的任一信用评分，通过查询该对应关系，来定位到对应的取值被替换的业务变量。

步骤204，基于所述第二信用评分集合中的每一个第二信用评分与所述第一信用评分之间的差值，确定对所述第一信用评分影响度最高的关键变量。

在本例中，上述服务端在探测针对上述第一信用评分影响度最高的关键变量时，可以将已经得出的上述第一信用评分与上述第二信用评分集合中各信用评分进行数值比较，计算上述第一信用评分与上述第二信用评分集合中各信用评分之间的差值，然后基于计算得到的该差值，来确定对上述第一信用评分影响度最高的关键变量。

在示出的一种实施方式中，上述服务端可以分别计算上述第二信用评分集合中的每个信用评分减去上述第一信用评分之间的差；其中，计算得到的差可能大于0，也可能小于0。

如果计算得到的差大于0，表明该目标样本中某一个变量的取值被替换为对应的探测阈值后，输入模型中得到的信用评分，大于该目标样本未进行取值替换时在模型中得到的信用评分。在这种情况下，信用评分的提高，则可能是由于取值被替换的该变量导致的。

如果计算得到的差小于0，表明该目标样本中某一个变量的取值被替换为对应的探测阈值后，输入模型中得到的信用评分，小于该目标样本未进行取值替换时在模型中得到的信用评分。在这种情况下，则可能是由于取值被替换的该业务变量，拉低了信用评分。

由于信用评分，通常与风险等级成反比，即信用评分越高，相应的风险越低。

因此，在这种情况下，在确定对上述第一信用评分影响最高的变量时，可以将第二信用评分集合中与第一信用评分之间的差最大的信用评分，确定为关键信用评分。

在确定出关键信用评分后，上述服务端可以将该信用评分作为查询索引，在预先保存上述对应关系，来确定与该信用评分对应的取值被替换的变量。此时确定出的与该关键信用评分存在对应关系的变量，即为最终探测到的对第一信用评分影响度最高的关键变量。

例如，当某一变量被替换后的目标样本，在输入模型后得到的信用评分，与上述第一信用评分的差最大的话，表明该变量的取值，替换为该变量在目标用户人群中的整体水平后，相较于其它被替换的变量，最终得到的信用评分显著增大，风险显著降低。

在这种情况下，该变量不被替换时，用户的风险相对较高，实际上是由于该变量拉低了上述第一信用评分，表明与该目标样本对应的目标用户在该变量上的表现，低于目标用户人群的整体水平。从而，在这种情境中，将该变量确定为关键业务变量则是合理的。

步骤205，将该影响度最高的关键变量对应的物理含义作为信用提升指引输出给所述目标样本对应的用户。

当确定了对上述第一信用评分影响度最高的关键变量后，此时可以进一步将该关键变量对应的物理含义，作为信用提升指引输出给上述目标样本对应的目标用户。

在示出的一种实施方式中，与上述关键变量对应的物理含义，可以是与该关键变量对应的用户行为。上述服务端在通过以上示出的方式，确定出上述关键变量后，可以进一步判断该关键变量是否为行为变量，如果该关键变量是行为变量的话，上述服务端还可以将与该关键变量对应的行为，作为行为指引向与上述目标样本对应的目标用户输出。

在这种情况下，该目标用户可以通过输出的该行为指引，了解到自身可能是由于何种行为，提升了自身的风险，拉低了信用评分。后续目标用户可以通过改善该行为来降低自己的风险，提升信用评分。

例如，在信贷业务的场景中，假设上述关键变量为上述目标样本中的违约次数变量，该关键变量对应的业务行为为违约行为，此时系统可以向用户输出一个“避免违约次数过多来提升信用评分”的信用提升指引，此时一个信用评分较低的用户在查看到系统输出的该信用提升指引后，在未来可以有针对性的注意自己的履约行为，尽可能按时还款，减少违约记录，来提升自己的信用评分。

可见，通过这种方式，通过比较变量的取值被依次替换后目标样本在评价模型中得到的信用评分，与该目标样本实际的得到的信用评分之间的差异，就可以快速简易的确定出影响信用评分的关键业务变量，而不需要深入理解模型的算法，从而可以降低在确定对信用评分影响度最高的变量时的复杂度。

同时，通过向用户输出信用提升指引，使得用户可以直观的了解到自身信用的“短板”，从而可以通过改善自身的信用短板，来提升自身的信用等级。

在本例中，如果上述第二信用评分集合中的每个信用评分与上述第一信用评分之间的差均小于0时，由于信用评分与风险等级成反比，在这种情况下，表明与该目标样本对应的目标用户，在该目标样本中包含的每一个变量上的表现，均优于目标用户人群的整体水平(即将取值替换为整体水平后，风险反而增大了)。

因此，在这种情境中，可以不输出上述信用提升指引，而是向上述目标用户输出一条预设的提示消息；该提示消息用于提示该目标用户的信用风险可控；例如，当上述信用评分为信用风险评估模型得到的信用评分时，上述提示消息可以是一条“您的信用记录良好”的提示消息。

当然，在实际应用中，如果评价模型定义的信用评分，与风险等级成正比，即信用评分越高，相应的风险也越高的话，在确定对上述第一信用评分的影响度最高的关键变量的实施过程，与以上示出的实施过程相反。

在这种情况下，在确定对上述第一信用评分影响最高的业务变量时，可以计算第一信用评分减去第二信用评分集合中各信用评分的差，并将第一信用评分与第二信用评分集合中各信用评分之间的差最大的信用评分，确定为关键信用评分，然后通过查找上述对应关系，来确定对第一信用评分影响度最高的关键变量。

以下结合具体的实例对以上实施例中的技术方案进行详细描述。

请参见图3，图3为本例示出的一种信用评价模型中输出信用提升指引的处理流程图。

如图3所示，上述信用风险评估模型包含V1、V2和V3三个业务变量的模型，其中V1、V2和V3均为行为变量，与V1、V2和V3对应的探测阈值分别为V1-t、V2-t和V3-t。

V1-t、V2-t和V3-t分别为V1、V2和V3在目标用户人群中的平均值(图3示出用mean函数求解V1、V2和V3在目标用户人群中的平均值得到V1-t、V2-t和V3-t)。

在初始状态，上述服务端在采集到目标用户的目标样本后，可以将该目标样本输入上述模型中进行信用评估得到信用评分，记为Score1。

在确定对Score1影响度最高的关键业务变量，可以将V1、V2和V3的取值依次替换为对应的探测阈值。

首先，可以使用V1-t替换业务变量V1的取值，得到一个由业务变量V1-t、V2和V3构成的目标样本。

其次，再使用V2-t替换业务变量V2的取值，得到一个由业务变量V1、V2-t和V3构成的目标样本。

最后，再使用V3-t替换业务变量V3的取值，得到一个由业务变量V1、V2和V3-t构成的目标样本。

替换完成后，可以将得到的以上三个分别由V1-t、V2和V3构成的目标样本、由V1、V2-t和V3构成的目标样本，以及由V1、V2和V3-t构成的目标样本分别输入上述模型中进行信用风险评估得到信用评分。其中，在本例中，信用评分越高，目标用户的信用等级越高，违约概率越低。

假设：

由V1-t、V2和V3构成的目标样本在模型中得到的信用评分记为Score_V1。上述服务端可以保存V1与Score_V1的对应关系。

由V1、V2-t和V3构成的目标样本在模型中得到的信用评分记为Score_V2。上述服务端可以保存V2与Score_V2的对应关系。

由V1、V2和V3-t构成的目标样本在模型中得到的信用评分记为Score_V3。上述服务端可以保存V3与Score_V3的对应关系。

上述服务端在输出信用提升指引时，可以分别计算Score_V1、Score_V2、Score_V3减去Score1的差。

将Score_V1和Score1的差记为delta_Score_V1。

将Score_V2和Score1的差记为delta_Score_V2。

将Score_V3和Score1的差记为delta_Score_V3。

然后将与Score1差最大的信用评分确定为关键评分，并查询上述对应关系，将与该关键评分对应的业务变量确定为关键变量。此时，该关键变量对应的业务行为，即为需要输出的信用提升指引。

假设确定出Score_V1与Score1的差delta_Score_V1最大，那么上述服务端可以查询上述对应关系，将与Score_V1对应的业务变量V1确定为对信用评分Score1影响程度最高的关键变量，并输出与业务变量V1对应的业务行为作为关键业务行为向用户输出。

例如，如果业务变量V1对应的业务行为为违约行为，系统可以向用户输出一个“避免违约次数过多来提升信用评分”的信用提升指引，此时上述目标用户在查看到系统输出的该信用提升指引后，在未来可以有针对性的注意自己的履约行为，尽可能按时还款，减少违约记录，来提升自己的信用评分Score1。

当然，如果Score_V1、Score_V2和Score_V3与Score1的差均小于0，

表明该目标用户，在V1、V2和V3对应的业务行为上的表现，均优于目标用户人群的整体水平，在这种情境中，可以不输出上述行为指引；或者，系统可以向用户输出的一个用于提示目标用户当前的信用记录良好的提示消息。

通过以上各实施例可知，通过将目标样本输入模型得到第一结果；将所述目标样本中的变量的取值依次替换为与该变量对应的探测阈值，并将变量的取值依次被替换后的目标样本分别输入所述模型得到第二结果集合；然后基于所述第二结果集合中的每一个第二结果与所述第一结果之间的差值，确定对所述第一结果最高的关键变量，实现了通过比较变量的取值被依次替换后，目标样本在模型中得到的第二结果，与该目标样本实际的得到的第一结果之间的差异，就可以确定出对第一结果影响度最高的关键变量，而不需要深入理解模型的算法；

与上述方法实施例相对应，本申请还提供了装置的实施例。

请参见图4，本申请提出一种模型中关键变量的探测装置40，应用于服务端；其中，请参见图5，作为承载所述模型中关键变量的探测装置40的服务端所涉及的硬件架构中，通常包括CPU、内存、非易失性存储器、网络接口以及内部总线等；以软件实现为例，所述评价模型中关键变量的探测装置40通常可以理解为加载在内存中的计算机程序，通过CPU运行之后形成的软硬件相结合的逻辑装置，所述装置40包括：

第一输入模块401，用于将目标样本输入模型得到第一结果；所述目标样本包含若干变量；

第一替换模块402，用于将所述目标样本中的变量的取值依次替换为与该变量对应的探测阈值；

第二输入模块403，用于将变量的取值依次被替换后的目标样本分别输入所述模型得到第二结果集合；

第一确定模块404，用于基于所述第二结果集合中的每一个第二结果与所述第一结果之间的差值，确定对所述第一结果影响度最高的关键变量。

在本例中，所述探测阈值表征其对应变量在目标人群中取值的整体水平；

其中，所述探测阈值是其对应变量在目标人群中取值的平均数、中位数或者众数。

在本例中，所述替换模块402具体用于：

分别计算所述第二结果集合中的每个第二结果减去所述第一结果的差；

将与最大的差对应的第二结果所对应的取值被替换后的变量确定为对所述第一结果影响度最高的关键变量。

请参见图6，本申请提出一种信用提升指引装置60，应用于服务端；其中，请参见图7，作为承载所述信用提升指引60的服务端所涉及的硬件架构中，通常包括CPU、内存、非易失性存储器、网络接口以及内部总线等；以软件实现为例，所述评价模型中关键变量的探测装置60通常可以理解为加载在内存中的计算机程序，通过CPU运行之后形成的软硬件相结合的逻辑装置，所述装置60包括：

第三输入模块601，用于将目标样本输入信用评价模型得到第一信用评分；所述目标样本包含若干变量；

第二替换模块602，用于将所述目标样本中的变量的取值依次替换为与该变量对应的探测阈值；

第四输入模块603，用于将变量的取值依次被替换后的目标样本分别输入所述信用评价模型得到第二信用评分集合；

第二确定模块604，用于基于所述第二信用评分集合中的每一个第二信用评分与所述第一信用评分之间的差值，确定对所述第一信用评分影响度最高的关键变量；

输出模块605，用于将该影响度最高的关键变量对应的物理含义作为信用提升指引输出给所述目标样本对应的用户。

在本例中，所述第二替换模块602进一步用于：

如果所述目标样本中包含对应于同一行为变量的多个行为子变量时，将该多个行为子变量的取值均替换为与该多个行为子变量分别对应的探测阈值。

在本例中，所述第二确定模块604具体用于：

分别计算所述第二信用评分集合中的每个第二信用评分减去所述第一信用评分的差；

将与最大的差对应的第二信用评分所对应的取值被替换后的变量确定为对所述第一信用评分影响度最高的关键变量。

在本例中，所述输出模块605具体用于：

判断所述关键变量是否为行为变量；如果所述关键变量是行为变量，将与该关键变量对应的行为，作为行为指引向与所述目标样本对应的目标用户输出。

在本例中，所述输出模块605进一步用于：

当所述第二信用评分集合中的每个第二信用评分减去所述第一信用评分得到的差均小于0时，输出预设的提示消息；所述提示消息提示与所述目标样本对应的目标用户信用风险可控。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

一种模型中关键变量的探测方法，其特征在于，该方法包括：

将目标样本输入模型得到第一结果；所述目标样本包含若干变量；

将所述目标样本中的变量的取值依次替换为与该变量对应的探测阈值；

将变量的取值依次被替换后的目标样本分别输入所述模型得到第二结果集合；

基于所述第二结果集合中的每一个第二结果与所述第一结果之间的差值，确定对所述第一结果影响度最高的关键变量。
根据权利要求1所述的方法，其特征在于，所述探测阈值表征其对应变量在目标人群中取值的整体水平；

其中，所述探测阈值是其对应变量在目标人群中取值的平均数、中位数或者众数。
根据权利要求1所述的方法，其特征在于，所述基于所述第二结果集合中的每一个第二结果与所述第一结果之间的差值，确定对所述第一结果影响度最高的关键变量，包括：

分别计算所述第二结果集合中的每个第二结果减去所述第一结果的差；

将与最大的差对应的第二结果所对应的取值被替换后的变量确定为对所述第一结果影响度最高的关键变量。
一种信用提升指引方法，其特征在于，该方法包括：

将目标样本输入信用评价模型得到第一信用评分；所述目标样本包含若干变量；

将所述目标样本中的变量的取值依次替换为与该变量对应的探测阈值；

将变量的取值依次被替换后的目标样本分别输入所述信用评价模型得到第二信用评分集合；

基于所述第二信用评分集合中的每一个第二信用评分与所述第一信用评分之间的差值，确定对所述第一信用评分影响度最高的关键变量；

将该影响度最高的关键变量对应的物理含义作为信用提升指引输出给所述目标样本对应的用户。
根据权利要求4所述的方法，其特征在于，所述探测阈值表征其对应变量在目标人群中取值的整体水平；

其中，所述探测阈值是其对应变量在目标人群中取值的平均数、中位数或者众数。
根据权利要求4所述的方法，其特征在于，如果所述目标样本中包含多个行为变量，并且该多个行为变量对应于同一行为，则将该多个行为变量的取值均替换为与该多个行为变量分别对应的探测阈值。
根据权利要求4所述的方法，其特征在于，所述基于所述第二信用评分集合中的每一个第二信用评分与所述第一信用评分之间的差值，确定对所述第一信用评分影响度最高的关键变量，包括：

分别计算所述第二信用评分集合中的每个第二信用评分减去所述第一信用评分的差；

将与最大的差对应的第二信用评分所对应的取值被替换后的变量确定为对所述第一信用评分影响度最高的关键变量。
根据权利要求4所述的方法，其特征在于，所述将该影响度最高的关键变量对应的物理含义作为信用提升指引输出给所述目标样本对应的用户包括：

判断所述关键变量是否为行为变量；

如果所述关键变量是行为变量，将与该关键变量对应的行为，作为行为指引向与所述目标样本对应的目标用户输出。
根据权利要求8所述的方法，其特征在于，当所述第二信用评分集合中的每个第二信用评分减去所述第一信用评分得到的差均小于0时，输出预设的提示消息；所述提示消息提示与所述目标样本对应的目标用户信用风险可控。
一种模型中关键变量的探测装置，其特征在于，该装置包括：

第一输入模块，用于将目标样本输入模型得到第一结果；所述目标样本包含若干变量；

第一替换模块，用于将所述目标样本中的变量的取值依次替换为与该变量对应的探测阈值；

第二输入模块，用于将变量的取值依次被替换后的目标样本分别输入所述模型得到第二结果集合；

第一确定模块，用于基于所述第二结果集合中的每一个第二结果与所述第一结果之间的差值，确定对所述第一结果影响度最高的关键变量。
根据权利要求10所述的装置，其特征在于，所述探测阈值表征其对应变量在目标人群中取值的整体水平；

其中，所述探测阈值是其对应变量在目标人群中取值的平均数、中位数或者众数。
根据权利要求10所述的装置，其特征在于，所述第一替换模块具体用于：

分别计算所述第二结果集合中的每个第二结果减去所述第一结果的差；

将与最大的差对应的第二结果所对应的取值被替换后的变量确定为对所述第一结果影响度最高的关键变量。
一种信用提升指引装置，其特征在于，该装置包括：

第三输入模块，用于将目标样本输入信用评价模型得到第一信用评分；所述目标样本包含若干变量；

第二替换模块，用于将所述目标样本中的变量的取值依次替换为与该变量对应的探测阈值；

第四输入模块，用于将变量的取值依次被替换后的目标样本分别输入所述信用评价模型得到第二信用评分集合；

第二确定模块，用于基于所述第二信用评分集合中的每一个第二信用评分与所述第一信用评分之间的差值，确定对所述第一信用评分影响度最高的关键变量；

输出模块，用于将该影响度最高的关键变量对应的物理含义作为信用提升指引输出给所述目标样本对应的用户。
根据权利要求13所述的装置，其特征在于，所述探测阈值表征其对应变量在目标人群中取值的整体水平；

其中，所述探测阈值是其对应变量在目标人群中取值的平均数、中位数或者众数。
根据权利要求13所述的装置，其特征在于，所述第二替换模块进一步用于：

如果所述目标样本中包含对应于同一行为变量的多个行为子变量时，将该多个行为子变量的取值均替换为与该多个行为子变量分别对应的探测阈值。
根据权利要求13所述的装置，其特征在于，所述第二确定模块具体用于：

分别计算所述第二信用评分集合中的每个第二信用评分减去所述第一信用评分的差；

将与最大的差对应的第二信用评分所对应的取值被替换后的变量确定为对所述第一信用评分影响度最高的关键变量。
根据权利要求13所述的装置，其特征在于，所述输出模块具体用于：

判断所述关键变量是否为行为变量；如果所述关键变量是行为变量，将与该关键变量对应的行为，作为行为指引向与所述目标样本对应的目标用户输出。
根据权利要求17所述的装置，其特征在于，所述输出模块进一步用于：

当所述第二信用评分集合中的每个第二信用评分减去所述第一信用评分得到的差均小于0时，输出预设的提示消息；所述提示消息提示与所述目标样本对应的目标用户信用风险可控。