WO2017186048A1

WO2017186048A1 - 展示预测模型的方法、装置及调整预测模型的方法、装置

Info

Publication number: WO2017186048A1
Application number: PCT/CN2017/081192
Authority: WO
Inventors: 白杨; 陈雨强; 戴文渊
Original assignee: 第四范式（北京）技术有限公司
Priority date: 2016-04-27
Filing date: 2017-04-20
Publication date: 2017-11-02
Also published as: CN108960514A; EP3451250A4; EP3451250A1; CN108960514B; US20190147350A1; CN105930934A; CN105930934B; US11562256B2

Abstract

一种对预测模型进行展示的方法、装置及调整预测模型的方法、装置。该对预测模型进行展示的方法包括：获取预测模型针对至少一个预测样本得到的至少一个预测结果；基于至少一个预测样本和至少一个预测结果来获取用于训练决策树模型的至少一个决策树训练样本，其中，决策树模型用于拟合预测模型；使用至少一个决策树训练样本来训练决策树模型；以及可视化地展示训练出的决策树模型。所述方法可以将难以理解的预测模型近似为决策树模型，并对近似出的决策树模型进行展示，以使得用户基于所展示的决策树模型可以较好地理解预测模型。

Description

展示预测模型的方法、装置及调整预测模型的方法、装置

技术领域

本发明涉及数据科学领域，特别是涉及一种对预测模型进行展示的方法、装置及调整预测模型的方法、装置。

背景技术

在传统的数据挖掘方式中，往往利用统计的方法对历史数据进行回归分析或因子分析，进而剖析历史数据的成因，并利用得到的规律组建决策引擎。统计学习理论中，结构化风险等于经验风险与置信风险的总和。其中，经验风险是学习获取的知识在给定的样本集上的误差，而置信风险是知识在未知样本上的误差。因此，传统的统计方法仅仅做到了在已知样本上的风险最小化，无法保证在未知样本上置信风险的抑制。也就是说，从统计学习的角度来看，这种方式仅仅做到了统计，并未真正有效地从历史数据中学习出知识。

近年来，随着大数据、云计算和人工智能等技术的发展，机器学习被广泛地用来从海量数据挖掘出其中隐藏的有用信息。

关于统计学习与机器学习的区别已经有不少讨论，很大程度上认为机器学习侧重于目标预测，而统计学习侧重于模型的可解释性。更加直观的理解是，统计学习侧重于从概率分布来描述数据生成机制，除了预测之外，还关心结果(参数假设、误差分布假设)的检验，而机器学习侧重于从函数拟合角度来描述数据生成机制，基本目的就是为了拟合和预测，缺乏严谨的参数、误差的检验机制。

一般说来，机器学习主要分为有监督学习、无监督学习和半监督学习。有监督学习是日常使用最多的建模范式，基于有监督学习可得到很多具体的模型，比如回归模型、分类模型等。有监督学习从给定的训练样本集中学习出一个由函数和参数组成的模型，当新的数据样本到来时，可以根据这个模型来给出相应的预测结果。有监督学习的训练样本集要求是包括输入和输出的，也可以说是特征变量和目标输出。其中，目标是标注好的样本标记。无监督学习与有监督学习相比，训练集没有标注的目标结果。常见的无监督学习算法有聚类。此外，有监督学习和无监督学习还可结合为半监督学习，即，训练样本集之中的一部分训练样本带有标记，而其他训练样本不含有标记。

如上所述，机器学习本身侧重于预测而缺少对数据生成机制的可解释性，相应地，训练出的机器学习模型可表示为不同参数和形式的函数集，而且，随着不同行业数据规模的持续上升，用于进行训练的样本特征维度(特别是在经过离散化处理之后)正在高速增长，这些都导致普通用户难以理解机器学习模型的构成，例如，无法了解各个特征在其中如何交互、共同起到了什么样的作用。

举例来说，深度学习(deep learning)作为机器学习的分支，其系统包括由输入层、隐层(多层)、输出层组成的多层网络，只有相邻层节点(或称“神经元”，或“单元”)之间有连接，同一层以及跨层节点之间相互无连接，每一层的每一个神经元节点可以看作是一个逻辑回归(logistic regression)模型，各分层结构接近人类大脑的结构，但作为模型却难以理解。

图1示出深度学习模型及其神经元的示例。可以看出，图1中的(a)所表示的深度学习模型由大量的节点相互联接构成。每个节点代表一种特定的输出函数，称为激活函数(activation function)。每两个节点间的连接都代表一个对于通过该连接信号的加权值，称之为权重(weight)，这相当于人工神经网络的记忆。网络的输出则依网络的连接方式，权重值和激活函数的不同而不同。而网络自身通常都是对自然界某种算法或者函数的逼近，也可能是对一种逻辑策略的表达。

图1中的(b)示出单个神经元的示例，其中：

· a1～an为输入向量的各个分量；

· w1～wn为神经元各个突触的权值；

· b为偏置；

· f为传递函数，通常为非线性函数。一般有sigmoid()、traingd()、tansig()、hardlim()；

· t为神经元输出，数学表示

·

为权向量；

·

为输入向量，

为

的转置；

· b为偏置；

· f为传递函数。

可见，一个神经元的功能是求得输入向量与权向量的内积后，经一个非线性传递函数得到一个标量结果。也就是说，单个神经元的作用在于把一个n(n为正整数)维向量空间用一个超平面分割成两部分(称之为判断边界)，给定一个输入向量，神经元可以判断出这个向量位于超平面的哪一边。所述超平面的方程为

其中，

为超平面上的向量。

以上仅仅是深度学习的神经网络算法的示例，实际上，即便是机器学习相关领域的技术人员也难以从机器学习模型的数学表达直观地理解到机器学习模型如何解答问题。也就是说，较之传统数据挖掘模型可以利用统计的方法进行模型释义与分解，目前难以对机器学习模型进行有效的解释与分析，从而导致其无法更好地被用户(例如，业务专家、业务执行人员等)所解读和理解。比如，由于关于疾病诊断的机器学习模型本身难以理解，会导致人们质疑诊断的可靠性而难以推广。

现实中，不仅仅是单纯的机器学习模型存在上述缺陷，随着机器学习与统计学习之间的融合，很多其他类型的模型(如专家系统等基于诸多规则或因素以得到问题解答的模型)也存在难以解释的问题。人们对模型欠缺理解会阻碍模型的实际应用，例如，用户难以很好地理解模型，导致很难有效地利用模型来解决业务问题。

发明内容

本发明的目的主要在于，提供一种对预测模型进行展示的方法、装置及调整预测模型的方法、装置，其可以将难以理解的模型近似为决策树模型，并对近似出的决策树模型进行展示，以使得用户基于所展示的决策树模型可以较好地理解模型。

为了实现上述目的，本发明所采用的技术方案如下。

第一方面，本发明实施例提供了一种对预测模型进行展示的方法，包括：获取预测模型针对至少一个预测样本得到的至少一个预测结果；基于至少一个预测样本和至少一个预测结果来获取用于训练决策树模型的至少一个决策树训练样本，其中，决策树模型用于拟合预测模型；使用至少一个决策树训练样本来训练决策树模型；以及可视化地展示训练出的决策树模型。

第二方面，本发明实施例提供了一种调整预测模型的方法，该方法包括：使用上文第一方面或者结合上文第一方面的各个可能的实施方式所述及的方法对预测模型进行展示；响应于用户针对所展示的决策树模型执行的输入操作，调整训练出预测模型的至少一个预测模型训练样本；以及使用调整后的至少一个预测模型训练样本来重新训练预测模型。

第三方面，本发明实施例提供了一种对预测模型进行展示的装置，包括：预测结果获取模块，用于获取预测模型针对至少一个预测样本得到的至少一个预测结果；决策树训练样本获取模块，用于基于至少一个预测样本和至少一个预测结果来获取用于训练决策树模型的至少一个决策树训练样本，其中，决策树模型用于拟合预测模型；决策树模型训练模块，用于使用至少一个决策树训练样本来训练决策树模型；以及展示模块，用于可视化地展示训练出的决策树模型。

第四方面，本发明实施例还提供了一种调整预测模型的装置，该装置包括：上文第三方面或者结合上文第三方面的各个可能的实施方式及的装置，用于对预测模型进行展示；预测模型训练样本调整模块，用于响应于用户针对所展示的决策树模型执行的输入操作，调整训练出预测模型的至少一个预测模型训练样本；以及预测模型训练模块，用于使用调整后的至少一个预测模型训练样本来重新训练预测模型。

第五方面，本发明实施例还提供了一种对预测模型进行展示的计算装置，包括存储部件和处理器，存储部件中存储有计算机可执行指令集合，当所述计算机可执行指令集合被所述处理器执行时，执行下述步骤：获取预测模型针对至少一个预测样本得到的至少一个预测结果；基于所述至少一个预测样本和所述至少一个预测结果来获取用于训练决策树模型的至少一个决策树训练样本，其中，所述决策树模型用于拟合所述预测模型；使用所述至少一个决策树训练样本来训练决策树模型；以及可视化地展示训练出的决策树模型。

第六方面，本发明实施例还提供了一种调整预测模型的计算装置，包括存储部件和处理器，存储部件中存储有计算机可执行指令集合，当所述计算机可执行指令集合被所述处理器执行时，执行下述步骤：获取预测模型针对至少一个预测样本得到的至少一个预测结果；基于所述至少一个预测样本和所述至少一个预测结果来获取用于训练决策树模型的至少一个决策树训练样本，其中，所述决策树模型用于拟合所述预测模型；使用所述至少一个决策树训练样本来训练决策树模型；可视化地展示训练出的决策树模型；响应于用户针对所展示的决策树模型执行的输入操作，调整训练出所述预测模型的至少一个预测模型训练样本；以及使用调整后的至少一个预测模型训练样本来重新训练所述预测模型。

综上，本发明可以通过使用决策树模型来拟合原本难以理解的预测模型，并对决策树模型进行展示，使得用户可以通过展示的决策树模型来较好地理解原预测模型的预测机制，从而在实际业务中更好地应用所述预测模型。

附图说明

通过结合附图对本公开示例性实施方式进行更详细的描述，本公开的上述以及其他目的、特征和优势将变得更加明显，其中，在本公开示例性实施方式中，相同的参考标号通常代表相同部件。

图1示出了深度学习模型及其神经元的示例。

图2示出了本发明一实施例的对预测模型进行展示的方法的示意性流程图。

图3示出了本发明一实施例的对预测模型进行展示的装置的结构的示意性方框图。

图4示出了本发明一实施例的展示的决策树模型的示例。

图5示出了本发明一实施例的调整预测模型的方法的示意性流程图。

图6示出了本发明一实施例的调整预测模型的装置的结构的示意性方框图。

具体实施方式

如前所述，针对背景技术中提到的现有通过多种方式(如机器学习、专家系统、机器学习与统计学习的结合等)得到的模型难以解释或理解的缺陷，本发明提供一种可以对这些难以解释或理解的模型进行可视化展示的方案。

具体地说，本发明可以将难以理解的模型(例如，经由机器学习训练出的模型，诸如线性回归(LR)模型、深度神经网络(DNN)模型、因子分解机(FM)模型、虚拟向量机(SVM)模型)近似为决策树模型，并对近似出的决策树模型进行展示，以使得用户基于所展示的决策树模型可以更好地理解模型。以机器学习领域作为示例，在诸如建模平台、业务决策软件或其他需要向用户解释模型预测机制的系统下，本发明可以将机器学习得到的模型近似为决策树模型，并将近似出的决策树模型展示给用户(例如，通过图形化或图表化的形式来进行展示)，从而帮助用户很好地理解原来难以理解的机器学习模型。

下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式，然而应该理解，可以以各种形式实现本公开，而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

图2示出了本发明一实施例提供的对预测模型进行展示的方法的示意性流程图。其中，图2中示出的各个流程步骤可以在客户端或服务器上单独执行，也可由客户端和服务器两者来协同执行。此外，图2所示的方法可由硬件装置(例如，处理器或计算机)来执行，也可完全依靠计算机程序来以软件方式执行，还可以通过软硬件结合的方式来执行。

作为示例，图3示出了一种实现图2所示方法中各个流程步骤的装置的示意性方框图。相应地，该装置中的各个模块可被配置为通用或专用的硬件器件(例如，专用处理器或通用计算装置)、计算机程序代码、固件或它们的任意结合。

下面结合图2、图3对本发明的方案做以详细说明。

参见图2、图3，在步骤S110，例如可以由预测结果获取模块210，获取预测模型针对至少一个预测样本得到的至少一个预测结果。

如前文所述，本发明在于对难以理解的模型进行解释，因此，这里所说的预测模型可指用户难以理解的待解释模型，并且其可以是通过多种方式得到的模型。例如，可以是经机器学习训练得到的模型，也可以是经统计学习得到的模型，也可以是专家系统等基于诸多规则或因素以得到问题解答的模型，还可以是通过将上述各种手段进行融合而得到的模型。

对于难以理解的预测模型，本发明可以将其拟合为便于展示的决策树模型，以方便用户理解预测模型。为此，需要获取用于训练出决策树模型的决策树训练样本。

具体说来，为了训练出决策树模型，需要获取由至少一个决策树训练样本构成的决策树训练集。如本领域技术人员所知，训练样本可表征为一个或多个反映事件或对象在某方面的表现或性质的事项(即，特征)，相应地，每条训练样本可对应于N(其中，N为正整数)维特征空间中的一个特征向量，此外，在监督学习的情况下，每条训练样本还具有相应的标记(label)，该标记对应于针对预测目标的已知结果。

对本发明而言，可以基于待解释的预测模型的输入特征和输出结果来得到决策树模型训练用的训练样本。

具体来说，例如可以由预测结果获取模块210将预测样本输入预测模型以得到与该预测样本对应的预测结果。这里，预测模型作为待解释的模型，能够针对预测样本给出相应的预测结果。其中，每个预测样本可对应于其所在的特征空间中的某个特征向量，预测模型针对该特征向量，可预测出关于预测目标的预测结果，这里，预测结果可以是分类结果(预测结果为离散值)、回归结果(预测结果为连续值)等各种针对预测目标的预测值。

应注意，在步骤S110，可获取预测模型针对任意输入该预测模型的预测样本所得到的对应预测结果。作为示例，这些预测样本可来自于预先存储或在线获取的数据记录，例如，针对数据记录进行数据拼接、特征工程等处理之后即可得到相应的预测样本。

此外，作为可选方式，在步骤S110之前，预测结果获取模块210还可基于训练出预测模型的至少一个训练样本来得到所述至少一个预测样本，并将所述至少一个预测样本输入所述预测模型。

具体说来，用于训练出预测模型的训练样本可存储在数据库或数据仓库中，相应地，预测结果获取模块210可从存储的训练样本中提取特征部分，即，从训练样本中去除标记部分，从而得到将输入预测模型的预测样本。相应地，预测模型针对这样的预测样本得出相应的预测结果以用于产生决策树训练样本的标记，也就是说，针对原训练样本中的特征部分进行重新标记。

通过这种方式，可以将训练预测模型时用到的训练样本直接转化为输入预测模型的预测样本，以得到决策树训练样本，而不需要再使用额外的预测样本。此外，在获取能够拟合预测模型的决策树模型的同时，还可进一步提高决策树模型的泛化性能。

在步骤S110中获取了与至少一个预测样本分别对应的至少一个预测结果之后，就可以执行步骤S120，例如可以由决策树训练样本获取模块220，基于所述至少一个预测样本和所述至少一个预测结果来获取用于训练决策树模型的至少一个决策树训练样本，其中，所述决策树模型用于拟合所述预测模型。

这里，决策树训练样本获取模块220可基于输入预测模型的预测样本的特征来得到决策树训练样本的特征，并基于预测模型输出的相应预测结果来得到所述决策树训练样本的标记。

具体说来，决策树训练样本获取模块220可基于预测样本的部分或全部特征来得到决策树训练样本的特征。也就是说，决策树训练样本获取模块220可通过对预测样本的特征进行筛选和/或进一步处理而得到决策树训练样本的特征。

此外，决策树训练样本获取模块220可将预测模型输出的预测结果直接作为相应决策树训练样本的标记，或者，对所述预测结果进行处理(例如，二值化、离散化等处理)并将处理后的结果作为相应决策树训练样本的标记。

作为示例，在步骤S120，决策树训练样本获取模块220可所述预测样本的至少一部分特征作为所述决策树训练样本的特征，并基于相应得到的预测结果来获取所述决策树训练样本的标记。

这里，所述至少一部分特征可包括所述预测样本的特征之中起主要预测作用的特征和/或易于用户理解的特征。具体说来，可利用各种方式从预测样本的特征中筛选出起主要预测作用的特征和/或易于用户理解的特征。例如，可通过预测模型的数学表达式来确定起主要预测作用的特征，比如，在线性预测模型中权重较大的特征。举例来说，假设预测模型是关于用户是否会购买某保健商品，该预测模型的特征包括用户年龄、性别、收入、地区、受教育情况、职业、身高、婚姻状况、健康状况等。其中，从预测模型的特征权重可以看出，用户年龄、性别、收入、地区、受教育情况、职业、健康状况可被认为是起主要预测作用的特征。而“身高”和“婚姻状况”这两个特征对“用户是否购买商品”不起主要预测作用。因此，在选取决策树训练样本的特征时就可以将“身高”和“婚姻状况”这两个特征忽略。又例如，可选取含义上与预测目标关联性较强的特征作为易于用户理解的特征。上述针对预测作用和可理解性的这两种筛选方式可结合使用，可以看出，由于筛选后的特征数量变少，使得决策树模型的规模得以控制，此外，由于筛选出的特征可以是用户容易理解的特征，因此，会增强决策树模型的可理解性。

或者，作为另一示例，在步骤S120，决策树训练样本获取模块220还可针对所述预测样本的至少一部分特征所在的特征空间进行变换，以在变换后的特征空间中获得适合的决策树训练样本。通过这种方式，可使得获得的决策树训练样本能够生长出易于进行可视化展示的决策树模型，即，适应于在显示装置上输出的决策树模型，从而进一步改进了决策树模型的显示效果。具体说来，决策树训练样本获取模块220可对所述预测样本的至少一部分特征进行变换，将变换后的所述至少一部分特征作为所述决策树训练样本的特征，并基于相应得到的预测结果来获取所述决策树训练样本的标记。同样地，所述至少一部分特征可包括所述预测样本的特征之中起主要预测作用的特征和/或易于用户理解的特征。

这里，决策树训练样本获取模块220可鉴于所述决策树模型的预计规模和/或所述决策树模型的节点解释性，对所述预测样本的所述至少一部分特征进行变换。

具体说来，决策树训练样本获取模块220可针对待解释的预测模型的至少一部分输入特征(也就是预测样本的至少一部分特征)所在的特征空间进行变换，这里的特征空间变换可指示特征数量的变换，也可以指示特征内容的变换，还可以同时包括上述两个方面的变换。此外，可对特征空间整体进行变换，也可对特征空间中的任意一个或多个特征子空间进行变换。

通过特征空间变换，可以有助于控制决策树模型的节点数量(即，决策树模型的显示规模)，或者，也可以有助于理解决策树模型的节点含义。

本领域技术人员应清楚，样本源于相应的已知数据记录或待预测数据记录，其中，每条记录是关于一个事件或对象的描述，反映事件或对象在某方面的表现或性质的事项则可称为特征，由此可见，特征空间可包括N (其中，N为正整数)个维度，相应地，所述N个维度中的一部分特征维度可构成特征子空间，这里的所述一部分特征维度可对应于事件或对象在某些相似或相关方面的表现或性质，也可以对应于某连续值特征在离散化后得到的多个维度，还可以是任意抽取的一部分特征维度。

相应地，在进行特征变换时，决策树训练样本获取模块220可以将所述预测样本的至少一部分特征之中的至少一个特征子集分别变换为相应的至少一个变换特征子集。这里，每个特征子集可对应于所述预测样本的至少一部分特征所在的特征空间之中的一个特征子空间，而变换特征子集可对应于变换后的特征子空间中的特征向量。

作为示例，变换特征子集的特征数量可以少于变换前的相应特征子集的特征数量，也就是说，通过进行降维处理，可以控制决策树模型的规模，从而便于对决策树模型进行可视化地展示。除此之外，变换特征子集的特征数量也可以等于变换前的相应特征子集的特征数量。

作为降维处理的一种示例，决策树训练样本获取模块220可将所述预测样本的所述至少一部分特征之中的至少一个离散化特征子集变换为相应的至少一个连续特征。

这里的离散化特征子集可指的是对某连续取值的特征(或其采样值特征)进行离散化，从而产生的高维度离散特征空间。例如，假设待解释的预测模型用于预测顾客是否会购物，这里，所述预测模型的输入特征可包括关于顾客、卖家和商品等的各种属性信息。关于顾客年龄，可将连续取值的年龄表示为由4个特征组成的特征子集[A1，A2，A3，A4]，其中，当顾客年龄在0到19岁之间时，A1＝1，而其他特征(A2、A3、A4)取值为0；当顾客年龄在20到39岁之间时，A2＝1，而其他特征(A1、A3、A4)取值为0；当顾客年龄在40到59岁之间时，A3＝1，而其他特征(A1、A2、A4)取值为0；当顾客年龄在60岁以上时，A4＝1，而其他特征(A1、A2、A3)取值为0。

此外，这里的离散化特征子集也可以指示本身取值即为离散值(而非连续值的采样结果)的属性特征，例如，在上述预测示例中，例如，卖家商户编号可作为用于描述预测样本的一种属性，可以看出，关于卖家商户编号的特征具有高维离散特征空间，其维数对应于卖家的总数量。这里，在卖家商户编号特征所在的N维特征空间中(N表示卖家商户的总数，其为正整数)，第m个卖家商户编号的特征向量可表示为【S₁，S₂，S₃，…，S_i，…，S_N】，其中，当i等于m时，S_i＝1；当i不等于m时，S_i＝0，其中，1≤i≤N，1≤m≤N。

针对如上所述的离散化特征子集，决策树训练样本获取模块220可将其变换为相应的连续特征。这样，在训练出的决策树模型中，可减少节点的数目。

如上所述，所述离散化特征子集可指示预测样本的属性信息，作为优选方式，相应的连续特征可指示所述属性信息关于预测模型的预测目标的统计信息。

举例说来，在上述预测示例中，决策树训练样本获取模块220可将关于卖家商户编号的高维度离散特征变换为关于相应卖家商户编号的历史购买行为的概率统计特征。这里，如上所述，在训练出预测模型的训练样本集合中，每一条训练样本对应于某个特定顾客在特定卖家购买/未购买特定商品的历史购物记录。基于大量这样的历史记录，通过诸如机器学习等技术手段，得到了能够预测顾客是否会购物的预测模型。相应地，决策树训练样本获取模块220可在训练出预测模型的训练样本集合或该集合的适合子集上，得到各个卖家商户编号关于购物的求和、均值、方差、购买概率等统计信息，并将这种统计信息作为对应于卖家商户编号的变换特征。例如，与第4卖家商户编号对应的特征向量[0，0，0，1，…，0]可被转换为第4卖家商户编号关于购物情况的统计信息，例如，在第4卖家商户编号对应的卖家发生实际购物的统计概率值，例如，4％。

通过上述变换，一方面由于一维特征空间更易于划分成较少的节点，使得决策树模型的规模更适于显示，另一方面由于新的一维特征空间中的点表示的是相对于预测目标的统计信息，可确保用户可容易地理解决策树模型中每个节点的含义。相应地，用户可直观地理解整个原始预测模型的工作机制。

应注意，本发明的示例性实施例并非受限于上述方式，任何有助于决策树模型的展示和/或理解的特征变换方式均可应用于本发明。例如，在变换后的一维特征空间中，上述高维离散特征空间中的向量可被变换为其在训练出的预测模型(例如，逻辑回归模型)中的权重。由此可见，相应的连续特征可指示所述属性信息关于预测模型的预测目标的预测权重。

可以看出，在本发明的示例性实施例中，预测模型可基于高维度的离散特征空间来进行训练和应用，从而保证了预测模型的性能。此外，通过对预测模型的特征空间进行变换，使得能够训练出更易于理解和/或展示的决策树模型，从而帮助用户更直观地了解原模型核心的预测机制。

以上描述了关于通过特征降维处理来进行特征变换的一些优选示例，此外，可在不考虑特征数量的情况下针对特征内容进行变换，具体说来，变换前的特征子集可指示预测样本的属性信息，相应的变换特征子集可指示所述属性信息的统计信息或权重信息。

举例说来，可以将预测模型的预测样本的特征之中关于自然属性本身的特征(例如，年龄大小)变换为关于该自然属性与预测目标(例如，是否购买某商品)之间的关系的特征(例如，各年龄购买某商品的统计概率)。通过这种变换得到的特征子集相对于预测目标具有更好的线性关系，从而能够有效地减少决策树模型的节点数量。除此之外，还可将属性信息特征转换为预测模型中的相应权重或其他权重。

更具体来说，顾客的某项自然属性，例如年龄可作为用于描述样本属性的特征之一，预测模型可基于连续取值的顾客年龄(或按照划分区间而离散化取值的顾客年龄)连同其他输入特征而给出关于顾客是否会购物的预测结果。相应地，可将顾客的年龄大小变换为相应的年龄大小针对购物的统计概率。这里，在训练出预测模型的训练样本集合中，每一条训练样本对应于某个特定顾客在特定卖家购买/未购买特定商品的历史购物记录。基于大量这样的历史记录，通过诸如机器学习等技术手段，得到了能够预测顾客是否会购物的预测模型。相应地，可在训练出预测模型的训练样本集合或该集合的适合子集上，得到各个顾客年龄关于购物的求和、均值、方差、购买概率等统计信息，并将这种统计信息作为对应于顾客年龄的变换特征。例如，原始顾客年龄在0到19岁的，可变换为20％的购物概率；原始顾客年龄在20到39岁的，可变换为40％的购物概率；原始顾客年龄在40到59岁的，可变换为30％的购物概率；原始顾客年龄在60岁以上的，可变换为10％的购物概率。

可以看出，通过上述特征空间变换，得到的新特征相对于预测目标具有更好的线性关系，从而便于决策树模型的分支生成，进而有效地减少决策树模型的节点数量。

这里，由于决策树模型仅仅是用来帮助用户理解预测模型的展示内容，而真正进行预测的仍旧是原始的预测模型，因此，可忽略由于特征空间变换而带来的模型性能指标方面的差异。

再次参照图2和图3，基于步骤S120中所获取的决策树训练样本，就可以执行步骤S130，例如可以由决策树模型训练模块230，使用至少一个决策树训练样本来训练决策树模型。这里，决策树模型训练模块230可接收由决策树训练样本获取模块220所获取的决策树训练样本，并基于获取的决策树训练样本，利用决策树算法来拟合出与预测模型近似的决策树模型。

决策树是一种树形结构，其中每个内部节点表示一个属性上的测试，每个分支代表一个测试输出，每个叶节点代表一种类别。这里，可按照各种方式来建立决策树模型。

具体说来，在决策树模型的建立过程中，会应用一定的准则选择最佳属性进行分裂，使得根据判断节点得到的子树的类别尽可能得纯，也即最具区分力的属性。常见的属性信息度量准则包括信息增益、增益比率、基尼指数等，具体如下所述：

1、信息增益是针对一个一个的属性特征而言的，就是看一个特征X，系统有它和没它的时候信息量各是多少，两者的差值就是这个特征给系统带来的信息增益。每次选取特征的过程都是通过计算每个特征值划分数据集后的信息增益，然后选取信息增益最高的特征。

2、以信息增益进行分类决策时，存在偏向于取值较多的特征的问题。于是为了解决这个问题，有了信息增益比准则。即信息增益消除分裂信息量的影响。

3、基尼不纯度表示一个随机选中的样本在子集中被分错的可能性。基尼不纯度为这个样本被选中的概率乘以它被分错的概率。当一个节点中所有样本都是一个类时，基尼不纯度为零。

另外，由于展示需要，在训练决策树模型时，还可以预先设置关于决策树模型的预计规模的正则化项，相应地，在所预设的正则化项下进行决策树模型的训练。

由此可见，不论是否为了控制决策树模型的显示规模而对用于训练决策树模型的特征进行过筛选或变换，决策树模型训练模块230可通过预设的正则化项来控制决策树模型的规模。

作为示例，正则化项可以用来限制决策树模型的节点数量、层数和/或节点样本最小阈值。这样在预设的正则化项下进行决策树模型的训练，可以使得决策树模型易于理解和/或展示。

具体来说，在训练决策树模型的过程中，可以引入最小描述长度等度量模型复杂度的信息量，以降低所训练的决策树模型的复杂度。此外，还可通过直接限制决策树节点数量和/或层数等来限制决策树模型的复杂程度。

进一步地，为了防止由于限制决策树复杂度所导致的信息丢失，可以设置决策树模型中每个节点关联的样本个数的最小阈值(即，节点样本最小阈值)，使得在保留相同节点数的情况下，可以留下更多的信息。上述方法能够在限制决策树模型复杂度、保证决策树模型可解释的同时尽可能提升决策树模型的拟合效果和泛化能力。

在采用上述方式训练出决策树模型后，就可以执行步骤S140，例如可以由展示模块240，可视化地展示训练出的决策树模型。这里，展示模块240可对决策树模型进行各种视觉化处理，并且，可通过图3所示的装置自身中配置的显示器或外部显示器来显示经过视觉化处理的决策树模型，这里，所述外部显示器可通过接口、网络或其他方式连接到展示模块240，从而在展示模块240的驱动下显示决策树模型。

具体说来，展示模块240可以按照图形化或图表化(例如，树状图表)的形式向用户展示决策树模型。

图4示出了本发明一实施例的展示的决策树模型的示例。在图4中的(a)所展示的决策树模型涉及对于营销是否成功的预测问题，可以理解到，对于正负例分类(即营销成功与否)，影响最大的是学历特征。其次，在学历本科以上的样本中，性别对于样本分类的作用最为显著，而在学历本科以下的样本中，年龄对于样本分类的作用最为显著。以此类推，直到叶子节点判决出样本标记，即营销结果。

应注意，可采用任何适当的形式来显示用于解释预测机制的决策树模型，图4中的(b)使出了利用决策树模型来解释关于是否建议交易分期的预测模型的示例，其中，SEND表示预测正例，NO SEND表示预测负例，这里，通过将符合父节点条件的路径与不符合父节点条件的路径区分显示，能够有效地展示决策树模型的内容。例如，可将符合父节点条件的路径显示为一种颜色或深度，而将不符合父节点条件的路径显示为另外一种颜色或深度，从而明显区分出不同的分类路径。

具体说来，在图4中的(b)所示的决策树模型中，除了作为预测结果的端点“SEND”和“NO SEND”之外，每个中间节点表示针对某一条件的判断，其中，对于符合条件的“是”分支，采用某种统一的显示样式(例如，颜色、图案、深度等)进行显示，而对于不符合条件的“否”分支，采用另一种统一的显示样式(例如，颜色、图案、深度等)进行显示。通过这种方式，能够很简洁地展示出决策树模型的判断路径。

此外，在图4中的(b)所示的决策树模型的示例中，相关特征可均为连续取值的特征，这也确保了决策树模型具有适宜的显示规模。其中，MCC(商户类别码)分期概率是从原始的高维商户类别码特征空间中变换而来的，账户号码分期概率是从原始的高维账户号码特征空间中变换而来的。

可以看出，通过展示出的与原始模型相近似的决策树模型，用户能够更好地理解原始模型的预测机制，从而更好地使用模型进行数据挖掘。

优选地，展示模块240可通过剪枝处理来可视化地展示训练出的决策树模型，在剪枝处理中剪掉的节点不被展示或被隐藏展示。具体说来，在向用户展示决策树模型时，展示模块240还可以对决策树模型中的节点进行剪枝处理。其中，对于被剪掉的节点，展示模块240可以选择不展示，也可以被隐藏展示(即在用户对其执行点击操作时才进行展示)。

至此，结合图2到图4对本发明的对预测模型进行展示的过程做了详细说明。基于上述描述可知，对于待解释的预测模型，只需要对给定的样本能够利用该模型重构出样本标记，进而就可以利用决策树拟合的方法对该模型中的决策变量进行权重分析。因此，本发明的对预测模型进行展示的方案不仅适用于机器学习模型，对于其他传统带标记数据挖掘模型均可以适配。

应注意，上述预测模型展示装置可完全依赖计算机程序的运行来实现相应的功能，即，各个模块与计算机程序的功能架构中与各步骤相应，使得整个系统通过专门的软件包(例如，lib库)而被调用，以实现相应的模型展示功能。

另一方面，图3所示的各个模块也可以通过硬件、软件、固件、中间件、微代码或其任意组合来实现。当以软件、固件、中间件或微代码实现时，用于执行相应操作的程序代码或者代码段可以存储在诸如存储介质的计算机可读介质中，使得处理器可通过读取并运行相应的程序代码或者代码段来执行相应的操作。

这里，根据本发明示例性实施例的模型展示装置还可以实现为计算装置，该计算装置包括存储部件和处理器，存储部件中存储有计算机可执行指令集合，当所述计算机可执行指令集合被所述处理器执行时，执行上述预测模型展示方法。

具体说来，所述计算装置可以部署在服务器或客户端中，也可以部署在分布式网络环境中的节点装置上。此外，所述计算装置可以是PC计算机、平板装置、个人数字助理、智能手机、web应用或其他能够执行上述指令集合的装置。

这里，所述计算装置并非必须是单个的计算装置，还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。计算装置还可以是集成控制系统或系统管理器的一部分，或者可被配置为与本地或远程(例如，经由无线传输)以接口互联的便携式电子装置。

在所述计算装置中，处理器可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制，处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

上述模型展示方法中所描述的某些操作可通过软件方式来实现，某些操作可通过硬件方式来实现，此外，还可通过软硬件结合的方式来实现这些操作。

处理器可运行存储在存储部件之一中的指令或代码，其中，所述存储部件还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收，其中，所述网络接口装置可采用任何已知的传输协议。

存储部件可与处理器集成为一体，例如，将RAM或闪存布置在集成电路微处理器等之内。此外，存储部件可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储部件和处理器可在操作上进行耦合，或者可例如通过I/O端口、网络连接等互相通信，使得处理器能够读取存储在存储部件中的文件。

此外，所述计算装置还可包括视频显示器(诸如，液晶显示器)和用户交互接口(诸如，键盘、鼠标、触摸输入装置等)。计算装置的所有组件可经由总线和/或网络而彼此连接。

上述模型展示方法所涉及的操作可被描述为各种互联或耦合的功能块或功能示图。然而，这些功能块或功能示图可被均等地集成为单个的逻辑装置或按照非确切的边界进行操作。

具体说来，如上所述，根据本发明示例性实施例的用于对预测模型进行展示的计算装置可包括存储部件和处理器，存储部件中存储有计算机可执行指令集合，当所述计算机可执行指令集合被所述处理器执行时，执行下述步骤：获取预测模型针对至少一个预测样本得到的至少一个预测结果；基于所述至少一个预测样本和所述至少一个预测结果来获取用于训练决策树模型的至少一个决策树训练样本，其中，所述决策树模型用于拟合所述预测模型；使用所述至少一个决策树训练样本来训练决策树模型；以及可视化地展示训练出的决策树模型。

应注意，以上已经结合图2描述了根据本发明示例性实施例的模型展示方法的各处理细节，这里将不再赘述计算装置执行各步骤时的处理细节。

此外，基于本发明所获取的用于拟合预测模型的决策树模型，还可以用来调整预测模型。

具体说来，图5示出了本发明一实施例的调整预测模型的方法的示意性流程图，图6示出了实现图5所示方法中各个流程步骤的装置的示意性方框图。下面结合图5、图6对本发明的调整预测模型的方案做以详细说明。

参见图5、图6，在使用上文结合图2、图3所述的方案对预测模型进行展示后，即在步骤S140后，还可以执行步骤S310，例如可以由调整模块410，响应于用户针对所展示的决策树模型执行的输入操作，调整训练出预测模型的至少一个预测模型训练样本。

在步骤S320，例如可以由预测模型训练模块420，使用调整后的预测模型训练样本来重新训练预测模型。

具体来说，在使用上文结合图2、图3所述的方案训练用来解释预测模型的决策树模型的过程中，可以将展示的决策树模型中的各个节点设计为交互控件，使得用户能够通过在决策树模型上执行操作而了解到更多的数据信息或完成更多的相关设置。例如，可在用户点击某个节点时显示出该节点相关特征的统计分布或其他信息，这些显示内容可显示在弹出框或其他位于所述节点附近的区域中。此外，用户还可以对对所展示的决策树模型中各节点进行输入操作，如增加、删除、变换某些特征，响应于用户的输入操作，就可以对预测模型的训练样本的特征重新调整，然后使用调整后的训练样本的特征，重新训练预测模型。

综上，借助近似的决策树模型对预测模型进行解释可帮助用户理解到预测模型的决策机制，相应地，可在诸如建模平台等训练模型的系统中增加模型解释功能，一方面能够帮助系统的用户及时了解所训练出的模型，另一方面还可利用决策树模型反映出的信息来针对性地调整模型训练的细节。

类似地，根据本发明示例性实施例的模型调整装置也可以实现为计算装置，具体说来，该计算装置可包括存储部件和处理器，存储部件中存储有计算机可执行指令集合，当所述计算机可执行指令集合被所述处理器执行时，执行下述步骤：获取预测模型针对至少一个预测样本得到的至少一个预测结果；基于所述至少一个预测样本和所述至少一个预测结果来获取用于训练决策树模型的至少一个决策树训练样本，其中，所述决策树模型用于拟合所述预测模型；使用所述至少一个决策树训练样本来训练决策树模型；可视化地展示训练出的决策树模型；响应于用户针对所展示的决策树模型执行的输入操作，调整训练出所述预测模型的至少一个预测模型训练样本；以及使用调整后的至少一个预测模型训练样本来重新训练所述预测模型。

应注意，以上已经结合图5描述了根据本发明示例性实施例的模型调整方法的各处理细节，这里将不再赘述计算装置执行各步骤时的处理细节。

上文中已经参考附图详细描述了根据本发明的对预测模型进行展示的方法、装置及调整预测模型的方法、装置。

此外，根据本发明的方法还可以实现为一种计算机程序产品，该计算机程序产品包括计算机可读介质，在该计算机可读介质上存储有用于执行本发明的上述方法中限定的上述功能的计算机程序。本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。

附图中的流程图和框图显示了根据本发明的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其他普通技术人员能理解本文披露的各实施例。

Claims

一种对预测模型进行展示的方法，包括：

获取预测模型针对至少一个预测样本得到的至少一个预测结果；

基于所述至少一个预测样本和所述至少一个预测结果来获取用于训练决策树模型的至少一个决策树训练样本，其中，所述决策树模型用于拟合所述预测模型；

使用所述至少一个决策树训练样本来训练决策树模型；以及

可视化地展示训练出的决策树模型。
根据权利要求1所述的方法，其中，在基于所述至少一个预测样本和所述至少一个预测结果来获取用于训练决策树模型的至少一个决策树训练样本的步骤中，将所述预测样本的至少一部分特征作为所述决策树训练样本的特征，并基于相应得到的预测结果来获取所述决策树训练样本的标记；或者

在基于所述至少一个预测样本和所述至少一个预测结果来获取用于训练决策树模型的至少一个决策树训练样本的步骤中，对所述预测样本的至少一部分特征进行变换，将变换后的所述至少一部分特征作为所述决策树训练样本的特征，并基于相应得到的预测结果来获取所述决策树训练样本的标记。
根据权利要求2所述的方法，其中，所述预测样本的所述至少一部分特征包括所述预测样本的特征之中起主要预测作用的特征和/或易于用户理解的特征。
根据权利要求2所述的方法，其中，鉴于所述决策树模型的预计规模和/或所述决策树模型的节点解释性，对所述预测样本的所述至少一部分特征进行变换。
根据权利要求4所述的方法，其中，对所述预测样本的所述至少一部分特征进行变换的步骤包括：将所述预测样本的所述至少一部分特征之中的至少一个特征子集分别变换为相应的至少一个变换特征子集。
根据权利要求5所述的方法，其中，所述变换特征子集的特征数量少于或等于变换前的相应特征子集的特征数量。
根据权利要求5所述的方法，其中，变换前的特征子集指示预测样本的属性信息，相应的变换特征子集指示所述属性信息的统计信息或权重信息。
根据权利要求2所述的方法，其中，对所述预测样本的至少一部分特征进行变换的步骤包括：将所述预测样本的所述至少一部分特征之中的至少一个离散化特征子集变换为相应的至少一个连续特征。
根据权利要求8所述的方法，其中，所述离散化特征子集指示预测样本的属性信息，

其中，相应的连续特征指示所述属性信息关于预测模型的预测目标的统计信息；或者，相应的连续特征指示所述属性信息关于预测模型的预测目标的预测权重。
根据权利要求1所述的方法，其中，在获取预测模型针对至少一个预测样本得到的至少一个预测结果的步骤之前，所述方法还包括：

基于训练出所述预测模型的至少一个预测模型训练样本来得到所述至少一个预测样本，并将所述至少一个预测样本输入所述预测模型。
根据权利要求1所述的方法，其中，在使用所述至少一个决策树训练样本来训练决策树模型的步骤中，在预设的关于决策树模型的预计规模的正则化项下进行决策树模型的训练。
根据权利要求11所述的方法，其中，所述正则化项用于限制决策树模型的节点数量、层数和/或节点样本最小阈值。
根据权利要求1所述的方法，其中，可视化地展示训练出的决策树模型的步骤包括：通过剪枝处理来可视化地展示训练出的决策树模型，其中，在剪枝处理中剪掉的节点不被展示或被隐藏展示。
一种调整预测模型的方法，包括：

使用权利要求1至13中任何一项所述的方法对所述预测模型进行展示；

响应于用户针对所展示的决策树模型执行的输入操作，调整训练出所述预测模型的至少一个预测模型训练样本；以及

使用调整后的至少一个预测模型训练样本来重新训练所述预测模型。
一种对预测模型进行展示的装置，包括：

预测结果获取模块，用于获取预测模型针对至少一个预测样本得到的至少一个预测结果；

决策树训练样本获取模块，用于基于所述至少一个预测样本和所述至少一个预测结果来获取用于训练决策树模型的至少一个决策树训练样本，其中，所述决策树模型用于拟合所述预测模型；

决策树模型训练模块，用于使用所述至少一个决策树训练样本来训练决策树模型；以及

展示模块，用于可视化地展示训练出的决策树模型。
根据权利要求15所述的装置，其中，所述决策树训练样本获取模块将所述预测样本的至少一部分特征作为所述决策树训练样本的特征，并基于相应得到的预测结果来获取所述决策树训练样本的标记；或者

所述决策树训练样本获取模块对所述预测样本的至少一部分特征进行变换，将变换后的所述至少一部分特征作为所述决策树训练样本的特征，并基于相应得到的预测结果来获取所述决策树训练样本的标记。
根据权利要求16所述的装置，其中，所述预测样本的所述至少一部分特征包括所述预测样本的特征之中起主要预测作用的特征和/或易于用户理解的特征。
根据权利要求16所述的装置，其中，所述决策树训练样本获取模块鉴于所述决策树模型的预计规模和/或所述决策树模型的节点解释性，对所述预测样本的所述至少一部分特征进行变换。
根据权利要求18所述的装置，其中，所述决策树训练样本获取模块将所述预测样本的所述至少一部分特征之中的至少一个特征子集分别变换为相应的至少一个变换特征子集。
根据权利要求19所述的装置，其中，所述变换特征子集的特征数量少于或等于变换前的相应特征子集的特征数量。
根据权利要求19所述的装置，其中，变换前的特征子集指示预测样本的属性信息，相应的变换特征子集指示所述属性信息的统计信息或权重信息。
根据权利要求16所述的装置，其中，所述决策树训练样本获取模块将所述预测样本的所述至少一部分特征之中的至少一个离散化特征子集变换为相应的至少一个连续特征。
根据权利要求22所述的装置，其中，所述离散化特征子集指示预测样本的属性信息，

其中，相应的连续特征指示所述属性信息关于预测模型的预测目标的统计信息；或者，相应的连续特征指示所述属性信息关于预测模型的预测目标的预测权重。
根据权利要求15所述的装置，其中，所述预测结果获取模块基于训练出所述预测模型的至少一个预测模型训练样本来得到所述至少一个预测样本，并将所述至少一个预测样本输入所述预测模型，以得到所述至少一个预测结果。
根据权利要求15所述的装置，其中，所述决策树模型训练模块在预设的关于决策树模型的预计规模的正则化项下进行决策树模型的训练。
根据权利要求25所述的装置，其中，所述正则化项用于限制决策树模型的节点数量、层数和/或节点样本最小阈值。
根据权利要求15所述的装置，其中，所述展示模块通过剪枝处理来可视化地展示训练出的决策树模型，在剪枝处理中剪掉的节点不被展示或被隐藏展示。
一种调整预测模型的装置，包括：

权利要求15至27中任何一项所述的对预测模型进行展示的装置，用于对所述预测模型进行展示；

调整模块，用于响应于用户针对所展示的决策树模型执行的输入操作，调整训练出所述预测模型的至少一个预测模型训练样本；以及

预测模型训练模块，用于使用调整后的至少一个预测模型训练样本来重新训练所述预测模型。
一种对预测模型进行展示的计算装置，包括存储部件和处理器，存储部件中存储有计算机可执行指令集合，当所述计算机可执行指令集合被所述处理器执行时，执行下述步骤：

获取预测模型针对至少一个预测样本得到的至少一个预测结果；

基于所述至少一个预测样本和所述至少一个预测结果来获取用于训练决策树模型的至少一个决策树训练样本，其中，所述决策树模型用于拟合所述预测模型；

使用所述至少一个决策树训练样本来训练决策树模型；以及

可视化地展示训练出的决策树模型。
一种调整预测模型的计算装置，包括存储部件和处理器，存储部件中存储有计算机可执行指令集合，当所述计算机可执行指令集合被所述处理器执行时，执行下述步骤：

获取预测模型针对至少一个预测样本得到的至少一个预测结果；

基于所述至少一个预测样本和所述至少一个预测结果来获取用于训练决策树模型的至少一个决策树训练样本，其中，所述决策树模型用于拟合所述预测模型；

使用所述至少一个决策树训练样本来训练决策树模型；

可视化地展示训练出的决策树模型；

响应于用户针对所展示的决策树模型执行的输入操作，调整训练出所述预测模型的至少一个预测模型训练样本；以及

使用调整后的至少一个预测模型训练样本来重新训练所述预测模型。