WO2018120726A1

WO2018120726A1 - 基于数据挖掘的建模方法、系统、电子装置及存储介质

Info

Publication number: WO2018120726A1
Application number: PCT/CN2017/091374
Authority: WO
Inventors: 陈依云
Original assignee: 平安科技（深圳）有限公司
Priority date: 2016-12-30
Filing date: 2017-06-30
Publication date: 2018-07-05
Also published as: CN106874933A

Abstract

本发明涉及一种基于数据挖掘的建模方法、系统、电子装置及计算机可读存储介质，所述基于数据挖掘的建模方法包括：在收到待筛选的备选指标后，将所述备选指标均分成K个指标群；计算各指标群中每一备选指标的群内距离D1和群间距离D2，根据所述群内距离D1和群间距离D2并基于预定的计算规则计算各备选指标对应的筛选评价值A；根据所述筛选评价值A选择备选指标，基于所述K值并利用所选择的备选指标建立指标模型。本发明能够准确地选出相关性最弱的备选指标，提高建模效率。

Description

基于数据挖掘的建模方法、系统、电子装置及存储介质

优先权申明

本申请基于巴黎公约申明享有2016年12月30日递交的申请号为CN201611263812.0、名称为“基于数据挖掘的建模方法及装置”中国专利申请的优先权，该中国专利申请的整体内容以参考的方式结合在本申请中。

技术领域

本发明涉及数据挖掘技术领域，尤其涉及一种基于数据挖掘的建模方法、系统、电子装置及计算机可读存储介质。

背景技术

目前，在与数据挖掘相关的建模中，通常收集到的备选建模指标数量较多，有时多达200个以上，但通常对建模有效的一般只有一部分，例如在200个备选建模指标中可能只有30个是有效的。为了从大量的备选建模指标中筛选出建模所需的有效指标，现有的方法是人工手动选出高相关度的指标进行建模，这种人工选择的方法由于带有主观性，因此不能准确地选出建模的有效指标，且建模的效率低。

发明内容

本发明的目的在于提供一种基于数据挖掘的建模方法、系统、电子装置及计算机可读存储介质，旨在准确地选出相关性最弱的备选指标，提高建模效率。

为实现上述目的，本发明提供一种基于数据挖掘的建模方法，所述基于数据挖掘的建模方法包括：

S1，在收到待筛选的备选指标后，将所述备选指标均分成K个指标群；

S2，计算各指标群中每一备选指标的群内距离D1和群间距离D2，根据所述群内距离D1和群间距离D2并基于预定的计算规则计算各备选指标对应的筛选评价值A；

S3，根据所述筛选评价值A选择备选指标，基于所述K值并利用所选择的备选指标建立指标模型。

为实现上述目的，本发明还提供一种基于数据挖掘的建模装置，所述基于数据挖掘的建模装置包括：

均分模块，用于在收到待筛选的备选指标后，将所述备选指标均分成K个指标群；

计算模块，用于计算各指标群中每一备选指标的群内距离D1和群间距离D2，根据所述群内距离D1和群间距离D2并基于预定的计算规则计算各备选指标对应的筛选评价值A；

建立模块，用于根据所述筛选评价值A选择备选指标，基于所述K值并利用所选择的备选指标建立指标模型。

为实现上述目的，本发明还提供一种电子装置，所述电子装置包括存储器及与存储器连接的处理器，所述存储器存储有可在所述处理器上运行的基于数据挖掘的建模系统，所述基于数据挖掘的建模系统被所述处理器执行时实现如下步骤：

为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有基于数据挖掘的建模系统，所述基于数据挖掘的建模系统被处理器执行时实现以下步骤：

本发明的有益效果是：本发明在将备选指标均分为若干个指标群后，首先计算各指标群中每一备选指标的群内距离D1和群间距离D2，根据群内距离D1和群间距离D2计算得到筛选评价值A，由于筛选评价值A综合考虑备选指标的群内距离D1和群间距离D2，因此，根据筛选评价值A可以选出相关性最小的备选指标，即选出的备选指标为最具有代表性或者最有效的指标，不需人工手动选取，选取的准确性高，且建模效率高。

附图说明

图1为本发明基于数据挖掘的建模方法第一实施例的流程示意图；

图2为图1所示步骤S2的细化流程示意图；

图3为图1所示步骤S3的细化流程示意图；

图4为本发明基于数据挖掘的建模方法第二实施例的流程示意图；

图5为本发明基于数据挖掘的建模方法的一实施例的应用环境示意图；

图6为本发明基于数据挖掘的建模系统一实施例的结构示意图；

图7为图6所示计算模块的结构示意图；

图8为图6所示建立模块的结构示意图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

如图1所示，图1为本发明基于数据挖掘的建模方法一实施例的流程示意图，该基于数据挖掘的建模方法应用于电子装置中，包括以下步骤：

步骤S1，在收到待筛选的备选指标后，将所述备选指标均分成K个指标群；

本实施例在接收到待筛选的备选指标后，将备选指标随机均分成K个指标群，以对备选指标进行聚类分析。其中，K为大于1的自然数，例如，共有150个备选指标，若K为10，则随机均分成10个指标群，每个指标群中有15个备选指标。

其中，在接收到150个备选指标之前，例如初始备选指标有200个，可以通过逐步回归向前向后的方法，设置合适的参数来初步选出150个备选指标。

其中，以建立客户是否发生理赔的模型为例，备选指标包括人口统计特征、生命阶段特征、客户价值信息、产品持有情况、投保行为习惯、历史理赔相关信息等等。

步骤S2，计算各指标群中每一备选指标的群内距离D1和群间距离D2，根据所述群内距离D1和群间距离D2并基于预定的计算规则计算各备选指标对应的筛选评价值A；

本实施例中，群内距离D1指的是备选指标变量与群中心集合的相关系数，该群内距离D1越大，则说明该备选指标与群中心集合的相关性越大。群中心集合由各指标群中的备选指标的均值决定。

群间距离D2指的是备选指标变量与离群最近的群的中心的相关系数，该群间距离D2越小，则说明该备选指标与离群最近的群的中心的相关性越大。

根据各备选指标的群内距离D1和群间距离D2计算筛选评价值A时，同时考虑各备选指标的群内距离D1和群间距离D2，所计算得出的筛选评价值A具备综合性及目的性。

步骤S3，根据所述筛选评价值A选择备选指标，基于所述K值并利用所选择的备选指标建立指标模型。

本实施例中的筛选评价值A，在根据筛选评价值A选择备选指标时，可选择出相关性最小的备选指标，例如选择筛选评价值A最大的对应的备选指标及选择筛选评价值A最小的对应的备选指标，选择筛选评价值A最大的对应的10个备选指标及筛选评价值A最小的对应的10个备选指标。

另外，所建立的模型例如可以是逻辑回归模型、决策树模型或神经网络模型等。根据指标群的数量K建立模型，例如，在K值较小时可以建立某种模型或某几种，当K值大于某个阈值时可以建立另一种模型或另几种模型，即主要根据指标群的数量来确定所建立的模型。

与现有技术相比，本实施例在将备选指标均分为若干个指标群后，首先计算各指标群中每一备选指标的群内距离D1和群间距离D2，根据群内距离 D1和群间距离D2计算得到筛选评价值A，由于筛选评价值A综合考虑备选指标的群内距离D1和群间距离D2，因此，根据筛选评价值A可以选出相关性最小的备选指标，即选出的备选指标为最具有代表性或者最有效的指标，不需人工手动选取，选取的准确性高，且建模效率高。

在一优选的实施例中，如图2所示，在上述图1的实施例的基础上，步骤S2包括：

S21，计算每一指标群下的备选指标的均值，根据所述均值获取群中心集合，根据所述群中心集合计算每一备选指标与所述群中心集合的距离，以计算得到的距离作为所述群内距离D1；

S22，计算每一备选指标所在的指标群与其他各指标群的中心距离，从所述中心距离中获取距离最小的对应的指标群，根据所获取的指标群计算所述群间距离D2；

S23，计算所述所述筛选评价值A：A＝(1-D1)/(1-D2)。

本实施例中，假设有5个备选指标变量X1、X2、X3、X4、X5，其中Xi＝(Xi1，Xi2，…，Xin)，n＝10，如下表1所示：

X1	X2	X3	X4	X5
-0.02106	-0.02075	-0.00183	-0.2542	0.517368
-0.02106	-0.02075	-0.00183	0.305505	0.367093
-1.54935	-1.54959	-1.49993	-1.00909	-0.51768
-0.02106	-0.02075	0.316522	0.305505	-0.03013
-1.54935	-1.54959	-1.49993	-1.00909	-0.03013
-1.54935	-1.54959	-1.49993	-0.2542	0.556034
-1.54935	-1.54959	-1.49993	-0.2542	-0.8245
0.936479	0.937007	0.909081	1.020655	0.556034
-1.54935	-1.54959	-1.49993	-0.2542	0.367093
-0.50968	-0.50945	-0.47902	-0.2542	-0.51768

表1

其中，这五个备选指标变量组合的群中心是5个备选指标变量的各分量的均值：

M＝(m₁，m₂，…，m_n)，其中

其中，m₁＝(-0.02106-0.02075-0.00183-0.2542+0.517368)/5＝0.043906；m₂＝(-0.02106-0.02075-0.00183+0.305505+0.367093)/5＝0.125792；此时可以计算出这五个备选指标变量的中心(即群中心集合)为：

M＝(0.043906，0.125792，-1.22513，0.110018，-1.12762，-0.85941，-1.13551，0.871851，-0.8972，-0.45401)。

由上可以得到，备选指标变量X1与群中心的距离：

设

是备选指标变量X1的均值，

就是群中心集合M的均值，n是样本的个数(指标群的数量)，可以计算出X1的均值为-0.73831，M的均值为-0.45473。该距离D1即为备选指标变量X1的群内距离D1。以此类推，可以计算得到各备选指标变量的群内距离D1。

在计算群间距离时，首先计算备选指标变量所在的指标群中心与其他指标群中心的距离：

这里m_pi是各指标群的中心M_P的各个分量，m_qi是其他指标群的中心M_Q的各个分量。

从上述距离d中找出备选指标变量与离群最近的指标群的中心，然后根据备选指标变量与群中心的距离公式计算出备选指标变量的群间距离：

最后，计算筛选评价值A：A＝(1-D1)/(1-D2)，另外，筛选评价值A也可以用这种方法计算得到：A＝(1-D2)/(1-D1)。

在一优选的实施例中，如图3所示，在上述图1的实施例的基础上，上述步骤S3包括：

S31，在每一指标群中，选出最大筛选评价值对应的至少一个备选指标和最小筛选评价值对应的至少一个备选指标；

S32，若所述K值大于等于预设阈值时，则利用各指标群挑选出的备选指标建立预定的一指标模型；

S33，若所述K值小于预设阈值时，则增大所述K值，重新计算筛选评价值并执行步骤S31，以利用各指标群选出的备选指标建立预定的另一指标模型。

本实施例中，可以为每一指标群选出筛选评价值最大的至少一个备选指标和筛选评价值最小的至少一个备选指标，以使得所选出的备选指标之间的相关性最弱。如果所选出的备选指标之间的相关性最弱，则所选出的备选指标为最具有代表性或者最有效的指标。

本实施例中，如果K值大于等于预设阈值(例如预设阈值为15)时，则利用各指标群挑选出的备选指标建立预定的一指标模型；若K小于预设阈值，则将K增加1，并重新将备选指标均分成(K+1)个指标群，然后计算对应的群内距离D1、群间距离D2及筛选评价值A，根据筛选评价值A选择备选指标，以建立另一个预先确定的模型。

在一优选的实施例中，如图4所示，在上述图1的实施例的基础上，在上述步骤S3之后还包括：

S4，利用预定的验证数据样本对所建立的指标模型进行验证，将验证后准确率最高的指标模型作为基准模型进行应用。

本实施例中，在建立模型之后，可以对模型的准确性进行验证。例如可以利用预先确定的验证数据样本对建立的各个模型进行验证，以确定各个模型对应的准确率，然后将准确率最高的模型作为基准模型进行应用。

优选地，如果准确率最高的指标模型的数量为1，则将该准确率最高的指标模型作为基准模型进行应用；

若准确率最高的指标模型的数量大于1，则随机选择一准确率最高的指标模型作为基准模型进行应用，或者，增加验证数据样本的数量，直至准确率最高的指标模型的数量为1，并将该准确率最高的指标模型作为基准模型进行应用。

如图5所示，是本发明基于数据挖掘的建模方法的较佳实施例的应用环境示意图。该应用环境示意图包括电子装置1及终端设备2。电子装置1可以通过网络、近场通信技术等适合的技术与终端设备2进行数据交互。

所述终端设备2包括，但不限于，任何一种可与用户通过键盘、鼠标、遥控器、触摸板或者声控设备等方式进行人机交互的电子产品，例如，个人计算机、平板电脑、智能手机、个人数字助理(Personal Digital Assistant，PDA)、游戏机、交互式网络电视(Internet Protocol Television,IPTV)、智能式穿戴式设备、导航装置等等的可移动设备，或者诸如数字TV、台式计算机、笔记本、服务器等等的固定终端。

该电子装置1是一种能够按照事先设定或者存储的指令，自动进行数值计算和/或信息处理的设备。所述电子装置1可以是计算机、也可以是单个网络服务器、多个网络服务器组成的服务器组或者基于云计算的由大量主机或者网络服务器构成的云，其中云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个超级虚拟计算机。

在本实施例中，电子装置1可包括，但不仅限于，可通过系统总线相互通信连接的存储器11、处理器12及网络接口13，存储器11存储有可在处理器12上运行的基于数据挖掘的建模系统。需要指出的是，图5仅示出了具有组件11-13的电子装置1，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

其中，存储设备11包括内存及至少一种类型的可读存储介质。内存为电子装置1的运行提供缓存；可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等的非易失性存储介质。在一些实施例中，可读存储介质可以是电子装置1的内部存储单元，例如该电子装置1的硬盘；在另一些实施例中，该非易失性存储介质也可以是电子装置1的外部存储设备，例如电子装置1上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。本实施例中，存储设备11的可读存储介质通常用于存储安装于电子装置1的操作系统和各类应用软件，例如本发明一实施例中的基于数据挖掘的建模系统的程序代码等。此外，存储设备11还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器12在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器12通常用于控制所述电子装置1的总体操作，例如执行与所述终端设备2进行数据交互或者通信相关的控制和处理等。本实施例中，所述处理器12用于运行所述存储器11中存储的程序代码或者处理数据，例如运行基于数据挖掘的建模系统等。

所述网络接口13可包括无线网络接口或有线网络接口，该网络接口13通常用于在所述电子装置1与其他电子设备之间建立通信连接。本实施例中，网络接口13主要用于将电子装置1与一个或多个终端设备2相连，在电子装置1与一个或多个终端设备2之间建立数据传输通道和通信连接。

所述基于数据挖掘的建模系统存储在存储器11中，包括至少一个存储在存储器11中的计算机可读指令，该至少一个计算机可读指令可被处理器12执行，以实现本发明各实施例的基于数据挖掘的建模的方法；如后续所述，该至少一个计算机可读指令依据其各部分所实现的功能不同，可被划为不同的逻辑模块。

所述基于数据挖掘的建模系统被所述处理器12执行时实现如下步骤：在收到待筛选的备选指标后，将所述备选指标均分成K个指标群；计算各指标群中每一备选指标的群内距离D1和群间距离D2，根据所述群内距离D1和群间距离D2并基于预定的计算规则计算各备选指标对应的筛选评价值A；根据所述筛选评价值A选择备选指标，基于所述K值并利用所选择的备选指标建立指标模型，能够准确地选出相关性最弱的备选指标，提高建模效率。

如图6所示，图6为本发明基于数据挖掘的建模系统一实施例的结构示意图，所述基于数据挖掘的建模系统运行于电子装置中，所述基于数据挖掘的建模系统根据其不同的功能，可以划分为多个功能模块，该基于数据挖掘的建模系统包括：

均分模块101，用于在收到待筛选的备选指标后，将所述备选指标均分成K个指标群；

计算模块102，用于计算各指标群中每一备选指标的群内距离D1和群间距离D2，根据所述群内距离D1和群间距离D2并基于预定的计算规则计算各备选指标对应的筛选评价值A；

建立模块103，用于根据所述筛选评价值A选择备选指标，基于所述K值并利用所选择的备选指标建立指标模型。

在一优选的实施例中，如图7所示，在上述图6的实施例的基础上，上述计算模块102包括：

第一计算单元1021，用于计算每一指标群下的备选指标的均值，根据所述均值获取群中心集合，根据所述群中心集合计算每一备选指标与所述群中心集合的距离，以计算得到的距离作为所述群内距离D1；

第二计算单元1022，用于计算每一备选指标所在的指标群与其他各指标群的中心距离，从所述中心距离中获取距离最小的对应的指标群，根据所获取的指标群计算所述群间距离D2；

第三计算单元1023，用于计算所述筛选评价值A：A＝(1-D1)/(1-D2)。

本实施例中，假设有5个备选指标变量X1、X2、X3、X4、X5，其中Xi＝(Xi1，Xi2，…，Xin)，n＝10，如上表1所示。

M＝(m₁，m₂，…，m_n)，其中

由上可以得到，备选指标变量X1与群中心的距离：

设

是备选指标变量X1的均值，

在一优选的实施例中，如图8所示，在上述图6的实施例的基础上，建立模块103

选择单元1031，用于在每一指标群中，选出最大筛选评价值对应的至少一个备选指标和最小筛选评价值对应的至少一个备选指标；

第一建立单元1032，用于若所述K值大于等于预设阈值时，则利用各指标群挑选出的备选指标建立预定的一指标模型；

第二建立单元1033，用于若所述K值小于预设阈值时，则增大所述K值，重新计算筛选评价值并选出的备选指标，以利用各指标群选出的备选指标建立预定的另一指标模型。

在一优选的实施例中，在上述图6的实施例的基础上，所述基于数据挖掘的建模系统还包括：验证模块，用于利用预定的验证数据样本对所建立的指标模型进行验证，将验证后准确率最高的指标模型作为基准模型进行应用。

优选地，验证模块具体用于若准确率最高的指标模型的数量为1，则将该准确率最高的指标模型作为基准模型进行应用；若准确率最高的指标模型的数量大于1，则随机选择一准确率最高的指标模型作为基准模型进行应用，或者，增加验证数据样本的数量，直至准确率最高的指标模型的数量为1，并将该准确率最高的指标模型作为基准模型进行应用。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

一种基于数据挖掘的建模方法，其特征在于，所述基于数据挖掘的建模方法包括：

S1，在收到待筛选的备选指标后，将所述备选指标均分成K个指标群；

S2，计算各指标群中每一备选指标的群内距离D1和群间距离D2，根据所述群内距离D1和群间距离D2并基于预定的计算规则计算各备选指标对应的筛选评价值A；

S3，根据所述筛选评价值A选择备选指标，基于所述K值并利用所选择的备选指标建立指标模型。
根据权利要求1所述的基于数据挖掘的建模方法，其特征在于，所述步骤S2包括：

S21，计算每一指标群下的备选指标的均值，根据所述均值获取群中心集合，根据所述群中心集合计算每一备选指标与所述群中心集合的距离，以计算得到的距离作为所述群内距离D1；

S22，计算每一备选指标所在的指标群与其他各指标群的中心距离，从所述中心距离中获取距离最小的对应的指标群，根据所获取的指标群计算所述群间距离D2；

S23，计算所述筛选评价值A：A＝(1-D1)/(1-D2)。
根据权利要求2所述的基于数据挖掘的建模方法，其特征在于，所述步骤S3包括：

S31，在每一指标群中，选出最大筛选评价值对应的至少一个备选指标和最小筛选评价值对应的至少一个备选指标；

S32，若所述K值大于等于预设阈值时，则利用各指标群挑选出的备选指标建立预定的一指标模型；

S33，若所述K值小于预设阈值时，则增大所述K值，重新计算筛选评价值并执行步骤S31，以利用各指标群选出的备选指标建立预定的另一指标模型。
根据权利要求1至3任一项所述的基于数据挖掘的建模方法，其特征在于，所述步骤S3之后还包括：

S4，利用预定的验证数据样本对所建立的指标模型进行验证，将验证后准确率最高的指标模型作为基准模型进行应用。
根据权利要求4所述的基于数据挖掘的建模方法，其特征在于，所述步骤S4包括：

若准确率最高的指标模型的数量为1，则将该准确率最高的指标模型作为基准模型进行应用；

若准确率最高的指标模型的数量大于1，则随机选择一准确率最高的指标模型作为基准模型进行应用，或者，增加验证数据样本的数量，直至准确率最高的指标模型的数量为1，并将该准确率最高的指标模型作为基准模型进行应用。
一种基于数据挖掘的建模系统，其特征在于，所述基于数据挖掘的建模系统包括：

均分模块，用于在收到待筛选的备选指标后，将所述备选指标均分成K个指标群；

计算模块，用于计算各指标群中每一备选指标的群内距离D1和群间距离D2，根据所述群内距离D1和群间距离D2并基于预定的计算规则计算各备选指标对应的筛选评价值A；

建立模块，用于根据所述筛选评价值A选择备选指标，基于所述K值并利用所选择的备选指标建立指标模型。
根据权利要求6所述的基于数据挖掘的建模系统，其特征在于，所述计算模块包括：

第一计算单元，用于计算每一指标群下的备选指标的均值，根据所述均值获取群中心集合，根据所述群中心集合计算每一备选指标与所述群中心集合的距离，以计算得到的距离作为所述群内距离D1；

第二计算单元，用于计算每一备选指标所在的指标群与其他各指标群的中心距离，从所述中心距离中获取距离最小的对应的指标群，根据所获取的指标群计算所述群间距离D2；

第三计算单元，用于计算所述筛选评价值A：A＝(1-D1)/(1-D2)。
根据权利要求7所述的基于数据挖掘的建模系统，其特征在于，所述建立模块包括：

选择单元，用于在每一指标群中，选出最大筛选评价值对应的至少一个备选指标和最小筛选评价值对应的至少一个备选指标；

第一建立单元，用于若所述K值大于等于预设阈值时，则利用各指标群挑选出的备选指标建立预定的一指标模型；

第二建立单元，用于若所述K值小于预设阈值时，则增大所述K值，重新计算筛选评价值并选出的备选指标，以利用各指标群选出的备选指标建立预定的另一指标模型。
根据权利要求6至8任一项所述的基于数据挖掘的建模系统，其特征在于，所述基于数据挖掘的建模系统还包括：验证模块，用于利用预定的验证数据样本对所建立的指标模型进行验证，将验证后准确率最高的指标模型作为基准模型进行应用。
根据权利要求9所述的基于数据挖掘的建模系统，其特征在于，所述验证模块具体用于若准确率最高的指标模型的数量为1，则将该准确率最高的指标模型作为基准模型进行应用；若准确率最高的指标模型的数量大于1，则随机选择一准确率最高的指标模型作为基准模型进行应用，或者，增加验证数据样本的数量，直至准确率最高的指标模型的数量为1，并将该准确率最高的指标模型作为基准模型进行应用。
一种电子装置，其特征在于，所述电子装置包括存储器及与存储器连接的处理器，所述存储器存储有可在所述处理器上运行的基于数据挖掘的建模系统，所述基于数据挖掘的建模系统被所述处理器执行时实现如下步骤：

S1，在收到待筛选的备选指标后，将所述备选指标均分成K个指标群；

S2，计算各指标群中每一备选指标的群内距离D1和群间距离D2，根据所述群内距离D1和群间距离D2并基于预定的计算规则计算各备选指标对应的筛选评价值A；

S3，根据所述筛选评价值A选择备选指标，基于所述K值并利用所选择的备选指标建立指标模型。
根据权利要求11所述电子装置，其特征在于，所述步骤S2包括：

S21，计算每一指标群下的备选指标的均值，根据所述均值获取群中心集合，根据所述群中心集合计算每一备选指标与所述群中心集合的距离，以计算得到的距离作为所述群内距离D1；

S22，计算每一备选指标所在的指标群与其他各指标群的中心距离，从所述中心距离中获取距离最小的对应的指标群，根据所获取的指标群计算所述群间距离D2；

S23，计算所述筛选评价值A：A＝(1-D1)/(1-D2)。
根据权利要求12所述的电子装置，其特征在于，所述步骤S3包括：

S31，在每一指标群中，选出最大筛选评价值对应的至少一个备选指标和最小筛选评价值对应的至少一个备选指标；

S32，若所述K值大于等于预设阈值时，则利用各指标群挑选出的备选指标建立预定的一指标模型；

S33，若所述K值小于预设阈值时，则增大所述K值，重新计算筛选评价值并执行步骤S31，以利用各指标群选出的备选指标建立预定的另一指标模型。
根据权利要求11至13任一项所述的电子装置，其特征在于，所述基于数据挖掘的建模系统被所述处理器执行时，还实现以下步骤：

S4，利用预定的验证数据样本对所建立的指标模型进行验证，将验证后准确率最高的指标模型作为基准模型进行应用。
根据权利要求14所述的电子装置，其特征在于，所述步骤S4包括：

若准确率最高的指标模型的数量为1，则将该准确率最高的指标模型作为基准模型进行应用；

若准确率最高的指标模型的数量大于1，则随机选择一准确率最高的指标模型作为基准模型进行应用，或者，增加验证数据样本的数量，直至准确率最高的指标模型的数量为1，并将该准确率最高的指标模型作为基准模型进行应用。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有基于数据挖掘的建模系统，所述基于数据挖掘的建模系统被处理器执行时实现以下步骤：

S1，在收到待筛选的备选指标后，将所述备选指标均分成K个指标群；

S2，计算各指标群中每一备选指标的群内距离D1和群间距离D2，根据所述群内距离D1和群间距离D2并基于预定的计算规则计算各备选指标对应的筛选评价值A；

S3，根据所述筛选评价值A选择备选指标，基于所述K值并利用所选择的备选指标建立指标模型。
根据权利要求16所述的计算机可读存储介质，其特征在于，所述步骤S2包括：

S21，计算每一指标群下的备选指标的均值，根据所述均值获取群中心集合，根据所述群中心集合计算每一备选指标与所述群中心集合的距离，以计算得到的距离作为所述群内距离D1；

S22，计算每一备选指标所在的指标群与其他各指标群的中心距离，从所述中心距离中获取距离最小的对应的指标群，根据所获取的指标群计算所述群间距离D2；

S23，计算所述筛选评价值A：A＝(1-D1)/(1-D2)。
根据权利要求17所述的计算机可读存储介质，其特征在于，所述步骤S3包括：

S31，在每一指标群中，选出最大筛选评价值对应的至少一个备选指标和最小筛选评价值对应的至少一个备选指标；

S32，若所述K值大于等于预设阈值时，则利用各指标群挑选出的备选指标建立预定的一指标模型；

S33，若所述K值小于预设阈值时，则增大所述K值，重新计算筛选评价值并执行步骤S31，以利用各指标群选出的备选指标建立预定的另一指标模型。
根据权利要求16至18任一项所述的计算机可读存储介质，其特征在于，所述基于数据挖掘的建模系统被所述处理器执行时，还实现以下步骤：

S4，利用预定的验证数据样本对所建立的指标模型进行验证，将验证后准确率最高的指标模型作为基准模型进行应用。
根据权利要求19所述的计算机可读存储介质，其特征在于，所述步骤S4包括：

若准确率最高的指标模型的数量为1，则将该准确率最高的指标模型作为基准模型进行应用；

若准确率最高的指标模型的数量大于1，则随机选择一准确率最高的指标模型作为基准模型进行应用，或者，增加验证数据样本的数量，直至准确率最高的指标模型的数量为1，并将该准确率最高的指标模型作为基准模型进行应用。