WO2020211357A1

WO2020211357A1 - 数据的关联分析方法、装置、计算机设备及存储介质

Info

Publication number: WO2020211357A1
Application number: PCT/CN2019/118014
Authority: WO
Inventors: 李家捷
Original assignee: 平安普惠企业管理有限公司
Priority date: 2019-04-15
Filing date: 2019-11-13
Publication date: 2020-10-22
Also published as: CN110162566A

Abstract

一种数据的关联分析方法、装置、计算机设备及存储介质。该方法根据数据库和/或数据表生成候选数据集，根据候选数据集生成第一候选项集（S102），根据第一候选项集生成第一频繁项集，根据第一频繁项集生成包括至少两个频繁项的第二候选项集（S104），根据第二候选项集生成第二频繁项集，对第二频繁项集进行关联规则计算，得到第二频繁项集中多个频繁项之间的置信度（S106），得到置信度满足预设置信度阈值的频繁项关联结果（S107）。该方法能够实现根据历史业务数据得到不同支持度和不同置信度的数据项关联结果，可以为销售等业务类型提供数据分析结果支持，其数据分析过程计算量少，减少了不必要计算过程，加快得到结果从而提高了效率降低了成本。

Description

数据的关联分析方法、装置、计算机设备及存储介质

本申请要求于2019年4月15日提交中国专利局，专利名称为“业务数据的关联分析方法、装置、计算机设备及存储介质”，申请号为201910301146.2的发明专利的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及数据挖掘分析领域，特别是涉及一种数据的关联分析方法、装置、计算机设备及存储介质。

背景技术

目前，在涉及诸如销售决策这种主要依靠人主观经验的领域中，发明人发现缺少一种有效的利用算法对特定数据进行关联分析来支持决策的方法，由于决策过程涉及众多变量需要考虑，对应到数据挖掘算法中，则对应众多的数据项，同时对这些数据进行分析计算量大，耗时较长，成本较高。

发明内容

有鉴于此，本申请提出一种数据的关联分析方法、计算机设备及存储介质，能够对历史业务数据进行管理分析为新的销售业务提供决策支持依据，且分析计算量小，耗时短。

首先，为实现上述目的，本申请提出一种数据的关联分析方法，所述方法包括：根据数据库和/或数据表生成包括预设待挖掘分析数据项的候选数据集；根据所述候选数据集生成第一候选项集，所述第一候选集包括待分析数据项及待分析数据项对应的支持度；根据所述第一候选项集生成满足大于第一最小支持度的第一频繁项集；根据所述第一频繁项集生成包括至少两个频繁项的第二候选项集；根据所述第二候选项集生成满足大于第二最小支持度的第二频繁项集；对所述第二频繁项集进行关联规则计算，得到第二频繁项集中多个频繁项之间的置信度；得到置信度满足预设置信度阈值的频繁项关联结果。

数据库数据库数据库数据库为实现上述目的，本申请还提供数据的关联分析装置，其包括

第一生成模块，适于根据数据库和/或数据表生成包括预设待挖掘分析数据项的候选数据集；第二生成模块，适于根据所述候选数据集生成第一候选项集，所述第一候选集包括待分析数据项及待分析数据项对应的支持度；第三生成模块，适于根据所述第一候选项集生成满足大于第一最小支持度的第一频繁项集；第四生成模块，适于根据所述第一频繁项集生成包括至少两个频繁项的第二候选项集；第五生成模块，适于根据所述第二候选项集生成满足大于第二最小支持度的第二频繁项集；关联计算模块，适于对所述第二频繁项集进行关联规则计算，得到第二频繁项集中多个频繁项之间的置信度；结果生成模块，适于得到置信度满足预设置信度阈值的频繁项关联结果。

为实现上述目的，本申请还提供一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现上述数据的关联分析方法。

为实现上述目的，本申请还提供一种非易失性计算机可读存储介质，其上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现上述数据的关联分析方法。

相较于现有技术，本发明本申请所提出的数据的关联分析方法、装置、计算机设备及存储介质，能够实现根据历史业务数据得到不同支持度和不同置信度的数据项关联结果，可以为销售等业务类型提供数据分析结果支持，其数据分析过程计算量少，减少了不必要计算过程，加快得到结果从而提高了效率降低了成本。

附图说明

图1是本申请第一实施例之数据的关联分析方法的流程示意图；

图2是本申请第一实施例之数据的关联分析方法中用户自定义第一最小可信度的流程示意图；

图3是本申请第一实施例之数据的关联分析方法中对第二频繁项进行关联规则及置信度计算的流程示意图；

图4是本申请第二实施例之数据的关联分析装置的程序模块示意图；

图5是本申请第二实施例之另一数据的关联分析装置的程序模块示意图；

图6是本申请第三实施例之计算机设备的硬件结构示意图。

数据的关联分析装置本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本发明本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明本申请，并不用于限定本发明本申请。基于本发明本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明本申请保护的范围。

需要说明的是，在本发明本申请中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明本申请要求的保护范围之内。

第一实施例

参阅图1所示，示出了本申请第一实施例之数据的关联分析方法，包括如下步骤S101-S107：

步骤S101，根据数据库和/或数据表生成包括预设待挖掘分析数据项的候选数据集；

具体地，本步骤包括如下步骤S101a-S101b：

步骤S101a，获取包括特定数据项且该特定数据项满足预设条件的数据库和/或数据表；

该步骤的目的是准备和获取数据，数据来源可以是在一个或多个数据库中的历史业务数据，也可以是包括销售记录的一个或多个数据表。不同的数据库或数据表可能具有不同的数据记录项目，例如在原始数据库中，用户注册、登录、线上自动购买行为等会产生较多的系统数据记录项，而在非原始数据库中，例如手动输入过的数据库，二次加工优化的数据库则可能包含较少但更精准的数据记录项。

因此，数据库或数据表需要满足包括特定数据记录项，例如数据库和数据表需要满足包括“贷款时间”这个数据记录项，具有该特定数据项则判断为该数据库或数据表是数据库或业务数据表，或为数据库或业务数据表的关联数控库或数据库表，包含特定数据项的数据库或数据表才具有数据挖掘分析价值。

除了需要包括特定数据记录项，该数据项还需满足预设条件，例如当该特定数据记录项是“贷款时间”时，该数据记录项不能为空，即该数据记录项记录了一个成功的贷款交易，或者该数据项的值满足预设范围或者预设值，例如该数据记录项需要满足包括2018，或大于2010，即该数据项记录的交易时间是2018年，或2010年以后，例如当该特定数据记录项是“客户年龄”时，该数据记录项不能为空且该数据项的值满足预设范围或者预设值，例如该数据记录项需要满足大于16和小于60，以筛除没有民事行为能力的未成年人和离退休人员，该特定数据项需要满足的预设条件可以由用户自定义输入，用户输入的不同该特定数据项的条件代表了数据挖掘的不同范围和准确度，因为不同时间的数据的关联规则可能产生变化，若干年前客户的购买行为可能不同于现在，若干年前的客户的购买规律不能构成现在的销售决策的支持。

当数据来源为一个或多个数据库时，可以直接通过网络连接至该数据库以获取数据，当数据来源为包括销售记录的一个或多个数据表时，可以通过用户上传导入的方式将该数据表存储在一个指定路径的位置。

在本实施例中，选取的是2018年7-9月的第三季度的贷款销售记录数据表，其中包括9组销售记录，见下表一。在其他实施例中，也可以选区2018年上半年，2017年全年或三年内的销售纪录数据表，选取的时间范围可以由用户自定义输入确定。

步骤S101b，从所述数据库和/或数据表中筛选出预设待挖掘分析的数据项并进行分类以生成候选数据集；

由于数据库或数据表中可能包括多种类型的记录数据，部分数据可能我们认为对我们得到关联规则从而对销售决策产生支持并没有意义，对这些数据进行分析挖掘会加大计算量并增加耗时，所以我们可以先排除这部分数据，筛选出那些我们需要获知是否具有关联和关联强度大小的待挖掘分析数据，例如数据库和业务数据表中包括客户交易时的付款方式和付款银行代码，或者交易时间当天是否为节假日，通过分析整个数据库和数据表的数据项的类型，将其展示在一个用户界面上，用户可以自行勾选是否需要对部分类型的数据项进行关联分析，例如当用户认为客户付款方式是否和其他数据项具有关联对销售决策意义不大，即使具有关联性也不会对销售决策产生实质影响时，则可以去掉这个选项，否则保留这个选项。

例如，在本实施例中，在2018年7-9月的第三季度的贷款销售记录数据表中筛选出客户行业，客户年龄，贷款期限，担保形式，贷款用途这五种类型的待挖掘分析的数据项，见表一。

表一

贷款时间	客户行业	客户年龄	贷款期限	担保形式	贷款用途
2018.7.1	食品	35	短期	票据抵押	经营
2018.7.7	外贸批发	33	短期	商品抵押	消费
2018.7.25	美容	40	中期	票据抵押	消费
2018.8.3	食品	37	短期	商品抵押	消费
2018.8.11	食品	29	短期	票据抵押	经营
2018.9.6	医疗器械	55	长期	票据抵押	经营
2018.9.12	食品	40	短期	票据抵押	经营

2018.9.7	美容	28	中期	商品抵押	经营
2018.9.22	学生	19	短期	商品抵押	消费

在筛选出待挖掘分析的数据项后，我们还可以进一步对这些数据项进行二次分类，例如在客户年龄这个数据项中，我们可以将数据项分类为客户年龄小于20、20-30、30-50、大于50这几个不同类别，对客户行业这个数据记录项中，我们可以根据行业类别将其分类为多个类别，如表中所示的食品、外贸批发、美容、医疗器械等类型。

根据筛选和分类后的数据集中的数据生成候选数据集，候选数据集是一个处理过的历史交易记录表，包括特定数据项以及特定数据项对应的所有待分析数据项，通过不同数据项对应的出现次数N1，可以得到待分析数据项的总量N。其中，在本实施例中N为N1的最大值，在其他实施例中N也可以为特定数据项在数据集中的实际数据数量。

例如，在本实施例中，经过分类后带挖掘分析的数据项见表二。

表二

数据项序号	客户行业	客户年龄	贷款期限	担保形式	贷款用途
1	食品	30-50	短期	票据抵押	经营
2	外贸批发	30-50	短期	商品抵押	消费
3	美容	30-50	中期	票据抵押	消费
4	食品	30-50	短期	商品抵押	消费
5	食品	20-30	短期	票据抵押	经营
6	医疗器械	大于50	长期	票据抵押	经营
7	食品	30-50	短期	票据抵押	经营
8	美容	20-30	中期	商品抵押	经营
9	学生	小于20	短期	商品抵押	消费

在本实施例中，数据项“贷款期限为短期”出现了6次，为所有数据项出现次数的最大值，则N＝6，在其他实施例中，N也可以为特定数据项在数据集中的实际出现次数，例如贷款时间有9个数据，对应9次贷款交易，则N＝9。

步骤S102，根据所述候选数据集生成第一候选项集，所述第一候选集包括待分析数据项及待分析数据项对应的支持度；

此处生成的第一候选项集涵盖了候选数据集中出现的所有待分析数据项，待分析数据项对应的支持度A1为该待分析数据项在候选数据集中的出现次数/N，N即上述的待分析数据项的总量。

在本实施例中，产生的候选项集包括：{客户行业是食品}、{客户行业是外贸批发}、{客户行业是美容}、{客户行业是医疗器械}、{客户行业是学生}、{客户年龄是小于20}、{客户年龄是20-30}、{客户年龄是30-50}、{客户年龄是大于50}、{贷款期限是短期}、{贷款期限是中期}、{贷款期限是长期}、{担保形式为票据抵押}、{担保形式为商品抵押}、{贷款用途是经营}、{贷款用途是消费}16个候选项集，以及他们的支持度，见下表三。

表三

待分析数据项	支持度
客户行业是食品	4/6
客户行业是外贸批发	1/6
客户行业是美容	2/6
客户行业是医疗器械	1/6
客户行业是学生	1/6
客户年龄是小于20	1/6
客户年龄是20-30	2/6
客户年龄是30-50	5/6
客户年龄是大于50	1/6
贷款期限是短期	6/6
贷款期限是中期	2/6
贷款期限是长期	1/6
担保形式为票据抵押	5/6
担保形式为商品抵押	4/6
贷款用途是经营	5/6
贷款用途是消费	4/6

步骤S103，根据所述第一候选项集生成满足大于第一最小支持度的第一频繁项集；

发现满足第一最小支持度阈值的单项集的第一频繁项集，例如，在本实施例中，预设的第一最小支持度为2/6，通过计算判断，大于2/6的频繁项集为：{客户行业是食品}、{客户年龄是30-50}、{贷款期限是短期}、{担保形式为票据抵押}、{担保形式为商品抵押}、{贷款用途是经营}、{贷款用途是消费}，此7个频繁项集属于符合条件的频繁项集，见下表四。

表四

第一频繁项集
客户行业是食品
客户年龄是30-50
贷款期限是短期
担保形式为票据抵押
担保形式为商品抵押
贷款用途是经营
贷款用途是消费

步骤S104，根据所述第一频繁项集生成包括两个频繁项的第二候选项集；

具体的，通过将第一频繁项集按照顺序排列组合生成第二候选项集，并计算他们的支持度A2，支持度A2为该多个数据项在候选数据集中同时出现的次数/N。

在本实施例中，将第一频繁项集按照顺序两两排列组合生成第二候选项集，第二候选项集所包括的2个频繁项以及对应的支持度A2，见下表五。

表五

第二候选集	支持度
客户行业是食品；客户年龄是30-50	4/6
客户行业是食品；贷款期限是短期	4/6
客户行业是食品；担保形式为票据抵押	3/6
客户行业是食品；担保形式为商品抵押	1/6
客户行业是食品；贷款用途是经营	3/6
客户行业是食品；贷款用途是消费	1/6
客户年龄是30-50；贷款期限是短期	4/6
客户年龄是30-50；担保形式为票据抵押	3/6
客户年龄是30-50；担保形式为商品抵押	2/6
客户年龄是30-50；贷款用途是经营	2/6
客户年龄是30-50；贷款用途是消费	3/6
贷款期限是短期；担保形式为票据抵押	3/6
贷款期限是短期；担保形式为商品抵押	3/6
贷款期限是短期；贷款用途是经营	3/6
贷款期限是短期；贷款用途是消费	3/6

担保形式为票据抵押；担保形式为商品抵押	0/6
担保形式为票据抵押；贷款用途是经营	4/6
担保形式为票据抵押；贷款用途是消费	1/6
担保形式为商品抵押；贷款用途是经营	1/6
担保形式为商品抵押；贷款用途是消费	3/6
贷款用途是经营；贷款用途是消费	0/6

步骤S105，根据第二候选项集生成满足大于第二最小支持度的第二频繁项集。

发现满足第二最小支持度阈值的单项集的第一频繁项集，例如在本实施例中，第二最小支持度预设为3/6，通过计算得到{客户行业是食品；客户年龄是30-50}、{客户行业是食品；贷款期限是短期}和{担保形式为票据抵押；贷款用途是经营}属于符合条件的第二频繁项集，见下表六。

表六

第二频繁项集
客户行业是食品；客户年龄是30-50
客户行业是食品；贷款期限是短期
担保形式为票据抵押；贷款用途是经营

在本实施例中，只对数据项进行进行两次支持度过滤判断生成包含两个频繁项的频繁项集，在其他实施例中，还可以继续对数据项进行多次支持度判断过滤以生成包含多于2个频繁项的频繁项集。

步骤S106，对第二频繁项集进行关联规则计算，得到第二频繁项集中多个频繁项之间的置信度；

置信度就是一个频繁项出现时，另外的频繁项同时出现的概率，具体的，在本实施例中，通过计算得到{客户行业是食品}和{客户年龄是30-50}、{客户行业是食品}和{贷款期限是短期}以及{担保形式为票据抵押}和{贷款用途是经营}之间的关联规则，并计算他们的置信度。

其中，{客户行业是食品}和{客户年龄是30-50}同时出现的次数是4次，{客户行业是食品}和{客户年龄是30-50}分别单独出现的次数是4次和5次，则{客户行业是食品}关联{客户年龄是30-50}的置信度为4/4，{客户年龄是30-50}关联{客户行业是食品}的置信度为4/5。

{客户行业是食品}和{贷款期限是短期}同时出现的次数是4次，{客户行业是食品}和{贷款期限是短期}分别出现的次数是4次和6次，则{客户行业是食品}关联{贷款期限是短期}的置信度为4/4，{贷款期限是短期}关联{客户行业是食品}的置信度为4/6。

{担保形式为票据抵押}和{贷款用途是经营}同时出现的次数是4次，{担保形式为票据抵押}和{贷款用途是经营}分别出现的次数都是5次，则{担保形式为票据抵押}关联{贷款用途是经营}以及{贷款用途是经营}关联{担保形式为票据抵押}的置信度都为4/5。

步骤S107，得到置信度满足预设置信度阈值的频繁项关联结果。

例如在本实施例中，预设置信度阈值为85％，即满足条件的频繁项关联结果为：

{客户行业是食品}关联{客户年龄是30-50}；

{客户行业是食品}关联{贷款期限是短期}。

本实施例的第一最小支持度与第二最小支持度以及预设置信度均可由用户自定义。

具体地，参阅图2所示，在步骤S103之前还包括如下步骤S201-S202：

步骤S201，生成用户界面供用户输入数据；

步骤S202，接收用户输入的数据并将其作为第一最小支持度。

在步骤S105之前还包括如下步骤S301-S302：

步骤S301，生成用户界面供用户输入数据；

步骤S302，接收用户输入的数据并将其作为第二最小支持度。

在步骤S107之前还包括如下步骤S401-S402：

步骤S401，生成用户界面供用户输入数据；

步骤S402，接收用户输入的数据并将其作为预设置信度。

在实际操作中，用户可根据输入的第一最小支持度、第二最小支持度或预设置信度后生成的结果多次调整第一最小支持度、第二最小支持度或预设置信度，直至得到的数据数量(第一频繁项集、第二频繁项集或关联规则)在一个比较合理的范围，利于后续计算，得到最终的第一频繁项集、第二频繁项集或关联规则。

本实施例中，步骤S104中，根据所述第一频繁项集按照顺序排列组合生成包括多于二个频繁项的第二候选项集。基于此，在步骤S106中，对第二频繁项集进行关联规则计算，得到第二频繁项集中多于二个频繁项之间的置信度。

参阅图3所示，对多于二个频繁项的第二频繁项集的关联规则与置信度的计算步骤如步骤S501-S502：

步骤S501，按照排列组合方法将所述第二频繁项集中多个频繁项按照不同的分法分为两组；

步骤S502，分别计算每种分法对应的两组频繁项的关联规则对应的置信度；

举例说明，若一个包含三个频繁项的第二频繁项为{客户行业是食品；客户年龄是30-50；贷款期限是短期}，则可出现的下列三种分法：

(1){客户行业是食品}与{客户年龄是30-50；贷款期限是短期}；

(2){客户年龄是30-50}与{客户行业是食品；贷款期限是短期}；

(3){贷款期限是短期}与{客户行业是食品；客户年龄是30-50}。

根据上述分法，按照上述的置信度算法，可得出{客户行业是食品}关联{客户年龄是30-50；贷款期限是短期}的置信度为3/4，{客户年龄是30-50；贷款期限是短期}关联{客户行业是食品}的置信度为3/4；{客户年龄是30-50}关联{客户行业是食品；贷款期限是短期}的置信度为3/5，{客户行业是食品；贷款期限是短期}关联{客户年龄是30-50}的置信度为3/4；{贷款期限是短期}关联{客户行业是食品；客户年龄是30-50}的置信度为3/6；{客户行业是食品；客户年龄是30-50}关联{贷款期限是短期}的置信度为3/3。

依此类推，可以得出包含四个频繁项及更多频繁项的第二频繁项的关联规则及对应置信度。

第二实施例

参阅图4，示出了本申请实施例四之数据的关联分析装置600的程序模块示意图，数据的关联分析装置600可以包括或被分割成一个或多个程序模块，一个或者多个程序模块被存储于存储介质中，并由一个或多个处理器所执行，以完成本申请，并可实现上述数据的关联分析方法。本申请实施例所称的程序模块是指能够完成特定功能的一系列计算机可读指令指令段，比程序本身更适合于描述数据的关联分析方法在存储介质中的执行过程。以下描述将具体介绍本实施例各程序模块的功能：

第一生成模块601，根据数据库和/或数据表生成包括预设待挖掘分析数据项的候选数据集；

第一生成模块601的运行过程具体包括如下步骤S101a-S101b：

该步骤中，第一生成模块601的主要工作是准备和获取数据，数据来源可以是在一个或多个数据库中的历史业务数据，也可以是包括销售记录的一个或多个数据表。不同的数据库或数据表可能具有不同的数据记录项目，例如在原始数据库中，用户注册、登录、线上自动购买行为等会产生较多的系统数据记录项，而在非原始数据库中，例如手动输入过的数据库，二次加工优化的数据库则可能包含较少但更精准的数据记录项。

除了需要包括特定数据记录项，该数据项还需满足预设条件，例如当该特定数据记录项是“贷款时间”时，该数据记录项不能为空，即该数据记录项记录了一个成功的贷款交易，或者该数据项的值满足预设范围或者预设值，例如该数据记录项需要满足包括2018，或大于2010，即该数据项记录的交易时间是2018年，或2010年以后，该特定数据项需要满足的预设条件可以由用户自定义输入，用户输入的不同该特定数据项的条件代表了数据挖掘的不同范围和准确度，因为不同时间的数据的关联规则可能产生变化，若干年前客户的购买行为可能不同于现在，若干年前的客户的购买规律不能构成现在的销售决策的支持。

当数据来源为一个或多个数据库时，第一生成模块601可以直接通过网络连接至该数据库以获取数据，当数据来源为包括销售记录的一个或多个数据表时，可以通过用户上传导入的方式将该数据表存储在一个指定路径的位置，第一生成模块601从该位置读取数据表。

在本实施例中，第一生成模块601选取的是2018年7-9月的第三季度的贷款销售记录数据表，其中包括9组销售记录，见上面第一实施例之表一。在其他实施例中，第一生成模块601也可以选区2018年上半年，2017年全年或三年内的销售纪录数据表，第一生成模块601选取的时间范围可以由用户自定义输入确定。

由于数据库或数据表中可能包括多种类型的记录数据，部分数据对得到关联规则从而对销售决策产生支持并没有意义，对这些数据进行分析挖掘会加大计算量并增加耗时，所以第一生成模块601可以先排除这部分数据，筛选出那些我们需要获知是否具有关联和关联强度大小的待挖掘分析数据，例如数据库和业务数据表中包括客户交易时的付款方式和付款银行代码，或者交易时间当天是否为节假日，通过分析整个数据库和数据表的数据项的类型，将其展示在一个用户界面上，用户可以自行勾选是否需要对部分类型的数据项进行关联分析，例如当用户认为客户付款方式是否和其他数据项具有关联对销售决策意义不大，即使具有关联性也不会对销售决策产生实质影响时，则可以去掉这个选项，否则保留这个选项。

例如，在本实施例中，第一生成模块601在2018年7-9月的第三季度的贷款销售记录数据表中筛选出客户行业，客户年龄，贷款期限，担保形式，贷款用途这五种类型的待挖掘分析的数据项，见第一实施例之表一。

在筛选出待挖掘分析的数据项后，第一生成模块601进一步对这些数据项进行二次分类，例如在客户年龄这个数据项中，第一生成模块601可以将数据项分类为客户年龄小于20、20-30、30-50、大于50这几个不同类别，对客户行业这个数据记录项中，第一生成模块601 根据行业类别将其分类为多个类别，如表中所示的食品、外贸批发、美容、医疗器械等类型。

第一生成模块601根据筛选和分类后的数据集中的数据生成候选数据集，候选数据集是一个处理过的历史交易记录表，包括特定数据项以及特定数据项对应的所有待分析数据项，通过不同数据项对应的出现次数N1，可以得到待分析数据项的总量N。其中，在本实施例中N为N1的最大值，在其他实施例中N也可以为特定数据项在数据集中的实际数据数量。

例如，在本实施例中，经过第一生成模块601分类后带挖掘分析的数据项见第一实施例之表二。

请再次回到图4，第二生成模块602，根据所述候选数据集生成第一候选项集，所述第一候选集包括待分析数据项及待分析数据项对应的支持度；

此处第二生成模块602生成的第一候选项集涵盖了候选数据集中出现的所有待分析数据项，待分析数据项对应的支持度A1为该待分析数据项在候选数据集中的出现次数/N，N即上述的待分析数据项的总量。

在本实施例中，第二生成模块602产生的候选项集包括：{客户行业是食品}、{客户行业是外贸批发}、{客户行业是美容}、{客户行业是医疗器械}、{客户行业是学生}、{客户年龄是小于20}、{客户年龄是20-30}、{客户年龄是30-50}、{客户年龄是大于50}、{贷款期限是短期}、{贷款期限是中期}、{贷款期限是长期}、{担保形式为票据抵押}、{担保形式为商品抵押}、{贷款用途是经营}、{贷款用途是消费}16个候选项集，以及他们的支持度，见第一实施例之表三。

请再次回到图4，第三生成模块603，根据所述第一候选项集生成满足大于第一最小支持度的第一频繁项集；

本实施例中，第三生成模块603选出满足第一最小支持度阈值的单项集的第一频繁项集，例如，在本实施例中，预设的第一最小支持度为2/6，第三生成模块603通过计算判断，选出大于2/6的频繁项集为：{客户行业是食品}、{客户年龄是30-50}、{贷款期限是短期}、{担保形式为票据抵押}、{担保形式为商品抵押}、{贷款用途是经营}、{贷款用途是消费}，此7个频繁项集属于符合条件的频繁项集，见第一实施例之表四。

请再次回到图4，第四生成模块604，根据所述第一频繁项集生成包括至少两个频繁项的第二候选项集；

具体的，第四生成模块604将第一频繁项集按照顺序排列组合生成第二候选项集，并计算他们的支持度A2，支持度A2为该多个数据项在候选数据集中同时出现的次数/N。

在本实施例中，第四生成模块604将第一频繁项集按照顺序两两排列组合生成第二候选项集，第二候选项集所包括的2个频繁项以及对应的支持度A2，见第一实施例之表五。

请再次回到图4，第五生成模块605，根据所述第二候选项集生成满足大于第二最小支持度的第二频繁项集；

发现满足第二最小支持度阈值的单项集的第一频繁项集，例如在本实施例中，第二最小支持度预设为3/6，第五生成模块605通过计算得到{客户行业是食品；客户年龄是30-50}、{客户行业是食品；贷款期限是短期}和{担保形式为票据抵押；贷款用途是经营}属于符合条件的第二频繁项集，见第一实施例之表六。

在本实施例中，第五生成模块605只对数据项进行进行两次支持度过滤判断生成包含两个频繁项的频繁项集，在其他实施例中，第五生成模块605还可以继续对数据项进行多次支持度判断过滤以生成包含多于2个频繁项的频繁项集。

请再次回到图4，关联计算模块606，对所述第二频繁项集进行关联规则计算，得到第二频繁项集中多个频繁项之间的置信度；

置信度就是一个频繁项出现时，另外的频繁项同时出现的概率，具体的，在本实施例中，关联计算模块606通过计算得到{客户行业是食品}和{客户年龄是30-50}、{客户行业是食品}和{贷款期限是短期}以及{担保形式为票据抵押}和{贷款用途是经营}之间的关联规则，并计算他们的置信度。

请再次回到图4，结果生成模块607，得到置信度满足预设置信度阈值的频繁项关联结果。

例如在本实施例中，预设置信度阈值为85％，结果生成模块607对比后筛选出满足条件的频繁项关联结果为：

{客户行业是食品}关联{客户年龄是30-50}；

{客户行业是食品}关联{贷款期限是短期}。

在另一具体实施例中，第一最小支持度与第二最小支持度以及预设置信度均可由用户自定义。参阅图5所示，数据的关联分析装置600还包括第一预设模块608、第二预设模块609以及第三预设模块610。在第三生成模块603根据所述第一候选项集生成满足大于第一最小支持度的第一频繁项集之前，第一预设模块608生成用户界面供用户输入数据并接收用户输入的数据并将其作为第一最小支持度。在第五生成模块605根据所述第二候选项集生成满足大于第二最小支持度的第二频繁项集之前，第二预设模块609生成用户界面供用户输入数据并接收用户输入的数据并将其作为第二最小支持度。结果生成模块607得到置信度满足预设置信度阈值的频繁项关联结果之前，第三预设模块610生成用户界面供用户输入数据并接收用户输入的数据并将其作为预设置信度。

本实施例中，第四生成模块604还可根据所述第一频繁项集按照顺序排列组合生成包括多于二个频繁项的第二候选项集。基于此，关联计算模块606对第二频繁项集进行关联规则计算，得到第二频繁项集中多于二个频繁项之间的置信度。

(4){客户行业是食品}与{客户年龄是30-50；贷款期限是短期}；

(5){客户年龄是30-50}与{客户行业是食品；贷款期限是短期}；

(6){贷款期限是短期}与{客户行业是食品；客户年龄是30-50}。

根据上述分法，关联计算模块606按照上述的置信度算法，可得出{客户行业是食品}关联{客户年龄是30-50；贷款期限是短期}的置信度为3/4，{客户年龄是30-50；贷款期限是短期}关联{客户行业是食品}的置信度为3/4；{客户年龄是30-50}关联{客户行业是食品；贷款期限是短期}的置信度为3/5，{客户行业是食品；贷款期限是短期}关联{客户年龄是30-50}的置信度为3/4；{贷款期限是短期}关联{客户行业是食品；客户年龄是30-50}的置信度为3/6；{客户行业是食品；客户年龄是30-50}关联{贷款期限是短期}的置信度为3/3。

第三实施例

参阅图6，是本申请第三实施例之计算机设备700的硬件架构示意图。在本实施例中，所述计算机设备700是一种能够按照事先设定或者存储的指令，自动进行数值计算和/或信息处理的设备。如图所示，所述计算机设备700至少包括，但不限于，可通过系统总线相互通信连接存储器701、处理器702、网络接口703、以及数据的关联分析装置704。其中：

本实施例中，存储器701至少包括一种类型的非易失性计算机可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器701可以是计算机设备700的内部存储单元，例如该计算机设备700的硬盘或内存。在另一些实施例中，存储器701也可以是计算机设备700的外部存储设备，例如该计算机设备700上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，存储器701还可以既包括计算机设备700的内部存储单元也包括其外部存储设备。本实施例中，存储器701通常用于存储安装于计算机设备700的操作系统和各类应用软件，例如数据的关联分析装置704的程序代码等。此外，存储器701还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器702在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器702通常用于控制计算机设备700的总体操作。本实施例中，处理器702用于运行存储器701中存储的程序代码或者处理数据，例如运行数据的关联分析装置704，以实现实施例一中的数据的关联分析方法。

所述网络接口703可包括无线网络接口或有线网络接口，该网络接口703通常用于在所述计算机设备700与其他电子装置之间建立通信连接。例如，所述网络接口703用于通过网络将所述计算机设备700与外部终端相连，在所述计算机设备700与外部终端之间的建立数据传输通道和通信连接等。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication，GSM)、宽带码分多址(Wideband Code Division Multiple Access，WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。

需要指出的是，图6仅示出了具有部件701-704的计算机设备700，但是应理解的是，并不要求实施所有示出的部件，可以替代的实施更多或者更少的部件。

在本实施例中，存储于存储器701中的所述数据的关联分析装置704还可以被分割为一个或者多个程序模块，所述一个或者多个程序模块被存储于存储器701中，并由一个或多个处理器(本实施例为处理器702)所执行，以完成本申请数据的关联分析方法。

第四实施例

本实施例提供一种非易失性计算机可读存储介质，如闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等，其上存储有计算机可读指令，该计算机可读指令被处理器执行时实现上述的数据的关联分析方法。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明本申请各个实施例所述的方法。

以上仅为本发明本申请的优选实施例，并非因此限制本发明本申请的专利范围，凡是利用本发明本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明本申请的专利保护范围内。

Claims

一种数据的关联分析方法，所述方法包括：

根据数据库和/或数据表生成包括预设待挖掘分析数据项的候选数据集；

根据所述候选数据集生成第一候选项集，所述第一候选集包括待分析数据项及待分析数据项对应的支持度；

根据所述第一候选项集生成满足大于第一最小支持度的第一频繁项集；

根据所述第一频繁项集生成包括至少两个频繁项的第二候选项集；

根据所述第二候选项集生成满足大于第二最小支持度的第二频繁项集；

对所述第二频繁项集进行关联规则计算，得到第二频繁项集中多个频繁项之间的置信度；

得到置信度满足预设置信度阈值的频繁项关联结果。
如权利要求1所述的数据的关联分析方法，所述根据数据库和/或数据表生成包括预设待挖掘分析数据项的候选数据集包括：

获取包括特定数据项且该特定数据项满足预设条件的数据库和/或数据表；

从所述数据库和/或数据表中筛选出预设待挖掘分析的数据项并进行分类以生成候选数据集。
如权利要求2所述的数据的关联分析方法，所述从所述数据库和/或数据表中筛选出预设待挖掘分析的数据项并进行分类以生成候选数据集包括：

将所述数据库和/或数据表中包含的数据项的类型输出至用户界面；

根据用户的第一操作指令确定所需的待挖掘分析的数据项的类型；

从所述数据库和/或数据表中筛选出相应类型的数据项；

对筛选出的数据项进行分类，生成候选数据集。
如权利要求1所述的数据的关联分析方法，所述待分析数据项对应的支持度的计算方法包括：

计算所述候选数据集中待分析数据项的总量，其中，所述待分析数据项的总量为不同数据项的出现次数的最大值或特定数据项在所述候选数据集中实际数据的数量；

计算支持度，其中，所述支持度为当前待分析数据项的出现次数/待分析数据项的总量。
如权利要求4所述的数据的关联分析方法，所述根据所述第一频繁项集生成包括至少两个频繁项的第二候选项集包括：

将所述第一频繁项集按照顺序排列组合生成第二候选集；

计算第二候选集的支持度，其中，支持度为当前第二候选项集所包含的多个频繁项同时出现的次数/待分析数据项的总量。
如权利要求1所述的数据的关联分析方法，所述根据所述第一候选项集生成满足大于第一最小支持度的第一频繁项集之前还包括：

生成用户界面供用户输入数据；

接收用户输入的数据并将其作为第一最小支持度。
如权利要求1所述的数据的关联分析方法，根据所述第二候选项集生成满足大于第二最小支持度的第二频繁项集之前还包括：

生成用户界面供用户输入数据；

接收用户输入的数据并将其作为第二最小支持度。
一种数据的关联分析装置，其包括

第一生成模块，适于根据数据库和/或数据表生成包括预设待挖掘分析数据项的候选数据集；

第二生成模块，适于根据所述候选数据集生成第一候选项集，所述第一候选集包括待分析数据项及待分析数据项对应的支持度；

第三生成模块，适于根据所述第一候选项集生成满足大于第一最小支持度的第一频繁项集；

第四生成模块，适于根据所述第一频繁项集生成包括至少两个频繁项的第二候选项集；

第五生成模块，适于根据所述第二候选项集生成满足大于第二最小支持度的第二频繁项集；

关联计算模块，适于对所述第二频繁项集进行关联规则计算，得到第二频繁项集中多个频繁项之间的置信度；

结果生成模块，适于得到置信度满足预设置信度阈值的频繁项关联结果。
一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现数据的关联分析方法包括：

根据数据库和/或数据表生成包括预设待挖掘分析数据项的候选数据集；

根据所述候选数据集生成第一候选项集，所述第一候选集包括待分析数据项及待分析数据项对应的支持度；

根据所述第一候选项集生成满足大于第一最小支持度的第一频繁项集；

根据所述第一频繁项集生成包括至少两个频繁项的第二候选项集；

根据所述第二候选项集生成满足大于第二最小支持度的第二频繁项集；

对所述第二频繁项集进行关联规则计算，得到第二频繁项集中多个频繁项之间的置信度；

得到置信度满足预设置信度阈值的频繁项关联结果。
如权利要求9所述的计算机设备，所述根据数据库和/或数据表生成包括预设待挖掘分析数据项的候选数据集包括：

获取包括特定数据项且该特定数据项满足预设条件的数据库和/或数据表；

从所述数据库和/或数据表中筛选出预设待挖掘分析的数据项并进行分类以生成候选数据集。
如权利要求10所述的计算机设备，所述从所述数据库和/或数据表中筛选出预设待挖掘分析的数据项并进行分类以生成候选数据集包括：

将所述数据库和/或数据表中包含的数据项的类型输出至用户界面；

根据用户的第一操作指令确定所需的待挖掘分析的数据项的类型；

从所述数据库和/或数据表中筛选出相应类型的数据项；

对筛选出的数据项进行分类，生成候选数据集。
如权利要求9所述的计算机设备，所述待分析数据项对应的支持度的计算方法包括：

计算所述候选数据集中待分析数据项的总量，其中，所述待分析数据项的总量为不同数据项的出现次数的最大值或特定数据项在所述候选数据集中实际数据的数量；

计算支持度，其中，所述支持度为当前待分析数据项的出现次数/待分析数据项的总量。
如权利要求12所述计算机设备，所述根据所述第一频繁项集生成包括至少两个频繁项的第二候选项集包括：

将所述第一频繁项集按照顺序排列组合生成第二候选集；

计算第二候选集的支持度，其中，支持度为当前第二候选项集所包含的多个频繁项同时出现的次数/待分析数据项的总量。
如权利要求9所述的计算机设备，所述根据所述第一候选项集生成满足大于第一最小支持度的第一频繁项集之前还包括：

生成用户界面供用户输入数据；

接收用户输入的数据并将其作为第一最小支持度。
如权利要求9所述的计算机设备，根据所述第二候选项集生成满足大于第二最小支持度的第二频繁项集之前还包括：

生成用户界面供用户输入数据；

接收用户输入的数据并将其作为第二最小支持度。
一种非易失性计算机可读存储介质，其上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现数据的关联分析方法包括：

根据数据库和/或数据表生成包括预设待挖掘分析数据项的候选数据集；

根据所述候选数据集生成第一候选项集，所述第一候选集包括待分析数据项及待分析数据项对应的支持度；

根据所述第一候选项集生成满足大于第一最小支持度的第一频繁项集；

根据所述第一频繁项集生成包括至少两个频繁项的第二候选项集；

根据所述第二候选项集生成满足大于第二最小支持度的第二频繁项集；

对所述第二频繁项集进行关联规则计算，得到第二频繁项集中多个频繁项之间的置信度；

得到置信度满足预设置信度阈值的频繁项关联结果。
如权利要求16所述的非易失性计算机可读存储介质，所述根据数据库和/或数据表生成包括预设待挖掘分析数据项的候选数据集包括：

获取包括特定数据项且该特定数据项满足预设条件的数据库和/或数据表；

从所述数据库和/或数据表中筛选出预设待挖掘分析的数据项并进行分类以生成候选数据集。
如权利要求17所述的非易失性计算机可读存储介质，所述从所述数据库和/或数据表中筛选出预设待挖掘分析的数据项并进行分类以生成候选数据集包括：

将所述数据库和/或数据表中包含的数据项的类型输出至用户界面；

根据用户的第一操作指令确定所需的待挖掘分析的数据项的类型；

从所述数据库和/或数据表中筛选出相应类型的数据项；

对筛选出的数据项进行分类，生成候选数据集。
如权利要求16所述的非易失性计算机可读存储介质，所述待分析数据项对应的支持度的计算方法包括：

计算所述候选数据集中待分析数据项的总量，其中，所述待分析数据项的总量为不同数据项的出现次数的最大值或特定数据项在所述候选数据集中实际数据的数量；

计算支持度，其中，所述支持度为当前待分析数据项的出现次数/待分析数据项的总量。
如权利要求19所述的非易失性计算机可读存储介质，所述根据所述第一频繁项集生成包括至少两个频繁项的第二候选项集包括：

将所述第一频繁项集按照顺序排列组合生成第二候选集；

计算第二候选集的支持度，其中，支持度为当前第二候选项集所包含的多个频繁项同时出现的次数/待分析数据项的总量。