WO2018059298A1

WO2018059298A1 - 模式挖掘方法、高效用项集挖掘方法及相关设备

Info

Publication number: WO2018059298A1
Application number: PCT/CN2017/102663
Authority: WO
Inventors: 林浚玮; 肖磊; 陈伟; 张杰雄
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2016-09-27
Filing date: 2017-09-21
Publication date: 2018-04-05
Also published as: US20180307722A1; US10776347B2

Abstract

一种模式挖掘方法、高效用项集挖掘方法及相关设备，其中，模式挖掘方法及相关设备，结合时间关系和效用值两个挖掘因素，使得挖掘出的模式的效用值在时间上分布均匀，挖掘结果更精准。其中，高效用项集挖掘方法及相关设备，将每个项集所包含的数据项对应的最小最低效用阈值，作为每个项集的项集最低效用阈值，使得所确定的各项集对应的项集最低效用阈值更为贴近项集的最低效用情况，进而将各项集的项集效用值与项集对应的项集最低效用阈值进行比对，提高高效用项集挖掘的准确性。

Description

模式挖掘方法、高效用项集挖掘方法及相关设备

本申请要求于2016年09月27日提交中国专利局、申请号为201610856770.5、申请名称为“一种模式挖掘方法及装置”及要求于2016年09月28日提交中国专利局、申请号为201610866557.2、申请名称为“一种高效用项集挖掘方法、装置及数据处理设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及数据挖掘技术领域，具体涉及模式挖掘方法及装置，以及高效用项集挖掘方法、装置及数据处理设备。

背景技术

在高效用挖掘技术中，事务数据库是一种可以记录交易、新闻等事务的数据库，事务数据库通常记录有至少一条事务，每条事务中包括至少一个数据项，即项目；比如交易类型的事务数据库中可以记录有至少一条关于交易记录的事务，一条关于交易记录的事务中可以包括至少一个商品的数据项(商品的数据项可以对应商品名称)及各商品的交易数量，而为表征事务数据库中数据项间的关联规则，至少一个数据项又会集合形成一个项目集，即项集。

由于交易类型等的事务数据库往往能够反映用户的偏好，因此在向用户推荐信息时，往往会从事务数据库形成的多个项集中挖掘出向用户推荐的项集；而在挖掘项集的过程中，往往需要考虑效用值较高的项集(简称高效用项集)。

高效用项集是效用值较高的项集，而项集中往往有一个或多个数据项，如何综合考虑项集中各数据项的效用值，以提升挖掘出的高效用项集的准确性，显得尤为必要。

发明内容

有鉴于此，本申请提供了一种模式挖掘方法、装置，以及一种高效用项集挖掘方法、装置及数据处理设备，用以提升挖掘出的高效用项集的准确性。

在本申请第一方面提供了一种模式挖掘方法，包括：

根据数据库中包含的各事务，获取满足设定条件的候选模式集合；其中，每个事务包括至少一个项目；所述候选模式集合中的每个候选模式包括至少一个项目集中的项目；所述项目集是根据每个事务中的项目生成的集合；

针对上述候选模式集合中每一候选模式，计算候选模式在每一事务中的效用值；确定该效用值达到设定的效用阀值的目标事务，并根据各所述目标事务的时间属性，确定候选模式的周期值；若候选模式的周期值小于等于设定的周期阀值，则将该候选模式确定为挖掘结果。

在本申请第二方面提供了一种模式挖掘装置，包括：

候选模式集合获取单元，用于根据数据库中包含的各事务，获取满足设定条件的候选模式集合；其中，每个事务包括至少一个项目；所述候选模式集合中的每个候选模式包括至少一个项目集中的项目；所述项目集是根据每个事务中的项目生成的集合；效用值计算单元，用于针对上述候选模式集合中每一候选模式，计算候选模式在每一事务中的效用值；

目标事务确定单元，用于确定上述效用值达到设定的效用阀值的目标事务。

候选模式周期值确定单元，用于根据各目标事务的时间属性，确定上述候选模式的周期值；

挖掘结果确定单元，用于若候选模式的周期值小于等于设定的周期阀值，则将该候选模式确定为挖掘结果。

在本申请第三方面提供了一种模式挖掘设备，该设备包括：

处理器以及存储器；

所述存储器用于存储计算机程序；

所述处理器用于读取所述计算机程序，根据计算机程序中的可执行指令执行上述模式挖掘方法。

在本申请第四方面提供了一种存储介质，该存储介质用于存储程序代码，程序代码用于执行上述模式挖掘方法。

在本申请第五方面提供了一种包括指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述模式挖掘方法。

本申请提供的上述模式挖掘方法及相关设备，针对获取的候选模式集合，计算其在各事务中的效用值，对于效用值小于设定的效用阀值的事务进行删除，该部分事务的模式效用值过小，删除后可以减少挖掘计算时间，并根据删除后剩余的目标事务的时间属性，确定候选模式的周期值，在该周期值小于等于设定的周期阀值时，将候选模式确定为挖掘结果，保证了挖掘得到的模式的效用值在时间上分布均匀，更加便于精确决策，挖掘结果更精准。

在本申请第六方面提供了一种高效用项集挖掘方法，包括：

确定事务数据库中各项集对应的项集效用值；一个项集对应的项集效用值表示的是，该项集在该项集对应的各目标事务中的效用值的加和，一个项集的目标事务为包含该项集所有数据项的事务；一个项集在目标事务中的效用值表示的是，该项集的各数据项在目标事务中的效用值的加和；

根据预定义的最低效用阈值表，确定各项集对应的项集最低效用阈值；预定义的最低效用阈值表记录有各数据项对应的最低效用阈值，一个项集对应的项集最低效用阈值表示的是，该项集包含的数据项所对应的最低效用阈值中的最小最低效用阈值。

将各项集的项集效用值与对应的项集最低效用阈值进行比对，根据比对结果确定高效用项集，其中，高效用项集的项集效用值不小于对应的项集最低效用阈值。

在本申请第七方面提供了一种高效用项集挖掘装置，包括：

项集效用值确定模块，用于确定事务数据库中各项集对应的项集效用值；一个项集对应的项集效用值表示的是，该项集在该项集对应的各目标事务中的效用值的加和，一个项集的目标事务为包含该项集所有数据项的事务；一个项集在目标事务中的效用值表示的是，该项集的各数据项在目标事务中的效用值的加和。

项集最低效用阈值确定模块，用于根据预定义的最低效用阈值表，确定各项集对应的项集最低效用阈值；预定义的最低效用阈值表记录有各数据项对应的最低效用阈值，一个项集对应的项集最低效用阈值表示的是，该项集包含的数据项所对应的最低效用阈值中的最小最低效用阈值。

高效用项集确定模块，用于将各项集的项集效用值与对应的项集最低效用阈值进行比对，根据比对结果确定高效用项集，其中，高效用项集的项集效用值不小于对应的项集最低效用阈值。

在本申请第八方面提供了一种数据处理设备，包括上述第七方面的高效用项集挖掘装置。

在本申请第九方面提供了一种高效用项集挖掘设备，该设备包括：

处理器以及存储器；

所述存储器用于存储计算机程序；

所述处理器用于读取所述计算机程序，根据计算机程序中的可执行指令执行上述高效用项集挖掘方法。

在本申请第十方面提供了一种存储介质，该存储介质用于存储程序代码，程序代码用于执行上述高效用项集挖掘方法。

在本申请第十一方面还提供一种包括指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述高效用项集挖掘方法。

在本申请提供的高效用项集挖掘方法及相关设备，定义了记录有各数据项对应的最低效用阈值的最低效用阈值表，在确定每一个项集所对应的项集最低效用阈值时，是通过比对项集包含的数据项所对应的最低效用阈值，从而将项集所包含的数据项对应的最低效用阈值中的最小最低效用阈值，作为项集所对应的项集最低效用阈值，使得所确定的各项集对应的项集最低效用阈值更为贴近项集的最低效用情况；基于所确定的各项集的项集最低效用阈值，将各项集的项集效用值与对应的项集最低效用阈值进行比对，从而确定出项集效用值不小于对应的项集最低效用阈值的高效用项集。

由此可见：本申请提供的高效用项集挖掘方法及相关设备，并不是以唯一固定的最低效用阈值，作为高效用项集的挖掘标准，而是将每个项集所包含的数据项对应的最小最低效用阈值，作为每个项集的项集最低效用阈值，使得所确定的各项集对应的项集最低效用阈值更为贴近项集的最低效用情况，进而将各项集的项集效用值与项集对应的项集最低效用阈值进行比对，来实现高效用项集的挖掘，提高了高效用项集挖掘的准确性。

附图说明

图1所示为根据本申请实施例的服务器硬件结构示意图；

图2所示为根据本申请实施例的模式挖掘方法流程图；

图3所示为根据本申请实施例的确定候选模式的周期值的方法流程图；

图4所示为根据本申请实施例的获取候选模式集合的方法流程图；

图5所示为根据本申请实施例的第k层候选模式集合产生方法流程图；

图6所示为根据本申请实施例的第k层候选模式集合产生方法流程图；

图7所示为根据本申请实施例的获取候选模式集合的方法流程图；

图8所示为根据本申请实施例的模式挖掘装置结构示意图；

图9所示为根据本申请实施例的高效用项集挖掘方法的流程图；

图10所示为根据本申请实施例的确定项集对应的项集效用值的方法流程图；

图11所示为根据本申请实施例的构建MIU树的方法流程图；

图12所示为MIU树的结构示意图；

图13所示为MIU树中第一个层级的各项集对应的效用列表的示意图；

图14所示为效用列表的组合示意图；

图15所示为效用列表的另一组合示意图；

图16所示为效用列表的再一组合示意图；

图17所示为根据本申请实施例的高效用项集挖掘装置的结构框图；

图18所示为根据本申请实施例的项集效用值确定模块的结构框图；

图19所示为根据本申请实施例的效用列表构建单元的结构框图；

图20所示为根据本申请实施例的数据处理设备的硬件结构框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例的技术方案进行清楚、完整地描述，所描述的实施例仅是本申请一部分实施例，在本申请实施例的基础上，本领域普通技术人员在没有付出创造性劳动的前提下，获得的所有其他实施例，都属于本申请的保护范围。

在介绍本申请方案之前，先对模式挖掘的概念进行简单介绍。

以超市的商品销售记录为例，该商品销售记录用于记录顾客的购买清单内容，其中顾客的购买清单包括购买商品相关信息，例如商品名称和商品数量；采用高效用模式挖掘方式，从这些购买清单中找出销售额或者利润较高的商品组合，利用找出的该商品组合，改变销售策略，提高销售利润。将上述例子抽象成模式挖掘的模型，具体为：购买商品对应项目，购买清单对应事务，将所有购买清单存储在事务数据库中，则事务数据库中包括一个或者多个事务，一个事务包括至少一个项目，根据事务包括的项目生成项目集；而模式挖掘是为了从项目集中挖掘出符合条件的项目。

本申请将周期和效用值进行结合，提出了一种基于周期的高效用模式挖掘方法，初步获取的候选模式集合，计算其在每一事务中的效用值，对于效用值未达到设定的效用阀值的事务，由于此类事务的效用值过小，对总效用值贡献很小，为了避免浪费挖掘计算时间，可以删除此类事务，进而利用剩余事务的时间属性，计算候选模式的周期值，并将周期值小于等于设定的周期阀值的候选模式作为挖掘结果进行保留。该类模式在每个周期内都具有较高效用值，利于快速决策。

其中，模式的周期值是根据指定的包含模式的各事务的时间属性而确定的。具体是，在指定的包含模式的各事务中，将相邻事务的时间差值中的最大时间差值，确定为模式的周期值。上述指定的包含模式的事务，可以是指定的所有包含模式的事务，也可以是根据一定条件从所有包含模式的事务中挑选出的部分事务。

本申请实施例提供的模式挖掘方法是基于服务器实现的，在介绍本申请的模式挖掘方法之前，首先介绍一下服务器，该服务器可以是电脑、笔记本等处理设备，参见图1，图1所示为根据本申请实施例的服务器硬件结构示意图，如图1所示，该服务器可以包括：

处理器1，通信接口2，存储器3，通信总线4，和显示屏5。

其中，处理器1、通信接口2、存储器3和显示屏5通过通信总线4完成相互间的通信。

下面，结合服务器硬件结构，对本申请的模式挖掘方法进行介绍。

参见图2，图2所示为根据本申请实施例的模式挖掘方法流程图，如图2所示，应用于服务器，该方法包括：

步骤S200，根据事务数据库中包含的各事务，获取满足设定条件的候选模式集合。

其中，每个事务包括至少一个项目；所述候选模式集合中的每个候选模式包括至少一个项目集中的项目；所述项目集是根据每个事务中的项目生成的集合。

利用设定条件，扫描事务数据库获取满足设定条件的候选模式集合。该设定条件可以包括对候选模式的效用值大小进行限定的条件，在具体实现时，本申请实施例对效用值的大小数值不作具体限定。

在服务器上实现时，可以预先通过通信接口2，将事务数据库存储至存储器3中。在挖掘时，通过通信接口2输入设定条件，并由处理器1通过通信总线4在存储器存储的数据库中查询满足设定条件的候选模式集合。

可选地，通信接口2可以为通信模块的接口，如GSM模块的接口；可选地，处理器1可能是一个中央处理器CPU，或者是特定集成电路ASIC(Application Specific Integrated Circuit)，或者是被配置成实施本申请实施例的一个或多个集成电路。

步骤S210，针对所述候选模式集合中每一候选模式，计算所述候选模式在每一事务中的效用值。

具体地，通过扫描事务数据库，可以确定事务数据库中包含候选模式的事务，并计算候选模式在该事务中的效用值。

举例说明，事务数据库中包含三个事务，分别为(2a,3b,c)、(a,2b,3d)、(b,3c,4d)，其中a、b、c、d为四个项目。每个事务包含的项目之前的数字表示事务所包含对应项目的个数，例如：事务(2a,3b,c)包含2个项目a，3个项目b，和1个项目c。

假设有某一候选模式为[a,b]，则扫描事务数据库可以确定包含该候选模式的事务为：(a,b,c)和(a,b,d)，分别计算候选模式在上述两个事务中的效用值，当然，对于事务数据库中不包含候选模式的事务，候选模式在对应事务中的效用值为0。具体实施时，可以由处理器1计算所述候选模式在每一事务中的效用值。

步骤S220，确定所述效用值达到设定的效用阀值的目标事务。

在本申请实施例中，用户可以根据需要预先设定模式在每个事务中的效用阀值，以及模式的周期阀值。通过S210得到候选模式在每一事务中的效用值，就能够确定出效用值达到设定的效用阀值的目标事务。在具体实施时，可以由处理器1比较各事务的效用值与设定的效用阀值的大小关系，从而确定出所述效用值达到设定的效用阀值的目标事务。

步骤S230，根据各所述目标事务的时间属性，确定所述候选模式的周期值。

具体地，事务数据库中各事务都存在时间属性，抽象分析时，可以定义事务数据库的时间长度为事务数据库中所包含事务的个数，且相邻两个事务的时间差均相同，例如相邻两个事物的时间差记为1。比如，数据库中包含A,B,C,D,E五个事务，则可以确定数据库的长度为5，事务A与事务B之间的时间差为1，事务A与事务D之间的时间差为3。

而根据各目标事务的时间属性，确定候选模式的周期值，仍以上述示例进行说明，假设针对候选模式1，其对应的目标事务包括A、C、E，则候选模式1的周期值为三个目标事务中相邻两个差值中的最大值，其中A和C的时间差值为2，C和E的时间差值为2，即候选模式1的周期值为2。

在服务器上实现时，可以由处理器1根据各目标事务的时间属性，确定候选模式的周期值。

步骤S240，若所述候选模式的周期值小于等于设定的周期阀值，则将所述候选模式确定为挖掘结果。

具体地，如果某一候选模式的周期值小于等于设定的周期阀值，则代表符合用户定义的周期大小条件，可以将该候选模式确定为挖掘结果。具体实施时，可以由处理器1比较各候选模式的周期值与设定的周期阀值的大小关系，并将周期值小于等于设定的周期阀值的候选模式确定为挖掘结果，通过显示屏5输出显示。

本申请实施例提供的模式挖掘方法，针对获取的候选模式集合，计算其在各事务中的效用值，对于效用值小于设定的效用阀值的事务进行删除，该部分事务的模式效用值过小，删除后可以减少挖掘计算时间，并根据删除后剩余的目标事务的时间属性，确定候选模式的周期值，在该周期值小于等于设定的周期阀值时，将候选模式确定为挖掘结果，保证了挖掘得到的模式的效用值在时间上分布均匀，更加便于精确决策。

下面对上述步骤S230的实现过程进行介绍，参见图3，图3为本申请实施例公开的一种确定候选模式的周期值的方法流程图，如图3所示，该方法包括：

步骤S300，根据各目标事务的时间属性，计算相邻两目标事务的时间差值。

每一目标事务均存在时间属性，根据目标事务的时间属性，计算相邻两个目标事务的时间差值，具体计算过程为：数据库中事务按照时间先后顺序排序，针对数据库中顺序排序的各目标事务：若上述目标事务之前不存在任何其它目标事务，则计算该目标事务与数据库中首个事务的时间差值；若上述目标事务之后不存在任何其它目标事务，则计算数据库中末尾事务与该目标事务的时间差值；若上述目标事务之前存在其它目标事务，则计算该目标事务与前一相邻目标事务的时间差值。

为了便于理解，下面进行举例说明。

假设事务数据库中包含A,B,C,D,E五个事务，其中目标事务为事务B和C，对于目标事务B而言，由于其前面不存在其它目标事务，则计算目标事务B与数据库中首个事务A的时间差值，为1；对于目标事务C，由于其后不存在任何其它目标事务，则计算目标事务C与数据库中末尾事务E的时间差值为2；且对于目标事务C，其前面存在目标事务B，计算该两个目标事务的时间差值为1。

步骤S310，将各所述时间差值中最大时间差值确定为所述候选模式的周期值。

仍参见上述例子进行说明，各时间差值包括1，2，1，其中最大时间差值为2，故，确定候选模式的周期值为2。

候选模式的周期值的含义为，对于包含候选模式的事务，删除其中模式效用值小于设定效用阀值的事务之后，以剩余事务的时间差的最大值作为候选模式的周期值。

参见图4，对上述步骤S200的过程进行介绍，该方法包括：

步骤S400，扫描所述数据库中的各事务，获取在各事务中效用值的和值达到设定的扩展效用阀值的项目，由获取的项目组成第1层候选模式集合HTWUSPI¹。

其中，扩展效用阀值大于等于所述效用阀值，其中，一种可选地设置方式，扩展效用阀值M与效用阀值Y之间的关系为：M＝Y*TU*1/T，其中，TU为事务数据库中所有事务效用值的和值，T为设定的周期阀值。

步骤S410，在扫描事务数据库时记录所述项目集中各项目所在事务，以及各事务的效用值。

在执行步骤S400的同时，还可以同时记录项目集中各项目所在的事务，以及各事务的效用值。具体操作时，可以记录项目所在事务的事务编号，以及各事务编号与对应事务的效用值，其中，事务的效用值为事务所包含各项目的效用值的和值。

步骤S420，利用Apriori_gen函数以及所述HTWUSPI¹，逐层产生第k层候选模式集合HTWUSPI^k，直至HTWUSPI^k+1为空，由HTWUSPI¹至HTWUSPI^k组成最终的候选模式集合。

其中，Apriori_gen函数为Apriori算法所提供的函数，根据该函数能够逐层产生候选模式集合。在产生第k层候选模式集合HTWUSPI^k时，利用第k-1层候选模式集合HTWUSPI^k-1中符号条件的两两候选模式进行组合产生。

接下来对上述步骤S420中，TWUSPI^k的产生过程进行介绍，参见图5，该过程包括：

步骤S500，对HTWUSPI^k-1中的候选模式两两组合，得到若干候选模式对。

步骤S510，在所述若干候选模式对中，选取包含k-2个相同项目的候选模式对。

如果某一候选模式对中的两个候选模式，包含k-2个相同的项目，则选取该候选模式对。

步骤S520，将选取的候选模式对进行合并，得到初步候选模式。

举例说明：假设k＝4，HTWUSPI^4-1中存在两个候选模式[a,b,c]、[a,b,d]，这两个候选模式包含4-2个相同的项目，对两个候选模式进行合并，合并后得到初步候选模式：[a,b,c,d]。

步骤S530，针对每一初步候选模式，确定所述初步候选模式所包含的每一项目所在的事务，并确定各项目所在事务的交集，将交集事务确定为所述初步候选模式所在的事务。

具体地，为了确定初步候选模式所在的事务，可以根据上述步骤S410中记录的项目集中各项目所在事务，确定初步候选模式所包含的每一项目所在的事务，并确定各项目所在事务的交集，该交集事务即为所述初步候选模式所在的事务。

步骤S540，至少在所述初步候选模式所在的各事务的效用值的和值达到所述扩展效用阀值时，将所述初步候选模式加入HTWUSPI^k。

具体地，根据步骤S410中记录的事务数据库中各事务的效用值，可以确定初步候选模式所在的各事务的效用值的和，再确定至少满足该和值达到扩展效用阀值的初步候选模式，将确定的初步候选模式加入HTWUSPI^k。

进一步地，本申请实施例针对TWUSPI^k的产生过程提出了一种剪枝策略，能够减少周期值不满足设定周期阈值的候选模式的产生，对于融合该剪枝策略的TWUSPI^k的产生过程，参见图6，该过程包括：

步骤S600，对HTWUSPI^k-1中的候选模式两两组合，得到若干候选模式对。

步骤S610，在所述若干候选模式对中，选取包含k-2个相同项目的候选模式对。

如果某一候选模式对中，两个候选模式包含k-2个相同的项目，则选取该对候选模式对。

步骤S620，由选取的候选模式对进行合并，得到初步候选模式。

步骤S630，针对每一初步候选模式，确定所述初步候选模式所包含的每一项目所在的事务，并确定各项目所在事务的交集，将交集事务确定为所述初步候选模式所在的事务。

步骤S640，计算所述初步候选模式所在的各事务的效用值的和值。

根据步骤S410中记录的数据库中各事务的效用值，可以确定所述初步候选模式所在的各事务的效用值的和值。

步骤S650，根据所述初步候选模式所在的各事务的时间属性，确定所述初步候选模式的周期值。

针对初步候选模式所在的各事务，根据各事务的时间属性，计算相邻两事务的时间差值，并将计算得到的各时间差值中最大时间差值确定为初步候选模式的周期值。

步骤S660，在所述初步候选模式所在的各事务的效用值的和值达到所述扩展效用阀值，且所述初步候选模式的周期值小于等于设定的周期阀值时，将所述初步候选模式加入HTWUSPI^k。

相比于上一实施方法，本实施例在产生HTWUSPI^k时进一步增加了周期阀值的判断，筛选掉周期值未达到周期阀值的初步候选模式，从而减少了后续扫描数据库的次数，降低了模式挖掘时间。

对于获取满足设定条件的候选模式集合的过程，提出了另一种剪枝策略，能够减少效用值未达到设定的效用阀值的候选模式的产生，对于融合该剪枝策略的获取满足设定条件的候选模式集合的过程进行介绍，参见图7，该过程包括：

步骤S700，扫描所述数据库中的各事务，获取在各事务中效用值的和值达到设定的扩展效用阀值的项目，由获取的项目组成第1层候选模式集合HTWUSPI¹。

其中，扩展效用阀值大于效用阀值。一种可选地设置方式，扩展效用阀值M与效用阀值Y之间的关系为：M＝Y*TU*1/T，其中，TU为数据库中所有事务效用值的和值，T为设定的周期阀值。

步骤S710，在扫描事务数据库时记录所述项目集中各项目所在事务，以及各事务的效用值。

步骤S720，确定事务的效用值小于所述效用阀值的低效用事务，并在记录的各项目所在事务中删除所述低效用事务。

步骤S730，利用Apriori_gen函数以及所述HTWUSPI¹，逐层产生第k层候选模式集合HTWUSPI^k，直至HTWUSPI^k+1为空，由HTWUSPI¹至HTWUSPI^k组成最终的候选模式集合。

相比于图4示例的获取后续模式集合的过程，可知本实施方式中新增了删除低效用事务的过程，即对于记录的项目集中各项目所在的事务，其中不包含低效用事务，一定程度避免了效用值未达到设定效用阀值的候选模式的产生，从而减少了后续扫描数据库的次数，降低了模式挖掘时间。

为了使本申请实施例更加清楚，下面通过一个完整的实例对方案整体进行介绍。假设数据库中包含如下事务：事务1(2a,b,c,d,2f)，事务2(a,c,d,3e)，事务3(a,d,f,h)，事务4。(c,e,g,h)；用户设定的效用阀值Y，扩展效用阀值M，周期阀值T。

模式挖掘过程如下：

S1，扫描数据库，获取在各事务中效用值的和值达到M的项目，由获取的项目组成第1层候选模式集合HTWUSPI¹；

假设满足条件的HTWUSPI¹包括[a,b,c,d]。

S2，记录项目集中各项目所在事务，以及各事务的效用值；具体记录信息可以参照下述两个表：

表1 项目集中各项目所在事务

表2 各事务的效用值

事务编号	1	2	3	4
事务效用值	X1	X2	X3	X4

S3，确定事务的效用值小于所述效用阀值的低效用事务，并在记录的各项目所在事务中删除所述低效用事务。

假设事务4的效用值X4小于效用阀值Y，则对上表1进行修改，删除其中的事务4，修改后如下表3：

表3 修改后的项目集中各项目所在事务

S4，生成HTWUSPI²。

具体生成过程如下：

S41，对HTWUSPI¹{[a]、[b]、[c]、[d]}中各候选模式两两组合，选取包含2-2个相同项目的候选模式对进行合并，得到初步候选模式：[a,b]、[a,c]、[a,d]、[b,c]、[b,d]、[c,d]。

S42，对每一初步候选模式，确定所述初步候选模式所包含的每一项目所在的事务，并确定各项目所在事务的交集，将交集事务确定为所述初步候选模式所在的事务。

具体确定的各初步候选模式所在的事务如下：

[a,b]所在事务包括：事务1；

[a,c]所在事务包括：事务1、事务2；

……

[c,d]所在事务包括：事务1、事务2。

S43，在所述初步候选模式所在的各事务的效用值的和值达到所述扩展效用阀值，且所述初步候选模式的周期值小于等于设定的周期阀值时，将所述初步候选模式加入HTWUSPI²；

为了更加清楚的说明，这里仅以初步候选模式[a,c]为例进行说明：

[a,c]所在的各事务的效用值的和值为：X1+X2；[a,c]的周期值计算如下：

数据库包括事务1-4，[a,c]所在事务为事务1和事务2，因此按照本申请公开的差值计算方式得到如下若干时间差值：1-1、2-1、4-2，选取其中最大时间差值4-2＝2，作为[a,c]的周期值。

判断X1+X2是否大于M，且2是否小于等于T，若是，则将[a,c]加入HTWUSPI²。

S5，生成HTWUSPI³。

具体生成过程可以参照HTWUSPI²的生成过程，此处不再赘述。

假设生成的HTWUSPI⁴为空，即不存在HTWUSPI⁴，

将生成的HTWUSPI¹-HTWUSPI³作为候选模式集合。

假设，HTWUSPI¹包括：{[a]、[b]、[c]、[d]}；

HTWUSPI²包括：{[a,b]、[a,c]、[a,d]}；

HTWUSPI³包括：{[a,c,d]}。

S6，针对每一候选模式，计算所述候选模式在每一事务中的效用值，确定所述效用值达到Y的目标事务，并根据各所述目标事务的时间属性，确定所述候选模式的周期值。

为了更加清楚的说明，此处仅以候选模式[a,c,d]为例进行说明：

[a,c,d]在事务1中的效用值为X11，在事务2中的效用值为X21。若确定X11和X21均大于等于Y，则将事务1和事务2确定为目标事务。根据目标事务的时间属性，确定[a,c,d]的周期值的过程可以参照上文相关介绍，该周期值为2。

S7，若所述候选模式的周期值小于等于T，则将所述候选模式确定为挖掘结果。

假定[a,c,d]的周期值2小于等于T，则可以将[a,c,d]作为挖掘得到的一个结果。

上文是对本申请实施例提供的一种模式挖掘方法进行解释说明，下面为本申请实施例提供的一种模式挖掘装置进行解释说明，下文描述的模式挖掘装置与上文描述的模式挖掘方法可相互对应参照。

参见图8，图8为本申请实施例公开的一种模式挖掘装置结构示意图，如图8所示，该装置包括：

候选模式集合获取单元810，用于根据数据库中包含的各事务，获取满足设定条件的候选模式集合，其中，每个事务包括至少一个项目；所述候选模式集合中的每个候选模式包括至少一个项目集中的项目；所述项目集是根据每个事务中的项目生成的集合；

效用值计算单元820，用于针对所述候选模式集合中每一候选模式，计算所述候选模式在每一事务中的效用值。

目标事务确定单元830，用于确定所述效用值达到设定的效用阀值的目标事务。

候选模式周期值确定单元840，用于根据各所述目标事务的时间属性，确定所述候选模式的周期值。

挖掘结果确定单元850，用于若所述候选模式的周期值小于等于设定的周期阀值，则将所述候选模式确定为挖掘结果。

可选地，候选模式周期值确定单元840可以包括：

时间差值计算单元，用于根据各目标事务的时间属性，计算相邻两目标事务的时间差值。

最大时间差值选取单元，用于将各所述时间差值中最大时间差值确定为所述候选模式的周期值。

可选地，时间差值计算单元可以包括：

第一时间差值计算子单元，用于针对数据库中顺序排序的各目标事务，若所述目标事务之前不存在任何其它目标事务，则计算所述目标事务与所述数据库中首个事务的时间差值。

第二时间差值计算子单元，用于若所述目标事务之后不存在任何其它目标事务，则计算所述数据库中末尾事务与所述目标事务的时间差值。；

第三时间差值计算子单元，用于若所述目标事务之前存在其它目标事务，则计算所述目标事务与前一相邻目标事务的时间差值。

可选地，上述候选模式集合获取单元810可以包括：

第1层后续模式集合获取单元，用于扫描所述数据库中的各事务，获取在各事务中效用值的和值达到设定的扩展效用阀值的项目，由获取的项目组成第1层候选模式集合HTWUSPI¹，其中，所述扩展效用阀值大于等于所述效用阀值.

事务记录单元，用于在扫描所述数据库时记录所述项目集中各项目所在事务，以及各事务的效用值。

第k层候选模式集合产生单元，用于利用Apriori_gen函数以及所述HTWUSPI1，逐层产生第k层候选模式集合HTWUSPI^k，直至HTWUSPI^k+1为空，由HTWUSPI¹至HTWUSPI^k组成最终的候选模式集合。

其中，上述第k层候选模式集合产生单元可以包括：

候选模式两两组合单元，用于对HTWUSPI^k-1中的候选模式两两组合，得到若干候选模式对。

候选模式对选取单元，用于在所述若干候选模式对中，选取包含k-2个相同项目的候选模式对。

候选模式对合并单元，用于由选取的候选模式对进行合并，得到初步候选模式。

初步候选模式所在事务确定单元，用于针对每一初步候选模式，确定所述初步候选模式所包含的每一项目所在的事务，并确定各项目所在事务的交集，将交集事务确定为所述初步候选模式所在的事务。

初步候选模式加入集合单元，用于至少在所述初步候选模式所在的各事务的效用值的和值达到所述扩展效用阀值时，将所述初步候选模式加入HTWUSPI^k。

其中，上述初步候选模式加入集合单元可以包括：

第一初步候选模式加入集合子单元，用于计算所述初步候选模式所在的各事务的效用值的和值。

第二初步候选模式加入集合子单元，用于根据所述初步候选模式所在的各事务的时间属性，确定所述初步候选模式的周期值。

第三初步候选模式加入集合子单元，用于在所述初步候选模式所在的各事务的效用值的和值达到所述扩展效用阀值，且所述初步候选模式的周期值小于等于设定的周期阀值时，将所述初步候选模式加入 HTWUSPI^k。

可选地，所述候选模式集合获取单元810还可以包括：

低效用事务删除单元，用于在所述事务记录单元之后，确定事务的效用值小于所述效用阀值的低效用事务，并在所述事务记录单元记录的各项目所在事务中删除所述低效用事务。

本申请实施例还提供一种模式挖掘设备，该设备包括：

处理器以及存储器；

存储器，用于存储计算机程序；

处理器，用于读取所述计算机程序，以执行可执行指令，所述可执行指令用于实现上述模式挖掘方法。本申请实施例还提供一种存储介质，该存储介质用于存储程序代码，程序代码用于执行上述模式挖掘方法。

本申请实施例还提供一种包括指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述模式挖掘方法。

以上对本申请提供的模式挖掘方法和装置进行了解释说明。

下文对本申请提供的高效用项集挖掘方法及相关设备分别进行解释说明。

首先介绍高效用项集挖掘(High Utility Itemset Mining，HUIM)技术，HUM是一种基于效用的项集挖掘技术，通过衡量项集对应的外部效用值(如利润值等)和内部效用值(如在事务中的发生次数，在交易场景下，可以是交易数量等)，从而计算项集在数据库中的项集效用值，当项集的项集效用值大于或等于用户自定义的最低效用阈值时，则认为该项集是高效用项集。

一种高效用项集挖掘方法是通过设定唯一固定的最低效用阈值作为高效用项集的衡量标准实现，即，在计算出各项集的项集效用值后，将各项集的项集效用值分别与唯一固定的最低效用阈值进行比较，从而将项集效用值大于或等于该唯一固定的最低效用阈值的项集，作为高效用项集。

然而，一个项集中包括的数据项往往是一个或多个，而不同的数据项对应的最低效用阈值往往是不同的，这就导致不同项集对应的最低效用阈值也可能是不同的。本申请实施例提供了一种高效用项集挖掘的方式，解决高效用项集挖掘不准确的问题，提升挖掘出的高效用项集的准确性。

为便于理解本申请实施例描述的技术方案，下面先对本申请实施例涉及的名称概念进行介绍。

1、事务：事务数据库中的一条记录；比如，交易类型的事务数据库中记录的是商品的交易记录，则事务数据库中的每一条事务可以对应一条商品的交易记录。

2、事务编号(TID)：事务数据库中不同事务的编号，一般情况下，事务按照时态顺序编号。

3、数据项：事务中记录的信息项目，一条事务中包含至少一个数据项；比如，交易类型的事务数据中，每一条事务中包含交易的商品的数据项，及各商品的内部效用值(如交易数量)；交易数量是内部效用值在交易场景下的一种体现形式，在其他场景的事务数据库中，内部效用值的形式可相应的调整。

如下表4所示，交易类型的事务数据库中包含10条事务，每条事务指示一条交易记录，每条事务中包含各交易的商品名称的数据项，及各商品的在事务中的交易数量(内部效用值的一种形式)。

表4 交易类型数据库中的事务

事务编号	事务(商品名称：交易数量)
T1	A:1,C:2,D:3
T2	A:2,D:1,E:2
T3	B:3,C:5

T4	A:1,C:3,D:1,E:2
T5	B:1,D:3,E:2
T6	B:2,D:2
T7	B:3,C:2,D:1,E:1
T8	A:2,C:3
T9	C:2,D:2,E:1
T10	A:2,C:2,D:1

从表4中可以看出，在交易类型的事务数据库中，事务中的数据项可以是商品名称，内部效用值可以是事务中各商品的交易数量。在表4中，事务数据库包含A、B、C、D和E这5个数据项，其中，T1事务的实际意义可以为：一条指示购买1件A商品、2件C商品和3件D商品的交易记录；T7事务的实际意义可以为：一条指示购买3件B商品、2件C商品、1件D商品和1件E商品的购物记录。

在新闻领域，表4中的各事务可以包含至少一条新闻，各事务可以记录每一条新闻的兴趣值、敏感度大小、新鲜度大小等；在股票等领域，表4中的各事务可以包含至少一个股票，各事务可以记录每一个股票的风险大小、收益大小等。

4、项集：至少一个数据项构成的集合，用于表征事务数据库内在的一种关联规则；事务与项集的不同的点是，事务通常是由实际的事件所触发生成的在事务数据库中的记录，而项集通常是从数据库挖掘而出的，并不一定有实际的含义。

5、k-项集：包含有k个数据项的集合；比如，1-项集可以是包含一个数据项的项集，如仅包含数据项A的项集A；2-项集可以是包含两个数据项的项集，如仅包含数据项A和B项集AB，以此类推。

6、外部效用值表(如利润表，Profit Table)：记录事务数据库中各数据项对应的单位外部效用值的表格；在交易类型的事务数据库中，利润表可以是外部效用值表的一种体现形式，也就是说，外部效用值表可以记录事务数据库中各数据项的单位利润值；可参见表5所示的一张具体的利润表：

表5 利润表

数据项	A	B	C	D	E
单位利润值	6	12	1	9	3

从表5可以看出，利润表表示的是卖出一件商品可以获得的单位利润，比如卖出一件商品A，可以获得利润6元；卖出一件商品B，可以获得利润12元；可见，外部效用值表可以表示每个数据项对应的单位外部效用值。

7、数据项在事务中的效用值(Utility of an item in a transaction)：一个数据项在一条事务中的效用值，可以是某一数据项在一事务中的内部效用值乘以该数据项的单位外部效用值。比如在交易类型的事务数据库中，某一数据项在一事务中的效用值可以是，该数据项在该事务中的交易数量乘以该数据项的单位利润值；以表4和表5所示，数据项B在T3事务中的效用值可以是3×12＝36。

8、项集在事务中的效用值(Utility of an itemset in a transaction)：某一项集中的各数据项在某一事务中的效用值的加和。以表4和表5所示，项集BC(仅包含数据项B和C的项集)在T3事务中的效用值为3×12+5×1＝41。

9、项集效用值(Itemset utility in Database)：某一项集在事务数据库中的效用值，即某一项集在包含该项集的所有数据项的各事务中的效用值的加和。

10、最低效用阈值表(Minimum Utility threshold，MMU表)：本申请实施例定义的，指示有各数据项对应的最低效用阈值的表格；可参照表6所示的一种MMU表的形式最低效用阈值表中定义的各数据项的最低效用阈值并不是固定的，而是可以由用户根据各数据项的实际情况设定，如可根据商品的价格波动情况，更新各商品的最低效用阈值。

表6 最低效用阈值表

数据项	A	B	C	D	E
最低效用阈值	56	65	53	50	70

11、项集最低效用阈值(minimum utility threshold of an itemset，MIU)，在本申请实施例中，由于不同数据项对应的最低效用阈值可能不同(如表6所示)，这导致不同项集对应的最低效用阈值也可能是不同的；因此为解决现有技术为不同的项集设置固定唯一的最低效用阈值所带的准确性较低的问题，本申请实施例针对各项集，可根据项集中包含的数据项，为项集匹配适应的项集最低效用阈值。；

针对各项集，本申请实施例可确定项集中最低效用阈值最小的数据项，将所确定的数据项的最低效用阈值作为该项集的项集最低效用阈值，从而得到各项集对应的项集最低效用阈值，为后续准确性较高的高效用项集的挖掘提供基础。

以项集AB的项集最低效用阈值确定为例，项集AB中包含数据项A和数据项B，从表6设置的MMU表可以看出，数据项A的最低效用阈值最小，因此可将数据项A的最低效用阈值作为项集AB的项集最低效用阈值，即项集AB的项集最低效用阈值为56；又如项集BC的项集最低效用阈值为，数据项C的最低效用阈值53。

12、事务的效用值(Transaction Utility)：某一事务的效用值为，组成该事务的各个数据项在该事务中的效用值的加和；以表4所示，事务T5中包含数据项B、D和E，本申请实施例可确定事务T5的效用值为1×12+3×9+2×3＝45。

13、数据库的总效用值：数据库中各事务的效用值的加和；以表4所示，数据库的总效用值为T1至T10的各事务的效用值的加和为：35+27+41+24+45+42+50+15+23+23＝325。

14、最小最低效用阈值(Least Minimum Utility value，LMU)：MMU表中最小的最低效用阈值，以表6中的内容为例，最小最低效用阈值为数据项D的最低效用阈值50。

15、高效用项集(High Utility Itemset，HUI)：当项集的项集效用值≥该项集的项集最低效用阈值，则该项集为高效用项集；比如项集A的项集效用值为48，小于项集A的项集最低效用阈值56，则项集A不是高效用项集，又如，项集AD的项集效用值为90，大于项集AD的项集最低效用阈值50，则项集AD为高效用项集。

16、项集的事务加权效用(Transaction Weighted Utility，TWU)：包含指定项集的事务的效用值之和；以表4和表5所示为例，当指定项集为B时(仅包含数据项B的项集)，则包含项集B的事务为T3，T5，T6和T7，相应的T3，T5，T6和T7事务的效用值的加和为41+45+42+50＝178，则项集B的事务加权效用为178。

17、高事务加权效用项集(High Transaction Weighted Utilization Itemset，HTWUI)：当项集的TWU≥该项集的项集最低效用阈值时，则该项集为高事务加权效用项集；比如，项集B的事务加权效用为178，而项集B的最低效用阈值为65，项集B的事务加权效用大于最低效用阈值，确定项集B为高事务加权效用项集。

下面介绍本申请实施例提供的高效用项集挖掘方法，该方法可应用于具有数据处理能力的数据处理设备，如应用于网络侧的数据处理服务器。根据数据挖掘场景的不同，高效用项集的挖掘也可能是在用户侧的计算机等设备上进行。如图9所示，该方法包括：

步骤S900，确定事务数据库中各项集对应的项集效用值。

可选地，一个项集对应的项集效用值表示：该项集在该项集对应的各目标事务中的效用值的加和，一个项集的目标事务为包含该项集所有数据项的事务。一个项集在目标事务中的效用值表示：该项集的各数据项在目标事务中的效用值的加和。

可选地，事务数据库中可以包括至少一条事务，一条事务可以记录有至少一个数据项及各数据项对应的内部效用值，一个项集可以包括至少一个数据项；

可选地，一个数据项在一个事务中的效用值表示：该数据项在该事务中的内部效用值及该数据项对应的单位外部效用值的乘积，各数据项对应的外部效用值可根据预定义的外部效用值表确定，外部效用值表记录有各数据项对应的单位外部效用值。

比如，在交易类型的数据库中，本申请实施例可预先设定利润值表(利润值表为外部效用值表的一种形式)，通过利润值表记录各商品的单位利润值(商品为数据项的一种形式，单位利润值为单位外部效用值的一种形式)，也就是说，一个商品在一个交易事务中的效用值是该商品在该交易事务中的交易数量(交易数量为内部效用值的一种形式)与该商品的单位利润值的乘积。

步骤S910，根据预定义的最低效用阈值表，确定各项集对应的项集最低效用阈值。

上述预定义的最低效用阈值表，记录有各数据项对应的最低效用阈值，一个项集对应的项集最低效用阈值表示：该项集包含的数据项所对应的最低效用阈值中的最小最低效用阈值。

步骤S920，将各项集的项集效用值与对应的项集最低效用阈值进行比对，根据比对结果确定高效用项集，其中，高效用项集的项集效用值不小于对应的项集最低效用阈值。

本申请实施例定义了记录有各数据项对应的最低效用阈值的最低效用阈值表，在确定每一个项集所对应的项集最低效用阈值时，通过比较项集包含的数据项所对应的最低效用阈值，从而将项集所包含的数据项对应的最低效用阈值中的最小最低效用阈值，作为项集所对应的项集最低效用阈值，使得所确定的各项集对应的项集最低效用阈值更为贴近项集的最低效用情况；基于所确定的各项集的项集最低效用阈值，将各项集的项集效用值与对应的项集最低效用阈值进行比对，从而确定出项集效用值不小于对应的项集最低效用阈值的高效用项集，实现高效用项集的挖掘。

本申请实施例提供的高效用项集挖掘方法并不是以唯一固定的最低效用阈值，作为高效用项集的挖掘标准，而是将每个项集所包含的数据项对应的最小最低效用阈值，作为每个项集的项集最低效用阈值，使得所确定的各项集对应的项集最低效用阈值更为贴近项集的最低效用情况，进而将各项集的项集效用值与项集对应的项集最低效用阈值进行比对，来实现高效用项集的挖掘，将使得挖掘结果更为准确；本申请实施例提高了高效用项集挖掘的准确性。

以表4、5和6所示为基础，下表7示出了项集效用值不小于项集最低效用阈值的高效用项集的示意图，如下表7所示：

表7 项集效用值不小于项集最低效用阈值的高效用项集

项集	项集最低效用阈值	项集效用值
(B)	65	108
(D)	50	126
(AD)	50	90

(BC)	53	79
(BD)	50	126
(CD)	50	83
(DE)	50	96
(ACD)	50	76
(BDE)	50	93
(CDE)	50	55
(BCDE)	50	50

可选地，本申请实施例提供的确定事务数据库中各项集对应的项集效用值的方式可以是：对于各项集，先确定事务数据库中包含该项集的所有数据项的至少一目标事务，并确定该项集的所有数据项在所确定的各目标事务中的效用值，并将所确定各效用值相加和，得到该项集的项集效用值。

以表4和表5所示，项集B(仅包含数据项B的项集)的项集效用值为3×12+1×12+2×12+3×12＝108，在本申请实施例中，可确定包含数据项B的事务T3，T5，T6和T7，从而确定项集B在事务T3中的效用值3×12，确定项集B在事务T5种的效用值1×12，确定项集B在事务T6中的效用值2×12，确定项集B在事务T7中的效用值3×12，将所确定的各效用值加和，得到108的项集效用值。

项集BC(仅包含数据项B和C的项集)的项集效用值为(3×12+5×1)+(3×12+2×1)＝79，在本申请实施例中，可确定包含数据项B和C的事务T3和T7，确定项集BC在事务T3中的效用值3×12+5×1，确定项集BC在事务T7中的效用值3×12+2×1，从而将所确定的各效用值加和，得到79的项集效用值。

可选地，参见图10，本申请实施例提供的确定事务数据库中各项集对应的项集效用值的过程，可以包括：

步骤S1000，根据各数据项在各事务对应的外部效用值，和预定义的最低效用阈值表中记录的各数据项的内部效用值，以递归方式构建各项集对应的效用列表。

一个项集对应的效用列表表示：该项集在数据库中出现的事务(即该项集的目标事务)中的一系列元组信息。其中，一个项集对应的效用列表可以记录有该项集对应的各目标事务的事务编号，该项集在各目标事务对应的效用值，及该项集在各目标事务中的剩余效用值。一个项集在一个事务中的剩余效用值表示：一个事务中的数据项以最低效用阈值从小到大排序，并在该事务中除去该项集所包含的数据项后，排序在该事务右边的数据项的效用值的总和。

步骤S1010，根据各项集对应的效用列表，计算出各项集的项集效用值。

在构建出各项集对应的效用列表后，可根据各项集对应的效用列表，计算出各项集的项集效用值。由于各项集对应的效用列表记录有各项集在各目标事务对应的效用值，可将各项集在各目标事务对应的效用值的加和，作为各项集的项集效用值。

在图10所示方法中，确定各项集对应的项集效用值时，如何以递归方式构建各项集对应的效用列表是一个关键点。本申请实施例，可以分层级以递归方式构建各项集对应的效用列表，一个项集所处于的层级序数与该项集所包含的数据项的数量相对应，即第一层级的各项集仅包含一个数据项，第二层级的各项集仅包含两个数据项，以此类推；且下一层级的项集对应的效用列表，可通过至少两个能够组合成该项集的高层级项集的效用列表构建。

可选地，在通过上述分层级以递归方式构建各项集对应的效用列表时，可先构建枚举的最低效用阈值树(MIU树)，枚举的MIU树可以认为是常规枚举树的扩展版，MIU树包含有分层级的项集，一个项集在MIU树中所处于的层级序数与该项集所包含的数据项的数量相对应，且各层级的项集按照最低效用阈值从小到大的顺序排序。

可选地，构建出MIU树后，可基于各数据项在各事务对应的外部效用值和各数据项的内部效用值，构建出与MIU树相结合的各项集对应的效用列表，且下一层级的项集对应的效用列表，可通过至少两个能够组合成该项集的高层级项集的效用列表构建。

在构建MIU树时，可先确定事务数据库中包含一个数据项的各项集，并将所确定的各项集排序在MIU树的第一层级，构建出位于MIU树第一层级的项集；然后以深度优先搜索的方式，依序从MIU树第一层级的各项集出发，构建出分层级的项集，并使得一个项集在MIU树中所处于的层级序数与该项集所包含的数据项的数量相对应，从而形成MIU树。

可选地，在MIU树的一个层级中，项集可以随机的排序，也可以按照最低效用阈值从小到大的顺序排序。

可选地，参见图11，示出的构建MIU树的方法，该方法可以包括：

步骤S1100，确定事务数据库中包含一个数据项的各项集，并将所确定的各项集按照最低效用阈值从小到大的顺序排序在MIU树的第一层级，构建出位于MIU树第一层级的项集。

在构建MIU树时，可以先确定事务数据库中包含一个数据项的各项集，即各1-项集；并将所确定的各项集按照最低效用阈值从小到大的顺序排序在MIU树的第一层级，构建出位于MIU树第一层级的项集。

步骤S1110，以深度优先搜索的方式，依序从MIU树第一层级的各项集出发，构建出分层级的项集，并使得一个项集在MIU树中所处于的层级序数与该项集所包含的数据项的数量相对应，且各层级的项集按照最低效用阈值从小到大的顺序排序，形成MIU树。

在构建出位于MIU树第一层级的项集后，可以以深度优先搜索的方式，构建出MIU树的分层级的项集。

图12给出了相应的MIU树结构，结合图12所示，可以先确定事务数据库中包含一个数据项的各项集A、B、C、D和E，结合表6所示，项集A、B、C、D和E的最低效用阈值从小到大的排序为项集D、C、A、B和E，从而将D、C、A、B和E依序排序在MIU树的第一层级；在构建出MIU树的第一层级的项集后，可从项集D出发，构建出第二层级中项集D对应的项集DC、DA、DB和DE，并将项集DC、DA、DB和DE按照最低效用阈值从小到大的排序，然后构建第三层级中项集DC对应的项集DCA、DCB、DCE、DAB和DAE并排序；再构建DCA在下一层级中对应的项集DCABE，然后回到项集DA构建其对应的下一层级的项集，以此类推，进而依序从MIU树第一层级的各项集出发，构建出分层级的项集。

可选地，在构建出MIU树时，确定各项集在各层级的排序后，对于第一个层级中的各项集，可依序计算各项集在对应的各目标事务中的效用值，并且确定各项集在对应的各目标事务中的剩余效用值。比如，在本申请实施例中，可先记录第一个层级中的第一个项集所对应的各目标事务的事务编号，该项集在对应的各目标事务中的效用值，及该项集在对应的各目标事务中的剩余效用值，并通过表格进行记录，依此对第一个层级中的各项集进行处理，则可得到第一个层级中各项集对应的效用列表。结合表4、5和6，图13给出了MIU树中第一个层级的各项集对应的效用列表。其中，tid表示事务编号，iu表示效用值，ru表示剩余效用值。

在确定第一个层级的各项集对应的效用列表后，MIU树中下一层级的项集的效用列表可通过至少两个能够组合成该项集的高层级项集的效用列表构建。

可选地，此处的至少两个能够组合成该项集的高层级项集，可以是高层级中能够直接组合成该项集的至少两个项集，也可以是高层级中至少两个组合后，通过去除重复数据项能够组合成该项集的项集。

如第二层级中的项集DC的效用列表可通过第一层级中项集D和C的效用列表组合形成，具体组合如图14所示。其中，2-项集DC的对应的目标事务的事务编号，为1-项集D和C的共同出现的目标事务的事务编号,即{T1,T4,T7,T9,T10}；在T1中，项集DC的效用值等于为项集D和项集C在事务T1中的效用值的加和，即27+2＝29，项集DC在其他目标事务中的效用值的处理类似；而项集DC在各目标事务中的剩余效用值，可以直接以项集D和C中排序在后的项集C在各目标事务的剩余效用值确定。

在构建出第一层级中各项集的效用列表后，在构建第二层级的各项集的效用列表时，对于第二层级的各项集，可以确定第一层级中能够组合成该第二层级的项集的两个项集，将该两个项集共同对应的目标事务，作为该第二层级的项集所对应的目标事务，将该两个项集在一共同对应的目标事务中的效用值的加和，作为该第二层级的项集在该目标事务中的效用值；并将该两个项集中排序在后的项集在一共同对应的目标事务中的剩余效用值，作为该第二层级的项集在该目标事务中的剩余效用值，从而得到该第二层级的项集的效用列表。

又如第三层级中的项集DCA的效用列表可通过第二层级中的项集DC和DA的效用列表组合形成，具体组合如图15所示。当需要确定效用列表的项集所在的层级不小于三时，项集的效用列表的构建过程可以与第二层级的项集的效用列表的构建过程存在差异，不同之处在于：层级不小于三的项集在各目标事务中的效用值，除需要将上一层级中能够组合成该项集的两个项集在目标事务中的效用值相加外，还需要再减去该项集的前缀数据项在该目标事务中的效用值。比如，图15中项集DCA在T10事务中的效用值为，DC在T10事务中的效用值11，加上DA在T10事务中的效用值21，再减去项集DCA的前缀数据项D在T1O中的效用值9，即11+21-9＝23；相应的，层级不小于三的项集在各目标事务中的剩余效用值为，上一层级中能够组合成该项集的两个项集中排序在后的项集在各目标事务中的剩余效用值。

在构建层级不小于三的项集的效用列表时，对于层级不小于三的各项集，可以确定上一层级中能够组合成该项集的两个项集，将该两个项集共同对应的目标事务，作为该层级不小于三的项集所对应的目标事务；并将该两个项集在一共同对应的目标事务中的效用值的加和，减去该层级不小于三的项集的前缀数据项在该目标事务中的效用值，将得到结果作为该层级不小于三的项集在该目标事务中的效用值；并将该两个项集中排序在后的项集在一共同对应的目标事务中的剩余效用值，作为该第二层级的项集在该目标事务中的剩余效用值，从而得到该层级不小于三的项集的效用列表。

相应的，上述构建各层级的项集所对应的效用列表的伪代码可以如下，具体算法过程可以如下文代码中的Line 5(k≥3的情况，即层级≥3的情况)和Line 7(k＝1或2的情况，即层级＝1或2的情况)：

Input:X,an itemset；X.UL is the utility-list of X；Xab.UL,Xa.UL,Xb.UL,

and

Xa≠Xb.//输入：项集X；X对应的效用列表；Xab对应的效用列表；Xa对应的效用列表；Xb对应的效用列表，Xa、Xb均是X的子集，且Xa≠Xb

Output:Xab.UL.//输出：Xab的效用列表

1:set Xab.UL←null.//设Xab对应的效用列表为空

2:for each element Ea∈Xa do

3:

4:search E∈X.UL∧E.TID:＝Ea.TID.

5:Eab←<Ea.TID,Ea.iu+Eb.iu-E.iu,Eb.ru>.//针对Xa和Xb中拥有相同的数据项且Xa对应的效用列表与Xb对应的效用列表存在相同事务,构建K-项集Xab(k≥3)的效用列表

6:else

7:Eab←<Ea.TID,Ea.iu+Eb.iu,Eb.ru>.//针对根据1-项集对应的第1-效用列表生成2-项集对应的第2-效用列表的过程，第2-效用列表中TID为数据项Ea对应的TID,iu为数据项Ea与数据项Eb效用值之和，ru为数据项Eb对应的剩余效用值ru

8:end if

9:Xab.UL←Eab.

10:end for

11:return Xab.UL.//输出Xab的效用列表。

可选地，在构建层级不小于三的项集的效用列表时，对于层级不小于三的各项集，可以确定高层级中可直接组合成该项集的至少两个项集，将该至少两个项集共同对应的目标事务，作为该层级不小于三的项集所对应的目标事务；将该至少两个项集在一共同对应的目标事务中的效用值的加和，作为该层级不小于三的项集在该目标事务中的效用值；并将该至少两个项集中最高层级的项集中排序在后的项集，在一共同对应的目标事务中的剩余效用值，作为该第二层级的项集在该目标事务中的剩余效用值，从而得到该层级不小于三的项集的效用列表。

比如，项集DCA可以由项集DC合项集A组合而成，项集DCA在各目标事务中的效用值，可以是项集DC和A在该目标事务中的效用值的加和，且项集DCA在各目标事务中的剩余效用值，可以是项集DC和A中最高层级，且排序在后的项集A在各目标事务中的剩余效用值；具体如图16所示。

可选地，在构建出各项集对应的效用列表后，可以在挖掘高效用项集的过程中，基于各项集对应的效用列表，计算各项集的项集效用值；并根据预定义的最低效用阈值表，将各项集所包含的数据项所对应的最小项集最低效用阈值，作为各项集对应的项集最低效用阈值；从而将各项集的项集效用值与对应的项集最低效用阈值进行比对，根据比对结果，挖掘出高效用项集。

本申请挖掘高效用项集的算法伪代码可以参照如下算法1和算法2所示。

在上述算法1中，Line 1为初始化几个变量，Line 2为由MMU表计算出LMU,然后扫描原始数据库计算各个1-项集的TWU值(Line 3)，依据MMU表中设定的各个1-项集的最低效用阈值找出高事务加权效用1-项集的集合HTWUI1(Line 4，这里属于应用全局向下封闭特性(Global downward closure property,GDC property))；Line 5是对找出的HTWUI1依据它们的最低效用阈值进行从小到大的排序。

Line 6是根据高事务加权效用1-项集生成第1-效用列表；然后调用挖掘函数HUI-Search，递归地根据第1-效用列表生成一系列的后续的效用列表(Line 7)，并从生成的效用列表中挖掘高效用项集。

可见，本申请实施例在确定事务数据库中包含一个数据项的各项集，并将所确定的各项集按照最低效用阈值从小到大的顺序排序在MIU树的第一层级，构建出位于MIU树第一层级的项集时，具体可通过如下方式实现：计算包含一个数据项的各项集的项集的事务加权效用值(TWU值)，根据包含一个数据项的各项集的最低效用阈值，确定包含一个数据项的各项集中的高事务加权效用项集，将高事务加权效用项集按照最低效用阈值从小到大进行排序；然后再递归地根据包含一个数据项的各项集的效用列表生成一系列的后续的效用列表，形成各项集对应的效用列表。

函数HUI-Search的伪代码如算法2所示，其中Line 5应用了有条件的向下封闭特性(Conditional downward closure property,CDC property)进行提前剪枝操作，Line 8则应用了全局向下封闭特性(Global downward closure property,GDC property)进行剪枝操作。

剪枝策略1：当采用深度优先搜索方式遍历MIU树时，依据效用列表，如果某项集X的TWU值小于LMU值时，则X的所有超集都不会是高效用项集；项集的超集就是指包含该项集的所有数据项的集合，如项集A，它的项集就是前面的MIU树图中所有含有A的树节点，而不仅仅是项集A的所有子节点。

剪枝策略2:当采用深度优先搜索方式遍历MIU树时，依据效用列表，如果某项集X的效用值和剩余效用值的加和，小于该项集X的项集最低效用阈值时，则项集X的所有扩展节点(即其后代节点)都不会是高效用项集，因为它们的实际效用值都会小于MIU(X)值。

在本申请实施例中，还可通过对生成的各项集的效用列表中，没有前途的项集的效用列表进行过滤，并根据剩余的有前途的项集的效用列表生成对应扩展集的效用列表，使得数据挖掘过程中只需要扫描一次数据库，并生成第一层级的各项集的效用列表，并在需要时，根据该第一层级的各项集的效用列表生成后续其他项集的效用列表，不仅减少了扫描数据库的次数，而且通过缩小所要挖掘数据的范围，提高了挖掘的速度，节约了计算资源。

本申请实施例还提出了两个特性，全局向下封闭特性(Global downward closure property,GDCproperty)和有条件的向下封闭特性(Conditional downward closure property,CDC property)。根据效用列表检测对应的项集是否有前途，并对没有前途的项集进行过滤，从而减少了后续生成的效用列表数量，达到了节约计算资源，提高挖掘速度的效果。

可选地，本申请实施例中，在通过深度优先搜索构建各项集对应的效用列表的过程中，还可以利用EUCP(Estimated Utility Co-occurrence Pruning)技术，通过在第二次扫描事务数据库时构建的估计效用共现结构表(EUCS表)提高处理效率；EUCS表中包含所述k-项集与所述k-项集对应的事务加权效用上限，k≥2，即EUCS表中可以包含不小于第二层级的各层级的项集与项集对应的事务加权效用上限；所述事务加权效用上限是指包含所述k-项集的所述事务对应的所述事务效用上限之和，所述事务效用上限指所述事务中所述数据项的效用之和。

例如，由示例数据库构建而得的EUCS如下表8所示，其中项集BE的TWU(项集的事务加权效用)值的计算方法是，项集在事务T5中的效用值，与项集在事务T7中的效用值之和，即95。

表8 EUCS表

数据项	A	B	C	D	E
B	0	-	-	-	-
C	97	91	-	-	-
D	109	135	155	-	-
E	51	95	97	169	-

根据所述EUCS表，对所述事务加权效用上限＜所述最低效用阈值的所述k-项集及其超集进行过滤，则可直接忽略其拓展项集的产生与判断，从而大大加速挖掘的性能，同时又保证了挖掘结果的完整性和准确性。一个项集的超集是指该项集的所有数据项的集合。如项集A，它的项集就是MIU树中所有含有项集A的树节点，而不仅仅是项集A的所有子节点。

基于上述特性，本申请实施例还可以得出如下推论：如果一个项集是HTWUI(高事务加权效用项集)，那么该项集的任一子项集(子项集包含该项集的所有数据项)也是HTWUI；如果一个项集不是HTWUI,那么该项集的任一超集均不是HTWUI。

因此，本申请实施例在得到包含一个数据项的项集后(即得到1-项集)，可按照最低效用阈值的大小进行升序排序，得到排序后的1-项集。比如，根据表4得到1-项集候选项集中包括数据项A、B、C、D和E的最低效用阈值后，可按照升序得到排序后的1-项集D、C、A、B、E。

然后根据排序后的1-项集，自连接生成2-项集，显然，该2-项集中的数据项按照MMU表中1-项集的最低效用阈值的大小进行升序排序。其中，根据1-项集自连接生成2-项集的过程，即指定数据项与排在该指定数据项右边的数据项进行组合；比如，排序后的1-项集为D、C、A、B、E，对于项集D 它的后续扩展，由自连接生成的2-项集则为DC、DA、DB、DE。

计算自连接生成的各个2-项集的TWU，并针对各2-项集，检测项集的效用值和的剩余效用值之和是否不小于≥项集的最低效用阈值，若是，则继续进行深度搜索，若否，则确定该2-项集及其超集均不是HTWUI，并对该2-项集进行过滤；同理，其他K-项集(k≥3)同样的处理，最后RUP算法返回最终的近期有效的高效用项集的完整集合。

需要说明的是，本文中项集的扩展集合均是指该项集与其排序后右边的各个项集自连接组合后生成的项集，而超集是传统意义上的包含该项集的所有数据项的集合。

在本申请实施例中，确定出高效用项集后，可以在对用户进行内容推荐时，推荐高效用项集。

本申请实施例提供的技术方案在处理日常应用中常见的交易型等事务数据库，通过引入MMU表，根据该MMU表确定各个项集各自对应的MIU，并将项集的项集效用值与对应的MIU进行比较，从而确定该项集是否为HUI；解决了现有的基于HUIM的算法中，都是将项集的项集效用值是否大于唯一的最低效用阈值作为衡量标准，导致挖掘出的HUI不准确的问题；达到了根据不同项集制定不同的HUI衡量标准，从而使挖掘出的HUI更准确、更可信、更有意义。

本申请实施例还提供了高效用项集挖掘装置，下文描述的高效用项集挖掘装置可与上文描述的高效用项集挖掘方法相互对应参照。

该装置的结构示意图如图17所示，该装置包括：

项集效用值确定模块1700，用于确定事务数据库中各项集对应的项集效用值；一个项集对应的项集效用值表示的是，该项集在该项集对应的各目标事务中的效用值的加和，一个项集的目标事务为包含该项集所有数据项的事务；一个项集在目标事务中的效用值表示的是，该项集的各数据项在目标事务中的效用值的加和。

项集最低效用阈值确定模块1710，用于根据预定义的最低效用阈值表，确定各项集对应的项集最低效用阈值；预定义的最低效用阈值表记录有各数据项对应的最低效用阈值，一个项集对应的项集最低效用阈值表示的是，该项集包含的数据项所对应的最低效用阈值中的最小最低效用阈值。

高效用项集确定模块1720，用于将各项集的项集效用值与对应的项集最低效用阈值进行比对，根据比对结果确定高效用项集，其中，高效用项集的项集效用值不小于对应的项集最低效用阈值。

可选地，图18示出了项集效用值确定模块1700的可选结构，如图18所示，项集效用值确定模块1700可以包括：

效用列表构建单元1800，用于根据各数据项在各事务对应的外部效用值，和预定义的最低效用阈值表中记录的各数据项的内部效用值，以递归方式构建各项集对应的效用列表；其中，一个项集对应的效用列表记录有该项集对应的各目标事务的事务编号，该项集在各目标事务对应的效用值，及该项集在各目标事务中的剩余效用值；一个项集在一个事务中的剩余效用值表示的是，一个事务中的数据项以最低效用阈值从小到大排序，并在该事务中除去该项集所包含的数据项后，排序在该事务右边的数据项的效用值的总和。

项集效用值计算单元1810，用于根据各项集对应的效用列表，计算出各项集的项集效用值。

可选地，效用列表构建单元1800以递归方式构建各项集对应的效用列表时，具体可用于，分层级以递归方式构建各项集对应的效用列表，一个项集所处于的层级序数与该项集所包含的数据项的数量相对应；且下一层级的项集对应的效用列表，通过至少两个能够组合成该项集的高层级项集的效用列表构建。

可选地，图19示出了效用列表构建单元1800的可选结构，如图19所示，效用列表构建单元1800可以包括：

MIU树构建子单元1900，用于构建枚举的最低效用阈值MIU树，所述MIU树包含有分层级的项集，一个项集在MIU树中所处于的层级序数与该项集所包含的数据项的数量相对应，且各层级的项集按照最低效用阈值从小到大的顺序排序。

效用列表构建执行子单元1910，用于基于各数据项在各事务对应的外部效用值，和各数据项的内部效用值，构建出与MIU树相结合的各项集对应的效用列表，且下一层级的项集对应的效用列表，通过至少两个能够组合成该项集的高层级项集的效用列表构建。

其中，MIU树构建子单元1900具体可用于，确定事务数据库中包含一个数据项的各项集，并将所确定的各项集按照最低效用阈值从小到大的顺序排序在MIU树的第一层级，构建出位于MIU树第一层级的项集；以深度优先搜索的方式，依序从MIU树第一层级的各项集出发，构建出分层级的项集，并使得一个项集在MIU树中所处于的层级序数与该项集所包含的数据项的数量相对应，且各层级的项集按照最低效用阈值从小到大的顺序排序，形成MIU树。

可选地，效用列表构建执行子单元1910具体可以用于：在构建第二层级的各项集的效用列表时，对于第二层级的各项集，确定第一层级中能够组合成该第二层级的项集的两个项集；将该两个项集共同对应的目标事务，作为该第二层级的项集所对应的目标事务；将该两个项集在一共同对应的目标事务中的效用值的加和，作为该第二层级的项集在该目标事务中的效用值；将该两个项集中排序在后的项集在一共同对应的目标事务中的剩余效用值，作为该第二层级的项集在该目标事务中的剩余效用值。

可选地，效用列表构建执行子单元1910具体还可以用于：

在构建层级不小于三的项集的效用列表时，对于层级不小于三的各项集，确定上一层级中能够组合成该项集的两个项集；将该两个项集共同对应的目标事务，作为该层级不小于三的项集所对应的目标事务；将该两个项集在一共同对应的目标事务中的效用值的加和，减去该层级不小于三的项集的前缀数据项在该目标事务中的效用值，将得到结果作为该层级不小于三的项集在该目标事务中的效用值；将该两个项集中排序在后的项集在一共同对应的目标事务中的剩余效用值，作为该第二层级的项集在该目标事务中的剩余效用值。

可选地，MIU树构建子单元1900在确定事务数据库中包含一个数据项的各项集，并将所确定的各项集按照最低效用阈值从小到大的顺序排序在MIU树的第一层级，构建出位于MIU树第一层级的项集时具体可用于：

计算包含一个数据项的各项集的项集的事务加权效用值，根据包含一个数据项的各项集的最低效用阈值，确定包含一个数据项的各项集中的高事务加权效用项集；将高事务加权效用项集按照最低效用阈值从小到大进行排序。

相应的，效用列表构建执行子单元1910在构建出与MIU树相结合的各项集对应的效用列表时具体可用于：构建出包含一个数据项的各项集的效用列表，递归地根据包含一个数据项的各项集的效用列表生成一系列的后续的效用列表，形成各项集对应的效用列表。

在本申请实施例中，高效用项集挖掘装置还可用于：在以深度优先搜索方式遍历MIU树时，如果一项集的事务加权效用值小于，该项集的最小最低效用阈值时，确定该项集的所有超集均不是高效用项集；和/或，在以深度优先搜索方式遍历MIU树时，如果一项集的效用值和剩余效用值的加和，小于该项集的项集最低效用阈值，则确定该项集在MIU树中的所有扩展节点均不是高效用项集。

可选地，在本申请实施例中，高效用项集挖掘装置还可用于：获取EUCS表，所述EUCS表包含不小于第二层级的各层级的项集与项集对应的事务加权效用上限；根据所述EUCS表，对事务加权效用上限小于最低效用阈值的不小于第二层级的项集及其超集进行过滤。

可选地，在本申请实施例中，高效用项集挖掘装置还可用于：如果一个项集是高事务加权效用项集，则确定该项集的任一子项集也是高事务加权效用项集，子项集包含该项集的所有数据项；如果一个项集不是高事务加权效用项集，则确定该项集的任一超集均不是高事务加权效用项集。

本申请实施例还提供一种数据处理设备，该数据处理设备可以包括上述所述的高效用项集挖掘装置。具体的，该数据处理设备的硬件结构框图，如图20所示，该数据处理设备可以包括：处理器1，通信接口2，存储器3和通信总线4。

其中，处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信。

可选地，通信接口2可以为通信模块的接口，如GSM模块的接口。

处理器1，用于执行程序。

存储器3，用于存放程序。

程序可以包括程序代码，所述程序代码包括计算机操作指令。

处理器1可能是一个中央处理器CPU，或者是特定集成电路ASIC(Application Specific Integrated Circuit)，或者是被配置成实施本申请实施例的一个或多个集成电路。

存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

其中，程序可具体用于：确定事务数据库中各项集对应的项集效用值；一个项集对应的项集效用值表示的是，该项集在该项集对应的各目标事务中的效用值的加和，一个项集的目标事务为包含该项集所有数据项的事务；一个项集在目标事务中的效用值表示的是，该项集的各数据项在目标事务中的效用值的加和；

本申请实施例还提供一种高效用项集挖掘设备，该设备包括：

处理器以及存储器；

存储器，用于存储计算机程序；

处理器，用于读取所述计算机程序以执行可执行指令，该可执行指令用于实现上述高效用项集挖掘方法。本申请实施例还提供一种存储介质，该存储介质用于存储程序代码，程序代码用于执行上述高效用项集挖掘方法。

本申请实施例还提供一种包括指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述高效用项集挖掘方法。

还需要说明的是，在本文中，“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

一种模式挖掘方法，应用于服务器，包括：

根据事务数据库中包含的各事务，获取满足设定条件的候选模式集合，其中，每个事务包括至少一个项目；所述候选模式集合中的每个候选模式包括至少一个项目集中的项目；所述项目集是根据每个事务中的项目生成的集合；

针对所述候选模式集合中每一候选模式，计算所述候选模式在每一事务中的效用值；

确定所述效用值达到设定的效用阀值的目标事务，并根据各所述目标事务的时间属性，确定所述候选模式的周期值；

若所述候选模式的周期值小于等于设定的周期阀值，则将所述候选模式确定为挖掘结果。
根据权利要求1所述的模式挖掘方法，所述根据各所述目标事务的时间属性，确定所述候选模式的周期值，包括：

根据各所述目标事务的时间属性，计算相邻两个目标事务的时间差值；

将各所述时间差值中最大时间差值确定为所述候选模式的周期值。
根据权利要求2所述的模式挖掘方法，所述根据各所述目标事务的时间属性，计算相邻两个目标事务的时间差值，包括：

针对事务数据库中顺序排序的各目标事务，若所述目标事务之前不存在任何其它目标事务，则计算所述目标事务与所述事务数据库中首个事务的时间差值；

若所述目标事务之后不存在任何其它目标事务，则计算所述事务数据库中末尾事务与所述目标事务的时间差值；

若所述目标事务之前存在其它目标事务，则计算所述目标事务与前一相邻目标事务的时间差值。
根据权利要求1所述的模式挖掘方法，所述根据事务数据库中包含的各事务，获取满足设定条件的候选模式集合，包括：

扫描所述事务数据库中的各事务，获取在各事务中效用值的和值达到设定的扩展效用阀值的项目，由获取的项目组成第1层候选模式集合HTWUSPI¹，其中，所述扩展效用阀值大于等于所述效用阀值；同时，记录所述项目集中各项目所在事务，以及各事务的效用值；

利用Apriori_gen函数以及所述HTWUSPI¹，逐层产生第k层候选模式集合HTWUSPI^k，直至HTWUSPI^k+1为空，由HTWUSPI¹至HTWUSPI^k组成最终的候选模式集合，其中，HTWUSPI^k的产生过程包括：

对HTWUSPI^k-1中的候选模式两两组合，得到若干候选模式对；

在所述若干候选模式对中，选取包含k-2个相同项目的候选模式对；

由选取的候选模式对进行合并，得到初步候选模式；

针对每一初步候选模式，确定所述初步候选模式所包含的每一项目所在的事务，并确定各项目所在事务的交集，将交集事务确定为所述初步候选模式所在的事务；

至少在所述初步候选模式所在的各事务的效用值的和值达到所述扩展效用阀值时，将所述初步候选模式加入HTWUSPI^k。
根据权利要求4所述的模式挖掘方法，所述至少在所述初步候选模式所在的各事务的效用值的和值达到所述扩展效用阀值时，将所述初步候选模式加入HTWUSPI^k，包括：

计算所述初步候选模式所在的各事务的效用值的和值；

根据所述初步候选模式所在的各事务的时间属性，确定所述初步候选模式的周期值；

在所述初步候选模式所在的各事务的效用值的和值达到所述扩展效用阀值，且所述初步候选模式的周期值小于等于设定的周期阀值时，将所述初步候选模式加入HTWUSPI^k。
根据权利要求4所述的模式挖掘方法，在所述记录所述项目集中各项目所在事务，以及各事务的效用值之后，还包括：

确定事务的效用值小于所述效用阀值的低效用事务，并在记录的各项目所在事务中删除所述低效用事务。
一种模式挖掘装置，包括：

处理器和存储器；

所述存储器用于存储计算机程序；

所述处理器用于读取所述计算机程序以执行以下可执行指令：

根据事务数据库中包含的各事务，获取满足设定条件的候选模式集合，其中，每个事务包括至少一个项目；所述候选模式集合中的每个候选模式包括至少一个项目集中的项目；所述项目集是根据每个事务中的项目生成的集合；

针对所述候选模式集合中每一候选模式，计算所述候选模式在每一事务中的效用值；

确定所述效用值达到设定的效用阀值的目标事务，并根据各所述目标事务的时间属性，确定所述候选模式的周期值；

若所述候选模式的周期值小于等于设定的周期阀值，则将所述候选模式确定为挖掘结果。
根据权利要求7所述的模式挖掘装置，所述处理器执行所述根据各所述目标事务的时间属性，确定所述候选模式的周期值的可执行指令，包括：

根据各所述目标事务的时间属性，计算相邻两个目标事务的时间差值；

将各所述时间差值中最大时间差值确定为所述候选模式的周期值。
根据权利要求8所述的模式挖掘装置，所述处理器执行所述根据各所述目标事务的时间属性，计算相邻两个目标事务的时间差值的可执行指令，包括：

针对事务数据库中顺序排序的各目标事务，若所述目标事务之前不存在任何其它目标事务，则计算所述目标事务与所述事务数据库中首个事务的时间差值；

若所述目标事务之后不存在任何其它目标事务，则计算所述事务数据库中末尾事务与所述目标事务的时间差值；

若所述目标事务之前存在其它目标事务，则计算所述目标事务与前一相邻目标事务的时间差值。
根据权利要求7所述的模式挖掘装置，所述处理器执行所述根据事务数据库中包含的各事务，获取满足设定条件的候选模式集合的可执行指令，包括：

扫描所述事务数据库中的各事务，获取在各事务中效用值的和值达到设定的扩展效用阀值的项目，由获取的项目组成第1层候选模式集合HTWUSPI¹，其中，所述扩展效用阀值大于等于所述效用阀值；同时，记录所述项目集中各项目所在事务，以及各事务的效用值；

利用Apriori_gen函数以及所述HTWUSPI¹，逐层产生第k层候选模式集合HTWUSPI^k，直至HTWUSPI^k+1为空，由HTWUSPI¹至HTWUSPI^k组成最终的候选模式集合，其中，HTWUSPI^k的产生过程包括：

对HTWUSPI^k-1中的候选模式两两组合，得到若干候选模式对；

在所述若干候选模式对中，选取包含k-2个相同项目的候选模式对；

由选取的候选模式对进行合并，得到初步候选模式；

针对每一初步候选模式，确定所述初步候选模式所包含的每一项目所在的事务，并确定各项目所在事务的交集，将交集事务确定为所述初步候选模式所在的事务；

至少在所述初步候选模式所在的各事务的效用值的和值达到所述扩展效用阀值时，将所述初步候选模式加入HTWUSPI^k。
根据权利要求10所述的模式挖掘装置，所述处理器执行所述至少在所述初步候选模式所在的各事务的效用值的和值达到所述扩展效用阀值时，将所述初步候选模式加入HTWUSPI^k的可执行指令，包括：

计算所述初步候选模式所在的各事务的效用值的和值；

根据所述初步候选模式所在的各事务的时间属性，确定所述初步候选模式的周期值；

在所述初步候选模式所在的各事务的效用值的和值达到所述扩展效用阀值，且所述初步候选模式的周期值小于等于设定的周期阀值时，将所述初步候选模式加入HTWUSPI^k。
根据权利要求10所述的模式挖掘装置，在所述记录所述项目集中各项目所在事务，以及各事务的效用值之后，所述处理器执行的可执行指令还包括：

确定事务的效用值小于所述效用阀值的低效用事务，并在记录的各项目所在事务中删除所述低效用事务。
一种存储介质，其特征在于，所述存储介质用于存储程序代码，所述程序代码用于执行权利要求1-6任意一项所述的模式挖掘方法。
一种高效用项集挖掘方法，应用于服务器，包括：

确定事务数据库中各项集对应的项集效用值；一个项集对应的项集效用值表示的是，该项集在该项集对应的各目标事务中的效用值的加和；一个项集的目标事务为包含该项集所有数据项的事务；一个项集在目标事务中的效用值表示的是，该项集的各数据项在目标事务中的效用值的加和；

根据预定义的最低效用阈值表，确定各项集对应的项集最低效用阈值；预定义的最低效用阈值表记录有各数据项对应的最低效用阈值，一个项集对应的项集最低效用阈值表示的是，该项集包含的数据项所对应的最低效用阈值中的最小最低效用阈值；

将各项集的项集效用值与对应的项集最低效用阈值进行比对，根据比对结果确定高效用项集，其中，高效用项集的项集效用值不小于对应的项集最低效用阈值。
根据权利要求14所述的高效用项集挖掘方法，所述确定事务数据库中各项集对应的项集效用值包括：

根据各数据项在各事务对应的外部效用值，和预定义的最低效用阈值表中记录的各数据项的内部效用值，以递归方式构建各项集对应的效用列表；其中，一个项集对应的效用列表记录有该项集对应的各目标事务的事务编号，该项集在各目标事务对应的效用值，及该项集在各目标事务中的剩余效用值；一个项集在一个事务中的剩余效用值表示的是，一个事务中的数据项以最低效用阈值从小到大排序，并在该事务中除去该项集所包含的数据项后，排序在该事务右边的数据项的效用值的总和；

根据各项集对应的效用列表，计算出各项集的项集效用值。
根据权利要求15所述的高效用项集挖掘方法，所述以递归方式构建各项集对应的效用列表包括：

分层级以递归方式构建各项集对应的效用列表，一个项集所处于的层级序数与该项集所包含的数据项的数量相对应；且下一层级的项集对应的效用列表，通过至少两个能够组合成该项集的高层级项集的效用列表构建。
根据权利要求16所述的高效用项集挖掘方法，所述分层级以递归方式构建各项集对应的效用列表包括：

构建枚举的最低效用阈值MIU树，所述MIU树包含有分层级的项集，一个项集在MIU树中所处于的层级序数与该项集所包含的数据项的数量相对应，且各层级的项集按照最低效用阈值从小到大的顺序排序；

基于各数据项在各事务对应的外部效用值，和各数据项的内部效用值，构建出与MIU树相结合的各项集对应的效用列表，且下一层级的项集对应的效用列表，通过至少两个能够组合成该项集的高层级项集的效用列表构建。
根据权利要求17所述的高效用项集挖掘方法，所述构建枚举的MIU树包括：

确定事务数据库中包含一个数据项的各项集，并将所确定的各项集按照最低效用阈值从小到大的顺序排序在MIU树的第一层级，构建出位于MIU树第一层级的项集；

以深度优先搜索的方式，依序从MIU树第一层级的各项集出发，构建出分层级的项集，并使得一个项集在MIU树中所处于的层级序数与该项集所包含的数据项的数量相对应，且各层级的项集按照最低效用阈值从小到大的顺序排序，形成MIU树。
根据权利要求16-18任一项所述的高效用项集挖掘方法，所述下一层级的项集对应的效用列表，通过至少两个能够组合成该项集的高层级项集的效用列表构建包括：

在构建第二层级的各项集的效用列表时，对于第二层级的各项集，确定第一层级中能够组合成该第二层级的项集的两个项集；

将该两个项集共同对应的目标事务，作为该第二层级的项集所对应的目标事务；

将该两个项集在一共同对应的目标事务中的效用值的加和，作为该第二层级的项集在该目标事务中的效用值；

将该两个项集中排序在后的项集在一共同对应的目标事务中的剩余效用值，作为该第二层级的项集在该目标事务中的剩余效用值。
根据权利要求16-18任一项所述的高效用项集挖掘方法，所述下一层级的项集对应的效用列表，通过至少两个能够组合成该项集的高层级项集的效用列表构建包括：

在构建层级不小于三的项集的效用列表时，对于层级不小于三的各项集，确定上一层级中能够组合成该项集的两个项集；

将该两个项集共同对应的目标事务，作为该层级不小于三的项集所对应的目标事务；

将该两个项集在一共同对应的目标事务中的效用值的加和，减去该层级不小于三的项集的前缀数据项在该目标事务中的效用值，将得到结果作为该层级不小于三的项集在该目标事务中的效用值；

将该两个项集中排序在后的项集在一共同对应的目标事务中的剩余效用值，作为该第二层级的项集在该目标事务中的剩余效用值。
根据权利要求18所述的高效用项集挖掘方法，所述确定事务数据库中包含一个数据项的各项集，并将所确定的各项集按照最低效用阈值从小到大的顺序排序在MIU树的第一层级，构建出位于MIU树第一层级的项集包括：

计算包含一个数据项的各项集的项集的事务加权效用值，根据包含一个数据项的各项集的最低效用阈值，确定包含一个数据项的各项集中的高事务加权效用项集；

将高事务加权效用项集按照最低效用阈值从小到大进行排序；

所述构建出与MIU树相结合的各项集对应的效用列表包括：

构建出包含一个数据项的各项集的效用列表，递归地根据包含一个数据项的各项集的效用列表生成一系列的后续的效用列表，形成各项集对应的效用列表。
根据权利要求18所述的高效用项集挖掘方法，所述方法还包括：

在以深度优先搜索方式遍历MIU树时，如果一项集的事务加权效用值小于，该项集的最小最低效用阈值时，确定该项集的所有超集均不是高效用项集；

和/或，在以深度优先搜索方式遍历MIU树时，如果一项集的效用值和剩余效用值的加和，小于该项集的项集最低效用阈值，则确定该项集在MIU树中的所有扩展节点均不是高效用项集。
根据权利要求14-18任一项所述的高效用项集挖掘方法，所示方法还包括：

获取EUCS表，所述EUCS表包含不小于第二层级的各层级的项集与项集对应的事务加权效用上限；

根据所述EUCS表，对事务加权效用上限小于最低效用阈值的不小于第二层级的项集及其超集进行过滤。
根据权利要求14-18任一项所述的高效用项集挖掘方法，所示方法还包括：

如果一个项集是高事务加权效用项集，则确定该项集的任一子项集也是高事务加权效用项集，子项集包含该项集的所有数据项；

如果一个项集不是高事务加权效用项集，则确定该项集的任一超集均不是高事务加权效用项集。
一种高效用项集挖掘装置，包括：

处理器和存储器；

所述存储器用于存储计算机程序；

所述处理器用于读取所述计算机程序以执行以下可执行指令：

确定事务数据库中各项集对应的项集效用值；一个项集对应的项集效用值表示的是，该项集在该项集对应的各目标事务中的效用值的加和；一个项集的目标事务为包含该项集所有数据项的事务；一个项集在目标事务中的效用值表示的是，该项集的各数据项在目标事务中的效用值的加和；

根据预定义的最低效用阈值表，确定各项集对应的项集最低效用阈值；预定义的最低效用阈值表记录有各数据项对应的最低效用阈值，一个项集对应的项集最低效用阈值表示的是，该项集包含的数据项所对应的最低效用阈值中的最小最低效用阈值；

将各项集的项集效用值与对应的项集最低效用阈值进行比对，根据比对结果确定高效用项集，其中，高效用项集的项集效用值不小于对应的项集最低效用阈值。
根据权利要求25所述的高效用项集挖掘装置，所述处理器执行所述确定事务数据库中各项集对应的项集效用值的可执行指令，包括：

根据各数据项在各事务对应的外部效用值，和预定义的最低效用阈值表中记录的各数据项的内部效用值，以递归方式构建各项集对应的效用列表；其中，一个项集对应的效用列表记录有该项集对应的各目标事务的事务编号，该项集在各目标事务对应的效用值，及该项集在各目标事务中的剩余效用值；一个项集在一个事务中的剩余效用值表示的是，一个事务中的数据项以最低效用阈值从小到大排序，并在该事务中除去该项集所包含的数据项后，排序在该事务右边的数据项的效用值的总和；

根据各项集对应的效用列表，计算出各项集的项集效用值。
根据权利要求26所述的高效用项集挖掘装置，所述处理器执行所述以递归方式构建各项集对应的效用列表的可执行指令，包括：

分层级以递归方式构建各项集对应的效用列表，一个项集所处于的层级序数与该项集所包含的数据项的数量相对应；且下一层级的项集对应的效用列表，通过至少两个能够组合成该项集的高层级项集的效用列表构建。
根据权利要求27所述的高效用项集挖掘装置，所述处理器执行所述分层级以递归方式构建各项集对应的效用列表的可执行指令，包括：

构建枚举的最低效用阈值MIU树，所述MIU树包含有分层级的项集，一个项集在MIU树中所处于的层级序数与该项集所包含的数据项的数量相对应，且各层级的项集按照最低效用阈值从小到大的顺序排序；

基于各数据项在各事务对应的外部效用值，和各数据项的内部效用值，构建出与MIU树相结合的各项集对应的效用列表，且下一层级的项集对应的效用列表，通过至少两个能够组合成该项集的高层级项集的效用列表构建。
根据权利要求28所述的高效用项集挖掘装置，所述处理器执行所述构建枚举的MIU树的可执行指令，包括：

确定事务数据库中包含一个数据项的各项集，并将所确定的各项集按照最低效用阈值从小到大的顺序排序在MIU树的第一层级，构建出位于MIU树第一层级的项集；

以深度优先搜索的方式，依序从MIU树第一层级的各项集出发，构建出分层级的项集，并使得一个项集在MIU树中所处于的层级序数与该项集所包含的数据项的数量相对应，且各层级的项集按照最低效用阈值从小到大的顺序排序，形成MIU树。
根据权利要求27-29任一项所述的高效用项集挖掘装置，所述处理器执行所述下一层级的项集对应的效用列表，通过至少两个能够组合成该项集的高层级项集的效用列表构建的可执行指令，包括：

在构建第二层级的各项集的效用列表时，对于第二层级的各项集，确定第一层级中能够组合成该第二层级的项集的两个项集；

将该两个项集共同对应的目标事务，作为该第二层级的项集所对应的目标事务；

将该两个项集在一共同对应的目标事务中的效用值的加和，作为该第二层级的项集在该目标事务中的效用值；

将该两个项集中排序在后的项集在一共同对应的目标事务中的剩余效用值，作为该第二层级的项集在该目标事务中的剩余效用值。
根据权利要求27-29任一项所述的高效用项集挖掘装置，所述处理器执行所述下一层级的项集对应的效用列表，通过至少两个能够组合成该项集的高层级项集的效用列表构建的可执行指令，包括：

在构建层级不小于三的项集的效用列表时，对于层级不小于三的各项集，确定上一层级中能够组合成该项集的两个项集；

将该两个项集共同对应的目标事务，作为该层级不小于三的项集所对应的目标事务；

将该两个项集在一共同对应的目标事务中的效用值的加和，减去该层级不小于三的项集的前缀数据项在该目标事务中的效用值，将得到结果作为该层级不小于三的项集在该目标事务中的效用值；

将该两个项集中排序在后的项集在一共同对应的目标事务中的剩余效用值，作为该第二层级的项集在该目标事务中的剩余效用值。
根据权利要求29所述的高效用项集挖掘装置，所述处理器执行所述确定事务数据库中包含一个数据项的各项集，并将所确定的各项集按照最低效用阈值从小到大的顺序排序在MIU树的第一层级，构建出位于MIU树第一层级的项集的可执行指令，包括：

计算包含一个数据项的各项集的项集的事务加权效用值，根据包含一个数据项的各项集的最低效用阈值，确定包含一个数据项的各项集中的高事务加权效用项集；

将高事务加权效用项集按照最低效用阈值从小到大进行排序；

所述构建出与MIU树相结合的各项集对应的效用列表包括：

构建出包含一个数据项的各项集的效用列表，递归地根据包含一个数据项的各项集的效用列表生成一系列的后续的效用列表，形成各项集对应的效用列表。
根据权利要求29所述的高效用项集挖掘装置，所述处理器执行的可执行指令还包括：

在以深度优先搜索方式遍历MIU树时，如果一项集的事务加权效用值小于，该项集的最小最低效用阈值时，确定该项集的所有超集均不是高效用项集；

和/或，在以深度优先搜索方式遍历MIU树时，如果一项集的效用值和剩余效用值的加和，小于该项集的项集最低效用阈值，则确定该项集在MIU树中的所有扩展节点均不是高效用项集。
根据权利要求25-29任一项所述的高效用项集挖掘装置，所述处理器执行的可执行指令还包括：

获取EUCS表，所述EUCS表包含不小于第二层级的各层级的项集与项集对应的事务加权效用上限；

根据所述EUCS表，对事务加权效用上限小于最低效用阈值的不小于第二层级的项集及其超集进行过滤。
根据权利要求25-29任一项所述的高效用项集挖掘装置，所述处理器执行的可执行指令还包括：

如果一个项集是高事务加权效用项集，则确定该项集的任一子项集也是高事务加权效用项集，子项集包含该项集的所有数据项；

如果一个项集不是高事务加权效用项集，则确定该项集的任一超集均不是高事务加权效用项集。
一种存储介质，所述存储介质用于存储程序代码，所述程序代码用于执行权利要求14-24任意一项高效用项集挖掘方法。