WO2018099177A1

WO2018099177A1 - 一种扩展潜在用户的方法及装置

Info

Publication number: WO2018099177A1
Application number: PCT/CN2017/104098
Authority: WO
Inventors: 张海滨; 程圣军; 张旭
Original assignee: 华为技术有限公司
Priority date: 2016-11-29
Filing date: 2017-09-28
Publication date: 2018-06-07
Also published as: CN108122123A; CN108122123B

Abstract

一种扩展潜在用户的方法及装置，获取种子用户集合以及抽样的非种子用户集合，设置种子用户集合中的种子用户的初始能量值和抽样的非种子用户集合中的非种子用户的初始能量值；其中，种子用户的初始能量值大于非种子用户的初始能量值；针对至少包括种子用户集合的训练用户集合中的每一个训练用户，分别确定该训练用户的K最近邻，根据K最近邻中每一个用户的初始能量值，确定该训练用户训练后的能量值；根据训练用户集合中每一个训练用户训练后的能量值，确定全量非种子用户集合中每一非种子用户的预测能量值；根据非种子用户的预测能量值，在全量非种子用户集合中确定潜在用户，以提高应用推送的准确度。

Description

一种扩展潜在用户的方法及装置

本申请要求于2016年11月29日提交中国专利局、申请号为201611075513.4，发明名称为“一种扩展潜在用户的方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及通信技术领域，尤其涉及一种扩展潜在用户的方法及装置。

背景技术

随着互联网技术的蓬勃发展，各种终端应用(Application，简称APP)不断推陈出新，其中，APP具体可以是提供某种服务的应用程序。如何扩展使用一个应用的用户，成为当务之急。

目前，主要通过种子用户(seed users))在非种子用户中扩展潜在用户，即通过分析种子用户的行为特征，在海量的未使用该应用的用户中寻找与种子用户的行为特征相似的潜在用户作为扩展或者拉新的对象，从而实现精准营销。精准营销的过程具体可以是向具有相似用户行为特征的用户推送使用应用的消息。其中，所述种子用户是指已经使用该应用的用户，所述非种子用户是指未使用该应用的用户。

然而，在实际应用场景中，种子用户中往往会存在或者掺杂着诸多非典型种子用户。所述非典型种子用户是指行为特征和其他种子用户的行为特征有着明显区别的种子用户。比如同为某款APP的下载用户，有些用户经常打开该APP进行频繁操作，而有些人虽然下载了该APP但是很少进行操作，这些下载了该APP但是很少进行操作的用户即是该APP的非典型种子用户。

由于种子用户中非典型种子用户的存在，因此通过种子用户扩展得到的潜在用户，可能并不是真正会使用该APP的潜在用户，从而，使得消息推送的准确度较低，进而推荐成功率不高。

发明内容

本发明实施例提供一种基于种子用户扩展潜在用户的方法及装置，以提高应用推送的准确度。

第一方面，提供一种扩展潜在用户的方法，该方法中，从全量的非种子用户中抽样获得抽样的非种子用户集合。设置种子用户集合中的种子用户的初始能量值和抽样的非种子用户集合中的非种子用户的初始能量值，其中，种子用户的初始能量值大于非种子用户的初始能量值。基于种子用户的初始能量值和抽样的非种子用户集合中的非种子用户的初始能量值，对种子用户集合中的种子用户的初始能量值进行训练，得到训练后的能量值，基于该训练后的能量值的大小，区分出典型种子用户和非典型种子用户对于确定潜在用户的影响，其中，用户的能量值表征该用户对周围用户附加的影响权重，所述影响主要是指对用户成为典型种子用户的影响。本发明实施例中能量值越高说明与典型种子用户越相似，越有可能成为典型的种子用户。基于种子用户训练后的能量值，确定全量非种子用户集合中每一非种子用户的预测能量值，并根据所述非种子用户的预测能量值，在所述全量非种子用户集合中确定潜在用户，能够降低非典型种子用户造成的噪声影响，进而能够提高应用推送的准确度。

一种可能的设计中，针对训练用户集合中的每一个用户(简称训练用户)，从种子用户集合以及抽样的非种子用户集合中，确定该训练用户的K最近邻，根据K最近邻中每一个用户的初始能量值，确定该训练用户训练后的能量值。根据种子用户集合中每一个训练用户训练后的能量值，确定全量非种子用户集合中每一非种子用户的能量值，得到非种子用户的预测能量值，进而可根据非种子用户的预测能量值，确定该非种子用户是否为潜在用户。其中，所述训练用户集合中至少包括所述种子用户集合。

其中，可针对所述全量非种子用户集合中的每一非种子用户，从所述种子用户集合以及抽样的非种子用户集合中，确定该非种子用户的K最近邻，并根据该非种子用户的K最近邻中每一个用户的能量值，确定该非种子用户的预测能量值。

可选的，对于该非种子用户的K最近邻中的每一个用户，若该用户为种子用户，则该种子用户的能量值为种子用户训练后的能量值；若该用户为非种子用户，则该非种子用户的能量值为非种子用户的初始能量值。在该方法中不需要训练所述抽样的非种子用户集合中的非种子用户的能量值，可以节约系统的资源的情况下，也可以减轻种子用户中非典型种子对确定潜在用户的影响。

可选的，所述训练用户集合中可以包括所述种子用户集合和抽样的非种子用户集合，该非种子用户的K最近邻中每一个用户的能量值可以为该非种子用户的K最近邻中每一个用户训练后的能量值。在该方法中需要训练所述抽样的非种子用户集合中的非种子用户的能量值，对抽样非种子用户的能量值也进行训练，可以更加准确的确定潜在用户。

可选的，可利用K最近邻中用户的初始能量值均值与所述训练用户的初始能量值之和，确定所述训练用户训练后的能量值。

另一种可能的设计中，对于所述全量非种子用户集合中的每一个非种子用户，从所述种子用户集合以及抽样的非种子用户集合中，确定该非种子用户的K最近邻；根据所述种子用户集合中的种子用户的初始能量值和所述非种子用户集合中的非种子用户的初始能量值，确定该非种子用户的K最近邻中每一个用户的更新后能量值；根据该非种子用户的K最近邻中每一个用户的更新后能量值，确定该非种子用户的预测能量值，并根据所述预测能量值，确定该非种子用户是否为潜在用户。

本发明实施例中，由于非典型种子用户的行为特征和其他种子用户的行为特征有着明显区别，典型种子用户与非典型种子用户相比，其K最近邻中种子用户的数量一般要更多，故利用种子用户的K最近邻的初始能量值对种子用户的初始能量值进行更新，可使得典型种子用户更新后的能量值高于非典型种子用户更新后的能量值，进而在判断一个非种子用户是否为潜在用户的时候，加大典型种子的影响且减弱非典型种子的影响。基于训练后的能量值，在非种子用户中扩展潜在用户，能够降低非典型种子用户造成的噪声影响。

第二方面，提供一种扩展潜在用户的装置，该扩展潜在用户的装置具有实现上述第一方面中涉及的扩展潜在用户的功能，所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。所述模块可以是软件和/或硬件。

一种可能的设计中，所述扩展潜在用户的装置包括获取单元和处理单元，获取单元和处理单元的功能可以和各方法步骤相对应，在此不予赘述。

第三方面，提供一种扩展潜在用户的装置，该扩展潜在用户的装置包括：处理器和存储器，其中，所述存储器中存有计算机可读程序；所述处理器通过运行所述存储器中的程序，以用于完成上述第一方面涉及的任意一种扩展潜在用户的方法。

第四方面，提供一种计算机存储介质，用于存储一些指令，这些指令被执行时，可以完成上述第一方面所涉及的任意一种扩展潜在用户的方法。

上述通过对种子用户集合和抽样的非种子用户集合中的每一个用户设置初始能量值，并对种子用户集合和抽样的非种子用户集合中的每一个用户进行训练，得到训练后的能量值，基于训练后的能量值，确定得到全量非种子用户集合中每一非种子用户的预测能量值。非种子用户的预测能量值大小，能够反映该非种子用户具有与典型种子用户的相似程度，基于非种子用户的预测能量值大小，在所述全量非种子用户集合中确定潜在用户，能够降低非典型种子用户造成的噪声影响，进而能够提高应用推送的准确度。

附图说明

图1为本发明实施例提供的扩展潜在用户的方法所应用的系统架构；

图2为本发明实施例提供的记录用户行为特征数据的示意图；

图3为本发明实施例提供的用户行为特征数据抽象为2维空间内数据的示意图；

图4为本发明实施例提供的扩展潜在用户的一种方法实施流程图；

图5为本发明实施例提供的扩展潜在用户的另一种方法实施流程图；

图6为本发明实施例提供的一种扩展潜在用户的装置结构示意图；

图7为本发明实施例提供的另一种扩展潜在用户的装置结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行介绍。

本发明实施例提供的扩展潜在用户的方法，适用于利用相似性算法进行潜在用户扩展的应用场景。利用相似性算法进行潜在用户扩展可采用图1所示的系统架构图中。图1中，数据库用于存储用户的基础元数据，数据库中各类型的基础元数据可通过表单形式存储，每个表单存储用户一种类型的基础元数据。数据提取转换加载(Extract-Transform-Load，ETL)模块，用于从所述数据库中提取用户的基础元数据并对提取的基础元数据进行简单汇总变换得到用户的行为特征数据。例如，对从数据库中提取的用户每日上网流量数据，用户基本信息数据，用户上网记录等基础元数据进行简单汇总得到图2所示的行为特征数据。图2中用户的行为特征数据主要包括用户标识、平均每天使用终端APP的频率(次数/天)以及用户平均每分钟的上网流量(KB/分钟)。数据ETL模块还可区分出种子用户与非种子用户。种子用户和非种子用户可通过不同的标志位区分，例如针对订阅某款应用的订阅用户可称为种子用户并用数值为1的标志位标识，未订阅该应用的非订阅用户可称为非种子用并用数值为0的标志位标识。数据挖掘与分析平台主要用于对种子用户与非种子用户的行为特征数据进行抽象并利用抽象后的行为特征数据进行相似性算法处理，得到待扩展的潜在用户。营销平台针对数据挖掘与分析平台得到的潜在用户，采用诸如广告或者短消息的方式向所述潜在用户进行应用的推送。

本发明实施例以下主要针对利用种子用户和非种子用户的行为特征数据进行相似性算法处理实现潜在用户扩展的实施过程进行说明。

以下实施例中涉及的扩展潜在用户的方法执行主体可以称为是扩展潜在用户的装置，该扩展潜在用户的装置可以是数据分析与挖掘平台，也可以是数据分析与挖掘平台中的部件。

扩展潜在用户的装置进行相似性算法处理时，可将种子用户和非种子用户的行为特征数据抽象为N维空间内的数据，例如基于图2所示的用户行为特征数据，可将用户行为特征数据抽象为图3所示的2维空间内的数据。图3中空间距离接近的用户具有相似的用户行为，并可将这些具有相似用户行为的用户作为潜在用户。例如，可采用K最近邻(k-Nearest Neighbor，kNN)的查找方案扩展潜在用户。所述K最近邻是指与指定对象的用户行为特征最接近的K个用户，K为正整数，这K个用户可认为是与该指定对象具有最相似的用户行为特征的用户。例如，对于图3中所指定的用户3，K＝3时，用户3的K最近邻是指与用户3空间距离最接近的3个用户，例如图3中用户3在K＝3时的K最近邻中包括一个种子用户(用户2)和两个非种子用户(用户4和用户5)。由图3可知，针对用户3和用户15，K＝3时的K最近邻均是包括一个种子用户和两个非种子用户，因此，采用K最近邻的方法无法区分用户3和用户15，哪一个用户是更有可能的潜在用户。

然而，针对用户3而言，K＝3时的K最近邻中包括的种子用户明显为非典型种子用户，用户3可能并不是潜在的与典型种子用户具有相似用户行为特征的潜在用户，但是若按照常规K最近邻扩展潜在用户的方案，并不能区分出用户3和用户15哪一个用户是与典型种子用户具有相似用户行为特征的潜在用户，进而使得确定的潜在用户准确度比较低。

本发明实施例中为降低基于相似度算法进行潜在用户扩展过程中非典型种子用户造成的噪声影响，提高确定潜在用户的准确度，提供一种基于种子用户扩展潜在用户的方法，在该方法中，基于能量值区分出典型种子用户和非典型种子用户对于确定潜在用户的影响，用户的能量值表征该用户对周围用户附加的影响权重，所述影响主要是指对用户成为典型种子用户的影响。本发明实施例中能量值越高说明与典型种子用户越相似，越有可能成为典型的种子用户。在利用种子用户的能量值扩展潜在用户过程中，从全量的非种子用户中抽样获得抽样的非种子用户集合。设置种子用户集合中的种子用户的初始能量值和抽样的非种子用户集合中的非种子用户的初始能量值，其中，种子用户的初始能量值大于非种子用户的初始能量值。针对至少包括所述种子用户集合的训练用户集合中的每一个用户(简称训练用户)，从种子用户集合以及抽样的非种子用户集合中，确定该训练用户的K最近邻，根据K最近邻中每一个用户的初始能量值，确定该训练用户训练后的能量值。根据训练用户集合中每一个训练用户训练后的能量值，确定全量非种子用户集合中每一非种子用户的能量值，得到非种子用户的预测能量值，进而可根据非种子用户的预测能量值，在全量非种子用户中确定潜在用户。由于非典型种子用户的行为特征和其他种子用户的行为特征有着明显区别，典型种子用户与非典型种子用户相比，其K最近邻中种子用户的数量一般要更多，故利用种子用户的K最近邻的初始能量值对种子用户的初始能量值进行训练，可使得典型种子用户训练后的能量值高于非典型种子用户训练后的能量值，进而在判断一个非种子用户是否为潜在用户的时候，加大典型种子的影响且减弱非典型种子的影响。基于训练后的能量值，在非种子用户中扩展潜在用户，能够降低非典型种子用户造成的噪声影响。

图4所示为本发明实施例提供的扩展潜在用户的一种方法实施流程图，图4所示的方法执行主体为扩展潜在用户的装置。扩展潜在用户的装置基于种子用户扩展潜在用户的实施过程，如图4所示，包括：

S101：获取种子用户集合以及抽样的非种子用户集合。

本发明实施例中扩展潜在用户的装置可从数据ETL模块获取到种子用户集合以及抽样的非种子用户集合，并能够获取到种子用户和非种子用户的行为特征数据。其中，抽样的非种子用户集合可以是采用任何现有的抽样方法从全量非种子用户集合中抽样获得，例如，可以采用随机抽样的方法从全量非种子用户集合中抽取1％的用户作为抽样的非种子用户集合。显然，所述抽样的非种子用户集合为全量非种子用户集合的子集，本发明对于具体的抽样方法不做限定。

S102：设置所述种子用户集合中的种子用户的初始能量值和所述抽样的非种子用户集合中的非种子用户的初始能量值；其中，所述种子用户的初始能量值大于所述非种子用户的初始能量值。

本发明实施例中可对种子用户和非种子用户预设不同的初始能量值，该初始能量值的大小能够区分种子用户和非种子用户对周围用户附加的影响权重，初始能量值越高说明与典型种子用户越相似，越有可能成为典型种子用户，故本发明实施例中预设的种子用户的初始能量值大于非种子用户的初始能量值。

S103：针对训练用户集合中的每一个训练用户，从所述种子用户集合以及抽样的非种子用户集合中，确定该训练用户的K最近邻，根据所述K最近邻中每一个用户的初始能量值，确定该训练用户训练后的能量值。

一个种子用户的K最近邻中，如果有很多非种子用户，则该种子用户很可能是非典型种子用户；相反，如果一个种子用户的K最近邻中，如果有很多种子用户，则该种子用户很可能是典型种子用户。

由于K最近邻中包括种子用户和/或非种子用户，若一个种子用户为典型种子用户，则该种子用户的K最近邻中的种子用户数量一般会多于非种子用户的数量。然而，若一个种子用户为非典型种子用户，则该种子用户的K最近邻中的种子用户数量一般会少于非种子用户的数量。故，本发明实施例中可将所述种子用户集合中的用户，或者种子用户集合中的用户和抽样的非种子用户集合中的用户作为训练用户，并从所述种子用户集合以及抽样的非种子用户集合中，确定该训练用户的K最近邻，根据所述K最近邻中每一个用户的初始能量值，对训练用户的初始能量值进行训练，并得到典型种子训练后的的能量值高于非典型种子训练后的的能量值的训练结果。

本发明实施例中为得到典型种子的能量值高于非典型种子的能量值的训练结果，可采用如下方式根据所述K最近邻中每一个用户的初始能量值，确定训练用户训练后的能量值：

利用K最近邻中用户的初始能量值均值与所述训练用户的初始能量值之和，确所述训练用户训练后的能量值。例如可采用如下公式，确所述训练用户训练后的能量值：

其中，init(Useri)为训练用户i的初始能量值，Userl为训练用户i的K最近邻中的用户l，energy(Useri)为训练用户i训练后的能量值，energy(Userl)为用户l的初始能量值，k为训练用户i的K最近邻中的用户数量。

本发明实施例中，以图2和图3所示的用户行为特征数据为例对确定训练用户训练后的能量值的过程进行说明。

图3中，种子用户集合中包括用户2、用户9、用户10、用户11、用户12、用户13和用户14。抽样的非种子用户集合中包括用户1、用户3、用户4、用户5、用户7、用户16 和用户17等。全量的非种子用户集合中除包括上述抽样的非种子用户集合，还包括诸如用户6、用户8、用户15等。

本发明实施例中训练用户为种子用户集合中包括的用户2、用户9、用户10、用户11、用户12、用户13和用户14，或者还包括抽样的非种子用户集合中包括的用户1、用户3、用户4、用户5、用户7、用户16和用户17等。

首先，从所述种子用户集合和抽样的非种子用户集合中，确定训练用户的K最近邻用户。本发明实施例中可采用欧式距离计算二维空间内两点间的距离，确定训练用户的K最近邻用户。例如，对于图3中的用户2而言，确定K最近邻用户时，分别计算用户2与其它用户之间的欧式距离，例如对于用户1和用户2而言，二者的欧式距离为

在计算得到的结果中选取欧式距离最小的K个用户作为K最近邻用户。

其次，利用所述K最近邻中每一个用户的初始能量值，对训练用户的初始能量值进行训练，得到训练用户训练后的能量值。

例如，当K＝3时，种子用户2的三个最近邻用户分别为用户1、用户3和用户4，用户2训练后的能量值为0.8+(0.2+0.2+0.2)/3＝1.0。抽样的非种子用户4的K最近邻为用户2，用户3和用户5，用户4训练后的能量值为0.2+(0.8+0.2+0.2)/3＝0.6。

本发明实施例中可采用上述训练过程，利用所述K最近邻中每一个用户的初始能量值，对训练用户的初始能量值进行训练，得到全部训练用户训练后的能量值。例如，用户14的三个最近邻用户分别为用户15、用户16和用户17。用户14训练后的能量值为0.8+(0.8+0.2+0.2)/3＝1.2。抽样的非种子用户5的K最近邻为用户3,用户4和用户7，用户5训练后的能量值为0.2+(0.2+0.2+0.2)/3＝0.4。对应的，用户16训练后的能量值为0.2+(0.8+0.8+0.2)/3＝0.8，用户17训练后的能量值为0.2+(0.8+0.8+0.2)/3＝0.8。

可以理解的是，本发明实施例中确定训练用户的K最近邻用户过程中，可基于全量非种子用户集合中的全部非种子用户来确定，也可基于抽样的非种子用户集合来确定。本发明实施例中考虑到计算复杂度的情况下，优选基于抽样的非种子用户集合来确定，以降低计算复杂度。

S104：根据所述训练用户集合中每一个训练用户训练后的能量值，确定全量非种子用户集合中每一非种子用户的能量值，得到非种子用户的预测能量值。

本发明实施例中，所述训练用户集合中至少包括种子用户集合，也可以包括种子用户集合和抽样的非种子用户集合。

本发明实施例中可针对所述全量非种子用户集合中的每一非种子用户，从所述种子用户集合以及抽样的非种子用户集合中，确定该非种子用户的K最近邻；根据该非种子用户的K最近邻中每一个用户的能量值，确定该非种子用户的预测能量值。

其中，针对非种子用户的K最近邻用户中的每一个用户，若该用户为种子用户，则该种子用户的能量值为种子用户训练后的能量值。若非种子用户具有与典型种子用户相似的行为特征数据，则该非种子用户的K最近邻用户中存在典型种子用户的几率相比存在非典型种子用户的几率会比较大，并且本发明实施例中利用种子用户训练后的能量值，使得该非种子用户的K最近邻用户中典型种子用户训练后的能量值大于非典型种子用户训练后的能量值，进而利用非种子用户的K最近邻中每一个用户的能量值，确定得到的该与典型种子用户具有相似行为特征数据的非种子用户的预测能量值，相对与非典型种子用户具有相似行为特征数据的非种子用户的预测能量值而言，也会相对较大。

其中，针对非种子用户的K最近邻用户中的每一个用户，若存在非种子用户，则该非种子用户的能量值可以是非种子用户的初始能量值，也可以是非种子用户训练后的能量值。

可选的，本发明实施例中为进一步提高确定潜在用户的准确度，确定非种子用户的预测能量值过程中，若训练用户集合中包括种子用户集合和抽样的非种子用户集合，则可以基于该非种子用户的K最近邻中每一个用户训练后的能量值，即针对非种子用户的K最近邻用户中的每一个用户，若该用户为种子用户，则该种子用户的能量值为种子用户训练后的能量值，若该用户为非种子用户，则该非种子用户的能量值为非种子用户训练后的能量值。

本发明实施例中，可采用如下方式根据非种子用户的K最近邻中每一个用户的能量值，确定该非种子用户的预测能量值：

将K最近邻中用户的能量值均值与所述非种子用户预设的初始能量值之和，确定为非种子用户的预测能量值。例如可采用如下公式，确定非种子用户的预测能量值：

其中，energy(Useri)为非种子用户i的预测能量值，init(Useri)为非种子用户i的初始能量值，Usern为非种子用户i的K最近邻用户，energy(Usern)为非种子用户i的K最近邻用户n的能量值，k为非种子用户i的K最近邻用户数量。

其中，用户n若为种子用户，则该用户n的能量值为该种子用户训练后的能量值。

本发明实施例中，用户n若为非种子用户，则该用户n的能量值可以为非种子用户的初始能量值，也可以为非种子用户训练后的能量值。

例如，全量非种子用户集合中的用户3的K最近邻为用户2，用户4和用户5，若非种子用户的K最近邻中用户的非种子用户能量值为非种子用户的初始能量值，则用户3的预测能量值为0.2+(1.0+0.2+0.2)/3＝0.667；相应的可以得到全量非种子用户集合中用户15的预测能量值为0.2+(1.2+0.2+0.2)/3＝0.73。

再例如，全量非种子用户集合中用户3的K最近邻为用户2，用户4和用户5，若非种子用户的K最近邻中用户的非种子用户能量值为抽样的非种子用户训练后的能量值，则用户3的预测能量值为0.2+(1.0+0.6+0.4)/3＝0.867；相应的可以得到全量非种子用户集合中用户15的预测能量值为0.2+(1.2+0.8+0.8)/3＝1.133。

S105：根据所述非种子用户的预测能量值，在所述全量非种子用户集合中确定潜在用户。

本发明实施例中确定出全量非种子用户集合中每一非种子用户的预测能量值后，可按照非种子用户的预测能量值大小，在所述全量非种子用户集合中确定潜在用户。一种实施方式中，可选择预测能量值大于预设阈值的非种子用户为潜在用户。其中，所述阈值的具体设定方式本发明实施例不做限定，例如可根据经验值设定，也可通过机器学习的方式根据全量非种子用户集合中每一非种子用户的预测能量值的大小设定。另一种实施方式中，也可按照所述非种子用户集合中每一非种子用户的预测能量值由大到小的顺序，选择排列顺序靠前的设定数量的非种子用户为潜在用户。其中，所述数量的具体设定方式本发明实施例不做限定，例如可根据经验值设定，也可通过机器学习的方式根据全量非种子用户集合中非种子用户的数量来设定。例如，用户15的预测能量值大于用户3的预测能量值，若确定一个潜在用户，则可确定用户15与典型种子用户更为相似，可将用户15确定为潜在用户。

本发明实施例上述通过对训练用户集合中的每一个训练用户进行训练，得到训练用户训练后的能量值，基于训练用户训练后的能量值，确定得到全量非种子用户集合中每一非种子用户的预测能量值，非种子用户的预测能量值大小能够反映该非种子用户具有与典型种子用户的相似程度，基于非种子用户的预测能量值大小，在所述全量非种子用户集合中确定潜在用户，能够降低非典型种子用户造成的噪声影响，进而能够提高应用推送的准确度。

本发明实施例，基于种子用户集合和抽样的非种子用户集合中的用户能量值，确定全量非种子用户集合中每一非种子用户的预测能量值的过程，并不限于上述实施例涉及的执行过程，例如，本发明实施例中还可在确定了全量非种子用户集合中非种子用户的K最近邻用户后，再根据所述种子用户集合中的种子用户的初始能量值和所述非种子用户集合中的非种子用户的初始能量值，确定非种子用户的K最近邻中每一个用户的更新后能量值，根据该非种子用户的K最近邻中每一个用户的更新后能量值，确定该非种子用户的预测能量值。

图5所示为本发明实施例提供的扩展潜在用户的另一种方法实施流程图，图5所示的扩展潜在用户方法中，S201、S202和S206执行步骤与图4中S101、S102和S105相同，在此不再赘述，以下仅就不同之处进行说明：

S203：对于全量非种子用户集合中的每一个非种子用户，从所述种子用户集合以及抽样的非种子用户集合中，确定该非种子用户的K最近邻。

本发明实施例中确定非种子用户的K最近邻的实施过程，与上述实施例中确定训练用户的K最近邻用户的实施过程类似，在此不再赘述。

S204：根据所述种子用户集合中的种子用户的初始能量值和所述非种子用户集合中的非种子用户的初始能量值，确定非种子用户的K最近邻中每一个用户的更新后能量值。

本发明实施例中确定非种子用户的K最近邻中每一个用户的更新后能量值的实施过程，与上述实施例中涉及的利用训练用户K最近邻中每一个用户的初始能量值，对训练用户的初始能量值进行训练，得到训练用户训练后的能量值的实施过程类似，不同之处仅在于上述实施例中为训练用户训练后的能量值，本发明实施例中为非种子用户的K最近邻中每一个用户的更新后能量值，在此不再赘述。

S205：根据该非种子用户的K最近邻中每一个用户的更新后能量值，确定该非种子用户的预测能量值。

基于上述实施例涉及的扩展潜在用户的方法，本发明实施例还提供了一种扩展潜在用户的装置。可以理解的是，扩展潜在用户的装置为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。结合本发明中所公开的实施例描述的各示例的单元及算法步骤，本发明实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同的方法来实现所描述的功能，但是这种实现不应认为超出本发明实施例的技术方案的范围。

本发明实施例可以根据上述方法示例对扩展潜在用户的装置进行功能单元的划分，例如，可以对应各个功能划分各个功能单元，也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。需要说明的是，本发明实施例中对单元的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

在采用集成的单元的情况下，图6示出了本发明实施例提供的扩展潜在用户的装置100的简化功能方框图，如图6所示，扩展潜在用户的装置100包括获取单元101和处理单元102，其中：

获取单元101，用于获取种子用户集合以及抽样的非种子用户集合，其中，所述抽样的非种子用户集合为全量非种子用户集合的子集。

处理单元102，用于设置所述获取单元101获取的所述种子用户集合中的种子用户的初始能量值和所述抽样的非种子用户集合中的非种子用户的初始能量值；其中，所述种子用户的初始能量值大于所述非种子用户的初始能量值；针对至少包括种子用户集合的训练用户集合中的每一个训练用户，从所述种子用户集合以及抽样的非种子用户集合中，确定该训练用户的K最近邻，根据所述K最近邻中每一个用户的初始能量值，确定该训练用户训练后的能量值；根据所述训练用户集合中每一个训练用户训练后的能量值，确定所述全量非种子用户集合中每一非种子用户的能量值，得到非种子用户的预测能量值；根据所述预测能量值，确定该非种子用户是否为潜在用户。

其中，所述处理单元102，可针对所述全量非种子用户集合中的每一非种子用户，从所述种子用户集合以及抽样的非种子用户集合中，确定该非种子用户的K最近邻；根据该非种子用户的K最近邻中每一个用户的能量值，确定该非种子用户的预测能量值。

其中，对于该非种子用户的K最近邻中的每一个用户，若该用户为种子用户，则该种子用户的能量值为种子用户训练后的能量值；若该用户为非种子用户，则该非种子用户的能量值为非种子用户的初始能量值。

其中，若训练用户集合中包括种子用户集合和抽样的非种子用户集合，则该非种子用户的K最近邻中每一个用户的能量值可以为该非种子用户的K最近邻中每一个用户训练后的能量值。

可选的，所述处理单元102，可利用K最近邻中用户的初始能量值均值与所述训练用户的初始能量值之和，更新所述训练用户的能量值，将更新得到的所述训练用户的能量值，确定为该训练用户训练后的能量值。

当采用硬件形式实现时，本发明实施例中，处理单元102可以是处理器或控制器。获取单元101可以是通信接口、收发器、收发电路等，其中，通信接口是统称，可以包括一个或多个接口。

当所述处理单元102是处理器，获取单元101是通信接口时，本发明实施例所涉及的扩展潜在用户的装置100可以为图7所示的结构。

图7示出了本发明实施例提供的扩展潜在用户的装置1000的一种结构示意图。参阅图7所示，扩展潜在用户的装置1000采用通用计算机系统结构，包括总线，处理器1001，存储器1002和通信接口1003，执行本发明方案的程序代码保存在存储器1002中，并由处理器1001来控制执行。

总线可包括一通路，在计算机各个部件之间传送信息。

处理器1001可以是一个通用中央处理器(CPU)，微处理器，特定应用集成电路 application-specific integrated circuit(ASIC)，或一个或多个用于控制本发明方案程序执行的集成电路。计算机系统中包括的一个或多个存储器，可以是只读存储器read-only memory(ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器random access memory(RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是磁盘存储器。这些存储器通过总线与处理器相连接。

通信接口1003，可以使用任何收发器一类的装置，以便与其他设备或通信网络通信，如以太网，无线接入网(RAN)，无线局域网(WLAN)等.

存储器1002，如RAM，保存有操作系统和执行本发明方案的程序。操作系统是用于控制其他程序运行，管理系统资源的程序。

存储器1002中存储的程序用于指令处理器1001执行扩展潜在用户的方法，包括：通过通信接口1003获取种子用户集合以及抽样的非种子用户集合。设置获取的所述种子用户集合中的种子用户的初始能量值和所述抽样的非种子用户集合中的非种子用户的初始能量值；其中，所述种子用户的初始能量值大于所述非种子用户的初始能量值；针对训练用户集合中的每一个训练用户，从所述种子用户集合以及抽样的非种子用户集合中，确定该训练用户的K最近邻，根据所述K最近邻中每一个用户的初始能量值，确定该训练用户训练后的能量值；根据所述训练用户集合中每一个训练用户训练后的能量值，确定所述全量非种子用户集合中每一非种子用户的能量值，得到非种子用户的预测能量值；根据所述预测能量值，确定该非种子用户是否为潜在用户。

本发明实施例中，扩展潜在用户的装置100和扩展潜在用户的装置1000所涉及的与本发明实施例提供的技术方案相关的概念，解释和详细说明及其他步骤请参见前述方法或其他实施例中关于这些内容的描述，此处不做赘述。

可以理解的是，本发明实施例附图中仅仅示出了扩展潜在用户的装置的简化设计。在实际应用中，并不限于上述结构。

本发明实施例还提供一种计算机存储介质，用于存储一些指令，这些指令被执行时，可以完成上述实施例所涉及的任意一种扩展潜在用户的方法。

上述通过对种子用户集合和抽样的非种子用户集合中的每一个用户设置初始能量值，并对至少包括种子用户集合的训练用户集合中的每一个用户进行训练，得到训练后的能量值，基于训练后的能量值，确定得到全量非种子用户集合中每一非种子用户的预测能量值。非种子用户的预测能量值大小，能够反映该非种子用户具有与典型种子用户的相似程度，基于非种子用户的预测能量值大小，在所述全量非种子用户集合中确定潜在用户，能够降低非典型种子用户造成的噪声影响，进而能够提高应用推送的准确度。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

一种扩展潜在用户的方法，其特征在于，包括：

获取种子用户集合以及抽样的非种子用户集合，其中，所述抽样的非种子用户集合为全量非种子用户集合的子集；

设置所述种子用户集合中的种子用户的初始能量值和所述抽样的非种子用户集合中的非种子用户的初始能量值；其中，所述种子用户的初始能量值大于所述非种子用户的初始能量值；

针对训练用户集合中的每一个训练用户，从所述种子用户集合以及抽样的非种子用户集合中，确定该训练用户的K最近邻，并根据所述K最近邻中每一个用户的初始能量值，确定该训练用户训练后的能量值，其中，所述训练用户集合中至少包括所述种子用户集合；

根据所述训练用户集合中每一个训练用户训练后的能量值，确定所述全量非种子用户集合中每一非种子用户的能量值，得到非种子用户的预测能量值；

根据所述非种子用户的预测能量值，在所述全量非种子用户集合中确定潜在用户。
如权利要求1所述的方法，其特征在于，根据所述训练用户集合中每一个训练用户训练后的能量值，确定所述全量非种子用户集合中每一非种子用户的能量值，包括：

针对所述全量非种子用户集合中的每一非种子用户，从所述种子用户集合以及抽样的非种子用户集合中，确定该非种子用户的K最近邻；

根据该非种子用户的K最近邻中每一个用户的能量值，确定该非种子用户的预测能量值。
如权利要求2所述的方法，其特征在于，该非种子用户的K最近邻中每一个用户的能量值，具体为：

对于该非种子用户的K最近邻中的每一个用户，若该用户为种子用户，则该种子用户的能量值为种子用户训练后的能量值；若该用户为非种子用户，则该非种子用户的能量值为非种子用户的初始能量值。
如权利要求2所述的方法，其特征在于，所述训练用户集合中还包括所述抽样的非种子用户集合；

该非种子用户的K最近邻中每一个用户的能量值，具体为：

该非种子用户的K最近邻中每一个用户训练后的能量值。
如权利要求1至4任一项所述的方法，其特征在于，根据所述K最近邻中每一个用户的初始能量值，确定该训练用户训练后的能量值，具体为：

利用K最近邻中用户的初始能量值均值与所述训练用户的初始能量值之和，确定所述训练用户训练后的能量值。
一种扩展潜在用户的装置，其特征在于，包括：

获取单元，用于获取种子用户集合以及抽样的非种子用户集合，其中，所述抽样的非种子用户集合为全量非种子用户集合的子集；

处理单元，用于设置所述获取单元获取的所述种子用户集合中的种子用户的初始能量值和所述抽样的非种子用户集合中的非种子用户的初始能量值；其中，所述种子用户的初始能量值大于所述非种子用户的初始能量值；针对训练用户集合中的每一个训练用户，从所述种子用户集合以及抽样的非种子用户集合中，确定该训练用户的K最近邻，并根据所述K最近邻中每一个用户的初始能量值，确定该训练用户训练后的能量值，其中，所述训练用户集合中包括所述种子用户集合；根据所述训练用户集合中每一个训练用户训练后的能量值，确定所述全量非种子用户集合中每一非种子用户的能量值，得到非种子用户的预测能量值；根据所述非种子用户的预测能量值，在所述全量非种子用户集合中确定潜在用户。
如权利要求6所述的装置，其特征在于，所述处理单元，采用如下方式根据所述训练用户集合中每一个训练用户训练后的能量值，确定所述全量非种子用户集合中每一非种子用户的能量值：

针对所述全量非种子用户集合中的每一非种子用户，从所述种子用户集合以及抽样的非种子用户集合中，确定该非种子用户的K最近邻；

根据该非种子用户的K最近邻中每一个用户的能量值，确定该非种子用户的预测能量值。
如权利要求7所述的装置，其特征在于，该非种子用户的K最近邻中每一个用户的能量值，具体为：

对于该非种子用户的K最近邻中的每一个用户，若该用户为种子用户，则该种子用户的能量值为种子用户训练后的能量值；若该用户为非种子用户，则该非种子用户的能量值为非种子用户的初始能量值。
如权利要求7所述的装置，其特征在于，所述训练用户集合中还包括所述抽样的非种子用户集合，该非种子用户的K最近邻中每一个用户的能量值，具体为：该非种子用户的K最近邻中每一个用户训练后的能量值。
如权利要求6至9任一项所述的装置，其特征在于，所述处理单元，采用如下方式根据所述K最近邻中每一个用户的初始能量值，确定该训练用户训练后的能量值：

利用K最近邻中用户的初始能量值均值与所述训练用户的初始能量值之和，更新所述训练用户的能量值。
一种扩展潜在用户的装置，其特征在于，包括：处理器和存储器，其中，

所述存储器中存有计算机可读程序；

所述处理器通过运行所述存储器中的程序，以用于完成上述权利要求1至5任一项所述的方法。