WO2021081914A1

WO2021081914A1 - 推送对象确定方法、装置、终端设备及存储介质

Info

Publication number: WO2021081914A1
Application number: PCT/CN2019/114796
Authority: WO
Inventors: 郭子亮
Original assignee: 深圳市欢太科技有限公司; Oppo广东移动通信有限公司
Priority date: 2019-10-31
Filing date: 2019-10-31
Publication date: 2021-05-06
Also published as: CN114223012A

Abstract

本申请实施例公开了一种推送对象确定方法、装置、终端设备及存储介质，涉及计算机技术领域。该方法包括：获取多个用户的用户特征；将所述多个用户的用户特征输入至预先训练的分类模型，得到每个用户所对应的推送概率，所述分类模型基于用户特征构建，所述推送概率用于表征所述用户为推送对象的概率；根据所述推送概率从所述多个用户中确定出推送对象。本申请可以有效地从大量级的用户群体中有效确定出需要推送的一定数量的用户以作为推送目标用户群，进而更好地扩展了推送目标用户群的用户数量，增加有效推送用户在用户群体中的覆盖面，提升了推送效率。

Description

推送对象确定方法、装置、终端设备及存储介质

技术领域

本申请涉及计算机技术领域，更具体地，涉及一种推送对象确定方法、装置、终端设备及存储介质。

背景技术

随着互联网的飞速发展，互联网用户已经达到数以亿计的规模，而在互联网众多的用户中如何选取出有效的推送对象，显然已经成为当前所研究的热点方向。

发明内容

鉴于上述问题，本申请提出了一种推送对象确定方法、装置、终端设备及存储介质，以解决上述问题。

第一方面，本申请实施例提供了一种推送对象确定方法，该方法包括：获取多个用户的用户特征；将多个用户的用户特征输入至预先训练的分类模型，得到每个用户所对应的推送概率，分类模型基于用户特征构建，推送概率用于表征用户为推送对象的概率；根据推送概率从多个用户中确定出推送对象。

第二方面，本申请实施例提供了一种推送对象确定装置，该装置包括：用户特征获取模块、推送概率获取模块以及推送对象选取模块，其中，用户特征获取模块用于获取多个用户的用户特征；推送概率获取模块用于将多个用户的用户特征输入至预先训练的分类模型，得到每个用户所对应的推送概率，分类模型基于用户画像构建，推送概率用于表征用户为推送对象的概率；推送对象选取模块用于根据推送概率从多个用户中确定出推送对象。

第三方面，本申请实施例提供了一种终端设备，包括一个或多个处理器、存储器、以及一个或多个应用程序，其中一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行，一个或多个应用程序配置用于执行上述的推送对象确定方法。

第四方面，本申请实施例提供了一种计算机可读取存储介质，计算机可读取存储介质中存储有程序代码，程序代码可被处理器调用执行上述的推送对象确定方法。

本申请实施例提供的推送对象确定方法、装置、终端设备及存储介质，通过基于用户特征构建分类模型，在向分类模型输入用户的用户特征时，可以快速、准确地输出用户是否为需要推送用户的概率，基于需要推送用户的概率可以有效地从大量级的用户群体中有效确定出需要推送的一定数量的用户以作为推送目标用户群，进而更好地扩展了推送目标用户群的用户数量，增加有效推送用户在用户群体中的覆盖面，提升了推送效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请一个实施例提供的推送对象确定方法流程图。

图2示出了本申请另一个实施例提供的推送对象确定方法流程图。

图3示出了根据本申请图2所示的推送对象确定方法中步骤S230的一个实施例的方法流程图。

图4示出了本申请又一个实施例提供的推送对象确定方法流程图

图5示出了根据本申请图4所示的推送对象确定方法中步骤S340的一个实施例的方法流程图。

图6示出了根据本申请图5所示的推送对象确定方法中步骤S341的一个实施例的方法流程图。

图7示出了本申请一个实施例提供的推送对象确定装置的功能模块图。

图8示出了本申请实施例提供的终端设备的结构框图。

图9是本申请实施例的用于保存或者携带实现根据本申请实施例的推送对象确定方法的程序代码的存储介质。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

随着互联网的快速发展，互联网的用户也日益激增，对于庞大的互联网用户群体，如何从中选取出有效的推送对象变得至关重要。

目前机器学习算法已经广泛应用到各个领域，用户推送也不例外。发明人发现，由于用户群里的每个用户的画像特征都有着一定程度上的相似性，通过规则方法，获取一个小量级的适合的目标用户群，再通过机器学习算法，可以对用户群进行模型训练，建立相应的分类模型，并且应用于未知的大盘用户群体，从中挖掘出与小量级用户相似的大量级的用户群体，然后对这些用户群体进行推送可以有效提高推送效率。

但是，发明人经过研究发现，基于用户画像的推荐方法，规则比较单一，虽然可以根据用户画像特征的相似性发现一些用户进行推送，但每个用户的特征都有各自的特点，因而只能发现数量很少的一部分用户作为推送对象。对于新上市需要进行大范围推广的产品，不能起到很好的推广效果和推荐作用。因此，发明人提出了本申请实施例提的推送对象确定方法、装置、终端设备及存储介质，可以有效地从大量级的用户群体中有效确定出需要推送的一定数量的用户以作为推送目标用户群，进而更好地扩展了推送目标用户群的用户数量，增加有效推送用户在用户群体中的覆盖面，提升了推送效率。

下面将通过具体实施例对本申请实施例提供的推送对象确定方法、装置、移动终端及存储介质进行详细说明。

请参阅图1，图1示出了本申请一个实施例提供的推送对象确定方法流程图，该方法可以包括如下步骤：

S110，获取多个用户的用户特征。

其中，用户特征来源与用户自身相关的数据，也可以称为用户画像特征。在一些实施方式中，用户特征可以根据已登录用户在网站或平台上的浏览信息、购买信息、收藏信息、点击信息、搜索信息、评价信息等一系列数据来获取，或者通过用户公开的身份信息、在网站或电子商务平台填写的注册信息中获取。

S120，将多个用户的用户特征输入至预先训练的分类模型，得到每个用户所对应的推送概率，分类模型基于用户特征构建，推送概率用于表征用户为推送对象的概率。

其中，可以将预先训练好地分类模型应用到大量级的用户群体中，由于分类模型预先基于用户特征构建，因此将大量级的用户群体中多个用户的用户特征输入至预先训练的分类模型时，分类模型会计算出每个输入特征对应的用户为推送对象的概率。

需要说明的是，用户可以是指业务逻辑中的服务对象，用户可以采用一个用户标识来表示。以即时通讯程序为例，每个用户采用一个即时通讯帐号来表示；以手机上的一些应用程序为例，每个用户采用一个手机号码来表示。在本申请中，用户、用户帐号、帐号、人可视为同一概念，用户群体可视为帐号集合。

S130，根据推送概率从多个用户中确定出推送对象。

其中，可以选择推送概率较大的用户确定为推送对象，忽略推送概率较小的用户，以提高推送的准确性。其中，确定出的推送对象也称为根据分类模型在多个用户中预测出的扩散人群，每个扩散人群包括若干个用户。

在一些实施方式中，根据推送概率从多个用户中确定出推送对象可以是，根据推送概率从大到小的顺序从多个用户中选取出预设数量的用户，然后将预设数量的用户确定为推送对象。作为一种示例，如在一个大量级用户群体中需要选取出500万用户进行推送，则可以先将S120中获得的多个推送概率按照从大到小的顺序排列成列表，然后选出列表中前500万的推送概率，将这前500万的推送概率对应的500万用户确定为推送对象。

在本实施方式中，通过根据推送概率从大到小的顺序从多个用户中选取出预设数量的用户，可以保证选出的预设数量的用户较大几率为推送对象，从而也提升了对用户的推送准确性。

在另一些实施方式中，根据推送概率从多个用户中确定出推送对象，可以是从多个推送概率中选取出至少一个目标推送概率，其中，目标推送概率大于或等于概率阈值；将与目标推送概率对应的用户确定推送对象。作为一种示例，如概率阈值为70％，则可以判断S120中获得的每个推送概率是否大于或等于70％，将大于或等于70％的推送概率确定为目标推送概率，再将与目标推送概率对应的用户确定为推送对象。

在本实施方式中，通过设置概率阈值，将推送概率大于或等于概率阈值的用户确定为推送对象，能够有效地从任意数量的用户群体中选出推送概率较大的用户作为推送对象，在保证推送准确性的同时还具有广泛的适用性。

在本实施例中，通过基于用户特征构建分类模型，在向分类模型输入用户的用户特征时，可以快速、准确地输出用户是否为需要推送用户的概率，基于需要推送用户的概率可以有效地从大量级的用户群体中有效确定出需要推送的一定数量的用户以作为推送目标用户群，进而更好地扩展了推送目标用户群的用户数量，增加有效推送用户在用户群体中的覆盖面，提升了推送效率。

请参阅图2，图2示出了本申请另一个实施例提供的推送对象确定方法流程图，该方法可以包括如下步骤：

S210，获取样本用户群体中多个样本用户的用户特征。

其中，每个样本用户群体包括了若干个样本用户。每个样本用户群体也可以大致视为一组具有相同或相似特征的用户。作为一种示例，样本用户群体可以是由广告投放者提供的第一手用户数据。

在一些实施方式中，用户特征可以包括用户属性特征、用户行为特征以及用户兴趣特征中的至少一种。

相比于目前的推送方通常是基于单方面的用户画像，也可以称用户特征，会基于不同的用户画像进行不同种类的内容推送，不能综合考虑到用户不同画像之间的联系，在本实施方式中，通过用户属性特征、用户行为特征以及用户兴趣特征来构成用户特征，从而从多个方面来反映用户的用户特征，能够更深层、更全面地实时刻画用户。

其中，用户属性特征也可以称为用户基础特征，可以用于指示人物基础属性上的特征。

在一种实施方式中，当用户特征为用户属性特征时，获取样本用户的用户特征，可以通过获取样本用户的属性信息，属性信息包括性别、出生日期、职业、教育背景中的至少一种；根据属性信息确定样本用户的用户属性特征。其中，在根据属性信息确定样本用户的用户属性特征时，可以将样本用户的属性信息通过向量来表示以得到样本用户的用户属性特征。

可选地，属性信息还可以包括地址、收入、婚姻情况等。可选地，在获取样本用户的属性信息时，可以从一些网站或平台上获取，例如目前有很多网站或电子商务平台在用户注册时都要求填写一些公开的身份信息，以微博为例，用户需要填写出生日期、性别、省份等，这些注册信息都可以作为用户的属性信息。

在本实施方式中，通过根据性别、出生日期、职业、教育背景等属性信息来去确定样本用户的属性特征，可以全面、准确地体现样本用户的属性特征。

其中，用户行为特征可以用于指示用户在使用互联网服务时的各种行为所产生的特征。

在一种实施方式中，当用户特征包括用户行为特征，获取样本用户的用户特征，可以通过获取样本用户在预设时长内的操作日志，操作日志记录了用户在使用网络时产生的操作行为，操作行为包括购买行为、访问行为、浏览行为中的至少一种；根据操作日志确定样本用户的用户行为特征。示例性地，可以从电商平台中获取样本用户在一个月内购买商品的记录以得到购买行为的信息，可以获取样本用户在一个月内浏览各种类型网站的记录以得到浏览行为的信息，也可以获取样本用在一个月内访问不同软件、平台的记录以得到访问行为的信息。其中，在根据操作日志确定样本用户的用户行为特征时，可以将样本用户的操作行为通过向量来表示以得到样本用户的用户行为特征。可选地，预设时长可以根据实际情况来确定，由于用户行为特征不像用户属性特征那么明显，需要一定时间去发现，因此通常预设时间越长，就越能准确地反映用户的用户行为特征。

在本实施方式中，通过根据购买行为、访问行为、浏览行为等操作行为来确定样本用户的行为特征，可以全面、准确地体现样本用户的用户行为特征。

在另一种实施方式中，当用户特征为用户兴趣特征，获取样本用户的用户特征，可以通过获取样本用户的社交记录，社交记录包括搜索记录、评论记录、关注记录中的至少一种；根据社交记录确定用户兴趣特征。其中，在根据社交记录确定样本用户的用户兴趣特征时，可以将样本用户的社交记录通过向量来表示以得到样本用户的用户兴趣特征。

在本实施方式中，通过根据搜索记录、评论记录、关注记录等记录来确定样本用户的用户兴趣特征，可以全面、准确地体现样本用户的用户兴趣特征。

S220，基于用户特征生成样本用户群体的特征矩阵。

在一些实施方式中，基于用户特征生成样本用户群体的特征矩阵可以是，对用户特征进行特征处理，得到每个样本用户的特征向量。再基于每个样本用户的特征向量组成特征矩阵。

可选地，对用户特征进行特征处理可以包括离散化处理、正则化处理、标准化处理中的至少一种或几种的组合。

其中，离散化处理可以是对连续的用户特征进行划分区间，每个区间为一个新的特征。具体地，可以先对特征进行排序，然后再按照等频离散化为N个区间。由于特征的连续值在不同的区间的重要性是不一样的，所以将连续特征进行离散化能够更好地反映特征在不同的区间有不同的权重，而且离散特征的增加和减少都很容易，易于训练模型时模型的快速迭代，也使得模型会更稳定。特征离散化以后也能够降低模型过拟合的风险。

其中，标准化处理和规范化处理用于消除不同特征在不同指标量纲的影响，标准化处理后可以方便指标之间的可比性。

在本实施方式中，通过对用户特征进行离散化、正规化、标准化处理，可以方便机器学习模型更好的使用处理后的用户特征。

S230，根据特征矩阵训练得到预先训练的分类模型。

在一些实施方式中，如图3所示，S230可以包括：

S231，基于特征矩阵从样本用户群体中提取出正样本，并将提取出正样本后的样本用户群体确定为剩余样本。

在一些实施方式中，基于特征矩阵从样本用户群体中提取出正样本的方式可以是，根据特征矩阵以及预设的正样本特征标识从样本用户群体中取出正样本，并将取出正样本的样本用户群体确定为剩余样本。

其中，可以预先确定需要作为正样本的用户，然后对这些用户的用户特征进行标记，从而可以得到预设的正样本特征标识，由于特征矩阵描述了整个样本用户群体，因此可以通过预设的正样本特征标识以及特征矩阵，从样本用户群体中提取出正样本。在本实施方式中通过特征矩阵以及预设的正样本特征标识，可以快速、准确地从样本用户群体提取出正样本。

S232，从剩余样本中提取出负样本。

其中，剩余样本可以是指样本用户群体中没有预设正样本特征标识的用户。

在一些实施方式中，从剩余样本中提取出负样本的方式可以是，基于正样本无标签学习(positive unlabeled learning，PU learning)机器学习算法和正样本的用户特征，从剩余样本中选取出负样本。

通常进行的分类学习，一般是有监督学习，即从确定的正负样本中学习规律，对新数据进行预测。但是在实际应用场景中，可能会因为数据积累不够、标注数据成本高等问题，使得数据样本不丰富。而正样本无标签学习是一种半监督学习算法，主要可以用来解决可以清晰确定正样本但不能确定负样本的问题，其通常应用于文本分类、材料样本分类等。在本实施方式中，通过正样本无标签学习机器学习算法可以根据已经标注过的正样本在未标注样本集中找出可靠的负样本集合的功能，将其算法应用到用户的样本分类中，对未知的大量级用户进行分类，可以获取有效负样本，提高后续分类模型的效果。

在另一些实施方式中，也可以通过预先标记负样本特征标识，然后基于负样本特征标识以及特征矩阵从剩余样本中提取出负样本。具体地，可以预先确定需要作为负样本的用户，其中，可以选取出正样本的用户特征差异较大的用户特征，作为负样本的用户特征，然后对负样本的用户特征进行标记，从而可以得到预设的负样本特征标识，由于特征矩阵描述了整个样本用户群体，因此可以通过预设的负样本特征标识以及特征矩阵，从样本用户群体中提取出负样本。在本实施方式中通过特征矩阵以及预设的负样本特征标识，可以快速、准确地从样本用户群体提取出负样本。

S233，将正样本和负样本输入到机器学习模型中进行训练，得到预先训练的分类模型。

在一些实施方式中，将正样本和负样本输入到机器学习模型中进行训练，得到预先训练的分类模型的方式可以是，将正样本和负样本通过逻辑回归(Logistic Regression,LR)机器学习分类算法或随机森林(Random Forest，RF)机器学习分类算法进行处理，得到预先训练的分类模型。

在本实施方式中，通过将正样本和负样本通过逻辑回归机器学习分类算法进行处理，或者通过将正样本和负样本通过随机森林机器学习分类算法进行处理，得到预先训练的分类模型，可以使分类模型在运算量没有下显著提高的前提下提高了预测精度，即使对缺失和非平衡的数据，其预设结果也比较稳定。

S240，获取多个用户的用户特征。

其中，S240的具体实施方式可以参照S110，故不在此赘述。

S250，将多个用户的用户特征输入至预先训练的分类模型，得到每个用户所对应的推送概率，分类模型基于用户特征构建，推送概率用于表征用户为推送对象的概率。

其中，S250的具体实施方式可以参照S120，故不在此赘述。

S260，根据推送概率从多个用户中确定出推送对象。

其中，S240的具体实施方式可以参照S130，故不在此赘述。

请参阅图4，图4示出了本申请又一个实施例提供的推送对象确定方法流程图，该方法可以包括如下步骤：

S310，获取多个用户的用户特征。

其中，S310的具体实施方式可以参照S110，故不在此赘述。

S320，将多个用户的用户特征输入至预先训练的分类模型，得到每个用户所对应的推送概率，分类模型基于用户特征构建，推送概率用于表征用户为推送对象的概率。

其中，S320的具体实施方式可以参照S120，故不在此赘述。

S330，根据推送概率从多个用户中确定出推送对象。

其中，S230的具体实施方式可以参照S130，故不在此赘述。

S340，将多个推送对象作为目标推送群体，根据目标推送群体访问指定网页的次数获取目标推送群体的类型。

当S330得到的推送对象为多个时，可以将多个推送对象作为一个目标推送群体，以便后续能够以一个群体为单位进行推送。由于经过S310到S330得到的多个推送对象已经具有一定的相似性，然后根据目标推送群体访问指定网页的次数获取目标推送群体的类型，可以进一步确定出该目标推送群体中多个推送对象共同的推送需求。

其中，指定的网页或者网站可以是多个，多个网页或者网站可以预先分类，例如可以分类为体育类网站、新闻类网站、购物类网站以及游戏类网站等等。每一类网页或者网站都对应了一类目标推送群体的类型，例如，体育类网站对应的目标推送群体的类型为体育爱好者，游戏类网站对应的目标推送群体的类型为游戏爱好者等等。

作为一种示例，例如目标推送群体在一段时间内访问体育类网站的次数为1000次，访问新闻类网站为700次，访问购物类网站为500次，由于目标用户群体在相同时间内访问体育类网站的次数最多，因此可以将目标推送群体的类型确定为体育爱好者。

在一些实施方式中，如图5所示，S340可以包括：

S341，从多个推送对象中提取出有效推送对象，将有效推送对象作为目标推送群体。

由于多个推送对象中可能存在一些推送对象不会去访问网站或网页，或者访问指定网页或者网站的次数较少，如果根据整体目标推送群体的类型向这类推送对推送相关的信息，可能会造成推送误差，例如一些推送对象并不是体育爱好者，但是他们又属于类型为体育爱好者的目标推送群体中，这件会对这类推送对象推送无用的信息。因此可以将此类无效推送对象从目标推送群体中过滤出去，保留有效的推送对象进行推送，从而也可以保证推送的准确性。

在一些实施方式中，如图6所示，S341可以包括：

S3411，分别获取每个推送对象访问指定网页的访问次数，得到多个第二访问次数，其中，多个第二访问次数与多个推送对象一一对应。

作为一种示例，如推送对象包括了第一推送对象、第二推送对象以及第三推送对象，其中，第一推送对象对应的第二访问次数为80次，第二推送对象对应的第二访问次数为54次，第三推送对象对应的第二访问次数为20次。

S3412，从多个第二访问次数中提取目标访问次数，目标访问次数大于或等于第二次数阈值。

作为一种示例，假设第二次数阈值为50次，则可以将第一推送对象对应的第二访问次数和第二推送对象对应的第二访问次数确定为目标访问次数。

S3413，将与目标访问次数对应的推送对象确定为有效推送对象，并将有效推送对象作为目标推送群体。

作为一种示例，可以将第一推送对象和第二推送对象确定为有效推送对象，并将第一推送对象和第二推送对象作为目标推送群体。

在本实施方式中，通过获取每个推送对象访问指定网页的第二次数，判断第二次数是否大于或等于第二次数阈值，并将大于或等于第二次数阈值对应的推送对象作为有效推送对象，有效推送对象更新为目标推送群体进行推送，避免了推送误差，保证了推送准确性。

S342，获取有效推送对象访问指定网页的第一访问次数。

作为一种示例，如指定网页包括体育网页、游戏网页以及新闻网页，有效推送对象访问体育网页的第一访问次数为500次，访问游戏网页的第一访问次数为100次，访问新闻网页的第一访问次数为300次。

S343，判断第一访问次数是否大于或等于第一次数阈值。

可选地，当第一访问次数小于第一次数阈值时，执行S342。

S344，当第一访问次数大于或等于第一次数阈值时，获取指定网页的类型标签。

作为一种示例，如有效推送对象访问体育网页的第一访问次数为500次，访问新闻网页的第一访问次数为300次，则体育网页和新闻网页满足第一访问次数大于或等于第一次数阈值的条件，可以获取体育网页的类型标签如“体育”以及获取新闻网页的类型标签如“新闻”。

S345，根据类型标签确定目标推送群体的类型。

作为一种示例，根据类型标签“体育”确定目标推送群体的类型为体育爱好者，同时可以根据类型标签“新闻”确定目标推送群体的类型为新闻关注者。

考虑到一个目标推送群体可能会对多个类型的指定网页感兴趣，在本实施方式中，通过判断由有效推送对象组成的目标推送群体对不同的指定网页的第一访问次数是否大于或等于第一次数阈值，并根据满足条件的指定网页的类型标签可以有效确定出目标推送群体的一种或多种类型，进而也丰富了推送内容。

S350，向目标推送群体发送与类型对应的推送信息。可选地，推送信息可以是用户信息、内容信息、商品信息等等。

作为一种示例，如在S340中确定出目标推送群体的类型为体育爱好者，则可以向目标推送群体推送一些关于体育的信息，例如体育新闻、体育商品、体育赛事预告等信息。

在本实施例中，通过将多个具有一定相似性的推送对象作为一个目标推送群体，以群体的单位进行推送，可以避免对逐个推送所带来的繁琐。另外，通过根据目标推送群体访问指定网页的次数获取目标推送群体的类型，可以简单、有效地确定出目标推送群体的类型，基于该类型可以准确地获知目标推送群体的推送需求，从而有效提高了推送准确性。

请参阅图7，其示出了本申请一实施例提供的推送对象确定装置400，该装置400包括：用户特征获取模块410、推送概率获取模块420以及推送对象选取模块。其中，用户特征获取模块410用于获取多个用户的用户特征。推送概率获取模块420用于将多个用户的用户特征输入至预先训练的分类模型，得到每个用户所对应的推送概率，分类模型基于用户画像构建，推送概率用于表征用户为推送对象的概率。推送对象选取模块用于根据推送概率从多个用户中确定出推送对象。

进一步的，该推送对象确定还包括：样本用户特征获取模块410、特征矩阵生成模块以及分类模型生成模块。

样本用户特征获取模块410，用于获取样本用户群体中多个样本用户的用户特征；

特征矩阵生成模块，用于基于用户特征生成样本用户群体的特征矩阵；

分类模型生成模块，用于根据特征矩阵训练得到预先训练的分类模型。

推送对象确定模块430，根据推送概率从多个用户中确定出推送对象。

进一步的，分类模型生成模块包括：

正样本提取单元，用于基于特征矩阵从样本用户群体中提取出正样本，并将提取出正样本后的样本用户群体确定为剩余样本。

负样本提取单元，从剩余样本中提取出负样本。

分类模型生成单元，用于将正样本和负样本输入到机器学习模型中进行训练，得到预先训练的分类模型。

进一步的，正样本提取单元具体用于根据特征矩阵以及预设的正样本特征标识从样本用户群体中取出正样本，并将取出正样本的样本用户群体确定为剩余样本。

进一步的，负样本提取单元用于基于正样本无标签学习机器学习算法和正样本的用户特征，从剩余样本中选取出负样本。

进一步的，样本用户群体包括多个样本用户，特征矩阵生成模块还用于对用户特征进行特征处理，得到每个样本用户的特征向量；基于每个样本用户的特征向量组成特征矩阵。

进一步的，用户特征包括用户属性特征、用户行为特征以及用户兴趣特征中的至少一种。

进一步的，样本用户特征获取模块410还包括：

用户行为特征获取单元，用于获取样本用户在预设时长内的操作日志，操作日志记录了用户在使用网络时产生的操作行为，操作行为包括购买行为、访问行为、浏览行为中的至少一种；根据操作日志确定样本用户的用户行为特征。

进一步的，样本用户特征获取模块410还包括：

用户属性特征获取单元，用于获取样本用户的属性信息，属性信息包括性别、出生日期、职业、教育背景中的至少一种；根据属性信息确定样本用户的用户属性特征。

进一步的，样本用户特征获取模块410还包括：

用户兴趣特征获取单元，获取样本用户的社交记录，社交记录包括搜索记录、评论记录、关注记录中的至少一种；根据社交记录确定用户兴趣特征。

进一步的，特征处理包括离散化处理、正则化处理、标准化处理中的至少一种或几种的组合。

进一步的，分类模型生成单元还用于将正样本和负样本通过LR机器学习分类算法或随机森林机器学习分类算法进行处理，得到预先训练的分类模型。

进一步的，推送对象确定模块430还用于根据推送概率从大到小的顺序从多个用户中选取出预设数量的用户；将预设数量的用户确定为推送对象。

进一步的，推送对象确定模块430还用于从多个推送概率中选取出至少一个目标推送概率，其中，目标推送概率大于或等于概率阈值；将与目标推送概率对应的用户确定推送对象。

进一步的，推送对象为多个，推送对象确定模块430还用于将多个推送对象作为目标推送群体，根据目标推送群体访问指定网页的次数获取目标推送群体的类型；向目标推送群体发送与类型对应的推送信息。

进一步的，推送对象确定模块430还用于从多个推送对象中提取出有效推送对象，将有效推送对象作为目标推送群体。

获取有效推送对象访问指定网页的第一访问次数。

当第一访问次数大于或等于第一次数阈值时，获取指定网页的类型标签。

根据类型标签确定目标推送群体的类型。

进一步的，推送对象确定模块430还用于分别获取每个推送对象访问指定网页的访问次数，得到多个第二访问次数，其中，多个第二访问次数与多个推送对象一一对应。

从多个第二访问次数中提取目标访问次数，目标访问次数大于或等于第二次数阈值。

将与目标访问次数对应的推送对象确定为有效推送对象。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述装置400和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，所显示或讨论的模块相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置400400或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

请参考图8，其示出了本申请实施例提供的一种设备终端的结构框图。该设备终端500可以是前述实施例中能够运行应用程序的设备终端500。本申请中的设备终端500可以包括一个或多个如下部件：处理器510、存储器520、以及一个或多个应用程序，其中一个或多个应用程序可以被存储在存储器520中并被配置为由一个或多个处理器510执行，一个或多个程序配置用于执行如前述方法实施例所描述的方法。

处理器510可以包括一个或者多个处理核。处理器510利用各种接口和线路连接整个终端设备内的各个部分，通过运行或执行存储在存储器520 内的指令、程序、代码集或指令集，以及调用存储在存储器520内的数据，执行终端设备的各种功能和处理数据。可选地，处理器510可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现。处理器510可集成中央处理器510(Central Processing Unit，CPU)、图像处理器510(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器510中，单独通过一块通信芯片进行实现。

存储器520可以包括随机存储器520(Random Access Memory，RAM)，也可以包括只读存储器520(Read-Only Memory)。存储器520可用于存储指令、程序、代码、代码集或指令集。存储器520可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储终端在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

请参考图9，其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读介质600中存储有程序代码610，程序代码610可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质600可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质具有执行上述方法中的任何方法步骤的程序代码的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码可以例如以适当形式进行压缩。

综上所述，本申请实施例提供的推送对象确定方法、装置、终端设备及存储介质，通过基于用户特征构建分类模型，在向分类模型输入用户的用户特征时，可以快速、准确地输出用户是否为需要推送用户的概率，基于需要推送用户的概率可以有效地从大量级的用户群体中有效确定出需要推送的一定数量的用户以作为推送目标用户群，进而更好地扩展了推送目标用户群的用户数量，增加有效推送用户在用户群体中的覆盖面，提升了推送效率。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

一种推送对象确定方法，其特征在于，所述方法包括：

获取多个用户的用户特征；

将所述多个用户的用户特征输入至预先训练的分类模型，得到每个用户所对应的推送概率，所述分类模型基于用户特征构建，所述推送概率用于表征所述用户为推送对象的概率；

根据所述推送概率从所述多个用户中确定出推送对象。
根据权利要求1所述的方法，其特征在于，在所述将所述多个用户的用户特征输入至预先训练的分类模型之前，还包括：

获取样本用户群体中多个样本用户的用户特征；

基于所述用户特征生成所述样本用户群体的特征矩阵；

根据所述特征矩阵训练得到预先训练的分类模型。
根据权利要求2所述的方法，其特征在于，所述根据所述特征矩阵训练得到预先训练的分类模型，包括：

基于所述特征矩阵从所述样本用户群体中提取出正样本，并将提取出所述正样本后的样本用户群体确定为剩余样本；

从所述剩余样本中提取出负样本；

将所述正样本和所述负样本输入到机器学习模型中进行训练，得到预先训练的分类模型。
根据权利要求3所述的方法，其特征在于，所述基于所述特征矩阵从所述样本用户群体中提取出正样本，并将提取出所述正样本后的样本用户群体确定为剩余样本，包括：

根据所述特征矩阵以及预设的正样本特征标识从所述样本用户群体中取出所述正样本，并将取出所述正样本的样本用户群体确定为剩余样本。
根据权利要求3所述的方法，其特征在于，所述从所述剩余样本中提取出负样本，包括：

基于正样本无标签学习机器学习算法和所述正样本的用户特征，从所述剩余样本中选取出所述负样本。
根据权利要求2-5任一项所述的方法，其特征在于，所述样本用户群体包括多个样本用户，所述基于所述用户特征生成所述样本用户群体的特征矩阵，包括：

对所述用户特征进行特征处理，得到每个所述样本用户的特征向量；

基于所述每个所述样本用户的特征向量组成所述特征矩阵。
根据权利要求6所述的方法，其特征在于，所述用户特征包括用户属性特征、用户行为特征以及用户兴趣特征中的至少一种。
根据权利要求7所述的方法，其特征在于，所述用户特征包括用户行为特征，所述获取所述样本用户的用户特征，包括：

获取所述样本用户在预设时长内的操作日志，所述操作日志记录了用户在使用网络时产生的操作行为，所述操作行为包括购买行为、访问行为、浏览行为中的至少一种；

根据所述操作日志确定所述样本用户的用户行为特征。
根据权利要求7所述的方法，其特征在于，所述用户特征包括用户属性特征，所述获取所述样本用户的用户特征，包括：

获取所述样本用户的属性信息，所述属性信息包括性别、出生日期、职业、教育背景中的至少一种；

根据所述属性信息确定所述样本用户的用户属性特征。
根据权利要求7所述的方法，其特征在于，所述用户特征包括用户兴趣特征，所述获取所述样本用户的用户特征，包括：

获取所述样本用户的社交记录，所述社交记录包括搜索记录、评论记录、关注记录中的至少一种；

根据所述社交记录确定所述用户兴趣特征。
根据权利要求6-10任一项所述的方法，其特征在于，所述特征处理包括离散化处理、正则化处理、标准化处理中的至少一种或几种的组合。
根据权利要求3-5任一项所述的方法，其特征在于，所述将所述正样本和所述负样本输入到机器学习模型中进行训练，得到预先训练的分类模型，包括：

将所述正样本和所述负样本通过LR机器学习分类算法或随机森林机器学习分类算法进行处理，得到所述预先训练的分类模型。
根据权利要求1-12任一项所述的方法，其特征在于，所述根据所述推送概率从所述多个用户中确定出推送对象，包括：

根据所述推送概率从大到小的顺序从所述多个用户中选取出预设数量的用户；

将所述预设数量的用户确定为所述推送对象。
根据权利要求1-12任一项所述的方法，其特征在于，所述根据所述推送概率从所述多个用户中确定出推送对象，包括：

从所述多个推送概率中选取出至少一个目标推送概率，其中，所述目标推送概率大于或等于概率阈值；

将与所述目标推送概率对应的用户确定所述推送对象。
根据权利要求1-14任一项所述的方法，其特征在于，所述推送对象为多个，在所述根据所述推送概率从所述多个用户中确定出推送对象之后，还包括：

将多个所述推送对象作为目标推送群体，根据所述目标推送群体访问指定网页的次数获取所述目标推送群体的类型；

向所述目标推送群体发送与所述类型对应的推送信息。
根据权利要求15所述的方法，其特征在于，所述将多个所述推送对象作为目标推送群体，根据所述目标推送群体访问指定网页的次数获取所述目标推送群体的类型，包括：

从多个所述推送对象中提取出有效推送对象，并将所述有效推送对象作为所述目标推送群体；

获取所述有效推送对象访问指定网页的第一访问次数；

当所述第一访问次数大于或等于第一次数阈值时，获取所述指定网页的类型标签；

根据所述类型标签确定所述目标推送群体的类型。
根据权利要求16所述的方法，其特征在于，所述从多个所述推送对象中提取出有效推送对象，并将所述有效推送对象作为所述目标推送群体，包括：

分别获取每个所述推送对象访问所述指定网页的访问次数，得到多个第二访问次数，其中，所述多个第二访问次数与所述多个推送对象一一对应；

从所述多个第二访问次数中提取目标访问次数，所述目标访问次数大于或等于第二次数阈值；

将与所述目标访问次数对应的推送对象确定为所述有效推送对象，将所述有效推送对象作为所述目标推送群体。
一种推送对象确定装置，其特征在于，所述装置包括：

用户特征获取模块，用于获取多个用户的用户特征；

推送概率获取模块，用于将所述多个用户的用户特征输入至预先训练的分类模型，得到每个用户所对应的推送概率，所述分类模型基于用户画像构建，所述推送概率用于表征所述用户为推送对象的概率；

推送对象确定模块，用于根据所述推送概率从所述多个用户中确定出推送对象。
一种终端设备，其特征在于，包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个应用程序配置用于执行如权利要求1-17任一项所述的方法。
一种计算机可读取存储介质，其特征在于，所述计算机可读取存储介质中存储有程序代码，所述程序代码可被处理器调用执行如权利要求1-17任一项所述的方法。