WO2020253369A1

WO2020253369A1 - 生成兴趣标签的方法、装置、计算机设备和存储介质

Info

Publication number: WO2020253369A1
Application number: PCT/CN2020/086369
Authority: WO
Inventors: 苏显政; 蔡健; 郭凌峰
Original assignee: 深圳壹账通智能科技有限公司
Priority date: 2019-06-18
Filing date: 2020-04-23
Publication date: 2020-12-24
Also published as: CN110377821A

Abstract

涉及用户画像技术领域，提供一种生成兴趣标签的方法、装置、计算机设备和存储介质。所述方法包括：获取在指定时间段内应用程序的用户使用记录集，计算每个应用程序标识对应于用户标识所对应的偏好值(S202)；根据相同应用程序类型下的应用程序标识对应于用户标识所对应的所述偏好值，分别确定各应用程序类型的分类阈值(S204)；根据基于所述用户使用记录集确定的各应用程序类型的用户使用数据集，并按照所述分类阈值进行条件筛选，以筛选出用户标识(S206)；依照筛选出的用户标识所在用户使用数据集所对应的应用程序类型，确定筛选出的用户标识所对应的兴趣标签(S208)。采用本方法能够提高生成各行为类型的兴趣标签的准确率。

Description

生成兴趣标签的方法、装置、计算机设备和存储介质

本申请要求于2019年6月18日提交中国专利局、申请号为201910525807.X，发明名称为“生成兴趣标签的方法、装置、计算机设备和存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及信息处理技术领域，特别是涉及一种生成兴趣标签的方法、装置、计算机设备和存储介质。

背景技术

随着互联网的发展和应用，个性化推荐、多样化营销等差异化服务在人们生活中得到了广泛应用，而这些差异化服务离不开用户画像。用户画像的核心工作是给用户生成标签。通过对用户进行标签化工作，可以从宏观角度对用户行为进行分析和预测，有助于提升企业针对特定用户的营销行为的精准度。

发明人发现大部分用户画像的标签生成方法采用关键词提取方法来生成用户标签，然而该方法存在生成标签的准确率较低的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种生成兴趣标签的方法、装置、计算机设备和存储介质。

一种生成兴趣标签的方法，所述方法包括：

获取在指定时间段内应用程序的用户使用记录集，计算每个应用程序标识对应于用户标识所对应的偏好值；所述用户使用记录集中的用户使用记录包括用户标识和应用程序标识；

基于应用程序标识确定应用程序类型，根据相同应用程序类型下的应用程序标识对应于用户标识所对应的所述偏好值，分别确定各应用程序类型的分类阈值；所述应用程序类型存在对应的预设兴趣标签；

根据基于所述用户使用记录集确定的各应用程序类型的用户使用数据集，并按照所述分类阈值进行条件筛选，以筛选出用户标识；

依照筛选出的用户标识所在用户使用数据集的应用程序类型所对应的预设兴趣标签，确定筛选出的用户标识所对应的兴趣标签。

一种生成兴趣标签的装置，所述装置包括：

使用记录获取模块，用于获取在指定时间段内应用程序的用户使用记录集，计算每个应用程序标识对应于用户标识所对应的偏好值；所述用户使用记录集中的用户使用记录包括用户标识和应用程序标识；

分类阈值确定模块，用于基于应用程序标识确定应用程序类型，根据相同应用程序类型下的应用程序标识对应于用户标识所对应的所述偏好值，分别确定各应用程序类型的分类阈值；所述应用程序类型存在对应的预设兴趣标签；

筛选用户标识模块，用于根据基于所述用户使用记录集确定的各应用程序类型的用户使用数据集，并按照所述分类阈值进行条件筛选，以筛选出用户标识；

兴趣标签生成模块，用于依照筛选出的用户标识所在用户使用数据集的应用程序类型所对应的预设兴趣标签，确定筛选出的用户标识所对应的兴趣标签。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述生成兴趣标签方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述生成兴趣标签方法的步骤。

上述生成兴趣标签的方法、装置、计算机设备和存储介质，基于在指定时间段内获取的应用程序的用户使用记录集，确定各个应用程序标识对应于用户标识的偏好值，更好的表征用户使用各个应用程序的偏好程度。进一步，通过分析相同应用程序类型下的应用程序标识对应于用户标识所对应的偏好值的整体分布情况，以此确定各应用程序类型的分类阈值，充分考虑了相同应用程序类型下偏好值的整体分布情况，为后续筛选用户标识提供更为准确的筛选依据。再者，将各应用程序类型的用户使用数据集按照对应的分类阈值进行筛选，从而筛选出符合条件的用户标识，提高了生成各行为类型的兴趣标签的准确率。

附图说明

图1为一个实施例中生成兴趣标签的方法的应用场景图；

图2为一个实施例中生成兴趣标签的方法的流程示意图；

图3为一个实施例中生成兴趣标签的装置的结构框图；

图4为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的生成兴趣标签方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104通过网络进行通信。服务器104获取指定时间段内应用程序的用户使用记录集，计算每个应用程序标识对应于用户标识所对应的偏好值；其中用户使用记录集可以由终端102触发产生；并根据相同应用程序类型下的应用程序标识对应于用户标识所对应的偏好值，分别确定各应用程序类型的分类阈值。进一步，服务器104根据得到的分类阈值对相应应用程序类型的用户使用数据集进行条件筛选，以筛选出用户标识；依据筛选出的用户标识所对应的应用程序类型，服务器104将该应用程序类型作为筛选出的用户标识的兴趣标签。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种生成兴趣标签的方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤S202，获取在指定时间段内应用程序的用户使用记录集，计算每个应用程序标识对应于用户标识所对应的偏好值；用户使用记录集中的用户使用记录包括用户标识和应用程序标识。

其中，用户使用记录集包括各个用户使用记录，每个用户使用记录包括用户标识、应用程序标识和使用权重。用户使用记录包含了丰富的信息，比如用户之间的相似性、应用程序之间的相似性和用户对各个应用程序的偏好程度。其中，用户标识是区别各个用户的唯一标识，可以是用户ID(Identification)。应用程序标识是区别各个应用程序的唯一标识。

其中，偏好值是表征与用户标识对应的用户使用与应用程序标识对应的应用程序的使用偏好程度；偏好值与应用程序标识对应的用户数、用户使用记录集对应的总用户数以及使用权重有关。

具体地，用户触发终端生成各个应用程序的用户使用记录集，并将生成的用户使用记录集通过网络传输给服务器，也可以将用户使用记录集直接存储在终端中。服务器可以从各个终端获中获取指定时间段内用户使用记录集，也可以从服务器中获取指定时间段内用户使用记录集。服务器在获取到指定时间段内应用程序的用户使用记录集后，根据用户使用记录集计算每个应用程序标识所对应于用户标识的偏好值。

在其中一个实施例中，服务器基于用户使用记录集中各个用户使用记录，获取每个应用程序标识对应的用户数、以及用户使用记录集对应的总用户数；并获取对应用户标识和应用程序标识的使用权重，进而根据用户数占总用户数的比重以及使用权重计算每个应用程序标识对应的用户标识的偏好值。

步骤S204，基于应用程序标识确定应用程序类型，根据相同应用程序类型下的应用程序标识对应于用户标识所对应的偏好值，分别确定各应用程序类型的分类阈值，应用程序类型存在对应的预设兴趣标签。

其中，应用程序类型是指区分各个应用程序的类别，比如视频类型。分类阈值是指偏好值在所属应用程序类型的分类判断条件，根据该分类阈值可以判断偏好值所对应的用户标识是否属于该偏好值所属的应用程序类型。分类阈值表征了在相同应用程序类型下，各个用户对应用程序的使用行为占该应用程序类型下的整体使用行为的比重。

具体地，服务器基于用户使用记录集，计算得到每个应用程序标识对应于用户标识所对应的偏好值，并根据各个应用程序标识确定对应的应用程序类型，每个应用程序类型存在对应的预设兴趣标签；其中预设的兴趣标签可以与应用程序类型一致，也可以是表征与应用程序类型相符的标识。在相同应用程序类型下，服务器根据计算得到的偏好值分别确定各应用程序类型的分类阈值。通过分类阈值可以判断偏好值所对应的用户标识是否属于该偏好值所属的应用程序类型。

步骤S206，根据基于用户使用记录集确定的各应用程序类型的用户使用数据集，并按照分类阈值进行条件筛选，以筛选出用户标识。

其中，用户使用数据集包括各个应用程序类型对应的用户使用数据集，用户使用数据集包括彼此对应的用户标识、应用程序标识和偏好值。

具体地，针对各个应用程序类型对应的用户使用数据集，服务器按照与该用户使用数据集所在应用程序类型对应的分类阈值进行条件筛选，以此针对该用户使用数据集筛选出符合条件的用户标识。

步骤S208，依照筛选出的用户标识所在用户使用数据集所对应的应用程序类型，确定筛选出的用户标识所对应的兴趣标签。

其中，兴趣标签是指区别于用户具有某类行为类型的倾向的标记；比如，用户经常使用视频类应用程序，相应的该用户的兴趣标签为视频。

具体地，基于筛选出的各个用户使用数据集中符合条件的用户标识，服务器从数据库中获取该用户标识所在用户使用数据集所对应的应用程序类型，即该用户标识的兴趣标签为对应的应用程序类型。

上述实施例中，基于在指定时间段内获取的应用程序的用户使用记录集，确定各个应用程序标识对应于用户标识的偏好值，更好的表征用户使用各个应用程序的偏好程度。进一步，通过分析相同应用程序类型下的应用程序标识对应于用户标识所对应的偏好值的整体分布情况，以此确定各应用程序类型的分类阈值，充分考虑了相同应用程序类型下偏好值的整体分布情况，为后续筛选用户标识提供更为准确的筛选依据。再者，将各应用程序类型的用户使用数据集按照对应的分类阈值进行筛选，从而筛选出符合条件的用户标识，提高了生成各行为类型的兴趣标签的准确率。

在一个实施例中，用户使用记录集中的用户使用记录还包括使用权重；根据在指定时间段内应用程序的用户使用记录集，计算每个应用程序标识对应于用户标识所对应的偏好值，包括以下步骤：获取每个应用程序标识对应的用户数、以及用户使用记录集对应的总用户数；获取与用户标识和应用程序标识对应的使用权重；根据用户数占总用户数的比重以及使用权重，计算每个应用程序标识对应于用户标识所对应的偏好值。

其中，使用权重表征了用户所使用的各种应用程序中特定的应用程序的使用程度的比重。可以根据应用程序的安装信息、使用次数、使用时长以及耗电量来确定使用权重。

具体地，服务器基于得到的用户使用记录集，获取每个应用程序标识对应的用户数以及用户使用记录集对应的总用户数；并根据用户标识和应用程序标识从数据库获取对应的使用权重。服务器根据获取到的总用户数、用户数以及使用权重，计算每个应用程序标识对应于用户标识所对应的偏好值。即服务器根据总用户数与应用程序标识对应的用户数比重以及应用程序标识对应的使用权重，计算每个应用程序标识对应于用户标识所对应的偏好值。

在其中一个实施例中，偏好值与应用程序标识对应的使用权重成正相关，且与应用程序对应的用户数比重成正相关。其中用户数比重随着用户使用记录集对应的总用户数增长而增长，并且随着应用程序标识对应的用户数的增长而减少。可选地，偏好值可以是应用程序标识对应的用户数比重和应用程序标识对应的使用权重的乘积；用户数比重可以是总用户数与应用程序标识对应的用户数的比值的对数值。

举例说明，例如，获取小明和小红在最近一个月内的应用程序的用户使用记录集，得到小明和小红使用腾讯视频、百度视频和土豆视频的使用记录，表示为{(A ₁，A ₂)，(B ₂，B ₃)}。其中，A ₁表示小明观看腾讯视频的权重，A ₂和B ₂分别表示小明和小红观看土豆视频的权重，B ₃表示小红观看百度视频的权重。则小明使用腾讯视频的偏好值的计算步骤如下：

(1)获取腾讯视频对应的用户数与用户使用记录集的总用户数：

腾讯视频对应的用户数为1，用户使用记录集的总用户数为2；即用户使用记录集的总用户数与腾讯视频的用户数比重为：IDF＝log(2/1)，为了避免log(x)函数中的变量参数x的分母为0，也可以对x的分母加1。

(2)获取小明观看腾讯视频的权重TF：TF＝A ₁。

(3)计算小明使用腾讯视频的偏好值TF*IDF：TF*IDF＝A ₁*log(2/1)。

在本实施例中，基于每个应用程序标识对应的用户数、用户使用记录集对应的总用户数以及每个应用程序标识对应于用户标识所对应的使用权重，计算每个应用程序标识对应与用户标识所对应的偏好值。通过引入使用权重以及应用程序与整体的占比情况，更好的表征用户使用各个应用程序的偏好程度。

在一个实施例中，根据相同应用程序类型下的应用程序标识对应于用户标识所对应的偏好值，分别确定各应用程序类型的分类阈值，包括以下步骤：基于相同应用程序类型下的应用程序标识对应于用户标识所对应的偏好值，将相同应用程序类型各自对应的偏好值按升序进行排序，得到偏好值的排序结果；根据偏好值的排序结果，计算相同应用程序类型下各自对应的每个偏好值的分位数；依据分位数确定各应用程序类型的分类阈值。

其中，分位数是指：在离散数据集中，数据a的分位数是满足条件P(X<＝a)的所有数据的概率合，即a的分位数是对应a的累积概率。分位数的取值范围为大于0，且小于或等于1。

具体地，基于获取的用户使用记录集以及计算得到的偏好值，在相同应用程序类型下，服务器分别将相同应用程序类型下各自对应的偏好值按从小到大的顺序进行排序，得到各应用程序类型的偏好值的排序结果。根据获得的各偏好值的排序结果，服务器计算在相同应用程序类型下各自对应的每个偏好值的分位数；并根据分位数确定各应用程序类型各自对应的分类阈值，即分类阈值的取值范围可以是0到1之间，并且可以为1。

在本实施例中，通过对各应用程序类型各自对应的偏好值按升序进行排序，得到各应用程序类型对应的排序结果；进一步根据排序结果分别计算各应用程序类型各自对应的每个偏好值的分位数，根据计算得到的各个分位数确定各行为类型的分类阈值。利用各应用程序类型的分位数整体分布情况来确定分类阈值，充分考虑了整体分布情况，为后续兴趣标签的生成提供了依据。

在一个实施例中，根据偏好值的排序结果，计算各应用程序类型下各自对应的每个偏好值的分位数，包括以下步骤：根据偏好值的排序结果，确定各应用程序类型下的每个偏好值在相应排序结果中的出现概率；根据出现概率确定各应用程序类型下的每个偏好值的累积概率，得到各应用程序类型下的每个偏好值的分位数。

其中，出现概率是指在某一行为类型对应的用户使用数据集中，该用户使用数据集中每个偏好值出现的概率。累积概率是指在某一行为类型对应的用户使用数据集中，将不超过该偏好值的所有偏好值的出现概率相加，所得结果即为累积概率。

具体地，服务器根据得到的各个应用程序类型各自对应的偏好值的排序结果，分别计算各应用程序类型各自对应的每个偏好值在排序结果中的出现概率。基于计算得到的出现概率，服务器根据出现概率确定各应用程序类型各自对应的每个偏好值的累积概率，即该累积概率为相应偏好值的分位数。

举例说明，例如，对于某一相同应用程序类型的数据集，该数据集中包括各个应用程序标识对应于用户标识所对应的偏好值；对各个偏好值按照升序进行排序，得到偏好值的排序结果。若偏好值的排序结果为：1，1，2，2，3，4，5，6，7，8；则对应偏好值为1时的出现概率：P(1)＝2/10，偏好值为2时的出现概率：P(2)＝2/10，偏好值为3时的出现概率：P(3)＝1/10，则偏好值为3时的累积概率是P(1)+P(2)+P(3)，即偏好值为3时的分位数为50％。

在本实施例中，基于偏好值的排序结果确定各应用程序类型下的每个偏好值在相应排序结果中的出现概率，进一步根据出现概率得到各应用程序类型下的每个偏好值的累积概率，从而得出各应用程序类型下的各个偏好值的分位数。利用累积概率计算分位数，从整体上反映出各应用程序类型中个体占整体比重情况，充分考虑了数据间的关系，为后续筛选用户标识提供更为准确的筛选依据。

在一个实施例中，根据偏好值的排序结果，计算各应用程序类型下各自对应的每个偏好值的分位数，包括以下步骤：获取各应用程序类型下的每个偏好值在所处排序结果中的排序位以及各应用程序标识所属应用程序类型对应的排序用户数；将各应用程序类型下的每个偏好值在所处排序结果中的排序位除以排序用户数，获得各应用程序类型各自对应的每个偏好值的分位数。

其中，排序位是指一个数据集内的各个元素按照一定逻辑进行排序，每个元素在数据集中所处的位置。排序用户数是指一个数据集中对应的所有元素的总个数。

具体地，服务器基于计算得到的各应用程序类型各自对应的每个偏好值的排序结果，分别获取到各应用程序类型对应的每个偏好值在所处偏好值的排序结果中的排序位以及各应用程序类型各自对应的排序用户数。服务器获取到相应数据后，将各应用程序类型各自对应的每个偏好值的排序位与对应该应用程序类型的排序用户数相除，即所得的计算结果为各应用程序类型各自对应的偏好值的分位数。

例如，对于某一相同应用程序类型的数据集，该数据集中包括各个应用程序标识对应于用户标识所对应的偏好值；对各个偏好值按照升序进行排序，得到偏好值的排序结果。若数据集中的偏好值A在相应的排序结果中排序位是5，同时该偏好值A在所处应用程序类型的排序用户数是10，则该偏好值的分位数为5/10*100％，即分位数是50％。例如，偏好值的排序结果为：0，1，2，3，4，5，6，7，8，9；则偏好值为6时对应的分位数是70％。

在本实施例中，基于各应用程序类型各自对应的每个偏好值的在所处排序结果的排序位以及各应用程序类型各自对应的排序用户数，确定各应用程序类型各自对应的每个偏好值的分位数。通过排序位与排序用户数确定分位数，在计算机层面上可以进一步减少计算量，从而提高计算的速度，提高生成兴趣标签的速率。

在一个实施例中，依据分位数确定各应用程序类型的分类阈值，包括以下步骤：依据分位数，对应于每个应用程序类型，分别筛选出大于或等于相应第一预设阈值的分位数；对应于每个应用程序类型，根据筛选出的分位数计算相邻的分位数的差值；获取对应各应用程序类型计算出的每个最大的差值所对应的分位数，得到各应用程序类型的分类阈值。

其中，预设阈值是提前设定的判断分位数的界限值，阈值可以存储在数据库中；预设阈值是与各应用程序类型对应的分位数的界限值。差值是指两个数据进行减法运算所得的计算结果；可以是相邻的两个分位数进行相减所得的结果。

具体地，根据计算得到的各应用程序类型各自对应的每个偏好值的分位数，针对每个应用程序类型各自对应的分位数，服务器从数据库中获取对应应用程序类型的预设阈值，根据预设阈值筛选出大于或等于该预设阈值的分位数。对应于每个应用程序类型，服务器根据筛选出的分位数分别计算两个相邻的分位数的差值。服务器根据计算得到的每个应用程序类型各自对应的差值，获取最大差值所对应的两个分位数，将排序位靠后的分位数作为对应该应用程序类型的分类阈值。

在本实施例中，基于分位数确定各应用程序类型各自对应的偏好值的分类阈值，选出各应用程序类型中分布较为明显的分位数作为该应用程序类型的分类阈值。进一步，充分利用各应用程序类型数据的整体分布特性，为兴趣标签的准确率提供了保障。

在一个实施例中，根据基于用户使用记录集确定的各应用程序类型的用户使用数据集，并按照分类阈值进行条件筛选，以筛选出用户标识，包括以下步骤：获取已知兴趣标签的用户使用记录样本集；根据用户使用记录样本集，对分类阈值进行调整；根据用户使用数据集，并按照调整后的分类阈值进行条件筛选，以筛选出用户标识。

其中，用户使用记录样本集包括各个用户使用记录样本，用户使用记录集包括各个应用程序类型对应的用户使用数据集，用户使用数据集包括彼此对应的用户标识、应用程序标识和偏好值。

具体地，服务器从数据库或终端中获取已经兴趣标签的用户使用记录样本集，根据获取到的用户使用记录样本集分别对各个应用程序类型对应的分类阈值进行调整。进一步，基于用户使用数据集，服务器按照调整后的分类阈值对各应用程序类型各自对应的每个偏好值进行条件筛选，以筛选出满足上述偏好值的筛选条件的用户标识。

在本实施例中，基于已知兴趣标签的用户使用记录样本集，对各应用程序类型对应的分类阈值进行调整，以此得到调整后的分类阈值。利用用户使用记录样本集对分类阈值进行测试，提高了兴趣标签的准确性。

在一个实施例中，用户使用记录样本集中用户使用记录样本包括样本用户标识、兴趣标签、样本应用程序类型、样本应用程序标识和样本使用权重；根据用户使用记录样本集，对分类阈值进行调整，包括以下步骤：根据用户使用记录样本集，按已知兴趣标签确定各样本应用程序类型的样本用户使用数据集，样本使用数据集包括对应的样本用户标识、样本应用程序标识、兴趣标签和样本偏好值；基于各样本应用程序类型的已知标签的样本用户使用数据集，计算各样本应用程序类型的每个样本偏好值的分位数；根据已知标签的样本用户使用数据集，按照分类阈值进行条件筛选，以筛选出样本用户标识；依照筛选出的样本用户标识所在用户使用数据集所对应的应用程序类型，确定筛选出的用户标识所对应的预测兴趣标签；根据样本用户数据集的预测兴趣标签和已知的相应兴趣标签计算出的每类样本应用程序类型的查全率，调整分类阈值。

其中，用户使用记录样本集包括各个用户使用记录样本，每个用户使用记录样本包括样本用户标识、兴趣标签、样本应用程序类型、样本应用程序标识以及样本使用权重。样本用户标识是区别各个样本用户的唯一标识。样本应用程序类型是与样本用户的各个应用程序相对应的类型，样本应用程序类型与应用程序类型是对应关系，应用程序类型包括所有的样本应用程序类型。样本应用程序标识是区别各个应用程序的唯一标识。样本偏好值表征与样本用户标识对应的样本用户使用与样本应用程序标识对应的样本应用程序的使用偏好程度。

其中，用户使用记录样本集包括各个样本应用程序类型对应的样本用户使用数据集；样本用户使用数据集包括对应的样本用户标识、样本应用程序标识、兴趣标签和样本偏好值。

其中，兴趣标签是指区别于用户具有某类应用程序类型的倾向的标记，比如，用户经常观看视频类应用程序，相应的该用户的兴趣标签可以是视频。预测兴趣标签是根据兴趣标签生成模型生成的预测的兴趣标签。查全率是对于每类样本应用程序类型，每个样本用户标识的预测兴趣标签与已知兴趣标签一致的用户数与该类样本应用程序类型的总用户数的比值。查全率越接近1，说明对应该类样本应用程序类型的预测兴趣标签和已知兴趣标签的一致性更高，进一步说明该类样本应用程序类型的分类阈值选取的较为合适。

具体地，服务器从数据库或终端中获取已经兴趣标签的用户使用记录样本集，根据获取到的用户使用记录样本集按照已知兴趣标签对其进行分类，得到各样本应用程序类型各自对应的样本用户使用数据集。基于分类得到的各样本应用程序类型各自对应的样本用户使用数据集，服务器分别计算各样本应用程序类型各自对应的每个样本偏好值的分位数。

基于上述已知标签的样本用户使用数据集，服务器依照各样本应用程序类型从数据库中查找对应的分类阈值，并根据查找到的分类阈值对样本用户使用数据集进行筛选。当各样本用户使用数据集中样本偏好值满足筛选条件时，得到筛选出的样本用户标识。其中筛选条件是：对应于每个样本用户使用数据集，样本偏好值大于或等于对应的分类阈值。

服务器根据筛选出的样本用户标识，从数据库中查找该样本用户标识所在样本用户使用数据集所对应的样本应用程序类型，即样本用户标识的预测兴趣标签可以是对应查找到的样本应用程序类型。基于样本用户使用数据集的预测兴趣标签和已知的相应的兴趣标签，对应于每类样本应用程序类型，服务器判断每个样本用户标识的预测兴趣标签与已知兴趣标签是否一致，且用标识记录判断结果并存储在服务器中。当判断结果一致的可以标记为1；否则，标记为0。例如，在某一样本应用程序类型中，某个样本用户标识的已知兴趣标签是电影，若预测兴趣标签也为电影，则记录为1；若该样本用户标识的预测兴趣标签为吃饭，则记录为0。

根据记录结果，服务器计算每类样本应用程序类型的查全率；再根据各类样本应用程序类型的查全率调整对应的分类阈值。若查全率不符合调整阈值，则不需对分类阈值进行调整；若查全率符合调整阈值，则对分类阈值进行调整。再根据调整后的分类阈值确定样本用户使用数据集的预测标签，并计算每类样本应用程序类型的查全率，直至用户使用记录样本集的查全率不符合调整阈值的范围时，则停止对相应分类阈值的调整；调整阈值可以设置为：查全率低于95％。。

在本实施例中，基于已知兴趣标签的用户使用记录样本集，对分类阈值进行调整，根据计算出的各应用程序类型的查全率对分类阈值进行调整，直至各应用程序类型的查全率不符合调整阈值。利用用户使用记录样本集对分类阈值进行测试，并通过查全率验证兴趣标签的准确率，进一步提高了兴趣标签的准确性。

应该理解的是，虽然图2的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图3所示，提供了一种生成兴趣标签的装置300，包括：使用记录获取模块302、分类阈值确定模块304、筛选用户标识模块306以及兴趣标签生成模块308，其中：

使用记录获取模块302，用于获取在指定时间段内应用程序的用户使用记录集，计算每个应用程序标识对应于用户标识所对应的偏好值；用户使用记录集中的用户使用记录包括用户标识和应用程序标识。

分类阈值确定模块304，用于基于应用程序标识确定应用程序类型，根据相同应用程序类型下的应用程序标识对应于用户标识所对应的偏好值，分别确定各应用程序类型的分类阈值；应用程序类型存在对应的预设兴趣标签。

筛选用户标识模块306，用于根据基于用户使用记录集确定的各应用程序类型的用户使用数据集，并按照分类阈值进行条件筛选，以筛选出用户标识。

兴趣标签生成模块308，用于依照筛选出的用户标识所在用户使用数据集所对应的应用程序类型，确定筛选出的用户标识所对应的兴趣标签。

在一个实施例中，上述使用记录获取模块包括：数据获取模块和偏好值计算模块。数据获取模块，用于获取每个应用程序标识对应的用户数以及用户使用记录集对应的总用户数；获取与用户标识和应用程序标识对应的使用权重；偏好值计算模块，用于根据总用户数与用户数的比重以及使用权重，计算每个应用程序标识对应于用户标识所对应的偏好值。

在一个实施例中，上述分类阈值确定模块包括：排序模块、分位数获取模块以及分类阈值计算模块。排序模块，用于基于相同应用程序类型下的应用程序标识对应于用户标识所对应的偏好值，将相同应用程序类型各自对应的偏好值按升序进行排序，得到偏好值的排序结果；分位数获取模块，用于根据偏好值的排序结果，计算相同应用程序类型下各自对应的每个偏好值的分位数；分类阈值计算模块，用于依据分位数确定各应用程序类型的分类阈值。

在一个实施例中，上述分位数计算模块包括：概率计算模块和累积概率计算模块。概率计算模块，用于根据偏好值的排序结果，确定各应用程序类型下的每个偏好值在相应排序结果中的出现概率；累积概率计算模块，用于根据出现概率确定各应用程序类型下的每个偏好值的累积概率，得到各应用程序类型下的每个偏好值的分位数。

在一个实施例中，上述分位数获取模块包括：排序数据获取模块和分位数计算模块。排序数据获取模块，用于获取各应用程序类型下的每个偏好值在所处排序结果中的排序位以及各应用程序标识所属应用程序类型对应的排序用户数；分位数计算模块，用于将各应用程序类型下的每个偏好值在所处排序结果中的排序位除以排序用户数，获得各应用程序类型各自对应的每个偏好值的分位数。

在一个实施例中，上述分类阈值计算模块包括：第一筛选模块、差值计算模块以及第二筛选模块。第一筛选模块，用于依据分位数，对应于每个应用程序类型，分别筛选出大于或等于相应预设阈值的分位数；差值计算模块，用于对应于每个应用程序类型，根据筛选出的分位数计算相邻的分位数的差值；第二筛选模块，用于获取对应各应用程序类型计算出的每个最大的差值所对应的分位数，得到各应用程序类型的分类阈值。

在一个实施例中，上述筛选用户标识模块包括：使用记录样本获取模块、分类阈值调整模块和条件筛选模块。使用记录样本获取模块，用于获取已知兴趣标签的用户使用记录样本集；分类阈值调整模块，用于根据用户使用记录样本集，对分类阈值进行调整；条件筛选模块，用于根据用户使用数据集，并按照调整后的分类阈值进行条件筛选，以筛选出用户标识。

在一个实施例中，上述分类阈值调整模块包括：样本用户使用记录集获取模块、样本用户数据集确定模块、样本分位数计算模块、样本用户标识筛选模块、预测兴趣标签生成模块以及查全率计算模块。样本用户使用记录集获取模块，用于根据用户使用记录样本集，对分类阈值进行调整包括：样本用户数据集确定模块，用于根据用户使用记录样本集，按已知兴趣标签确定各样本应用程序类型的样本用户使用数据集，样本使用数据集包括对应的样本用户标识、样本应用程序标识、兴趣标签和样本偏好值；样本分位数计算模块，用于基于各样本应用程序类型的已知标签的样本用户使用数据集，计算各样本应用程序类型的每个样本偏好值的分位数；样本用户标识筛选模块，用于根据已知标签的样本用户使用数据集，按照分类阈值进行条件筛选，以筛选出样本用户标识；预测兴趣标签生成模块，用于依照筛选出的样本用户标识所在样本用户使用数据集的样本应用程序类型所对应的预设兴趣标签，确定筛选出的用户标识所对应的预测兴趣标签；查全率计算模块，用于根据样本用户数据集的预测兴趣标签和已知的相应兴趣标签计算出的每类样本应用程序类型的查全率，调整分类阈值。

在本实施例中，基于在指定时间段内获取的应用程序的用户使用记录集，确定各个应用程序标识对应于用户标识的偏好值，更好的表征用户使用各个应用程序的偏好程度。进一步，通过分析相同应用程序类型下的应用程序标识对应于用户标识所对应的偏好值的整体分布情况，以此确定各应用程序类型的分类阈值，充分考虑了相同应用程序类型下偏好值的整体分布情况，为后续筛选用户标识提供更为准确的筛选依据。再者，将各应用程序类型的用户使用数据集按照对应的分类阈值进行筛选，从而筛选出符合条件的用户标识，提高了生成各行为类型的兴趣标签的准确率。

关于生成兴趣标签的装置的具体限定可以参见上文中对于生成兴趣标签的方法的限定，在此不再赘述。上述生成兴趣标签的装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储用户使用记录集、用户使用数据集、分类阈值数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种生成兴趣标签的方法。

本领域技术人员可以理解，图4中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现以下步骤：获取在指定时间段内应用程序的用户使用记录集，计算每个应用程序标识对应于用户标识所对应的偏好值；用户使用记录集中的用户使用记录包括用户标识和应用程序标识；基于应用程序标识确定应用程序类型，根据相同应用程序类型下的应用程序标识对应于用户标识所对应的偏好值，分别确定各应用程序类型的分类阈值；应用程序类型存在对应的预设兴趣标签；根据基于用户使用记录集确定的各应用程序类型的用户使用数据集，并按照分类阈值进行条件筛选，以筛选出用户标识；依照筛选出的用户标识所在用户使用数据集的应用程序类型所对应的预设兴趣标签，确定筛选出的用户标识所对应的兴趣标签。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：获取每个应用程序标识对应的用户数以及用户使用记录集对应的总用户数；获取与用户标识和应用程序标识对应的使用权重；根据总用户数与用户数的比重以及使用权重，计算每个应用程序标识对应于用户标识所对应的偏好值。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：基于相同应用程序类型下的应用程序标识对应于用户标识所对应的偏好值，将相同应用程序类型各自对应的偏好值按升序进行排序，得到偏好值的排序结果；根据偏好值的排序结果，计算相同应用程序类型下各自对应的每个偏好值的分位数；依据分位数确定各应用程序类型的分类阈值。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：根据偏好值的排序结果，确定各应用程序类型下的每个偏好值在相应排序结果中的出现概率；根据出现概率确定各应用程序类型下的每个偏好值的累积概率，得到各应用程序类型下的每个偏好值的分位数。在一个实施例中，处理器执行计算机程序时还实现以下步骤：获取各应用程序类型下的每个偏好值在所处排序结果中的排序位以及各应用程序标识所属应用程序类型对应的排序用户数；将各应用程序类型下的每个偏好值在所处排序结果中的排序位除以排序用户数，获得各应用程序类型各自对应的每个偏好值的分位数。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：依据分位数，对应于每个应用程序类型，分别筛选出大于或等于相应预设阈值的分位数；对应于每个应用程序类型，根据筛选出的分位数计算相邻的分位数的差值；获取对应各应用程序类型计算出的每个最大的差值所对应的分位数，得到各应用程序类型的分类阈值。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：获取已知兴趣标签的用户使用记录样本集；根据用户使用记录样本集，对分类阈值进行调整；根据用户使用数据集，并按照调整后的分类阈值进行条件筛选，以筛选出用户标识。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：根据用户使用记录样本集，按已知兴趣标签确定各样本应用程序类型的样本用户使用数据集，样本使用数据集包括对应的样本用户标识、样本应用程序标识、兴趣标签和样本偏好值；基于各样本应用程序类型的已知标签的样本用户使用数据集，计算各样本应用程序类型的每个样本偏好值的分位数；根据已知标签的样本用户使用数据集，按照分类阈值进行条件筛选，以筛选出样本用户标识；依照筛选出的样本用户标识所在用户使用数据集的样本应用程序类型所对应的预设兴趣标签，确定筛选出的用户标识所对应的预测兴趣标签；根据样本用户数据集的预测兴趣标签和已知的相应兴趣标签计算出的每类样本应用程序类型的查全率，调整分类阈值。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：获取在指定时间段内应用程序的用户使用记录集，计算每个应用程序标识对应于用户标识所对应的偏好值；用户使用记录集中的用户使用记录包括用户标识和应用程序标识；基于应用程序标识确定应用程序类型，根据相同应用程序类型下的应用程序标识对应于用户标识所对应的偏好值，分别确定各应用程序类型的分类阈值；应用程序类型存在对应的预设兴趣标签；根据基于用户使用记录集确定的各应用程序类型的用户使用数据集，并按照分类阈值进行条件筛选，以筛选出用户标识；依照筛选出的用户标识所在用户使用数据集的应用程序类型所对应的预设兴趣标签，确定筛选出的用户标识所对应的兴趣标签。

在一个实施例中，计算机程序被处理器执行时实现以下步骤：获取每个应用程序标识对应的用户数以及用户使用记录集对应的总用户数；获取与用户标识和应用程序标识对应的使用权重；根据总用户数与用户数的比重以及使用权重，计算每个应用程序标识对应于用户标识所对应的偏好值。

在一个实施例中，计算机程序被处理器执行时实现以下步骤：基于相同应用程序类型下的应用程序标识对应于用户标识所对应的偏好值，将相同应用程序类型各自对应的偏好值按升序进行排序，得到偏好值的排序结果；根据偏好值的排序结果，计算相同应用程序类型下各自对应的每个偏好值的分位数；依据分位数确定各应用程序类型的分类阈值。

在一个实施例中，计算机程序被处理器执行时实现以下步骤：根据偏好值的排序结果，确定各应用程序类型下的每个偏好值在相应排序结果中的出现概率；根据出现概率确定各应用程序类型下的每个偏好值的累积概率，得到各应用程序类型下的每个偏好值的分位数。

在一个实施例中，计算机程序被处理器执行时实现以下步骤：获取各应用程序类型下的每个偏好值在所处排序结果中的排序位以及各应用程序标识所属应用程序类型对应的排序用户数；将各应用程序类型下的每个偏好值在所处排序结果中的排序位除以排序用户数，获得各应用程序类型各自对应的每个偏好值的分位数。

在一个实施例中，计算机程序被处理器执行时实现以下步骤：依据分位数，对应于每个应用程序类型，分别筛选出大于或等于相应预设阈值的分位数；对应于每个应用程序类型，根据筛选出的分位数计算相邻的分位数的差值；获取对应各应用程序类型计算出的每个最大的差值所对应的分位数，得到各应用程序类型的分类阈值。

在一个实施例中，计算机程序被处理器执行时实现以下步骤：获取已知兴趣标签的用户使用记录样本集；根据用户使用记录样本集，对分类阈值进行调整；根据用户使用数据集，并按照调整后的分类阈值进行条件筛选，以筛选出用户标识。

在一个实施例中，计算机程序被处理器执行时实现以下步骤：根据用户使用记录样本集，按已知兴趣标签确定各样本应用程序类型的样本用户使用数据集，样本使用数据集包括对应的样本用户标识、样本应用程序标识、兴趣标签和样本偏好值；基于各样本应用程序类型的已知标签的样本用户使用数据集，计算各样本应用程序类型的每个样本偏好值的分位数；根据已知标签的样本用户使用数据集，按照分类阈值进行条件筛选，以筛选出样本用户标识；依照筛选出的样本用户标识所在用户使用数据集的样本应用程序类型所对应的预设兴趣标签，确定筛选出的用户标识所对应的预测兴趣标签；根据样本用户数据集的预测兴趣标签和已知的相应兴趣标签计算出的每类样本应用程序类型的查全率，调整分类阈值。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

一种生成兴趣标签的方法，其中，所述方法包括：

获取在指定时间段内应用程序的用户使用记录集，计算每个应用程序标识对应于用户标识所对应的偏好值；所述用户使用记录集中的用户使用记录包括用户标识和应用程序标识；

基于应用程序标识确定应用程序类型，根据相同应用程序类型下的应用程序标识对应于用户标识所对应的所述偏好值，分别确定各应用程序类型的分类阈值；所述应用程序类型存在对应的预设兴趣标签；

根据基于所述用户使用记录集确定的各应用程序类型的用户使用数据集，并按照所述分类阈值进行条件筛选，以筛选出用户标识；

依照筛选出的用户标识所在用户使用数据集的应用程序类型所对应的预设兴趣标签，确定筛选出的用户标识所对应的兴趣标签。
根据权利要求1所述的方法，其中，所述用户使用记录集中的用户使用记录还包括使用权重；所述根据在指定时间段内应用程序的用户使用记录集，计算每个应用程序标识对应于用户标识所对应的偏好值包括：

获取每个应用程序标识对应的用户数以及所述用户使用记录集对应的总用户数；

获取与所述用户标识和所述应用程序标识对应的使用权重；

根据所述总用户数与所述用户数的比重以及所述使用权重，计算每个应用程序标识对应于用户标识所对应的偏好值。
根据权利要求1所述的方法，其中，所述根据相同应用程序类型下的应用程序标识对应于用户标识所对应的所述偏好值，分别确定各应用程序类型的分类阈值包括：

基于所述相同应用程序类型下的应用程序标识对应于用户标识所对应的偏好值，将相同应用程序类型各自对应的偏好值按升序进行排序，得到偏好值的排序结果；

根据所述偏好值的排序结果，计算相同应用程序类型下各自对应的每个偏好值的分位数；

依据所述分位数确定各应用程序类型的分类阈值。
根据权利要求3所述的方法，其中，所述根据所述偏好值的排序结果，计算各应用程序类型下各自对应的每个偏好值的分位数包括：

根据所述偏好值的排序结果，确定各应用程序类型下的每个偏好值在相应排序结果中的出现概率；根据所述出现概率确定各应用程序类型下的每个偏好值的累积概率，得到各应用程序类型下的每个偏好值的分位数；或，

获取各应用程序类型下的每个偏好值在所处排序结果中的排序位以及各应用程序标识所属应用程序类型对应的排序用户数；将各应用程序类型下的每个偏好值在所处排序结果中的排序位除以所述排序用户数，获得各应用程序类型各自对应的每个偏好值的分位数。
根据权利要求3所述的方法，其中，所述依据所述分位数确定各应用程序类型的分类阈值包括：

依据所述分位数，对应于每个应用程序类型，分别筛选出大于或等于相应预设阈值的分位数；

对应于每个应用程序类型，根据筛选出的分位数计算相邻的分位数的差值；

获取对应各应用程序类型计算出的每个最大的差值所对应的分位数，得到各应用程序类型的分类阈值。
根据权利要求1所述的方法，其中，所述根据基于所述用户使用记录集确定的各应用程序类型的用户使用数据集，并按照所述分类阈值进行条件筛选，以筛选出用户标识包括：

获取已知兴趣标签的用户使用记录样本集；

根据所述用户使用记录样本集，对所述分类阈值进行调整；

根据所述用户使用数据集，并按照所述调整后的分类阈值进行条件筛选，以筛选出用户标识。
根据权利要求6所述的方法，其中，所述用户使用记录样本集中用户使用记录样本包括样本用户标识、兴趣标签、样本应用程序类型、样本应用程序标识和样本使用权重；

所述根据所述用户使用记录样本集，对所述分类阈值进行调整包括：

根据所述用户使用记录样本集，按所述已知兴趣标签确定各样本应用程序类型的样本用户使用数据集，所述样本使用数据集包括对应的样本用户标识、样本应用程序标识、兴趣标签和样本偏好值；

基于各样本应用程序类型的已知标签的样本用户使用数据集，计算各样本应用程序类型的每个样本偏好值的分位数；

根据所述已知标签的样本用户使用数据集，按照所述分类阈值进行条件筛选，以筛选出样本用户标识；

依照筛选出的样本用户标识所在样本用户使用数据集的样本应用程序类型所对应的预设兴趣标签，确定筛选出的用户标识所对应的预测兴趣标签；

根据所述样本用户数据集的预测兴趣标签和已知的相应兴趣标签计算出的每类样本应用程序类型的查全率，调整所述分类阈值。
一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其中，所述处理器执行所述计算机程序时实现如下步骤：

获取在指定时间段内应用程序的用户使用记录集，计算每个应用程序标识对应于用户标识所对应的偏好值；所述用户使用记录集中的用户使用记录包括用户标识和应用程序标识；

基于应用程序标识确定应用程序类型，根据相同应用程序类型下的应用程序标识对应于用户标识所对应的所述偏好值，分别确定各应用程序类型的分类阈值；所述应用程序类型存在对应的预设兴趣标签；

根据基于所述用户使用记录集确定的各应用程序类型的用户使用数据集，并按照所述分类阈值进行条件筛选，以筛选出用户标识；

依照筛选出的用户标识所在用户使用数据集的应用程序类型所对应的预设兴趣标签，确定筛选出的用户标识所对应的兴趣标签。
根据权利要求8所述的计算机设备，其中，所述用户使用记录集中的用户使用记录还包括使用权重；所述处理器执行所述计算机程序实现所述根据在指定时间段内应用程序的用户使用记录集，计算每个应用程序标识对应于用户标识所对应的偏好值，包括：

获取每个应用程序标识对应的用户数以及所述用户使用记录集对应的总用户数；

获取与所述用户标识和所述应用程序标识对应的使用权重；

根据所述总用户数与所述用户数的比重以及所述使用权重，计算每个应用程序标识对应于用户标识所对应的偏好值。
根据权利要求8所述的计算机设备，其中，所述处理器执行所述计算机程序实现所述根据相同应用程序类型下的应用程序标识对应于用户标识所对应的所述偏好值，分别确定各应用程序类型的分类阈值，包括：

基于所述相同应用程序类型下的应用程序标识对应于用户标识所对应的偏好值，将相同应用程序类型各自对应的偏好值按升序进行排序，得到偏好值的排序结果；

根据所述偏好值的排序结果，计算相同应用程序类型下各自对应的每个偏好值的分位数；

依据所述分位数确定各应用程序类型的分类阈值。
根据权利要求10所述的计算机设备，其中，所述处理器执行所述计算机程序实现所述根据所述偏好值的排序结果，计算各应用程序类型下各自对应的每个偏好值的分位数，包括：

根据所述偏好值的排序结果，确定各应用程序类型下的每个偏好值在相应排序结果中的出现概率；根据所述出现概率确定各应用程序类型下的每个偏好值的累积概率，得到各应用程序类型下的每个偏好值的分位数；或，

获取各应用程序类型下的每个偏好值在所处排序结果中的排序位以及各应用程序标识所属应用程序类型对应的排序用户数；将各应用程序类型下的每个偏好值在所处排序结果中的排序位除以所述排序用户数，获得各应用程序类型各自对应的每个偏好值的分位数。
根据权利要求10所述的计算机设备，其中，所述处理器执行所述计算机程序实现所述依据所述分位数确定各应用程序类型的分类阈值，包括：

依据所述分位数，对应于每个应用程序类型，分别筛选出大于或等于相应预设阈值的分位数；

对应于每个应用程序类型，根据筛选出的分位数计算相邻的分位数的差值；

获取对应各应用程序类型计算出的每个最大的差值所对应的分位数，得到各应用程序类型的分类阈值。
根据权利要求8所述的计算机设备，其中，所述处理器执行所述计算机程序实现所述根据基于所述用户使用记录集确定的各应用程序类型的用户使用数据集，并按照所述分类阈值进行条件筛选，以筛选出用户标识，包括：

获取已知兴趣标签的用户使用记录样本集；

根据所述用户使用记录样本集，对所述分类阈值进行调整；

根据所述用户使用数据集，并按照所述调整后的分类阈值进行条件筛选，以筛选出用户标识。
根据权利要求13所述的计算机设备，其中，所述用户使用记录样本集中用户使用记录样本包括样本用户标识、兴趣标签、样本应用程序类型、样本应用程序标识和样本使用权重；所述处理器执行所述计算机程序实现所述根据所述用户使用记录样本集，对所述分类阈值进行调整，包括：

根据所述用户使用记录样本集，按所述已知兴趣标签确定各样本应用程序类型的样本用户使用数据集，所述样本使用数据集包括对应的样本用户标识、样本应用程序标识、兴趣标签和样本偏好值；

基于各样本应用程序类型的已知标签的样本用户使用数据集，计算各样本应用程序类型的每个样本偏好值的分位数；

根据所述已知标签的样本用户使用数据集，按照所述分类阈值进行条件筛选，以筛选出样本用户标识；

依照筛选出的样本用户标识所在样本用户使用数据集的样本应用程序类型所对应的预设兴趣标签，确定筛选出的用户标识所对应的预测兴趣标签；

根据所述样本用户数据集的预测兴趣标签和已知的相应兴趣标签计算出的每类样本应用程序类型的查全率，调整所述分类阈值。
一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现如下步骤：

获取在指定时间段内应用程序的用户使用记录集，计算每个应用程序标识对应于用户标识所对应的偏好值；所述用户使用记录集中的用户使用记录包括用户标识和应用程序标识；

基于应用程序标识确定应用程序类型，根据相同应用程序类型下的应用程序标识对应于用户标识所对应的所述偏好值，分别确定各应用程序类型的分类阈值；所述应用程序类型存在对应的预设兴趣标签；

根据基于所述用户使用记录集确定的各应用程序类型的用户使用数据集，并按照所述分类阈值进行条件筛选，以筛选出用户标识；

依照筛选出的用户标识所在用户使用数据集的应用程序类型所对应的预设兴趣标签，确定筛选出的用户标识所对应的兴趣标签。
根据权利要求15所述的计算机可读存储介质，其中，所述用户使用记录集中的用户使用记录还包括使用权重；所述计算机程序被处理器执行实现所述根据在指定时间段内应用程序的用户使用记录集，计算每个应用程序标识对应于用户标识所对应的偏好值，包括：

获取每个应用程序标识对应的用户数以及所述用户使用记录集对应的总用户数；

获取与所述用户标识和所述应用程序标识对应的使用权重；

根据所述总用户数与所述用户数的比重以及所述使用权重，计算每个应用程序标识对应于用户标识所对应的偏好值。
根据权利要求15所述的计算机可读存储介质，其中，所述计算机程序被处理器执行时实现所述根据相同应用程序类型下的应用程序标识对应于用户标识所对应的所述偏好值，分别确定各应用程序类型的分类阈值，包括：

基于所述相同应用程序类型下的应用程序标识对应于用户标识所对应的偏好值，将相同应用程序类型各自对应的偏好值按升序进行排序，得到偏好值的排序结果；

根据所述偏好值的排序结果，计算相同应用程序类型下各自对应的每个偏好值的分位数；

依据所述分位数确定各应用程序类型的分类阈值。
根据权利要求17所述的计算机可读存储介质，其中，所述计算机程序被处理器执行时实现所述根据所述偏好值的排序结果，计算各应用程序类型下各自对应的每个偏好值的分位数，包括：

根据所述偏好值的排序结果，确定各应用程序类型下的每个偏好值在相应排序结果中的出现概率；根据所述出现概率确定各应用程序类型下的每个偏好值的累积概率，得到各应用程序类型下的每个偏好值的分位数；或，

获取各应用程序类型下的每个偏好值在所处排序结果中的排序位以及各应用程序标识所属应用程序类型对应的排序用户数；将各应用程序类型下的每个偏好值在所处排序结果中的排序位除以所述排序用户数，获得各应用程序类型各自对应的每个偏好值的分位数。
根据权利要求17所述的计算机可读存储介质，其中，所述计算机程序被处理器执行时实现所述依据所述分位数确定各应用程序类型的分类阈值，包括：

依据所述分位数，对应于每个应用程序类型，分别筛选出大于或等于相应预设阈值的分位数；

对应于每个应用程序类型，根据筛选出的分位数计算相邻的分位数的差值；

获取对应各应用程序类型计算出的每个最大的差值所对应的分位数，得到各应用程序类型的分类阈值。
根据权利要求15所述的计算机可读存储介质，其中，所述计算机程序被处理器执行时实现所述根据基于所述用户使用记录集确定的各应用程序类型的用户使用数据集，并按照所述分类阈值进行条件筛选，以筛选出用户标识，包括：

获取已知兴趣标签的用户使用记录样本集；

根据所述用户使用记录样本集，对所述分类阈值进行调整；

根据所述用户使用数据集，并按照所述调整后的分类阈值进行条件筛选，以筛选出用户标识。