WO2021027595A1

WO2021027595A1 - 用户画像生成方法、装置、计算机设备和计算机可读存储介质

Info

Publication number: WO2021027595A1
Application number: PCT/CN2020/106222
Authority: WO
Inventors: 郭凌峰
Original assignee: 深圳壹账通智能科技有限公司
Priority date: 2019-08-14
Filing date: 2020-07-31
Publication date: 2021-02-18
Also published as: CN110674144A

Abstract

一种用户画像生成方法，涉及大数据技术领域，包括：获取画像分析请求携带的待分析用户的APP数据信息，并读取APP数据信息中各APP的特征数据以及各APP的使用频次数据（S100），构建包括各特征数据的APP特征数据集，遍历APP特征数据集，得到每一APP的特征数据在APP特征数据集中的共现数据（S200），获取APP与标签信息的关联数据库，从关联数据库中查找APP数据信息中的各APP对应的标签信息，并将各APP的共现数据和使用频次数据添加至APP对应的标签信息，得到更新标签（S400），根据各更新标签中的共现数据和使用频次数据，对各更新标签进行去重处理，基于去重处理后的标签，生成待分析用户的用户画像（S500）。

Description

用户画像生成方法、装置、计算机设备和计算机可读存储介质

相关申请的交叉引用

本申请要求于2019年8月14日提交中国专利局，申请号为2019107479147，申请名称为“用户画像生成方法、装置、计算机设备和存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及本申请涉及大数据技术领域，特别是涉及一种用户画像生成方法、装置、计算机设备和计算机可读存储介质。

背景技术

随着信息技术的发展，出现了用户画像分析技术，用户画像是客观、准确地描述目标用户的工具和方法。在大数据时代背景下，用户信息充斥在网络中，将用户的每个具体信息抽象成标签，利用这些标签将用户形象具体化，从而为用户提供有针对性的服务。

在实际操作的过程中往往会以最为浅显和贴近生活的话语将用户的属性、行为与期待联结起来。作为实际用户的虚拟代表，用户画像所形成的用户角色并不是脱离产品和市场之外所构建出来的，形成的用户角色具有代表性，用户画像是真实用户的虚拟代表，是根据目标的行为观点的差异区分为不同类型，迅速组织在一起，然后把新得出的类型提炼出来，形成一个类型的用户画像。

然而，发明人意识到，大部分用户画像的生成方法采用关键词提取方法来生成用户标签，在针对仅有较少的用户数据的情况下，尤其在通过用户的APP(Application，应用程序)数据进行画像分析时，采用关键字提取的方法进行用户画像分析，存在生成用户画像的精确度较低的问题。

发明内容

根据本申请公开的各种实施例，提供一种用户画像生成方法、装置、计算机设备和计算机可读存储介质。

一种用户画像生成方法，方法包括：

获取画像分析请求携带的待分析用户的APP数据信息，并读取APP数据信息中各APP的特征数据以及各APP的使用频次数据；

构建包括各特征数据的APP特征数据集，遍历APP特征数据集，得到每一APP的特征数据在APP特征数据集中的共现数据；

获取APP与标签信息的关联数据库，获取从关联数据库中查找APP数据信息中的各 APP对应的标签信息，并将APP的共现数据和使用频次数据添加至APP对应的标签信息，得到更新标签；及

根据各更新标签中的共现数据和使用频次数据，对各更新标签进行去重处理，基于去重处理后的标签，生成待分析用户的用户画像。

一种用户画像生成装置，装置包括：

数据读取模块，用于获取画像分析请求携带的待分析用户的APP数据信息，并读取APP数据信息中各APP的特征数据以及各APP的使用频次数据；

共现数据获得模块，用于构建包括各特征数据的APP特征数据集，遍历APP特征数据集，得到每一APP的特征数据在APP特征数据集中的共现数据；

标签更新模块，用于获取APP与标签信息的关联数据库，从关联数据库中查找APP数据信息中的各APP对应的标签信息，并将APP的共现数据和使用频次数据添加至APP对应的标签信息，得到更新标签；及

用户画像生成模块，用于根据各更新标签中的共现数据和使用频次数据，对各更新标签进行去重处理，基于去重处理后的标签，生成待分析用户的用户画像。

一种计算机设备，包括存储器和一个或多个处理器，存储器中储存有计算机可读指令，计算机可读指令被处理器执行时，使得一个或多个处理器执行以下步骤：

获取APP与标签信息的关联数据库，从关联数据库中查找APP数据信息中的各APP对应的标签信息，并将APP的共现数据和使用频次数据添加至APP对应的标签信息，得到更新标签；及

一个或多个存储有计算机可读指令的计算机可读存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行以下步骤：

上述用户画像生成方法、装置、计算机设备和计算机可读存储介质，基于画像分析请求携带的待分析用户的APP数据信息，读取APP数据信息中各APP的特征数据以及各APP的使用频次数据，构建包括各特征数据的APP特征数据集，遍历APP特征数据集，得到每一APP的特征数据在APP特征数据集中的共现数据，获取APP与标签信息的关联数据库，从关联数据库中查找APP数据信息中的各APP对应的标签信息，可以更好的通过标签来表征用户使用应用的偏好特性，即使待分析用户的APP数量较少的情况下，也可以根据待分析用户的APP数据信息，获取到相对应的标签信息，并且，通过共现数据分析，并将各APP的共现数据和使用频次数据添加至标签信息，得到更新标签，更精准地表征用户的特征信息，得到待分析用户的用户画像，提高了生成的用户画像的精确度。

本申请的一个或多个实施例的细节在下面的附图和描述中提出。本申请的其它特征和优点将从说明书、附图以及权利要求书变得明显。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为根据一个或多个实施例中用户画像生成方法的应用场景图；

图2为根据一个或多个实施例中用户画像生成方法的流程示意图；

图3为另一个实施例中用户画像生成方法的流程示意图；

图4为又一个实施例中用户画像生成方法的流程示意图；

图5为再一个实施例中用户画像生成方法的流程示意图；

图6为还一个实施例中用户画像生成方法的流程示意图；

图7为根据一个或多个实施例中用户画像生成装置的框图；

图8为根据一个或多个实施例中计算机设备的框图。

具体实施方式

为了使本申请的技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的用户画像生成方法，可以应用于如图1所示的应用环境中。终端102与服务器104通过网络进行通信。服务器104获取终端102发送的画像分析请求中携带的待分析用户的APP数据信息，并读取APP数据信息中各APP的特征数据以及各APP的使用频次数据，构建包括各特征数据的APP特征数据集，遍历APP特征数据集，得到每一APP的特征数据在APP特征数据集中的共现数据，获取APP与标签信息的关联数据库，从关联数据库中查找APP数据信息中的各APP对应的标签信息，并将各APP的共现数据和使用频次数据添加至该APP对应标签信息，得到更新标签，根据各更新标签中的共现数据和使用频次数据，对各更新标签进行去重处理，基于去重处理后的标签，生成待分析用户的用户画像，并将用户画像推送至终端102。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在其中一个实施例中，如图2所示，提供了一种用户画像生成方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤S100，获取画像分析请求携带的待分析用户的APP数据信息，并读取APP数据信息中各APP的特征数据以及各APP的使用频次数据。

待分析用户是指根据用户的已有数据信息，例如用户在使用手机等设备时产生的APP数据信息，通过已有数据信息进行分析，获得表征用户特性的特征标签的数据分析对象。其中，APP数据信息可以是指用户在移动设备上安装或使用应用程序时生成的数据，APP数据信息包括用户安装有哪些APP，以及每个APP的使用情况。

在其中一个实施例中，APP数据信息包括行为日志数据；读取APP数据信息中各APP的特征数据以及各APP的使用频次数据包括：从行为日志数据中获取用户使用APP时产生的操作数据、数据类型变化信息、数据存储位置与类型中的一项或多项日志记录，得到各APP的特征数据；从行为日志数据中获取APP触发记录数据，得到各APP的使用频次数据。

APP的特征数据包括用户在使用APP时产生的操作数据，数据类型变化，数据存储位置与类型等，特征数据可以是其中的一项或是多项的组合，通过获取用户的行为日志数据，可以得到特征数据。举例来说，用户的移动设备上安装有“美图秀秀”和“天天P图”，其中，“美图秀秀”和“天天P图”的特征数据可以包括“打开相机”、“打开图库/相册”、“图片编辑”以及“图片存储”等。使用频次数据是指用户触发APP，并产生触发记录的记录数据，用户使用一次APP，APP数据信息即生成一次使用记录数据，用户触发APP的次数越多，对应出现的使用记录数据即使用频次越高。

步骤S200，构建包括各特征数据的APP特征数据集，遍历APP特征数据集，得到每一APP的特征数据在APP特征数据集中的共现数据。

APP特征数据集是指用户安装的所有APP的特征数据构成的数据库，服务器在读取APP数据信息中各APP的特征数据时，由各APP的特征数据构成的数据集。

特征数据在不同APP中的共现数据是指在用户安装的所有APP中，出现具有相同特征数据的APP次数，例如，用户安装有“美图秀秀”和“天天P图”APP，这两个APP的特征数据相同，则该特征数据的共现数据为2。共现数据对应的数值越大，说明用户使用同一类APP的次数越多。

步骤S400，获取APP与标签信息的关联数据库，从关联数据库中查找APP数据信息中的各APP对应的标签信息，并将各APP的共现数据和使用频次数据添加至该APP对应的标签信息，得到更新标签。

APP与标签信息的关联数据库是指预先通过大量的样本数据的特征分析，得到具有代表性的特征标签与APP之间的关联关系的数据库。一般来说，各用户使用的移动终端上安装或使用的应用程序，会存在一定的共性，例如，女性用户一般会安装或使用“美柚”等记录生理期数据的相关APP；处于怀孕或育儿阶段的用户一般会安装或使用“贝贝”、宝宝树、“孕育管家”等APP；喜欢自拍的用户一般会安装或使用“美图秀秀”、“天天P图”等APP；喜欢玩游戏的用户一般会安装各类游戏APP，通过对具有相同的习惯特征的样本用户进行APP数据信息分析，得到各APP与标签信息的关联关系，从而构建得到APP与标签信息的关联数据库。获取APP与标签信息的关联数据库，从关联数据库中查找APP数据信息中的各到各个APP对应的标签信息，关联数据库中的各标签信息为初始标签信息，包含用户的特征信息，通过将将各APP的共现数据和使用频次数据添加至标签信息，得到携带有共现数据和使用频次数据的更新标签，在实施例中，共现数据和使用频次数据可以转换为比重数据，以使更新标签可以表征各初始标签信息对于描述用户特征的重用程度。

步骤S500，根据各更新标签中的共现数据和使用频次数据，对各更新标签进行去重处理，基于去重处理后的标签，生成待分析用户的用户画像。

用户画像是真实用户的虚拟代表，首先它是基于真实的，它不是一个具体的人，是根据目标的行为观点的差异区分为不同类型，迅速组织在一起，然后把新得出的类型提炼出来，形成一个类型的用户画像。通过共现数据和使用频次数据的更新标签，可以根据标签信息的共现数据和使用频次数据以及标签内容，形成用于描述用户特征的用户画像，共现数据和使用频次数据对应的比重数据越大，对于描述用户特性的影响越大。

上述用户画像生成方法，基于画像分析请求携带的待分析用户的APP数据信息，读取APP数据信息中各APP的特征数据以及各APP的使用频次数据，构建包括各特征数据的APP特征数据集，遍历APP特征数据集，得到每一APP的特征数据在APP特征数据集中的共现数据，获取APP与标签信息的关联数据库，从关联数据库中查找APP数据信息中的各APP对应的标签信息，可以更好的通过标签来表征用户使用应用的偏好特性，即使待分析用户的APP数量较少的情况下，也可以根据待分析用户的APP数据信息，获取到相对应的标签信息，并且，通过共现数据分析，并将各APP的共现数据和使用频次数据添加至标签信息，得到更新标签，更精准地表征用户的特征信息，得到待分析用户的用户画像，提高了生成的用户画像的精确度。

在其中一个实施例中，如图3所示，步骤S400，将各APP的共现数据和使用频次数据添加至标签信息，得到更新标签包括：

步骤S420，根据特征数据的共现数据和APP特征数据集的APP数量，计算特征数据对应的加权参数。

步骤S440，根据APP的特征数据对应的加权参数，对APP的使用频次数据进行加权计算，获得APP的比重数据。

步骤S460，将比重数据添加至标签信息，得到更新标签。

以特征数据A为例，包括特征数据A的APP为A1，A2，A3，则特征数据A的共现数据为3，该用户的APP的特征数据还包括B、C、D，特征数据A、B、C、D对应的共现数据分别为3、4、1、2，特征数据A、B、C、D对应的占比为0.3、0.4、0.1、0.2。从APP数据信息中得，所有APP的使用频次累计为1000，其中A1的使用频次为20，A2的使用频次为30，A3的使用频次为50，A1、A2以及A3分别占总的使用频次的比例为0.02、0.03、0.05，可通过计算得到，A1、A2以及A3对应的权重数据为0.06、0.09、0.15。

在其中一个实施例中，如图4所示，步骤S400，获取APP与标签信息的关联数据库，从关联数据库中查找APP数据信息中的各APP对应的标签信息，并将各APP的共现数据和使用频次数据添加至APP对应的标签信息，得到更新标签之前，还包括：

步骤S320，获取样本用户携带的标签信息，根据标签信息对样本用户进行分类，获得多个用户分类集合。

步骤S340，获取用户分类集合中各样本用户对应的APP数据信息，根据APP数据信息，确定各样本用户的共性APP，并建立共性APP与标签信息的关联关系。

步骤S360，根据关联关系，将标签信息和共性APP更新至初始数据库中，得到APP与标签信息的关联数据库。

样本用户是指已经明确用户身份信息和对应的APP数据信息的用户，用于通过众多样本用户进行分析，获得各应用对应使用人群特征的相关规则，从而实现通过对APP数据信息的分析来获得用户画像。样本的标签信息是指通过用户身份信息进行提取的具有群体共性特征的信息，例如性别、年龄段、学历、行业等。分类处理是指将携带有相同的样本标签的样本用户归为一个分类集合的过程，同一个分类集合中的各个样本用户具有相同的样本标签信息，各样本用户具有一定的相似性。如处于怀孕或育儿阶段的用户一般会安装或使用“贝贝”、“宝宝树”、“孕育管家”等APP；喜欢自拍的用户一般会安装或使用“美图秀秀”、“天天P图”等APP，同一类的APP的安装和使用数据，可以反映用户的习惯特征。如，用户分类集合的样本标签信息为“学生”，对应的APP数据信息可能包括安装或使用过“作业帮”、“小猿搜题”、“学霸君”、“拍照搜题”等APP，通过将该写APP标记为共性APP，从而建立“学生”这一标签信息与上述学生相关的共性APP的关联关系，并将标签信息和共性APP更新至初始数据库中，得到APP与标签信息的关联数据库。

在其中一个实施例中，获取样本用户携带的标签信息包括：获取样本用户的用户基本信息；根据用户基本信息，提取用户特征数据，将用户特征数据标注为样本用户的标签信息。

具体来说，样本用户的标签信息的获得过程可以包括：根据样本用户的用户基本信息，提取用户特征数据，将提取的用户特征数据标注为样本用户的标签信息。其中，用户基本信息可以包括用户已有的各项信息，比如用户的基本属性(年龄、性别、地域、星座等)、社会特征(家庭结构、婚姻状况等)、兴趣特征(兴趣爱好、互动内容等)以及根据不同场合需要的其它行为、消费以及购买力特征等。用户特征数据可以包括从用户基本信息中提取出来的具有群体共性特征的信息，包括性别、年龄阶段、学历、工作类型、婚姻以及子女状况等。标签信息是指通过对特征数据进行简化后的数据，例如，其中一个样本用户的标签信息可以包括“男”、“硕士学历”、“有车”、“已婚”、“有孩子”、“玩游戏”等。

在其中一个实施例中，根据标签信息对样本用户进行分类，获得多个用户分类集合包括：根据样本用户携带的标签信息，生成多个标签组，标签组包含单个标签或多个同类标签或多个不同类标签构成的集合，基于标签组中包含的标签信息和各样本用户的标签信息，得到各标签组对应的样本用户，根据各标签组对应的样本用户，得到多个用户分类集合。

对样本用户进行分类的过程可以包括：获取样本用户携带的标签信息，生成多个标签组，标签组可以包含单个标签或多个同类标签，也可以包含多个不同类标签构成的集合，以标签组中包含的标签信息为依据，通过遍历各样本用户的标签信息，获取各标签组对应的样本用户，从而得到多个分类集合。举例来说，标签组可以是“女”，也可以是“妈妈”、“孕妇”等多个同类标签构成的组合，还可以是“玩游戏”、“程序员”、“20-30岁”等多个不同类标签构成的组合。

在其中一个实施例中，如图5所示，步骤S100，获取画像分析请求携带的待分析用户的APP数据信息，并读取APP数据信息中各APP的特征数据以及各APP的使用频次数据包括：

步骤S110，获取画像分析请求携带的待分析用户的APP数据信息。

步骤S120，读取APP数据信息中的使用频次数据，根据使用频次数据的数值大小对各APP进行排序，生成APP列表。

步骤S130，对APP数据信息中使用频次数据不满足预设使用频次要求的各APP进行筛选，并根据筛选结果更新APP列表。

步骤S140，读取更新的APP列表中各APP的特征数据和各APP的使用频次数据。

APP列表是指通过对APP进行统计和排序得到的结果，APP数据信息中包括每一个APP的每一次使用记录数据，根据统计得到各个APP的使用频次数据，根据使用频次数据的数值大小对各APP进行排序，生成APP列表，具体包括：根据数值从大到小的顺序直接对各APP进行排序，也可以根据特征数据，对包含同一类特征数据的APP进行排序。使用频次数据不满足预设使用频次要求的各APP是指去除数据中的干扰数据的数据清洗过程，例如APP闪退等原因造成APP打开失败的数据，用户点击进入APP但并未执行任何操作即关闭后台等情况的数据等，这类数据对于用户的特征评价并不存在实际的评价意义，通过对APP的筛选和数据清洗，更新APP列表，可以增加数据的准确性。

在其中一个实施例中，步骤S140，读取更新的APP列表中各APP的特征数据和各 APP的使用频次数据之后，还包括：根据更新的APP列表中各APP的特征数据，构建包含相同特征数据的同类APP集合。

将各APP的共现数据和使用频次数据添加至标签信息，得到更新标签包括：根据共现数据，对同类APP集合进行初次排序和筛选处理。根据筛选后的同类APP集合中各APP的使用频次数据，对同类APP集合中的各APP进行二次排序，并筛选出使用频次数据大于预设阈值范围的APP。根据各同类APP集合的筛选结果，构建目标APP集合。将目标APP集合中各目标APP对应的特征数据的共现数据和使用频次数据添加至目标APP对应标签信息，获得与各目标APP对应的更新标签。

包含相同特征数据的APP相似度较高，可以表征同样的用户特征，根据进行数据清洗后更新的APP列表，根据APP的特征数据，构建同类APP集合，将相似度高的APP归为同一类，对各类APP集合进行共现数据统计，对APP集合进行初次排序，通过筛选处理确定用户对各类APP的偏好程度，进而对同类APP中的各个APP进行二次排序，根据两次排序的结果，明确用户对APP类别的喜好以及各类别中不同APP的喜好程度，从而构建得到目标APP集合，将目标APP集合中各目标APP对应的特征数据的共现数据和使用频次数据添加至标签信息，获得与各目标APP对应的更新标签。

在其中一个实施例中，如图6所示，步骤S500，根据携带有权重数据的标签信息，生成待分析用户的用户画像包括：

步骤S520，根据更新标签的数量，对每一更新标签进行权重比例分配，并对标签内容相同的更新标签进行标签去重处理。

步骤S540，根据权重比例分配结果，对经过标签去重处理后的更新标签进行比重数据更新，得到二次更新标签。

步骤S560，根据二次更新标签，生成待分析用户的用户画像。

权重比例分配是指按照用户移动设备中的经过筛选处理后的有效APP数量，进行比例分配的过程，如用户的移动设备中的有效APP数量为20，则每一个APP对应的权重比例为1/20。标签去重是指对相同的标签进行去除的过程，比重数据更新是根据重复的标签数量及其对应的权重比例，进行权重数据的叠加处理的过程，例如，标签信息为“游戏”的APP包括5个，标签信息对应的比重数据为五个APP对应比重数据与权重比例分配结果融合后的数据叠加，从而对经过标签去重处理后的标签信息进行比重数据更新，得到二次更新标签。

应该理解的是，虽然图2-6的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-6中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或其它步骤的子步骤或阶段的至少一部分轮流或者交替地执行。

在其中一个实施例中，如图7所示，提供了一种用户画像生成装置，包括：

数据读取模块100，用于获取画像分析请求携带的待分析用户的APP数据信息，并读取APP数据信息中各APP的特征数据以及各APP的使用频次数据。

共现数据获得模块200，用于构建包括各特征数据的APP特征数据集，遍历APP特征数据集，得到每一APP的特征数据在APP特征数据集中的共现数据。

标签更新模块300，用于获取APP与标签信息的关联数据库，从关联数据库中查找APP数据信息中的各APP对应的标签信息，并将各APP的共现数据和使用频次数据添加至APP对应的标签信息，得到更新标签。

用户画像生成模块400，用于根据各更新标签中的共现数据和使用频次数据，对各更新标签进行去重处理，基于去重处理后的标签，生成待分析用户的用户画像。

在其中一个实施例中，标签更新模块300，包括：

加权参数计算单元，根据特征数据的共现数据和APP特征数据集的APP数量，计算特征数据对应的加权参数。

比重数据计算单元，用于根据APP的特征数据对应的加权参数，对APP的使用频次数据进行加权计算，获得APP的比重数据。

标签更新单元，用于将比重数据添加至标签信息，得到更新标签。

在其中一个实施例中，APP数据信息包括行为日志数据；数据读取模块100，还用于从行为日志数据中获取用户使用APP时产生的操作数据、数据类型变化信息、数据存储位置与类型中的一项或多项日志记录，得到各APP的特征数据；从行为日志数据中获取APP触发记录数据，得到各APP的使用频次数据。

在其中一个实施例中，用户画像生成装置还包括关联数据库构建模块，用于获取样本用户携带的标签信息，根据标签信息对样本用户进行分类，获得多个用户分类集合，获取用户分类集合中各样本用户对应的APP数据信息，根据APP数据信息，确定各样本用户的共性APP，并建立共性APP与标签信息的关联关系，根据关联关系，将标签信息和共性APP更新至初始数据库中，得到APP与标签信息的关联数据库。

在其中一个实施例中，关联数据库构建模块，还用于获取样本用户的用户基本信息；根据用户基本信息，提取用户特征数据；将用户特征数据标注为样本用户的标签信息。

在其中一个实施例中，关联数据库构建模块，还用于根据样本用户携带的标签信息，生成多个标签组，标签组包含单个标签或多个同类标签或多个不同类标签构成的集合；基于标签组中包含的标签信息和各样本用户的标签信息，得到各标签组对应的样本用户；根据各标签组对应的样本用户，得到多个用户分类集合。

在其中一个实施例中，数据读取模块100，还用于获取画像分析请求携带的待分析用户的APP数据信息，读取APP数据信息中的使用频次数据，根据使用频次数据的数值大小对各APP进行排序，生成APP列表，对APP数据信息中使用频次数据不满足预设使用频次要求的各APP进行筛选，并根据筛选结果更新APP列表，读取更新的APP列表中各 APP的特征数据和各APP的使用频次数据。

在其中一个实施例中，数据读取模块100，还用于根据更新的APP列表中各APP的特征数据，构建包含相同特征数据的同类APP集合；标签更新模块300，还用于根据共现数据，对同类APP集合进行初次排序筛选处理，根据筛选后的同类APP集合中各APP的使用频次数据，对同类APP集合中的各APP进行二次排序，并筛选出使用频次数据大于预设阈值范围的APP，根据各同类APP集合的筛选结果，构建目标APP集合，将目标APP集合中各目标APP对应的特征数据的共现数据和使用频次数据添加至目标APP对应标签信息，获得与各目标APP对应的更新标签。

在其中一个实施例中，用户画像生成模块400，还用于根据更新标签的数量，对每一更新标签进行权重比例分配，并对标签内容相同的更新标签进行标签去重处理，根据权重比例分配结果，对经过标签去重处理后的更新标签进行比重数据更新，得到二次更新标签，根据二次更新标签，生成待分析用户的用户。

上述用户画像生成装置，基于画像分析请求携带的待分析用户的APP数据信息，读取APP数据信息中各APP的特征数据以及各APP的使用频次数据，构建包括各特征数据的APP特征数据集，遍历APP特征数据集，得到每一APP的特征数据在APP特征数据集中的共现数据，获取APP与标签信息的关联数据库，从关联数据库中查找APP数据信息中的各APP对应的标签信息，可以更好的通过标签来表征用户使用应用的偏好特性，即使待分析用户的APP数量较少的情况下，也可以根据待分析用户的APP数据信息，获取到相对应的标签信息，并且，通过共现数据分析，并将各APP的共现数据和使用频次数据添加至标签信息，得到更新标签，更精准地表征用户的特征信息，得到待分析用户的用户画像，提高了生成的用户画像的精确度。

关于用户画像生成装置的具体限定可以参见上文中对于用户画像生成方法的限定，在此不再赘述。上述用户画像生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应操作。

在其中一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性或易失性存储介质、内存储器。该非易失性或易失性存储介质存储有操作系统、计算机可读指令和数据库。该内存储器为非易失性存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的数据库用于存储用户画像数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种用户画像生成方法。

本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

获取APP与标签信息的关联数据库，从关联数据库中查找APP数据信息中的各APP对应的标签信息，并将各APP的共现数据和使用频次数据添加至APP对应的标签信息，得到更新标签；及

在其中一个实施例中，处理器执行计算机可读指令时还实现以下步骤：

根据特征数据的共现数据和APP特征数据集的APP数量，计算特征数据对应的加权参数；

根据APP的特征数据对应的加权参数，对APP的使用频次数据进行加权计算，获得APP的比重数据；及

将比重数据添加至标签信息，得到更新标签。

在其中一个实施例中，APP数据信息包括行为日志数据；处理器执行计算机可读指令时还实现以下步骤：

从行为日志数据中获取用户使用APP时产生的操作数据、数据类型变化信息、数据存储位置与类型中的一项或多项日志记录，得到各APP的特征数据；及

从行为日志数据中获取APP触发记录数据，得到各APP的使用频次数据。

获取样本用户携带的标签信息，根据标签信息对样本用户进行分类，获得多个用户分类集合；

获取用户分类集合中各样本用户对应的APP数据信息，根据APP数据信息，确定各样本用户的共性APP，并建立共性APP与标签信息的关联关系；及

根据关联关系，将标签信息和共性APP更新至初始数据库中，得到APP与标签信息的关联数据库。

获取样本用户的用户基本信息；

根据用户基本信息，提取用户特征数据；及

将用户特征数据标注为样本用户的标签信息。

根据样本用户携带的标签信息，生成多个标签组，标签组包含单个标签或多个同类标签或多个不同类标签构成的集合；

基于标签组中包含的标签信息和各样本用户的标签信息，得到各标签组对应的样本用户；及

根据各标签组对应的样本用户，得到多个用户分类集合。

获取画像分析请求携带的待分析用户的APP数据信息；

读取APP数据信息中的使用频次数据，根据使用频次数据的数值大小对各APP进行排序，生成APP列表；

对APP数据信息中使用频次数据不满足预设使用频次要求的各APP进行筛选，并根据筛选结果更新APP列表；及

读取更新的APP列表中各APP的特征数据和各APP的使用频次数据。

根据更新的APP列表中各APP的特征数据，构建包含相同特征数据的同类APP集合；

根据共现数据，对同类APP集合进行初次排序和筛选处理；

根据筛选后的同类APP集合中各APP的使用频次数据，对同类APP集合中的各APP进行二次排序，并筛选出使用频次数据大于预设阈值范围的APP；

根据各同类APP集合的筛选结果，构建目标APP集合；及

将目标APP集合中各目标APP对应的特征数据的共现数据和使用频次数据添加至目标APP对应标签信息，获得与各目标APP对应的更新标签。

根据更新标签的数量，对每一更新标签进行权重比例分配，并对标签内容相同的更新标签进行标签去重处理；

根据权重比例分配结果，对经过标签去重处理后的更新标签进行比重数据更新，得到二次更新标签；及

根据二次更新标签，生成待分析用户的用户画像。

其中，该计算机可读存储介质可以是非易失性，也可以是易失性的。

在其中一个实施例中，计算机可读指令被处理器执行时还实现以下步骤：

将比重数据添加至标签信息，得到更新标签。

在其中一个实施例中，APP数据信息包括行为日志数据；计算机可读指令被处理器执行时还实现以下步骤：

获取样本用户的用户基本信息；

根据用户基本信息，提取用户特征数据；及

将用户特征数据标注为样本用户的标签信息。

根据各标签组对应的样本用户，得到多个用户分类集合。

获取画像分析请求携带的待分析用户的APP数据信息；

根据共现数据，对同类APP集合进行初次排序和筛选处理；

根据各同类APP集合的筛选结果，构建目标APP集合；及

根据二次更新标签，生成待分析用户的用户画像。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，的计算机可读指令可存储于一计算机可读取存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

一种用户画像生成方法，所述方法包括：

获取画像分析请求携带的待分析用户的APP数据信息，并读取所述APP数据信息中各APP的特征数据以及各APP的使用频次数据；

构建包括各特征数据的APP特征数据集，遍历所述APP特征数据集，得到每一APP的特征数据在所述APP特征数据集中的共现数据；

获取APP与标签信息的关联数据库，从所述关联数据库中查找所述APP数据信息中的各APP对应的标签信息，并将所述APP的共现数据和使用频次数据添加至所述APP对应的标签信息，得到更新标签；及

根据各更新标签中的共现数据和使用频次数据，对各更新标签进行去重处理，基于去重处理后的标签，生成所述待分析用户的用户画像。
根据权利要求1所述的方法，其中，所述将所述APP的共现数据和使用频次数据添加至所述APP对应的标签信息，得到更新标签包括：

根据所述特征数据的共现数据和所述APP特征数据集的APP数量，计算所述特征数据对应的加权参数；

根据所述APP的特征数据对应的加权参数，对所述APP的使用频次数据进行加权计算，获得所述APP的比重数据；及

将所述比重数据添加至所述标签信息，得到更新标签。
根据权利要求1所述的方法，其中，所述APP数据信息包括行为日志数据；

所述读取所述APP数据信息中各APP的特征数据以及各APP的使用频次数据包括：

从所述行为日志数据中获取用户使用APP时产生的操作数据、数据类型变化信息、数据存储位置与类型中的一项或多项日志记录，得到各APP的特征数据；及

从所述行为日志数据中获取APP触发记录数据，得到各APP的使用频次数据。
根据权利要求1所述的方法，其中，所述获取APP与标签信息的关联数据库包括：

获取样本用户携带的标签信息，根据所述标签信息对所述样本用户进行分类，获得多个用户分类集合；

获取所述用户分类集合中各所述样本用户对应的APP数据信息，根据所述APP数据信息，确定各所述样本用户的共性APP，并建立所述共性APP与所述标签信息的关联关系；及

根据所述关联关系，将所述标签信息和所述共性APP更新至初始数据库中，得到所述APP与标签信息的关联数据库。
根据权利要求4所述的方法，其中，所述获取样本用户携带的标签信息包括：

获取样本用户的用户基本信息；

根据所述用户基本信息，提取用户特征数据；及

将所述用户特征数据标注为所述样本用户的标签信息。
根据权利要求4所述的方法，其中，所述根据所述标签信息对所述样本用户进行分类，获得多个用户分类集合包括：

根据所述样本用户携带的标签信息，生成多个标签组，标签组包含单个标签或多个同类标签或多个不同类标签构成的集合；

基于所述标签组中包含的标签信息和各样本用户的标签信息，得到各标签组对应的样本用户；及

根据各标签组对应的样本用户，得到多个用户分类集合。
根据权利要求1所述的方法，其中，所述获取画像分析请求携带的待分析用户的APP数据信息，并读取所述APP数据信息中各APP的特征数据以及各APP的使用频次数据包括：

获取画像分析请求携带的待分析用户的APP数据信息；

读取所述APP数据信息中的使用频次数据，根据所述使用频次数据的数值大小对各所述APP进行排序，生成APP列表；

对所述APP数据信息中所述使用频次数据不满足预设使用频次要求的各APP进行筛选，并根据筛选结果更新所述APP列表；及

读取更新的APP列表中各APP的特征数据和各APP的使用频次数据。
根据权利要求7所述的方法，其中，在所述读取更新的APP列表中各APP的特征数据和各APP的使用频次数据之后，所述方法还包括：

根据所述更新的APP列表中各APP的特征数据，构建包含相同所述特征数据的同类APP集合；

所述将所述APP的共现数据和使用频次数据添加至所述APP对应标签信息，得到更新标签包括：

根据所述共现数据，对所述同类APP集合进行初次排序和筛选处理；

根据筛选后的同类APP集合中各所述APP的使用频次数据，对所述同类APP集合中的各APP进行二次排序，并筛选出所述使用频次数据大于预设阈值范围的APP；

根据各同类APP集合的筛选结果，构建目标APP集合；及

将所述目标APP集合中各目标APP对应的特征数据的共现数据和使用频次数据添加至所述目标APP对应标签信息，获得与各所述目标APP对应的更新标签。
根据权利要求8所述的方法，其中，所述根据所述各更新标签中的共现数据和使用频次数据，对各更新标签进行去重处理，基于去重处理后的标签，生成所述待分析用户的用户画像包括：

根据所述更新标签的数量，对每一更新标签进行权重比例分配，并对标签内容相同的所述更新标签进行标签去重处理；

根据权重比例分配结果，对经过所述标签去重处理后的更新标签进行比重数据更新，得到二次更新标签；及

根据所述二次更新标签，生成所述待分析用户的用户画像。
一种用户画像生成装置，其中，所述装置包括：

数据读取模块，用于获取画像分析请求携带的待分析用户的APP数据信息，并读取所述APP数据信息中各APP的特征数据以及各APP的使用频次数据；

共现数据获得模块，用于构建包括各特征数据的APP特征数据集，遍历APP特征数据集，得到每一APP的特征数据在所述APP特征数据集中的共现数据；

标签更新模块，用于获取APP与标签信息的关联数据库，从所述关联数据库中查找所述APP数据信息中的各APP对应的标签信息，并将所述APP的共现数据和使用频次数据添加至所述APP对应的标签信息，得到更新标签；及

用户画像生成模块，用于根据所述各更新标签中的共现数据和使用频次数据，对各更新标签进行去重处理，基于去重处理后的标签，生成所述待分析用户的用户画像。
一种计算机设备，包括存储器及一个或多个处理器，所述存储器中储存有计算机可读指令，所述计算机可读指令被所述一个或多个处理器执行时，使得所述一个或多个处理器执行以下步骤：

获取画像分析请求携带的待分析用户的APP数据信息，并读取所述APP数据信息中各APP的特征数据以及各APP的使用频次数据；

构建包括各特征数据的APP特征数据集，遍历所述APP特征数据集，得到每一APP的特征数据在所述APP特征数据集中的共现数据；

获取APP与标签信息的关联数据库，从所述关联数据库中查找所述APP数据信息中的各APP对应的标签信息，并将所述APP的共现数据和使用频次数据添加至所述APP对应的标签信息，得到更新标签；及

根据各更新标签中的共现数据和使用频次数据，对各更新标签进行去重处理，基于去重处理后的标签，生成所述待分析用户的用户画像。
根据权利要求11所述的计算机设备，其中，所述处理器执行所述计算机可读指令时还执行以下步骤：

根据所述特征数据的共现数据和所述APP特征数据集的APP数量，计算所述特征数据对应的加权参数；

根据所述APP的特征数据对应的加权参数，对所述APP的使用频次数据进行加权计算，获得所述APP的比重数据；及

将所述比重数据添加至所述标签信息，得到更新标签。
根据权利要求11所述的计算机设备，其中，所述处理器执行所述计算机可读指令时还执行以下步骤：

获取画像分析请求携带的待分析用户的APP数据信息；

读取所述APP数据信息中的使用频次数据，根据所述使用频次数据的数值大小对各所述APP进行排序，生成APP列表；

对所述APP数据信息中所述使用频次数据不满足预设使用频次要求的各APP进行筛选，并根据筛选结果更新所述APP列表；及

读取更新的APP列表中各APP的特征数据和各APP的使用频次数据。
根据权利要求13所述的计算机设备，其中，所述处理器执行所述计算机可读指令时还执行以下步骤：

根据所述更新的APP列表中各APP的特征数据，构建包含相同所述特征数据的同类APP集合；

根据所述共现数据，对所述同类APP集合进行初次排序和筛选处理；

根据筛选后的同类APP集合中各所述APP的使用频次数据，对所述同类APP集合中的各APP进行二次排序，并筛选出所述使用频次数据大于预设阈值范围的APP；

根据各同类APP集合的筛选结果，构建目标APP集合；及

将所述目标APP集合中各目标APP对应的特征数据的共现数据和使用频次数据添加至所述目标APP对应标签信息，获得与各所述目标APP对应的更新标签。
根据权利要求14所述的计算机设备，其中，所述处理器执行所述计算机可读指令时还执行以下步骤：

根据所述更新标签的数量，对每一更新标签进行权重比例分配，并对标签内容相同的所述更新标签进行标签去重处理；

根据权重比例分配结果，对经过所述标签去重处理后的更新标签进行比重数据更新，得到二次更新标签；及

根据所述二次更新标签，生成所述待分析用户的用户画像。
一个或多个存储有计算机可读指令的计算机可读存储介质，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行以下步骤：

获取画像分析请求携带的待分析用户的APP数据信息，并读取所述APP数据信息中各APP的特征数据以及各APP的使用频次数据；

构建包括各特征数据的APP特征数据集，遍历所述APP特征数据集，得到每一APP的特征数据在所述APP特征数据集中的共现数据；

获取APP与标签信息的关联数据库，从所述关联数据库中查找所述APP数据信息中的各APP对应的标签信息，并将所述APP的共现数据和使用频次数据添加至所述APP对应的标签信息，得到更新标签；及

根据各更新标签中的共现数据和使用频次数据，对各更新标签进行去重处理，基于去重处理后的标签，生成所述待分析用户的用户画像。
根据权利要求16所述的计算机设备，其中，所述处理器执行所述计算机可读指令时还执行以下步骤：

根据所述特征数据的共现数据和所述APP特征数据集的APP数量，计算所述特征数据对应的加权参数；

根据所述APP的特征数据对应的加权参数，对所述APP的使用频次数据进行加权计算，获得所述APP的比重数据；及

将所述比重数据添加至所述标签信息，得到更新标签。
根据权利要求167所述的计算机可读存储介质，其中，所述计算机可读指令被所述处理器执行时还执行以下步骤：

获取画像分析请求携带的待分析用户的APP数据信息；

读取所述APP数据信息中的使用频次数据，根据所述使用频次数据的数值大小对各所述APP进行排序，生成APP列表；

对所述APP数据信息中所述使用频次数据不满足预设使用频次要求的各APP进行筛选，并根据筛选结果更新所述APP列表；及

读取更新的APP列表中各APP的特征数据和各APP的使用频次数据。
根据权利要求18所述的计算机可读存储介质，其中，所述计算机可读指令被所述处理器执行时还执行以下步骤：

根据所述更新的APP列表中各APP的特征数据，构建包含相同所述特征数据的同类APP集合；

根据所述共现数据，对所述同类APP集合进行初次排序和筛选处理；

根据筛选后的同类APP集合中各所述APP的使用频次数据，对所述同类APP集合中的各APP进行二次排序，并筛选出所述使用频次数据大于预设阈值范围的APP；

根据各同类APP集合的筛选结果，构建目标APP集合；及

将所述目标APP集合中各目标APP对应的特征数据的共现数据和使用频次数据添加至所述目标APP对应标签信息，获得与各所述目标APP对应的更新标签。
根据权利要求19所述的计算机可读存储介质，其中，所述计算机可读指令被所述处理器执行时还执行以下步骤：

根据所述更新标签的数量，对每一更新标签进行权重比例分配，并对标签内容相同的所述更新标签进行标签去重处理；

根据权重比例分配结果，对经过所述标签去重处理后的更新标签进行比重数据更新，得到二次更新标签；及

根据所述二次更新标签，生成所述待分析用户的用户画像。