WO2022033199A1

WO2022033199A1 - 一种获得用户画像的方法及相关装置

Info

Publication number: WO2022033199A1
Application number: PCT/CN2021/102604
Authority: WO
Inventors: 王伟佳; 陈鑫; 闫肃; 张旭; 林乐宇
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2020-08-14
Filing date: 2021-06-28
Publication date: 2022-02-17
Also published as: CN111898031B; US20220405607A1; CN111898031A

Abstract

本申请实施例提供了一种获得用户画像的方法及相关装置，涉及人工智能技术领域，该方法包括：获取目标用户的用户特征向量和目标应用中多媒体内容的内容标签的标签特征向量，然后根据用户特征向量与标签特征向量之间的相似度，确定目标用户的备选标签，进而基于备选标签确定目标用户的用户画像。相较于基于标签统计获得用户画像来说，用户特征向量更能全面表征用户喜好，从而提升获得的用户标签的准确性，进而提高获得的用户画像的准确性。其次，获得的备选标签不仅是目标用户的历史行为数据中的标签，还可以历史行为数据之外的标签，从而提高了泛化能力，扩展了目标用户的兴趣，使获得的用户画像更加全面准确。

Description

一种获得用户画像的方法及相关装置

本申请要求于2020年8月14日提交中国专利局、申请号202010820059.0、申请名称为“一种获得用户画像的方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明实施例涉及计算机领域，尤其涉及用户画像技术。

背景技术

个性化推荐系统是互联网的核心技术之一，其基于用户行为与兴趣为用户推荐感兴趣的内容。用户画像，即用户信息结构化与标签化，通过刻画用户的人口属性、社会属性、兴趣偏好等各个维度的数据，对用户各方面的信息进行精准地刻画、分析，挖掘潜在价值，从而更好地提升个性化推荐的效果。

目前在构建用户画像时，先从用户行为数据中抽取画像标签，对用户行为数据中涉及的画像标签进行简单的统计，按照频次对每个用户的画像标签进行打分，即频次越高、分数越高，之后再根据画像标签的打分获得用户画像。对于冷启动用户来说，由于用户行为数据较少，导致基于画像标签统计获得的用户画像的准确性较低，进而影响到根据用户画像进行的相关业务的精准度。

发明内容

本申请实施例提供了一种获得用户画像的方法及装置，用于提高获得的用户画像的准确性，并进一步提高内容推荐的精准度。

一方面，本申请实施例提供了一种获得用户画像的方法，该方法包括：

根据目标用户的属性信息以及历史行为数据确定所述目标用户的用户特征向量；

获取目标应用中多媒体内容的内容标签的标签特征向量；

根据所述用户特征向量与所述标签特征向量之间的相似度，从所述多媒体内容的内容标签中确定所述目标用户的备选标签；

基于所述目标用户的备选标签确定所述目标用户的用户画像。

一方面，本申请实施例提供了一种用户画像模型的训练方法，该方法包括：

采用待训练的用户画像模型和训练样本进行多次迭代训练，获得用户画像模型，所述训练样本包括样本多媒体内容和样本用户的用户特征，每次迭代训练包括：

提取样本用户的用户特征的特征向量和样本多媒体内容的内容标签的标签特征向量；

对所述样本用户的用户特征的特征向量进行层级嵌入处理，获得所述样本用户的用户特征向量；

对所述标签特征向量进行层级嵌入处理，获得所述样本多媒体内容的内容特征向量；

基于所用户特征向量与所述内容特征向量之间的关联度，调整所述待训练的用户画像模型的参数。

一方面，本申请实施例提供了一种获得用户画像的装置，该装置包括：

第一特征提取模块，用于根据目标用户的属性信息以及历史行为数据确定所述目标用户的用户特征向量；

第二特征提取模块，用于获取目标应用中多媒体内容的内容标签的标签特征向量；

匹配模块，用于根据所述用户特征向量与所述标签特征向量之间的相似度，从所述多媒体内容的内容标签中确定所述目标用户的备选标签；

处理模块，用于基于所述目标用户的备选标签确定所述目标用户的用户画像。

一方面，本申请实施例提供了一种用户画像模型的训练装置，该装置包括：

模型训练模块，用于采用待训练的用户画像模型和训练样本进行多次迭代训练，获得用户画像模型，所述训练样本包括样本多媒体内容和样本用户的用户特征，每次迭代训练包括：

基于所述用户特征向量与所述内容特征向量之间的关联度，调整所述待训练的用户画像模型的参数。

一方面，本申请实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述获得用户画像的方法的步骤，或者上述用户画像模型的训练方法的步骤。

一方面，本申请实施例提供了一种计算机可读存储介质，其存储有可由计算机设备执行的计算机程序，当所述程序在计算机设备上运行时，使得所述计算机设备执行上述获得用户画像的方法的步骤，或者上述用户画像模型的训练方法的步骤。

本申请实施例中，根据目标用户的属性信息以及历史行为数据确定目标用户的用户特征向量，用户特征向量并不仅仅表征用户的历史行为以及属性，同时表征基于用户的历史行为和属性确定的用户喜好，故相较于基于标签统计获得的用户画像来说，根据目标用户的用户特征向量与标签特征向量之间的相似度，确定的目标用户的备选标签更能表征用户喜好，从而提升获得的用户画像的准确性。其次，将用户特征向量与标签特征向量匹配获得备选标签时，备选标签并不仅仅是目标用户的历史行为数据中的标签，还可以是历史行为数据之外的标签，从而提高了泛化能力，扩展了目标用户的兴趣，使获得的用户画像更加全面准确，进而提高内容推荐的准确度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种系统架构图；

图2为本申请实施例提供的一种获得用户画像的方法的流程示意图；

图3为本申请实施例提供的一种获得用户特征向量的方法的流程示意图；

图4为本申请实施例提供的一种获得用户特征向量的方法的流程示意图；

图5为本申请实施例提供的一种用户画像模型的结构示意图；

图6为本申请实施例提供的一种用户画像模型的结构示意图；

图7为本申请实施例提供的一种用户画像模型的结构示意图；

图8为本申请实施例提供的一种获得内容特征向量的方法的流程示意图；

图9为本申请实施例提供的一种获得内容特征向量的方法的流程示意图；

图10为本申请实施例提供的一种内容推荐页面的示意图；

图11为本申请实施例提供的一种内容推荐页面的示意图；

图12为本申请实施例提供的一种内容推荐页面的示意图；

图13为本申请实施例提供的一种用户画像模型的结构示意图；

图14为本申请实施例提供的一种获得用户画像的装置的结构示意图；

图15为本申请实施例提供的一种内容推荐装置的结构示意图；

图16为本申请实施例提供的一种用户画像模型的训练装置的结构示意图；

图17为本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

为了方便理解，下面对本发明实施例中涉及的名词进行解释。

在本申请实施例中，通过人工智能技术确定目标用户的用户特征向量和目标应用中多媒体内容的内容标签的标签特征向量，并基于用户特征向量和多媒体内容的内容标签的标签特征向量，确定目标用户的备选标签，进而根据备选标签确定目标用户的用户画像。

在本申请实施例中，通过人工智能技术中具体的机器学习模型或者算法确定目标用户的用户特征向量和目标应用中多媒体内容的内容标签的标签特征向量。注意力机制：模仿了生物观察行为的内部过程，即一种将内部经验和外部感觉对齐从而增加部分区域的观察精细度的机制，简单地说就是从大量信息中快速筛选出高价值信息。这种机制主要有两个方面：决定需要关注输入的哪部分；分配有限的信息处理资源给重要的部分。在神经网络中，基于注意力机制可以使得神经网络具备专注于其输入(或特征)子集的能力，选择特定的输入。在本申请实施例中，基于注意力机制将目标用户在多个特征域中的用户特征进行融合，确定目标用户的用户特征向量。

用户画像：用户画像是根据用户社会属性、生活习惯和消费行为等信息抽象出的一个标签化的用户模型。构建用户画像的核心工作即是给用户贴“标签”，而标签是通过对用户信息分析得来的高度精炼的特征标识。

下面对本申请实施例的设计思想进行介绍。

目前在构建用户画像时，先从用户行为数据中抽取画像标签，对用户行为数据中涉及的画像标签进行简单的统计，按照频次对每个用户的画像标签进行打分，即频次越高、分数越高，之后再根据画像标签的打分获得用户画像。对于冷启动用户来说，由于用户行为数据较少，用户的画像标签可能都只出现过一次或两次，故基于画像标签出现的频次对画像进行打分时，画像标签的分数不具备代表性，从而导致根据画像标签打分获得的用户画像准确性较低，同时不能获得用户行为数据之外的用户标签。进而导致基于用户画像向用户推荐内容时，可能推荐用户不喜欢的内容，从而影响用户体验。

考虑到用户的喜好可能体现在用户的属性信息和行为数据中，故综合用户的属性信息和行为数据获得的用户特征可以较好地表征用户喜好，当基于用户特征匹配用户标签时，获得的用户标签与用户喜好相关，且不仅限于用户已有行为数据中的标签。鉴于此，本申请实施例提供了一种获得用户画像的方法，该方法包括：根据目标用户的属性信息以及历史行为数据确定目标用户的用户特征向量，获取目标应用中多媒体内容的内容标签的标签特征向量。然后根据用户特征向量与标签特征向量之间的相似度，从多媒体内容的内容标签中确定目标用户的备选标签。基于目标用户的备选标签确定目标用户的用户画像。

该方法相较于基于标签统计获得用户画像来说，用户特征向量更能全面表征用户喜好，从而提升获得的用户标签的准确性，进而提高获得的用户画像的准确性。其次，获得的备选标签不仅是目标用户的历史行为数据中的标签，还可以是历史行为数据之外的标签，从而提高了泛化能力，扩展了目标用户的兴趣，使获得的用户画像更加全面准确，进而提高内容推荐的准确度。

在介绍完本申请实施例的设计思想之后，下面对本申请实施例的技术方案能够适用的应用场景做一些简单介绍，需要说明的是，以下介绍的应用场景仅用于说明本申请实施例而非限定。在具体实施时，可以根据实际需要灵活地应用本申请实施例提供的技术方案。

场景一、文档推荐场景。

以多媒体内容是文档为例，在向目标用户推荐文档时，内容推荐设备先获取目标用户的属性信息以及历史行为数据，其中，目标用户的属性信息包括性别、年龄、地点等，历史行为数据包括目标用户在目标应用中的历史行为数据，和/或目标用户在目标应用之外的其他应用中的历史行为数据，比如目标用户在目标应用和/或目标应用之外的其他应用中点击的文档的主题、文档类目、文档中包含的内容标签等。获取目标应用中多篇文档的内容标签的标签特征向量，然后根据目标用户的用户特征向量与标签特征向量之间的相似度，从多篇文档的内容标签中确定目标用户的备选标签，基于目标用户的备选标签确定目标用户的用户画像。之后再根据用户画像向目标用户推荐目标应用中的文档。

场景二、广告推荐场景。

以多媒体内容是广告为例，在向目标用户推荐广告时，内容推荐设备先获取目标用户的属性信息以及历史行为数据，其中，目标用户的属性信息包括性别、年龄、地点等，历史行为数据包括目标用户在目标应用中的历史行为数据，和/或目标用户在目标应用之外的其他应用中的历史行为数据，比如目标用户在目标应用和/或目标应用之外的其他应用中点击的广告的主题、广告类目、广告中包含的内容标签等。获取目标应用中多个广告的内容标签的标签特征向量，然后根据目标用户的用户特征向量与标签特征向量之间的相似度，从多个广告的内容标签中确定目标用户的备选标签，基于目标用户的备选标签确定目标用户的用户画像。之后再根据用户画像向目标用户推荐目标应用中的广告。

需要说明的是，本申请实施例中的获得用户画像的方法并不仅限于应用在上述两种实施场景，还可以是音频推荐、视频推荐、商品推荐、外卖信息推荐、读书推荐、新闻推荐、小程序中的内容推荐等场景，对此，本申请不做具体限定。

参考图1，其为本申请实施例提供的获得用户画像的方法的系统架构图。该架构至少包括终端设备101以及服务器102。

终端设备101中可以安装有目标应用，其中，目标应用可以是客户端应用、网页版应用、小程序应用等。目标用户的属性信息可以从目标用户在目标应用中的注册信息中获取，目标用户的历史行为数据可以从目标应用和/或目标应用之外的其他应用的历史记录中获取。终端设备101可以包括一个或多个处理器1011、存储器1012、与埋点服务器103交互的I/O接口1013以及显示面板1014等。终端设备101可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。

服务器102可以是目标应用的后台服务器，为目标应用提供相应的服务，服务器102可以包括一个或多个处理器1021、存储器1022以及与终端设备101交互的I/O接口1023等。此外，服务器102还可以配置数据库1024。服务器102可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备101与服务器102可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

获得用户画像的装置可以是终端设备101，也可以是服务器102。

第一种情况，获得用户画像的装置是终端设备101。

终端设备101从服务器102中获取目标用户的属性信息以及历史行为数据，然后根据目标用户的属性信息以及历史行为数据确定所述目标用户的用户特征向量。终端设备101获取目标应用中多媒体内容的内容标签的标签特征向量，然后根据目标用户的用户特征向量与标签特征向量之间的相似度，从多媒体内容的内容标签中确定目标用户的备选标签。之后再基于目标用户的备选标签确定目标用户的用户画像。目标用户在终端设备101安装的目标应用中触发内容推荐时，目标应用根据目标用户的用户画像从服务器102中获取推荐给目标用户的多媒体内容并展示。

第二种情况，获得用户画像的装置是服务器102。

服务器102根据目标用户的属性信息以及历史行为数据确定目标用户的用户特征向量，获取目标应用中多媒体内容的内容标签的标签特征向量。然后根据目标用户的用户特征向量与标签特征向量之间的相似度，从多媒体内容的内容标签中确定目标用户的备选标签。之后再基于目标用户的备选标签确定目标用户的用户画像。目标用户在终端设备101安装的目标应用中触发内容推荐时，目标应用通过终端设备101发送内容推荐请求至服务器102。服务器102根据目标用户的用户画像，从数据库中获取推荐给目标用户的多媒体内容，并将推荐给目标用户的多媒体内容发送给终端设备101，终端设备101在目标应用中展示推荐给目标用户的多媒体内容。

基于图1所示的系统架构图，本申请实施例提供了一种获得用户画像的方法的流程，如图2所示，该方法的流程可以由计算机设备执行，该计算机设备可以是图1所示的终端设备101或服务器102，包括以下步骤：

步骤S201，根据目标用户的属性信息以及历史行为数据确定目标用户的用户特征向量。

目标用户的属性信息可以从目标用户在目标应用中的注册信息中获取，目标用户的属性信息至少包括两类信息：

第一类为数值类，即用数字描述的信息，比如年龄、出生年月日、账号注册时间等。

第二类为文本类，即用文本描述的信息，比如性别可选的是男或女，地点可选的是北京、上海等地点。

目标用户的历史行为数据包括目标用户在目标应用中的历史行为数据，和/或目标用户在目标应用之外的其他应用中的历史行为数据。行为数据包括操作事件以及操作对象的属性信息，操作事件可以是点击、浏览、收藏、评论等，操作对象的属性信息可以是主题、类目、标签等。

步骤S202，获取目标应用中多媒体内容的内容标签的标签特征向量。

多媒体内容可以是文本信息、音频、视频等，一个多媒体内容可能对应一个或多个内容标签。比如，一篇关于足球比赛的新闻对应的内容标签包括：体育、足球、XX足球队等。在本实施例中，多媒体内容的数量可以是一个，也可以是多个，本实施例对此不做限定。

步骤S203，根据用户特征向量与标签特征向量之间的相似度，从多媒体内容的内容标签中确定目标用户的备选标签。

在一种可能的实现方式中，可以预先设置相似度阈值，确定目标用户的用户特征向量与每个标签特征向量之间的相似度，将相似度大于相似度阈值的标签特征向量确定为匹配标签向量，之后再将匹配标签向量对应的内容标签确定为目标用户的备选标签。

也可以预先设置备选标签数量阈值，确定目标用户的用户特征向量与每个标签特征向量之间的相似度，按照相似度从大到小的顺序进行排序，将排在前P位的标签特征向量对应的内容标签确定为目标用户的备选标签，其中，P为备选标签数量阈值。

本实施例中所使用的多媒体内容可以是目标应用中所有的多媒体内容，也可以是目标应用中部分多媒体内容。

步骤S204，基于目标用户的备选标签确定目标用户的用户画像。

当目标用户的备选标签中存在重复的标签时，或者目标用户的备选标签与目标用户已有的标签之间存在重复的标签时，可以去除重复的标签。

另外，预先可以设置标签数量的上限值，当目标用户的备选标签与目标用户已有的标签之和超过上限值时，可以根据目标用户的用户特征向量与标签特征向量之间的相似度，对备选标签和目标用户已有的标签按照相似度从大到小的顺序进行排序，保留排在前N位的标签，其中，N为标签数量的上限值。

也可以统计去重之前每个标签出现的频次，然后对备选标签和目标用户已有的标签按照频次从大到小的顺序进行排序，保留排在前N位的标签，其中，N为标签数量的上限值。

本申请实施例中，获取目标用户的用户特征向量和目标应用中多媒体内容的内容标签的标签特征向量，然后根据用户特征向量与标签特征向量之间的相似度，确定目标用户的备选标签，进而基于备选标签确定目标用户的用户画像。相较于基于标签统计获得用户画像来说，用户特征向量更能全面表征用户喜好，从而提升获得的用户标签的准确性，进而提高获得的用户画像的准确性。其次，获得的备选标签不仅是目标用户的历史行为数据中的标签，还可以历史行为数据之外的标签，从而提高了泛化能力，扩展了目标用户的兴趣，使获得的用户画像更加全面准确，进而提高内容推荐的准确度。

在一种可能的实现方式中，在步骤S201中，在获得目标用户的用户特征向量时，先根据目标用户的属性信息以及历史行为数据，确定目标用户在多个特征域中的用户特征，然后通过用户画像模型，提取每个特征域内的用户特征的特征向量，并对每个特征域内的用户特征的特征向量进行层级嵌入处理，确定目标用户的用户特征向量。

其中，特征域为表征用户特征的特征维度，各个特征域中用户特征可以完全不同，也可以部分相同。用户特征具体可以是性别、年龄、地址、职位等属性信息，也可以是从历史行为数据获取的标签、类目、主题等信息。用户画像模型是基于样本用户的用户特征向量与样本多媒体内容的内容特征向量之间的关联度训练得到的，样本多媒体内容的内容特征向量是对样本多媒体内容的内容标签的标签特征向量进行层级嵌入处理后获得的，样本用户的用户特征向量是对样本用户的用户特征的特征向量进行层级嵌入处理后获得的。通过用户画像模型，对每个特征域内的用户特征进行embedding(嵌入)处理，获得用户特征的特征向量。用户画像模型可以是深度神经网络模型(Deep Neural Network，简称DNN)、Transformer模型等模型。

示例性地，目标用户的属性信息包括性别、年龄、地址、职位。目标用户的历史行为数据为目标用户在目标应用之外的其他应用中的历史行为数据，具体为目标用户在视频应用A中的历史行为数据、目标用户在音频应用B中的历史行为数据以及目标用户在购物应用C中的历史行为数据。

实施方式一，预先设置7个特征域，分别为第一特征域至第七特征域，其中，性别为第一特征域中的用户特征，年龄为第二特征域中的用户特征，地址为第三特征域中的用户特征，职位为第四特征域中的用户特征，从视频应用A的历史行为数据中获取标签、类目、主题等信息作为第五特征域中的用户特征，从音频应用B的历史行为数据中获取标签、类目、主题等信息作为第六特征域中的用户特征，从购物应用C的历史行为数据中获取标签、类目、主题等信息作为第七特征域中的用户特征。

实施方式二，预先设置5个特征域，分别为第一特征域至第五特征域，其中，性别为第一特征域中的用户特征，年龄为第二特征域中的用户特征，地址为第三特征域中的用户特征，职位为第四特征域中的用户特征，从视频应用A的历史行为数据、音频应用B的历史行为数据以及购物应用C的历史行为数据中获取标签、类目、主题等信息作为第五特征域中的用户特征。

实施方式三，预先设置4个特征域，分别为第一特征域至第四特征域，其中，性别、年龄、地址以及职位为第一特征域中的用户特征，从视频应用A的历史行为数据中获取标签作为第二特征域中的用户特征，从音频应用B的历史行为数据中获取标签、类目、主题等信息作为第三特征域中的用户特征，从购物应用C的历史行为数据中获取标签、类目、主题等信息作为第四特征域中的用户特征。

实施方式四，预先设置2个特征域，分别为第一特征域和第二特征域，其中，性别、年龄、地址以及职位为第一特征域中的用户特征，从视频应用A的历史行为数据、音频应用B的历史行为数据以及购物应用C的历史行为数据中获取标签、类目、主题等信息作为第二特征域中的用户特征。

需要说明的是，特征域划分的实施方式并不仅限于上述四种，还可以其他实施方式，对此，本申请不做具体限定。另外，在获取目标用户的用户特征向量时，也可以直接对目标用户的属性信息以及历史行为数据进行特征提取，确定目标用户的用户特征向量，对此，本申请不做具体限定。

本申请实施例中，根据目标用户的属性信息以及历史行为数据，确定目标用户在多个特征域中的用户特征，从多个维度表征用户特征，从而提高基于用户特征确定的目标用户的用户特征向量的准确度。

需要说明的是，本申请实例在提取每个特征域内的用户特征的特征向量之后，对每个特征域内的用户特征的特征向量进行层级嵌入处理，确定目标用户的用户特征向量时，本申请至少包括以下几种实施方式：

实施方式一、将每个特征域内的用户特征的特征向量进行融合，获得每个特征域的域内特征向量，然后将多个特征域的域内特征向量进行融合，获得目标用户的用户特征向量。

例如，可以将每个特征域内的用户特征的特征向量加权求和，获得每个特征域的域内特征向量，具体符合下述公式(1)：

其中，

为特征域t的域内特征向量，α _x为域内融合时特征向量

的权重，H为特征域内的特征向量数量的上限值，不同特征域内的特征向量数量的上限值可以是不相同的。

域内融合时特征向量

的权重α _x可以采用公式(2)获得，公式(2)具体如下所示：

其中，α _x为域内融合时特征向量

的权重，

为域内融合时的语义向量，W _t为特征域t的空间变换矩阵，

为偏置向量。需要说明的是，在具体实施中，每个特征域中的语义向量

可以是相同的，也可以是不同的。每个特征域中的空间变换矩阵和偏置向量是不相同的，域内融合时的权重是在训练用户画像模型时采用注意力机制学习获得的。

然后，将多个特征域的域内特征向量加权求和，获得目标用户的用户特征向量，具体符合下述公式(3)：

其中，

为目标用户的用户特征向量，β _t为域间融合时域内特征向量

的权重，N为特征域的数量。

域间融合时域内特征向量

的权重β _t可以采用公式(4)获得，公式(4)具体如下所示：

其中，β _t为域间融合时域内特征向量

的权重，

为域间融合时的语义向量，W _t为特征域t的空间变换矩阵，

为偏置向量。域间融合时的权重是在训练用户画像模型时采用注意力机制学习获得的。

需要说明的是，对用户特征的特征向量进行域内融合和域间融合的方法并不仅限于上述加权求和的方法，也可以是直接相加的方法，还可以是域内融合和域间融合中一个采用加权求和的方法，另一个采用直接相加的方法，对此，本申请不做具体限定。

示例性地，如图3所示，预先设置5个特征域，分别为第一特征域至第五特征域，其中，性别为第一特征域中的用户特征，年龄为第二特征域中的用户特征，职位为第三特征域中的用户特征，从视频应用A的历史行为数据中获取标签、类目、主题作为第四特征域中的用户特征，从音频应用B的历史行为数据中获取标签、类目、主题作为第五特征域中的用户特征。

提取每个特征域内的用户特征的特征向量，其中，第一特征域中的特征向量为性别特征向量，第二特征域中的特征向量为年龄特征向量，第三特征域中的特征向量为职位特征向量，第四特征域中的特征向量包括标签特征向量、类目特征向量、主题特征向量。第五特征域中的特征向量包括标签特征向量、类目特征向量、主题特征向量。

由于第一特征域、第二特征域和第三特征域中都只有一个特征向量，故可以不进行域内融合。采用上述公式(1)将第四特征域中的标签特征向量、类目特征向量、主题特征向量进行加权求和，获得第四特征域的域内特征向量，采用上述公式(1)将第五特征域中的标签特征向量、类目特征向量、主题特征向量进行加权求和，获得第五特征域的域内特征向量。

采用上述公式(2)将第一特征域的性别特征向量、第二特征域的年龄特征向量、第三特征域的职位特征向量、第四特征域的域内特征向量以及第五特征域的域内特征向量进行域间融合，获得目标用户的用户特征向量。

实施方式二、将目标用户在多个特征域中的用户特征的特征向量进行融合，获得目标用户的用户特征向量。

在一种可能的实现方式中，可以采用加权求和的方式将目标用户在多个特征域中的用户特征的特征向量进行融合，获得目标用户的用户特征向量，加权求和时每个特征向量的权重可以在训练用户画像模型时采用注意力机制学习获得。也可以采用直接相加的方式将目标用户在多个特征域中的用户特征的特征向量进行融合，获得目标用户的用户特征向量。

示例性地，如图4所示，预先设置5个特征域，分别为第一特征域至第五特征域，其中，性别为第一特征域中的用户特征，年龄为第二特征域中的用户特征，职位为第三特征域中的用户特征，从视频应用A的历史行为数据中获取标签、类目、主题作为第四特征域中的用户特征，从音频应用B的历史行为数据中获取标签、类目、主题作为第五特征域中的用户特征。

将第一特征域中的性别特征向量、第二特征域中的年龄特征向量、第三特征域中的职位特征向量、第四特征域中的标签特征向量、类目特征向量、主题特征向量以及第四特征域中的标签特征向量、类目特征向量、主题特征向量进行加权求和，获得目标用户的用户特征向量，每个特征向量对应的权重是在训练用户画像模型时采用注意力机制学习获得的。

通过融合目标用户在多个特征域中特征向量，获得用户特征向量，使用户特征向量能更加全面的表征用户特征，进而有效提高基于用户特征向量匹配用户标签的准确度。

在步骤S202中，在获得多媒体内容的内容标签的标签特征向量时，先确定目标应用中多媒体内容中的每个多媒体内容在多个标签域中的内容标签，然后通过用户画像模型，提取每个标签域中的内容标签的标签特征向量。

其中，标签域为表征多媒体内容的标签维度，不同的标签域所表征的标签维度不同，各个标签域中用户标签可能完全不同，也可能部分相同。标签域可以是内容标签域、类目标签域、主题标签域、公众号标签域等。通过用户画像模型对每个标签域中的内容标签进行embedding处理，获得每个标签域中的内容标签的标签特征向量。

示例性地，预先设置5个标签域，分别为内容标签域、一级类目标签域、二级类目标签域、主题标签域和公众号标签域。

以目标应用中的一条体育新闻举例来说，设定该体育新闻描述了一场足球比赛，参赛队伍为M队和N队。从该条新闻中获取的内容标签包括：体育、足球、M队、N队，将获取的内容标签作为内容标签域中的标签。该条新闻对应的一级类目为体育，则将内容标签“体育”作为一级类目标签域中的标签。该条新闻对应的二级类目为足球，则将内容标签“足球”作为二级类目标签域中的标签。该条新闻的内容精要为足球赛事，则将内容标签“足球”作为主题标签域中的标签。该条新闻来源于Q体育公众号，则将Q体育公众号作为公众号标签域中的标签。其他多媒体内容也可以采用相同的方式确定在各个标签域中的内容标签，此处不再赘述。

本申请实施例中，预先设置多个标签域表征多媒体内容中的标签，便于后续为目标用户匹配多个维度的内容标签，从而提高了用户画像的准确性。

需要说明的是，标签域划分的实施方式并不仅限于上述举例的一种，还可以是内容标签域、类目标签域、主题标签域、公众号标签域中部分标签域的组合，对此，本申请不做具体限定。另外，本申请中也可以不设置标签域，直接从多媒体内容中获取内容标签，然后对多媒体内容的内容标签进行特征提取，确定内容标签的标签特征向量，对此，本申请不做具体限定。

在本申请实施例中，在获得目标用户的用户特征向量以及目标应用中多媒体内容的内容标签的标签特征向量之后，采用以下方式确定目标用户的备选标签：

确定目标用户的用户特征向量与每个标签域中的内容标签的标签特征向量之间的相似度，然后将多媒体内容在多个标签域中的内容标签中，相似度满足预设条件的内容标签确定为目标用户的备选标签。

在一种可能的实现方式中，目标用户的用户特征向量与内容标签的标签特征向量之间的相似度可以是用户特征向量与标签特征向量之间的点积值、欧氏距离、余弦相似度等。

一种可能的实施方式，预先设置相似度阈值，不同的标签域可以设置相同的相似度阈值，也可以设置不同的相似度阈值，对此，本申请不做具体限定。针对每个标签域，确定目标用户的用户特征向量与该标签域中的内容标签的标签特征向量之间的相似度，将该标签域中相似度大于相似度阈值的内容标签作为目标用户的备选标签。

一种可能的实施方式，预先设置标签数量阈值，不同的标签域可以设置相同的标签数量阈值，也可以设置不同的标签数量阈值，对此，本申请不做具体限定。针对每个标签域，确定目标用户的用户特征向量与该标签域中每个内容标签的标签特征向量之间的相似度，然后按照相似度从大到小的顺序对该标签域中的内容标签进行排序，将排在前W位的内容标签作为目标用户的备选标签，其中，W为该标签域对应的标签数量阈值。

本申请实施例中，预先设置多个标签域表征多媒体内容中的内容标签，然后基于目标用户的用户特征向量与每个标签域中的内容标签的标签特征向量之间的相似度，从每个标签域的内容标签中获得目标用户的备选标签，故获得的备选标签也是多维度的，从而使获得的用户画像更加全面，后续也可以基于多维度的用户画像向用户推荐更加准确的内容。

下面具体介绍训练用户画像模型的过程，训练过程可以由计算机设备执行，该计算机设备可以是图1所示的终端设备101或服务器102，具体包括以下步骤：

采用待训练的用户画像模型和训练样本进行多次迭代训练，获得用户画像模型，训练样本包括样本多媒体内容和样本用户的用户特征，每次迭代训练包括：

提取样本用户的用户特征的特征向量和样本多媒体内容的内容标签的标签特征向量。然后对样本用户的用户特征的特征向量进行层级嵌入处理，获得样本用户的用户特征向量。对标签特征向量进行层级嵌入处理，获得样本多媒体内容的内容特征向量，之后再基于样本用户的用户特征向量与样本多媒体内容的内容特征向量之间的关联度，调整待训练的用户画像模型的参数。

需要说明的是，用户画像模型的结构和训练方式至少包括以下几种：

实施方式一、如图5所示，用户画像模型包括第一子模型、第二子模型、预估层，其中，第一子模型中包括第一输入层、第一域内融合层、第一域间融合层，第二子模型中包括第二输入层、第二域内融合层、第二域间融合层。

在训练用户画像模型时，针对第一子模型，先根据样本用户的属性信息以及历史行为数据，确定样本用户在多个特征域中的用户特征，然后通过第一输入层将样本用户在多个特征域中的用户特征输入待训练的第一子模型。第一输入层对样本用户在每个特征域中的用户特征进行特征提取，获得每个特征域内的用户特征的特征向量，并将用户特征的特征向量输入第一域内融合层。第一域内融合层将每个特征域内的用户特征的特征向量进行融合，获得每个特征域的域内特征向量，并将每个特征域的域内特征向量输入第一域间融合层。第一域间融合层将多个特征域的域内特征向量进行融合，获得样本用户的用户特征向量，然后将样本用户的用户特征向量输入预估层。在一些情况下，将每个特征域内的用户特征的特征向量进行融合，获得每个特征域的域内特征向量时，可以采用加权求和或直接相加等方式。将多个特征域的域内特征向量进行融合，获得样本用户的用户特征向量时，可以采用加权求和或直接相加等方式。

针对第二子模型，先确定目标应用中的样本多媒体内容在多个标签域中的内容标签，然后通过第二输入层将样本多媒体内容在多个标签域中的内容标签输入待训练的第二子模型。第二输入层提取每个标签域中的内容标签的标签特征向量，然后将每个标签域中的内容标签的标签特征向量输入第二域内融合层。第二域内融合层将每个标签域中的内容标签的标签特征向量融合，获得每个标签域的域内标签向量，然后将每个标签域的域内标签向量输入第二域间融合层。第二域间融合层将多个标签域的域内标签向量融合，获得样本多媒体内容的内容特征向量，然后将样本多媒体内容的内容特征向量输入预估层。在一些情况下，将每个标签域中的内容标签的标签特征向量融合，获得每个标签域的域内标签向量时，可以采用加权求和或直接相加等方式。将多个标签域的域内标签向量融合，获得样本多媒体内容的内容特征向量时，可以采用加权求和或直接相加等方式。

预估层用于预测样本用户与目标应用中的样本多媒体内容之间的关联度，例如，预估层可以通过计算用户特征向量与内容特征向量之间的点积值或欧氏距离或余弦相似度等，确定样本用户与目标应用中的样本多媒体内容之间的关联度。在训练过程中使用交叉熵定义损失函数，使用自适应矩估计(Adaptive Moment Estimation，Adam)对损失函数进行优化，当损失函数满足预设条件时，训练结束。损失函数具体如公式(5)所示：

其中，y _k为用户画像模型预测获得的第k个样本多媒体内容与样本用户之间的关联度(0≤y _k≤1)，

为实际的第k个样本多媒体内容与样本用户之间的关联度(

为0或1)，K为样本多媒体内容的数量。

一般可以采用下述公式(6)确定预测获得的第k个样本多媒体内容与样本用户之间的关联度y _k：

其中，

为第k个样本多媒体内容的内容特征向量，

为样本用户的用户特征向量。

实施方式二、如图6所示，用户画像模型包括第一子模型、第二子模型、预估层，其中，第一子模型中包括第一输入层、第一融合层，第二子模型中包括第二输入层、第二融合层。

在训练用户画像模型时，针对第一子模型，先根据样本用户的属性信息以及历史行为数据，确定样本用户在多个特征域中的用户特征，然后通过第一输入层将样本用户在多个特征域中的用户特征输入待训练的第一子模型。第一输入层对样本用户在每个特征域中的用户特征进行特征提取，获得每个特征域内的用户特征的特征向量，并将用户特征的特征向量输入第一融合层。第一融合层将多个特征域内的用户特征的特征向量进行融合，获得样本用户的用户特征向量，然后将样本用户的用户特征向量输入预估层。融合可以采用加权求和与直接相加中的任意一种方法。

针对第二子模型，先确定目标应用中的样本多媒体内容在多个标签域中的内容标签，然后通过第二输入层将样本多媒体内容在多个标签域中的内容标签输入待训练的第二子模型。第二输入层提取每个标签域中的内容标签的标签特征向量，然后将每个标签域中的内容标签的标签特征向量输入第二融合层。第二融合层将多个标签域的内容标签的标签特征向量融合，获得样本多媒体内容的内容特征向量，然后将样本多媒体内容的内容特征向量输入预估层。融合可以采用加权求和与直接相加中的任意一种方法。

预估层用于预测样本用户与目标应用中的样本多媒体内容之间的关联度，例如，预估层可以通过计算用户特征向量与内容特征向量之间的点积值或欧氏距离或余弦相似度等，确定样本用户与目标应用中的样本多媒体内容之间的关联度。在训练过程中使用交叉熵定义损失函数，使用Adam对损失函数进行优化，损失函数具体如公式(5)所示，当损失函数满足预设条件时，训练结束。

实施方式三、如图6所示，用户画像模型包括第一子模型、第二子模型、预估层，其中，第一子模型中包括第一输入层、第一融合层，第二子模型中包括第二输入层、第二融合层。

在训练用户画像模型时，针对第一子模型，先根据样本用户的属性信息以及历史行为数据，确定样本用户的多个用户特征，然后通过第一输入层将样本用户的多个用户特征输入待训练的第一子模型。第一输入层对样本用户的多个用户特征进行特征提取，获得多个特征向量，并将多个特征向量输入第一融合层。第一融合层将多个特征向量进行融合，获得样本用户的用户特征向量，然后将样本用户的用户特征向量输入预估层。融合可以采用加权求和与直接相加中的任意一种方法。

针对第二子模型，先确定目标应用中的样本多媒体内容的多个内容标签，然后通过第二输入层将样本多媒体内容的多个内容标签输入待训练的第二子模型。第二输入层提取多个内容标签的标签特征向量，然后将多个标签特征向量输入第二融合层。第二融合层将多个标签特征向量融合，获得样本多媒体内容的内容特征向量，然后将样本多媒体内容的内容特征向量输入预估层。融合可以采用加权求和与直接相加中的任意一种方法。

实施方式四、如图7所示，用户画像模型包括第一子模型、第二子模型、预估层，其中，第一子模型中包括第一输入层、第一融合层，第二子模型中包括第二输入层、第二域内融合层、第二域间融合层。

针对第二子模型，先确定目标应用中的样本多媒体内容在多个标签域中的内容标签，然后通过第二输入层将样本多媒体内容在多个标签域中的内容标签输入待训练的第二子模型。第二输入层提取每个标签域中的内容标签的标签特征向量，然后将每个标签域中的内容标签的标签特征向量输入第二域内融合层。第二域内融合层将每个标签域中的内容标签的标签特征向量融合，获得每个标签域的域内标签向量，然后将每个标签域的域内标签向量输入第二域间融合层。第二域间融合层将多个标签域的域内标签向量融合，获得样本多媒体内容的内容特征向量，然后将样本多媒体内容的内容特征向量输入预估层。域内融合可以采用加权求和与直接相加中的任意一种方法，域间融合可以采用加权求和与直接相加中的任意一种方法。

预估层用于预测样本用户与目标应用中的样本多媒体内容之间的关联度，例如，预估层可以通过计算用户特征向量与内容特征向量之间的点积值或欧氏距离或余弦相似度等，确定样本用户与目标应用中的样本多媒体内容之间的关联度。在训练过程中使用交叉熵定义损失函数，使用自适应矩估计(Adaptive Moment Estimation，Adam)对损失函数进行优化，损失函数具体如公式(5)所示，当损失函数满足预设条件时，训练结束。

需要说明的是，本申请中用户画像模型的结构并不仅限于上述四种，还可以是第一子模型和第二子模型组合获得的其他结构，对此，本申请不做具体限定。

本申请实施例中，在训练时将样本多媒体内容的内容标签的标签特征向量进行多层级融合后，获得样本多媒体内容的内容特征向量，然后基于样本用户的用户特征向量与目标应用中的样本多媒体内容的内容特征向量之间的关联度训练得到用户画像模型，采用这种层级嵌入的方式训练获得的模型考虑了样本多媒体内容中内容标签之间的约束关系，而不是单独考虑内容标签与用户之间的关系，故采用训练获得的模型确定与用户匹配的内容标签时，可以匹配更准确的内容标签，从而构建更精准的用户画像。其次，基于样本用户的用户特征向量与目标应用中的样本多媒体内容的内容特征向量之间的关联度对模型进行训练，而不是从样本多媒体内容中抽取标签，基于样本用户的用户特征向量与标签向量之间的关联度进行训练，从而保持了样本数据的原始分布，使得画像预估结果更加准确。

在上述任意一个实施例的基础上，本申请实施例提供至少提供以下两种内容推荐方法：

实施方式一：

在获得目标用户的用户画像之后，基于目标用户的用户画像，从目标应用的多媒体内容中确定推荐给目标用户的目标多媒体内容。

在一种可能的实现方式中，可以根据用户画像中的备选标签从目标应用的多媒体内容中获取备选标签匹配的多媒体内容，然后将匹配的多媒体内容推荐给目标用户。由于用户画像中的备选标签可能来自不同的标签域，故可以根据实际需求采用不同标签域中的备选标签从目标应用的多媒体内容中获取备选标签匹配的多媒体内容。比如，标签域包括内容标签域、一级类目标签域、二级类目标签域、主题标签域和公众号标签域，若用户画像的备选标签中包括从上述5个标签域中获得的内容标签，则可以从上述5个标签域中选取一个或多个目标标签域，然后采用用户画像中目标标签域对应的备选标签，从目标应用的多媒体内容中获取备选标签匹配的多媒体内容。

实施方式二：

通过用户画像模型，对每个多媒体内容在多个标签域中的内容标签的标签特征向量进行层级嵌入处理，确定每个多媒体内容的内容特征向量，并根据目标用户的用户特征向量与每个多媒体内容的内容特征向量的关联度，从多媒体内容中确定推荐给目标用户的目标多媒体内容。

在一种可能的实现方式中，对每个多媒体内容在多个标签域中的内容标签的标签特征向量进行层级嵌入处理，确定多媒体内容的内容特征向量时，至少包括以下几种实施方式：

一种可能的实施方式，将多媒体内容在每个标签域中的内容标签的标签特征向量融合，获得每个标签域的域内标签向量。将多个标签域的域内标签向量融合，获得多媒体内容的内容特征向量。

例如，将多媒体内容在每个标签域中的内容标签的标签特征向量直接相加，获得每个标签域的域内标签向量，然后将多个标签域的域内标签向量直接相加，获得多媒体内容的内容特征向量。

需要说明的是，对内容标签的标签特征向量进行域内融合和域间融合的方法并不仅限于上述直接相加的方法，也可以是加权求和的方法，加权求和的权重可以在训练用户画像模型时采用注意力机制学习获得，还可以是域内融合和域间融合中一个采用加权求和的方法，另一个采用直接相加的方法，对此，本申请不做具体限定。

示例性地，如图8所示，预先设置5个标签域，分别为内容标签域、一级类目标签域、二级类目标签域、主题标签域和公众号标签域。

以目标应用中的一条体育新闻举例来说，设定该体育新闻描述了一场足球比赛，参赛队伍为M队和N队。从该条新闻中获取的内容标签包括：体育、足球、M队、N队，将获取的内容标签作为内容标签域中的标签。该条新闻对应的一级类目为体育，则将内容标签“体育”作为一级类目标签域中的标签。该条新闻对应的二级类目为足球，则将内容标签“足球”作为二级类目标签域中的标签。该条新闻的内容精要为足球赛事，则将内容标签“足球”作为主题标签域中的标签。该条新闻来源于Q体育公众号，则将Q体育公众号作为公众号标签域中的标签。

通过用户画像模型，提取每个标签域中的内容标签的标签特征向量，其中，内容标签域中的内容标签的标签特征向量包括体育标签特征向量、足球标签特征向量、M队标签特征向量、N队标签特征向量，一级类目标签域中的内容标签的标签特征向量包括体育标签特征向量，二级类目标签域中的内容标签的标签特征向量包括足球标签特征向量，主题标签域中的内容标签的标签特征向量包括足球标签特征向量，公众号标签域中的内容标签的标签特征向量包括公众号标签特征向量。

由于一级类目标签域、二级类目标签域、主题标签域和公众号标签域都只有一个标签特征向量，故可以不进行域内融合。采用直接相加的方式将内容标签域中4个内容标签的标签特征向量进行融合，获得内容标签域的域内标签向量。然后采用直接相加的方式对内容标签域、一级类目标签域、二级类目标签域、主题标签域和公众号标签域中的域内标签向量进行融合，获得该条体育新闻的内容特征向量。

另一种可能的实施方式，将多媒体内容在多个标签域中的内容标签的标签特征向量融合，获得多媒体内容的内容特征向量。

例如，可以采用直接相加的方式将多媒体内容在多个标签域中的内容标签的标签特征向量融合，获得多媒体内容的内容特征向量。也可以采用加权求和的方式将多媒体内容在多个标签域中的内容标签的标签特征向量融合，获得多媒体内容的内容特征向量，加权求和的权重可以在训练用户画像模型时采用注意力机制学习获得。

示例性地，如图9所示，预先设置5个标签域，分别为内容标签域、一级类目标签域、二级类目标签域、主题标签域和公众号标签域。

采用直接相加的方式对内容标签域、一级类目标签域、二级类目标签域、主题标签域和公众号标签域中的内容标签的标签特征向量进行融合，获得该条体育新闻的内容特征向量。

在确定每个多媒体内容的内容特征向量之后，根据目标用户的用户特征向量与每个多媒体内容的内容特征向量的关联度，从多媒体内容中确定推荐给目标用户的目标多媒体内容。

在一种可能的实现方式中，可以预先设置关联度阈值，当多媒体内容的内容特征向量与目标用户的用户特征向量之间的关联度大于关联度阈值时，将该多媒体内容推荐给目标用户，并在目标应用显示推荐的内容。也可以预先设置内容推荐数量阈值，按照关联度从大到小的顺序，对各个多媒体内容进行排序，将排在前R位的多媒体内容推荐给目标用户并在目标应用显示推荐的内容，R为内容推荐数量阈值。

通过融合多媒体内容在多个标签域中的标签向量，获得多媒体内容的内容特征向量，使内容特征向量能更加全面的表征多媒体内容的特征，进而提高基于用户特征向量与内容特征向量匹配，获得推荐给用户的多媒体内容的精准度。

采用上述两种实施方式中任意一种方式确定推荐给目标用户的多媒体内容后，目标应用显示在目标应用显示推荐的内容。

示例性地，在文档推荐场景中，如图10所示，设定目标应用为即时通信应用，推荐给目标用户的文档为足球比赛评论文章A、足球比赛新闻B以及足球球星采访报道C，则在即时通信应用的文章阅读模块中显示足球比赛评论文章A的链接、足球比赛新闻B的链接以及足球球星采访报道C的链接，目标用户可以点击链接查看相关文章。

示例性地，在广告推荐场景中，如图11所示，设定目标应用为即时通信应用，推荐给目标用户的广告为汽车广告时，则在即时通信应用的朋友圈中，展示汽车广告，目标用户可以点击广告图片查看广告或进入购买页面。

示例性地，在商品推荐场景中，如图12所示，设定目标应用为购物应用，确定出推荐给目标用户的商品为“菠萝”和“葡萄”时，在购物应用水果类别的推荐页面中，优先展示“菠萝”和“葡萄”的购买链接，比如将“菠萝”和“葡萄”的购买链接展示在推荐页面的最上端，将“香蕉”和“草莓”的购买链接展示在推荐页面的下端。

为了更好地解释本申请实施例，下面以目标应用为文档推荐应用为例，介绍本申请实施例提供的一种获得用户画像的方法，该方法由服务器执行。

首先介绍用户画像模型的结构，如图13所示，用户画像模型包括第一子模型、第二子模型、预估层，其中，第一子模型中包括第一输入层、第一域内融合层、第一域间融合层，第二子模型中包括第二输入层、第二域内融合层、第二域间融合层。

在训练用户画像模型时，针对第一子模型，预先设置P个特征域，分别为特征域1、特征域2、…、特征域P，先根据样本用户的属性信息以及历史行为数据，确定样本用户在P个特征域中的用户特征，然后通过第一输入层将样本用户在P个特征域中的用户特征输入待训练的第一子模型。第一输入层对样本用户在每个特征域中的用户特征进行embedding处理，获得每个特征域内的用户特征的特征向量，并将用户特征的特征向量输入第一域内融合层。第一域内融合层采用加权求和的方式将每个特征域内的用户特征的特征向量进行融合，获得每个特征域的域内特征向量，并将每个特征域的域内特征向量输入第一域间融合层。第一域间融合层采用加权求和的方式将多个特征域的域内特征向量进行融合，获得样本用户的用户特征向量，然后将样本用户的用户特征向量输入预估层。

针对第二子模型，预先设置Q个标签域，分别为标签域1、标签域2、…、标签域Q，先确定文档推荐应用中的样本多媒体内容在Q个标签域中的内容标签，然后通过第二输入层将样本多媒体内容在Q个标签域中的内容标签输入待训练的第二子模型。第二输入层对每个标签域中的内容标签进行embedding处理，获得内容标签的标签特征向量，然后将每个标签域中的内容标签的标签特征向量输入第二域内融合层。第二域内融合层采用直接相加的方式将每个标签域中的内容标签的标签特征向量融合，获得每个标签域的域内标签向量，然后将每个标签域的域内标签向量输入第二域间融合层。第二域间融合层采用直接相加的方式将多个标签域的域内标签向量融合，获得样本多媒体内容的内容特征向量，然后将样本多媒体内容的内容特征向量输入预估层。

预估层先计算样本用户的用户特征向量与样本多媒体内容的内容特征向量之间的点积值，然后采用sigmoid函数对点积值进行归一化处理，获得样本用户与样本多媒体内容之间的关联度。在训练过程中使用交叉熵定义损失函数，使用Adam对损失函数进行优化，损失函数具体如公式(5)所示，当损失函数满足预设条件时，训练结束。

在构建目标用户的用户画像时，首先获取目标用户的属性信息以及历史行为数据，目标用户的属性信息包括性别、年龄、地点等，历史行为数据包括目标用户在文档推荐应用之外的其他应用中的历史行为数据，比如目标用户在视频应用中的视频观看记录、在即时通信应用中的文档点击记录等。然后根据目标用户的属性信息以及历史行为数据，确定目标用户在P个特征域中的用户特征。通过上述训练好的第一子模型，对每个特征域内的用户特征进行embedding处理，获得每个特征域内的用户特征的特征向量。采用加权求和的方式将每个特征域内的用户特征的特征向量进行融合，获得每个特征域的域内特征向量。然后采用加权求和的方式将P个特征域的域内特征向量进行融合，确定目标用户的用户特征向量。

针对文档推荐应用的每个多媒体内容，先确定该多媒体内容在Q个标签域中的内容标签，然后通过上述训练好的用户画像模型，对每个标签域中的内容标签进行embedding处理，获得每个内容标签的标签特征向量。

再确定目标用户的用户特征向量与每个标签域中的内容标签的标签特征向量之间的相似度，将相似度大于相似度阈值的标签特征向量对应的内容标签确定为目标用户的备选标签。然后基于目标用户的备选标签确定目标用户的用户画像，之后再基于目标用户的用户画像确定推荐给目标用户的文档推荐应用中的文档。

为了验证本申请实施例中获得用户画像的方法的效果，本申请以用户实际的点击日志对用户画像的效果进行了评估，获得的评估结果如表1所示：

表1.

	Prec@1	Prec@5	Prec@10
现有技术	0.4818	0.3546	0.2985
本申请	0.4957	0.3552	0.3018

其中，Prec@N为画像预估准确率指标，表示基于用户画像推荐给用户的内容中用户实际点击的比例，具体满足下述公式(7)：

Prec@N＝用户实际点击的内容的数量/N………………………(7)

其中，N为基于用户画像推荐给用户的内容的数量。

基于相同的技术构思，本申请实施例提供了一种获得用户画像的装置的结构示意图，如图14所示，该装置1400包括：

第一特征提取模块1401，用于根据目标用户的属性信息以及历史行为数据确定目标用户的用户特征向量；

第二特征提取模块1402，用于获取目标应用中多媒体内容的内容标签的标签特征向量；

匹配模块1403，用于根据用户特征向量与标签特征向量之间的相似度，从多媒体内容的内容标签中确定目标用户的备选标签；

处理模块1404，用于基于目标用户的备选标签确定目标用户的用户画像。

在一种可能的实现方式中，第二特征提取模块1402具体用于：

确定多媒体内容中的每个多媒体内容在多个标签域中的内容标签；

通过用户画像模型，提取每个标签域中内容标签的标签特征向量，用户画像模型是基于样本用户的用户特征向量与样本多媒体内容的内容特征向量之间的关联度训练得到的，样本多媒体内容的内容特征向量是对样本多媒体内容的内容标签的标签特征向量进行层级嵌入处理后获得的，样本用户的用户特征向量是对样本用户的用户特征的特征向量进行层级嵌入处理后获得的。

在一种可能的实现方式中，第二特征提取模块1402具体用于：

确定样本多媒体内容在多个标签域中的内容标签，并提取每个标签域中的内容标签的标签特征向量；

将每个标签域中的内容标签的标签特征向量融合，获得每个标签域的域内标签向量；

将多个标签域的域内标签向量融合，获得样本多媒体内容的内容特征向量。

在一种可能的实现方式中，第一特征提取模块1401具体用于：

确定样本用户在多个特征域中的用户特征，并提取每个特征域内的用户特征的特征向量；

将每个特征域内的用户特征的特征向量进行融合，获得每个特征域的域内特征向量；

将多个特征域的域内特征向量进行融合，获得样本用户的用户特征向量。

在一种可能的实现方式中，第一特征提取模块1401具体用于：

根据目标用户的属性信息以及历史行为数据，确定目标用户在多个特征域中的用户特征；

通过用户画像模型，提取每个特征域内的用户特征的特征向量，并对每个特征域内的用户特征的特征向量进行层级嵌入处理，确定目标用户的用户特征向量。

在一种可能的实现方式中，第一特征提取模块1401具体用于：

将多个特征域的域内特征向量进行融合，获得目标用户的用户特征向量。

在一种可能的实现方式中，匹配模块1403具体用于：

确定用户特征向量与每个标签域中的内容标签的标签特征向量之间的相似度；

将多媒体内容在多个标签域中的内容标签中，相似度满足预设条件的内容标签确定为目标用户的备选标签。

在一种可能的实现方式中，处理模块1404还用于：

通过用户画像模型，对每个多媒体内容在多个标签域中的内容标签的标签特征向量进行层级嵌入处理，确定每个多媒体内容的内容特征向量；

根据目标用户的用户特征向量与每个多媒体内容的内容特征向量的关联度，从多媒体内容中确定推荐给目标用户的目标多媒体内容。

在一种可能的实现方式中，处理模块1404具体用于：

将多媒体内容在每个标签域中的内容标签的标签特征向量融合，获得每个标签域的域内标签向量；

将多个标签域的域内标签向量融合，获得多媒体内容的内容特征向量。

基于相同的技术构思，本申请实施例提供了一种内容推荐装置的结构示意图，如图15所示，该装置1500包括：

获得用户画像的装置1400，用于获得目标用户的用户画像；

推荐模块1501，基于目标用户的用户画像，从目标应用的多媒体内容中确定推荐给目标用户的目标多媒体内容。

基于相同的技术构思，本申请实施例提供了一种用户画像模型的训练装置的结构示意图，如图16所示，该装置1600包括：

模型训练模块1601，用于采用待训练的用户画像模型和训练样本进行多次迭代训练，获得用户画像模型，训练样本包括样本多媒体内容和样本用户的用户特征，每次迭代训练包括：

对样本用户的用户特征的特征向量进行层级嵌入处理，获得样本用户的用户特征向量；

对标签特征向量进行层级嵌入处理，获得样本多媒体内容的内容特征向量；

基于用户特征向量与内容特征向量之间的关联度，调整待训练的用户画像模型的参数。

在一种可能的实现方式中，模型训练模块1601具体用于：

确定样本多媒体内容在多个标签域中的内容标签，并提取每个标签域中的内容标签的标签特征向量。

在一种可能的实现方式中，模型训练模块1601具体用于：

基于相同的技术构思，本申请实施例提供了一种计算机设备，如图17所示，包括至少一个处理器1701，以及与至少一个处理器连接的存储器1702，本申请实施例中不限定处理器1701与存储器1702之间的具体连接介质，图17中处理器1701和存储器1702之间通过总线连接为例。总线可以分为地址总线、数据总线、控制总线等。

在本申请实施例中，存储器1702存储有可被至少一个处理器1701执行的指令，至少一个处理器1701通过执行存储器1702存储的指令，可以执行前述获得用户画像的方法或内容推荐方法或用户画像模型的训练方法中所包括的步骤。

其中，处理器1701是计算机设备的控制中心，可以利用各种接口和线路连接计算机设备的各个部分，通过运行或执行存储在存储器1702内的指令以及调用存储在存储器1702内的数据，从而获得用户画像或进行内容推荐或训练用户画像模型。可选的，处理器1701可包括一个或多个处理单元，处理器1701可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1701中。在一些实施例中，处理器1701和存储器1702可以在同一芯片上实现，在一些实施例中，它们也可以在独立的芯片上分别实现。

处理器1701可以是通用处理器，例如中央处理器(CPU)、数字信号处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器1702作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器1702可以包括至少一种类型的存储介质，例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random Access Memory，RAM)、静态随机访问存储器(Static Random Access Memory，SRAM)、可编程只读存储器(Programmable Read Only Memory，PROM)、只读存储器(Read Only Memory，ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、磁性存储器、磁盘、光盘等等。存储器1702是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。本申请实施例中的存储器1702还可以是电路或者其它任意能够实现存储功能的装置，用于存储程序指令和/或数据。

基于同一发明构思，本申请实施例提供了一种计算机可读存储介质，其存储有可由计算机设备执行的计算机程序，当程序在计算机设备上运行时，使得计算机设备执行上述获得用户画像的方法或内容推荐方法或用户画像模型的训练方法的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

一种用户画像模型的训练方法，所述方法由计算机设备执行，所述方法包括：

采用待训练的用户画像模型和训练样本进行多次迭代训练，获得用户画像模型，所述训练样本包括样本多媒体内容和样本用户的用户特征，每次迭代训练包括：

提取样本用户的用户特征的特征向量和样本多媒体内容的内容标签的标签特征向量；

对所述样本用户的用户特征的特征向量进行层级嵌入处理，获得所述样本用户的用户特征向量；

对所述标签特征向量进行层级嵌入处理，获得所述样本多媒体内容的内容特征向量；

基于所述用户特征向量与所述内容特征向量之间的关联度，调整所述待训练的用户画像模型的参数。
如权利要求1所述的方法，所述提取样本用户的用户特征的特征向量和样本多媒体内容的内容标签的标签特征向量，包括：

确定所述样本用户在多个特征域中的用户特征，并提取每个特征域内的用户特征的特征向量；

确定所述样本多媒体内容在多个标签域中的内容标签，并提取每个标签域中的内容标签的标签特征向量。
如权利要求2所述的方法，所述对所述样本多媒体内容的内容标签的标签特征向量进行层级嵌入处理，获得所述样本多媒体内容的内容特征向量，包括：

将每个标签域中的内容标签的标签特征向量融合，获得每个标签域的域内标签向量；

将多个标签域的域内标签向量融合，获得所述样本多媒体内容的内容特征向量。
如权利要求2所述的方法，所述对所述样本用户的用户特征的特征向量进行层级嵌入处理，获得所述样本用户的用户特征向量，包括：

将每个特征域内的用户特征的特征向量进行融合，获得每个特征域的域内特征向量；

将多个特征域的域内特征向量进行融合，获得所述样本用户的用户特征向量。
一种获得用户画像的方法，所述方法由计算机设备执行，所述方法包括：

根据目标用户的属性信息以及历史行为数据确定所述目标用户的用户特征向量；

获取目标应用中多媒体内容的内容标签的标签特征向量；

根据所述用户特征向量与所述标签特征向量之间的相似度，从所述多媒体内容的内容标签中确定所述目标用户的备选标签；

基于所述目标用户的备选标签确定所述目标用户的用户画像。
如权利要求5所述的方法，所述获取目标应用中多媒体内容的内容标签的标签特征向量，包括：

确定所述多媒体内容中的每个多媒体内容在多个标签域中的内容标签；

通过用户画像模型，提取每个标签域中内容标签的标签特征向量，所述用户画像模型是基于样本用户的用户特征向量与样本多媒体内容的内容特征向量之间的关联度训练得到的，所述样本多媒体内容的内容特征向量是对所述样本多媒体内容的内容标签的标签特征向量进行层级嵌入处理后获得的，所述样本用户的用户特征向量是对所述样本用户的用户特征的特征向量进行层级嵌入处理后获得的。
如权利要求6所述的方法，所述样本多媒体内容的内容特征向量是对所述样本多媒体内容的内容标签的标签特征向量进行层级嵌入处理后获得的，包括：

确定所述样本多媒体内容在多个标签域中的内容标签，并提取每个标签域中的内容标签的标签特征向量；

将每个标签域中的内容标签的标签特征向量融合，获得每个标签域的域内标签向量；

将多个标签域的域内标签向量融合，获得所述样本多媒体内容的内容特征向量。
如权利要求6所述的方法，所述样本用户的用户特征向量是对所述样本用户的用户特征的特征向量进行层级嵌入处理后获得的，包括：

确定所述样本用户在多个特征域中的用户特征，并提取每个特征域内的用户特征的特征向量；

将每个特征域内的用户特征的特征向量进行融合，获得每个特征域的域内特征向量；

将多个特征域的域内特征向量进行融合，获得所述样本用户的用户特征向量。
如权利要求6所述的方法，所述根据目标用户的属性信息以及历史行为数据确定所述目标用户的用户特征向量，包括：

根据所述目标用户的属性信息以及历史行为数据，确定所述目标用户在多个特征域中的用户特征；

通过所述用户画像模型，提取每个特征域内的用户特征的特征向量，并对每个特征域内的用户特征的特征向量进行层级嵌入处理，确定所述目标用户的用户特征向量。
如权利要求9所述的方法，所述对每个特征域内的用户特征的特征向量进行层级嵌入处理，确定所述目标用户的用户特征向量，包括：

将每个特征域内的用户特征的特征向量进行融合，获得每个特征域的域内特征向量；

将多个特征域的域内特征向量进行融合，获得所述目标用户的用户特征向量。
如权利要求6所述的方法，所述根据所述用户特征向量与所述标签特征向量之间的相似度，从所述多媒体内容的内容标签中确定所述目标用户的备选标签，包括：

确定所述用户特征向量与每个标签域中的内容标签的标签特征向量之间的相似度；

将所述多媒体内容在多个标签域中的内容标签中，相似度满足预设条件的内容标签确定为所述目标用户的备选标签。
如权利要求6至11任一项所述的方法，所述方法还包括：

通过所述用户画像模型，对每个多媒体内容在多个标签域中的内容标签的标签特征向量进行层级嵌入处理，确定每个多媒体内容的内容特征向量；

根据所述目标用户的用户特征向量与每个多媒体内容的内容特征向量的关联度，从所述多媒体内容中确定推荐给所述目标用户的目标多媒体内容。
如权利要求12所述的方法，所述对每个多媒体内容在多个标签域中的内容标签的标签特征向量进行层级嵌入处理，确定每个多媒体内容的内容特征向量，包括：

将多媒体内容在每个标签域中的内容标签的标签特征向量融合，获得每个标签域的域内标签向量；

将多个标签域的域内标签向量融合，获得多媒体内容的内容特征向量。
一种用户画像模型的训练装置，包括：

模型训练模块，用于采用待训练的用户画像模型和训练样本进行多次迭代训练，获得用户画像模型，所述训练样本包括样本多媒体内容和样本用户的用户特征，每次迭代训练包括：

提取样本用户的用户特征的特征向量和样本多媒体内容的内容标签的标签特征向量；

对所述样本用户的用户特征的特征向量进行层级嵌入处理，获得所述样本用户的用户特征向量；

对所述标签特征向量进行层级嵌入处理，获得所述样本多媒体内容的内容特征向量；

基于所述用户特征向量与所述内容特征向量之间的关联度，调整所述待训练的用户画像模型的参数。
一种获得用户画像的装置，包括：

第一特征提取模块，用于根据目标用户的属性信息以及历史行为数据确定所述目标用户的用户特征向量；

第二特征提取模块，用于获取目标应用中多媒体内容的内容标签的标签特征向量；

匹配模块，用于根据所述用户特征向量与所述标签特征向量之间的相似度，从所述多媒体内容的内容标签中确定所述目标用户的备选标签；

处理模块，用于基于所述目标用户的备选标签确定所述目标用户的用户画像。
一种计算机可读存储介质，其存储有可由计算机设备执行的计算机程序，当所述程序在计算机设备上运行时，使得所述计算机设备执行权利要求1～4任一项所述方法的步骤，或者权利要求5～13任一项所述方法的步骤。
一种计算机程序产品，当所述计算机程序产品被执行时，用于实现如上述权利要求1～4任一项所述方法的步骤，或者权利要求5～13任一项所述方法的步骤。