WO2023020160A1

WO2023020160A1 - 一种推荐方法、训练方法、装置、设备及推荐系统

Info

Publication number: WO2023020160A1
Application number: PCT/CN2022/105075
Authority: WO
Inventors: 朱杰明; 赵洲; 张圣宇; 何秀强; 钱莉
Original assignee: 华为技术有限公司
Priority date: 2021-08-20
Filing date: 2022-07-12
Publication date: 2023-02-23
Also published as: EP4379574A1; EP4379574A4; CN113806631A; US20240184837A1

Abstract

本申请实施例公开了一种推荐方法、训练方法、装置、设备及推荐系统，用于利用新闻界面对用户的影响，来提高用户对新闻的点击率。本申请实施例方法包括：获取多张图像，每张图像包含一个候选界面和通过候选界面呈现的一种候选内容；获取每张图像的图像特征数据；基于目标用户的用户特征数据和图像特征数据确定预测模型的输入，然后通过预测模型预测目标用户对每张图像的偏好程度；最后基于偏好程度从多张图像包含的候选界面和候选内容中，选择候选内容和/或候选界面，然后通过选择出的候选内容或候选界面为用户推荐。

Description

一种推荐方法、训练方法、装置、设备及推荐系统

本申请要求于2021年08月20日提交中国专利局、申请号为202110963660.X、发明名称为“一种推荐方法、训练方法、装置、设备及推荐系统”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请实施例涉及推荐技术领域，尤其涉及一种推荐方法、训练方法、装置、设备及推荐系统。

背景技术

如今，各种新闻类移动应用已经改变了人们传统的阅读新闻的方式。各大新闻平台无时无刻地产生着海量的新闻。因此，用户在使用这些新闻应用时，就会被推荐各式各样的新闻内容，如果被推荐的新闻内容是用户不感兴趣的，便会导致新闻的点击率降低。为了提高新闻的点击率，个性化的新闻推荐系统应运而生，该系统是通过机器学习的方法挖掘用户的兴趣点，以为用户推荐更加感兴趣的新闻内容，从而提高新闻的点击率。

然而，目前的新闻推荐系统仅仅是用于挖掘用户感兴趣的新闻内容，忽略了推荐新闻内容所使用的新闻界面对用户的影响，导致无法进一步提高新闻的点击率。

发明内容

本申请实施例提供了一种推荐方法、训练方法、装置、设备及推荐系统，用于利用新闻界面对用户的影响，来提高用户对新闻的点击率。

第一方面，本申请实施例提供了一种推荐方法，包括：获取多张图像，每张图像包含一个候选界面和通过候选界面呈现的一种候选内容，其中，图像可以理解为通过候选界面呈现候选内容的图像；候选内容不仅可以为新闻内容，也可以为短视频、商品信息等其他内容；相应地，候选界面不仅可以为新闻界面，也可以为用于呈现短视频的界面、用于呈现商品信息的界面；获取每张图像的图像特征数据；图像特征数据可以包括全局视觉印象特征数据和/或局部视觉印象特征数据，其中，全局视觉印象特征数据可以理解为从整个图像中提取的特征数据，局部视觉印象特征数据可以理解为从图像的局部区域中提取的特征数据；基于目标用户的用户特征数据和图像特征数据，并通过预测模型预测目标用户对每张图像的偏好程度，预测模型的输入是基于用户特征数据和图像特征数据确定的，其中，用户的特征数据包括用户的年龄信息、用户所在的城市以及用户与新闻相关的历史数据；其中，用户与新闻相关的历史数据具体可以包括用户浏览的新闻的类型、用户点击新闻的类型、用户点击新闻的时间、用户点击新闻时的地点等；基于偏好程度从多张图像包含的候选界面和候选内容中，选择候选内容和/或候选界面，以进行推荐，具体地，基于偏好程序可以仅选择多张图像中的候选内容进行推荐，也可以仅选择多张图像中的候选界面进行推荐，还可以同时从多张图像选择候选内容和候选界面进行推荐。

由于图像既包含了候选内容，又包含了候选界面，所以基于图像的图像特征数据训练得到的预测模型，能够在同时考虑候选内容和候选界面对用户的影响的情况下，准确地预测用户对图像的偏好程度，从而有利于通过用户感兴趣的候选界面为用户推荐感兴趣的内容，以提高用户对推荐内容的点击率。

作为一种可实现的方式，每张图像包括多个区域，具体地，可以通过多种方法对图像进行划分，从而得到多个区域；例如，基于前述说明可知，一条新闻可以包括新闻的标题、新闻的作者和新闻的类别等部分，除此之外，新闻还可以包括配图部分；因此，可以按照新闻排版板式获得上述各个部分的区域坐标，然后根据区域坐标将图像划分为多个区域；每张图像的图像特征数据包括多个局部特征向量，每个局部特征向量用于表征一个区域。

在该实现方式中，将图像划分为多个区域，并将表征每个区域的局部特征向量作为图像的图像特征数据，从而可以较好地提取图像的局部特征，以提高用户对图像的偏好程度的预测的准确率。

作为一种可实现的方式，基于目标用户的用户特征数据和图像特征数据，并通过预测模型预测目标用户对每张图像的偏好程度包括：对于每张图像，基于每张图像中的候选内容获取N个词向量，每个词向量表征候选内容中的一个词语，其中，N为正整数；候选内容包括N个词语，对应每个词语，可以利用文本表征器生成一个词向量；与图片表征器类似，文本表征器也可以理解为通过预先训练获取的模型，该模型的种类可以有多种，例如，该模型可以为Bert模型；由于新闻内容的标题能够较好地体现新闻内容的主要信息；因此，当候选内容为新闻内容时，可以对新闻内容的标题进行分词处理，以得到N个词语，然后通过文本表征器获取表征N个词语的N个词向量；对于每个词向量，基于每个词向量和多个局部特征向量，并通过注意力机制的模型计算多个局部特征向量各自的注意力权重，注意力权重表示目标用户在阅读每个词向量表征的词语时，关注局部特征向量表征的区域的程度；注意力机制为一种通过计算神经网络模型中的各个部分的注意力权重、并合并成注意力向量，从而在神经网络模型中动态控制对神经网络模型中各个部分或某一部分的关注度的机制；基于多个局部特征向量各自的注意力权重，将每个词向量和多个局部特征向量融合，以得到第一融合特征向量，每个词向量对应得到一个第一融合特征向量；具体地，可以通过多个局部特征向量各自的注意力权重对多个局部特征向量进行加权处理，然后将加权处理的结果与词向量相加得到第一融合特征向量；基于用户特征向量和N个词向量对应的N个第一融合特征向量，并通过预测模型预测目标用户对每张图像的偏好程度，预测模型的输入是基于用户特征向量和N个第一融合特征向量确定的，用户特征向量用于表征目标用户的用户特征数据。

在该实现方式中，通过注意力机制的模型计算多个局部特征向量各自的注意力权重，由于注意力权重表示目标用户在阅读每个词向量表征的词语时，关注局部特征向量表征的区域的程度，所以基于多个局部特征向量各自的注意力权重，将每个词向量和多个局部特征向量融合，得到的第一融合特征向量能够反映出图像中的词语和各个区域给用户留下的印象特征信息；这样，利用第一融合特征向量预测偏好程度，能够提高用户对图像的偏好程度的准确率。

作为一种可实现的方式，基于用户特征向量和N个词向量对应的N个第一融合特征向量，并通过预测模型预测目标用户对每张图像的偏好程度包括：对于每张图像，通过自注意力机制的模型对N个词向量对应的N个第一融合特征向量进行处理，以得到N个语义增强特征向量，每个第一融合特征向量对应一个语义增强特征向量，其中，自注意力机制(self-attention mechanism)是对注意力机制改进得到的一种机制，其减少了对外部信息的依赖，更擅长捕捉数据或特征的内部相关性；基于用户特征向量和N个语义增强特征向量，并通过预测模型预测目标用户对每张图像的偏好程度，预测模型的输入是基于用户特征向量和N个语义增强特征向量确定的。

语义增强特征向量是通过自注意力机制的模型对N个词向量对应的N个第一融合特征向量进行处理得到的，由于自注意力机制更擅长捕捉数据或特征的内部相关性，所以得到的语义增强特征向量能够反映出第一融合特征向量间的相关性，从而可以更准确地反映出图像给用户留下的印象特征信息；这样，利用语义增强特征向量预测偏好程度，能够提高用户对图像的偏好程度的准确率。

作为一种可实现的方式，基于用户特征向量和N个语义增强特征向量，并通过预测模型预测目标用户对每张图像的偏好程度包括：对于每张图像，通过加法注意力机制的模型将N个语义增强特征向量融合，以得到第二融合特征向量；基于用户特征向量和第二融合特征向量，并通过预测模型预测目标用户对每张图像的偏好程度，预测模型的输入是基于用户特征向量和第二融合特征向量确定的。

通过加法注意力机制的模型实现了对N个语义增强特征向量的融合，利用融合后的第二融合特征向量预测偏好程度，提高用户对图像的偏好程度的准确率。

作为一种可实现的方式，每张图像的图像特征数据包括全局特征向量，全局特征向量用于表征图像；此时，该图像特征数据也可以称为全局视觉印象特征数据；获取全局特征向量的方法可以具体包括：将图像输入到图片表征器中，以通过图片表征器将图像转化为全局特征向量。

在该实现方式中，将表征图像的全局特征向量作为图像的图像特征数据，从而可以较好地提取图像的全局特征，以提高用户对图像的偏好程度的预测的准确率。

作为一种可实现的方式，基于目标用户的用户特征数据和图像特征数据，并通过预测模型预测目标用户对每张图像的偏好程度包括：对于每张图像，基于每张图像中的候选内容获取内容特征向量，内容特征向量用于表征候选内容；由于新闻内容的标题能够较好地体现新闻内容的主要信息；因此，当候选内容为新闻内容时，可以将新闻内容的标题转化成标题特征向量；基于内容特征向量和全局特征向量，确定内容特征向量的权重和全局特征向量的权重；由于用户可能对视觉印象信息和文本语义具有不同的敏感度，因此作为一种可实现的方式，可以采用通过门限加法网络自适应地控制内容特征向量和全局特征向量各自的权重；基于内容特征向量的权重和全局特征向量的权重，将内容特征向量和全局特征向量融合，以得到第三融合特征向量；基于用户特征向量和第三融合特征向量，并通过预测模型预测目标用户对每张图像的偏好程度，预测模型的输入是基于用户特征向量和第三融合向量确定的，用户特征向量用于表征目标用户的用户特征数据。

基于内容特征向量和全局特征向量，确定内容特征向量的权重和全局特征向量的权重，然后于内容特征向量的权重和全局特征向量的权重，将内容特征向量和全局特征向量融合得到的第三融合特征向量，可以从全局的角度表征提取图像给用户留下的印象特征信息；因此，利用第三融合特征向量预测目标用户对每张图像的偏好程度，可以提高用户对图像的偏好程度的准确率。

作为一种可实现的方式，基于偏好程度从多张图像包含的候选界面和候选内容中，选择候选内容和/或候选界面，以进行推荐包括：基于偏好程度从多张图像包含的候选内容中选择一种候选内容作为目标候选内容；基于偏好程度从包含目标候选内容的图像的候选界面中，选择一种候选界面作为目标候选界面，以通过目标候选界面推荐目标候选内容。

于偏好程度从多张图像包含的候选内容中选择一种候选内容作为目标候选内容；基于偏好程度从包含目标候选内容的图像的候选界面中，选择一种候选界面作为目标候选界面，并通过目标候选界面推荐目标候选内容，实现了通过用户偏好的候选界面为用户推荐用户偏好的候选内容，从而可以提高用户点击推荐内容的概率。

作为一种可实现的方式，在基于偏好程度从包含目标候选内容的图像的候选界面中，选择一种候选界面作为目标候选界面之后，方法还包括：向终端设备发送目标候选界面的元数据和目标候选内容，以使得终端设备基于元数据显示目标候选界面，并通过目标候选界面向目标用户推荐目标候选内容；其中，该元数据包含目标候选界面的各种配置数据。

向终端设备发送目标候选界面的元数据和目标候选内容，使得终端设备基于元数据显示目标候选界面，并通过目标候选界面向目标用户推荐目标候选内容，从而可以提高用户点击推荐内容的概率。

第二方面，本申请实施例提供了一种训练方法，包括：获取多个样本图像，每个样本图像包含一个样本候选界面和通过样本候选界面呈现的一种样本候选内容；获取每个样本图像的图像特征数据；基于样本用户的用户特征数据和图像特征数据，并通过预测模型预测样本用户对每个样本图像的偏好程度，预测模型的输入是基于用户特征数据和图像特征数据确定的；基于偏好程度和样本用户对样本候选内容的历史点击数据，对预测模型进行调整，其中，样本用户对样本候选内容的历史点击数据可以包括，样本用户是否点击样本候选内容，以及样本用户点击样本候选内容次数；具体地，可以调整预测模型的权重，也可以调整预测模型的结构。

由于样本图像既包含了样本候选内容，又包含了样本候选界面，所以基于样本图像的图像特征数据训练得到的预测模型，能够在同时考虑候选内容和候选界面对用户的影响的情况下，准确地输出用户对图像的偏好程度，从而有利于通过用户感兴趣的界面为用户推荐感兴趣的内容，以提高用户对推荐内容的点击率。

作为一种可实现的方式，每个样本图像包括多个区域；每个样本图像的图像特征数据包括多个局部特征向量，每个局部特征向量用于表征一个区域。

其中，以上的相关说明以及技术效果请参考本申请实施例第一方面的描述。

作为一种可实现的方式，基于样本用户的用户特征数据和图像特征数据，并通过预测模型预测样本用户对每个样本图像的偏好程度包括：对于每个样本图像，基于每个样本图像中的样本候选内容获取N个词向量，每个词向量表征样本候选内容中的一个词语，其中，N为正整数；对于每个词向量，基于每个词向量和多个局部特征向量，并通过注意力机制的模型计算多个局部特征向量各自的注意力权重，注意力权重表示样本用户在阅读每个词向量表征的词语时，关注局部特征向量表征的区域的程度；基于多个局部特征向量各自的注意力权重，将每个词向量和多个局部特征向量融合，以得到第一融合特征向量，每个词向量对应得到一个第一融合特征向量；基于用户特征向量和N个词向量对应的N个第一融合特征向量，并通过预测模型预测样本用户对每个样本图像的偏好程度，预测模型的输入是基于用户特征向量和N个第一融合特征向量确定的，用户特征向量用于表征样本用户的用户特征数据。

作为一种可实现的方式，基于用户特征向量和N个词向量对应的N个第一融合特征向量，并通过预测模型预测样本用户对每个样本图像的偏好程度包括：对于每个样本图像，通过自注意力机制的模型对N个词向量对应的N个第一融合特征向量进行处理，以得到N个语义增强特征向量，每个第一融合特征向量对应一个语义增强特征向量；基于用户特征向量和N个语义增强特征向量，并通过预测模型预测样本用户对每个样本图像的偏好程度，预测模型的输入是基于用户特征向量和N个语义增强特征向量确定的。

作为一种可实现的方式，基于用户特征向量和N个语义增强特征向量，并通过预测模型预测样本用户对每个样本图像的偏好程度包括：对于每个样本图像，通过加法注意力机制的模型将N个语义增强特征向量融合，以得到第二融合特征向量；基于用户特征向量和第二融合特征向量，并通过预测模型预测样本用户对每个样本图像的偏好程度，预测模型的输入是基于用户特征向量和第二融合特征向量确定的。

作为一种可实现的方式，每个样本图像的图像特征数据包括全局特征向量，全局特征向量用于表征样本图像。

作为一种可实现的方式，基于样本用户的用户特征数据和图像特征数据，并通过预测模型预测样本用户对每个样本图像的偏好程度包括：对于每个样本图像，基于每个样本图像中的样本候选内容获取内容特征向量，内容特征向量用于表征样本候选内容；基于内容特征向量和全局特征向量，确定内容特征向量的权重和全局特征向量的权重；基于内容特征向量的权重和全局特征向量的权重，将内容特征向量和全局特征向量融合，以得到第三融合特征向量；基于用户特征向量和第三融合特征向量，并通过预测模型预测样本用户对每个样本图像的偏好程度，预测模型的输入是基于用户特征向量和第三融合向量确定的，用户特征向量用于表征样本用户的用户特征数据。

第三方面，本申请实施例提供了一种推荐装置，包括：第一图像获取单元，用于获取多张图像，每张图像包含一个候选界面和通过候选界面呈现的一种候选内容；第一特征数据获取单元，用于获取每张图像的图像特征数据；第一预测单元，用于基于目标用户的用户特征数据和图像特征数据，并通过预测模型预测目标用户对每张图像的偏好程度，预测模型的输入是基于用户特征数据和图像特征数据确定的；推荐单元，用于基于偏好程度从多张图像包含的候选界面和候选内容中，选择候选内容和/或候选界面，以进行推荐。

作为一种可实现的方式，每张图像包括多个区域；每张图像的图像特征数据包括多个局部特征向量，每个局部特征向量用于表征一个区域。

作为一种可实现的方式，第一预测单元，用于对于每张图像，基于每张图像中的候选内容获取N个词向量，每个词向量表征候选内容中的一个词语，其中，N为正整数；对于每个词向量，基于每个词向量和多个局部特征向量，并通过注意力机制的模型计算多个局部特征向量各自的注意力权重，注意力权重表示目标用户在阅读每个词向量表征的词语时，关注局部特征向量表征的区域的程度；基于多个局部特征向量各自的注意力权重，将每个词向量和多个局部特征向量融合，以得到第一融合特征向量，每个词向量对应得到一个第一融合特征向量；基于用户特征向量和N个词向量对应的N个第一融合特征向量，并通过预测模型预测目标用户对每张图像的偏好程度，预测模型的输入是基于用户特征向量和N个第一融合特征向量确定的，用户特征向量用于表征目标用户的用户特征数据。

作为一种可实现的方式，第一预测单元，用于对于每张图像，通过自注意力机制的模型对N个词向量对应的N个第一融合特征向量进行处理，以得到N个语义增强特征向量，每个第一融合特征向量对应一个语义增强特征向量；基于用户特征向量和N个语义增强特征向量，并通过预测模型预测目标用户对每张图像的偏好程度，预测模型的输入是基于用户特征向量和N个语义增强特征向量确定的。

作为一种可实现的方式，第一预测单元，用于基于用户特征向量和N个语义增强特征向量，并通过预测模型预测目标用户对每张图像的偏好程度包括：对于每张图像，通过加法注意力机制的模型将N个语义增强特征向量融合，以得到第二融合特征向量；基于用户特征向量和第二融合特征向量，并通过预测模型预测目标用户对每张图像的偏好程度，预测模型的输入是基于用户特征向量和第二融合特征向量确定的。

作为一种可实现的方式，每张图像的图像特征数据包括全局特征向量，全局特征向量用于表征图像。

作为一种可实现的方式，第一预测单元，用于对于每张图像，基于每张图像中的候选内容获取内容特征向量，内容特征向量用于表征候选内容；基于内容特征向量和全局特征向量，确定内容特征向量的权重和全局特征向量的权重；基于内容特征向量的权重和全局特征向量的权重，将内容特征向量和全局特征向量融合，以得到第三融合特征向量；基于用户特征向量和第三融合特征向量，并通过预测模型预测目标用户对每张图像的偏好程度，预测模型的输入是基于用户特征向量和第三融合向量确定的，用户特征向量用于表征目标用户的用户特征数据。

作为一种可实现的方式，推荐单元，用于基于偏好程度从多张图像包含的候选内容中选择一种候选内容作为目标候选内容；基于偏好程度从包含目标候选内容的图像的候选界面中，选择一种候选界面作为目标候选界面，以通过目标候选界面推荐目标候选内容。

作为一种可实现的方式，装置还包括发送单元，用于向终端设备发送目标候选界面的元数据和目标候选内容，以使得终端设备基于元数据显示目标候选界面，并通过目标候选界面向目标用户推荐目标候选内容。

其中，以上各单元的具体实现、相关说明以及技术效果请参考本申请实施例第一方面的描述。

第四方面，本申请实施例提供了一种训练装置，包括：第二图像获取单元，用于获取多个样本图像，每个样本图像包含一个样本候选界面和通过样本候选界面呈现的一种样本候选内容；第二特征数据获取单元，用于获取每个样本图像的图像特征数据；第二预测单元，用于基于样本用户的用户特征数据和图像特征数据，并通过预测模型预测样本用户对每个样本图像的偏好程度，预测模型的输入是基于用户特征数据和图像特征数据确定的；调整单元，用于基于偏好程度和样本用户对样本候选内容的历史点击数据，对预测模型进行调整。

作为一种可实现的方式，第二预测单元，用于对于每个样本图像，基于每个样本图像中的样本候选内容获取N个词向量，每个词向量表征样本候选内容中的一个词语，其中，N为正整数；对于每个词向量，基于每个词向量和多个局部特征向量，并通过注意力机制的模型计算多个局部特征向量各自的注意力权重，注意力权重表示样本用户在阅读每个词向量表征的词语时，关注局部特征向量表征的区域的程度；基于多个局部特征向量各自的注意力权重，将每个词向量和多个局部特征向量融合，以得到第一融合特征向量，每个词向量对应得到一个第一融合特征向量；基于用户特征向量和N个词向量对应的N个第一融合特征向量，并通过预测模型预测样本用户对每个样本图像的偏好程度，预测模型的输入是基于用户特征向量和N个第一融合特征向量确定的，用户特征向量用于表征样本用户的用户特征数据。

作为一种可实现的方式，第二预测单元，用于对于每个样本图像，通过自注意力机制的模型对N个词向量对应的N个第一融合特征向量进行处理，以得到N个语义增强特征向量，每个第一融合特征向量对应一个语义增强特征向量；基于用户特征向量和N个语义增强特征向量，并通过预测模型预测样本用户对每个样本图像的偏好程度，预测模型的输入是基于用户特征向量和N个语义增强特征向量确定的。

作为一种可实现的方式，第二预测单元，用于对于每个样本图像，通过加法注意力机制的模型将N个语义增强特征向量融合，以得到第二融合特征向量；基于用户特征向量和第二融合特征向量，并通过预测模型预测样本用户对每个样本图像的偏好程度，预测模型的输入是基于用户特征向量和第二融合特征向量确定的。

作为一种可实现的方式，第二预测单元，用于对于每个样本图像，基于每个样本图像中的样本候选内容获取内容特征向量，内容特征向量用于表征样本候选内容；基于内容特征向量和全局特征向量，确定内容特征向量的权重和全局特征向量的权重；基于内容特征向量的权重和全局特征向量的权重，将内容特征向量和全局特征向量融合，以得到第三融合特征向量；基于用户特征向量和第三融合特征向量，并通过预测模型预测样本用户对每个样本图像的偏好程度，预测模型的输入是基于用户特征向量和第三融合向量确定的，用户特征向量用于表征样本用户的用户特征数据。

其中，以上各单元的具体实现、相关说明以及技术效果请参考本申请实施例第二方面的描述。

第五方面，本申请实施例提供了一种计算机设备，包括：一个或多个处理器和存储器；其中，存储器中存储有计算机可读指令；一个或多个处理器读取计算机可读指令，以使车载设备实现如第一方面任一实现方式的方法。

第六方面，本申请实施例提供了一种训练设备，包括：一个或多个处理器和存储器；其中，存储器中存储有计算机可读指令；一个或多个处理器读取计算机可读指令，以使车载设备实现如第二方面任一实现方式的方法。

第七方面，本申请实施例提供了一种计算机可读存储介质，包括计算机可读指令，当计算机可读指令在计算机上运行时，使得计算机执行如第一方面或第二方面任一实现方式的方法。

第八方面，本申请实施例提供了一种芯片，包括一个或多个处理器。处理器中的部分或全部用于读取并执行存储器中存储的计算机程序，以执行上述第一方面或第二方面任意可能的实现方式中的方法。

可选地，该芯片该包括存储器，该存储器与该处理器通过电路或电线与存储器连接。进一步可选地，该芯片还包括通信接口，处理器与该通信接口连接。通信接口用于接收需要处理的数据和/或信息，处理器从该通信接口获取该数据和/或信息，并对该数据和/或信息进行处理，并通过该通信接口输出处理结果。该通信接口可以是输入输出接口。

在一些实现方式中，一个或多个处理器中还可以有部分处理器是通过专用硬件的方式来实现以上方法中的部分步骤，例如涉及神经网络模型的处理可以由专用神经网络处理器或图形处理器来实现。

本申请实施例提供的方法可以由一个芯片实现，也可以由多个芯片协同实现。

第九方面，本申请实施例提供了一种计算机程序产品，该计算机程序产品包括计算机软件指令，该计算机软件指令可通过处理器进行加载来实现上述第一方面或第二方面中任意一种实现方式的方法。

第十方面，本申请实施例提供了一种推荐系统，包括终端设备和服务器；

服务器用于执行如第一方面中任意一种实现方式的方法；

终端设备用于接收来自服务器的目标候选界面的元数据和目标候选内容；

基于元数据显示目标候选界面，并通过目标候选界面向目标用户推荐目标候选内容。

附图说明

图1为本申请实施例提供的新闻推荐系统的架构示意图；

图2为新闻的一个实施例示意图；

图3为新闻推荐系统的工作过程的示意图；

图4为本申请实施例提供了一种训练方法的一个实施例的示意图；

图5为本申请实施例中样本图像的区域示意图；

图6为本申请实施例中预测样本用户对每个样本图像的偏好程度的第一实施例示意图；

图7为本申请实施例中预测样本用户对每个样本图像的偏好程度的第二实施例示意图；

图8为本申请实施例中第二融合特征向量的过程的示意图；

图9为本申请实施例中预测样本用户对每个样本图像的偏好程度的第三实施例示意图；

图10为本申请实施例中得到第三融合特征向量的过程的示意图；

图11为本申请实施例提供了一种推荐方法的一个实施例的示意图；

图12为本申请实施例中预测目标用户对每个图像的偏好程度的第一实施例示意图；

图13为本申请实施例中预测目标用户对每个图像的偏好程度的第二实施例示意图；

图14为本申请实施例中预测目标用户对每个图像的偏好程度的第三实施例示意图；

图15为本申请实施例中预测用户对新闻的偏好程度的实施例示意图；

图16为本申请实施例中获取最佳用户界面配置的实施例示意图；

图17为本申请实施例提供了一种训练装置的一个实施例的示意图；

图18为本申请实施例提供了一种推荐装置的一个实施例的示意图；

图19为本申请实施例提供的计算机设备的实施例示意图。

具体实施方式

下面结合附图，对本申请的实施例进行描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。本领域普通技术人员可知，随着技术的发展和新场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块。在本申请中出现的对步骤进行的命名或者编号，并不意味着必须按照命名或者编号所指示的时间/逻辑先后顺序执行方法流程中的步骤，已经命名或者编号的流程步骤可以根据要实现的技术目的变更执行次序，只要能达到相同或者相类似的技术效果即可。

另外，在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。本申请中的术语“和/或”或字符“/”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，或A/B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。

本申请实施例可以应用于图1所示的新闻推荐系统中，如图1所示，该新闻推荐系统包括终端设备和服务器，终端设备与服务器通信连接。

本申请实施例对终端设备的种类不做具体限定，例如，终端设备可以包括手机、平板电脑、台式电脑、车载设备等任意可以部署新闻应用的设备；下文将终端设备简称为终端。

服务器可以是普通服务器，也可以是云服务器。

如图1所示，终端中部署有新闻应用，服务器中部署有推荐服务。

当用户访问终端中的新闻应用时，终端会向服务器发送请求，以请求服务器中的推荐服务；服务器在接收到请求后，会启动推荐服务，然后从大量的新闻内容选择用户感兴趣的新闻内容作为推荐的新闻内容；然后服务器将推荐的新闻内容发送至终端，然后由终端将推荐的新闻内容展示给用户。

本申请实施例对新闻内容不做具体限定；例如，如图2所示，新闻内容可以包括新闻的标题、新闻的作者和新闻的类别，除此之外，新闻内容还可以包括新闻的正文。

然而，对于一则新闻来说，不仅新闻内容会影响新闻的点击率，呈现新闻内容的新闻界面也会影响新闻的点击率。具体地，新闻界面中图文的布局(包括标题的位置、标题与配图的相对位置)、是否配图及配图的大小、配图的颜色、配图的清晰度、字体、字体的大小都会给用户留下不同的视觉印象，影响用户的浏览体验，从而影响用户对新闻的点击行为。

本申请实施例将新闻界面中给用户留下视觉印象的信息称为视觉印象信息，该视觉印象信息可以理解为用户视角下新闻界面展示的新闻多模态信息，具体可以包括前述的图文的布局、是否配图及配图的大小、配图的颜色、配图的清晰度、字体、字体的大小等信息。

以图2为例，图2中的第一则新闻与第二则新闻相比，图文的布局、配图的大小都不同；对于喜欢较大配图的用户来说，点击第一则新闻的概率较大。

基于此，为了提高新闻的点击率，本申请实施例提供了一种推荐方法，该方法是获取多张图像，每张图像包含一个候选界面和一种候选内容，然后根据目标用户的用户特征数据和图像的图像特征数据，并利用预测模型预测目标用户对每张图像的偏好程度，最终根据偏好程度从多张图像中选择候选内容和/或候选界面，以进行推荐；在上述推荐方法中，候选界面可以为新闻界面，候选内容可以为新闻内容，这样，该推荐方法便可以实现新闻的推荐，并且，在使用该推荐方法推荐新闻的过程中，不仅考虑了新闻内容目标用户的影响，还考虑了新闻界面对目标用户的影响，从而可以向目标用户推荐感兴趣的新闻(包括新闻内容和新闻界面)，以进一步提高新闻的点击率。

需要说明的是，候选内容不仅可以为新闻内容，也可以为短视频、商品信息等其他内容；相应地，候选界面不仅可以为新闻界面，也可以为用于呈现短视频的界面、用于呈现商品信息的界面。下文以候选内容为新闻内容、候选界面为新闻界面为例，对本申请实施例的提供的方法进行介绍。

因此，在图1所示的新闻推荐系统中，服务器还可以选择用户感兴趣的新闻界面，然后将新闻界面的元数据发送至终端，然后由终端基于元数据显示新闻界面，并通过新闻界面将推荐的新闻内容展示给用户。

基于前文说明可知，在新闻推荐过程中，需要用到预测模型，因此需要预先训练得到该预测模型。

具体地，图1所示的新闻推荐系统的工作过程可以如图3所示。

服务器从用户的行为日志中提取与新闻相关的数据(具体可以包括浏览新闻的数据或点击新闻的数据)，利用与新闻相关的数据构建训练数据，再基于训练数据进行离线训练以得到预测模型；服务器在接收到对于推荐服务的请求后，通过预测模型进行在线预测，以得到用户对多个新闻图像的偏好程度，在根据该偏好程度选择新闻内容和新闻界面；最终由终端通过新闻界面向用户展示新闻内容。

下面先对预测模型的离线训练过程进行介绍。

如图4所示，本申请实施例提供了一种训练方法的一个实施例，该实施例通常应用于服务器，具体地，该实施例包括：

步骤101，获取多个样本图像，每个样本图像包含一个样本候选界面和通过样本候选界面呈现的一种样本候选内容。

样本图像可以理解为通过样本候选界面呈现样本候选内容的图像，其中，可参照前文中候选界面和候选内容的相关说明，对样本候选界面和样本候选内容进行理解。

多个样本图像的情况可以包括以下三种。

第一种情况为：多个样本图像包括一个样本候选界面和多种样本候选内容，即所有样本图像中的样本候选界面都相同。

第二种情况为，多个样本图像包括多个样本候选界面和一种样本候选内容，即所有样本图像中的样本候选内容都相同。

第三种情况为，多个样本图像包括多个样本候选界面和多种样本候选内容，此时，包含同一种样本候选内容的所有样本图像，可以包含多种样本候选内容；例如，样本图像为10000个，10000个样本图像包括100种样本候选内容，包含同一种样本候选内容的所有样本图像包含100个样本候选界面，即每种样本候选内容都可以通过100个样本候选界面呈现。

步骤102，获取每个样本图像的图像特征数据。

获取样本图像的图像特征数据方法有多种，本申请实施例对此不做具体限定。

基于获取方法的不同本申请实施例将图像特征数据大致分为两类，具体为全局视觉印象特征数据和局部视觉印象特征数据；需要说明的是，图像特征数据可以仅包括全局视觉印象特征数据，可以仅包括局部视觉印象特征数据，也可以同时包括全局视觉印象特征数据和局部视觉印象特征数据。

作为一种可实现的方式，每个样本图像包括多个区域，相应地，每个样本图像的图像特征数据包括多个局部特征向量，每个局部特征向量用于表征一个区域；此时，该图像特征数据也可以称为局部视觉印象特征数据。

需要说明的是，可以通过多种方法对样本图像进行划分，从而得到多个区域；例如，基于前述说明可知，一条新闻可以包括新闻的标题、新闻的作者和新闻的类别等部分，除此之外，新闻还可以包括配图部分；因此，可以按照新闻排版板式获得上述各个部分的区域坐标，然后根据区域坐标将样本图像划分为多个区域。

例如，以图5为例，利用上述方法可以将图5中的样本图像划分为新闻的标题、新闻的类别和新闻的配图三个区域。

获取局部特征向量的方法可以具体包括：将多个区域的图像分别输入到图片表征器中，以通过图片表征器将多个区域转化为多个局部特征向量；其中，图片表征器可以理解为通过预先训练得到的一个模型，该模型的种类可以有很多，例如，该模型的种类可以为ResNet101。

作为一种可实现的方式，每个样本图像的图像特征数据包括全局特征向量，全局特征向量用于表征样本图像；此时，该图像特征数据也可以称为全局视觉印象特征数据。

获取全局特征向量的方法可以具体包括：将样本图像输入到图片表征器中，以通过图片表征器将样本图像转化为全局特征向量；由于前文对图片表征器进行了说明，故在此不做详述。

步骤103，获取样本用户的用户特征数据。

本申请实施例对样本用户的特征数据的种类不做具体限定，例如，样本用户的特征数据包括样本用户的年龄信息、样本用户所在的城市以及样本用户与新闻相关的历史数据；其中，样本用户与新闻相关的历史数据具体可以包括样本用户浏览的新闻的类型、样本用户点击新闻的类型、样本用户点击新闻的时间、样本用户点击新闻时的地点等。

样本用户与新闻相关的历史数据可以从样本用户的行为日志中获取。

步骤104，基于样本用户的用户特征数据和图像特征数据，并通过预测模型预测样本用户对每个样本图像的偏好程度，预测模型的输入是基于用户特征数据和图像特征数据确定的。

需要说明的是，还可以将用户特征数据和图像特征数据，与特定环境信息(如时间、日期、是否周末、是否假期等)结合，并通过预测模型预测样本用户对每个样本图像的偏好程度。

对于一个样本图像来说，可以将样本用户特征数据和图像特征数据直接输入到预测模型，从而得到预测模型输出的样本用户对该样本图像的偏好程度；也可以先对图像特征数据进行处理，以得到中间特征数据，然后将样本用户特征数据和该中间特征数据输入到预测模型，从而得到预测模型输出的样本用户对该样本图像的偏好程度。

下文会对通过预测模型预测样本用户对每个样本图像的偏好程度的过程进行具体说明。

步骤105，基于偏好程度和样本用户对样本候选内容的历史点击数据，对预测模型进行调整。

其中，样本用户对样本候选内容的历史点击数据可以包括，样本用户是否点击样本候选内容，以及样本用户点击样本候选内容次数。

具体地，可以根据样本用户对样本候选内容的历史点击数据，设定样本标签；例如，对于一张样本图像来说，若样本用户点击过样本图像中的样本候选内容，则可以将偏好程度的样本标签设置为1，若样本用户未点击过样本图像中的样本候选内容，则可以将偏好程度的样本标签设置为0。

再例如，对于一张样本图像来说，若样本用户点击样本图像中的样本候选内容的次数大于或等于第一阈值，则可以将偏好程度的样本标签设置为1；若样本用户点击样本图像中的样本候选内容的次数小于第一阈值，且大于或等于第二阈值，则可以将偏好程度的样本标签设置为0.5；若样本用户点击样本图像中的样本候选内容的次数小于第二阈值，或样本用户未点击过样本图像中的样本候选内容，则可以将偏好程度的样本标签设置为0。

基于此，根据预测模型输出的样本用户对样本图像的偏好程度，以及样本标签可以计算损失函数，通过损失函数的反向传播更新预测模型的权重，或调整预测模型的结构，以使得预测模型输出的偏好程度接近于样本标签。

在本申请实施例中，由于样本图像既包含了样本候选内容，又包含了样本候选界面，所以基于样本图像的图像特征数据训练得到的预测模型，能够在同时考虑候选内容和候选界面对用户的影响的情况下，准确地输出用户对图像的偏好程度，从而有利于通过用户感兴趣的界面为用户推荐感兴趣的内容，以提高用户对推荐内容的点击率。

下面对通过预测模型预测样本用户对每个样本图像的偏好程度的过程进行说明。

首先，介绍图像特征数据包括局部视觉印象特征数据的情况。

作为一种可实现的方式，如图6所示，步骤104包括：

步骤201，对于每个样本图像，基于每个样本图像中的样本候选内容获取N个词向量，每个词向量表征样本候选内容中的一个词语，其中，N为正整数。

样本候选内容包括N个词语，对应每个词语，可以利用文本表征器生成一个词向量；与图片表征器类似，文本表征器也可以理解为通过预先训练获取的模型，该模型的种类可以有多种，例如，该模型可以为Bert模型。

可以理解的是，当样本候选内容为新闻内容时，通常新闻内容的标题能够较好地体现新闻内容的主要信息；因此，当样本候选内容为新闻内容时，可以对新闻内容的标题进行分词处理，以得到N个词语，然后通过文本表征器获取表征N个词语的N个词向量。

步骤202，对于每个词向量，基于每个词向量和多个局部特征向量，并通过注意力机制的模型计算多个局部特征向量各自的注意力权重，注意力权重表示样本用户在阅读每个词向量表征的词语时，关注局部特征向量表征的区域的程度。

注意力机制为一种通过计算神经网络模型中的各个部分的注意力权重、并合并成注意力向量，从而在神经网络模型中动态控制对神经网络模型中各个部分或某一部分的关注度的机制。

注意力机制包括多种，一般情况下，注意力机制包括两种：一种是自上而下的有意识的注意力，称为聚焦式(focus)注意力。聚焦式注意力是指有预定目的、依赖任务的、主动有意识地聚焦于某一对象的注意力；另一种是自下而上的无意识的注意力，称为基于显著性(saliency-based)的注意力。

除此之外，注意力机制还包括以下几种变体：多头注意力(multi-head attention)机制、硬性注意力机制、键值对注意力机制和结构化注意力机制。

其中，多头注意力(multi-head attention)机制是利用多个查询，来平行地计算从输入信息中选取多个信息，每个注意力关注输入信息的不同部分。

需要说明的是，上述注意力机制以及注意力机制的变体在该实施例中都适用。

下面通过具体的示例对上述过程进行说明。

例如，采用o _j表示第j个局部特征向量，采用w _i表示第i个词向量；基于此，可以采用公式

计算对于词向量w _i，多个局部特征向量各自的注意力权重，其中，

表示注意力权重，q _m(·)和k _m(·)表示带有偏差项的线性变换，k1表示局部特征向量的数量编号(即第K1个)。

以图5为例，图5中的样本图像被划分为新闻的标题、新闻的类别和新闻的配图三个区域，相应地，可以得到表征这三个区域的局部特征向量；以单词“states”为例，对于表征单词“states”的词向量，三个区域的局部特征向量的注意力权重分别表示样本用户在关注单词“states”时，关注三个区域的程度。

步骤203，基于多个局部特征向量各自的注意力权重，将每个词向量和多个局部特征向量融合，以得到第一融合特征向量，每个词向量对应得到一个第一融合特征向量。

具体地，可以通过多个局部特征向量各自的注意力权重对多个局部特征向量进行加权处理，然后将加权处理的结果与词向量相加得到第一融合特征向量。

上述过程可以通过公式

实现，其中，v _m(·)表示带有偏差项的线性变换，

表示第一融合特征向量。

步骤204，基于用户特征向量和N个词向量对应的N个第一融合特征向量，并通过预测模型预测样本用户对每个样本图像的偏好程度，预测模型的输入是基于用户特征向量和N个第一融合特征向量确定的，用户特征向量用于表征样本用户的用户特征数据。

例如，对于一个样本图像来说，可以将用户特征向量和N个第一融合特征向量直接输入到预测模型，从而得到预测模型输出的样本用户对该样本图像的偏好程度；也可以先对N个第一融合特征向量进行处理，以得到中间特征数据，然后将用户特征向量和该中间特征数据输入到预测模型，从而得到预测模型输出的样本用户对该样本图像的偏好程度。

作为一种可实现的方式，如图7所示，步骤204包括：

步骤301，对于每个样本图像，通过自注意力机制的模型对N个词向量对应的N个第一融合特征向量进行处理，以得到N个语义增强特征向量，每个第一融合特征向量对应一个语义增强特征向量。

自注意力机制(self-attention mechanism)是对注意力机制改进得到的一种机制，其减少了对外部信息的依赖，更擅长捕捉数据或特征的内部相关性。

例如，在本申请实施例中，由于N个第一融合特征向量是由N个词向量得到的，而N个词向量所表征的词语来自于同一候选内容，所以通过自注意力机制能够更好地分析N个第一融合特征向量之间的相关性；对应地，注意力机制是用于捕捉数据外部的相关性，基于前文说明可知，注意力机制用于处理词向量和多个局部特征向量，相对于词向量所表征的词语来说，局部特征向量所表征的图像区域是外部的，所以本申请实施例通过注意力机制捕捉词向量表征的词语与局部特征向量所表征的图像区域之间的相关性。

其中，自注意力机制包括单头自注意力机制和多头自注意力机制。

可以理解的是，由于N个第一融合特征向量是由N个词向量得到的，而N个词向量之间存在语义关系，所以相应地，N个第一融合特征向量之间也存在语义关系；为此，在该实施例中，通过自注意力机制的模型对N个第一融合特征向量进行语义增强处理。

具体地，通过自注意力机制的模型对N个第一融合特征向量进行处理的过程可以包括：采用公式

和

对N个第一融合特征向量进行处理，其中，q(·)和k(·)表示线性变换，

表示第j个第一融合特征向量

对第i个第一融合特征向量

的语义增强的程度，k2表示局部特征向量的数量编号(即第K2个)。

步骤302，基于用户特征向量和N个语义增强特征向量，并通过预测模型预测样本用户对每个样本图像的偏好程度，预测模型的输入是基于用户特征向量和N个语义增强特征向量确定的。

例如，对于一个样本图像来说，可以将用户特征向量和N个语义增强特征向量直接输入到预测模型，从而得到预测模型输出的样本用户对该样本图像的偏好程度；也可以先对N个语义增强特征向量进行处理，以得到中间特征数据，然后将用户特征向量和该中间特征数据输入到预测模型，从而得到预测模型输出的样本用户对该样本图像的偏好程度。

作为一种可实现的方式，步骤302包括：

对于每个样本图像，通过加法注意力机制的模型将N个语义增强特征向量融合，以得到第二融合特征向量；

基于用户特征向量和第二融合特征向量，并通过预测模型预测样本用户对每个样本图像的偏好程度，预测模型的输入是基于用户特征向量和第二融合特征向量确定的。

通过加法注意力机制的模型将N个语义增强特征向量融合包括：采用公式

和

对N个语义增强特征向量融进行处理，k _a用于将

转化为隐空间向量，q _a用于计算融合过程中的注意力权重，

表示第i个语义增强特征向量的注意力权重，e1表示第二融合特征向量，k3表示局部特征向量的数量编号(即第K3个)。

基于上述说明，作为一种可实现的方式，如图8所示，得到第二融合特征向量的过程可以概括如下：将词向量和局部特征向量作为输入，依次利用注意力机制、自注意力机制以及加法注意力机制，输出第二融合特征向量。

上面对图像特征数据包括局部视觉印象特征数据的情况进行了介绍，下面介绍图像特征数据包括全局视觉印象特征数据的情况。

作为一种可实现的方式，如图9所示，步骤104包括：

步骤401，对于每个样本图像，基于每个样本图像中的样本候选内容获取内容特征向量，内容特征向量用于表征样本候选内容。

与词向量的获取过程类似，也可以利用文本表征器将样本候选内容转化成内容特征向量。

可以理解的是，当样本候选内容为新闻内容时，通常新闻内容的标题能够较好地体现新闻内容的主要信息；因此，当样本候选内容为新闻内容时，可以将新闻内容的标题转化成标题特征向量，并将该标题特征向量作为表征样本候选内容的内容特征向量。

步骤402，基于内容特征向量和全局特征向量，确定内容特征向量的权重和全局特征向量的权重。

需要说明的是，确定内容特征向量的权重和全局特征向量的权重的方法有多种，本申请实施例对此不做具体限定。

由于用户可能对视觉印象信息和文本语义具有不同的敏感度，因此作为一种可实现的方式，可以采用通过门限加法网络自适应地控制内容特征向量和全局特征向量各自的权重。

具体地，采用通过门限加法网络控制内容特征向量和全局特征向量各自的权重的过程包括：通过公式a＝σ(g(o ^*,e2))计算内容特征向量的权重，全局特征向量的权重为(1-a)，其中，g(·)表示线性变换，σ表示sigmoid函数，e2表示内容特征向量，o ^*表示全局特征向量；从该公式可以看出，a是由e2和o ^*共同决定的，可以自适应地调整。

步骤403，基于内容特征向量的权重和全局特征向量的权重，将内容特征向量和全局特征向量融合，以得到第三融合特征向量。

其中，上述过程可以采用公式e ^*＝a*e2+(1-a)*o ^*实现。

基于上述说明可知，如图10所示，得到第三融合特征向量的过程可以概括如下：将内容特征向量和全局特征向量作为输入，利用门限加法网络，输出第三融合特征向量。

步骤404，基于用户特征向量和第三融合特征向量，并通过预测模型预测样本用户对每个样本图像的偏好程度，预测模型的输入是基于用户特征向量和第三融合向量确定的，用户特征向量用于表征样本用户的用户特征数据。

在该实施例中，可以将用户特征向量和第三融合特征向量直接输入到预测模型中，以实现对每个样本图像的偏好程度的预测。

下面对本申请实施例提供的推荐方法进行介绍。

如图11所示，本申请实施例提供了一种推荐方法的一个实施例，该实施例可以应用于服务器，也可以应用于终端。具体地，该实施例包括：

步骤501，获取多张图像，每张图像包含一个候选界面和通过候选界面呈现的一种候选内容。

步骤502，获取每张图像的图像特征数据。

作为一种可实现的方式，每张图像包括多个区域，相应地，每张图像的图像特征数据包括多个局部特征向量，每个局部特征向量用于表征一个区域。

步骤503，获取目标用户的用户特征数据。

步骤504，基于目标用户的用户特征数据和图像特征数据，并通过预测模型预测目标用户对每张图像的偏好程度，预测模型的输入是基于用户特征数据和图像特征数据确定的。

作为一种可实现的方式，如图12所示，当每张图像的图像特征数据包括多个局部特征向量时，步骤504包括：

步骤601，对于每张图像，基于每张图像中的候选内容获取N个词向量，每个词向量表征候选内容中的一个词语，其中，N为正整数；

步骤602，对于每个词向量，基于每个词向量和多个局部特征向量，并通过注意力机制的模型计算多个局部特征向量各自的注意力权重，注意力权重表示目标用户在阅读每个词向量表征的词语时，关注局部特征向量表征的区域的程度；

步骤603，基于多个局部特征向量各自的注意力权重，将每个词向量和多个局部特征向量融合，以得到第一融合特征向量，每个词向量对应得到一个第一融合特征向量；

步骤604，基于用户特征向量和N个词向量对应的N个第一融合特征向量，并通过预测模型预测目标用户对每张图像的偏好程度，预测模型的输入是基于用户特征向量和N个第一融合特征向量确定的，用户特征向量用于表征目标用户的用户特征数据。

作为一种可实现的方式，如图13所示，步骤604包括：

步骤701，对于每张图像，通过自注意力机制的模型对N个词向量对应的N个第一融合特征向量进行处理，以得到N个语义增强特征向量，每个第一融合特征向量对应一个语义增强特征向量；

步骤702，基于用户特征向量和N个语义增强特征向量，并通过预测模型预测目标用户对每张图像的偏好程度，预测模型的输入是基于用户特征向量和N个语义增强特征向量确定的。

作为一种可实现的方式，步骤702包括：

对于每张图像，通过加法注意力机制的模型将N个语义增强特征向量融合，以得到第二融合特征向量；

基于用户特征向量和第二融合特征向量，并通过预测模型预测目标用户对每张图像的偏好程度，预测模型的输入是基于用户特征向量和第二融合特征向量确定的。

作为一种可实现的方式，如图14所示，当每张图像的图像特征数据包括全局特征向量时，步骤504包括：

步骤801，对于每张图像，基于每张图像中的候选内容获取内容特征向量，内容特征向量用于表征候选内容；

步骤802，基于内容特征向量和全局特征向量，确定内容特征向量的权重和全局特征向量的权重；

步骤803，基于内容特征向量的权重和全局特征向量的权重，将内容特征向量和全局特征向量融合，以得到第三融合特征向量；

步骤804，基于用户特征向量和第三融合特征向量，并通过预测模型预测目标用户对每张图像的偏好程度，预测模型的输入是基于用户特征向量和第三融合向量确定的，用户特征向量用于表征目标用户的用户特征数据。

作为一种可实现的方式，步骤804包括：

基于偏好程度从多张图像包含的候选内容中选择一种候选内容作为目标候选内容；

基于偏好程度从包含目标候选内容的图像的候选界面中，选择一种候选界面作为目标候选界面，以通过目标候选界面推荐目标候选内容。

需要说明的是，步骤501至步骤504与步骤101至步骤104类似，具体可参阅前文中步骤101和步骤103的相关说明进行理解。

步骤505，基于偏好程度从多张图像包含的候选界面和候选内容中，选择候选内容和/或候选界面，以进行推荐。

需要说明的是，基于偏好程序可以仅选择多张图像中的候选内容进行推荐，也可以仅选择多张图像中的候选界面进行推荐，还可以同时从多张图像选择候选内容和候选界面进行推荐，下面对此进行具体介绍。

例如，如图15所示，利用用户日志得到用户点击历史，利用新闻素材和新闻界面得到新闻视觉印象，然后经过数据预处理模块、局部印象模块、全局印象模块以及模型预测模块的处理，得到用户对新闻的偏好程序，该偏好程度具体是指用户对图像中的新闻内容(即候选内容)的偏好程序；最后按照偏好程度对多张图像由高到低进行排序，然后选择排序在前的M张图像的新闻内容，并将其推荐给目标用户。

其中，数据预处理模块用于执行步骤502和步骤503，局部印象模块用于执行步骤603、步骤701以及步骤702中的融合操作，以得到第二融合特征向量；全局印象模块用于执行步骤802和步骤803，模型预测模块用于执行步骤702中的预测操作和步骤804中的预测操作。

再例如，如图16所示，获取当前用户的用户侧特征(即用户特征数据)，利用新闻素材和新闻界面得到多种新闻界面组合候选(即前文中的多张图像)，然后经过数据预处理模块、局部印象模块、全局印象模块、模型预测模块和界面生成模块的处理，得到用户对新闻的偏好程序，该偏好程度具体是指用户对图像中的用户界面(即候选界面)的偏好程序；最后按照偏好程度对多张图像由高到低进行排序，然后选择偏好程度最高的一张图像中的用户界面(即最佳用户界面)，然后生成最佳用户界面配置；之后，便可以根据最佳用户界面配置显示最佳用户界面，并通过最佳用户界面为当前用户推荐各种内容。

其中，数据预处理模块用于执行步骤502和步骤503，局部印象模块用于执行步骤603、步骤701以及步骤702中的融合操作，以得到第二融合特征向量；全局印象模块用于执行步骤802和步骤803，模型预测模块用于执行步骤702中的预测操作和步骤804中的预测操作，界面生成模块用于根据模型预测模块预测的结果生成最佳用户界面。

除此之外，作为一种可实现方式，步骤505包括：

需要说明的是，基于偏好程度可以选择多种候选内容向目标用户推荐，而目标候选内容是选择出的多种候选内容的一种。

下面通过具体的示例对上述过程进行说明。

例如，图像的数量为4张，第一张图像包含候选内容A、候选界面A，第二张图像包含候选内容A、候选界面B，第三张图像包含候选内容B、候选界面A，第四张图像包含候选内容B、候选界面B；目标用户对这4张图像的偏好程度由高到低依次为：第一张图像、第二张图像、第四张图像、第三张图像。

若目标候选内容为候选内容A，由于第一张图像和第二张图像包含候选内容A，所以从第一张图像和第二张图像的候选界面中选择目标候选界面；又由于目标用户对第一张图像的偏好程度高于对第二张图像的偏好程度，所以选择第一张图像中的候选界面A作为目标候选界面，然后通过候选界面A向目标用户推荐候选内容A。

同样地，若目标候选内容为候选内容B，由于第三张图像和第四张图像包含候选内容B，所以从第四张图像和第三张图像的候选界面中选择目标候选界面；又由于目标用户对第四张图像的偏好程度高于对第三张图像的偏好程度，所以选择第四张图像中的候选界面B作为目标候选界面，然后通过候选界面B向目标用户推荐候选内容B。

由此可见，对于不同的目标候选内容，得到的目标候选界面可能不同。

步骤506，向终端设备发送目标候选界面的元数据和目标候选内容，以使得终端设备基于元数据显示目标候选界面，并通过目标候选界面向目标用户推荐目标候选内容。

可以理解的是，当上述方法由服务器执行时，服务器会将目标候选界面的元数据和目标候选内容发送至终端设备；相应地，终端设备便会接收到目标候选界面的元数据和目标候选内容，然后基于元数据显示目标候选界面，并通过目标候选界面向目标用户推荐目标候选内容。

请参阅图17，本申请实施例提供了一种推荐装置的一个实施例，包括：第一图像获取单元601，用于获取多张图像，每张图像包含一个候选界面和通过候选界面呈现的一种候选内容；第一特征数据获取单元602，用于获取每张图像的图像特征数据；第一预测单元603，用于基于目标用户的用户特征数据和图像特征数据，并通过预测模型预测目标用户对每张图像的偏好程度，预测模型的输入是基于用户特征数据和图像特征数据确定的；推荐单元604，用于基于偏好程度从多张图像包含的候选界面和候选内容中，选择候选内容和/或候选界面，以进行推荐。

作为一种可实现的方式，第一预测单元603，用于对于每张图像，基于每张图像中的候选内容获取N个词向量，每个词向量表征候选内容中的一个词语，其中，N为正整数；对于每个词向量，基于每个词向量和多个局部特征向量，并通过注意力机制的模型计算多个局部特征向量各自的注意力权重，注意力权重表示目标用户在阅读每个词向量表征的词语时，关注局部特征向量表征的区域的程度；基于多个局部特征向量各自的注意力权重，将每个词向量和多个局部特征向量融合，以得到第一融合特征向量，每个词向量对应得到一个第一融合特征向量；基于用户特征向量和N个词向量对应的N个第一融合特征向量，并通过预测模型预测目标用户对每张图像的偏好程度，预测模型的输入是基于用户特征向量和N个第一融合特征向量确定的，用户特征向量用于表征目标用户的用户特征数据。

作为一种可实现的方式，第一预测单元603，用于对于每张图像，通过自注意力机制的模型对N个词向量对应的N个第一融合特征向量进行处理，以得到N个语义增强特征向量，每个第一融合特征向量对应一个语义增强特征向量；基于用户特征向量和N个语义增强特征向量，并通过预测模型预测目标用户对每张图像的偏好程度，预测模型的输入是基于用户特征向量和N个语义增强特征向量确定的。

作为一种可实现的方式，第一预测单元603，用于基于用户特征向量和N个语义增强特征向量，并通过预测模型预测目标用户对每张图像的偏好程度包括：对于每张图像，通过加法注意力机制的模型将N个语义增强特征向量融合，以得到第二融合特征向量；基于用户特征向量和第二融合特征向量，并通过预测模型预测目标用户对每张图像的偏好程度，预测模型的输入是基于用户特征向量和第二融合特征向量确定的。

作为一种可实现的方式，第一预测单元603，用于对于每张图像，基于每张图像中的候选内容获取内容特征向量，内容特征向量用于表征候选内容；基于内容特征向量和全局特征向量，确定内容特征向量的权重和全局特征向量的权重；基于内容特征向量的权重和全局特征向量的权重，将内容特征向量和全局特征向量融合，以得到第三融合特征向量；基于用户特征向量和第三融合特征向量，并通过预测模型预测目标用户对每张图像的偏好程度，预测模型的输入是基于用户特征向量和第三融合向量确定的，用户特征向量用于表征目标用户的用户特征数据。

作为一种可实现的方式，推荐单元604，用于基于偏好程度从多张图像包含的候选内容中选择一种候选内容作为目标候选内容；基于偏好程度从包含目标候选内容的图像的候选界面中，选择一种候选界面作为目标候选界面，以通过目标候选界面推荐目标候选内容。

作为一种可实现的方式，装置还包括发送单元605，用于向终端设备发送目标候选界面的元数据和目标候选内容，以使得终端设备基于元数据显示目标候选界面，并通过目标候选界面向目标用户推荐目标候选内容。

其中，以上各单元的具体实现、相关说明以及技术效果请参考本申请实施例方法部分的描述。

请参阅图18，本申请实施例提供了一种训练装置的一个实施例，包括：第二图像获取单元701，用于获取多个样本图像，每个样本图像包含一个样本候选界面和通过样本候选界面呈现的一种样本候选内容；第二特征数据获取单元702，用于获取每个样本图像的图像特征数据；第二预测单元703，用于基于样本用户的用户特征数据和图像特征数据，并通过预测模型预测样本用户对每个样本图像的偏好程度，预测模型的输入是基于用户特征数据和图像特征数据确定的；调整单元704，用于基于偏好程度和样本用户对样本候选内容的历史点击数据，对预测模型进行调整。

作为一种可实现的方式，第二预测单元703，用于对于每个样本图像，基于每个样本图像中的样本候选内容获取N个词向量，每个词向量表征样本候选内容中的一个词语，其中，N为正整数；对于每个词向量，基于每个词向量和多个局部特征向量，并通过注意力机制的模型计算多个局部特征向量各自的注意力权重，注意力权重表示样本用户在阅读每个词向量表征的词语时，关注局部特征向量表征的区域的程度；基于多个局部特征向量各自的注意力权重，将每个词向量和多个局部特征向量融合，以得到第一融合特征向量，每个词向量对应得到一个第一融合特征向量；基于用户特征向量和N个词向量对应的N个第一融合特征向量，并通过预测模型预测样本用户对每个样本图像的偏好程度，预测模型的输入是基于用户特征向量和N个第一融合特征向量确定的，用户特征向量用于表征样本用户的用户特征数据。

作为一种可实现的方式，第二预测单元703，用于对于每个样本图像，通过自注意力机制的模型对N个词向量对应的N个第一融合特征向量进行处理，以得到N个语义增强特征向量，每个第一融合特征向量对应一个语义增强特征向量；基于用户特征向量和N个语义增强特征向量，并通过预测模型预测样本用户对每个样本图像的偏好程度，预测模型的输入是基于用户特征向量和N个语义增强特征向量确定的。

作为一种可实现的方式，第二预测单元703，用于对于每个样本图像，通过加法注意力机制的模型将N个语义增强特征向量融合，以得到第二融合特征向量；基于用户特征向量和第二融合特征向量，并通过预测模型预测样本用户对每个样本图像的偏好程度，预测模型的输入是基于用户特征向量和第二融合特征向量确定的。

作为一种可实现的方式，第二预测单元703，用于对于每个样本图像，基于每个样本图像中的样本候选内容获取内容特征向量，内容特征向量用于表征样本候选内容；基于内容特征向量和全局特征向量，确定内容特征向量的权重和全局特征向量的权重；基于内容特征向量的权重和全局特征向量的权重，将内容特征向量和全局特征向量融合，以得到第三融合特征向量；基于用户特征向量和第三融合特征向量，并通过预测模型预测样本用户对每个样本图像的偏好程度，预测模型的输入是基于用户特征向量和第三融合向量确定的，用户特征向量用于表征样本用户的用户特征数据。

本申请实施例还提供了一种计算机设备的实施例，该计算机设备可以是终端，也可以服务器，当计算机设备为服务器时，该计算机设备可以作为训练设备。

请参阅图19，图19是本申请实施例提供的计算机设备的一种结构示意图，用于实现图17对应实施例中推荐装置的功能或图18对应实施例中训练装置的功能，具体的，计算机设备1800由一个或多个服务器实现，计算机设备1800可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)1822(例如，一个或一个以上处理器)和存储器1832，一个或一个以上存储应用程序1842或数据1844的存储介质1830(例如一个或一个以上海量存储设备)。其中，存储器1832和存储介质1830可以是短暂存储或持久存储。存储在存储介质1830的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对计算机设备中的一系列指令操作。更进一步地，中央处理器1822可以设置为与存储介质1830通信，在计算机设备1800上执行存储介质1830中的一系列指令操作。

计算机设备1800还可以包括一个或一个以上电源1826，一个或一个以上有线或无线网络接口1850，一个或一个以上输入输出接口1858，和/或，一个或一个以上操作系统1841，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

本申请实施例中，中央处理器1822，可以用于执行图17对应实施例中推荐装置执行的检索方法。具体的，中央处理器1822，可以用于：

获取多张图像，每张图像包含一个候选界面和通过候选界面呈现的一种候选内容；

获取每张图像的图像特征数据；

基于目标用户的用户特征数据和图像特征数据，并通过预测模型预测目标用户对每张图像的偏好程度，预测模型的输入是基于用户特征数据和图像特征数据确定的；

基于偏好程度从多张图像包含的候选界面和候选内容中，选择候选内容和/或候选界面，以进行推荐。

本申请实施例中，中央处理器1822，可以用于执行图18对应实施例中训练装置执行的模型训练方法。具体的，中央处理器1822，可以用于：

获取多个样本图像，每个样本图像包含一个样本候选界面和通过样本候选界面呈现的一种样本候选内容；

获取每个样本图像的图像特征数据；

基于样本用户的用户特征数据和图像特征数据，并通过预测模型预测样本用户对每个样本图像的偏好程度，预测模型的输入是基于用户特征数据和图像特征数据确定的；

基于偏好程度和样本用户对样本候选内容的历史点击数据，对预测模型进行调整。

本申请实施例还提供一种芯片，包括一个或多个处理器。所述处理器中的部分或全部用于读取并执行存储器中存储的计算机程序，以执行前述各实施例的方法。

在一些实现方式中，所述一个或多个处理器中还可以有部分处理器是通过专用硬件的方式来实现以上方法中的部分步骤，例如涉及神经网络模型的处理可以由专用神经网络处理器或图形处理器来实现。

本申请实施例还提供了一种计算机存储介质，该计算机存储介质用于储存为上述计算机设备所用的计算机软件指令，其包括用于执行为计算机设备所设计的程序。

该计算机设备可以如前述图17对应实施例中推荐装置或图18对应实施例中训练装置。

本申请实施例还提供了一种计算机程序产品，该计算机程序产品包括计算机软件指令，该计算机软件指令可通过处理器进行加载来实现前述各个实施例所示的方法中的流程。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征数据可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

一种推荐方法，其特征在于，包括：

获取多张图像，每张所述图像包含一个候选界面和通过所述候选界面呈现的一种候选内容；

获取每张所述图像的图像特征数据；

基于目标用户的用户特征数据和所述图像特征数据，并通过预测模型预测所述目标用户对每张所述图像的偏好程度，所述预测模型的输入是基于所述用户特征数据和所述图像特征数据确定的；

基于所述偏好程度从所述多张图像包含的所述候选界面和所述候选内容中，选择候选内容和/或候选界面，以进行推荐。
根据权利要求1所述的方法，其特征在于，每张所述图像包括多个区域；

每张所述图像的图像特征数据包括多个局部特征向量，每个所述局部特征向量用于表征一个所述区域。
根据权利要求2所述的方法，其特征在于，所述基于目标用户的用户特征数据和所述图像特征数据，并通过预测模型预测所述目标用户对每张所述图像的偏好程度包括：

对于每张所述图像，基于每张所述图像中的所述候选内容获取N个词向量，每个所述词向量表征所述候选内容中的一个词语，其中，N为正整数；

对于每个所述词向量，基于每个所述词向量和所述多个局部特征向量，并通过注意力机制的模型计算所述多个局部特征向量各自的注意力权重，所述注意力权重表示所述目标用户在阅读每个所述词向量表征的词语时，关注所述局部特征向量表征的区域的程度；

基于所述多个局部特征向量各自的注意力权重，将每个所述词向量和所述多个局部特征向量融合，以得到第一融合特征向量，每个所述词向量对应得到一个所述第一融合特征向量；

基于所述用户特征向量和所述N个词向量对应的N个所述第一融合特征向量，并通过预测模型预测所述目标用户对每张所述图像的偏好程度，所述预测模型的输入是基于所述用户特征向量和N个所述第一融合特征向量确定的，所述用户特征向量用于表征目标用户的用户特征数据。
根据权利要求3所述的方法，其特征在于，所述基于所述用户特征向量和所述N个词向量对应的N个所述第一融合特征向量，并通过预测模型预测所述目标用户对每张所述图像的偏好程度包括：

对于每张所述图像，通过自注意力机制的模型对所述N个词向量对应的N个所述第一融合特征向量进行处理，以得到N个语义增强特征向量，每个所述第一融合特征向量对应一个语义增强特征向量；

基于所述用户特征向量和所述N个语义增强特征向量，并通过预测模型预测所述目标用户对每张所述图像的偏好程度，所述预测模型的输入是基于所述用户特征向量和所述N个语义增强特征向量确定的。
根据权利要求4所述的方法，其特征在于，所述基于所述用户特征向量和所述N个语义增强特征向量，并通过预测模型预测所述目标用户对每张所述图像的偏好程度包括：

对于每张所述图像，通过加法注意力机制的模型将所述N个语义增强特征向量融合，以得到第二融合特征向量；

基于所述用户特征向量和所述第二融合特征向量，并通过预测模型预测所述目标用户对每张所述图像的偏好程度，所述预测模型的输入是基于所述用户特征向量和所述第二融合特征向量确定的。
根据权利要求1所述的方法，其特征在于，每张所述图像的图像特征数据包括全局特征向量，所述全局特征向量用于表征所述图像。
根据权利要求6所述的方法，其特征在于，所述基于目标用户的用户特征数据和所述图像特征数据，并通过预测模型预测所述目标用户对每张所述图像的偏好程度包括：

对于每张所述图像，基于每张所述图像中的所述候选内容获取内容特征向量，所述内容特征向量用于表征所述候选内容；

基于所述内容特征向量和所述全局特征向量，确定所述内容特征向量的权重和所述全局特征向量的权重；

基于所述内容特征向量的权重和所述全局特征向量的权重，将所述内容特征向量和所述全局特征向量融合，以得到第三融合特征向量；

基于所述用户特征向量和所述第三融合特征向量，并通过预测模型预测所述目标用户对每张所述图像的偏好程度，所述预测模型的输入是基于所述用户特征向量和所述第三融合向量确定的，所述用户特征向量用于表征目标用户的用户特征数据。
根据权利要求1至7中任意一项所述的方法，其特征在于，所述基于所述偏好程度从所述多张图像包含的所述候选界面和所述候选内容中，选择候选内容和/或候选界面，以进行推荐包括：

基于所述偏好程度从所述多张图像包含的所述候选内容中选择一种候选内容作为目标候选内容；

基于所述偏好程度从包含所述目标候选内容的所述图像的所述候选界面中，选择一种候选界面作为目标候选界面，以通过所述目标候选界面推荐所述目标候选内容。
根据权利要求8所述的方法，其特征在于，在所述基于所述偏好程度从包含所述目标候选内容的所述图像的所述候选界面中，选择一种候选界面作为目标候选界面之后，所述方法还包括：

向终端设备发送所述目标候选界面的元数据和所述目标候选内容，以使得所述终端设备基于所述元数据显示所述目标候选界面，并通过所述目标候选界面向所述目标用户推荐所述目标候选内容。
一种训练方法，其特征在于，包括：

获取多个样本图像，每个所述样本图像包含一个样本候选界面和通过所述样本候选界面呈现的一种样本候选内容；

获取每个所述样本图像的图像特征数据；

基于样本用户的用户特征数据和所述图像特征数据，并通过预测模型预测所述样本用户对每个所述样本图像的偏好程度，所述预测模型的输入是基于所述用户特征数据和所述图像特征数据确定的；

基于所述偏好程度和所述样本用户对所述样本候选内容的历史点击数据，对所述预测模型进行调整。
根据权利要求10所述的方法，其特征在于，每个所述样本图像包括多个区域；

每个所述样本图像的图像特征数据包括多个局部特征向量，每个所述局部特征向量用于表征一个所述区域。
根据权利要求11所述的方法，其特征在于，所述基于样本用户的用户特征数据和所述图像特征数据，并通过预测模型预测所述样本用户对每个所述样本图像的偏好程度包括：

对于每个所述样本图像，基于每个所述样本图像中的所述样本候选内容获取N个词向量，每个所述词向量表征所述样本候选内容中的一个词语，其中，N为正整数；

对于每个所述词向量，基于每个所述词向量和所述多个局部特征向量，并通过注意力机制的模型计算所述多个局部特征向量各自的注意力权重，所述注意力权重表示所述样本用户在阅读每个所述词向量表征的词语时，关注所述局部特征向量表征的区域的程度；

基于所述多个局部特征向量各自的注意力权重，将每个所述词向量和所述多个局部特征向量融合，以得到第一融合特征向量，每个所述词向量对应得到一个所述第一融合特征向量；

基于所述用户特征向量和所述N个词向量对应的N个所述第一融合特征向量，并通过预测模型预测所述样本用户对每个所述样本图像的偏好程度，所述预测模型的输入是基于所述用户特征向量和N个所述第一融合特征向量确定的，所述用户特征向量用于表征样本用户的用户特征数据。
根据权利要求12所述的方法，其特征在于，所述基于所述用户特征向量和所述N个词向量对应的N个所述第一融合特征向量，并通过预测模型预测所述样本用户对每个所述样本图像的偏好程度包括：

对于每个所述样本图像，通过自注意力机制的模型对所述N个词向量对应的N个所述第一融合特征向量进行处理，以得到N个语义增强特征向量，每个所述第一融合特征向量对应一个语义增强特征向量；

基于所述用户特征向量和所述N个语义增强特征向量，并通过预测模型预测所述样本用户对每个所述样本图像的偏好程度，所述预测模型的输入是基于所述用户特征向量和所述N个语义增强特征向量确定的。
根据权利要求13所述的方法，其特征在于，所述基于所述用户特征向量和所述N个语义增强特征向量，并通过预测模型预测所述样本用户对每个所述样本图像的偏好程度包括：

对于每个所述样本图像，通过加法注意力机制的模型将所述N个语义增强特征向量融合，以得到第二融合特征向量；

基于所述用户特征向量和所述第二融合特征向量，并通过预测模型预测所述样本用户对每个所述样本图像的偏好程度，所述预测模型的输入是基于所述用户特征向量和所述第二融合特征向量确定的。
根据权利要求10所述的方法，其特征在于，每个所述样本图像的图像特征数据包括全局特征向量，所述全局特征向量用于表征所述样本图像。
根据权利要求15所述的方法，其特征在于，所述基于样本用户的用户特征数据和所述图像特征数据，并通过预测模型预测所述样本用户对每个所述样本图像的偏好程度包括：

对于每个所述样本图像，基于每个所述样本图像中的所述样本候选内容获取内容特征向量，所述内容特征向量用于表征所述样本候选内容；

基于所述内容特征向量和所述全局特征向量，确定所述内容特征向量的权重和所述全局特征向量的权重；

基于所述内容特征向量的权重和所述全局特征向量的权重，将所述内容特征向量和所述全局特征向量融合，以得到第三融合特征向量；

基于所述用户特征向量和所述第三融合特征向量，并通过预测模型预测所述样本用户对每个所述样本图像的偏好程度，所述预测模型的输入是基于所述用户特征向量和所述第三融合向量确定的，所述用户特征向量用于表征样本用户的用户特征数据。
一种推荐装置，其特征在于，包括：

第一图像获取单元，用于获取多张图像，每张所述图像包含一个候选界面和通过所述候选界面呈现的一种候选内容；

第一特征数据获取单元，用于获取每张所述图像的图像特征数据；

第一预测单元，用于基于目标用户的用户特征数据和所述图像特征数据，并通过预测模型预测所述目标用户对每张所述图像的偏好程度，所述预测模型的输入是基于所述用户特征数据和所述图像特征数据确定的；

推荐单元，用于基于所述偏好程度从所述多张图像包含的所述候选界面和所述候选内容中，选择候选内容和/或候选界面，以进行推荐。
一种训练装置，其特征在于，包括：

第二图像获取单元，用于获取多个样本图像，每个所述样本图像包含一个样本候选界面和通过所述样本候选界面呈现的一种样本候选内容；

第二特征数据获取单元，用于获取每个所述样本图像的图像特征数据；

第二预测单元，用于基于样本用户的用户特征数据和所述图像特征数据，并通过预测模型预测所述样本用户对每个所述样本图像的偏好程度，所述预测模型的输入是基于所述用户特征数据和所述图像特征数据确定的；

调整单元，用于基于所述偏好程度和所述样本用户对所述样本候选内容的历史点击数据，对所述预测模型进行调整。
一种计算机设备，其特征在于，包括存储器和处理器，其中，所述存储器用于存储计算机可读指令；所述处理器用于读取所述计算机可读指令并实现如权利要求1-9任意一项所述的方法。
一种训练设备，其特征在于，包括存储器和处理器，其中，所述存储器用于存储计算机可读指令；所述处理器用于读取所述计算机可读指令并实现如权利要求10-16任意一项所述的方法。
一种计算机存储介质，其特征在于，存储有计算机可读指令，且所述计算机可读指令在被处理器执行时实现如权利要求1-16任意一项所述的方法。
一种计算机程序产品，其特征在于，所述计算机程序产品中包含计算机可读指令，当该计算机可读指令被处理器执行时实现如权利要求1-16任意一项所述的方法。
一种推荐系统，其特征在于，包括终端设备和服务器；

所述服务器用于执行如权利要求9所述的方法；

所述终端设备用于接收来自所述服务器的目标候选界面的元数据和目标候选内容；

基于所述元数据显示所述目标候选界面，并通过所述目标候选界面向所述目标用户推荐所述目标候选内容。