WO2021223567A1

WO2021223567A1 - 内容处理方法、装置、计算机设备和存储介质

Info

Publication number: WO2021223567A1
Application number: PCT/CN2021/086180
Authority: WO
Inventors: 黄剑辉; 粱龙军; 刘海波
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2020-05-07
Filing date: 2021-04-09
Publication date: 2021-11-11
Also published as: CN111581510B; CN111581510A; US20220222920A1

Abstract

一种内容处理方法，包括：获取待处理内容的描述文本和待处理内容所包括的图像(S302)；对于描述文本，基于文本语义进行特征提取，获得文本特征向量(S304)；对于图像，基于图像语义进行特征提取，获得图像特征向量(S306)；将文本特征向量和图像特征向量融合，获得图文多模态向量(S308)；根据图文多模态向量对待处理内容进行点击率预测(S310)。

Description

内容处理方法、装置、计算机设备和存储介质

本申请要求于2020年05月07日提交中国专利局，申请号为2020103773810，申请名称为“分享内容处理方法、装置、计算机设备和存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机技术领域，具体涉及一种内容处理方法、装置、计算机设备和存储介质。

背景技术

随着互联网技术的迅速发展，各种互联网平台为用户提供的信息资源越来越丰富，如视频内容、图文信息、用户生成内容等各种分享内容，用户可以从各种社交网络、视频分享网络、社区论坛和博客等平台获取用户所需的内容。随着人工智能(Artificial Intelligence,AI)技术的迅速发展，能够基于云计算、分布式存储、大数据处理等技术，向用户智能推荐各种分享内容。

目前，相关技术是通过是按照内容的热度或评分信息推送给相应的用户。这种方式往往使得近期被多次曝光点击的内容在推送排序中更容易被优先再次曝光。然而，对于一些处于冷启动阶段的未曝光或曝光度较低的优质内容则缺乏曝光机会，导致优质内容的推送质量和推送效率较低。

发明内容

一种内容处理方法，所述方法包括：

获取待处理内容的描述文本和所述待处理内容所包括的图像；

对于所述描述文本，基于文本语义进行特征提取，获得文本特征向量；

对于所述图像，基于图像语义进行特征提取，获得图像特征向量；

将所述文本特征向量和所述图像特征向量融合，获得图文多模态向量；及

根据所述图文多模态向量对所述待处理内容进行点击率预测。

一种内容处理装置，所述装置包括：

数据获取模块，用于获取待处理内容的描述文本和所述待处理内容所包括的图像；

文本特征提取模块，用于对于所述描述文本，基于文本语义进行特征提取，获得文本特征向量；

图像特征提取模块，用于对于所述图像，基于图像语义进行特征提取，获得图像特征向量；

特征融合模块，用于将所述文本特征向量和所述图像特征向量融合，获得图文多模态向量；及

点击率预测模块，用于根据所述图文多模态向量对所述待处理内容进行点击率预测。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

一种计算机程序产品或计算机程序，所述计算机程序产品或计算机程序包括计算机指令，所述计算机指令存储在计算机可读存储介质中；所述计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令，所述处理器执行所述计算机指令时实现以下步骤：

本申请中的一个或多个实施例的细节在下面的附图和描述中提出。本申请的其他特征、目的和优点将从说明书、附图以及权利要求书中变得明显。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个实施例中提供的内容处理方法的应用环境图；

图2是本申请另一个实施例中提供的内容处理方法的应用环境图；

图3是本申请一个实施例中提供的内容处理方法的流程示意图；

图4是本申请一个实施例中提供的点击率预测模型的模型结构示意图；

图5是本申请一个实施例中通过点击率预测模型对待处理内容进行处理的步骤的流程示意图；

图6是本申请一个具体的实例中提供的视频内容的示意图；

图7是本申请一个具体的实例中通过点击率预测模型预测视频内容的点击率的流程示意图；

图8是本申请一个实施例中提供的点击率预测模型的训练步骤的流程示意图；

图9是本申请另一个实施例中提供的内容处理方法的流程示意图；

图10是本申请一个实施例中内容的搜索流程示意图和推荐结果示意图；

图11是本申请一个具体的实例中提供的内容处理方法的流程示意图；

图12是本申请一个实施例中提供的内容处理装置的结构框图；

图13是本申请另一个实施例中提供的内容处理装置的结构框图；

图14是本申请又一个实施例中提供的内容处理装置的结构框图；

图15是本申请一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的方案涉及人工智能、机器学习(Machine Learning,ML)和计算机视觉(Computer Vision,CV)和图像处理等技术。人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、技术及应用系统，使机器具有感知、推理与决策的功能。机器学习涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科，研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。计算机视觉和图像处理技术是通过计算机设备代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，试图建立能够从图像或者多维数据中获取信息的人工智能系统。通过对待处理内容中的描述文本和图像进行基于机器学习和图像处理技术等处理，从而能够有效实现对内容进行点击率预测，进一步还能够根据点击率预测的结果对内容进行智能推荐。

本申请提供的内容处理方法，可应用于计算机设备中。计算机设备可以为终端或服务器。可以理解的是，本申请提供的内容处理方法可以应用于终端，也可以应用于服务器，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。

在一个实施例中，计算机设备可以为服务器。本申请提供的内容处理方法，可以应用于如图1所示的应用环境图中，该应用环境包括终端和服务器的系统，并通过终端和服务器的交互实现。其中，终端102通过网络与服务器104进行通信。其中，终端102可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。服务器104可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

具体地，用户可以通过终端102发布各种内容，服务器104获取终端102发布的内容并存储。服务器104进一步获取待处理内容的描述文本和待处理内容所包括的图像，基于文本语义对描述文本进行特征提取，获得描述文本对应的文本特征向量。基于图像语义对图像进行特征提取，获得图像对应的图像特征向量。通过将文本特征向量和图像特征向量进行特征融合，获得包括文本语义和图像语义的图文多模态向量。服务器104进而根据获得的图文多模态向量对待处理内容进行点击率预测。

在另一个实施例中，计算机设备可以为终端。本申请提供的内容处理方法，可以应用于如图2所示的应用环境图中，该应用环境包括终端和服务器的系统，并通过终端和服务器的交互实现。其中，服务器202通过网络与终端204进行通信。服务器202可以包括多种内容类型对应的服务器。服务器202中包括大量的待处理内容，例如，可以包括用户上传的内容以及从各种内容网站爬取的内容等。用户可以通过对应的终端204从服务器202中获取待处理内容，具体地，终端204可根据输入的搜索关键字从服务器202中获取相匹配的待处理内容。终端204进一步获取待处理内容的描述文本和待处理内容所包括的图像，基于文本语义对描述文本进行特征提取，获得描述文本对应的文本特征向量。基于图像语义对图像进行特征提取，获得图像对应的图像特征向量。通过将文本特征向量和图像特征向量进行特征融合，获得包括文本语义和图像语义的图文多模态向量。终端204进而根据获得的图文多模态向量对待处理内容进行点击率预测，得到对应的点击率预测值。然后，终端204还可以进行一步按照每个待处理内容的点击率预测值进行排序，并在终端204的展示区域按展示照排序后的内容。

在一个实施例中，如图3所示，提供了一种内容处理方法，以该应用于计算机设备来举例说明，该计算机设备具体可以是终端或者服务器。本实施例中，该方法包括以下步骤：

S302，获取待处理内容的描述文本和待处理内容所包括的图像。

其中，分享可以表示在各种互联网客户端或者浏览器中的一种常用网络功能，用户可以通过各种互联网平台发布或获取各种文章、图片、视频或网页等信息内容。这些信息内容可以通过各种平台渠道如社交网络、视频分享网络、社区论坛和博客等发布或分享，以分享给其他用户。

待处理内容可以包括但不限于文章、图片、视频或网页，待处理内容具体可以包括UGC、广告、网页、分享内容等各种形式的信息内容。其中，UGC(User Generated Content，用户内容)即用户生成内容，即用户将创作的内容通过互联网平台进行展示或者提供给其他用户。例如社交网络、视频分享网络、社区论坛和博客等都是UGC的主要应用形式。其中，分享内容可以是用于传播或分享的内容。

描述文本是指用文本的形式描述内容的特征，例如标题信息、主题信息以及待处理内容中的文本内容等。待处理内容所包括的图像是指待处理内容中的图像，例如可以是待处理内容中包括的图片，也可以是待处理内容中的局部图像，如待处理内容为视频内容时，待处理内容所包括的图像可以是视频分享内容的其中一帧图像。

具体地，计算机设备获取待处理内容后，获取待处理内容的描述文本和待处理内容所包括的图像。其中，计算机获取的待处理内容可以是用户发布的内容，也可以是待推送的分享内容，还可以是基于搜索关键字对应的待推荐的内容等，在此不做限定。

例如，计算机设备可以直接获取待处理内容的标题信息或者配文信息等，以获取待处理内容的描述文本。计算机设备可以直接获取待处理内容所包括的图片。例如，若待处理内容为视频内容或其他动态形式的内容时，计算机还可以获取视频内容的封面图像，或者从视频内容中获取关键帧图像作为视频内容所包括的图像。

在一个实施例中，当待处理内容为视频内容时，描述文本为视频内容所包括的文本内容，图像为从视频内容中所提取的图像。

其中，视频内容是指包括视频的内容，视频包括一系列连续的画面图像。例如视频内容可以包括用户自定义生成的视频或广告视频等。关键帧是指角色或者物体运动或变化中的关键动作所处的那一帧，视频内容中的关键帧图像表示能够反映视频内容的代表性特点的其中一帧图像。在一个实施例中，视频内容的图像，可以为视频内容中预设的封面图像。在另一个实施例中，视频内容的图像，还可以为从视频内容中提取的关键帧图像。

视频内容通常包括标题信息和视频内容。在对视频形式的内容进行处理时，描述文本则为视频内容的标题，图像则为视频内容的关键帧图像。通常视频内容的标题和关键帧图像可以反映出该视频内容所表示的内容含义。

在一个实施例中，图像为从视频内容中所提取的关键帧图像，关键帧图像通过图像提取步骤得到，图像提取步骤包括：从视频内容中提取至少两个视频关键帧；确定至少两个视频关键帧分别与描述文本的相关度；按照相关度从至少两个视频关键帧中确定关键帧图像。

计算机设备获取视频内容后，通过对视频内容进行关键帧提取，获得视频内容的关键帧图像。具体地，视频内容包括至少两个视频片段，计算机设备从视频内容中提取至少两个视频关键帧，具体可以从每个视频片段中提取出对应的视频关键帧。计算机设备进一步确定至少两个视频关键帧分别与描述文本的相关度，进而按照相关度从至少两个视频关键帧中确定关键帧图像，由此能够有效地提取视频内容中的关键帧图像。例如，具体可以采用基于帧平均的算法或基于运动目标检测算法等方式提取视频片段中的关键帧图像。通过从视频内容中提取关键帧图像，能够有效地获得视频内容中最具有代表性的图像。

S304，对于描述文本，基于文本语义进行特征提取，获得文本特征向量。

其中，语义可以表示数据所对应的显示世界中的食物所代表的概念和含义，以及这些含义之间的关系，是数据在某个领域上的解释和逻辑表示。文本语义即描述文本对应的含义和逻辑表示。

特征向量是数学学科中的一个专业名词，即线性变换的特征向量(本征向量) 是一个非退化的向量，其方向在该变换下不变，该向量在此变换下缩放的比例称为其特征值(本征值)。一个线性变换通常可以由其特征值和特征向量完全描述，相同特征值的特征向量集合称之为特征空间。文本特征向量即描述文本经过线性变换和特征提取所获得的，基于文本语义的特征向量表示。

计算机设备获取待处理内容的描述文本后，基于文本语义对描述文本进行特征提取，获得描述文本对应的文本特征向量。计算机设备可以采用预设算法、预训练的算法模型等对描述文本进行特征提取，具体可以是经过训练后具有自然语言处理(NLP，Natural Language Processing)能力的语言模型。例如BERT模型(Bidirectional Encoder Representations from Transformers，双向编码变换模型)、CLSM模型(convolutional latent semantic model，语义模型)、LSTM模型(Long Short-Term Memory，长短期记忆网络)或Word2Vec模型(word to vector，用于产生词向量的模型)等。

通过对描述文本进行特征提取，从而能够有效地提取出描述文本所蕴含的文本语义，由此能够基于文本语义进一步对待处理内容进行分析。

S306，对于图像，基于图像语义进行特征提取，获得图像特征向量。

其中，图像的语义分为视觉层、对象层和概念层，视觉层即通常所理解的底层，即颜色、纹理和形状等，这些特征可以被称为底层特征语义；对象层即中间层，通常包含了属性特征等，就是某一对象在某一时刻的状态；概念层是高层，是图像表达出的最接近人类理解的东西。例如一张图像上有沙子、蓝天、海水等，通常而言，视觉层是一块块的区分，对象层是沙子、蓝天和海水这些，概念层就是海滩，可以表征图像的类别，即整个图像所表现出的语义。

图像特征用于描述图像区域所对应的景物的性质，包括颜色特征、纹理特征、形状特征和空间关系特征，这些特征的结合可以用于表征图像的语义类别。本实施例中的图像语义即指表征图像语义类别的图像特征。图像特征向量即图像语义对应的特征向量表示。

计算机设备获取待处理内容所包括的图像后，基于图像语义对图像进行特征提取，获得图像对应的图像特征向量。具体地，计算机设备可以经过训练的图像语义提取模型对图像进行特征提取，例如可以采用ResNet(残差网络)、 CNN(Convolutional Neural Network，卷积神经网络)、DNN模型(Deep Neural Network，深度神经网络)等图像语义提取模型对图像进行特征提取。图像语义提取模型也可以是多种神经网络模型的组合。

通过对待处理内容所包括的图像进行特征提取，从而能够有效地提取出图像所蕴含的图像语义，由此能够基于图像语义进一步对待处理内容进行分析。

S308，将文本特征向量和图像特征向量融合，获得图文多模态向量。

其中，每一种信息的来源或者形式可以为一种模态，例如文字、图像、语音等形式分别对应一种模态。多模态向量可以表示通过多模态之间的互补性，剔除模态间的冗余性，学习得到的特征表示。即将多个模态的信息映射到一个统一的多模态向量空间。

特征融合是将提取的不同特征通过某种方式生成新的特征，以获得更加有效的特征。图文多模态向量则可以为文本特征向量和图像特征向量的联合表示。

计算机设备分别获得描述文本对应的文本特征向量和图像对应的图像特征向量后，进一步对文本特征向量和图像特征向量进行特征融合，从而获得待处理内容的图文多模态向量。

具体地，计算机设备可以采用向量连接、点乘或机器学习模型等方式将文本特征向量和图像特征向量融合，获得图文多模态向量。通过分别获取待处理内容的文本特征向量和图像特征向量后，对文本特征向量和图像特征向量进行特征融合，由此能够有效地提取出待处理内容中的文本语义和图像语义，从而能够精准有效地获得图文多模态向量。

S310，根据图文多模态向量对待处理内容进行点击率预测。

其中，点击率(CTR，Click-Through-Rate，即点击通过率)，指互联网中的网络信息(如图片信息、视频信息、广告信息等)的点击到达率，即信息内容的实际点击次数与展现量(即曝光量)的比值。点击率通常可以反映待处理内容的质量效果，其可以作为衡量待处理内容的质量效果的一项指标。以广告内容为例，CTR是衡量互联网广告效果的一项重要指标。

点击率预测是对待处理内容的点击情况进行预测，用于判断待处理内容被用户点击的概率。在一个实施例中，通过点击率预测得到的点击率预测值，可以用于对待处理内容进行推荐。

计算机设备通过对提取的文本特征向量和图像特征向量进行融合，获得图文多模态向量后，进而根据图文多模态向量对待处理内容进行点击率预测。具体地，计算机设备可以采用回归预测的方式，根据图文多模态向量对待处理内容的点击率进行预测。在另一个实施例中，计算机设备还可以通过预训练的点击率预测模型，根据图文多模态向量对待处理内容的点击率进行预测。由此能够准确有效地根据待处理内容的多模态向量预测出待处理内容的点击率预测值。

上述内容处理方法中，计算机设备获取待处理内容所包括的描述文本和图像后，基于文本语义对描述文本进行特征提取，从而能够有效获得描述文本对应的文本特征向量。基于图像语义对图像进行特征提取，从而能够有效获得图像对应的图像特征向量。通过将文本特征向量和图像特征向量进行特征融合，由此能够有效地获得包括文本语义和图像语义的图文多模态向量。进一步根据获得的图文多模态向量对待处理内容进行点击率预测。由于图文多模态向量包含了内容的文本语义和图像语义，能够准确地反映出内容的图文关联性，并且还能有效识别图文不对应的内容。由此基于包含文本语义和图像语义的图文多模态向量的双重指导对内容进行点击率预测，能够精准地预测待处理内容对应的点击率预测值，以获得较为准确合理的点击率预测值，从而有效提高了内容的点击率预测的精准度。

在一个实施例中，文本特征向量，是通过点击率预测模型所包括的文本语义提取网络提取的；图像特征向量，是通过点击率预测模型所包括的图像语义提取网络提取的。

其中，点击率预测模型是经过训练后具有点击率预测能力的模型，具体可以为基于机器学习的神经网络模型。点击率预测模型包括文本语义提取网络和图像语义提取网络。文本语义提取网络可以为基于文本语义模型的网络结构，例如可以为文本语义模型中的元模型，即文本语义模型中所包括的用于提取文本特征向量的部分网络结构。其中，元模型是描述模型中的元素、元素间关系以及表示，模型中包括了元模型。以神经网络模型为例，元模型可以视为模型的其中一部分神经网络结构，用于提取特定的特征表示。

类似地，图像语义提取网络可以为基于图像语义模型的网络结构，例如可以为图像语义模型中的元模型，即图像语义模型中所包括的用于提取图像特征向量的部分网络结构。

点击率预测模型中所包括的文本语义提取网络用于提取描述文本的文本特征向量，点击率预测模型中所包括的图像语义提取网络用于提取图像特征向量。通过点击率预测模型中的文本语义提取网络和图像语义提取网络对应的通道，分别提取待处理内容的文本特征向量和图像特征向量，能够精准有效地分别提取待处理内容的多模态特征，从而有效地获得待处理内容的文本语义和图像语义对应的向量表示。

在一个实施例中，对于描述文本，基于文本语义进行特征提取，获得文本特征向量，包括：通过文本语义提取网络，从描述文本提取文本语义特征；基于文本语义特征进行编码，获得预设维度的文本特征向量。

其中，文本语义提取网络可以为预训练的深度神经网络模型。文本语义提取网络中包括至少两层网络结构，用于提取描述文本的字向量、文本向量、位置向量等各种特征表示。

计算机设备获取待处理内容的描述文本后，将描述文本输入至点击率预测模型中所包括的文本语义提取网络。通过文本语义提取模型对描述文本进行语义特征提取，获得描述文本的文本语义特征。文本语义提取网络进一步对文本语义特征进行编码，得到预设维度的文本特征向量。

例如，文本语义提取网络可以采用基于BERT模型的元模型进行文本语义特征提取。除此之外，还可以采用基于LSTM模型或基于CNN模型的元模型进行文本语义特征提取，在此不做限定。

以基于BERT模型的文本语义提取网络为例，计算机设备将描述文本输入至点击率预测模型后，将描述文本输入至文本语义提取网络。文本语义提取网络可以将描述文本中的每个字转换为一维向量，作为模型输入。文本语义提取网络进一步学习和提取文本向量，用于获取描述文本的全局语义信息，并与各个字或词的语义信息融合。由于各个字或词在文本的不同位置，所携带的语义信息存在差异，因此文本语义提取网络还进一步提取不同位置的字或词对应的位置向量。文本语义提取网络中的自注意力机制网络则基于字向量、词向量和位置向量增强语义向量表示，进而通过文本语义提取网络的编码层输出预设维度的文本特征向量。例如编码层可以为全连接层，可以根据全连接层的网络结构输出预设维度(如1024维、2048维等)的文本特征向量表示。

本实施例中，通过点击率预测模型中的文本语义提取网络对描述文本进行语义特征提取，由此能够准确有效获得待处理内容中描述文本的语义信息表示。

在一个实施例中，对于图像，基于图像语义进行特征提取，获得图像特征向量，包括：通过图像语义提取网络，从图像提取图像语义特征；对图像语义特征进行编码，获得预设维度的图像特征向量。

其中，图像语义提取网络可以为预训练的深度神经网络模型，具体可以为基于图像分类任务的神经网络模型。

计算机设备获取待处理内容所包括的图像后，将图像输入至点击率预测模型中所包括的图像语义提取网络。通过图像语义提取模型对图像进行图像语义特征提取，获得图像的图像语义特征。图像语义提取网络进一步对图像语义特征进行编码，得到预设维度的图像特征向量。

例如，图像语义提取网络可以采用基于ResNet模型的元模型进行文本语义特征提取。除此之外，还可以采用基于LSTM模型或基于CNN模型的元模型对图像进行图像语义特征提取，在此不做限定。

以基于ResNet模型的图像语义提取网络为例，可以采用基于大规模分类图像数据ImageNet数据集预训练获得ResNet模型，将ResNet模型作为图像语义提取网络。计算机设备将图像输入至点击率预测模型中的图像语义提取网络。图像语义提取网络中包括至少两层卷积层，用于提取图像特征表示。通过图像语义提取网络中的各层神经网络对图像进行图像特征提取，具体可以通过图像语义提取网络中的推叠层拟合残差映射，以获得图像的类别语义特征表示。进一步通过图像语义提取网络中的全连接网络对图像语义特征进行编码，输出预设维度的图像语义特征向量。其中预设维度由编码层的全连接网络决定，如预设维度可以为1024维、2048维等。基于ResNet模型的图像语义提取网络可以深度学习图像的各种特征表示，由此能够准确地提取图像的图像语义特征表示。

在一个实施例中，将文本特征向量和图像特征向量融合，获得图文多模态向量包括：通过点击率预测模型所包括的特征连接层，将文本特征向量和图像特征向量融合，获得图文多模态向量；根据图文多模态向量对待处理内容进行点击率预测包括：将图文多模态向量输入点击率预测模型所包括的预测层，通过预测层，根据图文多模态向量对待处理内容进行点击率预测。

计算机设备获取待处理内容的描述文本和待处理内容所包括的图像后，对描述文本进行文本语义特征提取，得到对应的文本特征向量；并对图像进行图像语义特征提取，得到对应的图像特征向量。计算机设备进而通过点击率预测模型所包括的特征连接层，将文本特征向量和图像特征向量融合，得到待处理内容的图文多模态向量。计算机设备进一步将图文多模态向量输入点击率预测模型所包括的预测层，进而通过预测层根据图文多模态向量预测待处理内容的点击率，从而得到待处理内容对应的点击率预测值。

具体地，点击率预测模型中包括文本语义提取网络和图像语义提取网络，还包括特征连接层，用于对文本语义提取网络和图像语义提取网络分别提取的文本语义特征向量和图像语义特征向量进行特征融合。点击率预测模型还包括预测层，用于根据图文多模态向量预测待处理内容的点击率。例如，参照图4所示，图4为一个实施例中点击率预测模型的模型结构示意图。图4所示的点击率预测模型42包括文本语义提取网络42a、图像语义提取网络42b、特征连接层42c以及预测层42d，其中文本语义提取网络用于提取文本特征，图像语义提取网络用于提取图像特征。

点击率预测模型中的文本语义提取网络和图像语义提取网络为分别独立的模型结构，文本语义提取网络和图像语义提取网络可以分别作为模型的输入通道，并分别对输入的数据进行相应的处理。

计算机设备获取待处理内容的描述文本和待处理内容所包括的图像后，则可以直接将描述文本输入至点击率预测模型中的文本语义提取网络，同时将待处理内容所包括的图像输入至图像语义提取网络。文本语义提取网络和图像语义提取网络分别对描述文本和图像进行处理，分别获得文本特征向量和图像特征向量。进而将文本特征向量和图像特征向量输入至特征连接层进行特征融合，从而得到待处理内容的图文多模态向量。特征连接层则将输出的图文多模态向量输入至预测层，预测层根据图文多模态向量对待处理内容的点击率进行回归预测，从而获得待处理内容的点击率预测值。通过引入文本语义模型和图像语义模型构建点击率预测模型，能够有效捕捉描述文本的语义和图像语义与点击率之间的关系，从而能够准确地预测待处理内容的点击率。由此根据点击率预测值对待处理内容进行推荐时，能够有效缓解待处理内容文不对题的现象，进而能够有效提高优质待处理内容的推荐质量和推荐效率。

在一个实施例中，如图5所示，通过点击率预测模型对待处理内容进行处理的步骤包括：

S502，通过点击率预测模型所包括的文本语义提取网络，从描述文本提取文本语义特征。

S504，基于文本语义特征进行编码，获得预设维度的文本特征向量。

S506，通过点击率预测模型所包括的图像语义提取网络，从描述文本提取文本语义特征。

S508，对图像语义特征进行编码，获得预设维度的图像特征向量。

S510，通过点击率预测模型所包括的特征连接层，将文本特征向量和图像特征向量融合，获得图文多模态向量。

S512，将图文多模态向量输入点击率预测模型所包括的预测层，通过预测层，根据图文多模态向量对待处理内容进行点击率预测。

在一个具体的实施例中，点击率预测模型包括文本语义模型、图像语义模型、特征连接层和预测层。其中，文本语义模型为预训练的BERT模型，图像语义模型为预训练的ResNet模型。计算机设备可以根据预先获取的训练样本，引入已经训练好的BERT文本语义模型和ResNet图像语义模型训练点击率预测模型。其中，可以将BERT模型和ResNet模型分别作为点击率预测模型中的编码器，以分别提取描述文本对应的文本特征编码向量和图像对应的图像特征编码向量。进一步通过预训练的点击率预测模型中的特征连接层将两端获得的文本特征编码向量和图像特征编码向量进行特征融合，得到待处理内容的图文多模态向量。进而通过点击率预测模型的预测层基于图文多模态向量对待处理内容的点击率进行回归预测，从而获得待处理内容的点击率预测值。

以待处理内容为视频内容为例，视频内容的描述文本通常为视频内容的标题。在视频内容搜索场景中，通常以视频标题加关键帧图像的缩略图的形式进行展示，因此合适的关键帧图像往往更有利于提高点击率预测的准确度。例如，视频内容的视频内容关于红烧肉的教程，参照图6，为一个具体实例中的视频内容的示意图。如图6所示，图6中展示了视频内容(a)、视频内容(b)、视频内容(c)和视频内容(d)。其中，视频内容(a)、视频内容(b)、视频内容(c)和视频内容(d)分别包括对应的标题内容和封面图像。图6中视频内容(a)中的标题内容是关于“红烧肉”的，但封面图像并未体现出与“红烧肉”相关的内容。视频内容(c)中的标题内容是关于“红烧肉”的信息，然而封面图像的内容则是“鸡翅鸡腿”相关的内容。由此可以看出，视频内容(a)和视频内容(c)中的标题内容与封面图像中的图像内容的关联度较低。而视频内容(b)和视频内容(d)中的标题内容和封面图像的内容均是关于“红烧肉”的信息。通常情况下，视频内容(b)和视频内容(d)所展示的视频内容更加吸引用户点击。而视频内容(a)和视频内容(c)中视频标题和封面图像所表达的内容的一致性不高，可能存在图文不对应的情况，通常这种视频内容的点击率不高。

参照图7，图7为一个实施例中通过点击率预测模型预测对视频内容的点击率进行预测的示意图，展示了对图6中的视频内容(b)进行处理的示意图。如图7所示，视频内容(b)70所表达的内容含义的为红烧肉的做法，视频内容的标题为“一学就会的家常红烧肉的做法”。计算机设备获取视频内容后，从视频内容中抽取关键帧图像701，并获取视频内容的标题702。计算机设备则将视频内容70的标题输入至点击率预测模型72所包括的文本语义模型72a，并将从视频内容中抽取的关键帧图像输入至点击率预测模型72所包括的图像语义模型72b。然后通过文本语义模型72a获得视频内容的文本特征向量，以及通过图像语义模型72b获得视频内容的图像特征向量后，分别将文本特征向量和图像特征向量输入至特征连接层72c进行特征融合，获得视频内容的图文多模态向量。点击率预测模型进而将所获得的图文多模态向量输入至预测层72d进行点击率预测，从而获得视频内容的点击率预测值。

由于视频内容中的标题和关键帧图像通常为视频内容所表达的关键信息，通过包括文本语义模型和图像语义模型的点击率预测模型，捕捉标题文本的语义和关键帧图像的图像语义与点击率之间的关系，从而能够准确地预测视频内容的点击率。由此进而在根据点击率预测值对内容进行推荐时，可以有效利用视频图像对用户的视觉冲击的同时，能够有效缓解视频内容中文不对题的现象，即标题内容与视频中的图像内容不对应的情况，进而能够有效提高优质视频内容的推荐精准度以及推荐效率。

在一个实施例中，内容处理方法是通过点击率预测模型执行的；点击率预测模型通过训练步骤训练获得，训练步骤包括：获取内容样本以及内容样本的训练标签；内容样本包括历史内容的描述文本和历史内容所包括的图像；训练标签是历史内容的历史点击率；基于内容样本和训练标签训练点击率预测模型。

本实施中，内容处理方法是通过点击率预测模型执行的。其中点击率预测模型是利用内容样本数据训练得到的。通过点击率预测模型对内容进行处理之前，需要预先训练点击率预测模型。

其中，内容样本可以为历史时间段内的历史内容，内容样本包括历史内容的描述文本和历史内容所包括的图像。即过去一段时间的曝光历史内容，历史内容包括了其在历史时间段内真实的历史点击率。在训练点击率预测模型的过程中，将历史内容作为用于训练的内容样本，将历史内容的历史点击率作为训练标签。训练标签用于对每次的训练结果进行调参等处理，以进一步训练和优化点击率预测模型。

内容样本可以是从预设样本库中获取的，也可以从各种平台中获取的，如社交网络、视频分享网络、社区论坛和博客等发布或分享的历史内容。内容样本可以包括描述文本和图像的文章内容、图文内容、视频内容或网页内容等。

具体地，计算机设备获取内容样本后，将内容样本中历史内容的描述文本，以及历史内容所包括的图像输入至预设的点击率预测模型中进行训练，并利用训练标签对点击率预测模型进行调参和优化，以训练出满足条件的点击率预测模型。

在一个实施例中，如图8所示，点击率预测模型的训练步骤包括：

S802，获取内容样本以及内容样本的训练标签；内容样本包括历史内容的描述文本和历史内容所包括的图像；训练标签是历史内容的历史点击率。

S804，通过点击率预测模型所包括的预训练的文本语义提取网络，提取内容样本的样本文本特征向量。

S806，通过点击率预测模型所包括的预训练的图像语义提取网络，提取内容样本的样本图像特征向量。

S808，通过点击率预测模型所包括的特征连接层，将样本文本特征向量和样本图像特征向量融合，获得样本图文多模态向量。

S810，通过点击率预测模型所包括的预测层，基于样本图文多模态向量确定内容样本的样本点击率。

S812，基于样本点击率与训练标签的差异，调整点击率预测模型的参数并继续训练，直至满足训练条件时停止训练。

其中，点击率预测模型中包括预训练的文本语义提取网络和预训练的图像语义提取网络。具体可以将文本语义提取网络和图像语义提取网络分别作为点击率预测模型中的Encoder层(编码层)。其中，图像语义提取网络的参数是固定的；文本语义提取网络的参数也可以是固定的。在其中一个实施例中，文本语义提取网络的参数还可以在训练点击率预测模型的过程中进行迁移学习，以对参数进行微调，比如可以采用Fine-tune(微调)方式。

计算机设备将历史内容的描述文本，以及历史内容所包括的图像输入至预设的点击率预测模型后，通过点击率预测模型所包括的预训练的文本语义提取网络，提取内容样本的样本文本特征向量。并通过点击率预测模型所包括的预训练的图像语义提取网络，提取内容样本的样本图像特征向量。计算机设备进一步通过点击率预测模型的特征连接层，将样本文本特征向量和样本图像特征向量融合，获得样本图文多模态向量。其中，连接层可以采用Concat方式对向量进行融合。

计算机设备将获得的样本图文多模态向量输入至点击率预测模型所包括的预测层，基于样本图文多模态向量对内容样本的样本点击率进行回归预测。进而基于样本点击率与样本标签的差异，调整点击率预测模型的参数并继续训练，直至满足训练条件时停止训练。

其中，样本点击率与效率标签的差异可以损失函数来衡量，例如可以选择平均绝对值损失函数(MAE)、平滑平均绝对误差(Huber损失)、交叉熵损失函数等函数作为损失函数。训练条件是结束模型训练的条件。训练停止条件可以是达到预设的迭代次数，或者是调整参数后的点击率预测模型的预测性能指标达到预设指标。

具体地，可以采用MSE作为最终的损失函数，其具体的公式如下：

其中，x _k为预测的样本点击率，y _k为训练标签的历史点击率，n为样本的个数，k表示每个样本的编号。

计算机设备通过预训练的文本语义提取网络提取内容样本中描述文本的文本特征向量，可以快速准确的获得内容样本的文本语义；通过预训练的图像语义提取网络提取内容样本在图像的样本图像特征向量，可以快速准确的获得内容样本的图像语义。利用待训练的点击率预测模型对提取的文本特征向量和样本图像特征向量进行点击率预测训练，得到样本点击率。计算机设备进而可以根据得到的样本点击率与训练标签的差异，逐步对点击率预测模型中的参数进行调整。由此在参数调整过程中，使得点击率预测模型能够同时结合文本语义和图像语义捕获样本内容与点击率之间的隐含关系。在基于点击率预测模型对待处理内容进行点击率预测时，得到了文本语义特征和图像语义特征的双重指导，从而提高了内容的点击率预测的准确性。

在一个具体的实施例中，内容样本可以是历史视频内容，历史视频内容包括视频标题和视频关键帧以及视频内容的历史点击率。通过将视频标题作为内容样本的描述文本，将视频关键帧作为内容样本所包括的图像，并将视频内容的历史点击率作为训练标签。然后，将内容样本输入至点击率预测模型中进行训练。在训练的过程中，可以采用回归预测方式对点击率预测模型进行训练，由此能够实现根据视频标题语义和关键帧图像语义与点击率之间的隐含关系进行建模，以有效地捕捉视频标题语义和关键帧图像语义，与点击率之间的关系。从而能够基于文本语义和图像语义的双重指导训练点击率预测模型，从而提高了点击率预测模型对内容进行点击率预测的准确性。

由此在预测内容的点击率时，根据包括文本语义和图像语义的图文多模态向量进行预测，能够有效缓解分享内容文不对题的现象，从而能够有效提高优质分享内容的点击率预测准确性。在进一步根据点击率预测值对内容进行推荐时，能够有效提高优质内容的曝光度，从而能够有效提高优质内容的推荐效率。

在一个实施例中，如图9所示，提供了一种内容处理方法，包括以下步骤：

S902，获取搜索关键字，根据搜索关键字确定待处理内容。

S904，获取待处理内容的描述文本和待处理内容所包括的图像。

S906，对于描述文本，基于文本语义进行特征提取，获得文本特征向量。

S908，对于图像，基于图像语义进行特征提取，获得图像特征向量。

S910，将文本特征向量和图像特征向量融合，获得图文多模态向量。

S912，根据图文多模态向量对待处理内容进行点击率预测，得到待处理内容对应的点击率预测值。

S914，根据得到的点击率预测值对待处理内容进行排序，按照排序的结果对待处理内容进行推荐。

其中，搜索关键字可以为基于查询请求携带的关键字。例如，用户通过搜索引擎搜索待处理内容时用户输入的所要查找的信息内容即为搜索关键字。

通常而言，历史曝光量、点击等统计信息在粗、精排过程中都是比较重要的特征，发挥着关键作用，往往近期被多次曝光点击的内容在排序中更容易被优先再次曝光。

用户可以通过对于的终端在内容分享平台基于搜索关键字发起查询请求。计算机设备获取搜索关键字后，根据搜索关键字确定用于推荐的待处理内容。计算机设备进而获取待处理内容的描述文本和待处理内容所包括的图像，基于文本语义对描述文本进行特征提取，从而能够有效获得描述文本对应的文本特征向量。基于图像语义对图像进行特征提取，从而能够有效获得图像对应的图像特征向量。通过将文本特征向量和图像特征向量进行特征融合，由此能够有效地获得包括文本语义和图像语义的图文多模态向量。进一步根据获得的图文多模态向量对待处理内容进行点击率预测，由此能够基于待处理内容的文本语义和图像语义精准有效地预测点击率，以获得较为准确合理的点击率预测值。

计算机设备进而将待推荐的待处理内容按照相应的点击率预测值进行排序，并按照排序的结果对待处理内容进行推荐。具体地，可以按照各待处理内容的点击率预测值进行降序排序，由此能够有效使得点击率预测值较高的内容展示在最前面，从而能够有效地将优质的内容展示在最容易曝光和被用户点击的位置。对于点击率预测值较低的内容的推荐序列则排在较低的位置。能够有效缓解待推荐的内容文不对题的现象，由此根据点击率预测值对内容进行推荐时，从而能够有效提高优质内容的推荐质量和推荐效率。

在一个实施例中，当待处理内容包括历史曝光信息时，根据历史曝光信息获取待处理内容的历史点击率；根据点击率预测值和历史点击率对待处理内容进行排序。

其中，已有历史曝光信息的待处理内容也包括通过上述方法所确定的点击率预测值。计算机设备根据搜索关键字确定待推荐的待处理内容，并根据待处理内容的图文多模态向量，对待处理内容进行点击率预测，得到对应的点击率预测值后。若其中的一些待处理内容携带历史曝光信息时，则根据历史曝光信息获取待处理内容的历史点击率，根据点击率预测值和历史点击率确定该待处理内容的推荐序列，按照推荐序列对待处理内容进行排序。若待处理内容没有携带历史曝光信息时，则直接根据点击率预测值确定待处理内容的推荐序列，从而得到待推荐的各待处理内容对应的推荐序列，并按照推荐序列对这些待处理内容进行排序推荐。通过结合点击率预测值和待处理内容的真实历史点击率进行推荐，能够有效促进优质待处理内容进一步曝光。对于未曝光的优质待处理内容，能够有效地通过点击率预测值来提升曝光量，从而能够有效提高优质待处理内容的推荐效率。

举例说明，参照图10，图10为一个具体的实施例中对待处理内容进行推荐的示意图，包括待处理内容的搜索流程示意图和推荐结果的界面示意图。以基于待处理内容的搜索引擎为例，在搜索的时候，通常会进行至少两轮排序，即经过粗排和精排。第一轮通常为粗排，通过简单的规则将庞大数据集中的其中一部分提取出来，进而参与第二轮的精排。在精排的过程中则可以基于待处理内容的点击率预测值和历史点击率进行排序。例如，索引库中存储了大量的待处理内容。用户在搜索待处理内容时，针对用户给定的query(查询)，比如用户基于搜索关键字发起查询请求时，计算机设备首先根据搜索关键字从索引库中召回用于推荐的待处理内容，并对获取的待处理内容进行多轮排序。计算机设备可以先按照预设排序规则对待处理内容进行粗排，然后基于待处理内容的图文多模态向量所确定的点击率预测值进一步进行精排，然后按照排序结果对待处理内容进行推荐，并在用户终端进行展示。由此能够有效地将优质的内容展示在容易被用户点击的位置，有效增强了优质内容的曝光机会，从而有效提高了推荐质量和优质内容的推荐效率。

在一个具体的实施例中，如图11所示，提供了一种内容处理方法，包括以下步骤：

S1102，获取搜索关键字，根据搜索关键字确定待处理内容。

S1104，获取待处理内容的描述文本和待处理内容所包括的图像。

S1106，通过点击率预测模型所包括的文本语义提取网络，从描述文本提取文本语义特征。

S1108，基于文本语义特征进行编码，获得预设维度的文本特征向量。

S1110，通过点击率预测模型所包括的图像语义提取网络，从图像提取图像语义特征。

S1112，对图像语义特征进行编码，获得预设维度的图像特征向量。

S1114，通过点击率预测模型所包括的特征连接层，将文本特征向量和图像特征向量融合，获得图文多模态向量。

S1116，将图文多模态向量输入点击率预测模型所包括的预测层，通过预测层，根据图文多模态向量对待处理内容进行点击率预测，得到待处理内容对应的点击率预测值；点击率预测值用于对待处理内容的推荐。

S1118，根据点击率预测值对待处理内容进行排序。

S1120，按照排序的结果对待处理内容进行推荐。

本实施例中，通过引入文本语义模型和图像语义模型训练得到的点击率预测模型，基于文本语义和图像语义获得的图文多模态向量预测待处理内容的点击率，能够有效捕捉描述文本的语义和图像语义与点击率之间的关系，从而能够准确地预测待处理内容的点击率预测值。由此根据点击率预测值对待处理内容进行推荐时，能够有效缓解待推荐的内容文不对题的现象，进而能够有效提高优质内容的推荐质量和推荐效率。

本申请还提供一种应用场景，该应用场景应用上述的内容处理方法，用于对各种内容分享平台(比如社交网络、视频分享网络、社区论坛和博客等)，发布或分享的分享内容进行点击率预测。具体地，用户可以在内容分享平台发布各种分享内容，待处理内容可以是用户发布的分享内容。计算机设备获取内容分享平台中新发布的分享内容后，则获取分享内容的描述文本和分享内容所包括的图像，基于文本语义对描述文本进行特征提取，获得描述文本对应的文本特征向量。基于图像语义对图像进行特征提取，获得图像对应的图像特征向量。通过将文本特征向量和图像特征向量进行特征融合，由此能够有效地获得包括文本语义和图像语义的图文多模态向量。进一步根据获得的图文多模态向量确定分享内容的点击率预测值。点击率预测值可以用于后续对分享内容进行推广和搜索排序等，从而能够有效提高优质分享内容的曝光量。

本申请还另外提供一种应用场景，该应用场景应用上述的内容处理方法，应用于内容的搜索场景。以视频分享网络平台为例，用户可以在视频应用平台搜索感兴趣的内容。其中，视频应用平台还可以为社交应用程序中的视频应用子程序，待处理内容为待推荐的视频内容。具体地，用户通过对应的用户终端基于关键词发起搜索请求后，视频应用平台对应的服务器根据搜索请求携带的关键词获取相匹配的待推荐的视频内容，进一步获取视频内容的描述文本和视频内容所包括的图像，基于文本语义和图像语义分别对描述文本和图像进行特征提取，获得描述文本对应的文本特征向量以及图像对应的图像特征向量。通过将文本特征向量和图像特征向量进行特征融合，获得包括文本语义和图像语义的图文多模态向量。服务器进一步根据图文多模态向量确定视频内容的点击率预测值，并根据点击率预测值对这些待推送的视频内容进行排序，进而将排序后的视频内容推送至用户终端，并按照排序结果在用户终端的显示界面展示视频内容。由此能够将点击率预测值较高的视频内容优先展示给用户，从而能够有效促进优质视频内容的曝光。

应该理解的是，虽然图3、5、8、9、11的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图3、5、8、9、11中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图12所示，提供了一种内容处理装置1200，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：数据获取模块1202、文本特征提取模块1204、图像特征提取模块1206、特征融合模块1208和点击率预测模块1210，其中：

数据获取模块1202，用于获取待处理内容的描述文本和待处理内容所包括的图像。

文本特征提取模块1204，用于对于描述文本，基于文本语义进行特征提取，获得文本特征向量。

图像特征提取模块1206，用于对于图像，基于图像语义进行特征提取，获得图像特征向量。

特征融合模块1208，用于将文本特征向量和图像特征向量融合，获得图文多模态向量。

点击率预测模块1210，用于根据图文多模态向量对待处理内容进行点击率预测。

在一个实施例中，文本特征提取模块1204还用于通过文本语义提取网络，从描述文本提取文本语义特征；基于文本语义特征进行编码，获得预设维度的文本特征向量。

在一个实施例中，图像特征提取模块1206还用于通过图像语义提取网络，从图像提取图像语义特征；对图像语义特征进行编码，获得预设维度的图像特征向量。

在一个实施例中，特征融合模块1208还用于通过点击率预测模型所包括的特征连接层，将文本特征向量和图像特征向量融合，获得图文多模态向量；点击率预测模块1210还用于将图文多模态向量输入点击率预测模型所包括的预测层，通过预测层，根据图文多模态向量对待处理内容进行点击率预测。

在一个实施例中，内容处理方法是通过点击率预测模型执行的；点击率预测模型通过训练步骤训练获得，如图13所示，上述内容处理装置还包括模型训练模块1201，用于获取内容样本以及内容样本的训练标签；内容样本包括历史内容的描述文本和历史内容所包括的图像；训练标签是历史内容的历史点击率；基于内容样本和训练标签训练点击率预测模型。

在一个实施例中，模型训练模块1201还用于通过点击率预测模型所包括的预训练的文本语义提取网络，提取内容样本的样本文本特征向量；通过点击率预测模型所包括的预训练的图像语义提取网络，提取内容样本的样本图像特征向量；通过点击率预测模型所包括的特征连接层，将样本文本特征向量和样本图像特征向量融合，获得样本图文多模态向量；通过点击率预测模型所包括的预测层，基于样本图文多模态向量确定内容样本的样本点击率；基于样本点击率与训练标签的差异，调整点击率预测模型的参数并继续训练，直至满足训练条件时停止训练。

在一个实施例中，所述图像为从所述视频内容中所提取的关键帧图像，所述关键帧图像通过图像提取步骤得到，数据获取模块1202还用于从视频内容中提取至少两个视频关键帧；确定至少两个视频关键帧分别与描述文本的相关度；按照相关度从至少两个视频关键帧中确定关键帧图像。

在一个实施例中，数据获取模块1202还用于获取搜索关键字；根据搜索关键字确定待处理内容；如图14所示，上述内容处理装置还包括内容推荐模块1212，用于在对待处理内容进行点击率预测之后，根据得到的点击率预测值对待处理内容进行排序；按照排序的结果对待处理内容的进行推荐。

在一个实施例中，内容推荐模块1212还用于当待处理内容包括历史曝光信息时，根据历史曝光信息获取待处理内容的历史点击率；根据点击率预测值和历史点击率对待处理内容进行排序。

关于内容处理装置的具体限定可以参见上文中对于内容处理方法的限定，在此不再赘述。上述内容处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备具体可以是图1中的服务器104，其内部结构图可以如图15所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储分享内容、描述文本以及分享内容所包括的图像等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种内容处理方法。

本领域技术人员可以理解，图15中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品或计算机可读指令，该计算机程序产品或计算机可读指令包括计算机可读指令，该计算机可读指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机可读指令，处理器执行该计算机可读指令，使得该计算机设备执行上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

一种内容处理方法，由计算机设备执行，所述方法包括：

获取待处理内容的描述文本和所述待处理内容所包括的图像；

对于所述描述文本，基于文本语义进行特征提取，获得文本特征向量；

对于所述图像，基于图像语义进行特征提取，获得图像特征向量；

将所述文本特征向量和所述图像特征向量融合，获得图文多模态向量；及

根据所述图文多模态向量对所述待处理内容进行点击率预测。
根据权利要求1所述的方法，其特征在于，所述文本特征向量，是通过点击率预测模型所包括的文本语义提取网络提取的；及

所述图像特征向量，是通过所述点击率预测模型所包括的图像语义提取网络提取的。
根据权利要求2所述的方法，其特征在于，所述对于所述描述文本，基于文本语义进行特征提取，获得文本特征向量包括：

通过所述文本语义提取网络，从所述描述文本提取文本语义特征；及

基于所述文本语义特征进行编码，获得预设维度的文本特征向量。
根据权利要求2所述的方法，其特征在于，所述对于所述图像，基于图像语义进行特征提取，获得图像特征向量包括：

通过所述图像语义提取网络，从所述图像提取图像语义特征；及

对所述图像语义特征进行编码，获得预设维度的图像特征向量。
根据权利要求1至4中任一项所述的方法，其特征在于，所述将所述文本特征向量和所述图像特征向量融合，获得图文多模态向量包括：

通过点击率预测模型所包括的特征连接层，将所述文本特征向量和所述图像特征向量融合，获得图文多模态向量；及

所述根据所述图文多模态向量对所述待处理内容进行点击率预测包括：

将所述图文多模态向量输入所述点击率预测模型所包括的预测层，通过所述预测层，根据所述图文多模态向量对所述待处理内容进行点击率预测。
根据权利要求1所述的方法，其特征在于，所述待处理内容处理方法是通过点击率预测模型执行的；所述点击率预测模型通过训练步骤训练获得，所述训练步骤包括：

获取内容样本以及所述内容样本的训练标签；所述内容样本包括历史内容的描述文本和所述历史内容所包括的图像；所述训练标签是所述历史内容的历史点击率；及

基于所述内容样本和所述训练标签训练点击率预测模型。
根据权利要求6所述的方法，其特征在于，所述基于所述内容样本和所述训练标签训练点击率预测模型包括：

通过所述点击率预测模型所包括的预训练的文本语义提取网络，提取所述内容样本的样本文本特征向量；

通过所述点击率预测模型所包括的预训练的图像语义提取网络，提取所述内容样本的样本图像特征向量；

通过所述点击率预测模型所包括的特征连接层，将所述样本文本特征向量和所述样本图像特征向量融合，获得样本图文多模态向量；

通过所述点击率预测模型所包括的预测层，基于所述样本图文多模态向量确定所述内容样本的样本点击率；及

基于所述样本点击率与所述训练标签的差异，调整所述点击率预测模型的参数并继续训练，直至满足训练条件时停止训练。
根据权利要求1所述的方法，其特征在于，当所述待处理内容为视频内容时，所述描述文本为所述视频内容所包括的文本内容，所述图像为从所述视频内容中所提取的图像。
根据权利要求8所述的方法，其特征在于，所述图像为从所述视频内容中所提取的关键帧图像，所述关键帧图像通过图像提取步骤得到，所述图像提取步骤包括：

从所述视频内容中提取至少两个视频关键帧；

确定所述至少两个视频关键帧分别与所述描述文本的相关度；及

按照所述相关度从所述至少两个视频关键帧中确定关键帧图像。
根据权利要求1至9中任一项所述的方法，其特征在于，所述方法还包括：

获取搜索关键字；

根据所述搜索关键字确定待处理内容；

在对所述待处理内容进行点击率预测之后，根据得到的点击率预测值对所述待处理内容进行排序；及

按照所述排序的结果对所述待处理内容进行推荐。
根据权利要求10所述的方法，其特征在于，所述根据得到的点击率预测值对所述待处理内容进行排序包括：

当所述待处理内容包括历史曝光信息时，根据所述历史曝光信息获取所述待处理内容的历史点击率；及

根据所述点击率预测值和所述历史点击率，对所述待处理内容进行排序。
一种内容处理装置，设置于计算机设备中，所述装置包括：

数据获取模块，用于获取待处理内容的描述文本和所述待处理内容所包括的图像；

文本特征提取模块，用于对于所述描述文本，基于文本语义进行特征提取，获得文本特征向量；

图像特征提取模块，用于对于所述图像，基于图像语义进行特征提取，获得图像特征向量；

特征融合模块，用于将所述文本特征向量和所述图像特征向量融合，获得图文多模态向量；及

点击率预测模块，用于根据所述图文多模态向量对所述待处理内容进行点击率预测。
根据权利要求12所述的装置，其特征在于，所述特征融合模块还用于通过点击率预测模型所包括的特征连接层，将所述文本特征向量和所述图像特征向量融合，获得图文多模态向量；及所述点击率预测模块还用于将所述图文多模态向量输入所述点击率预测模型所包括的预测层，通过所述预测层，根据所述图文多模态向量对所述分享内容进行点击率预测。
根据权利要求12所述的装置，其特征在于，所述内容处理方法是通过点击率预测模型执行的；所述点击率预测模型通过训练步骤训练获得，所述内容处理装置还包括模型训练模块，用于获取内容样本以及所述内容样本的训练标签；所述内容样本包括历史内容的描述文本和所述历史内容所包括的图像；所述训练标签是所述历史内容的历史点击率；及基于所述内容样本和所述训练标签训练点击率预测模型。
根据权利要求14所述的装置，其特征在于，所述模型训练模块还用于通过所述点击率预测模型所包括的预训练的文本语义提取网络，提取所述内容样本的样本文本特征向量；通过所述点击率预测模型所包括的预训练的图像语义提取网络，提取所述内容样本的样本图像特征向量；通过所述点击率预测模型所包括的特征连接层，将所述样本文本特征向量和所述样本图像特征向量融合，获得样本图文多模态向量；通过所述点击率预测模型所包括的预测层，基于所述样本图文多模态向量确定所述内容样本的样本点击率；及基于所述样本点击率与所述训练标签的差异，调整所述点击率预测模型的参数并继续训练，直至满足训练条件时停止训练。
根据权利要求12所述的装置，其特征在于，所述数据获取模块还用于从所述视频内容中提取至少两个视频关键帧；确定所述至少两个视频关键帧分别与所述描述文本的相关度；及按照所述相关度从所述至少两个视频关键帧中确定关键帧图像。
根据权利要求12所述的装置，其特征在于，当所述待处理内容为视频内容时，所述描述文本为所述视频内容所包括的文本内容，所述图像为从所述视频内容中所提取的图像。
根据权利要求17所述的装置，其特征在于，所述数据获取模块还用于获取搜索关键字；根据所述搜索关键字确定待处理内容；所述内容处理装置还包括内容推荐模块，用于在对所述待处理内容进行点击率预测之后，根据得到的点击率预测值对所述待处理内容进行排序；及按照所述排序的结果对所述待处理内容进行推荐。
一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行如权利要求1至11中任一项所述的内容处理方法的步骤。
一种计算机可读存储介质，其特征在于，所述存储介质中存储有计算机可读指令，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行如权利要求1至11中任一项所述的内容处理方法的步骤。