WO2023045605A1

WO2023045605A1 - 数据处理方法、装置、计算机设备及存储介质

Info

Publication number: WO2023045605A1
Application number: PCT/CN2022/111609
Authority: WO
Inventors: 朱灵子; 马连洋
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2021-09-22
Filing date: 2022-08-11
Publication date: 2023-03-30
Also published as: CN115858826A; EP4310695A1; US20230386238A1

Abstract

本申请公开了一种数据处理方法、装置、计算机设备及存储介质，属于计算机技术领域。本申请通过针对文章的文本数据和图片数据，分别提取文本特征和图片特征，并利用两者之间的跨模态交互特征，来预测该文章所属的文章类别，同时考虑了文本模态和图片模态各自对于文章类别的贡献程度，而并非仅从文本角度来进行判断，此外所提取到的跨模态交互特征并非是文本特征和图片特征的简单拼接，能够反映出更加丰富和深层次的模态间交互信息，大大提高了对文章类别的识别准确率，进而在识别优质文章的场景下能够提高对优质文章的挖掘准确率。

Description

数据处理方法、装置、计算机设备及存储介质

本申请要求于2021年09月22日提交中国专利局、申请号为2021111061865、申请名称为“数据处理方法、装置、计算机设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机技术领域，特别涉及数据处理技术。

背景技术

随着计算机技术的发展，优质文章的发掘任务逐渐成为研究热点，通过该任务可以发掘优质文章，并将优质文章推送给用户，提高用户的阅读体验。目前，执行上述优质文章的发掘任务时，通常从文本角度判断文章的内容质量(而不考虑图片对内容质量的贡献)，或者，对文本和图片各自的嵌入(embedding)特征进行拼接(concat)，基于拼接得到的特征来判定其是否属于优质文章。

在上述过程中，不管是从文本角度来判断内容质量，还是使用文本与图片拼接后的特征来判断内容质量，对优质文章的挖掘准确率都有待提高。

发明内容

本申请实施例提供了一种数据处理方法、装置、计算机设备及存储介质，能够提高对文章类别的识别准确率，进而提高对优质文章的挖掘准确率。该技术方案如下：

一方面，提供了一种数据处理方法，由计算机设备执行，该方法包括：

获取文章的文本特征和图片特征，所述文本特征用于表征所述文章中的文本数据，所述图片特征用于表征所述文章中的图片数据；

对所述文本特征，基于所述图片特征中与所述文本特征关联的部分特征，确定第一交互特征，所述第一交互特征用于表征融合了图片特征的文本特征；

对所述图片特征，基于所述文本特征中与所述图片特征关联的部分特征，确定第二交互特征，所述第二交互特征用于表征融合了文本特征的图片特征；

将所述第一交互特征与所述第二交互特征融合，得到跨模态交互特征；

基于所述跨模态交互特征，确定所述文章所属的文章类别。

一方面，提供了一种数据处理装置，该装置包括：

第一获取模块，用于获取文章的文本特征和图片特征，所述文本特征用于表征所述文章中的文本数据，所述图片特征用于表征所述文章中的图片数据；

第二获取模块，用于对所述文本特征，基于所述图片特征中与所述文本特征关联的部分特征，确定第一交互特征，所述第一交互特征用于表征融合了图片特征的文本特征；

第三获取模块，用于对所述图片特征，基于所述文本特征中与所述图片特征关联的部分特征，确定第二交互特征，所述第二交互特征用于表征融合了文本特征的图片特征；

融合模块，用于将所述第一交互特征与所述第二交互特征融合，得到跨模态交互特征；

确定模块，用于基于所述跨模态交互特征，确定所述文章所属的文章类别。

一方面，提供了一种计算机设备，该计算机设备包括一个或多个处理器和一个或多个存储器，该一个或多个存储器中存储有至少一条计算机程序，该至少一条计算机程序由该一个或多个处理器加载并执行以实现如上述任一种可能实现方式的数据处理方法。

一方面，提供了一种存储介质，该存储介质中存储有至少一条计算机程序，该至少一条计算机程序由处理器加载并执行以实现如上述任一种可能实现方式的数据处理方法。

一方面，提供一种计算机程序产品或计算机程序，所述计算机程序产品或所述计算机程序包括一条或多条程序代码，所述一条或多条程序代码存储在计算机可读存储介质中。计算机设备的一个或多个处理器能够从计算机可读存储介质中读取所述一条或多条程序代码，所述一个或多个处理器执行所述一条或多条程序代码，使得计算机设备能够执行上述任一种可能实施方式的数据处理方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

通过针对文章的文本数据和图片数据，分别提取文本特征和图片特征，并利用两者之间的跨模态交互特征，来预测该文章所属的文章类别，该方法同时考虑了文本模态和图片模态各自对于文章类别的贡献程度，而并非仅从文本角度来进行判断，此外所提取的跨模态交互特征并非是文本特征和图片特征的简单拼接，其能够反映出更加丰富和深层次的模态间交互信息，有助于提高对文章类别的识别准确率，进而在识别优质文章的场景下能够提高对优质文章的挖掘准确率。

附图说明

图1是本申请实施例提供的一种数据处理方法的实施环境示意图；

图2是本申请实施例提供的一种数据处理方法的流程图；

图3是本申请实施例提供的一种数据处理方法的流程图；

图4是本申请实施例提供的一种提取位置信息的原理性示意图；

图5是本申请实施例提供的一种跨模交互模型的原理性示意图；

图6是本申请实施例提供的一种结合相对位置编码的多模态融合网络的原理性示意图；

图7是本申请实施例提供的一种数据处理方法的流程图；

图8是本申请实施例提供的一种多模态融合网络的原理性示意图；

图9是本申请实施例提供的一种数据处理装置的结构示意图；

图10是本申请实施例提供的一种计算机设备的结构示意图；

图11是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分，应理解，“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系，也不对数量和执行顺序进行限定。

本申请中术语“至少一个”是指一个或多个，“多个”的含义是指两个或两个以上，例如，多个第一位置是指两个或两个以上的第一位置。

本申请实施例提供的方案涉及人工智能的机器学习等技术，尤其涉及多模态机器学习(Multi-Modal Machine Learning，MMML)技术，以下，对多模态机器学习的术语进行解释说明：

模态(Modality)：每一种信息的来源或者形式，都可以被称为一种模态。例如，人有触觉，听觉，视觉，嗅觉；信息的媒介有语音、视频、文字等；多种多样的传感器，如雷达、红外、加速度计等，以上的每一种都可以称为一种模态。同时，模态也可以有非常广泛的定义，比如把两种不同的语言当做是两种模态，甚至在两种不同情况下采集到的数据集，亦可认为是两种模态。在本申请实施例中，对于一篇文章，可选地，划分为文本和图片两种模态，或者，划分为标题、正文和图片三种模态。

多模态机器学习：简称为多模态学习，旨在通过机器学习的方法实现处理和理解多源模态信息的功能。其中，单模态是指一种单一的模态，而多模态是指两种或者两种以上的模态以各种形式进行组合。目前比较热门的研究方向是图像、视频、音频、语义之间的多模态学习。整体来讲，多模态学习划分为以下几个研究方向：多模态表示学习、模态转化、对齐、多模态融合、协同学习等。单模态的表示学习负责将信息表示为计算机能够处理的数值向量，或者进一步抽象为更高层的特征向量，而多模态表示学习是指通过利用多模态之间的互补性，剔除模态间的冗余性，从而学习到更好的特征表示。

多模态融合(Multimodal Fusion)：是多模态学习的一个研究方向，多模态融合负责联合多个模态的信息，进行目标预测(分类或者回归)，属于MMML最早的研究方向之一，也是目前应用最广的方向，多模态融合还存在其他常见的别名，例如多源信息融合(Multi-source Information Fusion)、多传感器融合(Multi-sensor Fusion)等。在本申请实施例中，涉及对于一篇文章中的文本模态和图片模态的两模态融合，由于文本模态可以被划分为标题模态和正文模态，因此还可以涉及标题模态、正文模态和图片模态的三模态融合。

图文优质：从文章内容本身的角度出发，检测内容质量与阅读体验兼顾的优质文章，能够帮助推荐侧更好的理解与应用内容中心出库的文章(即图文内容)。可选地，综合评价文章的内容质量时，可以从图文多模态融合、文章排版体验、账号原子特征等维度分别建模，最终完成优质文章的识别。

相对位置编码(Relative Position Embedding，RPE)：是指Transformer(变换器)模型中的一种位置编码方式。Transformer模型的位置编码有两种方式：绝对位置编码和相对位置编码。绝对位置编码是目前普遍使用的位置编码方式，即直接对不同位置的字符随机初始化一个位置向量(Position Embedding)，加到输入字符向量(Word Embedding)序列上输入模型，作为参数进行训练。使用绝对位置编码时，不同位置的字符对应的位置向量固然不同，但是关于不同位置上字符的相对含义，无法通过绝对位置编码显式获得，比如：位置1和位置2的距离比位置3和位置10的距离更近，位置1和位置2与位置3和位置4都只相差1，在使用绝对位置编码时只能隐式地学到位置之间的相对关系，而在本申请实施例中通过引入相对位置编码，能够增强位置之间的相对关系特征表示。

图1是本申请实施例提供的一种数据处理方法的实施环境示意图。参见图1，在该实施环境中包括：终端110和服务器120，终端110和服务器120均为计算机设备的一种示例。

终端110用于支持用户浏览各类包括图文内容的文章，例如，该文章包括但不限于：网页资讯、公众号推文、博客、微博等，本申请实施例不对文章的类型进行具体限定。终端110上安装和运行有支持浏览文章的应用程序，例如，该应用程序可以为浏览器应用、社交应用、图文资讯应用、新闻查看应用等，本申请实施例不对该应用程序的类型进行具体限定。示意性地，用户在终端110上启动应用程序，通过该应用程序能够浏览服务器120推送的优质文章。可选地，终端110可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。

终端110与服务器120之间可以通过有线或无线通信方式，进行直接或间接地连接，本申请在此不做限制。

服务器120用于识别并推送优质文章，即服务器120用于向终端110上安装的该应用程序提供后台服务。示意性地，服务器120收集平台内创作者发布的文章，提取文章中的标题、正文和图片，并根据对应的标题特征、正文特征和图片特征，判断对应的文章是否为优质文章，并在推荐阶段中针对所识别出的优质文章加大推荐权重，使得优质文章更有可能被推送至用户使用的终端110。

可选地，服务器120包括一台服务器、多台服务器、云计算平台或者虚拟化中心中的至少一种。例如，服务器120承担主要计算工作，终端110承担次要计算工作；或者，服务器120承担次要计算工作，终端110承担主要计算工作；或者，终端110和服务器120两者之间采用分布式计算架构进行协同计算。

在一些实施例中，服务器可以是独立的物理服务器，或者是多个物理服务器构成的服务器集群或者分布式系统，或者是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)以及大数据和人工智能平台等基础云计算服务的云服务器。

本领域技术人员可以知晓，上述终端110的数量可以更多或更少。比如上述终端110可以仅为一个，或者上述终端110为几十个或几百个，或者更多数量。本申请实施例对终端110的数量和设备类型不加以限定。

图2是本申请实施例提供的一种数据处理方法的流程图。参见图2，该实施例由计算机设备执行，以计算机设备为服务器为例进行说明，该实施例包括下述步骤：

201、服务器获取文章的文本特征和图片特征，该文本特征用于表征该文章中的文本数据，该图片特征用于表征该文章中的图片数据。

其中，上述文章是指待判断文章类别的任一文章，该文章的类型包括但不限于：网页资讯、公众号推文、博客、微博等，本申请实施例不对文章的类型进行具体限定。

服务器是计算机设备的一种示例性说明，包括一台服务器、多台服务器、云计算平台或者虚拟化中心中的至少一种。本申请实施例，仅以计算机设备为服务器为例说明，即在服务器侧完成针对文章的类型识别，例如，识别文章是否为优质文章。在一些实施例中，针对文章的类型识别的步骤也能够部署在终端侧，例如，由终端独立识别文章是否为优质文章。

在一些实施例中，服务器获取文章，可选地，该文章可以为文章数据库中存储的文章，或者，该文章可以为终端最新向服务器上传的文章，或者，该文章可以是从分布式文件系统中下载的文章，本申请实施例不对待判别类别的文章的来源进行具体限定。

在识别优质文章的场景下，如果两篇文章的文本内容相似或文本质量相近，但两篇文章的图片质量不同，那么两篇文章的图片质量会对这两篇文章是否为优质文章的判定结果造成影响，可见，除了文本模态之外，图片模态即视觉模态也会影响优质文章的识别结果，因此在本申请实施例中除了文本模态之外，还引入了图片模态，以综合利用多模态的数据来精准识别优质文章。

在一些实施例中，获取到文章之后，由于文本和图片具有不同的特征，其特征提取方式也不尽相同，因此，服务器分别提取文章中的文本数据和图片数据。上述过程可视为针对文章中的多模态数据的提取过程，可选地，可以仅划分为文本和图片两个模态，能够降低多模态融合的计算复杂度。

在一些实施例中，如果仅划分为文本和图片两个模态，那么服务器可以分别提取文本数据的文本语义特征和图片数据的图片深度特征，将文本语义特征与文本位置特征融合得到文本特征，将图片深度特征与图片位置特征融合得到图片特征。

在上述过程中，针对文本和图片这两种不同模态的数据，可以采用不同的方式有针对性地进行特征提取，从而得到文本特征和图片特征。并且由于文本特征和图片特征中各自融合了位置的相关信息，因此当相同文本或者图片出现在文章中的不同位置时可以表现出不同的特征，从而提高了文本特征和图片特征各自的表达能力。

在一些实施例中，由于文本中的标题和正文也具有不同的特征，因此服务器可以在提取文本数据时，进一步将标题数据和正文数据分开进行提取，以引入更多、更丰富的特征信息，即划分为标题、正文和图片三个模态，以提高整体文章类别的识别准确率。

在一些实施例中，如果划分为标题、正文和图片三个模态，那么服务器分别提取标题数据的标题语义特征、正文数据的正文语义特征和图片数据的图片深度特征，接着，将标题语义特征与标题位置特征融合得到标题特征，将正文语义特征与正文位置特征融合得到正文特征，将图片深度特征与图片位置特征融合得到图片特征。

在上述过程中，针对标题、正文、图片这三种不同模态的数据，采用不同的方式有针对性地进行特征提取，从而得到标题特征、正文特征和图片特征。并且还在标题特征、正文特征和图片特征中各自融合了位置的相关信息，使得当相同标题、正文或者图片出现在文章中的不同位置时表现出不同的特征，从而提高了标题特征、正文特征和图片特征各自的表达能力。

在一些实施例中，上述文本位置特征、图片位置特征、标题位置特征、正文位置特征等位置特征，可以均是采用绝对位置编码方式得到的绝对位置特征，能够简化多模态融合的训练流程。

在一些实施例中，上述文本位置特征、图片位置特征、标题位置特征、正文位置特征等位置特征，可以均是采用相对位置编码方式得到的相对位置特征，该相对位置特征用于表征对应的文本数据与图片数据之间的先后顺序和距离远近，或者表征对应的标题数据、正文数据与图片数据之间的先后顺序和距离远近。在下个实施例中，将对相对位置特征的相对位置编码方式进行详述，这里不做赘述。

202、对该文本特征，服务器基于该图片特征中与该文本特征关联的部分特征，确定第一交互特征，该第一交互特征用于表征融合了图片特征的文本特征。

在一些实施例中，针对文本和图片两模态融合的情况，服务器可以以文本模态为主模态，接收图片模态的辅助信息，例如，获取图片特征中与该文本特征关联的部分特征，并在此基础上获取到该第一交互特征。

在一些实施例中，针对标题、正文和图片三模态融合的情况，第一交互特征包括标题交互特征和正文交互特征。可选地，服务器可以以标题模态为主模态，分别接收正文模态和图片模态各自的辅助信息，例如，分别获取正文特征和图片特征中与标题特征关联的部分特征，并在此基础上获取到标题交互特征；并且，以正文模态为主模态，分别接收标题模态和图片模态各自的辅助信息，例如，分别获取标题特征和图片特征中与正文特征关联的部分特征，并在此基础上获取到正文交互特征。

203、对该图片特征，服务器基于该文本特征中与该图片特征关联的部分特征，确定第二交互特征，该第二交互特征用于表征融合了文本特征的图片特征。

在一些实施例中，针对文本和图片两模态融合的情况，服务器可以以图片模态为主模态，接收文本模态的辅助信息，例如，获取文本特征中与该图片特征关联的部分特征，并在此基础上获取到该第二交互特征。

在一些实施例中，针对标题、正文和图片三模态融合的情况，服务器以图片模态为主模态，分别接收标题模态和正文模态各自的辅助信息，例如，分别获取标题特征和正文特征中与图片特征关联的部分特征，并在此基础上获取到第二交互特征。

204、服务器将该第一交互特征与该第二交互特征融合，得到跨模态交互特征。

在一些实施例中，上述步骤204获取到的该跨模态交互特征，是指将多模态数据各自参考了其他模态数据的特征进行融合所得的信息，使得跨模态交互特征能够强化文本数据与图片数据之间的关联关系，其中，针对多模态中的每个模态，都会作为主模态接收其他模态的辅助，得到一个跨模态特征，将每个模态对应的跨模态特征融合，得到最终的跨模态交互特征。

针对文本和图片两模态融合的情况，服务器可以直接将第一交互特征和第二交互特征融合，得到最终的跨模态交互特征。

在上述过程中，对文章来说，文本模态和图片模态的表现方式不一样，因此文本特征和图片特征之间可能会存在交叉(即信息冗余)或者互补(即比单模态特征蕴含更多信息)的现象，概括来说，多模态数据的显著特点是冗余性和互补性，甚至模态间还可能存在多种不同的信息交互，因此通过以文本模态为主模态提取第一交互特征、以图片模态为主模态提取第二交互特征，能够合理处理文章中的多模态数据，得到更加丰富的交互特征。

针对标题、正文和图片三模态融合的情况，服务器可以将标题交互特征、正文交互特征和第二交互特征融合，得到最终的跨模态交互特征。

在上述过程中，对文章来说，划分了标题、正文和图片共三种模态，并且两两组合进行有向的跨模态注意力交互，每个模态都会作为主模态，接收另外两个模态的辅助信息，最终融合得到跨模态交互特征，由于比两模态融合引入了更多的模态交互信息，因此更有助于提升优质文章的识别准确率。

205、服务器基于该跨模态交互特征，确定该文章所属的文章类别。

在一些实施例中，服务器对该跨模态交互特征进行全连接处理，得到全连接特征；对该全连接特征进行指数归一化，得到该文章的概率预测结果，该概率预测结果中包括多个预测概率，这多个预测概率与多个类别一一对应，即该概率预测结果表征文章属于多个类别的多个预测概率；进而，确定符合目标条件的预测概率对应的类别，为该文章所属的文章类别。

可选地，服务器将该跨模态交互特征输入到一个全连接层或者全连接网络中，输出该全连接特征，接着利用指数归一化Softmax函数对该全连接特征进行映射，得到文章属于每个类别的预测概率。进一步地，从所有的预测概率中，选择符合目标条件的预测概率，将该符合目标条件的预测概率对应的类别确定为该文章所属的文章类别。

在一些实施例中，该目标条件可以为预测概率最大，那么服务器可以从该多个预测概率中确定最大预测概率，将该最大预测概率对应的类别确定为该文章所属的文章类别。或者，服务器可以按照从大到小的顺序对该多个预测概率进行排序，选择排序位于第一位的预测概率对应的类别为该文章所属的文章类别。

在一些实施例中，该目标条件可以为预测概率大于概率阈值，那么服务器可以从该多个预测概率中，确定大于概率阈值的各个预测概率，从大于该概率阈值的各个预测概率对应的各个类别中随机选择一个类别作为该文章所属的文章类别。其中，该预测概率为任一大于或等于0且小于或等于1的数值。

在一些实施例中，该目标条件可以为预测概率topK(K≥1)随机选择，那么服务器可以按照从大到小的顺序对该多个预测概率进行排序，选择排序位于前K位的K个预测概率，并从该K个预测概率对应的K个类别中随机选择一个类别作为该文章所属的文章类别。其中，K为大于或等于1的整数。

在上述过程中，基于多模态融合方式结合相对位置编码，能够识别出文章所属的文章类别，可选地，文章类别可以是按照文章是否为优质文章划分的，例如划分为：优质文章、非优质文章等；可选地，文章类别也可以是按照文章的主要内容所属的领域划分的，例如划分为：财经类、娱乐类、新闻类、科普类等，本申请实施例不对文章类别的划分方式进行具体限定。

在一个示例性场景中，文章类别是按照文章是否为优质文章划分的，那么能够适用于识别优质文章，即识别优质图文内容的场景中，例如，文章类别划分为：优质文章和非优质文章，或者，文章类别划分为：优质文章、普通文章和低质文章等等，本申请实施例不对文章类别的划分方式进行具体限定。在优质文章识别场景下，同一篇文章内的相邻图文(即位置相近的文本和图片)之间的跨模交互信息是至关重要的，由于文章内通常文本是以字符序列或者语句序列的方式表示，且图片也能够按照先后顺序排列为图片序列，因此文本模态和图片模态能够达到序列级交互，从而通过构建序列级的多模态融合网络，能够在文本和图片各自的特征非对齐的情况下，充分利用模态间的序列级交互信息，提取到多模态之间的交互特征，并投入到文章类别的预测过程中，以提升文章类别的识别准确率。

在一个示例性场景中，文章类别是按照文章的主要内容所属的领域划分的，那么能够适用于按照用户画像进行精准推送的场景中，例如，文章类别划分为：财经类、娱乐类、新闻类、科普类等，在这一应用场景下，可选地，服务器基于文章的跨模态交互特征与用户的用户特征之间的相似度，来确定是否向该用户推荐该文章，从而能够向用户推荐符合用户长期偏好的文章，或者，服务器基于文章的跨模态交互特征与用户的历史阅读平均特征之间的相似度，来确定是否向该用户推荐该文章，其中，该历史阅读平均特征是指用户最近一周内(或一个月、两个月等指定时间段内)阅读的历史文章的跨模态交互特征的平均特征，从而能够向用户推荐符合其近期偏好的文章。

上述所有可选技术方案，能够采用任意结合形成本公开的可选实施例，在此不再一一赘述。

本申请实施例提供的方法，通过针对文章的文本数据和图片数据，分别提取文本特征和图片特征，并利用两者之间的跨模态交互特征，来预测该文章所属的文章类别，该方法同时考虑了文本模态和图片模态各自对于文章类别的贡献程度，而并非仅从文本角度来进行判断，此外所提取的跨模态交互特征并非是文本特征和图片特征的简单拼接，其能够反映出更加丰富和深层次的模态间交互信息，有助于提高对文章类别的识别准确率，进而在识别优质文章的场景下能够提高对优质文章的挖掘准确率。

图3是本申请实施例提供的一种数据处理方法的流程图。参见图3，该实施例由计算机设备，以计算机设备为服务器为例进行说明，针对目标文章仅划分文本和图片两个模态的情况，在本申请实施例中将详细介绍如何基于两模态融合方式识别文章的文章类别，该实施例包括下述步骤：

301、服务器获取文章中的文本数据和图片数据。

其中，文章是指待判断文章类别的任一文章，该文章的类型包括但不限于：网页资讯、公众号推文、博客、微博等，本申请实施例不对文章的类型进行具体限定。

在一些实施例中，服务器获取文章，可选地，该文章为文章数据库中存储的文章，或者，该文章为终端最新向服务器上传的文章，或者，该文章是从分布式文件系统中下载的文章，本申请实施例不对文章的来源进行具体限定。

在一些实施例中，由于文本和图片具有不同的特征，其特征提取方式也不尽相同，因此，服务器分别提取文章中的文本数据和图片数据。上述过程可视为针对文章中的多模态数据的提取过程，可选地，仅划分为文本和图片两个模态，能够降低多模态融合的计算复杂度。

302、服务器提取该文本数据的文本语义特征，将该文本语义特征与文本位置特征融合，得到该文本数据的文本特征。

在一些实施例中，服务器可以基于文本编码模型来提取该文本语义特征，该文本编码模型用于提取文本数据的文本语义特征，也即是说，服务器将该文本数据输入到文本编码模型中，通过该文本编码模型对该文本数据进行编码，以得到该文本语义特征。

可选地，该文本编码模型的模型结构包括但不限于下述任一项或者至少两项的组合：BERT(Bidirectional Encoder Representation From Transformers，采用双向编码表示的翻译模型)、Transformers(变换器，一种经典的翻译模型)、ELMo(Embeddings From Language Models，采用嵌入处理的语言模型)、NNLM(Neural Network Language Model，神经网络语言模型)等，本申请实施例不对该文本编码模型的模型结构进行具体限定。例如，该文本编码模型为BERT模型，以降低特征提取过程的计算复杂度，又例如，该文本编码模型由BERT模型与Transformers模型的编码器(Encoder)级联而成。

示意性地，以该文本编码模型由BERT模型与Transformers模型的编码器级联而成为例说明，假设该文本数据包括至少一个语句，服务器对每个语句进行分词处理，得到每个语句中包括的至少一个字符，将各个语句的各个字符按照其在文章中出现的先后顺序可排列形成一个字符序列，在该字符序列中在每个语句的句尾添加[SEP]作为语句分割符，并在该字符序列的首位增加[CLS]作为分类符，其中，语句分割符用于在相邻的语句之间进行断句，分类符用于表征整个字符序列的全局化语义信息。

将该字符序列输入到BERT模型中，BERT模型包括一个嵌入(Embedding)层和至少一个双向编码层，每个双向编码层用于对输入信号进行正向编码和反向编码，每个双向编码层的输出作为下一个双向编码层的输入，即各个双向编码层之间串联连接。每个双向编码层中包括两部分，一部分是注意力网络，另一部分是前向全连接层，注意力网络中每一个隐层都是由上一层的隐层进行加权平均所得，使得每一个隐层都能和上一层的所有隐层直接关联，利用输入的长序列信息(也即该字符序列)能够得到一个用于表征全局化信息的隐层向量，而前向全连接层则用于对注意力网络确定的全局化信息进行进一步加工，以增强整个BERT模型的学习能力。

可选地，先将该字符序列输入到BERT模型的嵌入层中，通过该嵌入层对该字符序列中各个字符进行嵌入处理，即将各个字符映射到嵌入空间，得到各个字符的嵌入向量，即得到了一个嵌入向量序列。接着，再将该嵌入向量序列输入到该至少一个双向编码层中，通过该至少一个双向编码层对该嵌入向量序列中各个嵌入向量进行双向编码(包括正向编码和反向编码)，输出各个字符的语义向量，即得到了一个语义向量序列。其中，该字符序列中的每个字符对应于该嵌入向量序列中的一个嵌入向量，该嵌入向量序列中的每个嵌入向量对应于该语义向量序列中的一个语义向量。

在上述过程中，通过双向编码层对该嵌入向量序列分别进行正向编码和反向编码，通过正向编码使得每个字符对应的语义向量能够融合该字符之前出现的字符的相关信息，通过反向编码使得每个字符对应的语义向量能够融合该字符之后出现的字符的相关信息，两个方向的编码操作能够大大提升各个字符的语义向量的表达能力。

以第一个双向编码层为例进行说明，在该双向编码层中包括注意力网络和前向全连接层。将该嵌入向量序列输入到第一个双向编码层的注意力网络中，通过注意力网络对该嵌入向量序列进行加权，以提取该嵌入向量序列的注意力特征序列，将该注意力特征序列输入到第一个双向编码层的前向全连接层中，通过前向全连接层对该注意力特征序列进行双向的语义编码(包括正向编码和反向编码)，输出一个隐向量序列，将该隐向量序列输入到第二个双向编码层中，依此类推，后续的双向编码层的处理逻辑均与第一个双向编码层类似，这里不做赘述。由于在双向编码层中引入注意力机制，因此能够在每次进行语义编码时，使得各个字符聚焦于与自身关联较大(关系更密切)的字符，使得最终获取的各个字符的语义向量具有更高的准确性。

接着，将BERT模型中最后一个双向编码层输出的语义向量序列输入到Transformers模型的编码器中，Transformers模型中包括多个级联的编码器，例如，包括N(N≥1)个级联的编码器，如N＝6或者其他数量，本申请实施例对此不进行具体限定。每个编码器内部又包括一个多头注意力(Multi-Head Attention)层和一个前馈神经网络(FeedForward Neural Network)层，多头注意力层用于从多个表达子空间中综合提取字符序列内各字符之间的关联关系，前馈神经网络层用于对多头注意力层输出的特征向量进行全连接，在多头注意力层和前馈神经网络层之后均设置有残差结构，也即将当前层的输入与输出进行残差连接(即拼接)，并归一化之后再输入到下一层中。通过Transformers模型的多个编码器对输入的该语义向量序列进行编码，由最后一个编码器输出该文本数据的文本语义特征。

在上述过程中，通过由BERT模型与Transformers模型的编码器级联而成的文本编码模型，能够提取出具有较强表达能力的文本语义特征，可选地，也可以仅利用BERT模型来提取该文本语义特征，或者仅利用Transformers模型的编码器来提取该文本语义特征，以降低提取该文本语义特征时的计算复杂度，本申请实施例对此不进行具体限定。

在一些实施例中，服务器还可以获取该文本数据的文本位置特征，该文本位置特征用于表征各个字符在文本数据中的位置先后顺序。可选地，对该字符序列中各个字符的位置信息进行编码，得到该文本数据的文本位置特征。接着，将该文本语义特征和文本位置特征进行拼接(Concat)，得到该文本数据的文本特征。

在一些实施例中，服务器在对各个字符的位置信息进行编码时，可以采用绝对位置编码方式或者相对位置编码方式，本申请实施例对位置信息的编码方式不进行具体限定。示意性地，在下述步骤303中将以使用相对位置编码方式为例进行说明，这里不做赘述。

在一些实施例中，如果该文本语义特征与文本位置特征的维度不同，那么文本语义特征和文本位置特征将无法直接拼接，此时可以使用一个1维卷积层对该文本语义特征进行维度变换(即升维或者降维)，使得维度变换后的文本语义特征与文本位置特征维度相同，从而将维度变换后的文本语义特征与文本位置特征拼接，得到该文本数据的文本特征。其中，该1维卷积层是指卷积核尺寸为1×1的卷积层。

在一些实施例中，除了以拼接方式进行融合之外，也可采用按元素相加、按元素相乘、双线性汇合等方式，来融合该文本语义特征和文本位置特征，本申请实施例不对融合方式进行具体限定。

303、服务器提取该图片数据的图片深度特征，将该图片深度特征与图片位置特征融合，得到该图片数据的图片特征。

在一些实施例中，服务器可以基于图片深度模型来提取该图片深度特征，该图片深度模型用于提取图片数据的图片深度特征，也即是说，服务器将该图片数据输入到图片深度模型中，通过该图片深度模型对该图片数据进行卷积处理，以提取得到该图片深度特征。可选地，该图片深度模型包括但不限于：卷积神经网络(Convolutional Neural Networks，CNN)、深度残差网络(ResNet)、MobileNet(一种轻量级神经网络)等，本申请实施例不对该图片深度模型的模型结构进行具体限定。

示意性地，该图片深度模型可以为MobileNet模型，MobileNet模型是指将VGG(Visual Geometry Group，视觉几何组)模型中的标准卷积层换成深度可分离卷积(Depthwise Separable Convolution)层，深度可分离卷积是一种可分解卷积操作，能够分解为：深度卷积(Depthwise Convolution)和逐点卷积(Pointwise Convolution)，其中，深度卷积和标准卷积不同，标准卷积的卷积核用在输入特征图的所有通道上，而深度卷积针对每个输入通道采用不同的卷积核，即一个卷积核对应一个输入通道，而逐点卷积就是1维卷积，即采用的卷积核的尺寸为1×1的标准卷积。通过使用深度可分离卷积，能够大大减少图片深度模型的计算量和参数量。

在一些实施例中，MobileNet模型包括一个3×3的标准卷积层、堆积的多个深度可分离卷积层、一个均值池化层和一个全连接层，在标准卷积层后可进行下采样再输入到下一层中，同理，在部分深度可分离卷积层后可进行下采样再输入到下一层中，该均值池化层用于将最后一个深度可分离卷积层输出的特征图进行均值池化，该全连接层用于对均值池化层输出的特征图进行全连接。示意性地，MobileNet模型总共包括有28层，其中深度可分离卷积层有13层。

在一些实施例中，由于文章中通常包括多个图片，因此该多个图片可构成一个图片序列，服务器将该图片序列输入到MobileNet模型中，通过标准卷积层对该图片序列进行标准卷积操作，得到第一特征图，将该第一特征图输入到级联的多个深度可分离卷积层中，每个深度可分离卷积层对上一层输出的特征图进行深度可分离卷积操作，最后一个深度可分离卷积层输出第二特征图，将该第二特征图输入到均值池化层中，通过该均值池化层对第二特征图进行均值池化操作，得到第三特征图，将该第三特征图输入到全连接层中，通过该全连接层对该第三特征图进行全连接，得到该图片深度特征。

在一些实施例中，服务器还可以获取该图片数据的图片位置特征，该图片位置特征用于表征各个图片在图片数据中的位置先后顺序。可选地，对该图片序列中各个图片的位置信息进行编码，得到该图片数据的图片位置特征。接着，将该图片深度特征和图片位置特征拼接(Concat)，得到该图片数据的图片特征。

在一些实施例中，服务器在对各个图片的位置信息进行编码时，可以采用绝对位置编码方式或者相对位置编码方式，本申请实施例对位置信息的编码方式不进行具体限定。

示意性地，以使用相对位置编码方式为例进行说明，在这种情况下，该文本位置特征和该图片位置特征均为该文本数据与该图片数据之间的相对位置特征，该相对位置特征用于表征该文本数据与该图片数据之间的先后顺序和距离远近。

在一些实施例中，该相对位置特征的获取方式包括：确定文本数据中的多个文本、以及图片数据中的多个图片各自在该文章中的位置信息；基于该位置信息，构建相对位置编码矩阵，该相对位置编码矩阵中的任一元素用于表征该元素所属列对应的文本和该元素所属行对应的图片之间的相对位置信息；基于该相对位置编码矩阵，确定该多个文本中的任一文本与该多个图片中的任一图片之间的相对位置特征。

图4是本申请实施例提供的一种提取位置信息的原理性示意图，如400所示，假设文章中包括5段文本和4张图片，其中，5段文本所构成的文本序列的位置编号为{1,3,5,7,8}，4张图片所构成的图片序列的位置编号为{0,2,4,6}，那么针对文章提取到的绝对位置关系可以表示为：pos-0(img)、pos-1(text)、pos-2(img)、pos-3(text)、pos-4(img)、pos-5(text)、pos-6(img)、pos-7(text)、pos-8(text)。示意性地，基于上述绝对位置关系，以文本序列代表矩阵列，以图片序列代表矩阵行，构建出如下表1所示的相对位置编码矩阵：

表1

	1	3	5	7	8
0	1	3	5	7	8
2	-1	1	3	5	6
4	-3	-1	1	3	4
6	-5	-3	-1	1	2

其中，相对位置编码矩阵中的每个元素用于表征该元素所属列对应的文本和该元素所属行对应的图片之间的相对位置信息。例如，相对位置编码矩阵中第2行第3列的元素“3”代表了第3列所对应的文本“5”与第2行所对应的图片“2”之间的相对位置信息：3＝5-2。

在构建出相对位置编码矩阵之后，通过该相对位置编码矩阵，可以确定出每个文本与每个图片之间的相对位置信息，对该相对位置信息进行编码即可得到对应的相对位置特征。

在上述过程中，通过使用相对位置特征，可以在文本特征和图片特征均引入显式地相对位置信息，从而能够提升文本特征和图片特征各自的表达能力。

在一些实施例中，使用传统的绝对位置编码方式确定的文本位置特征和图片位置特征均属于绝对位置特征，能够隐式的学习到不同文本段落和不同文章插图在位置上的相关性，充分考虑文本序列和图片序列的模态内部位置关系。

在一些实施例中，如果该图片深度特征与图片位置特征的维度不同，那么图片深度特征和图片位置特征将无法直接拼接，此时可以使用一个1维卷积层对该图片深度特征进行维度变换(即升维或者降维)，使得维度变换后的图片深度特征与图片位置特征维度相同，进而将维度变换后的图片深度特征与图片位置特征拼接，得到该图片数据的图片特征。其中，该1维卷积层是指卷积核尺寸为1×1的卷积层。

在一些实施例中，除了可以采用拼接方式融合之外，也可采用按元素相加、按元素相乘、双线性汇合等方式，来融合该图片深度特征和图片位置特征，本申请实施例不对融合方式进行具体限定。

在上述步骤302-303中，提供了在文本与图片两模态融合的情况下，服务器获取该文章的文本特征和图片特征的可能实施方式，其中，该文本特征用于表征该文章中的文本数据，该图片特征用于表征该文章中的图片数据。在下一个实施例中将介绍在标题、正文和图片三模态融合的情况下，服务器如何获取标题数据的标题特征、正文数据的正文特征和图片数据的图片特征，这里不做赘述。

应理解，在实际应用中，可以先执行步骤302、后执行步骤303，也可以先执行步骤303、后执行步骤302，还可以同时执行步骤302和步骤303，本申请在此不对步骤302和步骤303的执行顺序做任何限定。

304、对该文本特征，服务器基于该图片特征中与该文本特征关联的部分特征，确定第一交互特征，该第一交互特征用于表征融合了图片特征的文本特征。

在一些实施例中，以文本模态为主模态，接收图片模态的辅助信息，也即是说，服务器获取图片特征中与文本特征关联的部分特征，并利用跨模交互模型，对该文本特征和该部分特征进行处理，得到该第一交互特征。可选地，该跨模交互模型包括但不限于：Transformers模型或者Transformers模型的变种。

图5是本申请实施例提供的一种跨模交互模型的原理性示意图，如500所示，以跨模交互模型为Cross-modal(跨模)Transformers模型为例进行说明，跨模Transformers模型包括D+1(D≥0)个跨模交互层，假设α模态为主模态(例如文本模态)，β模态为辅模态(例如图片模态)，那么从β模态到α模态(β→α)的交互特征的提取过程如下：

向跨模Transformers模型的第0层输入α模态在t＝0时刻下的特征

和β模态在t＝0时刻下的特征

由于跨模Transformers模型中每一层对输入的两个模态的特征的处理是类似的，因此，以第i层的处理逻辑为例进行说明，其中i为大于或等于0且小于或等于D+1的任一整数。

第i层的输入信号包括：从β模态到α模态在t＝i-1时刻下的交互特征

和β模态在t＝0时刻下的特征

将特征

输入到层级归一化(LayerNorm，LN)层中进行归一化，得到特征Q _α；同理，将特征

输入到另一个LN层中进行归一化，得到特征K _β和V _β。将上述特征Q _α、K _β和V _β输入到多头注意力(Multi-Head)层，通过该多头注意力层，对输入的特征Q _α、K _β和V _β基于注意力机制进行加权，提取到输入信号之间的跨模特征

将跨模特征

和输入信号中的特征Q _α进行按元素相加(Addition)，得到一个融合特征。将该融合特征输入到另一个LN层中进行归一化，将归一化后的融合特征输入到一个位置全连接前馈(Positionwise Feed-forward)网络层中进行全连接，将该位置全连接前馈网络层输出的特征与输入该位置全连接前馈网络层的该融合特征按元素相加，得到第i层的输出特征，即从β模态到α模态在t＝i时刻下的交互特征

以此类推，最终由第D层输出最终的交互特征

(即第一交互特征)。其中，两次按元素相加操作相当于分别对多头注意力层和位置全连接前馈网络层各自的输入和输出进行残差连接。

在上述过程中，跨模Transformers模型接收主模态和辅模态各自的序列特征作为输入信号，经过多头注意力层和位置全连接前馈网络层这两级的处理，最终输出融合了辅模态信息的主模态表征(即第一交互特征)，该多头注意力层可视为对自注意力(Self-Attention)层的改造，将输入特征的K和V改为辅模态β的特征序列K _β和V _β，而特征Q则是主模态α的特征序列Q _α，利用主模态来挑选辅模态中与自身存在交互关系的辅模态信息，使得提取到的第一交互特征具有更强的特征表达能力。进一步地，跨模Transformers模型的结构具有通用性和灵活性，在模型设计时可根据模态的重要性进行定制化组合，并且，多头注意力层中跨模态的注意力机制是有向的，即对于同一对输入模态{文本，图片}来说，以文本为主模态和以图片为主模态所提取到的交互特征是不同的，比如本步骤304以文本为主模态时提取到第一交互特征，下述步骤305以图片为主模态时提取到第二交互特征，该第一交互特征与第二交互特征是不同的，这样有助于模型更加充分地利用模态间的交互信息，此外，跨模Transformers模型中利用多个跨模交互层的堆叠，相较于传统的单层交互方案可以融合更多的高阶交互信息。

在上述过程中，直接由跨模Transformers模型输出第一交互特征，能够降低获取第一交互特征时的计算复杂度。在一些实施例中，还可以将跨模Transformers模型输出的特征作为中间交互特征，进而再将该中间交互特征输入一个基础的Transformers模型中进行先编码再解码，最终由基础的Transformers模型输出该第一交互特征。

可选地，服务器将该中间交互特征输入Transformers模型，Transformers模型包括N个级联的编码器和N个级联的解码器，调用该N个级联的编码器对该中间交互特征进行编码，将编码得到的特征输入到N个级联的解码器中进行解码，得到该第一交互特征。其中，N为大于或等于1的整数，例如N＝6或者其他数值。

在一些实施例中，N个级联的编码器中每个编码器内部包括一个多头注意力层和一个前馈神经网络层，多头注意力层用于从多个表达子空间中综合提取各时刻下的特征向量之间的关联关系，前馈神经网络层用于对多头注意力层输出的特征向量进行全连接，在多头注意力层和前馈神经网络层之后均设置有残差结构，也即将当前层的输入与输出进行残差连接(即拼接)并归一化之后再输入到下一层中。通过N个级联的编码器对输入的向量进行编码，将最后一个编码器输出的特征输入到N个级联的解码器中。

N个级联的解码器中每个解码器内部包括一个掩码多头注意力层、一个融合多头注意力层和一个前馈神经网络层，掩码多头注意力层与多头注意力层类似，但掩码多头注意力层仅关注当前时刻之前的翻译结果，因此需要对当前时刻之后的翻译结果进行mask(遮挡)处理，而融合多头注意力层也与多头注意力层也类似，但融合多头注意力层除了以本解码器的掩码多头注意力层的输出为输入之外，还以对应序号的编码器的前馈神经网络层的输出(指经过残差连接及归一化的结果)作为输入，这一设计是为了关注编码器的编码信息，换一种说法，解码器通过查看编码器的输出和对其自身输出的自注意力，来预测下一个时刻的交互特征，解码器的前馈神经网络层与编码器的前馈神经网络层类似，这里不做赘述，同理解码器的掩码多头注意力层、融合多头注意力层、前馈神经网络层之后也均设置有残差结构，也即将当前层的输入与输出进行残差连接(即拼接)并归一化之后再输入到下一层中。其中，级联的编码器的数量与级联的解码器的数量需要保持一致。通过N个级联的解码器可以对编码得到的特征进行解码，由最后一个解码器输出第一交互特征。

305、对该图片特征，服务器基于该文本特征中与该图片特征关联的部分特征，确定第二交互特征，该第二交互特征用于表征融合了文本特征的图片特征。

在一些实施例中，以图片模态为主模态，接收文本模态的辅助信息，也即是说，服务器获取文本特征中与图片特征关联的部分特征，并利用跨模交互模型，对该图片特征和该部分特征进行处理，得到该第二交互特征。可选地，该跨模交互模型包括但不限于：Transformers模型或者Transformers模型的变种。

上述步骤305与上述步骤304类似，只是将主模态α变更为图片模态，将辅模态β变更为文本模态，这里不做赘述。

在上述过程中，直接由跨模Transformers模型输出第二交互特征，能够降低获取第二交互特征时的计算复杂度。在一些实施例中，将跨模Transformers模型输出的特征作为中间交互特征，将该中间交互特征输入一个基础的Transformers模型中进行先编码再解码，最终由基础的Transformers模型输出该第二交互特征。可选地，服务器将该中间交互特征输入Transformers模型，Transformers模型包括N个级联的编码器和N个级联的解码器，调用该N个级联的编码器对该中间交互特征进行编码，将编码得到的特征输入到N个级联的解码器中进行解码，得到该第一交互特征。其中，N为大于或等于1的整数，例如N＝6或者其他数值。基础Transformers模型中每个编码器和解码器的内部处理逻辑已在上述步骤304中介绍过，这里不做赘述。

应理解，在实际应用中，可以先执行步骤304、后执行步骤305，也可以先执行步骤305、后执行步骤304，还可以同时执行步骤304和步骤305，本申请在此不对步骤304和步骤305的执行顺序做任何限定。

306、服务器将该第一交互特征与该第二交互特征融合，得到跨模态交互特征。

在一些实施例中，服务器可以将该第一交互特征和该第二交互特征进行拼接，得到最终的跨模态交互特征，从而降低特征融合时的计算量。

在另一些实施例中，服务器可以将该第一交互特征和该第二交互特征进行按元素相加、按元素相乘或者双线性汇合，从而使得特征融合得更加充分，本申请实施例不对特征融合方式进行具体限定。

在上述步骤304-306中，示出了在文本与图片两模态融合的情况下，服务器获取两个模态之间的跨模态交互特征的一种可能实施方式，在下个实施例中将针对标题、正文和图片三模态融合的情况，介绍服务器如何获取三个模态之间的跨模态交互特征，这里不做赘述。

307、服务器基于该跨模态交互特征，

确定该文章所属的文章类别。

上述步骤307与上述步骤205类似，这里不做赘述。

图6是本申请实施例提供的一种结合相对位置编码的多模态融合网络的原理性示意图，如图6所示，多模态融合网络中包括文本编码模型601、图片编码模型602和跨模交互部分603。

示意性地，文本编码模型601可以由基础BERT模型微调(Finetune)得到的BERT模型6011和Transformers模型的编码器6012级联而成，将文本数据的字符序列(简称为文本句子序列)输入BERT模型6011，输出一个语义向量序列，将该语义向量序列再输入到Transformers模型的编码器6012，输出文本数据的文本语义特征，将文本语义特征输入一个1维卷积层(Conv1D)层进行维度变换后，与文本位置特征进行拼接，得到文本数据的文本特征。

示意性地，图片编码模型602为预训练得到的MobileNet模型，将图片数据的图片序列输入图片编码模型602，输出图片数据的图片深度特征，将图片深度特征输入Conv1D层进行维度变换后，与图片位置特征进行拼接，得到该图片数据的图片特征。

示意性地，跨模交互部分603包括2个跨模Transformers模型和2个基础Transformers模型。以文本模态为主模态，利用跨模Transformers模型提取从图片模态→文本模态的中间交互特征，将该中间交互特征输入基础Transformers模型进行先编码再解码，输出第一交互特征。以图片模态为主模态，利用跨模Transformers模型提取从文本模态→图片模态的中间交互特征，将该中间交互特征输入基础Transformers模型进行先编码再解码，输出第二交互特征。

进一步地，将该第一交互特征和该第二交互特征拼接，得到最终两模态间的跨模态交互特征，再利用该跨模态交互特征，预测得到文章最终所属的文章类别(Classification)。

在一些实施例中，如采用上述步骤303中介绍的相对位置编码方式，那么就需要将跨模交互部分603中各个Transformers模型的绝对位置特征修改为相对位置特征，例如，分离原始的字符Embedding(嵌入向量)和位置Embedding(位置向量)，展开分列式后，将绝对位置编码方式的位置向量转换为相对位置编码方式的位置向量，即实现在任意两模态进行交互计算时将相对位置关系融入到自注意力层中。

在Transformers模型中，自注意力层通常表示为：

其中，Attention(Q,K,V)是指基于Q(Query)矩阵、K(Key)矩阵和V(Value)矩阵计算得到的注意力系数，softmax()是指指数归一化函数，Q是指当前字符的Q矩阵，K是指当前字符的K矩阵，V是指当前字符的V矩阵，K ^T是指K矩阵的转置矩阵，

是指缩放因子。

使用乘法分配律展开，绝对位置编码方式的情况下，模态1中的第i个元素和模态2中的第j个元素之间的注意力系数

的展开式如下：

其中，E表示文本向量，U指位置向量，W指参数矩阵。

也即是说，

表示模态1中第i个元素的文本向量的转置矩阵，

表示Q矩阵的参数矩阵的转置矩阵，W _k表示K矩阵的参数矩阵，

表示模态2中第j个元素的文本向量，U _j表示模态2中第j个元素的位置向量，

表示模态1中第i个元素的位置向量的转置矩阵。

使用相对位置编码方式的位置向量R _i-j来替代绝对位置编码方式的位置向量U _j和U _i，上述展开式即可变换为：

其中，E表示文本向量，U指位置向量，W指参数矩阵。

也即是说，

表示模态1中第i个元素的文本向量的转置矩阵，

表示Q矩阵的参数矩阵的转置矩阵，W _k，E表示相对位置编码下与K矩阵和文本向量相关的参数矩阵，

表示模态2中第j个元素的文本向量，R _i-j表示模态1中第i个元素和模态2中第j个元素之间的相对位置编码向量，W _K，R表示相对位置编码下与K矩阵和相对位置编码向量相关的参数矩阵，u ^T和v ^T分别表示与模态1中第i个元素的位置无关的、待学习的参数向量，

图7是本申请实施例提供的一种数据处理方法的流程图。参见图7，该实施例由计算机设备执行，以计算机设备为服务器为例进行说明，针对文章划分了标题、正文和图片三个模态的情况，在本申请实施例中将详细介绍如何基于三模态融合方式识别文章的文章类别，该实施例包括下述步骤：

701、服务器获取文章中的标题数据、正文数据和图片数据。

其中，该标题数据和正文数据可统称为文本数据。

上述步骤701与上述步骤301类似，这里不做赘述。可选地，服务器获取到文本数据和图片数据之后，可以进一步从该文本数据中抽取标题数据和正文数据。

702、服务器提取该标题数据的标题语义特征，将该标题语义特征与标题位置特征融合，得到该标题数据的标题特征。

在一些实施例中，服务器基于标题编码模型来提取该标题语义特征，该标题编码模型用于提取标题数据的标题语义特征，也即是说，服务器将该标题数据输入到标题编码模型中，通过该标题编码模型对该标题数据进行编码，以提取得到该标题语义特征。可选地，该标题编码模型的模型结构包括但不限于：BERT模型、Transformers模型、ELMo模型、NNLM模型等，本申请实施例不对该标题编码模型的模型结构进行具体限定。

示意性地，以该标题编码模型为BERT模型为例说明，假设该标题数据包括至少一条标题，服务器可以对每个标题进行分词处理，得到每个标题中包含的至少一个字符，将各个标题的各个字符按照在其文章中出现的先后顺序可排列形成一个字符序列，在该字符序列中以每个标题的句尾添加[SEP] 作为语句分割符，并在该字符序列的首位增加[CLS]作为分类符，其中，语句分割符用于在相邻的标题之间进行断句，分类符用于表征整个字符序列的全局化语义信息。

将该字符序列输入到BERT模型中，BERT模型包括一个嵌入层和至少一个双向编码层，每个双向编码层用于对输入信号进行正向编码和反向编码，每个双向编码层的输出作为下一个双向编码层的输入，即各个双向编码层之间串联连接。在每个双向编码层中包括两部分，一部分是注意力网络，另一部分是前向全连接层，注意力网络中每一个隐层都是由上一层的隐层进行加权平均所得，使得每一个隐层都能和上一层的所有隐层直接关联，利用输入的长序列信息(也即该字符序列)能够得到一个用于表征全局化信息的隐层向量，而前向全连接层则用于对注意力网络获取的全局化信息进行进一步加工，以增强整个BERT模型的学习能力。

可选地，可以先将该字符序列输入到BERT模型的嵌入层中，通过该嵌入层对该字符序列中各个字符进行嵌入处理，换言之，将各个字符映射到嵌入空间，得到各个字符的嵌入向量，即得到了一个嵌入向量序列。接着，再将该嵌入向量序列输入到该至少一个双向编码层中，通过该至少一个双向编码层对该嵌入向量序列中各个嵌入向量进行双向编码(包括正向编码和反向编码)，输出各个字符的语义向量，即得到了一个语义向量序列，最终，由最后一个双向编码层输出该标题数据的标题语义特征。该字符序列中的每个字符对应于该嵌入向量序列中的一个嵌入向量，该嵌入向量序列中的每个嵌入向量对应于该语义向量序列中的一个语义向量。

在上述过程中，通过双向编码层对该嵌入向量序列分别进行正向编码和反向编码，通过正向编码使得每个字符对应的语义向量能够融合该字符之前出现的字符的相关信息，而通过反向编码使得每个字符对应的语义向量能够融合该字符之后出现的字符的相关信息，两个方向的编码操作能够大大提升各个字符的语义向量的表达能力。

以第一个双向编码层为例进行说明，在该双向编码层中包括注意力网络和前向全连接层。将该嵌入向量序列输入到第一个双向编码层的注意力网络中，通过注意力网络对该嵌入向量序列进行加权，以提取该嵌入向量序列的注意力特征序列，将该注意力特征序列输入到第一个双向编码层的前向全连接层中，通过前向全连接层对该注意力特征序列进行双向的语义编码(包括正向编码和反向编码)，输出一个隐向量序列，将该隐向量序列输入到第二个双向编码层中，依此类推，后续的双向编码层的处理逻辑均与第一个双向编码层类似，这里不做赘述，最终，由最后一个双向编码层输出该标题数据的标题语义特征。由于在双向编码层中引入注意力机制，能够在每次进行语义编码时，使得各个字符聚焦于与自身关联较大(关系更密切)的字符，使得最终获取的各个字符的语义向量具有更高的准确性。

在一些实施例中，服务器在还可以获取该标题数据的标题位置特征，该标题位置特征用于表征各个字符在标题数据中的位置先后顺序。可选地，对该字符序列中各个字符的位置信息进行编码，得到该标题数据的标题位置特征。接着，将该标题语义特征和标题位置特征进行拼接，得到该标题数据的标题特征。

在一些实施例中，服务器在对各个字符的位置信息进行编码时，可以采用绝对位置编码方式或者相对位置编码方式，本申请实施例对位置信息的编码方式不进行具体限定。两种位置编码方式均在上个实施例中已介绍过，这里不做赘述。

在一些实施例中，如果该标题语义特征与标题位置特征的维度不同，那么标题语义特征和标题位置特征将无法直接拼接，此时可以使用一个1维卷积层对该标题语义特征进行维度变换(即升维或者降维)，使得维度变换后的标题语义特征与标题位置特征维度相同，从而将维度变换后的标题语义特征与标题位置特征进行拼接，得到该标题数据的标题特征。其中，该1维卷积层是指卷积核尺寸为1×1的卷积层。

在一些实施例中，除了可以采用拼接方式进行融合之外，也可利用按元素相加、按元素相乘、双线性汇合等方式，来融合该标题语义特征和标题位置特征，本申请实施例不对融合方式进行具体限定。

703、服务器提取该正文数据的正文语义特征，将该正文语义特征与正文位置特征融合，得到该正文数据的正文特征。

在一些实施例中，服务器基于正文编码模型来提取该正文语义特征，该正文编码模型用于提取正文数据的正文语义特征，也即是说，服务器将该正文数据输入到正文编码模型中，通过该正文编码模型对该正文数据进行编码，以提取得到该正文语义特征。可选地，该正文编码模型的模型结构包括但不限于下述任一项或者至少两项的组合：BERT模型、Transformers模型、ELMo模型、NNLM模型等，本申请实施例不对该正文编码模型的模型结构进行具体限定。示意性地，该正文编码模型可以由BERT模型与Transformers模型的编码器级联而成，此种结构的正文编码模型对正文数据的处理过程与上述步骤302中文本编码模型对文本数据的处理过程类似，这里不做赘述。

在一些实施例中，服务器还可以获取该正文数据的正文位置特征，该正文位置特征用于表征各个字符在正文数据中的位置先后顺序。可选地，对该字符序列中各个字符的位置信息进行编码，得到该正文数据的正文位置特征。接着，将该正文语义特征和正文位置特征进行拼接，得到该正文数据的正文特征。

在一些实施例中，如果该正文语义特征与正文位置特征的维度不同，那么正文语义特征和正文位置特征将无法直接拼接，此时可以使用一个1维卷积层对该正文语义特征进行维度变换(即升维或者降维)，使得维度变换后的正文语义特征与正文位置特征维度相同，从而将维度变换后的正文语义特征与正文位置特征进行拼接，得到该正文数据的正文特征。其中，该1维卷积层是指卷积核尺寸为1×1的卷积层。

在一些实施例中，除了可以采用拼接方式进行融合之外，也可利用按元素相加、按元素相乘、双线性汇合等方式，来融合该正文语义特征和正文位置特征，本申请实施例不对融合方式进行具体限定。

在上述步骤702-703中，提供了在将文本数据划分为标题数据和正文数据的情况下，服务器提取该文本数据的文本语义特征，将该文本语义特征与文本位置特征进行融合，得到该文本数据的文本特征的可能实施方式，通过将文本数据划分为标题数据和正文数据，能够提取出更多、更丰富的特征信息。

704、服务器提取该图片数据的图片深度特征，将该图片深度特征与图片位置特征融合，得到该图片数据的图片特征。

上述步骤704与上述步骤303类似，这里不做赘述。

应理解，在实际应用中，可以根据实际需求调整上述步骤702、步骤703和步骤704之间是执行顺序，本申请在此不对步骤702、步骤703和步骤704的执行顺序做任何限定。

705、对该标题特征，服务器基于该正文特征和该图片特征中分别与该标题特征关联的部分特征，确定标题交互特征，该标题交互特征用于表征融合了正文特征和图片特征之后的标题特征。

在一些实施例中，服务器基于该正文特征中与该标题特征关联的部分特征，确定第一标题交互特征，也即是说，以标题模态为主模态，接收正文模态的辅助信息。可选地，服务器获取正文特征中与标题特征关联的部分特征，并利用跨模交互模型，对该标题特征和该部分特征进行处理，得到该第一标题交互特征。可选地，该跨模交互模型包括但不限于：Transformers模型或者Transformers模型的变种，例如，该跨模交互模型可以为跨模Transformers模型，将主模态α确定为标题模态，将辅模态β确定为正文模态，模型结构和处理逻辑与上述步骤304类似，这里不做赘述。

在一些实施例中，服务器基于该图片特征中与该标题特征关联的部分特征，确定第二标题交互特征，也即是说，以标题模态为主模态，接收图片模态的辅助信息。可选地，服务器获取图片特征中与标题特征关联的部分特征，并利用跨模交互模型，对该标题特征和该部分特征进行处理，得到该第二标题交互特征。可选地，该跨模交互模型包括但不限于：Transformers模型或者 Transformers模型的变种，例如，该跨模交互模型可以为跨模Transformers模型，将主模态α确定为标题模态，将辅模态β确定为图片模态，模型结构和处理逻辑与上述步骤304类似，这里不做赘述。

在一些实施例中，服务器将该第一标题交互特征和该第二标题交互特征拼接，得到第三标题交互特征，可以降低将该第一标题交互特征和该第二标题交互特征融合时的计算复杂度，可选地，也可采取按元素相加、按元素相乘、双线性汇合等融合方式，本申请实施例对此不进行具体限定。

在一些实施例中，服务器对该第三标题交互特征进行编码和解码，得到该标题交互特征。可选地，服务器将该第三标题交互特征输入Transformers模型，Transformers模型包括N个级联的编码器和N个级联的解码器，调用该N个级联的编码器对该第三标题交互特征进行编码，得到中间标题交互特征，将该中间标题交互特征输入到N个级联的解码器中进行解码，得到该标题交互特征。其中，N为大于或等于1的整数，例如N＝6或者其他数值。

在一些实施例中，N个级联的编码器中每个编码器内部包括一个多头注意力层和一个前馈神经网络层，多头注意力层用于从多个表达子空间中综合提取标题数据内各字符之间的关联关系，前馈神经网络层用于对多头注意力层输出的特征向量进行全连接，在多头注意力层和前馈神经网络层之后均设置有残差结构，也即将当前层的输入与输出进行残差连接(即拼接)并归一化之后再输入到下一层中。通过N个级联的编码器对输入的向量进行编码，由最后一个编码器输出该中间标题交互特征。

接着，将该中间标题交互特征输入到N个级联的解码器。N个级联的解码器中每个解码器内部包括一个掩码多头注意力层、一个融合多头注意力层和一个前馈神经网络层，掩码多头注意力层与多头注意力层类似，但掩码多头注意力层仅关注当前时刻之前的翻译结果，因此需要对当前时刻之后的翻译结果进行mask(遮挡)处理，而融合多头注意力层也与多头注意力层也类似，但融合多头注意力层除了以本解码器的掩码多头注意力层的输出为输入之外，还以对应序号的编码器的前馈神经网络层的输出(指经过残差连接及归一化的结果)作为输入，这一设计是用于关注编码器的编码信息，换一种说法，解码器通过查看编码器的输出和对其自身输出的自注意力，来预测下一个时刻的交互特征，解码器的前馈神经网络层与编码器的前馈神经网络层类似，这里不做赘述，同理解码器的掩码多头注意力层、融合多头注意力层、前馈神经网络层之后也均设置有残差结构，也即将当前层的输入与输出进行残差连接(即拼接)并归一化之后再输入到下一层中。其中，级联的编码器的数量与级联的解码器的数量需要保持一致。通过N个级联的解码器可以对该中间标题交互特征进行解码，由最后一个解码器输出最终的标题交互特征。

706、对该正文特征，服务器基于该标题特征和该图片特征中分别与该正文特征关联的部分特征，确定正文交互特征，该正文交互特征用于表征融合了标题特征和图片特征之后的正文特征。

由于在标题、正文、图片三模态融合情况下，第一交互特征包括标题交互特征和正文交互特征，因此步骤705-706示出了如何获取第一交互特征的可能实施方式。

在一些实施例中，服务器基于该标题特征中与该正文特征关联的部分特征，确定第一正文交互特征，也即是说，以正文模态为主模态，接收标题模态的辅助信息。可选地，服务器获取标题特征中与正文特征关联的部分特征，并利用跨模交互模型，对该正文特征和该部分特征进行处理，得到该第一正文交互特征。可选地，该跨模交互模型包括但不限于：Transformers模型或者Transformers模型的变种，例如，该跨模交互模型可以为跨模Transformers模型，将主模态α确定为正文模态，将辅模态β确定为标题模态，模型结构和处理逻辑与上述步骤304类似，这里不做赘述。

在一些实施例中，服务器基于该图片特征中与该正文特征关联的部分特征，确定第二正文交互特征，也即是说，以正文模态为主模态，接收图片模态的辅助信息。可选地，服务器获取图片特征中与正文特征关联的部分特征，并利用跨模交互模型，对该正文特征和该部分特征进行处理，得到该第二正文交互特征。可选地，该跨模交互模型包括但不限于：Transformers模型或者Transformers模型的变种，例如，该跨模交互模型可以为跨模Transformers模型，将主模态α确定为正文模态，将辅模态β确定为图片模态，模型结构和处理逻辑与上述步骤304类似，这里不做赘述。

在一些实施例中，服务器将该第一正文交互特征和该第二正文交互特征进行拼接，得到第三正文交互特征，能够降低将该第一正文交互特征和该第二正文交互特征融合时的计算复杂度，可选地，也可采取按元素相加、按元素相乘、双线性汇合等融合方式，本申请实施例对此不进行具体限定。

在一些实施例中，服务器对该第三正文交互特征进行编码和解码，得到该正文交互特征。可选地，服务器将该第三正文交互特征输入Transformers模型，通过Transformers模型中N个级联的编码器对该第三正文交互特征进行编码，得到中间正文交互特征，将该中间正文交互特征输入到N个级联的解码器中进行解码，得到该正文交互特征。其中，N为大于或等于1的整数，例如N＝6或者其他数值。Transformers模型的编码器和解码器的内部处理逻辑已在上述步骤705中进行详细说明，这里不做赘述。

707、对该图片特征，服务器基于该标题特征和该正文特征中分别与该图片特征关联的部分特征，确定第二交互特征，该第二交互特征用于表征融合了标题特征和正文特征之后的图片特征。

在一些实施例中，服务器基于该标题特征中与该图片特征关联的部分特征，确定第一图片交互特征，也即是说，以图片模态为主模态，接收标题模态的辅助信息。可选地，服务器获取标题特征中与图片特征关联的部分特征，并利用跨模交互模型，对该图片特征和该部分特征进行处理，得到该第一图片交互特征。可选地，该跨模交互模型包括但不限于：Transformers模型或者Transformers模型的变种，例如，该跨模交互模型可以为跨模Transformers模型，将主模态α确定为图片模态，将辅模态β确定为标题模态，模型结构和处理逻辑与上述步骤304类似，这里不做赘述。

在一些实施例中，服务器基于该正文特征中与该图片特征关联的部分特征，确定第二图片交互特征，也即是说，以图片模态为主模态，接收正文模态的辅助信息。可选地，服务器获取正文特征中与图片特征关联的部分特征，并利用跨模交互模型，对该图片特征和该部分特征进行处理，得到该第二图片交互特征。可选地，该跨模交互模型包括但不限于：Transformers模型或者Transformers模型的变种，例如，该跨模交互模型可以为跨模Transformers模型，将主模态α确定为图片模态，将辅模态β确定为正文模态，模型结构和处理逻辑与上述步骤304类似，这里不做赘述。

在一些实施例中，服务器将该第一图片交互特征和该第二图片交互特征进行拼接，得到第三图片交互特征，能够降低将该第一图片交互特征和该第二图片交互特征融合时的计算复杂度，可选地，也可采取按元素相加、按元素相乘、双线性汇合等融合方式，本申请实施例对此不进行具体限定。

在一些实施例中，服务器对该第三图片交互特征进行编码和解码，得到该第二交互特征。可选地，服务器将该第三图片交互特征输入Transformers模型，通过Transformers模型中N个级联的编码器对该第三图片交互特征进行编码，得到中间图片交互特征，将该中间图片交互特征输入到N个级联的解码器中进行解码，得到该第二交互特征。其中，N为大于或等于1的整数，例如N＝6或者其他数值。Transformers模型的编码器和解码器的内部处理逻辑已在上述步骤705中进行详细说明，这里不做赘述。

应理解，在实际应用中，可以根据实际需求调整上述步骤705、步骤706和步骤707之间是执行顺序，本申请在此不对步骤705、步骤706和步骤707的执行顺序做任何限定。

708、服务器将该标题交互特征、该正文交互特征和该第二交互特征融合，得到跨模态交互特征。

在一些实施例中，服务器将该标题交互特征、该正文交互特征和该第二交互特征进行拼接，得到最终三模态间的跨模态交互特征，从而降低特征融合时的计算量。

在另一些实施例中，服务器可以通过按元素相加、按元素相乘或者双线性汇合等方式，将该标题交互特征、该正文交互特征和该第二交互特征融合，能够使得特征融合得更加充分，本申请实施例不对特征融合方式进行具体限定。

在上述步骤705-708中，提供了服务器获取跨模态交互特征的一种可能实施方式，即通过将文本数据划分成标题数据和正文数据，从而将原本的两模态融合扩展成三模态融合，能够充分利用模态间的序列级交互信息，对标题、正文和图片三种模态，两两组合(共6种组合方式)进行有向的跨模态注意力加权，每个模态都会作为主模态接收另外两个模态的辅助信息，大大提升了最终获取的跨模态交互特征的表达能力，使得最终基于跨模态交互特征进行预测时的准确率也大大提升。

709、服务器基于该跨模态交互特征，确定该文章所属的文章类别。

上述步骤709与上述步骤205类似，这里不做赘述。

图8是本申请实施例提供的一种多模态融合网络的原理性示意图，如图8所示，多模态融合网络中包括标题编码模型801、正文编码模型802、图片编码模型803和跨模交互部分804。

示意性地，标题编码模型801为由基础BERT模型微调(Finetune)得到的BERT模型，将标题数据的字符序列(简称为标题序列)输入标题编码模型801，输出标题数据的标题语义特征，将标题语义特征输入一个1维卷积层(Conv1D)进行维度变换后，与标题位置特征进行拼接，得到该标题数据的标题特征。

示意性地，正文编码模型802是由微调得到的BERT模型8021和Transformers模型的编码器8022级联而成的，将正文数据的字符序列(简称为正文句子序列)输入BERT模型8021，输出一个语义向量序列，将该语义向量序列再输入到Transformers模型的编码器8022，输出正文数据的正文语义特征，将正文语义特征输入Conv1D层进行维度变换后，与正文位置特征进行拼接，得到该正文数据的正文特征。

示意性地，图片编码模型803为预训练得到的MobileNet模型，将图片数据的图片序列输入图片编码模型803，输出图片数据的图片深度特征，将图片深度特征输入Conv1D层进行维度变换后，与图片位置特征进行拼接，得到该图片数据的图片特征。

示意性地，跨模交互部分804包括6个跨模Transformers模型和3个基础的Transformers模型。以标题模态为主模态，利用跨模Transformers模型分别提取从正文模态→标题模态的第一标题交互特征，以及从图片模态→标题模态的第二标题交互特征，将该第一标题交互特征和该第二标题交互特征进行拼接，得到第三标题交互特征，将该第三标题交互特征输入Transformers模型进行先编码再解码，输出标题交互特征。此外，以正文模态为主模态，利用跨模Transformers模型分别提取从标题模态→正文模态的第一正文交互特征，以及从图片模态→正文模态的第二正文交互特征，将该第一正文交互特征和该第二正文交互特征进行拼接，得到第三正文交互特征，将该第三正文交互特征输入Transformers模型进行先编码再解码，输出正文交互特征。此外，以图片模态为主模态，利用跨模Transformers模型分别提取从标题模态→图片模态的第一图片交互特征，以及从正文模态→图片模态的第二图片交互特征，将该第一图片交互特征和该第二图片交互特征进行拼接，得到第三图片交互特征，将该第三图片交互特征输入Transformers模型进行先编码再解码，输出第二交互特征。

进一步地，将该标题交互特征、该正文交互特征和该第二交互特征进行拼接，得到最终三模态间的跨模态交互特征，再利用该跨模态交互特征，预测出文章最终所属的文章类别(Classification)。需要说明的是，在三模态融合的情况下，也可基于与上述实施例中类似的方式引入相对位置编码方式，这里不做赘述。

相较于传统的多模态融合方式来说，由于各模态的采样率不同，在本质上各个模态的数据之间的非对齐的，且不同模态的元素之间是存在长依赖关系的，传统的多模态融合方式无法改善上述两个问题，因此对文章类别的识别准确率低。而上述多模态融合网络，构建了在图文优质识别这一非对齐情况下的跨模态交互方法，针对三模态的跨模交互部分能够充分利用模态间的序列级交互信息，在6种组合方式各自的跨模交互模型融合了两个模态的信息之后，采用基于自注意力的Transformers模型继续结合上下文(Context)进行建模，最后拼接三组特征(该标题交互特征、该正文交互特征和该第二交互特征)进行预测，通过纵向对比实验发现标题、正文、图片三路组合场景下的模型效果最优，也即任意两模态间的交互信息对模型效果都有明显的增强作用。

上述结合相对位置编码方式的多模态融合网络可应用于识别优质图文场景中，这一场景下相邻图文间的模态交互性是至关重要的，同时通过引入相对位置编码方式，能够增强对文本和图片序列间相对位置关系的学习，从而提升整体模型的识别准确率。此外，在自媒体时代，影响文章质量评定的因素繁多，除了文本质量，图片和文本之间的整体搭配效果也是至关重要的，上述结合相对位置编码方式的多模态融合网络，完成了图文优质识别场景中多模态模块的构建。

在对内容中心的图文内容进行质量判定的测试任务中，模型评测准确率达到95％，而传统有监督的识别优质图文手段，如仅从文本角度进行内容质量判定时，或者将文本Embedding和图片Embedding进行简单拼接后进行内容质量判定时，其考虑维度都非常单一，并且无法学习到相邻文本和图片间的模态交互信息，结果为整体准确率低于95％，因此，本申请实施例提供的方法能够大大提升针对文章类别的识别准确率。

此外，在上述测试任务中，图文优质内容的覆盖率达到17％，通过在浏览器侧对识别出来的图文优质内容进行推荐加权实验，实现了将图文搭配效果好、体验优的优质内容优先推荐给用户，并在业务侧相对历史的应用版本取得了良好的业务效果。示意性地，在内容中心的内容处理链路中，对所有图文内容进行内容质量打分，然后出库并分发给终端侧，终端侧根据内容质量打分分别进行层次化的推荐加权，例如，对识别出来的优质内容进行推荐加权，对低质内容进行推荐降权等。这一推荐方法可以有效提升用户的阅读体验，是一种基于具体业务场景的推荐算法上的创新。

此外，使用本申请实施例所提供的图文先验优质识别算法进行优质内容加权推荐实验后，在浏览器侧整体的点击PV(Page View，页面访问量)提升0.38％，曝光效率提升0.43％，CTR(Click-Through-Rate，点击率)提升0.394％，用户的停留时长提升0.17％；同时DAU(Daily Active User，日活跃用户量)的次日留存提升0.165％，互动指标数据中人均分享提升1.705％，人均点赞提升4.215％，人均评论提升0.188％。

图9是本申请实施例提供的一种数据处理装置的结构示意图，请参考图9，该装置包括：

第一获取模块901，用于获取文章的文本特征和图片特征，该文本特征用于表征该文章中的文本数据，该图片特征用于表征该文章中的图片数据；

第二获取模块902，用于对该文本特征，基于该图片特征中与该文本特征关联的部分特征，确定第一交互特征，该第一交互特征用于表征融合了图片特征的文本特征；

第三获取模块903，用于对该图片特征，基于该文本特征中与该图片特征关联的部分特征，确定第二交互特征，该第二交互特征用于表征融合了文本特征的图片特征；

融合模块904，用于将该第一交互特征与该第二交互特征融合，得到跨模态交互特征；

确定模块905，用于基于该跨模态交互特征，确定该目标文章所属的文章类别。

本申请实施例提供的装置，通过针对文章的文本数据和图片数据，分别提取文本特征和图片特征，并利用两者之间的跨模态交互特征，来预测该文章所属的文章类别，该方法同时考虑了文本模态和图片模态各自对于文章类别的贡献程度，而并非仅从文本角度来进行判断，此外提取到的跨模态交互特征并非是文本特征和图片特征的简单拼接，其能够反映出更加丰富和深层次的模态间交互信息，有助于提高对文章类别的识别准确率，进而在识别优质文章的场景下能够提高对优质文章的挖掘准确率。

在一种可能实施方式中，基于图9的装置组成，该第一获取模块901包括：

第一提取融合单元，用于提取该文本数据的文本语义特征，将该文本语义特征与文本位置特征融合，得到该文本特征；

第二提取融合单元，用于提取该图片数据的图片深度特征，将该图片深度特征与图片位置特征融合，得到该图片特征。

在一种可能实施方式中，该文本数据包括标题数据和正文数据；该文本特征包括标题特征和正文特征；

该第一提取融合单元用于：

提取该标题数据的标题语义特征和该正文数据的正文语义特征；

将该标题语义特征与标题位置特征融合，得到该标题特征；

将该正文语义特征与正文位置特征融合，得到该正文特征。

在一种可能实施方式中，该第一交互特征包括标题交互特征和正文交互特征，基于图9的装置组成，该第二获取模块902包括：

第一获取单元，用于对该标题特征，基于该正文特征和该图片特征中分别与该标题特征关联的部分特征，确定该标题交互特征，该标题交互特征用于表征融合了正文特征和图片特征之后的标题特征；

第二获取单元，用于对该正文特征，基于该标题特征和该图片特征中分别与该正文特征关联的部分特征，确定该正文交互特征，该正文交互特征用于表征融合了标题特征和图片特征之后的正文特征。

在一种可能实施方式中，该第一获取单元用于：

基于该正文特征中与该标题特征关联的部分特征，确定第一标题交互特征；

基于该图片特征中与该标题特征关联的部分特征，确定第二标题交互特征；

将该第一标题交互特征和该第二标题交互特征拼接，得到第三标题交互特征；

对该第三标题交互特征进行编码和解码，得到该标题交互特征。

在一种可能实施方式中，该第二获取单元用于：

基于该标题特征中与该正文特征关联的部分特征，确定第一正文交互特征；

基于该图片特征中与该正文特征关联的部分特征，确定第二正文交互特征；

将该第一正文交互特征和该第二正文交互特征拼接，得到第三正文交互特征；

对该第三正文交互特征进行编码和解码，得到该正文交互特征。

在一种可能实施方式中，基于图9的装置组成，该第三获取模块903包括：

第三获取单元，用于对该图片特征，基于该标题特征和该正文特征中分别与该图片特征关联的部分特征，确定该第二交互特征。

在一种可能实施方式中，该第三获取单元用于：

基于该标题特征中与该图片特征关联的部分特征，确定第一图片交互特征；

基于该正文特征中与该图片特征关联的部分特征，确定第二图片交互特征；

将该第一图片交互特征和该第二图片交互特征拼接，得到第三图片交互特征；

对该第三图片交互特征进行编码和解码，得到该第二交互特征。

在一种可能实施方式中，该文本位置特征和该图片位置特征均为该文本数据与该图片数据之间的相对位置特征，该相对位置特征用于表征该文本数据与该图片数据之间的先后顺序和距离远近。

在一种可能实施方式中，该相对位置特征的确定方式包括：

确定该文本数据中的多个文本、以及该图片数据中的多个图片各自在该文章中的位置信息；

基于该位置信息，构建相对位置编码矩阵，该相对位置编码矩阵中的任一元素用于表征该元素所属列对应的文本和该元素所属行对应的图片之间的相对位置信息；

基于该相对位置编码矩阵，确定该多个文本中的任一文本与该多个图片中的任一图片之间的相对位置特征。

在一种可能实施方式中，该确定模块905用于：

对该跨模态交互特征进行全连接处理，得到全连接特征；

对该全连接特征进行指数归一化，得到该文章的概率预测结果；该概率预测结果包括多个预测概率，多个预测概率与多个类别一一对应；

确定符合目标条件的预测概率对应的类别，为该文章所属的文章类别。

需要说明的是：上述实施例提供的数据处理装置在处理数据时，仅以上述各功能模块的划分进行举例说明，实际应用中，能够根据需要而将上述功能分配由不同的功能模块完成，即将计算机设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的数据处理装置与数据处理方法实施例属于同一构思，其具体实现过程详见数据处理方法实施例，这里不再赘述。

图10是本申请实施例提供的一种计算机设备的结构示意图，请参考图10，以计算机设备为终端1000为例进行说明，此时终端1000能够独立完成对文章的文章类别的识别过程。可选地，该终端1000的设备类型包括：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端1000还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端1000包括有：处理器1001和存储器1002。

可选地，处理器1001包括一个或多个处理核心，比如4核心处理器、8核心处理器等。可选地，处理器1001采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。在一些实施例中，处理器1001包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central Processing Unit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1001集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1001还包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

在一些实施例中，存储器1002包括一个或多个计算机可读存储介质，可选地，该计算机可读存储介质是非暂态的。可选地，存储器1002还包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1002中的非暂态的计算机可读存储介质用于存储至少一个程序代码，该至少一个程序代码用于被处理器1001所执行以实现本申请中各个实施例提供的数据处理方法。

在一些实施例中，终端1000还可选包括有：外围设备接口1003和至少一个外围设备。处理器1001、存储器1002和外围设备接口1003之间能够通过总线或信号线相连。各个外围设备能够通过总线、信号线或电路板与外围设备接口1003相连。具体地，外围设备包括：射频电路1004、显示屏1005、摄像头组件1006、音频电路1007、定位组件1008和电源1009中的至少一种。

在一些实施例中，终端1000还包括有一个或多个传感器1010。该一个或多个传感器1010包括但不限于：加速度传感器1011、陀螺仪传感器1012、压力传感器1013、指纹传感器1014、光学传感器1015以及接近传感器1016。

本领域技术人员能够理解，图10中示出的结构并不构成对终端1000的限定，能够包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图11是本申请实施例提供的一种计算机设备的结构示意图，该计算机设备1100可因配置或性能不同而产生比较大的差异，该计算机设备1100包括一个或一个以上处理器(Central Processing Units，CPU)1101和一个或一个以上的存储器1102，其中，该存储器1102中存储有至少一条计算机程序，该至少一条计算机程序由该一个或一个以上处理器1101加载并执行以实现上述各个实施例提供的数据处理方法。可选地，该计算机设备1100还具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该计算机设备1100还包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括至少一条计算机程序的存储器，上述至少一条计算机程序可由终端中的处理器执行以完成上述各个实施例中的数据处理方法。例如，该计算机可读存储介质包括ROM(Read-Only Memory，只读存储器)、RAM(Random-Access Memory，随机存取存储器)、CD-ROM(Compact Disc Read-Only Memory，只读光盘)、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品或计算机程序，包括一条或多条程序代码，该一条或多条程序代码存储在计算机可读存储介质中。计算机设备的一个或多个处理器能够从计算机可读存储介质中读取该一条或多条程序代码，该一个或多个处理器执行该一条或多条程序代码，使得计算机设备能够执行以完成上述实施例中的数据处理方法。

本领域普通技术人员能够理解实现上述实施例的全部或部分步骤能够通过硬件来完成，也能够通过程序来指令相关的硬件完成，可选地，该程序存储于一种计算机可读存储介质中，可选地，上述提到的存储介质是只读存储器、磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

一种数据处理方法，由计算机设备执行，所述方法包括：

获取文章的文本特征和图片特征，所述文本特征用于表征所述文章中的文本数据，所述图片特征用于表征所述文章中的图片数据；

对所述文本特征，基于所述图片特征中与所述文本特征关联的部分特征，确定第一交互特征，所述第一交互特征用于表征融合了图片特征的文本特征；

对所述图片特征，基于所述文本特征中与所述图片特征关联的部分特征，确定第二交互特征，所述第二交互特征用于表征融合了文本特征的图片特征；

将所述第一交互特征与所述第二交互特征融合，得到跨模态交互特征；

基于所述跨模态交互特征，确定所述文章所属的文章类别。
根据权利要求1所述的方法，所述获取文章的文本特征和图片特征，包括：

提取所述文本数据的文本语义特征，将所述文本语义特征与文本位置特征融合，得到所述文本特征；

提取所述图片数据的图片深度特征，将所述图片深度特征与图片位置特征融合，得到所述图片特征。
根据权利要求2所述的方法，所述文本数据包括标题数据和正文数据；所述文本特征包括标题特征和正文特征；

所述提取所述文本数据的文本语义特征，包括：

提取所述标题数据的标题语义特征和所述正文数据的正文语义特征；

所述将所述文本语义特征与文本位置特征融合，得到所述文本特征，包括：

将所述标题语义特征与标题位置特征融合，得到所述标题特征；

将所述正文语义特征与正文位置特征融合，得到所述正文特征。
根据权利要求3所述的方法，所述第一交互特征包括标题交互特征和正文交互特征，所述对所述文本特征，基于所述图片特征中与所述文本特征关联的部分特征，确定第一交互特征，包括：

对所述标题特征，基于所述正文特征和所述图片特征中分别与所述标题特征关联的部分特征，确定所述标题交互特征，所述标题交互特征用于表征融合了正文特征和图片特征之后的标题特征；

对所述正文特征，基于所述标题特征和所述图片特征中分别与所述正文特征关联的部分特征，确定所述正文交互特征，所述正文交互特征用于表征融合了标题特征和图片特征之后的正文特征。
根据权利要求4所述的方法，所述基于所述正文特征和所述图片特征中分别与所述标题特征关联的部分特征，确定所述标题交互特征，包括：

基于所述正文特征中与所述标题特征关联的部分特征，确定第一标题交互特征；

基于所述图片特征中与所述标题特征关联的部分特征，确定第二标题交互特征；

将所述第一标题交互特征和所述第二标题交互特征拼接，得到第三标题交互特征；

对所述第三标题交互特征进行编码和解码，得到所述标题交互特征。
根据权利要求4所述的方法，所述基于所述标题特征和所述图片特征中分别与所述正文特征关联的部分特征，确定所述正文交互特征，包括：

基于所述标题特征中与所述正文特征关联的部分特征，确定第一正文交互特征；

基于所述图片特征中与所述正文特征关联的部分特征，确定第二正文交互特征；

将所述第一正文交互特征和所述第二正文交互特征拼接，得到第三正文交互特征；

对所述第三正文交互特征进行编码和解码，得到所述正文交互特征。
根据权利要求3所述的方法，所述对所述图片特征，基于所述文本特征中与所述图片特征关联的部分特征，确定第二交互特征，包括：

对所述图片特征，基于所述标题特征和所述正文特征中分别与所述图片特征关联的部分特征，确定所述第二交互特征。
根据权利要求7所述的方法，所述基于所述标题特征和所述正文特征中分别与所述图片特征关联的部分特征，确定所述第二交互特征，包括：

基于所述标题特征中与所述图片特征关联的部分特征，确定第一图片交互特征；

基于所述正文特征中与所述图片特征关联的部分特征，确定第二图片交互特征；

将所述第一图片交互特征和所述第二图片交互特征拼接，得到第三图片交互特征；

对所述第三图片交互特征进行编码和解码，得到所述第二交互特征。
根据权利要求2所述的方法，所述文本位置特征和所述图片位置特征均为所述文本数据与所述图片数据之间的相对位置特征，所述相对位置特征用于表征所述文本数据与所述图片数据之间的先后顺序和距离远近。
根据权利要求9所述的方法，所述相对位置特征的确定方式包括：

确定所述文本数据中的多个文本、以及所述图片数据中的多个图片各自在所述文章中的位置信息；

基于所述位置信息，构建相对位置编码矩阵，所述相对位置编码矩阵中的任一元素用于表征所述元素所属列对应的文本和所述元素所属行对应的图片之间的相对位置信息；

基于所述相对位置编码矩阵，确定所述多个文本中的任一文本与所述多个图片中的任一图片之间的相对位置特征。
根据权利要求1所述的方法，所述基于所述跨模态交互特征，确定所述文章所属的文章类别，包括：

对所述跨模态交互特征进行全连接处理，得到全连接特征；

对所述全连接特征进行指数归一化，得到所述文章的概率预测结果；所述概率预测结果包括多个预测概率，所述多个预测概率与多个类别一一对应；

确定符合目标条件的预测概率对应的类别，为所述文章所属的文章类别。
一种数据处理装置，所述装置包括：

第一获取模块，用于获取文章的文本特征和图片特征，所述文本特征用于表征所述文章中的文本数据，所述图片特征用于表征所述文章中的图片数据；

第二获取模块，用于对所述文本特征，基于所述图片特征中与所述文本特征关联的部分特征，确定第一交互特征，所述第一交互特征用于表征融合了图片特征的文本特征；

第三获取模块，用于对所述图片特征，基于所述文本特征中与所述图片特征关联的部分特征，确定第二交互特征，所述第二交互特征用于表征融合了文本特征的图片特征；

融合模块，用于将所述第一交互特征与所述第二交互特征融合，得到跨模态交互特征；

确定模块，用于基于所述跨模态交互特征，确定所述文章所属的文章类别。
一种计算机设备，所述计算机设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条计算机程序，所述至少一条计算机程序由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求11任一项所述的数据处理方法。
一种存储介质，所述存储介质中存储有至少一条计算机程序，所述至少一条计算机程序由处理器加载并执行以实现如权利要求1至权利要求11任一项所述的数据处理方法。
一种计算机程序产品，所述计算机程序产品包括至少一条计算机程序，所述至少一条计算机程序由处理器加载并执行以实现如权利要求1至权利要求11任一项所述的数据处理方法。