WO2023065618A1

WO2023065618A1 - 基于多头自注意神经机制的多模态新闻推荐方法及装置

Info

Publication number: WO2023065618A1
Application number: PCT/CN2022/087220
Authority: WO
Inventors: 欧中洪; 刘沛航; 韩宗志; 宋美娜; 钟茂华; 梁昊光
Original assignee: 北京邮电大学
Priority date: 2021-10-21
Filing date: 2022-04-15
Publication date: 2023-04-27
Also published as: CN114154054A

Abstract

本公开提出一种基于多头自注意神经机制的多模态新闻推荐方法及装置，其中方法包括步骤，采集数据信息，包括新闻数据、特征数据、痕迹数据；基于view-level注意力机制的多成分特征交叉模型、流式数据的热点新闻实时预测技术、智能抽帧的多模态信息融合技术，将所述数据信息融合成统一的新闻特征；将所述统一的新闻特征作为模型输入，通过用户兴趣表征模型并结合最高未来影响策略，完成个性化精准推荐的功能。

Description

基于多头自注意神经机制的多模态新闻推荐方法及装置

相关申请的交叉引用

本申请基于申请号为202111227971.6、申请日为2021年10月21日的中国专利申请提出，并要求该中国专利申请的优先权，该中国专利申请的全部内容在此引入本申请作为参考。

技术领域

本公开属于人工智能领域，具体涉及一种基于多头自注意神经机制的多模态新闻推荐方法及装置。

背景技术

在信息爆炸和快节奏化的今天，越来越多的用户通过线上阅读的方式获取知识和信息。为帮助用户在有限时间内发现正确且相关的内容，新闻推荐技术应运而生。新闻推荐旨在通过计算机强大的计算能力和高效率的特征匹配对用户进行个性化推荐,从而解决信息过载问题。目前新闻推荐的方法主要有两种形式：(1)基于协同的过滤；(2)基于内容的过滤。

(1)基于协同的过滤。利用兴趣相投、拥有共同经验群体的喜好来推荐用户感兴趣的信息，个人通过合作机制给予信息相当程度的回应(如评分)并记录下来以达到过滤目的，进而帮助别人筛选信息。该方法主要是通过行为历史的用户-物品交互信息来挖掘用户和物品间的关系，从而给用户推荐和他们喜欢物品相似的物品，即所谓的“物以类聚”。基于协同的过滤考虑个性化、自动化程度高、能够有效利用其他相似用户的回馈信息、加快个性化学习的速度。

(2)基于内容的过滤。该方法利用新闻信息(标题、正文、种类)来构建新闻特征，通过分析历史行为信息构建用户画像；在生成预测时，其更多强调对项目属性的分析。当被推荐对象是新闻等文本类型时，效果较好。基于内容的过滤推荐时依赖用户画像，而用户画像从用户评估过的项目中获取，与用户的积极评价最相关的项目会被推荐给用户。为了生成有意义的推荐结果，基于内容的过滤会使用不同模型来查找文本间的相似性，在语料库中模拟不同文本的关系；之后通过统计分析或机器学习来学习基础模型，生成推荐结果。基于内容的过滤用户画像间相互独立，且用户画像随用户兴趣迁移的变化比较及时，但需要对新闻特征足够了解。

其中，方案(1)主要采用用户的行为信息，通过分析用户和物品间的相似度关系，给用户进行推荐。该方法在新闻推荐上忽略了新闻文本信息的重要程度，导致用户和新闻信息无法有效整合，具有一定的局限性。方案(2)采用了当下新闻推荐领域主流的基于内容过滤的方法，能更好捕捉新闻的特征信息，并且用户画像之间是独立的，可以快速响应由于用户行为变化而造成的用户兴趣迁移。但该方案对项目信息的了解要求较高，新闻建模和用户建模不准确。

发明内容

本公开旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本公开的第一个目的在于提出一种基于多头自注意神经机制的多模态新闻推荐方法。

本公开的第二个目的在于提出一种基于多头自注意神经机制的多模态新闻推荐装置。

为达上述目的，本公开第一方面实施例提出了一种基于多头自注意神经机制的多模态新闻推荐方法，包括：采集数据信息，包括新闻数据、特征数据、痕迹数据；基于view-level注意力机制的多成分特征交叉模型、流式数据的热点新闻实时预测技术、智能抽帧的多模态信息融合技术，将所述数据信息融合成统一的新闻特征；将所述统一的新闻特征作为模型输入，通过用户兴趣表征模型并结合最高未来影响策略，完成个性化精准推荐的功能。

进一步地，在本公开的一个实施例中，所述采集数据信息还包括对用户的兴趣标签进行采集。

进一步地，在本公开的一个实施例中，所述多模态信息融合技术，包括：

对于视频数据，采用智能抽帧技术，将视频分割为图像；

对于图像和音频数据，分别采用图像识别和语音识别技术，将图像和音频数据转换成文本数据。

进一步地，在本公开的一个实施例中，所述用户兴趣表征模型，包括：

在新闻编码方面，采用多头自注意神经机制捕捉任意单词间的关系；

在用户编码方面，采用多头自注意神经机制捕获取新闻间的潜在联系；

之后，采用注意机制确定每个单词或每个新闻的权重。

进一步地，在本公开的一个实施例中，所述未来最高影响策略，包括：

通过新闻的产生时间，对每篇新闻的信息进行时效权重的赋予，并根据大量的实验数据，规定新闻的失效阈值。

为达上述目的，本公开第二方面实施例提出了一种基于多头自注意神经机制的多模态新闻推荐装置，包括模块：信息采集模块，用于采集数据信息，包括新闻数据、特征数据、痕迹数据；特征构建模块，用于基于view-level注意力机制的多成分特征交叉模型、流式数据的热点新闻实时预测技术、智能抽帧的多模态信息融合技术，将所述数据信息融合成统一的新闻特征；个性化精准推荐模块，用于将所述统一的新闻特征作为模型输入，通过用户兴趣表征模型并结合最高未来影响策略，完成个性化精准推荐的功能。

进一步地，在本公开的一个实施例中，所述信息采集模块，还用于对用户的兴趣标签进行采集。

对于视频数据，采用智能抽帧技术，将视频分割为图像；

之后，采用注意机制确定每个单词或每个新闻的权重。

附图说明

本公开上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本公开实施例所提供的一种基于多头自注意神经机制的多模态新闻推荐方法的流程示意图。

图2为本公开实施例所提供的一种基于多头自注意神经机制的多模态新闻推荐装置的流程示意图。

图3为本公开实施例所提供的总体方案架构示意图。

图4为本公开实施例所提供的新闻数据信息示意图。

图5为本公开实施例所提供的特征交叉模型示意图。

图6为本公开实施例所提供的实时热点新闻预测技术示意图。

图7为本公开实施例所提供的多模态信息融合路线示意图。

图8为本公开实施例所提供的个性化精准推荐架构示意图。

图9为本公开实施例所提供的新用户推荐示意图。

图10为本公开实施例所提供的多头自注意神经机制示意图。

具体实施方式

下面详细描述本公开的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本公开，而不能理解为对本公开的限制。

下面参考附图描述本公开实施例的基于多头自注意神经机制的多模态新闻推荐方法和装置。

本申请要解决的技术问题主要有三个：对于高阶特征如何进行提取并建模问题，从而进行更精准的新闻和用户建模；用户冷启动问题，对于新用户也可以进行个性化的推荐；多模态数据的特征提取问题，建立多模态信息融合技术来处理新闻数据中的各模态数据。

本公开提出一种基于多头自注意神经机制的多模态新闻推荐方法，用于解决对于高阶特征如何进行提取并建模、用户冷启动、多模态数据的特征提取问题。

如图1所示，该基于多头自注意神经机制的多模态新闻推荐方法包括以下步骤S101至步骤S103。

S101：采集数据信息，包括新闻数据、特征数据、痕迹数据。

其中，痕迹数据主要指用户在新闻平台上浏览信息时留下的历史行为记录，这些数据在用户浏览新闻时产生，包括用户的浏览记录、浏览时长、时间戳等，这些数据反映了用户的浏览兴趣，对于向用户进行推荐是必要的。特征数据主要包括用户的统计信息(性别、年龄、兴趣标签等)，这些信息在用户注册信息时产生。这使得新用户在平台浏览新闻时，平台可以先掌握新用户的部分特征信息。新用户的冷启动问题是新闻推荐乃至推荐系统领域的重点问题，通过对用户注册信息的采集，可以对用户进行早期的画像构建，从而有效的缓解冷启动问题。新闻数据采集是多维度的，目前的新闻信息除了文本外还有图片、视频等模态信息，这些数据对于新闻的特征表达和建模都有帮助。因此为了更精准推荐，本方案采集新闻的多模态信息进行联合构建；此外，在新闻信息的成份上，采集新闻的正文、标题、种类、实体等信息。图4是新闻数据采集的信息情况。

进一步地，不同于一般新闻推荐的数据采集，本方案在常规数据基础上，信息采集部分还对用户的兴趣标签等进行采集以满足每个用户的个性化精准推荐功能。

S102：基于view-level注意力机制的多成分特征交叉模型、流式数据的热点新闻实时预测技术、智能抽帧的多模态信息融合技术，将数据信息融合成统一的新闻特征。

其中，特征构建部分用于为最终的个性化推荐提供新闻的特征。因为新闻信息为多模态、多成分，需要将这些多维数据融合成统一的新闻特征。特征构建部分将原始数据转化成模型所需要的输入，并追求特征的客观和准确。本方案设计了基于view-level注意力机制的多成分特征交叉模型、基于流式数据的热点新闻实时预测技术、基于智能抽帧的多模态信息融合技术。

考虑到新闻数据具有多种成分，对新闻表示有帮助，并且新闻不同成分具有不同特征，如新闻标题简短扼要而正文长而具体，因此将新闻的多种成分进行特征交叉可进一步提高新闻建模的准确性。特征交叉模型如图5所示。模型将三种成分进行特征构造，通过view-level的注意力机制通学习三种成分的注意力表示，建立各成分的特征交叉体系，从而充分利用各成分隐藏信息，学习到更精确的新闻表示。

新闻推荐领域有较强的头部效应，重要新闻往往会被大部分人看到，如何在大量新闻中快速挖掘热点新闻往往决定新闻质量。通过快速找出热点新闻可以快速向用户推送从而提高用户体验，另一方面实时热点新闻预测也可以缓解用户端冷启动问题。本方案具体的实时热点新闻预测技术如图6。

本技术主要分为五部分，离线模型训练、流式模型转换、流式模型训练、流式模型评估、流式模型预测。离线模型训练主要将新闻数据集通过数据预处理转换成二分类问题，通过逻辑回归模型进行训练；训练完成后通过模型转换转换成流式模型，流式模型可对流式数据进行实时训练并且可以设置训练时间间隔；转换成流式模型后通过流式训练数据进行在线机器学习算法(FTRL)训练过程，并生成PMML模型，本部分的文件导出包含模型的各参数配置；训练模型后通过流式评估数据衡量模型的表现情况，进行及时反馈，如果评估效果良好，即可对实时新闻数据进行热点预测。

随着新闻领域的发展，新闻的表现形式已不再局限于纯文本形式。针对新闻数据中有音频、视频、图像、文本等多模态数据，本方案提出多模态信息挖掘结果的统一整理与表达，融合技术如图7所示。

对于视频数据，方案采用智能抽帧技术，将视频分割为图像。该方法可以将视频中的关键帧快速捕捉并放弃重复无用的帧片段，节省计算资源,提高多模态转换的准确度。对于图像和音频数据分别采用成熟的图像识别和语音识别技术，将两种模态数据转换成文本数据，实现多模态数据的统一，将最终的文本数据通过词嵌入的形式作为模型输入，新闻的多模态数据被集成从而保留新闻潜在特征。

S103：将统一的新闻特征作为模型输入，通过用户兴趣表征模型并结合最高未来影响策略，完成个性化精准推荐的功能。

其中，个性化精准推荐通过将整合好的新闻和用户特征作为模型输入，通过深度学习模型或者其他算法挖掘数据中高阶交叉关系，并结合一些先进策略，完成对用户个性化精准推荐的功能。主要分为三部分，基于标签的新用户画像构建模块、用户兴趣表征模型、未来影响最高策略。在以上技术和模型支撑的基础上，方案确定了用户综合推荐方案；在用户人群方面，方案覆盖新老用户，有效缓解用户冷启动问题；在数据模态方面，方案采用视频、音频、图像的多模态特征构建技术；在用户兴趣表征方面，采用多头自注意神经机制挖掘数据中的高阶隐藏特征；在个性化推荐方面，基于最高未来影响策略，从时效性出发赋予新闻特征不同权重。模型的架构如图8所示。

在新闻推荐系统中，用户冷启动是一个不可忽视的问题。所有用户在平台上的角色都由新用户过渡，因此如何对没有历史行为的新用户进行个性化推荐是反映个性化推荐技术成熟度的关键指标。为解决冷启动问题，本模块结合兴趣标签，设计了新用户画像构建的基本技术方案，如图9所示。

在用户画像部分，方案基于用户注册时采集的兴趣标签和统计信息对用户进行早期用户画像的建立；在新闻画像部分，通过主题模型对文本数据进行主题提取，再结合类别信息生成新闻画像；通过两者相似度的比较并结合信息价值衰减策略确定用户和新闻间的点击概率，最终根据概率排序对新用户生成top_k推荐。该方案即使在新用户中，推荐效果也能呈现个性化和及时性，具有良好效果。

用户历史行为记录包含丰富的用户偏好特征信息，用户兴趣表征模型基于用户的历史行为记录充分感知与挖掘用户的历史偏好特征，从而更好定位用户兴趣表征，提高新闻推荐预测的准确性，该模块主要基于多头自注意神经机制进行。具体流程图如图10 所示。

本方案采用目前流行的多头自注意神经机制，在新闻编码方面，多头自注意神经机制可以捕捉任意单词间的关系从而更好地进行新闻建模；在用户编码方面，将用户历史记录同样采用多头自注意机制获取新闻间的潜在联系，从而更好地感知和挖掘用户的兴趣特征。在多头自注意层之后，模型采用注意机制用来确定每个单词或者每个新闻的权重，从而更好地区分特征鲜明的要素对建模的贡献。

由于新闻数据更新迭代快时效性高的特点，方案在自注意机制的基础上引入未来影响最高策略。未来影响最高策略即基于时序信息赋予特征不同的权重，越新的内容权重越高。在实际业务场景中，一般新闻的时序越晚，新闻的推荐价值越高。基于此，方案通过新闻的产生时间，对每篇新闻的信息进行时效权重的赋予，并且根据大量的实验数据，规定新闻失效的时间阈值，从而为用户在个性化推荐的基础上过滤掉失效、阅读价值低的新闻，进一步提高用户的阅读体验。

本公开实施例提出的基于多头自注意神经机制的多模态新闻推荐方法，在新用户推荐方面，基于兴趣标签，通过主题模型和特征相似度技术，建立早期阶段的用户画像，有效缓解用户冷启动问题；在有行为记录的用户个性化精准推荐方面，通过多模态信息融合对新闻中的多模态信息进行特征采集和融合，通过多头自注意机制进行高阶交叉特征挖掘和用户兴趣表征学习，最后通过最高未来影响策略和实时新闻热点挖掘为新闻赋予时序权重，参与最终的用户推荐。本方案的总体方案架构如图3所示。

与现有技术相比，本提案的优势在于：采用了多头自注意神经机制，可以捕捉任意单词级以及任意新闻之间的潜在特征，有助于进行更精准的新闻建模和用户建模；针对用户冷启动问题，提出了基于标签的早期用户画像创建方案，借助主题模型和特征相似度，并结合实时热点新闻预测，对新用户进行早期个性化推荐；整合了多模态新闻数据，提出了一种创新的多模态信息融合技术，并整合新闻的多成分信息，对标题、正文、种类等均进行特征学习，进一步提高了新闻建模的准确性。

为了实现上述实施例，本公开还提出一种基于多头自注意神经机制的多模态新闻推荐装置。

图2为本公开实施例提供的一种基于多头自注意神经机制的多模态新闻推荐装置的结构示意图。

如图2所示，该基于多头自注意神经机制的多模态新闻推荐装置包括：信息采集模块10，特征构建模块20，个性化精准推荐模块30。

其中，信息采集模块，用于采集数据信息，包括新闻数据、特征数据、痕迹数据；特征构建模块用于基于view-level注意力机制的多成分特征交叉模型、流式数据的热点新闻实时预测技术、智能抽帧的多模态信息融合技术，将数据信息融合成统一的新闻特征；个性化精准推荐模块用于将统一的新闻特征作为模型输入，通过用户兴趣表征模型并结合最高未来影响策略，完成个性化精准推荐的功能。

进一步地，在本公开的一个实施例中，信息采集模块10，还用于对用户的兴趣标签进行采集。

进一步地，在本公开的一个实施例中，多模态信息融合技术，包括：

对于视频数据，采用智能抽帧技术，将视频分割为图像；

进一步地，在本公开的一个实施例中，用户兴趣表征模型，包括：

之后，采用注意机制确定每个单词或每个新闻的权重。

进一步地，在本公开的一个实施例中，用户兴趣表征模型，未来最高影响策略，包括：

本公开实施例提出的基于多头自注意神经机制的多模态新闻推荐装置，在新用户推荐方面，基于兴趣标签，通过主题模型和特征相似度技术，建立早期阶段的用户画像，有效缓解用户冷启动问题；在有行为记录的用户个性化精准推荐方面，通过多模态信息融合对新闻中的多模态信息进行特征采集和融合，通过多头自注意机制进行高阶交叉特征挖掘和用户兴趣表征学习，最后通过最高未来影响策略和实时新闻热点挖掘为新闻赋予时序权重，参与最终的用户推荐。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本公开的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本公开的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

尽管上面已经示出和描述了本公开的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本公开的限制，本领域的普通技术人员在本公开的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

一种基于多头自注意神经机制的多模态新闻推荐方法，其特征在于，包括以下步骤：

采集数据信息，包括新闻数据、特征数据、痕迹数据；

基于view-level注意力机制的多成分特征交叉模型、流式数据的热点新闻实时预测技术、智能抽帧的多模态信息融合技术，将所述数据信息融合成统一的新闻特征；

将所述统一的新闻特征作为模型输入，通过用户兴趣表征模型并结合最高未来影响策略，完成个性化精准推荐的功能。
根据权利要求1所述的方法，其特征在于，所述采集数据信息还包括对用户的兴趣标签进行采集。
根据权利要求1所述的方法，其特征在于，所述多模态信息融合技术，包括：

对于视频数据，采用智能抽帧技术，将视频分割为图像；

对于图像和音频数据，分别采用图像识别和语音识别技术，将图像和音频数据转换成文本数据。
根据权利要求1所述的方法，其特征在于，所述用户兴趣表征模型，包括：

在新闻编码方面，采用多头自注意神经机制捕捉任意单词间的关系；

在用户编码方面，采用多头自注意神经机制捕获取新闻间的潜在联系；

之后，采用注意机制确定每个单词或每个新闻的权重。
根据权利要求1所述的方法，其特征在于，所述未来最高影响策略，包括：

通过新闻的产生时间，对每篇新闻的信息进行时效权重的赋予，并根据大量的实验数据，规定新闻的失效阈值。
一种基于多头自注意神经机制的多模态新闻推荐装置，其特征在于，包括以下模块：

信息采集模块，用于采集数据信息，包括新闻数据、特征数据、痕迹数据；

特征构建模块，用于基于view-level注意力机制的多成分特征交叉模型、流式数据的热点新闻实时预测技术、智能抽帧的多模态信息融合技术，将所述数据信息融合成统一的新闻特征；

个性化精准推荐模块，用于将所述统一的新闻特征作为模型输入，通过用户兴趣表征模型并结合最高未来影响策略，完成个性化精准推荐的功能。
根据权利要求6所述的装置，其特征在于，所述信息采集模块，还用于对用户的兴趣标签进行采集。
根据权利要求6所述的装置，其特征在于，所述多模态信息融合技术，包括：

对于视频数据，采用智能抽帧技术，将视频分割为图像；

对于图像和音频数据，分别采用图像识别和语音识别技术，将图像和音频数据转换成文本数据。
根据权利要求6所述的装置，其特征在于，所述用户兴趣表征模型，包括：

在新闻编码方面，采用多头自注意神经机制捕捉任意单词间的关系；

在用户编码方面，采用多头自注意神经机制捕获取新闻间的潜在联系；

之后，采用注意机制确定每个单词或每个新闻的权重。
根据权利要求6所述的装置，所述未来最高影响策略，包括：

通过新闻的产生时间，对每篇新闻的信息进行时效权重的赋予，并根据大量的实验数据，规定新闻的失效阈值。
一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行以下步骤：

采集数据信息，包括新闻数据、特征数据、痕迹数据；

基于view-level注意力机制的多成分特征交叉模型、流式数据的热点新闻实时预测技术、智能抽帧的多模态信息融合技术，将所述数据信息融合成统一的新闻特征；

将所述统一的新闻特征作为模型输入，通过用户兴趣表征模型并结合最高未来影响策略，完成个性化精准推荐的功能。
一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行以下步骤：

采集数据信息，包括新闻数据、特征数据、痕迹数据；

基于view-level注意力机制的多成分特征交叉模型、流式数据的热点新闻实时预测技术、智能抽帧的多模态信息融合技术，将所述数据信息融合成统一的新闻特征；

将所述统一的新闻特征作为模型输入，通过用户兴趣表征模型并结合最高未来影响策略，完成个性化精准推荐的功能。
一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现以下步骤：

采集数据信息，包括新闻数据、特征数据、痕迹数据；

基于view-level注意力机制的多成分特征交叉模型、流式数据的热点新闻实时预测技术、智能抽帧的多模态信息融合技术，将所述数据信息融合成统一的新闻特征；

将所述统一的新闻特征作为模型输入，通过用户兴趣表征模型并结合最高未来影响策略，完成个性化精准推荐的功能。