WO2023246264A1

WO2023246264A1 - 基于注意力模块的信息识别方法和相关装置

Info

Publication number: WO2023246264A1
Application number: PCT/CN2023/089375
Authority: WO
Inventors: 汤志远; 黄申; 商世东
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2022-06-21
Filing date: 2023-04-20
Publication date: 2023-12-28
Also published as: CN117312582A

Abstract

本申请公开了一种基于注意力模块的信息识别方法和装置、存储介质及电子设备。本申请实施例可应用于车载、云技术、人工智能、智慧交通、辅助驾驶等各种场景，例如，基于并行计算的语音场景。其中，该方法包括：获取目标媒体资源的目标媒体资源特征，并将目标媒体资源特征输入到目标信息识别模型中，通过N层注意力模块对目标媒体资源特征进行处理，得到目标表征向量，其中，第i层注意力模块用于根据一组共享参数以及第i组非共享参数，确定第i层注意力模块输出的第i层表征向量，根据目标表征向量，确定目标信息识别结果，其中，目标信息识别结果用于表示从目标媒体资源中识别到的目标信息。本申请解决了相关技术中注意力识别模型为了加速计算过程，导致识别模型的性能损失较多的技术问题。

Description

基于注意力模块的信息识别方法和相关装置

本申请要求于2022年06月21日提交中国专利局、申请号为202210705199.2、申请名称为“基于注意力模块的信息识别方法和装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机领域，具体而言，涉及基于注意力模块的信息识别。

背景技术

基于自注意力的识别模型在多种任务中表现出较大优势，自注意力机制是其表现优异的重要原因，然而自注意力机制的计算复杂度较大，导致整个识别模型计算效率较低，共享注意力是常用来进行计算加速的方法，当下较为常见的方案包括：共享自注意力权重，即将某一层自注意力层的注意力权重直接作为其他层的注意力权重，省去了其他层的注意力权重的计算。

共享自注意力权重方法在使用过程中，由于不同层的表征抽象程度不同，却使用完全相同的注意力权重，会导致识别模型的性能损失严重，使得识别结果难以达到预期效果。

因此，相关技术中存在注意力识别模型的识别过程中，为了加速计算过程，导致识别模型的性能损失较多的技术问题。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种基于注意力模块的信息识别方法和装置、存储介质及电子设备，以至少解决相关技术中注意力识别模型为了加速计算过程，导致识别模型的性能损失较多的技术问题。

根据本申请实施例的一个方面，提供了一种基于注意力模块的信息识别方法，包括：获取目标媒体资源的目标媒体资源特征，并将所述目标媒体资源特征输入到目标信息识别模型中，其中，所述目标信息识别模型包括N层注意力模块，N为大于或等于2的正整数；通过所述N层注意力模块对所述目标媒体资源特征进行处理，得到目标表征向量，其中，所述N层注意力模块中的第i层注意力模块用于根据一组共享参数以及第i组非共享参数，确定第i层注意力权重参数以及第i层输入表征向量，并根据所述第i层注意力权重参数以及所述第i层输入表征向量确定所述第i层注意力模块输出的第i层表征向量，1≤i≤N，在i小于N的情况下，所述第i层表征向量用于确定第i+1层注意力模块使用的第i+1组非共享参数，在i等于N的情况下，所述第i层表征向量用于确定所述目标表征向量，所述N层注意力模块中的至少2层注意力模块共享使用所述一组共享参数，所述至少2层注意力模块包括所述第i层注意力模块；根据所述目标表征向量，确定目标信息识别结果，其中，所述目标信息识别结果用于表示从所述目标媒体资源中识别到的目标信息。

根据本申请实施例的另一方面，还提供了一种基于注意力模块的信息识别装置，包括：获取模块，用于获取目标媒体资源的目标媒体资源特征，并将所述目标媒体资源特征输入到目标信息识别模型中，其中，所述目标信息识别模型包括N层注意力模块，N为大于或等于2的正整数；处理模块，用于通过所述N层注意力模块对所述目标媒体资源特征进行处理，得到目标表征向量，其中，所述N层注意力模块中的第i层注意力模块用于根据一组共享参数以及第i组非共享参数，确定第i层注意力权重参数以及第i层输入表征向量，并根据所述第i层注意力权重参数以及所述第i层输入表征向量确定所述第i层注意力模块输出的第i层表征向量，1≤i≤N，在i小于N的情况下，所述第i层表征向量用于确定第i+1层注意力模块使用的第i+1组非共享参数，在i等于N的情况下，所述第i层表征向量用于确定所述目标表征向量，所述N层注意力模块中的至少2层注意力模块共享使用所述一组共享参数，所述至少2层注意力模块包括所述第i层注意力模块；确定模块，用于根据所述目标表征向量，确定目标信息识别结果，其中，所述目标信息识别结果用于表示从所述目标媒体资源中识别到的目标信息。

根据本申请实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述基于注意力模块的信息识别方法。

根据本申请实施例的又一方面，提供一种计算机程序产品，该计算机程序产品包括计算机程序，该计算机程序存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序，处理器执行该计算机程序，使得该计算机设备执行如以上基于注意力模块的信息识别方法。

根据本申请实施例的又一方面，还提供了一种电子设备，包括存储器和处理器，上述存储器中存储有计算机程序，上述处理器被设置为通过所述计算机程序执行上述的基于注意力模块的信息识别方法。

在本申请实施例中，采用获取目标媒体资源的目标媒体资源特征，并将目标媒体资源特征输入到目标信息识别模型中，其中，目标信息识别模型包括N层注意力模块，N为大于或等于2的正整数，通过N层注意力模块对目标媒体资源特征进行处理，得到目标表征向量，其中，N层注意力模块中的第i层注意力模块用于根据一组共享参数以及第i组非共享参数，确定第i层注意力权重参数以及第i层输入表征向量，并根据第i层注意力权重参数以及第i层输入表征向量确定第i层注意力模块输出的第i层表征向量，1≤i≤N，在i小于N的情况下，第i层表征向量用于确定第i+1层注意力模块使用的第i+1组非共享参数，在i等于N的情况下，第i层表征向量用于确定目标表征向量，N层注意力模块中的至少2层注意力模块共享使用一组共享参数，至少2层注意力模块包括第i层注意力模块，根据目标表征向量，确定目标信息识别结果，其中，目标信息识别结果用于表示从目标媒体资源中识别到的目标信息的方式，通过确定一组共享参数以及N组非共享参数，使得N层注意力模块在确定目标表征向量的过程中，可以使得每层表征向量均与上一层的非共享参数相关联，达到了降低注意力识别模型的计算量的同时，还能够避免识别模型损失过多的目的，从而实现了降低识别模型的参数量的同时，不同层的自注意力权重根据需要有所不同，使得性能不弱于甚至优于原有识别模型，兼顾模型性能和计算量的技术效果，进而解决了相关技术中注意力识别模型为了加速计算过程，导致识别模型的性能损失较多的技术问题。

附图说明

图1是根据本申请实施例的一种可选的基于注意力模块的信息识别方法的应用环境的示意图；

图2是根据本申请实施例的一种可选的基于注意力模块的信息识别方法的流程示意图；

图3是根据本申请实施例的一种可选的基于注意力模块的信息识别方法的示意图；

图4是根据本申请实施例的又一种可选的基于注意力模块的信息识别方法的示意图；

图5是根据本申请实施例的又一种可选的基于注意力模块的信息识别方法的示意图；

图6是根据本申请实施例的又一种可选的基于注意力模块的信息识别方法的示意图；

图7是根据本申请实施例的又一种可选的基于注意力模块的信息识别方法的示意图；

图8是根据本申请实施例的又一种可选的基于注意力模块的信息识别方法的示意图；

图9是根据本申请实施例的一种可选的基于注意力模块的信息识别装置的结构示意图；

图10是根据本申请实施例的一种可选的基于注意力模块的信息识别产品的结构示意图；

图11是根据本申请实施例的一种可选的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，在对本申请实施例进行描述的过程中出现的部分名词或者术语适用于如下解释：

注意力机制：实际上就是想将人的感知方式、注意力的行为应用在机器上，让机器学会去感知数据中的重要和不重要的部分。

Self/Intra Attention(自注意力机制)：对每个输入项分配的权重取决于输入项之间的相互作用，即通过输入项内部的"表决"来决定应该关注哪些输入项，在处理很长的输入时，具有并行计算的优势。

下面结合实施例对本申请进行说明：

根据本申请实施例的一个方面，提供了一种基于注意力模块的信息识别方法，可选地，在本实施例中，上述基于注意力模块的信息识别方法可以应用于如图1所示的由服务器101和终端设备103所构成的硬件环境中。如图1所示，服务器101通过网络与终端103进行连接，可用于为终端设备或终端设备上安装的应用程序提供服务，应用程序可以是视频应用程序、即时通信应用程序、浏览器应用程序、教育应用程序、会议应用程序等。可在服务器上或独立于服务器设置数据库105，用于为服务器101提供数据存储服务，例如，语音数据存储服务器，上述网络可以包括但不限于：有线网络，无线网络，其中，该有线网络包括：局域网、城域网和广域网，该无线网络包括：蓝牙、WIFI及其他实现无线通信的网络，终端设备103可以是配置有应用程序的终端，可以包括但不限于以下至少之一：手机(如Android手机、iOS手机等)、笔记本电脑、平板电脑、掌上电脑、MID(Mobile Internet Devices，移动互联网设备)、PAD、台式电脑、智能电视、智能语音交互设备、智能家电、车载终端、飞行器等计算机设备，上述服务器可以是单一服务器，也可以是由多个服务器组成的服务器集群，或者是云服务器，使用上述基于注意力模块的信息识别方法的应用程序107通过终端设备103或其他连接的显示设备进行显示。

结合图1所示，上述基于注意力模块的信息识别方法可以在终端设备103通过如下步骤实现：

S1，在终端设备103上获取目标媒体资源的目标媒体资源特征，并将目标媒体资源特征输入到目标信息识别模型中，其中，目标信息识别模型包括N层注意力模块，N为大于或等于2的正整数；

S2，在终端设备103上通过N层注意力模块对目标媒体资源特征进行处理，得到目标表征向量，其中，N层注意力模块中的第i层注意力模块用于根据一组共享参数以及第i组非共享参数，确定第i层注意力权重参数以及第i层输入表征向量，并根据第i层注意力权重参数以及第i层输入表征向量确定第i层注意力模块输出的第i层表征向量，1≤i≤N，在i小于N的情况下，第i层表征向量用于确定第i+1层注意力模块使用的第i+1组非共享参数，在i等于N的情况下，第i层表征向量用于确定目标表征向量，N层注意力模块中的至少2层注意力模块共享使用一组共享参数，至少2层注意力模块包括第i层注意力模块；

S3，在终端设备103上根据目标表征向量，确定目标信息识别结果，其中，目标信息识别结果用于表示从目标媒体资源中识别到的目标信息。

可选地，在本实施例中，上述基于注意力模块的信息识别方法还可以通过服务器实现，例如，图1所示的服务器101中实现；或由终端设备和服务器共同实现。

上述仅是一种示例，本实施例不做具体的限定。

可选地，作为一种可选的实施方式，如图2所示，上述基于注意力模块的信息识别方法包括：

S202，获取目标媒体资源的目标媒体资源特征，并将目标媒体资源特征输入到目标信息识别模型中，其中，目标信息识别模型包括N层注意力模块，N为大于或等于2的正整数；

S204，通过N层注意力模块对目标媒体资源特征进行处理，得到目标表征向量，其中，N层注意力模块中的第i层注意力模块用于根据一组共享参数以及第i组非共享参数，确定第i层注意力权重参数以及第i层输入表征向量，并根据第i层注意力权重参数以及第i层输入表征向量确定第i层注意力模块输出的第i层表征向量，1≤i≤N，在i小于N的情况下，第i层表征向量用于确定第i+1层注意力模块使用的第i+1组非共享参数，在i等于N的情况下，第i层表征向量用于确定目标表征向量，N层注意力模块中的至少2层注意力模块共享使用一组共享参数，至少2层注意力模块包括第i层注意力模块；

S206，根据目标表征向量，确定目标信息识别结果，其中，目标信息识别结果用于表示从目标媒体资源中识别到的目标信息。

可选的，在本申请实施例中，上述基于注意力模块的信息识别方法可以包括但不限于应用于云技术领域的语音会话场景、情绪识别场景、图像识别场景中。

云技术(Cloud technology)基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的系统后盾支撑，只能通过云计算来实现。

云计算(cloud computing)指IT基础设施的交付和使用模式，指通过网络以按需、易扩展的方式获得所需资源；广义云计算指服务的交付和使用模式，指通过网络以按需、易扩展的方式获得所需服务。这种服务可以是IT和软件、互联网相关，也可是其他服务。云计算是网格计算(Grid Computing)、分布式计算(DistributedComputing)、并行计算(Parallel Computing)、效用计算(Utility Computing)、网络存储(Network Storage Technologies)、虚拟化(Virtualization)、负载均衡(Load Balance)等传统计算机和网络技术发展融合的产物。

随着互联网、实时数据流、连接设备多样化的发展，以及搜索服务、社会网络、移动商务和开放协作等需求的推动，云计算迅速发展起来。不同于以往的并行分布式计算，云计算的产生从理念上将推动整个互联网模式、企业管理模式发生革命性的变革。

云会议是基于云计算技术的一种高效、便捷、低成本的会议形式。使用者只需要通过互联网界面，进行简单易用的操作，便可快速高效地与全球各地团队及客户同步分享语音、数据文件及视频，而会议中数据的传输、处理等复杂技术由云会议服务商帮助使用者进行操作。

目前国内云会议主要集中在以SaaS(Software as a Service,软件即服务)模式为主体的服务内容，包括电话、网络、视频等服务形式，基于云计算的视频会议就叫云会议。

在云会议时代，数据的传输、处理、存储全部由视频会议厂家的计算机资源处理，用户完全无需再购置昂贵的硬件和安装繁琐的软件，只需打开浏览器，登录相应界面，就能进行高效的远程会议。

云会议系统支持多服务器动态集群部署，并提供多台高性能服务器，大大提升了会议稳定性、安全性、可用性。近年来，视频会议因能大幅提高沟通效率，持续降低沟通成本，带来内部管理水平升级，而获得众多用户欢迎，已广泛应用在交通、运输、金融、运营商、教育、企业等各个领域。毫无疑问，视频会议运用云计算以后，在方便性、快捷性、易用性上具有更强的吸引力，必将激发视频会议应用新高潮的到来。

可选的，在本申请实施例中，在例如上述云会议场景中，可以包括但不限于通过人工智能云服务，利用端到端语音识别模型结构，来实现会议中的自动会议纪要。

所谓人工智能云服务，一般也被称作是AIaaS(AI as a Service，中文为“AI即服务”)。这是目前主流的一种人工智能平台的服务方式，具体来说AIaaS平台会把几类常见的AI服务进行拆分，并在云端提供独立或者打包的服务。这种服务模式类似于开了一个AI主题商城：所有的开发者都可以通过API接口的方式来接入使用平台提供的一种或者是多种人工智能服务，部分资深的开发者还可以使用平台提供的AI框架和AI基础设施来部署和运维自已专属的云人工智能服务。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。其中，语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

示例性地，上述基于注意力模块的信息识别方法可以包括但不限于应用于基于人工智能的远程培训、远程会商、应急指挥、远程面试、公开课、远程医疗、商务洽谈等应用场景中。

可选的，在本申请实施例中，图3是根据本申请实施例的一种可选的基于注意力模块的信息识别方法的示意图，如图3所示，以应用于云会议场景为例，包括：输入设备302、处理设备304以及输出设备306，其中，输入设备302用于获取参与云会议的帐号发送的语音信息，该语音信息可以包括但不限于由麦克风或其他语音输入设备获取，当获取到上述语音信息后，将上述语音信息输入至云服务器的处理设备304，该处理设备304可以包括但不限于由基于通用的Conformer/Transformer神经网络结构构成的神经网络模型，通过将语音信息输入上述神经网络模型，以得到上述神经网络模型输出的表征向量，再对上述表征向量进行处理，得到最终的识别结果，并通过上述输出设备306记录在数据库中，作为上述自动会议纪要保存在服务器中。

需要说明的是，上述目标媒体资源可以包括但不限于上述云会议场景下收集到的语音信息，上述目标表征向量可以理解为能够表示上述语音信息的表征向量，通过将上述目标表征向量输入到云会议处理设备304中，以确定识别结果。

示例性的，上述一组共享参数可以包括但不限于注意力机制中所使用的W^Q、W^K、W^V参数，其中，在云会议应用场景中，上述参数用于在训练上述文本识别模型(对应于前述的目标识别模型)中，进行调整，以确定基于注意力机制的各个注意力权重参数，在使用上述文本识别模型识别语音信息对应的特征时，控制上述一组共享参数保持不变，应用于N层注意力模块中的每层注意力模块。

在云会议场景中，上述第i组非共享参数可以理解为针对N层注意力模块中每层注意力模块均独立配置，包括但不限于第i-1中间层的语音表征参数H_i-1，也可以包括但不限于原始语音特征或者经过几层简单的神经网络所得到的语音表征参数。

上述第i层注意力权重参数可以包括但不限于对Q_i、K_i执行归一化操作后得到的第i层语音特征的注意力权重参数A_i，上述第i层输入表征向量可以包括但不限于语音特征V_i，上述根据第i层注意力权重参数以及第i层输入表征向量确定第i层注意力模块输出的第i层语音表征向量G_i＝A′_iV_i。

需要说明的是，上述G_i即为需要输入至下一层注意力模块的语音表征向量，上述G_i用于确定第i+1中间层语音表征参数H_i，进而再通过上述步骤确定G_i+1，以此类推，直到确定出最后一层注意力模块输出的G_N，以用于下游语音识别任务，得到语音识别结果。

在云会议场景中，上述N层注意力模块中的至少2层注意力模块共享使用一组共享参数，该组共享范数可以包括但不限于上述待学习语音识别参数：W^Q、W^K、W^V。

示例性的，一种基于Transformer的端到端语音识别模型结构，编码器(Encoder)也可以使用Conformer，通过使编码器中N_e层Transformer的多头注意力(Multi-HeadAttention)模块(对应于前述的注意力模块)共享一个统一的多头注意力计算模块(共享W^Q、W^K、W^V，对应于前述的一组共享参数)。编码器包括N_e个注意力模块，解码器包括由N_d的个注意力模块组成编码器，语音资源从Inputs输入，经过两次Concv/2+ReLU和Additional Module后，得到上述语音特征，并将语音特征输入到Encoding中，通过N层注意力模块(Multi-Head Attention)对语音特征进行处理，得到语音表征向量G_N，生成语音识别结果，或者，将G_N输入至解码器中，以得到语音识别结果。

上述仅是一种示例，本申请实施例不做任何具体限定。

可选的，在本申请实施例中，图4是根据本申请实施例的另一种可选的基于注意力模块的信息识别方法的示意图，如图4所示，以应用于情绪识别场景为例，包括：输入设备402、处理设备404以及输出设备406，其中，输入设备402用于获取能够表达情绪的图像，当获取到上述图像信息后，将上述图像信息输入至云服务器的处理设备404，上述处理设备404可以包括但不限于由神经网络结构构成的神经网络模型，通过将图像信息输入上述神经网络模型，以得到上述神经网络模型输出的表征向量，再对上述表征向量进行处理，得到最终的识别结果，并通过上述输出设备406进行进一步处理，以将识别到的情绪信息保存至在数据库。

需要说明的是，上述目标媒体资源可以包括但不限于上述情绪识别场景下收集到的图像信息，上述目标表征向量可以理解为能够表示上述图像信息的表征向量，通过将上述目标表征向量输入到情绪识别处理设备304中，以确定识别结果。

示例性的，上述一组共享参数可以包括但不限于注意力机制中所使用的W^Q、W^K、W^V参数，其中，在情绪识别应用场景中，上述参数用于在训练上述文本识别模型(对应于前述的目标识别模型)中，进行调整，以确定基于注意力机制的各个注意力权重参数，在使用上述文本识别模型识别图像信息对应的特征时，控制上述一组共享参数保持不变，应用于N层注意力模块中的每层注意力模块。

在情绪识别场景中，上述第i组非共享参数可以理解为针对N层注意力模块中每层注意力模块均独立配置，包括但不限于第i-1中间层的图像表征参数H_i-1，也可以包括但不限于原始图像特征或者经过几层简单的神经网络所得到的图像表征参数。

上述第i层注意力权重参数可以包括但不限于对Q_i、K_i执行归一化操作后得到的第i层图像特征的注意力权重参数A_i，上述第i层输入表征向量可以包括但不限于图像特征V_i，上述根据第i层注意力权重参数以及第i层输入表征向量确定第i层注意力模块输出的第i层图像表征向量G_i＝A′_iV_i。

需要说明的是，上述G_i即为需要输入至下一层注意力模块的图像表征向量，上述G_i用于确定第i+1中间层图像表征参数H_i，进而再通过上述步骤确定G_i+1，以此类推，直到确定出最后一层注意力模块输出的G_N，以用于下游图像识别任务，得到图像识别结果。

在情绪识别场景中，上述N层注意力模块中的至少2层注意力模块共享使用一组共享参数，该组共享参数可以包括但不限于上述待学习图像识别参数：W^Q、W^K、W^V。

示例性的，一种基于Transformer的端到端图像识别模型结构，编码器(Encoder)也可以使用Conformer，通过使编码器中N_e层Transformer的多头注意力(Multi-HeadAttention)模块(对应于前述的注意力模块)共享一个统一的多头注意力计算模块(共享W^Q、W^K、W^V，对应于前述的一组共享参数)。编码器包括N_e个注意力模块，解码器包括由N_d的个注意力模块组成编码器，图像资源从Inputs输入，经过两次Concv/2+ReLU和Additional Module后，得到上述图像特征，并将图像特征输入到Encoding中，通过N层注意力模块(Multi-Head Attention)对图像特征进行处理，得到图像表征向量G_N，生成图像识别结果，或者，将G_N输入至解码器中，以得到图像识别结果。

上述仅是一种示例，本申请实施例不做任何具体限定。

需要说明的是，上述基于注意力模块的信息识别方法还可以应用于如手机、音箱、小家电、嵌入式产品等，计算资源、内存有限，无法支持较大计算量的处理设备中，用于识别语音或图像信息，以将识别到的文本、情绪类型、对象、动作等应用于下游场景中。

可选的，在本申请实施例中，上述目标媒体资源可以包括但不限于待识别的视频、音频、图片等媒体资源，具体而言，可以包括但不限于云会议场景下收集到的语音信息、广告中播放的视频信息以及安防领域中的采集到的待识别图片等。

可选的，在本申请实施例中，上述目标媒体资源特征可以包括但不限于对上述目标媒体资源输入常规神经网络模型中所提取到的媒体资源特征，可以但不限于采用向量的形式表示。

可选的，在本申请实施例中，上述目标信息识别模型可以包括但不限于由多层注意力模块组成，上述N层注意力模块可以但不限于采用统一的注意力计算模块完成计算任务，上述目标信息识别模型可以包括但不限于基于Transformer的端到端语音识别模型结构，其中编码器(Encoder)也可以使用Conformer。

例如，图5是根据本申请实施例的又一种可选的基于注意力模块的信息识别方法的示意图，如图5所示，由Ne个注意力模块组成上述基于Transformer的端到端语音识别模型结构。

可选的，在本申请实施例中，上述目标表征向量可以理解为能够表示上述目标媒体资源的表征向量，通过将上述目标表征向量输入到后续处理模型中，以确定识别结果，进而生成业务需要的文字等数据。

可选的，在本申请实施例中，上述一组共享参数可以包括但不限于注意力机制中所使用的W^Q、W^K、W^V参数，上述参数用于在训练上述目标信息识别模型中，进行调整，以确定基于注意力机制的各个注意力权重参数，在使用上述目标信息识别模型识别目标媒体资源特征时，上述一组共享参数保持不变，应用于N层注意力模块中的每层注意力模块。

例如，图6是根据本申请实施例的又一种可选的基于注意力模块的信息识别方法的示意图，如图6所示，每层注意力模块(Multi-Head Attention)均输入Q、K、V，分别与W^Q、W^K、W^V关联，进而得到该层的表征向量。

可选的，在本申请实施例中，上述第i组非共享参数可以理解为针对N层注意力模块中每层注意力模块均独立配置，可以包括但不限于第i-1中间层表征参数H_i-1，也可以包括但不限于原始特征或者经过几层简单的神经网络所得到的的表征参数。

可选的，在本申请实施例中，上述第i层注意力权重参数可以包括但不限于对Q_i、K_i执行归一化操作后得到的第i层注意力权重参数A_i，上述第i层输入表征向量可以包括但不限于V_i，上述根据第i层注意力权重参数以及第i层输入表征向量确定第i层注意力模块输出的第i层表征向量G_i＝A′_iV_i。

需要说明的是，上述G_i即为需要输入至下一层注意力模块的表征向量，上述G_i用于确定第i+1中间层表征参数H_i，进而再通过上述步骤确定G_i+1，以此类推，直到确定出最后一层注意力模块输出的G_N，以用于下游识别任务，得到目标信息识别结果。

也即，上述在i小于N的情况下，第i层表征向量用于确定第i+1层注意力模块使用的第i+1组非共享参数，在i等于N的情况下，第i层表征向量用于确定目标表征向量可以理解为当G_i中的i＜N时，G_i用于确定H_i，为当G_i中的i＝N时，G_i用于确定G_N。

可选的，在本申请实施例中，上述N层注意力模块中的至少2层注意力模块共享使用一组共享参数，该组共享参数可以包括但不限于上述W^Q、W^K、W^V，换言之，上述N层注意力模块中的W^Q、W^K、W^V可以配置多套来作为共享参数，也可以配置1套来作为共享参数。

可选的，在本申请实施例中，上述根据目标表征向量，确定目标信息识别结果可以包括但不限于根据上述包括N层注意力模块的编码器输出的目标表征向量直接生成目标信息识别结果，还可以包括但不限于将上述包括N层注意力模块的编码器输出的表征向量输入解码器，以通过解码器的N层掩码模块以及N层注意力模块生成目标信息识别结果。

可选的，在本申请实施例中，上述目标信息识别结果表示从目标媒体资源中识别到的目标信息，可以包括但不限于目标媒体资源中所包括的语义信息、目标媒体资源中所包括的情绪类型信息等。

例如，图7是根据本申请实施例的又一种可选的基于注意力模块的信息识别方法的示意图，如图7所示，其中，包括一种基于Transformer的端到端语音识别模型结构，编码器(Encoder)也可以使用Conformer，通过使编码器中N_e层Transformer的多头注意力(Multi-HeadAttention)模块(对应于前述的注意力模块)共享一个统一的多头注意力计算模块(共享W^Q、W^K、W^V，对应于前述的一组共享参数)。类似地，图7右侧解码器(Decoder)部分的多头注意力模块和多头掩码注意力模块(MaskedMulti-HeadAttention)均可分别共享一组模块(共享W^Q、W^K、W^V)。

需要说明的是，编码器包括N_e个注意力模块，解码器包括由N_d的个注意力模块组成编码器，目标媒体资源从编码器输入，经过两次Concv/2+ReLU(卷积层和激活函数)和Additional Module(可选神经网络模块)后，得到上述目标媒体资源特征，并将目标媒体资源特征输入到Encoding中，通过N层注意力模块(Multi-Head Attention)对目标媒体资源特征进行处理，得到目标表征向量G_N，生成目标信息识别结果，或者，将G_N输入至解码器中，以得到目标信息识别结果。

示例性地，图8是根据本申请实施例的又一种可选的基于注意力模块的信息识别方法的示意图，如图8所示，上述一组共享参数可以包括但不限于采用自注意力统一计算模块实现，在该模块中存储上述W^Q、W^K、W^V，以便采用上述参数对每层注意力权重参数分别进行计算。

通过本申请实施例，采用获取目标媒体资源的目标媒体资源特征，并将目标媒体资源特征输入到目标信息识别模型中，其中，目标信息识别模型包括N层注意力模块，N为大于或等于2的正整数，通过N层注意力模块对目标媒体资源特征进行处理，得到目标表征向量，其中，N层注意力模块中的第i层注意力模块用于根据一组共享参数以及第i组非共享参数，确定第i层注意力权重参数以及第i层输入表征向量，并根据第i层注意力权重参数以及第i层输入表征向量确定第i层注意力模块输出的第i层表征向量，1≤i≤N，在i小于N的情况下，第i层表征向量用于确定第i+1层注意力模块使用的第i+1组非共享参数，在i等于N的情况下，第i层表征向量用于确定目标表征向量，目标媒体资源特征用于确定N层注意力模块中的第1层注意力模块使用的第1组非共享参数，N层注意力模块中的至少2层注意力模块共享使用一组共享参数，至少2层注意力模块包括第i层注意力模块，根据目标表征向量，确定目标信息识别结果，其中，目标信息识别结果用于表示从目标媒体资源中识别到的目标信息的方式，通过确定一组共享参数以及N组非共享参数，使得N层注意力模块在确定目标表征向量的过程中，可以使得每层表征向量均与上一层的非共享参数相关联，达到了降低注意力识别模型的计算量的同时，还能够避免识别模型损失过多的目的，从而实现了降低识别模型的参数量的同时，不同层的自注意力权重根据需要有所不同，使得性能不弱于甚至优于原有识别模型，兼顾模型性能和计算量的技术效果，进而解决了相关技术中注意力识别模型为了加速计算过程，导致识别模型的性能损失较多的技术问题。

作为一种可选的方案，在i大于1的情况下，所述第i层注意力权重参数以及所述第i层输入表征向量通过如下方式确定：

根据第一部分共享参数以及第i-1中间层表征参数，确定第i层注意力权重参数，其中，一组共享参数包括第一部分共享参数和第二部分共享参数，第i-1中间层表征参数是根据第i-1层注意力模块输出的第i-1层表征向量确定得到的中间层表征参数；

根据第二部分共享参数以及第i-1中间层表征参数，确定第i层输入表征向量，其中，第i组非共享参数包括第i-1中间层表征参数；

对第i层注意力权重参数以及第i层输入表征向量进行加权求和，得到第i层注意力模块输出的第i层表征向量。

可选的，在本申请实施例中，上述第一部分共享参数可以理解为上述W^Q、W^K，上述第i-1中间层表征参数可以理解为，也即上一层输出的G_i-1经过前馈神经网络后输出的H_i-1，其中，H_i-1是根据G_i-1确定，对于(Multi-HeadAttention)来说：输入是H和上一层的attention值A′_i，输出是G，其中，A′_i是(W^Q、W^K、W^V)确定的第i层注意力权重参数，G经过FeedForward Network后得到H。

可选的，在本申请实施例中，上述第i层注意力权重参数可以包括但不限于用A′_i表示，其中，A′_i＝f(A_i,A′_i-1)，f的选取方式较为灵活，如f(A_i,A′_i-1)＝(1-α)A_i+αA′_i-1,0≤α≤1。

可选的，在本申请实施例中，上述第二部分共享参数可以理解为上述W^V，上述第i层输入表征向量可以理解为V_i，是根据上一层输入的表征特征确定的中间层表征，G_i＝A′_iV_i。

作为一种可选的方案，根据第一部分共享参数以及第i-1中间层表征参数，确定第i层注意力权重参数，包括：

在第一部分共享参数包括第一共享参数W^Q和第二共享参数W^K、且第i-1中间层表征参数为H_i-1的情况下，将H_i-1分别与W^Q和W^K相乘，得到第i层注意力模块中使用的第一相关性参数Q_i和第二相关性参数K_i；

对第一相关性参数Q_i和第二相关性参数K_i进行归一化处理，得到第i层注意力模块的初始注意力权重参数A_i；

根据初始注意力权重参数A_i以及第i-1层注意力模块中使用的第i-1层注意力权重参数A′_i-1，确定第i层注意力权重参数。

可选的，在本申请实施例中，上述在第一部分共享参数包括第一共享参数W^Q和第二共享参数W^K、且第i-1中间层表征参数为H_i-1的情况下，将H_i-1分别与W^Q和W^K相乘，得到第i层注意力模块中使用的第一相关性参数Q_i和第二相关性参数K_i可以包括但不限于如下公式，其中，W^Q和W^K均为矩阵形式：
Q_i＝H_i-1W^Q
K_i＝H_i-1W^K

可选的，在本申请实施例中，上述对第一相关性参数Q_i和第二相关性参数K_i进行归一化处理，得到第i层注意力模块的初始注意力权重参数A_i可以包括但不限于如下公式：

其中，Q_i、K_i、A_i均为中间计算结果，d_K表示K的长度。

作为一种可选的方案，根据初始注意力权重参数A_i以及第i-1层注意力模块中使用的第i-1层注意力权重参数A′_i-1，确定第i层注意力权重参数，包括：

对初始注意力权重参数A_i和第i-1层注意力权重参数A′_i-1进行加权求和，得到第i层注意力权重参数。

可选的，在本申请实施例中，上述根据初始注意力权重参数A_i以及第i-1层注意力模块中使用的第i-1层注意力权重参数A′_i-1，确定第i层注意力权重参数可以包括但不限于如下公式：
A′_i＝f(A_i,A′_i-1)

其中，f的选取方式较为灵活，如f(A_i,A′_i-1)＝(1-α)A_i+αA′_i-1,0≤α≤1，当α＝1时，则为常规自注意力权重值共享模式，也即，共享的是权重值而非用于计算权重值的待学习参数W^Q、W^K、W^V)；当α＝0时，则不依赖上一层自注意力权重。f可为其他任意复杂度的神经网络。

作为一种可选的方案，当至少2层注意力模块还包括第i+1层注意力模块时，所述第i+1层注意力模块的第i+1层注意力权重参数以及第i+1层输入表征向量通过如下方式确定：

根据第一部分共享参数以及第i中间层表征参数，确定第i+1层注意力权重参数，其中，第i中间层表征参数是根据第i层注意力模块输出的第i层表征向量确定得到的中间层表征参数；

根据第二部分共享参数以及第i中间层表征参数，确定第i+1层输入表征向量，其中，第i+1组非共享参数包括第i中间层表征参数；

对第i+1层注意力权重参数以及第i+1层输入表征向量进行加权求和，得到第i+1层注意力模块输出的第i+1层表征向量。

可选的，在本申请实施例中，上述第i+1层注意力模块可以通过采用与第i层注意力模块相同的第一部分共享参数和第二部分共享参数的方式，分别确定上述第i+1层注意力权重参数A′_i+1和第i+1层输入表征向量V_i+1。

也即，在本申请实施例中，各层注意力模块使用共享注意力参数(W^Q、W^K、W^V)来进行特征处理，以得到该层的表征向量。

作为一种可选的方案，所述第i层注意力权重参数以及所述第i层输入表征向量通过如下方式确定：

根据共享注意力权重参数和第i层注意力模块中使用的加权参数，确定第i层注意力权重参数，其中，一组共享参数包括共享注意力权重参数和第二部分共享参数；

根据第二部分共享参数以及第i-1中间层表征参数，确定第i层输入表征向量，其中，第i-1中间层表征参数是根据第i-1层注意力模块输出的第i-1层表征向量确定得到的中间层表征参数，第i组非共享参数包括第i-1中间层表征参数；

可选的，在本申请实施例中，上述共享注意力权重参数可以理解为上述A，上述第i层注意力模块中使用的加权参数可以包括但不限于预先配置的W_i，此时，上述第i层注意力权重参数通过如下公式确定：
A_i＝f_i(A)

其中，函数f使得不同层基于相同的初始注意力值A获得不同的最终注意力权重A_i。

可选的，在本申请实施例中，通过如下公式确定第i层输入表征向量：
V_i＝H_i-1W^V

其中，第i-1中间层表征参数是根据第i-1层注意力模块输出的第i-1层表征向量确定得到的中间层表征参数，第i组非共享参数包括第i-1中间层表征参数，进而，G_i＝A_iV_i。；

作为一种可选的方案，根据共享注意力权重参数和第i层注意力模块中使用的加权参数，确定第i层注意力权重参数，包括：

将共享注意力权重参数与第i层注意力模块中使用的加权参数之和确定为第i层注意力权重参数。

示例性地，f的选取方式较为灵活，例如，将共享注意力权重参数与第i层注意力模块中使用的加权参数之和确定为第i层注意力权重参数，也即，f_i(A)＝A+W_i。

作为一种可选的方案，方法还包括：

获取目标媒体资源的初始表征特征，其中，初始表征特征为目标媒体资源特征，或者，是根据目标媒体资源特征转换得到的特征；

在一组共享参数还包括第一部分共享参数、第一部分共享参数包括第一共享参数W^Q和第二共享参数W^K的情况下，将初始表征特征分别与W^Q和W^K相乘，得到第一共享相关性参数Q和第二共享相关性参数K；

对第一共享相关性参数Q和第二共享相关性参数K进行归一化处理，得到共享注意力权重参数。

可选的，在本申请实施例中，上述初始表征特征可以包括但不限于目标媒体资源特征或将目标媒体资源特征输入其他神经网络模型后进行转换得到的特征。

可选的，在本申请实施例中，上述对第一共享相关性参数Q和第二共享相关性参数K进行归一化处理，得到共享注意力权重参数可以包括但不限于如下公式：

其中，A_i表示共享注意力权重参数，d_K表示K的长度。

根据共享注意力权重参数和第i+1层注意力模块中使用的加权参数，确定第i+1层注意力权重参数；

根据第二部分共享参数以及第i中间层表征参数，确定第i+1层输入表征向量，其中，第i中间层表征参数是根据第i层注意力模块输出的第i层表征向量确定得到的中间层表征参数，第i+1组非共享参数包括第i中间层表征参数；

可选的，在本申请实施例中，上述共享注意力权重参数可以理解为上述A，上述第i+1层注意力模块中使用的加权参数可以理解为W_i，上述第i+1层注意力权重参数可以理解为A_i，上述所述第二部分共享参数可以理解为W^V，上述第i中间层表征参数可以理解为H_i-1，确定上述第i+1层输入表征向量可以理解为V_i，，上述第i+1层表征向量可以理解为G_i。

也即，可以包括但不限于通过如下公式确定：
Q_i＝H_i-1W^Q
K_i＝H_i-1W^K

A′_i＝f(A_i,A′_i-1)
G_i＝A′_iV_i

其中，H表示注意力模块的输入，W^Q、W^K、W^V表示待学习参数，为矩阵形式， Q、K、V、A均为中间计算结果，d_K表示K的长度。A′_i即为第i层Transformer的自注意力值，f为自定义函数，G为自注意力模块的结果输出。编码器中不同层Transformer的注意力模块共享W^Q、W^K、W^V，函数f使得计算当前层注意力时可参照上一层结果。f的选取方式较为灵活，如f(A_i,A′_i-1)＝(1-α)A_i+αA′_i-1,0≤α≤1，f可为其他任意复杂度的神经网络。

作为一种可选的方案，根据第二部分共享参数以及第i-1中间层表征参数，确定第i层输入表征向量，包括：

在第二部分共享参数包括第三共享参数W^V、且第i-1中间层表征参数为H_i-1的情况下，将H_i-1与W^V相乘，得到第i层输入表征向量。

可选的，在本申请实施例中，可以包括但不限于通过如下公式确定：
V_i＝H_i-1W^V

作为一种可选的方案，上述方法还包括：

在获取到第i-1层注意力模块输出的第i-1层表征向量的情况下，获取第i-k中间层表征参数，其中，1<k<i，第i-k中间层表征参数是根据第i-k层注意力模块输出的第i-k层表征向量确定得到的中间层表征参数；

根据第i-1层表征向量和第i-k中间层表征参数，确定第i-1中间层表征参数。

可选的，在本申请实施例中，上述第i-1层表征向量可以理解为G_i-1，上述第i-k中间层表征参数可以理解为H_i-k，上述第i-k层表征向量可以理解为G_i-k。

如图7所示，“Multi-Head Attention”模块输出的G_i-1，与来自第i-k层注意力模块的H_i-k进行叠加，然后经过“Layer Norm”模块和“Feed Forward”模块，得到H_i-1。

作为一种可选的方案，通过N层注意力模块对目标媒体资源特征进行处理，得到目标表征向量，包括：

在至少2层注意力模块为M层注意力模块、且M小于N的情况下，对于N层注意力模块中除M层注意力模块之外的第p层注意力模块，执行以下步骤：

根据预先配置的共享关系，将M层注意力模块中的第j层注意力模块输出的第j层表征向量确定为第p层注意力模块输出的第p层表征向量，其中，共享关系用于表示将第j层注意力模块输出的第j层表征向量共享给第p层注意力模块。

可选的，在本实施例中，上述M层注意力模块可以预先进行配置，以使得N层注意力模块中除M层注意力模块之外的第p层注意力模块，根据预先配置的共享关系，将M层注意力模块中的第j层注意力模块输出的第j层表征向量确定为第p层注意力模块输出的第p层表征向量。

也即，由于未共享注意力权重参数，而是共享用于计算注意力权重参数的待学习参数，因此，会使得计算量增加，此时，通过将邻近的注意力模块共享同一个计算结果，以达到降低参数量的同时，不同层的自注意力权重根据需要有所不同，使得性能不弱于甚至优于直接共享自注意力权重的注意力模型。

作为一种可选的方案，针对所述第i层注意力模块，通过N层注意力模块对目标媒体资源特征进行处理，得到目标表征向量，包括：

在第i层注意力模块为T头注意力模块、且T为大于或等于2的正整数的情况下，通过T 头注意力模块，分别根据T子组共享参数以及第i组非共享参数，确定T个第i层初始表征向量，并将T个第i层初始表征向量进行加权求和，得到第i层注意力模块输出的第i层表征向量，其中，一组共享参数包括T子组共享参数。

可选的，在本实施例中，上述N层注意力模块可以全部是T头注意力模块，也可以是部分为T头注意力模块，在第i层注意力模块为T头注意力模块，为每个单片注意力模型分配对应的共享参数，以实现根据T子组共享参数和非共享参数来确定T个第i层初始表征向量，进而，能够将T个第i层初始表征向量进行加权求和，得到第i层注意力模块输出的第i层表征向量。

下面结合具体的实施例，对本申请进行进一步地解释说明：

本申请可用于线上会议中的自动会议纪要，如图8所示，该自注意力统一计算模块，具有两种形式，以编码器为例(解码器同理)：

1)逐层依赖模式，即计算当前层注意力时可参照上一层结果，使得注意力更具有一致性，训练更稳定。

具体地，第i层Transformer的多头注意力模块中单片注意力计算方式为：
Q_i＝H_i-1W^Q
K_i＝H_i-1W^K
V_i＝H_i-1W^V

A′_i＝f(A_i,A′_i-1)
G_i＝A′_iV_i

上式中H表示多头注意力模块的输入(中间层表征)，W^Q、W^K、W^V表示待学习参数，为矩阵形式，Q、K、V、A均为中间计算结果，d_K表示K的长度。A′_i即为第i层Transformer的自注意力值，f为自定义函数，G为自注意力模块的结果输出(仍是中间层表征)。多头注意力模块中其他单片注意力计算方式类似。编码器中不同层Transformer的多头注意力模块共享W^Q、W^K、W^V，函数f使得计算当前层注意力时可参照上一层结果。f的选取方式较为灵活，如f(A_i,A′_i-1)＝(1-α)A_i+αA′_i-1,0≤α≤1，当α＝1时，则为注意力权重值共享模式；当α＝0时，则不依赖上一层自注意力权重。f可为其他任意复杂度的神经网络。

由于计算量增加，邻近的几层可以共享同一个计算结果。

2)各层并行计算模式，具体地，第i层Transformer的多头注意力模块中单片注意力计算方式为：
Q_i＝XW^Q
K_i＝XW^K
V_i＝H_i-1W^V

A_i＝f_i(A)
G_i＝A_iG_i

上式中H表示多头注意力模块的输入(中间层表征),X表示整个编码器的输入(通常为原始语音特征，可能经过几层简单的神经网络),W^Q、W^K、W^V表示待学习参数，为矩阵形式，Q、K、V、A均为中间计算结果，d_K表示K的长度。A_i即为第i层Transformer的自注意力值，f为自定义函数，每一层Transformer的f相互独立，G为自注意力模块的结果输出(仍是中间层表征)。多头注意力模块中其他单片注意力计算方式类似。编码器中不同层Transformer的多头注意力模块共享Q、K、V，函数f使得不同层基于相同的初始注意力值A获得不同的最终注意力权重A_i。f的选取方式较为灵活，如f_i(A)＝A+W_i；或其他任意复杂度的神经网络。

对于基于Conformer/Transformer结构的端到端语音识别系统来说，影响其计算效率的主要原因在于逐层计算的自注意力机制的计算，本申请中各层并行计算模式在获取原始输入时即可求得其他层所有注意力权重，将大大提高计算效率。

本申请提出的模型结构在多个语音数据集上优于常规模型结构，且具有更少的模型参数，小数据集上尤为明显。本申请中的各层并行计算模式大大提高了计算效率。

本申请提出的模型结构具有比常规模型结构更快的收敛速度。

可以理解的是，在本申请的具体实施方式中，涉及到用户信息等相关的数据，当本申请以上实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

根据本申请实施例的另一个方面，还提供了一种用于实施上述基于注意力模块的信息识别方法的基于注意力模块的信息识别装置。如图9所示，该装置包括：

获取模块902，用于获取目标媒体资源的目标媒体资源特征，并将所述目标媒体资源特征输入到目标信息识别模型中，其中，所述目标信息识别模型包括N层注意力模块，N为大于或等于2的正整数；

处理模块904，用于通过所述N层注意力模块对所述目标媒体资源特征进行处理，得到目标表征向量，其中，所述N层注意力模块中的第i层注意力模块用于根据一组共享参数以及第i组非共享参数，确定第i层注意力权重参数以及第i层输入表征向量，并根据所述第i层注意力权重参数以及所述第i层输入表征向量确定所述第i层注意力模块输出的第i层表征向量，1≤i≤N，在i小于N的情况下，所述第i层表征向量用于确定第i+1层注意力模块使用的第i+1组非共享参数，在i等于N的情况下，所述第i层表征向量用于确定所述目标表征向量，所述N层注意力模块中的至少2层注意力模块共享使用所述一组共享参数，所述至少2层注意力模块包括所述第i层注意力模块；

确定模块906，用于根据所述目标表征向量，确定目标信息识别结果，其中，所述目标信息识别结果用于表示从所述目标媒体资源中识别到的目标信息。

作为一种可选的方案，所述处理模块904还用于：

根据第一部分共享参数以及第i-1中间层表征参数，确定所述第i层注意力权重参数，其中，所述一组共享参数包括所述第一部分共享参数和第二部分共享参数，所述第i-1中间层表征参数是根据第i-1层注意力模块输出的第i-1层表征向量确定得到的中间层表征参数；

根据所述第二部分共享参数以及所述第i-1中间层表征参数，确定所述第i层输入表征向量，其中，所述第i组非共享参数包括所述第i-1中间层表征参数。

作为一种可选的方案，所述处理模块904还用于：

在所述第一部分共享参数包括第一共享参数W^Q和第二共享参数W^K、且所述第i-1中间层表征参数为H_i-1的情况下，将H_i-1分别与W^Q和W^K相乘，得到所述第i层注意力模块中使用的第一相关性参数Q_i和第二相关性参数K_i；

对所述第一相关性参数Q_i和所述第二相关性参数K_i进行归一化处理，得到所述第i层注意力模块的初始注意力权重参数A_i；

根据所述初始注意力权重参数A_i以及所述第i-1层注意力模块中使用的第i-1层注意力权重参数A′_i-1，确定所述第i层注意力权重参数。

作为一种可选的方案，所述处理模块904还用于：

对所述初始注意力权重参数A_i和所述第i-1层注意力权重参数A′_i-1进行加权求和，得到所述第i层注意力权重参数。

作为一种可选的方案，所述处理模块904还用于当所述至少2层注意力模块还包括所述第i+1层注意力模块时：

根据所述第一部分共享参数以及第i中间层表征参数，确定第i+1层注意力权重参数，其中，所述第i中间层表征参数是根据所述第i层注意力模块输出的所述第i层表征向量确定得到的中间层表征参数；

根据所述第二部分共享参数以及所述第i中间层表征参数，确定第i+1层输入表征向量，其中，第i+1组非共享参数包括所述第i中间层表征参数。

作为一种可选的方案，所述处理模块904还用于：

根据共享注意力权重参数和所述第i层注意力模块中使用的加权参数，确定所述第i层注意力权重参数，其中，所述一组共享参数包括所述共享注意力权重参数和第二部分共享参数；

根据所述第二部分共享参数以及第i-1中间层表征参数，确定所述第i层输入表征向量，其中，所述第i-1中间层表征参数是根据第i-1层注意力模块输出的第i-1层表征向量确定得到的中间层表征参数，所述第i组非共享参数包括所述第i-1中间层表征参数。

作为一种可选的方案，所述处理模块904还用于：

将所述共享注意力权重参数与所述第i层注意力模块中使用的加权参数之和确定为所述第i层注意力权重参数。

作为一种可选的方案，所述处理模块904还用于：

获取所述目标媒体资源的初始表征特征，其中，所述初始表征特征为所述目标媒体资源特征，或者，是根据所述目标媒体资源特征转换得到的特征；

在所述一组共享参数还包括第一部分共享参数、所述第一部分共享参数包括第一共享参数W^Q和第二共享参数W^K的情况下，将所述初始表征特征分别与W^Q和W^K相乘，得到第一共享相关性参数Q和第二共享相关性参数K；

对所述第一共享相关性参数Q和第二共享相关性参数K进行归一化处理，得到所述共享注意力权重参数。

根据所述共享注意力权重参数和所述第i+1层注意力模块中使用的加权参数，确定第i+1层注意力权重参数；

根据所述第二部分共享参数以及第i中间层表征参数，确定第i+1层输入表征向量，其中，所述第i中间层表征参数是根据所述第i层注意力模块输出的所述第i层表征向量确定得到的中间层表征参数，所述第i+1组非共享参数包括所述第i中间层表征参数。

作为一种可选的方案，所述处理模块904还用于：

在所述第二部分共享参数包括第三共享参数W^V、且所述第i-1中间层表征参数为H_i-1的情况下，将H_i-1与W^V相乘，得到所述第i层输入表征向量。

作为一种可选的方案，所述处理模块904还用于：

在获取到所述第i-1层注意力模块输出的所述第i-1层表征向量的情况下，获取第i-k中间层表征参数，其中，1<k<i，所述第i-k中间层表征参数是根据第i-k层注意力模块输出的第i-k层表征向量确定得到的中间层表征参数；

根据所述第i-1层表征向量和第i-k中间层表征参数，确定所述第i-1中间层表征参数。

作为一种可选的方案，所述处理模块904还用于：

在所述至少2层注意力模块为M层注意力模块、且M小于N的情况下，对于所述N层注意力模块中除所述M层注意力模块之外的第p层注意力模块，执行以下步骤：

根据预先配置的共享关系，将所述M层注意力模块中的第j层注意力模块输出的第j层表征向量确定为所述第p层注意力模块输出的第p层表征向量，其中，所述共享关系用于表示将所述第j层注意力模块输出的所述第j层表征向量共享给所述第p层注意力模块。

作为一种可选的方案，所述处理模块904还用于：

在所述第i层注意力模块为T头注意力模块、且T为大于或等于2的正整数的情况下，通过所述T头注意力模块，分别根据T子组共享参数以及所述第i组非共享参数，确定T个第i层初始表征向量，并将所述T个第i层初始表征向量进行加权求和，得到所述第i层注意力模块输出的第i层表征向量，其中，所述一组共享参数包括所述T子组共享参数。

根据本申请的一个方面，提供了一种计算机程序产品，该计算机程序产品包括计算机程序/指令，该计算机程序/指令包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1009从网络上被下载和安装，和/或从可拆卸介质1011被安装。在该计算机程序被中央处理器1001执行时，执行本申请实施例提供的各种功能。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

图10示意性地示出了用于实现本申请实施例的电子设备的计算机系统结构框图。

需要说明的是，图10示出的电子设备的计算机系统1000仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图10所示，计算机系统1000包括中央处理器1001(Central Processing Unit，CPU)，其可以根据存储在只读存储器1002(Read-Only Memory，ROM)中的程序或者从存储部分1008加载到随机访问存储器1003(Random Access Memory，RAM)中的程序而执行各种适当的动作和处理。在随机访问存储器1003中，还存储有系统操作所需的各种程序和数据。中央处理器1001、在只读存储器1002以及随机访问存储器1003通过总线1004彼此相连。输入/输出接口1005(Input/Output接口，即I/O接口)也连接至总线1004。

以下部件连接至输入/输出接口1005：包括键盘、鼠标等的输入部分1006；包括诸如阴极射线管(Cathode Ray Tube，CRT)、液晶显示器(Liquid Crystal Display，LCD)等以及扬声器等的输出部分1007；包括硬盘等的存储部分1008；以及包括诸如局域网卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1100也根据需要连接至输入/输出接口1005。可拆卸介质1011，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1100上，以便于从其上读出的计算机程序根据需要被安装入存储部分1008。

特别地，根据本申请的实施例，各个方法流程图中所描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1009从网络上被下载和安装，和/或从可拆卸介质1011被安装。在该计算机程序被中央处理器1001执行时，执行本申请的系统中限定的各种功能。

根据本申请实施例的又一个方面，还提供了一种用于实施上述基于注意力模块的信息识别方法的电子设备，该电子设备可以是图1所示的终端设备或服务器。本实施例以该电子设备为终端设备为例来说明。如图11所示，该电子设备包括存储器1102和处理器1104，该存储器1102中存储有计算机程序，该处理器1104被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子设备可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，获取目标媒体资源的目标媒体资源特征，并将目标媒体资源特征输入到目标信息识别模型中，其中，目标信息识别模型包括N层注意力模块，N为大于或等于2的正整数；

S2，通过N层注意力模块对目标媒体资源特征进行处理，得到目标表征向量，其中，N层注意力模块中的第i层注意力模块用于根据一组共享参数以及第i组非共享参数，确定第i层注意力权重参数以及第i层输入表征向量，并根据第i层注意力权重参数以及第i层输入表征向量确定第i层注意力模块输出的第i层表征向量，1≤i≤N，在i小于N的情况下，第i层表征向量用于确定第i+1层注意力模块使用的第i+1组非共享参数，在i等于N的情况下，第i层表征向量用于确定目标表征向量，N层注意力模块中的至少2层注意力模块共享使用一组共享参数，至少2层注意力模块包括第i层注意力模块；

S3，根据目标表征向量，确定目标信息识别结果，其中，目标信息识别结果用于表示从目标媒体资源中识别到的目标信息。

可选地，本领域普通技术人员可以理解，图11所示的结构仅为示意，电子装置电子设备也可以是智能手机、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。

其中，存储器1102可用于存储软件程序以及模块，如本申请实施例中的基于注意力模块的信息识别方法和装置对应的程序指令/模块，处理器1104通过运行存储在存储器1102内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的基于注意力模块的信息识别方法。

可选地，上述的传输装置1106用于经由一个网络接收或者发送数据。

此外，上述电子设备还包括：显示器1108，用于显示上述目标信息识别结果；和连接总线1110，用于连接上述电子设备中的各个模块部件。

在其他实施例中，上述终端设备或者服务器可以是一个分布式系统中的一个节点，其中，该分布式系统可以为区块链系统，该区块链系统可以是由该多个节点通过网络通信的形式连接形成的分布式系统。其中，节点之间可以组成点对点(P2P，Peer To Peer)网络，任意形式的计算设备，比如服务器、终端等电子设备都可以通过加入该点对点网络而成为该区块链系统中的一个节点。

根据本申请的一个方面，提供了一种计算机可读存储介质，计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述基于注意力模块的信息识别方面的各种可选实现方式中提供的基于注意力模块的信息识别方法。

本申请实施例还提供了一种包括计算机程序的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例提供的方法。

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

一种基于注意力模块的信息识别方法，所述方法由计算机设备执行，所述方法包括：

获取目标媒体资源的目标媒体资源特征，并将所述目标媒体资源特征输入到目标信息识别模型中，其中，所述目标信息识别模型包括N层注意力模块，N为大于或等于2的正整数；

通过所述N层注意力模块对所述目标媒体资源特征进行处理，得到目标表征向量，其中，所述N层注意力模块中的第i层注意力模块用于根据一组共享参数以及第i组非共享参数，确定第i层注意力权重参数以及第i层输入表征向量，并根据所述第i层注意力权重参数以及所述第i层输入表征向量确定所述第i层注意力模块输出的第i层表征向量，1≤i≤N，在i小于N的情况下，所述第i层表征向量用于确定第i+1层注意力模块使用的第i+1组非共享参数，在i等于N的情况下，所述第i层表征向量用于确定所述目标表征向量，所述N层注意力模块中的至少2层注意力模块共享使用所述一组共享参数，所述至少2层注意力模块包括所述第i层注意力模块；

根据所述目标表征向量，确定目标信息识别结果，其中，所述目标信息识别结果用于表示从所述目标媒体资源中识别到的目标信息。
根据权利要求1所述的方法，

所述第i层注意力权重参数以及所述第i层输入表征向量通过如下方式确定：

根据第一部分共享参数以及第i-1中间层表征参数，确定所述第i层注意力权重参数，其中，所述一组共享参数包括所述第一部分共享参数和第二部分共享参数，所述第i-1中间层表征参数是根据第i-1层注意力模块输出的第i-1层表征向量确定得到的中间层表征参数；

根据所述第二部分共享参数以及所述第i-1中间层表征参数，确定所述第i层输入表征向量，其中，所述第i组非共享参数包括所述第i-1中间层表征参数。
根据权利要求2所述的方法，所述根据第一部分共享参数以及第i-1中间层表征参数，确定所述第i层注意力权重参数，包括：

在所述第一部分共享参数包括第一共享参数W^Q和第二共享参数W^K、且所述第i-1中间层表征参数为H_i-1的情况下，将H_i-1分别与W^Q和W^K相乘，得到所述第i层注意力模块中使用的第一相关性参数Q_i和第二相关性参数K_i；

对所述第一相关性参数Q_i和所述第二相关性参数K_i进行归一化处理，得到所述第i层注意力模块的初始注意力权重参数A_i；

根据所述初始注意力权重参数A_i以及所述第i-1层注意力模块中使用的第i-1层注意力权重参数A′_i-1，确定所述第i层注意力权重参数。
根据权利要求3所述的方法，所述根据所述初始注意力权重参数A_i以及所述第i-1层注意力模块中使用的第i-1层注意力权重参数A′_i-1，确定所述第i层注意力权重参数，包括：

对所述初始注意力权重参数A_i和所述第i-1层注意力权重参数A′_i-1进行加权求和，得到所述第i层注意力权重参数。
根据权利要求2所述的方法，当所述至少2层注意力模块还包括所述第i+1层注意力模块时，所述第i+1层注意力模块的第i+1层注意力权重参数以及第i+1层输入表征向量通过如下方式确定：

根据所述第一部分共享参数以及第i中间层表征参数，确定第i+1层注意力权重参数，其中，所述第i中间层表征参数是根据所述第i层注意力模块输出的所述第i层表征向量确定得到的中间层表征参数；

根据所述第二部分共享参数以及所述第i中间层表征参数，确定第i+1层输入表征向量，其中，第i+1组非共享参数包括所述第i中间层表征参数。
根据权利要求1所述的方法，所述第i层注意力权重参数以及所述第i层输入表征向量通过如下方式确定：

根据共享注意力权重参数和所述第i层注意力模块中使用的加权参数，确定所述第i层注意力权重参数，其中，所述一组共享参数包括所述共享注意力权重参数和第二部分共享参数；

根据所述第二部分共享参数以及第i-1中间层表征参数，确定所述第i层输入表征向量，其中，所述第i-1中间层表征参数是根据第i-1层注意力模块输出的第i-1层表征向量确定得到的中间层表征参数，所述第i组非共享参数包括所述第i-1中间层表征参数。
根据权利要求6所述的方法，所述根据共享注意力权重参数和所述第i层注意力模块中使用的加权参数，确定所述第i层注意力权重参数，包括：

将所述共享注意力权重参数与所述第i层注意力模块中使用的加权参数之和确定为所述第i层注意力权重参数。
根据权利要求6所述的方法，所述方法还包括：

获取所述目标媒体资源的初始表征特征，其中，所述初始表征特征为所述目标媒体资源特征，或者，是根据所述目标媒体资源特征转换得到的特征；

在所述一组共享参数还包括第一部分共享参数、所述第一部分共享参数包括第一共享参数W^Q和第二共享参数W^K的情况下，将所述初始表征特征分别与W^Q和W^K相乘，得到第一共享相关性参数Q和第二共享相关性参数K；

对所述第一共享相关性参数Q和第二共享相关性参数K进行归一化处理，得到所述共享注意力权重参数。
根据权利要求6所述的方法，所述通过所述N层注意力模块对所述目标媒体资源特征进行处理，得到目标表征向量，包括：

当所述至少2层注意力模块还包括所述第i+1层注意力模块时，所述第i+1层注意力模块的第i+1层注意力权重参数以及第i+1层输入表征向量通过如下方式确定：

根据所述共享注意力权重参数和所述第i+1层注意力模块中使用的加权参数，确定第i+1层注意力权重参数；

根据所述第二部分共享参数以及第i中间层表征参数，确定第i+1层输入表征向量，其中，所述第i中间层表征参数是根据所述第i层注意力模块输出的所述第i层表征向量确定得到的中间层表征参数，所述第i+1组非共享参数包括所述第i中间层表征参数。
根据权利要求2或6所述的方法，所述根据所述第二部分共享参数以及第i-1中间层表征参数，确定所述第i层输入表征向量，包括：

在所述第二部分共享参数包括第三共享参数W^V、且所述第i-1中间层表征参数为H_i-1的情况下，将H_i-1与W^V相乘，得到所述第i层输入表征向量。
根据权利要求2或6所述的方法，所述方法还包括：

在获取到所述第i-1层注意力模块输出的所述第i-1层表征向量的情况下，获取第i-k中间层表征参数，其中，1<k<i，所述第i-k中间层表征参数是根据第i-k层注意力模块输出的第i-k层表征向量确定得到的中间层表征参数；

根据所述第i-1层表征向量和第i-k中间层表征参数，确定所述第i-1中间层表征参数。
根据权利要求1至9中任一项所述的方法，所述通过所述N层注意力模块对所述目标媒体资源特征进行处理，得到目标表征向量，包括：

在所述至少2层注意力模块为M层注意力模块、且M小于N的情况下，对于所述N层注意力模块中除所述M层注意力模块之外的第p层注意力模块，执行以下步骤：

根据预先配置的共享关系，将所述M层注意力模块中的第j层注意力模块输出的第j层表征向量确定为所述第p层注意力模块输出的第p层表征向量，其中，所述共享关系用于表示将所述第j层注意力模块输出的所述第j层表征向量共享给所述第p层注意力模块。
根据权利要求1至9中任一项所述的方法，针对所述第i层注意力模块，所述通过所述N层注意力模块对所述目标媒体资源特征进行处理，得到目标表征向量，包括：

在所述第i层注意力模块为T头注意力模块、且T为大于或等于2的正整数的情况下，通过所述T头注意力模块，分别根据T子组共享参数以及所述第i组非共享参数，确定T个第i层初始表征向量，并将所述T个第i层初始表征向量进行加权求和，得到所述第i层注意力模块输出的第i层表征向量，其中，所述一组共享参数包括所述T子组共享参数。
一种基于注意力模块的信息识别装置，包括：

获取模块，用于获取目标媒体资源的目标媒体资源特征，并将所述目标媒体资源特征输入到目标信息识别模型中，其中，所述目标信息识别模型包括N层注意力模块，N为大于或等于2的正整数；

处理模块，用于通过所述N层注意力模块对所述目标媒体资源特征进行处理，得到目标表征向量，其中，所述N层注意力模块中的第i层注意力模块用于根据一组共享参数以及第i组非共享参数，确定第i层注意力权重参数以及第i层输入表征向量，并根据所述第i层注意力权重参数以及所述第i层输入表征向量确定所述第i层注意力模块输出的第i层表征向量，1≤i≤N，在i小于N的情况下，所述第i层表征向量用于确定第i+1层注意力模块使用的第i+1组非共享参数，在i等于N的情况下，所述第i层表征向量用于确定所述目标表征向量，所述目标媒体资源特征用于确定所述N层注意力模块中的第1层注意力模块使用的第1组非共享参数，所述N层注意力模块中的至少2层注意力模块共享使用所述一组共享参数，所述至少2层注意力模块包括所述第i层注意力模块；

确定模块，用于根据所述目标表征向量，确定目标信息识别结果，其中，所述目标信息识别结果用于表示从所述目标媒体资源中识别到的目标信息。
一种计算机可读的存储介质，所述计算机可读的存储介质包括存储的计算机程序，其中，所述计算机程序可被终端设备或计算机运行时执行所述权利要求1至13任一项中所述的方法。
一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现权利要求1至13任一项中所述方法的步骤。
一种电子设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至13任一项中所述的方法。