WO2024093578A1

WO2024093578A1 - 语音识别方法、装置、电子设备、存储介质及计算机程序产品

Info

Publication number: WO2024093578A1
Application number: PCT/CN2023/121239
Authority: WO
Inventors: 刘名乐; 杨栋; 俞一鹏
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2022-11-04
Filing date: 2023-09-25
Publication date: 2024-05-10
Also published as: CN115512692B; CN115512692A

Abstract

一种语音识别方法、装置、电子设备、存储介质及计算机程序产品，应用于人工智能和游戏领域，其中，方法由电子设备执行，方法包括：对待识别语音信号进行滑动窗截取，得到至少两个子语音信号（S501）；通过预先训练的嵌入特征表示系统，对每一子语音信号进行语音特征提取，得到相应子语音信号的子语音嵌入表示特征（S502）；其中，嵌入特征表示系统包括第一级特征提取网络和第二级特征提取网络；第一级特征提取网络用于对子语音信号进行第一级语音特征提取，得到第一级语音特征；第二级特征提取网络用于基于第一级语音特征，对子语音信号进行第二级语音特征提取，第二级语音特征提取的特征提取精度大于第一级语音特征提取的特征提取精度；获取预设比对词库中的每一比对词的嵌入表示特征（S503）；根据子语音嵌入表示特征和每一比对词的嵌入表示特征，对每一子语音信号进行语音识别，得到子语音识别结果（S504）；根据每一子语音信号子语音识别结果，确定待识别语音信号对应的语音识别结果（S505）。

Description

语音识别方法、装置、电子设备、存储介质及计算机程序产品

相关申请的交叉引用

本申请基于申请号为202211373304.3、申请日为2022年11月04日的中国专利申请提出，并要求该中国专利申请的优先权，该中国专利申请的全部内容在此引入本申请作为参考。

技术领域

本申请实施例涉及互联网技术领域，涉及但不限于一种语音识别方法、装置、电子设备、存储介质及计算机程序产品。

背景技术

语音关键词匹配技术旨在基于参考语音，识别出一段语音中特定的词语，语音关键词匹配技术在语音识别领域一直都是研究的热点。目前，语音关键词匹配技术主要分为传统方法与深度学习方法。

传统方法主要包括动态时间归整(DTW，Dynamic Time Warping)方法与相关方法；深度学习方法则是通过有监督或无监督的方法训练得到嵌入特征提取器，基于嵌入特征提取器提取音频的Mel频率倒谱系数(MFCC，Mel Frequency Cepstrum Coefficient)，并通过求取目标音频与标注音频的MFCC特征之间的相似度，从而判断目标音频是否包含关键词。

但是，上述传统方法的计算量大，计算准确率容易受到外界环境影响，从而会存在识别准确率较低的问题；深度学习方法存在表达能力有限，且识别准确率低的问题。

发明内容

本申请实施例提供一种语音识别方法、装置、电子设备、存储介质及计算机程序产品，至少应用于人工智能领域和游戏领域，能够准确的提取到子语音信号的子语音嵌入表示特征，进而基于子语音嵌入表示特征能够对待识别语音信号进行准确的识别。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种语音识别方法，所述方法由电子设备执行，所述方法包括：对待识别语音信号进行滑动窗截取，得到至少两个子语音信号；通过预先训练的嵌入特征表示系统，对每一子语音信号进行语音特征提取，得到相应子语音信号的子语音嵌入表示特征；其中，所述嵌入特征表示系统包括第一级特征提取网络和第二级特征提取网络；所述第一级特征提取网络用于对所述子语音信号进行第一级语音特征提取，得到第一级语音特征；所述第二级特征提取网络用于基于所述第一级语音特征，对所述子语音信号进行第二级语音特征提取，所述第二级语音特征提取的特征提取精度大于所述第一级语音特征提取的特征提取精度；获取预设比对词库中的每一比对词的嵌入表示特征；根据所述子语音嵌入表示特征和每一所述比对词的嵌入表示特征，对每一所述子语音信号进行语音识别，得到子语音识别结果；根据每一所述子语音信号的子语音识别结果，确定所述待识别语音信号对应的语音识别结果。

本申请实施例提供一种语音识别装置，所述装置包括：帧截取模块，配置为对待识别语音信号进行滑动窗截取，得到至少两个子语音信号；特征提取模块，配置为通过预先训练的嵌入特征表示系统，对每一子语音信号进行语音特征提取，得到相应子语音信号的子语音嵌入表示特征；其中，所述嵌入特征表示系统包括第一级特征提取网络和第二级特征提取网络；所述第一级特征提取网络用于对所述子语音信号进行第一级语音特征提取，得到第一级语音特征；所述第二级特征提取网络用于基于所述第一级语音特征，对所述子语音信号进行第二级语音特征提取，所述第二级语音特征提取的特征提取精度大于所述第一级语音特征提取的特征提取精度；获取模块，配置为获取预设比对词库中的每一比对词的嵌入表示特征；语音识别模块，配置为根据所述子语音嵌入表示特征和每一所述比对词的嵌入表示特征，对每一所述子语音信号进行语音识别，得到子语音识别结果；确定模块，配置为根据每一所述子语音信号的子语音识别结果，确定所述待识别语音信号对应的语音识别结果。

本申请实施例提供一种语音识别设备，包括：存储器，用于存储可执行指令；处理器，用于执行所述存储器中存储的可执行指令时，实现上述语音识别方法。

本申请实施例提供一种计算机程序产品或计算机程序，所述计算机程序产品或计算机程序包括可执行指令，可执行指令存储在计算机可读存储介质中；当电子设备从所述计算机可读存储介质读取所述可执行指令，并执行所述可执行指令时，实现上述的语音识别方法。

本申请实施例提供一种计算机可读存储介质，存储有可执行指令，用于引起处理器执行所述可执行指令时，实现上述语音识别方法。

本申请实施例具有以下有益效果：通过由第一级特征提取网络和第二级特征提取网络构成的嵌入特征表示系统，对滑动窗截取后得到的每一子语音信号进行语音特征提取，得到子语音嵌入表示特征；并根据子语音嵌入表示特征和预设比对词库中的每一比对词的嵌入表示特征，对每一子语音信号进行语音识别，得到子语音识别结果；从而根据至少两个子语音信号的子语音识别结果，确定待识别语音信号对应的语音识别结果。如此，由于嵌入特征表示系统中的第二级特征提取网络在进行第二级语音特征提取时的特征提取精度，大于第一级特征提取网络在进行第一级语音特征提取时的特征提取精度，因此通过嵌入特征表示系统能够准确的提取到每一子语音信号的子语音嵌入表示特征，从而基于子语音嵌入表示特征能够对待识别语音信号进行准确的语音识别。

附图说明

图1是相关技术中的一种语音关键词匹配方法的流程示意图；

图2是相关技术中的另一种语音关键词匹配方法的流程示意图；

图3是本申请实施例提供的语音识别系统的一个可选的架构示意图；

图4是本申请实施例提供的电子设备的结构示意图；

图5是本申请实施例提供的语音识别方法的一个可选的流程示意图；

图6是本申请实施例提供的语音识别方法的另一个可选的流程示意图；

图7是本申请实施例提供的嵌入特征表示系统的训练方法的流程示意图；

图8是本申请实施例提供的第一级特征提取网络的训练方法的流程示意图；

图9是本申请实施例提供的第二级特征提取网络的训练方法的流程示意图；

图10是本申请实施例提供的语音关键词匹配系统示意图；

图11是本申请实施例提供的训练wav2vec模型的流程示意图；

图12是本申请实施例提供的训练ecapa-tdnn模型的流程示意图；

图13是本申请实施例提供的wav2vec模型的结构示意图；

图14是本申请实施例提供的ecapa-tdnn模型的结构示意图；

图15是本申请实施例提供的ecapa-tdnn模型中SE-ResBlock部分的结构示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。除非另有定义，本申请实施例所使用的所有的技术和科学术语与属于本申请实施例的技术领域的技术人员通常理解的含义相同。本申请实施例所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

在解释本申请实施例的语音识别方法之前，首先对相关技术中的语音识别方法进行说明。

相关技术中的方案主要包括传统方法和深度学习方法。图1是相关技术中的一种语音关键词匹配方法的流程示意图，如图1所示，传统方法主要基于DTW，首先对关键词语音模版样例和待检索语音进行预处理，包括步骤S101中的梅尔特征提取与步骤S102中的语音活动性检测(VAD，Voice Activity Detection)；随后，求取模版样例与待检测样例的DTW得分，即通过步骤S103计算关键词语音模版样例的模板平均，并通过步骤S104进行动态时间规整、通过步骤S105进行置信度得分规整，比较待检索语音与所有关键词语音模版样例的得分，从而根据阈值得到最终的关键词检索结果。

图2是相关技术中的另一种语音关键词匹配方法的流程示意图，如图2所示，在深度学习领域，首先在步骤S201，对待识别的输入语音进行分帧得到多个语音帧；然后，在步骤S202，对每个语音帧进行特征提取，得到每个语音帧的梅尔倒谱特征系数MFCC序列；在步骤S203，并行将每个语音帧的MFCC序列输入到预设的深度神经网络模型，分别计算每个语音帧的MFCC序列在预设的深度神经网络模型的输出层的每个神经单元下的后验概率，将输出层的每个神经单元下的后验概率组成多个语音帧对应的后验概率序列，其中，输出层的每个神经单元对应一个关键词；再然后，在步骤S204，监测输出层每个神经单元下的后验概率序列；最后，在步骤S205，根据后验概率序列与预设阈值的概率序列的比较结果确定待识别的输入语音的关键词。也就是说，在深度学习方法中，是提取训练音频数据的MFCC特征，然后构建相应的深度神经网络，最后基于特征数据训练相应的分类模型。

但是，相关技术中的传统方法和深度学习方法提取嵌入特征的过程，其中DTW的缺陷在于计算量大，易受到外界环境影响；深度学习技术的缺陷在于表达能力有限，准确率不高。且相关技术中的方法在面对复杂的游戏语音时，均存在鲁棒性不高的问题。另外，相关技术中的方法均是基于梅尔特征进行提取的，因此特征提取的准确率不高。由此可见，相关技术中的方法均存在语音识别准确率低的问题。

基于相关技术中的方法所存在的至少一个问题，本申请实施例提供一种语音识别方法，该方法是一种基于预训练模型的游戏语音关键词匹配方法。本申请实施例的方法主要包括两个子模块：无监督预训练模型和有监督嵌入特征提取器。其中，无监督预训练模型的作用是通过在大规模语料上进行对比学习，能够让模型基于充分的数据量，在句子的层面学习到一个具有区分性的嵌入表示特征；有监督预训练模型的作用是具体化语音匹配的子任务，将中文语料切分成单个字，让网络基于之前句的特征，进一步学习到单个字的嵌入表达。本申请实施例提取的嵌入表达特征，具备优秀的识别率与泛化能力，能够快速完成语音关键词校验和识别任务。

本申请实施例提供的语音识别方法中，首先，对待识别语音信号进行滑动窗截取，得到至少两个子语音信号；然后，通过预先训练的嵌入特征表示系统，对每一子语音信号进行语音特征提取，得到相应子语音信号的子语音嵌入表示特征；其中，嵌入特征表示系统包括第一级特征提取网络和第二级特征提取网络；第一级特征提取网络用于对子语音信号进行第一级语音特征提取，得到第一级语音特征；第二级特征提取网络用于基于第一级语音特征，对子语音信号进行第二级语音特征提取，第二级语音特征提取的特征提取精度大于第一级语音特征提取的特征提取精度；并且，获取预设比对词库中的每一比对词的嵌入表示特征；再然后，根据子语音嵌入表示特征和每一比对词的嵌入表示特征，对每一子语音信号进行语音识别，得到子语音识别结果；最后，根据每一子语音信号子语音识别结果，确定待识别语音信号对应的语音识别结果。如此，通过具有第一级特征提取网络和第二级特征提取网络构成的嵌入特征表示系统对每一子语音信号进行语音特征提取，从而能够准确的提取到子语音信号的子语音嵌入表示特征，进而基于子语音嵌入表示特征能够对待识别语音信号进行准确的识别。

下面说明本申请实施例的电子设备的示例性应用，本申请实施例提供的电子设备可以是语音识别设备，语音识别设备可以实施为终端，也可以实施为服务器。在一种实现方式中，本申请实施例提供的语音识别设备可以实施为笔记本电脑，平板电脑，台式计算机，移动设备(例如，移动电话，便携式音乐播放器，个人数字助理，专用消息设备，便携式游戏设备)、智能机器人、智能家电和智能车载设备等任意的具备语音数据处理功能和游戏应用运行功能的终端；在另一种实现方式中，本申请实施例提供的语音识别设备还可以实施为服务器，其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(CDN，Content Delivery Network)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例中不做限制。下面，将说明电子设备实施为服务器时的示例性应用。

参见图3，图3是本申请实施例提供的语音识别系统的一个可选的架构示意图，本申请实施例以语音识别方法应用于游戏应用为例进行说明。为实现支撑任意一个游戏应用，并对游戏应用运行过程中玩家的语音进行检测和识别，本申请实施例的终端上至少安装有游戏应用。本申请实施例中，语音识别系统10中至少包括终端100、网络200和服务器300，其中服务器300是游戏应用的应用服务器。服务器300可以构成本申请实施例的电子设备。终端100通过网络200连接服务器300，网络200可以是广域网或者局域网，又或者是二者的组合。在运行游戏应用时，终端100运行游戏应用并生成游戏语音数据，其中，游戏语音数据中包括游戏运行语音和玩家间说话和沟通的语音，终端100在获取到游戏语音数据后，将游戏语音数据作为待识别语音信号封装至语音识别请求中，通过网络200将语音识别请求发送给服务器300，请求服务器300对游戏语音数据进行语音识别，判断游戏语音数据中是否含有脏话或不文明用语。服务器300在接收到语音识别请求之后，响应于语音识别请求，对待识别语音信号进行滑动窗截取，得到至少两个子语音信号；并通过预先训练的嵌入特征表示系统，对每一子语音信号进行语音特征提取，得到相应子语音信号的子语音嵌入表示特征；同时，获取预设比对词库中的每一比对词的嵌入表示特征；根据子语音嵌入表示特征和每一比对词的嵌入表示特征，对每一子语音信号进行语音识别，得到子语音识别结果；最后，根据至少两个子语音信号的子语音识别结果，确定待识别语音信号对应的语音识别结果。在得到语音识别结果后，将语音识别结果发送给终端100。终端100可以基于语音识别结果生成相应的提醒信息并显示提醒信息。

在一些实施例中，上述语音识别过程还可以由终端100来实现，即终端在采集到游戏语音数据后，将游戏语音数据作为待识别语音信号进行语音识别，即通过终端对待识别语音信号进行滑动窗截取，得到至少两个子语音信号；以及，由终端实现通过预先训练的嵌入特征表示系统，对每一子语音信号进行语音特征提取，得到子语音嵌入表示特征；然后，终端获取预设比对词库中的每一比对词的嵌入表示特征；并根据子语音嵌入表示特征和每一比对词的嵌入表示特征，对每一子语音信号进行语音识别，得到子语音识别结果；最后，终端根据至少两个子语音信号的子语音识别结果，确定待识别语音信号对应的语音识别结果。

本申请实施例所提供的语音识别方法还可以基于云平台并通过云技术来实现，例如，上述服务器300可以是云端服务器。通过云端服务器对待识别语音信号进行滑动窗截取，或者，通过云端服务器对每一子语音信号进行语音特征提取，得到子语音嵌入表示特征，或者，通过云端服务器获取预设比对词库中的每一比对词的嵌入表示特征，或者，通过云端服务器根据子语音嵌入表示特征和每一比对词的嵌入表示特征，对每一子语音信号进行语音识别，或者，通过云端服务器根据至少两个子语音信号的子语音识别结果，确定待识别语音信号对应的语音识别结果等。

在一些实施例中，还可以具有云端存储器，可以将待识别语音信号存储至云端存储器中，或者，还可以将预先训练的嵌入特征表示系统、该嵌入特征表示系统的参数和预设比对词库存储至云端存储器中，或者，还可以将子语音识别结果和语音识别结果等存储至云端存储器中。这样，在运行游戏应用的过程中，可以直接从云端存储器中获取预先训练的嵌入特征表示系统、该嵌入特征表示系统的参数和预设比对词库，对待识别语音信号进行语音识别，如此，能够极大的提高数据的读取效率，提高语音识别效率。

这里需要说明的是，云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的系统后盾支撑，只能通过云计算来实现。

图4是本申请实施例提供的电子设备的结构示意图，图4所示的电子设备可以是语音识别设备，其中，电子设备包括：至少一个处理器310、存储器350、至少一个网络接口320和用户接口330。电子设备中的各个组件通过总线系统340耦合在一起。可理解，总线系统340用于实现这些组件之间的连接通信。总线系统340除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图4中将各种总线都标为总线系统340。

处理器310可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口330包括使得能够呈现媒体内容的一个或多个输出装置331，以及一个或多个输入装置332。

存储器350可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器350可选地包括在物理位置上远离处理器310的一个或多个存储设备。存储器350包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Memory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memory)。本申请实施例描述的存储器350旨在包括任意适合类型的存储器。在一些实施例中，存储器350能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统351，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；网络通信模块352，用于经由一个或多个(有线或无线)网络接口320到达其他计算设备，示例性的网络接口320包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等；输入处理模块353，用于对一个或多个来自一个或多个输入装置332之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本申请实施例提供的装置可采用软件方式实现，图4示出了存储在存储器350中的一种语音识别装置354，该语音识别装置354可以是电子设备中的语音识别装置，其可以是程序和插件等形式的软件，包括以下软件模块：帧截取模块3541、特征提取模块3542、获取模块3543、语音识别模块3544和确定模块3545，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。

在另一些实施例中，本申请实施例提供的装置可以采用硬件方式实现，作为示例，本申请实施例提供的装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本申请实施例提供的语音识别方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

本申请各实施例提供的语音识别方法可以由电子设备来执行，其中，该电子设备可以是任意一种具备语音数据处理功能的终端，或者也可以是服务器，即本申请各实施例的语音识别方法可以通过终端来执行，也可以通过服务器来执行，或者还可以通过终端与服务器进行交互来执行。

参见图5，图5是本申请实施例提供的语音识别方法的一个可选的流程示意图，下面将结合图5示出的步骤进行说明，需要说明的是，图5中的语音识别方法是通过服务器作为执行主体为例来说明的，包括以下步骤S501至步骤S505：

步骤S501，对待识别语音信号进行滑动窗截取，得到至少两个子语音信号。

这里，待识别语音信号可以是游戏场景下的游戏语音所对应的语音信号，可以在运行游戏应用的过程中采集游戏语音，并对游戏语音进行语音信号提取，得到待识别语音信号。

本申请实施例的方法可以应用于以下游戏语音中特定类型的语音识别场景，其中，特定类型的语音识别场景可以根据实际语音识别任务来确定，也就是说，特定类型的语音识别场景可以是任意一种类型的语音识别场景，例如可以是脏话识别场景、不文明用于识别场景、游戏用语识别场景、游戏激烈程度识别场景等。

这里以脏话识别场景为例对本申请实施例的应用场景进行说明：在运行游戏应用的过程中，由于玩家之间可以进行语音通话，为了保证游戏能够在一个良性和健康的环境下运行，可以实时的判断玩家在玩游戏过程中的语音中是否存在脏话或者不文明用语，从而及时发现玩家的不文明语言行为，对玩家进行及时的提醒，以保证游戏的良性运行。在进行脏话或者不文明用语识别时，则可以采用本申请实施例提供的语音识别方法来实现，即将玩家之间的语音作为待识别语音，通过本申请实施例提供的语音识别方法对待识别语音进行脏话或者不文明用语识别，确定玩家之间的语音中是否存在脏话或者不文明用语。

本申请实施例中，待识别语音信号中可以不仅包括玩家的对话语音，还可以包括游戏运行场景下的游戏运行语音，这里，游戏运行语音包括但不限于：技能释放时的语音、特效语音、虚拟英雄发出的语音、使用任意道具时生成的语音等。也就是说，可以通过游戏引擎获取玩家游戏运行环境下的游戏运行语音，并通过终端上的语音采集装置采集玩家的对话语音，然后，将游戏运行语音与对话语音叠加之后构成待识别语音。

滑动窗截取是指通过具有预设步长的滑动窗遍历待识别语音信号，每次截取到与滑动窗具有相同步长的一段子语音信号。

在一种实现方式中，可以在每次截取到一段子语音信号之后，采用本申请实施例的后续步骤对该子语音信号进行语音识别，得到子语音识别结果。之后，再通过滑动窗截取得到另一段子语音信号，并继续对该段子语音信号进行语音识别，如此循环往复，直至完成对待识别语音信号中的每一段子语音信号的语音识别过程。

在另一种实现方式中，可以对待识别语音信号执行多次滑动窗截取过程，对应得到多个子语音信号，并按照子语音信号在待识别语音信号中的先后顺序，为每一子语音信号添加识别标识。该识别标识用于区分子语音信号与其他子语音信号，且该识别标识还能够识别出子语音信号与其他子语音信号在待识别语音信号中的相对先后位置。在得到多个子语音信号之后，基于每一子语音信号的识别标识，按照子语音信号在待识别语音信号中的相对先后位置，依次对每一子语音信号进行语音识别，对应得到多个子语音识别结果。

这里需要说明的是，在进行滑动窗截取子语音信号时，相邻两次截取过程中得到的两个子语音信号在待识别语音信号中是相邻的两段信号，也就是说，在进行滑动窗截取子语音信号时，是从待识别语音信号的信号开始位置依次进行截取，且截取的过程中不会丢失待识别语音信号的任意一段信号。

步骤S502，通过预先训练的嵌入特征表示系统，对每一子语音信号进行语音特征提取，得到相应子语音信号的子语音嵌入表示特征。

这里，嵌入特征表示系统包括第一级特征提取网络和第二级特征提取网络；第一级特征提取网络用于对子语音信号进行第一级语音特征提取；第二级特征提取网络用于基于第一级语音特征提取时得到的第一级语音特征，对子语音信号进行第二级语音特征提取，第二级语音特征提取的特征提取精度大于第一级语音特征提取的特征提取精度。

本申请实施例中，可以将每一子语音信号输入至嵌入特征表示系统中，通过嵌入特征表示系统中的第一级特征提取网络和第二级特征提取网络依次对子语音信号进行第一级语音特征提取和第二级语音特征提取，也就是说，依次对子语音信号进行粗精度的语音特征提取和细精度的语音特征提取，得到子语音嵌入表示特征。

这里，子语音嵌入表示特征是指对子语音信号进行数据转换后得到的具有固定大小的特征表示(通常为矢量形式)，子语音嵌入表示特征能够便于进行后续的处理和计算。在实现的过程中，可以通过特征嵌入方式来得到子语音嵌入表示特征，特征嵌入即将输入数据转换(例如可以是降维处理)为固定大小的特征表示(矢量形式)，以便于处理和计算(例如，用于求距离等)。举例来说，针对用于说话者识别的语音信号训练的模型，可以允许将语音片段转换为数字向量，使得来自相同说话者的另一语音片段与转换得到的数字向量具有较小的距离(例如，欧几里德距离)，例如，来自相同说话者的另一语音片段与转换得到的数字向量之间的距离小于预设的距离阈值。特征嵌入的主要目的是对输入特征进行降维，降维的方式可以是使用一个全连接层进行全连接处理之后，再通过嵌入层进行权重矩阵计算，从而实现降低维度的过程。

这里需要说明的是，第一级特征提取网络可以是一种无监督预训练模型，第一级特征提取网络会预先基于大规模的无标注语音进行自监督预训练，得到训练后的第一级特征提取网络。第二级特征提取网络可以是基于训练后的第一级特征提取网络进行特征提取后，再进行模型训练后得到的模型。在实现的过程中，可以通过训练后的第一级特征提取网络，对单字语音数据集中的单字语音进行上述粗精度(即第一级语音特征提取时的特征提取精度)的语音特征提取，得到单字语音的嵌入表示特征，然后将单字语音的嵌入表示特征作为第二级特征提取网络的输入特征，输入至第二级特征提取网络中，通过第二级特征提取网络对单字语音进行细精度(即第二级语音特征提取时的特征提取精度)的语音特征提取。关于第一级特征提取网络、第二级特征提取网络以及嵌入特征表示系统的训练过程，将在下文中进行详细说明。

本申请实施例中，在对子语音信号进行语音特征提取时，由于可以直接将子语音信号输入至嵌入特征表示系统中进行特征提取，所提取到的是子语音信号的嵌入表示特征，而无需提取子语音信号的梅尔特征。如此，能够极大的降低模型的计算量，且提取的嵌入表示特征能够更加准确的表达子语音信号中的语音信息，因此，能够对子语音信号进行准确的语音特征提取。

本申请实施例中，可以将至少两个子语音信号中的每一子语音信号依次输入至预先训练的嵌入特征表示系统中，通过预先训练的嵌入特征表示系统对每一子语音信号进行语音特征提取，得到多个子语音嵌入表示特征。

需要说明的是，特征提取精度用于反映语音特征提取过程中，所提取的嵌入表示特征所能够反映相应的子语音信号的准确度。对于粗精度的语音特征提取过程，所提取到的嵌入表示特征能够反映相应的子语音信号较少的信息(例如，可以是所提取到的嵌入表示特征能够反映相应的子语音信号小于信息量阈值)，从而使得所提取的嵌入表示特征能够反映相应的子语音信号的信息的准确度低于准确度阈值；对于细精度的语音特征提取过程，所提取到的嵌入表示特征能够反映相应的子语音信号较多的信息(例如，可以是所提取到的嵌入表示特征能够反映相应的子语音信号大于或等于信息量阈值)，从而使得所提取的嵌入表示特征能够反映相应的子语音信号的信息的准确度高于准确度阈值。

步骤S503，获取预设比对词库中的每一比对词的嵌入表示特征。

这里，预设比对词库中包括多个比对词，预设比对词库中的比对词具有特定的属性信息，即预设比对词库中的比对词是属于特定类型的词。举例来说，当需要对待识别语音信号进行脏话识别时，预设比对词库中的比对词为预先采集和存储的脏话词，即预设比对词库可以是脏词库；当需要对待识别语音信号进行赞美词识别时，预设比对词库中的比对词为预设采集和存储的赞美词，即预设比对词库可以是赞美词库；当需要对待识别语音信号进行游戏指令识别时，预设比对词库中的比对词可以是预先采集和存储的游戏指令相关的词，即预设比对词库可以是游戏指令词库。

在一些实施例中，在预设比对词库中，可以存储有每一比对词的比对词语音或者比对词语音信号，可以对比对词语音进行语音信号识别，得到比对词语音对应的比对词语音信号，进而可以对比对词语音信号进行语音特征提取，得到比对词的嵌入表示特征。

在实现的过程中，可以采用上述预先训练的嵌入特征表示系统对预设比对词库中的每一比对词的比对词语音信号进行语音特征提取，得到每一比对词的嵌入表示特征，也即每一比对词语音信号的嵌入表示特征。

步骤S504，根据子语音嵌入表示特征和每一比对词的嵌入表示特征，对每一子语音信号进行语音识别，得到子语音识别结果。

这里，可以将子语音嵌入表示特征与比对词的嵌入表示特征进行比较，从而得到子语音识别结果。在进行比较时，可以计算子语音嵌入表示特征与比对词的嵌入表示特征之间的余弦相似度，基于余弦相似度确定子语音识别结果。本申请实施例中，可以计算每一子语音信号的子语音嵌入表示特征与每一比对词的嵌入表示特征之间的余弦相似度。

本申请实施例中，在根据子语音嵌入表示特征和每一比对词的嵌入表示特征，对每一子语音信号进行语音识别，得到子语音识别结果时，包括但不限于以下几种实现方式：

在第一种实现方式中，对于每一子语音信号来说，在得到该子语音信号的子语音嵌入表示特征与每一比对词的嵌入表示特征之间的余弦相似度之后，还可以基于余弦相似度对比对词进行排序，形成比对词序列；然后，提取比对词序列中的前N个比对词，N为大于1的整数；最后，比较该子语音信号的子语音嵌入表示特征，与这前N个比对词的嵌入表示特征之间的余弦相似度，如果这N个余弦相似度均大于相似度阈值，则表明该子语音信号对应的子语音中含有与预设比对词库中的比对词具有相同属性的语音词。本申请实施例中，一方面，由于在基于余弦相似度形式比对词序列之后，是筛选出前N个比对词，N远小于预设比对词库中全部比对词的总数量，因此，在与相似度阈值进行比较时，只需要比较N个余弦相似度是否大于相似度阈值，显然会极大的降低数据比较的数据计算量，提高语音识别的效率。另一方面，由于N大于1，因此是在存在多个比对词的余弦相似度均大于相似度阈值的情况下，认定子语音信号含有与预设比对词库中的比对词具有相同属性的语音词，如此，基于多个比对词的余弦相似度的结果进行识别和验证，能够保证语音识别的准确率，避免在计算与个别比对词的余弦相似度存在误差的情况下，对本申请实施例语音识别结果准确性的影响。

在第二种实现方式中，对于每一子语音信号来说，在得到该子语音信号的子语音嵌入表示特征与每一比对词的嵌入表示特征之间的余弦相似度之后，可以获取预设的相似度阈值；然后，筛选出余弦相似度大于相似度阈值的全部比对词，并获取这全部比对词的数量，当全部比对词的数量大于数量阈值时，则表明该子语音信号对应的子语音中含有与预设比对词库中的比对词具有相同属性的语音词。本申请实施例中，通过相似度阈值和数量阈值这两重判断，能够在保证余弦相似度高的情况下，判断出具有较多相似比对词的情况，也就是说，在预设比对词库中，存在大量与子语音信号的子语音嵌入表示特征之间具有较高余弦相似度的比对词。如此，基于这两个阈值的双重判断，能够对子语音信号对应的子语音中是否含有与预设比对词库中的比对词具有相同属性的语音词进行准确的判断，进而提高语音识别的准确率。

在第三种实现方式中，对于每一子语音信号来说，可以依次计算该子语音信号的子语音嵌入表示特征与每一比对词的嵌入表示特征之间的余弦相似度，且在每计算出一个余弦相似度之后，即对该余弦相似度进行判断，判断余弦相似度是否大于相似度阈值；只要判断出该子语音信号的子语音嵌入表示特征与任一比对词的嵌入表示特征之间的余弦相似度，大于相似度阈值时，停止计算该子语音信号的子语音嵌入表示特征与剩余比对词的嵌入表示特征之间的余弦相似度，并且，确定出该子语音信号对应的子语音中含有与预设比对词库中的比对词具有相同属性的语音词。本申请实施例中，可以预先定义只要存在至少一个比对词的嵌入表示特征与子语音嵌入表示特征之间的余弦相似度大于相似度阈值，即认为子语音信号对应的子语音中含有与预设比对词库中的比对词具有相同属性的语音词，也就是说，只要检测到一个比对词的嵌入表示特征与子语音嵌入表示特征之间的余弦相似度大于相似度阈值，就可以认为子语音信号对应的子语音中含有与预设比对词库中的比对词具有相同属性的语音词。本申请实施例在实现的过程中，通过边计算余弦相似度边进行判断，一旦确定出存在一个计算出的余弦相似度大于相似度阈值，即停止继续对其他比对词的余弦相似度进行计算，如此，能够极大的提高检测的效率，进而提高语音识别的效率。

在第四种实现方式中，对于每一子语音信号来说，首先初始化计数器为0；然后，依次计算该子语音信号的子语音嵌入表示特征与每一比对词的嵌入表示特征之间的余弦相似度，且在每计算出一个余弦相似度之后，即对该余弦相似度进行判断，判断余弦相似度是否大于相似度阈值；只要判断出该子语音信号的子语音嵌入表示特征与任一比对词的嵌入表示特征之间的余弦相似度，大于相似度阈值时，对计数器进行加一。如此循环往复直至计数器的计数值大于等于数值阈值时，停止计算该子语音信号的子语音嵌入表示特征与剩余比对词的嵌入表示特征之间的余弦相似度，并且，确定出该子语音信号对应的子语音中含有与预设比对词库中的比对词具有相同属性的语音词。这里，数值阈值为大于1的整数。本申请实施例中，通过使用计数器对判断结果进行计数，即每计算出一个余弦相似度并对该余弦相似度与相似度阈值进行判断之后，基于判断结果对计数器进行计数更新(即满足余弦相似度大于相似度阈值这一条件时，计数器加一；不满足余弦相似度大于相似度阈值这一条件时，计数器数值不变)，如此，至少具有以下有益效果：一方面，实现了通过相似度阈值和数值阈值的两重判断，能够在保证余弦相似度高的情况下，判断出具有较多相似比对词的情况，从而能够在预设比对词库中，对存在大量与子语音信号的子语音嵌入表示特征之间具有较高余弦相似度的比对词的情况进行准确的识别；另一方面，由于每计算一个余弦相似度进行一次判断和计数器计数，一旦计数器的计数值大于等于数值阈值时，停止计算余弦相似度，也就是说，无需计算出子语音嵌入表示特征与预设比对词库中的每一比对词的嵌入表示特征之间的余弦相似度，从而能够极大的降低计算余弦相似度的数据计算量，提高语音识别的效率。

步骤S505，根据至少两个子语音信号的子语音识别结果，确定待识别语音信号对应的语音识别结果。

这里，在得到每一子语音信号的子语音识别结果之后，对至少两个子语音信号的子语音识别结果进行结果综合处理，得到待识别语音信号对应的语音识别结果。

在进行结果综合处理时，可以是当子语音嵌入表示特征与任一比对词的嵌入表示特征之间的余弦相似度大于相似度阈值时，确定子语音信号的子语音识别结果为特定识别结果，即确定出该子语音信号对应的子语音中含有与预设比对词库中的比对词具有相同属性的语音词。或者，可以是当子语音嵌入表示特征与预设数量的比对词的嵌入表示特征之间的余弦相似度大于相似度阈值时，确定子语音信号的子语音识别结果为特定识别结果，即确定出该子语音信号对应的子语音中含有与预设比对词库中的比对词具有相同属性的语音词。

本申请实施例提供的语音识别方法，通过预先训练的嵌入特征表示系统，对滑动窗截取后得到的每一子语音信号进行语音特征提取，得到子语音嵌入表示特征；并根据子语音嵌入表示特征和预设比对词库中的每一比对词的嵌入表示特征，对每一子语音信号进行语音识别，得到子语音识别结果；从而根据至少两个子语音信号的子语音识别结果，确定待识别语音信号对应的语音识别结果。如此，通过具有第一级特征提取网络和第二级特征提取网络构成的嵌入特征表示系统对每一子语音信号进行语音特征提取，从而能够准确的提取到子语音信号的子语音嵌入表示特征，进而基于子语音嵌入表示特征能够对待识别语音信号进行准确的识别。

在一些实施例中，语音识别系统中至少包括终端和服务器，其中，该语音识别方法可以用于对游戏应用运行过程中生成的游戏语音数据进行语音识别，以确定游戏语音数据中是否存在特定类型的用语(例如脏话和不文明用语)的情况；或者，还可以用于对电竞场景下生成的电竞语音进行语音识别，以确定电竞语音中是否存在脏话或不文明用语的情况；或者，还可以用于在短视频场景下对短视频中的短视频语音进行语音识别，以确定短视频语音中是否存在脏话或不文明用语的情况；当然也可以应用于其他类似的存在语音以及需要进行语音识别的场景。

在实现的过程中，终端上可以运用有游戏应用，在运行游戏应用的过程中采集得到游戏语音数据，并获取游戏语音数据对应的语音信号，得到待识别语音信号，从而采用本申请实施例的方法对待识别语音信号进行语音识别。

图6是本申请实施例提供的语音识别方法的另一个可选的流程示意图，如图6所示，方法包括以下步骤S601至步骤S613：

步骤S601，终端在运行游戏应用的过程中，获取游戏应用的游戏运行语音，以及，采集玩家的用户语音。

这里，终端在运行游戏应用的过程中，可以获取游戏应用的游戏运行语音，游戏运行语音包括但不限于：技能释放时的语音、特效语音、虚拟英雄发出的语音、使用任意道具时生成的语音等。在实现的过程中，可以通过游戏引擎直接获取到游戏运行语音。

本申请实施例中，终端在运行游戏应用的过程中，还可以通过终端上的语音采集装置采集玩家的对话语音，即采集得到用户语音。这里，用户语音是指游戏运行过程中玩家间说话和沟通的语音，用户语音可以仅包括当前玩家自己的语音，还可以包括当前游戏场景下的全部玩家的语音。

步骤S602，终端对游戏运行语音和用户语音进行叠加，形成游戏语音数据。

这里，对游戏运行语音和用户语音进行叠加可以是在时间维度上，将游戏运行语音和用户语音融合成在时间轴上的一段融合后的游戏语音数据，该游戏语音数据中不仅包括游戏运行语音，还包括用户语音。

步骤S603，终端将游戏语音数据对应的语音信号作为待识别语音信号封装至语音识别请求中。

步骤S604，终端将语音识别请求发送给服务器。

步骤S605，服务器解析语音识别请求，得到待识别语音信号。

步骤S606，服务器采用具有预设步长的滑动窗，对待识别语音信号进行分帧处理，得到至少两个子语音信号，其中，至少两个子语音信号具有相同的帧长。

这里，可以采用具有预设步长的滑动窗遍历待识别语音信号，每次截取到与滑动窗具有相同步长的一段子语音信号。也就是说，将原始的待识别语音信号分成大小固定的多段子语音信号，这里每一段子语音信号都可以被称为一帧，帧长一般取10ms到30ms。全部子语音信号连接后构成原始的待识别语音信号。

在一些实施例中，在对待识别语音信号执行多次滑动窗截取的过程中，对应得到了多个子语音信号，还可以按照子语音信号在待识别语音信号中的先后顺序，为每一子语音信号添加识别标识。该识别标识用于区分子语音信号与其他子语音信号，且该识别标识还能够识别出子语音信号与其他子语音信号在待识别语音信号中的相对先后位置。

在一些实施例中，在对待识别语音信号进行分帧处理之后，还可以获取预设窗函数；并采用预设窗函数对每一子语音信号进行平滑处理，对应得到至少两个平滑处理后的子语音信号。这里，平滑处理也可以称为加窗处理，加窗处理在对待识别语音信号分帧后，为了使帧与帧之间平滑过渡，保持相邻帧之间的连续性，也就是消除各个帧两端可能会造成的信号不连续性，即谱泄露(spectral leakage)，通过预设窗函数来减小谱泄露，预设窗函数可以减少截断带来的影响。

本申请实施例中，可以将每一帧带入预设窗函数，形成加窗语音信号sw(n)＝s(n)*w(n)，其中，sw(n)为加窗语音信号，即平滑处理后的子语音信号；s(n)为每一帧，即每一子语音信号；w(n)为预设窗函数。在一些实施例中，预设窗函数可以包括矩形窗和汉明窗。

需要说明的是，在后续对每一子语音信号进行语音特征提取时，可以是对每一平滑处理后的子语音信号进行语音特征提取。也就是说，是基于平滑处理后的子语音信号进行后续的语音识别步骤。

步骤S607，服务器将每一子语音信号输入至第一级特征提取网络中，通过第一级特征提取网络，对子语音信号进行第一级嵌入特征提取，得到具有第一特征提取精度的嵌入表示特征。

步骤S608，服务器将具有第一特征提取精度的嵌入表示特征，输入至第二级特征提取网络中，通过第二级特征提取网络，对子语音信号进行第二级嵌入特征提取，得到具有第二特征提取精度的嵌入表示特征；第一特征提取精度小于第二特征提取精度。

这里，嵌入特征表示系统包括第一级特征提取网络和第二级特征提取网络；第一级特征提取网络用于对子语音信号进行第一级语音特征提取；第二级特征提取网络用于基于第一级语音特征提取时得到的第一级语音特征，对子语音信号进行第二级语音特征提取，第二级语音特征提取的特征提取精度大于第一级语音特征提取的特征提取精度。特征提取精度用于反映语音特征提取过程中，所提取的嵌入表示特征所能够反映相应的子语音信号的准确度。

第一级特征提取网络是一种无监督预训练模型，第一级特征提取网络会预先基于大规模的无标注语音进行自监督预训练，得到训练后的第一级特征提取网络。第二级特征提取网络是基于训练后的第一级特征提取网络进行特征提取后，再进行模型训练后得到的。

本申请实施例中，具有第二特征提取精度的嵌入表示特征构成相应子语音信号的子语音嵌入表示特征。

步骤S609，服务器获取预设比对词库中的每一比对词的嵌入表示特征。

在一些实施例中，预设比对词库中包括多个比对词，预设比对词库中的比对词具有特定的属性信息，即预设比对词库中的比对词是属于特定类型的词。预设比对词库中包括每一比对词的比对词语音信号。可以通过预先训练的嵌入特征表示系统，对每一比对词的比对词语音信号进行语音特征提取，得到每一比对词的嵌入表示特征。

步骤S610，服务器根据子语音嵌入表示特征和每一比对词的嵌入表示特征，对每一子语音信号进行语音识别，得到子语音识别结果。

在一些实施例中，对每一所述子语音信号进行语音识别，可以通过以下方式实现：

首先，确定子语音嵌入表示特征与每一比对词的嵌入表示特征之间的相似度(例如可以是余弦相似度)；然后，当子语音嵌入表示特征与任一比对词的嵌入表示特征之间的相似度大于相似度阈值时，确定子语音信号的子语音识别结果为特定识别结果；这里，特定识别结果用于表征：子语音信号对应的子语音中含有与预设比对词库中的比对词具有相同属性的语音词。也就是说，特定识别结果用于表征子语音信号对应的子语音中含有特定的语音词，该特定的语音词是与预设比对词库中的比对词具有相同属性的语音词。

举例来说，当预设比对词库中的比对词为预先采集和存储的脏话词时，如果子语音信号的子语音识别结果为特定识别结果，则表明子语音信号对应的子语音中含有脏话词；当预设比对词库中的比对词为预设采集和存储的赞美词时，如果子语音信号的子语音识别结果为特定识别结果，则表明子语音信号对应的子语音中含有赞美词；当预设比对词库中的比对词可以是预先采集和存储的游戏指令相关的词时，如果子语音信号的子语音识别结果为特定识别结果，则表明子语音信号对应的子语音中含有游戏指令。

步骤S611，服务器根据至少两个子语音信号的子语音识别结果，确定待识别语音信号对应的语音识别结果。

本申请实施例中，当任一子语音信号的子语音识别结果为特定识别结果时，确定待识别语音信号对应的语音识别结果为特定识别结果。或者，当具有预设数量的子语音信号的子语音识别结果为特定识别结果时，确定待识别语音信号对应的语音识别结果为特定识别结果，预设数量为大于1的整数。

步骤S612，服务器将语音识别结果发送给终端。

步骤S613，终端基于语音识别结果生成提醒信息，并显示提醒信息。

这里，当语音识别结果为待识别语音中包含有与预设比对词库中的比对词具有相同属性的语音词时，生成与该语音识别结果对应的提醒信息并显示提醒信息，以提醒玩家。

在实现的过程中，可以以弹窗的形式显示提醒信息，也可以在当前游戏界面中显示提醒信息。提醒信息可以是以文字的形式呈现、以特效图的形式呈现、以特效视频或者特定提醒视频的形式呈现，在一些实施例中，提醒信息也可以以语音的形式输出。

举例来说，当检测到用户的游戏语音(即待识别语音信号)中含有脏话词时，以弹窗的形式发送提醒信息“请您注意文明用语”等文字提醒，或者，还可以在当前游戏界面中弹出特效图片，提醒用户注意文明用语，或者，还可以在当前游戏界面中播放预先制作的脏话提醒视频，以提醒玩家注意文明用语，或者，还可以语音提醒玩家。

在一些实施例中，当检测到玩家的游戏语音中含有脏话词时，在生成并显示提醒信息的过程中，还可以添加惩罚机制，以进一步提醒玩家注意文明用语。这里惩罚机制包括但不限于：在显示提醒信息的时间段内，玩家不能对当前游戏场景下的任一对象进行操作，即在显示提醒信息的时间段内，玩家处于不可操作状态；待提醒信息显示结束后，玩家才能够重新进入当前游戏场景。

在一些实施例中，还可以确定玩家当前所发出的游戏语音中所包含的脏话词的数量和脏话强度，如果数量大于数量阈值，或者脏话强度大于强度阈值，可以采用预设的惩罚机制对玩家的游戏进度进行惩罚。例如，惩罚机制可以是禁止玩家发送语音、禁止玩家继续进行游戏对局、禁止玩家在一定的时长内再次运行该游戏应用等。

在另一些实施例中，还可以确定玩家在当前游戏对局中的整个游戏语音过程中所包含的脏话词的总数量，以及，玩家在当前游戏对局过程中的整个游戏语音过程中被检测到含有脏话词的次数，如果总数量大于总数量阈值，或者次数大于次数阈值，也可以采用预设的惩罚机制对玩家的游戏进度进行惩罚。

这里，可以设置提醒信息的显示时长，可以预先设置提醒信息的显示时长为一初始时长。在本次游戏对局过程中，如果检测到玩家的游戏语音中含有脏话词的次数大于次数阈值时，对初始时长进行调整，以增大提醒信息的显示时长。

下面对嵌入特征表示系统及嵌入特征表示系统的训练方法进行说明。

本申请实施例中，嵌入特征表示系统包括第一级特征提取网络和第二级特征提取网络；第一级特征提取网络用于对子语音信号进行第一级语音特征提取；第二级特征提取网络用于基于第一级语音特征提取时得到的第一级语音特征，对子语音信号进行第二级语音特征提取，第二级语音特征提取的特征提取精度大于第一级语音特征提取的特征提取精度。

图7是本申请实施例提供的嵌入特征表示系统的训练方法的流程示意图，该嵌入特征表示系统的训练方法可以由模型训练模块实现，其中，模型训练模块可以是语音识别设备(即电子设备)中的模块，即模型训练模块可以是服务器也可以是终端；或者，也可以是独立于语音识别设备的另一设备，即模型训练模块是区别于上述用于实现语音识别方法的服务器和终端之外的其他电子设备。如图7所示，可以通过循环迭代以下步骤S701至步骤S706，对嵌入特征表示系统进行训练，直至嵌入特征表示系统满足预设收敛条件达到收敛为止：

步骤S701，将无标注语音数据集中的第一语音数据输入至第一级特征提取网络中，通过对比学习方式对第一级特征提取网络进行训练，得到训练后的第一级特征提取网络。

这里，无标注语音数据集中包括多个未进行标注的无标签语音数据。由于第一级特征提取网络可以采用无监督学习方式进行训练，因此可以采用无标注语音数据集中的第一语音数据，对第一级特征提取网络进行训练。

这里，对比学习是一种自监督学习方法，对比学习用于在没有标签的情况下，通过让第一级特征提取网络学习哪些数据点相似或不同，进而来学习无标注语音数据集的一般特征。对比学习允许第一级特征提取网络观察哪些数据点对是“相似”和“不同”，以便在执行分类或分割等任务之前了解数据更高阶的特征。在大多数实际场景中，由于没有为两段语音信号设置标签，为了创建标签，专业人士必须花费大量时间人工听取语音以手动分类、分割等。通过对比学习，即使只有一小部分数据集被标记，也可以显著提高模型性能。

在一种实现方式中，第一级特征提取网络可以实现为wav2vec模型。这里，通过训练wav2vec模型，得到训练后的wav2vec模型，并通过训练后的wav2vec模型区分真实数据和干扰项样本，这可以帮助wav2vec模型学习音频数据的数学表示形式。有了这些数据表示形式，wav2vec模型可以通过剪辑和比较，从干扰物种分辨出准确的语音声音。

步骤S702，将单字语音数据集中的第二语音数据输入至训练后的第一级特征提取网络中，通过训练后的第一级特征提取网络对第二语音数据进行第一级嵌入特征提取，得到具有第三特征提取精度的样本嵌入表示特征。

这里，第三特征提取精度是训练后的第一级特征提取网络对应的特征提取精度，即，第三特征提取精度是训练后的第一级特征提取网络在对第二语音数据进行嵌入特征提取时，所提取的样本嵌入表示特征的特征提取精度。本申请实施例中，第三特征提取精度对应于上述第一特征提取精度，也就是说，如果采用训练后的第一级特征提取网络对上述子语音信号进行第一级嵌入特征提取时，则可以得到第一特征提取精度的嵌入表示特征；如果采用训练后的第一级特征提取网络对第二语音数据进行第一级嵌入特征提取，则可以得到第三特征提取精度的嵌入表示特征(即具有第三特征提取精度的样本嵌入表示特征)。

单字语音数据集中包括多个单字语音(即第二语音数据)，每一单字语音是由单个字的语音构成。本申请实施例中，可以对一段原始语音采用强制对齐方法(MFA，Montreal Forced Aligner)切分得到单字语音。在实现的过程中，可以提取原始语音对应的原始语音信号，并且，通过任意一种特征提取网络对原始语音进行特征提取，得到原始语音对应的多个语音特征，其中，每一语音特征是一个字的语音对应的特征向量；然后，将原始语音信号与每一语音特征一一对应(即根据每一语音特征，确定该语音特征对应的单个字的语音在原始语音信号中的起始位置和结束位置)，实现原始语音信号与语音特征之间的对齐；在完成对齐之后，根据原始语音信号与语音特征之间的对齐位置(即起始位置和结束位置)对原始语音信号进行切分，形成多个原始语音子信号，其中，每一原始语音子信号对应一个单字语音。也就是说，MFA技术的实现过程是，先判断用户真正读的句子是什么，再用该判断结果去进行强制对齐。

本申请实施例中，可以将单字语音数据集中的每一单字语音输入至训练后的第一级特征提取网络中，通过训练后的第一级特征提取网络对每一单字语音进行第一级嵌入特征提取，得到多个样本嵌入表示特征，通过多个样本嵌入表示特征对第二级特征提取网络进行训练。即将多个样本嵌入表示特征作为第二级特征提取网络的训练样本进行模型训练。

步骤S703，将具有第三特征提取精度的样本嵌入表示特征输入至第二级特征提取网络中，通过第二级特征提取网络对第二语音数据进行第二级嵌入特征提取，得到具有第四特征提取精度的样本嵌入表示特征；第三特征提取精度小于第四特征提取精度。

这里，第四特征提取精度是第二级特征提取网络对应的特征提取精度，即，第四特征提取精度是第二级特征提取网络对第二语音数据进行第二级嵌入特征提取时，所提取的样本嵌入表示特征的特征提取精度。本申请实施例中，第四特征提取精度对应于上述第二特征提取精度，也就是说，如果采用第二级特征提取网络对上述子语音信号进行第二级嵌入特征提取，则可以得到第二特征提取精度的嵌入表示特征；如果采用第二级特征提取网络对第二语音数据进行第二级嵌入特征提取，则可以得到第四特征提取精度的嵌入表示特征(即具有第四特征提取精度的样本嵌入表示特征)。

本申请实施例中，由于第二级语音特征提取的特征提取精度大于第一级语音特征提取的特征提取精度，因此，第三特征提取精度小于第四特征提取精度。

步骤S704，通过预设分类网络基于具有第四特征提取精度的样本嵌入表示特征，对第二语音数据进行语音识别，得到样本识别结果。

这里，第二级特征提取网络对每一个样本嵌入表示特征进行第二级嵌入特征提取，得到具有第四特征提取精度的样本嵌入表示特征。之后，再基于预设分类网络基于提取到的具有第四特征提取精度的样本嵌入表示特征，对第二语音数据进行语音识别，即对第二语音数据进行语音分类处理，得到样本识别结果。

这里以对第二语音数据是否包含脏话词为例进行说明。通过预设分类网络基于具有第四特征提取精度的样本嵌入表示特征，对第二语音数据进行语音识别时，可以是基于预设脏词库对第二语音数据进行分类和识别，基于提取到的具有第四特征提取精度的样本嵌入表示特征，确定第二语音数据中是否存在脏话词，从而得到是否存在脏话词的样本识别结果。

步骤S705，将样本识别结果与第二语音数据的分类标签信息输入至预设损失模型中，通过预设损失模型输出损失结果。

这里，在基于MFA切分得到多个单字语音(即第二语音数据)之后，还可以为每一第二语音数据添加分类标签信息，该分类标签信息用于标识该单字语音中是否存在脏话词。

本申请实施例中，通过第一级特征提取网络和第二级特征提取网络，提取到第二语音数据的具有第四特征提取精度的样本嵌入表示特征，并基于该具有第四特征提取精度的样本嵌入表示特征对第二语音数据是否包含脏话词进行识别，得到样本识别结果之后，可以将样本识别结果与第二语音数据的分类标签信息输入至预设损失模型中，通过预设损失模型输出损失结果。

这里，可以通过预设损失模型计算样本识别结果与分类标签信息之间的标签相似度。

当标签相似度大于标签相似度阈值时，表明第二级特征提取网络能够准确的提取到第二语音数据的样本嵌入表示特征，且，预设分类网络能够基于样本嵌入表示特征，对第二语音数据进行准确的语音识别。则此时可以停止对嵌入特征表示系统的训练，且将此时得到的嵌入特征表示系统确定为训练好的嵌入特征表示系统。

当标签相似度小于或等于标签相似度阈值时，表明第二级特征提取网络不能准确的提取到第二语音数据的样本嵌入表示特征，或者，表明预设分类网络不能基于样本嵌入表示特征，对第二语音数据进行准确的语音识别。则此时可以继续对嵌入特征表示系统进行训练，直至标签相似度大于标签相似度阈值时停止训练。

步骤S706，基于损失结果对第二级特征提取网络中的模型参数进行修正，得到训练后的嵌入特征表示系统。

这里，当标签相似度小于或等于标签相似度阈值时，则可以基于修正参数对第二级特征提取网络中的模型参数进行修正；当标签相似度大于标签相似度阈值，停止对嵌入特征表示系统的训练过程。在对模型参数进行修正时，可以预先设置模型参数的修正区间，其中，第二级特征提取网络中的模型参数包括多个模型子参数，每一模型子参数均对应一修正区域。

模型参数的修正区间是指该模型参数在本轮训练过程中能够选择进行更改的修正参数的取值区间。在从修正区间中选取修正参数时，可以基于标签相似度的值来进行选择。如果标签相似度较小，则可以在修正区间中选择一个较大的修正参数作为本轮训练过程中的修正参数；如果标签相似度较大，则可以在修正区间中选择一个较小的修正参数作为本轮训练过程中的修正参数。

在实现的过程中，可以设置修正相似度阈值。当标签相似度小于或等于该修正相似度阈值时，表明标签相似度较小，则可以在修正区间的区间中值与区间极大值所形成的第一子区间中，随机选择一个修正参数作为本轮训练过程中的修正参数；当标签相似度大于该修正相似度阈值时，表明标签相似度较大，则可以在修正区间的区间极小值于区间中值所形成的第二子区间中，随机选择一个修正参数作为本轮训练过程中的修正参数，其中，修正相似度阈值小于上述标签相似度阈值。例如，假设修正区间为[a，b]，则区间中值为第一子区间为第二子区间为如果标签相似度小于或等于修正相似度阈值，则可以在第一子区间中随机选择一个值作为修正参数；如果标签相似度大于修正相似度阈值，则可以在第二子区间中随机选择一个值作为修正参数。

本申请实施例中，在选择出修正参数之后，可以基于该修正参数对相应的模型参数进行调整。例如，当修正参数为正数时，可以调大模型参数；当修正参数为负数时，可以调小模型参数。

本申请实施例提供的嵌入特征表示系统的训练方法，通过无标注语音数据集中的第一语音数据，对第一级特征提取网络进行无监督训练；通过训练后的第一级特征提取网络提取单字语音数据集中的第二语音数据的嵌入标签特征，得到具有第三特征提取精度的样本嵌入表示特征，从而将这些具有第三特征提取精度的样本嵌入表示特征作为第二级特征提取网络的样本数据，对第二级特征提取网络进行训练，在训练第二级特征提取网络的过程中，进行有监督的学习，结合第二语音数据的分类标签信息对第二级特征提取网络中的模型参数进行学习，能够实现对第二级特征提取网络进行准确的学习和训练，得到能够准确提取中的模型参数进行修正的嵌入特征表示系统。

下面分别对第一级特征提取网络和第二级特征提取网络的训练过程进行说明。

第一级特征提取网络包括编码器网络和上下文网络，图8是本申请实施例提供的第一级特征提取网络的训练方法的流程示意图，该第一级特征提取网络的训练方法也可以由模型训练模块实现，其中，用于训练第一级特征提取网络的模型训练模块可以与用于训练嵌入特征表示系统的模型训练模块为同一电子设备中的同一模型训练模块，或是同一电子设备中的不同的模型训练模块，也可以是不同电子设备中的模型训练模块。即用于训练第一级特征提取网络的模型训练模块也可以是服务器或者是终端；或者，也可以是独立于语音识别设备的另一设备。如图8所示，可以通过循环迭代以下步骤S801至步骤S805，对第一级特征提取网络进行训练，直至第一级特征提取网络满足预设收敛条件达到收敛为止：

步骤S801，将无标注语音数据集中的第一语音数据输入至第一级特征提取网络中。

步骤S802，通过编码器网络对第一语音数据进行第一卷积处理，得到低频表示特征。

这里，第一级特征提取网络可以实现为wav2vec模型。wav2vec模型可以通过多层的卷积神经网络来提取音频的无监督语音特征。wav2vec是一个卷积神经网络，wav2vec将原始音频作为输入并计算可以输入到语音识别系统的一般表示。wav2vec模型分为将原始音频x编码为潜在空间z的编码器网络(包括5层卷积处理层)，和将z转换为语境化表征(contextualized representation)的上下文网络(包括9层卷积处理层)，最终特征维度为512维帧数。目标是在特征层面使用当前帧预测未来帧。

也就是说，编码器网络包括多层卷积处理层，通过多层卷积处理层对第一语音数据进行多次卷积处理，从而实现对第一语音数据的编码，得到低频表示特征。

步骤S803，通过上下文网络对低频表示特征进行第二卷积处理，得到具有预设维度的嵌入表示特征。

这里，上下文网络包括多层卷积处理层，通过多层卷积处理层对编码器网络输出的低频表示特征进行多次卷积处理，从而实现将低频表示特征转换为语境化表征，即得到具有预设维度的嵌入表示特征。

步骤S804，将具有预设维度的嵌入表示特征输入至第一损失模型中，通过第一损失模型中的第一损失函数，确定具有预设维度的嵌入表示特征对应的第一损失结果。

这里，模型训练时的损失函数可以选取对比损失函数(contrastive loss)。通过对比损失函数，在训练时将正样本间的距离拉近，负样本间的距离拉远。

步骤S805，基于第一损失结果对编码器网络和上下文网络中的网络参数进行修正，得到训练后的第一级特征提取网络。

本申请实施例提供的第一级特征提取网络的训练方法，通过编码器网络实现对将第一语音数据的编码处理，得到低频表示特征；通过上下文网络将低频表示特征转换为语境化表征，具有预设维度的嵌入表示特征。进而通过对比损失函数进行对比损失计算，以实现将正样本间的距离拉近，负样本间的距离拉远。如此，通过自监督的学习过程，能够对第一级特征提取网络进行快速和准确的训练。

第二级特征提取网络包括：时序信息提取层、注意力机制层和损失计算层，其中，损失计算层包括第二损失函数。图9是本申请实施例提供的第二级特征提取网络的训练方法的流程示意图，该第二级特征提取网络的训练方法也可以由语音识别设备中的模型训练模块实现，该第二级特征提取网络的训练方法也可以由模型训练模块实现，其中，用于训练第二级特征提取网络的模型训练模块可以与用于训练第一级特征提取网络的模型训练模块为同一电子设备中的同一模型训练模块，或是同一电子设备中的不同的模型训练模块，也可以是不同电子设备中的模型训练模块。即用于训练第二级特征提取网络的模型训练模块也可以是服务器或者是终端；或者，也可以是独立于语音识别设备的另一设备。如图9所示，可以通过循环迭代以下步骤S901至步骤S906，对第二级特征提取网络进行训练，直至第二级特征提取网络满足预设收敛条件达到收敛为止：

步骤S901，将具有第三特征提取精度的样本嵌入表示特征，输入至第二级特征提取网络中。

步骤S902，通过时序信息提取层，提取样本嵌入表示特征在不同通道下的关键时序信息。

这里，第二级特征提取网络可以实现为ecapa-tdnn模型。时序信息提取层可以是ecapa-tdnn模型中的挤压激励模块(SE，Squeeze-Excitation)部分。SE部分在计算过程中，考虑的是时间轴上的注意力机制，SE部分能够让ecapa-tdnn模型学习到输入的样本嵌入表示特征中关键的时序信息。

步骤S903，通过注意力机制层对不同通道下的关键时序信息，在时间轴上进行累加处理，得到累加处理结果；以及，对累加处理结果进行加权计算，得到具有第四特征提取精度的样本嵌入表示特征。

这里，注意力机制层可以是ecapa-tdnn模型的注意力状态池化(attentive-stat pool)部分，注意力状态池化部分可以基于自注意力机制，使得ecapa-tdnn模型聚焦于时间维度，将不同通道的信息在时间轴上累加，并且，通过引入加权平均与加权方差的形式，使得所学习到的嵌入表示特征更加鲁棒，且具有区分度。

步骤S904，将具有第四特征提取精度的样本嵌入表示特征和第二语音数据的特征标签信息，输入至损失计算层。

这里，特征标签信息是指该语音数据是否是用户感兴趣的字，即是否是需要提取到特征的字对应的标签。举例来说，对于输入语音“我非常喜欢读书”，则用户感兴趣的字可以是“喜欢”和“读书”，因此，特征标签信息中可以将“喜欢”和“读书”标识出来，以表征在进行该输入语音的嵌入特征提取时，必须要提取到“喜欢”和“读书”这两个词对应的特征数据。

步骤S905，通过损失计算层的第二损失函数，确定具有第四特征提取精度的样本嵌入表示特征对应的第二损失结果。

这里，可以基于特征标签信息，获取与该特征标签信息对应的特征向量，并计算样本嵌入表示特征和特征向量之间的相似度，从而得到第二损失结果。

在一些实施例中，第二损失函数可以是Aam-softmax损失函数，通过Aam-softmax损失函数，在训练时能够减小同类特征的角度，同时增大不同类特征的角度，如此，便可使得第二级特征提取网络学习的嵌入表示特征更优。在实现的过程中，可以通过Aam-softmax损失函数计算样本嵌入表示特征和特征向量之间的余弦相似度，其中，嵌入表示特征和特征向量中不仅具有属于同一类别的特征(即同类特征)，还具有属于不同类别的特征(即不同类特征)，同类特征的角度是指两个同类特征对应的两个特征向量之间的向量夹角，不同类特征的角度是指两个不同类特征对应的两个特征向量之间的向量夹角。通过Aam-softmax损失函数计算余弦相似度，从而基于余弦相似度对应的第二损失结果对第二级特征提取网络进行训练，能够使得采用训练后的第二级特征提取网络提取样本嵌入表示特征时，提取的样本嵌入表示特征与特征向量的同类特征对应的特征向量之间的向量夹角小于角度阈值，不同类特征对应的特征向量之间的向量夹角大于或等于角度阈值，也就是说，能够使得同类特征之间的相似度更高，不同类特征之间的相似度更低。

步骤S906，基于第二损失结果对时序信息提取层和注意力机制层中的网络参数进行修正，得到训练后的第二级特征提取网络。

本申请实施例提供的第二级特征提取网络的训练方法，通过时序信息提取层，提取样本嵌入表示特征在不同通道下的关键时序信息；通过注意力机制层对不同通道下的关键时序信息，在时间轴上依次进行累加处理和加权计算，得到具有第四特征提取精度的样本嵌入表示特征。进而通过第二损失函数进行损失计算，以实现在训练时减小同类的角度，同时增大不同类的角度。如此，通过有监督的学习过程，能够对第二级特征提取网络进行快速和准确的训练。

需要说明的是，上述针对嵌入特征表示系统(包含有预设分类网络)、嵌入特征表示系统中的第一级特征提取网络、第二级特征提取网络的训练过程，可以在先训练好第一级特征提取网络之后并行进行，也可以依次进行。也就是说，可以先训练第一级特征提取网络，之后，再并行进行第二级特征提取网络和整个嵌入特征表示系统的训练。或者，也可以先训练第一级特征提取网络，之后再依次训练第二级特征提取网络和整个嵌入特征表示系统。

下面，将说明本申请实施例在一个实际的应用场景中的示例性应用。

本申请实施例提供的语音识别方法，首先在大规模的无标注语音上，使用对比学习的方法训练自监督预训练模型，该模型可以充分学习到语音的嵌入表示特征；然后，使用基于隐马尔可夫模型的强制对齐方法(MFA，Montreal Forced Aligner)切分中文单字语音，通过Aam-softmax损失函数进一步学习嵌入表示特征。通过上述深度学习的方法，整个语音识别模型(即嵌入特征表示系统)首先充分学习到单句话的嵌入表示特征，然后基于单字音频，进一步学习嵌入表示特征。如此以来，本申请实施例在进行语音关键词匹配时，便可极大提升语音识别模型的泛化能力与抗干扰能力，能有效的区分不同的字，从而能更精准的进行游戏语音关键词匹配。

本申请实施例的语音识别方法用于文明语音的二次校验，如图10所示，是本申请实施例提供的语音关键词匹配系统示意图。对于上报的可能包含脏话的语音x1，本申请实施例通过采用嵌入特征表示系统1001，通过滑动窗的形式提取语音x1的嵌入表示特征x；其次，遍历脏词库(即预设比对词库)的嵌入表示特征，求取上报的语音x1嵌入表示特征x与脏词库中脏话y1的嵌入表示特征y之间的余弦相似度1002，如果该余弦相似度大于预设的相似度阈值，则判定该上报语音x1中包含脏词。

上述嵌入特征表示系统包括第一级特征提取网络和第二级特征提取网络，本申请实施例以第一级特征提取网络为wav2vec模型、第二级特征提取网络为ecapa-tdnn模型为例进行说明。

图11是本申请实施例提供的训练wav2vec模型的流程示意图，如图11所示，首先在大规模无标注语音上使用对比学习训练wav2vec模型1101，该步骤为自监督过程，得到训练后的wav2vec模型。图12是本申请实施例提供的训练ecapa-tdnn模型的流程示意图，如图12所示，在wav2vec模型训练完成后，再基于单字语音数据集，固定wav2vec模型，使用wav2vec模型提取单字语音的嵌入表达特征，然后，将嵌入表达特征输入到ecapa-tdnn模型1201中，通过aam-softmax损失函数训练ecapa-tdnn模型1201。

下面分别对wav2vec模型和ecapa-tdnn模型的训练流程进行说明。

图13是本申请实施例提供的wav2vec模型的结构示意图，如图13所示，wav2vec模型包括编码器网络1301和上下文网络1302。编码器网络1301包含5层一维卷积，输入为音频波形，输出为低频表示特征；上下文网络1302包含9层一维卷积，输入为多个低频表示特征，输出为512维的嵌入表示特征。wav2vec模型训练过程中所使用的第一损失函数以下公式(1)所示：

其中，L为第一损失函数，k表示时间步，T表示序列时长，Z表示编码器网络输出，C表示上下文网络输出，h表示放射变换，λ表示负样本个数，pn表示均匀分布，表示负样本的编码器网络输出；σ表示f(x)＝1/(1+exp(-x))的函数，值域为(0，1)，x为负无穷到正无穷；为正样本相似度，正样本相似度最高为1；为与负样本相似度，由于函数中有负号，则整体最大值也为1。L_κ整体的损失函数意思为：使正样本的距离尽可能小，同时拉大与负样本之间的距离，最终达到的效果是每个嵌入表示特征具备很好的表示性。

图14是本申请实施例提供的ecapa-tdnn模型的结构示意图，图15是本申请实施例提供的ecapa-tdnn模型中SE-ResBlock部分的结构示意图，请同时参照图14和图15，其中：SE部分(即时序信息提取层)，包括图14中的SE层141、SE层142和SE层143。这里，SE部分在计算过程中，考虑的是时间轴上的注意力机制，SE部分能够让ecapa-tdnn模型学习到输入特征中关键的时序信息。注意力机制层144部分，此处可以基于自注意力机制使得ecapa-tdnn模型聚焦于时间维度，将不同通道的信息在时间轴上累加，并且，通过引入加权平均与加权方差的形式，使得所学习到的嵌入表示特征更加鲁棒，且具有区分度。损失计算层145部分，可以采用Aam-softmax损失函数(对应上述第二损失函数)进行损失计算，如以下公式(2)所示：

其中，L₃为第二损失函数；s和m均为设置的常数；该第二损失函数可以减小同类特征之间的角度，同时增大不同类特征之间的角度θ(例如θ_yi+m)，如此即可使得学习的嵌入表示特征更优。

本申请实施例提供的语音识别方法可以应用于游戏语音领域，作为文明语音的二次校验部分，通过求取待识别语音与脏词库中的语音的嵌入表示特征之间的余弦相似度，从而判别待识别语音中是否含有脏词。在测试过程中，能有效精准的定位脏词。

下面继续说明本申请实施例提供的语音识别装置354实施为软件模块的示例性结构，在一些实施例中，如图4所示，语音识别装置354包括：

帧截取模块3541，配置为对待识别语音信号进行滑动窗截取，得到至少两个子语音信号；特征提取模块3542，配置为通过预先训练的嵌入特征表示系统，对每一子语音信号进行语音特征提取，得到相应子语音信号的子语音嵌入表示特征；其中，所述嵌入特征表示系统包括第一级特征提取网络和第二级特征提取网络；所述第一级特征提取网络用于对所述子语音信号进行第一级语音特征提取，得到第一级语音特征；所述第二级特征提取网络用于基于所述第一级语音特征，对所述子语音信号进行第二级语音特征提取，所述第二级语音特征提取的特征提取精度大于所述第一级语音特征提取的特征提取精度；获取模块3543，配置为获取预设比对词库中的每一比对词的嵌入表示特征；语音识别模块3544，配置为根据所述子语音嵌入表示特征和每一所述比对词的嵌入表示特征，对每一所述子语音信号进行语音识别，得到子语音识别结果；确定模块3545，配置为根据每一所述子语音信号的子语音识别结果，确定所述待识别语音信号对应的语音识别结果。

在一些实施例中，所述帧截取模块还配置为：采用具有预设步长的滑动窗，对所述待识别语音信号进行分帧处理，得到至少两个子语音信号，所述至少两个子语音信号具有相同的帧长。

在一些实施例中，所述装置还包括：窗函数获取模块，配置为获取预设窗函数；平滑处理模块，配置为采用所述预设窗函数对每一所述子语音信号进行平滑处理，对应得到至少两个平滑处理后的子语音信号；所述特征提取模块还配置为：对每一平滑处理后的子语音信号进行语音特征提取，得到相应子语音信号的子语音嵌入表示特征。

在一些实施例中，所述特征提取模块还配置为：将每一所述子语音信号输入至所述第一级特征提取网络中，通过所述第一级特征提取网络，对所述子语音信号进行第一级嵌入特征提取，得到具有第一特征提取精度的嵌入表示特征；将所述具有第一特征提取精度的嵌入表示特征，输入至所述第二级特征提取网络中，通过所述第二级特征提取网络，对所述子语音信号进行第二级嵌入特征提取，得到具有第二特征提取精度的嵌入表示特征；所述第一特征提取精度小于所述第二特征提取精度，所述具有第二特征提取精度的嵌入表示特征构成所述子语音信号的子语音嵌入表示特征。

在一些实施例中，所述语音识别模块还配置为：确定所述子语音嵌入表示特征与所述每一比对词的嵌入表示特征之间的相似度；当所述子语音嵌入表示特征与任一比对词的嵌入表示特征之间的相似度大于相似度阈值时，确定所述子语音信号的子语音识别结果为特定识别结果；所述特定识别结果用于表征：所述子语音信号对应的子语音中含有特定的语音词，所述特定的语音词是与所述预设比对词库中的比对词具有相同属性的语音词。

在一些实施例中，所述确定模块还配置为：当任一子语音信号的子语音识别结果为所述特定识别结果时，确定所述待识别语音信号对应的语音识别结果为所述特定识别结果。

在一些实施例中，所述预设比对词库中包括每一所述比对词的比对词语音信号；所述获取模块还配置为：通过所述预先训练的嵌入特征表示系统，对每一所述比对词的比对词语音信号进行语音特征提取，得到每一所述比对词的嵌入表示特征。

在一些实施例中，所述装置还包括模型训练模块，用于训练所述嵌入特征表示系统；其中，所述模型训练模块，配置为将无标注语音数据集中的第一语音数据输入至所述第一级特征提取网络中，通过对比学习方式对所述第一级特征提取网络进行训练，得到训练后的第一级特征提取网络；将单字语音数据集中的第二语音数据输入至所述训练后的第一级特征提取网络中，通过所述训练后的第一级特征提取网络对所述第二语音数据进行第一级嵌入特征提取，得到具有第三特征提取精度的样本嵌入表示特征；将所述具有第三特征提取精度的样本嵌入表示特征输入至所述第二级特征提取网络中，通过所述第二级特征提取网络对所述第二语音数据进行第二级嵌入特征提取，得到具有第四特征提取精度的样本嵌入表示特征；所述第三特征提取精度小于所述第四特征提取精度；通过预设分类网络基于所述具有第四特征提取精度的样本嵌入表示特征，对所述第二语音数据进行语音识别，得到样本识别结果；将所述样本识别结果与所述第二语音数据的分类标签信息输入至预设损失模型中，通过所述预设损失模型输出损失结果；基于所述损失结果对所述第二级特征提取网络中的模型参数进行修正，得到训练后的嵌入特征表示系统。

在一些实施例中，所述第一级特征提取网络包括编码器网络和上下文网络；所述模型训练模块还配置为：将无标注语音数据集中的第一语音数据输入至所述第一级特征提取网络中；通过所述编码器网络对所述第一语音数据进行第一卷积处理，得到低频表示特征；通过所述上下文网络对所述低频表示特征进行第二卷积处理，得到具有预设维度的嵌入表示特征；将所述具有预设维度的嵌入表示特征输入至第一损失模型中，通过所述第一损失模型中的第一损失函数，确定所述具有预设维度的嵌入表示特征对应的第一损失结果；基于所述第一损失结果对所述编码器网络和所述上下文网络中的网络参数进行修正，得到所述训练后的第一级特征提取网络。

在一些实施例中，所述第二级特征提取网络包括：时序信息提取层和注意力机制层；所述模型训练模块还配置为：将所述具有第三特征提取精度的样本嵌入表示特征，输入至所述第二级特征提取网络中；通过所述时序信息提取层，提取所述样本嵌入表示特征在不同通道下的关键时序信息；通过所述注意力机制层对所述不同通道下的关键时序信息，在时间轴上依次进行累加处理，得到累加处理结果；对所述累加处理结果进行加权计算，得到所述具有第四特征提取精度的样本嵌入表示特征。

在一些实施例中，所述第二级特征提取网络还包括损失计算层，所述损失计算层包括第二损失函数；所述模型训练模块还配置为：将所述具有第四特征提取精度的样本嵌入表示特征和所述第二语音数据的特征标签信息，输入至所述损失计算层；通过所述损失计算层的第二损失函数，确定所述具有第四特征提取精度的样本嵌入表示特征对应的第二损失结果；基于所述第二损失结果对所述时序信息提取层和所述注意力机制层中的网络参数进行修正，得到训练后的第二级特征提取网络。

需要说明的是，本申请实施例装置的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果，因此不做赘述。对于本装置实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

本申请实施例提供了一种计算机程序产品，该计算机程序产品包括计算机程序或可执行指令，该可执行指令是一种计算机指令；该计算机程序或可执行指令存储在计算机可读存储介质中。当语音识别设备的处理器从计算机可读存储介质读取该可执行指令，处理器执行该可执行指令时，使得该语音识别设备执行本申请实施例上述的方法。

本申请实施例提供一种存储有可执行指令的存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的方法，例如，如图5示出的方法。

在一些实施例中，存储介质可以是计算机可读存储介质，例如，铁电存储器(FRAM，Ferromagnetic Random Access Memory)、只读存储器(ROM，Read Only Memory)、可编程只读存储器(PROM，Programmable Read Only Memory)、可擦除可编程只读存储器(EPROM，Erasable Programmable Read Only Memory)、带电可擦可编程只读存储器(EEPROM，Electrically Erasable Programmable Read Only Memory)、闪存、磁表面存储器、光盘、或光盘只读存储器(CD-ROM，Compact Disk-Read Only Memory)等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，Hyper Text Markup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。作为示例，可执行指令可被部署为在一个电子设备上执行，或者在位于一个地点的多个电子设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个电子设备上执行。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

一种语音识别方法，所述方法由电子设备执行，所述方法包括：

对待识别语音信号进行滑动窗截取，得到至少两个子语音信号；

通过预先训练的嵌入特征表示系统，对每一子语音信号进行语音特征提取，得到相应子语音信号的子语音嵌入表示特征；其中，所述嵌入特征表示系统包括第一级特征提取网络和第二级特征提取网络；所述第一级特征提取网络用于对所述子语音信号进行第一级语音特征提取，得到第一级语音特征；所述第二级特征提取网络用于基于所述第一级语音特征，对所述子语音信号进行第二级语音特征提取，所述第二级语音特征提取的特征提取精度大于所述第一级语音特征提取的特征提取精度；

获取预设比对词库中的每一比对词的嵌入表示特征；

根据所述子语音嵌入表示特征和每一所述比对词的嵌入表示特征，对每一所述子语音信号进行语音识别，得到子语音识别结果；

根据每一所述子语音信号的子语音识别结果，确定所述待识别语音信号对应的语音识别结果。
根据权利要求1所述的方法，其中，所述对待识别语音信号进行滑动窗截取，得到至少两个子语音信号，包括：

采用具有预设步长的滑动窗，对所述待识别语音信号进行分帧处理，得到所述至少两个子语音信号；所述至少两个子语音信号具有相同的帧长。
根据权利要求1所述的方法，其中，在对每一子语音信号进行语音特征提取，得到相应子语音信号的子语音嵌入表示特征之前，所述方法还包括：

获取预设窗函数；

采用所述预设窗函数对每一所述子语音信号进行平滑处理，对应得到至少两个平滑处理后的子语音信号；

所述对每一子语音信号进行语音特征提取，得到相应子语音信号的子语音嵌入表示特征，包括：

对每一所述平滑处理后的子语音信号进行语音特征提取，得到相应子语音信号的子语音嵌入表示特征。
根据权利要求1所述的方法，其中，所述通过预先训练的嵌入特征表示系统，对每一子语音信号进行语音特征提取，得到相应子语音信号的子语音嵌入表示特征，包括：

将每一所述子语音信号输入至所述第一级特征提取网络中，通过所述第一级特征提取网络，对所述子语音信号进行第一级嵌入特征提取，得到具有第一特征提取精度的嵌入表示特征；

将所述具有第一特征提取精度的嵌入表示特征，输入至所述第二级特征提取网络中，通过所述第二级特征提取网络，对所述子语音信号进行第二级嵌入特征提取，得到具有第二特征提取精度的嵌入表示特征；所述第一特征提取精度小于所述第二特征提取精度，所述具有第二特征提取精度的嵌入表示特征构成所述子语音信号的子语音嵌入表示特征。
根据权利要求1所述的方法，其中，所述根据所述子语音嵌入表示特征和每一所述比对词的嵌入表示特征，对每一所述子语音信号进行语音识别，得到子语音识别结果，包括：

确定所述子语音嵌入表示特征与每一所述比对词的嵌入表示特征之间的相似度；

当所述子语音嵌入表示特征与任一比对词的嵌入表示特征之间的相似度大于相似度阈值时，确定所述子语音信号的子语音识别结果为特定识别结果；所述特定识别结果用于表征：所述子语音信号对应的子语音中含有特定的语音词，所述特定的语音词是与所述预设比对词库中的比对词具有相同属性的语音词。
根据权利要求5所述的方法，其中，所述根据每一所述子语音信号的子语音识别结果，确定所述待识别语音信号对应的语音识别结果，包括：

当任一子语音信号的子语音识别结果为所述特定识别结果时，确定所述待识别语音信号对应的语音识别结果为所述特定识别结果。
根据权利要求1所述的方法，其中，所述预设比对词库中包括每一所述比对词的比对词语音信号；所述获取预设比对词库中的每一比对词的嵌入表示特征，包括：

通过所述预先训练的嵌入特征表示系统，对每一所述比对词的比对词语音信号进行语音特征提取，得到每一所述比对词的嵌入表示特征。
根据权利要求1至7任一项所述的方法，其中，所述嵌入特征表示系统通过以下方式进行训练：

将无标注语音数据集中的第一语音数据输入至所述第一级特征提取网络中，通过对比学习方式对所述第一级特征提取网络进行训练，得到训练后的第一级特征提取网络；

将单字语音数据集中的第二语音数据输入至所述训练后的第一级特征提取网络中，通过所述训练后的第一级特征提取网络对所述第二语音数据进行第一级嵌入特征提取，得到具有第三特征提取精度的样本嵌入表示特征；

将所述具有第三特征提取精度的样本嵌入表示特征输入至所述第二级特征提取网络中，通过所述第二级特征提取网络对所述第二语音数据进行第二级嵌入特征提取，得到具有第四特征提取精度的样本嵌入表示特征；所述第三特征提取精度小于所述第四特征提取精度；

通过预设分类网络基于所述具有第四特征提取精度的样本嵌入表示特征，对所述第二语音数据进行语音识别，得到样本识别结果；

将所述样本识别结果与所述第二语音数据的分类标签信息输入至预设损失模型中，通过所述预设损失模型输出损失结果；

基于所述损失结果对所述第二级特征提取网络中的模型参数进行修正，得到训练后的嵌入特征表示系统。
根据权利要求8所述的方法，其中，所述第一级特征提取网络包括编码器网络和上下文网络；

所述将无标注语音数据集中的第一语音数据输入至所述第一级特征提取网络中，通过对比学习方式对所述第一级特征提取网络进行训练，得到训练后的第一级特征提取网络，包括：

将所述无标注语音数据集中的第一语音数据输入至所述第一级特征提取网络中；

通过所述编码器网络对所述第一语音数据进行第一卷积处理，得到低频表示特征；

通过所述上下文网络对所述低频表示特征进行第二卷积处理，得到具有预设维度的嵌入表示特征；

将所述具有预设维度的嵌入表示特征输入至第一损失模型中，通过所述第一损失模型中的第一损失函数，确定所述具有预设维度的嵌入表示特征对应的第一损失结果；

基于所述第一损失结果对所述编码器网络和所述上下文网络中的网络参数进行修正，得到所述训练后的第一级特征提取网络。
根据权利要求8所述的方法，其中，所述第二级特征提取网络包括：时序信息提取层和注意力机制层；

所述将所述具有第三特征提取精度的样本嵌入表示特征输入至所述第二级特征提取网络中，通过所述第二级特征提取网络对所述第二语音数据进行第二级嵌入特征提取，得到具有第四特征提取精度的样本嵌入表示特征，包括：

将所述具有第三特征提取精度的样本嵌入表示特征，输入至所述第二级特征提取网络中；

通过所述时序信息提取层，提取所述样本嵌入表示特征在不同通道下的关键时序信息；

通过所述注意力机制层对所述不同通道下的关键时序信息，在时间轴上进行累加处理，得到累加处理结果；

对所述累加处理结果进行加权计算，得到所述具有第四特征提取精度的样本嵌入表示特征。
根据权利要求10所述的方法，其中，所述第二级特征提取网络还包括损失计算层，所述损失计算层包括第二损失函数；所述方法还包括：

将所述具有第四特征提取精度的样本嵌入表示特征和所述第二语音数据的特征标签信息，输入至所述损失计算层；

通过所述损失计算层的第二损失函数，确定所述具有第四特征提取精度的样本嵌入表示特征对应的第二损失结果；

基于所述第二损失结果对所述时序信息提取层和所述注意力机制层中的网络参数进行修正，得到训练后的第二级特征提取网络。
一种语音识别装置，所述装置包括：

帧截取模块，配置为对待识别语音信号进行滑动窗截取，得到至少两个子语音信号；

特征提取模块，配置为通过预先训练的嵌入特征表示系统，对每一子语音信号进行语音特征提取，得到相应子语音信号的子语音嵌入表示特征；其中，所述嵌入特征表示系统包括第一级特征提取网络和第二级特征提取网络；所述第一级特征提取网络用于对所述子语音信号进行第一级语音特征提取，得到第一级语音特征；所述第二级特征提取网络用于基于所述第一级语音特征，对所述子语音信号进行第二级语音特征提取，所述第二级语音特征提取的特征提取精度大于所述第一级语音特征提取的特征提取精度；

获取模块，配置为获取预设比对词库中的每一比对词的嵌入表示特征；

语音识别模块，配置为根据所述子语音嵌入表示特征和每一所述比对词的嵌入表示特征，对每一所述子语音信号进行语音识别，得到子语音识别结果；

确定模块，配置为根据每一所述子语音信号的子语音识别结果，确定所述待识别语音信号对应的语音识别结果。
一种电子设备，包括：

存储器，用于存储可执行指令；处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至11任一项所述的语音识别方法。
一种计算机可读存储介质，存储有可执行指令，用于引起处理器执行所述可执行指令时，实现权利要求1至11任一项所述的语音识别方法。
一种计算机程序产品或计算机程序，所述计算机程序产品或计算机程序包括可执行指令，所述可执行指令存储在计算机可读存储介质上；

当电子设备从所述计算机可读存储介质读取所述可执行指令，并执行所述可执行指令时，实现权利要求1至11任一项所述的语音识别方法。