WO2022227935A1

WO2022227935A1 - 语音识别方法、装置、设备、存储介质及程序产品

Info

Publication number: WO2022227935A1
Application number: PCT/CN2022/082046
Authority: WO
Inventors: 张玺霖; 刘博�; 刘硕
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2021-04-26
Filing date: 2022-03-21
Publication date: 2022-11-03
Also published as: US20230070000A1; CN112863489B; EP4231283A1; EP4231283A4; CN112863489A

Abstract

一种语音识别方法、装置、设备、存储介质及程序产品，涉及计算机技术领域。该方法包括：获取语音内容(401)；对语音内容进行特征提取，得到中间特征，中间特征用于指示语音内容的音频表达特性(402)；基于注意力机制对中间特征进行解码，得到第一词图(403)；基于语音内容的发音情况对中间特征进行特征映射，得到第二词图(404)；根据第一词图和第二词图指示的候选词汇之间的连接关系，确定语音内容的识别结果(405)。通过该方法，可以在保证服务器资源不浪费的情况下，通过中间特征执行不同的处理方式，再根据两种处理方式获得的词图共同确定处理结果，从而提高了语音识别的准确度。

Description

语音识别方法、装置、设备、存储介质及程序产品

本申请要求于2021年04月26日提交的申请号为202110451736.0、发明名称为“语音识别方法、装置、设备及介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机技术领域，特别涉及一种语音识别方法、装置、设备、存储介质及程序产品。

背景技术

语音识别是指将接收到的语音信息转化为文本信息，许多应用均提供有语音转文本服务；其中，语音识别包括流式语音识别和非流式语音识别，流式语音识别对实时性的要求高于非流式语音识别对实时性的要求。针对非流式语音识别，常见的语音识别系统有传统语音识别系统以及E2E(End-to-End，端到端)语音识别系统。

在相关技术中，传统语音识别系统是通过语音特征、音素、词语、词串之间的依次映射关系来将语音信息转化为文本信息；传统语音识别系统由声学模型、发音词典以及语言模型等多个模型组合而成。而E2E语音识别系统是将输入端和输出端之间通过多头注意力机制，来实现上述传统语音识别系统中的多个模型对应的工作内容。

然而，传统语音识别系统中包括多个模型，由于各个模型之间的信息传递存在信息损失，其对应的识别性能具有一定的局限性，使得识别准确率较低。

发明内容

本申请实施例提供了一种语音识别方法、装置、设备、存储介质及程序产品。该技术方案如下。

一方面，提供了一种语音识别方法，所述方法由计算机设备执行，所述方法包括：

获取语音内容，所述语音内容为待识别的音频；

对所述语音内容进行特征提取，得到中间特征，所述中间特征用于指示所述语音内容的音频表达特性；

基于注意力机制对所述中间特征进行解码，得到第一词图，所述第一词图用于指示基于所述注意力机制预测得到的第一候选词汇组成的第一候选序列集；

基于所述语音内容的发音情况对所述中间特征进行特征映射，得到第二词图，所述第二词图用于指示基于所述发音情况得到的第二候选词汇组成的第二候选序列集；

根据所述第一词图和所述第二词图指示的候选词汇之间的连接关系，确定所述语音内容的识别结果。

另一方面，提供了一种语音识别装置，所述装置包括：

获取模块，用于获取语音内容，所述语音内容为待识别的音频；

处理模块，用于对所述语音内容进行特征提取，得到中间特征，所述中间特征用于指示所述语音内容的音频表达特性；

第一生成模块，用于基于注意力机制对所述中间特征进行解码，得到第一词图，所述第一词图用于指示基于所述注意力机制预测得到的第一候选词汇组成的第一候选序列集；

第二生成模块，用于基于所述语音内容的发音情况对所述中间特征进行特征映射，得到第二词图，所述第二词图用于指示基于所述发音情况得到的第二候选词汇组成的第二候选序列集；

确定模块，用于根据所述第一词图和所述第二词图指示的候选词汇之间的连接关系，确定所述语音内容的识别结果。

另一方面，提供了一种计算机设备，所述设备包括处理器和存储器，所述存储器中存储有至少一条计算机程序，所述至少一条计算机程序由所述处理器加载并执行以实现本申请实施例中任一所述的语音识别方法。

另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条程序代码，所述程序代码由处理器加载并执行以实现本申请实施例中任一所述的语音识别方法。

另一方面，提供了一种计算机程序产品，该计算机程序产品包括至少一条计算机程序，所述计算机程序由处理器加载并执行以实现上述实施例中任一所述的语音识别方法。

本申请的提供的技术方案至少包括以下有益效果。

针对待识别的语音内容，对语音内容进行特征提取，得到能够指示语音内容的音频表达特性的中间特征，然后通过两种不同的处理方式对该中间特征进行处理，得到两个词图，其中两种不同的处理方式包括基于注意力机制对中间特征进行解码，得到第一词图，以及基于语音内容的发音情况进行特征映射，得到第二词图，第一词图和第二词图分别用于指示通过上述两种处理方式得到的候选词汇组成的候选序列集，最后根据第一词图和第二词图指示的候选词汇之间的连接关系确定出识别结果，以实现将语音内容转换为文本内容的功能。由于第一词图和第二词图均为通过同一中间特征得到，因此能够节省服务器资源，同时，对中间特征执行不同的处理方式，再根据两种处理方式获得的词图共同确定处理结果，提高了语音识别的准确度。

附图说明

图1是本申请一个示例性实施例提供的实施环境示意图；

图2是本申请一个示例性实施例提供的语音识别应用场景示意图；

图3是本申请另一个示例性实施例提供的语音识别应用场景示意图；

图4是本申请一个示例性实施例提供的语音识别方法流程图；

图5是本申请一个示例性实施例提供的第一词图的形式示意图；

图6是本申请一个示例性实施例提供的混淆网络形式示意图；

图7是本申请一个示例性实施例提供的语音识别模型结构示意图；

图8是本申请一个示例性实施例提供的语音识别方法流程图；

图9是本申请一个示例性实施例提供的Hybrid语音识别系统示意图；

图10是本申请一个示例性实施例提供的E2E语音识别系统示意图；

图11是本申请一个示例性实施例提供的语音识别模型的训练方法流程图；

图12是本申请一个示例性实施例提供的语音识别装置结构框图；

图13是本申请另一个示例性实施例提供的语音识别装置结构框图；

图14是本申请一个示例性实施例提供的服务器的结构示意图。

具体实施方式

示意性的，对本申请实施例的实施环境进行说明；请参考图1，该实施环境中包括终端101、服务器102和通信网络103。

终端101可以是手机、平板电脑、电子书阅读器、多媒体播放设备、可穿戴设备、膝上型便携计算机、台式计算机或语音识别一体机等电子设备。示意性的，终端101中安装有用于语音识别的应用程序，通过该应用程序可以实现对待识别语音内容的文本转换。该语音识别应用程序可以是传统应用软件，可以是云应用软件，可以实现为宿主应用程序中的小程序或应用模块，也可以是某个网页平台，在此不进行限定。

服务器102用于向终端101提供语音识别服务。终端101将待识别语音内容通过通信网络103传输至服务器102，相应的，服务器102接收终端101上传的待识别语音内容；服务器102调用语音识别模型对待识别语音内容进行识别，生成对应的文本内容，并将该文本内容通过通信网络103返回至终端101。可选的，服务器102为物理服务器或云服务器。

在一些实施例中，上述服务器102还可以实现为区块链系统中的节点。

服务器102可以通过通信网络103与终端101建立通信连接。该网络可以是无线网络，也可以是有线网络。

结合上述实施环境，对本申请实施例的应用场景进行说明。

本申请实施例中提供的语音识别方法，可用于流式语音识别服务，也可用于非流式语音识别服务；在本申请实施例中，以该方法应用于非流式语音识别服务中为例进行说明。示意性的，本申请实施例提供的语音识别方法可以应用于包括但不限于如下场景中的至少一种场景。

第一，该语音识别服务应用于社交软件中的对接收到的语音信息进行文本转换的场景；例如，目标对象在社交软件中接收到一条语音信息，例如，聊天过程中接收到其他对象发送的语音条、在动态界面中刷到其他对象发布的一条语音动态等。目标对象可通过该语音识别服务，将语音内容转换为文本内容进行显示，保证了目标对象在不方便通过播放语音的方式接收信息时时，也能及时获取到该语音内容的消息内容。如图2所示，在聊天界面200中，目标对象接收到其他对象发送的语音信息201，目标对象可以通过长按该语音信息201对应的控件，调取菜单控件202，菜单控件202中包括用于提供语音转文本服务的子控件，目标对象通过点击该子控件对接收到的语音信息进行文本信息的转换。终端在接收到对上述子控件的触发操作时，将该语音信号上传至服务器，由服务器进行语音识别，转换为文本信息，将文本信息返回至终端；终端接收服务器返回的文本信息，并在聊天界面200中的预设区域203中进行显示。

第二，该语音识别服务可以应用于输入法软件提供的语音输入功能中，例如，目标对象通过输入法软件中的预设控件进行语音输入，终端将采集到的语音信号发送至服务器，服务器对该语音信号进行处理，得到与语音信号对应的文本信息，将该文本信息返回至终端；终端将该文本信息作为目标对象语音输入的内容进行显示。示意性的，服务器可以返回一条文本信息，也可以返回由该语音信息确定的多条相似的文本信息提供给目标对象选择。如图3所示，在输入软件区域300中，目标对象可以通过语音输入控件301进行语音输入，当目标对象点击语音输入控件301后，终端会调用麦克风录制目标对象的语音信息，当目标对象再次点击语音输入控件301后，终端确定语音信息录制完毕，并将该语音信息上传至服务器，服务器反馈识别得到的多个文本信息302，终端对该多个文本信息302进行显示，目标对象可以从多个文本信息302中，对符合自己想法的文本信息进行选择，输入框303内就会显示多个文本信息302中被目标对象选择的文本信息。

第三，该语音识别服务可以应用于视频软件中的字幕自动生成功能中，例如，目标对象通过视频软件进行视频的发布，在发布目标视频之前，将该目标视频上传至视频软件，视频软件可以为目标对象提供一些视频处理功能，其中可以包括字幕自动生成功能，服务器通过对接收到的目标视频进行音频提取，并对该音频进行语音识别，生成文本信息，将该文本信息返回至终端，目标对象可以选择将生成的文本信息作为目标视频的字幕添加至目标视频中。

示意性的，本申请实施例提供的语音识别方法也可以应用于其他应用场景，在此仅进行举例说明，并不对具体应用场景进行限定。

在本申请实施例中，当涉及到对语音内容进行语音识别时，为了保证语音识别操作的合法性，服务器可以指示终端在终端界面上显示授权询问信息，在接收到基于该授权询问信息的确定操作后，服务器确认获取到与授权询问信息对应的相关信息的处理权限。

其中，该授权询问信息可以包括消息内容授权询问信息，或者输入语音授权询问信息中的至少一种；当授权询问信息中包含消息内容授权询问信息时，在服务器接收到目标对象对该授权询问信息的确定操作后，确定可以获取目标对象在社交软件中接收到语音信息；当授权询问信息中包含输入语音授权询问信息时，在服务器接收到目标对象对该授权询问信息的确定操作后，确定可以获取目标对象输入的语音内容；本申请对授权询问信息的内容不进行限制。

请参考图4，其示出了本申请一个示例性实施例提供的语音识别方法流程图，在本申请实施例中，该语音识别方法可以由计算机设备执行，以该方法由上述实施环境中的服务器执行为例进行说明，该方法包括如下步骤。

步骤401，获取语音内容，语音内容为待识别的音频。

服务器获取语音内容，该语音内容为待识别的音频。

可选的，终端将录制得到的音频进行压缩处理，将压缩音频和语音转文本请求利用网络协议打包，通过通信网络送往服务器。服务器在接收终端发送的语音转文本请求后，将与该语音转文本请求对应的压缩音频进行解压，得到上述待识别的语音内容。示意性的，服务器也可以从数据库中获取语音内容，在此不进行限定。

服务器在获取到语音内容后，根据语音转文本请求调用语音识别模型对该语音内容进行识别。

步骤402，对语音内容进行特征提取，得到中间特征。

中间特征用于指示语音内容的音频表达特性。

在本申请实施例中，语音识别模型包括共享网络(Shared Network)子模型，该共享网络子模型用于对语音内容进行特征提取，得到能够指示语音内容的音频表达特性的中间特征；也就是说，服务器可以通过语音识别模型中的共享网络子模型对语音内容进行特征提取，得到中间特征。其中，该语音识别模型可以被称为语音识别模块，该共享网络子模型可以称为共享网络子模块。

示意性的，共享网络子模型中包括至少一层卷积神经网络(Convolutional Neural Networks，CNN)；服务器可以通过共享网络子模型中包含的至少一层卷积网络对语音内容进行特征抽取，得到中间子特征；之后，对中间子特征进行特征加权，得到中间特征。

示意性的，语音内容在被输入至共享网络子模型之前，需要进行预处理；该预处理包括将语音内容转化为语音特征序列，即通过信号处理技术，从与输入的语音内容对应的语音信号中提取的特征，通过特征向量的表示形式供共享网络子模型进行后续处理，以尽可能降低环境噪声、信道、说话人等因素对特征提取造成的影响。在一个示例中，该预处理包括降噪处理、采样处理、预加重处理、加窗分帧处理等处理中的至少一种。降噪处理为通过预设滤波器对语音信号进行降噪，以保证对语音信号中人声语音识别的准确性；采样处理为将作为模拟信号的语音信号转化为数字信号；预加重处理为对语音的高频部分进行加重，去除口唇辐射的影响，增加语音的高频分辨率；加窗分帧处理为采用可移动的有限长度窗口对语音信号进行加权，然后对各帧通过相关滤波器进行变换或运算，以实现将语音信号分为一些短段(分析帧)来进行处理。

将对语音内容进行预处理后得到的语音特征序列输入至共享网络子模型，得到中间特征。示意性的，该共享网络子模型包括至少一层卷积神经网络，至少一层卷积神经网络可以对语音内容进行特征抽取，以得到中间子特征，该中间子特征是相较于语音特征序列更高层次的特征表达。

该共享网络子模型还包括Transformer(深度自注意力变换网络)，Transformer获取中间子特征，对该中间子特征进行至少一次增加自注意力机制的加权，从而输出中间特征。示意性的，该共享网络子模型还可以包括LSTM(Long Short-Term Memory，长短期记忆网络)、BLSTM(Bi-directional Long Short-Term Memory，双向长短期记忆网络)、DFSMN(Deep Feedforward Sequential Memory Networks，深度前馈顺序存储网络)等网络中的至少一种网络来对中间子特征进行处理，从而得到中间特征，在此不进行限定。

步骤403，基于注意力机制对中间特征进行解码，得到第一词图。

其中，在神经网络的隐藏层中，注意力机制(Attention Mechanism)根据具体任务目标，对关注的方向和加权模型进行调整。通过增加注意力机制的加权，使不符合注意力模型的内容弱化或者遗忘。若关注的方向基于自身，则称之为自身注意力(Self-Attention)机制。而将输入分为多个head(头)，形成多个子空间，在每个子空间完成注意力机制之后重新组合，称之为多头注意力机制(Multi-Headed Attention，MHA)，多头注意力机制可让模型在不同的子空间里学习到相关的信息。

第一词图用于指示基于注意力机制预测得到的第一候选词汇组成的第一候选序列集。

在本申请实施例中，语音识别模型包括E2E网络子模型，该E2E网络子模型用于对中间特征基于注意力机制进行解码处理，得到第一词图；也就是说，服务器可以基于注意力机制，通过E2E网络子模型对中间特征进行解码，得到第一词图。示意性的，E2E网络子模型可以基于注意力机制对中间特征中指示人声语音表达的通道进行特征加权，得到第一分支特征；对第一分支特征进行解码，得到第一词图。其中，该E2E网络子模型可以称为E2E网络子模块；E2E网络子模型用于指示通过基于注意力机制的神经网络实现端到端语音识别的识别模型。

示意性的，E2E网络子模型中包括Attention(注意力)处理层，Attention处理层作为整个E2E网络中的隐藏层，用于根据预设的任务目标对特征处理过程中关注的方向以及对特征进行加权的加权模型进行调整，即通过增加注意力机制的特征加权操作，使不符合关注的方向的语音特征弱化或遗忘，其中，该关注的方向是语音识别模型在被训练过程中确定的。因此，E2E网络子模型在接收到中间特征后，将该中间特征输入至Attention处理层，得到第一分支特征。

该Attention处理层可以实现为AED(Attention-based Encoder-Decoder，基于注意力机制的编码-解码)模型，该模型是用于解决序列到序列映射问题的模型，通过MHA控制编码序列与解码序列的不等长映射，完成E2E语音识别系统的构建。

示意性的，E2E网络子模型中还包括解码网络，该解码网络用于对第一分支特征进行解码，得到第一词图；在一个示例中，上述Attention处理层实现了中间特征与第一分支特征之间的不等长映射，解码网络对该第一分支特征进行解码，确定由第一候选词汇组成的第一候选序列集，即多条最优候选路径(N-best)，根据上述多条最优候选路径生成第一词图，即通过解码器对第一分支特征进行解码，得到第一候选序列集；将第一候选序列集中对应的第一候选词汇作为路径，生成第一词图。该解码器是语音识别系统预先通过训练数据训练得到的。以词图(Lattice)的方式保存N-best能够防止占用过多的内容空间，Lattice本质上是一个有向无环图，图中的每个节点代表由第一分支特征确定的候选词汇的结束时间点，每条边代表一个可能的候选词汇，以及该候选词汇的得分，候选词汇的得分用于指示候选词汇被确定为处理结果中的词汇的可能性。在一个示例中，请参考图5，其示出了第一词图500的形式，其中，第一词图500中各个节点之间的边501表示为第一候选词汇和第一候选词的得分。

步骤404，基于语音内容的发音情况对中间特征进行特征映射，得到第二词图。

第二词图用于指示基于发音情况得到的第二候选词汇组成的第二候选序列集。

在本申请实施例中，语音识别模型还包括声学处理子模型，该声学处理子模型用于对中间特征基于发音情况进行特征映射，得到第二词图；也就是说，服务器可以基于语音内容的发音情况，通过声学处理子模型对中间特征进行特征映射，得到第二词图。

示意性的，基于语音内容的发音情况，通过声学处理子模型对中间特征进行特征映射，得到第二词图的过程可以实现为：

基于中间特征确定待识别语音的目标词汇集；

基于目标词汇集生成第二词图。

示意性的，声学处理子模型在接收到中间特征后，将该中间特征输入至全连接层，得到待识别语音的音素的后验概率；基于该音素的后验概率，确定目标词汇集；其中，音素用于指示根据语音的自然属性划分的最小语音单位。在一个示例中，该全连接层由带软最大化激活函数(softmax)组成。

在本申请实施例中，声学处理子模型中还包括发音词典单元。发音词典单元可以根据接收到的待识别语音的音素的后验概率，确定出待识别语音的目标词汇集。示意性的，发音词典单元中存储有发音词典，该发音词典记录有词汇集合及与词汇集合中的词汇对应的发音，即该发音词典包括词汇与发音之间的映射关系。

基于此，基于音素的后验概率，确定目标词汇集的过程可以实现为：

获取发音词典；

根据音素的后验概率，确定语音内容中各个时间点的音素；

根据发音词典，确定各个时间点的音素组成的目标词汇集。

在本申请实施例中，声学处理子模型中还包括语言模型单元。语言模型单元用于基于由发音词典单元确定的目标词汇集，确定该目标词汇集的第二候选序列集。示意性的，该语言模型单元可以由n-gram语言模型、基于前馈神经网络的模型以及基于循环神经网络的模型等语言模型中的至少一种模型组成，也可以由其他语言模型组成，在此不进行限定。语言模型可以在确定由目标词汇集组成第二候选序列时，计算第二候选序列存在的可能性。

在本申请实施例中，第二词图的形式与第一词图的形式相同，在此不进行赘述。

在本申请实施例中，该中间特征用于同时输入语音识别模型中的E2E网络子模型以及声学处理模型；也就是说，获取第一词图和第二词图的过程可以同步进行。

步骤405，根据第一词图和第二词图指示的候选词汇之间的连接关系，确定语音内容的识别结果。

在本申请实施例中，第一词图指示基于注意力机制预测得到的第一候选词汇组成的第一候选序列集，第二词图指示基于发音情况预测得到的第二候选词汇组成的第二候选序列集。即，第一词图指示出了第一候选词汇之间的连接关系，第二词图指示出了第二候选词汇之间的连接关系。

在本申请实施例中，语音识别模型还包括结果生成子模型，该结果生成子模型用于对E2E网络子模型和声学处理子模型各自的输出结果进行处理，生成语音内容的识别结果。其中，该结果生成子模型可以称为结果生成子模块。

示意性的，结果生成子模型接收第一词图和第二词图，并根据第一词图和第二词图确定候选序列集合，在一个示例中，该候选序列集合包括第一候选序列集对应的候选序列和第二候选序列集对应的候选序列。或者，服务器可以从第一候选序列集和第二候选序列集中分别获取n个候选序列，将上述2n个候选序列确定为候选序列集合，其中，n为正整数。在一个示例中，服务器可以根据第一候选序列在第一候选序列集中的序列得分或第二候选序列在第二候选序列集中的序列得分确定候选序列集合，其中，该序列得分是由组成序列的候选词汇的得分确定的。结果生成子模型可以从上述候选序列集合中确定至少一个候选序列作为识别结果。

示意性的，结果生成子模型还可以根据第一词图和第二词图生成目标混淆网络，由目标混淆网络确定识别结果，该目标混淆网络中包括组成候选序列的第三候选词汇之间的连接概率，第三候选词汇是从第一候选词汇和第二候选词汇中确定的，第三候选词汇之间的连接概率通过对第一候选词汇之间的第一连接关系和第二候选词汇之间的第二连接关系进行加权合并得到。其中，目标混淆网络对应的第三候选词汇，可以是第一候选词汇和第二候选词汇的并集，也可以由预设数量的第一候选词汇和预设数量的第二候选词汇组成，第一候选词的预设数量与第二候选词的预设数量可以相同或不同；其中，以第三候选词汇由预设数量的第一候选词汇和预设数量的第二候选词汇组成为例，按照预设规则从第一候选词汇中选择预设数量的候选词汇，从第二候选词汇中选择预设数量的候选词汇，将从第一候选词汇中选择的候选词汇和从第二候选词汇中选择的候选词汇取并集，得到第三候选词汇，并由第三候选词汇组成目标混淆网络；该预设规则可以根据E2E网络子模型和声学处理子模型之间的权重确定。其中，目标混淆网络中每个节点之间的每一条边对应为一个第三候选词汇及第三候选词汇的得分，第三候选词汇的得分用于指示该第三候选词汇与前后候选词汇之间的连接概率，该连接概率由第一连接关系和第二连接关系确定；该连接概率用以指示第三候选词汇与前后候选词之间具有连接关系的概率。

通过目标混淆网络确定识别结果的方式为：按照从左向右的顺序，遍历目标混淆网络的每个节点，并将两个节点之间的候选词汇对应得分最高的边互相拼接，形成一条路径，该路径即为目标混淆网络中得分最高的一条路径，而该路径所形成的候选序列，即为语音内容的识别结果。

请参考图6，其示出混淆网络600的形式，混淆网络600包括多个节点，节点之间的连线601与词图中的边相对应，即每条连线601代表候选词汇以及候选词汇的得分，该得分用于指示各个候选词汇之间的连接概率。在一个示例中，目标混淆网络为图6中示出的混淆网络600，则根据混淆网络600指示的各个候选词汇之间的连接概率，确定出的处理结果为：ABBC。

由词图生成混淆网络的方法包括：步骤a，从词图中选择一条权重最高的路径当作初始混淆网络，路径中的节点即为混淆网络中的节点；步骤b，逐步将其他的边对齐添加到上述初始混淆网络中，同位置且同词语的边合并为一条，并将权重进行累加。

在本申请实施例中，结果生成子模型还可以根据第一词图生成第一混淆网络，根据第二词图生成第二混淆网络，将第一混淆网络和第二混淆网络根据预设加权规则进行加权合并，得到目标混淆网络，示意性的，该预设加权规则由系统预设，在一个示例中，对第一混淆网络和第二混淆网络的加权合并过程包括：步骤a，对第一词图上的每一条边乘以系数m，对第二词图上的每一条边乘以系数(1-m)。其中m的取值范围为[0，1]，例如，m＝0.49或m＝0.5等，若m大于0.5，则表示该语音识别模型的最终处理结果侧重E2E网络子模型的处理结果，若m小于0.5，则表示该语音识别模型的最终处理结果侧重声学处理子模型的处理结果；步骤b，对两个乘以系数之后第一词图和第二词图进行合并，在一个示例中，将加权后的第二词图对应的混淆网络作为初始混淆网络，并以该初始混淆网络为起点，遍历加权后的第一词图上的每一条边往初始混淆网络上进行对齐添加，直到全部添加则完成合并。

示意性的，如图7所示，其示出了上述语音识别模型700的结构，语音信息输入至共享网络子模型710，共享网络子模型710对该语音信息进行特征提取，得到中间特征，其中，共享网络子模型710中包括卷积神经网络711和Transformer712。中间特征被同时输入至E2E网络子模型720和声学处理子模型730。E2E网络子模型720对中间特征进行处理，输出第一词图，将第一词图输入至结果生成子模型740，其中，E2E网络子模型720包括注意力机制(Attention)处理层721和解码网络(Decoder)722。声学处理子模型730对中间特征进行处理，输出第二词图，将第二词图输入至结果生成子模型740，其中，声学处理子模型730包括全连接层(softmax)731、发音词典单元(Lexicon)732和语言模型单元(LM)733。由结果生成子模型740根据第一词图和第二词图生成处理结果，该处理结果包括至少一条与语音内容对应的文本信息。

综上所述，本申请实施例提供的语音识别方法，针对待识别的语音内容，对语音内容进行特征提取，得到能够指示语音内容的音频表达特性的中间特征，然后通过两种不同的处理方式对该中间特征进行处理，得到两个词图，其中两种不同的处理方式包括基于注意力机制对中间特征进行解码，得到第一词图，以及基于语音内容的发音情况进行特征映射，得到第二词图，第一词图和第二词图分别用于指示通过上述两种处理方式得到的候选词汇组成的候选序列集，最后根据第一词图和第二词图指示的候选词汇之间的连接关系确定出识别结果，以实现将语音内容转换为文本内容的功能。由于第一词图和第二词图均为通过同一中间特征得到，因此能够节省服务器资源，同时，对中间特征执行不同的处理方式，再根据两种处理方式获得的词图共同确定处理结果，提高了语音识别的准确度。

请参考图8，其示出了本申请一个示例性实施例提供的语音识别方法流程图，该语音识别方法可以由计算机设备执行，该方法包括如下步骤。

步骤801，获取语音内容。

上述语音内容为待识别的音频。示意性的，服务器可以从终端获取语音内容，也可以从数据库中获取语音内容，在此不进行限定。

步骤802，对语音内容进行特征提取，得到中间特征。

在本申请实施例中，可以通过语音识别模型中的共享网络子模型对语音内容进行特征提取，得到中间特征。

中间特征用于指示语音内容的音频表达特性；该中间特征用于同时输入语音识别模型中的端到端E2E网络子模型和声学处理子模型。

对语音内容进行预处理，得到语音特征序列。将语音特征序列通过包括至少一层卷积神经网络和Transformer的共享网络进行特征提取，得到中间特征。

其中，基于该中间特征，通过步骤803～步骤804得到第一词图，通过步骤805～步骤808得到第二词图。

步骤803，基于注意力机制对中间特征中指示人声语音表达的通道进行特征加权，得到第一分支特征。

在本申请实施例中，可以基于注意力机制，通过E2E网络子模型对中间特征中指示人声语音表达的通道进行特征加权，得到第一分支特征。

通过注意力机制根据语音识别过程中关注的方向，对中间特征进行加权处理，得到第一分支特征。

步骤804，对第一分支特征进行解码，得到第一词图。

通过解码器对第一分支特征进行解码，解码器根据第一分支特征确定第一候选词汇，以及第一候选词汇在语音信息对应的各个时间节点中的得分，根据上述第一候选词汇以及第一候选词汇的得分生成第一词图，第一词图用于指示基于注意力机制预测得到的第一候选词汇组成的第一候选序列集。

步骤805，将中间特征输入至全连接层，得到待识别语音的音素的后验概率。

示意性的，该全连接层由带软最大化激活函数(softmax)组成。

步骤806，基于音素的后验概率和发音词典，确定目标词汇集。

示意性的，根据发音词典中记录的词汇与发音之间的映射关系，由待识别语音的音素的后验概率，确定语音内容中包括哪些第一候选词汇，由上述第一候选词汇组成目标词汇集。即获取发音词典，发音词典包括词汇与发音之间的映射关系；根据上述由全连接层确定的音素的后验概率，确定语音内容中各个时间点的音素；根据发音词典，确定各个时间点的音素所能够组成的目标词汇集。

步骤807，确定目标词汇集组成的至少一个第二候选序列的概率。

将上述目标词汇集输入至语言模型中，确定至少一个第二候选序列及至少一个第二候选序列对应的概率，示意性的，该语言模型可以是n-gram语言模型、基于前馈神经网络的模型、基于循环神经网络的模型等语言模型中的至少一种。语言模型可以计算由目标词汇集组成第二候选序列时，第二候选序列存在的可能性。

步骤808，基于至少一个第二候选序列的概率，生成第二词图。

根据第二候选序列存在的可能性，将目标词汇集中的第二候选词汇生成第二词图，第二词图用于指示基于发音情况得到的第二候选词汇组成的第二候选序列集。

步骤809，基于第一词图生成第一混淆网络。

从第一词图中选择一条权重最高的路径当作第一初始混淆网络，词图路径中的节点即为混淆网络中的节点，逐步将其他的边对齐添加到上述第一初始混淆网络中，同位置且同第一候选词汇的边合并为一条，并将权重进行累加，最终得到第一混淆网络。

步骤810，基于第二词图生成第二混淆网络。

从第二词图中选择一条权重最高的路径当作第二初始混淆网络，词图路径中的节点即为混淆网络中的节点，逐步将其他的边对齐添加到上述第二初始混淆网络中，同位置且同第二候选词汇的边合并为一条，并将权重进行累加，最终得到第二混淆网络。

步骤811，将第一混淆网络和第二混淆网络进行加权合并，得到目标混淆网络。

对第一词图上的每一条边乘以系数m，对第二词图上的每一条边乘以系数(1-m)。其中m的取值范围为[0，1]，若m大于0.5，则表示该语音识别模型的最终处理结果侧重E2E网络子模型的处理结果，若m小于0.5，则表示该语音识别模型的最终处理结果侧重声学处理子模型的处理结果，对两个乘以系数之后第一词图和第二词图进行合并。在一个示例中，将加权后的第二词图对应的混淆网络作为初始混淆网络，并以该初始混淆网络为起点，遍历加权后的第一词图上的每一条边往初始混淆网络上进行对齐添加，直到全部添加则完成合并，得到目标混淆网络。

步骤812，将目标混淆网络中第三候选词汇之间连接概率之和最高的候选序列，确定为识别结果。

按照从左向右的顺序，遍历目标混淆网络的每个节点，并将两个节点之间的候选词汇对得分最高的边互相拼接，形成一条路基，该路径即为目标混淆网络中得分最高的一条路径，而该路径所形成的候选序列，即为语音内容的识别结果。

在本申请实施例中，通过设置共享网络实现了对语音内容的识别，其吸收了Hybrid语音识别系统和E2E语音识别系统的优点。

其中，Hybrid语音识别(Hybrid Speech Recognition)：是指通过对语音特征、音素、词语、词串进行依次映射，将语音信息转化为文本信息的识别方式；Hybrid语音识别系统由声学模型(Acoustic Model，AM)、发音词典(Pronunciation Dictionary)、语言模型(Language Model，LM)等多个模型组成。如图9所示，Hybrid语音识别系统900包括声学模型901、发音词典902、语言模型903；服务器可以通过对待识别的语音信息进行特征提取，得到语音特征序列，将语音特征序列输入至Hybrid语音识别系统900，获得语音识别系统900输出的语音信息对应的文本信息。

其中，声学模型是指用于计算语音特征与音素之间的映射概率的模型，音素是根据语音的自然属性划分出来的最小语音单位；其中，语音的自然属性包括物理属性和生理属性；物理属性包括音高(声音的高低，它决定于发音体的振动频率的大小，与发音体的振动频率成正比)、音强(声音的强弱，它决定于发音体振幅的大小，与发音体的振幅成正比)、音长(声音的长短，它决定于发音体的振动时间的长短，与发音体的振动时间成正比)、音质(声音的个性或特色，也叫音色，它决定于发音体振动的形式)；生理属性即指示语音的生理发声位置以及发音动作。从物理属性来讲，音素是从音质角度划分出来的最小语音单位，而从生理属性来讲，音素是根据发音动作划分出来的最小语音单位，也就是说，一个发音动作构成一个音素，例如，“啊”对应的语音(ā)对应为具有一个音素，“爱”对应的语音“ài”对应为具有两个音素。发音词典包含上述语音识别系统所能处理的词汇集合及词汇集合中的词汇对应的发音，提供了声学模型建模单元与语言模型单元间之间的映射。语言模型是指用于计算词语到词串之间的映射概率的模型，即用于估计识别得到的词汇组合成目标文本时，该目标文本存在的可能性。

E2E语音识别：是指端到端语音识别，E2E语音识别系统中不再有独立的声学模型、发音词典、语言模型等模型，而是从输入端(语音特征序列)到输出端(词串序列)直接通过一个神经网络相连，由该神经网络来承担原先所有模型的语音识别系统；示意性的，该神经网络可以是基于多头注意力机制(Multi-Head Attention，MHA)构建的网络模型。如图10所示，E2E语音识别系统1000包括编码器(Encoder)1001、注意力机制(Attention)模型1002以及解码器(Decoder)1003；服务器可以通过对待识别的语音信息进行特征提取，得到语音特征序列；将语音特征序列输入至E2E语音识别系统1000，得到语音识别系统1000输出的语音信息对应的文本信息。

在一个示例中，通过同一台物理机器对实现本申请实施例提供的语音识别方法的系统(SNSC，Shared Network System Combination)、Hybrid语音识别系统、E2E语音识别系统进行测试，得到如表一中的测试结果，其中，字错率表示识别每100个字中错误的字数，实时率(Real Time Factor，RTF)是用于度量语音识别系统解码速度的值，当实时率等于或小于1时，则认为该处理是实时的。由表一中的结果可知，SNSC系统相比于Hybrid语音识别系统和E2E语音识别系统具有较低的字错率，且SNSC系统所测得的实时率小于Hybrid语音识别系统和E2E语音识别系统的实时率之和，达到了实时率小于1的服务部署要求，也即，本申请实施例中提供的语音识别方法，具有高效精准的性能，且低实时率满足服务部署的条件。

表一

请参考图11，其示出了本申请一个示例性实施例提供的语音识别模型的训练方法流程图，在本申请实施例中，对语音识别模型中各个功能子模型进行训练，得到用于对语音内容进行识别的语音识别模型，该方法包括如下步骤。

步骤1101，获取初始化网络参数。

该初始化网络参数是针对共享网络子模型和E2E网络子模型的初始化参数，示意性的，共享网络子模型和E2E网络子模型组成第一训练网络。共享网络子模型与E2E网络子模型能够组成一个E2E语音识别系统，其中，共享网络子模型实现为E2E语音识别系统中的编码器(encoder)，共享网络子模型由卷积神经网络和Transformer两个部分组成，而E2E网络子模型由Attention处理层和解码器(decoder)两个部分组成；初始化网络参数包括卷积神经网络、 Transformer、Attention处理层和解码器各自的初始参数。示意性的，该初始化网络参数由系统随机生成。

步骤1102，通过反向传播算法对初始化网络参数进行训练，得到共享网络参数和E2E网络参数。

示意性的，初始化网络参数的训练还可以通过梯度下降法或其他训练方法进行训练，在此仅以通过反向传播算法为例进行说明。反向传播算法(Backpropagation Algorithm，BP算法)是一种适合于多层神经元网络的学习算法，在一个示例中，用于训练初始化网络参数的训练数据可以是数据库中存储的语音信息-文本信息的样本数据，也可以是从网络中获取的语音信息-文本信息的样本数据。在训练过程中，将训练数据中的样本一个接一个递交给由共享网络子模型和E2E网络子模型组成的第一训练网络；第一训练网络对样本输入x计算输出y，然后通过损失函数得到样本中目标值与y之间的误差值，然后通过求取损失函数的梯度，并对第一训练网络的权值进行全体更新，对每一个提交给神经网络的样本用损失函数对应的更新函数对全体权值进行一次更新，直到所有样本对应的误差值都小于一个预设的阈值，即训练至收敛。在本申请实施例中，先通过交叉熵损失函数(Cross Entropy Loss，CE Loss)对第一训练网络进行训练，直至收敛，然后通过最小词错率损失函数进行训练，直至再次收敛，则训练结束，得到第一训练网络对应的参数。其中，第一训练网络对应的参数包括共享网络子模型对应的共享网络参数和E2E网络子模型对应的E2E网络参数。

步骤1103，基于共享网络参数，对声学处理子模型进行训练，得到声学处理参数。

共享网络子模型和声学处理子模型能够组成一个Hybrid语音识别系统，共享网络子模型以及声学处理子模型中的全连接层共同充当Hybrid语音识别系统中的声学模型部分。其中，共享网络子模型和声学处理子模型共同组成待训练的第二训练网络。将已经训练完成的共享网络子模型的共享网络参数作为第二训练网络的部分参数，参与至第二训练网络的训练过程中。第二训练网络的训练过程包括：在已确定共享网络参数的基础上，对全连接层完成随机初始化，然后通过在对齐好的语料上采用交叉熵损失函数将第二训练网络训练至收敛，再通过在准备好的词图上采用鉴别性训练直到再次收敛，即完成训练，得到声学处理子模型对应的声学处理参数。其中，上述过程中包含的训练数据(对齐的语料以及词图)，可以从数据库中读取得到。

也就是说，在语音识别模型在训练过程中，先对由共享网络子模型和E2E网络子模型组成的第一训练网络进行训练，然后再对由共享网络子模型和声学处理子模型组成的第二训练网络进行训练。

步骤1104，基于共享网络参数、E2E网络参数和声学处理参数构建语音识别模型。

由共享网络参数构建共享网络子模型，由E2E网络参数构建E2E网络子模型，由声学处理参数构建声学处理子模型，最后由共享网络子模型、E2E网络子模型、声学处理子模型和结果生成子模型共同组成语音识别模型。

综上所述，本申请实施例提供的语音识别模型的训练方法，首先从零起步以E2E语音识别系统的训练方式得到共享网络子模型和E2E网络子模型的网络参数，然后将共享网络子模型部分对应的共享网络参数用于对声学处理子模型的训练中，将共享网络子模型和声学处理子模型作为一个Hybrid语音识别系统进行训练，得到声学处理子模型的网络参数，然后由上述训练得到的参数共同构建语音识别模型，使得训练得到的语音识别模型在实现语音识别的过程中，既能保证语音识别的准确性，也能够节省整个语音识别模型占用的服务器资源。

需要说明的是，本申请所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号，均为经用户授权或者经过各方充分授权的，且相关数据的收集、使用和处理需要遵守国家和地区的相关法律法规和标准。例如，本申请中涉及到的语音内容，模型训练数据都是在充分授权的情况下获取的。

请参考图12，其示出了本申请一个示例性的实施例提供的语音识别装置结构框图，该装置包括如下模块：

获取模块1210，用于获取语音内容，所述语音内容为待识别的音频；

处理模块1220，用于对所述语音内容进行特征提取，得到中间特征，所述中间特征用于指示所述语音内容的音频表达特性；

第一生成模块1230，用于基于注意力机制对所述中间特征进行解码，得到第一词图，所述第一词图用于指示基于所述注意力机制预测得到的第一候选词汇组成的第一候选序列集；

第二生成模块1240，用于基于所述语音内容的发音情况对所述中间特征进行特征映射，得到第二词图，所述第二词图用于指示基于所述发音情况得到的第二候选词汇组成的第二候选序列集；

确定模块1250，用于根据所述第一词图和所述第二词图指示的候选词汇之间的连接关系，确定所述语音内容的识别结果。

在一个可选的实施例中，所述处理模块1220，还用于对所述语音内容通过至少一层卷积网络进行特征抽取，得到中间子特征；

所述处理模块1220，还用于对所述中间子特征进行特征加权，得到所述中间特征。

在一个可选的实施例中，请参考图13，所述第一生成模块1230，还包括：

第一处理单元1231，用于基于所述注意力机制对所述中间特征中指示人声语音表达的通道进行特征加权，得到第一分支特征；

第一解码单元1232，用于对所述第一分支特征进行解码，得到所述第一词图。

在一个可选的实施例中，所述第一解码单元1232，还用于通过解码器对所述第一分支特征进行解码，得到所述第一候选序列集；

所述第一生成模块1230，还包括：

第一生成单元1233，用于将所述第一候选序列集中对应的第一候选词汇作为路径，生成所述第一词图。

在一个可选的实施例中，所述第二生成模块1240，还包括：

第二确定单元1241，用于基于所述中间特征确定所述待识别语音的目标词汇集；

第二生成单元1242，用于基于所述目标词汇集生成所述第二词图。

在一个可选的实施例中，所述第二确定单元1241，还用于将所述中间特征输入至全连接层，得到所述待识别语音的音素的后验概率，所述音素用于指示根据语音的自然属性划分的最小语音单位；

所述第二确定单元1241，还用于基于所述音素的后验概率，确定所述目标词汇集。

在一个可选的实施例中，所述第二生成模块1240，还包括：

第二获取单元1243，用于获取发音词典，所述发音词典包括词汇与发音之间的映射关系；

所述第二确定单元1241，还用于根据所述音素的后验概率，确定所述语音内容中各个时间点的音素；

所述第二确定单元1241，还用于根据所述发音词典，确定所述各个时间点的音素所能够组成的目标词汇集。

在一个可选的实施例中，所述第二确定单元1241，还用于确定所述目标词汇集组成的至少一个第二候选序列的概率；

所述第二生成单元1242，还用于基于所述至少一个第二候选序列的概率，生成所述第二词图。

在一个可选的实施例中，所述确定模块1250，还包括：

生成单元1251，用于基于所述第一词图和所述第二词图生成目标混淆网络，所述目标混淆网络中包括组成候选序列的第三候选词汇之间的连接概率，所述第三候选词汇是从所述第一候选词汇和所述第二候选词汇中确定的，所述第三候选词汇之间的连接概率通过对所述第一候选词汇之间的第一连接关系和所述第二候选词汇之间的第二连接关系进行加权合并得到；

确定单元1252，用于将所述目标混淆网络中第三候选词汇之间连接概率之和最高的候选序列，确定为所述识别结果。

在一个可选的实施例中，所述生成单元1251，还用于基于所述第一词图生成第一混淆网络，所述第一混淆网络中包括所述第一候选序列集中的所述第一候选词汇之间的连接概率；

所述生成单元1251，还用于基于所述第二词图生成第二混淆网络，所述第二混淆网络中包括所述第二候选序列集中的所述第二候选词汇之间的连接概率；

所述确定单元1252，还用于将所述第一混淆网络和所述第二混淆网络进行加权合并，得到所述目标混淆网络。

综上所述，本申请实施例提供的语音识别装置，针对待识别的语音内容，对语音内容进行特征提取，得到能够指示语音内容的音频表达特性的中间特征，然后通过两种不同的处理方式对该中间特征进行处理，得到两个词图，其中两种不同的处理方式包括基于注意力机制对中间特征进行解码，得到第一词图，以及基于语音内容的发音情况进行特征映射，得到第二词图，第一词图和第二词图分别用于指示通过上述两种处理方式得到的候选词汇组成的候选序列集，最后根据第一词图和第二词图指示的候选词汇之间的连接关系确定出识别结果，以实现将语音内容转换为文本内容的功能。由于第一词图和第二词图均为通过同一中间特征得到，因此能够节省服务器资源，同时，对中间特征执行不同的处理方式，再根据两种处理方式获得的词图共同确定处理结果，提高了语音识别的准确度。

需要说明的是：上述实施例提供的语音识别装置，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的语音识别装置与语音识别方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图14示出了本申请一个示例性实施例提供的服务器的结构示意图。该服务器可以包括如下结构。

服务器1400包括中央处理单元(Central Processing Unit，CPU)1401、包括随机存取存储器(Random Access Memory，RAM)1402和只读存储器(Read Only Memory，ROM)1403的系统存储器1404，以及连接系统存储器1404和中央处理单元1401的系统总线1405。服务器1400还包括用于存储操作系统1413、应用程序1414和其他程序模块1415的大容量存储设备1406。

不失一般性，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、带电可擦可编程只读存储器(Electrically Erasable Programmable Read Only Memory，EEPROM)、闪存或其他固态存储其技术，CD-ROM、数字通用光盘(Digital Versatile Disc，DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器1404和大容量存储设备1406可以统称为存储器。

根据本申请的各种实施例，服务器1400还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器1400可以通过连接在系统总线1405上的网络接口单元1411连接到网络1412，或者说，也可以使用网络接口单元1411来连接到其他类型的网络或远程计算机系统(未示出)。

上述存储器还包括一个或者一个以上的程序，一个或者一个以上程序存储于存储器中，被配置由CPU执行。

本申请的实施例还提供了一种计算机设备，该计算机设备包括处理器和存储器，该存储器中存储有至少一条计算机程序，至少一条计算机程序由处理器加载并执行以实现上述各方法实施例提供的语音识别方法。可选地，该计算机设备可以是终端，也可以是服务器。

本申请的实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有至少一条程序代码，程序代码由处理器加载并执行以实现上述各方法实施例提供的语音识别方法。

本申请的实施例还提供了一种计算机程序产品，该计算机程序产品包括至少一条计算机程序。计算机设备的处理器从计算机程序产品读取该计算机程序，处理器执行该计算机程序，以实现上述实施例中任一所述的语音识别方法。

可选地，该计算机可读存储介质可以包括：只读存储器、随机存取记忆体、固态硬盘(SSD，Solid State Drives)或光盘等。其中，随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM，Resistance Random Access Memory)和动态随机存取存储器(DRAM，Dynamic Random Access Memory)。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

Claims

一种语音识别方法，所述方法由计算机设备执行，所述方法包括：

获取语音内容，所述语音内容为待识别的音频；

对所述语音内容进行特征提取，得到中间特征，所述中间特征用于指示所述语音内容的音频表达特性；

基于注意力机制对所述中间特征进行解码，得到第一词图，所述第一词图用于指示基于所述注意力机制预测得到的第一候选词汇组成的第一候选序列集；

基于所述语音内容的发音情况对所述中间特征进行特征映射，得到第二词图，所述第二词图用于指示基于所述发音情况得到的第二候选词汇组成的第二候选序列集；

根据所述第一词图和所述第二词图指示的候选词汇之间的连接关系，确定所述语音内容的识别结果。
根据权利要求1所述的方法，所述对所述语音内容进行特征提取，得到中间特征，包括：

通过至少一层卷积网络对所述语音内容进行特征抽取，得到中间子特征；

对所述中间子特征进行特征加权，得到所述中间特征。
根据权利要求1所述的方法，所述基于注意力机制对所述中间特征进行解码，得到第一词图，包括：

基于所述注意力机制对所述中间特征中指示人声语音表达的通道进行特征加权，得到第一分支特征；

对所述第一分支特征进行解码，得到所述第一词图。
根据权利要求3所述的方法，所述对所述第一分支特征进行解码，得到所述第一词图，包括：

通过解码器对所述第一分支特征进行解码，得到所述第一候选序列集；

将所述第一候选序列集中对应的第一候选词汇作为路径，生成所述第一词图。
根据权利要求1所述的方法，所述基于所述语音内容的发音情况对所述中间特征进行特征映射，得到第二词图，包括：

基于所述中间特征确定待识别语音的目标词汇集；

基于所述目标词汇集生成所述第二词图。
根据权利要求5所述的方法，所述基于所述中间特征确定待识别语音的目标词汇集，包括：

将所述中间特征输入至全连接层，得到所述待识别语音的音素的后验概率，所述音素用于指示根据语音的自然属性划分的最小语音单位；

基于所述音素的后验概率，确定所述目标词汇集。
根据权利要求6所述的方法，所述基于所述音素的后验概率，确定所述目标词汇集，包括：

获取发音词典，所述发音词典包括词汇与发音之间的映射关系；

根据所述音素的后验概率，确定所述语音内容中各个时间点的音素；

根据所述发音词典，确定所述各个时间点的音素组成的目标词汇集。
根据权利要求6所述的方法，所述基于所述目标词汇集生成所述第二词图，包括：

确定所述目标词汇集组成的至少一个第二候选序列的概率；

基于所述至少一个第二候选序列的概率，生成所述第二词图。
根据权利要求1至8任一所述的方法，所述根据所述第一词图和所述第二词图指示的候选词汇之间的连接关系，确定所述语音内容的识别结果，包括：

基于所述第一词图和所述第二词图生成目标混淆网络，所述目标混淆网络中包括组成候选序列的第三候选词汇之间的连接概率，所述第三候选词汇是从所述第一候选词汇和所述第二候选词汇中确定的，所述第三候选词汇之间的连接概率通过对所述第一候选词汇之间的第一连接关系和所述第二候选词汇之间的第二连接关系进行加权合并得到；

将所述目标混淆网络中所述第三候选词汇之间连接概率之和最高的候选序列，确定为所述识别结果。
根据权利要求9所述的方法，所述基于所述第一词图和所述第二词图生成目标混淆网络，包括：

基于所述第一词图生成第一混淆网络，所述第一混淆网络中包括所述第一候选序列集中的所述第一候选词汇之间的连接概率；

基于所述第二词图生成第二混淆网络，所述第二混淆网络中包括所述第二候选序列集中的所述第二候选词汇之间的连接概率；

将所述第一混淆网络和所述第二混淆网络进行加权合并，得到所述目标混淆网络。
一种语音识别装置，所述装置包括：

获取模块，用于获取语音内容，所述语音内容为待识别的音频；

处理模块，用于对所述语音内容进行特征提取，得到中间特征，所述中间特征用于指示所述语音内容的音频表达特性；

第一生成模块，用于基于注意力机制对所述中间特征进行解码，得到第一词图，所述第一词图用于指示基于所述注意力机制预测得到的第一候选词汇组成的第一候选序列集；

第二生成模块，用于基于所述语音内容的发音情况对所述中间特征进行特征映射，得到第二词图，所述第二词图用于指示基于所述发音情况得到的第二候选词汇组成的第二候选序列集；

确定模块，用于根据所述第一词图和所述第二词图指示的候选词汇之间的连接关系，确定所述语音内容的识别结果。
根据权利要求11所述的装置，所述处理模块，还用于对所述语音内容通过至少一层卷积网络进行特征抽取，得到中间子特征；

所述处理模块，还用于对所述中间子特征进行特征加权，得到所述中间特征。
根据权利要求11所述的装置，所述第一生成模块，还包括：

第一处理单元，用于基于所述注意力机制对所述中间特征中指示人声语音表达的通道进行特征加权，得到第一分支特征；

第一解码单元，用于对所述第一分支特征进行解码，得到所述第一词图。
根据权利要求13所述的装置，所述第一解码单元，还用于通过解码器对所述第一分支特征进行解码，得到所述第一候选序列集；

所述第一生成模块，还包括：

第一生成单元，用于将所述第一候选序列集中对应的第一候选词汇作为路径，生成所述第一词图。
根据权利要求11所述的装置，所述第二生成模块，还包括：

第二确定单元，用于基于所述中间特征确定所述待识别语音的目标词汇集；

第二生成单元，用于基于所述目标词汇集生成所述第二词图。
根据权利要求15所述的装置，所述第二确定单元，还用于将所述中间特征输入至全连接层，得到所述待识别语音的音素的后验概率，所述音素用于指示根据语音的自然属性划分的最小语音单位；

所述第二确定单元，还用于基于所述音素的后验概率，确定所述目标词汇集。
根据权利要求16所述的装置，所述第二生成模块，还包括：

第二获取单元，用于获取发音词典，所述发音词典包括词汇与发音之间的映射关系；

所述第二确定单元，还用于根据所述音素的后验概率，确定所述语音内容中各个时间点的音素；

所述第二确定单元，还用于根据所述发音词典，确定所述各个时间点的音素所能够组成的目标词汇集。
一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条计算机程序，所述至少一条计算机程序由所述处理器加载并执行以实现如权利要求1至10任一所述的语音识别方法。
一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条程序代码，所述程序代码由处理器加载并执行以实现如权利要求1至10任一所述的语音识别方法。
一种计算机程序产品，所述计算机程序产品包括至少一条计算机程序，所述计算机程序由处理器加载并执行以实现如权利要求1至10任一所述的语音识别方法。