WO2022143768A1

WO2022143768A1 - 语音识别方法及装置

Info

Publication number: WO2022143768A1
Application number: PCT/CN2021/142470
Authority: WO
Inventors: 尹旭贤
Original assignee: 华为技术有限公司
Priority date: 2020-12-31
Filing date: 2021-12-29
Publication date: 2022-07-07
Also published as: CN114694636A; EP4250285A4; EP4250285A1; US20240038223A1

Abstract

本申请涉及语音识别方法及装置。语音识别方法包括：终端设备将待识别的音素输入到第一多任务神经网络模型中；第一多任务神经网络模型输出第一预测结果，第一预测结果包括待识别的音素对应的字符预测结果和标点预测结果；终端设备将第一预测结果的至少一部分显示在终端设备的显示屏上。通过构建一个用于同时预测音素对应的字符和标点的神经网络模型，可以同时输出音素对应的字符和标点，并且神经网络模型尺寸小，可以在端侧部署。

Description

语音识别方法及装置

技术领域

本申请涉及人工智能技术领域，尤其涉及一种语音识别方法及装置。

背景技术

语音识别，也称为自动语音识别(英文全称：Automatic Speech Recognition，简称：ASR)，是一种通过计算机将语音转换为相应文字的技术。随着终端设备技术的发展，语音识别技术作为人机交互的重要方式，被应用在多个不同的领域。在电子设备应用的很多场景中，需要使用语音识别技术，例如，不同语言的语音之间的翻译、智能电子设备与用户的语音交互、即时通信软件中即时语音信号到文本信息的转换，等等。

发明内容

本申请的实施例提出了一种语音识别方法及装置。

第一方面，本申请的实施例提供了一种语音识别方法，所述方法包括：

终端设备将待识别的音素输入到第一多任务神经网络模型中，终端设备采用第一多任务神经网络模型输出第一预测结果，所述第一预测结果包括所述待识别的音素对应的字符预测结果和标点预测结果，终端设备根据所述第一预测结果将所述第一预测结果的至少一部分显示在所述终端设备的显示屏上。

所述第一多任务神经网络模型可以部署在端侧(如终端设备上)或云侧。

本申请的实施方式的语音识别方法，通过构建一个用于同时预测音素对应的字符和标点的神经网络模型(即第一多任务神经网络模型，所述多任务是指该神经网络模型需执行对音素对应的字符进行预测的任务，和执行对音素对应的标点进行预测的任务)，所述神经网络模型能够同时预测音素对应的字符和标点。将待识别的语音转换后的音素(向量)作为神经网络模型的输入，进行正向推理，可以同时输出音素对应的字符和标点，并且神经网络模型尺寸小，可以在端侧部署。本文中所表述的“同时”、“同时输出”等，可以理解为是能够从神经网络模型的输出中获得两种信息(如音素对应的字符信息和音素对应的标点信息)，而不仅仅是获得一种信息，并不限制两种信息被获得的时间先后关系，换句话说，本文中所述的“同时”并不限定时间上一定要是相同时刻。

根据第一方面的第一种可能的实现方式中，所述第一多任务神经网络模型为采用训练样本对第二多任务神经网络模型进行训练得到的，所述训练样本包括：样本语句，所述样本语句中包括字符，所述训练样本还包括：样本语句中的字符对应的音素、标点。

所述第二多任务神经网络模型可以部署在端侧(如终端设备上)或云侧。

通过构建一个用于同时预测音素对应的字符和标点的神经网络模型(即第二多任务神经网络模型)，并构建训练样本集对神经网络模型进行训练，得到训练后的神经网络模型(即第一多任务神经网络模型)，训练过程中可以不需要进行分词处理，将待识别的语音转换后的音素(向量)作为训练后的神经网络模型的输入，进行正向推理，可以同时输出音素对应的字符和标点。

根据第一方面的第一种可能的实现方式，在第二种可能的实现方式中，所述样本语句中字符的长度与音素的长度和标点的长度相同。通过构建训练样本集的过程中，将样本语句中字符的长度和注音后的音素的长度、标点的长度进行对齐，采用本申请的实施方式构建的训练样本集对神经网络模型进行训练后，神经网络模型可以同时进行音素到字符的转换、以及标点预测，从而可以同时输出预测的字符和标点结果。

根据第一方面的第三种可能的实现方式中，终端设备将待识别的音素输入到第一多任务神经网络模型中，采用所述第一多任务神经网络模型输出第一预测结果，包括：所述终端设备将待识别的音素循环送入第一多任务神经网络模型中，采用所述第一多任务神经网络模型基于当前输入的待识别的音素的长度输出所述第一预测结果。使得待识别的音素的预测结果既参考了之前的音素、又参考了之后的音素，提高了预测的准确率。

根据第一方面的第三种可能的实现方式，在第四种可能的实现方式中，所述终端设备将待识别的音素循环送入第一多任务神经网络模型中，采用所述第一多任务神经网络模型基于当前输入的待识别的音素的长度输出所述第一预测结果，包括：

在完成将全部待识别的音素输入第一多任务神经网络模型之前，如果当前输入的音素的长度小于感受野，则终端设备继续输入下一个音素；

在完成将全部待识别的音素输入第一多任务神经网络模型之前，如果当前输入的音素的长度不小于感受野，则终端设备根据当前输入的音素的字符和标点，得到当前输入的音素的第一个音素的第二预测结果，并存储第二预测结果；终端设备将所述第一个音素的特征向量、当前输入的音素中除了第一个音素以外的音素和待识别的音素中的下一个音素继续输入第一多任务神经网络模型；

在完成将全部待识别的音素输入第一多任务神经网络模型时，终端设备根据当前输入的音素的字符和标点，得到当前输入的音素的第二预测结果；

若不存在已存储的第二预测结果，则将当前输入的音素的第二预测结果作为待识别的音素的第一预测结果；

若存在已存储的第二预测结果，则根据当前输入的音素的第二预测结果和已存储的第二预测结果，得到待识别的音素的第一预测结果。

根据本申请上述实施方式的语音识别方法，将声学模型输出的待识别的音素循环送入流式网络结构的第一多任务神经网络模型，使得待识别的音素的预测结果既参考了之前的音素、又参考了之后的音素，提高了预测的准确率。

根据第一方面的第五种可能的实现方式中，所述第一多任务神经网络模型为非流式网络结构，

采用所述第一多任务神经网络模型输出第一预测结果，包括：

采用所述第一多任务神经网络模型基于待识别的音素的总长度和音素长度阈值的关系，输出所述第一预测结果。

根据第一方面的第五种可能的实现方式，在第六种可能的实现方式中，采用所述第一多任务神经网络模型基于待识别的音素的总长度和音素长度阈值的关系，输出所述第一预测结果，包括：

若待识别的音素的总长度小于音素长度阈值，采用所述第一多任务神经网络模型根据全部的待识别的音素，输出所述第一预测结果；

若待识别的音素的总长度不小于音素长度阈值，在完成将全部待识别的音素输入第一多任务神经网络模型之前：如果当前输入的音素的长度小于音素长度阈值，则终端设备继续输入下一个音素；如果当前输入的音素的长度不小于音素长度阈值，则终端设备根据当前输入的音素的字符和标点，得到当前输入的音素的第一个音素的第二预测结果并存储第二预测结果，终端设备将当前输入的音素中除了第一个音素以外的音素和待识别的音素中的下一个音素继续输入第一多任务神经网络模型；

若待识别的音素的总长度不小于音素长度阈值，在完成将全部待识别的音素输入第一多任务神经网络模型时，根据当前输入的音素的字符和标点，得到当前输入的音素的第二预测结果；

根据本申请上述实施方式的语音识别方法，采用非流式网络结构，无需将已经预测了结果的音素重新输入网络模型中，相比于流式网络结构，非流式网络结构不需要缓存已经预测的历史结果，减少占用内存空间，可以进一步减小神经网络模型的尺寸，易于在端侧进行部署。并且，由于计算过程中，不需要对历史结果和当前输入的音素进行拼接、切分等操作，能够加快推理速度，在长语音识别中，实现实时输出的效果显著。

第二方面，本申请的实施例提供了一种神经网络模型训练方法，所述方法包括：

构建训练样本，所述训练样本包括：样本语句，所述样本语句中包括字符，所述训练样本还包括：样本语句中的字符对应的音素、标点；

采用所述训练样本对第二多任务神经网络模型进行训练得到第一多任务神经网络模型；其中，第二多任务神经网络模型和第一多任务神经网络模型都能够输出第一预测结果、显示所述第一预测结果的至少一部分，所述第一预测结果包括字符预测结果和标点预测结果。

本申请的实施方式的神经网络训练方法，通过构建一个用于同时预测音素对应的字符和标点的神经网络模型，并构建训练样本集对神经网络模型进行训练，得到训练后的神经网络模型，训练过程中可以不需要进行分词处理，将待识别的语音转换后的音素(向量)作为训练后的神经网络模型的输入，进行正向推理，可以同时输出音素对应的字符和标点，并且神经网络模型尺寸小，可以在端侧部署。

根据第二方面的第一种可能的实现方式中，构建训练样本，可以包括：

根据注音词典对样本语句中的字符进行注音得到字符对应的音素、并对字符对应的音素与字符和标点进行对齐处理，所述样本语句中字符的长度与音素的长度和标点的长度相同。

根据第二方面的第一种可能的实现方式，在第二种可能的实现方式中，对字符对应的音素与字符和标点进行对齐处理，包括：

对于中文中的多音字，从多音字对应的多个音素中任选一个音素作为多音字对应的音素；也就是说，对齐后的中文中的多音字对应的音素为，多音字对应的多个音素中的任意一个；

对于英文字符，在字符中添加对齐字符与字符对应的音素的长度对齐；对齐后的英文字符中包括对齐字符，对齐后的英文字符的长度和英文字符对应的音素的长度相同；若字符之后没有标点，则设置字符对应的标点为blank，使得标点的长度与字符的长度对齐；对于对齐之前没有标点的字符，对齐后的标点为blank。

通过构建训练样本集的过程中，将样本语句中字符的长度和注音后的音素的长度、标点的长度进行对齐，采用本申请的实施方式构建的训练样本集对神经网络模型进行训练后，神经网络模型可以同时进行音素到字符的转换、以及标点预测，从而可以同时输出预测的字符和标点结果。

根据第二方面的第三种可能的实现方式中，采用所述训练样本对第二多任务神经网络模型进行训练得到第一多任务神经网络模型，包括：

将训练样本输入第二多任务神经网络模型，确定所述训练样本对应的字符概率矩阵和标点概率矩阵；

根据字符概率矩阵和标点概率矩阵，分别计算字符交叉熵损失和标点交叉熵损失；

根据字符交叉熵损失、字符交叉熵损失对应的第一权值和标点交叉熵损失、标点交叉熵损失对应的第二权值，计算加权交叉熵损失；

根据所述加权交叉熵损失调整第二多任务神经网络模型的参数，得到训练后的第一多任务神经网络模型。

本申请的多任务神经网络模型的训练方法，可以实现同时对字符预测和标点预测的任务进行训练。另外，由于构建的训练样本集中包括多种语言，因此，本申请的多任务神经网络模型的训练方法还可以实现对多种语言识别(预测)的任务进行训练。根据本申请的实施方式的多任务神经网络模型的训练方法进行训练得到的多任务神经网络模型，可以同时进行多种语言和标点的预测，并且多任务神经网络模型相比于传统的声学模型尺寸小，可以在端侧部署。

第三方面，本申请的实施例提供了一种语音识别装置，所述装置包括：

输入模块，用于将待识别的音素输入到第一多任务神经网络模型中；

推理模块，用于采用所述第一多任务神经网络模型输出第一预测结果，所述第一预测结果包括所述待识别的音素对应的字符预测结果和标点预测结果；

显示模块，用于根据所述第一预测结果将所述第一预测结果的至少一部分显示在所述终端设备的显示屏上。

本申请的实施方式的语音识别装置，通过构建一个用于同时预测音素对应的字符和标点的神经网络模型，将待识别的语音转换后的音素(向量)作为神经网络模型的输入，进行正向推理，可以同时输出音素对应的字符和标点，并且神经网络模型尺寸小，可以在端侧部署。

根据第三方面的第一种可能的实现方式中，所述第一多任务神经网络模型为采用训练样本对第二多任务神经网络模型进行训练得到的，所述训练样本包括：样本语句，所述样本语句中包括字符，所述训练样本还包括：样本语句中的字符对应的音素、标点。

根据第三方面的第一种可能的实现方式，在第二种可能的实现方式中，所述样本语句中字符的长度与音素的长度和标点的长度相同。

根据第三方面的第三种可能的实现方式中，所述第一多任务神经网络模型为流式网络结构，所述输入模块，包括：第一输入单元，用于将待识别的音素循环送入第一多任务神经网络模型中；所述推理模块，包括：第一推理单元，用于采用所述第一多任务神经网络模型基于当前输入的待识别的音素的长度输出所述第一预测结果。使得待识别的音素的预测结果既参考了之前的音素、又参考了之后的音素，提高了预测的准确率。

根据第三方面的第三种可能的实现方式，在第四种可能的实现方式中，所述第一输入单元还用于：在完成将全部待识别的音素输入第一多任务神经网络模型之前，如果当前输入的音素的长度小于感受野，则终端设备继续输入下一个音素；在完成将全部待识别的音素输入第一多任务神经网络模型之前，如果当前输入的音素的长度不小于感受野，则第一推理单元用于根据当前输入的音素的字符和标点，得到当前输入的音素的第一个音素的第二预测结果，并存储第二预测结果；第一输入单元还用于将所述第一个音素的特征向量、当前输入的音素中除了第一个音素以外的音素和待识别的音素中的下一个音素继续输入第一多任务神经网络模型。述第一推理单元还用于：在完成将全部待识别的音素输入第一多任务神经网络模型时，根据当前输入的音素的字符和标点，得到当前输入的音素的第二预测结果；若不存在已存储的第二预测结果，则将当前输入的音素的第二预测结果作为待识别的音素的第以预测结果；若存在已存储的第二预测结果，则根据当前输入的音素的第二预测结果和已存储的第二预测结果，得到待识别的音素的第二预测结果。

根据本申请上述实施方式的语音识别装置，将声学模型输出的待识别的音素循环送入流式网络结构的第一多任务神经网络模型，使得待识别的音素的预测结果既参考了之前的音素、又参考了之后的音素，提高了预测的准确率。

根据第三方面的第五种可能的实现方式中，所述第一多任务神经网络模型为非流式网络结构，所述推理模块，包括：第二推理单元，用于采用所述第一多任务神经网络模型基于待识别的音素的总长度和音素长度阈值的关系，输出所述第一预测结果。

根据第三方面的第五种可能的实现方式，在第六种可能的实现方式中，所述第二推理单元还用于：若待识别的音素的总长度小于音素长度阈值，采用所述第一多任务神经网络模型根据根据全部的待识别的音素，输出所述第一预测结果；

若待识别的音素的总长度不小于音素长度阈值，在完成将全部待识别的音素输入第一多任务神经网络模型之前：如果当前输入的音素的长度小于音素长度阈值，则继续输入下一个音素；如果当前输入的音素的长度不小于音素长度阈值，则根据当前输入的音素的字符和标点，得到当前输入的音素的第一个音素的第二预测结果并存储第二预测结果，将当前输入的音素中除了第一个音素以外的音素和待识别的音素中的下一个音素继续输入第一多任务神经网络模型；

根据本申请上述实施方式的语音识别装置，采用非流式网络结构，无需将已经预测了结果的音素重新输入网络模型中，相比于流式网络结构，非流式网络结构不需要缓存已经预测的历史结果，减少占用内存空间，可以进一步减小神经网络模型的尺寸，易于在端侧进行部署。并且，由于计算过程中，不需要对历史结果和当前输入的音素进行拼接、切分等操作，能够加快推理速度，在长语音识别中，实现实时输出的效果显著。

第四方面，本申请的实施例提供了一种神经网络模型训练装置，所述装置包括：

构建模块，用于构建训练样本，所述训练样本包括：样本语句，所述样本语句中包括字符，所述训练样本还包括：样本语句中的字符对应的音素、标点；

训练模块，用于采用所述训练样本对第二多任务神经网络模型进行训练得到第一多任务神经网络模型；其中，第二多任务神经网络模型和第一多任务神经网络模型都能够输出第一预测结果、显示所述第一预测结果的至少一部分，所述第一预测结果包括字符预测结果和标点预测结果。

本申请的实施方式的神经网络训练装置，通过构建一个用于同时预测音素对应的字符和标点的神经网络模型，并构建训练样本集对神经网络模型进行训练，得到训练后的神经网络模型，训练过程中可以不需要进行分词处理，将待识别的语音转换后的音素(向量)作为训练后的神经网络模型的输入，进行正向推理，可以同时输出音素对应的字符和标点，并且神经网络模型尺寸小，可以在端侧部署。

根据第四方面的第一种可能的实现方式中，所述构建模块，包括：

对齐单元，用于根据注音词典对样本语句中的字符进行注音得到字符对应的音素、并对字符对应的音素与字符和标点进行对齐处理，所述样本语句中字符的长度与音素的长度和标点的长度相同。根据第四方面的第一种可能的实现方式，在第二种可能的实现方式中，所述对齐单元还用于：

对于中文中的多音字，从多音字对应的多个音素中任选一个音素作为多音字对应的音素；对齐后的中文中的多音字对应的音素为，多音字对应的多个音素中的任意一个；

对于英文字符，在字符中添加对齐字符与字符对应的音素的长度对齐；对齐后的英文字符中包括对齐字符，对齐后的英文字符的长度和英文字符对应的音素的长度相同；

若字符之后没有标点，则设置字符对应的标点为blank，使得标点的长度与字符的长度对齐；对于对齐之前没有标点的字符，对齐后的标点为blank。

根据第四方面的第三种可能的实现方式中，所述训练模块，包括：

确定单元，用于将训练样本输入第二多任务神经网络模型，确定所述训练样本对应的字符概率矩阵和标点概率矩阵；

第一计算单元，用于根据字符概率矩阵和标点概率矩阵，分别计算字符交叉熵损失和标点交叉熵损失；

第二计算单元，用于根据字符交叉熵损失、字符交叉熵损失对应的第一权值和标点交叉熵损失、标点交叉熵损失对应的第二权值，计算加权交叉熵损失；

调整单元，用于根据所述加权交叉熵损失调整第二多任务神经网络模型的参数，得到训练后的第一多任务神经网络模型。

本申请的多任务神经网络模型的训练装置，可以实现同时对字符预测和标点预测的任务进行训练。另外，由于构建的训练样本集中包括多种语言，因此，本申请的多任务神经网络模型的训练方法还可以实现对多种语言识别(预测)的任务进行训练。根据本申请的实施方式的多任务神经网络模型的训练装置进行训练得到的多任务神经网络模型，可以同时进行多种语言和标点的预测，并且多任务神经网络模型相比于传统的声学模型尺寸小，可以在端侧部署。

第五方面，本申请的实施例提供了一种语音识别装置，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令时实现第一方面或者第一方面的多种可能的实现方式中的一种或几种的语音识别方法。

第六方面，本申请的实施例提供了一种神经网络模型训练装置，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令时实现第二方面或者第二方面的多种可能的实现方式中的一种或几种的神经网络模型训练方法。

第七方面，本申请的实施例提供了一种非易失性计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现第一方面或者第一方面的多种可能的实现方式中的一种或几种的语音识别方法，或者，实现第二方面或者第二方面的多种可能的实现方式中的一种或几种的神经网络模型训练方法。

本申请的这些和其他方面在以下(多个)实施例的描述中会更加简明易懂。

附图说明

包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本申请的示例性实施例、特征和方面，并且用于解释本申请的原理。

图1示出根据本申请一实施方式的语音识别方法的应用场景。

图2为本申请实施例提供的语音识别模型训练装置的组成结构示意图。

图3示出的是与本申请实施例提供的手机的部分结构的框图。

图4是本申请实施例的手机100的软件结构示意图。

图5a示出根据本申请一实施方式的神经网络模型的框图。

图5b示出示出根据本申请一示例的编码器-解码器模型的示意图。

图5c示出示出根据本申请一示例的编码器模型的示意图。

图6示出根据本申请一实施方式的构建训练样本集的过程的示意图。

图7示出根据本申请一实施例的构建训练样本集的过程的示例。

图8示出根据本申请一实施方式的多任务神经网络模型训练方法的流程图。

图9a示出根据本申请一实施方式的终端设备侧进行语音识别的应用场景的示意图。

图9b示出根据本申请一示例的现有技术进行语音识别的过程的示意图。

图10示出根据本申请一实施方式的语音识别方法的流程图。

图11示出根据本申请一实施方式的语音识别方法的流程图。

图12示出根据本申请一实施方式的语音识别方法的流程图。

图13示出根据本申请一实施方式的语音识别方法的流程图。

图14示出根据本申请一实施例的语音识别装置的框图。

图15示出根据本申请一实施例的神经网络模型训练装置的框图。

具体实施方式

以下将参考附图详细说明本申请的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

另外，为了更好的说明本申请，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本申请同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本申请的主旨。

传统语音识别通过基于统计的N-Gram语言模型实现音素转字符(中文指的是拼音转汉字)，该方法需要的模型较大，一般为GB级别，无法在端侧部署。

传统的标点预测在语音识别结束之后进行，特别是在长语音识别中，无法在输出转换后的字符的同时输出标点。相关技术中，将标点符号作为词的一部分构造训练文本和词典文件，对语言模型进行训练，达到输出文本的同时输出标点符号的效果。但声学模型采用三元文法模型，在训练过程中需要对句子进行分词处理，声学模型采用高斯混合模型和隐马尔科夫模型对音素进行对齐处理，等等，处理过程比较复杂，导致声学模型同样存在模型较大，无法在端侧部署；并且由于是采用声学模型进行标点预测，无法根据上下文进行调整，预测准确性不高。

因此，相关的语音识别技术中存在模型无法在端侧部署、采用声学模型预测标点的预测准确性不高的技术问题。

为了解决上述技术问题，本申请提出了一种语音识别方法。图1示出根据本申请一实施方式的语音识别方法的应用场景。如图1所示，终端设备(包括终端设备10-1和终端设备10-2)上设置有语音识别软件的客户端，用户通过所设置的语音识别软件客户端可以输入相应的待语音识别语句，聊天客户端也可以接收相应的语音识别结果，并将所接收的语音识别结果向用户进行展示，或者执行与语音指令相匹配的任务。终端设备通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合，可以使用有线或者无线链路实现数据传输，图1中采用无线链路传输数据的方式仅仅是本申请的一个示例，不以任何方式限制本申请。

作为一个示例，服务器200用于布设语音识别模型并对所述语音识别模型进行训练，并将经过训练的语音识别模型部署在相应的终端设备中，并通过终端设备利用所部署的语音识别模型对媒资类使用环境中的语音信息进行处理。其中，语音识别模型可以是本申请实施例提供的第二多任务神经网络模型或者第一多任务神经网络模型，在服务器200上部署的训练之前的语音识别模型可以为第二多任务神经网络模型，进行训练后并部署在终端设备中的语音识别模型可以为第一多任务神经网络模型。第二多任务神经网络模型和第一多任务神经网络模型都融入了可以同时对字符和标点进行准确预测的多个任务，模型尺寸小，可以部署在端侧。

当然在通过语音识别模型对语音信息进行处理以生成相应的语音识别结果之前，还需要对语音识别模型进行训练，具体包括：构建训练样本，所述训练样本包括：样本语句，所述样本语句中包括字符，所述训练样本还包括：样本语句中的字符对应的音素、标点；采用所述训练样本对第二多任务神经网络模型进行训练得到第一多任务神经网络模型。

其中，本申请实施例所提供的语音识别方法是基于人工智能实现的，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

在本申请实施例中，主要涉及的人工智能软件技术包括上述语音处理技术和机器学习等方向。例如，可以涉及语音技术(Speech Technology)中的语音识别技术(Automatic Speech Recognition，ASR)，其中包括语音信号预处理(Speech signal preprocessing)、语音信号频域分析(Speech signal frequency analyzing)、语音信号特征提取(Speech signal feature extraction)、语音信号特征匹配/识别(Speech signal feature matching/recognition)、语音的训练(Speech training)等。

例如可以涉及机器学习(Machine learning，ML)，机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习通常包括深度学习(Deep Learning)等技术，深度学习包括人工神经网络(artificial neural network)，例如卷积神经网络(Convolutional Neural Network，CNN)、循环神经网络(Recurrent Neural Network，RNN)、深度神经网络(Deep neural network，DNN)等。

可以理解的是，本申请提供的语音识别模型训练方法以及语音识别可以应用于智能设备(Intelligent device)上，智能设备可以是任何一种具有语音指令识别功能的设备，例如可以是智能终端、智能家居设备(如智能音箱、智能洗衣机等)、智能穿戴设备(如智能手表)、车载智能中控系统(通过语音指令唤醒终端中执行不同任务的小程序)或者AI智能医疗设备(通过语音指令进行唤醒触发)等。

下面对本申请实施例的语音识别模型训练装置的结构做详细说明，语音识别模型训练装置可以各种形式来实施，如带有语音识别模型训练功能的专用终端，也可以为设置有语音识别模型训练功能的服务器，例如图1中的服务器200。图2为本申请实施例提供的语音识别模型训练装置的组成结构示意图，可以理解，图2仅仅示出了语音识别模型训练装置的示例性结构而非全部结构，根据需要可以实施图2示出的部分结构或全部结构。

本申请实施例提供的语音识别模型训练装置包括：至少一个处理器201、存储单元202、用户接口203和至少一个网络接口204。语音识别模型训练装置中的各个组件通过总线系统205耦合在一起。可以理解，总线系统205用于实现这些组件之间的连接通信。总线系统205除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统205。

其中，用户接口203可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。

可以理解，存储单元202可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。本申请实施例中的存储单元202能够存储数据以支持终端设备(如10-1)的操作。这些数据的示例包括：用于在终端设备(如10-1)上操作的任何计算机程序，如操作系统和应用程序。其中，操作系统包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序可以包含各种应用程序。

在一些实施例中，本申请实施例提供的语音识别模型训练装置可以采用软硬件结合的方式实现，作为示例，本申请实施例提供的语音识别模型训练装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本申请实施例提供的语音识别模型训练方法。例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

作为本申请实施例提供的语音识别模型训练装置采用软硬件结合实施的示例，本申请实施例所提供的语音识别模型训练装置可以直接体现为由处理器201执行的软件模块组合，软件模块可以位于存储介质中，存储介质位于存储单元202，处理器201读取存储单元202中软件模块包括的可执行指令，结合必要的硬件(例如，包括处理器201以及连接到总线205的其他组件)完成本申请实施例提供的语音识别模型训练方法。

作为示例，处理器201可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

作为本申请实施例提供的语音识别模型训练装置采用硬件实施的示例，本申请实施例所提供的装置可以直接采用硬件译码处理器形式的处理器201来执行完成，例如，被一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件执行实现本申请实施例提供的语音识别模型训练方法。

本申请实施例中的存储单元202用于存储各种类型的数据以支持语音识别模型训练装置的操作。这些数据的示例包括：用于在语音识别模型训练装置上操作的任何可执行指令。

在另一些实施例中，本申请实施例提供的语音识别模型训练装置可以采用软件方式实现，图2示出了存储在存储单元202中的语音识别模型训练装置，其可以是程序和插件等形式的软件，并包括一系列的模块，作为存储单元202中存储的程序的示例，可以包括语音识别模型训练装置，语音识别模型训练装置中包括以下的软件模块：构建模块，用于构建训练样本，所述训练样本包括：样本语句，所述样本语句中包括字符，所述训练样本还包括：样本语句中的字符对应的音素、标点；训练模块，用于采用所述训练样本对第二多任务神经网络模型进行训练得到第一多任务神经网络模型；其中，第二多任务神经网络模型和第一多任务神经网络模型都能够输出第一预测结果、显示所述第一预测结果的至少一部分，所述第一预测结果包括字符预测结果和标点预测结果。

本申请实施例提供的语音识别的方法可以应用于手机、平板电脑、可穿戴设备、车载设备、增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)设备、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本、个人数字助理(personal digital assistant，PDA)等终端设备上，还可以应用于数据库、服务器以及基于终端人工智能的服务响应系统，用于响应语音识别请求，本申请实施例对终端设备的具体类型不作任何限制。

例如，所述终端设备可以是WLAN中的站点(STAION，ST)，可以是蜂窝电话、无绳电话、会话启动协议(Session InitiationProtocol，SIP)电话、无线本地环路(Wireless Local Loop，WLL)站、个人数字处理(Personal Digital Assistant，PDA)设备、具有无线通信功能的手持设备、计算设备或连接到无线调制解调器的其它处理设备、电脑、膝上型计算机、手持式通信设备、手持式计算设备、和/或用于在无线系统上进行通信的其它设备以及下一代通信系统，例如，5G网络中的移动终端或者未来演进的公共陆地移动网络(Public Land Mobile Network，PLMN)网络中的移动终端等。

作为示例而非限定，当所述终端设备为可穿戴设备时，该可穿戴设备还可以是应用穿戴式技术对日常穿戴进行智能化设计、开发出可以穿戴的设备的总称，如眼镜、手套、手表、服饰及鞋等。可穿戴设备即直接穿在身上，或是整合到用户的衣服或配件的一种便携式设备，通过附着与用户身上，采集用户的房颤信号。可穿戴设备不仅仅是一种硬件设备，更是通过软件支持以及数据交互、云端交互来实现强大的功能。广义穿戴式智能设备包括功能全、尺寸大、可不依赖智能手机实现完整或者部分的功能，如智能手表或智能眼镜等，以及只专注于某一类应用功能，需要和其它设备如智能手机配合使用，如各类进行体征监测的智能手环、智能首饰等。

以所述终端设备为手机为例。图3示出的是与本申请实施例提供的手机的部分结构的框图。参考图3，手机包括：射频(Radio Frequency，RF)电路110、存储器120、输入单元130、显示单元140、传感器150、音频电路160、近场通信模块170、处理器180、以及电源190等部件。本领域技术人员可以理解，图3中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图3对手机的各个构成部件进行具体的介绍：

RF电路110可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器180处理；另外，将设计上行的数据发送给基站。通常，RF电路包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low Noise Amplifier，LNA)、双工器等。此外，RF电路110还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(Global System of Mobile communication，GSM)、通用分组无线服务(General Packet Radio Service，GPRS)、码分多址(Code Division Multiple Access，CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution,LTE))、电子邮件、短消息服务(Short Messaging Service，SMS)等，通过RF电路110接收其他终端采集的语音信号，并对语音信号进行识别，输出对应的文本信息。

存储器120可用于存储软件程序以及模块，处理器180通过运行存储在存储器120的软件程序以及模块，从而执行手机的各种功能应用以及数据处理，例如将训练好的实时语音识别算法存储于存储器120内。存储器120可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器120可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元130可用于接收输入的数字或字符信息，以及产生与手机100的用户设置以及功能控制有关的键信号输入。具体地，输入单元130可包括触控面板131以及其他输入设备132。触控面板131，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板131上或在触控面板131附近的操作)，并根据预先设定的程式驱动相应的连接装置。

显示单元140可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单，例如输出语音识别后的文本信息。显示单元140可包括显示面板141，可选的，可以采用液晶显示器(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板141。进一步的，触控面板131可覆盖显示面板141，当触控面板131检测到在其上或附近的触摸操作后，传送给处理器180以确定触摸事件的类型，随后处理器180根据触摸事件的类型在显示面板141上提供相应的视觉输出。虽然在图3中，触控面板131与显示面板141是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板131与显示面板141集成而实现手机的输入和输出功能。

手机100还可包括至少一种传感器150，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板141的亮度，接近传感器可在手机移动到耳边时，关闭显示面板141和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路160、扬声器161，传声器162可提供用户与手机之间的音频接口。音频电路160可将接收到的音频数据转换后的电信号，传输到扬声器161，由扬声器161转换为声音信号输出；另一方面，传声器162将收集的声音信号转换为电信号，由音频电路160接收后转换为音频数据，再将音频数据输出处理器180处理后，经RF电路110以发送给比如另一手机，或者将音频数据输出至存储器120以便进一步处理。例如，终端设备可以通过传声器162，采集用户的目标语音信号，并将转换后的电信号发送给终端设备的处理器进行语音识别。

终端设备可以通过近场通信模块170可以接收其他设备发送的房颤信号，例如该近场通信模块170集成有蓝牙通信模块，通过蓝牙通信模块与可佩戴设备建立通信连接，并接收可穿戴设备反馈的目标语音信号。虽然图3示出了近场通信模块170，但是可以理解的是，其并不属于手机100的必须构成，完全可以根据需要在不改变申请的本质的范围内而省略。

处理器180是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器120内的软件程序和/或模块，以及调用存储在存储器120内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器180可包括一个或多个处理单元；优选的，处理器180可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器180中。

手机100还包括给各个部件供电的电源190(比如电池)，优选的，电源可以通过电源管理系统与处理器180逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

图4是本申请实施例的手机100的软件结构示意图。以手机100操作系统为Android系统为例，在一些实施例中，将Android系统分为四层，分别为应用程序层、应用程序框架层(framework，FWK)、系统层以及硬件抽象层，层与层之间通过软件接口通信。

如图4所示，所述应用程序层可以一系列应用程序包，应用程序包可以包括短信息，日历，相机，视频，导航，图库，通话等应用程序。特别地，语音识别算法可以嵌入至应用程序内，通过应用程序内的相关控件启动语音识别流程，并处理采集到的目标语音信号，得到对应的文本信息。

应用程序框架层为应用程序层的应用程序提供应用编程接口(applicationprogramming interface，API)和编程框架。应用程序框架层可以包括一些预先定义的函数，例如用于接收应用程序框架层所发送的事件的函数。

如图4所示，应用程序框架层可以包括窗口管理器、资源管理器以及通知管理器等。

窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小，判断是否有状态栏，锁定屏幕，截取屏幕等。内容提供器用来存放和获取数据，并使这些数据可以被应用程序访问。所述数据可以包括视频，图像，音频，拨打和接听的电话，浏览历史和书签，电话簿等。

资源管理器为应用程序提供各种资源，比如本地化字符串，图标，图片，布局文件，视频文件等等。

通知管理器使应用程序可以在状态栏中显示通知信息，可以用于传达告知类型的消息，可以短暂停留后自动消失，无需用户交互。比如通知管理器被用于告知下载完成，消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知，例如后台运行的应用程序的通知，还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息，发出提示音，电子设备振动，指示灯闪烁等。

应用程序框架层还可以包括：

视图系统，所述视图系统包括可视控件，例如显示文字的控件，显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如，包括短信通知图标的显示界面，可以包括显示文字的视图以及显示图片的视图。

电话管理器用于提供手机100的通信功能。例如通话状态的管理(包括接通，挂断等)。

系统层可以包括多个功能模块。例如：传感器服务模块，物理状态识别模块，三维图形处理库(例如：OpenGL ES)等。

传感器服务模块，用于对硬件层各类传感器上传的传感器数据进行监测，确定手机100的物理状态；

物理状态识别模块，用于对用户手势、人脸等进行分析和识别；

三维图形处理库用于实现三维图形绘图，图像渲染，合成，和图层处理等。

系统层还可以包括：

表面管理器用于对显示子系统进行管理，并且为多个应用程序提供了2D和3D图层的融合。

媒体库支持多种常用的音频，视频格式回放和录制，以及静态图像文件等。媒体库可以支持多种音视频编码格式，例如：MPEG4，H.264，MP3，AAC，AMR，JPG，PNG等。

硬件抽象层是硬件和软件之间的层。硬件抽象层可以包括显示驱动、摄像头驱动、传感器驱动、麦克风驱动等，用于驱动硬件层的相关硬件，如显示屏、摄像头、传感器以及麦克风等。特别地，通过麦克风驱动启动麦克风模块，采集用户的目标语音信息，以直线后续的语音识别流程。

需要说明的是，本申请实施例提供的语音识别的方法可以在上述任一层级中执行，在此不做限定。

本申请的实施方式的语音识别方法，通过构建一个用于同时预测音素对应的字符和标点的神经网络模型，并构建训练样本集对神经网络模型进行训练，得到训练后的神经网络模型，训练过程中可以不需要进行分词处理，将待识别的语音转换后的音素(向量)作为训练后的神经网络模型的输入，进行正向推理，可以同时输出音素对应的字符和标点，并且神经网络模型尺寸小，可以在端侧部署。

本文中所表述的“同时”、“同时输出”等，可以理解为是能够从神经网络模型的输出中获得两种信息(如音素对应的字符信息和音素对应的标点信息)，而不仅仅是获得一种信息，并不限制两种信息被获得的时间先后关系，换句话说，本文中所述的“同时”并不限定时间上一定要是相同时刻。

图5a示出根据本申请一实施方式的神经网络模型的框图。如图5a所示，神经网络模型的输入为由待识别的语音转换后得到的音素对应的label序列，神经网络模型可以对label序列进行特征提取，具体地，可以通过embedding层对label序列进行特征提取得到对应的特征向量，然后根据特征向量预测音素对应的字符和标点，同时输出语音对应的字符和标点。在本申请的实施方式中，神经网络模型可以同时完成多个任务，因此，下文中称作多任务神经网络模型。

具体地，在本申请的实施方式中，神经网络模型在根据特征向量预测音素对应的字符和标点时，可以采用分类器预测每个音素对应的字符和标点，从而实现同时输出字符和标点，而且同时实现字符和标点预测的多任务神经网络模型能够部署在端侧。

在本申请的实施方式中，标点可以包括blank以及逗号、句号、问号和感叹号等。其中，逗号、句号、问号和感叹号还可以分为中文的全角和英文的半角两种形式。

一个中文字符可能会有多个拼音，英文字符对应多个英文音素，这样就会导致音素和字符的长度不一致，一个句子中标点的数量可能与字符、音素的长度也不相同，也就是输入序列和输出序列的长度不一致，现有技术无法同时输出预测结果。如果使用encoder-decoder(编码器-解码器)可以解决输入序列和输出序列长度不一致，使用encoder-decoder虽然可以解决输入序列和输出序列长度不一致的问题，但当前的输出必须依赖于前一个输出。图5b示出示出根据本申请一示例的编码器-解码器模型的示意图。如图5b所示，比如说，编码器-解码器模型中encoder的输入序列为“X1X2X3X4”，encoder编码为向量C输出到decoder，通过decoder进行解码，得到长度为3的输出序列“Y1Y2Y3”，输出“Y2”之前必须先输出“Y1”，不能同时输出“Y1Y2Y3”，这就导致在实时输出识别结果上效果不佳。

图5c示出示出根据本申请一示例的编码器模型的示意图。虽然图5c所示编码器模型可以包括编码器和Softmax分类器，其中编码器模型用于对输入序列进行编码得到特征向量C，Softmax分类器可以根据特征向量C得到输出序列。在图5c的示例中，根据输入序列“X1X2X3X4”可以同时输出“Y1Y2Y3Y4”，但是只能应用于输入序列和输出序列长度相同的场景。

本申请的实施方式提供了一种训练样本集的构建方法,本申请实施方式的训练样本集的构建方法，将样本语句中字符的长度和注音后的音素的长度、标点的长度进行对齐，本申请的实施方式构建的上述神经网络结构中可以采用图5c所示的编码器模型实现对音素到字符、标点的转换，由于编码器模型适用于输入序列和输出序列长度相同的场景，因此，采用本申请的实施方式构建的训练样本集对神经网络模型进行训练后，神经网络模型可以同时进行中英文音素到字符的转换、以及标点预测，并且解决了上述相关技术中输入和输出的长度不相同的情况下，无法同时输出结果的技术问题。

本申请的实施方式还提供了一种多任务神经网络模型的训练方法，将训练样本集中的训练样本输入到第二多任务神经网络模型中进行训练，得到训练后的第一多任务神经网络模型，其中，第二多任务神经网络模型和第一多任务神经网络模型中融入了标点预测和字符预测，在实时生成字符的同时，也实时生成标点，实现多任务同时训练，并且第一多任务神经网络模型的尺寸小，可以在端侧部署。

下面按照训练样本集构建、神经网络模型训练和神经网络模型推理的过程，对本申请的语音识别方法进行说明。为了清楚的描述本申请提供的各实施方式，将训练之前的神经网络模型称作第二多任务神经网络模型，训练之后得到的神经网络模型称作第一多任务神经网络模型。其中，“第一”和“第二”仅仅是为了区分不同的特征，并不表示特定的顺序或者大小关系。

训练样本集构建

图6示出根据本申请一实施方式的构建训练样本集的过程的示意图。如图6所示，可以构建注音词典，构建的注音词典可以包括词典以及音素字符映射表。其中，词典可以包括一种语言或者多种语言，比如说可以包括中文词典或者英文词典，或者中英文混合词典，或者其他多种语言的混合词典，本申请对此不作限定。对于一种语言的词典，还可以包括多个不同的词典，多个不同的词典可以是根据语言的特点进行分类得到的，以中文词典为例，还可以细分为生僻字词典，多音字词典，成语词典，人名词典等，进一步根据语言的特点对词典进行细分，有助于提高训练效果，提高预测的准确性。

音素字符映射表用于存储字符和对应的音素之间的对应关系，一个字符可以对应一个或多个音素，处理器可以根据音素字符映射表对字符进行注音得到字符对应的音素。举例来说，对于中文字符，由于存在多音字，一个中文字符可以对应一个或多个音素；对于英文字符，由于一些英文单词包括多个音节，一个英文字符也可以对应一个或多个音素；处理器可以根据字符查找音素字符映射表，确定字符对应的一个或多个音素。

用于构建训练样本集的语料可以是单一的一种语言，也可以指包括多种语言的混合语料。处理器可以根据注音词典对语料中的字符进行注音得到字符对应的音素、并对字符对应的音素与字符和标点进行对齐处理，字符的长度和标点的长度与对应的音素的长度相同。

在一种可能的实现方式中，处理器可以逐个为语料中的字符进行注音得到字符对应的音素，并判断字符的长度和字符对应的音素的长度是否相同，如果不相同，则处理器可以将字符的长度和字符对应的音素的长度进行对齐处理。或者，处理器也可以先对语料中的所有字符进行注音得到对应的音素，然后对字符对应的因素和字符进行对齐处理。本申请的实施方式对注音和对齐步骤执行的顺序不作限定。

在一种可能的实现方式中，对于不同的语言，对齐处理的方式可以不同。比如说，对于中文中的多音字，处理器可以从多个音素中任选一个音素作为字符对应的音素，也就是说，对齐后的中文中的多音字对应的音素为，多音字对应的多个音素中的任意一个；对于英文字符，处理器可以在字符中添加对齐字符进行对齐，对齐后的英文字符中包括对齐字符，对齐后的英文字符的长度和英文字符对应的音素的长度相同；在字符中添加对齐字符时，对齐字符的位置可以位于字符之前或者之后，本申请对此不作限定。其中，对齐字符可以为除了英文字母以外的任何符号，比如说，对齐字符可以为“@”、“*”、“&”或者“％”等。

在一种可能的实现方式中，在注音时，若注音词典中没有与语料中的英文字符相同的字符，则处理器可以对语料中的英文字符进行拆分，得到多个独立的子字符，在注音词典中存在与子字符相同的字符，处理器可以对子字符进行注音并对齐。

在一种可能的实现方式中，一个字符对应一个标点，在本申请的实施方式中，除了对音素和字符进行对齐处理，处理器还可以对字符和标点进行对齐处理，如上文所述，标点可以包括blank和以及逗号、句号、问号和感叹号等，若原字符之后没有标点，则可以设置字符对应的标点为blank，对于对齐之前没有标点的字符，对齐后的标点为blank，使得标点的长度与字符的长度对齐，则在输出时该字符对应的标点为blank。处理器可以同时对字符、音素和标点进行对齐处理，也可以分步骤进行，本申请对此不作限定。

在一种可能的实现方式中，本申请的训练样本集构建方法还可以对多条同时进行训练的不同语句的长度进行对齐。比如说，如果多条语句同时进行训练，也就是batch size>1时，若多条同时训练的语句的长度不同，则可以在长度短的语句对应的字符、音素和标点后面补齐Null，长度短的语句的字符、音素和标点在补齐Null后长度与最长的句子的长度相同。

举例来说，有两条语句一起训练，分别为：

你好！

真不错。

“你好！”这条语句只有两个字，长度比较短，可以在语句对应的字符、音素和标点后用“Null”补齐，因此在本实施例中，因此标点语句对应的标点为“[BLANK]！[Null]”；“真不错。”的标点是“[BLANK][BLANK]。”这样可以保证两条语句的长度相同，能够用于训练中。

在一种可能的实现方式中，在对语料进行注音并对齐之前，还可以对语料进行预处理。预处理的具体内容可以根据构建的词典和具体的语言类型确定，比如说，如果词典中不包括数字，对语料进行预处理可以包括：将语料中的数字转换成汉字(如图6所示的数字规整)；如果词典中的英文单词为大写，则对语料进行预处理还可以包括：将语料中的英文由小写转换为大写(如图6所示的英文字母转换)。预处理还可以包括：繁体转简体、去除特殊字符等处理，预处理的具体方式可以根据注音词典以及语言特点等进行确定，本申请对具体的预处理方式不作限定。

图7示出根据本申请一实施例的构建训练样本集的过程的示例。举例来说，如图7所示，以中英文混合句子“用P30打开CCTV看NBA video。”为例，可以先对语料进行预处理，将数字转换为汉字、将英文由小写转换为大写，可以得到“用P三零打开CCTV看NBA VIDEO。”。

对“用P三零打开CCTV看NBA VIDEO。”进行注音：中文注成拼音，英文注成对应的英文音素，如图7中所示，英文字符“NBA”对应三个音素“en bi ei”，英文字符“VIDEO”对应两个音素“vi diu”，由于英文字符“CCTV”不在注音词典中，可以将“CCTV”拆分为四个独立的子字符，并根据注音词典对子字符分别注音可以得到对应的音素“see see ti vi”，最终得到的音素可以为“yong4 pi san1 ling2 da3 kai1 see see ti vi kan4 en bi ei vi diu”。

对齐处理：处理器可以在注音过程中进行对齐处理，也可以在注音之后统一进行对齐处理，本申请对此不作限定。如图7所示，本申请的示例中采用的对齐字符可以为“@”，对字符“NBA”进行对齐处理，可以得到“@@NBA”，因为“NBA”对应三个音素；字符“VIDEO”对应两个音素，处理器对字符“VIDEO”进行对齐处理可以得到“@VIDEO”。对于中文的多音字场景，例如：“长头发”，注音可以得到“chang2|zhang3tou2fa4”，这样就会导致汉字“长”对应两个拼音，对于这种中文多音字，本申请的实施方式中，处理器可以随机选择一个作为最终的汉字拼音，以实现对齐处理。字符和音素对齐之后得到的字符的结果如图7中最后一个步骤“用P三零打开CCTV看@@NBA@VIDEO”。

上述示例中，语料最后有一个标点符号：句号，字符VIDEO、音素diu与句号相对应。对于其他没有标点的字符，全部将标点设置为blank，如图7所示，包括15个blank和一个句号，一共16个标点，与16个音素是对齐的。

通过将字符的长度、标点的长度和字符对应的音素的长度进行对齐处理，采用本申请的实施方式构建得到的训练样本集，对第二多任务神经网络模型进行训练后得到第一多任务神经网络模型，对于输入序列和输出序列的长度不同的场景，通过本申请的对齐处理进行训练后得到的第二神经网络模型也可以根据输入的待识别音素同时输出预测结果，预测结果可以包括待识别音素对应的字符和标点，也就是说，可以实现实时生成字符的同时，也实时生成标点，并且第一多任务神经网络模型的尺寸小，可以在端侧部署。

模型训练

图8示出根据本申请一实施方式的多任务神经网络模型训练方法的流程图。本申请的实施方式提供的多任务神经网络模型训练的方法可以应用于图2所示的装置。

在本申请的实施方式中，进行训练之前，可以从训练样本集中选择训练样本作为多任务神经网络的输入，训练样本的尺寸可以表示为(B，U)，其中，B可以表示一次训练的样本数量，U可以表示这批训练样本中最大长度的样本对应的音素的长度。比如说，B可以为128，表示一次训练的样本数量为128句话对应的音素，这128句话中最长的一句话对应的音素的长度为U。

需要说明的是，可以选择多批训练样本输入到第二多任务神经网络模型进行训练，训练的数据量越大，得到的第一多任务神经网络模型在推理时，预测得到的字符和标点准确率更高。

神经网络模型的输入必须是数值，而不能是字符串，因此，在进行训练之前可以将训练样本转换为数值表示的数据。在本申请的实施方式中，可以预先设置词典中每个音素对应的数值作为该音素的标签(label)。在进行训练之前，可以根据音素查找对应的标签，从而将训练样本转换成标签序列，也就是转换成数值表示的向量作为神经网络的输入数据，对神经网络进行训练。

比如说，以一条训练样本为例，(jin1 tian1 tian1 qi4 bu2 cuo4)，输入为(1,6)，将训练样本转换为label序列可以得到(10,148,148,2456,30,40)。也就是说，每个音素都有对应的标签，音素对应的标签可以为数字，通过将样本序列转换为标签序列，可以将样本序列转换为向量的表示形式参与后续的计算过程。

如图8所示，本申请提供的多任务神经网络模型训练方法可以包括：

步骤S801，将输入数据输入到第二多任务神经网络模型，确定所述输入数据对应的字符概率矩阵和标点概率矩阵；

步骤S802，根据字符概率矩阵和标点概率矩阵，分别计算字符交叉熵损失和标点交叉熵损失；

步骤S803，根据字符交叉熵损失和标点交叉熵损失，计算加权交叉熵损失；

步骤S804，根据所述加权交叉熵损失调整第二多任务神经网络模型的参数，得到训练后的第一多任务神经网络模型。

其中，在步骤S801中，输入数据可以是对音素转换后的标签序列，也就是待识别的音素对应的向量。

在一种可能的实现方式中，步骤S801中，训练装置可以通过第二多任务神经网络模型对输入数据进行运算，得到输入数据的特征向量；然后，训练装置可以通过第二多任务神经网络模型对特征向量进行运算，预测训练样本对应的字符和标点，得到字符概率矩阵和标点概率矩阵。其中，输入数据可以为上述的训练样本。

在另一种可能的实现方式中,第二多任务神经网络模型中可以包括如图5c所示的编码器模型中的编码器，编码器用于对待识别的音素(输入数据)进行特征提取得到特征向量。

举例来说，编码器可以包括embedding层，训练装置可以通过embedding层对输入数据进行运算，提取特征向量。具体地，训练装置可以根据embedding层具体采用的编码方式以及输入数据进行运算，得到特征向量，如图5c所示的向量C。

在一种可能的实现方式中，对于每一个音素编码后可以通过一个一维向量进行表示，向量的长度可以根据词典中音素的数量确定，比如说，在本申请的示例中，可以采用512个数据表示一个音素。在本申请的实施方式中，可以记录音素对应的标签和音素编码后对应的向量之间的对应关系。

仍然以上述示例为例，输入数据的维度为(1,6)，也就是6个音素转换得到的标签，经过编码器处理后，得到的特征向量可以为(1,6，512)。

在一种可能的实现方式中，第二多任务神经网络模型中还可以包括分类器(如图5c所示的Softmax分类器)，训练装置可以通过第二多任务神经网络模型中分类器对特征向量进行分类，可以得到字符概率矩阵和标点概率矩阵。其中，字符概率矩阵中表示的是音素对应的字符的第一概率，标点概率矩阵中表示的是每个音素对应的标点的第二概率。根据字符概率矩阵和标点概率矩阵，可以得到音素对应的字符和标点。在一种可能的实现方式中，可以预先建立字符和字符对应的第一索引值、标点和标点对应的第二索引值的对应关系，形成词表。这样，在对第二多任务神经网络模型进行训练时，或者用第一多任务神经网络模型进行推理时，可以神经网络模型可以根据得到的字符概率矩阵、标点概率矩阵、以及词表，得到音素对应的字符和标点。

具体地，通过字符概率矩阵可以得到最大的第一概率对应的字符的第一索引值，根据第一索引值和词表可以得到音素对应的字符。通过标点概率矩阵可以得到最大的第二概率对应的标点的第二索引值，根据第二索引值和词表可以得到音素对应的标点。也就是说，通过Softmax分类器得到的是待识别的音素(输入数据)对应的字符的概率矩阵，矩阵中的第一概率表示音素对应的字符为该第一概率对应的字符的概率，可以确定最大的第一概率对应的字符为音素对应的字符。音素对应的标点可以采用同样的方式确定。

在一种可能的实现方式中，在步骤S802中，训练装置可以根据交叉熵损失函数和字符概率矩阵，计算字符交叉熵损失。具体的计算公式如下：

其中，y(C)表示所有字符的交叉熵损失，P(c _i)可以表示字符c _i对应的第一概率，i表示字符的下标，i的取值范围为1～n，n为正整数。根据以上公式以及字符概率矩阵可以计算得到字符交叉熵损失。

同样的，在步骤S802中，训练装置可以根据交叉熵损失函数和标点概率矩阵，可以计算标点交叉损失。具体的计算公式如下：

其中，y(P)表示所有标点的交叉熵损失，P(p _i)可以表示标点p _i对应的第二概率。根据以上公式以及标点概率矩阵可以计算得到标点交叉熵损失。

在一种可能的实现方式中，根据对字符预测的准确率和对标点预测的准确率的要求的不同，可以设置字符交叉损失对应的第一权值和标点交叉损失对应的第二权值。在步骤S803中，可以根据字符交叉熵损失、第一权值和标点交叉熵损失、第二权值，计算加权交叉熵损失。可以根据以下公式计算交叉熵损失：

y(C+P)＝w1×y(C)+w2×y (P)

其中，y(C+P)可以表示字符和标点的加权交叉熵损失，w1可以表示第一权值，w2可以表示第二权值。在一种可能的实现方式中，第一权值和第二权值的和为1，也就是说，w2＝1-w1。举例来说，假设第一权值为0.7，第二权值可以为0.3。

需要说明的是，以上关于第一权值和第二权值的设置方式和举例仅仅是本申请的一些示例，不以任何方式限制本申请。

得到加权交叉熵损失后，在步骤S804，训练装置可以通过反向传播算法，根据加权交叉熵对第二多任务神经网络模型的权重进行更新，得到训练后的第一多任务神经网络模型。在一种可能的实现方式中，可以使用Adam优化器实现权重更新。

模型推理

在对第二多任务神经网络模型进行训练得到第一多任务神经网络模型后，可以将待识别的音素输入到第一多任务神经网络模型，进行正向推理实现对音素对应的字符和标点进行同时预测和输出。

因此，本申请还提供了一种语音识别方法，可以应用于如图1或者图3所示的终端设备。在得到第一多任务神经网络模型后，可以将第一多任务神经网络模型部署到终端设备中。

图9a示出根据本申请一实施方式的终端设备侧进行语音识别的应用场景的示意图。如图9a所示，终端设备中可以部署有声学模型和神经网络模型(第一多任务神经网络模型)。终端设备可以将采集的语音信号或者接收到的语音信号输入到声学模型中，通过声学模型对语音信号进行处理可以得到语音信号对应的音素并输出到第一多任务神经网络模型中。

图10示出根据本申请一实施方式的语音识别方法的流程图。如图10所示，本申请提供的一种实施方式的语音识别方法可以包括以下步骤：

步骤S901，将待识别的音素输入到第一多任务神经网络模型中，其中，所述第一多任务神经网络模型为采用训练样本对第二多任务神经网络模型进行训练得到的。

所述训练样本包括：样本语句，所述样本语句中包括字符，所述训练样本包括：样本语句中的字符对应的音素、标点。在一种可能的实现方式中，音素、字符和标点的长度相同。

所述第二多任务神经网络模型和第一多任务神经网络模型，都能够输出第一预测结果、显示所述第一预测结果的至少一部分，所述第一预测结果包括字符预测结果和标点预测结果，也就是说，第二多任务神经网络模型和第一多任务神经网络模型可以根据待识别的音素同时预测待识别的音素对应的字符和标点。

构建训练样本和根据训练样本对第二多任务神经网络模型进行训练得到第一多任务神经网络模型的过程，可以参见上文的描述，不再赘述。

如图9a所示，待识别的音素可以是采用声学模型对待识别的语音信号进行处理后得到的，待识别的语音信号可以是终端设备采集到的信号或者接收到的信号，本申请对此不作限定。

比如说，在一个示例，终端设备打开社交APP，检测到麦克风被打开，并采集到了语音信号；若终端设备检测到了请求将语音信号转换成文字的转换请求，则可以将语音信号输入到声学模型。在另一个示例中，终端设备打开社交APP，接收到了另一终端设备发来的语音信号，并且终端设备检测到了转换请求，则终端设备可以将语音信号输入到声学模型中。声学模型接收到语音信号后，可以对语音信号进行处理得到待识别的音素。终端设备可以将待识别的音素输入到第一多任务神经网络模型中。

在本申请的实施方式中，声学模型输出的待识别的音素可以是音素对应的标签序列。

如图10所示，本申请的供的一种实施方式的语音识别方法还可以包括：

步骤S902，终端设备采用所述第一多任务神经网络模型输出第一预测结果，所述第一预测结果包括所述待识别的音素对应的字符预测结果和标点预测结果；

步骤S903，终端设备根据所述第一预测结果将所述第一预测结果的至少一部分显示在所述终端设备的显示屏上。

根据图5a所示的神经网络模型的框图可知，第一多任务神经网络模型可以进行特征提取，提取待识别音素的特征向量，然后由分类器根据特征向量进行分类，可以预测每一个待识别音素对应的字符和标点，比如说，分类器可以根据输入的待识别音素得到分类，得到对应的字符和标点，并输出预测的结果(第一预测结果)。第一多任务神经网络模型输出第一预测结果后，终端设备可以同时显示预测的字符和标点。或者，第一多任务神经网络模型可以采用图5c所示的编码器模型对输入的待识别音素进行处理，可以得到对应的字符和标点进行同时输出。

图9b示出根据本申请一示例的现有技术进行语音识别的过程的示意图。如图9b所示，传统的音素转字符和标点的方法中可以先将音素映射为字符，然后预测得到对应的标点。在一个示例中，首先可以通过N-Gram语言模型将音素映射为字符，得到字符后，再通过标点预测模型得到标点。需要通过两个模型分别进行字符和标点的预测，无法同时输出字符和标点，并且模型较大，无法在端侧部署。而本申请采用的语音识别方法通过图9a所示的一个神经网络模型可以同时输出字符和标点，并且由于模型简单可以在端侧部署模型。

根据本申请的实施方式提供的语音识别方法，由于在神经网络模型中融入了字符预测和标点预测，通过专门构建的训练样本集对神经网络模型进行训练，并将训练后得到的多任务神经网络模型部署在端侧，即可实现同时输出、显示预测得到的字符和标点。

在一种可能的实现方式中，第一多任务神经网络模型可以为流式网络结构，终端设备将待识别的音素输入到第一多任务神经网络模型中，采用所述第一多任务神经网络模型输出第一预测结果，可以包括：所述终端设备可以将待识别的音素循环送入第一多任务神经网络模型中，采用所述第一多任务神经网络模型基于当前输入的待识别的音素的长度输出所述第一预测结果。

在一种可能的实现方式中，所述终端设备将待识别的音素循环送入第一多任务神经网络模型中，采用所述第一多任务神经网络模型基于当前输入的待识别的音素的长度输出所述第一预测结果，可以包括：

若不存在已存储的第二预测结果，则终端设备将当前输入的音素的第二预测结果作为待识别的音素的第一预测结果；

其中，第二预测结果为一个或几个待识别的音素的最终结果，当前输入的音素中除了第一个音素以外的音素的预测结果都为临时预测结果，因此，终端设备存储第二预测结果，最后对所有的第二预测结果进行融合得到第一预测结果(全部待识别的音素的最终结果)。图11示出根据本申请一实施方式的语音识别方法的流程图。如图11所示，在本申请的实施方式的语音识别方法中，可以根据待识别的音素的长度和第一多任务神经网络模型的感受野的关系，将待识别的音素循环送入第一多任务神经网络模型中进行字符和标点预测。具体可以包括以下过程：

步骤S1100，判断是否已经完成全部待识别的音素的输入；若没有完成全部待识别的音素的输入，则执行步骤S1101；若已经完成全部待识别的音素的输入，则执行步骤S1104；

步骤S1101，判断当前输入的音素的长度是否小于感受野；若当前输入的音素的长度小于感受野，则执行步骤S1102；若当前输入的音素的长度不小于感受野，则执行步骤S1103；

步骤S1102，对当前输入的音素的字符和标点进行预测，得到当前输入的音素的临时结果，并继续输入下一个音素，返回步骤S1100；

步骤S1103，对当前输入的音素的字符和标点进行预测，得到当前输入的音素的第一个音素的最终结果，终端设备可以存储最终结果；终端设备将所述第一个音素的特征向量、当前输入的音素中除了第一个音素以外的音素和待识别的音素中的下一个音素继续输入第一多任务神经网络模型；返回步骤S1100；

步骤S1104，对当前输入的音素的字符和标点进行预测，得到当前输入的音素的最终结果，判断是否存在已存储的最终结果；若存在已存储的最终结果，则执行步骤S1105；若不存在已存储的最终结果，则执行步骤S1106；

步骤S1105，将已存储的最终结果和当前输入的音素的最终结果进行融合得到待识别的音素的最终结果，结束循环；

步骤S1106，将当前输入的音素的最终结果作为待识别的音素的最终结果，结束循环。

在步骤S1100中，终端设备可以根据前面连接的声学模型的输出，判断是否已经完成全部待识别的音素的输入，若声学模型不再输出新的音素，则终端设备可以判断已经将全部的音素出入到了第一多任务神经网络模型，否则，终端设备可以判断没有完全全部待识别的音素的输入。

在一种可能的实现方式中，终端设备上还可以设置有VAD(Voice Activity Detection，语音端点检测)，VAD可以检测一段音频什么时候有人声以及什么时候人声结束。在检测到音频中的人声结束后，可以控制声学模型不再输出。

当前输入的音素的长度从刚开始输入时为1，随着逐渐输入更多的音素，当前输入的音素的长度逐渐增加。如果全部的待识别音素的长度大于或者等于感受野，那么，当前输入的音素的长度在增加到与感受野的大小相同时，不再变化，如果有新的输入的音素，那么当前输入的音素的第一个音素不再输入到第一多任务神经网络模型中。如果全部的待识别音素的长度小于感受野，那么当前输入的音素的长度的最大值小于感受野。

举例来说，假设第一多任务神经网络模型的感受野为8，待识别的音素的长度为15。当输入前7个待识别的音素时，当前输入的音素的长度分别为1、2、3、4、5、6、7，而且当前输入的音素的长度小于感受野，从输入第8个待识别的音素开始，当前输入的音素的长度为8，不小于感受野。当输入第9个待识别的音素时，当前输入的音素的长度仍然为8，当前输入的音素分别为2、3、4、5、6、7、8、9。第10个待识别的音素以及以后的待识别的音素也是如此。假设第一多任务神经网络模型的感受野为8，待识别的音素的长度为7，那么，当前输入的音素的长度最大为7，小于感受野。

如果判断当前输入的音素的长度小于感受野，那么终端设备可以执行步骤S1102，对当前输入的音素的字符和标点进行预测，得到当前输入的音素的临时结果。当前输入的音素的长度小于感受野，说明对当前输入的音素进行预测得到的字符和标点还有可能根据之后输入的音素而变化，因此，在当前输入的音素的长度小于感受野时，终端设备可以将对当前输入的音素预测的结果作为临时结果。终端设备可以将声学模型预测的下一个待识别的音素输入到第一多任务神经网络模型中，然后返回步骤S1100，继续判断是否已经完成全部待识别的音素的输入。

举例来说，仍然以上述示例为例，当前输入的音素为第1、2、3、4、5一共5个音素，当前输入的音素的长度为5，小于感受野8，因此，终端设备可以将对第1、2、3、4、5个音素的字符和标点的预测结果作为临时结果，并输入下一个(第6个)待识别的音素，也就是当前输入的音素为第1、2、3、4、5、6一共6个音素。

如果判断当前输入的音素的长度不小于感受野，则终端设备可以执行步骤S1103，对当前输入的音素的字符和标点进行预测，得到当前输入的音素的第一个音素的最终结果，终端设备可以存储最终结果。终端设备对当前输入的音素中除了第一个音素以外的音素的预测结果为临时结果。终端设备可以将在本次预测过程中提取的第一个音素的特征向量、当前输入的音素中除了第一个音素以外的音素和待识别的音素的下一个音素继续输入第一多任务神经网络模型。然后返回步骤S1100，继续判断是否已经完成全部待识别的音素的输入。

举例来说，仍然以上述示例为例，当前输入的音素为第1-8个音素，当前输入的音素的长度为8，等于感受野8，也就是说，不小于感受野8。因此，终端设备可以将对第1个音素的预测的结果作为最终结果，并存储最终结果。终端设备可以将对第2-8个音素的预测的结果作为临时结果。终端设备可以将在本次预测过程中提取的第1个音素的特征向量、第2-8个音素和第9个音素输入到第一多任务神经网络模型中。继续推理，得到第2个(当前输入的音素的第一个音素)的预测的结果作为最终结果，并存储最终结果。终端设备可以将在本次预测过程中提取的第2个音素的特征向量、第3-9个音素和第10个音素输入到第一多任务神经网络模型中，继续推理…，重复以上过程，直到完成全部待识别的音素的输入。

对于步骤S1103，在第一多任务神经网络模型的输入为当前输入的音素以及前一次输入的音素的第一个音素的特征向量时，可以提取当前输入的音素的特征向量，对当前输入的音素的特征向量和前一次输入的音素的第一个音素的特征向量进行拼接操作，对于拼接后得到的特征向量，终端设备可以进行卷积操作进一步提取特征向量、根据提取的特征向量预测结果。举例来说，当前输入的音素为第2-9、以及第1个音素的特征向量。终端设备在进行预测时，可以提取第2-9个音素的特征向量，并对第1个音素的特征向量和第2-9个音素的特征相连进行拼接操作(concat)。对于拼接后得到的特征向量，终端设备可以进行卷积操作进一步提取特征向量、根据提取的特征向量预测结果。终端设备还可以进行对拼接后得到的特征向量进行剪切操作，将第2个音素对应的特征向量剪切出来，作为下一次预测的输入。

回到步骤S1100，若已经完成了全部待识别的音素的输入，终端设备可以执行步骤S1104，对当前输入的音素的字符和标点进行预测，得到当前输入的音素的最终结果。此时终端设备可以判断是否存在已存储的最终结果，因为，如果全部待识别的音素的长度不小于感受野，那么终端设备已经存储了前面一部分音素的最终结果，如果全部待识别的音素的长度小于感受野，那么终端设备未存储过最终结果。

如果终端设备判断存在已存储的最终结果，终端设备可以执行步骤S1105，将已存储的最终结果和当前输入的音素的最终结果进行融合得到待识别的音素的最终结果，结束循环。具体融合的方式可以是，将当前输入的音素的最终结果与已存储的最终结果进行拼接得到待识别音素的最终结果。如果终端设备判断未存储最终弄结果，终端设备可以执行步骤S1106，将当前输入的音素的最终结果作为待识别的音素的最终结果，结束循环。

举例来说，仍然以上述示例为例，当前输入的音素为第8、9、10、11、12、13、14、15个音素和第7个音素的特征向量。终端设备可以判断已经完成全部待识别的音素的输入，执行步骤S1104，对第8-15个音素的字符和标点进行预测，得到第8-15个音素的最终结果。终端设备可以判断已存储了第1-7个音素的最终结果。因此，终端设备可以对第1-7个音素的最终结果和第8-15个音素的最终结果进行融合得到第1-15个音素的最终结果。

另外，采用流式网络结构，将之前的输入作为buffer送入到网络中，减少模型计算量，实现快速推理。具体地，由于CNN(Convolutional Neural Networks，卷积神经网络)是有感受野的，举例来说，假设卷积层数总共为7层，真实的感受野是15，感受野是以中心位置为参照，左右各需要7个，流式网络结构把历史的7个全部缓存，通过每一层的buffer来缓存历史特征。因此，每次计算时计算8个就可以了，实际的感受野是8，相比于感受野15可以减少计算量。

并且将标点预测和字符预测融入到一个模型中，可以保证在实时生成字符的同时也实时生成标点，不需要等所有的语音识别结果结束之后才进行标点预测，可以同时输出字符和标点。并且多任务神经网络模型相比于传统的声学模型尺寸小，可以在端侧部署。

下面结合一个具体的应用示例，对本申请的语音识别方法进行进一步的说明。

以输入“chun1 mian2 bu4 jue2 xiao3 chu4 chu4 wen2 ti2 niao3”为例，循环输入时，首先输入‘chun1’到神经网络模型中，当前输入的音素的长度为1，小于感受野8，预测得到临时结果‘春。’。输入‘chun1 mian2’到神经网络模型中，当前输入的音素的长度为2，小于感受野8，预测得到临时结果‘春眠。’，输入‘chun1 mian2 bu4 jue2 xiao3’，到神经网络模型中，当前输入的音素的长度为5，小于感受野8，预测得到临时结果‘春眠不觉晓。’。

由于模型感受野为8，不满感受野时得到的结果是临时结果，当输入满足(不小于)感受野时，即输入‘chun1 mian2 bu4 jue2 xiao3 chu4 chu4 wen2’到神经网络模型时，当前输入的音素的长度为8，等于感受野8，输出‘春眠不觉晓，处处闻。’，此时对第一个输入音素‘chun1’预测得到的结果为最终结果，音素‘chun1’对应的字符和标点作为最终结果进行存储。

下次推理时将音素‘chun1’的特征向量作为buffer输入到神经网络模型中，输入‘mian2 bu4 jue2 xiao3 chu4 chu4 wen2 ti2’到神经网络模型时，当前输入的音素的长度为8，等于感受野8，输出为‘眠不觉晓，处处闻啼。’，此时对第一个输入音素‘mian2’预测得到的字符和标点为最终结果进行存储。

将音素‘mian’的特征向量作为buffer输入到神经网络模型中，当前输入的音素为‘bu4 jue2 xiao3 chu4 chu4 wen2 ti2 niao3’，预测得到‘不觉晓，处处闻啼鸟。’。由于此时再没有音素生成，因此，对当前输入的音素预测得到的字符和标点为最终结果，与之前保存的结果融合在一起得到最终的输出“春眠不觉晓，处处闻啼鸟。”。

在一种可能的实现方式中，终端设备可以将预测得到的临时结果存储在缓存器中，终端设备可以预先设置用于存储临时缓存器的个数(预设个数)，预设个数的大小和感受野大小可以相同。这样终端设备也可以通过判断预设个数的缓存器有没有存满，来判断当前输入的音素的长度是否小于感受野，如果预设个数的缓存器未存满，则当前输入的音素的长度小于感受野，如果预设个数的缓存器存满，则当前输入的音素的长度不小于感受野。在这个实施方式中，判断当前输入的音素的长度是否小于感受野的过程，可以在对当前输入的音素进行预测得到预测结果之后。

图12示出根据本申请一实施方式的语音识别方法的流程图，在本实施方式的语音识别方法中，可以包括以下步骤：

步骤S1200，判断是否已经完成全部待识别的音素的输入；若没有完成全部待识别的音素的输入，则执行步骤S1201；若已经完成全部待识别的音素的输入，则执行步骤S1204；

步骤S1201，对当前输入的音素的字符和标点进行预测，得到当前输入的音素的临时结果，将临时结果存入临时缓存器，判断临时缓存器有没有存满；若临时缓存器未存满，则执行步骤S1202；若临时缓存器存满，则执行步骤S1203；

步骤S1202，继续输入下一个音素，返回步骤S1200；

步骤S1203，将当前输入的音素的第一个音素的预测结果作为最终结果，终端设备可以存储最终结果；终端设备将所述第一个音素的特征向量、当前输入的音素中除了第一个音素以外的音素和待识别的音素中的下一个音素继续输入第一多任务神经网络模型；返回步骤S1100；

步骤S1204，对当前输入的音素的字符和标点进行预测，得到当前输入的音素的最终结果，判断是否存在已存储的最终结果；若存在已存储的最终结果，则执行步骤S1205；若不存在已存储的最终结果，则执行步骤S1206；

步骤S1205，将已存储的最终结果和当前输入的音素的最终结果进行融合得到待识别的音素的最终结果，结束循环；

步骤S1206，将当前输入的音素的最终结果作为待识别的音素的最终结果，结束循环。

在上述实施方式中，步骤S1201-S1203与步骤S1101-S1103部分判断是否满足感受野的顺序和预测的顺序不同。其他内容可以参见图11部分的解释。

在另一种可能的实现方式中，第一多任务神经网络模型也可以是非流式网络结构。终端设备可以顺序输入待识别的音素，不再循环输入已经预测了结果的音素。相比于流式网络结构，非流式网络结构不需要缓存已经预测的历史结果，减少占用内存空间，可以进一步减小神经网络模型的尺寸。

对于非流式网络结构，采用所述第一多任务神经网络模型输出第一预测结果，可以包括：采用所述第一多任务神经网络模型基于待识别的音素的总长度和音素长度阈值的关系，输出所述第一预测结果。具体可以包括以下步骤：

1、若待识别的音素的总长度小于音素长度阈值，采用所述第一多任务神经网络模型根据全部的待识别的音素，输出所述第一预测结果；

2、若待识别的音素的总长度不小于音素长度阈值，在完成将全部待识别的音素输入第一多任务神经网络模型之前：2.1如果当前输入的音素的长度小于音素长度阈值，则终端设备继续输入下一个音素；2.2如果当前输入的音素的长度不小于音素长度阈值，则终端设备根据当前输入的音素的字符和标点，得到当前输入的音素的第一个音素的第二预测结果并存储第二预测结果，终端设备将当前输入的音素中除了第一个音素以外的音素和待识别的音素中的下一个音素继续输入第一多任务神经网络模型；2.3若待识别的音素的总长度不小于音素长度阈值，在完成将全部待识别的音素输入第一多任务神经网络模型时，根据当前输入的音素的字符和标点，得到当前输入的音素的第二预测结果；2.4若不存在已存储的第二预测结果，则将当前输入的音素的第二预测结果作为待识别的音素的第一预测结果；2.5若存在已存储的第二预测结果，则根据当前输入的音素的第二预测结果和已存储的第二预测结果，得到待识别的音素的第一预测结果。

终端设备可以设置音素长度阈值，在待识别的音素的总长度小于音素长度阈值时，终端设备可以将待识别的音素输入第一多任务神经网络模型进行推理，得到的预测结果作为最终结果。在待识别的音素的总长度大于音素长度阈值时，终端设备可以将待识别的音素逐个输入到第一多任务神经网络模型进行推理，在当前输入的音素的长度不小于音素长度阈值时，将当前输入的音素的第一个音素的预测结果作为最终结果进行存储，并继续输入下一个待识别的音素，继续推理，直到输入最后一个待识别的音素，将当前输入的音素的预测结果作为最终结果，将当前输入的音素的最终结果和已存储的最终结果进行融合，可以得到待识别的音素的最终结果。

图13示出根据本申请一实施方式的语音识别方法的流程图。如图13所示，本实施方式的语音识别方法可以包括以下步骤：

步骤S1300，判断是否已经完成全部待识别的音素的输入；若没有完成全部待识别的音素的输入，则执行步骤S1301；若已经完成全部待识别的音素的输入，则执行步骤S1304；

步骤S1301，判断当前输入的音素的长度是否小于音素长度阈值；若当前输入的音素的长度小于音素长度阈值，则执行步骤S1302；若当前输入的音素的长度不小于音素长度阈值，则执行步骤S1303；

步骤S1302，对当前输入的音素的字符和标点进行预测，得到当前输入的音素的临时结果，并继续输入下一个音素，返回步骤S1300；

步骤S1303，对当前输入的音素的字符和标点进行预测，得到当前输入的音素的第一个音素的最终结果，终端设备可以存储最终结果；终端设备将当前输入的音素中除了第一个音素以外的音素和待识别的音素中的下一个音素继续输入第一多任务神经网络模型；返回步骤S1300；

步骤S1304，对当前输入的音素的字符和标点进行预测，得到当前输入的音素的最终结果，判断是否存在已存储的最终结果；若存在已存储的最终结果，则执行步骤S1305；若不存在已存储的最终结果，则执行步骤S1306；

步骤S1305，将已存储的最终结果和当前输入的音素的最终结果进行融合得到待识别的音素的最终结果，结束循环；

步骤S1306，将当前输入的音素的最终结果作为待识别的音素的最终结果，结束循环。

相比于图11的实施方式，在图13的实施方式中，终端设备判断当前输入的音素的长度是否小于音素长度阈值，对音素进行字符和标点预测时，参考了该音素之后的音素，参考的音素的数量即音素长度阈值。在本申请的实施例中，终端设备可以设置音素长度阈值为32，可以理解的是，音素长度阈值的大小可以根据实际的需求设置，本申请对此不作具体限定。

在步骤S1303中，若当前输入的音素的长度不小于音素长度阈值，终端设备将当前输入的音素的第一个音素的最终结果保存，但不在将该第一个音素的特征向量作为下一次推理的输入。而是将当前输入的音素中除了第一个音素以外的音素和待识别的音素中的下一个音素继续输入第一多任务神经网络模型，进行推理。

举例来说，假设音素长度阈值为32，当待识别的音素的总长度小于32时，终端设备逐个将待识别的音素输入第一多任务神经网络模型，在当前输入的所有音素的长度小于32时，当输入一个新的待识别的音素时，终端设备采用第一多任务神经网络模型进行推理可以确定当前输入的待识别音素的临时结果，并根据当前输入的所有的待识别音素刷新当前输入的待识别的音素之前的音素的临时结果….重复以上过程，直到将全部待识别的音素输入第一多任务神经网络模型后，进行推理得到的结果为最终结果。

假如输入为‘春眠不觉晓，处处闻啼鸟。’，当输入为‘chun1’时，输入到第一多任务神经网络模型的实际向量为[chun1,0,0,0…,0]，没有的地方补齐0到32位。输出为[椿,0,0…,0]。输入下一个音素‘mian2’时，可以将‘chun1mian2’一起送入第一多任务神经网络模型，输入为[chun1,mian2,0,0,…,0]，输出为[春，眠，0,0…,0]，得到的结果会将音素“chun”原来的临时结果刷新……重复以上过程，直到将[chun1,mian2,bu，jue，xiao，chu，chu，wen，ti，niao0,0,…,0]输入第一多任务神经网络模型，得到最终结果。

当待识别的音素的总长度不小于32时，逐个将待识别的音素输入到第一多任务神经网络模型中，在当前输入的音素的长度不小于32时，与前述总长度小于32时的过程相同，不再赘述。在当前输入的音素的长度不小于32时，将当前输入的音素的第一个音素的预测结果作为最终结果保存，将当前输入的音素中除了第一个音素以外的音素和待识别的音素中的下一个音素继续输入第一多任务神经网络模型，继续进行推理…，重复这个过程，直到将待识别音素的最后一个音素输入之后进行推理得到最终结果，将之前保存的最终结果与最后一次识别的32个最终结果进行融合得到待识别的音素的最终结果。

根据本申请上述实施方式的语音识别方法，采用非流式网络结构，无需将已经预测了结果的音素重新输入网络模型中，相比于流式网络结构，非流式网络结构不需要缓存已经预测的历史结果，减少占用内存空间，可以进一步减小神经网络模型的尺寸，易于在端侧进行部署。并且，与流式网络结构相比，非流式网络结构虽然计算量大，但是网络中没有拼接、切分等算子，不需要内存搬运等耗时操作，在GPU等高并行计算的设备中，可以快速推理。

根据以上从训练样本集构建到模型推理过程，对本申请的语音识别方法的介绍可知，为了解决相关的语音识别技术中存在模型无法在端侧部署、采用声学模型预测标点的预测准确性不高的技术问题，本申请提供了一种实施方式的语音识别方法，具体包括以下步骤：

终端设备将待识别的音素输入到第一多任务神经网络模型中，其中，所述第一多任务神经网络模型为采用训练样本对第二多任务神经网络模型进行训练得到的，所述训练样本包括：样本语句，所述样本语句中包括字符，所述训练样本包括：样本语句中的字符对应的音素、标点；

终端设备采用所述第一多任务神经网络模型输出第一预测结果，所述第一预测结果包括所述待识别的音素对应的字符预测结果和标点预测结果；

终端设备根据所述第一预测结果将所述第一预测结果的至少一部分显示在所述终端设备的显示屏上。

具体的过程可以参见上文中对图10所述的语音识别方法的过程的说明，不再赘述。

为了进一步解决相关技术中输入和输出的长度不相同的情况下，无法同时输出预测结果的技术问题，本申请的实施方式中，构建的训练样本中的所述样本语句中字符的长度与音素的长度和标点的长度相同。通过构建训练样本集的过程中，将样本语句中字符的长度和注音后的音素的长度、标点的长度进行对齐，采用本申请的实施方式构建的训练样本集对神经网络模型进行训练后，神经网络模型可以同时进行音素到字符的转换、以及标点预测，从而可以同时输出预测的字符和标点结果。

在一种可能的实现方式中，所述第一多任务神经网络模型为流式网络结构，终端设备将待识别的音素输入到第一多任务神经网络模型中，采用所述第一多任务神经网络模型输出第一预测结果，可以包括：所述终端设备将待识别的音素循环送入第一多任务神经网络模型中，采用所述第一多任务神经网络模型基于当前输入的待识别的音素的长度输出所述第一预测结果。使得待识别的音素的预测结果既参考了之前的音素、又参考了之后的音素，提高了预测的准确率。

在完成将全部待识别的音素输入第一多任务神经网络模型之前，如果当前输入的音素的长度不小于感受野，则终端设备根据当前输入的音素的字符和标点，得到当前输入的音素的第一个音素的第二预测结果，并存储第二预测结果；终端设备将所述第一个音素的特征向量、当前输入的音素中除了第一个音素以外的音素和待识别的音素中的下一个音素继续输入第一多任务神经网络模型。

在一种可能的实现方式中，所述终端设备将待识别的音素循环送入第一多任务神经网络模型中，采用所述第一多任务神经网络模型基于当前输入的待识别的音素的长度输出所述第一预测结果，还可以包括：

关于采用流式网络结构进行推理的过程，具体的示例可以参见上文中图11和图12部分的描述，需要说明的是，图11和图12的推理过程仅仅是本申请的一些实例，其中的步骤的执行顺序以及具体数值不以任何方式限制本申请。

在一种可能的实现方式中，所述第一多任务神经网络模型为非流式网络结构，所述终端设备采用所述第一多任务神经网络模型输出第一预测结果，可以包括：终端设备采用所述第一多任务神经网络模型基于待识别的音素的总长度和音素长度阈值的关系，输出所述第一预测结果。

在一种可能的实现方式中，终端设备采用所述第一多任务神经网络模型基于待识别的音素的总长度和音素长度阈值的关系，输出所述第一预测结果，可以包括：

若待识别的音素的总长度小于音素长度阈值，采用所述第一多任务神经网络模型根据全部的待识别的音素，输出所述第一预测结果。

在一种可能的实现方式中，终端设备采用所述第一多任务神经网络模型基于待识别的音素的总长度和音素长度阈值的关系，输出所述第一预测结果，还可以包括：

若待识别的音素的总长度不小于音素长度阈值，在完成将全部待识别的音素输入第一多任务神经网络模型之前：如果当前输入的音素的长度小于音素长度阈值，则终端设备继续输入下一个音素；如果当前输入的音素的长度不小于音素长度阈值，则终端设备根据当前输入的音素的字符和标点，得到当前输入的音素的第一个音素的第二预测结果并存储第二预测结果，终端设备将当前输入的音素中除了第一个音素以外的音素和待识别的音素中的下一个音素继续输入第一多任务神经网络模型。

在一种可能的实现方式中，采用所述第一多任务神经网络模型基于待识别的音素的总长度和音素长度阈值的关系，输出所述第一预测结果，还可以包括：

关于采用非流式网络结构进行推理的过程，具体的示例可以参见上文中图13部分的描述，需要说明的是，图13的推理过程仅仅是本申请的一些实例，其中的步骤的执行顺序以及具体数值不以任何方式限制本申请。

本申请还提供了一种神经网络模型训练方法，所述方法包括：

采用所述训练样本对第二多任务神经网络模型进行训练得到第一多任务神经网络模型；其中，第二多任务神经网络模型和第一多任务神经网络模型都能够输出第一预测结果、显示所述第一预测结果的至少一部分，所述第一预测结果包括字符预测结果和标点预测结果，同时对音素的字符和标点进行预测。

本申请的实施方式的神经网络模型训练方法，通过构建一个用于同时预测音素对应的字符和标点的神经网络模型，并构建训练样本集对神经网络模型进行训练，得到训练后的神经网络模型，训练过程中可以不需要进行分词处理，将待识别的语音转换后的音素(向量)作为训练后的神经网络模型的输入，进行正向推理，可以同时输出音素对应的字符和标点，并且神经网络模型尺寸小，可以在端侧部署。

为了进一步解决相关技术中的输入序列和输出序列长度不同的场景下，无法同时输出预测结果的技术问题，在一种可能的实现方式中，构建训练样本，可以包括：

在一种可能的实现方式中，对齐后的中文中的多音字对应的音素为，多音字对应的多个音素中的任意一个；对齐后的英文字符中包括对齐字符，对齐后的英文字符的长度和英文字符对应的音素的长度相同；对于对齐之前没有标点的字符，对齐后的标点为blank。具体地，上述对字符对应的音素与字符和标点进行对齐处理，可以包括：

对于中文中的多音字，从多音字对应的多个音素中任选一个音素作为多音字对应的音素；

对于英文字符，在字符中添加对齐字符与字符对应的音素的长度对齐；

若字符之后没有标点，则设置字符对应的标点为blank，使得标点的长度与字符的长度对齐。

其中，对于英文字符，在字符中添加对齐字符的位置可以位于需要对齐的字符的两侧，比如，之前或者之后。也就是说，可以将字符和音素进行左对齐或者右对齐，右对齐可以是将对齐字符添加在需要对齐的字符的左侧，左对齐可以是将对齐字符添加在需要对齐的字符的右侧。对于对齐字符的形式以及添加方式可以参见上文中图7部分的介绍，不再赘述。并且，以上对齐处理的三步可以分别进行，也可以同时进行，本申请对此不作限定。

在一种可能的实现方式中，采用所述训练样本对第二多任务神经网络模型进行训练得到第一多任务神经网络模型，可以包括：

对于训练过程的具体介绍可以参见上文中图8部分的内容，不再赘述。

本申请的实施例还提供了一种语音识别装置，可以应用于如图1或者图3所示的终端设备。图14示出根据本申请一实施例的语音识别装置的框图，如图14所示，所述语音识别装置可以包括：

输入模块1400，用于将待识别的音素输入到第一多任务神经网络模型中，其中，所述第一多任务神经网络模型为采用训练样本对第二多任务神经网络模型进行训练得到的，所述训练样本包括：样本语句，所述样本语句中包括字符，所述训练样本还包括：样本语句中的字符对应的音素、标点；

推理模块1401，用于采用所述第一多任务神经网络模型输出第一预测结果，所述第一预测结果包括所述待识别的音素对应的字符预测结果和标点预测结果；

显示模块1402，用于根据所述第一预测结果将所述第一预测结果的至少一部分显示在所述终端设备的显示屏上。

本申请的实施方式的语音识别装置，通过构建一个用于同时预测、输出音素对应的字符和标点的神经网络模型，并构建训练样本集对神经网络模型进行训练，得到训练后的神经网络模型，训练过程中可以不需要进行分词处理，将待识别的语音转换后的音素(向量)作为训练后的神经网络模型的输入，进行正向推理，可以同时输出音素对应的字符和标点，并且神经网络模型尺寸小，可以在端侧部署。

在一种可能的实现方式中，所述样本语句中字符的长度与音素的长度和标点的长度相同。

在一种可能的实现方式中，所述第一多任务神经网络模型为流式网络结构，所述输入模块1400，可以包括：第一输入单元，用于将待识别的音素循环送入第一多任务神经网络模型中；所述推理模块1401，包括：第一推理单元，用于采用所述第一多任务神经网络模型基于当前输入的待识别的音素的长度输出所述第一预测结果。使得待识别的音素的预测结果既参考了之前的音素、又参考了之后的音素，提高了预测的准确率。

在一种可能的实现方式中，所述第一输入单元还用于：在完成将全部待识别的音素输入第一多任务神经网络模型之前，如果当前输入的音素的长度小于感受野，则终端设备继续输入下一个音素；

在完成将全部待识别的音素输入第一多任务神经网络模型之前，如果当前输入的音素的长度不小于感受野，则第一推理单元用于根据当前输入的音素的字符和标点，得到当前输入的音素的第一个音素的第二预测结果，并存储第二预测结果；终端设备将所述第一个音素的特征向量、当前输入的音素中除了第一个音素以外的音素和待识别的音素中的下一个音素继续输入第一多任务神经网络模型。

在一种可能的实现方式中，所述第一推理单元还用于：在完成将全部待识别的音素输入第一多任务神经网络模型时根据当前输入的音素的字符和标点，得到当前输入的音素的第二预测结果；

在一种可能的实现方式中，所述第一多任务神经网络模型为非流式网络结构，所述推理模块1401，包括：

第二推理单元，用于采用所述第一多任务神经网络模型基于待识别的音素的总长度和音素长度阈值的关系，输出所述第一预测结果。

在一种可能的实现方式中，所述第二推理单元还用于若待识别的音素的总长度小于音素长度阈值，采用所述第一多任务神经网络模型根据根据全部的待识别的音素，输出所述第一预测结果。

在一种可能的实现方式中，所述第二推理单元还用于：

若待识别的音素的总长度不小于音素长度阈值，在完成将全部待识别的音素输入第一多任务神经网络模型之前：如果当前输入的音素的长度小于音素长度阈值，则继续输入下一个音素；如果当前输入的音素的长度不小于音素长度阈值，则根据当前输入的音素的字符和标点，得到当前输入的音素的第一个音素的第二预测结果并存储第二预测结果，终端设备将当前输入的音素中除了第一个音素以外的音素和待识别的音素中的下一个音素继续输入第一多任务神经网络模型。

在一种可能的实现方式中，所述第二推理单元还用于：

本申请的实施例还提供了一种神经网络模型训练装置。图15示出根据本申请一实施例的神经网络模型训练装置的框图，如图15所示，所述神经网络模型训练装置可以包括：

构建模块1500，用于构建训练样本，所述训练样本包括：样本语句，所述样本语句中包括字符，所述训练样本还包括：样本语句中的字符对应的音素、标点；

训练模块1501，用于采用所述训练样本对第二多任务神经网络模型进行训练得到第一多任务神经网络模型；其中，第二多任务神经网络模型和第一多任务神经网络模型都能够输出第一预测结果、显示所述第一预测结果的至少一部分，所述第一预测结果包括字符预测结果和标点预测结果，同时对音素的字符和标点进行预测。

本申请的实施方式的神经网络训练装置，通过构建能够同时进行音素转字符和标点预测的神经网络模型，并构建训练样本集对神经网络模型进行训练，得到训练后的神经网络模型，训练过程中不需要进行分词处理，将待识别的语音转换后的音素(向量)作为训练后的神经网络模型的输入，进行正向推理，可以同时输出音素对应的字符和标点，并且神经网络模型尺寸小，可以在端侧部署。在一种可能的实现方式中，所述构建模块1500，包括：

对齐单元，用于根据注音词典对样本语句中的字符进行注音得到字符对应的音素、并对字符对应的音素与字符和标点进行对齐处理，所述样本语句中字符的长度与音素的长度和标点的长度相同。

在一种可能的实现方式中，对齐后的中文中的多音字对应的音素为，多音字对应的多个音素中的任意一个；对齐后的英文字符中包括对齐字符，对齐后的英文字符的长度和英文字符对应的音素的长度相同；对于对齐之前没有标点的字符，对齐后的标点为blank。具体地，所述对齐单元还用于：

在一种可能的实现方式中，所述训练模块1501，包括：

本申请的实施例提供了一种语音识别装置，包括：处理器以及用于存储处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令时实现上述方法。

本申请的实施例提供了一种神经网络模型训练装置，包括：处理器以及用于存储处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令时实现上述方法。

本申请的实施例提供了一种非易失性计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现上述方法。

本申请的实施例提供了一种计算机程序产品，包括计算机可读代码，或者承载有计算机可读代码的非易失性计算机可读存储介质，当所述计算机可读代码在电子设备的处理器中运行时，所述电子设备中的处理器执行上述方法。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(Random Access Memory，RAM)、只读存储器(Read Only Memory，ROM)、可擦式可编程只读存储器(Electrically Programmable Read-Only-Memory，EPROM或闪存)、静态随机存取存储器(Static Random-Access Memory，SRAM)、便携式压缩盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、数字多功能盘(Digital Video Disc，DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。

这里所描述的计算机可读程序指令或代码可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本申请操作的计算机程序指令可以是汇编指令、指令集架构(Instruction Set Architecture，ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(Local Area Network，LAN)或广域网(Wide Area Network，WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或可编程逻辑阵列(Programmable Logic Array，PLA)，该电子电路可以执行计算机可读程序指令，从而实现本申请的各个方面。

这里参照根据本申请实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本申请的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本申请的多个实施例的装置、系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。

也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行相应的功能或动作的硬件(例如电路或ASIC(Application Specific Integrated Circuit，专用集成电路))来实现，或者可以用硬件和软件的组合，如固件等来实现。

尽管在此结合各实施例对本申请进行了描述，然而，在实施所要求保护的本申请过程中，本领域技术人员通过查看所述附图、公开内容、以及所附权利要求书，可理解并实现所述公开实施例的其它变化。在权利要求中，“包括”(comprising)一词不排除其他组成部分或步骤，“一”或“一个”不排除多个的情况。单个处理器或其它单元可以实现权利要求中列举的若干项功能。相互不同的从属权利要求中记载了某些措施，但这并不表示这些措施不能组合起来产生良好的效果。

以上已经描述了本申请的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

一种语音识别方法，其特征在于，所述方法包括：

终端设备将待识别的音素输入到第一多任务神经网络模型中；

采用所述第一多任务神经网络模型输出第一预测结果，所述第一预测结果包括所述待识别的音素对应的字符预测结果和标点预测结果；

终端设备根据所述第一预测结果将所述第一预测结果的至少一部分显示在所述终端设备的显示屏上。
根据权利要求1所述的方法，其特征在于，所述第一多任务神经网络模型为采用训练样本对第二多任务神经网络模型进行训练得到的，所述训练样本包括：样本语句，所述样本语句中包括字符，所述训练样本还包括：样本语句中的字符对应的音素、标点。
根据权利要求2所述的方法，其特征在于，所述样本语句中字符的长度与音素的长度和标点的长度相同。
根据权利要求1所述的方法，其特征在于，所述第一多任务神经网络模型为流式网络结构，

终端设备将待识别的音素输入到第一多任务神经网络模型中，采用所述第一多任务神经网络模型输出第一预测结果，包括：所述终端设备将待识别的音素循环送入第一多任务神经网络模型中，采用所述第一多任务神经网络模型基于当前输入的待识别的音素的长度输出所述第一预测结果。
根据权利要求4所述的方法，其特征在于，所述终端设备将待识别的音素循环送入第一多任务神经网络模型中，采用所述第一多任务神经网络模型基于当前输入的待识别的音素的长度输出所述第一预测结果，包括：

在完成将全部待识别的音素输入第一多任务神经网络模型之前，如果当前输入的音素的长度小于感受野，则终端设备继续输入下一个音素；

在完成将全部待识别的音素输入第一多任务神经网络模型之前，如果当前输入的音素的长度不小于感受野，则终端设备根据当前输入的音素的字符和标点，得到当前输入的音素的第一个音素的第二预测结果，并存储第二预测结果；终端设备将所述第一个音素的特征向量、当前输入的音素中除了第一个音素以外的音素和待识别的音素中的下一个音素继续输入第一多任务神经网络模型。
根据权利要求4或5所述的方法，其特征在于，所述终端设备将待识别的音素循环送入第一多任务神经网络模型中，采用所述第一多任务神经网络模型基于当前输入的待识别的音素的长度输出所述第一预测结果，还包括：

在完成将全部待识别的音素输入第一多任务神经网络模型时，终端设备根据当前输入的音素的字符和标点，得到当前输入的音素的第二预测结果；

若不存在已存储的第二预测结果，则终端设备将当前输入的音素的第二预测结果作为待识别的音素的第一预测结果；

若存在已存储的第二预测结果，则根据当前输入的音素的第二预测结果和已存储的第二预测结果，得到待识别的音素的第一预测结果。
根据权利要求1所述的方法，其特征在于，所述第一多任务神经网络模型为非流式网络结构，

采用所述第一多任务神经网络模型输出第一预测结果，包括：

采用所述第一多任务神经网络模型基于待识别的音素的总长度和音素长度阈值的关系，输出所述第一预测结果。
根据权利要求7所述的方法，其特征在于，采用所述第一多任务神经网络模型基于待识别的音素的总长度和音素长度阈值的关系，输出所述第一预测结果，包括：

若待识别的音素的总长度小于音素长度阈值，采用所述第一多任务神经网络模型根据全部的待识别的音素，输出所述第一预测结果。
根据权利要求7或8所述的方法，其特征在于，采用所述第一多任务神经网络模型基于待识别的音素的总长度和音素长度阈值的关系，输出所述第一预测结果，包括：

若待识别的音素的总长度不小于音素长度阈值，在完成将全部待识别的音素输入第一多任务神经网络模型之前：如果当前输入的音素的长度小于音素长度阈值，则终端设备继续输入下一个音素；如果当前输入的音素的长度不小于音素长度阈值，则终端设备根据当前输入的音素的字符和标点，得到当前输入的音素的第一个音素的第二预测结果并存储第二预测结果，终端设备将当前输入的音素中除了第一个音素以外的音素和待识别的音素中的下一个音素继续输入第一多任务神经网络模型。
根据权利要求9所述的方法，其特征在于，采用所述第一多任务神经网络模型基于待识别的音素的总长度和音素长度阈值的关系，输出所述第一预测结果，还包括：

若待识别的音素的总长度不小于音素长度阈值，在完成将全部待识别的音素输入第一多任务神经网络模型时，根据当前输入的音素的字符和标点，得到当前输入的音素的第二预测结果；

若不存在已存储的第二预测结果，则将当前输入的音素的第二预测结果作为待识别的音素的第一预测结果；

若存在已存储的第二预测结果，则根据当前输入的音素的第二预测结果和已存储的第二预测结果，得到待识别的音素的第一预测结果。
一种神经网络模型训练方法，其特征在于，所述方法包括：

构建训练样本，所述训练样本包括：样本语句，所述样本语句中包括字符，所述训练样本还包括：样本语句中的字符对应的音素、标点；

采用所述训练样本对第二多任务神经网络模型进行训练得到第一多任务神经网络模型；其中，第二多任务神经网络模型和第一多任务神经网络模型都能够输出第一预测结果、显示所述第一预测结果的至少一部分，所述第一预测结果包括字符预测结果和标点预测结果。
根据权利要求11所述的方法，其特征在于，构建训练样本，包括：

根据注音词典对样本语句中的字符进行注音得到字符对应的音素、并对字符对应的音素与字符和标点进行对齐处理，所述样本语句中字符的长度与音素的长度和标点的长度相同。
根据权利要求12所述的方法，其特征在于，

对齐后的中文中的多音字对应的音素为，多音字对应的多个音素中的任意一个；

对齐后的英文字符中包括对齐字符，对齐后的英文字符的长度和英文字符对应的音素的长度相同；

对于对齐之前没有标点的字符，对齐后的标点为blank。
根据权利要求11所述的方法，其特征在于，采用所述训练样本对第二多任务神经网络模型进行训练得到第一多任务神经网络模型，包括：

将训练样本输入第二多任务神经网络模型，确定所述训练样本对应的字符概率矩阵和标点概率矩阵；

根据字符概率矩阵和标点概率矩阵，分别计算字符交叉熵损失和标点交叉熵损失；

根据字符交叉熵损失、字符交叉熵损失对应的第一权值和标点交叉熵损失、标点交叉熵损失对应的第二权值，计算加权交叉熵损失；

根据所述加权交叉熵损失调整第二多任务神经网络模型的参数，得到训练后的第一多任务神经网络模型。
一种语音识别装置，其特征在于，所述装置包括：

输入模块，用于将待识别的音素输入到第一多任务神经网络模型中；

推理模块，用于采用所述第一多任务神经网络模型输出第一预测结果，所述第一预测结果包括所述待识别的音素对应的字符预测结果和标点预测结果；

显示模块，用于根据所述第一预测结果将所述第一预测结果的至少一部分显示在终端设备的显示屏上。
根据权利要求15所述的装置，其特征在于，所述第一多任务神经网络模型为采用训练样本对第二多任务神经网络模型进行训练得到的，所述训练样本包括：样本语句，所述样本语句中包括字符，所述训练样本还包括：样本语句中的字符对应的音素、标点。
根据权利要求16所述的装置，其特征在于，所述样本语句中字符的长度与音素的长度和标点的长度相同。
根据权利要求15所述的装置，其特征在于，所述第一多任务神经网络模型为流式网络结构，

所述输入模块，包括：第一输入单元，用于将待识别的音素循环送入第一多任务神经网络模型中；

所述推理模块，包括：

第一推理单元，用于采用所述第一多任务神经网络模型基于当前输入的待识别的音素的长度输出所述第一预测结果。
根据权利要求18所述的装置，其特征在于，

所述第一输入单元还用于：在完成将全部待识别的音素输入第一多任务神经网络模型之前，如果当前输入的音素的长度小于感受野，则终端设备继续输入下一个音素；

在完成将全部待识别的音素输入第一多任务神经网络模型之前，如果当前输入的音素的长度不小于感受野，则第一推理单元用于根据当前输入的音素的字符和标点，得到当前输入的音素的第一个音素的第二预测结果，并存储第二预测结果；第一输入单元还用于将所述第一个音素的特征向量、当前输入的音素中除了第一个音素以外的音素和待识别的音素中的下一个音素继续输入第一多任务神经网络模型。
根据权利要求18或19所述的装置，其特征在于，所述第一推理单元还用于：

在完成将全部待识别的音素输入第一多任务神经网络模型时，根据当前输入的音素的字符和标点，得到当前输入的音素的第二预测结果；

若不存在已存储的第二预测结果，则将当前输入的音素的第二预测结果作为待识别的音素的第以预测结果；

若存在已存储的第二预测结果，则根据当前输入的音素的第二预测结果和已存储的第二预测结果，得到待识别的音素的第二预测结果。
根据权利要求15所述的装置，其特征在于，所述第一多任务神经网络模型为非流式网络结构，

所述推理模块，包括：

第二推理单元，用于采用所述第一多任务神经网络模型基于待识别的音素的总长度和音素长度阈值的关系，输出所述第一预测结果。
根据权利要求21所述的装置，其特征在于，所述第二推理单元还用于若待识别的音素的总长度小于音素长度阈值，采用所述第一多任务神经网络模型根据根据全部的待识别的音素，输出所述第一预测结果。
根据权利要求21或22所述的装置，其特征在于，所述第二推理单元还用于：

若待识别的音素的总长度不小于音素长度阈值，在完成将全部待识别的音素输入第一多任务神经网络模型之前：如果当前输入的音素的长度小于音素长度阈值，则继续输入下一个音素；如果当前输入的音素的长度不小于音素长度阈值，则根据当前输入的音素的字符和标点，得到当前输入的音素的第一个音素的第二预测结果并存储第二预测结果，将当前输入的音素中除了第一个音素以外的音素和待识别的音素中的下一个音素继续输入第一多任务神经网络模型。
根据权利要求23所述的装置，其特征在于，所述第二推理单元还用于：

若待识别的音素的总长度不小于音素长度阈值，在完成将全部待识别的音素输入第一多任务神经网络模型时，根据当前输入的音素的字符和标点，得到当前输入的音素的第二预测结果；

若不存在已存储的第二预测结果，则将当前输入的音素的第二预测结果作为待识别的音素的第一预测结果；

若存在已存储的第二预测结果，则根据当前输入的音素的第二预测结果和已存储的第二预测结果，得到待识别的音素的第一预测结果。
一种神经网络模型训练装置，其特征在于，所述装置包括：

构建模块，用于构建训练样本，所述训练样本包括：样本语句，所述样本语句中包括字符，所述训练样本还包括：样本语句中的字符对应的音素、标点；

训练模块，用于采用所述训练样本对第二多任务神经网络模型进行训练得到第一多任务神经网络模型；其中，第二多任务神经网络模型和第一多任务神经网络模型都能够输出第一预测结果、显示所述第一预测结果的至少一部分，所述第一预测结果包括字符预测结果和标点预测结果。
根据权利要求25所述的装置，其特征在于，所述构建模块，包括：

对齐单元，用于根据注音词典对样本语句中的字符进行注音得到字符对应的音素、并对字符对应的音素与字符和标点进行对齐处理，所述样本语句中字符的长度与音素的长度和标点的长度相同。
根据权利要求26所述的装置，其特征在于，

对齐后的中文中的多音字对应的音素为，多音字对应的多个音素中的任意一个；

对齐后的英文字符中包括对齐字符，对齐后的英文字符的长度和英文字符对应的音素的长度相同；

对于对齐之前没有标点的字符，对齐后的标点为blank。
根据权利要求25所述的装置，其特征在于，所述训练模块，包括：

确定单元，用于将训练样本输入第二多任务神经网络模型，确定所述训练样本对应的字符概率矩阵和标点概率矩阵；

第一计算单元，用于根据字符概率矩阵和标点概率矩阵，分别计算字符交叉熵损失和标点交叉熵损失；

第二计算单元，用于根据字符交叉熵损失、字符交叉熵损失对应的第一权值和标点交叉熵损失、标点交叉熵损失对应的第二权值，计算加权交叉熵损失；

调整单元，用于根据所述加权交叉熵损失调整第二多任务神经网络模型的参数，得到训练后的第一多任务神经网络模型。
一种语音识别装置，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令时实现权利要求1-10任意一项所述的方法。
一种神经网络模型训练装置，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令时实现权利要求11-14任意一项所述的方法。
一种非易失性计算机可读存储介质，其上存储有计算机程序指令，其特征在于，所述计算机程序指令被处理器执行时实现权利要求1-10中任意一项所述的方法，或者，实现权利要求11-14任意一项所述的方法。