WO2022134833A1

WO2022134833A1 - 语音信号的处理方法、装置、设备及存储介质

Info

Publication number: WO2022134833A1
Application number: PCT/CN2021/126111
Authority: WO
Inventors: 赵沁; 徐国强
Original assignee: 深圳壹账通智能科技有限公司
Priority date: 2020-12-23
Filing date: 2021-10-25
Publication date: 2022-06-30
Also published as: CN112735383A

Abstract

本申请涉及人工智能技术领域，提供一种语音信号的处理方法、装置、设备及存储介质，用于提高对有效短语音的识别准确性。语音信号的处理方法包括：获取待处理语音信号的目标短语音片段，并提取目标短语音片段的目标音频特征；根据目标短语音片段从预置短语音片段中获取目标分类标签，目标分类标签包括疑问语气、正常陈述语气和/或虚警噪声；通过目标神经网络模型和目标分类标签，对目标音频特征进行分类得到初始识别类型以及目标置信度；将目标置信度大于预设阈值的初始识别类型确定为目标识别类型；根据目标识别类型对待处理语音信号进行过滤得到目标语音信号。此外，本申请还涉及区块链技术，待处理语音信号可存储于区块链中。

Description

语音信号的处理方法、装置、设备及存储介质

本申请要求于2020年12月23日提交中国专利局、申请号为202011545242.0、发明名称为“语音信号的处理方法、装置、设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在申请中。

技术领域

本申请涉及人工智能的语音信号处理领域，尤其涉及一种语音信号的处理方法、装置、设备及存储介质。

背景技术

近些年来，随着深度学习和强化学习的蓬勃发展，智能对话系统作为人工智能领域的核心技术，得到了广泛的应用。自然语言理解是智能对话系统中的重要环节。现有的自然语言理解处理方式基本都集中于文本处理，并且为了提升人机交互的流畅性和效率，智能对话系统引入了文本情绪处理。

但是，发明人意识到现有的自然语言理解处理方式中，对于一些短语音，极少或者没有其相关的文本信息，因此，无法有效地判断说话人的情绪和表达内容，从而，导致了对有效短语音的识别准确性较低。

发明内容

本申请提供一种语音信号的处理方法、装置、设备及存储介质，用于提高对有效短语音的识别准确性。

本申请第一方面提供了一种语音信号的处理方法，包括：

获取待处理语音信号，对所述待处理语音信号进行短语音片段识别，得到目标短语音片段，并对所述目标短语音片段进行帧音频特征提取，得到目标音频特征；

将所述目标短语音片段与预置短语音片段依次进行匹配和分类标签提取，得到目标分类标签，所述目标分类标签包括疑问语气、正常陈述语气和/或虚警噪声；

通过预置的目标神经网络模型和所述目标分类标签，对所述目标音频特征进行分类，得到初始识别类型，以及所述初始识别类型对应的目标置信度；

判断所述目标置信度是否大于预设阈值，若所述目标置信度大于所述预设阈值，则将所述初始识别类型确定为目标识别类型；

根据所述目标识别类型，对所述待处理语音信号进行过滤，得到目标语音信号。

本申请第二方面提供了一种语音信号的处理设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现如下步骤：

本申请第三方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行如下步骤：

本申请第四方面提供了一种语音信号的处理装置，包括：

识别提取模块，用于获取待处理语音信号，对所述待处理语音信号进行短语音片段识别，得到目标短语音片段，并对所述目标短语音片段进行帧音频特征提取，得到目标音频特征；

匹配提取模块，用于将所述目标短语音片段与预置短语音片段依次进行匹配和分类标签提取，得到目标分类标签，所述目标分类标签包括疑问语气、正常陈述语气和/或虚警噪声；

第一分类模块，用于通过预置的目标神经网络模型和所述目标分类标签，对所述目标音频特征进行分类，得到初始识别类型，以及所述初始识别类型对应的目标置信度；

判断确定模块，用于判断所述目标置信度是否大于预设阈值，若所述目标置信度大于所述预设阈值，则将所述初始识别类型确定为目标识别类型；

过滤模块，用于根据所述目标识别类型，对所述待处理语音信号进行过滤，得到目标语音信号。

本申请提供的技术方案中，通过根据待处理语音信号的目标短语音片段，从预置短语音片段中，获取包括疑问语气、正常陈述语气和/或虚警噪声的目标分类标签，通过目标神经网络模型和目标分类标签对目标音频特征进行分类，得到初始识别类型以及目标置信度，根据目标识别类型对待处理语音信号进行过滤得到目标语音信号，结合了短语音片段和文本输出，能够有效地判断和及时识别说话人的情绪、表达内容，以及疑问语句和背景噪声，从而提高了对有效短语音的识别准确性。

附图说明

图1为本申请实施例中语音信号的处理方法的一个实施例示意图；

图2为本申请实施例中语音信号的处理方法的另一个实施例示意图；

图3为本申请实施例中语音信号的处理装置的一个实施例示意图；

图4为本申请实施例中语音信号的处理装置的另一个实施例示意图；

图5为本申请实施例中语音信号的处理设备的一个实施例示意图。

具体实施方式

本申请实施例提供了一种语音信号的处理方法、装置、设备及存储介质，提高了对有效短语音的识别准确性。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本申请实施例的具体流程进行描述，请参阅图1，本申请实施例中语音信号的处理方法的一个实施例包括：

101、获取待处理语音信号，对待处理语音信号进行短语音片段识别，得到目标短语音片段，并对目标短语音片段进行帧音频特征提取，得到目标音频特征。

可以理解的是，本申请的执行主体可以为语音信号的处理装置，还可以是终端或者服务器，具体此处不做限定。本申请实施例以服务器为执行主体为例进行说明。

服务器可通过预置界面发送的语音信息，对语音信息依次进行数据清理处理、数据集成和信号转换，得到初始语音信号，对初始语音信号进行预加重处理和加窗分帧处理，并进行信号增强和语音端点检测，得到待处理语音信号；服务器也可通过发送采集指令给预置的语音采集器或语音采集设备，以使得语音采集器或语音采集设备采集初始语音信号，对初始语音信号进行预加重处理和加窗分帧处理，并进行信号增强处理和语音端点检测处理，得到待处理语音信号。

服务器可通过根据预设的短语音识别规则，对待处理语音信号进行短语音片段识别，得到目标短语音片段，该短语音识别规则可包括目标短语音片段的语音时长和短时能量大小。服务器也可通过根据预设的短语音识别规则，对待处理语音信号进行短语音片段识别，得到初始短语音片段，通过自动语音识别(automatic speech recognition，ASR)算法，对初始短语音片段进行语音识别和文本转换，得到初始短语音文本，判断初始短语音文本是否为单音节词，若是，则将初始短语音文本对应的初始短语音片段确定为目标短语音片段，若否，则剔除或标记初始短语音片段。

102、将目标短语音片段与预置短语音片段依次进行匹配和分类标签提取，得到目标分类标签，目标分类标签包括疑问语气、正常陈述语气和/或虚警噪声。

服务器可通过生成目标短语音片段的目标键，对预置数据库中存储的预置短语音片段的散列表进行键值对匹配，得到与目标短语音片段对应的目标短语音片段；或者，服务器也可通过预置的倒序索引，对预置数据库进行检索，得到与目标短语音片段对应的目标短语音片段；或者服务器也可通过计算目标短语音片段与预置短语音片段之间的语义相似度、文本相似度和情绪特征相似度，并计算语义相似度、文本相似度和情绪特征相似度的均值或权重和值，得到最终的相似度，判断该最终的相似度是否大于预设的目标值，若是，则将对应的预置短语音片段确定为目标短语音片段，若否，则返回空值。服务器通过预置的标签提取算法，提取目标短语音片段的分类标签信息，得到目标分类标签。

103、通过预置的目标神经网络模型和目标分类标签，对目标音频特征进行分类，得到初始识别类型，以及初始识别类型对应的目标置信度。

服务器通过预置的目标神经网络模型中的全连接网络层，基于目标分类标签，对目标音频特征进行分类并进行概率值计算，得到每个目标短语音片段对应给的初始识别类型，以及初始识别类型对应的置信度，该置信度为概率值。

其中，服务器可通过预置的目标神经网络模型中的多个分类器(全连接网络层的数量包括多个，一个全连接网络层对应一个分类器)，分别基于目标分类标签，对目标音频特征进行分类并进行概率值计算，得到每个目标短语音片段对应给的多个识别结果，以及初始识别类型对应的多个初始置信度，按照值从大到小的顺序对多个初始置信度进行排序，将排序第一的初始置信度确定为目标置信度，将目标置信度对应的识别结果确定为初始识别类型。

104、判断目标置信度是否大于预设阈值，若目标置信度大于预设阈值，则将初始识别类型确定为目标识别类型。

服务器判断目标置信度是否大于预设阈值，若是，则将初始识别类型确定为目标识别类型，若否，则将初始识别类型确定为默认类型，默认类型可用于指示正常陈述语气。其中，服务器通过判断目标置信度是否大于预设阈值，得到目标识别类型之后，可根据目标短语音片段，检索预置数据库中存储的初始历史短语音片段，得到对应的目标历史短语音片段，该目标历史短语音片段包含有对应的分类标签信息，从该分类标签信息中可获得目标历史短语音片段的历史识别类型，计算目标识别类型与历史识别类型之间的误差值，判断误差值是否大于预设的目标误差值，若是，则将目标识别类型和目标识别类型对应的目标短语音片段发送至预置审核端，若否，则创建目标识别类型和目标识别类型对应的目标短语音片段的对应关系，并落地缓存创建有对应关系的目标识别类型和目标识别类型对应的目标短语音片段，提高了目标识别类型的识别准确度。

105、根据目标识别类型，对待处理语音信号进行过滤，得到目标语音信号。

例如，目标识别类型为疑问语气、正常陈述语气和虚警噪声，待处理语音信号包括多个目标短语音片段，分别为目标短语音片段1、目标短语音片段2和目标短语音片段3，则服务器根据目标识别类型对待处理语音信号进行分类，得到与疑问语气对应的语音信号1、与正常陈述语气对应的语音信号2和与虚警噪声对应的语音信号3，将待处理语音信号中删除语音信号3，得到包含有语音信号1和语音信号2的目标语音信号。

本申请实施例中，通过根据待处理语音信号的目标短语音片段，从预置短语音片段中，获取包括疑问语气、正常陈述语气和/或虚警噪声的目标分类标签，通过目标神经网络模型和目标分类标签对目标音频特征进行分类，得到初始识别类型以及目标置信度，根据目标识别类型对待处理语音信号进行过滤得到目标语音信号，结合了短语音片段和文本输出，能够有效地判断和及时识别说话人的情绪、表达内容，以及疑问语句和背景噪声，从而提高了对有效短语音的识别准确性。

请参阅图2，本申请实施例中语音信号的处理方法的另一个实施例包括：

201、获取待处理语音信号，对待处理语音信号进行短语音片段识别，得到目标短语音片段，并对目标短语音片段进行帧音频特征提取，得到目标音频特征。

具体地，服务器通过预置语音采集器采集待处理语音信号，对待处理语音信号依次进行预处理、语音片段识别分割和语音文本转换，得到语音片段和语音片段对应的初始文本信息；对初始文本信息中的单音节词进行识别，得到目标文本信息，并将目标文本信息对应的语音片段确定为目标短语音片段；根据预置的帧长和帧间重叠度，对目标短语音片段进行帧语音提取，得到帧语音片段，并对帧语音片段进行音频特征提取，得到目标音频特征。

例如，服务器通过调用预置的麦克风或其他预置语音采集器，来采集待处理语音信号，对待处理语音信号进行信号增强的预处理，得到增强语音信号，对增强语音信号进行语音端点检测，得到语音端点，根据语音端点对增强语音信号进行片段分割，以实现语音片段识别分割的处理，得到语音片段，并通过ASR算法对语音片段进行语音识别和语音文本转换，得到初始文本信息，检测初始文本信息中的单音节词，获取语音片段中单音节词对应的目标短语音片段，根据预置的帧长和帧间重叠度，提取目标短语音片段中的每一帧短语音，得到帧语音片段，该帧长为25ms，该帧间重叠度为50％，提取帧语音片段的音频特征得到目标音频特征，目标音频特征包括频谱特征、梅尔频率倒谱特征、一阶二阶差分特征、音量特征和基频特征中的至少两种。

具体地，服务器获取待处理语音信号，对待处理语音信号进行短语音片段识别，得到目标短语音片段，并对目标短语音片段进行帧音频特征提取，得到目标音频特征之前，获取经过类型标注的短语音片段训练样本，并对短语音片段训练样本进行帧音频特征提取，得到音频特征样本，短语音片段训练样本包括疑问语气、正常陈述语气和虚警噪声的标签信息；通过预置的十折交叉验证算法，将音频特征样本分类为训练集和验证集；通过训练集对预置的初始神经网络模型进行训练，得到候选神经网络模型，并通过验证集对候选神经网络模型进行验证，得到验证结果；通过预置的损失函数、优化器和验证结果，对候选神经网络模型进行迭代更新，得到目标神经网络模型。

例如，服务器获取初始语音信号训练样本，对初始语音信号训练样本进行信号增强、语音端点检测处理和语音片段分割，得到语音片段训练样本，通过预置的ASR算法，对语音片段训练样本进行文本转换和短语音筛选，得到短语音片段训练样本，将短语音片段训练样本发送至预置标注端，通过预置标注端对短语音片段训练样本进行标注，或者通过预置标注端对短语音片段训练样本进行人工标注，或调用预置的标注工具对短语音片段训练样本进行标注，得到经过类型标注的短语音片段训练样本，标注的内容包括疑问语气、正常陈述语气和虚警噪声，如“疑问”，“陈述”和“噪声”等，对短语音片段训练样本进行帧音频特征提取，得到音频特征样本，通过预置的十折交叉验证算法，将音频特征样本分类为训练集和验证集，初始神经网络模型采用全连接网络结构，损失函数选择交叉熵函数(损失函数不限于交叉熵函数)，优化器选择Adam优化器，学习率为〖10〗^(-4)，批尺寸选择256，使用交叉熵函数，对候选神经网络模型的网络结构和模型参数进行迭代更新，训练经过100次循环，根据验证结果的正确率选择最优模型，从而得到目标神经网络模型，其中，在对初始神经网络模型进行训练时，可结合预训练模型进行训练和迭代更新，优化器可包括动量Momentum优化器、亚当Adam优化器以及均方根误差(root mean square prop，RMSprop)优化器中的至少一种。

具体地，服务器获取验证结果与标签信息之间的第一误差值，并通过预置的损失函数计算候选神经网络模型的第二误差值；根据第一误差值和第二误差值确定目标误差值；通过优化器，对候选神经网络模型的模型参数和/或网络结构进行迭代更新，直至目标误差值小于预设误差值，得到目标神经网络模型。

例如，服务器计算验证结果与标签信息之间的相似度，将相似度与1的差值确定为验证结果与标签信息之间的第一误差值，通过预置的损失函数计算候选神经网络模型的第二误差值，计算第一误差值和第二误差值的和值或权重值，得到目标误差值，通过优化器，对候选神经网络模型的模型参数(超参数)进行迭代调整，和/或通过优化器，对候选神经网络模型进行网络层的增加、删除，或对候选神经网络模型进行多个网络框架的连接方式进行调整，直至目标误差值小于预设误差值、损失函数收敛，得到目标神经网络模型。

202、将目标短语音片段与预置短语音片段依次进行匹配和分类标签提取，得到目标分类标签，目标分类标签包括疑问语气、正常陈述语气和/或虚警噪声。

具体地，服务器计算目标语音片段与预置短语音片段之间的短时能量相似度，以及音频特征相似度；将短时能量相似度和音频特征相似度进行加权求和处理，得到目标相似度；从预置短语音片段中，获取目标相似度大于预设相似度的目标短语音片段，并通过预置的标签提取算法，提取目标短语音片段的分类标签，得到目标分类标签。

服务器计算目标语音片段与预置短语音片段之间的短时能量相似度，以及音频特征相似度之外，还可以计算目标语音片段与预置短语音片段之间的文本相似度和情绪特征相似度，将短时能量相似度、音频特征相似度、文本相似度和情绪特征相似度进行加权求和处理，得到目标相似度，判断目标相似度是否大于预设目标相似度，若是，将目标相似度对应的预置短语音片段确定为目标短语音片段，若否，则返回空值，停止执行。服务器通过预置的标签提取算法，提取目标短语音片段的分类标签，得到目标分类标签。

203、通过预置的目标神经网络模型和目标分类标签，对目标音频特征进行分类，得到初始识别类型，以及初始识别类型对应的目标置信度。

具体地，服务器通过预置的目标神经网络模型中的注意力机制层，对目标音频特征依次进行音频偏重特征矩阵计算和特征融合，得到融合特征矩阵，目标神经网络模型包括注意力机制层和多层的全连接层；通过多层的全连接层和目标分类标签，对融合特征矩阵进行多层级分类和概率值计算，得到初始识别类型，以及初始识别类型对应的目标置信度。

服务器通过预置的目标神经网络模型中的注意力机制层，计算目标音频特征的注意力矩阵，得到音频偏重特征矩阵，将音频偏重特征矩阵与目标音频特征进行矩阵相乘或矩阵相加，得到融合特征矩阵，其中，多层的全连接层为按照预设的串联方式进行连接的全连接层，即上一个全连接层的输出为下一个全连接层的输入，通过多层的全连接层，基于目标分类标签，对融合特征矩阵进行多层级分类并进行概率值计算，得到初始识别类型，以及初始识别类型对应的目标置信度，提高了获取初始识别类型，以及初始识别类型对应的目标置信度的准确度。

204、判断目标置信度是否大于预设阈值，若目标置信度大于预设阈值，则将初始识别类型确定为目标识别类型。

该步骤204的执行过程与上述步骤104的执行过程类似，在此不再赘述。

205、根据目标识别类型，对待处理语音信号进行过滤，得到目标语音信号。

服务器可根据目标识别类型，对待处理语音信号进行语音片段分割，得到分割后的语音片段，将符合预设类型条件的分割后的语音片段进行删除，得到删除后的语音片段，将删除后的语音片段按照待处理语音信号的时序和序列进行拼接，得到目标语音信号，例如：目标识别类型为疑问语气、正常陈述语气和虚警噪声，预设类型条件为虚警噪声，根据目标识别类型，对待处理语音信号进行语音片段分割，得到分割后的语音片段A1(对应正常陈述语气)、A2(对应虚警噪声)和A3(对应疑问语气)，A2预设类型条件，则将A2删除，按照待处理语音信号的时序和序列将A1和A3进行拼接，得到目标语音信号A1A3。

206、根据目标语音信号，从预置数据库中匹配对应的语音辅助信息，语音辅助信息包括目标语音信号对应的业务信息、回答信息和调用的辅助机器人信息。

例如，本语音信号的处理方法可运用于智能对话辅助决策系统中，智能对话辅助决策系统对应的服务器对该目标语音信号进行语音识别，得到语音文本，对语音文本进行实体识别，得到实体，根据实体对预置数据库中的语音辅助知识图谱进行检索，得到与目标语音信号对应的语音辅助信息，该语音辅助信息包括但不限于语音对应的业务信息、回答信息和调用的辅助机器人信息等，其中，服务器得到语音辅助信息后，可根据语音辅助信息进行相应的操作，如：业务流程信息的展示、语音对话和辅助机器人的调用，提高了匹配语音辅助信息的准确性，有效地避免了将一些背景噪声识别为有效语音片段输出问题，以及对于背景噪声对应的短语音片段的错误文本内容，后续会对此进行处理及响应，所增加识别的负担和失误率的问题，提高了智能对话辅助决策系统的效率和准确性，有利于提高智能对话辅助决策系统的理解能力以及后续的决策准确度，极大地提升了用户体验，本技术基于ASR输出的语音片段以及对应的文本输出，不需要额外的数据处理，易于集成在现有的智能对话辅助决策系统中。

本申请实施例中，不仅结合了短语音片段和文本输出，能够有效地判断和及时识别说话人的情绪、表达内容，以及疑问语句和背景噪声，从而提高了对有效短语音的识别准确性，还通过根据目标语音信号，从预置数据库中匹配对应的语音辅助信息，提高了匹配语音辅助信息的准确性。

上面对本申请实施例中语音信号的处理方法进行了描述，下面对本申请实施例中语音信号的处理装置进行描述，请参阅图3，本申请实施例中语音信号的处理装置一个实施例包括：

识别提取模块301，用于获取待处理语音信号，对待处理语音信号进行短语音片段识别，得到目标短语音片段，并对目标短语音片段进行帧音频特征提取，得到目标音频特征；

匹配提取模块302，用于将目标短语音片段与预置短语音片段依次进行匹配和分类标签提取，得到目标分类标签，目标分类标签包括疑问语气、正常陈述语气和/或虚警噪声；

第一分类模块303，用于通过预置的目标神经网络模型和目标分类标签，对目标音频特征进行分类，得到初始识别类型，以及初始识别类型对应的目标置信度；

判断确定模块304，用于判断目标置信度是否大于预设阈值，若目标置信度大于预设阈值，则将初始识别类型确定为目标识别类型；

过滤模块305，用于根据目标识别类型，对待处理语音信号进行过滤，得到目标语音信号。

上述语音信号的处理装置中各个模块的功能实现与上述语音信号的处理方法实施例中各步骤相对应，其功能和实现过程在此处不再一一赘述。

请参阅图4，本申请实施例中语音信号的处理装置的另一个实施例包括：

过滤模块305，用于根据目标识别类型，对待处理语音信号进行过滤，得到目标语音信号；

匹配模块306，用于根据目标语音信号，从预置数据库中匹配对应的语音辅助信息，语音辅助信息包括目标语音信号对应的业务信息、回答信息和调用的辅助机器人信息。

可选的，识别提取模块301还可以具体用于：

通过预置语音采集器采集待处理语音信号，对待处理语音信号依次进行预处理、语音片段识别分割和语音文本转换，得到语音片段和语音片段对应的初始文本信息；

对初始文本信息中的单音节词进行识别，得到目标文本信息，并将目标文本信息对应的语音片段确定为目标短语音片段；

根据预置的帧长和帧间重叠度，对目标短语音片段进行帧语音提取，得到帧语音片段，并对帧语音片段进行音频特征提取，得到目标音频特征。

可选的，匹配提取模块302还可以具体用于：

计算目标语音片段与预置短语音片段之间的短时能量相似度，以及音频特征相似度；

将短时能量相似度和音频特征相似度进行加权求和处理，得到目标相似度；

从预置短语音片段中，获取目标相似度大于预设相似度的目标短语音片段，并通过预置的标签提取算法，提取目标短语音片段的分类标签，得到目标分类标签。

可选的，第一分类模块303还可以具体用于：

通过预置的目标神经网络模型中的注意力机制层，对目标音频特征依次进行音频偏重特征矩阵计算和特征融合，得到融合特征矩阵，目标神经网络模型包括注意力机制层和多层的全连接层；

通过多层的全连接层和目标分类标签，对融合特征矩阵进行多层级分类和概率值计算，得到初始识别类型，以及初始识别类型对应的目标置信度。

可选的，语音信号的处理装置，还包括：

特征提取模块307，用于获取经过类型标注的短语音片段训练样本，并对短语音片段训练样本进行帧音频特征提取，得到音频特征样本，短语音片段训练样本包括疑问语气、正常陈述语气和虚警噪声的标签信息；

第二分类模块308，用于通过预置的十折交叉验证算法，将音频特征样本分类为训练集和验证集；

训练验证模块309，用于通过训练集对预置的初始神经网络模型进行训练，得到候选神经网络模型，并通过验证集对候选神经网络模型进行验证，得到验证结果；

更新模块310，用于通过预置的损失函数、优化器和验证结果，对候选神经网络模型进行迭代更新，得到目标神经网络模型。

可选的，更新模块310还可以具体用于：

获取验证结果与标签信息之间的第一误差值，并通过预置的损失函数计算候选神经网络模型的第二误差值；

根据第一误差值和第二误差值确定目标误差值；

通过优化器，对候选神经网络模型的模型参数和/或网络结构进行迭代更新，直至目标误差值小于预设误差值，得到目标神经网络模型。

上述语音信号的处理装置中各模块和各单元的功能实现与上述语音信号的处理方法实施例中各步骤相对应，其功能和实现过程在此处不再一一赘述。

上面图3和图4从模块化功能实体的角度对本申请实施例中的语音信号的处理装置进行详细描述，下面从硬件处理的角度对本申请实施例中语音信号的处理设备进行详细描述。

图5是本申请实施例提供的一种语音信号的处理设备的结构示意图，该语音信号的处理设备500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)510(例如，一个或一个以上处理器)和存储器520，一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中，存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对语音信号的处理设备500中的一系列指令操作。更进一步地，处理器510可以设置为与存储介质530通信，在语音信号的处理设备500上执行存储介质530中的一系列指令操作。

语音信号的处理设备500还可以包括一个或一个以上电源540，一个或一个以上有线或无线网络接口550，一个或一个以上输入输出接口560，和/或，一个或一个以上操作系统531，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图5示出的语音信号的处理设备结构并不构成对语音信号的处理设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本申请还提供一种语音信号的处理设备，包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；所述至少一个处理器调用所述存储器中的所述指令，以使得所述语音信号的处理设备执行上述语音信号的处理方法中的步骤。

本申请还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，也可以为易失性计算机可读存储介质。计算机可读存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行如下步骤：

进一步地，计算机可读存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。

本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

一种语音信号的处理方法，其中，所述语音信号的处理方法包括：

获取待处理语音信号，对所述待处理语音信号进行短语音片段识别，得到目标短语音片段，并对所述目标短语音片段进行帧音频特征提取，得到目标音频特征；

将所述目标短语音片段与预置短语音片段依次进行匹配和分类标签提取，得到目标分类标签，所述目标分类标签包括疑问语气、正常陈述语气和/或虚警噪声；

通过预置的目标神经网络模型和所述目标分类标签，对所述目标音频特征进行分类，得到初始识别类型，以及所述初始识别类型对应的目标置信度；

判断所述目标置信度是否大于预设阈值，若所述目标置信度大于所述预设阈值，则将所述初始识别类型确定为目标识别类型；

根据所述目标识别类型，对所述待处理语音信号进行过滤，得到目标语音信号。
根据权利要求1所述的语音信号的处理方法，其中，所述获取待处理语音信号，对所述待处理语音信号进行短语音片段识别，得到目标短语音片段，并对所述目标短语音片段进行帧音频特征提取，得到目标音频特征，包括：

通过预置语音采集器采集待处理语音信号，对所述待处理语音信号依次进行预处理、语音片段识别分割和语音文本转换，得到语音片段和所述语音片段对应的初始文本信息；

对所述初始文本信息中的单音节词进行识别，得到目标文本信息，并将所述目标文本信息对应的语音片段确定为目标短语音片段；

根据预置的帧长和帧间重叠度，对所述目标短语音片段进行帧语音提取，得到帧语音片段，并对所述帧语音片段进行音频特征提取，得到目标音频特征。
根据权利要求1所述的语音信号的处理方法，其中，所述将所述目标短语音片段与预置短语音片段依次进行匹配和分类标签提取，得到目标分类标签，包括：

计算所述目标语音片段与预置短语音片段之间的短时能量相似度，以及音频特征相似度；

将所述短时能量相似度和所述音频特征相似度进行加权求和处理，得到目标相似度；

从所述预置短语音片段中，获取所述目标相似度大于预设相似度的目标短语音片段，并通过预置的标签提取算法，提取所述目标短语音片段的分类标签，得到目标分类标签。
根据权利要求1所述的语音信号的处理方法，其中，所述通过预置的目标神经网络模型和所述目标分类标签，对所述目标音频特征进行分类，得到初始识别类型，以及所述初始识别类型对应的目标置信度，包括：

通过预置的目标神经网络模型中的注意力机制层，对所述目标音频特征依次进行音频偏重特征矩阵计算和特征融合，得到融合特征矩阵，所述目标神经网络模型包括注意力机制层和多层的全连接层；

通过所述多层的全连接层和所述目标分类标签，对所述融合特征矩阵进行多层级分类和概率值计算，得到初始识别类型，以及所述初始识别类型对应的目标置信度。
根据权利要求1所述的语音信号的处理方法，其中，所述获取待处理语音信号，对所述待处理语音信号进行短语音片段识别，得到目标短语音片段，并对所述目标短语音片段进行帧音频特征提取，得到目标音频特征之前，还包括：

获取经过类型标注的短语音片段训练样本，并对所述短语音片段训练样本进行帧音频特征提取，得到音频特征样本，所述短语音片段训练样本包括疑问语气、正常陈述语气和虚警噪声的标签信息；

通过预置的十折交叉验证算法，将所述音频特征样本分类为训练集和验证集；

通过所述训练集对预置的初始神经网络模型进行训练，得到候选神经网络模型，并通过所述验证集对所述候选神经网络模型进行验证，得到验证结果；

通过预置的损失函数、优化器和所述验证结果，对所述候选神经网络模型进行迭代更新，得到目标神经网络模型。
根据权利要求5所述的语音信号的处理方法，其中，所述通过预置的损失函数、优化器和所述验证结果，对所述候选神经网络模型进行迭代更新，得到目标神经网络模型，包括：

获取所述验证结果与所述标签信息之间的第一误差值，并通过预置的损失函数计算所述候选神经网络模型的第二误差值；

根据所述第一误差值和所述第二误差值确定目标误差值；

通过所述优化器，对所述候选神经网络模型的模型参数和/或网络结构进行迭代更新，直至所述目标误差值小于预设误差值，得到目标神经网络模型。
根据权利要求1-6中任一项所述的语音信号的处理方法，其中，所述根据所述目标识别类型，对所述待处理语音信号进行过滤，得到目标语音信号之后，还包括：

根据所述目标语音信号，从预置数据库中匹配对应的语音辅助信息，所述语音辅助信息包括所述目标语音信号对应的业务信息、回答信息和调用的辅助机器人信息。
一种语音信号的处理设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现如下步骤：

获取待处理语音信号，对所述待处理语音信号进行短语音片段识别，得到目标短语音片段，并对所述目标短语音片段进行帧音频特征提取，得到目标音频特征；

将所述目标短语音片段与预置短语音片段依次进行匹配和分类标签提取，得到目标分类标签，所述目标分类标签包括疑问语气、正常陈述语气和/或虚警噪声；

通过预置的目标神经网络模型和所述目标分类标签，对所述目标音频特征进行分类，得到初始识别类型，以及所述初始识别类型对应的目标置信度；

判断所述目标置信度是否大于预设阈值，若所述目标置信度大于所述预设阈值，则将所述初始识别类型确定为目标识别类型；

根据所述目标识别类型，对所述待处理语音信号进行过滤，得到目标语音信号。
根据权利要求8所述的语音信号的处理设备，所述处理器执行所述计算机程序时还实现以下步骤：

通过预置语音采集器采集待处理语音信号，对所述待处理语音信号依次进行预处理、语音片段识别分割和语音文本转换，得到语音片段和所述语音片段对应的初始文本信息；

对所述初始文本信息中的单音节词进行识别，得到目标文本信息，并将所述目标文本信息对应的语音片段确定为目标短语音片段；

根据预置的帧长和帧间重叠度，对所述目标短语音片段进行帧语音提取，得到帧语音片段，并对所述帧语音片段进行音频特征提取，得到目标音频特征。
根据权利要求8所述的语音信号的处理设备，所述处理器执行所述计算机程序时还实现以下步骤：

计算所述目标语音片段与预置短语音片段之间的短时能量相似度，以及音频特征相似度；

将所述短时能量相似度和所述音频特征相似度进行加权求和处理，得到目标相似度；

从所述预置短语音片段中，获取所述目标相似度大于预设相似度的目标短语音片段，并通过预置的标签提取算法，提取所述目标短语音片段的分类标签，得到目标分类标签。
根据权利要求8所述的语音信号的处理设备，所述处理器执行所述计算机程序时还实现以下步骤：

通过预置的目标神经网络模型中的注意力机制层，对所述目标音频特征依次进行音频偏重特征矩阵计算和特征融合，得到融合特征矩阵，所述目标神经网络模型包括注意力机制层和多层的全连接层；

通过所述多层的全连接层和所述目标分类标签，对所述融合特征矩阵进行多层级分类和概率值计算，得到初始识别类型，以及所述初始识别类型对应的目标置信度。
根据权利要求8所述的语音信号的处理设备，所述处理器执行所述计算机程序时还实现以下步骤：

获取经过类型标注的短语音片段训练样本，并对所述短语音片段训练样本进行帧音频特征提取，得到音频特征样本，所述短语音片段训练样本包括疑问语气、正常陈述语气和虚警噪声的标签信息；

通过预置的十折交叉验证算法，将所述音频特征样本分类为训练集和验证集；

通过所述训练集对预置的初始神经网络模型进行训练，得到候选神经网络模型，并通过所述验证集对所述候选神经网络模型进行验证，得到验证结果；

通过预置的损失函数、优化器和所述验证结果，对所述候选神经网络模型进行迭代更新，得到目标神经网络模型。
根据权利要求12所述的语音信号的处理设备，所述处理器执行所述计算机程序时还实现以下步骤：

获取所述验证结果与所述标签信息之间的第一误差值，并通过预置的损失函数计算所述候选神经网络模型的第二误差值；

根据所述第一误差值和所述第二误差值确定目标误差值；

通过所述优化器，对所述候选神经网络模型的模型参数和/或网络结构进行迭代更新，直至所述目标误差值小于预设误差值，得到目标神经网络模型。
根据权利要求8-13中任一项所述的语音信号的处理设备，所述处理器执行所述计算机程序时还实现以下步骤：

根据所述目标语音信号，从预置数据库中匹配对应的语音辅助信息，所述语音辅助信息包括所述目标语音信号对应的业务信息、回答信息和调用的辅助机器人信息。
一种计算机可读存储介质，所述计算机可读存储介质中存储计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行如下步骤：

获取待处理语音信号，对所述待处理语音信号进行短语音片段识别，得到目标短语音片段，并对所述目标短语音片段进行帧音频特征提取，得到目标音频特征；

将所述目标短语音片段与预置短语音片段依次进行匹配和分类标签提取，得到目标分类标签，所述目标分类标签包括疑问语气、正常陈述语气和/或虚警噪声；

通过预置的目标神经网络模型和所述目标分类标签，对所述目标音频特征进行分类，得到初始识别类型，以及所述初始识别类型对应的目标置信度；

判断所述目标置信度是否大于预设阈值，若所述目标置信度大于所述预设阈值，则将所述初始识别类型确定为目标识别类型；

根据所述目标识别类型，对所述待处理语音信号进行过滤，得到目标语音信号。
根据权利要求15所述的计算机可读存储介质，当所述计算机指令在计算机上运行时，使得计算机还执行如下步骤：

通过预置语音采集器采集待处理语音信号，对所述待处理语音信号依次进行预处理、语音片段识别分割和语音文本转换，得到语音片段和所述语音片段对应的初始文本信息；

对所述初始文本信息中的单音节词进行识别，得到目标文本信息，并将所述目标文本信息对应的语音片段确定为目标短语音片段；

根据预置的帧长和帧间重叠度，对所述目标短语音片段进行帧语音提取，得到帧语音片段，并对所述帧语音片段进行音频特征提取，得到目标音频特征。
根据权利要求15所述的计算机可读存储介质，当所述计算机指令在计算机上运行时，使得计算机还执行如下步骤：

计算所述目标语音片段与预置短语音片段之间的短时能量相似度，以及音频特征相似度；

将所述短时能量相似度和所述音频特征相似度进行加权求和处理，得到目标相似度；

从所述预置短语音片段中，获取所述目标相似度大于预设相似度的目标短语音片段，并通过预置的标签提取算法，提取所述目标短语音片段的分类标签，得到目标分类标签。
根据权利要求15所述的计算机可读存储介质，当所述计算机指令在计算机上运行时，使得计算机还执行如下步骤：

通过预置的目标神经网络模型中的注意力机制层，对所述目标音频特征依次进行音频偏重特征矩阵计算和特征融合，得到融合特征矩阵，所述目标神经网络模型包括注意力机制层和多层的全连接层；

通过所述多层的全连接层和所述目标分类标签，对所述融合特征矩阵进行多层级分类和概率值计算，得到初始识别类型，以及所述初始识别类型对应的目标置信度。
根据权利要求15所述的计算机可读存储介质，当所述计算机指令在计算机上运行时，使得计算机还执行如下步骤：

获取经过类型标注的短语音片段训练样本，并对所述短语音片段训练样本进行帧音频特征提取，得到音频特征样本，所述短语音片段训练样本包括疑问语气、正常陈述语气和虚警噪声的标签信息；

通过预置的十折交叉验证算法，将所述音频特征样本分类为训练集和验证集；

通过所述训练集对预置的初始神经网络模型进行训练，得到候选神经网络模型，并通过所述验证集对所述候选神经网络模型进行验证，得到验证结果；

通过预置的损失函数、优化器和所述验证结果，对所述候选神经网络模型进行迭代更新，得到目标神经网络模型。
一种语音信号的处理装置，其中，所述语音信号的处理装置包括：

识别提取模块，用于获取待处理语音信号，对所述待处理语音信号进行短语音片段识别，得到目标短语音片段，并对所述目标短语音片段进行帧音频特征提取，得到目标音频特征；

匹配提取模块，用于将所述目标短语音片段与预置短语音片段依次进行匹配和分类标签提取，得到目标分类标签，所述目标分类标签包括疑问语气、正常陈述语气和/或虚警噪声；

第一分类模块，用于通过预置的目标神经网络模型和所述目标分类标签，对所述目标音频特征进行分类，得到初始识别类型，以及所述初始识别类型对应的目标置信度；

判断确定模块，用于判断所述目标置信度是否大于预设阈值，若所述目标置信度大于所述预设阈值，则将所述初始识别类型确定为目标识别类型；

过滤模块，用于根据所述目标识别类型，对所述待处理语音信号进行过滤，得到目标语音信号。