WO2021208287A1

WO2021208287A1 - 用于情绪识别的语音端点检测方法、装置、电子设备及存储介质

Info

Publication number: WO2021208287A1
Application number: PCT/CN2020/104783
Authority: WO
Inventors: 王德勋; 徐国强
Original assignee: 深圳壹账通智能科技有限公司
Priority date: 2020-04-14
Filing date: 2020-07-27
Publication date: 2021-10-21
Also published as: CN111179975B; CN111179975A

Abstract

提供一种用于情绪识别的语音端点检测方法、装置、电子设备及存储介质，涉及人工智能，其中该方法包括：采集音频信号（S1）；对音频信号进行处理操作，包括：对音频信号加入多种场景下的纯噪声段和人声噪声段并随机设置信噪比（S2）；提取处理后音频信号的MFCC特征及其二阶差分特征（S3）；将该特征输入神经网络模型，提取音频信号的高维信息及音频信号前后关联特征（S4）；将提取的音频信号的高维信息及关联特征输入全连接网络模型，获得音频信号每一帧的检测结果，检测结果包括人声和非人声（S5）；根据音频信号的检测结果将音频信号分割成人声部分和非人声部分（S6）。该语音端点检测方法能够在低信噪比环境和非平稳环境下准确语音端点检测。

Description

用于情绪识别的语音端点检测方法、装置、电子设备及存储介质

本申请要求于2020年4月14日提交中国专利局、申请号为202010287911.2，发明名称为“用于情绪识别的语音端点检测方法、电子设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能的语音语义技术领域，更为具体地，涉及一种用于情绪识别的语音端点检测方法、装置、电子设备及存储介质。

背景技术

在自然语言处理过程中进行语音情绪识别前，需要准确识别出一段长音频中人声说话的端点位置，以便将环境噪声与说话人声进行分离，该技术即为语音端点检测(VAD)，是一种驱动性的语音信号处理技术。研究表明，若能准确识别说话人的起止位置并进行分割可以有效提升后续语音任务的准确率。发明人发现传统VAD技术主要基于音频的短时能量、过零率、倒谱特征或熵进行检测，这些方法原理简单，运算量小，但是当噪音和语音信号的时域和频域分布相似时，情绪识别效果比较差；在一些语音编码如G.729B和AMR-NB中也采用了VAD技术，这些方法同样在平稳噪声环境下准确率较高，但是在低信噪比环境和非平稳环境下检测效果就不理想。

发明内容

鉴于上述问题，本申请的目的是提供一种能够在低信噪比环境和非平稳环境下准确识别人声说话的端点位置的用于情绪识别的语音端点检测方法、装置、电子设备及存储介质。

为了实现上述目的，本申请提供一种用于情绪识别的语音端点检测方法，包括：

采集音频信号；

对音频信号进行处理操作，所述处理操作包括：对音频信号加入多种场景下的纯噪声段和人声噪声段并随机设置信噪比；

提取处理后的音频信号的MFCC特征及其二阶差分特征；

将上述MFCC特征及其二阶差分特征输入神经网络模型，提取音频信号的高维信息及音频信号前后关联特征，所述高维信息是神经网络模型从样本中学习到的高度抽象的音素特征，所述关联特征表示音频信号相邻多帧的时序动态关系；

将提取的音频信号的高维信息及关联特征输入全连接网络模型，获得音频信号每一帧的检测结果，所述检测结果包括人声和非人声；

根据音频信号的检测结果，将音频信号分割成人声部分和非人声部分。

此外，为了实现上述目的，本申请还提供一种用于情绪识别的语音端点检测装置，包括：

采集模块，采集音频信号；

信号处理模块，对采集模块采集的音频信号进行处理操作，所述处理操作包括：对音频信号加入多种场景下的纯噪声段和人声噪声段并随机设置信噪比；

第一特征提取模块，提取信号处理模块处理后的音频信号的MFCC特征及其二阶差分特征；

第二特征提取模块，将上述第一特征提取模块提取的MFCC特征及其二阶差分特征输入神经网络模型，提取音频信号的高维信息及音频信号前后关联特征，所述高维信息是神经网络模型从样本中学习到的高度抽象的音素特征，所述关联特征表示音频信号相邻多帧的时序动态关系；

端点识别模块，将第二特征提取模块提取的音频信号的高维信息及关联特征输入全连接网络模型，获得音频信号每一帧的检测结果，所述检测结果包括人声和非人声；

分割模块，根据音频信号的检测结果，将音频信号分割成人声部分和非人声部分。

此外，为了实现上述目的，本申请还提供一种电子设备，所述电子设备包括存储器和处理器，所述存储器中存储有用于情绪识别的语音端点检测程序，所述用于情绪识别的语音端点检测程序被所述处理器执行时实现上述用于情绪识别的语音端点检测方法的步骤。此外，为了实现上述目的，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质中包括有用于情绪识别的语音端点检测程序，所述用于情绪识别的语音端点检测程序被处理器执行时，实现上述用于情绪识别的语音端点检测方法的步骤。

本申请所述用于情绪识别的语音端点检测方法、装置、电子设备及存储介质对音频信号加入多种场景下的纯噪声段和人声噪声段并随机设置信噪比，将MFCC特征及其二阶差分特征输入神经网络模型，提取音频信号的高维信息及音频信号前后关联特征，将音频信号的高维信息及关联特征输入全连接网络模型，增强模型的在复杂多变环境下的鲁棒性和泛化能力，改善了传统VAD中对低信噪比和非平稳环境下噪声数据的辨识度。

附图说明

图1是本申请用于情绪识别的语音端点检测方法较佳实施例的应用环境示意图；

图2是图1中用于情绪识别的语音端点检测程序较佳实施例的模块示意图；

图3是本申请用于情绪识别的语音端点检测方法较佳实施例的流程图。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

以下将结合附图对本申请的具体实施例进行详细描述。

本申请提供一种用于情绪识别的语音端点检测方法，应用于一种电子设备。参照图1所示，为本申请用于情绪识别的语音端点检测方法较佳实施例的应用环境示意图。

在本实施例中，电子设备1可以是服务器、手机、平板电脑、便携计算机、桌上型计算机等具有运算功能的终端客户端。

该电子设备1包括存储器11、处理器12、网络接口13及通信总线14。

存储器11包括至少一种类型的可读存储介质。所述至少一种类型的可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器等的非易失性存储介质。在一些实施例中，所述可读存储介质可以是所述电子设备1的内部存储单元，例如该电子设备1的硬盘。在另一些实施例中，所述可读存储介质也可以是所述电子设备1的外部存储器，例如所述电子设备1上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。

在本实施例中，所述存储器11的可读存储介质通常用于存储安装于所述电子设备1的用于情绪识别的语音端点检测程序10等。所述存储器11还可以用于暂时地存储已经输出或者将要输出的数据。

处理器12在一些实施例中可以是一中央处理器(Central Processing Unit，CPU)，微处理器或其他数据处理芯片，用于运行存储器11中存储的程序代码或处理数据，例如执行用于情绪识别的语音端点检测程序10等。

网络接口13可选地可以包括标准的有线接口、无线接口(如WI-FI接口)，通常用于在该电子设备1与其他电子客户端之间建立通信连接。

通信总线14用于实现这些组件之间的连接通信。

图1仅示出了具有组件11-14的电子设备1，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

可选地，该电子设备1还可以包括用户接口，用户接口可以包括输入单元比如键盘(Keyboard)、语音输入装置比如麦克风(microphone)等具有语音识别功能的客户端、语音输出装置比如音响、耳机等，可选地用户接口还可以包括标准的有线接口、无线接口。

可选地，该电子设备1还可以包括显示器，显示器也可以称为显示屏或显示单元。

在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode，OLED)触摸器等。显示器用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。

可选地，该电子设备1还包括触摸传感器。所述触摸传感器所提供的供用户进行触摸操作的区域称为触控区域。此外，这里所述的触摸传感器可以为电阻式触摸传感器、电容式触摸传感器等。而且，所述触摸传感器不仅包括接触式的触摸传感器，也可包括接近式的触摸传感器等。此外，所述触摸传感器可以为单个传感器，也可以为例如阵列布置的多个传感器。

可选地，该电子设备1还可以包括逻辑门电路，传感器、音频电路等等，在此不再赘述。

在图1所示的装置实施例中，作为一种计算机存储介质的存储器11中可以包括操作系统以及用于情绪识别的语音端点检测程序10；处理器12执行存储器11中存储的用于情绪识别的语音端点检测程序10时实现如下步骤：

采集音频信号；

提取处理后的音频信号的MFCC特征及其二阶差分特征，所述MFCC特征为梅尔倒谱系数(Mel-scale Frequency Cepstral Coefficients，简称MFCC)是在Mel标度频率域提取出来的倒谱参数，Mel标度描述了人耳频率的非线性特性，所述MFCC特征的二阶差分特征是音频信号相邻三帧之间的动态关系；

将上述MFCC特征及其二阶差分特征输入神经网络模型，提取音频信号的高维信息及音频信号前后关联特征，所述高维信息是神经网络模型从大量样本中学习到的高度抽象的音素特征，所述音素特征是指根据音素时长信息表达的词性特征、上下文信息和音调特征，所述关联特征表示音频信号相邻多帧的时序动态关系；

根据音频信号的检测结果，将提取的音频信号分割成人声部分和非人声部分。

在其他实施例中，所述用于情绪识别的语音端点检测程序10还可以被分割为一个或者多个模块，一个或者多个模块被存储于存储器11中，并由处理器12执行，以完成本申请。本申请所称的模块是指能够完成特定功能的一系列计算机程序指令段。参照图2所示，为图1中用于情绪识别的语音端点检测程序10较佳实施例的功能模块图。所述用于情绪识别的语音端点检测程序10可以被分割为采集模块110、信号处理模块120、第一特征提取模块130、第二特征提取模块140、端点识别模块150和分割模块160，其中：

采集模块110，采集音频信号；

信号处理模块120，对采集模块110采集的音频信号进行处理操作，所述处理操作包括：对音频信号加入多种场景下的纯噪声段和人声噪声段并随机设置信噪比；

第一特征提取模块130，提取信号处理模块120处理后的音频信号的MFCC特征及其二阶差分特征；

第二特征提取模块140，将上述第一特征提取模块130提取的MFCC特征及其二阶差分特征输入神经网络模型，提取音频信号的高维信息及音频信号前后关联特征；

端点识别模块150，将第二特征提取模块140提取的音频信号的高维信息及关联特征输入全连接网络模型，获得音频信号每一帧的检测结果，所述检测结果包括人声和非人声；

分割模块160，根据音频信号的检测结果，将音频信号分割成人声部分和非人声部分。

优选地，还包括情绪识别模块170，将人声部分的音频信号输入语音情绪检测模型，输出用于情绪识别的语音端点检测的结果。

在一个可选实施例中，上述端点识别模块150对全连接网络模型的输出结果进行平滑操作，当检测到为人声或非人声端点的一帧时，再检测所述一帧的前后第一设定数量的帧数据，只有当其中至少第二设定数量的检测结果与所述一帧的检测结果一致时，才最终确定所述一帧为人声或非人声。

在一个可选实施例中，所述第一特征提取模块130包括：

预加重单元，对音频信号进行预加重；

分帧加窗单元，对预加重后的音频信号进行分帧和加窗；

变换单元，对分帧和加窗后的音频信号进行快速傅里叶变换；

平滑处理单元，经过三角带通滤波器对经过快速傅立叶变换后的音频信号的频谱进行平滑化，并消除谐波的作用，突显原先语音的共振峰；

MFCC获得单元，计算三角带通滤波器输出的对数能量，经离散余弦变换得到MFCC；

二阶差分特征获得单元，通过MFCC前一阶差分与后一阶差分之间的关系，获得相邻三帧之间的动态关系，从而获得二阶差分特征。

在一个实施例中，还包括训练模块，对所述神经网络模型和全连接网络模型进行训练，包括：

噪声添加单元，从AISHELL数据集获得人声音频信号，加入纯噪声段和人声噪声段随机组合，所述AISHELL数据集为北京希尔贝壳科技有限公司的开源数据库；

训练集构建单元，进行多种场景下的噪声信号与人声数据的采集并随机设置信噪比，从而获得所述人声音频信号的训练集；

特征提取单元，提取训练集中音频信号的MFCC特征及其二阶差分特征；

训练单元，将上述MFCC特征及其二阶差分特征输入神经网络模型，进行训练，提取音频信号的高维信息及音频信号前后关联特征，所述高维信息是神经网络模型从大量样本中学习到的高度抽象的音素特征，通过音频信号的二阶差分特征获得所述音频信号前后关联特征；将音频信号的高维信息及关联特征输入全连接网络模型，获得音频信号每一帧的检测结果；

参数更新单元，使用Focal loss作为损失函数对全连接网络模型和神经网络模型的参数进行迭代更新。

优选地，上述参数更新单元还在每次模型参数更新之前，修改训练集中样本的权重，减少易分类样本的权重，增加难分类样本的权重。

此外，本申请还提供一种用于情绪识别的语音端点检测方法。参照图3所示，为本申请用于情绪识别的语音端点检测较佳实施例的流程图。该方法可以由一个装置执行，该装置可以由软件和/或硬件实现。

在本实施例中，用于情绪识别的语音端点检测方法包括：

步骤S1，采集音频信号；

步骤S2，对音频信号进行处理操作，所述处理操作包括：对音频信号加入多种场景下的纯噪声段和人声噪声段并随机设置信噪比，所述多种场景包括办公室噪声集、手录实验室噪声集、电话催收噪声集和面审数据等，例如，在20dB-40dB范围内设置信噪比，根据设置的信噪比获得音频信号和噪声信号的比例，噪声信号由纯噪声段和人声噪声段构成，噪声信号的功率确定，调整纯噪声段和人声噪声段的混合比例，并与音频信号相加堆叠，获得最接近人声(不淹没音频信号)的混合比例；

步骤S3，提取处理后的音频信号的MFCC特征及其二阶差分特征，所述MFCC特征及其二阶差分特征的提取方法包括：将添加噪声后的音频信号经过高通滤波器进行预加重，对预加重后的音频信号进行分帧和加窗，对分帧加窗后的音频信号进行快速傅立叶变换，经过快速傅立叶变换后的音频信号通过Mel频率滤波器组进行平滑处理，计算每个滤波器组输出的对数能量，经离散余弦变换(DCT)得到MFCC(音频信号的MFCC特征)，提取MFCC的差分谱，获得其二阶差分特征；

步骤S4，将上述MFCC特征及其二阶差分特征输入神经网络模型，提取音频信号的高维信息及音频信号前后关联特征；

步骤S5，将提取的音频信号的高维信息及关联特征输入全连接网络模型，获得音频信号每一帧的检测结果，所述检测结果包括人声和非人声，例如采用人声为1，非人声为0，将音频信号变成二值序列；

步骤S6，根据音频信号的检测结果将音频信号分割成人声部分和非人声部分，例如，将音频信号中检测结果为1的帧进行相加堆叠，将检测结果为0的帧进行相加堆叠，实现人声部分和非人声部分的分割。

优选地，步骤S6之后还包括：将人声部分的音频信号输入语音情绪检测模型，输出用于情绪识别的语音端点检测的结果，例如，将语音情绪分成快乐、兴趣、厌恶、恐惧、痛苦(悲伤)和愤怒等，所述语音情绪检测模型可以是基于神经网络构建的分类模型，也可以是采用分类器构建的分类模型。

在实时语音情绪检测系统中，长时间的静音或者噪声一方面增加了网络通信的代价，另一方面也会使情绪检测系统产生错误判断。准确识别音频中人声起止位置，不仅可以提高模型运行效率，也可以提升模型的稳定性和准确性。

作为进行语音情绪检测前的音频预处理操作，保证数据特征的一致性可以有效提升情绪检测的准确率，所以在设计语音情绪检测模型(VAD模型)时，采用与情绪检测预训练模型相同的数据源来构造训练集。另外，为了增强模型的在复杂多变环境下的鲁棒性和泛化能力，进行多种场景下的噪声数据与人声数据的采集并随机设置信噪比保证数据的广泛性。

音频数据特征不再是单一的使用音频短时能量和倒谱特征等，而是在此基础上进一步提取音频信息的MFCC特征及其二阶差分特征，保证音频在频域和时域上信息的完整性和连贯性，之后将该特征输入神经网络模型(例如，长短期记忆网络LSTM)进行训练，提取高维信息及音频前后关联特征，增加噪声和非噪声的识别度，最后使用全连接网络作为分类器输出每一帧的检测结果。

步骤S3包括：

对音频信号进行预加重；

对预加重后的音频信号进行分帧和加窗；

对分帧和加窗后的音频信号进行快速傅里叶变换；

经过三角带通滤波器对经过快速傅立叶变换后的音频信号的频谱进行平滑化，并消除谐波的作用，突显原先语音的共振峰；

计算三角带通滤波器输出的对数能量，经离散余弦变换(DCT)得到MFCC；

通过MFCC前一阶差分与后一阶差分之间的关系，获得相邻三帧之间的动态关系，从而获得二阶差分特征。

在一个实施例中，所述神经网络模型和全连接网络模型的训练步骤包括：

从AISHELL数据集获得人声音频信号，加入纯噪声段和人声噪声段随机组合；

进行多种场景下的噪声信号与人声数据的采集并随机设置信噪比，从而获得所述人声音频信号的训练集；

提取训练集中音频信号的MFCC特征及其二阶差分特征；

将上述MFCC特征及其二阶差分特征输入神经网络模型，优化器选用Adam，学习率为e ^-3，训练次数为100，批尺寸为2048，进行训练，提取音频信号的高维信息及音频信号前后关联特征，所述高维信息是神经网络模型从大量样本中学习到的高度抽象的音素特征，通过音频信号的二阶差分特征获得所述音频信号前后关联特征。

将音频信号的高维信息及关联特征输入全连接网络模型，获得音频信号每一帧的检测结果；

使用Focal loss作为损失函数对全连接网络模型和神经网络模型的参数进行迭代更新，优选地，通过下式构建神经网络模型的损失函数

其中，y是样本的标签，正类(人声)为1，负类(非人声)为0，y′是经过激活函数的输出，在0-1之间；γ为输出因子，γ>0。

普通的交叉熵对于正样本而言，输出概率越大损失越小。对于负样本而言，输出概率越小则损失越小。此时的损失函数在大量简单样本的迭代过程中比较缓慢且可能无法优化至最优，在原有的基础上加了一个因子，其中，γ>0使得减少易分类样本的损失。使得更关注于困难的、错分的样本。

在一个实施例中，在步骤S6之后还包括：对全连接网络模型的输出结果进行平滑操作，当检测到为人声或非人声端点的一帧时，再检测该帧的前后第一设定数量的帧数据，只有当其中至少第二设定数量的检测结果与当前帧检测结果一致时，才最终确定该帧为人声或非人声，例如，检测该帧的前后10帧数据，只有当其中至少9帧检测结果与当前帧检测结果一致才最终确定该帧为人声或非人声。

优选地，神经网络模型和全连接网络模型的训练步骤还包括：

在每次模型参数更新之前，修改训练集中样本的权重，减少易分类样本的权重，增加难分类样本的权重，例如，全连接网络模型输出的预测值在0-1之间，0为非人声，1为人声，预测值在0.5设定范围内的样本为难分类样本。

在平稳环境下，人声和噪声具有较高的辨识度，但是当环境为非平稳情况时，人声和非人声就难以辨识，所以在这里使用Focal loss作为损失函数，该损失函数是在标准交叉熵损失基础上修改得到，可以通过减少易分类样本的权重，使模型在训练时更加专注于难分类样本，提高模型在非平稳环境下对低信噪比声音识别的准确度，减少对噪声音频的误判。最后对模型的输出结果进行平滑操作，当模型检测到某一帧为人声或非人声端点时，再检测该帧的前后10帧数据，只有当其中至少9帧音频结果与当前帧检测结果一致时，才最终确定该帧为人声和非人声，以抑制某些突变信息造成模型对结果的误判。

此外，本申请还提供一种用于情绪识别的语音端点检测装置，包括：

采集模块，采集音频信号；

优选地，还包括情绪识别模块，所述情绪识别模块将人声部分的音频信号输入语音情绪检测模型，输出用于情绪识别的语音端点检测的结果。

在一个实施例中，所述端点识别模块对全连接网络模型的输出结果进行平滑操作，当检测到为人声或非人声端点的一帧时，再检测所述一帧的前后第一设定数量的帧数据，只有当其中至少第二设定数量的检测结果与所述一帧的检测结果一致时，才确定所述一帧为人声或非人声。

在一个实施例中，所述第一特征提取模块包括：

预加重单元，对音频信号进行预加重；

分帧加窗单元，对预加重后的音频信号进行分帧和加窗；

在一个实施例中，还包括训练模块，对所述神经网络模型和全连接网络模型进行训练。

优选地，所述训练模块包括：

优选地，所述神经网络模型的损失函数通过下式构建

其中，y是样本的标签，y′是经过激活函数的输出，在0-1之间，γ为输出因子，γ>0。

优选地，所述神经网络模型的优化器选用Adam，学习率为e ^-3，训练次数为100，批尺寸为2048。

优选地，所述参数更新单元还在每次模型参数更新之前，修改训练集中样本的权重，减少易分类样本的权重，增加难分类样本的权重，所述全连接网络模型输出的预测值在0-1之间，0为非人声，1为人声，预测值在0.5的设定范围内的样本为难分类样本。

此外，本申请实施例还提出一种计算机可读存储介质，所述计算机可读存储介质中包括用于情绪识别的语音端点检测程序，所述计算机可读存储介质可以是非易失性，也可以是易失性，所述用于情绪识别的语音端点检测程序被处理器执行时实现如下步骤：

采集音频信号；

提取处理后的音频信号的MFCC特征及其二阶差分特征；

将上述MFCC特征及其二阶差分特征输入神经网络模型，提取音频信号的高维信息及音频信号前后关联特征；

本申请之计算机可读存储介质的具体实施方式与上述用于情绪识别的语音端点检测方法、电子设备的具体实施方式大致相同，在此不再赘述。

在上述各实施例中，神经网络模型和全连接网络模型可以合成为一个，即全连接神经网络模型，所述全连接神经网络模型可以包括一层LSTM和两层全连接层(FC)。

上述各实施例中的用于情绪识别的语音端点检测方法、电子设备和计算机可读存储介质针对语音情绪检测前的处理进行了改进，主要改善了传统VAD中对低信噪比和非平稳环境下噪声数据的辨识度，通过数据构造和模型训练的方式，尤其增强对难分类数据的训练，有效抑制了模型对噪声或干扰数据的误识别率，对于突变信号的平滑操作也使得声音切割端点更加平滑准确。因为加入人声端点检测，所以有效提高了语音情绪检测的准确性，减少了时间和空间的消耗，提升了系统的工作效率。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端客户端(可以是手机，计算机，服务器，或者网络客户端等)执行本申请各个实施例所述的方法。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

一种用于情绪识别的语音端点检测方法，其中，包括：

采集音频信号；

对音频信号进行处理操作，所述处理操作包括：对音频信号加入多种场景下的纯噪声段和人声噪声段并随机设置信噪比；

提取处理后的音频信号的MFCC特征及其二阶差分特征；

将上述MFCC特征及其二阶差分特征输入神经网络模型，提取音频信号的高维信息及音频信号前后关联特征，所述高维信息是神经网络模型从样本中学习到的高度抽象的音素特征，所述关联特征表示音频信号相邻多帧的时序动态关系；

将提取的音频信号的高维信息及关联特征输入全连接网络模型，获得音频信号每一帧的检测结果，所述检测结果包括人声和非人声；

根据音频信号的检测结果，将音频信号分割成人声部分和非人声部分。
根据权利要求1所述的用于情绪识别的语音端点检测方法，其中，所述提取处理后的音频信号的MFCC特征及其二阶差分特征的步骤包括：

对音频信号进行预加重；

对预加重后的音频信号进行分帧和加窗；

对分帧和加窗后的音频信号进行快速傅里叶变换；

经过三角带通滤波器对经过快速傅立叶变换后的音频信号的频谱进行平滑化，并消除谐波的作用，突显原先语音的共振峰；

计算三角带通滤波器输出的对数能量，经离散余弦变换得到MFCC；

通过MFCC前一阶差分与后一阶差分之间的关系，获得相邻三帧之间的动态关系，从而获得二阶差分特征。
根据权利要求1所述的用于情绪识别的语音端点检测方法，其中，所述神经网络模型和全连接网络模型的训练步骤包括：

从AISHELL数据集获得人声音频信号，加入纯噪声段和人声噪声段随机组合；

进行多种场景下的噪声信号与人声数据的采集并随机设置信噪比，从而获得所述人声音频信号的训练集；

提取训练集中音频信号的MFCC特征及其二阶差分特征；

将上述MFCC特征及其二阶差分特征输入神经网络模型，进行训练，提取音频信号的高维信息及音频信号前后关联特征，所述高维信息是神经网络模型从大量样本中学习到的高度抽象的音素特征，通过音频信号的二阶差分特征获得所述音频信号前后关联特征；

将音频信号的高维信息及关联特征输入全连接网络模型，获得音频信号每一帧的检测结果；

使用Focal loss作为损失函数对全连接网络模型和神经网络模型的参数进行迭代更新。
根据权利要求3所述的用于情绪识别的语音端点检测方法，其中，所述神经网络模型的损失函数通过下式构建

其中，y是样本的标签，y′是经过激活函数的输出，在0-1之间，γ为输出因子，γ>0。
根据权利要求3所述的用于情绪识别的语音端点检测方法，其中，所述神经网络模型的优化器选用Adam，学习率为e ^-3，训练次数为100，批尺寸为2048。
根据权利要求3所述的用于情绪识别的语音端点检测方法，其中，所述神经网络模型和全连接网络模型的训练步骤还包括：

在每次模型参数更新之前，修改训练集中样本的权重，减少易分类样本的权重，增加难分类样本的权重，所述全连接网络模型输出的预测值在0-1之间，0为非人声，1为人声，预测值在0.5的设定范围内的样本为难分类样本。
根据权利要求1所述的用于情绪识别的语音端点检测方法，其中，还包括：

将人声部分的音频信号输入语音情绪检测模型，输出语音情绪识别的结果。
根据权利要求1所述的用于情绪识别的语音端点检测方法，其中，还包括：对全连接网络模型的输出结果进行平滑操作，当检测到为人声或非人声端点的一帧时，再检测所述一帧的前后第一设定数量的帧数据，只有当其中至少第二设定数量的检测结果与所述一帧的检测结果一致时，才最终确定所述一帧为人声或非人声。
一种用于情绪识别的语音端点检测装置，其中，包括：

采集模块，采集音频信号；

信号处理模块，对采集模块采集的音频信号进行处理操作，所述处理操作包括：对音频信号加入多种场景下的纯噪声段和人声噪声段并随机设置信噪比；

第一特征提取模块，提取信号处理模块处理后的音频信号的MFCC特征及其二阶差分特征；

第二特征提取模块，将上述第一特征提取模块提取的MFCC特征及其二阶差分特征输入神经网络模型，提取音频信号的高维信息及音频信号前后关联特征，所述高维信息是神经网络模型从样本中学习到的高度抽象的音素特征，所述关联特征表示音频信号相邻多帧的时序动态关系；

端点识别模块，将第二特征提取模块提取的音频信号的高维信息及关联特征输入全连接网络模型，获得音频信号每一帧的检测结果，所述检测结果包括人声和非人声；

分割模块，根据音频信号的检测结果，将音频信号分割成人声部分和非人声部分。
一种电子设备，其中，包括存储器和处理器，所述存储器中存储有用于情绪识别的语音端点检测程序，所述用于情绪识别的语音端点检测程序被所述处理器执行时实现如下步骤：

采集音频信号；

对音频信号进行处理操作，所述处理操作包括：对音频信号加入多种场景下的纯噪声段和人声噪声段并随机设置信噪比；

提取处理后的音频信号的MFCC特征及其二阶差分特征；

将上述MFCC特征及其二阶差分特征输入神经网络模型，提取音频信号的高维信息及音频信号前后关联特征，所述高维信息是神经网络模型从样本中学习到的高度抽象的音素特征，所述关联特征表示音频信号相邻多帧的时序动态关系；

将提取的音频信号的高维信息及关联特征输入全连接网络模型，获得音频信号每一帧的检测结果，所述检测结果包括人声和非人声；

根据音频信号的检测结果，将音频信号分割成人声部分和非人声部分。
根据权利要求10所述的电子设备，其中，所述提取处理后的音频信号的MFCC特征及其二阶差分特征的步骤包括：

对音频信号进行预加重；

对预加重后的音频信号进行分帧和加窗；

对分帧和加窗后的音频信号进行快速傅里叶变换；

经过三角带通滤波器对经过快速傅立叶变换后的音频信号的频谱进行平滑化，并消除谐波的作用，突显原先语音的共振峰；

计算三角带通滤波器输出的对数能量，经离散余弦变换得到MFCC；

通过MFCC前一阶差分与后一阶差分之间的关系，获得相邻三帧之间的动态关系，从而获得二阶差分特征。
根据权利要求10所述的电子设备，其中，所述神经网络模型和全连接网络模型的训练步骤包括：

从AISHELL数据集获得人声音频信号，加入纯噪声段和人声噪声段随机组合；

进行多种场景下的噪声信号与人声数据的采集并随机设置信噪比，从而获得所述人声音频信号的训练集；

提取训练集中音频信号的MFCC特征及其二阶差分特征；

将上述MFCC特征及其二阶差分特征输入神经网络模型，进行训练，提取音频信号的高维信息及音频信号前后关联特征，所述高维信息是神经网络模型从大量样本中学习到的高度抽象的音素特征，通过音频信号的二阶差分特征获得所述音频信号前后关联特征；

将音频信号的高维信息及关联特征输入全连接网络模型，获得音频信号每一帧的检测结果；

使用Focal loss作为损失函数对全连接网络模型和神经网络模型的参数进行迭代更新。
根据权利要求12所述的电子设备，其中，所述神经网络模型的损失函数通过下式构建

其中，y是样本的标签，y′是经过激活函数的输出，在0-1之间，γ为输出因子，γ>0。
根据权利要求10所述的电子设备，其中，所述用于情绪识别的语音端点检测程序被所述处理器执行时还实现如下步骤：

将人声部分的音频信号输入语音情绪检测模型，输出语音情绪识别的结果。
根据权利要求10所述的电子设备，其中，所述用于情绪识别的语音端点检测程序被所述处理器执行时还实现如下步骤：对全连接网络模型的输出结果进行平滑操作，当检测到为人声或非人声端点的一帧时，再检测所述一帧的前后第一设定数量的帧数据，只有当其中至少第二设定数量的检测结果与所述一帧的检测结果一致时，才最终确定所述一帧为人声或非人声。
一种计算机可读存储介质，其中，所述计算机可读存储介质中包括有用于情绪识别的语音端点检测程序，所述用于情绪识别的语音端点检测程序被处理器执行时，实现如下步骤：

采集音频信号；

对音频信号进行处理操作，所述处理操作包括：对音频信号加入多种场景下的纯噪声段和人声噪声段并随机设置信噪比；

提取处理后的音频信号的MFCC特征及其二阶差分特征；

将上述MFCC特征及其二阶差分特征输入神经网络模型，提取音频信号的高维信息及音频信号前后关联特征，所述高维信息是神经网络模型从样本中学习到的高度抽象的音素特征，所述关联特征表示音频信号相邻多帧的时序动态关系；

将提取的音频信号的高维信息及关联特征输入全连接网络模型，获得音频信号每一帧的检测结果，所述检测结果包括人声和非人声；

根据音频信号的检测结果，将音频信号分割成人声部分和非人声部分。
根据权利要求16所述的计算机可读存储介质，其中，所述提取处理后的音频信号的MFCC特征及其二阶差分特征的步骤包括：

对音频信号进行预加重；

对预加重后的音频信号进行分帧和加窗；

对分帧和加窗后的音频信号进行快速傅里叶变换；

经过三角带通滤波器对经过快速傅立叶变换后的音频信号的频谱进行平滑化，并消除谐波的作用，突显原先语音的共振峰；

计算三角带通滤波器输出的对数能量，经离散余弦变换得到MFCC；

通过MFCC前一阶差分与后一阶差分之间的关系，获得相邻三帧之间的动态关系，从而获得二阶差分特征。
根据权利要求16所述的计算机可读存储介质，其中，所述神经网络模型和全连接网络模型的训练步骤包括：

从AISHELL数据集获得人声音频信号，加入纯噪声段和人声噪声段随机组合；

进行多种场景下的噪声信号与人声数据的采集并随机设置信噪比，从而获得所述人声音频信号的训练集；

提取训练集中音频信号的MFCC特征及其二阶差分特征；

将上述MFCC特征及其二阶差分特征输入神经网络模型，进行训练，提取音频信号的高维信息及音频信号前后关联特征，所述高维信息是神经网络模型从大量样本中学习到的高度抽象的音素特征，通过音频信号的二阶差分特征获得所述音频信号前后关联特征；

将音频信号的高维信息及关联特征输入全连接网络模型，获得音频信号每一帧的检测结果；

使用Focal loss作为损失函数对全连接网络模型和神经网络模型的参数进行迭代更新。
根据权利要求16所述的计算机可读存储介质，其中，所述用于情绪识别的语音端点检测程序被处理器执行时，还实现如下步骤：

将人声部分的音频信号输入语音情绪检测模型，输出语音情绪识别的结果。
根据权利要求16所述的计算机可读存储介质，其中，所述用于情绪识别的语音端点检测程序被处理器执行时，还实现如下步骤：对全连接网络模型的输出结果进行平滑操作，当检测到为人声或非人声端点的一帧时，再检测所述一帧的前后第一设定数量的帧数据，只有当其中至少第二设定数量的检测结果与所述一帧的检测结果一致时，才最终确定所述一帧为人声或非人声。