WO2020062679A1

WO2020062679A1 - 一种基于深度学习的端到端说话人分割方法及系统

Info

Publication number: WO2020062679A1
Application number: PCT/CN2018/124431
Authority: WO
Inventors: 叶志坚; 李稀敏; 肖龙源; 蔡振华; 刘晓葳; 谭玉坤
Original assignee: 厦门快商通信息技术有限公司
Priority date: 2018-09-30
Filing date: 2018-12-27
Publication date: 2020-04-02
Also published as: CN109461447A; CN109461447B

Abstract

本发明公开了一种基于深度学习的端到端说话人分割方法及系统，其通过采集第一单人语音和第二单人语音进行真实STFT特征提取、语音混合处理、混合STFT特征的提取、分割STFT特征的计算、真实STFT特征与分割STFT特征的比较、模型的优化，从而训练得到所需的模型；使用时，无需先将混合语音分割成多段短语音，再通过聚类算法将属于同一个说话人的多个短语音进行聚类处理得到同一个说话人的长语音；而是直接将待分割的混合语音输入训练好的模型即可输出每一个说话人的分割语音，这种端到端的方法可以避免中间过程的误差积累，分割精度更高。

Description

一种基于深度学习的端到端说话人分割方法及系统

技术领域

本发明涉及语音信号处理技术领域，特别是一种基于深度学习的端到端说话人分割方法及其应用该方法的系统。

背景技术

随着音频获取途径和数量的快速增加，音频管理变得越来越复杂，近几年说话人分割聚类在国际上逐渐成为热点研究问题，国外许多大学和研究机构都开展了相关研究工作，美国国家标准技术局(National Institute of Standards and Technology，NIST)在1999年组织的说话人识别评测任务中就增加了两人之间的电话语音的分割聚类项目，2002年NIST提出的富信息转写(Rich Transcription，RT)评测正式开展对说话人分割聚类的研究。

传统的说话人分割方法分为两个步骤：

1.分割步骤，将一段混合语音分割成多段短语音。目前主流的语音分割算法有距离度量法和模型法，其中，距离度量法需根据相邻语音段之间距离，确定两个音段之间是否存在说话人变换点；模型法常见使用GMM高斯混合模型和SVM支持向量机模型，通过计算相邻模型之间的相似度距离，根据经验阈值判别说话人变换点是否存在；根据说话人变换点对混合语音进行分段处理得到多个短语音。

2.聚类步骤，通过聚类算法将属于同一个人的多个短语音进行聚类处理，得到同一个人的长语音。

采用上述的传统说话人分割方法，需要先分割再重新聚合来得到属于同一个人的长语音，不仅算法较复杂，计算效率低，而且其纯度受分割和聚类两个步骤精度的影响。

发明内容

本发明为解决上述问题，提供了一种基于深度学习的端到端说话人分割方法及系统，只需将待分割的混合语音输入训练好的模型即可输出每一个说话人的分割语音，这种端到端的方法可以避免中间过程的误差积累，分割精度更高。

为实现上述目的，本发明采用的技术方案为：

一种基于深度学习的端到端说话人分割方法，其包括以下步骤：

a.模型训练步骤：

a1.采集第一单人语音和第二单人语音，并计算所述第一单人语音对应的第一真实STFT特征和所述第二单人语音对应的第二真实STFT特征；

a2.将所述第一单人语音和所述第二单人语音进行混合处理，得到训练用混合语音，并计算所述训练用混合语音的混合STFT特征；

a3.根据步骤a2中所述混合STFT特征对所述混合语音进行分割处理，得到与所述第一单人语音对应的第一分割语音、第一分割STFT特征，以及与所述第二单人语音对应的第二分割语音、第二分割STFT特征；

a4.对比所述第一真实STFT特征和所述第一分割STFT特征、所述第二真实STFT特征和所述第二分割STFT特征，构造损失函数；

a5.根据所述损失函数进行优化模型参数，完成模型训练；

b.说话人分割步骤：

将待分割的混合语音输入所述模型中，输出分割后的不同说话人的分割语音；或者，对待分割的混合语音提取混合STFT特征，并将所述待分割的混合语音的混合STFT特征输入所述模型中，输出所述待分割的混合语音分割后的不同说话人的分割STFT特征，并进一步通过ISTFT变换得到不同说话人对应的分割语音。

优选的，所述的步骤a2中，将所述第一单人语音和所述第二单人语音进行混合处理，是指分别将所述第一单人语音和所述第二单人语音分割为两个以上的短语音，并将所有短语音进行混合，并合成长语音，得到训练用混合语音；所述的步骤b中，所述待分割的混合语音，是指两个以上说话人之间的对话语音。

优选的，进一步将所述训练用混合语音的混合STFT特征、第一真实STFT特征、第二真实STFT特征、第一分割STFT特征、第二分割STFT特征，以及所述待分割的混合语音的混合STFT特征、分割STFT特征，将其实数和虚数在通道维度上进行拼接处理。

优选的，所述的步骤a3对所述混合语音进行分割处理，进一步包括：

a31.将所述训练用混合语音的混合STFT特征输入CNN神经网络，以提取深层次特征；

a32.将所述深层次特征输入LSTM网络，以提取时序信息特征；

a33.将所述时序信息特征输入三层全连接网络，分别生成第一单人语音的掩膜和第二单人语音的掩膜；

a34.将所述第一单人语音的掩膜与所述训练用混合语音的混合STFT特征相乘得到第二单人语音对应的第二分割STFT特征；将所述第二单人语音的掩膜与所述训练用混合语音的混合STFT特征相乘得到第一单人语音对应的第一分割STFT特征；

a35.将所述第一分割STFT特征通过ISTFT变换得到第一分割语音，将所述第二分割STFT特征通过ISTFT变换得到第二分割语音。

优选的，所述的步骤a4中，使用均方误差作为损失函数，即，计算所述第一真实STFT特征和所述第一分割STFT特征之间、所述第二真实STFT特征和所述第二分割STFT特征之间的均方误差。

优选的，所述的步骤a5中，根据所述损失函数进行优化模型参数，是通过随机梯度下降算法进行优化模型参数，使得均方误差的值下降到预设阈值。

对应的，本发明还提供一种基于深度学习的端到端说话人分割系统，其包括：

a.模型训练模块，其进一步包括：

语音采集单元，用于采集第一单人语音和第二单人语音；

语音混合单元，将所述第一单人语音和所述第二单人语音进行混合处理，得到训练用混合语音；

STFT特征提取单元，用于计算所述第一单人语音对应的第一真实STFT特征、所述第二单人语音对应的第二真实STFT特征、所述训练用混合语音的混合STFT特征；

语音分割单元，用于根据所述STFT特征提取单元中提取的所述混合STFT特征对所述混合语音进行分割处理，得到与所述第一单人语音对应的第一分割语音、第一分割STFT特征，以及与所述第二单人语音对应的第二分割语音、第二分割STFT特征；

损失函数构造单元，其通过对比所述第一真实STFT特征和所述第一分割STFT特征、所述第二真实STFT特征和所述第二分割STFT特征，构造损失函数；

模型优化单元，其根据所述损失函数进行优化模型参数，完成模型训练；

b.说话人分割模块：

用于将待分割的混合语音输入所述模型中，输出分割后的不同说话人的分割语音；或者，对待分割的混合语音提取混合STFT特征，并将所述待分割的混合语音的混合STFT特征输入所述模型中，输出所述待分割的混合语音分割后的不同说话人的分割STFT特征，并进一步通过ISTFT变换得到不同说话人对应的分割语音。

本发明的有益效果是：

(1)本发明的说话人分割方法，无需先将混合语音分割成多段短语音，再通过聚类算法将属于同一个说话人的多个短语音进行聚类处理得到同一个说话人的长语音；而是直接将待分割的混合语音输入训练好的模型即可输出每一个说话人的分割语音，这种端到端的方法可以避免中间过程的误差积累，分割精度更高；

(2)本发明通过采集大量的单人语音，并将任意两个单人语音进行混合处理和重新分割的训练，得到训练好的模型，使得模型的性能更好，特别适用于两个以上说话人的对话录音的分割处理；

(3)本发明通过将单人语音的真实STFT特征与分割训练的分割STFT特征进行比较和构造损失函数，从而对模型参数进行优化，使得模型更加准确；

(4)本发明通过CNN网络、LSTM网络、三层全连接网络进行特征的提取和分割，使得训练得到的模型具有更高的性能。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明一种基于深度学习的端到端说话人分割方法的流程简图；

图2为本发明一种基于深度学习的端到端说话人分割系统的结构示意图。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白，以下结合附图及实施例对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

如图1所示，本发明的一种基于深度学习的端到端说话人分割方法，其包括以下步骤：

a.模型训练步骤：

a5.根据所述损失函数进行优化模型参数，完成模型训练；

b.说话人分割步骤：

所述的步骤a1中，采集第一单人语音和第二单人语音，是指通过采集大量的单人语音，并对任意两个单人语音进行混合处理和重新分割的训练；例如，首先采集几千人的单人语音，然后任意取两个人的单人语音进行混合，通过构建语音训练集、语音开发集、语音测试集，对模型进行训练和优化。

所述的步骤a2中，将所述第一单人语音和所述第二单人语音进行混合处理，是指分别将所述第一单人语音和所述第二单人语音分割为两个以上的短语音，并将所有短语音进行混合，并合成长语音，得到训练用混合语音；所述的步骤b中，所述待分割的混合语音，是指两个以上说话人之间的对话语音。

所述的步骤a3对所述混合语音进行分割处理，进一步包括：

a31.将所述训练用混合语音的混合STFT特征输入CNN神经网络，以提取深层次特征；其中，所述卷积神经网络(Convolutional Neural Network,CNN)是由卷积层、池化层、全连接层构成的具有局部感知和权值共享能力的深层神经网络；卷积层试图将神经网络中的每一小块进行更加深入的分析从而得到抽象程度更高的特征，经过卷积层之后的节点矩阵深度增加；池化层神经网络不会改变三维矩阵的深度，但是可以缩小矩阵的大小；

a32.将所述深层次特征输入LSTM网络，以提取时序信息特征；其中，所述LSTM(Long Short-Term Memory)长短期记忆网络，是一种时间递归神经网络，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件；

a33.将所述时序信息特征输入三层全连接网络，分别生成第一单人语音的掩膜和第二单人语音的掩膜(masks)；其中，所述三层全连接网络(fully connected layers,FC)包括输入层、隐含层、输出层；所述掩膜为所述三层全连接网络中提取的特征，并用于在提取第一单人语音对应的第一分割STFT特征时进行屏蔽第二单人语音对应的第二分割STFT特征，以及在提取第二单人语音对应的第二分割STFT特征时进行屏蔽第一单人语音对应的第一分割STFT特征；

所述的步骤a31中，所述CNN神经网络采用15层的神经网络架构，其架构参数如下：

第1层：使用1*7的卷积核，通道数为96，膨胀数为1*1

第2层：使用7*1的卷积核，通道数为96，膨胀数为1*1；

第3层：使用5*5的卷积核，通道数为96，膨胀数为1*1；

第4层，使用5*5的卷积核，通道数为96，膨胀数为2*1；

第5层：使用5*5的卷积核，通道数为96，膨胀数为4*1；

第6层：使用5*5的卷积核，通道数为96，膨胀数为8*1；

第7层：使用5*5的卷积核，通道数为96，膨胀数为16*1；

第8层：使用5*5的卷积核，通道数为96，膨胀数为32*1；

第9层：使用5*5的卷积核，通道数为96，膨胀数为1*1；

第10层：使用5*5的卷积核，通道数为96，膨胀数为2*2；

第11层：使用5*5的卷积核，通道数为96，膨胀数为4*4；

第12层：使用5*5的卷积核，通道数为96，膨胀数为8*8；

第13层：使用5*5的卷积核，通道数为96，膨胀数为16*16；

第14层：使用5*5的卷积核，通道数为96，膨胀数为32*32；

第15层：使用1*1的卷积核，通道数为8，膨胀数为1*1。

所述的步骤a4中，使用均方误差作为损失函数，即，计算所述第一真实STFT特征和所述第一分割STFT特征之间、所述第二真实STFT特征和所述第二分割STFT特征之间的均方误差(mean square error，MSE)。

所述的步骤a5中，根据所述损失函数进行优化模型参数，是通过随机梯度下降算法(SGD)进行优化模型参数，使得所述均方误差(损失函数)越来越小，从而使得均方误差的值下降到预设阈值。

循环往复执行上述步骤a1至a5，直到均方误差的值下降到预设阈值，即损失函数达到最小化，则完成模型训练。

短时傅里叶变换(STFT，short-time Fourier transform，或short-term Fourier transform))，又称加窗傅里叶变换，是一种时频分析方法，它通过时间窗内的一段信号来表示某一时刻的信号特征。在短时傅里叶变换过程中，窗的长度决定频谱图的时间分辨率和频率分辨率，窗长越长，截取的信号越长，信号越长，傅里叶变换后频率分辨率越高，时间分辨率越差；相反，窗长越短，截取的信号就越短，频率分辨率越差，时间分辨率越好。时间窗口使得信号只在某一小区间内有效，这就避免了传统的傅里叶变换在时频局部表达能力上的不足，使得傅里叶变换有了局部定位的能力。

并且，由于STFT特征是一个复数，即a+bj，其中，a为实数部分，b为虚数部分；本实施例中，为了避免复数的运算，还进一步将所述训练用混合语音的混合STFT特征、第一真实STFT特征、第二真实STFT特征、第一分割 STFT特征、第二分割STFT特征，以及所述待分割的混合语音的混合STFT特征、分割STFT特征，将其实数和虚数在通道维度上进行拼接处理，从而使得运算更简单高效。

如图2所示，本发明还提供一种基于深度学习的端到端说话人分割系统，其包括：

a.模型训练模块，其进一步包括：

语音采集单元，用于采集第一单人语音和第二单人语音；

b.说话人分割模块：

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于系统实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

并且，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。另外，本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

上述说明示出并描述了本发明的优选实施例，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

一种基于深度学习的端到端说话人分割方法，其特征在于，包括以下步骤：

a.模型训练步骤：

a1.采集第一单人语音和第二单人语音，并计算所述第一单人语音对应的第一真实STFT特征和所述第二单人语音对应的第二真实STFT特征；

a2.将所述第一单人语音和所述第二单人语音进行混合处理，得到训练用混合语音，并计算所述训练用混合语音的混合STFT特征；

a3.根据步骤a2中所述混合STFT特征对所述混合语音进行分割处理，得到与所述第一单人语音对应的第一分割语音、第一分割STFT特征，以及与所述第二单人语音对应的第二分割语音、第二分割STFT特征；

a4.对比所述第一真实STFT特征和所述第一分割STFT特征、所述第二真实STFT特征和所述第二分割STFT特征，构造损失函数；

a5.根据所述损失函数进行优化模型参数，完成模型训练；

b.说话人分割步骤：

将待分割的混合语音输入所述模型中，输出分割后的不同说话人的分割语音；或者，对待分割的混合语音提取混合STFT特征，并将所述待分割的混合语音的混合STFT特征输入所述模型中，输出所述待分割的混合语音分割后的不同说话人的分割STFT特征，并进一步通过ISTFT变换得到不同说话人对应的分割语音。
根据权利要求1所述的一种基于深度学习的端到端说话人分割方法，其特征在于：所述的步骤a2中，将所述第一单人语音和所述第二单人语音进行混合处理，是指分别将所述第一单人语音和所述第二单人语音分割为两个以上的短语音，并将所有短语音进行混合，并合成长语音，得到训练用混合语音；所述的步骤b中，所述待分割的混合语音，是指两个以上说话人之间的对话语音。
根据权利要求1所述的一种基于深度学习的端到端说话人分割方法，其特征在于：进一步将所述训练用混合语音的混合STFT特征、第一真实STFT特征、第二真实STFT特征、第一分割STFT特征、第二分割STFT特征，以及所述待分割的混合语音的混合STFT特征、分割STFT特征，将其实数和虚数在通道维度上进行拼接处理。
根据权利要求1或2或3所述的一种基于深度学习的端到端说话人分割方法，其特征在于：所述的步骤a3对所述混合语音进行分割处理，进一步包括：

a31.将所述训练用混合语音的混合STFT特征输入CNN神经网络，以提取深层次特征；

a32.将所述深层次特征输入LSTM网络，以提取时序信息特征；

a33.将所述时序信息特征输入三层全连接网络，分别生成第一单人语音的掩膜和第二单人语音的掩膜；

a34.将所述第一单人语音的掩膜与所述训练用混合语音的混合STFT特征相乘得到第二单人语音对应的第二分割STFT特征；将所述第二单人语音的掩膜与所述训练用混合语音的混合STFT特征相乘得到第一单人语音对应的第一分割STFT特征；

a35.将所述第一分割STFT特征通过ISTFT变换得到第一分割语音，将所述第二分割STFT特征通过ISTFT变换得到第二分割语音。
根据权利要求1所述的一种基于深度学习的端到端说话人分割方法，其特征在于：所述的步骤a4中，使用均方误差作为损失函数，即，计算所述第一真实STFT特征和所述第一分割STFT特征之间、所述第二真实STFT特征和所述第二分割STFT特征之间的均方误差。
根据权利要求5所述的一种基于深度学习的端到端说话人分割方法，其特征在于：所述的步骤a5中，根据所述损失函数进行优化模型参数，是通过随机梯度下降算法进行优化模型参数，使得均方误差的值下降到预设阈值。
一种基于深度学习的端到端说话人分割系统，其特征在于，包括：

a.模型训练模块，其进一步包括：

语音采集单元，用于采集第一单人语音和第二单人语音；

语音混合单元，将所述第一单人语音和所述第二单人语音进行混合处理，得到训练用混合语音；

STFT特征提取单元，用于计算所述第一单人语音对应的第一真实STFT特征、所述第二单人语音对应的第二真实STFT特征、所述训练用混合语音的混合STFT特征；

语音分割单元，用于根据所述STFT特征提取单元中提取的所述混合STFT特征对所述混合语音进行分割处理，得到与所述第一单人语音对应的第一分割语音、第一分割STFT特征，以及与所述第二单人语音对应的第二分割语音、第二分割STFT特征；

损失函数构造单元，其通过对比所述第一真实STFT特征和所述第一分割STFT特征、所述第二真实STFT特征和所述第二分割STFT特征，构造损失函数；

模型优化单元，其根据所述损失函数进行优化模型参数，完成模型训练；

b.说话人分割模块：

用于将待分割的混合语音输入所述模型中，输出分割后的不同说话人的分割语音；或者，对待分割的混合语音提取混合STFT特征，并将所述待分割的混合语音的混合STFT特征输入所述模型中，输出所述待分割的混合语音分割后的不同说话人的分割STFT特征，并进一步通过ISTFT变换得到不同说话人对应的分割语音。