WO2021051505A1

WO2021051505A1 - 基于样本量的声纹聚类方法、装置、设备及存储介质

Info

Publication number: WO2021051505A1
Application number: PCT/CN2019/116474
Authority: WO
Inventors: 冯晨; 王健宗; 彭俊清
Original assignee: 平安科技（深圳）有限公司
Priority date: 2019-09-18
Filing date: 2019-11-08
Publication date: 2021-03-25
Also published as: CN110782879B; CN110782879A

Abstract

一种基于样本量的声纹聚类方法、装置、设备及存储介质，所述方法包括：处理器将所述待聚类声纹样本集存储至所述缓存模块，并判断所述待聚类声纹样本集是否为样本量超过预设样本量阈值的大样本量样本集；若为所述大样本量样本集，则在所述存储模块中确定所述大样本量样本集对应的声纹聚类模型，作为目标声纹聚类模型；基于所述目标声纹聚类模型中的训练后的分区聚类算法对所述待聚类声纹样本集进行聚类，并输出所述待聚类声纹样本的聚类结果。该方法对不同规模的样本量采用不同的聚类模型，并通过分区聚类缩短了大样本量的待聚类声纹样本集的聚类时间，提升了聚类效果。

Description

基于样本量的声纹聚类方法、装置、设备及存储介质

本申请要求于2019年9月18日提交中国专利局、申请号为201910880452.6、发明名称为“基于样本量的声纹聚类方法、装置、设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及数据处理领域，尤其涉及一种基于样本量的声纹聚类方法、装置、设备及计算机可读存储介质。

背景技术

聚类是一种重要的无监督机器学习数据分析方法，声纹聚类是指从多个无标签的声纹样本中通过聚类算法判断出这些声纹样本由几个独立用户提供，即对多个无标签的声纹样本按其特征聚类。现有的声纹聚类方法，均是对需要聚类的声纹样本集直接采用聚类算法聚类，从而在对样本量大的样本集聚类时，不仅计算耗时久而且聚类效果不理想。因此，如何解决现有声纹聚类方法聚类效率低下的技术问题，是目前亟需解决的问题。

发明内容

本申请的主要目的在于提供一种基于样本量的声纹聚类方法、装置、设备及计算机可读存储介质，旨在解决现有声纹聚类方法聚类效率低下的技术问题。

为实现上述目的，本申请提供一种基于样本量的声纹聚类方法，所述基于样本量的声纹聚类方法应用于所述基于样本量的声纹聚类系统，所述声纹聚类系统包括缓存模块、存储模块以及处理器，所述基于样本量的声纹聚类方法包括以下步骤：

所述处理器在接收到用户端发送的待聚类声纹样本集，将所述待聚类声纹样本集存储至所述缓存模块，并根据所述待聚类声纹样本集的样本数量，判断所述待聚类声纹样本集是否为样本量超过预设样本量阈值的大样本量样本集；

若所述处理器判定所述待聚类声纹样本集为所述大样本量样本集，则在所述存储模块中确定所述大样本量样本集对应的声纹聚类模型，作为目标声纹聚类模型；

所述处理器将所述缓存模块中的待聚类声纹样本集输入至所述目标声纹聚类模型，基于训练后的分区聚类算法对所述待聚类声纹样本集进行聚类，并输出所述待聚类声纹样本的聚类结果。

此外，为实现上述目的，本申请还提供一种基于样本量的声纹聚类装置，所述基于样本量的声纹聚类装置包括：

样本量确定模块，用于所述处理器在接收到用户端发送的待聚类声纹样本集，将所述待聚类声纹样本集存储至所述缓存模块，并根据所述待聚类声纹样本集的样本数量，判断所述待聚类声纹样本集是否为样本量超过预设样本量阈值的大样本量样本集；

聚类模型确定模块，用于若所述处理器判定所述待聚类声纹样本集为所述大样本量样本集，则在所述存储模块中确定所述大样本量样本集对应的声纹聚类模型，作为目标声纹聚类模型；

第一分区聚类模块，用于所述处理器将所述缓存模块中的待聚类声纹样本集输入至所述目标声纹聚类模型，基于训练后的分区聚类算法对所述待聚类声纹样本集进行聚类，并输出所述待聚类声纹样本的聚类结果。

此外，为实现上述目的，本申请还提供一种基于样本量的声纹聚类设备，所述基于样本量的声纹聚类设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的基于样本量的声纹聚类计算机可读指令，其中所述基于样本量的声纹聚类计算机可读指令被所述处理器执行时，实现如上述的基于样本量的声纹聚类方法的步骤。

此外，为实现上述目的，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有基于样本量的声纹聚类计算机可读指令，其中所述基于样本量的声纹聚类计算机可读指令被处理器执行时，实现如上述的基于样本量的声纹聚类方法的步骤。

本申请提供一种基于样本量的声纹聚类方法，即所述处理器在接收到用户端发送的待聚类声纹样本集，将所述待聚类声纹样本集存储至所述缓存模块，并根据所述待聚类声纹样本集的样本数量，判断所述待聚类声纹样本集是否为样本量超过预设样本量阈值的大样本量样本集；若所述处理器判定所述待聚类声纹样本集为所述大样本量样本集，则在所述存储模块中确定所述大样本量样本集对应的声纹聚类模型，作为目标声纹聚类模型；所述处理器将所述缓存模块中的待聚类声纹样本集输入至所述目标声纹聚类模型，基于训练后的分区聚类算法对所述待聚类声纹样本集进行聚类，并输出所述待聚类声纹样本的聚类结果。通过上述方式，本申请对不同规模的样本量采用不同的聚类模型，并通过分区聚类缩短了大样本量的待聚类声纹样本集的聚类时间，提升了聚类效果，解决了现有声纹聚类方法聚类效率低下的技术问题。

附图说明

图1为本申请实施例方案中涉及的基于样本量的声纹聚类设备的硬件结构示意图；

图2为本申请基于样本量的声纹聚类方法第一实施例的流程示意图；

图3为本申请基于样本量的声纹聚类方法第二实施例的流程示意图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例涉及的基于样本量的声纹聚类方法主要应用于基于样本量的声纹聚类设备，该基于样本量的声纹聚类设备可以是PC、便携计算机、移动终端等具有显示和处理功能的设备。

参照图1，图1为本申请实施例方案中涉及的基于样本量的声纹聚类设备的硬件结构示意图。本申请实施例中，基于样本量的声纹聚类设备可以包括处理器1001(例如CPU)，通信总线1002，用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信；用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)；网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)；存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器，存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的硬件结构并不构成对基于样本量的声纹聚类设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

继续参照图1，图1中作为一种计算机可读存储介质的存储器1005可以包括操作系统、网络通信模块以及基于样本量的声纹聚类计算机可读指令。

在图1中，网络通信模块主要用于连接服务器，与服务器进行数据通信；而处理器1001可以调用存储器1005中存储的基于样本量的声纹聚类计算机可读指令，并执行本申请实施例提供的基于样本量的声纹聚类方法。

本申请实施例提供了一种基于样本量的声纹聚类方法。

参照图2，图2为本申请基于样本量的声纹聚类方法第一实施例的流程示意图。

本实施例中，所述基于样本量的声纹聚类方法应用于所述基于样本量的声纹聚类系统，所述声纹聚类系统包括缓存模块、存储模块以及处理器，所述基于样本量的声纹聚类方法包括以下步骤：

步骤S10，所述处理器在接收到用户端发送的待聚类声纹样本集，将所述待聚类声纹样本集存储至所述缓存模块，并根据所述待聚类声纹样本集的样本数量，判断所述待聚类声纹样本集是否为样本量超过预设样本量阈值的大样本量样本集；

现有的声纹聚类方法，均是对需要聚类的声纹样本集直接采用聚类算法聚类，从而在对样本量大的样本集聚类时，不仅计算耗时久而且聚类效果不理想。为了解决上述问题，本实施例中对不同规模的样本量采用不同的聚类模型，并通过分区聚类缩短了大样本量的待聚类声纹样本集的聚类时间，提升了聚类效果。具体地，根据声纹聚类应用场景的不同，待聚类声纹样本集中声纹样本的数量也是存在很大差异的，对于样本量较小的样本集，聚类计算时不需要占用并行运算的计算资源和配置，也可以在较短的时间内得到聚类结果，而对于样本量较大的样本集，聚类计算耗时则会较久，本实施例提供的声纹聚类方法对不同样本量的待聚类声纹样本集采用不同的聚类模型做聚类计算。所述处理器在接收到用户通过用户端发送的待聚类声纹样本集时，先将所述待聚类声纹样本集存储至所述缓存模块，以便后续调用对应聚类模型对所述待聚类声纹样本集进行聚类。预先设定声纹样本的数量阈值，然后获取所述缓存模块中所述待聚类声纹样本集对应的样本数量，并将所述样本数量与预设样本量阈值进行比较，以判断所述待聚类声纹样本集是否为样本量超过所述样本量阈值的大样本量样本集。

步骤S20，若所述处理器判定所述待聚类声纹样本集为所述大样本量样本集，则在所述存储模块中确定所述大样本量样本集对应的声纹聚类模型，作为目标声纹聚类模型；

本实施例中，若待聚类声纹样本集的样本数量小于该数量阈值，即待聚类声纹样本集为小样本量，则采用小样本量样本集对应的声纹聚类模型，若待聚类声纹样本集中声纹样本的数量大于该阈值，即待聚类声纹样本集为大样本量，则采用大样本量样本集对应的声纹聚类模型，作为目标声纹聚类模型。其中，大样本量样本集对应的声纹聚类模型加入了并行模型，在聚类算法的运算过程中运用Map以及Reduce(Map：映射，Reduce：归约)的方法。

步骤S30，所述处理器将所述缓存模块中的待聚类声纹样本集输入至所述目标声纹聚类模型，基于训练后的分区聚类算法对所述待聚类声纹样本集进行聚类，并输出所述待聚类声纹样本的聚类结果。

本实施例中，所述处理器将所述缓存模块中的待聚类声纹样本集输入至对应的目标声纹聚类模型中进行聚类，以便所述目标声纹聚类模型基于训练后的分区聚类算法对所述待聚类声纹样本集进行聚类，得到所述待聚类声纹样本集对应的声纹提供者，并输出所述待聚类声纹样本的聚类结果。

本实施例提供一种基于样本量的声纹聚类方法，本申请对不同规模的样本量采用不同的聚类模型，并通过分区聚类缩短了大样本量的待聚类声纹样本集的聚类时间，提升了聚类效果，解决了现有声纹聚类方法聚类效率低下的技术问题。

参照图3，图3为本申请基于样本量的声纹聚类方法第二实施例的流程示意图。

基于上述图2所示实施例，本实施例中，所述步骤S20之后，还包括：

步骤S40，对所述待聚类声纹样本集进行数据预处理和特征提取，并提取出所述待聚类声纹样本集的声纹样本特征MFCC、MFCC的一阶差分和MFCC的二阶差分；

步骤S50，所述处理器基于预设方式以及所述待聚类声纹样本集的MFCC、MFCC的一阶差分和MFCC的二阶差分，确定所述待聚类声纹样本集中各条声纹数据对应的声纹向量I-vector，并将所述各条声纹数据对应的声纹向量I-vector存储至所述存储模块。

本实施例中，声纹样本有多个特征，对所述待聚类声纹样本集进行数据预处理和特征提取，选取声纹样本的特征为：MFCC(Mel Frequency Cepstral Coefficents，梅尔频率倒谱系数)和MFCC的一阶差分、MFCC的二阶差分，即本实施例选择MFCC和MFCC的一阶差分，MFCC的二阶差分作为聚类模型的输入；将处理好的声纹特征数据采用GMM+UBM+JFA的方式，得到每条声纹数据对应的I-vector，I-vector是低维定长且只包含说话者空间信息的向量，GMM+UBM+JFA方式是基于GMM(Gaussian Mixture Model，高斯混合模型)-UBM(Universal Background Model，通用背景模型)的联合因子分析(Joint Factor Analysis，JFA)的方式。并将所述各条声纹数据对应的声纹向量I-vector存储至所述存储模块，以便后续基于所述各条声纹数据对应的声纹向量I-vector进行声纹数据的聚类。

基于上述图2所示实施例，本实施例中，所述步骤S10之后，还包括：

若所述处理器判定所述待聚类声纹样本集为不超过所述样本量阈值的小样本量样本集，则在所述存储模块中确定所述小样本量样本集对应的声纹聚类模型，作为目标声纹聚类模型；

所述处理器将所述存储模块中的所述待聚类声纹样本集对应的各条声纹数据对应的声纹向量I-vector输入至所述目标声纹聚类模型；

所述目标声纹聚类模型基于所述各条声纹数据对应的声纹向量I-vector将所述待聚类声纹样本集中的各条声纹数据划分为长度相等的区间；

所述目标声纹聚类模型获取各个区间内各个声纹数据两两对应的类间距以及PLDA打分，基于所述类间距以及所述PLDA打分对所述各个区间内各个声纹数据进行聚类，并输出所述待聚类声纹样本集对应的聚类结果。

其中，所述所述目标声纹聚类模型获取各个区间内各个声纹数据两两对应的类间距以及PLDA打分，基于所述类间距以及所述PLDA打分对所述各个区间内各个声纹数据进行聚类，并输出所述待聚类声纹样本集对应的聚类结果的步骤具体包括：

所述目标声纹聚类模型将各个区间内的各条声纹数据，分别记为一类，作为初始类；

根据预设类间距计算公式，得到各个区间内各个声纹数据两两对应的类间距，并根据一个类与其他各类的类间距均值的大小对所述初始类构造一个堆，其中，所述类间距＝1-代表两类的两条声纹数据标准化后的PLDA打分，且所述类间距满足正态分布；

基于所述各条声纹数据对应的类间距进行聚类，并输出所述待聚类声纹样本集对应的聚类结果。

本实施例中，选择向量的长度为600，若由上述步骤S10确定声纹聚类模型是小样本量的样本集对应的聚类模型，则将经过特征处理后的待聚类声纹样本集中每条声纹数据对应的I-vector，输入至第一聚类模型，进入以下步骤：

步骤a,第一聚类模型首先将600维长度的I-vector的每一维均匀划分为k个长度相等的区间：[a1,b1),[a2,b2),...[ak,bk)；其中，K的取值可以是待聚类声纹样本集包括的总声纹样本量的10％；

步骤b，在每一个区间内，将每个声纹样本都看做一类，记为初始类，此时类间距＝1-代表两类的两个样本标准化后的PLDA打分，得到类间距，按照其中一个类与其他各类的类间距均值的大小对初始类构造一个堆；其中，类间距满足正态分布；

步骤c,基于类间距的自动聚类；

选择类间距最小的两个类Ai，Bj，μ _i为类Ai的类间距服从分布的均值，μ _j为类Bj的类间距服从分布的均值，具体地：

若类间距-u≤αμ _i且类间距-u≤αμ _j，则合并Ai，Bj；

若类间距-u＞αμ _i且类间距-u＞αμ _j，则分离Ai，Bj，α取值为3，u为Ai，Bj之间的类间距。

作为一种实施方式，若Ai和/或Bj的个数大于1时，选择用代表点的方式来计算二者之间的类间距用于聚类，代表点的选择方法具体为：先筛选出两两PLDA打分最小的两个点，再选择剩余的点中与这两个点两两PLDA打分最小的点；以代表点方式来计算二者之间的类间距聚类时，类间距＝(∑i-类内代表点标准化后两两PLDA打分)/类中样本个数，直到剩余一个类，或者没有类剩余，得到最终的聚类结果,采用自动分离子类的方法，直接得到所聚的类别数，不需要人工给定超参数,提升聚类速度。

进一步地，所述步骤S30具体包括：

所述目标声纹聚类模型通过聚类算法对各个区间内的各条声纹数据进行并行聚类，并输出所述待聚类声纹样本的聚类结果。

其中，所述目标声纹聚类模型基于所述各条声纹数据对应的声纹向量I-vector将所述待聚类声纹样本集中的各条声纹数据划分为长度相等的区间的步骤之后，还包括：

所述目标声纹聚类模型根据预设个数阈值在划分后的区间中确定稠密区间以及稀疏区间，其中，若落在当前区间的声纹样本量大于所述个数阈值，则所述当前区间为稠密区间，若否，则所述当前区间为稀疏区间；

所述目标声纹聚类模型获取所述稠密区间相邻的稀疏区间的区间密度，并将所述区间密度与预设密度阈值进行比较，判断所述稠密区间相邻的稀疏区间是否为稀疏区间的稠密部分；

若所述目标声纹聚类模型判定所述稠密区间相邻的稀疏区间为稀疏区间的稠密部分，则将所述稠密区间相邻的稀疏区间并入所述稠密区间；

所述目标声纹聚类模型将相邻的稠密区间进行合并，并更新所述待聚类声纹样本集对应的稠密区间与稀疏区间。

其中，所述目标声纹聚类模型通过聚类算法对各个区间内的各条声纹数据进行并行聚类，并输出所述待聚类声纹样本的聚类结果的步骤具体包括：

所述目标声纹聚类模型通过cure算法在各个稠密区间以及各个稀疏区间中进行并行局部聚类；

所述目标声纹聚类模型通过Map函数以及Reduce函数对并行局部聚类后的声纹数据进行聚类处理，并合并输出各个区间的聚类结果。

本实施例中，若由上述步骤S10确定声纹聚类模型是大样本量的样本集对应的聚类模型，将经过特征处理后的待聚类声纹样本集中每条声纹数据对应的I-vector，输入至大样本量的样本集对应的聚类模型，进入以下步骤：

步骤a,第一聚类模型首先将600维长度的I-vector的每一维均匀划分为k个长度相等的区间：[a ₁,b ₁),[a ₂,b ₂),...[a _k,b _k)；其中，K的取值可以是待聚类声纹样本集包括的总声纹样本量的10％；该步骤与上述小样本量的样本集对应的聚类模型的步骤相同，将数据区间划分网格，缩短了聚类时间，提高聚类效果。

步骤d,利用阈值判断稠密区间和稀疏区间；本实施例阈值设置为总声纹样本量的60％，当落在当前区间内的声纹样本量大于设置的阈值，则该区间为稠密区间，否则则为稀疏区间；

步骤e,更新稠密区间；如果稠密区间[a _i,b _i)相邻的稀疏区间的0.5区间，即[a _i+d,a _i+d/2)的密度阈值>0.5*密度阈值,其中d为区间长度，则标记该区间为稀疏区间的稠密部分，将该区间并入稠密区间，稠密区间更新为[a _i，b _i+d/2)，若该稠密区间[a _i,b _i)相邻的稀疏区间的0.5区间<0.5*密度阈值，不做任何处理；

步骤f,对每个维度的所有稠密区间的相邻区间进行处理，合并相邻的稠密区间；

步骤g,在每个网格单元中采用聚类算法聚类；如cure算法进行局部聚类，当网格的大小达到设定的大小的时候，落入该网格的多个样本是相似的，而不同网格的样本点是不相似的，不同网格的样本间的距离是大于相同网格的样本间的距离的，由此，先在距离小的样本集合中进行聚类，提高聚类的效率，进一步地，在本实施例中，计算任务被分为Map和Reduce两个阶段，Map函数在多个节点上运行，处理一个或多个本地的数据分区；Reduce函数处理Map函数输出的中间结果，也可以并行运行，所有Reduce的输出合并后得到所有的分区的结果，Reduce对每个数据区间进行局部聚类得到的各类综合在一起，得到最终的聚类结果，本实施例采用分区聚类且聚类算法并行计算，对于样本数量大的待聚类声纹样本集也能达到快速聚类的效果。

此外，本申请实施例还提供一种基于样本量的声纹聚类装置。

本实施例中，所述基于样本量的声纹聚类装置包括：

第一模型确定模块，用于若所述处理器判定所述待聚类声纹样本集为所述大样本量样本集，则在所述存储模块中确定所述大样本量样本集对应的声纹聚类模型，作为目标声纹聚类模型；

进一步地，所述基于样本量的声纹聚类装置还包括：

样本特征提取模块，用于对所述待聚类声纹样本集进行数据预处理和特征提取，并提取出所述待聚类声纹样本集的声纹样本特征MFCC、MFCC的一阶差分和MFCC的二阶差分；

声纹向量确定模块，用于所述处理器基于预设方式以及所述待聚类声纹样本集的MFCC、MFCC的一阶差分和MFCC的二阶差分，确定所述待聚类声纹样本集中各条声纹数据对应的声纹向量I-vector，并将所述各条声纹数据对应的声纹向量I-vector存储至所述存储模块。

进一步地，所述第一分区聚类模块具体包括：

声纹向量输入单元，用于所述处理器将所述存储模块中的所述待聚类声纹样本集对应的各条声纹数据对应的声纹向量I-vector输入至所述目标声纹聚类模型；

数据区间划分单元，用于所述目标声纹聚类模型基于所述各条声纹数据对应的声纹向量I-vector将所述待聚类声纹样本集中的各条声纹数据划分为长度相等的区间；

分区并行聚类单元，用于所述目标声纹聚类模型通过聚类算法对各个区间内的各条声纹数据进行并行聚类，并输出所述待聚类声纹样本的聚类结果。

进一步地，所述第一分区聚类模块还用于：

进一步地，所述基于样本量的声纹聚类装置还包括：

第二模型确定模块，用于若所述处理器判定所述待聚类声纹样本集为不超过所述样本量阈值的小样本量样本集，则在所述存储模块中确定所述小样本量样本集对应的声纹聚类模型，作为目标声纹聚类模型；

样本数据输入模块，用于所述处理器将所述存储模块中的所述待聚类声纹样本集对应的各条声纹数据对应的声纹向量I-vector输入至所述目标声纹聚类模型；

声纹数据分区模块，用于所述目标声纹聚类模型基于所述各条声纹数据对应的声纹向量I-vector将所述待聚类声纹样本集中的各条声纹数据划分为长度相等的区间；

第一分区聚类模块，用于所述目标声纹聚类模型获取各个区间内各个声纹数据两两对应的类间距以及PLDA打分，基于所述类间距以及所述PLDA打分对所述各个区间内各个声纹数据进行聚类，并输出所述待聚类声纹样本集对应的聚类结果。

进一步地，所述第一分区聚类模块还用于：

其中，上述基于样本量的声纹聚类装置中各个模块与上述基于样本量的声纹聚类方法实施例中各步骤相对应，其功能和实现过程在此处不再一一赘述。

此外，本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质可以为非易失性可读存储介质。

本申请计算机可读存储介质上存储有基于样本量的声纹聚类计算机可读指令，其中所述基于样本量的声纹聚类计算机可读指令被处理器执行时，实现如上述的基于样本量的声纹聚类方法的步骤。

其中，基于样本量的声纹聚类计算机可读指令被执行时所实现的方法可参照本申请基于样本量的声纹聚类方法的各个实施例，此处不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

一种基于样本量的声纹聚类方法，其特征在于，所述基于样本量的声纹聚类方法应用于所述基于样本量的声纹聚类系统，所述声纹聚类系统包括缓存模块、存储模块以及处理器，所述基于样本量的声纹聚类方法包括以下步骤：

所述处理器在接收到用户端发送的待聚类声纹样本集，将所述待聚类声纹样本集存储至所述缓存模块，并根据所述待聚类声纹样本集的样本数量，判断所述待聚类声纹样本集是否为样本量超过预设样本量阈值的大样本量样本集；

若所述处理器判定所述待聚类声纹样本集为所述大样本量样本集，则在所述存储模块中确定所述大样本量样本集对应的声纹聚类模型，作为目标声纹聚类模型；

所述处理器将所述缓存模块中的待聚类声纹样本集输入至所述目标声纹聚类模型，基于训练后的分区聚类算法对所述待聚类声纹样本集进行聚类，并输出所述待聚类声纹样本的聚类结果。
如权利要求1所述的基于样本量的声纹聚类方法，其特征在于，所述处理器在接收到用户端发送的待聚类声纹样本集的步骤之后，还包括：

对所述待聚类声纹样本集进行数据预处理和特征提取，并提取出所述待聚类声纹样本集的声纹样本特征MFCC、MFCC的一阶差分和MFCC的二阶差分；

所述处理器基于预设方式以及所述待聚类声纹样本集的MFCC、MFCC的一阶差分和MFCC的二阶差分，确定所述待聚类声纹样本集中各条声纹数据对应的声纹向量I-vector，并将所述各条声纹数据对应的声纹向量I-vector存储至所述存储模块。
如权利要求2所述的基于样本量的声纹聚类方法，其特征在于，所述处理器将所述缓存模块中的待聚类声纹样本集输入至所述目标声纹聚类模型，基于训练后的分区聚类算法对所述待聚类声纹样本集进行聚类，并输出所述待聚类声纹样本的聚类结果的步骤具体包括：

所述处理器将所述存储模块中的所述待聚类声纹样本集对应的各条声纹数据对应的声纹向量I-vector输入至所述目标声纹聚类模型；

所述目标声纹聚类模型基于所述各条声纹数据对应的声纹向量I-vector将所述待聚类声纹样本集中的各条声纹数据划分为长度相等的区间；

所述目标声纹聚类模型通过聚类算法对各个区间内的各条声纹数据进行并行聚类，并输出所述待聚类声纹样本的聚类结果。
如权利要求3所述的基于样本量的声纹聚类方法，其特征在于，所述目标声纹聚类模型基于所述各条声纹数据对应的声纹向量I-vector将所述待聚类声纹样本集中的各条声纹数据划分为长度相等的区间的步骤之后，还包括：

所述目标声纹聚类模型根据预设个数阈值在划分后的区间中确定稠密区间以及稀疏区间，其中，若落在当前区间的声纹样本量大于所述个数阈值，则所述当前区间为稠密区间，若否，则所述当前区间为稀疏区间；

所述目标声纹聚类模型获取所述稠密区间相邻的稀疏区间的区间密度，并将所述区间密度与预设密度阈值进行比较，判断所述稠密区间相邻的稀疏区间是否为稀疏区间的稠密部分；

若所述目标声纹聚类模型判定所述稠密区间相邻的稀疏区间为稀疏区间的稠密部分，则将所述稠密区间相邻的稀疏区间并入所述稠密区间；

所述目标声纹聚类模型将相邻的稠密区间进行合并，并更新所述待聚类声纹样本集对应的稠密区间与稀疏区间。
如权利要求4所述的基于样本量的声纹聚类方法，其特征在于，所述目标声纹聚类模型通过聚类算法对各个区间内的各条声纹数据进行并行聚类，并输出所述待聚类声纹样本的聚类结果的步骤具体包括：

所述目标声纹聚类模型通过cure算法在各个稠密区间以及各个稀疏区间中进行并行局部聚类；

所述目标声纹聚类模型通过Map函数以及Reduce函数对并行局部聚类后的声纹数据进行聚类处理，并合并输出各个区间的聚类结果。
如权利要求2所述的基于样本量的声纹聚类方法，其特征在于，所述处理器在接收到用户端发送的待聚类声纹样本集，将所述待聚类声纹样本集存储至所述缓存模块，并根据所述待聚类声纹样本集的样本数量，判断所述待聚类声纹样本集是否为样本量超过预设样本量阈值的大样本量样本集的步骤之后，还包括：

若所述处理器判定所述待聚类声纹样本集为不超过所述样本量阈值的小样本量样本集，则在所述存储模块中确定所述小样本量样本集对应的声纹聚类模型，作为目标声纹聚类模型；

所述处理器将所述存储模块中的所述待聚类声纹样本集对应的各条声纹数据对应的声纹向量I-vector输入至所述目标声纹聚类模型；

所述目标声纹聚类模型基于所述各条声纹数据对应的声纹向量I-vector将所述待聚类声纹样本集中的各条声纹数据划分为长度相等的区间；

所述目标声纹聚类模型获取各个区间内各个声纹数据两两对应的类间距以及PLDA打分，基于所述类间距以及所述PLDA打分对所述各个区间内各个声纹数据进行聚类，并输出所述待聚类声纹样本集对应的聚类结果。
如权利要求6所述的基于样本量的声纹聚类方法，其特征在于，所述目标声纹聚类模型获取各个区间内各个声纹数据两两对应的类间距以及PLDA打分，基于所述类间距以及所述PLDA打分对所述各个区间内各个声纹数据进行聚类，并输出所述待聚类声纹样本集对应的聚类结果的步骤具体包括：

所述目标声纹聚类模型将各个区间内的各条声纹数据，分别记为一类，作为初始类；

根据预设类间距计算公式，得到各个区间内各个声纹数据两两对应的类间距，并根据一个类与其他各类的类间距均值的大小对所述初始类构造一个堆，其中，所述类间距＝1-代表两类的两条声纹数据标准化后的PLDA打分，且所述类间距满足正态分布；

基于所述各条声纹数据对应的类间距进行聚类，并输出所述待聚类声纹样本集对应的聚类结果。
一种基于样本量的声纹聚类装置，其特征在于，所述基于样本量的声纹聚类装置包括：

样本量确定模块，用于所述处理器在接收到用户端发送的待聚类声纹样本集，将所述待聚类声纹样本集存储至所述缓存模块，并根据所述待聚类声纹样本集的样本数量，判断所述待聚类声纹样本集是否为样本量超过预设样本量阈值的大样本量样本集；

聚类模型确定模块，用于若所述处理器判定所述待聚类声纹样本集为所述大样本量样本集，则在所述存储模块中确定所述大样本量样本集对应的声纹聚类模型，作为目标声纹聚类模型；

第一分区聚类模块，用于所述处理器将所述缓存模块中的待聚类声纹样本集输入至所述目标声纹聚类模型，基于训练后的分区聚类算法对所述待聚类声纹样本集进行聚类，并输出所述待聚类声纹样本的聚类结果。
如权利要求8所述的基于样本量的声纹聚类装置，其特征在于，进一步地，所述基于样本量的声纹聚类装置还包括：

样本特征提取模块，用于对所述待聚类声纹样本集进行数据预处理和特征提取，并提取出所述待聚类声纹样本集的声纹样本特征MFCC、MFCC的一阶差分和MFCC的二阶差分；

声纹向量确定模块，用于所述处理器基于预设方式以及所述待聚类声纹样本集的MFCC、MFCC的一阶差分和MFCC的二阶差分，确定所述待聚类声纹样本集中各条声纹数据对应的声纹向量I-vector，并将所述各条声纹数据对应的声纹向量I-vector存储至所述存储模块。
如权利要求8所述的基于样本量的声纹聚类装置，其特征在于，所述第一分区聚类模块具体包括：

声纹向量输入单元，用于所述处理器将所述存储模块中的所述待聚类声纹样本集对应的各条声纹数据对应的声纹向量I-vector输入至所述目标声纹聚类模型；

数据区间划分单元，用于所述目标声纹聚类模型基于所述各条声纹数据对应的声纹向量I-vector将所述待聚类声纹样本集中的各条声纹数据划分为长度相等的区间；

分区并行聚类单元，用于所述目标声纹聚类模型通过聚类算法对各个区间内的各条声纹数据进行并行聚类，并输出所述待聚类声纹样本的聚类结果。
如权利要求8所述的基于样本量的声纹聚类装置，其特征在于，所述第一分区聚类模块还用于：

所述目标声纹聚类模型根据预设个数阈值在划分后的区间中确定稠密区间以及稀疏区间，其中，若落在当前区间的声纹样本量大于所述个数阈值，则所述当前区间为稠密区间，若否，则所述当前区间为稀疏区间；

所述目标声纹聚类模型获取所述稠密区间相邻的稀疏区间的区间密度，并将所述区间密度与预设密度阈值进行比较，判断所述稠密区间相邻的稀疏区间是否为稀疏区间的稠密部分；

若所述目标声纹聚类模型判定所述稠密区间相邻的稀疏区间为稀疏区间的稠密部分，则将所述稠密区间相邻的稀疏区间并入所述稠密区间；

所述目标声纹聚类模型将相邻的稠密区间进行合并，并更新所述待聚类声纹样本集对应的稠密区间与稀疏区间。
如权利要求8所述的基于样本量的声纹聚类装置，其特征在于，所述第一分区聚类模块还用于：

所述目标声纹聚类模型通过cure算法在各个稠密区间以及各个稀疏区间中进行并行局部聚类；

所述目标声纹聚类模型通过Map函数以及Reduce函数对并行局部聚类后的声纹数据进行聚类处理，并合并输出各个区间的聚类结果。
一种基于样本量的声纹聚类设备，其特征在于，所述基于样本量的声纹聚类设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的基于样本量的声纹聚类计算机可读指令，其中所述基于样本量的声纹聚类计算机可读指令被所述处理器执行时，实现如下步骤：

所述处理器在接收到用户端发送的待聚类声纹样本集，将所述待聚类声纹样本集存储至所述缓存模块，并根据所述待聚类声纹样本集的样本数量，判断所述待聚类声纹样本集是否为样本量超过预设样本量阈值的大样本量样本集；

若所述处理器判定所述待聚类声纹样本集为所述大样本量样本集，则在所述存储模块中确定所述大样本量样本集对应的声纹聚类模型，作为目标声纹聚类模型；

所述处理器将所述缓存模块中的待聚类声纹样本集输入至所述目标声纹聚类模型，基于训练后的分区聚类算法对所述待聚类声纹样本集进行聚类，并输出所述待聚类声纹样本的聚类结果。
如权利要求13所述的基于样本量的声纹聚类设备，其特征在于，所述处理器在接收到用户端发送的待聚类声纹样本集的步骤之后，还包括：

对所述待聚类声纹样本集进行数据预处理和特征提取，并提取出所述待聚类声纹样本集的声纹样本特征MFCC、MFCC的一阶差分和MFCC的二阶差分；

所述处理器基于预设方式以及所述待聚类声纹样本集的MFCC、MFCC的一阶差分和MFCC的二阶差分，确定所述待聚类声纹样本集中各条声纹数据对应的声纹向量I-vector，并将所述各条声纹数据对应的声纹向量I-vector 存储至所述存储模块。
如权利要求14所述的基于样本量的声纹聚类设备，其特征在于，所述处理器将所述缓存模块中的待聚类声纹样本集输入至所述目标声纹聚类模型，基于训练后的分区聚类算法对所述待聚类声纹样本集进行聚类，并输出所述待聚类声纹样本的聚类结果的步骤具体包括：

所述处理器将所述存储模块中的所述待聚类声纹样本集对应的各条声纹数据对应的声纹向量I-vector输入至所述目标声纹聚类模型；

所述目标声纹聚类模型基于所述各条声纹数据对应的声纹向量I-vector将所述待聚类声纹样本集中的各条声纹数据划分为长度相等的区间；

所述目标声纹聚类模型通过聚类算法对各个区间内的各条声纹数据进行并行聚类，并输出所述待聚类声纹样本的聚类结果。
如权利要求15所述的基于样本量的声纹聚类设备，其特征在于，所述目标声纹聚类模型基于所述各条声纹数据对应的声纹向量I-vector将所述待聚类声纹样本集中的各条声纹数据划分为长度相等的区间的步骤之后，还包括：

所述目标声纹聚类模型根据预设个数阈值在划分后的区间中确定稠密区间以及稀疏区间，其中，若落在当前区间的声纹样本量大于所述个数阈值，则所述当前区间为稠密区间，若否，则所述当前区间为稀疏区间；

所述目标声纹聚类模型获取所述稠密区间相邻的稀疏区间的区间密度，并将所述区间密度与预设密度阈值进行比较，判断所述稠密区间相邻的稀疏区间是否为稀疏区间的稠密部分；

若所述目标声纹聚类模型判定所述稠密区间相邻的稀疏区间为稀疏区间的稠密部分，则将所述稠密区间相邻的稀疏区间并入所述稠密区间；

所述目标声纹聚类模型将相邻的稠密区间进行合并，并更新所述待聚类声纹样本集对应的稠密区间与稀疏区间。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有基于样本量的声纹聚类计算机可读指令，其中所述基于样本量的声纹聚类计算机可读指令被处理器执行时，实现如下步骤：

所述处理器在接收到用户端发送的待聚类声纹样本集，将所述待聚类声纹样本集存储至所述缓存模块，并根据所述待聚类声纹样本集的样本数量，判断所述待聚类声纹样本集是否为样本量超过预设样本量阈值的大样本量样本集；

若所述处理器判定所述待聚类声纹样本集为所述大样本量样本集，则在所述存储模块中确定所述大样本量样本集对应的声纹聚类模型，作为目标声纹聚类模型；

所述处理器将所述缓存模块中的待聚类声纹样本集输入至所述目标声纹聚类模型，基于训练后的分区聚类算法对所述待聚类声纹样本集进行聚类，并输出所述待聚类声纹样本的聚类结果。
如权利要求17所述的计算机可读存储介质，其特征在于，所述处理器在接收到用户端发送的待聚类声纹样本集的步骤之后，还包括：

对所述待聚类声纹样本集进行数据预处理和特征提取，并提取出所述待聚类声纹样本集的声纹样本特征MFCC、MFCC的一阶差分和MFCC的二阶差分；

所述处理器基于预设方式以及所述待聚类声纹样本集的MFCC、MFCC的一阶差分和MFCC的二阶差分，确定所述待聚类声纹样本集中各条声纹数据对应的声纹向量I-vector，并将所述各条声纹数据对应的声纹向量I-vector存储至所述存储模块。
如权利要求18所述的计算机可读存储介质，其特征在于，所述处理器将所述缓存模块中的待聚类声纹样本集输入至所述目标声纹聚类模型，基于训练后的分区聚类算法对所述待聚类声纹样本集进行聚类，并输出所述待聚类声纹样本的聚类结果的步骤具体包括：

所述处理器将所述存储模块中的所述待聚类声纹样本集对应的各条声纹数据对应的声纹向量I-vector输入至所述目标声纹聚类模型；

所述目标声纹聚类模型基于所述各条声纹数据对应的声纹向量I-vector将所述待聚类声纹样本集中的各条声纹数据划分为长度相等的区间；

所述目标声纹聚类模型通过聚类算法对各个区间内的各条声纹数据进行并行聚类，并输出所述待聚类声纹样本的聚类结果。
如权利要求19所述的计算机可读存储介质，其特征在于，所述目标声纹聚类模型基于所述各条声纹数据对应的声纹向量I-vector将所述待聚类声纹样本集中的各条声纹数据划分为长度相等的区间的步骤之后，还包括：

所述目标声纹聚类模型根据预设个数阈值在划分后的区间中确定稠密区间以及稀疏区间，其中，若落在当前区间的声纹样本量大于所述个数阈值，则所述当前区间为稠密区间，若否，则所述当前区间为稀疏区间；

所述目标声纹聚类模型获取所述稠密区间相邻的稀疏区间的区间密度，并将所述区间密度与预设密度阈值进行比较，判断所述稠密区间相邻的稀疏区间是否为稀疏区间的稠密部分；

若所述目标声纹聚类模型判定所述稠密区间相邻的稀疏区间为稀疏区间的稠密部分，则将所述稠密区间相邻的稀疏区间并入所述稠密区间；

所述目标声纹聚类模型将相邻的稠密区间进行合并，并更新所述待聚类声纹样本集对应的稠密区间与稀疏区间。