WO2020258661A1

WO2020258661A1 - 基于循环神经网络和声学特征的说话人分离方法及装置

Info

Publication number: WO2020258661A1
Application number: PCT/CN2019/117805
Authority: WO
Inventors: 王健宗; 贾雪丽
Original assignee: 平安科技（深圳）有限公司
Priority date: 2019-06-26
Filing date: 2019-11-13
Publication date: 2020-12-30
Also published as: CN110444223B; CN110444223A

Abstract

基于循环神经网络和声学特征的说话人分离方法包括通过语音识别获取待识别语音数据的词向量集合，并识别获取待识别语音数据的MFCC特征向量集合，将其进行全连接，以得到融合后特征向量（S120）；将融合后特征向量进行编码得到编码结果（S130）；将编码结果进行解码得到与融合后特征向量对应的分割结果（S140）；将分割结果进行说话人转换的预测，得到说话人转换符对应的说话人识别结果（S150）；将说话人识别结果通过聚类，得到说话人分类结果（S160）；以及将说话人分类结果发送至待识别语音数据对应的上传端（S170）。

Description

基于循环神经网络和声学特征的说话人分离方法及装置

本申请要求于2019年6月26日提交中国专利局、申请号为201910561692.X、申请名称为“基于循环神经网络和声学特征的说话人分离方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及语音分类技术领域，尤其涉及一种基于循环神经网络和声学特征的说话人分离方法及装置。

背景技术

说话人分离对于一个包含多个说话人的完整语音识别系统(ASR，全称是Automatic Speech Recognition)来说是一个非常重要的前处理步骤，并且说话人分离的信息对于比如像角色变换之类的语音分析也至关重要。

通常说话人分离系统包含两个部分：分割和聚类。分割的目的是找到所有的说话人间转换点，其中最常用的是基于贝叶斯信息准则的分割方法。近来，利用循环神经网络、联合因子分析以及经过监督学习和非监督学习的预训练的深度神经网络等方法的说话人分离都取得了很好的效果。然而，很少有算法涉及到挖掘词汇信息，大多数涉及到词汇信息的研究都涉及到说话人的身份或角色，即语音识别得到的文本没有被应用到分离的一个可能的原因是如果在分离之前先运行ASR的话会引入更多的噪声。

发明内容

本申请实施例提供了一种基于循环神经网络和声学特征的说话人分离方法、装置、计算机设备及存储介质，旨在解决现有技术中通常说话人分离系统利用循环神经网络、联合因子分析以及经过监督学习和非监督学习的预训练的深度神经网络等方法的说话人分离，而由于在说话人分离之前引入语音识别会产生更多的噪声，导致语音识别得到的文本没有被应用到说话人分离的问题。

第一方面，本申请实施例提供了一种基于循环神经网络和声学特征的说话人分离方法，其包括：

接收上传端所发送的待识别语音数据；

通过语音识别获取所述待识别语音数据的词向量集合，并通过语音识别获取所述待识别语音数据的MFCC特征向量集合，将所述词向量集合和MFCC特征向量集合进行全连接，以得到融合后特征向量；

将所述融合后特征向量输入至编码器中进行编码，得到编码结果；

将所述编码结果作为解码器的输入进行解码，得到与所述融合后特征向量对应的分割结果；其中，所述分割结果包括词序列和说话人转换符；

将所述分割结果中距每个词距离最近的说话人转换符分配至对应的词，以对所述分割结果进行说话人转换的预测，得到说话人转换符对应的说话人识别结果；

将所述说话人识别结果通过聚类，得到说话人分类结果；以及

将所述说话人分类结果发送至所述待识别语音数据对应的上传端。

第二方面，本申请实施例提供了一种基于循环神经网络和声学特征的说话人分离装置，其包括：

语音接收单元，用于接收上传端所发送的待识别语音数据；

特征融合单元，用于通过语音识别获取所述待识别语音数据的词向量集合，并通过语音识别获取所述待识别语音数据的MFCC特征向量集合，将所述词向量集合和MFCC特征向量集合进行全连接，以得到融合后特征向量；

编码单元，用于将所述融合后特征向量输入至编码器中进行编码，得到编码结果；

解码单元，用于将所述编码结果作为解码器的输入进行解码，得到与所述融合后特征向量对应的分割结果；其中，所述分割结果包括词序列和说话人转换符；

说话人预测单元，用于将所述分割结果中距每个词距离最近的说话人转换符分配至对应的词，以对所述分割结果进行说话人转换的预测，得到说话人转换符对应的说话人识别结果；

说话人聚类单元，用于将所述说话人识别结果通过聚类，得到说话人分类结果；以及

结果发送单元，用于将所述说话人分类结果发送至所述待识别语音数据对应的上传端。

第三方面，本申请实施例又提供了一种计算机设备，其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的基于循环神经网络和声学特征的说话人分离方法。

第四方面，本申请实施例还提供了一种计算机可读存储介质，其中所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的基于循环神经网络和声学特征的说话人分离方法。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的基于循环神经网络和声学特征的说话人分离方法的流程示意图；

图2为本申请实施例提供的基于循环神经网络和声学特征的说话人分离方法的子流程示意图；

图3为本申请实施例提供的基于循环神经网络和声学特征的说话人分离方法的另一子流程示意图；

图4为本申请实施例提供的基于循环神经网络和声学特征的说话人分离方法中解码器输出和重叠的说话人转换向量的示意图；

图5为本申请实施例提供的基于循环神经网络和声学特征的说话人分离装置的示意性框图；

图6为本申请实施例提供的基于循环神经网络和声学特征的说话人分离装置的子单元示意性框图；

图7为本申请实施例提供的基于循环神经网络和声学特征的说话人分离装置的另一子单元示意性框图；

图8为本申请实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1，其为本申请实施例提供的基于循环神经网络和声学特征的说话人分离方法的流程示意图，该基于循环神经网络和声学特征的说话人分离方法应用于服务器中，该方法通过安装于服务器中的应用软件进行执行。

如图1所示，该方法包括步骤S110～S170。

S110、接收上传端所发送的待识别语音数据。

在本实施例中，当使用上传端的录音功能或视频录制功能采集到了待识别语音数据时，为了实现对待识别语音数据的说话人分离，需将待识别语音数据由上传端发送至服务器，由服务器对待识别语音数据进行数据处理而得到说话人分类结果。

S120、通过语音识别获取所述待识别语音数据的词向量集合，并通过语音识别获取所述待识别语音数据的MFCC特征向量集合，将所述词向量集合和MFCC特征向量集合进行全连接，以得到融合后特征向量。

在本实施例中，为了对待识别语音数据进行说话人分离，需要先提取待识别语音数据对应的词向量集合和MFCC特征向量集合。

其中，词向量集合从所述待识别语音数据对应的文本数据中获取。在一实施例中，如图2所示，步骤S120包括：

S121、通过语音识别获取与所述待识别语音数据中各分词对应的独立热编码词向量；

S122、通过用于将词转化为向量的Word2Vec模型将与待识别语音对应的每一独立热编码词向量进行转化，得到与待识别语音数据对应的词向量集合。

即先用一个线性层将与所述待识别语音数据中各分词对应的独立热编码词向量转化到编码器中的词嵌入层，由词嵌入层中的Word2Vec模型将与待识别语音对应的每一独立热编码词向量进行转化，得到与待识别语音数据对应的词向量集合。

其中，MFCC特征向量集合从所述待识别语音数据中直接获取。在一实施例中，步骤S120包括：

按照预设的特征窗口从所述待识别语音进行特征提取，得到与所述待识别语音对应的MFCC特征向量；其中，所述特征窗口的窗口长度为预设的第一时间值，所述特征窗口的移动距离为预设的第二时间值。

在本实施例中，从所述待识别语音进行特征提取MFCC特征向量集合时(MFCC的全称是Mel-scaleFrequency Cepstral Coefficients，表示梅尔倒谱系数)，可以预设所述特征窗口的窗口长度为25ms，预设所述特征窗口的移动距离为10ms。从窗口长度25ms，移动距离10ms的窗口中提取13维的MFCC特征，然后对词段进行平均，每一个词得到一个13*1的一维列向量，以组成MFCC特征向量集合。通过提取与所述待识别语音对应的MFCC特征向量，有效的将语音物理信息(频谱包络和细节)进行编码运算得到的一组特征向量。

在一实施例中，将所述所述词向量集合及所述MFCC特征向量集合均输入至具有相同数目隐藏层的GRU模型中进行全连接，以得到融合后特征向量。

对于MFCC特征向量，采用了256个隐藏层单元的隐藏层，256大小的词向量和256大小的输出层。并且令MFCC特征的隐藏层层数和词嵌入层的隐藏层层数一致，这样才能输出更好的表现。

S130、将所述融合后特征向量输入至编码器中进行编码，得到编码结果。

在本实施例中，由于将所述融合后特征向量输入至编码器中进行编码，可知编码器中融合了MFCC特征向量和词向量，MFCC特征向量和词向量通过编码器中一些线性层进行全连接，得到融合后特征向量。然后将融合后特征向量输入至编码器中采用的GRU模型(即门控循环单元)，即可得到编码结果。

在一实施例中，步骤S130包括：

将所述融合后特征向量输入至编码器中进行非线性变化转化以得到中间语义；

通过注意力机制获取所述中间语义中各分词的注意力分配概率分布，以得到与所述中间语义对应的编码结果。

在本实施例中，注意力机制常用于编码器-解码器框架。编码器顾名思义就是对输入句子Source(例如待识别语音数据对应的文本中的语句)进行编码，将输入句子Source通过非线性变换转化为中间语义表示C，其中C＝F(x ₁，x ₂，……，x _m)；对于解码器来说，其任务是根据输入句子Source的中间语义表示C和之前已经生成的历史信息y ₁，y ₂，……y _i-1来生成i时刻要生成的单词y _i＝(Ci，y ₁，y ₂，……y _i-1)，C _i为所述中间语义中分词i的注意力分配概率分布。即若在编码器和解码器中间引入注意力模型，上述过程如y1＝f(C1)，y2＝f(C2，y1)，y3＝f(C3,y1,y2)，也即每个Ci可能对应着不同的源语句子单词的注意力分配概率分布，这就使得模型的注意力机制可以帮助捕捉到说话人的特征的最重要的部分。

注意力机制在序列学习任务上具有巨大的提升作用，在编解码器框架内，通过在编码段加入A模型，对源数据序列进行数据加权变换，或者在解码端引入A模型，对目标数据进行加权变化，可以有效提高序列对序列的自然方式下的系统表现。

S140、将所述编码结果作为解码器的输入进行解码，得到与所述融合后特征向量对应的分割结果；其中，所述分割结果包括词序列和说话人转换符。

在本实施例中，解码器输出的是包括词序列和说话人转换符的分割结果。例如，待识别语音数据对应的文本为：hello hi my name is James hi James。解码器输出的分割结果为：hello#A hi#B my name is James#A hi James。

在解码器的损失函数在计算时，忽略了说话人的ID，而只关心说话人分组情况。比如，说话人转换符序列ABA被视为等价于BAB。因为在计算过程中，会计算转换符序列的原始版本和翻转版本，并选择损失最小的那一个作为损失值。这个损失函数也可以避免学习训练集中目标序列中转换符和词之间的概率。

S150、将所述分割结果中距每个词距离最近的说话人转换符分配至对应的词，以对所述分割结果进行说话人转换的预测，得到说话人转换符对应的说话人识别结果。

在本实施例中，为了实现最大化说话人转换预测的准确度，采用了一个移动-重叠的设计。例如，采用一个32个词长度的窗口从头到尾扫过整个部分。对于每个窗口，用训练好的序列到序列模型来预测转换符序列。

在一实施例中，如图3所示，步骤S150包括：

S151、获取解码器中的分割结果；

S152、获取所述分割结果中标识位指向首位的词，以作为当前起始词；

S153、将分割结果中距每个词距离最近的说话人转换符分配至所述分割结果中每个词，以建立转换向量；

S154、将所述转换向量存储至说话人转换序列矩阵中；

S155、将所述标识位指向位置向右移动一个词以更新当前起始词；

S156、判断当前起始词是否为分割结果中处于末位的词，若当前起始词不为分割结果中处于末位的词，返回执行步骤S153，若当前起始词为分割结果中处于末位的词执行步骤S157；

S157、结束说话人转换的预测的流程。

即在预测中，分别从文本和音频文件中抽取32个词的词向量和32维的MFCC特征向量。具体的说话人转换序列的预测通过图4和如下步骤进行：

51)从解码器中得到一个分割结果；

52)通过将分割结果中距每个词最近的转换符分配给每个词的方式建立一个转换向量；

53)将所述转换向量存在一个累积的说话人转换序列矩阵中；

54)向右移动一个单词的距离并将下一组32个词向量和32维的MFCC特征向量输入到编码器中；

通过将窗口移动到末端之后，通过多数表决的方式来决定说话人转换符的所属。通过这种方式，相当于用32种不同的预测来决定。

S160、将所述说话人识别结果通过聚类，得到说话人分类结果。

在本实施例中，采用的是基于贝叶斯信息准则(BIC)的聚类方式，并且采用的特征是帧级别的MFCC特征。在多说话人语音分离中，将所述说话人识别结果进行聚类，就是一个语音流的聚类过程，将语音流聚类成多个说话人的语音流。

S170、将所述说话人分类结果发送至所述待识别语音数据对应的上传端。

在本实施例中，当完成了说话人分类结果的识别后，将将所述说话人分类结果发送至所述待识别语音数据对应的上传端，完成待识别语音数据在服务器线上进行说话人分离。

在一实施例中，步骤S121包括：

通过N-gram模型对所述待识别语音数据进行识别，以得到识别结果；其中，所述N-gram模型为N元模型，所述N-gram模型由训练集语料库输入至初始N-gram模型进行训练而得到；

将所述识别结果通过基于概率统计分词模型进行分词，得到与所述识别结果对应的分词结果；

将分词结果中的各分词对应转化为独立热编码词向量。

在本实施例中，N-gram模型是一种语言模型(Language Model，LM)，语言模型是一个基于概率的判别模型，它的输入是一句话(单词的顺序序列)，输出是这句话的概率，即这些单词的联合概率(joint probability)。

通过N-gram模型对所述待识别语音数据进行识别得到识别结果后，再通过基于概率统计分词模型进行分词，得到与所述识别结果对应的分词结果。其中，基于概率统计分词模型进行分词过程如下：例如，令C＝C1C2...Cm，C是待切分的汉字串，令W＝W1W2...Wn，W是切分的结果，Wa，Wb，……，Wk是C的所有可能的切分方案。那么，基于概率统计分词模型就是能够找到目的词串W，使得W满足：P(W|C)＝MAX(P(Wa|C)，P(Wb|C)...P(Wk|C))的分词模型，上述分词模型得到的词串W即估计概率为最大之词串。通过基于概率统计分词模型即可对所述识别结果行分词，从而得到与所述识别结果对应的分词结果。

最后将分词结果中的各分词对应转化为独立热编码词向量即可。

在一实施例中，步骤S160之后还包括：

判断所述说话人分类结果中的说话人个数是否大于1；

若所述说话人分类结果中的说话人个数等于1，将所述待识别语音数据对应增加用于标识非对话语音的第一标签；

若所述说话人分类结果中的说话人个数大于1，将所述待识别语音数据对应增加用于标识对话语音的第二标签。

在本实施例中，当所述说话人分类结果中的说话人个数超出一个，表示所述待识别语音数据是至少2个人对话；当所述说话人分类结果中的说话人个数未超出一个，表示所述待识别语音数据是至多1个人说话。通过对说话人个数统计，能有效区分待识别语音数据对应的是对话还是独白。

该方法实现了融合了词汇和声学特征信息的序列到序列模型去进行说话人的分离，可以捕捉到包括说话人转换点前后的编码信息。

本申请实施例还提供一种基于循环神经网络和声学特征的说话人分离装置，该基于循环神经网络和声学特征的说话人分离装置用于执行前述基于循环神经网络和声学特征的说话人分离方法的任一实施例。具体地，请参阅图5，图5是本申请实施例提供的基于循环神经网络和声学特征的说话人分离装置的示意性框图。该基于循环神经网络和声学特征的说话人分离装置100可以配置于服务器中。

如图5所示，基于循环神经网络和声学特征的说话人分离装置100包括语音接收单元110、特征融合单元120、编码单元130、解码单元140、说话人预测单元150、说话人聚类单元160、结果发送单元170。

语音接收单元110，用于接收上传端所发送的待识别语音数据。

特征融合单元120，用于通过语音识别获取所述待识别语音数据的词向量集合，并通过语音识别获取所述待识别语音数据的MFCC特征向量集合，将所述词向量集合和MFCC特征向量集合进行全连接，以得到融合后特征向量。

其中，词向量集合从所述待识别语音数据对应的文本数据中获取。在一实施例中，如图6所示，特征融合单元120包括：

独立热编码词向量获取单元121，用于通过语音识别获取与所述待识别语音数据中各分词对应的独立热编码词向量；

词向量集合获取单元122，用于通过用于将词转化为向量的Word2Vec模型将与待识别语音对应的每一独立热编码词向量进行转化，得到与待识别语音数据对应的词向量集合。

其中，MFCC特征向量集合从所述待识别语音数据中直接获取。在一实施例中，特征融合单元120还用于：

编码单元130，用于将所述融合后特征向量输入至编码器中进行编码，得到编码结果。

在一实施例中，编码单元130包括：

中间语义获取单元，用于将所述融合后特征向量输入至编码器中进行非线性变化转化以得到中间语义；

注意力机制处理单元，用于通过注意力机制获取所述中间语义中各分词的注意力分配概率分布，以得到与所述中间语义对应的编码结果。

解码单元140，用于将所述编码结果作为解码器的输入进行解码，得到与所述融合后特征向量对应的分割结果；其中，所述分割结果包括词序列和说话人转换符。

说话人预测单元150，用于将所述分割结果中距每个词距离最近的说话人转换符分配至对应的词，以对所述分割结果进行说话人转换的预测，得到说话人转换符对应的说话人识别结果。

在一实施例中，如图7所示，说话人预测单元150包括：

分割结果获取单元151，用于获取解码器中的分割结果；

当前起始词获取单元152，用于获取所述分割结果中标识位指向首位的词，以作为当前起始词；

转换向量获取单元153，用于将分割结果中距每个词距离最近的说话人转换符分配至所述分割结果中每个词，以建立转换向量；

转换向量存储单元154，用于将所述转换向量存储至说话人转换序列矩阵中；

起始词更新单元155，用于将所述标识位指向位置向右移动一个词以更新当前起始词；

末位词判断单元156，用于判断当前起始词是否为分割结果中处于末位的词，若当前起始词不为分割结果中处于末位的词，返回执行将分割结果中距每个词距离最近的说话人转换符分配至所述分割结果中每个词，以建立转换向量的步骤，若当前起始词为分割结果中处于末位的词执行结束说话人转换的预测的流程的步骤；

流程结束单元157，用于结束说话人转换的预测的流程。

说话人聚类单元160，用于将所述说话人识别结果通过聚类，得到说话人分类结果。

结果发送单元170，用于将所述说话人分类结果发送至所述待识别语音数据对应的上传端。

该装置实现了融合了词汇和声学特征信息的序列到序列模型去进行说话人的分离，可以捕捉到包括说话人转换点前后的编码信息。

上述基于循环神经网络和声学特征的说话人分离装置可以实现为计算机程序的形式，该计算机程序可以在如图8所示的计算机设备上运行。

请参阅图8，图8是本申请实施例提供的计算机设备的示意性框图。该计算机设备500是服务器，服务器可以是独立的服务器，也可以是多个服务器组成的服务器集群。

参阅图8，该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括非易失性存储介质503和内存储器504。

该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时，可使得处理器502执行基于循环神经网络和声学特征的说话人分离方法。

该处理器502用于提供计算和控制能力，支撑整个计算机设备500的运行。

该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行基于循环神经网络和声学特征的说话人分离方法。

该网络接口505用于进行网络通信，如提供数据信息的传输等。本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备500的限定，具体的计算机设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现本申请实施例中基于循环神经网络和声学特征的说话人分离方法。

本领域技术人员可以理解，图8中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定，在其他实施例中，计算机设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。例如，在一些实施例中，计算机设备可以仅包括存储器及处理器，在这样的实施例中，存储器及处理器的结构及功能与图8所示实施例一致，在此不再赘述。

应当理解，在本申请实施例中，处理器502可以是中央处理单元(Central Processing Unit，CPU)，该处理器502还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在本申请的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序，其中计算机程序被处理器执行时实现本申请实施例中基于循环神经网络和声学特征的说话人分离方法。

所述存储介质为实体的、非瞬时性的存储介质，例如可以是U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的实体存储介质。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

一种基于循环神经网络和声学特征的说话人分离方法，包括：

接收上传端所发送的待识别语音数据；

通过语音识别获取所述待识别语音数据的词向量集合，并通过语音识别获取所述待识别语音数据的MFCC特征向量集合，将所述词向量集合和MFCC特征向量集合进行全连接，以得到融合后特征向量；

将所述融合后特征向量输入至编码器中进行编码，得到编码结果；

将所述编码结果作为解码器的输入进行解码，得到与所述融合后特征向量对应的分割结果；其中，所述分割结果包括词序列和说话人转换符；

将所述分割结果中距每个词距离最近的说话人转换符分配至对应的词，以对所述分割结果进行说话人转换的预测，得到说话人转换符对应的说话人识别结果；

将所述说话人识别结果通过聚类，得到说话人分类结果；以及

将所述说话人分类结果发送至所述待识别语音数据对应的上传端。
根据权利要求1所述的基于循环神经网络和声学特征的说话人分离方法，其中，所述通过语音识别获取所述待识别语音数据的词向量集合，包括：

通过语音识别获取与所述待识别语音数据中各分词对应的独立热编码词向量；

通过用于将词转化为向量的Word2Vec模型将与待识别语音对应的每一独立热编码词向量进行转化，得到与待识别语音数据对应的词向量集合。
根据权利要求1所述的基于循环神经网络和声学特征的说话人分离方法，其中，所述通过语音识别获取所述待识别语音数据的MFCC特征向量集合，包括：

按照预设的特征窗口从所述待识别语音进行特征提取，得到与所述待识别语音对应的MFCC特征向量；其中，所述特征窗口的窗口长度为预设的第一时间值，所述特征窗口的移动距离为预设的第二时间值。
根据权利要求1所述的基于循环神经网络和声学特征的说话人分离方法，其中，所述将所述词向量集合和MFCC特征向量集合进行全连接，以得到融合后特征向量，包括：

将所述所述词向量集合及所述MFCC特征向量集合均输入至具有相同数目隐藏层的GRU模型中进行全连接，以得到融合后特征向量。
根据权利要求1所述的基于循环神经网络和声学特征的说话人分离方法，其中，所述将所述融合后特征向量输入至编码器中进行编码，得到编码结果，包括：

将所述融合后特征向量输入至编码器中进行非线性变化转化以得到中间语义；

通过注意力机制获取所述中间语义中各分词的注意力分配概率分布，以得到与所述中间语义对应的编码结果。
根据权利要求1所述的基于循环神经网络和声学特征的说话人分离方法，其中，所述将所述分割结果中距每个词距离最近的说话人转换符分配至对应的词，以对所述分割结果进行说话人转换的预测，得到说话人转换符对应的说话人识别结果，包括：

获取解码器中的分割结果；

获取所述分割结果中标识位指向首位的词，以作为当前起始词；

将分割结果中距每个词距离最近的说话人转换符分配至所述分割结果中每个词，以建立转换向量；

将所述转换向量存储至说话人转换序列矩阵中；

将所述标识位指向位置向右移动一个词以更新当前起始词；

判断当前起始词是否为分割结果中处于末位的词，若当前起始词不为分割结果中处于末位的词，返回执行将分割结果中距每个词距离最近的说话人转换符分配至所述分割结果中每个词，以建立转换向量的步骤，若当前起始词为分割结果中处于末位的词执行结束说话人转换的预测的流程的步骤；

结束说话人转换的预测的流程。
根据权利要求2所述的基于循环神经网络和声学特征的说话人分离方法，其中，所述通过语音识别获取与所述待识别语音数据中各分词对应的独立热编码词向量，包括：

通过N-gram模型对所述待识别语音数据进行识别，以得到识别结果；其中，所述N-gram模型为N元模型，所述N-gram模型由训练集语料库输入至初始N-gram模型进行训练而得到；

将所述识别结果通过基于概率统计分词模型进行分词，得到与所述识别结果对应的分词结果；

将分词结果中的各分词对应转化为独立热编码词向量。
根据权利要求1所述的基于循环神经网络和声学特征的说话人分离方法，其中，所述将所述说话人识别结果通过聚类，得到说话人分类结果之后，还包括：

判断所述说话人分类结果中的说话人个数是否大于1；

若所述说话人分类结果中的说话人个数等于1，将所述待识别语音数据对应增加用于标识非对话语音的第一标签；

若所述说话人分类结果中的说话人个数大于1，将所述待识别语音数据对应增加用于标识对话语音的第二标签。
一种基于循环神经网络和声学特征的说话人分离装置，包括：

语音接收单元，用于接收上传端所发送的待识别语音数据；

特征融合单元，用于通过语音识别获取所述待识别语音数据的词向量集合，并通过语音识别获取所述待识别语音数据的MFCC特征向量集合，将所述词向量集合和MFCC特征向量集合进行全连接，以得到融合后特征向量；

编码单元，用于将所述融合后特征向量输入至编码器中进行编码，得到编码结果；

解码单元，用于将所述编码结果作为解码器的输入进行解码，得到与所述融合后特征向量对应的分割结果；其中，所述分割结果包括词序列和说话人转换符；

说话人预测单元，用于将所述分割结果中距每个词距离最近的说话人转换符分配至对应的词，以对所述分割结果进行说话人转换的预测，得到说话人转换符对应的说话人识别结果；

说话人聚类单元，用于将所述说话人识别结果通过聚类，得到说话人分类结果；以及

结果发送单元，用于将所述说话人分类结果发送至所述待识别语音数据对应的上传端。
根据权利要求9所述的基于循环神经网络和声学特征的说话人分离装置，其中，所述特征融合单元，还用于：

按照预设的特征窗口从所述待识别语音进行特征提取，得到与所述待识别语音对应的MFCC特征向量；其中，所述特征窗口的窗口长度为预设的第一时间值，所述特征窗口的移动距离为预设的第二时间值。
一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

接收上传端所发送的待识别语音数据；

通过语音识别获取所述待识别语音数据的词向量集合，并通过语音识别获取所述待识别语音数据的MFCC特征向量集合，将所述词向量集合和MFCC特征向量集合进行全连接，以得到融合后特征向量；

将所述融合后特征向量输入至编码器中进行编码，得到编码结果；

将所述编码结果作为解码器的输入进行解码，得到与所述融合后特征向量对应的分割结果；其中，所述分割结果包括词序列和说话人转换符；

将所述分割结果中距每个词距离最近的说话人转换符分配至对应的词，以对所述分割结果进行说话人转换的预测，得到说话人转换符对应的说话人识别结果；

将所述说话人识别结果通过聚类，得到说话人分类结果；以及

将所述说话人分类结果发送至所述待识别语音数据对应的上传端。
根据权利要求11所述的计算机设备，其中，所述通过语音识别获取所述待识别语音数据的词向量集合，包括：

通过语音识别获取与所述待识别语音数据中各分词对应的独立热编码词向量；

通过用于将词转化为向量的Word2Vec模型将与待识别语音对应的每一独立热编码词向量进行转化，得到与待识别语音数据对应的词向量集合。
根据权利要求11所述的计算机设备，其中，所述通过语音识别获取所述待识别语音数据的MFCC特征向量集合，包括：

按照预设的特征窗口从所述待识别语音进行特征提取，得到与所述待识别语音对应的MFCC特征向量；其中，所述特征窗口的窗口长度为预设的第一时间值，所述特征窗口的移动距离为预设的第二时间值。
根据权利要求11所述的计算机设备，其中，所述将所述词向量集合和 MFCC特征向量集合进行全连接，以得到融合后特征向量，包括：

将所述所述词向量集合及所述MFCC特征向量集合均输入至具有相同数目隐藏层的GRU模型中进行全连接，以得到融合后特征向量。
根据权利要求11所述的计算机设备，其中，所述将所述融合后特征向量输入至编码器中进行编码，得到编码结果，包括：

将所述融合后特征向量输入至编码器中进行非线性变化转化以得到中间语义；

通过注意力机制获取所述中间语义中各分词的注意力分配概率分布，以得到与所述中间语义对应的编码结果。
根据权利要求11所述的计算机设备，其中，所述将所述分割结果中距每个词距离最近的说话人转换符分配至对应的词，以对所述分割结果进行说话人转换的预测，得到说话人转换符对应的说话人识别结果，包括：

获取解码器中的分割结果；

获取所述分割结果中标识位指向首位的词，以作为当前起始词；

将分割结果中距每个词距离最近的说话人转换符分配至所述分割结果中每个词，以建立转换向量；

将所述转换向量存储至说话人转换序列矩阵中；

将所述标识位指向位置向右移动一个词以更新当前起始词；

判断当前起始词是否为分割结果中处于末位的词，若当前起始词不为分割结果中处于末位的词，返回执行将分割结果中距每个词距离最近的说话人转换符分配至所述分割结果中每个词，以建立转换向量的步骤，若当前起始词为分割结果中处于末位的词执行结束说话人转换的预测的流程的步骤；

结束说话人转换的预测的流程。
根据权利要求12所述的计算机设备，其中，所述通过语音识别获取与所述待识别语音数据中各分词对应的独立热编码词向量，包括：

通过N-gram模型对所述待识别语音数据进行识别，以得到识别结果；其中，所述N-gram模型为N元模型，所述N-gram模型由训练集语料库输入至初始N-gram模型进行训练而得到；

将所述识别结果通过基于概率统计分词模型进行分词，得到与所述识别结果对应的分词结果；

将分词结果中的各分词对应转化为独立热编码词向量。
根据权利要求11所述的计算机设备，其中，所述将所述说话人识别结果通过聚类，得到说话人分类结果之后，还包括：

判断所述说话人分类结果中的说话人个数是否大于1；

若所述说话人分类结果中的说话人个数等于1，将所述待识别语音数据对应增加用于标识非对话语音的第一标签；

若所述说话人分类结果中的说话人个数大于1，将所述待识别语音数据对应增加用于标识对话语音的第二标签。
一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行以下操作：

接收上传端所发送的待识别语音数据；

通过语音识别获取所述待识别语音数据的词向量集合，并通过语音识别获取所述待识别语音数据的MFCC特征向量集合，将所述词向量集合和MFCC特征向量集合进行全连接，以得到融合后特征向量；

将所述融合后特征向量输入至编码器中进行编码，得到编码结果；

将所述编码结果作为解码器的输入进行解码，得到与所述融合后特征向量对应的分割结果；其中，所述分割结果包括词序列和说话人转换符；

将所述分割结果中距每个词距离最近的说话人转换符分配至对应的词，以对所述分割结果进行说话人转换的预测，得到说话人转换符对应的说话人识别结果；

将所述说话人识别结果通过聚类，得到说话人分类结果；以及

将所述说话人分类结果发送至所述待识别语音数据对应的上传端。
根据权利要求19所述的计算机可读存储介质，其中，所述通过语音识别获取所述待识别语音数据的词向量集合，包括：

通过语音识别获取与所述待识别语音数据中各分词对应的独立热编码词向量；

通过用于将词转化为向量的Word2Vec模型将与待识别语音对应的每一独立热编码词向量进行转化，得到与待识别语音数据对应的词向量集合。