WO2021159635A1

WO2021159635A1 - 语音训练样本的获取方法、装置、计算机设备和存储介质

Info

Publication number: WO2021159635A1
Application number: PCT/CN2020/093092
Authority: WO
Inventors: 马坤; 赵之砚; 施奕明
Original assignee: 平安科技（深圳）有限公司
Priority date: 2020-02-14
Filing date: 2020-05-29
Publication date: 2021-08-19
Also published as: CN111370002B; CN111370002A

Abstract

一种语音训练样本的获取方法、装置、计算机设备和存储介质，其中方法包括：对语音信号进行处理，得到该语音信号的声音频谱图（S1）；在声音频谱图上的时间方向上随机选择时间点（S2）；以该时间点为撕裂点，将撕裂点两侧的声音频谱图在时间方向上进行分离，完成对声音频谱图的撕裂处理，并在断裂处按照预设规则添加过度信息，得到撕裂频谱图，并将撕裂频谱图作为语音训练样本（S3）。该方法将一个原始的语音信号转换成声音频谱图后，通过撕裂、掩码的处理，将一个声音频谱图衍生出大量的撕裂频谱图、第一掩码频谱图和第二掩码频谱图，从而可解决现有技术中训练声纹识别模型的样本量较少无法得到准确的声纹识别模型的问题。

Description

语音训练样本的获取方法、装置、计算机设备和存储介质

本申请要求于2020年2月14日提交中国专利局、申请号为202010093613.X，发明名称为“语音训练样本的获取方法、装置、计算机设备和存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能领域，特别是涉及到语音训练样本的获取方法、装置、计算机设备和存储介质。

背景技术

语音识别身份，即声纹识别，是人工智能领域的重要方向，是人工智能技术在生物特征识别场景中的重要应用。虽然在实验室条件下，声纹识别的准确率一直突破新高，但在实际业务场景中，由于语音传输依赖传输信道，如电话、宽带网络等传输信道，接收到的语音会被信道所影响，所以声纹识别的准确率仍然不高。

发明人发现，说话语音和信道是无法完全切分开的，所以在声纹识别的过程中，提取出来的说话人声音特征中都不可避免的存在信道特征，如电话录音的说话人A和网络语音中的说话A提取出来的特征中分别附带了电话信道和网络信道的特征，会造成其声纹识别的判定误差。因此在声纹识别领域里，跨信道问题迄今为止仍是一个难题。

目前业界的主流解决方法是采集各信道的语音数据，要么训练一种信道间特征转换的模型，要么用采集的跨信道数据扩充原模型的训练集。其核心都是收集到足够多的跨信道数据作为样本。而实际生产中，由于采集样本成本和采集条件的限制，无法采集足够多而且有效的跨信道语音数据作为样本。

技术问题

本申请的主要目的为提供一种语音训练样本的获取方法、装置、计算机设备和存储介质，旨在解决现有技术中无法采集足够多而且有效的跨信道语音数据作为样本的技术问题。

技术解决方案

为了实现上述发明目的，本申请提出一种语音训练样本的获取方法，包括：

对语音信号进行处理，得到所述语音信号的声音频谱图；

在所述声音频谱图上的时间方向上随机选择时间点；

以所述时间点为撕裂点，将所述撕裂点两侧的声音频谱图在时间方向上进行分离，完成对所述声音频谱图的撕裂处理，并在断裂处按照预设规则添加过度信息，得到撕裂频谱图，并将所述撕裂频谱图作为所述语音训练样本，其中，所述撕裂点两侧的声音频谱图的分离距离为s，所述s是从[0，S]的均匀分布中随机选取的数字，S为时间变形参数。

本申请还提供一种语音训练样本的获取装置，包括：

转换单元，用于对语音信号进行处理，得到所述语音信号的声音频谱图；

选择单元，用于在所述声音频谱图上的时间方向上随机选择时间点；

撕裂单元，用于以所述时间点为撕裂点，将所述撕裂点两侧的声音频谱图在时间方向上进行分离，完成对所述声音频谱图的撕裂处理，并在断裂处按照预设规则添加过度信息，得到撕裂频谱图，并将所述撕裂频谱图作为所述语音训练样本，其中，所述撕裂点两侧的声音频谱图的分离距离为s，所述s是从[0，S]的均匀分布中随机选取的数字，S为时间变形参数。

本申请还提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现一种语音训练样本的获取方法，该方法包括以下步骤：

对语音信号进行处理，得到所述语音信号的声音频谱图；

在所述声音频谱图上的时间方向上随机选择时间点；

本申请还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现一种语音训练样本的获取方法，该方法包括以下步骤：

对语音信号进行处理，得到所述语音信号的声音频谱图；

在所述声音频谱图上的时间方向上随机选择时间点；

有益效果

本申请的语音训练样本的获取方法、装置、计算机设备和存储介质，可以将一个原始的语音信号转换成声音频谱图后，通过撕裂、掩码的处理，将一个声音频谱图衍生出大量的撕裂频谱图、第一掩码频谱图和第二掩码频谱图，而这些撕裂频谱图、第一掩码频谱图和第二掩码频谱图均可以作为训练声纹识别模型的样本，从而可以解决现有技术中训练声纹识别模型的样本量较少无法得到准确的声纹识别模型的问题。比如，可以很好的解决不同信道场景下的样本较少，无法很好的训练出一个声纹识别模型的问题。

附图说明

图1 为本申请一实施例的语音训练样本的获取方法的流程示意图；

图2 为本申请一实施例的语音训练样本的获取装置的结构程示意图；

图3 为本申请一实施例的计算机设备的结构示意图。

本发明的最佳实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

参照图1，一种语音训练样本的获取方法，包括：

S1、对语音信号进行处理，得到所述语音信号的声音频谱图；

S2、在所述声音频谱图上的时间方向上随机选择时间点；

S3、以所述时间点为撕裂点，将所述撕裂点两侧的声音频谱图在时间方向上进行分离，完成对所述声音频谱图的撕裂处理，并在断裂处按照预设规则添加过度信息，得到撕裂频谱图，并将所述撕裂频谱图作为所述语音训练样本，其中，所述撕裂点两侧的声音频谱图的分离距离为s，所述s是从[0，S]的均匀分布中随机选取的数字，S为时间变形参数。

在本实施例中，首先将作为样本的语音信号转换成声音频谱图，声音频谱图一般为梅尔频谱图，具体的转换过程可以使用现有技术中的任意一中。以某一个时间点作为撕裂点，将声音频谱图进行撕裂，即在该时间点将上述声音频谱图在时间上分开，分开的方式可以是多种，比如，将撕裂点两侧的声音频谱图中的第一侧固定，第二侧向远离第一侧的方向移动；或者，第一侧和第二侧分别向远离对方的方向移动等。在一个具体实施例，可以是固定第一侧，第二侧向远离第一侧的方向移动s；，然后在原始的声音频谱图上固定第二侧，第一侧向远离第二侧的方向移动s等，从而在一个时间点的处理上得到不同移动方向的两张撕裂频谱图。在它实施例中，也可以在指定方向移动指定的距离。进一步地，重复上述步骤S2和S3，每次选择不同的时间点，得到多个对应所述声音频谱图的多个所述撕裂频谱图形，最后将所述声音频谱图和多个所述撕裂频谱图形成第一语音训练样本集。利用本申请的技术方案，可以通过一张声音频谱图衍生出多张撕裂处理后的撕裂频谱图，从而丰富了语音训练样本的数量，从而可以解决现有技术中训练声纹识别模型的样本量较少无法得到准确的声纹识别模型的问题。比如，可以很好的解决不同信道场景下的样本较少，无法很好的训练出一个声纹识别模型的问题。

上述在断裂处按照预设规则添加过度信息的步骤，包括：

对所述撕裂频谱图的断裂处随机添加所述过度信息。

在本实施例中，因为撕裂频谱图存在撕裂的频谱段，撕裂的频谱段会存在空白，为了提高训练样本的多样性，可以在空白处添加过度信息，如添加不同的平滑信号等。过度信息可以为预设的，一般会预设多个不同的过度信息，然后随机选择一个过度信息添加到断裂处，如果过度信息不能刚好补满空白，可以对过度信息进行等比例的放大或缩小，使其可以恰好添加到空白。在另一具体实施例中，上述S为正整数，那么就设置S种的过度信息，每一种过度信息又包括多个内容不同的过度信息，在添加过度信息的时候，在对应s种的过度信息中随机选择一个过度信息，进一步地提供徐良样本的多样性。

在另一实施例，上述预设规则是在断裂处添加全部相同的数据，如全部加0、加1，或者其它如010101不断重复循环的数据等。

在一个实施例中，所述在所述声音频谱图上的时间方向上随机选择时间点的步骤S2之前，包括：

S201、获取所述声音频谱图的时间长度；

S202、根据所述时间长度确定对所述声音频谱图的撕裂处理次数；

S203、选择与所述撕裂处理次数相同个数的时间点，以对所述声音频谱图进行不同次的撕裂处理。

在本实施例中，不能对上述声音频谱图进行无线次数的撕裂处理，所以本申请会根据声音频谱图中的时间信息的长度来确定撕裂的次数。具体的，设置一个映射表，映射表中一列是时间长度范围，一列是对应时间长度范围的撕裂次数，当确定声音频谱图中的时间长度后，查看该时间长度落入了映射表中的哪一个时间长度范围内，然后选择该时间长度范围对应的撕裂次数。具体的时间长度和撕裂次数的设置，可以根据经验进行人为设定，其设置的思路是，时间长度越长，其对应的可撕裂次数越多，反之可撕裂次数越少。

在一个实施例中，上述选择与所述撕裂处理次数相同个数的时间点，以对所述声音频谱图进行不同次的撕裂处理的步骤S203包括：

在所述时间长度上平均分配所述撕裂处理次数对应数量的时间点，以对所述声音频谱图进行不同次的撕裂处理。

在本实施例中，在上述时间长度内平均分配时间点，分配快速，均匀，样本之间的差异相对上述的随机分配更为平均。

在一个实施例中，上述声音频谱图一次只能以一个时间点进行撕裂，得到只有一个撕裂处的撕裂频谱图；在另一个实施例中，一个声音频谱图可以同时以多个时间点为撕裂点进行撕裂处理，得到一个存在多个撕裂处的撕裂频谱图。

在一个实施例中，上述以所述时间点为撕裂点，将所述撕裂点两侧的声音频谱图在时间方向上进行分离，完成对所述声音频谱图的撕裂处理，并在断裂处按照预设规则添加过度信息，得到撕裂频谱图的步骤S3之后，包括：

S4、在所述撕裂频谱图上，在时间方向上选择出多个间隔设置的第一频谱块；

S5、在每一个所述第一频谱块上应用掩码序列，得到第一掩码频谱图。

在本实施例中，在撕裂频谱图的时间方向上，选取出x（正整数）个连续的时间步长[t0, t0+t]的第一频谱块，然后在这些第一频谱块上应用掩码序列[w1,…], w是从[0,W]的均匀分布中随机选取的数字,W 为时间掩码参数。在一个具体实施例中，选取不同t，既可以得到不同的第一掩码频谱图，从而得到多个对应撕裂频谱图的多个第一掩码频谱图，上述声音频谱图和全部的第一掩码频谱图、全部撕裂频谱图放在一起，形成第二语音训练样本集，进一步地提高样本的数量和样本的丰富度。在本实施例中，上述的t所代表的时间长度小于上述撕裂频谱图的时间长度，上述t0是上述撕裂频谱图中的任意时间点，但是要求能够满足对撕裂频谱图的分块。

在一个实施例中，上述以所述时间点为撕裂点，将所述撕裂点两侧的声音频谱图在时间方向上进行分离，完成对所述声音频谱图的撕裂处理，并在断裂处按照预设规则添加过度信息，得到撕裂频谱图的步骤S3之后，还包括：

S6、在所述撕裂频谱图上，在频率方向上选择出多个不同频率通道的第二频谱块；

S7、在每一个所述第二频谱块上应用掩码序列，得到第二掩码频谱图。

在本实施例中，上述第二频谱块是在频率方向的频谱块，而不是时间上的频谱块。具体的，在频谱图的频率方向上，对n（正整数）个连续的频率通道[m0, m0+n]的频谱块应用掩码序列[v1, …], v是从[0,V]的均匀分布中随机选取的数字，V为频率掩码参数。同样的，选取不同的n，既可以得到不同的第二掩码频谱图，从而得到多个对应撕裂频谱图的多个第二掩码频谱图，上述声音频谱图和全部的第二掩码频谱图、全部撕裂频谱图放在一起，形成第三语音训练样本集。在本实施例中，上述m0是上述撕裂频谱图中的任意频率通道点，但是要求能够满足对撕裂频谱图的分块。

在一个实施例中，上述在所述声音频谱图上的时间方向上随机选择时间点的步骤S2包括：

S21、在所述声音频谱图上的时间方向随机添加掩码，得到第三掩码频谱图；

S22、在所述第三掩码频谱图上的时间方向上随机选择所述时间点。

在本实施例中，先在声音频谱图上添加掩码，然后再在上述第三掩码频谱图上的时间方向上随机选择所述时间点，从而可以得到更加丰富的样本。

本申请实施例的语音训练样本的获取方法可以将一个原始的语音信号转换成声音频谱图后，通过撕裂、掩码的处理，将一个声音频谱图衍生出大量的撕裂频谱图、第一掩码频谱图和第二掩码频谱图，而这些撕裂频谱图、第一掩码频谱图和第二掩码频谱图均可以作为训练声纹识别模型的样本，从而可以解决现有技术中训练声纹识别模型的样本量较少无法得到准确的声纹识别模型的问题。比如，分别获取到不同信道场景下的语音信息，如果直接使用这些语音信息作为训练样本，会因为训练样本的数量较少而无法得到准确的声纹识别模型，但是通过本申请的上述方法，可以根据少量语音信息对应的训练样本，衍生出大量的训练样本，从而解决训练样本少的问题，很好的解决不同信道场景下的样本较少，无法很好的训练出一个声纹识别模型的问题。

参照图2，本申请实施例还提供一种语音训练样本的获取装置，包括：

转换单元10，用于对语音信号进行处理，得到所述语音信号的声音频谱图；

选择单元20，用于在所述声音频谱图上的时间方向上随机选择时间点；

撕裂单元30，用于以所述时间点为撕裂点，将所述撕裂点两侧的声音频谱图在时间方向上进行分离，完成对所述声音频谱图的撕裂处理，并在断裂处按照预设规则添加过度信息，得到撕裂频谱图，并将所述撕裂频谱图作为所述语音训练样本，其中，所述撕裂点两侧的声音频谱图的分离距离为s，所述s是从[0，S]的均匀分布中随机选取的数字，S为时间变形参数。

在本实施例中，转换单元10首先将作为样本的语音信号转换成声音频谱图，声音频谱图一般为梅尔频谱图，具体的转换过程可以使用现有技术中的任意一中。选择单元20随机选择出时间点后，撕裂单元30以该个时间点作为撕裂点，将声音频谱图进行撕裂，即在该时间点将上述声音频谱图在时间上分开，分开的方式可以是多种，比如，将撕裂点两侧的声音频谱图中的第一侧固定，第二侧向远离第一侧的方向移动；或者，第一侧和第二侧分别向远离对方的方向移动等。在一个具体实施例，可以是固定第一侧，第二侧向远离第一侧的方向移动s；，然后在原始的声音频谱图上固定第二侧，第一侧向远离第二侧的方向移动s等，从而在一个时间点的处理上得到不同移动方向的两张撕裂频谱图。在它实施例中，也可以在指定方向移动指定的距离。进一步地，重复上述随机选择时间点和撕裂处理的过程，每次选择不同的时间点，得到多个对应所述声音频谱图的多个所述撕裂频谱图形，最后将所述声音频谱图和多个所述撕裂频谱图形成第一语音训练样本集。利用本申请的技术方案，可以通过一张声音频谱图衍生出多张撕裂处理后的撕裂频谱图，从而丰富了语音训练样本的数量，从而可以解决现有技术中训练声纹识别模型的样本量较少无法得到准确的声纹识别模型的问题。比如，可以很好的解决不同信道场景下的样本较少，无法很好的训练出一个声纹识别模型的问题。

在一个实施例中，上述撕裂单元30，还包括：

添加单元，用于对所述撕裂频谱图的断裂处随机添加所述过度信息。即预设规则是在断裂处随机添加过度信息。

在本实施例中，因为撕裂频谱图存在撕裂的频谱段，撕裂的频谱段会存在空白，为了提高训练样本的多样性，可以在空白处添加过度信息，如将添加不同的平滑信号等。过度信息可以为预设的，一般会预设多个不同的过度信息，然后随机选择一个过度信息添加到断裂处，如果过度信息不能刚好补满空白，可以对过度信息进行等比例的放大或缩小，使其可以恰好添加到空白。在另一具体实施例中，上述S为正整数，那么就设置S种的过度信息，每一种过度信息又包括多个内容不同的过度信息，在添加过度信息的时候，在对应s种的过度信息中随机选择一个过度信息，进一步地提供训练样本的多样性。

在另一实施例，在预设规则是在断裂处添加全部相同的数据，如全部加0、加1，或者其它如010101不断重复循环的数据等。

在一个实施例中，上述语音训练样本的获取装置，还包括：

获取单元，用于获取所述声音频谱图的时间长度；

确定单元，用于根据所述时间长度确定对所述声音频谱图的撕裂处理次数；

选择单元，用于选择与所述撕裂处理次数相同个数的时间点，以对所述声音频谱图进行不同次的撕裂处理。

在一个实施例中，上述选择单元，包括：

平均选择模块，用于在所述时间长度上平均分配所述撕裂处理次数对应数量的时间点，以对所述声音频谱图进行不同次的撕裂处理。

在一个实施例中，上述语音训练样本的获取装置，还包括：

时间频谱单元，用于在所述撕裂频谱图上，在时间方向上选择出多个间隔设置的第一频谱块；

第一掩码单元，用于在每一个所述第一频谱块上应用掩码序列，得到第一掩码频谱图。

在一个实施例中，上述语音训练样本的获取装置，还包括：

频率频谱单元，用于在所述撕裂频谱图上，在频率方向上选择出多个不同频率通道的第二频谱块；

第二掩码单元，用于在每一个所述第二频谱块上应用掩码序列，得到第二掩码频谱图。

在一个实施例中，上述选择单元20，包括：

掩码模块，用于在所述声音频谱图上的时间方向随机添加掩码，得到第三掩码频谱图；

选择模块，用于在所述第三掩码频谱图上的时间方向上随机选择所述时间点。

本申请实施例的语音训练样本的获取装置，可以将一个原始的语音信号转换成声音频谱图后，通过撕裂、掩码的处理，将一个声音频谱图衍生出大量的撕裂频谱图、第一掩码频谱图和第二掩码频谱图，而这些撕裂频谱图、第一掩码频谱图和第二掩码频谱图均可以作为训练声纹识别模型的样本，从而可以解决现有技术中训练声纹识别模型的样本量较少无法得到准确的声纹识别模型的问题。比如，分别获取到不同信道场景下的语音信息，如果直接使用这些语音信息作为训练样本，会因为训练样本的数量较少而无法得到准确的声纹识别模型，但是通过本申请的上述方法，可以根据少量语音信息对应的训练样本，衍生出大量的训练样本，从而解决训练样本少的问题，很好的解决不同信道场景下的样本较少，无法很好的训练出一个声纹识别模型的问题。

参照图3，本申请实施例还提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储样本集等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音训练样本的获取方法。具体地：

一种语音训练样本的获取方法，包括：对语音信号进行处理，得到所述语音信号的声音频谱图；在所述声音频谱图上的时间方向上随机选择时间点；以所述时间点为撕裂点，将所述撕裂点两侧的声音频谱图在时间方向上进行分离，完成对所述声音频谱图的撕裂处理，并在断裂处按照预设规则添加过度信息，得到撕裂频谱图，并将所述撕裂频谱图作为所述语音训练样本，其中，所述撕裂点两侧的声音频谱图的分离距离为s，所述s是从[0，S]的均匀分布中随机选取的数字，S为时间变形参数。

在一个实施例中，所述在撕裂处按照预设规则添加过度频谱图信息的步骤，包括：对所述撕裂频谱图的断裂处随机添加所述过度信息。

在一个实施例中，所述在所述声音频谱图上的时间方向上随机选择时间点的步骤之前，包括：获取所述声音频谱图的时间长度；根据所述时间长度确定对所述声音频谱图的撕裂处理次数；选择与所述撕裂处理次数相同个数的时间点，以对所述声音频谱图进行不同次的撕裂处理。

在一个实施例中，所述选择与所述撕裂处理次数相同个数的时间点，以对所述声音频谱图进行不同次的撕裂处理的步骤包括：在所述时间长度上平均分配所述撕裂处理次数对应数量的时间点，以对所述声音频谱图进行不同次的撕裂处理。

在一个实施例中，所述以所述时间点为撕裂点，将所述撕裂点两侧的声音频谱图在时间方向上进行分离，完成对所述声音频谱图的撕裂处理，并在断裂处按照预设规则添加过度信息，得到撕裂频谱图的步骤之后，包括：在所述撕裂频谱图上，在时间方向上选择出多个间隔设置的第一频谱块；在每一个所述第一频谱块上应用掩码序列，得到第一掩码频谱图。

在一个实施例中，所述以所述时间点为撕裂点，将所述撕裂点两侧的声音频谱图在时间方向上进行分离，完成对所述声音频谱图的撕裂处理，并在断裂处按照预设规则添加过度信息，得到撕裂频谱图的步骤之后，还包括：在所述撕裂频谱图上，在频率方向上选择出多个不同频率通道的第二频谱块；在每一个所述第二频谱块上应用掩码序列，得到第二掩码频谱图。

在一个实施例中，在所述声音频谱图上的时间方向上随机选择时间点的步骤包括：在所述声音频谱图上的时间方向随机添加掩码，得到第三掩码频谱图；在所述第三掩码频谱图上的时间方向上随机选择所述时间点。

本申请实施例的计算机设备，可以将一个原始的语音信号转换成声音频谱图后，通过撕裂、掩码的处理，将一个声音频谱图衍生出大量的撕裂频谱图、第一掩码频谱图和第二掩码频谱图，而这些撕裂频谱图、第一掩码频谱图和第二掩码频谱图均可以作为训练声纹识别模型的样本，从而可以解决现有技术中训练声纹识别模型的样本量较少无法得到准确的声纹识别模型的问题。比如，分别获取到不同信道场景下的语音信息，如果直接使用这些语音信息作为训练样本，会因为训练样本的数量较少而无法得到准确的声纹识别模型，但是通过本申请的上述方法，可以根据少量语音信息对应的训练样本，衍生出大量的训练样本，从而解决训练样本少的问题，很好的解决不同信道场景下的样本较少，无法很好的训练出一个声纹识别模型的问题。

本申请一实施例还提供一种计算机可读存储介质，计算机可读存储介质可以是非易失性，也可以是易失性，其上存储有计算机程序，计算机程序被处理器执行时实现一种语音训练样本的获取方法。具体地：

计算机程序被处理器执行时实现一种语音训练样本的获取方法时，可以将一个原始的语音信号转换成声音频谱图后，通过撕裂、掩码的处理，将一个声音频谱图衍生出大量的撕裂频谱图、第一掩码频谱图和第二掩码频谱图，而这些撕裂频谱图、第一掩码频谱图和第二掩码频谱图均可以作为训练声纹识别模型的样本，从而可以解决现有技术中训练声纹识别模型的样本量较少无法得到准确的声纹识别模型的问题。比如，分别获取到不同信道场景下的语音信息，如果直接使用这些语音信息作为训练样本，会因为训练样本的数量较少而无法得到准确的声纹识别模型，但是通过本申请的上述方法，可以根据少量语音信息对应的训练样本，衍生出大量的训练样本，从而解决训练样本少的问题，很好的解决不同信道场景下的样本较少，无法很好的训练出一个声纹识别模型的问题。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双速据率SDRAM（SSRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink）DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

一种语音训练样本的获取方法，其中，包括：

对语音信号进行处理，得到所述语音信号的声音频谱图；

在所述声音频谱图上的时间方向上随机选择时间点；

以所述时间点为撕裂点，将所述撕裂点两侧的声音频谱图在时间方向上进行分离，完成对所述声音频谱图的撕裂处理，并在断裂处按照预设规则添加过度信息，得到撕裂频谱图，并将所述撕裂频谱图作为所述语音训练样本，其中，所述撕裂点两侧的声音频谱图的分离距离为s，所述s是从[0，S]的均匀分布中随机选取的数字，S为时间变形参数。
根据权利要求1所述的语音训练样本的获取方法，其中，所述在撕裂处按照预设规则添加过度信息的步骤，包括：

对所述撕裂频谱图的断裂处随机添加所述过度信息。
根据权利要求1所述的语音训练样本的获取方法，其中，所述在所述声音频谱图上的时间方向上随机选择时间点的步骤之前，包括：

获取所述声音频谱图的时间长度；

根据所述时间长度确定对所述声音频谱图的撕裂处理次数；

选择与所述撕裂处理次数相同个数的时间点，以对所述声音频谱图进行不同次的撕裂处理。
根据权利要求3所述的语音训练样本的获取方法，其中，所述选择与所述撕裂处理次数相同个数的时间点，以对所述声音频谱图进行不同次的撕裂处理的步骤包括：

在所述时间长度上平均分配所述撕裂处理次数对应数量的时间点，以对所述声音频谱图进行不同次的撕裂处理。
根据权利要求1所述的语音训练样本的获取方法，其中，所述以所述时间点为撕裂点，将所述撕裂点两侧的声音频谱图在时间方向上进行分离，完成对所述声音频谱图的撕裂处理，并在断裂处按照预设规则添加过度信息，得到撕裂频谱图的步骤之后，包括：

在所述撕裂频谱图上，在时间方向上选择出多个间隔设置的第一频谱块；

在每一个所述第一频谱块上应用掩码序列，得到第一掩码频谱图。
根据权利要求1所述的语音训练样本的获取方法，其中，所述以所述时间点为撕裂点，将所述撕裂点两侧的声音频谱图在时间方向上进行分离，完成对所述声音频谱图的撕裂处理，并在断裂处按照预设规则添加过度信息，得到撕裂频谱图的步骤之后，还包括：

在所述撕裂频谱图上，在频率方向上选择出多个不同频率通道的第二频谱块；

在每一个所述第二频谱块上应用掩码序列，得到第二掩码频谱图。
根据权利要求1所述的语音训练样本的获取方法，其中，在所述声音频谱图上的时间方向上随机选择时间点的步骤包括：

在所述声音频谱图上的时间方向随机添加掩码，得到第三掩码频谱图；

在所述第三掩码频谱图上的时间方向上随机选择所述时间点。
一种语音训练样本的获取装置，其中，包括：

转换单元，用于对语音信号进行处理，得到所述语音信号的声音频谱图；

选择单元，用于在所述声音频谱图上的时间方向上随机选择时间点；

撕裂单元，用于以所述时间点为撕裂点，将所述撕裂点两侧的声音频谱图在时间方向上进行分离，完成对所述声音频谱图的撕裂处理，并在断裂处按照预设规则添加过度信息，得到撕裂频谱图，并将所述撕裂频谱图作为所述语音训练样本，其中，所述撕裂点两侧的声音频谱图的分离距离为s，所述s是从[0，S]的均匀分布中随机选取的数字，S为时间变形参数。
一种计算机设备，包括存储器和处理器，其中，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现一种语音训练样本的获取方法，该方法包括以下步骤：

对语音信号进行处理，得到所述语音信号的声音频谱图；

在所述声音频谱图上的时间方向上随机选择时间点；

以所述时间点为撕裂点，将所述撕裂点两侧的声音频谱图在时间方向上进行分离，完成对所述声音频谱图的撕裂处理，并在断裂处按照预设规则添加过度信息，得到撕裂频谱图，并将所述撕裂频谱图作为所述语音训练样本，其中，所述撕裂点两侧的声音频谱图的分离距离为s，所述s是从[0，S]的均匀分布中随机选取的数字，S为时间变形参数。
根据权利要求9所述的计算机设备，其中，所述在撕裂处按照预设规则添加过度信息的步骤，包括：

对所述撕裂频谱图的断裂处随机添加所述过度信息。
根据权利要求9所述的计算机设备，其中，所述在所述声音频谱图上的时间方向上随机选择时间点的步骤之前，包括：

获取所述声音频谱图的时间长度；

根据所述时间长度确定对所述声音频谱图的撕裂处理次数；

选择与所述撕裂处理次数相同个数的时间点，以对所述声音频谱图进行不同次的撕裂处理。
根据权利要求11所述的计算机设备，其中，所述选择与所述撕裂处理次数相同个数的时间点，以对所述声音频谱图进行不同次的撕裂处理的步骤包括：

在所述时间长度上平均分配所述撕裂处理次数对应数量的时间点，以对所述声音频谱图进行不同次的撕裂处理。
根据权利要求9所述的计算机设备，其中，所述以所述时间点为撕裂点，将所述撕裂点两侧的声音频谱图在时间方向上进行分离，完成对所述声音频谱图的撕裂处理，并在断裂处按照预设规则添加过度信息，得到撕裂频谱图的步骤之后，包括：

在所述撕裂频谱图上，在时间方向上选择出多个间隔设置的第一频谱块；

在每一个所述第一频谱块上应用掩码序列，得到第一掩码频谱图。
根据权利要求9所述的计算机设备，其中，所述以所述时间点为撕裂点，将所述撕裂点两侧的声音频谱图在时间方向上进行分离，完成对所述声音频谱图的撕裂处理，并在断裂处按照预设规则添加过度信息，得到撕裂频谱图的步骤之后，还包括：

在所述撕裂频谱图上，在频率方向上选择出多个不同频率通道的第二频谱块；

在每一个所述第二频谱块上应用掩码序列，得到第二掩码频谱图。
根据权利要求9所述的计算机设备，其中，在所述声音频谱图上的时间方向上随机选择时间点的步骤包括：

在所述声音频谱图上的时间方向随机添加掩码，得到第三掩码频谱图；

在所述第三掩码频谱图上的时间方向上随机选择所述时间点。
一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现一种语音训练样本的获取方法，该方法包括以下步骤：

对语音信号进行处理，得到所述语音信号的声音频谱图；

在所述声音频谱图上的时间方向上随机选择时间点；

以所述时间点为撕裂点，将所述撕裂点两侧的声音频谱图在时间方向上进行分离，完成对所述声音频谱图的撕裂处理，并在断裂处按照预设规则添加过度信息，得到撕裂频谱图，并将所述撕裂频谱图作为所述语音训练样本，其中，所述撕裂点两侧的声音频谱图的分离距离为s，所述s是从[0，S]的均匀分布中随机选取的数字，S为时间变形参数。
根据权利要求16所述的计算机可读存储介质，其中，所述在撕裂处按照预设规则添加过度信息的步骤，包括：

对所述撕裂频谱图的断裂处随机添加所述过度信息。
根据权利要求16所述的计算机可读存储介质，其中，所述在所述声音频谱图上的时间方向上随机选择时间点的步骤之前，包括：

获取所述声音频谱图的时间长度；

根据所述时间长度确定对所述声音频谱图的撕裂处理次数；

选择与所述撕裂处理次数相同个数的时间点，以对所述声音频谱图进行不同次的撕裂处理。
根据权利要求18所述的计算机可读存储介质，其中，所述选择与所述撕裂处理次数相同个数的时间点，以对所述声音频谱图进行不同次的撕裂处理的步骤包括：

在所述时间长度上平均分配所述撕裂处理次数对应数量的时间点，以对所述声音频谱图进行不同次的撕裂处理。
根据权利要求16所述的计算机可读存储介质，其中，所述以所述时间点为撕裂点，将所述撕裂点两侧的声音频谱图在时间方向上进行分离，完成对所述声音频谱图的撕裂处理，并在断裂处按照预设规则添加过度信息，得到撕裂频谱图的步骤之后，包括：

在所述撕裂频谱图上，在时间方向上选择出多个间隔设置的第一频谱块；

在每一个所述第一频谱块上应用掩码序列，得到第一掩码频谱图。