WO2021189980A1

WO2021189980A1 - 语音数据生成方法、装置、计算机设备及存储介质

Info

Publication number: WO2021189980A1
Application number: PCT/CN2020/136366
Authority: WO
Inventors: 罗剑; 王健宗; 程宁
Original assignee: 平安科技（深圳）有限公司
Priority date: 2020-10-26
Filing date: 2020-12-15
Publication date: 2021-09-30
Also published as: CN112331182A

Abstract

一种语音数据生成方法、装置、计算机设备及存储介质，涉及人工智能技术领域，主要在于能够基于少数样本用户的样本语音数据，生成少数样本用户更多的语音数据，从而使得样本库中的不同用户的语音数据达到平衡。其中方法包括：获取目标用户的样本语音数据（101）；对所述样本语音数据进行特征提取，得到所述样本语音数据对应的语音特征（102）；根据所述样本语音数据对应的语音特征和预先构建的嵌入矩阵，计算所述样本语音数据对应的注意力分值，所述嵌入矩阵是通过对所述样本语音数据进行训练得到的（103）；基于所述注意力分值，确定所述目标用户样本语音数据之外的验证语音数据（104）。本方法采用了机器学习技术，主要适用于语音数据的生成。

Description

语音数据生成方法、装置、计算机设备及存储介质

本申请要求于2020年10月26日提交中国专利局、申请号为202011153538.8，发明名称为“语音数据生成方法、装置、计算机设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能技术领域，尤其是涉及一种语音数据生成方法、装置、计算机设备及存储介质。

背景技术

在语音识别技术中，对于分类器来说，如果样本库中不同用户的语音数据量差距过大，分类器很难有良好的表现，会影响分类器识别的准确率，因此，为了确保语音识别的准确率，需要保证样本语音数据的平衡。

目前，对于不平衡的样本语音数据，通常采用欠采样的方式对多数样本语音数据进行数据消除，或者人为采集少数样本用户的语音数据进行数据补充。然而，发明人意识到如果消除多数样本语音数据中的部分数据，很可能会丢失有价值的用户信息，进而影响用户的语音识别精度，此外，对于补充语音数据的方式，由于受到用户隐私和安全因素的限制，很难获得少数样本用户的大量语音数据，且这种人为采集语音数据的方式，操作较为不便。

技术问题

本申请提供了一种语音数据生成方法、装置、计算机设备及存储介质，主要在于解决如何使得样本库中的不同用户的语音数据达到平衡，同时能够避免丢失有价值的用户信息的问题。

技术解决方案

根据本申请的第一个方面，提供一种语音数据生成方法，包括：

获取目标用户的样本语音数据；

对所述样本语音数据进行特征提取，得到所述样本语音数据对应的语音特征；

根据所述样本语音数据对应的语音特征和预先构建的嵌入矩阵，计算所述样本语音数据对应的注意力分值，所述嵌入矩阵是通过对所述样本语音数据进行训练得到的；

基于所述注意力分值，确定所述目标用户样本语音数据之外的验证语音数据。

根据本申请的第二个方面，提供一种语音数据生成装置，包括：

获取单元，用于获取目标用户的样本语音数据；

提取单元，用于对所述样本语音数据进行特征提取，得到所述样本语音数据对应的语音特征；

第一确定单元，用于根据所述样本语音数据对应的语音特征和预先构建的嵌入矩阵，计算所述样本语音数据对应的注意力分值，所述嵌入矩阵是通过对所述样本语音数据进行训练得到的，

第二确定单元，用于基于所述注意力分值，确定所述目标用户样本语音数据之外的验证语音数据。

根据本申请的第三个方面，提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现语音数据生成方法；

其中，所述语音数据生成方法的步骤包括：

获取目标用户的样本语音数据；

根据本申请的第四个方面，提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现语音数据生成方法；

其中，所述语音数据生成方法的步骤包括：

获取目标用户的样本语音数据；

有益效果

本申请提供的一种语音数据生成方法、装置、计算机设备及存储介质，通过提取样本数据量匮乏的目标用户的语音特征，能够计算样本语音数据对应的注意力分值，并依据该注意力分值生成目标用户的验证语音数据，从而能够根据目标用户的少数样本语音数据，生成更多的语音数据，使不同用户的样本语音数据达到平衡，避免采用欠采用的方式丢失掉有价值的用户信息，同时依据该样本语音数据训练的预设语音识别模型的语音识别精度也得到了提高。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1示出了本申请实施例提供的一种语音数据生成方法流程图；

图2示出了本申请实施例提供的另一种语音数据生成方法流程图；

图3示出了本申请实施例提供的一种语音数据生成装置的结构示意图；

图4示出了本申请实施例提供的另一种语音数据生成装置的结构示意图；

图5示出了本申请实施例提供的一种计算机设备的实体结构示意图。

本发明的最佳实施方式

下文中将参考附图并结合实施例来详细说明本申请。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

目前，对于不平衡的样本语音数据，通常采用欠采样的方式对多数样本语音数据进行数据消除，或者人为采集少数样本用户的语音数据进行数据补充。然而，如果消除多数样本语音数据中的部分数据，很可能会丢失有价值的用户信息，进而影响用户的语音识别精度，此外，对于补充语音数据的方式，由于受到用户隐私和安全因素的限制，很难获得少数样本用户的大量语音数据，且这种人为采集语音数据的方式，操作较为不便。

为了解决上述问题，本申请实施例提供了一种语音数据生成方法，如图1所示，所述方法包括：

101、获取目标用户的样本语音数据。

其中，目标用户为样本语音数据匮乏的用户，该目标用户的样本语音数据的数据量小于预设数据量，目标用户的样本语音数据为预设样本库中已经存在的语音数据，具体可以通过搜集不同用户的语音数据，构建预设样本库，在语音搜集的过程中，可能由于隐私和安全因素的限制，有些用户的样本语音数据量相比其他用户较少，为了确保训练的语音识别模型的语音识别精度，需要保证预设样本库不同用户的语音数据达到平衡，因此需要利用目标用户已有的样本语音数据，生成更多的样本语音数据，以达到预设样本库中不同用户的样本语音数据的平衡，确保后续的预设语音识别模型的语音识别精度，本申请实施例主要适用于语音数据的生成，本申请实施例的执行主体为能够生成目语音数据的装置或设备，具体可以设置在客户端或者服务器一侧。

对于本申请实施例，为了筛选预设样本库中的目标用户，首选确定预设样本库各个用户对应的语音数据，基于各个用户对应的语音数据，统计各个用户对应的语音数据量，之后根据各个用户对应的语音数据量，统计预设样本库的语音数据量均值，将该语音数据量均值确定为预设数据量，接着分别将各个用户对应的语音数据量与预设数据量进行比对，并将语音数据量小于预设数据量的用户确定为目标用户，若用户的语音数据量小于预设数据量说明，该用户的语音数据量与预设样本库中其他用户的语音数据量相比较少，因此将语音数据量小于预设数据量的用户确定为目标用户，同时将预设样本库中目标用户的语音数据确定为目标用户的样本语音数据，以便根据该样本语音数据，生成目标用户除样本语音数据之后的新增样本数据，以到达样本语音数据的平衡。

102、对所述样本语音数据进行特征提取，得到所述样本语音数据对应的语音特征。

其中，可以将样本语音数据对应的梅尔倒谱系数作为样本语音数据对应的语音特征，具体地，在对样本语音数据进行特征提取之前需要对样本语音数据进行预处理，该预处理过程具体包括预加重、分帧和加窗函数处理，从而使得目标用户的样本语音数据变得平坦，即将样本语音数据的每N个采用点合成一个观测单位(帧)，帧的左右端具有连续性，在对目标用户的样本语音数据进行预处理之后，需要对预处理后的样本语音数据进行快速傅里叶转化，得到转换后的语音数据，之后将转换后的语音数据输入Mel滤波器，计算转换后的语音数据通过Mel滤波器后的语音能量，接着根据样本语音数据对应的语音能量，计算样本语音数据对应的梅尔倒谱系数，并将该梅尔倒谱系数确定为目标用户的样本语音数据对应的语音特征，以便依据样本语音数据对应的语音特征，生成目标用户更多的语音数据，以便到预设样本库中样本语音数据的平衡。

103、根据所述样本语音数据对应的语音特征和预先构建的嵌入矩阵，计算所述样本语音数据对应的注意力分值。

其中，所述嵌入矩阵是通过对所述样本语音数据进行训练得到的，对于本申请实施例，为了基于目标用户的样本语音数据，生成目标用户样本语音数据之外的验证语音数据，可以利用预设语音数据生成模型来生成更多目标用户的语音数据，由于目标用户的语音数据为时序数据，而GPT-2模型能够很好的处理时序数据，因此预设语音数据生成模型具体可以为预设GPT-2模型，该预设GPT-2模型中包括注意力层和神经网络层，具体地，将提取的样本语音数据对应的语音特征输入至预设GPT-2模型中进行语音数据生成，在预设GPT-2模型进行语音数据生成的过程中，首选将样本语音数据对应的语音特征输入至注意力层，利用该注意力层计算已有语音特征对应的注意力分值，具注意力层具体计算语音特征对应的注意力分值时，可以获取训练好的GPT-2模型中的嵌入矩阵，之后根据该嵌入矩阵计算该语音特征对应的查询向量、键向量和值向量，接着根据计算的查询向量、键向量和值向量，计算语音特征对应的注意力分值。

104、基于所述注意力分值，确定所述目标用户样本语音数据之外的验证语音数据。

对于本申请实施例，将计算出的语音特征对应的注意力分值输入至神经网络层进行语音数据的生成，具体地，目标用户通常具有多个语音特征，在确定多个语音特征对应的注意力分值之后，将注意力分值输入至神经网络层，该神经网络层会筛选注意力分值较高的语音特征，语音特征的注意力分值越高，说明该语音特征与待生成语音数据的关联性越高，进而利用注意力分值较高的语音特征来生成目标用户的语音数据。

本申请实施例提供的一种语音数据生成方法，与目前采用欠采样的方式对多数样本语音数据进行数据消除的方式相比，本申请能够获取目标用户的样本语音数据；并对所述样本语音数据进行特征提取，得到所述样本语音数据对应的语音特征；与此同时，根据所述样本语音数据对应的语音特征和预先构建的嵌入矩阵，计算所述样本语音数据对应的注意力分值，所述嵌入矩阵是通过对所述样本语音数据进行训练得到的；并基于所述注意力分值，确定所述目标用户样本语音数据之外的验证语音数据。由此通过提取样本数据量匮乏的目标用户的语音特征，能够计算样本语音数据对应的注意力分值，并依据该注意力分值生成目标用户的验证语音数据，从而能够根据目标用户的少数样本语音数据，生成更多的语音数据，使不同用户的样本语音数据达到平衡，避免采用欠采用的方式丢失掉有价值的用户信息，同时依据该样本语音数据训练的预设语音识别模型的语音识别精度也得到了提高。

进一步的，为了更好的说明上述语音数据的生成过程，作为对上述实施例的细化和扩展，本申请实施例提供了另一种语音数据生成方法，如图2所示，所述方法包括：

201、获取目标用户的样本语音数据。

其中，样本语音数据为预设样本库中已经存在的语音数据，目标用户为预设样本库中样本语音数据匮乏的用户，对于本申请实施例，为了确定目标用户，可以预先设定预设语音数据量，该预设语音数据量具体可以根据构建预设语音数据生成模型所需的训练样本量进行确定，之后确定预设样本库中各个用户对应的语音数据量，并将各个用户对应的语音数据量分别与预设语音数据量进行对比，根据对比结果筛选目标用户，具体可以将语音数据量小于预设语音数据量的用户确定为目标用户，此外，还可以根据各个用户对应的语音数据量，计算预设样本库的语音数据量均值，并将各个用户对应的语音数据量分别与语音数据量均值进行对比，根据对比结果筛选目标用户，具体可以将语音数据量小于语音数据量均值的用户确定为目标用户，由此能够确定预设样本库中数据量匮乏的目标用户，以便根据目标用户的样本语音数据，生成目标用户更多的语音数据，以达到预设样本库中语音数据的平衡。

202、对所述样本语音数据进行特征提取，得到所述样本语音数据对应的语音特征。

其中，样本语音数据对应的语音特征具体可以为样本语音数据对应的梅尔倒谱系数，对于本申请实施例，为了提取样本语音数据对应的语音特征，步骤202具体包括：对所述样本语音数据进行滤波处理，得到所述样本语音数据对应的语音能量；对所述语音能量进行离散余弦化处理，得到所述样本语音数据对应的语音特征。

具体地，在对样本语音数据进行特征提取之前需要对样本语音数据进行预处理，该预处理过程具体包括预加重、分帧和加窗函数处理，从而使得目标用户的样本语音数据变得平坦，即将样本语音数据的每N个采用点合成一个观测单位(帧)，帧的左右端具有连续性，在对目标用户的样本语音数据进行预处理之后，需要对预处理后的样本语音数据进行快速傅里叶转化，得到转换后的语音数据，之后将转换后的语音数据输入Mel滤波器，计算转换后的语音数据通过Mel滤波器后的语音能量，接着根据样本语音数据对应的语音能量，计算样本语音数据对应的梅尔倒谱系数，并将该梅尔倒谱系数确定为目标用户的样本语音数据对应的语音特征，梅尔倒谱系数的具体计算公式如下：

其中，s(m)代表语音数据经过第m个滤波器后输出的语音能量，M为滤波器的总个数，C(n)为梅尔倒谱系数，n代表梅尔倒谱系数的阶数，L通常可取12-16，s(m)语音能量的具体计算公式如下：

其中，

为对语音数据的频谱取模平方得到语音数据的功率谱，H _m(k)为滤波器的频率，K为傅里叶变换的点数。由此按照上述公式，能够计算出目标用户样本语音数据对应的梅尔倒谱系数，并将其确定为样本语音数据对应的语音特征，以便根据该样本语音数据，生成目标用户除样本语音数据之外的新增样本数据，以到达样本语音数据的平衡。

203、根据所述样本语音数据对应的语音特征和预先构建的嵌入矩阵，计算所述样本语音数据对应的注意力分值。

其中，所述嵌入矩阵是通过对所述样本语音数据进行训练得到的，对于本申请实施例，为了获取目标用户更多的语音数据，以达到样本语音数据的平衡，将样本语音数据对应的语音特征输入至预设语音数据生成模型进行数据生成，得到目标用户样本语音数据之外的验证语音数据，其中，预设语音数据生成模型具体可以为已经训练好的GPT-2模型，具体利用GPT-2模型生成目标用户更多的语音数据时，步骤203具体包括：根据所述嵌入矩阵确定所述语音特征对应的查询向量、键向量和值向量；将所述语音特征对应的查询向量和与其对应的键向量相乘，得到所述语音特征对应的权重值；根据所述语音特征对应的权重值和值向量，计算所述语音特征对应的注意力分值。

具体地，预设嵌入矩阵是由训练好的GPT-2模型确定的，即通过训练GPT-2模型能够得到预设嵌入矩阵，之后根据该预设嵌入矩阵能够确定语音特征对应的查询向量、键向量和值向量，之后在GPT-2模型中的注意力层根据语音特征对应的查询向量和键向量，计算语音特征对应的权重值，接着根据语音特征对应的权重值和值向量，计算语音特征对应的注意力分值并输出，该注意力分值的具体计算公式如下：

其中，Attention(Q,K,V)为已有特征对应的注意力分值，Q为查询向量，K为键向量，V为值向量，dK为为键向量的维数，通常取64。由此能够得到语音特征对应的注意力得分，

204、基于所述注意力分值，确定所述目标用户样本语音数据之外的验证语音数据。

对于本申请实施例，将该注意力得分输入至GPT-2模型中的神经网络层，生成目标用户除样本语音数据之外的验证语音数据，以确保样本库中不同用户的语音数据量达到平衡。

205、将所述目标用户的样本语音数据和验证语音数据，以及预设样本库中其他用户的样本语音数据确定为第一训练样本。

其中，其他用户为语音数据量不匮乏的用户，即其他用户对应的语音数据量大于预设数据量，对于本方实施例，生成目标用户更多的语音数据后，样本库中不同用户的语音数据量达到平衡，可以将样本库中的语音数据作为训练样本，构建预设语音识别模型，具体地，将目标用户的样本语音数据和验证语音数据，以及预设样本库中其他用户的样本语音数据共同作为第一训练样本，以便根据该第一训练样本构建预设语音室识别模型。

206、利用预设神经网络算法对所述第一训练样本进行训练，构建预设语音识别模型。

对于本申请实施例，预设语音识别模型具体可以为预设神经网络模型，该预设神经网络模型包括多个隐藏层，给定预设神经网络模型的初始参数，之后将第一训练样本输入至预设神经网络模型中进行训练，即对预设神经网络模型中的初始参数进行调整，构建预设语音识别模型。

进一步地，为了确保预设语音识别模型能够对真实的语音数据有更好的识别效果，还可以利用目标用户的样本语音数据以及预设样本库中其他用户的语音数据对构建的预设语音识别模型进行调整，基于此，所述方法还包括：

将所述目标用户的样本语音数据和所述其他用户的样本语音数据确定为第二训练样本；利用所述第二训练样本对所述预设语音识别模型进行调整，得到调整后的预设语音识别模型。由此调整后的预设语音识别模型能够对真实的语音数据有更好的识别效果。

进一步地，为了保证调整的预设语音识别模型的识别精度，所述方法还包括：利用测试样本对所述调整后的预设语音识别模型进行测试，得到所述调整后的预设语音识别模型对应的测试结果；根据所述测试结果，确定所述调整后的预设语音识别模型对应的语音识别准确率；若所述语音识别准确率小于预设语音识别准确率，对所述整后的预设语音识别模型中的参数进行调整，直至所述调整后的预设语音识别模型对应的语音识别准确率达到预设语音识别准确率。具体地，获取多个用户的测试样本，将测试样本输入至调整后的预设语音识别模型进行测试，能够得到调整后的预设语音识别模型的测试结果，根据该测试结果，统计测试样本中识别结果正确的样本数量和样本总数，并根据识别结果正确的样本数量和样本总数，计算调整后的预设语音识别模型对应的语音识别准确率，如果计算的语音识别准确率未达到预设语音识别准确率，则确定调整后的预设语音识别模型的识别精度未达到要求，不可以进行语音识别，需要继续进行训练；如果计算的语音识别准确率达到预设语音识别准确率，则确定调整后的预设语音识别模型的识别精度得到要求，可以用来进行语音识别，基于此，所述方法还包括：获取待识别用户的语音数据；将所述待识别用户的语音数据输入至调整后的预设语音识别模型进行语音识别，确定所述待识别用户对应的语音识别结果。

具体地，将待识别用户的语音数据输入至调整后的预设语音识别模型进行语音识别，该调整后的预设语音识别模型中的隐藏层会提取待识别用户的语音数据对应的语音特征，并将待识别用户对应的语音特征与预设特征库中其他用户对应的语音特征进行比对，根据比对结果输出待识别用户对应的语音识别结果，即利用调整后的预设语音识别模型能够对待识别用户的身份进行识别。

本申请实施例提供的另一种语音数据生成方法，与目前采用欠采样的方式对多数样本语音数据进行数据消除的方式相比，本申请能够获取目标用户的样本语音数据；并对所述样本语音数据进行特征提取，得到所述样本语音数据对应的语音特征；与此同时，根据所述样本语音数据对应的语音特征和预先构建的嵌入矩阵，计算所述样本语音数据对应的注意力分值，所述嵌入矩阵是通过对所述样本语音数据进行训练得到的，并基于所述注意力分值，确定所述目标用户样本语音数据之外的验证语音数据。由此通过提取样本数据量匮乏的目标用户的语音特征，能够计算样本语音数据对应的注意力分值，并依据该注意力分值生成目标用户的验证语音数据，从而能够根据目标用户的少数样本语音数据，生成更多的语音数据，使不同用户的样本语音数据达到平衡，避免采用欠采用的方式丢失掉有价值的用户信息，同时依据该样本语音数据训练的预设语音识别模型的语音识别精度也得到了提高。

进一步地，作为图1的具体实现，本申请实施例提供了一种语音数据生成装置，如图3所示，所述装置包括：获取单元31、提取单元32、第一确定单元33和第二确定单元34。

所述获取单元31，可以用于获取目标用户的样本语音数据。所述获取单元31是本装置中获取目标用户的样本语音数据的主要功能模块。

所述提取单元32，可以用于对所述样本语音数据进行特征提取，得到所述样本语音数据对应的语音特征。所述提取单元32是本装置中对所述样本语音数据进行特征提取，得到所述样本语音数据对应的语音特征的主要功能模块，也是核心模块。

所述第一确定单元33，可以用于根据所述样本语音数据对应的语音特征和预先构建的嵌入矩阵，计算所述样本语音数据对应的注意力分值，所述嵌入矩阵是通过对所述样本语音数据进行训练得到的。所述确定单元33是本装置中根据所述样本语音数据对应的语音特征和预先构建的嵌入矩阵，计算所述样本语音数据对应的注意力分值的主要功能模块，也是核心模块。

所述第二确定单元34，可以用于基于所述注意力分值，确定所述目标用户样本语音数据之外的验证语音数据。所述第二确定单元是本装置中基于所述注意力分值，确定所述目标用户样本语音数据之外的验证语音数据的主要功能模块，也是核心模块。

进一步地，为了计算所述样本语音数据对应的注意力分值，如图4所示，所述第一确定单元33，包括：确定模块331、相乘模块332和计算模块333。

所述确定模块331，可以用于确定所述语音特征对应的嵌入矩阵，并根据所述嵌入矩阵确定所述语音特征对应的查询向量、键向量和值向量。

所述相乘模块332，可以用于分别将所述语音特征对应的查询向量和与其对应的键向量相乘，得到所述语音特征对应的权重值。

所述计算模块333，可以用于根据所述语音特征对应的权重值和值向量，计算所述语音特征对应的注意力分值。

进一步地，为了提取样本语音数据对应的语音特征，所述提取单元32，包括：滤波模块321和离散模块322。

所述滤波模块321，可以用于对所述样本语音数据进行滤波处理，得到所述样本语音数据对应的语音能量。

所述离散模块332，可以用于对所述语音能量进行离散余弦化处理，得到所述样本语音数据对应的语音特征。

进一步地，为了构建预设语音识别模型，所述装置还包括构建单元35。

所述第一确定单元33，还可以用于将所述目标用户的样本语音数据和验证语音数据，以及预设样本库中其他用户的样本语音数据确定为第一训练样本。

所述构建单元35，可以用于利用预设神经网络算法对所述第一训练样本进行训练，构建预设语音识别模型。

进一步地，为了提高预设语音识别模型的识别精度，所述装置还包括：调整单元36。

所述第一确定单元33，还可以用于将所述目标用户的样本语音数据和所述其他用户的样本语音数据确定为第二训练样本。

所述调整单元36，可以用于利用所述第二训练样本对所述预设语音识别模型进行调整，得到调整后的预设语音识别模型。

进一步地，为了对调整后的预设语音识别模型进行测试，所述装置还包括测试单元37。

所述测试单元37，可以用于利用测试样本对所述调整后的预设语音识别模型进行测试，得到所述调整后的预设语音识别模型对应的测试结果。

所述第一确定单元33，还可以用于根据所述测试结果，确定所述调整后的预设语音识别模型对应的语音识别准确率。

所述调整单元36，还可以用于若所述语音识别准确率小于预设语音识别准确率，对所述整后的预设语音识别模型中的参数进行调整，直至所述调整后的预设语音识别模型对应的语音识别准确率达到预设语音识别准确率。

进一步地，为了对待识别用户进行语音识别，所述装置还包括：识别单元38。

所述获取单元31，还可以用于获取待识别用户的语音数据。

所述识别单元38，可以用于将所述待识别用户的语音数据输入至调整后的预设语音识别模型进行语音识别，确定所述待识别用户对应的语音识别结果。

需要说明的是，本申请实施例提供的一种语音数据生成装置所涉及各功能模块的其他相应描述，可以参考图1所示方法的对应描述，在此不再赘述。

基于上述如图1所示方法，相应的，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质可以是非易失性，也可以是易失性，其上存储有计算机程序，该程序被处理器执行时实现语音数据生成方法；其中，所述语音数据生成方法的步骤包括：：获取目标用户的样本语音数据；对所述样本语音数据进行特征提取，得到所述样本语音数据对应的语音特征；根据所述样本语音数据对应的语音特征和预先构建的嵌入矩阵，计算所述样本语音数据对应的注意力分值，所述嵌入矩阵是通过对所述样本语音数据进行训练得到的；基于所述注意力分值，确定所述目标用户样本语音数据之外的验证语音数据。

进一步地，所述根据所述样本语音数据对应的语音特征和预先构建的嵌入矩阵，计算所述样本语音数据对应的注意力分值，包括：

根据所述嵌入矩阵确定所述语音特征对应的查询向量、键向量和值向量；

将所述语音特征对应的查询向量和键向量相乘，得到所述语音特征对应的权重值；

根据所述语音特征对应的权重值和值向量，计算所述语音特征对应的注意力分值。

进一步地，所述对所述样本语音数据进行特征提取，得到所述样本语音数据对应的语音特征，包括：

对所述样本语音数据进行滤波处理，得到所述样本语音数据对应的语音能量；

对所述语音能量进行离散余弦化处理，得到所述样本语音数据对应的语音特征。

进一步地，在所述基于所述注意力分值，确定所述目标用户样本语音数据之外的验证语音数据之后，所述方法还包括：

将所述目标用户的样本语音数据和验证语音数据，以及预设样本库中其他用户的样本语音数据确定为第一训练样本；

利用预设神经网络算法对所述第一训练样本进行训练，构建预设语音识别模型。

进一步地，在所述利用预设神经网络算法对所述第一训练样本进行训练，构建预设语音识别模型之后，所述方法还包括：

将所述目标用户的样本语音数据和所述其他用户的样本语音数据确定为第二训练样本；

利用所述第二训练样本对所述预设语音识别模型进行调整，得到调整后的预设语音识别模型。

进一步地，所述方法还包括：

利用测试样本对所述调整后的预设语音识别模型进行测试，得到所述调整后的预设语音识别模型对应的测试结果；

根据所述测试结果，确定所述调整后的预设语音识别模型对应的语音识别准确率；

若所述语音识别准确率小于预设语音识别准确率，对所述整后的预设语音识别模型中的参数进行调整，直至所述调整后的预设语音识别模型对应的语音识别准确率达到预设语音识别准确率。

基于上述如图1所示方法和如图3所示装置的实施例，本申请实施例还提供了一种计算机设备的实体结构图，如图5所示，该计算机设备包括：处理器41、存储器42、及存储在存储器42上并可在处理器上运行的计算机程序，其中存储器42和处理器41均设置在总线43上所述处理器41执行所述程序时实现语音数据生成方法；其中，所述语音数据生成方法的步骤包括：获取目标用户的样本语音数据；对所述样本语音数据进行特征提取，得到所述样本语音数据对应的语音特征；根据所述样本语音数据对应的语音特征和预先构建的嵌入矩阵，计算所述样本语音数据对应的注意力分值，所述嵌入矩阵是通过对所述样本语音数据进行训练得到的；基于所述注意力分值，确定所述目标用户样本语音数据之外的验证语音数据。

进一步地，所述方法还包括：

通过本申请的技术方案，本申请能够获取目标用户的样本语音数据；并对所述样本语音数据进行特征提取，得到所述样本语音数据对应的语音特征；与此同时，根据所述样本语音数据对应的语音特征和预先构建的嵌入矩阵，计算所述样本语音数据对应的注意力分值，所述嵌入矩阵是通过对所述样本语音数据进行训练得到的；并基于所述注意力分值，确定所述目标用户样本语音数据之外的验证语音数据，由此通过提取样本数据量匮乏的目标用户的语音特征，能够计算样本语音数据对应的注意力分值，并依据该注意力分值生成目标用户的验证语音数据，从而能够根据目标用户的少数样本语音数据，生成更多的语音数据，使不同用户的样本语音数据达到平衡，避免采用欠采用的方式丢失掉有价值的用户信息，同时依据该样本语音数据训练的预设语音识别模型的语音识别精度也得到了提高。

显然，本领域的技术人员应该明白，上述的本申请的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本申请不限制于任何特定的硬件和软件结合。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包括在本申请的保护范围之内。

Claims

一种语音数据生成方法，其中，包括：

获取目标用户的样本语音数据；

对所述样本语音数据进行特征提取，得到所述样本语音数据对应的语音特征；

根据所述样本语音数据对应的语音特征和预先构建的嵌入矩阵，计算所述样本语音数据对应的注意力分值，所述嵌入矩阵是通过对所述样本语音数据进行训练得到的；

基于所述注意力分值，确定所述目标用户样本语音数据之外的验证语音数据。
根据权利要求1所述的方法，其中，所述根据所述样本语音数据对应的语音特征和预先构建的嵌入矩阵，计算所述样本语音数据对应的注意力分值，包括：

根据所述嵌入矩阵确定所述语音特征对应的查询向量、键向量和值向量；

将所述语音特征对应的查询向量和键向量相乘，得到所述语音特征对应的权重值；

根据所述语音特征对应的权重值和值向量，计算所述语音特征对应的注意力分值。
根据权利要求1所述的方法，其中，所述对所述样本语音数据进行特征提取，得到所述样本语音数据对应的语音特征，包括：

对所述样本语音数据进行滤波处理，得到所述样本语音数据对应的语音能量；

对所述语音能量进行离散余弦化处理，得到所述样本语音数据对应的语音特征。
根据权利要求1所述的方法，其中，在所述基于所述注意力分值，确定所述目标用户样本语音数据之外的验证语音数据之后，所述方法还包括：

将所述目标用户的样本语音数据和验证语音数据，以及预设样本库中其他用户的样本语音数据确定为第一训练样本；

利用预设神经网络算法对所述第一训练样本进行训练，构建预设语音识别模型。
根据权利要求4所述的方法，其中，在所述利用预设神经网络算法对所述第一训练样本进行训练，构建预设语音识别模型之后，所述方法还包括：

将所述目标用户的样本语音数据和所述其他用户的样本语音数据确定为第二训练样本；

利用所述第二训练样本对所述预设语音识别模型进行调整，得到调整后的预设语音识别模型。
根据权利要求5所述的方法，其中，所述方法还包括：

利用测试样本对所述调整后的预设语音识别模型进行测试，得到所述调整后的预设语音识别模型对应的测试结果；

根据所述测试结果，确定所述调整后的预设语音识别模型对应的语音识别准确率；

若所述语音识别准确率小于预设语音识别准确率，对所述整后的预设语音识别模型中的参数进行调整，直至所述调整后的预设语音识别模型对应的语音识别准确率达到预设语音识别准确率。
根据权利要求5所述的方法，其中，所述方法还包括：

获取待识别用户的语音数据；

将所述待识别用户的语音数据输入至调整后的预设语音识别模型进行语音识别，确定所述待识别用户对应的语音识别结果。
一种语音数据生成装置，其中，包括：

获取单元，用于获取目标用户的样本语音数据；

提取单元，用于对所述样本语音数据进行特征提取，得到所述样本语音数据对应的语音特征；

第一确定单元，用于根据所述样本语音数据对应的语音特征和预先构建的嵌入矩阵，计算所述样本语音数据对应的注意力分值，所述嵌入矩阵是通过对所述样本语音数据进行训练得到的；

第二确定单元，用于基于所述注意力分值，确定所述目标用户样本语音数据之外的验证语音数据。
一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现语音数据生成方法；

其中，所述语音数据生成方法的步骤包括：

获取目标用户的样本语音数据；

对所述样本语音数据进行特征提取，得到所述样本语音数据对应的语音特征；

根据所述样本语音数据对应的语音特征和预先构建的嵌入矩阵，计算所述样本语音数据对应的注意力分值，所述嵌入矩阵是通过对所述样本语音数据进行训练得到的；

基于所述注意力分值，确定所述目标用户样本语音数据之外的验证语音数据。
根据权利要求9所述的计算机可读存储介质，其中，所述根据所述样本语音数据对应的语音特征和预先构建的嵌入矩阵，计算所述样本语音数据对应的注意力分值，包括：

根据所述嵌入矩阵确定所述语音特征对应的查询向量、键向量和值向量；

将所述语音特征对应的查询向量和键向量相乘，得到所述语音特征对应的权重值；

根据所述语音特征对应的权重值和值向量，计算所述语音特征对应的注意力分值。
根据权利要求9所述的计算机可读存储介质，其中，所述对所述样本语音数据进行特征提取，得到所述样本语音数据对应的语音特征，包括：

对所述样本语音数据进行滤波处理，得到所述样本语音数据对应的语音能量；

对所述语音能量进行离散余弦化处理，得到所述样本语音数据对应的语音特征。
根据权利要求9所述的计算机可读存储介质，其中，在所述基于所述注意力分值，确定所述目标用户样本语音数据之外的验证语音数据之后，所述方法还包括：

将所述目标用户的样本语音数据和验证语音数据，以及预设样本库中其他用户的样本语音数据确定为第一训练样本；

利用预设神经网络算法对所述第一训练样本进行训练，构建预设语音识别模型。
根据权利要求12所述的计算机可读存储介质，其中，在所述利用预设神经网络算法对所述第一训练样本进行训练，构建预设语音识别模型之后，所述方法还包括：

将所述目标用户的样本语音数据和所述其他用户的样本语音数据确定为第二训练样本；

利用所述第二训练样本对所述预设语音识别模型进行调整，得到调整后的预设语音识别模型。
根据权利要求13所述的计算机可读存储介质，其中，所述方法还包括：

利用测试样本对所述调整后的预设语音识别模型进行测试，得到所述调整后的预设语音识别模型对应的测试结果；

根据所述测试结果，确定所述调整后的预设语音识别模型对应的语音识别准确率；

若所述语音识别准确率小于预设语音识别准确率，对所述整后的预设语音识别模型中的参数进行调整，直至所述调整后的预设语音识别模型对应的语音识别准确率达到预设语音识别准确率。
一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述计算机程序被处理器执行时实现语音数据生成方法；

其中，所述语音数据生成方法的步骤包括：

获取目标用户的样本语音数据；

对所述样本语音数据进行特征提取，得到所述样本语音数据对应的语音特征；

根据所述样本语音数据对应的语音特征和预先构建的嵌入矩阵，计算所述样本语音数据对应的注意力分值，所述嵌入矩阵是通过对所述样本语音数据进行训练得到的；

基于所述注意力分值，确定所述目标用户样本语音数据之外的验证语音数据。
根据权利要求15所述的计算机设备，其中，所述根据所述样本语音数据对应的语音特征和预先构建的嵌入矩阵，计算所述样本语音数据对应的注意力分值，包括：

根据所述嵌入矩阵确定所述语音特征对应的查询向量、键向量和值向量；

将所述语音特征对应的查询向量和键向量相乘，得到所述语音特征对应的权重值；

根据所述语音特征对应的权重值和值向量，计算所述语音特征对应的注意力分值。
根据权利要求15所述的计算机设备，其中，所述对所述样本语音数据进行特征提取，得到所述样本语音数据对应的语音特征，包括：

对所述样本语音数据进行滤波处理，得到所述样本语音数据对应的语音能量；

对所述语音能量进行离散余弦化处理，得到所述样本语音数据对应的语音特征。
根据权利要求15所述的计算机设备，其中，在所述基于所述注意力分值，确定所述目标用户样本语音数据之外的验证语音数据之后，所述方法还包括：

将所述目标用户的样本语音数据和验证语音数据，以及预设样本库中其他用户的样本语音数据确定为第一训练样本；

利用预设神经网络算法对所述第一训练样本进行训练，构建预设语音识别模型。
根据权利要求18所述的计算机设备，其中，在所述利用预设神经网络算法对所述第一训练样本进行训练，构建预设语音识别模型之后，所述方法还包括：

将所述目标用户的样本语音数据和所述其他用户的样本语音数据确定为第二训练样本；

利用所述第二训练样本对所述预设语音识别模型进行调整，得到调整后的预设语音识别模型。
根据权利要求19所述的计算机设备，其中，所述方法还包括：

利用测试样本对所述调整后的预设语音识别模型进行测试，得到所述调整后的预设语音识别模型对应的测试结果；

根据所述测试结果，确定所述调整后的预设语音识别模型对应的语音识别准确率；

若所述语音识别准确率小于预设语音识别准确率，对所述整后的预设语音识别模型中的参数进行调整，直至所述调整后的预设语音识别模型对应的语音识别准确率达到预设语音识别准确率。