WO2018161763A1

WO2018161763A1 - 语音数据集训练方法、计算机设备和计算机可读存储介质

Info

Publication number: WO2018161763A1
Application number: PCT/CN2018/075595
Authority: WO
Inventors: 孙涛; 康跃腾; 张晓明; 张力
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2017-03-10
Filing date: 2018-02-07
Publication date: 2018-09-13
Also published as: CN108305619B; US20190318723A1; CN108305619A; EP3594940A1; US11069342B2; EP3594940B1; EP3594940A4

Abstract

一种语音数据集训练方法，包括：读取从第一语音数据集中选取数据所生成的第一测试集，以及获取对第一语音数据集进行训练得到的第一语音模型参数（202）；获取第二语音数据集，从第二语音数据集中随机选取数据生成第二测试集（204）；当检测到第二测试集与第一测试集满足相似条件时，则采用训练得到的第一语音模型参数对第二语音数据集进行第二语音模型训练（206）。

Description

语音数据集训练方法、计算机设备和计算机可读存储介质

本申请要求于2017年03月10日提交中国专利局、申请号为201710143053.2、申请名称为“语音数据集训练方法和装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及数据处理领域，特别是涉及一种语音数据集训练方法、计算机设备和计算机可读存储介质。

背景技术

传统的语音数据集的训练一般包括两部分，一部分是HMM(Hidden Markov Model，隐马尔科夫模型)+GMM(Gaussian Mixture Model，混合高斯模型)的训练，另一部分是HMM+DNN(Deep Neuron Network，深度神经网络)的训练。HMM+GMM和HMM+DNN需要对全部的数据集进行训练，随着数据集的不断增大，总的训练时间会增大，导致训练时间很长。

发明内容

根据本申请的各种实施例，提供一种语音数据集训练方法、计算机设备和计算机可读存储介质。

一种语音数据集训练方法，包括：

读取从第一语音数据集中选取数据所生成的第一测试集，以及对所述第一语音数据集进行训练得到的第一语音模型参数；

获取第二语音数据集，从所述第二语音数据集中随机选取数据生成第二测试集；

检测到所述第二测试集与所述第一测试集满足相似条件，则采用所述训练得到的第一语音模型参数对所述第二语音数据集进行第二语音模型训练。

一种计算机设备，包括存储器和处理器，所述存储器中储存有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行以下步骤：读取从第一语音数据集中选取数据所生成的第一测试集，以及对所述第一语音数据集进行训练得到的第一语音模型参数；获取第二语音数据集，从所述第二语音数据集中随机选取数据生成第二测试集；检测到所述第二测试集与所述第一测试集满足相似条件，则采用所述训练得到的第一语音模型参数对所述第二语音数据集进行第二语音模型训练。

一种非易失性的计算机可读存储介质，存储有计算机可读指令，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行以下步骤：读取从第一语音数据集中选取数据所生成的第一测试集，以及对所述第一语音数据集进行训练得到的第一语音模型参数；获取第二语音数据集，从所述第二语音数据集中随机选取数据生成第二测试集；检测到所述第二测试集与所述第一测试集满足相似条件，则采用所述训练得到的第一语音模型参数对所述第二语音数据集进行第二语音模型训练。

本申请的一个或多个实施例的细节在下面的附图和描述中提出。本申请的其它特征、目的和优点将从说明书、附图以及权利要求书变得明显。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为一个实施例中计算机设备的内部结构示意图；

图2为一个实施例中语音数据集训练方法的流程图；

图3为另一个实施例中语音数据集训练方法的流程图；

图4为另一个实施例中语音数据集训练方法的流程图；

图5为一个实施例中HMM+GMM模型的结构示意图；

图6为一个实施例中HMM+DNN模型的结构示意图；

图7为一个实施例中语音数据集训练装置的结构框图；

图8为另一个实施例中语音数据集训练装置的结构框图；

图9为另一个实施例中语音数据集训练装置的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

图1为一个实施例中计算机设备的内部结构示意图。如图1所示，该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。存储器包括非易失性存储介质和内存储器。其中，该计算机设备的非易失性存储介质存储有操作系统、数据库和语音数据集训练装置，数据库中存储有HMM+GMM和HMM+DNN的算法模型等，该语音数据集训练装置用于实现适用于计算机设备的一种语音数据集训练方法。该计算机设备的处理器用于提供计算和控制能力，支撑整个计算机设备的运行。该计算机设备的内存储器为非易失性存储介质中的语音数据集训练装置的运行提供环境，该内存储器中可储存有计算机可读指令，该计算机可读指令被所述处理器执行时，可使得所述处理器执行一种语音数据集训练方法。该计算机设备的网络接口用于据以与外部的设备通过网络连接通信，比如接收设备发送的语音识别请求以及向设备返回语音识别结果等。计算机设备可以用独立的计算机设备或者是多个计算机设备组成的计算机设备集群来实现。本领域技术人员可以理解，图1中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

图2为一个实施例中语音数据集训练方法的流程图。如图2所示，一种语音数据集训练方法，包括：

步骤202，读取从第一语音数据集中选取数据所生成的第一测试集，以及对所述第一语音数据集进行训练得到的第一语音模型参数。

本实施例中，第一语音数据集是指用于第一次训练的语音数据集。计算机设备可从第一语音数据集中选取数据生成第一测试集。第一测试集是用于检验通过第一语音数据集进行训练得到的第一语音模型的性能的数据集。第一语音模型可为隐马尔科夫模型和混合高斯模型。

计算机设备可以读取从第一语音数据集中选取数据所生成的第一测试集，例如，计算机设备读取第一测试集的方式可以是通过计算机设备中的CPU(Central Processing Unit中央处理器)在硬盘中提取所需要的数据，然后CPU再把数据综合处理后送给内存。

隐马尔科夫模型和混合高斯模型(即HMM+GMM)参数是指每个HMM状态的起止时间。每一语音帧对应一个HMM状态。

HMM(Hidden Markov Model，隐马尔科夫模型)是一种统计模型，它用来描述一个含有隐含未知参数的马尔可夫过程。在隐马尔可夫模型中，状态并不是直接可见的，但受状态影响的某些变量则是可见的。HMM中的状态是HMM的基本组成部分；HMM的转移概率表示HMM的状态之间发生转换的概率；而每一个状态在可能输出的符号上都有一概率分布，即HMM的输出概率。其中，马尔可夫过程是一个不具备记忆特质的随机过程。该随机过程在给定现在状态及所有过去状态情况下，其未来状态的条件概率分布仅依赖于当前状态。

GMM(Gaussian Mixture Model，混合高斯模型)是用高斯概率密度函数(正态分布曲线)精确地量化事物，将一个事物分解为若干的基于高斯概率密度函数(正态分布曲线)形成的模型。

计算机设备可以预先根据第一语音数据集选取数据生成训练集和第一测试集，计算机设备还可以对第一语音数据集的训练集进行训练得到隐马尔科夫模型和混合高斯模型，从而得到隐马尔科夫模型和混合高斯模型参数。

步骤204，获取第二语音数据集，从所述第二语音数据集中随机选取数据生成第二测试集。

本实施例中，第二语音数据集是指用于再次训练的语音数据集。计算机设备可以从第二语音数据集中随机选取数据生成第二测试集。第二测试集是用于代表第二语音数据集的。第二测试集中数据量占第二语音数据集中数据量的比例与第一测试集中数据量占第一语音数据集中数据量的比例相同。

步骤206，检测到所述第二测试集与所述第一测试集满足相似条件，则采用所述训练得到的第一语音模型参数对所述第二语音数据集进行第二语音模型训练。

本实施例中，第二语音模型可为隐马尔科夫模型和深度神经网络模型。DNN(deep neuron networks，深度神经网络)是一种具备至少一个隐层的神经网络。与浅层神经网络类似，深度神经网络也能够为复杂非线性系统提供建模，但多出的层次为模型提供了更高的抽象层次，因而提高了模型的能力。神经网络就是将许多个单一神经元联结在一起，一个神经元的输出就可以是另一个神经元的输入。神经元是神经网络的基本运算单元，它通过激活函数将多个输入值转化为一个输出，多个输入值与多个权值一一对应。

本实施例中，相似条件是指相似度超过相似度阈值，或者字识别错误率之差小于或等于容错阈值。相似度超过相似度阈值，或字识别错误率之差小于或等于容错阈值，则表示第二测试集和第一测试集相似度高，适合采用第一语音数据集训练得到的隐马尔科夫模型和混合高斯模型参数对第二语音数据集进行隐马尔科夫模型和深度神经网络模型训练。

上述语音数据集训练方法，计算机设备检测到从第二语音数据集中选取数据生成的第二测试集与从第一语音数据集中选取数据生成的第一测试集满足相似条件，计算机设备采用第一语音数据集训练得到的第一语音模型参数对第二语音数据集进行第二语音模型训练，节省了对第二语音数据集进行第一语音模型训练，节省了总的训练时长，提高了训练效率。

在一个实施例中，从所述第二语音数据集中随机选取数据生成第二测试集，包括：获取所述第一测试集中数据数量与所述第一语音数据集中数据数量的比值，从所述第二语音数据集中随机选取占所述比值的数据，生成所述第二测试集。

本实施例中，第一测试集TEST1中数据数量记为number(TEST1)，第一语音数据集中数据数量记为number(数据集1)。第二测试集TEST2中数据数量记为number(TEST2)，第二语音数据集中数据数量记为number(数据集2)。则满足number(TEST1)/number(数据集1)＝number(TEST2)/number(数据集2)。

通过使得第二测试集中数据量与第二语音数据集中数据量的比例与第一测试集中数据量与第一语音数据集中数据量的比例相同，可确保进行相似度计算时，计算结果更加准确。

图3为另一个实施例中语音数据集训练方法的流程图。如图3所示，在一个实施例中，上述语音数据集训练方法还包括：

步骤302，从所述第一语音数据集中分别选取数据生成训练集和第一测试集。

训练集是用来估计模型的数据集。

步骤304，对所述训练集进行第一语音模型训练得到预设数量的第一语音模型。

本实施例中，预设数量可根据需要配置，例如5个、10个等。

步骤306，采用所述预设数量的第一语音模型分别对所述第一测试集进行测试，得到字识别错误率在预设范围内的第一语音模型。

本实施例中，计算机设备采用预设数量的第一语音模型中每一个第一语音模型对第一测试集进行测试，计算机设备可以得到每个第一语音模型的字识别错误率，根据各个第一语音模型的字识别错误率筛选得到字识别错误率在预设范围内的第一语音模型。预设范围可根据需要设定。

步骤308，将所述字识别错误率在预设范围内的第一语音模型的参数作为所述第一语音模型参数。

本实施例中，字识别错误率在预设范围内的第一语音模型的参数是指字识别错误率在预设范围内的第一语音模型得到的每个HMM状态的起止时间。

通过计算机设备对第一语音数据集中选取数据生成训练集，计算机设备对训练集进行训练得到多个第一语音模型，通过第一测试集测试，计算机设备得到字识别错误率在预设范围内的第一语音模型，计算机设备可将字识别错误率在预设范围内中最小的字识别错误率的第一语音模型的参数作为所述第一语音模型参数，后续作为共用的第一语音模型参数更加准确。或者，计算机设备可将字识别错误率在预设范围内中任意的第一语音模型的参数作为所述第一语音模型参数。

在一个实施例中，上述语音数据集训练方法还包括：采用所述字识别错误率在预设范围内中最小的字识别错误率的第一语音模型的参数对所述第一语音数据集进行第二语音模型训练。

在一个实施例中，上述语音数据集训练方法还包括：采用字识别错误率在预设范围内中任意的第一语音模型的参数对第一语音数据集进行第二语音模型训练。

在一个实施例中，对所述训练集进行第一语音模型训练得到预设数量的第一语音模型，包括：每次从所述训练集中随机选取第一预设比例的数据或第一固定数量的数据进行第一语音模型训练，重复预设数量次数，得到预设数量的第一语音模型。

本实施例中，第一预设比例可根据需要配置，第一预设比例太高会耗时，太低则不能代表整个训练集。第一固定数量可根据需要配置。预设数量次数是指从训练集中随机选取第一预设比例的数据或第一固定数量的数据进行第一语音模型训练的次数。

在一个实施例中，所述采用所述预设数量的第一语音模型对所述第一测试集进行测试，得到字识别错误率在预设范围内的第一语音模型，包括：采用预设数量的第一语音模型分别对所述第一测试集进行测试，得到各个第一语音模型的字识别错误率；根据各个第一语音模型的字识别错误率筛选得到字识别错误率在预设范围内的第一语音模型。

本实施例中，字识别错误率(Word Error Rate，简称WER)表示测试时识别错误的字的数量和测试集中字的总数量之间的比值。计算机设备采用预设数量的第一语音模型分别对所述第一测试集进行测试可得到每个第一语音模型对第一测试集进行测试的字识别错误率，计算机设备可以将字识别错误率与预设范围比较，计算机设备可以得到字识别错误率在预设范围内的第一语音模型。

在一个实施例中，所述检测到所述第二测试集与所述第一测试集满足相似条件，包括：采用所述字识别错误率在预设范围内中最小的字识别错误率对应的第一语音模型对所述第二测试集进行测试，得到所述第二测试集所对应的字识别错误率；检测到所述第二测试集所对应的字识别错误率与所述字识别错误率在预设范围内中最小的字识别错误率之差小于或等于容错阈值，则表示所述第二测试集与所述第一测试集满足相似条件。

本实施例中，容错阈值可根据实际多次训练得到。

在一个实施例中，上述语音数据集训练方法还包括：从所述第一语音数据集中分别选取数据生成训练集和第一测试集；对所述训练集进行第一语音模型训练得到预设数量的第一语音模型；采用所述预设数量的第一语音模型分别对所述第一测试集进行测试，得到所述预设数量中的最小的字识别错误率的第一语音模型；将所述预设数量中的最小的字识别错误率的第一语音模型的参数作为所述第一语音模型参数。

本实施例中，计算机设备采用预设数量的第一语音模型分别对所述第一测试集进行测试可得到每个第一语音模型对第一测试集进行测试的字识别错误率，计算机设备可以对字识别错误率进行排序得到预设数量中的最小的字识别错误率。

计算机设备检测到所述第二测试集与所述第一测试集满足相似条件，包括：采用所述预设数量中的最小的字识别错误率对应的第一语音模型对所述第二测试集进行测试，得到所述第二测试集所对应的字识别错误率；检测到所述第二测试集所对应的字识别错误率与所述预设数量中的最小的字识别错误率之差小于或等于容错阈值，则表示所述第二测试集与所述第一测试集满足相似条件。

在一个实施例中，采用HMM+GMM模型求取每个HMM状态的起止时间的步骤包括：获取语音数据，对所述语音数据进行分段，提取每段语音的特征；列出每段语音所有可能对应的文字；将所述文字根据发音词典转换为音素；根据HMM模型将所述音素转换为HMM状态；根据HMM+GMM模型的参数得到每条文字对应的概率；通过概率的比较得出最有可能的HMM状态序列；根据HMM状态序列可得到每个HMM状态的起止时间。

语音的特征提取可包括声强和声强级、响度、音高、基音周期、基音频率、信噪比、谐噪比等等。声强是指单位时间内通过垂直于声波传播方向的单位面积的平均声能。声强用I表示，单位为瓦/平米。声强采用声强级来表示。声强级的常用单位为分贝(dB)。响度是表示声音强弱程度。响度采用响度级表示。音高是人类听觉系统对于声音频率高低的感觉。音高的单位是美尔。基音周期反映了声门相邻两次开闭之间的时间间隔或开闭的频率。信噪比是信号和噪声的功率之间比值计算得到的。谐躁比是语音中谐波成分和噪声成分的比率。

音素是根据语音的自然属性划分出来的最小语音单位。对语音数据进行标注得到音素。标注是指对未处理的数据进行加工处理，语音的标注是展示语音所代表的真实内容。

计算机设备得到的HMM状态序列类似于112233345，假设从时刻t开始，则状态1的起止时间为t至t+2，状态2的起止时间为t+3至t+4。

图4为另一个实施例中语音数据集训练方法的流程图。如图4所示，一种语音数据集训练方法，包括：

步骤402，获取语音数据集，判断本次训练是不是第一次训练，若是，则执行步骤404，若否，执行步骤410。

步骤404，从语音数据集中分别选取数据生成训练集和第一测试集。

若本次训练为第一次训练，则语音数据集可称为第一语音数据集。

步骤406，从所述训练集中随机选取第一预设比例的数据进行隐马尔科夫模型和混合高斯模型训练，重复进行预设数量次，得到预设数量个隐马尔科夫模型和混合高斯模型。

步骤408，将预设数量个隐马尔科夫模型和混合高斯模型分别对第一测试集进行测试，得到最小的字识别错误率，记为第一字识别错误率，选取最小的字识别错误率对应的隐马尔科夫模型和混合高斯模型作为最优的隐马尔科夫模型和混合高斯模型，再执行步骤416。

步骤410，从语音数据集中随机选取数据生成第二测试集。

若本次训练不为第一次训练，则该语音数据集可称为第二语音数据集。

步骤412，用第一次训练得到的最优的隐马尔科夫模型和混合高斯模型对第二测试集进行测试，得到第二测试集所对应的字识别错误率，记为第二字识别错误率。

步骤414，判断第二字识别错误率与第一字识别错误率之差小于或等于容错阈值，若是，则执行步骤416，若否，则结束。

步骤416，用最优的隐马尔科夫模型和混合高斯模型的参数进行隐马尔科夫模型和深度神经网络模型训练。上述语音数据集训练方法，检测本次训练不是第一次训练，且根据最优的HMM+GMM模型对第一测试集测试得到的第一字识别错误率和对第二测试集测试得到的第二字识别错误率，第二字识别错误率与第一字识别错误率小于或等于容错阈值，则采用第一语音数据集训练得到的隐马尔科夫模型和混合高斯模型参数对第二语音数据集进行隐马尔科夫模型和深度神经网络模型训练，节省了对第二语音数据集进行隐马尔科夫模型和混合高斯模型训练，节省了总的训练时长，提高了训练效率；若本次训练为第一次训练，则选取最优的HMM+GMM模型，采用最优的HMM+GMM模型的参数进行HMM+DNN训练。

图5为一个实施例中HMM+GMM模型的结构示意图。如图5所示，第一层52为一个一个语音帧数据，第二层54为GMM模型，第三层56为HMM模型。HMM模型对应输出概率的多个GMM模型。其中，S表示HMM模型中的HMM状态；a表示HMM模型中的转移概率，

表示从s _k-1状态变为s _k-2状态的转移概率。每一个GMM对应的是一个HMM模型状态的输出概率。计算机设备将语音数据切分为一个一个语音帧数据，一个语音帧数据对应一个HMM状态。语音帧即为HMM中的观测值。

图6为一个实施例中HMM+DNN模型的结构示意图。如图6所示，第一层62为一个一个语音帧数据，第二层64为DNN模型，第三层66为HMM模型。其中，S表示HMM模型中的HMM状态；a表示HMM模型中的转移概率，

表示从s _k-1状态变为s _k-2状态的转移概率；h表示DNN模型中的神经元；W表示DNN模型中的权值，M表示DNN模型的层数。h代表的是一个函数，如果是第一层，则h的输入是一帧数据或几帧数据对应的各自权值；如果是第二层至最后一层，则h的输入是上一层的输出和每一个输出所对应的权值。每一个DNN的输出对应的是一个HMM模型状态的输出概率。每一个DNN的输出对应的是一个语音帧。

在一个实施例中，可采用一个DNN模型在时域上实现输入一个语音帧输出一个HMM状态对应的概率。

图7为一个实施例中语音数据集训练装置的结构框图。如图7所示，一种语音数据集训练装置700，包括读取模块702、获取模块704和训练模块706。其中：

读取模块702用于读取从第一语音数据集中选取数据所生成的第一测试集，以及对所述第一语音数据集进行训练得到的第一语音模型参数。

本实施例中，第一语音数据集是指用于第一次训练的语音数据集。计算机设备可从第一语音数据集中选取数据生成第一测试集。第一测试集是用于检验通过第一语音数据集进行训练得到的第一语音模型的性能的数据集。

第一语音模型参数是指每个语音模型状态的起止时间。例如，第一语音模型参数可为每个HMM状态的起止时间。每一语音帧对应一个HMM状态。

获取模块704用于获取第二语音数据集，从所述第二语音数据集中随机选取数据生成第二测试集。

训练模块706用于检测到所述第二测试集与所述第一测试集满足相似条件，则采用所述训练得到的第一语音模型参数对所述第二语音数据集进行第二语音模型训练。

第一语音模型可为隐马尔科夫模型和混合高斯模型。第二语音模型可为隐马尔科夫模型和深度神经网络模型。

上述语音数据集训练装置，检测到从第二语音数据集中选取数据生成的第二测试集与从第一语音数据集中选取数据生成的第一测试集满足相似条件，计算机设备可以采用第一语音数据集训练得到的第一语音模型参数对第二语音数据集进行第二语音模型训练，节省了对第二语音数据集进行第一语音模型训练，节省了总的训练时长，提高了训练效率。

图8为另一个实施例中语音数据集训练装置的结构框图。如图8所示，一种语音数据集训练装置700，除了包括读取模块702、获取模块704和训练模块706，还包括生成模块708、模型构建模块710、筛选模块712和参数获取模块714。本实施例中，所述语音数据集训练装置700形成所述计算机设备的至少其中一部分，且所述模块702-714可通过所述计算机设备执行相应的操作。

生成模块708用于从所述第一语音数据集中分别选取数据生成训练集和第一测试集。

在一个实施例中，所述生成模块708还用于获取所述第一测试集中数据数量与所述第一语音数据集中数据数量的比值，从所述第二语音数据集中随机选取占所述比值的数据，生成所述第二测试集。

模型构建模块710用于对所述训练集进行第一语音模型训练得到预设数量的第一语音模型。

筛选模块712用于采用所述预设数量的第一语音模型对所述第一测试集进行测试，得到字识别错误率在预设范围内的第一语音模型。

参数获取模块714用于将所述字识别错误率在预设范围内的第一语音模型的参数作为所述第一语音模型参数。

训练模块706还用于采用字识别错误率在预设范围内的第一语音模型的参数对第一语音数据集进行第二语音模型训练。

通过计算机设备对第一语音数据集中选取数据生成训练集，计算机设备可以对训练集进行训练得到多个第一语音模型，通过第一测试集测试，计算机设备可以得到最优的第一语音模型，计算机设备可以将字识别错误率在预设范围内任意的第一语音模型的参数作为所述第一语音模型参数，或者计算机设备可以将字识别错误率在预设范围中最小的字识别错误率的第一语音模型的参数作为所述第一语音模型参数，后续作为共用的第一语音模型参数更加准确。

在一个实施例中，模型构建模块710还用于每次从所述训练集中随机选取第一预设比例的数据或第一固定数量的数据进行第一语音模型训练，重复预设数量的次数，得到预设数量的第一语音模型。

在一个实施例中，筛选模块712还用于采用预设数量的第一语音模型分别对所述第一测试集进行测试，得到各个第一语音模型的字识别错误率；以及根据各个第一语音模型的字识别错误率筛选得到字识别错误率在预设范围内的第一语音模型。

图9为另一个实施例中语音数据集训练装置的结构框图。如图9所示，一种语音数据集训练装置700，除了包括读取模块702、获取模块704、训练模块706、生成模块708、模型构建模块710、筛选模块712和参数获取模块714，还包括检测模块716。

检测模块716用于采用所述字识别错误率在预设范围内中最小的字识别错误率对应的第一语音模型对所述第二测试集进行测试，得到所述第二测试集所对应的字识别错误率；以及检测到所述第二测试集所对应的字识别错误率与所述字识别错误率在预设范围内中最小的字识别错误率之差小于或等于容错阈值，则表示所述第二测试集与所述第一测试集满足相似条件。

在一个实施例中，生成模块708还用于从所述第一语音数据集中分别选取数据生成训练集和第一测试集。

筛选模块712用于采用所述预设数量的第一语音模型分别对所述第一测试集进行测试，得到所述预设数量中的最小的字识别错误率的第一语音模型；

参数获取模块714用于将所述最小的字识别错误率的第一语音模型的参数作为所述第一语音模型参数。

检测模块716还用于采用所述预设数量中的最小的字识别错误率对应的第一语音模型对所述第二测试集进行测试，得到所述第二测试集所对应的字识别错误率；以及检测到所述第二测试集所对应的字识别错误率与所述预设数量中的最小的字识别错误率之差小于或等于容错阈值，则表示所述第二测试集与所述第一测试集满足相似条件。

上述语音数据集训练装置中各个模块的划分仅用于举例说明，在其他实施例中，可将语音数据集训练装置按照需要划分为不同的模块，以完成上述语音数据集训练装置的全部或部分功能。

本发明的实施例还提供了一种计算机设备和计算机可读存储介质。

一种计算机设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序(指令)，所述处理器执行所述程序时实现以下步骤：读取从第一语音数据集中选取数据所生成的第一测试集，以及对所述第一语音数据集进行训练得到的第一语音模型参数；获取第二语音数据集，从所述第二语音数据集中随机选取数据生成第二测试集；以及检测到所述第二测试集与所述第一测试集满足相似条件，则采用所述训练得到的第一语音模型参数对所述第二语音数据集进行第二语音模型训练。第一语音模型可为隐马尔科夫模型和混合高斯模型。第二语音模型可为隐马尔科夫模型和深度神经网络模型。

在一个实施例中，所述处理器还用于执行所述程序时实现以下步骤：从所述第一语音数据集中分别选取数据生成训练集和第一测试集；对所述训练集进行第一语音模型训练得到预设数量的第一语音模型；采用所述预设数量的第一语音模型分别对所述第一测试集进行测试，得到字识别错误率在预设范围内的第一语音模型；将所述字识别错误率在预设范围内的第一语音模型的参数作为所述第一语音模型参数。

在一个实施例中，所述处理器还用于对所述训练集进行第一语音模型训练得到预设数量的第一语音模型，包括：每次从所述训练集中随机选取第一预设比例的数据或第一固定数量的数据进行第一语音模型训练，重复预设数量的次数，得到预设数量的第一语音模型。

在一个实施例中，所述处理器还用于采用所述预设数量的第一语音模型对所述第一测试集进行测试，得到字识别错误率在预设范围内的第一语音模型，包括：采用预设数量的第一语音模型分别对所述第一测试集进行测试，得到各个第一语音模型的字识别错误率；根据各个第一语音模型的字识别错误率筛选得到字识别错误率在预设范围内的第一语音模型。

在一个实施例中，所述处理器还用于检测到所述第二测试集与所述第一测试集满足相似条件，包括：采用所述字识别错误率在预设范围内中最小的字识别错误率对应的第一语音模型对所述第二测试集进行测试，得到所述第二测试集所对应的字识别错误率；检测到所述第二测试集所对应的字识别错误率与所述字识别错误率在预设范围内中最小的字识别错误率之差小于或等于容错阈值，则表示所述第二测试集与所述第一测试集满足相似条件。

在一个实施例中，所述处理器还用于从所述第一语音数据集中分别选取数据生成训练集和第一测试集；对所述训练集进行第一语音模型训练得到预设数量的第一语音模型；采用所述预设数量的第一语音模型分别对所述第一测试集进行测试，得到所述预设数量中的最小的字识别错误率的第一语音模型；将所述最小的字识别错误率的第一语音模型的参数作为所述第一语音模型参数。

在一个实施例中，所述处理器还用于采用所述预设数量中的最小的字识别错误率对应的第一语音模型对所述第二测试集进行测试，得到所述第二测试集所对应的字识别错误率；检测到所述第二测试集所对应的字识别错误率与所述预设数量中的最小的字识别错误率之差小于或等于容错阈值，则表示所述第二测试集与所述第一测试集满足相似条件。

在一个实施例中，所述处理器还用于从所述第二语音数据集中随机选取数据生成第二测试集，包括：获取所述第一测试集中数据数量与所述第一语音数据集中数据数量的比值，从所述第二语音数据集中随机选取占所述比值的数据，生成所述第二测试集。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现以下步骤：读取从第一语音数据集中选取数据所生成的第一测试集，以及对所述第一语音数据集进行训练得到的第一语音模型参数；获取第二语音数据集，从所述第二语音数据集中随机选取数据生成第二测试集；以及检测到所述第二测试集与所述第一测试集满足相似条件，则采用所述训练得到的第一语音模型参数对所述第二语音数据集进行第二语音模型训练。第一语音模型可为隐马尔科夫模型和混合高斯模型。第二语音模型可为隐马尔科夫模型和深度神经网络模型。

在一个实施例中，所述处理器还用于执行所述程序时实现以下步骤：从所述第一语音数据集中分别选取数据生成训练集和第一测试集；对所述训练集进行第一语音模型训练得到预设数量的第一语音模型；采用所述预设数量的第一语音模型分别对所述第一测试集进行测试，得到最优的第一语音模型；将所述最优的第一语音模型的参数作为所述第一语音模型参数。

在一个实施例中，所述处理器还用于采用所述预设数量的第一语音模型对所述第一测试集进行测试，得到最优的第一语音模型，包括：采用预设数量的第一语音模型分别对所述第一测试集进行测试，得到各个第一语音模型的字识别错误率；根据各个第一语音模型的字识别错误率筛选得到字识别错误率在预设范围内的第一语音模型。

在一个实施例中，计算机可读介质是指非易失性存储介质，可以排除能量、电磁波等介质。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

一种语音数据集训练方法，执行于计算机设备，所述方法包括：

读取从第一语音数据集中选取数据所生成的第一测试集，以及获取对所述第一语音数据集进行训练得到的第一语音模型参数；

获取第二语音数据集，从所述第二语音数据集中随机选取数据生成第二测试集；

当检测到所述第二测试集与所述第一测试集满足相似条件时，则采用所述训练得到的第一语音模型参数对所述第二语音数据集进行第二语音模型训练。
根据权利要求1所述的方法，其特征在于，所述获取对所述第一语音数据集进行训练得到的第一语音模型参数的步骤包括：

从所述第一语音数据集中分别选取数据生成训练集和第一测试集；

对所述训练集进行第一语音模型训练，得到预设数量的第一语音模型；

采用所述预设数量的第一语音模型分别对所述第一测试集进行测试，得到字识别错误率在预设范围内的至少一个第一语音模型；

将所述字识别错误率在预设范围内的至少一个第一语音模型的参数作为所述第一语音模型参数。
根据权利要求2所述的方法，其特征在于，对所述训练集进行第一语音模型训练得到预设数量的第一语音模型，包括：

每次从所述训练集中随机选取第一预设比例的数据或第一固定数量的数据进行第一语音模型训练，并重复训练，得到预设数量的第一语音模型。
根据权利要求2或3所述的方法，其特征在于，所述采用所述预设数量的第一语音模型对所述第一测试集进行测试，得到字识别错误率在预设范围内的至少一个第一语音模型，包括：

采用预设数量的第一语音模型分别对所述第一测试集进行测试，得到各个第一语音模型的字识别错误率；

根据各个第一语音模型的字识别错误率筛选得到字识别错误率在预设范围内的至少一个第一语音模型。
根据权利要求2所述的方法，其特征在于，所述采用所述训练得到的第一语音模型参数对所述第二语音数据集进行第二语音模型训练，包括：

采用所述字识别错误率在预设范围内中最小字识别错误率的第一语音模型的参数，对所述第二语音数据集进行第二语音模型训练。
根据权利要求5所述的方法，其特征在于，所述检测到所述第二测试集与所述第一测试集满足相似条件，包括：

采用所述字识别错误率在预设范围内中最小字识别错误率对应的第一语音模型，对所述第二测试集进行测试，得到所述第二测试集所对应的字识别错误率；

当检测到所述第二测试集所对应的字识别错误率与预设范围内中最小字识别错误率之差小于或等于容错阈值时，则表示所述第二测试集与所述第一测试集满足相似条件。
根据权利要求1至3中任一项所述的方法，其特征在于，从所述第二语音数据集中随机选取数据生成第二测试集，包括：

获取所述第一测试集中数据数量与所述第一语音数据集中数据数量的比值，从所述第二语音数据集中选取占所述比值的随机数据，生成所述第二测试集。
根据权利要求1所述的方法，其特征在于，还包括：

从所述第一语音数据集中分别选取数据生成训练集和第一测试集；

对所述训练集进行第一语音模型训练得到预设数量的第一语音模型；

采用所述预设数量的第一语音模型分别对所述第一测试集进行测试，得到所述预设数量中的最小字识别错误率的第一语音模型；

将所述最小的字识别错误率的第一语音模型的参数作为更新后的所述第一语音模型参数。
根据权利要求8所述的方法，其特征在于，所述检测到所述第二测试集与所述第一测试集满足相似条件，包括：

采用所述预设数量中的最小字识别错误率对应的第一语音模型对所述第二测试集进行测试，得到所述第二测试集所对应的字识别错误率；

当检测到所述第二测试集所对应的字识别错误率与所述预设数量中的最小字识别错误率之差小于或等于容错阈值时，则表示所述第二测试集与所述第一测试集满足相似条件。
根据权利要求1所述的方法，其特征在于，还包括：

获取语音数据，对所述语音数据进行分段，提取每段语音的特征；

列出每段语音对应的文字；

将所述文字根据发音词典转换为音素；

根据隐马尔科夫模型将所述音素转换为隐马尔科夫模型状态；

根据隐马尔科夫模型和混合高斯模型的参数得到每条文字对应的概率；

通过概率的比较得出隐马尔科夫模型状态序列；

根据所述隐马尔科夫模型状态序列得到每个隐马尔科夫模型状态的起止时间。
一种计算机设备，包括存储器和处理器，所述存储器中储存有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行以下步骤：

读取从第一语音数据集中选取数据所生成的第一测试集，以及获取对所述第一语音数据集进行训练得到的第一语音模型参数；

获取第二语音数据集，从所述第二语音数据集中随机选取数据生成第二测试集；

当检测到所述第二测试集与所述第一测试集满足相似条件时，则采用所述训练得到的第一语音模型参数对所述第二语音数据集进行第二语音模型训练。
根据权利要求11所述的计算机设备，其特征在于，所述计算机可读指令被所述处理器执行时，使得所述处理器还执行以下步骤：

从所述第一语音数据集中分别选取数据生成训练集和第一测试集；

对所述训练集进行第一语音模型训练得到预设数量的第一语音模型；

采用所述预设数量的第一语音模型分别对所述第一测试集进行测试，得到字识别错误率在预设范围内的至少一个第一语音模型；

将所述字识别错误率在预设范围内的至少一个第一语音模型的参数作为所述第一语音模型参数。
根据权利要求12所述的计算机设备，其特征在于，所述计算机可读指令被所述处理器执行时，使得所述处理器在执行对所述训练集进行第一语音模型训练得到预设数量的第一语音模型的步骤时，还执行以下步骤：

每次从所述训练集中随机选取第一预设比例的数据或第一固定数量的数据进行第一语音模型训练，并重复训练，得到预设数量的第一语音模型。
根据权利要求12所述的计算机设备，其特征在于，所述计算机可读指令被所述处理器执行时，使得所述处理器在执行所述采用所述预设数量的第一语音模型对所述第一测试集进行测试，得到字识别错误率在预设范围内的至少一个第一语音模型的步骤时，还执行以下步骤：

采用预设数量的第一语音模型分别对所述第一测试集进行测试，得到各个第一语音模型的字识别错误率；根据各个第一语音模型的字识别错误率筛选得到字识别错误率在预设范围内的至少一个第一语音模型。
根据权利要求14所述的计算机设备，其特征在于，所述计算机可读指令被所述处理器执行时，使得所述处理器在执行采用所述训练得到的第一语音模型参数对所述第二语音数据集进行第二语音模型训练，还执行以下步骤：

采用所述字识别错误率在预设范围内中最小的字识别错误率的第一语音模型的参数对所述第二语音数据集进行第二语音模型训练。
根据权利要求15所述的计算机设备，其特征在于，所述计算机可读指令被所述处理器执行时，使得所述处理器在执行所述检测到所述第二测试集与所述第一测试集满足相似条件的步骤时，还执行以下步骤：

采用所述字识别错误率在预设范围内中最小字识别错误率对应的第一语音模型对所述第二测试集进行测试，得到所述第二测试集所对应的字识别错误率；当检测到所述第二测试集所对应的字识别错误率与预设范围内中最小的字识别错误率之差小于或等于容错阈值时，则表示所述第二测试集与所述第一测试集满足相似条件。
根据权利要求12所述的计算机设备，其特征在于，所述计算机可读指令被所述处理器执行时，使得所述处理器在执行从所述第二语音数据集中随机选取数据生成第二测试集的步骤时，还执行以下步骤：

获取所述第一测试集中数据数量与所述第一语音数据集中数据数量的比值，从所述第二语音数据集中选取占所述比值的随机数据，生成所述第二测试集。
根据权利要求12所述的计算机设备，其特征在于，所述计算机可读指令被所述处理器执行时，使得所述处理器还执行以下步骤：

从所述第一语音数据集中分别选取数据生成训练集和第一测试集；对所述训练集进行第一语音模型训练得到预设数量的第一语音模型；采用所述预设数量的第一语音模型分别对所述第一测试集进行测试，得到所述预设数量中的最小字识别错误率的第一语音模型；将所述最小字识别错误率的第一语音模型的参数作为更新后的所述第一语音模型参数。
根据权利要求18所述的计算机设备，其特征在于，所述计算机可读指令被所述处理器执行时，使得所述处理器在执行所述检测到所述第二测试集与所述第一测试集满足相似条件的步骤时，还执行以下步骤：

采用所述预设数量中的最小字识别错误率对应的第一语音模型对所述第二测试集进行测试，得到所述第二测试集所对应的字识别错误率；当检测到所述第二测试集所对应的字识别错误率与所述预设数量中的最小字识别错误率之差小于或等于容错阈值时，则表示所述第二测试集与所述第一测试集满足相似条件。
根据权利要求11所述的计算机设备，其特征在于，所述计算机可读指令被所述处理器执行时，使得所述处理器还执行以下步骤：

获取语音数据，对所述语音数据进行分段，提取每段语音的特征；列出每段语音对应的文字；将所述文字根据发音词典转换为音素；根据隐马尔科夫模型将所述音素转换为隐马尔科夫模型状态；根据隐马尔科夫模型和混合高斯模型的参数得到每条文字对应的概率；通过概率的比较得出隐马尔科夫模型状态序列；根据隐马尔科夫模型状态序列得到每个隐马尔科夫模型状态的起止时间。
一种非易失性的计算机可读存储介质，存储有计算机可读指令，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行以下步骤：

读取从第一语音数据集中选取数据所生成的第一测试集，以及获取对所述第一语音数据集进行训练得到的第一语音模型参数；获取第二语音数据集，从所述第二语音数据集中随机选取数据生成第二测试集；当检测到所述第二测试集与所述第一测试集满足相似条件时，则采用所述训练得到的第一语音模型参数对所述第二语音数据集进行第二语音模型训练。