WO2020211350A1

WO2020211350A1 - 语音语料训练方法、装置、计算机设备和存储介质

Info

Publication number: WO2020211350A1
Application number: PCT/CN2019/117718
Authority: WO
Inventors: 杨承勇; 肖玉宾; 敬大彦
Original assignee: 平安科技（深圳）有限公司
Priority date: 2019-04-19
Filing date: 2019-11-12
Publication date: 2020-10-22
Also published as: CN110223674A; CN110223674B

Abstract

本申请提供了语音语料训练方法、装置、计算机设备和存储介质。确定若干通用字词及若干发音地域；确定若干第一阈值，不同第一阈值对应的通用字词和/或发音地域不同，确定各通用字词对应的第二阈值；确定语音语料库，其中的各语音语料均对应有一发音地域；按需向语音语料库中补充语音语料，以使：对于语音语料库中对应于一发音地域的全部语音语料，一通用字词的发音在其中的出现次数不小于该通用字词和该发音地域对应的第一阈值，以及，对于语音语料库中全部语音语料，一通用字词的发音在其中的出现次数不小于该通用字词对应的第二阈值；根据语音语料库训练声学模型。如此，可提高语音与文本间的转化准确度。

Description

语音语料训练方法、装置、计算机设备和存储介质

本申请要求与2019年4月19日提交中国专利局、申请号为201910320221X、申请名称为“语音语料训练方法、装置、计算机设备和存储介质”的中国专利申请的优先权，其全部内容通过引用结合在申请中。

技术领域

本申请涉及计算机技术领域，特别是涉及语音语料训练方法、装置、计算机设备和存储介质。

背景技术

声学模型是语音识别系统中最为重要的部分之一，通过声学模型，可以将语音转化为文本。目前，可以大规模收集语音语料以用于训练声学模型。这一过程中，并没有对语音语料中字词出现的频率进行统计。发明人发现通常情况下，字词出现的频率越高，基于训练出的声学模型，语音与文本间的转化准确度越高。如此，现有实现方式的转化准确度通常较低。

发明内容

基于此，有必要针对转化准确度通常较低的问题，提供一种语音语料训练方法、装置、计算机设备和存储介质。依据本申请一个方面，提供一种语音语料训练方法，包括：确定预先收集好的至少一个通用字词，以及确定预先收集好的至少一个发音地域；根据预设的阈值确定方式，确定至少一个第一阈值，每一个所述第一阈值均对应有一所述通用字词和一所述发音地域，其中，所述阈值确定方式为，根据一通用字词在一发音地域的发音与该通用字词的普通话标准发音的接近程度，来确定对应于该通用字词和该发音地域的第一阈值；根据预先确定的通用字词使用频率，确定每一个所述通用字词对应的第二阈值；确定预先设置好的、包括有至少一个语音语料的语音语料库，其中，任一所述语音语料均对应有一所述发音地域，任一所述语音语料的发音均为所对应发音地域的发音；将每一个所述第一阈值分别作为当前第一阈值，并执行：对于所述当前第一阈值对应的第一通用字词和第一发音地域，所述第一通用字词的发音在全部第一语音语料中的出现次数小于所述当前第一阈值时，向所述语音语料库中补充语音语料，其中，所述第一语音语料为所述语音语料库中的对应有所述第一发音地域的语音语料；针对每一个所述第一阈值均执行完成时，将每一个所述第二阈值分别作为当前第二阈值，并执行：对于所述当前第二阈值对应的第二通用字词，所述第二通用字词的发音在所述语音语料库的全部语音语料中的出现次数，小于所述当前第二阈值时，向所述语音语料库中补充语音语料；针对每一个所述第二阈值均执行完成时，根据所述语音语料库，训练所述至少一个通用字词的声学模型。

依据本申请另一方面，提供一种语音语料训练装置，包括：

第一确定单元，用于确定预先收集好的至少一个通用字词，以及确定预先收集好的至少一个发音地域；

第二确定单元，用于根据预设的阈值确定方式，确定至少一个第一阈值，每一个所述第一阈值均对应有一所述通用字词和一所述发音地域，其中，所述阈值确定方式为，根据一通用字词在一发音地域的发音与该通用字词的普通话标准发音的接近程度，来确定对应于该通用字词和该发音地域的第一阈值；根据预先确定的通用字词使用频率，确定每一个所述通用字词对应的第二阈值；

第三确定单元，用于确定预先设置好的、包括有至少一个语音语料的语音语料库，其中，任一所述语音语料均对应有一所述发音地域，任一所述语音语料的发音均为所对应发音地域的发音；

处理单元，用于将每一个所述第一阈值分别作为当前第一阈值，并执行：对于所述当前第一阈值对应的第一通用字词和第一发音地域，所述第一通用字词的发音在全部第一语音语料中的出现次数小于所述当前第一阈值时，向所述语音语料库中补充语音语料，其中，所述第一语音语料为所述语音语料库中的对应有所述第一发音地域的语音语料；针对每一个所述第一阈值均执行完成时，将每一个所述第二阈值分别作为当前第二阈值，并执行：对于所述当前第二阈值对应的第二通用字词，所述第二通用字词的发音在所述语音语料库的全部语音语料中的出现次数，小于所述当前第二阈值时，向所述语音语料库中补充语音语料；

训练单元，用于针对每一个所述第二阈值均执行完成时，根据所述语音语料库，训练所述至少一个通用字词的声学模型。

依据本申请又一方面，提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行上述任一所述语音语料训练方法的步骤。

依据本申请再一方面，提供一种存储有计算机可读指令的非易失性可读存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述任一所述语音语料训练方法的步骤。

附图说明

图1为一个实施例中提供的语音语料训练方法的流程图；

图2为另一个实施例中提供的语音语料训练方法的流程图；

图3为一个实施例中提供的语音语料训练装置的示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。可以理解，本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件，但这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。请参考图1，本申请实施例提供了一种语音语料训练方法，可以包括如下步骤：

步骤101：确定预先收集好的至少一个通用字词，以及确定预先收集好的至少一个发音地域。

步骤102：根据预设的阈值确定方式，确定至少一个第一阈值，每一个所述第一阈值均对应有一所述通用字词和一所述发音地域，其中，所述阈值确定方式为，根据一通用字词在一发音地域的发音与该通用字词的普通话标准发音的接近程度，来确定对应于该通用字词和该发音地域的第一阈值。

步骤103：根据预先确定的通用字词使用频率，确定每一个所述通用字词对应的第二阈值。

步骤104：确定预先设置好的、包括有至少一个语音语料的语音语料库，其中，任一所述语音语料均对应有一所述发音地域，任一所述语音语料的发音均为所对应发音地域的发音。

步骤105：将每一个所述第一阈值分别作为当前第一阈值，并执行：对于所述当前第一阈值对应的第一通用字词和第一发音地域，所述第一通用字词的发音在全部第一语音语料中的出现次数小于所述当前第一阈值时，向所述语音语料库中补充语音语料，其中，所述第一语音语料为所述语音语料库中的对应有所述第一发音地域的语音语料。

步骤106：针对每一个所述第一阈值均执行完成时，将每一个所述第二阈值分别作为当前第二阈值，并执行：对于所述当前第二阈值对应的第二通用字词，所述第二通用字词的发音在所述语音语料库的全部语音语料中的出现次数，小于所述当前第二阈值时，向所述语音语料库中补充语音语料。

步骤107：针对每一个所述第二阈值均执行完成时，根据所述语音语料库，训练所述至少一个通用字词的声学模型。

本申请实施例提供了语音语料训练方法，该方法包括：确定若干通用字词及若干发音地域；确定若干第一阈值，不同第一阈值对应的通用字词和/或发音地域不同，确定各通用字词对应的第二阈值；确定语音语料库，其中的各语音语料均对应有一发音地域；按需向语音语料库中补充语音语料，以使：对于语音语料库中对应于一发音地域的全部语音语料，一通用字词的发音在其中的出现次数不小于该通用字词和该发音地域对应的第一阈值，以及，对于语音语料库中全部语音语料，一通用字词的发音在其中的出现次数不小于该通用字词对应的第二阈值；根据语音语料库训练声学模型。如此，可提高语音与文本间的转化准确度。为保证语音与文本间的转化准确度，语音语料库中所包括语音语料的数量和类别应足够丰富。

对应于上述步骤101：比如，基于训练好的声学模型，为了能够将“我是中国人”这一四川语音转换为相应文本，用于训练声学模型的语音语料库中，就应包括一些四川口音的语音语料，且这些语音语料中应具有“我”、“是”、“中国人”这样的字词发音。所以，首先要收集比如“我”、“是”、“中国人”这样的通用字词，以及要确定比如“四川”这样的发音地域。举例1：假设预先收集好的至少一个通用字词有3个，分别为我、是、中国人；预先收集好的至少一个发音地域有2个，分别为北京和四川。

对应于上述步骤102：详细地，与普通话标准发音相比，不同地域针对不同字词的发音差异程度可大可小。如此，可根据一通用字词在一发音地域的发音与该通用字词的普通话标准发音的接近程度，来确定对应于该通用字词和该发音地域的第一阈值。一方面，以“我”和“中国人”这两个字词为例，用四川口音说“我”可以有较多种说法，而用四川口音说“中国人”可以有较少种说法，如此，对应于“我”这一字词和“四川”这一发音地域的第一阈值，通常大于对应于“中国人”这一字词和“四川”这一发音地域的第一阈值。即语音语料库中，应多包括用四川口音说“我”的语音，而相对少包括用四川口音说“中国人”的语音。

另一方面，以“四川”和“北京”这两个发音地域为例，用四川口音说“我”可以有较多种说法，而用北京口音说“我”通常有较少种说法，如此，对应于“我”这一字词和“四川”这一发音地域的第一阈值，通常大于对应于“我”这一字词和“北京”这一发音地域的第一阈值。即语音语料库中，应多包括用四川口音说“我”的语音，而相对少包括用北京口音说“我”的语音。如此，基于上述举例1，可以确定出6个第一阈值，即分别为：对应于“我”和“四川”的第一阈值Q1、对应于“是”和“四川”的第一阈值Q2、对应于“中国人”和“四川”的第一阈值Q3、对应于“我”和“北京”的第一阈值Q4、对应于“是”和“北京”的第一阈值Q5、对应于“中国人”和“北京”的第一阈值Q6。

对应于上述步骤103：详细地，不同字词的使用频率不同。如此，可根据预先确定的通用字词使用频率，确定每一个所述通用字词对应的第二阈值。比如，说话时用到“我”这一字词的概率通常大于用到“中国人”这一字词的频率，如此，我”这一字词对应的第二阈值通常大于“中国人”这一字词对应的第二阈值。即语音语料库中，应多包括说到“我”这一字词的语音，而相对少包括说到“中国人”这一字词的语音。如此，基于上述举例1，可以确定出3个第二阈值，即分别为：对应于“我”的第二阈值P1、对应于“是”的第二阈值P2、对应于“中国人”的第二阈值P3。

对应于上述步骤104：为训练声学模型，需要具备一符合上述各个第一阈值和第二阈值的语音语料库。通常情况下，需要预先设置一语音语料库，该语音语料库中包括有若干语音语料。这里的语音语料可以为日常对话的录音片段、阅读特定文章的录音片段等。如此，通常情况下，同一语音语料的发音一致，故可以认为每一个语音语料均对应有一发音地域，各语音语料的发音均为所对应发音地域的发音。基于上述各个第一阈值和第二阈值的限定，目前已有的语音语料库通常是不完全符合这些限定的，如此，需要基于这些限定做相应语音语料的补充，以丰富语音语料库，当然，补充后的语音语料库应满足这些限定。对于这一补充操作，通常可以分为两大步，第一步先针对各个第一阈值进行补充，第一步执行完成后，第二步再针对各个第二阈值进行补充。

对应于上述步骤105：第一步，针对各个第一阈值进行按需补充。第一步中，基于上述举例1，可依次将上述Q1～Q6做为当前第一阈值进行分析。以分析Q1为例，由于Q1对应于“我”和“四川”，如此，可找出语音语料库中的全部第一语音语料，此时的第一语音语料即为语音语料库中的四川地域发音的语音语料。然后，可判断“我”的发音在这些四川地域发音的语音语料中的出现次数。如果该次数小于Q1则需补充，否则无需补充。假设，此时的语音语料库中共有下述4条语音语料：

语音语料1：以四川口音发音的“我爱我的祖国”；语音语料2：以北京口音发音的“我爱我的祖国”；语音语料3：以四川口音发音的“我爱我家”；语音语料4：以北京口音发音的“我爱我家”。

如此，可知语音语料库中共有两个四川地域发音的语音语料，即上述语音语料1和语音语料3即为此时的全部第一语音语料。其中，“我”的发音在全部第一语音语料中的出现次数即为4次。基于同样的实现原理，再依次分析Q2～Q6，并按需进行语音语料补充，以使补充后的语音语料库可以满足各个第一阈值。第一步完成后，执行第二步，即针对各个第二阈值进行按需补充。

对应于上述步骤106：第二步中，依次分析P1～P3。以分析P1为例，由于P1对应于“我”，如此，对于语音语料库中的全部语音语料，可判断“我”的发音在这些语音语料中的出现次数。如果该次数小于P1则需补充，否则无需补充。比如，此时的语音语料库中共有下述6条语音语料：上述语音语料1～语音语料4，以及下述语音语料5和语音语料6。

语音语料5：以四川口音发音的“您请坐”；语音语料6：以四川口音发音的“您请喝茶”。

如此，对于语音语料库中的全部语音语料，即上述语音语料1～6，“我”的发音在其中的出现次数为8。基于同样的实现原理，再依次分析P2、P3，并按需进行语音语料补充，以使补充后的语音语料库可以满足各个第二阈值。

对应于上述步骤107：在针对各个第一阈值和各个第二阈值均完成执行时，即可认为最新语音语料库中所包括语音语料的数量和类别是足够丰富的，是能够保证语音与文本间的转化准确度的。如此，即可根据最新的语音语料库，训练针对预设通用字词的声学模型。本申请实施例中，考虑到不同发音地域口音辨识度和口音多样化的不同，以及不同通用字词使用频率的不同，可以设置上述第一阈值和第二阈值，且不同第一阈值对应的通用字词和/或发音地域不同。

在本申请一个实施例中，所述根据预设的阈值确定方式，确定至少一个第一阈值，包括：设置第一标准值；确定至少一个权重，其中，每一个所述权重均对应有一所述通用字词和一所述发音地域，所述权重的取值范围为(0，1]，对于对应有目标通用字词和目标发音地域的目标权重，所述目标通用字词在所述目标发音地域的发音越接近所述目标通用字词的普通话标准发音，所述目标权重的值越小；根据公式一计算每一个所述权重对应的第一阈值；所述公式一包括：Y _i＝k _i×X ₁；其中，Y _i为所述至少一个权重中第i个权重对应的第一阈值，k _i为所述第i个权重，X ₁为所述第一标准值。详细地，标准值可以为经验值，通常可以为待补充语音语料数量的最大值。越接近普通话标准发音，权重越小，相应补充量越小；越不接近普通话标准发音，权重越大，相应补充量越大。比如，用四川口音说“我”时与普通话标准发音相差较大，故对应于“我”和“四川”的权重可以为0.9，若第一标准值为10000，则上述Q1等于9000。再比如，用四川口音说“中国人”时与普通话标准发音相差较小，故对应于“中国人”和“四川”的权重可以为0.3，由于第一标准值为10000，则上述Q3等于3000。

可见，本申请实施例中，可以以不同发音地域口音辨识度和口音多样化的不同，来设置各个第一阈值的具体数值，以按需补充各类语音语料，以免因无用或低效语音语料的补充而增加数据处理压力。本申请实施例中，考虑到不同通用字词使用频率的不同，可以设置上述第二阈值。

在本申请一个实施例中，所述根据预先确定的通用字词使用频率，确定每一个所述通用字词对应的第二阈值，包括：设置第二标准值；确定预先设置好的文本集合，所述文本集合中包括有每一个所述通用字词；统计每一个所述通用字词在所述文本集合中的出现次数；根据公式二，计算每一个所述通用字词对应的第二阈值；所述公式二包括：

其中，y _j为所述至少一个通用字词中第j个通用字词对应的第二阈值，X ₂为所述第二标准值，m为所述至少一个通用字词的个数，n _j为所述第j个通用字词在所述文本集合中的出现次数。

详细地，文本集合中的文本可以为一篇文章，一段新闻文字报道，也可以为语音识别后的一段文字等。假设文本集合中共有10000个字词，而“我”这一字词的出现次数为200次，“中国人”这一字词的出现次数为5次，如此，若第二标准值为50000，上述P1等于1000，上述P3等于25。可见，本申请实施例中，可以以不同字词使用频率的不同，来设置各个第二阈值的具体数值，以按需补充各类语音语料，以免因无用或低效语音语料的补充而增加数据处理压力。

在本申请一个实施例中，所述至少一个通用字词包括：通用字典中的部分或全部通用字，和/或，通用词典中的部分或全部通用词。详细地，基于通用字典和通用词典以收集通用字词，可以保证所收集通用字词的实用性，进而保证所训练出的声学模型的实用性。

在本申请一个实施例中，每一个所述通用字词和每一个所述语音语料均涉及预设技术领域，以使所述声学模型为针对所述预设技术领域的声学模型。举例来说，这一特定领域可以为医药领域、游戏竞技领域等。本申请实施例中，可以针对特定领域，有针对性的收集通用字词，从而可以训练出有针对性的声学模型。与适用于普通领域或称大众领域的声学模型相比，进行特定领域的语音与文本间转化时，基于针对该特定领域的声学模型所得的转化准确度更优。在上述步骤105中，首先针对各个第一阈值进行判断，即判断对于语音语料库中对应有第一发音地域的全部语音语料，第一通用字词的发音在其中的出现次数，是否小于对应于第一通用字词和第一发音地域的第一阈值，若判断结果为是，则需向语音语料库中补充语音语料。反之则说明：利用现有语音语库训练声学模型时，基于训练出的声学模型，若语音与文本间的转化涉及到具有第一发音地域发音的第一通用字词，相应的转化准确度通常较高。如此，无需向语音语料库中补充语音语料。通过这一补充操作，基于根据补充后语音语料库所训练出的声学模型，对于具有不同发音地域发音的同一通用字词，均可实现语音与文本间的准确转化。

详细地，对于补充内容：通常情况下，补充语音语料时，所补充的语音语料均为，包含第一通用字词且对应有第一发音地域的语音语料。即当前仅补充，包括具有第一发音地域发音的第一通用字词的语音语料，而不补充，包括具有其他发音地域发音的其他通用字词的语音语料。由于补充的语音语料，是基于补充内容的有针对性的补充，故可以使基于补充后的语音语料库，再次进行该第一阈值的判断时，判断结果不仅可以为否，而且可以尽可能最小化后续操作的计算量。

详细地，对于补充数量：本申请实施例中，除了上述基于补充内容的有针对性的补充，对于补充数量来说，在能够保证：基于补充后的语音语料库，使得再次进行该第一阈值的判断时，判断结果为否的这一前提下，补充数量上应尽可能小。如此，可以尽可能最小化后续其他判断操作的计算量。即补充数量为保证下述条件成立的最小数量，该条件为：对于语音语料库中对应有第一发音地域的全部语音语料，第一通用字词在其中的出现次数，不小于对应于第一通用字词和第一发音地域的第一阈值。

在上述步骤106中，之后针对各个第二阈值进行判断，即判断对于语音语料库中的全部语音语料，第二通用字词在其中的出现次数，是否小于第二通用字词对应的第二阈值时，若判断结果为是，则需向语音语料库中补充语音语料。反之则说明：利用现有语音语库训练声学模型时，基于训练出的声学模型，若语音与文本间的转化涉及到第二通用字词，相应的转化准确度通常较高。如此，无需向语音语料库中补充语音语料。通过这一补充操作，基于根据补充后语音语料库所训练出的声学模型，对于不同通用字词，均可实现语音与文本间的准确转化。

详细地，对于补充内容：在本申请一个实施例中，所补充的语音语料中，对应不同发音地域的各类语音语料的个数比值，在预设的个数比值范围内。比如，四川话的口音较东北话的口音更重，则所补充的对应于四川的语音语料的个数，优选大于所补充的对应于东北的语音语料的个数。如此，基于语音语料库所训练出的声学模型，可以在发音地域方面的转化效果更佳。

详细地，对于补充数量：本申请实施例中，除了上述基于补充内容的有针对性的补充，对于补充数量来说，在能够保证：基于补充后的语音语料库，使得再次进行该第二阈值的判断时，判断结果为否的这一前提下，补充数量上应尽可能小。如此，可以尽可能最小化后续其他判断操作的计算量。即补充数量为保证下述条件成立的最小数量，该条件为：对于语音语料库中的全部语音语料，第二通用字词在其中的出现次数不小于第二通用字词对应的第二阈值。

在本申请一个实施例中，所述根据所述语音语料库，训练所述至少一个通用字词的声学模型，包括：确定初始声学模型；获得至少两个子语音语料库，所述语音语料库包括任一所述子语音语料库中的任一语音语料；针对每一个所述子语音语料库均执行：基于当前子语音语料库来优化所述初始声学模型，以得到优化声学模型；融合得到的所有优化声学模型，以得到符合预设收敛条件的目标声学模型；确定所述目标声学模型为所述至少一个通用字词的声学模型。

请参考图2，本申请实施例提供了另一种语音语料训练方法，可以包括如下步骤：

步骤201：收集至少一个通用字词，确定至少一个发音地域。详细地，该至少一个通用字词包括：通用字典中的部分或全部通用字，和/或，通用词典中的部分或全部通用词。

步骤202：设置第一标准值和第二标准值。

步骤203：确定至少一个权重，其中，每一个权重均对应有一通用字词和一发音地域，不同权重对应的通用字词和/或发音地域不同。详细地，权重的取值范围为(0，1]，对于对应有目标通用字词和目标发音地域的目标权重，目标通用字词在目标发音地域的发音越接近目标通用字词的普通话标准发音，目标权重的值越小。

步骤204：计算每一个权重对应的第一阈值。详细地，每一个第一阈值均对应有一通用字词和一发音地域，不同第一阈值对应的通用字词和/或发音地域不同。详细地，可以根据公式一计算各个第一阈值。

步骤205：确定文本集合，文本集合中包括有每一个通用字词。

步骤206：统计每一个通用字词在文本集合中的出现次数。

步骤207：计算每一个通用字词对应的第二阈值。详细地，可以根据公式二计算各个第二阈值。

步骤208：确定包括有至少一个语音语料的语音语料库，每一个语音语料均对应有一发音地域。

步骤209：将每一个第一阈值分别作为当前第一阈值，并执行：对于当前第一阈值对应的第一通用字词和第一发音地域，第一通用字词的发音在全部第一语音语料中的出现次数小于当前第一阈值时，向语音语料库中补充语音语料，其中，第一语音语料为语音语料库中的对应有第一发音地域的语音语料。

步骤210：针对每一个第一阈值均执行完成时，将每一个第二阈值分别作为当前第二阈值，并执行：对于当前第二阈值对应的第二通用字词，第二通用字词的发音在语音语料库的全部语音语料中的出现次数，小于当前第二阈值时，向语音语料库中补充语音语料。

步骤211：针对每一个通用字词均完成执行时，确定初始声学模型，并获得至少两个子语音语料库，语音语料库包括任一子语音语料库中的任一语音语料。任意两个子语音语料库中语音语料的总个数相等，且该总个数在预设数值范围内。

步骤212：针对每一个子语音语料库均执行：基于当前子语音语料库来优化初始声学模型，以得到优化声学模型。

步骤213：融合得到的所有优化声学模型，以得到符合预设收敛条件的目标声学模型。

步骤214：确定目标声学模型为至少一个通用字词的声学模型。请参考图3，本申请实施例提供了一种语音语料训练装置，可以包括：第一确定单元301，用于确定预先收集好的至少一个通用字词，以及确定预先收集好的至少一个发音地域；第二确定单元302，用于根据预设的阈值确定方式，确定至少一个第一阈值，每一个所述第一阈值均对应有一所述通用字词和一所述发音地域，其中，所述阈值确定方式为，根据一通用字词在一发音地域的发音与该通用字词的普通话标准发音的接近程度，来确定对应于该通用字词和该发音地域的第一阈值；根据预先确定的通用字词使用频率，确定每一个所述通用字词对应的第二阈值；第三确定单元303，用于确定预先设置好的、包括有至少一个语音语料的语音语料库，其中，任一所述语音语料均对应有一所述发音地域，任一所述语音语料的发音均为所对应发音地域的发音；

处理单元304，用于将每一个所述第一阈值分别作为当前第一阈值，并执行：对于所述当前第一阈值对应的第一通用字词和第一发音地域，所述第一通用字词的发音在全部第一语音语料中的出现次数小于所述当前第一阈值时，向所述语音语料库中补充语音语料，其中，所述第一语音语料为所述语音语料库中的对应有所述第一发音地域的语音语料；针对每一个所述第一阈值均执行完成时，将每一个所述第二阈值分别作为当前第二阈值，并执行：对于所述当前第二阈值对应的第二通用字词，所述第二通用字词的发音在所述语音语料库的全部语音语料中的出现次数，小于所述当前第二阈值时，向所述语音语料库中补充语音语料；训练单元305，用于针对每一个所述第二阈值均执行完成时，根据所述语音语料库，训练所述至少一个通用字词的声学模型。

在本申请一个实施例中，所述第二确定单元302，用于设置第一标准值；确定至少一个权重，其中，每一个所述权重均对应有一所述通用字词和一所述发音地域，所述权重的取值范围为(0，1]，对于对应有目标通用字词和目标发音地域的目标权重，所述目标通用字词在所述目标发音地域的发音越接近所述目标通用字词的普通话标准发音，所述目标权重的值越小；根据上述公式一计算每一个所述权重对应的第一阈值。在本申请一个实施例中，所述第二确定单元302，用于设置第二标准值；确定预先设置好的文本集合，所述文本集合中包括有每一个所述通用字词；统计每一个所述通用字词在所述文本集合中的出现次数；根据上述公式二，计算每一个所述通用字词对应的第二阈值。在本申请一个实施例中，所述训练单元305，用于确定初始声学模型；获得至少两个子语音语料库，所述语音语料库包括任一所述子语音语料库中的任一语音语料；针对每一个所述子语音语料库均执行：基于当前子语音语料库来优化所述初始声学模型，以得到优化声学模型；融合得到的所有优化声学模型，以得到符合预设收敛条件的目标声学模型；确定所述目标声学模型为所述至少一个通用字词的声学模型。

上述装置内的各单元之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，具体内容可参见本申请方法实施例中的叙述，此处不再赘述。

本申请一个实施例还提供了一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行上述任一所述语音语料训练方法的步骤。本申请一个实施例还提供了一种存储有计算机可读指令的非易失性可读存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述任一所述语音语料训练方法的步骤。

综上所述，基于本申请实施例提供的语音语料训练方法、装置、计算机设备、存储介质，可以实现事前模型效果的判定，以避免反复训练模型，且具有针对短语、常用字有较好的识别效果，针对特定应用场景可以快速迁移学习，可以便捷的评估模型对于方言的适应程度等有益效果。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

一种语音语料训练方法，包括：

确定预先收集好的至少一个通用字词，以及确定预先收集好的至少一个发音地域；

根据预设的阈值确定方式，确定至少一个第一阈值，每一个所述第一阈值均对应有一所述通用字词和一所述发音地域，其中，所述阈值确定方式为，根据一通用字词在一发音地域的发音与该通用字词的普通话标准发音的接近程度，来确定对应于该通用字词和该发音地域的第一阈值；

根据预先确定的通用字词使用频率，确定每一个所述通用字词对应的第二阈值；

确定预先设置好的、包括有至少一个语音语料的语音语料库，其中，任一所述语音语料均对应有一所述发音地域，任一所述语音语料的发音均为所对应发音地域的发音；

将每一个所述第一阈值分别作为当前第一阈值，并执行：对于所述当前第一阈值对应的第一通用字词和第一发音地域，所述第一通用字词的发音在全部第一语音语料中的出现次数小于所述当前第一阈值时，向所述语音语料库中补充语音语料，其中，所述第一语音语料为所述语音语料库中的对应有所述第一发音地域的语音语料；

针对每一个所述第一阈值均执行完成时，将每一个所述第二阈值分别作为当前第二阈值，并执行：对于所述当前第二阈值对应的第二通用字词，所述第二通用字词的发音在所述语音语料库的全部语音语料中的出现次数，小于所述当前第二阈值时，向所述语音语料库中补充语音语料；

针对每一个所述第二阈值均执行完成时，根据所述语音语料库，训练所述至少一个通用字词的声学模型。
如权利要求1所述的语音语料训练方法，所述根据预设的阈值确定方式，确定至少一个第一阈值，包括：设置第一标准值；确定至少一个权重，其中，每一个所述权重均对应有一所述通用字词和一所述发音地域，所述权重的取值范围为(0，1]，对于对应有目标通用字词和目标发音地域的目标权重，所述目标通用字词在所述目标发音地域的发音越接近所述目标通用字词的普通话标准发音，所述目标权重的值越小；根据公式一计算每一个所述权重对应的第一阈值；所述公式一包括：Y _i＝k _i×X ₁；其中，Y _i为所述至少一个权重中第i个权重对应的第一阈值，k _i为所述第i个权重，X ₁为所述第一标准值。
如权利要求1所述的语音语料训练方法，所述根据预先确定的通用字词使用频率，确定每一个所述通用字词对应的第二阈值，包括：设置第二标准值；确定预先设置好的文本集合，所述文本集合中包括有每一个所述通用字词；统计每一个所述通用字词在所述文本集合中的出现次数；根据公式二，计算每一个所述通用字词对应的第二阈值；所述公式二包括：

其中，y _j为所述至少一个通用字词中第j个通用字词对应的第二阈值，X ₂为所述第二标准值，m为所述至少一个通用字词的个数，n _j为所述第j个通用字词在所述文本集合中的出现次数。
如权利要求1所述的语音语料训练方法，所述根据所述语音语料库，训练所述至少一个通用字词的声学模型，包括：确定初始声学模型；获得至少两个子语音语料库，所述语音语料库包括任一所述子语音语料库中的任一语音语料；针对每一个所述子语音语料库均执行：基于当前子语音语料库来优化所述初始声学模型，以得到优化声学模型；融合得到的所有优化声学模型，以得到符合预设收敛条件的目标声学模型；确定所述目标声学模型为所述至少一个通用字词的声学模型。
一种语音语料训练装置，包括：

第一确定单元，用于确定预先收集好的至少一个通用字词，以及确定预先收集好的至少一个发音地域；

第二确定单元，用于根据预设的阈值确定方式，确定至少一个第一阈值，每一个所述第一阈值均对应有一所述通用字词和一所述发音地域，其中，所述阈值确定方式为，根据一通用字词在一发音地域的发音与该通用字词的普通话标准发音的接近程度，来确定对应于该通用字词和该发音地域的第一阈值；根据预先确定的通用字词使用频率，确定每一个所述通用字词对应的第二阈值；

第三确定单元，用于确定预先设置好的、包括有至少一个语音语料的语音语料库，其中，任一所述语音语料均对应有一所述发音地域，任一所述语音语料的发音均为所对应发音地域的发音；

处理单元，用于将每一个所述第一阈值分别作为当前第一阈值，并执行：对于所述当前第一阈值对应的第一通用字词和第一发音地域，所述第一通用字词的发音在全部第一语音语料中的出现次数小于所述当前第一阈值时，向所述语音语料库中补充语音语料，其中，所述第一语音语料为所述语音语料库中的对应有所述第一发音地域的语音语料；针对每一个所述第一阈值均执行完成时，将每一个所述第二阈值分别作为当前第二阈值，并执行：对于所述当前第二阈值对应的第二通用字词，所述第二通用字词的发音在所述语音语料库的全部语音语料中的出现次数，小于所述当前第二阈值时，向所述语音语料库中补充语音语料；

训练单元，用于针对每一个所述第二阈值均执行完成时，根据所述语音语料库，训练所述至少一个通用字词的声学模型。
如权利要求5所述的语音语料训练装置，所述第二确定单元，用于设置第一标准值；确定至少一个权重，其中，每一个所述权重均对应有一所述通用字词和一所述发音地域，所述权重的取值范围为(0，1]，对于对应有目标通用字词和目标发音地域的目标权重，所述目标通用字词在所述目标发音地域的发音越接近所述目标通用字词的普通话标准发音，所述目标权重的值越小；根据公式一计算每一个所述权重对应的第一阈值；所述公式一包括：Y _i＝k _i×X ₁；其中，Y _i为所述至少一个权重中第i个权重对应的第一阈值，k _i为所述第i个权重，X ₁为所述第一标准值。
如权利要求5所述的语音语料训练装置，所述第二确定单元，用于设置第二标准值；确定预先设置好的文本集合，所述文本集合中包括有每一个所述通用字词；统计每一个所述通用字词在所述文本集合中的出现次数；根据公式二，计算每一个所述通用字词对应的第二阈值；所述公式二包括：

其中，y _j为所述至少一个通用字词中第j个通用字词对应的第二阈值，X ₂为所述第二标准值，m为所述至少一个通用字词的个数，n _j为所述第j个通用字词在所述文本集合中的出现次数。
如权利要求5所述的语音语料训练装置，

所述训练单元，用于确定初始声学模型；获得至少两个子语音语料库，所述语音语料库包括任一所述子语音语料库中的任一语音语料；针对每一个所述子语音语料库均执行：基于当前子语音语料库来优化所述初始声学模型，以得到优化声学模型；融合得到的所有优化声学模型，以得到符合预设收敛条件的目标声学模型；确定所述目标声学模型为所述至少一个通用字词的声学模型。
一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行语音语料训练方法，包括：确定预先收集好的至少一个通用字词，以及确定预先收集好的至少一个发音地域；根据预设的阈值确定方式，确定至少一个第一阈值，每一个所述第一阈值均对应有一所述通用字词和一所述发音地域，其中，所述阈值确定方式为，根据一通用字词在一发音地域的发音与该通用字词的普通话标准发音的接近程度，来确定对应于该通用字词和该发音地域的第一阈值；根据预先确定的通用字词使用频率，确定每一个所述通用字词对应的第二阈值；确定预先设置好的、包括有至少一个语音语料的语音语料库，其中，任一所述语音语料均对应有一所述发音地域，任一所述语音语料的发音均为所对应发音地域的发音；将每一个所述第一阈值分别作为当前第一阈值，并执行：对于所述当前第一阈值对应的第一通用字词和第一发音地域，所述第一通用字词的发音在全部第一语音语料中的出现次数小于所述当前第一阈值时，向所述语音语料库中补充语音语料，其中，所述第一语音语料为所述语音语料库中的对应有所述第一发音地域的语音语料；针对每一个所述第一阈值均执行完成时，将每一个所述第二阈值分别作为当前第二阈值，并执行：对于所述当前第二阈值对应的第二通用字词，所述第二通用字词的发音在所述语音语料库的全部语音语料中的出现次数，小于所述当前第二阈值时，向所述语音语料库中补充语音语料；针对每一个所述第二阈值均执行完成时，根据所述语音语料库，训练所述至少一个通用字词的声学模型。
如权利要求9所述的计算机设备，所述计算机可读指令被所述处理器执行时，使得所述处理器执行所述根据预设的阈值确定方式，确定至少一个第一阈值，包括：设置第一标准值；确定至少一个权重，其中，每一个所述权重均对应有一所述通用字词和一所述发音地域，所述权重的取值范围为(0，1]，对于对应有目标通用字词和目标发音地域的目标权重，所述目标通用字词在所述目标发音地域的发音越接近所述目标通用字词的普通话标准发音，所述目标权重的值越小；根据公式一计算每一个所述权重对应的第一阈值；所述公式一包括：Y _i＝k _i×X ₁；其中，Y _i为所述至少一个权重中第i个权重对应的第一阈值，k _i为所述第i个权重，X ₁为所述第一标准值。
如权利要求9所述的计算机设备，所述计算机可读指令被所述处理器执行时，使得所述处理器执行所述根据预先确定的通用字词使用频率，确定每一个所述通用字词对应的第二阈值，包括：设置第二标准值；确定预先设置好的文本集合，所述文本集合中包括有每一个所述通用字词；统计每一个所述通用字词在所述文本集合中的出现次数；根据公式二，计算每一个所述通用字词对应的第二阈值；所述公式二包括：
其中，y _j为所述至少一个通用字词中第j个通用字词对应的第二阈值，X ₂为所述第二标准值，m为所述至少一个通用字词的个数，n _j为所述第j个通用字词在所述文本集合中的出现次数。
如权利要求9所述的计算机设备，所述计算机可读指令被所述处理器执行时，使得所述处理器执行所述根据所述语音语料库，训练所述至少一个通用字词的声学模型，包括：确定初始声学模型；获得至少两个子语音语料库，所述语音语料库包括任一所述子语音语料库中的任一语音语料；针对每一个所述子语音语料库均执行：基于当前子语音语料库来优化所述初始声学模型，以得到优化声学模型；融合得到的所有优化声学模型，以得到符合预设收敛条件的目标声学模型；确定所述目标声学模型为所述至少一个通用字词的声学模型。
一种存储有计算机可读指令的非易失性可读存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行语音语料训练方法，包括：确定预先收集好的至少一个通用字词，以及确定预先收集好的至少一个发音地域；根据预设的阈值确定方式，确定至少一个第一阈值，每一个所述第一阈值均对应有一所述通用字词和一所述发音地域，其中，所述阈值确定方式为，根据一通用字词在一发音地域的发音与该通用字词的普通话标准发音的接近程度，来确定对应于该通用字词和该发音地域的第一阈值；根据预先确定的通用字词使用频率，确定每一个所述通用字词对应的第二阈值；确定预先设置好的、包括有至少一个语音语料的语音语料库，其中，任一所述语音语料均对应有一所述发音地域，任一所述语音语料的发音均为所对应发音地域的发音；将每一个所述第一阈值分别作为当前第一阈值，并执行：对于所述当前第一阈值对应的第一通用字词和第一发音地域，所述第一通用字词的发音在全部第一语音语料中的出现次数小于所述当前第一阈值时，向所述语音语料库中补充语音语料，其中，所述第一语音语料为所述语音语料库中的对应有所述第一发音地域的语音语料；针对每一个所述第一阈值均执行完成时，将每一个所述第二阈值分别作为当前第二阈值，并执行：对于所述当前第二阈值对应的第二通用字词，所述第二通用字词的发音在所述语音语料库的全部语音语料中的出现次数，小于所述当前第二阈值时，向所述语音语料库中补充语音语料；针对每一个所述第二阈值均执行完成时，根据所述语音语料库，训练所述至少一个通用字词的声学模型。
如权利要求13所述的存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行所述根据预设的阈值确定方式，确定至少一个第一阈值，包括：设置第一标准值；确定至少一个权重，其中，每一个所述权重均对应有一所述通用字词和一所述发音地域，所述权重的取值范围为(0，1]，对于对应有目标通用字词和目标发音地域的目标权重，所述目标通用字词在所述目标发音地域的发音越接近所述目标通用字词的普通话标准发音，所述目标权重的值越小；根据公式一计算每一个所述权重对应的第一阈值；所述公式一包括：Y _i＝k _i×X ₁；其中，Y _i为所述至少一个权重中第i个权重对应的第一阈值，k _i为所述第i个权重，X ₁为所述第一标准值。
如权利要求13所述的存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行所述根据预先确定的通用字词使用频率，确定每一个所述通用字词对应的第二阈值，包括：设置第二标准值；确定预先设置好的文本集合，所述文本集合中包括有每一个所述通用字词；统计每一个所述通用字词在所述文本集合中的出现次数；根据公式二，计算每一个所述通用字词对应的第二阈值；所述公式二包括：
其中，y _j为所述至少一个通用字词中第j个通用字词对应的第二阈值，X ₂为所述第二标准值，m为所述至少一个通用字词的个数，n _j为所述第j个通用字词在所述文本集合中的出现次数。
如权利要求13所述的存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行所述根据所述语音语料库，训练所述至少一个通用字词的声学模型，包括：确定初始声学模型；获得至少两个子语音语料库，所述语音语料库包括任一所述子语音语料库中的任一语音语料；针对每一个所述子语音语料库均执行：基于当前子语音语料库来优化所述初始声学模型，以得到优化声学模型；融合得到的所有优化声学模型，以得到符合预设收敛条件的目标声学模型；确定所述目标声学模型为所述至少一个通用字词的声学模型。