WO2020119432A1

WO2020119432A1 - 一种语音识别方法、装置、设备和存储介质

Info

Publication number: WO2020119432A1
Application number: PCT/CN2019/120558
Authority: WO
Inventors: 李涛
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2018-12-11
Filing date: 2019-11-25
Publication date: 2020-06-18
Also published as: US20210193121A1; CN110176230B; US12125473B2; CN110176230A

Abstract

本申请实施例公开了一种语音识别方法、装置、设备和存储介质。本申请实施例根据一文本片段中至少一对元素间关系的概率，调整语言识别模型中所述至少一对元素间关系的概率；将待识别语音输入预设的语音识别模型，所述语音识别模型包括所述语言识别模型；根据所述语言识别模型中各元素间关系的概率，确定所述待识别语音对应的多个元素的序列，作为语音识别结果。。该方案提高了语音识别结果中文本片段出现的概率，在保障语音识别速度的同时，提升了语音识别结果的准确性。

Description

一种语音识别方法、装置、设备和存储介质

本申请要求于2018年12月11日提交中国专利局、申请号为201811508402.7、申请名称为“一种语音识别方法、装置、设备和存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机技术，具体涉及一种语音识别方法、装置、设备和存储介质。

背景

语音识别技术能够将人类语音转换成为对应的字符或编码，在智能家居、实时语音转写等领域应用广泛。解码器根据人们说出的语音，在由声学模型、字典和语言模型等知识源组成的搜索空间中搜出最佳的词序列，将得到的词序列组合即可得到该语音对应的文本描述，也即识别结果。

目前，进行语音识别时使用的语言识别模型通常是对大语言模型剪枝得到的，在语言层为解码器提供词的搜索路径。剪枝后的语言模型数据量较小，信息较为匮乏，虽然能够适当提高语音识别速度，但是导致了准确性的降低。

技术内容

本申请实施例提供一种语音识别方法、装置、设备和存储介质，旨在提高语音识别的准确性。

本申请实施例提供一种语音识别方法，包括：

根据一文本片段中至少一对元素间关系的概率，调整语言识别模型中所述至少一对元素间关系的概率；

将待识别语音输入预设的语音识别模型，所述语音识别模型包括所述语言识别模型；

根据所述语言识别模型中各元素间关系的概率，确定所述待识别语音对应的多个元素的序列，作为语音识别结果。

一些实施例中，该方法可以包括：

加载预设的第一状态图和第二状态图，所述第一状态图为关键词语言模型的状态图，所述第二状态图为大语言模型的状态图；

在所述第一状态图中提取基准边，在所述第二状态图中查找与所述基准边标签相同的边，作为关键词边；

获取所述基准边的权重，根据基准边的权重更新所述关键词边的权重；

将所述第二状态图中关键词边更新后的权重，配置为语言识别模型中对应边的激励权重，所述语言识别模型为所述大语言模型剪枝后的语言模型；

将待识别语音输入预设语音识别模型，得到所述语音识别模型输出的词序列路径，所述语音识别模型包括所述语言识别模型；

根据所述语言识别模型中边的激励权重，在所述词序列路径中选出目标路径，得到语音识别结果。

在一些实施例中，所述在所述第一状态图中提取基准边，包括：

获取所述第一状态图的起始节点，根据预设的遍历深度和所述起始节点确定基准边。

在一些实施例中，所述根据预设的遍历深度和所述起始节点获取基准边，包括：

将所述起始节点的输出边确定为第一基准边；

在预设的递归深度内，对所述第一基准边进行递归，获取所述第一基准边的递归边；

若所述递归边的输出标签不是预设符号，则将所述递归边确定为第二基准边。

在一些实施例中，在所述第二状态图中查找与所述基准边标签相同的边，作为关键词边，包括：

在所述第二状态图中，查找与所述第一基准边标签相同的边，作为第一关键词边；

在所述第一关键词边的递归边中，查找与所述第二基准边标签相同的边，作为第二关键词边。

在一些实施例中，所述根据基准边的权重更新所述关键词边的权重，包括：

获取预设的插值参数及所述关键词边的初始权重；

根据所述基准边的权重、插值参数和关键词边的初始权重，计算得到关键词边的目标权重；

使用所述目标权重，替换所述第二状态图中所述关键词边的初始权重。

在一些实施例中，所述方法还包括：

若在所述第二状态图中未找到与所述基准边标签相同的边，则将所述基准边映射到所述第二状态图中，得到关键词边。

在一些实施例中，所述方法还包括：

在所述第二状态图中，筛选出标签与预设词表中的词相同的边，作为关键词起始边；

获取所述关键词起始边的初始权重，根据预设的比例系数和所述关键词起始边的初始权重，更新所述关键词起始边的权重；

将所述第二状态图中关键词起始边更新后的权重，配置为语言识别模型中对应边的激励权重。

在一些实施例中，所述在所述第二状态图中，筛选出标签与预设词表中的词相同的边，作为关键词起始边之前，包括：

对所述关键词进行分词处理，将分词得到的第一个词配置到预设的词表中。

在一些实施例中，所述方法还包括：

获取预设的关键词，根据所述关键词训练关键词语言模型；

构建所述关键词语言模型的加权有限状态转换器，获取所述关键词语言模型加权有限状态转换器指示的状态图为第一状态图。

在一些实施例中，所述方法还包括：

获取预设的通用语料，根据所述通用语料训练大语言模型；

构建所述大语言模型的加权有限状态转换器，获取所述大语言模型加权有限状态转换器指示的状态图为第二状态图。

在一些实施例中，所述方法还包括：

实时采集待识别语音。

本申请实施例的另一种语音识别方法可以包括：

将文本片段提供给第二计算设备；

获取所述第二计算设备提供的语言识别模型，所述语言识别模型中至少一对元素间关系的概率利用所述文本片段中所述至少一对元素间关系的概率进行了调整；

本申请实施例还提供一种语音识别装置，包括：

调整模块，用于根据文本片段中至少一对元素间关系的概率，调整语言识别模型中所述至少一对元素间关系的概率；

语音识别模块，用于将待识别语音输入预设的语音识别模型，所述语音识别模型包括所述语言识别模型；根据所述语言识别模型中各元素间关系的概率，确定所述待识别语音对应的多个元素的序列，作为语音识别结果。

一些实施例中，该语音识别装置可以包括：

加载单元，用于加载预设的第一状态图和第二状态图，所述第一状态图为关键词语言模型的状态图，所述第二状态图为大语言模型的状态图；

关键词单元，用于在所述第一状态图中提取基准边，在所述第二状态图中查找与所述基准边标签相同的边，作为关键词边；

更新单元，用于获取所述基准边的权重，根据基准边的权重更新所述关键词边的权重；

激励单元，用于将所述第二状态图中关键词边更新后的权重，配置为语言识别模型中对应边的激励权重，所述语言识别模型为所述大语言模型剪枝后的语言模型；

识别单元，用于将待识别语音输入预设语音识别模型，得到所述语音识别模型输出的词序列路径，所述语音识别模型包括所述语言识别模型；

结果单元，用于根据所述语言识别模型中边的激励权重，在所述词序列路径中选出目标路径，得到语音识别结果。

本申请实施例还提供一种语音识别设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音识别程序，所述语音识别程序被所述处理器执行时实现本申请实施例所提供的任一语音识别方法的步骤。

在一些实施例中，所述设备还包括语音采集装置，所述语音采集装置用于实时采集待识别语音。

本申请实施例还提供一种存储介质，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行本申请实施例所提供的任一语音识别方法的步骤。

本申请实施例加载预设的第一状态图和第二状态图，第一状态图为关键词语言模型的状态图，第二状态图为大语言模型的状态图；在第一状态图中提取基准边，在第二状态图中查找与基准边标签相同的边，作为关键词边；获取基准边的权重，根据基准边的权重更新关键词边的权重；将第二状态图中关键词边更新后的权重，配置为语言识别模型中对应边的激励权重，语言识别模型为大语言模型剪枝后的语言模型；将待识别语音输入预设语音识别模型，得到语音识别模型输出的词序列路径，语音识别模型包括语言识别模型；根据语言识别模型中边的激励权重，在词序列路径中选出目标路径，得到语音识别结果。由于关键词语言模型的语料远小于大语言模型的语料，因此，第一状态图中关键词的边权重大于第二状态图中同一关键词边的权重。该方案使用第一状态图关键词边的权重，增强第二状态图中同一关键词边的权重，进而激励语音识别模型中关键词边的权重，从而在语音识别时，提高语言识别模型中包含关键词的路径中边的权重，进而提高包含关键词的路径作为识别结果的概率。由此，该方案提高了语音识别结果中关键词出现的概率，在保障语音识别速度的同时，提升了语音识别结果的准确性。并且，该方案还适用于各种主题场景，可以利用各主题场景的关键词来提高语音识别结果的准确性。

附图简要说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本申请实施例的信息交互系统的场景示意图；

图1b是本申请实施例的语音识别方法的流程示意图；

图1c是本申请实施例的语音识别方法的流程示意图；

图1d是本申请实施例的语音识别方法的流程示意图；

图2是本申请实施例的另一语音识别方法的流程示意图；

图3a是本申请实施例的第一状态图示意图；

图3b是本申请实施例的第二状态图示意图；

图3c是本申请实施例的另一第二状态图示意图；

图3d是本申请实施例的语音识别方法的流程示意图；

图4a是本申请实施例的语音识别装置的结构示意图；

图4b是本申请实施例的语音识别装置的结构示意图；

图4c是本申请实施例的语音识别装置的结构示意图；

图4d是本申请实施例的另一语音识别装置的结构示意图；

图5a是本申请实施例的语音识别设备的结构示意图；

图5b是本申请实施例的语音识别设备的结构示意图。

实施本申请的方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供一种语音识别方法、装置、设备及存储介质。

本申请实施例提供一种信息交互系统，该系统包括本申请任一实施例提供的语音识别装置，以及例如服务器、终端等其它设备。该语音识别装置可以集成在服务器或终端等设备中。终端可以是移动终端或个人计算机(PC，Personl Computer)等设备。

参考图1a，本申请实施例提供一种信息交互系统，包括服务器和终端。一些实施例中，语音识别装置可以集成在该服务器中。一些实施例中，语音识别装置也可以集成在终端中。语音识别装置可以执行各实施例的语音识别方法。图1b是本申请实施例提供的语音识别方法的流程示意图。如图1b所示，该方法可以包括以下步骤。

步骤11，根据一文本片段中至少一对元素间关系的概率，调整语言识别模型中所述至少一对元素间关系的概率。

本文中，文本片段(textual segment)是指作为整体具有特定含义的一段文字。文本片段通常包括复数个语素，可以是，例如术语、词组、文本表达(textual expression)，等。步骤11中使用的文本片段是指需要在语音识别中提高识别率的一段文字，后文也称为关键词(key phrase)。

步骤12，将待识别语音输入预设的语音识别模型，所述语音识别模型包括所述语言识别模型。

步骤13，根据所述语言识别模型中各元素间关系的概率，确定所述待识别语音对应的多个元素的序列，作为语音识别结果。

由于在给定文本片段的情况下，其中各元素间关系必然与这些元素在语言识别模型所基于的基本语料库中的关系更密切，因此，使用元素间的关系的概率在给定的文本片段中的概率去调整语言识别模型中这些元素间关系的概率，可以使得在语音识别时，提高语言识别模型对该文本片段的识别率，进而提高该文本片段的语音识别率。

在步骤11中，文本片段中至少一对元素间关系的概率可以通过自然语言处理技术获得。例如，可以通过建立该文本片段的语言模型来获得该概率，此时，语音识别方法可以如图1c所示，包括以下步骤。

步骤21，利用所述文本片段对应的第一状态图中表示一对元素间关系的一条边的权重调整预设的第二状态图中与所述边对应的边的权重。

其中，所述第一状态图为所述文本片段的语言模型的状态图，所述第二状态图为基础语言模型的状态图。

其中，第一状态图即为文本片段对应的语言模型(下文简称关键语言模型，或关键词语言模型)的加权有向状态图，其中记载了各个节点和节点之间的有向连接关系，以描述关键语言模型中关键词对象的可能状态以及状态的转移路径。其中，关键词对象是指文本片段中的语言元素。节点即为关键词对象的状态，节点根据次序连接形成有向边，边连接形成关键词的转移路径，每条路径即为关键词的词序列路径，包含了关键词对象及关键词对象的输出顺序。

关键语言模型可以是根据预设文本片段构建的语言模型，例如n-gram(n元汉语言模型)。本实施例中，以n为3，关键语言模型为三阶的tri-gram(三元语言模型)为例进行说明，也即关键语言模型的中第3个词的出现只与前2个词相关，与其他任何词不相关。

第二状态图可以是预设的基础语言模型(也称为大语言模型)的有向状态图，记载了各个节点和节点的有向连接关系，以描述基础语言模型中词对象的可能状态以及状态的转移路径。基础语言模型可以为语料信息丰富且未经过剪枝的大规模语言模型。其中，节点即为词对象的状态，节点根据次序连接形成有向边，边连接形成词的转移路径，每条路径即为词的词序列路径，包含了词对象及词对象的输出顺序。第二状态图中，每条边有对应的标签和权重。其中，标签包括输入标签和输出标签，输入标签和输出标签相同，即为词对象；权重表征了边出现在转移路径中的概率，权重可以是概率值，也可以根据概率值计算得到。

由于语言模型的不同，第一状态图和第二状态图中标签相同的边权重可能不同。

一些实施例中，该调整步骤可以包括：在所述第一状态图中提取所述边作为基准边，在所述第二状态图中查找与所述基准边标签相同的边，作为目标边；获取所述基准边的权重，根据基准边的权重更新所述文本片段边的权重。该实施例的具体方法将在下面结合图1d进行说明。

一些实施例中，该调整步骤可以包括：在所述第二状态图中增加与所述边对应的边，作为目标边；根据所述边的权重设置所述目标边的权重。该实施例的具体方法将在下面结合图2进行说明。

步骤22，将修改后的所述第二状态图中至少一条边的权重，配置为所述语言识别模型中对应边的激励权重。

所述语言识别模型为所述基础语言模型剪枝后的语言模型。

步骤S23，将待识别语音输入预设语音识别模型，得到所述语音识别模型输出的词序列路径。

其中，所述语音识别模型包括所述语言识别模型。

步骤S24，根据所述语言识别模型中边的激励权重，在所述词序列路径中选出目标路径，得到语音识别结果。

关键语言模型如前文所述，步骤21中调整第二状态图中边的权重的方法可以是对第二状态图中已有的相应的边的权重进行调整，此时，语音识别方法可以如图1d所示，包括以下步骤。

101、加载预设的第一状态图和第二状态图，第一状态图为文本片段对应的语言模型的状态图，第二状态图为基础语言模型的状态图。

一些实施例中，语音识别装置可以根据文本片段训练语言模型，获取第一状态图。其中，文本片段可以是待识别语音所在领域的相关语料，具体可根据需要灵活配置。文本片段可以有一个或多个。一些实施例中，当语音识别装置设置在服务器中时，文本片段可以是用户使用终端输入或选择的需要增强的文本片段，并由终端将用户输入的文本片段发送给服务器；或者是由用户直接在服务器中输入或选择的文本片段。另一些实施例中，语音识别装置也可以从指定的(本地或远端的)存储位置获取文本片段。

一些实施例中，语音识别装置可以获取预设的文本片段，根据文本片段训练关键语言模型；构建关键语言模型的加权有限状态转换器，获取关键语言模型加权有限状态转换器指示的状态图为第一状态图。

加权有限状态转换器为Weighted Finite-State Transducers，本实施例中可简称为WFST。WFST能够识别从词的初始状态到结束状态的整条路径，词的状态可以理解为节点。而节点根据次序连接形成有向边，边有对应的标签和权重。其中，标签包括输入标签和输出标签，输入标签和输出标签相同。权重表征了边出现在整条路径中的概率，权重可以是概率值，也可以根据概率值计算得到。整条路径的概率可以根据路径中各个边的权重或概率计算得到。

语音识别装置将文本片段作为训练语料，输入tri-gram进行训练，得到关键语言模型。然后，语音识别装置构建关键语言模型的加权有限状态转换器。由此，语音识别装置可以获取关键语言模型WFST中的各个节点，及节点之间的连接关系，得到关键语言模型WFST指示的状态图，将关键语言模型WFST指示的状态图作为第一状态图。

在一些实施例中，语音识别装置可以获取预设的通用语料，根据通用语料训练基础语言模型；构建基础语言模型的加权有限状态转换器，获取基础语言模型加权有限状态转换器指示的状态图为第二状态图。其中，通用语料可以是常用的大规模语料。

语音识别装置将通用语料输入预设的语言模型，例如二阶的bi-gram(二元语言模型)，进行训练，得到基础语言模型。然后，语音识别装置构建基础语言模型的加权有限状态转换器。由此，语音识别装置可以获取基础语言模型WFST中的各个节点，及节点之间的连接关系，得到基础语言模型WFST指示的状态图，将第一词语言模型WFST指示的状态图作为第二状态图。

由于关键语言模型WFST中的文本片段数量远小于基础语言模型WFST中的语料数量，因此，相同的边在关键语言模型WFST中的权重，大于其在基础语言模型WFST中的权重，由此，相同的边在第一状态图中的权重大于其在语言识别模型中的权重。

在进行语音识别前，或是在进行语音识别的过程中，语音识别装置同时加载第一状态图和第二状态图。

102、在第一状态图中提取基准边，在第二状态图中查找与基准边标签相同的边，作为目标边。

基准边是指第一状态图中的边。一些实施例中，可以选择输出标签与预设关键词有关的边作为基准边。另一些实施例中，也可以将第一状态图中所有的边分别作为基准边，并执行后续步骤。

第一状态图中，每条边有对应的标签和权重。其中，标签包括输入标签和输出标签，输入标签和输出标签相同，即为关键词对象；权重表征了边出现在转移路径中的概率，权重可以是概率值，也可以根据概率值计算得到。以第一状态图中任意一条边为例，以10为底或以e为底，对该边的概率取对数(log)值，将计算得到的对数值作为该边的权重。

其中，若基准边包括前缀路径，则前缀路径相同，且标签相同的边即为与基准边相同的目标边。

语音识别装置首先从第一状态图中提取出基准边，例如，可以获取第一状态图的起始节点，根据预设的遍历深度和起始节点获取基准边。

在一些实施例中，步骤“获取第一状态图的起始节点，根据预设的遍历深度和起始节点获取基准边”可以包括：将起始节点的输出边确定为第一基准边；在预设的递归深度内，对第一基准边进行递归，获取第一基准边的递归边；若递归边的输出标签不是预设符号，则将递归边确定为第二基准边。

其中，起始节点可以根据需要灵活配置。例如，本实施例中，第一状态图中的第一个节点为开始节点，第二个节点为二阶状态节点，第三个节点为一阶节点，因此，可以将第一状态图的第三个节点作为其起始节点。

递归深度可根据语言模型的阶数配置。例如，语音识别装置获取关键语言模型的阶数，作为递归深度。本实施例中，以关键语言模型的阶数为三阶举例，则语音识别装置将递归深度配置为3。

语音识别模型将起始节点的输出边作为第一基准边，以在第二状态图中查找相同的边。

然后，语音识别模型根据递归深度，继续查找第一状态图中可作为基准边的边。具体地，以任一第一基准边为例，语音识别模型将在预设的递归深度内，对第一基准边进行递归，获取第一基准边的递归边；若递归边的输出标签不是预设符号，则将递归边确定为第二基准边。

其中，预设符号为预设的语句结束符号和回退符号。

例如，递归深度为3，则语音识别模型将第一基准边终点节点的输出边，以及该输出边的输出边，作为3阶内的递归边，共包含4个节点。

在得到递归边后，语音识别模型检测递归边的输出标签，是否为预设符号。若递归边的输出标签不是预设的语句结束符号或回退符号，则将该递归边确定为第二基准边，需要在第二状态图中查找与其相同的边。若递归边的输出标签是预设的语句结束符号或回退符号，则将该递归边确定为非基准边，不需要在第二状态图中查找与其相同的边。

需要说明的是，以起始节点的任一输出边为例，若该输出边的输出标签为预设的回退符号，则忽略该输出边，将其作为不需要增强权重的第一基准边，不对第二状态图中与其相同的第一目标边做权重更新。然后，语音识别装置获取该第一基准边的输出边，将该第一基准边的输出边中，输出标签不是预设符号边的作为起始节点的输出边，也即第二基准边，该第二基准边可以用来对第二状态图中与其相同的第二目标边做权重更新。

在得到基准边后，语音识别装置在第二状态图中遍历，查找与基准边相同的目标边。

例如，步骤“在第二状态图中查找与基准边标签相同的边，作为目标边”可以包括：在第二状态图中，查找与第一基准边标签相同的边，作为第一目标边；在第一目标边的递归边中，作为与第二基准边标签相同的边，得到第二目标边。

以任一第一基准边为例，语音识别装置在第二状态图中，查找与第一基准边标签相同的边。其中，标签相同可以指输出标签相同和/或输出标签相同。由于本实施例中，状态图中同一条边的输入标签和输出标签相同，因此，语音识别装置可以是查找与第一基准边的输入标签相同的边，或是查找与第一基准边的输出标签相同的边，或是查找与第一基准边输入标签相同且输出标签相同的边。

语音识别装置将与第一基准边标签相同的边，确定为与第一基准边相同的第一目标边。

然后，语音识别装置根据预设的递归深度，在该第一目标边的递归边中，查找与第二基准边标签相同的边，得到第二目标边。其中，标签相同可以指输出标签相同和/或输出标签相同。

由此，语音识别装置分别找到与各第一基准边相同的第一目标边，以及与各第二基准边相同的第二目标边。

103、获取基准边的权重，根据基准边的权重更新目标边的权重。

其中，第一状态图中记载了基准边的权重，第二状态图中记载了目标边的初始权重。

以任一基准边为例，语音识别装置可以使用基准边的权重，替换与其相同的目标边的权重，实现对目标边权重的更新。

在一些实施例中，步骤“根据基准边的权重更新目标边的权重”可以包括：获取预设的插值参数及目标边的初始权重；根据基准边的权重、插值参数和目标边的初始权重，计算得到目标边的目标权重；使用目标权重，替换第二状态图中目标边的初始权重。

其中，预设的插值参数可根据实际需要灵活配置。

语音识别装置根据第二状态图，获取与基准边相同的目标边的初始权重。然后，语音识别装置可根据如下公式，计算目标边的目标权重。

其中，w _new为目标边的目标权重，w _old为目标边的初始权重，w _k为基准边的权重，lambda为插值系数。

然后，语音识别装置使用目标边的目标权重，替换掉第二状态图中该目标边的初始权重。

若有多个基准边，则语音识别装置分别更新与各基准边相同的目标边的权重。

104、将第二状态图中目标边更新后的权重，配置为语言识别模型中对应边的激励权重，语言识别模型为基础语言模型剪枝后的语言模型。

其中，语言识别模型是对基础语言模型进行剪枝得到的语言模型。语音识别装置可以对基础语言模型进行剪枝处理，得到语言识别模型。例如，使用entropy-based(基于熵)的剪枝或是rank-based(基于秩的)剪枝，减掉大语言模型中不重要分支路径，使剪枝后的语言识别模型与剪枝前的基础语言识别模型最大相似化，从而在压缩模型数据量的同时，减低对路径概率的影响。

第二状态图中目标边的权重更新后，语音识别装置将第二状态图中目标边更新后的权重，配置为语言识别模型中对应边的激励权重，也可理解为配置为语言识别模型中相同边的激励权重。由于语言识别模型是经由对基础语言模型剪枝得到的，因此，语言识别模型中的各边均存在于基础语言模型的状态图中。语言识别模型中，边的激励权重优先级高于其初始权重。

例如，语音识别装置建立第二状态图中目标边和语言识别模型中对应边的映射关系，进而将目标边的目标权重配置为语言识别模型中对应边的激励权重。

本实施例不需要对语言识别模型中边的权重进行修改，即可使用激励权重来计算词序列路径的得分。

由于在不同的应用场景中，需要增强的文本片段可能不同，因此，可以训练不同的关键语言模型，根据得到的第一状态图来配置语言识别模型中对应边的激励权重，而不会影响到语言识别模型中的其他边。在完成语音识别后，可根据用户输入的解除指令或是切换的应用场景，来解除当前激励权重的映射关系，清除增强的文本片段权重，进而去除当前文本片段对语言识别模型的影响，以便于根据下一场景需求重新配置语言识别模型的激励权重，提高语音识别的准确性。

由此，本实施例使用映射关系配置激励权重，替代直接赋值的方式，提高了语言识别模型和语音识别模型的通用性。本方案适用性强，可以应用于多种场景，不会因为文本片段增强而影响到后续在其他场景的使用，降低了维护成本。不同的语音识别场景或模式，均能够有效提高语音识别的准确性，避免了交叉影响。

105、将待识别语音输入预设语音识别模型，得到语音识别模型输出的词序列路径，语音识别模型包括语言识别模型。

语音识别装置可以获取待识别的语音。一些实施例中，待识别的语音可以是终端采集的语音，例如，终端可以实时采集待识别语音，并可以提供给服务器。另一些实施例中，待识别的语音可以为从某个本地或远程存储设备读取的语音数据。

需要说明的是，步骤105可以同步骤101同时执行，在增强语言识别模型中文本片段权重的同时，进行语音识别，实现在线语音识别。当然，步骤105也可以在步骤104之后执行，使用文本片段权重已被增强的语言识别模型，进行词路径的筛选，实现离线语音识别。

预设的语音识别模型可以是HCLG模型。其中，H是HMM(Hidden Markov Model，隐马尔可夫模型)构建的WFST，可以把HMM的状态号映射为triphone(三音素)。C是单音素(monophone)扩展成三音素(triphone)所构建的上下文WFST。L是发音词典构建的WFST，可以把输入的音素转换成词。G是语言识别模型构建的WFST，用来表示词的上下文的概率关系。

语音识别装置将待识别语音输入语音识别模型，经过音素识别、因素被转换成词等步骤后，将词元输入语言识别模型WFST，得到语言识别模型WFST输出的各词序列路径，进而计算各词序列路径的得分。

需要说明的是，词序列路径由其在隐马尔可夫模型WFST、上下文WFST、发音词典WFST和语言识别模型WFST中的各边组成。

106、根据语言识别模型中边的激励权重，在词序列路径中选出目标路径，得到语音识别结果。

语音识别装置可以计算各词序列路径的得分。

具体地，各词序列的得分，是根据各词序列路径的中边的权重计算得到。

以任一词序列为例，语音识别装置获取其路径中的各条边，一条路径包括其在隐马尔可夫模型WFST、上下文WFST、发音词典WFST和语言识别模型WFST中的各边。

然后，语音识别装置获取词序列路径在隐马尔可夫模型WFST、上下文WFST、发音词典WFST和语言识别模型WFST中各边的权重。并且，语音识别装置检测该词序列路径在语言识别模型WFST中的边是否有激励权重。

以该词序列路径在语言识别模型WFST中的任一条边举例说明，若该边有激励权重，则该激励权重代替该边的初始权重，来计算路径的得分；若该边没有激励权重，则使用该边的初始权重，来计算路径的得分。

由此，语音识别装置根据词序列路径中各边的权重，通过加和或乘积等方式，计算得到该词序列路径的得分。

然后，语音识别装置根据得分最高的词序列路径，组合词序列，得到待识别语音对应的文本，也即识别结果。

由上可知，本申请实施例加载预设的第一状态图和第二状态图，第一状态图为关键语言模型的状态图，第二状态图为大语言模型的状态图；在第一状态图中提取基准边，在第二状态图中查找与基准边标签相同的边，作为目标边；获取基准边的权重，根据基准边的权重更新目标边的权重；将第二状态图中目标边更新后的权重，配置为语言识别模型中对应边的激励权重，语言识别模型为大语言模型剪枝后的语言模型；将待识别语音输入预设语音识别模型，得到语音识别模型输出的词序列路径，语音识别模型包括语言识别模型；根据语言识别模型中边的激励权重，在词序列路径中选出目标路径，得到语音识别结果。由于关键语言模型的语料远小于大语言模型的语料，因此，第一状态图中文本片段的边权重大于第二状态图中同一目标边的权重。该方案使用第一状态图目标边的权重，增强第二状态图中同一目标边的权重，进而激励语音识别模型中目标边的权重，从而在语音识别时，提高语言识别模型中包含文本片段的路径中边的权重，进而提高包含文本片段的路径作为识别结果的概率。由此，该方案提高了语音识别结果中文本片段出现的概率，在保障语音识别速度的同时，提升了语音识别结果的准确性。并且，该方案还适用于各种主题场景，可以利用各主题场景的文本片段来提高语音识别结果的准确性。

如前文所述，步骤21中调整第二状态图中边的权重的方法可以是在第二状态图中增加相应的边并设置其权重。该方法可以与图1c所示的方法分别独立使用，或者同时使用。同时使用时，图2为本申请实施例提供一种语音识别方法，可以包括以下步骤。

201、加载预设的第一状态图和第二状态图，第一状态图为关键语言模型的状态图，第二状态图为基础语言模型的状态图。

具体实施方式可参照上述语音识别方法实施例中步骤101的描述，在此不再赘述。

202、在第一状态图中提取基准边，在第二状态图中查找与基准边标签相同的边，作为目标边。

具体实施方式可参照上述语音识别方法实施例中步骤102的描述，在此不再赘述。

203、若在第二状态图中未找到与基准边标签相同的边，则将基准边映射到第二状态图中，得到目标边。

例如，若服务器在第二状态图中，未找到与第一基准边标签相同的边，则查询第一基准边在第一状态图中的起始节点的序号，然后，在第二状态图中找到该序号对应的节点，以该节点为起始节点建立与第一基准边相同的虚拟边，作为第一目标边，实现第一基准边的映射。

若服务器在第一目标边的递归边中，未找到与第二基准边标签相同的边，则将第一目标边的终点节点作为起始节点，建立与第二基准边标签相同的虚拟边，作为第二目标边，实现第二基准边的映射。

需要说明的是，映射得到的第一目标边和第二目标边的初始权重可以是预设值。

204、获取基准边的权重，根据基准边的权重更新目标边的权重。

具体实施方式可参照上述语音识别方法实施例中步骤103的描述，在此不再赘述。

205、将第二状态图中目标边更新后的权重，配置为语言识别模型中对应边的激励权重，语言识别模型为大语言模型剪枝后的语言模型。

具体实施方式可参照上述语音识别方法实施例中步骤104的描述，在此不再赘述。

206、在第二状态图中，筛选出标签与预设词表中的词相同的边，作为起始边。

其中，预设词表中记录了文本片段被分词后得到的第一个词。

例如，在步骤206之前，还可以包括：对文本片段进行分词处理，将分词得到的第一个词配置到预设的词表中。

预设的文本片段可以有一个或多个，服务器对文本片段分别进行分词处理，并将各个文本片段分词得到的第一个词配置到词表中。

在进行语音识别时，为了提高进入文本片段路径的概率，服务器在第二状态图中，筛选出与标签与预设词表中的词相同的边，作为起始边。

207、获取起始边的初始权重，根据预设的比例系数和起始边的初始权重，更新起始边的权重。

例如，服务器可以使用如下公式计算起始边的目标权重：

w _new＝w _old×(1-l)；

其中，w _new为起始边的目标权重，w _old为起始边的初始权重，l为预设的比例系数。

然后，服务器使用起始边的目标权重替换其初始权重，实现对起始边权重的更新。

由此，服务器增强了第二状态图中起始边的权重。

208、将第二状态图中起始边更新后的权重，配置为语言识别模型中对应边的激励权重。

在得到起始边及其更新后的权重后，服务器在语言识别模型中查找与该起始边标签相同的边，并建立映射关系，进而，将关键起始词边的目标权重，配置为语言识别模型中对应边的激励权重。

209、将待识别语音输入预设语音识别模型，得到语音识别模型输出的词序列路径，语音识别模型包括语言识别模型。

具体实施方式可参照上述语音识别方法实施例中步骤105的描述，在此不再赘述。

其中，需要说明的是，在语音识别模型中遍历或查找词序列路径时，若未找到标签为特定词的边时，可在大语言模型中通过映射得到的目标边里，查找标签为特定词的边，作为词序列中的边，并获取该目标边的目标权重，以计算词序列路径的得分。

210、根据语言识别模型中边的激励权重，在词序列路径中选出目标路径，得到语音识别结果。

具体实施方式可参照上述语音识别方法实施例中步骤106的描述，在此不再赘述。

右上可知，本申请使用关键语言模型中文本片段路径的权重，增强语言识别模型中文本片段路径的权重，提高文本片段在识别结果中出现的概率，提升语音识别结果的准确性。在第二状态图中未找到与基准边标签相同的边时，采用映射的方式在第二状态图中添加目标边，从而在语音识别时，能够采用该映射的目标边，提高该文本片段在识别结果中出现的概率。并且，通过增强初始边的权重，实现了上下文增强，从而在语言识别时，提高了文本片段被找到的概率，也即词序列进入文本片段路径的概率。由此，本实施例从多个方面提高了语音识别的准确性。

根据前面实施例所描述的方法，以下将举例作进一步详细说明。

例如，参照图3a和图3b，在本实施例中，将以该语音识别装置具体集成在解码器中进行说明。

(一)实时采集待识别语音。

解码器获取语音采集装置实时采集得到的待识别语音，进行在线语音识别。

(二)将待识别语音输入语音识别模型。

解码器将待识别语音输入语音识别模型，通过音素识别、因素被转换成词等步骤后，将词元输入语言识别模型。

(三)获取第一状态图和第二状态图，并加载。

在将词元输入语言识别模型之前，或同时，服务器加载第一状态图和第二状态图，从而对目标边的权重进行加强。

例如，解码器获取预设的文本片段，根据文本片段训练关键语言模型；构建关键语言模型的加权有限状态转换器，获取关键语言模型加权有限状态转换器指示的状态图为第一状态图。本实施例中，以关键语言模型为三阶的tri-gram为例进行说明。

以文本片段为“张俊岐”为例，解码器得到的第一状态图可参照图3a，其中，节点2为二阶状态；节点3为第一状态图的起始节点；节点之间通过连接线连接，成为边，边的箭头方向指示了连接关系，也可理解为路径方向，边上依次记载了边的输入标签、输出标签和权重，本实施例中以边的权重为其概率的对数值进行举例说明。其中，预设的语句结束符号可以是符号“</s>”，预设的回退符号可以是符号“#phi”。

同时，解码器获取预设的通用语料，根据通用语料训练大语言模型；构建大语言模型的加权有限状态转换器，获取大语言模型加权有限状态转换器指示的状态图为第二状态图。本实施例中，以大语言模型为二阶的bi-gram为例进行说明。

解码器得到的第二状态图可参照图3b，其中，节点2为二阶状态；节点3为第一状态图的起始节点；节点之间通过连接线连接，成为边，边的箭头方向指示了连接关系，也可理解为路径方向，边上依次记载了边的输入标签、输出标签和权重，本实施例中以边的权重为其概率的对数值进行举例说明。其中，预设的语句结束符号可以是符号“</s>”，预设的回退符号可以是符号“#phi”。

(四)依据第一状态图，增强第二状态图中目标边的权重。

解码器在第一状态图中提取基准边，在第二状态图中查找与基准边标签相同的边，作为目标边；获取基准边的权重，根据基准边的权重更新目标边的权重。

例如，第一状态图和第二状态图同时从节点2沿着相同的路径往下走。第一状态图中，节点3至节点8的边，作为第一基准边3-9，标签为“张俊”，第二状态如中节点3至节点9的边，标签也为“张俊”，因此，得到与3-8标签相同的第一目标边3-9。然后，获取第一基准边的权重0，以及第一目标边的初始权重-16.8，根据上述实施例中记载的公式：log(e ^-16.8×0.9+e ⁰×0.1)＝-2.3，计算得到第一目标边3-9的目标权重为-2.3，相对于-16.8得到了增强，也即边3-9的概率得到了提高。

然后，解码器对第一状态图中的第一基准边进行递归，由于关键语言模型为三阶模型，因此，递归深度为3，得到第二基准边8-9，标签为“岐”。并且，解码器在第一目标边3-9的输出边中，找到标签为“岐”的边9-10，作为第二目标边。解码器根据第二基准边8-9的权重0，以及第二目标边9-10的初始权重-12.7，计算得到第二目标边9-10的目标权重-2.3，增强了第二目标边的权重。由于第一状态图中，节点9两条边的输出标签分别为回退符号和语句结束符号，因此，不能作为基准边来增强第二状态图中边的权重。

同时，解码器忽略第一状态图和第二状态图中标签为回退符号的边 3-5，对其进行递归，在第一状态图的节点5，获取第二基准边5-6和5-7。第二状态图中与第一基准边5-6标签“张俊”相同的第二目标边为5-7，与第一基准边5-7标签“岐”相同的第二目标边为5-8。由此，根据第一基准边5-6的权重-1.0986，和第二目标边为5-7的初始权重-18.5，计算可得第二目标边5-7的目标权重为-3.4；根据第一基准边5-7的权重-1.0986，和第二目标边为5-8的初始权重-17.38，计算可得第二目标边5-8的目标权重为-3.4。

并且，解码器根据递归深度，在第一状态图中的节点6找到第二基准边6-9，以及第二状态图中与其相同的第二目标边7-10。解码器根据第一基准边6-9的权重0，和第二目标边为7-10的初始权重-12.7，计算可得第二目标边7-10的目标权重为-2.3。

由此，实现了目标边权重的更新。第二状态图中，与第一状态图中文本片段相关的边权重均得到提高，对应的，由大语言模型剪枝得到的语言识别模型中对应边的权重也得到提升，解码时出现这些词的概率就会比之前大上很多。

然后，解码器将各目标边的权重，分别对应配置为语言识别模型中各对应的边的激励权重。

(五)目标边的映射。

参照图3c，以第一状态图为图3a为例，第二状态图为图3c为例。

第一状态图路径由节点3-8-9构成的路径(张俊，岐)，无法在第二状态图中找到。若要在第二状态图中找到(张俊，岐)，则需要在节点9通过回退的方式，来读入“岐”，降低文本片段增强效果。

为此，解码器利用第一状态图中高阶的边，将第二状态图中部分节点的序号和第一状态图中部分节点的序号关联起来，进行边的映射。从而在加码器解码的过程中，若在语言识别模型中找不到输入标签为特定词的时候，通过映射关系，提高词序列路径得分。

例如，解码器在第二状态图的节点9，添加与第一状态图中第二基准边8-9相同的虚拟边，作为第二基准边8-9相同的第二目标边，实现边的映射，并更新该第二目标边的权重，实现权重增强。

由此，在进行解码时，解码器如果在语言识别模型中找不到路径(张俊，岐)，则在第二状态图中，根据映射的虚拟边，确定路径(张俊，岐)的权重。

(六)文本片段上下文增强。

通过第二状态图中目标边的权重增强和映射，本实施例可以在几乎不影响正常识别结果的前提下，将文本片段的召回率提升到85％以上，满足了绝大多数的场景需求。

由于一个文本片段大部分情况下是被分割成多个粒度更小的词，来进行识别和语言训练的。因此，可以通过提升这些文本片段内部的小粒度词的权重，来提高文本片段的召回率。尤其是在用户没有配置文本片段的上下文语料时，在语音识别过程中进入到文本片段被分出来的第一个词的节点上就会比较困难。为此，本实施例增强由文本片段的上文词的节点，进入到文本片段被分割出来第一个词的概率。

具体地，解码器对文本片段进行分词处理，将分词得到的第一个词配置到预设的词表中。然后，在第二状态图中，筛选出标签与预设词表中的词相同的边，作为起始边；获取起始边的初始权重，根据预设的比例系数和起始边的初始权重，更新起始边的权重；将第二状态图中起始边更新后的权重，配置为语言识别模型中对应边的激励权重。

(七)获取语音识别模型输出的词序列路径，计算词序列路径得分，得到识别结果。

解码器将词元输入到语言识别模型构建的WFST，获取语言识别模型WFST输出的各个词序列路径。然后，解码器根据词序列路径在语言识别模型中的各边权重，计算各个词序列路径的得分，将得分最高的词序列路径作为识别结果输出。

由上可知，用户可在本申请实施例中，快速配置会议等场景的文本片段，增强文本片段在识别结果中的出现概率，提高了语音识别的准确性。本实施例缩短了操作流程，节约了大量的时间，并且，对解码器的实时率没有影响，具有低时延的优点。

一些实施例中，语言识别方法的步骤可以分别由复数个物理设备执行，共同实现该方法，上述语言识别装置可以由复数个物理设备共同实现。

例如，复数个物理设备可以是多个服务器，其中的一些服务器主要向用户提供语音识别服务，另一些服务器为这些服务器提供用户定制的语音识别模型。

又例如，复数个物理设备可以是终端设备和服务器。终端设备为用户提供语音识别服务，服务器为这些终端设备提供用户定制的语音识别模型。

此时，各实施例的一种语音识别方法可以如图4b所示。该方法可以由一计算设备执行，例如服务器、终端设备，等。如图4b所示，该方法可以包括以下步骤。

步骤31，将文本片段提供给第二计算设备。

计算设备可以通过用户接口接收用户输入或选择的一个或复数个文本片段，例如术语、专有名词，等，再将文本片段提供给第二计算设备，使第二计算设备根据文本片段提供“定制的”语音识别模型。

步骤32，获取所述第二计算设备提供的语言识别模型，所述语言识别模型中至少一对元素间关系的概率利用所述文本片段中所述至少一对元素间关系的概率进行了调整。

第二计算设备可以执行上述方法中的调整语言识别模型的相关步骤，例如步骤11、21-22、101-104、201-208，等，并将得到的语音识别模型提供给提供文本片段的计算设备。

步骤33，将待识别语音输入预设的语音识别模型，所述语音识别模型包括所述语言识别模型。

步骤34，根据所述语言识别模型中各元素间关系的概率，确定所述待识别语音对应的多个元素的序列，作为语音识别结果。

本申请实施例还提供一种语音识别装置。图4a是本申请实施例的一种语音识别装置的结构示意图。如图4a所示，该语音识别装置可以包括调整模块41和语音识别模块42。

调整模块41可以根据文本片段中至少一对元素间关系的概率，调整语言识别模型中所述至少一对元素间关系的概率。

语音识别模块42可以将待识别语音输入预设的语音识别模型，所述语音识别模型包括所述语言识别模型；根据所述语言识别模型中各元素间关系的概率，确定所述待识别语音对应的多个元素的序列，作为语音识别结果。

一些实施例中，语音识别装置可以集成在网络设备如服务器等设备中。一些实施例中，语音识别装置可以集成在终端设备中。另一些实施例中，语音识别装置可以由分布在复数个物理设备中的组件共同实现。例如，调整模块41可以由第一计算设备实现，语音识别模块42可以由第二计算设备实现。计算设备可以是服务器、终端等任意有计算能力的设备。

图4b是本申请实施例的一种语音识别装置的结构示意图。如图4b所示，调整模块41可以包括：语言模型调整单元411和激励单元404。

语言模型调整单元411可以利用所述文本片段对应的第一状态图中表示一对元素间关系的一条边的权重调整预设的第二状态图中与所述边对应的边的权重，所述第一状态图为所述文本片段的语言模型的状态图，所述第二状态图为基础语言模型的状态图。

激励单元404可以将修改后的所述第二状态图中至少一条边的权重，配置为语言识别模型中对应边的激励权重，所述语言识别模型为所述基础语言模型剪枝后的语言模型。

此时，语音识别模块42可以包括：识别单元405和结果单元406。

识别单元405可以将待识别语音输入预设语音识别模型，得到所述语音识别模型输出的词序列路径，所述语音识别模型包括所述语言识别模型；

结果单元406可以根据所述语言识别模型中边的激励权重，在所述词序列路径中选出目标路径，得到语音识别结果。

一些实施例中，语言模型调整单元411可以包括更新单元，用于在所述第二状态图中查找与所述边标签相同的边，作为目标边；根据所述边的权重增加所述目标边的权重。

一些实施例中，语言模型调整单元411可以包括映射单元，用于在所述第二状态图中增加与所述边对应的边，作为目标边；根据所述边的权重设置所述目标边的权重。

图4c是本申请实施例的一种语音识别装置的结构示意图。如图4c所示，该语音识别装置可以包括加载单元401、关键词单元402、更新单元403、激励单元404、识别单元405和结果单元406。

(一)加载单元401；

加载单元401，用于加载预设的第一状态图和第二状态图，第一状态图为关键语言模型的状态图，第二状态图为大语言模型的状态图。

其中，第一状态图即为关键语言模型的有向状态图，记载了各个节点和节点之间的有向连接关系，以描述关键语言模型中文本片段对象的可能状态以及状态的转移路径。

第二状态图为大语言模型的加权有向状态图。大语言模型可以为语料信息丰富且未经过剪枝的大规模语言模型。

在一些实施例中，加载单元401具体可以用于：获取预设的文本片段，根据文本片段训练关键语言模型；构建关键语言模型的加权有限状态转换器，获取关键语言模型加权有限状态转换器指示的状态图为第一状态图。

其中，预设的文本片段可以是待识别语音所在领域的相关语料，具体可根据需要灵活配置。预设的文本片段可以有一个或多个。

加载单元401将文本片段作为训练语料，输入tri-gram进行训练，得到关键语言模型。然后，加载单元401构建关键语言模型的加权有限状态转换器。由此，加载单元401可以获取关键语言模型WFST中的各个节点，及节点之间的连接关系，得到关键语言模型WFST指示的状态图，将关键语言模型WFST指示的状态图作为第一状态图。

在一些实施例中，加载单元401具体可以用于：获取预设的通用语料，根据通用语料训练大语言模型；构建大语言模型的加权有限状态转换器，获取大语言模型加权有限状态转换器指示的状态图为第二状态图。

其中，通用语料可以是人们常用的大规模语料。

加载单元401将通用语料输入预设的语言模型，例如二阶的bi-gram(二元语言模型)，进行训练，得到大语言模型。然后，加载单元401构建大语言模型的加权有限状态转换器。由此，加载单元401可以获取大语言模型WFST中的各个节点，及节点之间的连接关系，得到大语言模型WFST指示的状态图，将第一词语言模型WFST指示的状态图作为第二状态图。

由于关键语言模型WFST中的文本片段数量远小于大语言模型WFST中的语料数量，因此，相同的边在关键语言模型WFST中的权重，大于其在大语言模型WFST中的权重，由此，相同的边在第一状态图中的权重大于其在语言识别模型中的权重。

在进行语音识别前，或是在进行语音识别的过程中，加载单元401同时加载第一状态图和第二状态图。

(二)关键词单元402；

关键词单元402，用于在第一状态图中提取基准边，在第二状态图中查找与基准边标签相同的边，作为目标边。

关键词单元402首先从第一状态图中提取出基准边，例如，可以获取第一状态图的起始节点，根据预设的遍历深度和起始节点获取基准边。

在一些实施例中，关键词单元402具体可以用于：将起始节点的输出边确定为第一基准边；在预设的递归深度内，对第一基准边进行递归，获取第一基准边的递归边；若递归边的输出标签不是预设符号，则将递归边确定为第二基准边。

递归深度可根据语言模型的阶数配置。例如，关键词单元402获取关键语言模型的阶数，作为递归深度。本实施例中，以关键语言模型的阶数为三阶举例，则语音识别装置将递归深度配置为3。

关键词单元402将起始节点的输出边作为第一基准边，以在第二状态图中查找相同的边。

然后，关键词单元402根据递归深度，继续查找第一状态图中可作为基准边的边。具体地，以任一第一基准边为例，关键词单元402在预设的递归深度内，对第一基准边进行递归，获取第一基准边的递归边；若递归边的输出标签不是预设符号，则将递归边确定为第二基准边。

其中，预设符号为预设的语句结束符号和回退符号。

例如，递归深度为3，则关键词单元402将第一基准边终点节点的输出边，以及该输出边的输出边，作为3阶内的递归边，共包含4个节点。

在得到递归边后，关键词单元402检测递归边的输出标签，是否为预设符号。若递归边的输出标签不是预设的语句结束符号或回退符号，则将该递归边确定为第二基准边，需要在第二状态图中查找与其相同的边。若递归边的输出标签是预设的语句结束符号或回退符号，则将该递归边确定为非基准边，不需要在第二状态图中查找与其相同的边。

需要说明的是，以起始节点的任一输出边为例，若该输出边的输出标签为预设的回退符号，则忽略该输出边，将其作为不需要增强权重的第一基准边，不对第二状态图中与其相同的第一目标边做权重更新。然后，文本片段单元402获取该第一基准边的输出边，将该第一基准边的输出边中，输出标签不是预设符号边的作为起始节点的输出边，也即第二基准边，该第二基准边可以用来对第二状态图中与其相同的第二目标边做权重更新。

在得到基准边后，关键词单元402在第二状态图中遍历，查找与基准边相同的目标边。

例如，关键词单元402具体可以用于：在第二状态图中，查找与第一基准边标签相同的边，作为第一目标边；在第一目标边的递归边中，作为与第二基准边标签相同的边，得到第二目标边。

以任一第一基准边为例，关键词单元402在第二状态图中，查找与第一基准边标签相同的边。其中，标签相同可以指输出标签相同和/或输出标签相同。由于本实施例中，状态图中同一条边的输入标签和输出标签相同，因此，关键词单元402可以是查找与第一基准边的输入标签相同的边，或是查找与第一基准边的输出标签相同的边，或是查找与第一基准边输入标签相同且输出标签相同的边。

关键词单元402将与第一基准边标签相同的边，确定为与第一基准边相同的第一目标边。

然后，关键词单元402根据预设的递归深度，在该第一目标边的递归边中，查找与第二基准边标签相同的边，得到第二目标边。其中，标签相同可以指输出标签相同和/或输出标签相同。

由此，关键词单元402分别找到与各第一基准边相同的第一目标边，以及与各第二基准边相同的第二目标边。

(三)更新单元403；

更新单元403，用于获取基准边的权重，根据基准边的权重更新目标边的权重。

以任一基准边为例，更新单元403可以使用基准边的权重，替换与其相同的目标边的权重，实现对目标边权重的更新。

在一些实施例中，更新单元403具体可以用于：获取预设的插值参数及目标边的初始权重；根据基准边的权重、插值参数和目标边的初始权重，计算得到目标边的目标权重；使用目标权重，替换第二状态图中目标边的初始权重。

其中，预设的插值参数可根据实际需要灵活配置。

更新单元403根据第二状态图，获取与基准边相同的目标边的初始权重。然后，更新单元403可根据如下公式，计算目标边的目标权重。

然后，更新单元403使用目标边的目标权重，替换掉第二状态图中该目标边的初始权重。

若有多个基准边，则更新单元403分别更新与各基准边相同的目标边的权重。

(四)激励单元404；

激励单元404，用于将第二状态图中目标边更新后的权重，配置为语言识别模型中对应边的激励权重，语言识别模型为大语言模型剪枝后的语言模型。

其中，语言识别模型是对大语言模型进行剪枝得到的语言模型。激励单元404可以对大语言模型进行剪枝处理，得到语言识别模型。

第二状态图中目标边的权重更新后，激励单元404将第二状态图中目标边更新后的权重，配置为语言识别模型中对应边的激励权重，也可理解为配置为语言识别模型中相同边的激励权重。由于语言识别模型是经由对大语言模型剪枝得到的，因此，语言识别模型中的各边均存在于大语言模型的状态图中。语言识别模型中，边的激励权重优先级高于其初始权重。

例如，激励单元404建立第二状态图中目标边和语言识别模型中对应边的映射关系，进而将目标边的目标权重配置为语言识别模型中对应边的激励权重。

(五)识别单元405；

识别单元405，用于将待识别语音输入预设语音识别模型，得到语音识别模型输出的词序列路径，语音识别模型包括语言识别模型。

需要说明的是，识别单元405可以同加载单元401同时运行，在增强语言识别模型中文本片段权重的同时，进行语音识别，实现在线语音识别。当然，识别单元405也可以在激励单元404运行结束后开始运行，使用文本片段权重已被增强的语言识别模型，进行词路径的筛选，实现离线语音识别。

识别单元405将待识别语音输入语音识别模型，经过音素识别、因素被转换成词等步骤后，将词元输入语言识别模型WFST，得到语言识别模型WFST输出的各词序列路径。

(六)结果单元406；

结果单元406，用于根据语言识别模型中边的激励权重，在词序列路径中选出目标路径，得到语音识别结果。

结果单元406计算各词序列路径的得分。

以任一词序列为例，结果单元406获取其路径中的各条边，一条路径包括其在隐马尔可夫模型WFST、上下文WFST、发音词典WFST和语言识别模型WFST中的各边。

然后，结果单元406获取词序列路径在隐马尔可夫模型WFST、上下文WFST、发音词典WFST和语言识别模型WFST中各边的权重。并且，检测该词序列路径在语言识别模型WFST中的边是否有激励权重。

由此，结果单元406根据词序列路径中各边的权重，通过加和或乘积等方式，计算得到该词序列路径的得分。

然后，结果单元406根据得分最高的词序列路径，组合词序列，得到待识别语音对应的文本，也即识别结果。

由上可知，本申请实施例加载单元401加载预设的第一状态图和第二状态图，第一状态图为关键语言模型的状态图，第二状态图为大语言模型的状态图；文本片段单元402在第一状态图中提取基准边，在第二状态图中查找与基准边标签相同的边，作为目标边；更新单元403获取基准边的权重，根据基准边的权重更新目标边的权重；激励单元404将第二状态图中目标边更新后的权重，配置为语言识别模型中对应边的激励权重，语言识别模型为大语言模型剪枝后的语言模型；识别单元405将待识别语音输入预设语音识别模型，得到语音识别模型输出的词序列路径，语音识别模型包括语言识别模型；结果单元406根据语言识别模型中边的激励权重，在词序列路径中选出目标路径，得到语音识别结果。由于关键语言模型的语料远小于大语言模型的语料，因此，第一状态图中文本片段的边权重大于第二状态图中同一目标边的权重。该方案使用第一状态图目标边的权重，增强第二状态图中同一目标边的权重，进而激励语音识别模型中目标边的权重，从而在语音识别时，提高语言识别模型中包含文本片段的路径中边的权重，进而提高包含文本片段的路径作为识别结果的概率。由此，该方案提高了语音识别结果中文本片段出现的概率，在保障语音识别速度的同时，提升了语音识别结果的准确性。并且，该方案还适用于各种主题场景，可以利用各主题场景的文本片段来提高语音识别结果的准确性。

一些实施例中，参照图4d，该语音识别装置还可以包括映射单元407、上下文单元408和采集单元409。

(七)映射单元407；

映射单元407，用于若在第二状态图中未找到与基准边标签相同的边，则将基准边映射到第二状态图中，得到目标边。

例如，若关键词单元402在第二状态图中，未找到与第一基准边标签相同的边，则映射单元407查询第一基准边在第一状态图中的起始节点的序号，然后，在第二状态图中找到该序号对应的节点，以该节点为起始节点建立与第一基准边相同的虚拟边，作为第一目标边，实现第一基准边的映射。

若映射单元407在第一目标边的递归边中，未找到与第二基准边标签相同的边，则将第一目标边的终点节点作为起始节点，建立与第二基准边标签相同的虚拟边，作为第二目标边，实现第二基准边的映射。

(八)上下文单元408；

上下文单元408，用于在第二状态图中，筛选出标签与预设词表中的词相同的边，作为起始边；获取起始边的初始权重，根据预设的比例系数和起始边的初始权重，更新起始边的权重；将第二状态图中起始边更新后的权重，配置为语言识别模型中对应边的激励权重。

例如，上下文单元408具体还可以用于：对文本片段进行分词处理，将分词得到的第一个词配置到预设的词表中。

预设的文本片段可以有一个或多个，上下文单元408对文本片段分别进行分词处理，并将各个文本片段分词得到的第一个词配置到词表中。

在进行语音识别时，为了提高进入文本片段路径的概率，上下文单元408在第二状态图中，筛选出与标签与预设词表中的词相同的边，作为起始边。

例如，上下文单元408可以使用如下公式计算起始边的目标权重：

w _new＝w _old×(1-l)；

然后，上下文单元408使用起始边的目标权重替换其初始权重，实现对起始边权重的更新。

由此，上下文单元408增强了第二状态图中起始边的权重。

在得到起始边及其更新后的权重后，上下文单元408在语言识别模型中查找与该起始边标签相同的边，并建立映射关系，进而，将关键起始词边的目标权重，配置为语言识别模型中对应边的激励权重。

(九)采集单元409。

采集单元409，用于实时采集待识别语音。

采集单元409实时采集得到待识别语音，进行在线语音识别。

由上可知，本申请使用关键语言模型中文本片段路径的权重，增强语言识别模型中文本片段路径的权重，提高文本片段在识别结果中出现的概率，提升语音识别结果的准确性。在第二状态图中未找到与基准边标签相同的边时，采用映射的方式在第二状态图中添加目标边，从而在语音识别时，能够采用该映射的目标边，提高该文本片段在识别结果中出现的概率。并且，通过增强初始边的权重，实现了上下文增强，从而在语言识别时，提高了文本片段被找到的概率，也即词序列进入文本片段路径的概率。由此，本实施例从多个方面提高了语音识别的准确性。

本申请实施例还提供一种语音识别设备，如图5a所示，其示出了本申请实施例所涉及的语音识别设备的结构示意图，具体来讲：

该语音识别设备可以包括一个或者一个以上处理核心的处理器501、一个或一个以上计算机可读存储介质的存储器502、电源503和输入单元504等部件。本领域技术人员可以理解，图5a中示出的语音识别设备结构并不构成对语音识别设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器501是该语音识别设备的控制中心，利用各种接口和线路连接整个语音识别设备的各个部分，通过运行或执行存储在存储器502内的软件程序和/或模块，以及调用存储在存储器502内的数据，执行语音识别设备的各种功能和处理数据，从而对语音识别设备进行整体监控。可选的，处理器501可包括一个或多个处理核心；优选的，处理器501可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器501中。

存储器502可用于存储软件程序以及模块，处理器501通过运行存储在存储器502的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器502可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如语音识别功能等)等；存储数据区可存储根据语音识别设备的使用所创建的数据等。此外，存储器502可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器502还可以包括存储器控制器，以提供处理器501对存储器502的访问。

该语音识别设备还可包括输入单元504，该输入单元504可用于接收输入的数字或字符信息。用户可以使用输入单元504输入文本片段。

尽管未示出，语音识别设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，语音识别设备中的处理器501会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器502中，并由处理器501来运行存储在存储器502中的应用程序，从而实现各种功能，如下：

加载预设的第一状态图和第二状态图，第一状态图为关键语言模型的状态图，第二状态图为大语言模型的状态图；在第一状态图中提取基准边，在第二状态图中查找与基准边标签相同的边，作为目标边；获取基准边的权重，根据基准边的权重更新目标边的权重；将第二状态图中目标边更新后的权重，配置为语言识别模型中对应边的激励权重，语言识别模型为大语言模型剪枝后的语言模型；将待识别语音输入预设语音识别模型，得到语音识别模型输出的词序列路径，语音识别模型包括语言识别模型；根据语言识别模型中边的激励权重，在词序列路径中选出目标路径，得到语音识别结果。

处理器501运行存储在存储器502中的应用程序，还可以实现如下功能：

获取第一状态图的起始节点，根据预设的遍历深度和起始节点确定基准边。

将起始节点的输出边确定为第一基准边；在预设的递归深度内，对第一基准边进行递归，获取第一基准边的递归边；若递归边的输出标签不是预设符号，则将递归边确定为第二基准边。

在第二状态图中，查找与第一基准边标签相同的边，作为第一目标边；在第一目标边的递归边中，查找与第二基准边标签相同的边，作为第二目标边。

获取预设的插值参数及目标边的初始权重；根据基准边的权重、插值参数和目标边的初始权重，计算得到目标边的目标权重；使用目标权重，替换第二状态图中目标边的初始权重。

若在第二状态图中未找到与基准边标签相同的边，则将基准边映射到第二状态图中，得到目标边。

在第二状态图中，筛选出标签与预设词表中的词相同的边，作为起始边；获取起始边的初始权重，根据预设的比例系数和起始边的初始权重，更新起始边的权重；将第二状态图中起始边更新后的权重，配置为语言识别模型中对应边的激励权重。

对文本片段进行分词处理，将分词得到的第一个词配置到预设的词表中。

获取预设的文本片段，根据文本片段训练关键语言模型；构建关键语言模型的加权有限状态转换器，获取关键语言模型加权有限状态转换器指示的状态图为第一状态图。

获取预设的通用语料，根据通用语料训练大语言模型；构建大语言模型的加权有限状态转换器，获取大语言模型加权有限状态转换器指示的状态图为第二状态图。

此外，参照图5b，该语音识别设备还可以包括语音采集装置505，例如麦克风等，用于实时采集待识别语音。

实时采集待识别语音。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本申请实施例所提供的任一种语音识别方法中的步骤。例如，该指令可以执行如下步骤：

该指令还可以执行如下步骤：

在第二状态图中，筛选出标签与预设词表中的词相同的边，作为起始边；获取起始边的初始权重，根据预设的比例系数和起始边的初始权重，更新文本片段起始边的权重；将第二状态图中起始边更新后的权重，配置为语言识别模型中对应边的激励权重。

该指令还可以执行如下步骤：

实时采集待识别语音。

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本申请实施例所提供的任一种语音识别方法中的步骤，因此，可以实现本申请实施例所提供的任一种语音识别方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

Claims

一种语音识别方法，由计算设备执行，包括：

根据一文本片段中至少一对元素间关系的概率，调整语言识别模型中所述至少一对元素间关系的概率；

将待识别语音输入预设的语音识别模型，所述语音识别模型包括所述语言识别模型；

根据所述语言识别模型中各元素间关系的概率，确定所述待识别语音对应的多个元素的序列，作为语音识别结果。
如权利要求1所述的方法，其中，所述根据文本片段中至少一对元素间关系的概率，调整语言识别模型中所述至少一对元素间关系的概率，包括：

利用所述文本片段对应的第一状态图中表示一对元素间关系的一条边的权重调整预设的第二状态图中与所述边对应的边的权重，所述第一状态图为所述文本片段的语言模型的状态图，所述第二状态图为基础语言模型的状态图；

将修改后的所述第二状态图中至少一条边的权重，配置为所述语言识别模型中对应边的激励权重，所述语言识别模型为所述基础语言模型剪枝后的语言模型；

其中，所述根据所述语言识别模型中各元素间关系的概率，确定所述待识别语音对应的多个元素的序列，作为语音识别结果，包括：

将待识别语音输入预设语音识别模型，得到所述语音识别模型输出的词序列路径，所述语音识别模型包括所述语言识别模型；

根据所述语言识别模型中边的激励权重，在所述词序列路径中选出目标路径，得到语音识别结果。
如权利要求1所述的方法，其中，所述利用文本片段对应的第一状态图中的一条边及其权重，修改预设的第二状态图，包括：

在所述第一状态图中提取所述边作为基准边，在所述第二状态图中查找与所述基准边标签相同的边，作为目标边；

获取所述基准边的权重，根据基准边的权重更新所述文本片段边的权重。
如权利要求1所述的方法，其中，所述利用文本片段对应的第一状态图中的一条边及其权重，修改预设的第二状态图，包括：

在所述第二状态图中增加与所述边对应的边，作为目标边；

根据所述边的权重设置所述目标边的权重。
如权利要求3所述的方法，其中，所述在所述第一状态图中提取基准边，包括：

获取所述第一状态图的起始节点，根据预设的遍历深度和所述起始节点确定基准边。
如权利要求5所述的方法，其中，所述根据预设的遍历深度和所述起始节点获取基准边，包括：

将所述起始节点的输出边确定为第一基准边；

在预设的递归深度内，对所述第一基准边进行递归，获取所述第一基准边的递归边；

若所述递归边的输出标签不是预设符号，则将所述递归边确定为第二基准边。
如权利要求6所述的方法，其中，在所述第二状态图中查找与所述基准边标签相同的边，作为目标边，包括：

在所述第二状态图中，查找与所述第一基准边标签相同的边，作为第一目标边；

在所述第一目标边的递归边中，查找与所述第二基准边标签相同的边，作为第二目标边。
如权利要求1所述的方法，其中，所述根据基准边的权重更新所述目标边的权重，包括：

获取预设的插值参数及所述目标边的初始权重；

根据所述基准边的权重、插值参数和目标边的初始权重，计算得到目标边的目标权重；

使用所述目标权重，替换所述第二状态图中所述目标边的初始权重。
如权利要求1所述的方法，进一步包括：

在所述第二状态图中，筛选出标签与预设词表中的词相同的边，作为起始边；

获取所述起始边的初始权重，根据预设的比例系数和所述起始边的初始权重，更新所述起始边的权重；

将所述第二状态图中起始边更新后的权重，配置为语言识别模型中对应边的激励权重。
如权利要求9所述的方法，其中，所述在所述第二状态图中，筛选出标签与预设词表中的词相同的边，作为起始边之前，包括：

对所述文本片段进行分词处理，将分词得到的第一个词配置到预设的词表中。
如权利要求1-10中任一项所述的方法，进一步包括：

获取预设的文本片段，根据所述文本片段训练所述文本片段的语言模型；

构建所述文本片段的语言模型的加权有限状态转换器，获取所述关键语言模型加权有限状态转换器指示的状态图为第一状态图。
如权利要求1-10中任一项所述的方法，进一步包括：

获取预设的通用语料，根据所述通用语料训练基础语言模型；

构建所述基础语言模型的加权有限状态转换器，获取所述基础语言模型加权有限状态转换器指示的状态图为第二状态图。
一种语音识别方法，由计算设备执行，包括：

将文本片段提供给第二计算设备；

获取所述第二计算设备提供的语言识别模型，所述语言识别模型中至少一对元素间关系的概率利用所述文本片段中所述至少一对元素间关系的概率进行了调整；

将待识别语音输入预设的语音识别模型，所述语音识别模型包括所述语言识别模型；

根据所述语言识别模型中各元素间关系的概率，确定所述待识别语音对应的多个元素的序列，作为语音识别结果。
一种语音识别装置，包括：

调整模块，用于根据文本片段中至少一对元素间关系的概率，调整语言识别模型中所述至少一对元素间关系的概率；

语音识别模块，用于将待识别语音输入预设的语音识别模型，所述语音识别模型包括所述语言识别模型；根据所述语言识别模型中各元素间关系的概率，确定所述待识别语音对应的多个元素的序列，作为语音识别结果。
如权利要求14所述的装置，其中，所述调整模块包括：

调整单元，用于利用所述文本片段对应的第一状态图中表示一对元素间关系的一条边的权重调整预设的第二状态图中与所述边对应的边的权重，所述第一状态图为所述文本片段的语言模型的状态图，所述第二状态图为基础语言模型的状态图；

激励单元，用于将修改后的所述第二状态图中至少一条边的权重，配置为语言识别模型中对应边的激励权重，所述语言识别模型为所述基础语言模型剪枝后的语言模型；

其中，所述语音识别模块包括：

识别单元，用于将待识别语音输入预设语音识别模型，得到所述语音识别模型输出的词序列路径，所述语音识别模型包括所述语言识别模型；

结果单元，用于根据所述语言识别模型中边的激励权重，在所述词序列路径中选出目标路径，得到语音识别结果。
如权利要求15所述的装置，所述调整单元包括：

更新单元，用于在所述第二状态图中查找与所述边标签相同的边，，作为目标边；根据所述边的权重增加所述目标边的权重。
如权利要求15所述的装置，所述调整单元包括：

映射单元，用于在所述第二状态图中增加与所述边对应的边，作为目标边；

根据所述边的权重设置所述目标边的权重。
一种语音识别设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音识别程序，所述语音识别程序被所述处理器执行时实现如权利要求1至13中任一项所述的方法的步骤。
一种存储介质，其特征在于，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1至13中任一项所述的语音识别方法中的步骤。