WO2023226700A1

WO2023226700A1 - 语音交互方法及其装置、电子设备和存储介质

Info

Publication number: WO2023226700A1
Application number: PCT/CN2023/091826
Authority: WO
Inventors: 宿绍勋; 王炳乾; 夏友祥
Original assignee: 京东方科技集团股份有限公司
Priority date: 2022-05-27
Filing date: 2023-04-28
Publication date: 2023-11-30
Also published as: CN117174077A

Abstract

一种语音交互方法及其装置（10）、电子设备（100）和存储介质（200）。语音交互方法包括：响应于用户更新语音热词的预设语音请求，获取用户根据预设命令模板输入的语音数据（01）；根据预设命令模板对语音数据进行语音识别得到目标语音热词（02）；根据目标语音热词更新语音识别模型的热词库（03）。可以将用户的语音交互请求中的陌生词汇添加至热词库中，使得用户的语音交互请求能够被语音识别模型识别得到对应的命令，改善在语音交互中应用语音识别模型无法准确理解用户语音指令的问题。

Description

语音交互方法及其装置、电子设备和存储介质

相关申请的交叉引用

本公开要求在2022年5月27日提交中国专利局、申请号为202210592298.4、名称为“语音交互方法及其装置、电子设备和存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本公开中。

技术领域

本申请涉及语音交互技术领域，特别涉及一种语音交互方法及其装置、电子设备和存储介质。

背景技术

在语音识别的实际应用中，对于常用的词汇识别效果比较好。但是，对于一些特有的人名、歌名、地名或者某个领域的专有词汇，例如人名宋星辰、歌名国际歌、地名丽泽商务区以及语音识别专业词汇解码器，存在语音识别准确率不高的情况。

发明内容

有鉴于此，本申请旨在至少在一定程度上解决相关技术中的问题之一。为此，本申请的目的在于提供一种语音交互方法及其装置、电子设备和存储介质。

本申请实施方式提供一种语音交互方法。所述语音交互方法包括：响应于用户更新语音热词的预设语音请求，获取用户根据预设命令模板输入的语音数据；根据所述预设命令模板对所述语音数据进行语音识别得到目标语音热词；根据所述目标语音热词更新语音识别模型的热词库。

在某些实施方式中，所述响应于用户更新语音热词的预设语音请求，获取用户根据预设命令模板输入的语音数据的步骤之前，所述语音交互方法包括：在用户输入的语音交互请求匹配命令失败的情况下，记录匹配命令失败的连续交互识别次数，将所述语音交互请求对应的命令词添加到连续失败命令词列表；在所述连续交互识别次数大于次数阈值，且所述连续失败命令词列表中的命令词之间的词义相似度满足预设条件的情况下，提示用户更新语音热词。

在某些实施方式中，所述语音交互方法包括：在用户输入的语音交互请求匹配命令成功的情况下，清空匹配命令失败的所述连续交互识别次数和所述连续失败命令词列表。

在某些实施方式中，所述在用户输入的语音交互请求匹配命令失败的情况下，记录匹配命令失败的连续交互识别次数，将所述语音交互请求对应的命令词添加到连续失败命令词列表的步骤之后，语音交互方法包括：根据所述连续失败命令词列表中的命令词之间的编辑距离和/或最长子串确定所述词义相似度。

在某些实施方式中，所述语音交互方法包括：获取用户输入的语音交互请求；根据所述热词库和所述语音识别模型对所述语音交互请求进行处理得到命令词；执行所述命令词对应的控制指令。

在某些实施方式中，所述根据所述热词库和所述语音识别模型对所述语音交互请求进行处理得到命令词，包括：获取所述热词库中的语音热词的声学得分和热词得分；确定与所述语音热词的编辑距离为设定值的词汇数量；根据所述声学得分、所述热词得分和所述词汇数量计算对应所述语音热词的综合得分；根据所述综合得分在所述热词库中的语音热词中确定所述命令词。

在某些实施方式中，所述根据所述声学得分、所述热词得分和所述词汇数量计算对应所述语音热词的综合得分的步骤通过下列条件式实现：

其中，argmax log P(y|x)为所述声学得分，λlog P_C(y)为所述热词得分，为所述词汇数量，λ和μ为相应的系数。

其中，argmax log P(y|x)为所述声学得分，λlog P_C(y)为所述热词得分，为所述词汇数量，λ为相应的系数。

在某些实施方式中，所述最长子串是指无重复字符的最长子串。

在某些实施方式中，所述获取所述热词库中的语音热词的声学得分和热词得分的步骤包括：

将用户的语音交互请求输入解码器，利用解码器输出得到所述热词库中每个语音热词的声学得分；以及

利用端到端语音识别工具在解码过程中维护上下文图中的状态，通过该上下文图中的子图中的状态计算得到所述热词库中每个语音热词的热词得分。

本申请还提供一种语音交互装置。所述语音交互装置包括：获取模块、识别模块和热词库更新模块。所述获取模块用于响应于用户更新语音热词的预设语音请求，获取用户根据预设命令模板输入的语音数据；所述识别模块用于根据所述预设命令模板对所述语音数据进行语音识别得到目标语音热词；所述热词库更新模块用于根据所述目标语音热词更新语音识别模型的热词库。

本申请还提供一种电子设备。所述电子设备包括处理器和存储器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时实现上述实施方式中任一项所述的语音交互方法。

本申请还提供一种包含计算机程序的非易失性计算机可读存储介质。当所述计算机程序被一个或多个处理器执行时，使得所述处理器执行上述实施方式中任一项所述的语音交互方法。

本申请还提供一种计算机程序，包括计算机可读代码，当所述计算机可读代码在计算处理设备上运行时，导致所述计算处理设备执行上述实施方式中任一项所述的语音交互方法。

本申请的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

上述说明仅是本公开技术方案的概述，为了能够更清楚了解本公开的技术手段，而可依照说明书的内容予以实施，并且为了让本公开的上述和其它目的、特征和优点能够更明显易懂，以下特举本公开的具体实施方式。

附图说明

为了更清楚地说明本公开实施例或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是本申请某些实施方式的语音交互方法的流程示意图；

图2是本申请某些实施方式的语音交互装置的结构示意图；

图3是本申请某些实施方式的语音交互方法的流程示意图；

图4是本申请某些实施方式的语音交互装置的结构示意图；

图5是本申请某些实施方式的语音交互方法的流程示意图；

图6是本申请某些实施方式的语音交互装置的结构示意图；

图7是本申请某些实施方式的语音交互方法的流程示意图；

图8是本申请某些实施方式的语音交互装置的结构示意图；

图9是本申请某些实施方式的语音交互方法的流程示意图；

图10是本申请某些实施方式的语音交互装置的结构示意图；

图11是本申请某些实施方式的语音交互方法的流程示意图；

图12是本申请某些实施方式的电子设备的结构示意图；

图13是本申请某些实施方式的计算机可读存储介质的结构示意图。

具体实施例

下面详细描述本申请的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本申请，而不能理解为对本申请的限制。

在本申请的描述中，需要理解的是，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本申请的描述中，“多个”的含义是两个或两个以上，除非另有明确具体地限定。

在本申请的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接或可以相互通信；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。

下文的公开提供了许多不同的实施方式或例子用来实现本申请的不同结构。为了简化本申请的公开，下文中对特定例子的部件和设置进行描述。当然，它们仅仅为示例，并且目的不在于限制本申请。此外，本申请可以在不同例子中重复参考数字和/或参考字母，这种重复是为了简化和清楚的目的，其本身不指示所讨论各种实施方式和/或设置之间的关系。

请参阅图1，本申请提供一种语音交互方法。该语音交互方法包括：

01：响应于用户更新语音热词的预设语音请求，获取用户根据预设命令模板输入的语音数据；

02：根据预设命令模板对语音数据进行语音识别得到目标语音热词；

03：根据目标语音热词更新语音识别模型的热词库。

请结合图2，本申请还提供一种语音交互装置10。该语音交互装置10包括：获取模块11、识别模块13和热词库更新模块13。获取模块11用于响应于用户更新语音热词的预设语音请求，获取用户根据预设命令模板输入的语音数据；识别模块12用于根据预设命令模板对语音数据进行语音识别得到目标语音热词；热词库更新模块13用于根据目标语音热词更新语音识别模型的热词库。

热词增强技术是在ASR系统中提升特定上下文短语(如人名、音乐列表、专有名词等)识别概率的技术,用以实现更好的识别性能。热词技术能够帮助语音识别模型适配更多场景，如通过添加常用词表的方式提各领域的常用名词的识别概率，并且热词技术还可以一定程度上帮助识别模型词表以外的词(out of vocabulary,OOV)。

可以理解地，用户在发出具有陌生词汇的语音请求时，语音识别模型不能识别出与该语音请求对应的正确的命令。此时，用户可以发出更新语音热词的预设语音请求，对语音识别模型中的热词库进行更新，将该语音请求中的陌生词汇能够添加至热词库中，使得该语音请求能够被语音识别模型识别得到对应的命令。

首先，响应于用户更新语音热词的预设语音请求，获取用户根据预设命令模板输入的语音数据，指的是，在用户发出更新语音热词的预设语音请求后，可以获取用户根据预设命令模板输入的语音数据。其中，预设语音请求例如为“更新语音热词”。用户根据预设命令模板输入的语音数据，指的是，例如，预设命令模板为“行李的李，潇洒的潇”，该预设命令模板对应识别出的热词为“李潇”，用户根据该预设命令模板输入的语音数据为“关闭的闭，灭灯的灯”。

然后，根据预设命令模板对语音数据进行语音识别得到目标语音热词，指的是，语音识别模型可以根据预设命名模板的固定句式识别用户输入的目标语音热词，由上述预设命令模板“行李的李，潇洒的潇”的固定句式，可以识别用户输入的语音数据“关闭的闭，灭灯的灯”的目标语音热词为“闭灯”。

最后，根据目标语音热词更新语音识别模型的热词库。例如，可以将上述识别出的目标语音热词为“闭灯”添加至语音识别模型的热词库中。

如此，本申请的语音交互方法可以将用户的语音交互请求中的陌生词汇添加至热词库中，使得用户的语音交互请求能够被语音识别模型识别得到对应的命令，改善在语音交互中应用语音识别模型无法准确理解用户语音指令的问题。

请参阅图3，在步骤01之前，语音交互方法包括：

011：在用户输入的语音交互请求匹配命令失败的情况下，记录匹配命令失败的连续交互识别次数，将语音交互请求对应的命令词添加到连续失败命令词列表；

013：在连续交互识别次数大于次数阈值，且连续失败命令词列表中的命令词之间的词义相似度满足预设条件的情况下，提示用户更新语音热词。

请参阅图4，语音交互装置10还包括记录模块111和提示模块113。记录模块111用于在用户输入的语音交互请求匹配命令失败的情况下，记录匹配命令失败的连续交互识别次数，将语音交互请求对应的命令词添加到连续失败命令词列表；提示模块113用于在连续交互识别次数大于次数阈值，且连续失败命令词列表中的命令词之间的词义相似度满足预设条件的情况下，提示用户更新语音热词。

在用户输入的语音交互请求匹配命令失败的情况下，记录匹配命令失败的连续交互识别次数，将语音交互请求对应的命令词添加到连续失败命令词列表。例如，用户输入的语音交互请求为“播放国际歌”，在语音模型中识别的结果中匹配不到相应的命令，即语音交互请求匹配命令失败。此时，可以记录匹配命令失败的连续交互识别次数，匹配命令失败的连续交互识别次数可以为2次或2次以上。

在匹配命令失败的连续交互识别次数大于次数阈值，且连续失败命令词列表中的命令词之间的词义相似度满足预设条件的情况下，提示用户更新语音热词。其中，次数阈值可以为2次，连续失败命令词列表为连续识别失败的命令词构成的表格，例如4次用户连续交互识别失败产生的命令词列表包括“熄灯，灭灯，黑灯，闭灯”，4次用户输入的命令词所指向的命令均为“关灯”，且连续失败命令词列表中的4个命令词之间的词义相似度满足预设条件，则此时可以提示用户需要更新语音热词。

例如，预设条件可以为词义相似度为60％，若4个命令词之间的词义相似度为80％，则表示4个命令词之间的词义相似度满足预设条件，此时可以提示用户需要更新语音热词。

如此，本申请的语音交互方法可以通过记录匹配命令失败的连续交互识别次数，并将语音交互请求对应的命令词添加到连续失败命令词列表，在连续交互识别次数大于次数阈值，且连续失败命令词列表中的命令词之间的词义相似度满足预设条件的情况下，提示用户进行更新语音热词。

请参阅图5，语音交互方法包括：

015：在用户输入的语音交互请求匹配命令成功的情况下，清空匹配命令失败的连续交互识别次数和连续失败命令词列表。

请参阅图6，语音交互装置10还包括清空模块115。清空模块115用于在用户输入的语音交互请求匹配命令成功的情况下，清空匹配命令失败的连续交互识别次数和连续失败命令词列表。

具体地，在用户输入的语音交互请求匹配命令成功的情况下，清空匹配命令失败的连续交互识别次数和连续失败命令词列表。例如，匹配命令失败的连续交互识别次数为2，连续失败命令词列表中连续失败的命令词包括“熄灯，灭灯”，若下一次用户输入的语音交互请求为“关灯”，且匹配到了相应的关灯命令，此时，可返回相应的关灯命令完成语音交互，相应地，将匹配命令失败的连续交互识别次数清空或置0，并清空连续识别命令词列表。也就是说，语音交互请求匹配命令成功的情况下，用户根据当前输入的用户语音请求可以完成语音交互，不需要添加热词，从而匹配命令失败的连续交互识别次数可以重新计算，以及连续失败命令词列表重新记录匹配失败的命令词。

请参阅图7，在步骤011之后，语音交互方法包括：

012：根据连续失败命令词列表中的命令词之间的编辑距离和/或最长子串确定词义相似度。

请结合图8，语音交互装置10还包括相似度确定模块112。相似度确定模块112用于根据连续失败命令词列表中的命令词之间的编辑距离和/或最长子串确定词义相似度。

根据连续失败命令词列表中的命令词之间的编辑距离和/或最长子串确定词义相似度。也即是，本申请的语音交互方法可以通过比较连续失败命令词列表中的命令词之间的编辑距离或最长子串的规则约定的方法衡量命令词之间的词义相似度。

编辑距离是指一个字符串改编成另一个字符串的最少编辑操作次数，它描述了两个字符串的相近程度。允许的编辑操作包括：替换字符(Substitutions)、插入字符(Insertions)和删除字符(Deletions)。例如，调高音量->调大音量，只需要将“高”替换“大”即可，编辑距离为1；请关闭灯光->请熄灭灯光，需要将“关”替换“熄”，将“闭”替换“灭”，编辑距离为2；调高音量->请调高电视音量，需要在前面插入“请”，再在“调高”和“音量”之间插入“电视”，编辑距离为3。

例如，连续失败命令词列表中的命令词包括“熄灯，灭灯，黑灯，闭灯”。“熄灯”、“灭灯”、“黑灯”和“闭灯”之间的编辑距离均为1，则表示这4个连续失败命令词的词义相似度较高，即表示“熄灯”、“灭灯”、“黑灯”和“闭灯”之间的词义比较相似。

最长子串指的是无重复字符的最长子串。例如，连续失败命令词列表中的命令词包括“熄灯，灭灯，黑灯，闭灯”。“熄灯”、“灭灯”、“黑灯”和“闭灯”之间的最长子串为1，也可以表示这4个连续失败命令词的词义相似度较高，即表示“熄灯”、“灭灯”、“黑灯”和“闭灯”之间的词义比较相似。

如此，本申请的语音交互方法可以通过比较连续失败命令词列表中的命令词之间的编辑距离和/或最长子串的规则约定的方法衡量命令词之间的词义相似度，得到各个连续失败命令词之间的词义相似度，为判断连续失败命令词列表中的命令词之间的词义相似度是否满足预设条件奠定基础。

此外，用户发现，在语音交互请求中，某些词汇在语音交互过程中识别不准确的原因为：受热词库中的热词的影响导致语音交互请求中的原有正常词汇识别失误。例如，在将“调大音量”设为热词时，用户的语音交互请求中的命令词“调小音量”也常常会被识别成为“调大音量”。

有鉴于此，请参阅图9，语音交互方法包括：

04：获取用户输入的语音交互请求；

05：根据热词库和语音识别模型对语音交互请求进行处理得到命令词；

06：执行命令词对应的控制指令。

请参阅图10，语音交互装置还包括语音处理模块15和指令执行模块16。

请结合图2，获取模块11用于获取用户输入的语音交互请求；语音处理模块15用于根据热词库和语音识别模型对语音交互请求进行处理得到命令词；指令执行模块16用于执行命令词对应的控制指令。

具体地，对于用户发起的语音交互请求，本申请的交互方法可以先根据热词库和语音识别模型对语音交互请求进行处理得到命令词，从而执行命令词对应的控制指令。

用户输入的语音交互请求可以为“将电视调小音量”，热词库中具有热词“调小音量”，则可以根据热词库和语音识别模型对语音交互请求进行处理得到命令词为“调小音量”，从而执行命令词“调小音量”对应的控制指令。

如此，本申请的交互方法可以先根据热词库和语音识别模型对语音交互请求进行处理得到命令词，从而执行命令词对应的控制指令。

请参阅图11，步骤05包括：

051：获取热词库中的语音热词的声学得分和热词得分；

052：确定与语音热词的编辑距离为设定值的词汇数量；

053：根据声学得分、热词得分和词汇数量计算对应语音热词的综合得分；

054：根据综合得分在热词库中的语音热词中确定命令词。

请结合图10，语音处理模块15用于获取热词库中的语音热词的声学得分和热词得分；确定与语音热词的编辑距离为设定值的词汇数量；根据声学得分、热词得分和词汇数量计算对应语音热词的综合得分；根据综合得分在热词库中的语音热词中确定命令词。

首先，获取热词库中的语音热词的声学得分和热词得分。具体地，可以将用户的语音交互请求输入解码器，输出得到热词库中每个语音热词的声学得分。另外，由于热词更新的原理为将一些先验的知识加入到了语音识别系统中，利用端到端语音识别工具WeNet在解码过程中维护一个上下文图(Context Graph)中的状态。因此，可以通过子图中的状态计算得到热词库中每个语音热词的热词得分，即在原有声学得分的基础上增加了正比于热词权重的分数。

然后，确定与语音热词的编辑距离为设定值的词汇数量，即，可以确定热词库中每个语音热词与其他语音热词的编辑距离为设定值的词汇数量。例如，若热词库中的一个语音热词1为“调大音量”，热词库中的其他两个语音热词分别为语音热词2“调小音量”和语音热词3“调高音量”，则语音热词1“调大音量”与语音热词2“调小音量”的编辑距离为1，语音热词1“调大音量”与语音热词3“调高音量”的编辑距离也为1，若编辑距离的设定值为1，则此时语音热词1“调大音量”与热词库中的语音热词2“调小音量”和语音热词3“调高音量”的编辑距离为设定值的词汇数量为2。

接着，根据声学得分、热词得分和词汇数量计算得到对应语音热词的综合得分，即可以得到热词库中每个语音热词的综合得分。具体可以先通过浅融合(Shallow Fusion)的形式在束搜索的过程中先对某个语音热词的声学得分和热词得分进行相加，然后结合该语音热词与其他语音热词的编辑距离为设定值的计算得到对应语音热词的综合得分。

最后，根据综合得分在热词库中的语音热词中确定命令词。也即是，可以根据热词库中每个语音热词的综合得分的高低确定与用户语音请求中相对应的命令词，将综合得分高的语音热词确定为命令词。

如此，本申请的语音交互方法不仅增加了热词权重，而且，由于添加了热词库中每个语音热词与其他语音热词的编辑距离为设定值的词汇数量对综合得分的影响，可以在一定程度上削弱热词库中的相近的语音热词对应的热词权重对识别用户语音请求中的命令词的影响。

根据声学得分、热词得分和词汇数量计算对应语音热词的综合得分的步骤通过下列条件式实现：

其中，argmax log P(y|x)为声学得分，log P_C(y)为热词得分，为词汇数量，λ和μ为相应的系数。

具体地，若编辑距离的设定值为1，则为与y编辑距离为1的词汇数量。

就热词库中的单个语音热词而言，本申请的语音交互方法通过先对热词库中的单个语音热词的声学得分和热词得分进行加分，然后减去该语音热词与其他语音热词的编辑距离为设定值的词汇数量，从而计算得到该语音热词的综合得分，进而计算出热词库中每个语音热词的综合得分。

如此，本申请的语音交互方法不仅增加了热词权重，由于添加了热词库中每个语音热词与其他语音热词的编辑距离为设定值的词汇数量对综合得分的影响，可以在一定程度上削弱热词库中的相近的语音热词对应的热词权重对识别用户语音请求中的命令词的影响。

此外，根据声学得分、热词得分和词汇数量计算对应语音热词的综合得分的步骤还可以通过下列条件式实现：

其中，argmax log P(y|x)为声学得分，log P_C(y)为热词得分，为词汇数量，λ为相应的系数。

就热词库中的单个语音热词而言，本申请的语音交互方法对热词库中的单个语音热词的声学得分和热词得分进行加分，其中，将热词得分的系数λ除以该语音热词与其他语音热词的编辑距离为设定值的词汇数量进而计算得到该语音热词的综合得分，从而计算出热词库中每个语音热词的综合得分。

如此，本申请的语音交互方法不仅增加了热词权重，由于添加了热词库中每个语音热词与其他语音热词的编辑距离为设定值的词汇数量对综合得分的影响，可以在一定程度上削弱热词库中的相近的语音热词对应的热词权重对识别用户语音交互请求中语音交互请求中的命令词的影响。

请参阅图12，本申请还提供一种电子设备100。电子设备100包括处理器110和存储器120，存储器120存储有计算机程序121，计算机程序121被处理器10执行时实现上述任意一项实施例所述的语音交互方法。电子设备100包括手机、电脑、ipad等具有显示面板的智能设备。

本申请的电子设备100应用上述的语音交互方法可以将用户的语音交互请求中的陌生词汇添加至热词库中，使得用户的语音交互请求能够被语音识别模型识别得到对应的命令，改善在语音交互中应用语音识别模型无法准确理解用户语音指令的问题。

请参阅图13，本申请还提供一种包含有计算机程序的非易失性计算机可读存储介质200。当计算机程序210被一个或多个处理器220执行时，实现上述任意实施例所述的语音交互方法。

例如，计算机程序210被处理器220执行时实现以下语音交互方法的步骤：

03：根据目标语音热词更新语音识别模型的热词库。

可以理解，计算机程序210包括计算机程序代码。计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读存储介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、以及软件分发介质等。

本申请的计算机可读存储介质200应用上述的语音交互方法可以将用户的语音交互请求中的陌生词汇添加至热词库中，使得用户的语音交互请求能够被语音识别模型识别得到对应的命令，改善在语音交互中应用语音识别模型无法准确理解用户语音指令的问题。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

一种语音交互方法，包括：

响应于用户更新语音热词的预设语音请求，获取用户根据预设命令模板输入的语音数据；

根据所述预设命令模板对所述语音数据进行语音识别得到目标语音热词；以及

根据所述目标语音热词更新语音识别模型的热词库。
根据权利要求1所述的语音交互方法，其中，在响应于所述用户更新所述语音热词的所述预设语音请求，获取所述用户根据所述预设命令模板输入的所述语音数据的步骤之前，所述语音交互方法还包括：

在用户输入的语音交互请求匹配命令失败的情况下，记录匹配命令失败的连续交互识别次数，将所述语音交互请求对应的命令词添加到连续失败命令词列表；以及

在所述连续交互识别次数大于次数阈值，且所述连续失败命令词列表中的命令词之间的词义相似度满足预设条件的情况下，提示用户更新语音热词。
根据权利要求2所述的语音交互方法，其中，所述语音交互方法还包括：

在用户输入的所述语音交互请求匹配命令成功的情况下，清空匹配命令失败的所述连续交互识别次数和所述连续失败命令词列表。
根据权利要求2所述的语音交互方法，其中，在用户输入的所述语音交互请求匹配命令失败的情况下，记录匹配命令失败的所述连续交互识别次数，将所述语音交互请求对应的所述命令词添加到所述连续失败命令词列表的步骤之后，语音交互方法还包括：

根据所述连续失败命令词列表中的命令词之间的编辑距离和/或最长子串确定所述词义相似度。
根据权利要求1所述的语音交互方法，其中，所述语音交互方法还包括：

获取用户输入的语音交互请求；

根据所述热词库和所述语音识别模型对所述语音交互请求进行处理得到命令词；以及

执行所述命令词对应的控制指令。
根据权利要求5所述的语音交互方法，其中，根据所述热词库和所述语音识别模型对所述语音交互请求进行处理得到所述命令词的步骤包括：

获取所述热词库中的语音热词的声学得分和热词得分；

确定与所述语音热词的编辑距离为设定值的词汇数量；

根据所述声学得分、所述热词得分和所述词汇数量计算对应所述语音热词的综合得分；以及

根据所述综合得分在所述热词库中的语音热词中确定所述命令词。
根据权利要求6所述的语音交互方法，其中，所述根据所述声学得分、所述热词得分和所述词汇数量计算对应所述语音热词的综合得分的步骤通过下列条件式实现：

其中，argmax log P(y|x)为所述声学得分，log P_C(y)为所述热词得分，为所述词汇数量，λ和μ为相应的系数。
根据权利要求6所述的语音交互方法，其中，所述根据所述声学得分、所述热词得分和所述词汇数量计算对应所述语音热词的综合得分的步骤通过下列条件式实现：

其中，argmax log P(y|x)为所述声学得分，log P_C(y)为所述热词得分，为所述词汇数量，λ为相应的系数。
根据权利要求4所述的语音交互方法，其中，所述最长子串是指无重复字符的最长子串。
根据权利要求6-8任意一项所述的语音交互方法，其中，所述获取所述热词库中的语音热词的声学得分和热词得分的步骤包括：

将用户的语音交互请求输入解码器，利用解码器输出得到所述热词库中每个语音热词的声学得分；以及

利用端到端语音识别工具在解码过程中维护上下文图中的状态，通过该上下文图中的子图中的状态计算得到所述热词库中每个语音热词的热词得分。
一种语音交互装置，包括：

获取模块，用于响应于用户更新语音热词的预设语音请求，获取用户根据预设命令模板输入的语音数据；

识别模块，用于根据所述预设命令模板对所述语音数据进行语音识别得到目标语音热词；以及

热词库更新模块，用于根据所述目标语音热词更新语音识别模型的热词库。
一种电子设备，包括处理器和存储器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时实现权利要求1-10中任一项所述的语音交互方法。
一种包含计算机程序的非易失性计算机可读存储介质，其中，当所述计算机程序被一个或多个处理器执行时，使得所述处理器执行权利要求1-10中任一项所述的语音交互方法。
一种计算机程序，包括计算机可读代码，当所述计算机可读代码在计算处理设备上运行时，导致所述计算处理设备执行根据权利要求1-10中任一项所述的语音交互方法。