WO2021135561A1

WO2021135561A1 - 技能语音唤醒方法及装置

Info

Publication number: WO2021135561A1
Application number: PCT/CN2020/123643
Authority: WO
Inventors: 朱成亚
Original assignee: 思必驰科技股份有限公司
Priority date: 2019-12-31
Filing date: 2020-10-26
Publication date: 2021-07-08
Also published as: CN111081225A; EP4086892A4; JP2023506087A; CN111081225B; US11721328B2; US20230075023A1; EP4086892A1; JP7436077B2

Abstract

一种技能语音唤醒方法及装置，应用于电子设备，该技能语音唤醒方法包括：识别待处理的语音请求消息所对应的唤醒文本信息（S110）；调用业务技能语义模型确定该唤醒文本信息所对应的目标业务领域和相应的第一置信度，以及调用知识技能语义模型确定该唤醒文本信息所对应的知识回复答案和相应的第二置信度（S120）；根据该第一置信度和该第二置信度，选择唤醒知识技能和与该目标业务领域相对应的目标业务技能中的一者（S130）。由此，可以降低根据语音消息而错误唤醒技能的概率。

Description

技能语音唤醒方法及装置

技术领域

本发明属于互联网技术领域，尤其涉及一种技能语音唤醒方法及装置。

背景技术

随着语音技术和人工智能技术的不断发展，语音唤醒技术在诸如智能家居等智能设备领域取得了重大的发展。

目前，在智能设备中存在知识技能和业务技能，知识技能被用来为智能设备的用户提供相应的知识问答服务，例如能够就各个用户提问提供相应的答案。另外，业务技能被用来为智能设备的用户提供相应的业务服务，例如音乐服务、打车服务、查天气服务等等。

但是，一般的智能设备在对用户语音进行识别时，无法识别出用户语音的意图是用来唤醒业务技能的还是用来唤醒知识技能的，而致使技能的错误调用。示例性地，当智能音箱收到用户语音消息“李晨的妈妈是谁”，如果唤醒音乐技能，则会将歌手“李晨”的歌曲“妈妈是谁”进行播放，另外，如果唤醒知识技能，则会将答案“李晨的妈妈是XXX”进行播报回复。

针对上述问题，目前业界暂无较佳的解决方案。

发明内容

本发明实施例提供一种技能语音唤醒方法及装置，用于至少解决上述技术问题之一。

第一方面，本发明实施例提供一种技能语音唤醒方法，应用于电子设备，所述方法包括：识别待处理的语音请求消息所对应的唤醒文本信息；调用业务技能语义模型确定所述唤醒文本信息所对应的目标业务领域和相应的第一置信度，以及调用知识技能语义模型确定所述唤醒文本信息所对应的知识回复答案和相应的第二置信度；根据所述第一置信度和所述第二置信度，选择唤醒知识技能和与所述目标业务领域相对应的目标业务技能中的一者。

第二方面，本发明实施例提供一种技能语音唤醒装置，应用于电子设备，所述装置包括：语音识别单元，被配置为识别待处理的语音请求消息所对应的唤醒文本信息；模型调用单元，被配置为调用业务技能语义模型确定所述唤醒文本信息所对应的目标业务领域和相应的第一置信度，以及调用知识技能语义模型确定所述唤醒文本信息所对应的知识回复答案和相应的第二置信度；技能唤醒单元，被配置为根据所述第一置信度和所述第二置信度，选择唤醒知识技能和与所述目标业务领域相对应的目标业务技能中的一者。

第三方面，本发明实施例提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述方法的步骤。

第四方面，本发明实施例提供一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述方法的步骤。

本发明实施例的有益效果在于：在收到语音请求消息时，利用业务技能语义模型和知识技能语义模型来平行地确定相对应的业务领域和回复答案，并输出相应的置信度，进而可以对知识技能或目标业务技能进行唤醒。由此，对比了语音消息针对业务技能和知识技能的匹配度，可以降低根据语音消息而错误唤醒技能的概率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了根据本发明实施例的技能语音唤醒方法的一示例的流程图；

图2示出了根据本发明实施例的调用业务技能语义模型执行的操作的一示例的流程图；

图3示出了根据本发明实施例的确定业务相关度信息的操作的一示例的流程图；

图4示出了根据本发明实施例的音乐技能语音唤醒方法的一示例的原理流程图；和

图5示出了根据本发明实施例的技能语音唤醒装置的一示例的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

在本发明中，“模块”、“系统”等等指应用于计算机的相关部分，如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说，例如，元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有，运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中，并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间，并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号，例如，来自一个与本地系统、分布式系统中另一元件交互的，和/或在因特网的网络通过信号与其它系统交互的数据的信号通过本地和/或远程过程来进行通信。

最后，还需要说明的是，在本文中，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

为解决现有技术中存在的问题，本发明提供一种技能语音唤醒方法及装置，可以应用于电子设备，该电子设备可以为终端设备或者服务器端。其中，终端设备例如可以是智能音响、车机、智能电视、智能手机、平板电脑、智能手表等任何具备人机语音交互功能的电子设备，本发明对此不作限定；服务器端可以是为终端设备提供实现人机语音交互的技术支持的服务提供上的服务器设备。

图1示出了根据本发明实施例的技能语音唤醒方法的一示例的流程图。

如图1所示，在步骤110中，电子设备识别待处理的语音请求消息所对应的唤醒文本信息。这里，语音请求消息可以是通过智能语音设备的麦克风采集设备进行采集而得到的。另外，可以通过各种语音识别技术来确定语音请求消息所对应的唤醒文本信息，在此应不进行限制。

在步骤120中，电子设备调用业务技能语义模型确定所述唤醒文本信息所对应的目标业务领域和相应的第一置信度，以及调用知识技能语义模型确定所述唤醒文本信息所对应的知识回复答案和相应的第二置信度。示例性地，可以平行调用业务技能语义模型和知识技能语义模型，以同步进行预测，并输出相应的预测结果和置信度。另外，业务技能语义模型可以是以业务领域标签集进行语义训练的，知识技能语义模型可以是以知识问答标签集进行语义训练的，并且可以采用各种训练方式，在此应不加限制。

在步骤130中，电子设备根据第一置信度和第二置信度，选择唤醒知识技能和与目标业务领域相对应的目标业务技能中的一者。例如，当第一置信度大于第二置信度时，可以选择唤醒目标业务技能，而当第一置信度小于或等于第二置信度时，可以选择唤醒知识技能。这里，置信度可以表示预测概率，其可以是取0到1之间的数值。因此，通过本实施例，可以对比用户语音意图在音乐技能和知识技能之间的预测概率，降低了技能被误唤醒的概率。

图2示出了根据本发明实施例的调用业务技能语义模型执行的操作的一示例的流程图。

如图2所示，在步骤210中，电子设备提取唤醒文本信息中的唤醒业务关键词和唤醒业务实体信息。这里，唤醒业务关键词可以是在唤醒文本信息中具有业务属性的关键词，唤醒业务实体信息可以是在唤醒文本信息中具有实体属性的词语。示例性地，唤醒业务关键词可以是“难忘今宵”，而唤醒业务实体信息可以是歌手“李谷一”。另外，可以采用各种关键词抽取模型来抽取上述的唤醒业务关键词和唤醒业务实体信息，在此应不加限制。

在步骤220中，电子设备判断业务实体数据库中是否存在唤醒业务关键词和相应的唤醒业务实体信息。这里，业务实体数据库包括多个业务关键词和相应的业务实体信息，并且一个业务关键词可以与多个业务实体信息相对应。继上面的示例，在业务实体数据库中存储了与“难忘今宵”相对应的诸如“李谷一”、“董文华”、“张也”之类的多个演唱者。另外，业务实体数据库中的数据信息可以是通过预先收集而进行配置的，其能够反映出业务关键词与业务实体之间的关系，例如同一歌名的歌曲被哪些歌手所演唱过，或同一名称的电影被哪些演员所演绎过，等等。

如果在步骤220中的业务实体数据库中存在唤醒业务关键词和相应的唤醒业务实体信息时跳转至步骤231。另外，如果在步骤220中的业务实体数据库中不存在唤醒业务关键词和相应的唤醒业务实体信息时跳转至步骤232。

在步骤231中，电子设备将唤醒业务关键词提供给业务技能语义模型，以确定目标业务领域和相应的第一置信度。继上面的示例，如果唤醒业务关键词和相应的唤醒业务实体信息分别是“难忘今宵”和“李谷一”，则可以直接将“难忘今宵”提供给业务技能语义模型，以进行预测操作。

在步骤232中，电子设备获取唤醒业务关键词所对应的业务相关度信息。示例性地，可以将唤醒业务关键词提供给业务相关度分析工具，并从业务相关度分析工具来得到相应的业务相关度信息。另外，还可以通过分析唤醒业务关键词所对应的热度信息等来确定相应的业务相关度信息，具体细节将在下文中展开。

在步骤240中，电子设备将唤醒业务关键词和业务相关度信息提供给业务技能语义模型，以确定目标业务领域和相应的第一置信度。此时，业务技能语义模型的输入除了唤醒业务关键词之外，还有业务相关度信息，亦即业务相关度信息能够影响业务技能语义预测过程，使得所确定的针对目标业务领域的第一置信度的结果具有较高的精确度。

图3示出了根据本发明实施例的确定业务相关度信息的操作的一示例的流程图。

在步骤310中，电子设备基于搜索引擎确定所述唤醒业务关键词所对应的业务热度信息和搜索结果业务相关指标。示例性地，基于唤醒业务关键词调用搜索引擎，以从该搜索引擎来得到上述的业务热度信息和搜索结果业务相关指标，或者，从该搜索引擎来得到搜索结果并通过分析来确定相应的业务热度信息和搜索结果业务相关指标。这里，搜索结果业务相关指标可以用来反映搜索引擎所确定的搜索结果与业务之间的相关程度。

在一些实施方式中，基于搜索引擎确定唤醒业务关键词所对应的搜索结果。另外，基于预配置的搜索结果评价策略，确定该搜索结果所对应的搜索结果业务相关指标。示例性地，可以利用排序靠前的预定数量(例如，10个)的搜索结果针对目标业务领域进行相关度评价，并且搜索结果业务相关指标可以具有强相关、一般相关或弱相关的多级指标。

为了确保业务相关指标的精确度，还可以进行检索式变型的方式来进行多次检索，以确定业务相关指标。具体地，可以将唤醒业务关键词提供给搜索引擎，以确定相应的第一搜索结果，并且将唤醒业务关键词和目标业务领域所对应的业务名称提供给搜索引擎，以确定相应的第二搜索结果。进而，通过搜索结果评价策略可以对第一搜索结果和第二搜索结果进行评价，从而确定相应的搜索结果业务相关指标，例如综合考虑第一搜索结果、第二搜索结果与业务之间的相关性。

在步骤320中，电子设备基于业务热度信息和搜索结果业务相关指标，确定业务相关度信息。例如，业务相关度信息可以包括业务热度信息和搜索结果业务相关指标，或者业务热度信息与搜索结果业务相关指标针对业务相关度信息存在权重配置。

图4示出了根据本发明实施例的音乐技能语音唤醒方法的一示例的原理流程图。

关于本实施例中的业务技能可以是针对各种业务的，而在下文的实施例中仅结合音乐技能作为示例来展开描述。

需说明的是，在音乐领域，基于正则匹配的方法，存在“歌曲名+歌手名”这样的唤醒方式，并常被应用在很多音箱产品中。例如，当用户直接说“刘德华的忘情水”，是可以直接播放歌曲“忘情水”的。为了方便扩展，“刘德华”绑定了相应的歌曲名词库，“忘情水”也绑定了相应的歌手名词库，两个词库中信息很多，容易出现业务技能和知识技能误调用的情况。

在目前相关技术中，一般是直接删除歌曲名或歌手名词库中对应的说法。但是，这样会导致在真正说指定歌曲名或歌手名时，语义解析失败。此外，在一些应用场景下，用户还期望即使用户说错了歌手信息，也可以根据歌曲信息进行音乐播放操作，例如当用户说出“刘德华的吻别”时，确实匹配不到，但仍然可以播放歌曲吻别。

在本实施例中，可以通过爬虫来获取音乐歌曲名的热度信息和搜索信息，这样在语义解析时会将歌曲名带上热度信息、搜索信息等以及置信度信息。这里，关于搜索信息的获取过程，可以是直接将“歌曲名”放入搜索引擎以判断第一个词条是否是音乐类词条，并且如果第一个词条不是音乐类词条，搜索引擎搜索“歌曲名+‘歌曲’”(例如，“歌曲吻别”)并判断第一个词条是否是音乐类词条。因此，搜索信息可以存在多种搜索结果相关状态。

此外，在本实施例中，自建了音乐知识库，可以通过歌曲名查找所有对应的歌手列表

另外，语义解析出语义槽只有歌曲名+歌手名时，检查音乐知识库，查看是否匹配。如果匹配，再比较任务型技能置信度与知识型技能置信度。此外，如果不匹配，结合歌曲热度信息、搜索信息和置信度信息来重新计算新置信度，后重新比较知识型技能置信度和任务型技能置信度。

如图4所示的流程中，在文本输入后，平行调度任务型技能语义解析和知识型技能，任务型技能返回多个领域语义解析结果(包含slot语义槽信息和置信度信息，如果语义槽是歌曲名，包含热度和搜索信息)，知识型技能返回回答结果以及置信度等信息。

另外，得到两边结果后，判别任务型返回的是否包含音乐领域(可能一句话任务型返回了多个领域解析结果)。

然后，如果返回的业务领域包含音乐领域，判别解析的语义槽是否是单纯的“歌曲名+歌手名”。

然后，如果是“歌曲名+歌手名”，调用音乐知识库，判别歌曲名和歌手名是否匹配，

然后，如果歌曲名+歌手名匹配，走任务型语义解析结果和知识型技能调度融合模块。

然后，如果歌曲名+歌手名不匹配，重新计算任务型技能解析置信度(结合搜索信息，热度信息，置信度信息)，后再调用融合模块,选定任务型或知识型，如果选定任务型，多个任务型技能在通过融合算法选出一个，如果选定知识型技能，直接组织协议返回。

表1示出了使用本发明实施例的音乐技能语音唤醒方法前后的实验数据表。

表1

如表1所示，TP：正类，命中任务型技能；TN：负类命中知识型技能；FP：负类判别为正类；FN：正类判别为负类；recall：召回率(TP/(TP+FN))；precision：精确率(TP/(TP+FP))；accuracy：准确率((TP+TN)/(TP+FP+TN+FN))；F值：(2*precision*recall/(precision+recall))。

不能看出，优化前后相比，F值提升了5％。另外，如果再调整融合算法或对case by case进行优化，会取得更佳的优化效果。

如图5所示，技能语音唤醒装置500包括语音识别单元510、模型调用单元520和技能唤醒单元530。

语音识别单元510被配置为识别待处理的语音请求消息所对应的唤醒文本信息。语音识别单元510的操作可以参照上面参考图1中的步骤110的描述。

模型调用单元520被配置为调用业务技能语义模型确定所述唤醒文本信息所对应的目标业务领域和相应的第一置信度，以及调用知识技能语义模型确定所述唤醒文本信息所对应的知识回复答案和相应的第二置信度。模型调用单元520的操作可以参照上面参考图1中的步骤120的描述。

技能唤醒单元530被配置为根据所述第一置信度和所述第二置信度，选择唤醒知识技能和与所述目标业务领域相对应的目标业务技能中的一者。技能唤醒单元530的操作可以参照上面参考图1中的步骤130的描述。

上述本发明实施例的装置可用于执行本发明中相应的方法实施例，并相应的达到上述本发明方法实施例所达到的技术效果，这里不再赘述。

本发明实施例中可以通过硬件处理器(hardware processor)来实现相关功能模块。

另一方面，本发明实施例提供一种存储介质，其上存储有计算机程序，该程序被处理器执行如上的技能语音唤醒方法的步骤。

上述产品可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的方法。

本发明实施例的电子设备以多种形式存在，包括但不限于:

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC 设备等，例如iPad。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

一种技能语音唤醒方法，应用于电子设备，所述方法包括：

识别待处理的语音请求消息所对应的唤醒文本信息；

调用业务技能语义模型确定所述唤醒文本信息所对应的目标业务领域和相应的第一置信度，以及调用知识技能语义模型确定所述唤醒文本信息所对应的知识回复答案和相应的第二置信度；

根据所述第一置信度和所述第二置信度，选择唤醒知识技能和与所述目标业务领域相对应的目标业务技能中的一者。
如权利要求1所述的方法，其中，所述调用业务技能语义模型确定所述唤醒文本信息所对应的目标业务领域和相应的第一置信度包括：

提取所述唤醒文本信息中的唤醒业务关键词和唤醒业务实体信息；

判断业务实体数据库中是否存在所述唤醒业务关键词和相应的所述唤醒业务实体信息，所述业务实体数据库包括多个业务关键词和相应的业务实体信息；

当所述业务实体数据库中存在所述唤醒业务关键词和所述相应的所述唤醒业务实体信息时，将所述唤醒业务关键词提供给所述业务技能语义模型，以确定所述目标业务领域和相应的第一置信度。
如权利要求2所述的方法，其中，当所述业务实体数据库中不存在所述唤醒业务关键词或所述相应的所述唤醒业务实体信息时，所述方法还包括：

获取所述唤醒业务关键词所对应的业务相关度信息；

将所述唤醒业务关键词和所述业务相关度信息提供给所述业务技能语义模型，以确定所述目标业务领域和相应的第一置信度。
如权利要求3所述的方法，其中，所述获取所述唤醒业务关键词所对应的业务相关度信息包括：

基于搜索引擎确定所述唤醒业务关键词所对应的业务热度信息和搜索结果业务相关指标；

基于所述业务热度信息和所述搜索结果业务相关指标，确定所述业务相关度信息。
如权利要求4所述的方法，其中，所述基于搜索引擎确定所述唤醒业务关键词所对应的业务热度信息和搜索结果业务相关指标包括：

基于搜索引擎确定所述唤醒业务关键词所对应的搜索结果；

基于预配置的搜索结果评价策略，确定所述搜索结果所对应的搜索结果业务相关指标。
如权利要求5所述的方法，其中，所述基于搜索引擎确定所述唤醒业务关键词所对应的搜索结果包括：

将所述唤醒业务关键词提供给所述搜索引擎，以确定相应的第一搜索结果；以及

将所述唤醒业务关键词和所述目标业务领域所对应的业务名称提供给所述搜索引擎，以确定相应的第二搜索结果。
如权利要求1所述的方法，其中，所述目标业务技能包括音乐技能。
一种技能语音唤醒装置，应用于电子设备，所述装置包括：

语音识别单元，被配置为识别待处理的语音请求消息所对应的唤醒文本信息；

模型调用单元，被配置为调用业务技能语义模型确定所述唤醒文本信息所对应的目标业务领域和相应的第一置信度，以及调用知识技能语义模型确定所述唤醒文本信息所对应的知识回复答案和相应的第二置信度；

技能唤醒单元，被配置为根据所述第一置信度和所述第二置信度，选择唤醒知识技能和与所述目标业务领域相对应的目标业务技能中的一者。
一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述方法的步骤。
一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-7中任一项所述方法的步骤。