WO2021184794A1

WO2021184794A1 - 对话文本的技能领域确定方法及装置

Info

Publication number: WO2021184794A1
Application number: PCT/CN2020/129342
Authority: WO
Inventors: 朱成亚; 樊帅; 李春; 石韡斯
Original assignee: 思必驰科技股份有限公司
Priority date: 2020-03-18
Filing date: 2020-11-17
Publication date: 2021-09-23
Also published as: EP4123497A4; JP2023517363A; US20230133146A1; EP4123497A1; JP7481475B2; CN111414764A

Abstract

一种对话文本的技能领域确定方法和系统。所述方法包括：确定用户输入的对话文本命中的技能领域，以及技能领域下的名称语义槽和人物语义槽（S11）；当对话文本命中的技能领域为第一技能领域时，根据第一技能领域的知识库判断名称语义槽和人物语义槽是否匹配（S12）；若在第一技能领域的知识库下名称语义槽和人物语义槽不匹配，进一步根据第二技能领域的知识库判断名称语义槽和人物语义槽是否匹配（S13）；若在第二技能领域的知识库下名称语义槽和人物语义槽匹配，将第二技能领域确定为对话文本的技能领域（S14）。该方法降低了领域分类的错误率，让用户的语音对话命中的技能领域更加准确。

Description

对话文本的技能领域确定方法及装置

技术领域

本发明涉及智能语音领域，尤其涉及一种对话文本的技能领域确定方法及装置。

背景技术

在智能语音交互时，为了确保准确答复用户的对话，会确定用户对话命中的相应技能，从而进入相应的技能领域来向用户答复。在确定技能领域时，通常会使用基于正则的匹配方法。在做技能领域分类时，例如，电视语音产品中包含电影技能，使用的规则通常为“播放***的***”，例如，“播放刘德华的爱你一万年”，任务型技能解析如下，电影人：刘德华，片名：爱你一万年；“播放邓丽君的甜蜜蜜”，任务型技能影视解析如下，电影人：邓丽君，片名：甜蜜蜜。

然而“播放***的***”的这种规则同样适用于音乐技能，“播放刘德华的爱你一万年”，任务型技能音乐解析如下，歌曲名：爱你一万年，歌手名：刘德华；“播放邓丽君的甜蜜蜜”，任务型技能音乐解析如下，歌曲名：甜蜜蜜，歌手名：邓丽君。

在实现本发明过程中，发明人发现相关技术中至少存在如下问题：

如果对于同一句话，两个技能解析置信度相同的情况下，会使用默认优先的技能向用户答复。例如，电视语音产品中，影视技能的优先级会高于音乐技能。对于“播放邓丽君的甜蜜蜜”这种对话时，电视语音产品会优先选择电影技能，如果在“电影人”词库中没有邓丽君或者“片名”词库中没有甜蜜蜜的话，会重新选择音乐技能，然而解析出的语义槽的内容“邓丽君”、“甜蜜蜜”分别在“电影人”，“片名”词库中都存在，但是对应的语义槽却没有联系，导致技能领域命中错误，将本应落入音乐技能的对话落入到影视技能中，无法找到邓丽君出演的甜蜜蜜的电影，用户体验较差。

发明内容

为了至少解决现有技术中语义槽之间没有联系，使得技能领域命中错误的问题。

第一方面，本发明实施例提供一种对话文本的技能领域确定方法，包括：

确定用户输入的对话文本命中的技能领域，以及所述技能领域下的名称语义槽和人物语义槽；

当所述对话文本命中的技能领域为第一技能领域时，根据所述第一技能领域的知识库判断所述名称语义槽和所述人物语义槽是否匹配；

若在所述第一技能领域的知识库下所述名称语义槽和所述人物语义槽不匹配，进一步根据第二技能领域的知识库判断所述名称语义槽和所述人物语义槽是否匹配；

若在所述第二技能领域的知识库下所述名称语义槽和所述人物语义槽匹配，将所述第二技能领域确定为所述对话文本的技能领域。

第二方面，本发明实施例提供一种对话文本的技能领域确定装置，包括：

信息确定程序模块，确定用户输入的对话文本命中的技能领域，以及所述技能领域下的名称语义槽和人物语义槽；

第一匹配程序模块，用于当所述对话文本命中的技能领域为第一技能领域时，根据所述第一技能领域的知识库判断所述名称语义槽和所述人物语义槽是否匹配；

第二匹配程序模块，用于若在所述第一技能领域的知识库下所述名称语义槽和所述人物语义槽不匹配，进一步根据第二技能领域的知识库判断所述名称语义槽和所述人物语义槽是否匹配；

技能领域确定程序模块，用于若在所述第二技能领域的知识库下所述名称语义槽和所述人物语义槽匹配，将所述第二技能领域确定为所述对话文本的技能领域。

第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的对话文本的技能领域确定方法的步骤。

第四方面，本发明实施例提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现本发明任一实施例的对话文本的技能领域确定方法的步骤。

本发明实施例的有益效果在于：建立语义槽之间的关联，降低了领域分类的错误率，让用户的语音对话命中的技能领域更加准确，提高用户的使用效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种对话文本的技能领域确定方法的流程图；

图2是本发明一实施例提供的一种对话文本的技能领域确定装置的结构示意图；

图3为本发明的电子设备的一实施例的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种对话文本的技能领域确定方法，应用于电子设备。该电子设备可以为智能电视、智能手机、智能音箱、智能车机装置、智慧屏等，本发明对此不作限定。

如图1所示为本发明一实施例提供的一种对话文本的技能领域确定方法的流程图，包括如下步骤：

S11：电子设备确定用户输入的对话文本命中的技能领域，以及所述技能领域下的名称语义槽和人物语义槽；

S12：当所述对话文本命中的技能领域为第一技能领域时，电子设备根据所述第一技能领域的知识库判断所述名称语义槽和所述人物语义槽是否匹配；

S13：若在所述第一技能领域的知识库下所述名称语义槽和所述人物语义槽不匹配，电子设备进一步根据第二技能领域的知识库判断所述名称语义槽和所述人物语义槽是否匹配；

S14：若在所述第二技能领域的知识库下所述名称语义槽和所述人物语义槽匹配，电子设备将所述第二技能领域确定为所述对话文本的技能领域。

在本实施方式中，虽然直接删除影视技能中“片名”或“电影人”词库中对应的说法，但这样会导致在真正说指定“片名”或“电影人”时，语义解析失败。

为了解决这些缺陷，预先建立影视领域知识库以及音乐领域知识库，例如，影视领域知识库可以通过“片名”查找所有对应的“电影人”，例如，电影片名《甜蜜蜜》，对应的电影人有：陈可辛、张曼玉、黎明、曾志伟。在电影人中，不但可以包含演员的信息，还可以包含导演的信息。

同样的，音乐领域知识库，可以通过“歌曲名”查找所有对应的“歌手名”列表，例如，歌曲名《甜蜜蜜》，对应的歌手名有邓丽君、麻吉弟弟、薛凯琪。

对于步骤S11，电子设备(例如，智能电视)通常会搭载电视语音产品，电视语音产品中包含电影技能和音乐技能，但影视技能优先级高于音乐技能，在两个技能解析置信度相同的情况下，优先影视技能。

如果是智能手机通常会搭载智能对话语音产品，智能对话语音产品中也包含了电影技能和音乐技能，但音乐技能优先级高于影视技能，在两个技能解析置信度相同的情况下，优先音乐技能。

下面以智能电视为例，用户对智能电视说“播放邓丽君的甜蜜蜜”，平行调度任务型技能语义服务和知识型技能服务。通过任务型技能语义服务确定用户这句话会命中哪些技能领域，例如，可以命中“影视领域”和“音乐领域”。确定出“影视领域”下影视名称语义槽“甜蜜蜜”和电影人语义槽“邓丽君”；“音乐领域”下音乐名称语义槽“甜蜜蜜”和歌手名语义槽“邓丽君”。知识型技能服务包括影视领域知识库以及音乐领域知识库。

对于步骤S12，由于是智能电视，影视技能为第一技能，音乐技能为第二技能。当“播放邓丽君的甜蜜蜜”优先命中的技能为影视技能领域，会根据影视领域知识库来判断“甜蜜蜜”和“邓丽君”是否匹配。在上文中，影视领域知识库中电影片名《甜蜜蜜》，对应的电影人有：陈可辛、张曼玉、黎明、曾志伟。因此，在影视领域下的名称语义槽和所述人物语义槽不匹配。

对于步骤S13，在步骤S12中确定的影视领域下的名称语义槽和所述人物语义槽不匹配，在影视领域知识库中电影片名《甜蜜蜜》，对应的电影人中并没有“邓丽君”。进一步地根据“音乐技能”领域的知识库来判断“邓丽君”和“甜蜜蜜”是否匹配。

对于步骤S14，在音乐技能领域中，“邓丽君”和“甜蜜蜜”匹配，进而将音乐技能领域确定为“播放邓丽君的甜蜜蜜”的技能领域。进而调用音乐技能向用户播放邓丽君的甜蜜蜜。

为了进行校验，随机获取影视数据共计2001条，原badcase 69条，错误率3.4％，引入上面策略后，可以有效解决36条case，错误率降低到1.64％,错误率降低52.17％。

通过该实施方式可以看出，降低了领域分类的错误率，让用户的语音对话命中的技能领域更加准确，提高用户的使用效果。

作为一种实施方式，在本实施例中，当所述第一技能领域为影视领域时，所述第二技能领域为音乐领域；当所述第一技能领域为音乐领域，所述第二技能领域为影视领域。

在本实施方式中，如果是智能手机为例，音乐技能优先级高于影视技能，在两个技能解析置信度相同的情况下，优先音乐技能。当第一技能领域为音乐领域，第二技能领域为影视领域。

通过该实施方式可以看出，根据不同的语音产品预先配置不同技能的优先级，可以自由调整，对于智能手机，可以避免本应落入影视技能的对话落入到语音技能中。进一步提高语音对话命中技能领域的准确率。

作为一种实施方式，在本实施例中，若在所述第一技能领域的知识库下所述名称语义槽和所述人物语义槽匹配，将所述第一技能领域确定为所述对话文本的技能领域。

在本实施方式中，智能电视为例，第一技能领域为影视领域时，第二技能领域为音乐领域；“播放甄子丹的叶问”。如果影视领域的知识库下所述名称语义槽和所述人物语义槽匹配。那么直接将影视领域确定为“播放甄子丹的叶问”的技能领域。

作为一种实施方式，在所述将所述第二技能领域确定为所述对话文本的技能领域之后，所述方法还包括：

当用户再次输入所述对话文本时，优先将所述第二技能领域确定为所述对话文本的技能领域。

在本实施方式中，智能电视为例，如果用户首次输入“播放邓丽君的甜蜜蜜”，会进行上述方法的判断，确定音乐技能。当用户第二次再次输入“播放邓丽君的甜蜜蜜”时，此时无需判断，直接将音乐技能领域确定为“播放邓丽君的甜蜜蜜”的技能领域。进而调用音乐技能向用户播放邓丽君的甜蜜蜜。

通过该实施方式可以看出，对重复输入的对话，直接使用历史确定的技能领域对用户进行答复，提高交互效率。

如图2所示为本发明一实施例提供的一种对话文本的技能领域确定装置的结构示意图，该装置可执行上述任意实施例所述的对话文本的技能领域确定方法，并配置在终端中。

本实施例提供的一种对话文本的技能领域确定装置包括：信息确定程序模块11，第一匹配程序模块12，第二匹配程序模块13和技能领域确定程序模块14。

其中，信息确定程序模块11确定用户输入的对话文本命中的技能领域，以及所述技能领域下的名称语义槽和人物语义槽；第一匹配程序模块12用于当所述对话文本命中的技能领域为第一技能领域时，根据所述第一技能领域的知识库判断所述名称语义槽和所述人物语义槽是否匹配；第二匹配程序模块13用于若在所述第一技能领域的知识库下所述名称语义槽和所述人物语义槽不匹配，进一步根据第二技能领域的知识库判断所述名称语义槽和所述人物语义槽是否匹配；技能领域确定程序模块14用于若在所述第二技能领域的知识库下所述名称语义槽和所述人物语义槽匹配，将所述第二技能领域确定为所述对话文本的技能领域。

进一步地，所述装置还用于：

预先建立影视领域知识库以及音乐领域知识库，其中，所述影视领域知识库中存储有影视名称与电影人之间的关联信息，所述音乐领域知识库中存储有音乐名称与歌手名之间的关联信息。

进一步地，当所述第一技能领域为影视领域时，所述第二技能领域为音乐领域；当所述第一技能领域为音乐领域，所述第二技能领域为影视领域。

进一步地，若在所述第一技能领域的知识库下所述名称语义槽和所述人物语义槽匹配，将所述第一技能领域确定为所述对话文本的技能领域。

进一步地，所述装置还用于：

本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的对话文本的技能领域确定方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中，当被处理器执行时，执行上述任意方法实施例中的对话文本的技能领域确定方法。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行：

在一些实施例中，处理器还用于：预先建立影视领域知识库以及音乐领域知识库，其中，所述影视领域知识库中存储有影视名称与电影人之间的关联信息，所述音乐领域知识库中存储有音乐名称与歌手名之间的关联信息。

在一些实施例中，当所述第一技能领域为影视领域时，所述第二技能领域为音乐领域；当所述第一技能领域为音乐领域，所述第二技能领域为影视领域。

在一些实施例中，处理器还用于：若在所述第一技能领域的知识库下所述名称语义槽和所述人物语义槽匹配，将所述第一技能领域确定为所述对话文本的技能领域。

在一些实施例中，处理器还用于：在所述将所述第二技能领域确定为所述对话文本的技能领域之后，当用户再次输入所述对话文本时，优先将所述第二技能领域确定为所述对话文本的技能领域。

图3是本发明另一实施例提供的执行对话文本的技能领域确定方法的电子设备的硬件结构示意图，如图3所示，该设备包括：

一个或多个处理器310以及存储器320，图3中以一个处理器310为例。

执行对话文本的技能领域确定方法的设备还可以包括：输入装置330和输出装置340。

处理器310、存储器320、输入装置330和输出装置340可以通过总线或者其他方式连接，图3中以通过总线连接为例。

存储器320作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的对话文本的技能领域确定方法对应的程序指令/模块。处理器310通过运行存储在存储器320中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例对话文本的技能领域确定方法。

存储器320可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据对话文本的技能领域确定装置的使用所创建的数据等。此外，存储器320可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器320可选包括相对于处理器310远程设置的存储器，这些远程存储器可以通过网络连接至对话文本的技能领域确定装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置330可接收输入的数字或字符信息，以及产生与对话文本的技能领域确定装置的用户设置以及功能控制有关的信号。输出装置340可包括显示屏等显示设备。

所述一个或者多个模块存储在所述存储器320中，当被所述一个或者多个处理器310执行时，执行上述任意方法实施例中的对话文本的技能领域确定。

本发明实施例的电子设备以多种形式存在，包括但不限于：

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如平板电脑。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)其他具有语音交互的电子装置。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

一种对话文本的技能领域确定方法，用于电子设备，该方法包括：

所述电子设备确定用户输入的对话文本命中的技能领域，以及所述技能领域下的名称语义槽和人物语义槽；

当所述对话文本命中的技能领域为第一技能领域时，所述电子设备根据所述第一技能领域的知识库判断所述名称语义槽和所述人物语义槽是否匹配；

若在所述第一技能领域的知识库下所述名称语义槽和所述人物语义槽不匹配，所述电子设备进一步根据第二技能领域的知识库判断所述名称语义槽和所述人物语义槽是否匹配；

若在所述第二技能领域的知识库下所述名称语义槽和所述人物语义槽匹配，所述电子设备将所述第二技能领域确定为所述对话文本的技能领域。
根据权利要求1所述的方法，其中，所述方法还包括：

预先建立影视领域知识库以及音乐领域知识库，其中，所述影视领域知识库中存储有影视名称与电影人之间的关联信息，所述音乐领域知识库中存储有音乐名称与歌手名之间的关联信息。
根据权利要求1所述的方法，其中，当所述第一技能领域为影视领域时，所述第二技能领域为音乐领域；当所述第一技能领域为音乐领域，所述第二技能领域为影视领域。
根据权利要求1所述的方法，其中，若在所述第一技能领域的知识库下所述名称语义槽和所述人物语义槽匹配，将所述第一技能领域确定为所述对话文本的技能领域。
根据权利要求1所述的方法，其中，在所述将所述第二技能领域确定为所述对话文本的技能领域之后，所述方法还包括：

当用户再次输入所述对话文本时，优先将所述第二技能领域确定为所述对话文本的技能领域。
一种对话文本的技能领域确定装置，包括：

信息确定程序模块，确定用户输入的对话文本命中的技能领域，以及所述技能领域下的名称语义槽和人物语义槽；

第一匹配程序模块，用于当所述对话文本命中的技能领域为第一技能领域时，根据所述第一技能领域的知识库判断所述名称语义槽和所述人物语义槽是否匹配；

第二匹配程序模块，用于若在所述第一技能领域的知识库下所述名称语义槽和所述人物语义槽不匹配，进一步根据第二技能领域的知识库判断所述名称语义槽和所述人物语义槽是否匹配；

技能领域确定程序模块，用于若在所述第二技能领域的知识库下所述名称语义槽和所述人物语义槽匹配，将所述第二技能领域确定为所述对话文本的技能领域。
根据权利要求6所述的装置，其中，所述装置还用于：

预先建立影视领域知识库以及音乐领域知识库，其中，所述影视领域知识库中存储有影视名称与电影人之间的关联信息，所述音乐领域知识库中存储有音乐名称与歌手名之间的关联信息。
根据权利要求6所述的装置，其中，当所述第一技能领域为影视领域时，所述第二技能领域为音乐领域；当所述第一技能领域为音乐领域，所述第二技能领域为影视领域。
一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5中任一项所述方法的步骤。
一种存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现权利要求1-5中任一项所述方法的步骤。