WO2018141140A1

WO2018141140A1 - 一种语义识别方法和装置

Info

Publication number: WO2018141140A1
Application number: PCT/CN2017/083943
Authority: WO
Inventors: 陈禧
Original assignee: 中兴通讯股份有限公司
Priority date: 2017-02-06
Filing date: 2017-05-11
Publication date: 2018-08-09
Also published as: CN108399919A

Abstract

一种语义识别方法和装置，所述方法包括：获取根据用户输入的语音信息转换得到的文本信息（S101）；根据所述文本信息与匹配文档中的文本信息，确定所述文本信息的语义识别结果（S102）。

Description

一种语义识别方法和装置

技术领域

本公开涉及通讯领域，尤其涉及一种语义识别方法和装置。

背景技术

随着通讯技术的发展，手机、电脑等设备上的语音服务已广泛应用于人们的日常生活之中，例如IPhone手机的语音服务、哦啦语音服务、百度语音服务等。语音语义服务的常见方法是先将用户的语音数据转换为文本信息，然后对文本信息进行语义分析来理解用户的操控意图，然后返回各种操控意图对应内容的数据给终端设备，终端设备根据获取的数据内容进行对应的操作。

图1描述了相关技术中的语音语义处理的流程图，如图1所示，相关技术中语音语义处理流程包括以下步骤：开始语音语义处理后，终端设备获取用户指令的语音数据，然后终端设备通过语音识别模块将语音数据转换为文本信息，接着将文本信息上传至云端服务器进行语义识别，终端设备根据语义识别结果执行用户指令所对应的操作。目前主流的语音语义处理方案都基于Client/Server(客户端/服务器)结构，因为Client/Server结构可以发挥服务器端强大的存储和运算能力。而应用Client/Server结构时，终端设备必须在连接数据业务或者WiFi(Wireless Fidelity，无线保真)的情况下才能正常使用语音服务，若在网络比较拥堵或网速比较慢的情况下，服务器返回解析结果会比较慢，从而导致终端设备确定用户指令的时间变长、速度变慢；同时，因为终端设备语音使用的场景是比较有限的，云端服务器的识别结果针对性不强，执行效率低，也会影响识别率。

发明内容

为解决现有存在的技术问题，本公开实施例提供一种语义识别方法和装置，解决了相关技术方案中必须连接网络才能进行语义分析的问题，实现了在本地处理大部分文本信息的功能，进而提高了识别速率和文本信息处理的针对性。

为达到上述目的，本公开实施例的技术方案是这样实现的：

第一方面，本公开实施例提供了一种语义识别方法，所述方法包括：

获取根据用户输入的语音信息转换得到的文本信息；

根据所述文本信息与匹配文档中的文本信息，确定所述文本信息的语义识别结果。

第二方面，本公开实施例提供了一种语义识别装置，所述装置包括：获取模块和第一确定模块，其中：

所述获取模块，用于获取根据用户输入的语音信息转换得到的文本信息；

所述第一确定模块，用于根据所述文本信息与匹配文档中的文本信息，确定所述文本信息的语义识别结果。

第三方面，本公开实施例提供了一种语义识别设备，所述设备包括：处理器；存储器，存储有可由所述处理器执行的指令；其中所述处理器被配置为执行如上所述的方法。

第四方面，本公开实施例提供了一种存储有计算机程序的存储介质，所述计算机程序在由计算机的处理器运行时，使所述计算机执行如上所述的方法。

本公开的实施例提供的语义识别方法和装置，通过将获取的语音信息转换为文本信息后，根据获取语音信息的场景标识，在匹配文档对应的场景标识下确定文本信息与匹配文档的某一子文档是否匹配，若匹配则获取操作指令并执行，若匹配失败则将文本信息上传至网络中的服务器进行匹配并获取操作指令。如此，能够实现在本地处理大部分文本信息的功能，且提高了识别速率和文本信息处理的针对性。

附图说明

图1为本相关技术中的语义识别方法流程示意图；

图2为本公开实施例一提供的语义识别方法流程示意图；

图3为本公开实施例二提供的语义识别方法流程示意图；

图4为本公开实施例三提供的子文档树形结构图；

图5-1为本公开实施例四提供的语义识别方法流程示意图；

图5-2为本公开实施例四提供的语义识别方法的BNF文件解析处理流程示意图；

图5-3为本公开实施例四提供的基于改进BNF的语义识别处理流程示意图；

图5-4为本公开实施例四提供的BNF文档树形结构图一；

图5-5为本公开实施例四提供的BNF文档树形结构图二；

图5-6为本公开实施例四提供的BNF文档树形结构图三；

图6为本公开实施例五提供的语义识别装置结构示意图。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述。

实施例一

本公开实施例提供一种语义识别方法，如图2所示，该方法包括：

步骤S101、获取根据用户输入的语音信息转换得到的文本信息。

需要说明的是，本实施例的执行主体为语义识别装置，该语义识别装置可以装载在终端上，终端可以为智能手机、智能电脑、便携智能设备、平板电脑、台式电脑、智能电视等，本实施例以智能手机为例对语义识别方法进行描述。

智能手机中装载有语音识别模块，当用户向智能手机输入语音信息时，智能手机通过语音识别模块接收语音信息并将语音信息转化成文本信息。

步骤S102、根据所述文本信息与匹配文档中的文本信息，确定所述文本信息的语义识别结果。

这里，所述匹配文档可以是存储在智能终端本机中的匹配文档，也可以是存储在所述智能终端所在局域网中其他设备上的匹配文档。

在本公开实施例提供的语义识别方法中，首先获取根据用户输入的语音信息转换得到的文本信息，再根据所述文本信息与匹配文档中的文本信息，确定所述文本信息的语义识别结果。由于匹配文档是存储在智能终端本机中的或者是存储在所述智能终端所在局域网中其他设备上的，因此，能够实现在本地处理大部分文本信息的功能，进而提高了识别速率和文本信息处理的针对性。

实施例二

本公开实施例提供一种语义识别方法，如图3所示，该方法包括：

所述步骤S102根据所述文本信息与匹配文档中的文本信息，确定所述文本信息的语义识别结果的过程，进一步包括：

步骤S1021、确定所述文本信息对应的场景标识；

在本公开其他实施例中，所述步骤S1021进一步包括：

获取正在运行在所述终端上的应用程序的标识信息；

根据所述应用程序的标识信息查询预设的关系表，得到所述终端的场景标识；

这里，所述关系表用于表明应用程序的标识信息与所述终端的场景标识之间的映射关系。

步骤S1022、根据所述场景标识和所述匹配文档确定子文档；

步骤S1023、判断所述文本信息与所述子文档的文本信息是否匹配，得到匹配结果；

这里，所述匹配文档按照场景标识分为子文档，每一所述子文档按照树形结构表示，其中所述树形结构中以场景标识为根节点、以子场景标识或文本信息为所述场景标识表示的根节点的子节点。

对应地，在本公开其他实施例中，所述步骤S1023进一步包括：

步骤S1023a、判断所述树形结构的根节点是否有子场景标识的第一子节点；

步骤S1023b、如果所述树形结构的根节点有子场景标识的第一子节点，确定以所述第一子节点为根节点的子树中仅包含叶子节点的第二子节点集合；

步骤S1023c、确定所述每一个第二子节点所包含的第一叶子节点集合；

步骤S1023d、判断是否每一个第二子节点所包含的第一叶子节点集合中都存在一个叶子节点所包含的文本信息存在于所述文本信息中；

其中，如果每一个第二子节点所包含的第一叶子节点集合中都存在一个叶子节点所包含的文本信息存在于所述文本信息中则所述文本信息与所述子文档的文本信息匹配，如果有任何一个第二子节点中所包含的第一叶子节点集合中不存在一个叶子节点所包含的文本信息存在于所述文本信息中则所述文本信息与所述子文档的文本信息不匹配。

这里，本实施例中另一种确定文本信息是否与所述匹配文档中的内容匹配的方法为：将所述本地匹配文档按照场景标识分为子文档，每一所述子文档按照树形结构表示，其中所述树形结构中以场景标识为根节点、以子场景标识或文本信息为所述场景标识表示的根节点的子节点；确定仅包含叶子节点的子节点从所述根节点的左侧至右侧依次为第一子节点至第N子节点，N为大于0的整数，所述第一子节点至第N子节点是按照构成预设的语法格式的进行排列的一系列节点；确定所述第一子节点包含的第一叶子节点集合；确定第一信息长度，所述第一信息长度为所述第一叶子节点集合中每一个叶子节点所包含的信息的长度；从所述文本信息的第一个字符起获取长度为所述第一信息长度的第一文本信息片段；确定所述第一叶子节点集合中是否有其中一个叶子节点所包含的信息与所述第一语义片段相同；若所述第一叶子节点集合中有其中一个叶子节点所包含的信息与所述第一语义片段相同，则确定所述第二子节点包含的第二叶子节点集合；确定第二信息长度，所述第二信息长度为所述第二叶子节点集合中每一个叶子节点所包含的信息的长度；从去掉所述第一语义片段的文本信息的第一个字符起获取长度为所述第二信息长度的第二文本信息片段；确定所述第二叶子节点集合中是否有其中一个叶子节点所包含的信息与所述第二语义片段相同；若所述第二叶子节点集合中有其中一个叶子节点所包含的信息与所述第一语义片段相同，则确定所述第三子节点包含的叶子节点集合中是否有其中一个叶子节点所包含的信息与所述第三语义片段相同；依次类推，直至确定所述第N子节点包含的叶子节点集合中是否有其中一个叶子节点所包含的信息与所述第N语义片段相同，所述第N语义片段的最后一个字符是所述文本信息的最后一个字符；若所述第N子节点包含的叶子节点集合中有其中一个叶子节点所包含的信息与所述第N语义片段相同，则所述文本信息与所述子文档的文本信息匹配；若所述第一子节点至所述第N子节点中任意一个子节点所包含的叶子节点信息不存在于所述文本信息中，确定所述文本信息与所述子文档的文本信息不匹配。

而对于若所述文本信息对应的场景标识为预设的场景标识的情形，其中，所述预设的场景标识为在智能手机显示主界面时接收到文本信息的场景，智能手机获取用户的语音信息，这时智能手机无法确定文本信息的场景标识，语义识别的过程为：遍历所述场景标识对应的树形结构，确定所述所有场景标识所对应的所有树形结构中的其中一个树形结构是否与所述文本信息匹配；若其中一个树形结构的所述叶子节点的信息包含所述文本信息，所述文本信息与所述其中一个树形结构的内容匹配；若任意一个所述树形结构的所述叶子节点的信息均不包含所述文本信息，所述文本信息与所述叶子节点的内容不匹配。

步骤S1024、根据所述匹配结果，确定所述文本信息的语义识别结果；

这里，如果所述匹配结果为所述文本信息与所述子文档的文本信息匹配，则所述文本信息的语义识别结果为识别成功；如果所述匹配结果为所述文本信息与所述子文档的文本信息不匹配，则所述文本信息的语义识别结果为识别失败。

步骤S103、根据所述识别结果确定操作指令；

这里，所述步骤S103进一步包括：

步骤S1031、若所述识别结果表明所述文本信息与所述匹配文档中的文本信息匹配，按预设格式输出与所述匹配文档中的文本信息对应的操作指令，

这里，所述操作指令指示终端处理所述文本信息所表示的操作；

步骤S1032、若所述识别结果表明所述文本信息与所述匹配文档中的文本信息不匹配，则将所述文本信息上传至网络中的服务器；

步骤S1033、接收所述服务器发送的操作指令。

也就是说，当智能终端接收到用户的语音信息后，将所述语音信息转换为文本信息，并首先将得到的文本信息与存储在本机或者终端所在局域网中其他设备中的匹配文档进行匹配，判断是否识别成功，如果识别成功则根据匹配文档中的文本信息生成操作指令，如果识别失败，再将所述文本信息发送到远端服务器，进而确定用户的语音信息所对应的操作指令。这样，即可以提高语音识别效率，并且在不能识别的时候再发送给服务器，进而保证了识别的正确性。

步骤S104、执行所述操作指令。

这里，智能手机执行本地生成的操作指令或者从服务器端获取的操作指令，完成用户的语音信息指示的操作。

本公开的实施例提供的语义识别方法，通过将获取的语音信息转换为文本信息后，根据获取语音信息的场景标识，在匹配文档对应的场景标识下确定文本信息与匹配文档的某一子文档是否匹配，得到匹配结果，并根据所述匹配结果确定语义识别结果。如此，能够实现在本地处理大部分文本信息的功能，进而提高了识别速率和文本信息处理的针对性。

实施例三

本公开实施例提供一种语义识别方法，该方法包括：

步骤S201、获取文本信息，所述文本信息是用户输入的语音信息转换后的文本信息。

本步骤和实施例一中的步骤S101内容相同，这里不再赘述。

步骤S202、确定所述文本信息对应的场景标识。

这里，当用户进行语音信息输入时，终端上正在运行的应用程序即用户输入语音信息的场景，根据应用程序的标识信息，查询预设的关系表，得到所述终端的场景标识。这里，预设的关系表用于表明应用程序的标识信息与终端的场景标识之间的映射关系，通过查询可获取场景标识并用于下一步的操作。

终端获取文本信息的场景有两种情形。第一种，终端正在运行某一应用程序，例如图库、聊天软件、词典等，如果在运行某一程序时用户进行了语音信息输入，那么该语音信息会与所运行的应用程序相关，即可通过查询应用程序的标识信息确定文本信息的场景标识，若获取的场景标识是终端中的某一应用程序，则继续步骤S203；第二种，终端获取用户输入的语音信息时，终端显示的是主界面，并未运行某一应用程序，这时终端获取的场景标识是主界面，这时则继续步骤S205；

步骤S203、根据所述场景标识确定子文档。

需要说明的是，终端中预存储了很多场景标识下可能获取的文本信息，这些文本信息构成了存取于终端本地的匹配文档，其中每一个场景标识下会有一个对应的子文档，子文档中包含了该场景标识下终端在本地可识别的文本信息。其中，子文档可为多种存储形式，本实施例中，子文档使用BNF(Backus-Naur Form，巴科斯-劳尔范式)对匹配文档进行编辑和存储，BNF是一种通过形式化符号来描述给定语言语法的方法。BNF的语法规则如下：

1)在双引号中的字("word")代表着这些字符本身；

2)在双引号外的字(有可能有下划线)代表语法部分；

3)尖括号(<>)内包含的为该语句中的必选项；

4)方括号([])内包含的为该语句中的可选项；

5)大括号({})内包含的为该语句中的可重复0至无数次的项；

6)竖线(|)表示在竖线左右两边任选一项，相当于“OR”的意思；

7):＝是“被定义为”的意思；

本实施例为了完成语义识别，增加了如下的一个定义：

8)<…>表示不确定的内容，为必选项。增加该定义，主要是用于表示语法中出现的不确定信息(比如人名、地名、时间等不确定文本信息)。

示例性地，对于在翻译应用程序的场景下子文档的内容如下：

<translate>:＝<translate_only>；

<translate_only>:＝<TranslateCmd><...>；

<TranslateCmd>:＝"翻译一下"|"翻译下"|"翻译"；

终端根据获取语音信息时正在运行翻译应用程序，确定场景标识为<translate>，使用<translate>子文档对文本信息进行匹配。

步骤S204、确定所述文本信息与所述子文档的文本信息是否匹配；如果所述文本信息与所述子文档的文本信息匹配，确定所述匹配结果为所述文本信息与所述匹配文档中的文本信息匹配；如果所述文本信息与所述子文档的文本信息不匹配，确定所述匹配结果为所述文本信息与所述匹配文档中的内容不匹配。

本实施例中将子文档分为两种方式分别与文本信息进行匹配。

第一种方式，将子文档使用树形结构表示，获取树形结构的叶子节点信息，确认叶子节点信息是否包含文本信息，并确认一系列叶子节点信息的语法格式是否与文本信息相同。

第一种方式的处理过程为：所述本地匹配文档按照场景标识分为子文档，每一所述子文档按照树形结构表示，其中所述树形结构中以场景标识为根节点、以子场景标识或文本信息为所述场景标识表示的根节点的子节点；

步骤S2411、确定根节点下所有叶子节点的文本信息；判断所述所有叶子节点的文本信息是否能够组成所述文本信息；

步骤S2412、如果所述所有叶子节点的文本信息能够组成所述文本信息，按照所述文本信息的语言结构确定组成所述文本信息的标识所组成的序列；

步骤S2413、判断所述序列是否合法，如果合法，确定所述文本信息与所述子文档的文本信息匹配，如果不合法，确定所述文本信息与所述子文档的文本信息不匹配；

步骤S2414、如果合法，按照所述序列确定操作指令。

示例性地，终端获取的文本信息为“翻译今天成都的天气怎么样”。获取该文本信息时，终端的获取的场景标识为<translate>，那么使用以<translate>为根节点的树形结构与获取的文本信息进行匹配。判断<translate>为根节点的树形结构的叶节点信息是否包含了文本信息“翻译今天成都的天气怎么样”，如果包含了文本信息，那么判断组成文本信息“翻译今天成都的天气怎么样”的叶节点信息是否符合语法规则；如果合法，则匹配，不合法，则不匹配。例如，子文档中的场景标识为<translate>下的语法规则是{“翻译”<…>“为”“英语”}，那么与文本信息“翻译今天成都的天气怎么样”相比，子文档虽然包含了文本信息，但是子文档的语法规则中多了将某字符串翻译成什么语言类型，所以子文档的文本信息与文本信息不同，这样则为不合法的，子文档的文本信息与文本信息不匹配。

第二种方式，将本地匹配文档按照树形结构表示，以遍历树形结构的方式与文本信息进行匹配。

第二种方式的处理过程为：所述本地匹配文档按照场景标识分为子文档，每一所述子文档按照树形结构表示，其中所述树形结构中以场景标识为根节点、以子场景标识或文本信息为所述场景标识表示的根节点的子节点；

步骤S2421、确定仅包含叶子节点的子节点从所述根节点的左侧至右侧依次为第一子节点至第N子节点，N为大于0的整数，所述第一子节点至第N子节点是按照构成预设的语法格式的进行排列的一系列节点；

步骤S2422、确定所述第一子节点包含的第一叶子节点集合；

步骤S2423、确定第一信息长度，所述第一信息长度为所述第一叶子节点集合中每一个叶子节点所包含的信息的长度；

步骤S2424、从所文本信息的第一个字符起获取长度为所述第一信息长度的第一文本信息片段；

步骤S2425、确定所述第一叶子节点集合中是否有其中一个叶子节点所包含的信息与所述第一语义片段相同；

步骤S2426、若所述第一叶子节点集合中有其中一个叶子节点所包含的信息与所述第一语义片段相同，则确定所述第二子节点包含的第二叶子节点集合；

步骤S2427、确定第二信息长度，所述第二信息长度为所述第二叶子节点集合中每一个叶子节点所包含的信息的长度；

步骤S2428、从去掉所述第一语义片段的文本信息的第一个字符起获取长度为所述第二信息长度的第二文本信息片段；

步骤S2429、确定所述第二叶子节点集合中是否有其中一个叶子节点所包含的信息与所述第二语义片段相同；

步骤S2430、若所述第二叶子节点集合中有其中一个叶子节点所包含的信息与所述第一语义片段相同，则确定所述第三子节点包含的叶子节点集合中是否有其中一个叶子节点所包含的信息与所述第三语义片段相同；

步骤S2431、依次类推，直至确定所述第N子节点包含的叶子节点集合中是否有其中一个叶子节点所包含的信息与所述第N语义片段相同，所述第N语义片段的最后一个字符是所述文本信息的最后一个字符；

步骤S2432、若所述第N子节点包含的叶子节点集合中有其中一个叶子节点所包含的信息与所述第N语义片段相同，则所述文本信息与所述子文档的文本信息匹配；若所述第一子节点至所述第N子节点中任意一个子节点所包含的叶子节点信息不存在于所述文本信息中，确定所述文本信息与所述子文档的文本信息不匹配。

示例性地，终端获取的文本信息为“翻译一下今天成都的天气怎么样”。获取该文本信息时，终端的获取的场景标识为<translate>，那么使用以<translate>为根节点的树形结构的信息和获取的文本信息进行匹配。以<translate>为根节点的树形结构如图4所示，其中<translate>是树形结构的根节点，<translate_only>是<translate>的子节点，<translate_only>的子节点为<TranslateCmd>和<...>，<TranslateCmd>和<...>仅包含叶子节点，即为本步骤中的第一子节点至第N子节点，这里N等于2。第一子节点至第二子节点是按照构成翻译情景的语法格式的进行排列节点。第一子节点<TranslateCmd>包含的叶子节点为“翻译一下”、“翻译下”、“翻译”；第二子节点<...>的内容为本实施例中定义的不确定内容。

进行语义匹配时，由根节点<translate>的由左至右方向遍历该树形结构。具体过程为：

终端通过<translate>获取到子节点<translate_only>，<translate_only>有两个分支，首先查询左侧的分支，查询到子节点<TranslateCmd>，子节点<TranslateCmd>的内容(“翻译一下”、“翻译下”、“翻译”)即为第一叶子节点集合，终端设备将“翻译一下”、“翻译下”、“翻译”这三个文本信息分别从文本信息“翻译一下今天成都的天气怎么样”的第一字符起开始进行匹配。其中第一信息为“翻译一下”、“翻译下”、“翻译”三个字符串中的任意一个，依次将三个字符串与文本信息进行匹配。例如，匹配“翻译一下”是否存在于文本信息中：终端首先获取“翻译一下”的字符串长度，获取到第一信息“翻译一下”的字符串长度为四个字符；从所文本信息的第一个字符起获取长度为所述第一信息长度的定义为第一文本信息片段，即为本例中的“翻译一下”，可以确定第一信息中的其中一个文本信息与第一文本信息片段相同，那么第一信息与第一文本信息片段匹配；继续确定第二叶子节点集合是否与第二文本信息片段匹配；第二子节点为<…>，因<…>对应的内容是不限定的，所以可以与第二文本信息片段“今天成都的天气怎么样”匹配；所以以<translate>为根节点的树形结构与文本信息“翻译一下今天成都的天气怎么样”匹配。

步骤S205、若所述文本信息对应的场景标识为预设的场景标识，则遍历所述场景标识对应的树形结构，确定所述所有场景标识所对应的所有树形结构中的其中一个树形结构是否与所述文本信息匹配。

步骤S205描述了获取场景标识为主界面的情况，若其中一个树形结构的所述叶子节点的信息包含所述文本信息，所述文本信息与所述其中一个树形结构的内容匹配；若任意一个所述树形结构的所述叶子节点的信息均不包含所述文本信息，所述文本信息与所述叶子节点的内容不匹配。

本实施例中主界面的场景标识为<main>，以主界面<main>为根节点，每一个场景标识为<main>的子节点，遍历每一个场景标识构成的树形结构。确定是否有其中一个场景标识构成的树形结构与文本信息匹配。

例如，对于主界面<main>有翻译和搜索图片两种场景，即<main>根节点有<translate>和<search_picture>两个子节点，<translate>和<search_picture>分别构成一个树形结构。按照步骤S204的方法，首先与翻译场景对应的场景标识下的树形结构进行匹配，若匹配成功，则根据翻译场景对应的场景标识下的树形结构执行步骤S206；

如果与翻译场景匹配失败，则与搜索图片场景对应的场景标识下树形结构进行匹配，若匹配成功，则根据搜索图片场景对应的场景标识下树形结构执行步骤S206；

如果均匹配失败，那么本地没有与文本信息匹配的匹配文档的文本信息，执行步骤S206。

步骤S206、根据所述匹配结果确定操作指令。

这里，终端获取的匹配结果有两种，一种是匹配成功，一种是匹配失败；其中，若匹配成功，将从匹配文档中的树形结构转化成预设的操作指令格式，这里预设的操作指令格式是终端可以理解和执行的操作指令格式，例如，用JSON(JavaScript Object Notation，JavaScript对象表示法)数据格式表示。若匹配失败，终端将文本信息上传值网络中的服务器，服务器对文本信息匹配后将操作指令发送给终端，终端获取该操作指令。

步骤S207、执行所述操作指令。

终端根据操作指令执行文本信息所要求的操作。例如对于“翻译一下今天成都的天气怎么样”，终端的翻译应用程序翻译句子“今天成都的天气怎么样”。

本公开的实施例提供的语义识别方法，通过在本地预存储匹配文档，将获取的语音信息转换为文本信息后，根据获取语音信息的场景标识，在本地匹配文档对应的场景标识下确定文本信息与匹配文档的某一子文档是否匹配，若匹配则获取操作指令并执行，若匹配失败则将文本信息上传至网络中的服务器进行匹配并获取操作指令。如此，能够实现在本地处理大部分文本信息的功能，进而提高了识别速率以及文本信息处理的针对性。

实施例四

本公开实施例提出了一种本地与云端服务器结合的语义识别方法。由于终端设备的语音使用场景比较有限，且对于场景要求较高，因此本实施例将相应场景下的指令进行拆分后形成预设的语法格式(此语法格式相当于匹配信息)。对于文本信息，先在本地与预设的语法格式进行匹配识别，如果匹配识别成功，就返回文本信息对应的指令数据内容。如果不成功，再将当前的文本信息送到云端服务器进行匹配识别。这样本地识别基本能将绝大部分的用户语音指令识别成功，使得在没有网络的情况下用户的大部分语音指令操作也能进行，同时因为是本地处理，所以对于用户指令的识别速度也快于云端识别的速度。文本信息在本地与预设的语法模式进行匹配时，本实施例提出采用基于改进的BNF方法来进行本地语义解析。

为了使本公开的目的、技术方案及优点更加清晰，下面结合附图分三部分对本实施例提供的语义识别方法进行说明，这三部分内容包括：语音语义识别、基于改进BNF方法的语义识别的BNF解析和基于改进BNF方法的语义识别的BNF匹配处理。

第一，图5-1描述了本文提出的方案中语义识别的处理流程，步骤如下：

步骤S311：终端设备的语音识别模块获取用户指令的语音数据；

步骤S312：终端设备的语音识别模块将语音数据转换为文本信息；

步骤S313：终端设备将文本信息传入本地语义分析模块进行本地语义分析；

步骤S314：终端设备判断本地语义分析模块是否识别出结果，如果成功识别出结果，转步骤S317；反之，转步骤S315；

步骤S315：终端设备将本地语义分析模块未能识别的文本信息上传至服务器进行语义识别；

步骤S316：终端设备获取服务器返回的语义识别的结果；

步骤S317：终端设备根据语义识别结果执行用户语音数据所对应的操作；

步骤S318：流程结束。

第二，图5-2描述了本实施例中基于改进BNF方法的语义识别的BNF解析处理流程，步骤如下：

步骤S321：开始；

步骤S322：终端设备从匹配文档中读取BNF语法内容；

步骤S323：终端设备解析BNF语法信息，将文本形式的语法信息解析转换成树形结构缓存，以用于后续的匹配搜索；

步骤S324：流程结束。

图5-2描述的步骤主要是将文本形式的语法信息解析转换成利于计算机匹配搜索的树形结构，并缓存在内存中，为图5-3所示的文本信息识别做准备。本部分提及的BNF语法内容，是根据语义识别应用场景中的指令集进行语句拆分和合并而成的，是预先装载在终端设备中的。并且BNF语法的内容可以由使用者自行按照BNF规则进行撰写和调整，从而使匹配信息的定制性和针对性都较强。

第三，图5-3描述了本实施例中基于改进BNF方法的语义识别的BNF匹配处理流程,步骤如下：

步骤S331：开始，终端设备获取待解析的文本信息和终端设备的场景标识，其中文本信息是语音识别模块处理语音信息后获得的信息；

步骤S332：终端设备通过场景标识从缓存的树形数据结构中获取对应的树形结构；

步骤S333：终端设备将文本信息与树形结构进行匹配搜索；

步骤S334：终端设备判断如果文本信息与树形结构的某一路径匹配成功，转步骤S336；反之，转步骤S335；

步骤S335：终端设备返回空数据；转步骤S337；

步骤S336：终端设备将匹配搜索到的路径信息转换为约定的数据结构返回；

步骤S337：流程结束。

需要说明地是，BNF是一种通过形式化符号来描述给定语言语法的方法，通常用于定义编程语言的语法规则。其内容如下：

1)在双引号中的字("word")代表着这些字符本身；

2)在双引号外的字(有可能有下划线)代表语法部分；

3)尖括号(<>)内包含的为该语句中的必选项；

4)方括号([])内包含的为该语句中的可选项；

5)大括号({})内包含的为该语句中的可重复0至无数次的项；

7):＝是“被定义为”的意思；

本实施例为了适应语义解析，增加了如下的一个定义：

8)<…>表示不确定的内容，为必选项。增加该定义，主要是用于表示语法中出现的不确定信息的(比如人名、地名、时间等不确定文本信息)。

下面结合实例对上述步骤进行说明：

场景一、终端设备的语音语义识别的全过程：

已知BNF文件的内容如下：

<main>:＝<search_picture>|<translate>；

<search_picture>:＝<Has><PhotoAlbum>[<Auxiliary>]<Picture><Interrogative>；

<Has>:＝"有"；

<PhotoAlbum>:＝"相机"|"本地"|"屏幕截图"|

"截图"|"蓝牙"|"微信"|"QQ分组"|"qq分组"|"QQ"|"qq"；

<Auxiliary>:＝"里的"|"里面的"|"上的"|"的"；

<Picture>:＝"相片"|"相册"|"照片"|"图片"|"图库"；

<Interrogative>:＝"吗？"|"吗"|"么？"|"么"；

<translate>:＝<translate_only>；

<translate_only>:＝<TranslateCmd><...>；

<TranslateCmd>:＝"翻译一下"|"翻译下"|"翻译"；

下面以文本信息为“有微信里的图片吗”为例进行说明：

终端设备开始语义分析后，需要两个输入参数，一个是需要进行语义识别的文本信息，另外一个是场景标识。文本信息是终端设备采集用户语音信息后，终端设备的语音识别模块识别语音信息后生成的文本信息。场景标识对应于上述BNF文件内容中:＝左边被定义的标签(比如：<main>、<search_picture>、<translate>)等。上述BNF文件内容中定义的标签信息，可以采用树形数据结构来描述，如图5-4所示，图中树形数据结构中的根节点即所述场景标识，场景不同涉及到的后续的搜索路径的起点也会不同，即在终端设备不同的场景下，使用语义分析的场景是不同的。当在终端设备的主界面上使用语义分析，这时候用户说出的语音指令的场景标识是不清楚的，所以可以使用树形结构的根节点<main>作为场景对各个场景标识进行遍历，这样可以将各种情况都进行搜索。如果此时终端设备正在运行翻译应用程序，那么此时的场景标识是翻译场景，用户的指令则与翻译相关，场景标识(即树形结构的起点)选择<translate>，进行相关的语义识别。这样可以缩小匹配搜索的范围，使得语义识别的效率提高。

下面以<main>为场景、文本信息：“有微信里的图片吗”为例对整个流程进行说明，以下为该场景下语义识别的流程步骤：

步骤S341：终端设备通过场景<main>，获取其子节点<search_picture>和<translate>；

步骤S342：终端设备首先搜索<translate>分支，通过<translate>获取到子节点<translate_only>；

步骤S343：终端设备通过<translate_only>获取到子节点<TranslateCmd>和<…>；

步骤S344：终端设备将子节点<TranslateCmd>的内容(“翻译一下”、“翻译下”、“翻译”)分别从文本信息的第一个字符开始匹配，由于文本信息中“有微信里的图片吗”和子节点<TranslateCmd>的内容不匹配，因此该<translate>分支无法匹配文本信息，因此切换到搜索<search_picture>分支；

步骤S345：终端设备通过<search_picture>获取到其子节点<Has>、<PhotoAlbum>、<Auxiliary>、<Picture>、<Interrogative>；

步骤S346：终端设备将子节点<Has>的内容(“有”)在文本信息中进行搜索，本实施例中匹配到文本信息为“有微信里的图片吗”的第一个字符为“有”，故匹配成功；如果没有匹配到，则匹配失败，停止搜索；

步骤S347：在文本信息中“有”这个字符串以后搜索有没有<PhotoAlbum>的内容，本实施例中匹配到有该内容“微信”，故匹配成功；如果没有匹配到，则匹配失败，停止搜索；

步骤S348：终端设备在文本信息中“微信”这个字符串后搜索有没有<Auxiliary>的内容，本实施例中匹配到有该内容“里的”，故匹配成功；如果没有匹配到，则匹配失败，停止搜索；

步骤S349：终端设备在文本信息中“里的”这个字符串后搜索有没有<Picture>的内容，本实施例中匹配到有该内容“图片”，故匹配成功；如果没有匹配到，则匹配失败，停止搜索；

步骤S350：终端设备在文本信息中“图片”这个字符串后搜索有没有<Interrogative>的内容，本实施例中匹配到有该内容“吗”，故匹配成功；如果没有匹配到，则匹配失败，停止搜索；

步骤S351：终端设备检测文本信息中“吗”这字符串后是否有内容，若没有内容说明完全匹配，反之，则匹配失败，没有找到对应的语法信息。

上述步骤的搜索的路径信息如图5-5所示，最后根据图5-5所示的树形结构，返回预设的数据格式。例如采用JSON数据格式返回数据，上述树形结构的数据的JSON数据格式表示如下：

{"album":"微信","domain":"picsearch","action":1,"belocal":1}

上面这个JSON数据格式各个字段的意思为：“domain”为picsearch，表示图片相关的操作；“action”为1，表示搜索、查询之类的操作；“album”为“微信”，表示是微信中的内容；“belocal”为1，表示这个结果是本地识别返回的。从这个JSON数据中可知，终端设备根据各个字段的内容可以清楚的知道要执行搜索微信中的图片的操作。

场景二、终端设备中对于含有新增的BNF规则的语义的识别场景。

BNF继续使用场景一中的BNF文档的内容。

下面以场景为<main>，文本信息为“翻译一下今天成都的天气怎么样”为例进行整个流程的说明，此时处理流程为：

步骤S361：终端设备通过场景<main>，获取到<main>的子节点<search_picture>和<translate>；

步骤S362：终端设备先搜索<translate>分支，通过<translate>获取到子节点<translate_only>；

步骤S363：终端设备通过<translate_only>获取到子节点<TranslateCmd>和<…>；

步骤S364：终端设备将子节点<TranslateCmd>的内容("翻译一下"、"翻译下"、"翻译")分别从文本信息的第一个字符开始匹配；

步骤S365：终端设备在文本信息中匹配到“翻译一下”这个字符串，由于<TranslateCmd>的下一个搜索节点是<…>，所以其匹配的字符串是不确定的，因此文本信息中"翻译一下"后的字符串就是<…>匹配到的内容。

通过上述步骤之后，最后搜索到的路径信息如图5-6所示。最后根据上述树形结构，返回约定的数据格式。例如约定采用JSON数据格式，则可以采用下面的方式返回：

{"domain":"translate","action":1,"content":"今天成都的天气怎么样","belocal":1}

上述JSON数据格式各个字段的意思是：“domain”为translate，表示语义识别类别为翻译相关的内容；“action”为1，表示翻译操作；“content”为"今天成都的天气怎么样"，表示需要翻译的语句；“belocal”为1，表示这个结果是本地识别返回的。根据这个JSON数据，终端设备根据各个字段的内容清楚的知道需要翻译“今天成都的天气怎么样”，并执行翻译“今天成都的天气怎么样”。

需要说明地是，由于需要翻译的内容是不确定的，因此没有办法使用固定的标签内容来匹配，所以本公开中在BNF规则中增加了一个<…>标签的定义，用于表示匹配中出现的不确定的字符串。

场景三、终端设备中指定场景的语音语义的识别过程。

仍以场景一中的BNF文档为例。

假设此时终端设备正在运行图库软件，此时的用户发出的语音指令应该与图片搜索相关，因此终端设备获得场景标识<search_picture>，仍以文本信息“有微信里的图片吗”为例进行整个流程的说明，此时处理流程如下：

步骤S371：终端设备通过<search_picture>获取到其子节点<Has>、<PhotoAlbum>、<Auxiliary>、<Picture>、<Interrogative>；

步骤S372：终端设备将子节点<Has>的内容("有")在文本信息中进行匹配，匹配到有该信息，如果没有匹配到，则匹配失败，停止搜索；

步骤S373：终端设备在文本信息中“有”这个字符串以后匹配有没有<PhotoAlbum>的内容，匹配到有该内容“微信”，如果没有匹配到，则匹配失败，停止搜索；

步骤S374：终端设备在文本信息中“微信”这个字符串后匹配有没有<Auxiliary>的内容，本实施例中匹配到有该内容“里的”，如果没有匹配到，则匹配失败，停止搜索；

步骤S375：终端设备在文本信息中“里的”这个字符串后匹配有没有<Picture>的内容，本实施例中匹配到有该内容“图片”，如果没有匹配到，则匹配失败，停止搜索；

步骤S376：终端设备在文本信息中“图片”这个字符串后匹配有没有<Interrogative>的内容，本实施例中匹配到有该内容“吗”，如果没有匹配到，则匹配失败，停止搜索；

步骤S377：终端设备判断文本信息中“吗”这字符串后还有没有内容，本实施例中没有内容说明完全匹配，反之，则匹配失败，没有找到对应的语法信息。

通过上述步骤之后，终端设备最后搜索到的路径信息如图5-5所示。最后根据上述树形结构可以返回场景一中的数据格式，在此不再赘述。

使用本实施例，对于终端设备上使用语音的场景有限的情况下，可以基本做到在不使用网络的情况下在本地即可识别用户的大部分常用的语音指令，并且本实施例的语义处理速度比C/S架构通过云端识别的方式要快，同时用户也可以自行修改和定制语音语义指令，语义识别模块的指令针对性强。

本公开的实施例提供的语义识别方法，通过在本地预存储匹配文档，将获取的语音信息转换为文本信息后，根据获取文本信息的场景标识，在本地匹配文档对应的场景标识下确定文本信息与匹配文档的某一子文档是否匹配，若匹配则获取操作指令并执行，若匹配失败则将文本信息上传至网络中的服务器进行匹配并获取操作指令。

实施例五

基于前述的实施例，本公开实施例提供了一种语义识别装置，如图5所示，所述装置500包括：获取模块501、第一确定模块502、第二确定模块503和执行模块504，其中：

所述获取模块501，用于获取根据用户输入的语音信息转换得到的文本信息。

所述第一确定模块502，用于根据所述文本信息与匹配文档中的文本信息，确定所述文本信息的语义识别结果。

所述第二确定模块503，用于根据所述识别结果确定操作指令。

所述执行模块504，用于执行所述操作指令。

这里，所述第一确定模块502进一步包括：

第一确定单元，用于确定所述文本信息对应的场景标识；

这里，所述第一确定单元进一步包括：

获取子单元，用于获取正在运行在所述终端上的应用程序的标识信息；

第三确定子单元，用于根据所述应用程序的标识信息查询预设的关系表，确定所述终端的场景标识，其中，所述关系表用于表明应用程序的标识信息与所述终端的场景标识之间的映射关系。

第二确定单元，用于根据所述场景标识和所述匹配文档确定子文档；

第一判断单元，用于判断所述文本信息与所述子文档的文本信息是否匹配，得到匹配结果；

这里，所述匹配文档按照场景标识分为子文档，每一所述子文档按照树形结构表示，其中所述树形结构中以场景标识为根节点、以子场景标识或文本信息为所述场景标识表示的根节点的子节点；对应地，所述第一判断单元包括：

第一判断子单元，用于判断所述树形结构的根节点是否有子场景标识的第一子节点；

第一确定子单元，用于如果所述树形结构的根节点有子场景标识的第一子节点，确定以所述第一子节点为根节点的子树中仅包含叶子节点的第二子节点集合；

第二确定子单元，用于确定所述每一个第二子节点所包含的第一叶子节点集合；

第二判断子单元，用于判断是否每一个第二子节点所包含的第一叶子节点集合中都存在一个叶子节点所包含的文本信息存在于所述文本信息中；其中，如果每一个第二子节点所包含的第一叶子节点集合中都存在一个叶子节点所包含的文本信息存在于所述文本信息中则所述文本信息与所述子文档的文本信息匹配，如果有任何一个第二子节点中所包含的第一叶子节点集合中不存在一个叶子节点所包含的文本信息存在于所述文本信息中则所述文本信息与所述子文档的文本信息不匹配。

在本公开其他实施例中，所述第一判断单元还包括：

第三判断子单元，用于若所述文本信息对应的场景标识为预设的场景标识，则遍历所述场景标识对应的树形结构，判断所述所有场景标识所对应的所有树形结构中的其中一个树形结构是否与所述文本信息匹配；

若其中一个树形结构的所述叶子节点的信息包含所述文本信息，所述文本信息与所述其中一个树形结构的内容匹配；

若任意一个所述树形结构的所述叶子节点的信息均不包含所述文本信息，所述文本信息与所述叶子节点的内容不匹配。

第三确定单元，用于根据所述匹配结果，确定所述文本信息的语义识别结果；

所述第二确定模块503进一步包括：

输出单元，用于若所述识别结果表明所述文本信息与所述匹配文档中的文本信息匹配，按预设格式输出与所述匹配文档中的文本信息对应的操作指令，所述操作指令指示终端处理所述文本信息所表示的操作；

上传单元，用于若所述识别结果表明所述文本信息与所述匹配文档中的文本信息不匹配，则将所述文本信息上传至网络中的服务器；

接收单元，用于接收所述服务器发送的操作指令。

这里需要指出的是：以上语义识别装置实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果，因此不做赘述。对于本公开语义识别装置实施例中未披露的技术细节，请参照本公开方法实施例的描述而理解，为节约篇幅，因此不再赘述。

为实现上述目的，本公开还提供一种基于语义识别设备，所述设备包括：处理器；存储器，存储有可由所述处理器执行的指令；其中所述处理器被配置为执行如上任一实施例所述的方法。

为实现上述目的，本公开还提供一种存储有计算机程序的存储介质，所述计算机程序在由计算机的处理器运行时，使所述计算机执行如上任一实施例所述的方法。

本领域内的技术人员应明白，本公开的实施例可提供为方法、系统、或计算机程序产品。因此，本公开可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅为本公开的较佳实施例而已，并非用于限定本公开的保护范围。

工业实用性

本公开提供的语义识别方法和装置，可应用于例如智能手机、智能电脑、便携智能设备、平板电脑、台式电脑、智能电视等终端中，通过将获取的语音信息转换为文本信息后，根据获取语音信息的场景标识，在匹配文档对应的场景标识下确定文本信息与匹配文档的某一子文档是否匹配，若匹配则获取操作指令并执行，若匹配失败则将文本信息上传至网络中的服务器进行匹配并获取操作指令。如此，能够实现在本地处理大部分文本信息的功能，且提高了识别速率和文本信息处理的针对性。

Claims

一种语义识别方法，包括：

获取根据用户输入的语音信息转换得到的文本信息；

根据所述文本信息与匹配文档中的文本信息，确定所述文本信息的语义识别结果。
根据权利要求1中所述的方法，其中，在所述根据所述文本信息与匹配文档中的文本信息，确定所述文本信息的语义识别结果之后，所述方法还包括：

根据所述识别结果确定操作指令；

执行所述操作指令。
根据权利要求2所述的方法，其中，所述根据所述识别结果确定操作指令，包括：

若所述识别结果表明所述文本信息与所述匹配文档中的文本信息匹配，按预设格式输出与所述匹配文档中的文本信息对应的操作指令，所述操作指令指示终端处理所述文本信息所表示的操作；

若所述识别结果表明所述文本信息与所述匹配文档中的文本信息不匹配，则将所述文本信息上传至网络中的服务器；

接收所述服务器发送的操作指令。
根据权利要求1所述的方法，其中，所述根据所述文本信息与匹配文档中的文本信息，确定所述文本信息的语义识别结果，包括：

确定所述文本信息对应的场景标识；

根据所述场景标识和所述匹配文档确定子文档；

判断所述文本信息与所述子文档的文本信息是否匹配，得到匹配结果；

根据所述匹配结果，确定所述文本信息的语义识别结果；其中，如果所述匹配结果为所述文本信息与所述子文档的文本信息匹配，则所述文本信息的语义识别结果为识别成功；如果所述匹配结果为所述文本信息与所述子文档的文本信息不匹配，则所述文本信息的语义识别结果为识别失败。
根据权利要求4所述的方法，其中，所述匹配文档按照场景标识分为子文档，每一所述子文档按照树形结构表示，其中所述树形结构中以场景标识为根节点、以子场景标识或文本信息为所述场景标识表示的根节点的子节点；对应地，所述判断所述文本信息与所述子文档的文本信息是否匹配，包括：

判断所述树形结构的根节点是否有子场景标识的第一子节点；

如果所述树形结构的根节点有子场景标识的第一子节点，确定以所述第一子节点为根节点的子树中仅包含叶子节点的第二子节点集合；

确定所述每一个第二子节点所包含的第一叶子节点集合；

判断是否每一个第二子节点所包含的第一叶子节点集合中都存在一个叶子节点所包含的文本信息存在于所述文本信息中；其中，如果每一个第二子节点所包含的第一叶子节点集合中都存在一个叶子节点所包含的文本信息存在于所述文本信息中则所述文本信息与所述子文档的文本信息匹配，如果有任何一个第二子节点中所包含的第一叶子节点集合中不存在一个叶子节点所包含的文本信息存在于所述文本信息中则所述文本信息与所述子文档的文本信息不匹配。
根据权利要求4或5所述的方法，其中，所述判断所述文本信息与所述子文档的文本信息是否匹配，还包括：

若所述文本信息对应的场景标识为预设的场景标识，则遍历所述场景标识对应的树形结构，判断所述所有场景标识所对应的所有树形结构中的其中一个树形结构是否与所述文本信息匹配；

若其中一个树形结构的所述叶子节点的信息包含所述文本信息，所述文本信息与所述其中一个树形结构的内容匹配；

若任意一个所述树形结构的所述叶子节点的信息均不包含所述文本信息，所述文本信息与所述叶子节点的内容不匹配。
根据权利要求4所述的方法，其中，所述确定所述文本信息对应的场景标识，包括：

获取正在运行在所述终端上的应用程序的标识信息；

根据所述应用程序的标识信息查询预设的关系表，得到所述终端的场景标识，其中所述关系表用于表明应用程序的标识信息与所述终端的场景标识之间的映射关系。
一种语义识别装置，其中，所述装置包括：获取模块和第一确定模块，其中：

所述获取模块，设置为获取根据用户输入的语音信息转换得到的文本信息；

所述第一确定模块，设置为根据所述文本信息与匹配文档中的文本信息，确定所述文本信息的语义识别结果。
根据权利要求8所述的装置，其中，所述装置还包括，第二确定模块和执行模块，其中：

所述第二确定模块，设置为根据所述识别结果确定操作指令；

所述执行模块，设置为执行所述操作指令。
根据权利要求8中所述的装置，其中，所述第一确定模块包括：

第一确定单元，设置为确定所述文本信息对应的场景标识；

第二确定单元，设置为根据所述场景标识和所述匹配文档确定子文档；

第一判断单元，设置为判断所述文本信息与所述子文档的文本信息是否匹配，得到匹配结果；

第三确定单元，设置为根据所述匹配结果，确定所述文本信息的语义识别结果；其中，如果所述匹配结果为所述文本信息与所述子文档的文本信息匹配，则所述文本信息的语义识别结果为识别成功；如果所述匹配结果为所述文本信息与所述子文档的文本信息不匹配，则所述文本信息的语义识别结果为识别失败。
一种语义识别设备，包括：

处理器；

存储器，存储有可由所述处理器执行的指令；

其中所述处理器被配置为执行如权利要求1-7任一项所述的方法。
一种存储有计算机程序的存储介质，所述计算机程序在由计算机的处理器运行时，使所述计算机执行如权利要求1-7任一项所述的方法。