WO2019218903A1

WO2019218903A1 - 一种语音控制的方法及装置

Info

Publication number: WO2019218903A1
Application number: PCT/CN2019/085905
Authority: WO
Inventors: 李鹏; 罗永浩
Original assignee: 北京字节跳动网络技术有限公司
Priority date: 2018-05-14
Filing date: 2019-05-07
Publication date: 2019-11-21
Also published as: US20200411008A1; CN109741737A; CN111627436A; CN109741737B; CN111627436B

Abstract

一种语音控制的方法及装置，方法包括：响应于针对于交互界面的触发操作，接收语音数据，触发操作为客户端在交互界面上所识别的触发语音控制的操作（201）；将接收到的语音数据转换为文本数据（202）；基于转换得到的文本数据，生成控制指令（203）；执行生成的控制指令（204）。在用户与客户端进行交互的过程中，用户可以直接在交互界面上的任意区域触发语音数据的输入，而无需受限于特定的语音输入界面，因此，用户不需要再执行相关操作以使得终端的显示界面由交互界面切换到语音输入界面，从而减少了用户所需执行的操作步骤，提高了用户与客户端之间的交互效率，也提高了用户的使用体验。

Description

一种语音控制的方法及装置

相关申请的交叉引用

本申请要求于2018年05月14日提交的，申请号为201810456387.X、发明名称为“一种语音控制的方法及装置”的中国专利申请的优先权，该申请的全文通过引用结合在本申请中。

技术领域

本申请涉及语音控制技术领域，具体涉及一种语音控制的方法及装置。

背景技术

随着技术的发展，通过语音来与智能终端上应用进行交互的方式，越来越受用户青睐。现有的语音交互过程中，用户通过点击语音控制服务的控件来启动语音控制服务，此时，智能终端会向用户呈现一个语音输入界面，然后，用户在该语音输入界面上进行发声以输入语音数据，以使得智能终端根据用户输入的语音数据操作相应的应用，从而实现用户与智能终端上应用的各种交互。

但是，每次用户与应用进行交互时，智能终端都需要预先向用户呈现语音输入界面，然后才能与用户实现语音交互，从而导致智能终端无法快速的与用户进行语音交互，用户的使用体验较差。

发明内容

有鉴于此，本申请实施例提供一种语音控制的方法及装置，以提高用户与智能终端进行语音交互的效率。

为解决上述问题，本申请实施例提供的技术方案如下：

第一方面，本申请实施例提供了一种语音控制的方法，该方法包括：

响应于针对于交互界面的触发操作，接收语音数据，所述触发操作为客户端在所述交互界面上所识别的触发语音控制的操作；

将所述语音数据转换为文本数据；

基于所述文本数据，生成控制指令；

执行所述控制指令。

在一些可能的实施方式中，所述将所述语音数据转换为文本数据，包括：

将所述语音数据转换为初始文本数据；

通过对所述初始文本数据进行语义分析，调整所述初始文本数据，将所述调整后的初始文本数据作为所述文本数据。

在一些可能的实施方式中，所述基于所述文本数据，生成控制指令，包括：

将所述文本数据与预设的指令型文本数据进行匹配，并基于匹配到的指令型文本数据生成控制指令。

在一些可能的实施方式中，所述方法还包括：

通过对所述初始文本数据进行语义分析，确定所述调整后的初始文本数据中的动作关键词和/或对象关键词；以及

所述基于所述文本数据，生成控制指令，包括：

基于所述动作关键词和/或对象关键词，生成所述控制指令。

在一些可能的实施方式中，所述文本数据包括动作关键词和对象关键词，则所述将所述文本数据与预设的指令型文本数据进行匹配，并基于匹配到的指令型文本数据生成控制指令，包括：

将所述文本数据中的动作关键词，与所述预设的指令型文本数据中的动作关键词进行匹配，确定第一动作关键词，所述第一动作关键词是指在所述预设的指令型文本数据中所匹配到的动作关键词；

将所述文本数据中的对象关键词，与所述预设的指令型文本数据中的对象关键词进行匹配，确定第一对象关键词，所述第一对象关键词是指在所述预设的指令型文本数据中所匹配到的对象关键词；

基于所述第一动作关键词与所述第一对象关键词，生成所述控制指令。

在一些可能的实施方式中，所述文本数据包括动作关键词，则所述将所述文本数据与预设的指令型文本数据进行匹配，并基于匹配到的指令型文本数据生成控制指令，包括：

将所述文本数据中的动作关键词，与所述预设的指令型文本数据中的动作关键词进行匹配，确定第二动作关键词，所述第二动作关键词是指在所述预设的指令型文本数据中所匹配到的动作关键词；

根据所述触发操作的操作对象确定第二对象关键词；

基于所述第二动作关键词与所述第二对象关键词，生成所述控制指令。

在一些可能的实施方式中，所述文本数据包括对象关键词，则所述将所述文本数据与预设的指令型文本数据进行匹配，并基于匹配到的指令型文本数据生成控制指令，包括：

将所述文本数据中的对象关键词，与所述预设的指令型文本数据中的对象关键词进行匹配，确定第三对象关键词，所述第三对象关键词是指在所述预设的指令型文本数据中所匹配到的对象关键词；

根据所述第三对象关键词确定第三动作关键词；

基于所述第三动作关键词与所述第三对象关键词，生成所述控制指令。

对所述文本数据进行语义分析，确定第四动作关键词；

根据所述触发操作的操作对象确定第四对象关键词；

基于所述第四动作关键词与所述第四对象关键词，生成所述控制指令。

在一些可能的实施方式中，所述方法还包括：

呈现语音录入弹窗；

其中，在接收到所述语音数据时所述语音录入弹窗的呈现形式，与没有接收到所述语音数据时所述语音录入弹窗的呈现形式存在差异。在一些可能的实施方式中，所述根据所述第三对象关键词确定第三动作关键词，包括：将与所述第三对象关键词之间适用性最高的动作关键词，确定为所述第三动作关键词。

第二方面，本申请实施例还提供了一种语音控制的装置，该装置包括：

接收模块，用于响应于针对于交互界面的触发操作，接收语音数据，所述触发操作为客户端在所述交互界面上所识别的触发语音控制的操作；

转换模块，用于将所述语音数据转换为文本数据；

生成模块，用于基于所述文本数据，生成控制指令；

执行模块，用于执行所述控制指令。

在一些可能的实施方式中，所述转换模块，包括：

转换单元，用于将所述语音数据转换为初始文本数据；

调整单元，用于通过对所述初始文本数据进行语义分析，调整所述初始文本数据，将所述调整后的初始文本数据作为所述文本数据。

在一些可能的实施方式中，所述生成模块进一步用于，

在一些可能的实施方式中，所述装置还包括：

确定模块，用于通过对所述初始文本数据进行语义分析，确定所述调整后的初始文本数据中的动作关键词和/或对象关键词；以及所述生成模块进一步用于：基于所述动作关键词和/或对象关键词，生产所述控制指令。

在一些可能的实施方式中，所述文本数据包括动作关键词和对象关键词，则所述生成模块，包括：

第一匹配单元，用于将所述文本数据中的动作关键词，与所述预设的指令型文本数据中的动作关键词进行匹配，确定第一动作关键词，所述第一动作关键词是指在所述预设的指令型文本数据中所匹配到的动作关键词；

第二匹配单元，用于将所述文本数据中的对象关键词，与所述预设的指令型文本数据中的对象关键词进行匹配，确定第一对象关键词，所述第一对象关键词是指在所述预设的指令型文本数据中所匹配到的对象关键词；

第一生成单元，用于基于所述第一动作关键词与所述第一对象关键词，生成所述控制指令。

在一些可能的实施方式中，所述文本数据包括动作关键词，则所述生成模块，包括：

第三匹配单元，用于将所述文本数据中的动作关键词，与所述预设的指令型文本数据中的动作关键词进行匹配，确定第二动作关键词，所述第二动作关键词是指在所述预设的指令型文本数据中所匹配到的动作关键词；

第一确定单元，用于根据所述触发操作的操作对象确定第二对象关键词；

第二生成单元，用于基于所述第二动作关键词与所述第二对象关键词，生成所述控制指令。

在一些可能的实施方式中，所述文本数据包括对象关键词，则所述生成模块，包括：

第四匹配单元，用于将所述文本数据中的对象关键词，与所述预设的指令型文本数据中的对象关键词进行匹配，确定第三对象关键词，所述第三对象关键词是指在所述预设的指令型文本数据中所匹配到的对象关键词；

第二确定单元，用于根据所述第三对象关键词确定第三动作关键词；

第三生成单元，用于基于所述第三动作关键词与所述第三对象关键词，生成所述控制指令。

在一些可能的实施方式中，所述生成模块，包括：

第三确定单元，用于对所述文本数据进行语义分析，确定第四动作关键词；

第四确定单元，用于根据所述触发操作的操作对象确定第四对象关键词；

第四生成单元，用于基于所述第四动作关键词与所述第四对象关键词，生成所述控制指令。

在一些可能的实施方式中，所述装置还包括：

呈现模块，用于呈现语音录入弹窗；

其中，在接收到所述语音数据时所述语音录入弹窗的呈现形式，与没有接收到所述语音数据时所述语音录入弹窗的呈现形式存在差异。

在一些可能的实施方式中，所述第二确定单元进一步用于：所述根据所述第三对象关键词确定第三动作关键词，包括：将与所述第三对象关键词之间适用性最高的动作关键词，确定为所述第三动作关键词。

由此可见，本申请实施例具有如下有益效果：

本申请实施例中，通过客户端识别出的触发操作来触发语音数据的接收，使得用户所需执行的操作步骤减少，进而提高用户与客户端之间的交互效率。具体的，当用户需要通过语音控制的方式与终端上的客户端进行交互时，终端可以响应于针对于交互界面的触发操作，接收语音数据，其中，该触发操作为客户端在交互界面上所识别的触发语音控制的操作，然后，终端可以将接收到的语音数据转换为文本数据，并根据该文本数据生成与操作该应用的控制指令并执行，从而实现用户与应用的交互。可见，在用户与客户端进行交互的过程中，由于客户端可以识别出语音控制触发操作，用户可以直接在交互界面上的任意区域触发语音数据的输入，而无需受限于特定的语音输入界面，因此，用户不需要再执行相关操作以使得终端的显示界面由交互界面切换到语音输入界面，相比于现有技术而言，用户不需要执行退出显示窗口的操作，查找语音控制服务的控件的操作，从而减少了用户所需执行的操作步骤，提高了用户与客户端之间的交互效率，也提高了用户的使用体验。

附图说明

图1为本申请实施例提供的一种示例性应用场景示意图；

图2为本申请实施例提供的一种语音控制的方法流程示意图；

图3为本申请实施例提供的一种示例性应用场景的软件架构示意图；

图4为本申请实施例提供的一种语音控制的装置结构示意图。

具体实施方式

现有的语音交互过程中，由于用户每次都需要在特定的语音输入界面上输入语音数据，因此，终端每次都要先向用户呈现特定的语音输入界面，才能与用户进行各种应用的交互，这样会降低用户与应用之间的交互效率，尤其是在用户访问应用提供的服务时，如果用户希望通过语音控制的方式与应用进行交互，则用户还需要先在智能终端上退出当前应用，然后再在智能终端呈现的语音输入界面上输入针对于该应用的语音数据，才能实现通过语音控制的方式与该应用进行交互，可见，用户只能在特定的语音输入界面上输入语音数据的方式，导致了用户需要执行的操作较多，从而使得用户与应用之间的交互效率较低，而且，用户的使用体验也较差。

比如，当用户需要对显示窗口进行最大化时，用户需要执行退出当前显示窗口(后台运行)的操作，然后在终端的显示界面上查找到启动语音控制服务的控件并进行点击，接着，终端基于用户点击该控件的操作，向用户呈现语音输入界面，用户在该语音输入界面上输入“最大化显示窗口”的语音数据，以使得终端基于该语音数据，将后台运行的显示窗口最大化。在此过程中，用户所需要进行的操作较多，降低了与显示窗口进行交互的效率。

为了解决上述技术问题，本申请实施例提供了一种语音控制的方法，通过客户端识别出的触发操作来触发语音数据的接收，使得用户所需执行的操作步骤减少，进而提高用户与客户端之间的交互效率。具体的，当用户需要通过语音控制的方式与终端上的客户端进行交互时，终端可以响应于针对于交互界面的触发操作，接收语音数据，其中，该触发操作为客户端在交互界面上所识别的触发语音控制的操作，然后，终端可以将接收到的语音数据转换为文本数据，并根据该文本数据生成操作该应用的控制指令并执行，从而实现用户与应用的交互。可见，在用户与客户端进行交互的过程中，由于客户端可以识别出语音控制触发操作，用户可以直接在交互界面上的任意区域触发语音数据的输入，而无需受限于特定的语音输入界面，因此，用户不需要再执行相关操作以使得终端的显示界面由交互界面切换到语音输入界面，相比于现有技术而言，用户不需要执行退出显示窗口的操作，查找语音控制服务的控件的操作，从而减少了用户所需执行的操作步骤，提高了用户与客户端之间的交互效率，也提高了用户的使用体验。

依然以最大化显示窗口为例，用户可以直接对该显示窗口进行点击，由显示窗口识别出该点击操作，并确定需要与用户进行交互，然后用户可以直接在该交互界面上输入“最大化显示窗口”的语音数据，以使得终端基于该语音数据，将后台运行的显示窗口最大化。可见，用户不需要退出当前显示窗口，而可以直接在当前交互界面上执行触发语音控制的触发操作，也就减少了用户所需执行的操作步骤，提高了与显示窗口的交互效率。

作为一种示例，本申请实施例的一种语音控制的方法，可以应用于如图1所示的应用场景中。在该场景中，当用户101需要与终端102上的客户端进行语音交互时，用户101可以在终端102上执行针对于交互界面的触发操作，该触发操作可以由终端102上的客户端进行识别、并确定为触发语音控制的操作，在终端102响应该触发操作后，可以接收用户101输入的语音数据，并将该语音数据转换为文本数据，然后，终端102可以根据该文本数据生成相应的控制指令，并执行该指令，以实现终端102上的客户端与用户101之间的交互。

当然，上述场景仅仅作为示例性说明，并不用于限定本申请实施例的场景，除上述示例性场景外，本申请实施例还可以应用于其它可适用场景中。

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

请一并参阅图2，图2示出了本申请实施例提供的一种语音控制的方法的流程示意图，该方法具体可以包括：

S201：响应于针对交互界面的触发操作，接收语音数据，该触发操作为客户端在交互界面上所识别的触发语音控制的操作。

作为一种示例性的具体实现方式，当用户需要与终端上的客户端进行交互时，用户可以在终端的交互界面上执行触发操作，比如长按交互界面上的特定区域等，该触发操作表明用户需要通过语音控制的方式与客户端进行交互，则，终端上的客户端可以对用户执行的触发操作进行判断，具体可以是将该触发操作与预置的触发操作进行匹配，如果匹配成功可确定该触发操作为触发启动语音控制的操作，在客户端识别该触发操作后，触发配置在终端上的语音接收器(如麦克风等)的启动，以接收用户输入的语音数据。

可以理解，由于终端上的客户端可以自主识别出触发语音控制的触发操作，从而自动触发语音接收器来接收用户输入的语音数据，因此，对于用户而言，用户可以直接在该交互界面上输入语音数据，而无需在特定的语音输入界面上进行语音数据的输入，从而用户不需要执行过多的操作步骤，提高了用户的使用体验。

需要说明的是，与用户进行交互的客户端，不仅仅可以包括终端上的第三方软件，也可以包括终端上的各种应用程序，如终端的桌面、显示窗口以及操作系统内置的各种功能化程序等。而交互界面，通常是指终端呈现有与用户进行交互的客户端的显示界面。

在一些可能的实施方式中，用户执行的触发操作，可以是用户针对于交互界面的操作，比如，可以是用户对交互界面上的客户端图标的单击、双击、长按等操作，也可以是用户在交互界面上的空白区域(即没有显示客户端图标的区域)进行的双击、长按、滑动等操作，可以理解，该触发操作的形式可以预先进行设定，用户在终端上进行的任意一种操作，均可以被设定为用于触发语音控制的触发操作。但是实际应用中，为了方便用户的使用，同时也尽量减少对现有操作规则的改动，该触发操作可以与用户在终端上经常使用的操作存在一定区别，比如，用户通常会向左或者向右滑动终端上的触摸显示屏，以切换交互界面所显示的客户端图标，但是用户通常很少向上滑动触摸显示屏，则，可以预先设定用户执行的向上滑动触摸显示屏的操作，为触发启动语音控制的操作。

进一步的，为了提高用户的使用体验，可以利用语音记录弹窗来提示用户输入语音数据。具体的，本实施例中，在响应用户针对于交互界面的触发操作后，可以向用户呈现语音记录弹窗，该语音记录弹窗用于提示用户可以进行语音输入，以及向用户反馈语音记录情况。需要说明的是，在弹出语音记录窗口后，为了向用户体现输入语音数据与没有输入语音数据的区别，可以改变用户输入语音数据时语音记录弹窗的呈现形式，使得其与用户没有输入语音数据时语音记录弹窗的呈现形式存在差异。

S202：将接收到的语音数据转换为文本数据。

实际应用中，终端可以配置由语音识别引擎，则终端在利用语音接收器接收到用户输入的语音数据后，可以由语音识别引擎对该语音数据进行识别，并转换为文本数据。比如，用户输入语音内容为“da kai weixin”的语音数据，则终端可以利用语音识别引擎，将该语音数据转换为中文文本“打开微信”。其中，本实施例中的“da kai weixin”仅是用于描述用户输入的语音数据的中文发音，下面类似之处亦是如此。

作为一种示例性的具体实施方式，终端可以通过语音识别引擎将接收到的语音数据转换为初始文本数据，但是考虑到实际应用中语音识别引擎无法达到百分之百的识别准确率，因此，在得到初始文本数据后，还可以对该初始文本数据进行语义分析，根据语义分析的结果，来对初始文本数据进行调整，使得调整后的初始文本数据中内容的普适性更高和/或逻辑性更强，更贴合用户实际输入的语音内容。比如，假设存在一款名为“悦读”的客户端，则当用户输入语音内容为“da kai yue du”的语音数据时，语音识别引擎通常所识别的初始文本数据为“打开阅读”，但是终端上并不存在名为“阅读”的客户端，则通过语义分析，可以将初始文本数据调整为“打开悦读”，以便于后续终端顺利打开“悦读”客户端，则可以将该调整后的初始文本数据作为基于语音数据所转换得到的文本数据。同时，通过语义分析还可以对调整后的初始文本数据进行分析，切分出调整后的初始文本数据中的谓语和/或宾语，得到谓语对应的动作关键词和/或宾语对应的对象关键词。

在一些可能的场景中，由于转换得到文本数据的内容，也可以与用户输入的语音数据内容存在一定的差异。比如，用户输入语音内容为“qing da kai wo de weixin”，利用语音识别引擎所得到的初始文本数据为“请打开我的微信”，但是在经过语义分析后，可以只保留初始文本数据中的动作关键词与对象关键词，所得到的调整后的初始文本数据可以为“打开微信”，并将“打开微信”作为基于语音数据转换得到的文本数据。

S203：基于转换得到的文本数据，生成控制指令。

在将语音数据转换为文本数据后，可以基于转换得到的文本数据，生成相应的控制指令。

对于基于转换得到的文本数据生成控制指令的具体实施过程，本实施例中，提供了以下两种示例性实施方式：

在一种示例性实施方式中，可以将文本数据与预设的指令型文本数据进行匹配，并基于匹配到的指令型文本数据生成控制指令。

其中，预设的指令型文本数据，是指预先设定于终端内部、可以用于生成控制指令的文本数据。实际应用中，基于特定的文本数据可以生成相对应的控制指令，比如，特定的文本数据为“启动微信”，则基于该文本数据生成启动并运行微信的控制指令，又比如，特定的文本数据为“播放音乐”，则生成播放当前音乐列表中第一首歌的控制指令等，因此，这些特定的文本数据可以作为预设的指令型文本数据，具体实现时，可以由技术人员按照实际情况的需要进行设定。

本实施例中，当得到文本数据后，可以将该文本数据与预设的指令型文本数据进行匹配，基于匹配的结果，确定是否可以生成相应的控制指令。本实施例中，提供一下将文本数据与指令型文本数据进行匹配的非限定性示例。具体的，在一种匹配示例中，基于语音数据所转换得到的文本数据包括有动作关键词和对象关键词，则终端可以将文本数据中的动作关键词与指令型文本数据中的动作关键词进行匹配，并确定所匹配到的动作关键词，将其作为第一动作关键词，同时，将文本数据中的对象关键词与指令型文本数据中的对象关键词进行匹配，并将所匹配到的对象关键词作为第一对象关键词，然后，基于所匹配到的第一动作关键词、第一对象关键词，可以生成相应的控制指令。

需要说明的是，之所以需要将文本数据中的动作关键词与对象关键词与指令型文本数据进行匹配，是因为并非基于用户输入的语音数据而得到的所有文本数据，均适合直接用于生成控制指令。可以理解，针对于同一控制指令，可能不同用户输入的语音数据不同，进而所转换得到的文本数据也可能不同。因此，需要将转换得到的文本数据中的动作关键词与对象关键词与指令型文本数据进行匹配，确定出控制指令的执行动作以及执行对象，这样，即使不同用户输入不同的语音数据，也可以实现与客户端进行相同的交互。

比如，用户A输入的语音数据的内容为“打开微信软件”，用户B输入的语音数据的内容为“运行微信应用程序”，用户C输入的语音数据的内容为“启动微信客户端”，可见，虽然用户A、B、C输入的语音数据不同，但是均是为了终端能够运行客户端“微信”，所以都对应着运行微信这一相同控制指令。因此，通过与指令型文本数据中的动作关键词进行匹配，分别将属于用户A、B、C的动作关键词“打开”、“运行”、“启动”，均可以与指令型文本数据中的动作关键词“运行”成功匹配，将属于用户A、B、C的对象关键词“微信软件”、“微信应用程序”、“微信客户端”，均可以与指令型文本数据中的对象关键词“微信客户端”成功匹配，从而使得用户A、B、C对应的控制指令均为运行客户端“微信”的控制指令，进而可以实现用户A、B、C与客户端进行相同的交互。

考虑到实际应用的一些场景中，基于用户输入的语音数据所得到的文本数据中可能并不包含对象关键词，此时，可以根据用户执行的触发操作的操作对象确定对象关键词。因此，在另一种匹配的示例中，基于语音数据所转换得到的文本数据可以包括有动作关键词，则终端可以将该动作关键词与预设的指令型文本数据中的动作关键词进行匹配，并将所匹配到的动作关键词作为第二动作关键词，同时，可以根据用户执行的触发操作的操作对象确定第二对象关键词，从而根据该第二动作关键词与第二对象关键词，生成相应的控制指令。在本实施方式中，考虑到用户可以是针对于交互界面上的客户端图标进行触发操作，而该触发操作的操作对象，通常为用户需要进行交互的客户端，因此，可以基于该触发操作的操作对象，确定第二对象关键词。

比如，用户可以双击交互界面上的微信图标，并输入语音内容为“打开”的语音数据，可以理解，用户所期望进行的交互为打开微信。则，终端可以将文本数据中的动作关键词“打开”与指令型文本数据中的动作关键词进行匹配，成功匹配到第二动作关键词“运行”，同时，基于用户的双击操作的操作对象“微信图标”，确定出第二对象关键词“微信客户端”，则基于第二动作关键词与第二对象关键词，可以生成运行微信客户端的控制指令。

而在实际应用的另一些场景中，基于用户输入的语音数据所得到的文本数据中可能并不包含动作关键词，此时，可以基于文本数据中的对象关键词确定动作关键词。因此，在另一种匹配的示例中，基于语音数据所转换得到的文本数据可以包括有对象关键词，则终端可以将该对象关键词与预设的指令型文本数据中的对象关键词进行匹配，并将所匹配到的对象关键词作为第三对象关键词，同时，可以根据第三对象关键词确定第三动作关键词，从而根据该第三动作关键词与第三对象关键词，生成相应的控制指令。本实施方式中，考虑到部分应用场景下，用户与客户端进行交互时，所需要控制客户端执行的操作通常只有一种操作，或者该操作的适用性最高，则终端可以该客户端(也即第三对象关键词)，确定出需要对客户端进行执行的操作，即确定出生成控制指令的第三动作关键词。

比如，如果终端上的微信没有运行，并且用户输入语音内容为“微信客户端”的语音数据，则通常情况下，可以认为用户需要终端运行微信客户端，也即，需要对微信客户端所执行的操作通常为运行微信客户端的操作，此时，终端根据第三对象关键词“微信客户端”，可以确定第三动作关键词为“运行”，进而根据第三对象关键词与第三动作关键词生成运行微信客户端的控制指令。

上述实施方式中，是基于文本数据与预设的指令型文本数据进行匹配而确定出生成控制指令的动作关键词与对象关键词，而在其他的一些实施方式中，也可以是通过对文本数据进行语义分析方式，确定出生成控制指令的动作关键词与对象关键词。

具体的，在另一种示例性实施方式中，也可以是对所述文本数据进行语义分析，按照一定的规则，从文本数据中确定出第四动作关键词，并根据用户执行的触发操作的操作对象，确定出用户需要进行交互的客户端，也即为确定出第四对象关键词，然后基于确定出的第四动作关键词与第四对象关键词，生成相应的控制指令。

举例来说，用户可以双击交互界面上的空白区域(即没有显示客户端图标的区域)，并且输入语音内容为“太亮了”的语音数据，则终端通过语义分析可知，用户期望降低亮度，即动作关键词为降低亮度，进一步的，终端根据用户在交互界面上空白区域的双击操作，可以确定用户需要降低显示屏幕的亮度，即对象关键词为显示屏幕，从而，根据所确定的动作关键词与对象关键词，可以生成降低显示屏幕亮度的控制指令。

当然，上述实施方式仅作为示例性说明，并不用于对本实施例的限定，事实上，除了上述实施方式之外，基于文本数据生成控制指令的还存在其它多种实施方式，比如，终端可以直接根据用户输入的语音数据，确定出动作关键词与对象关键词，或者是采用语句与语句之间的匹配方式等来确定出需要生成何种控制指令等。

S204：执行生成的控制指令。

本实施例中，终端可以将生成的控制指令，发送给相应的应用程序，以使得该应用程序执行该控制指令。比如，如果生成的控制指令为打开蓝牙、提高显示屏亮度等控制指令，则终端可以将该控制指令发送至系统设置的应用程序中进行执行；如果生成的控制指令为解压文件、拷贝文件等控制指令，则终端可以将该控制指令发送至文件管理器中进行执行；如果生成的控制指令为最大化、最小化显示窗口的控制指令，则终端可以将该控制指令发送至窗口管理器中进行执行。

本实施例中，通过客户端识别出的触发操作来触发语音数据的接收，使得用户所需执行的操作步骤减少，进而提高用户与客户端之间的交互效率。具体的，当用户需要通过语音控制的方式与终端上的客户端进行交互时，终端可以响应于针对于交互界面的触发操作，接收语音数据，其中，该触发操作为客户端在交互界面上所识别的触发语音控制的操作，然后，终端可以将接收到的语音数据转换为文本数据，并根据该文本数据生成与操作该应用的控制指令并执行，从而实现用户与应用的交互。可见，在用户与客户端进行交互的过程中，由于客户端可以识别出语音控制触发操作，用户可以直接在交互界面上的任意区域触发语音数据的输入，而无需受限于特定的语音输入界面，因此，用户不需要再执行相关操作以使得终端的显示界面由交互界面切换到语音输入界面，相比于现有技术而言，用户不需要执行退出显示窗口的操作，查找语音控制服务的控件的操作，从而减少了用户所需执行的操作步骤，提高了用户与客户端之间的交互效率，也提高了用户的使用体验。

为了更加详细的介绍本申请的技术方案，下面结合具体软件架构对本申请实施例进行描述。请一并参阅图3，图3示出了本申请实施例中语音控制的方法所应用的一种示例性软件架构示意图，在一些场景下，该软件架构可应用于终端上。

该软件架构可以包括可以被创建于系统中的语音交互服务模块、语音接收器、语音识别引擎、文本语义分析模块以及各种客户端。其中，客户端不仅仅可以包括终端上的第三方软件，也可以包括终端上的各种应用程序，如终端的桌面、系统设置、停靠栏Dock、显示窗口以及操作系统内置的各种功能化程序。

语音交互服务模块可以与语音接收器、语音识别引擎、文本语义分析模块以及各种客户端之间建立通信连接，用于串联相互独立的语音接收器、语音识别引擎以及文本语义分析模块，并将相应的数据转发至各个客户端，形成回调和控制。

当用户需要通过语音控制的方式实现与客户端的交互时，用户可以在终端的交互界面上执行针对于交互界面的触发操作，由客户端对该触发操作进行识别。当客户端识别出该触发操作后，可以通过系统接口，通知语音交互服务模块，语音交互服务器模块可以通过发送启动指令的方式，启动语音接收器。语音接收器可以开始接收用户输入的语音数据，并将该语音数据发送给语音交互服务模块。其中，交互界面，通常是指终端呈现有与用户进行交互的客户端的显示界面。

然后，语音交互服务模块将接收到的语音数据再发送给语音识别引擎，由语音识别引擎对该语音数据进行识别，并将该语音数据转换为初始文本数据。语音识别引擎在得到初始文本数据后，将该初始文本数据发送给语音交互服务模块。

考虑到语音识别引擎无法做到百分之百的识别准确率，语音交互服务模块可以再将该文本数据发送给文本语义分析模块，由文本语义分析模块对该初始文本数据进行语义分析并调整，以使得调整后的初始文本数据的普适性更高和/或逻辑性更强；同时，文本语义分析模块还可以对调整后的初始文本数据进行分析，切分出调整后的初始文本数据中的谓语和/或宾语，得到谓语对应的动作关键词和/或宾语对应的对象关键词。然后，文本语义分析模块可以将最终得到的文本数据(即调整后的初始文本数据)发送给语音交互服务模块。

语音交互服务模块在接收到该文本数据后，可以将该文本数据中的动作关键词和/或对象关键词，与指令型文本数据中的动作关键词与对象关键词进行匹配，并基于匹配到的指令型文本数据生成控制指令。其中，预设的指令型文本数据，是指预先设定于终端内部、可以用于生成控制指令的文本数据。

具体的，在一种示例中，语音交互服务模块可以将文本数据中的动作关键词与指令型文本数据中的动作关键词进行匹配，并确定所匹配到的动作关键词，将其作为第一动作关键词，同时，将文本数据中的对象关键词与指令型文本数据中的对象关键词进行匹配，并将所匹配到的对象关键词作为第一对象关键词，然后，基于所匹配到的第一动作关键词、第一对象关键词，可以生成相应的控制指令。

当然，语音交互服务模块根据接收到的文本数据生成相应的控制指令的实施方式存在多种，具体可以想见上述实施例中的相关之处描述即可，在此不再赘述。

语音交互服务模块在生成控制指令后，可以将该控制指令发送至相应的应用程序，以使得该应用程序对客户端执行进行的操作。比如，如果生成的控制指令为打开蓝牙、提高显示屏亮度等控制指令，则语音交互服务模块可以将该控制指令发送至系统设置的应用程序中进行执行；如果生成的控制指令为解压文件、拷贝文件等控制指令，则终端可以将该控制指令发送至文件管理器中进行执行；如果生成的控制指令为最大化、最小化显示窗口的控制指令，则终端可以将该控制指令发送至窗口管理器中进行执行。

可见，在用户与客户端进行交互的过程中，由于客户端可以识别出语音控制触发操作，用户可以直接在交互界面上的任意区域触发语音数据的输入，而无需受限于特定的语音输入界面，因此，用户不需要再执行相关操作以使得终端的显示界面由交互界面切换到语音输入界面，相比于现有技术而言，用户不需要执行退出显示窗口的操作，查找语音控制服务的控件的操作，从而减少了用户所需执行的操作步骤，提高了用户与客户端之间的交互效率，也提高了用户的使用体验。

此外，本申请实施例还提供了一种语音控制的装置。参阅图4，图4示出了本申请实施例中一种语音控制的装置结构示意图，该装置400包括：

接收模块401，用于响应于针对于交互界面的触发操作，接收语音数据，所述触发操作为客户端在所述交互界面上所识别的触发语音控制的操作；

转换模块402，用于将所述语音数据转换为文本数据；

生成模块403，用于基于所述文本数据，生成控制指令；

执行模块404，用于执行所述控制指令。

在一些可能的实施方式中，所述转换模块402，包括：

转换单元，用于将所述语音数据转换为初始文本数据；

在一些可能的实施方式中，所述生成模块403进一步用于，

在一些可能的实施方式中，所述装置400还包括：

确定模块，用于通过对所述初始文本数据进行语义分析，确定所述调整后的初始文本数据中的动作关键词和/或对象关键词；以及生成模块进一步用于：基于所述动作关键词和/或对象关键词，生成所述控制指令。

在一些可能的实施方式中，所述文本数据包括动作关键词和对象关键词，则所述生成模块403，包括：

在一些可能的实施方式中，所述文本数据包括动作关键词，则所述生成模块403，包括：

在一些可能的实施方式中，所述文本数据包括对象关键词，则所述生成模块403，包括：

在一些可能的实施方式中，所述生成模块403，包括：

在一些可能的实施方式中，所述装置400还包括：

呈现模块，用于呈现语音录入弹窗；

本申请实施例中，由于客户端可以识别出语音控制触发操作，用户可以直接在交互界面上的任意区域触发语音数据的输入，而无需受限于特定的语音输入界面，因此，用户不需要再执行相关操作以使得终端的显示界面由交互界面切换到语音输入界面，相比于现有技术而言，用户不需要执行退出显示窗口的操作，查找语音控制服务的控件的操作，从而减少了用户所需执行的操作步骤，提高了用户与客户端之间的交互效率，也提高了用户的使用体验。

需要说明的是，本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

一种语音控制的方法，其特征在于，所述方法包括：

响应于针对于交互界面的触发操作，接收语音数据，所述触发操作为客户端在所述交互界面上所识别的触发语音控制的操作；

将所述语音数据转换为文本数据；

基于所述文本数据，生成控制指令；

执行所述控制指令。
根据权利要求1所述的方法，其特征在于，所述将所述语音数据转换为文本数据，包括：

将所述语音数据转换为初始文本数据；

通过对所述初始文本数据进行语义分析，调整所述初始文本数据，将所述调整后的初始文本数据作为所述文本数据。
根据权利要求1所述的方法，其特征在于，所述基于所述文本数据，生成控制指令，包括：

将所述文本数据与预设的指令型文本数据进行匹配，并基于匹配到的指令型文本数据生成控制指令。
根据权利要求2所述的方法，其特征在于，所述方法还包括：

通过对所述初始文本数据进行语义分析，确定所述调整后的初始文本数据中的动作关键词和/或对象关键词；以及

所述基于所述文本数据，生成控制指令，包括：

基于所述动作关键词和/或对象关键词，生成所述控制指令。
根据权利要求3所述的方法，其特征在于，所述文本数据包括动作关键词和对象关键词，则所述将所述文本数据与预设的指令型文本数据进行匹配，并基于匹配到的指令型文本数据生成控制指令，包括：

将所述文本数据中的动作关键词，与所述预设的指令型文本数据中的动作关键词进行匹配，确定第一动作关键词，所述第一动作关键词是指在所述预设的指令型文本数据中所匹配到的动作关键词；

将所述文本数据中的对象关键词，与所述预设的指令型文本数据中的对象关键词进行匹配，确定第一对象关键词，所述第一对象关键词是指在所述预设的指令型文本数据中所匹配到的对象关键词；

基于所述第一动作关键词与所述第一对象关键词，生成所述控制指令。
根据权利要求3所述的方法，其特征在于，所述文本数据包括动作关键词，则所述将所述文本数据与预设的指令型文本数据进行匹配，并基于匹配到的指令型文本数据生成控制指令，包括：

将所述文本数据中的动作关键词，与所述预设的指令型文本数据中的动作关键词进行匹配，确定第二动作关键词，所述第二动作关键词是指在所述预设的指令型文本数据中所匹配到的动作关键词；

根据所述触发操作的操作对象确定第二对象关键词；

基于所述第二动作关键词与所述第二对象关键词，生成所述控制指令。
根据权利要求3所述的方法，其特征在于，所述文本数据包括对象关键词，则所述将所述文本数据与预设的指令型文本数据进行匹配，并基于匹配到的指令型文本数据生成控制指令，包括：

将所述文本数据中的对象关键词，与所述预设的指令型文本数据中的对象关键词进行匹配，确定第三对象关键词，所述第三对象关键词是指在所述预设的指令型文本数据中所匹配到的对象关键词；

根据所述第三对象关键词确定第三动作关键词；

基于所述第三动作关键词与所述第三对象关键词，生成所述控制指令。
根据权利要求1所述的方法，其特征在于，所述基于所述文本数据，生成控制指令，包括：

对所述文本数据进行语义分析，确定第四动作关键词；

根据所述触发操作的操作对象确定第四对象关键词；

基于所述第四动作关键词与所述第四对象关键词，生成所述控制指令。
根据权利要求1所述的方法，其特征在于，所述方法还包括：

呈现语音录入弹窗；

其中，在接收到所述语音数据时所述语音录入弹窗的呈现形式，与没有接收到所述语音数据时所述语音录入弹窗的呈现形式存在差异。
根据权利要求7所述的方法，其特征在于，所述根据所述第三对象关键词确定第三动作关键词，包括：

将与所述第三对象关键词之间适用性最高的动作关键词，确定为所述第三动作关键词。
一种语音控制的装置，其特征在于，所述装置包括：

接收模块，用于响应于针对于交互界面的触发操作，接收语音数据，所述触发操作为客户端在所述交互界面上所识别的触发语音控制的操作；

转换模块，用于将所述语音数据转换为文本数据；

生成模块，用于基于所述文本数据，生成控制指令；

执行模块，用于执行所述控制指令。
根据权利要求11所述的装置，其特征在于，所述转换模块包括：

转换单元，用于将所述语音数据转换为初始文本数据；

调整单元，用于通过对所述初始文本数据进行语义分析，调整所述初始文本数据，将所述调整后的初始文本数据作为所述文本数据。
根据权利要求11所述的装置，其特征在于，所述生成模块进一步用于：

将所述文本数据与预设的指令型文本数据进行匹配，并基于匹配到的指令型文本数据生成控制指令。
根据权利要求12所述的装置，其特征在于，所述装置还包括：

确定模块，用于通过对所述初始文本数据进行语义分析，确定所述调整后的初始文本数据中的动作关键词和/或对象关键词；以及

所述生成模块进一步用于：

基于所述动作关键词和/或对象关键词，生成所述控制指令。
根据权利要求13所述的装置，其特征在于，所述文本数据包括动作关键词和对象关键词，则所述生成模块，包括：

第一匹配单元，用于将所述文本数据中的动作关键词，与所述预设的指令型文本数据中的动作关键词进行匹配，确定第一动作关键词，所述第一动作关键词是指在所述预设的指令型文本数据中所匹配到的动作关键词；

第二匹配单元，用于将所述文本数据中的对象关键词，与所述预设的指令型文本数据中的对象关键词进行匹配，确定第一对象关键词，所述第一对象关键词是指在所述预设的指令型文本数据中所匹配到的对象关键词；

第一生成单元，用于基于所述第一动作关键词与所述第一对象关键词，生成所述控制指令。
根据权利要求13所述的装置，其特征在于，所述文本数据包括动作关键词，则所述生成模块，包括：

第三匹配单元，用于将所述文本数据中的动作关键词，与所述预设的指令型文本数据中的动作关键词进行匹配，确定第二动作关键词，所述第二动作关键词是指在所述预设的指令型文本数据中所匹配到的动作关键词；

第一确定单元，用于根据所述触发操作的操作对象确定第二对象关键词；

第二生成单元，用于基于所述第二动作关键词与所述第二对象关键词，生成所述控制指令。
根据权利要求13所述的装置，其特征在于，所述文本数据包括对象关键词，则所述生成模块，包括：

第四匹配单元，用于将所述文本数据中的对象关键词，与所述预设的指令型文本数据中的对象关键词进行匹配，确定第三对象关键词，所述第三对象关键词是指在所述预设的指令型文本数据中所匹配到的对象关键词；

第二确定单元，用于根据所述第三对象关键词确定第三动作关键词；

第三生成单元，用于基于所述第三动作关键词与所述第三对象关键词，生成所述控制指令。
一种设备，其特征在于，包括：

一个或多个处理器；和

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-10任一所述的语音控制的方法。
一种计算机可读介质，其上存储有计算机程序,该程序被处理器执行时实现如权利要求1-10任一所述的语音控制的方法。