WO2020007225A1

WO2020007225A1 - 语音控制方法和设备

Info

Publication number: WO2020007225A1
Application number: PCT/CN2019/093222
Authority: WO
Inventors: 李凯; 朱众微; 宋亮
Original assignee: 青岛海信移动通信技术股份有限公司
Priority date: 2018-07-04
Filing date: 2019-06-27
Publication date: 2020-01-09
Also published as: CN110691160A

Abstract

本申请提供了一种语音控制方法及终端设备，所述方法包括：接收包含控制指令的语音数据；解析所述语音数据中的所述控制指令；基于辅助功能获取终端当前操作界面的屏幕信息；响应于所述屏幕信息中查找与所解析出的控制指令相匹配的控件，按照控制指令执行控件关联的操作。

Description

语音控制方法和设备

相关申请的交叉引用

本申请要求于2018年7月4日提交的、名称为“一种语音控制方法、装置及手机”、申请号为201810724986.5的中国发明专利申请的优先权，该申请的全文以引用的形式并入本文中用于所有目的。

技术领域

本申请涉及移动通讯技术领域。

背景技术

手机语音控制是指用户通过语音控制代替按键、点触等操作手机，可解放用户的双手，更加便于手机的使用。随着语音识别技术的发展，基于语音识别功能的手机语音控制越来越受到手机用户的青睐。

发明内容

本申请提供了一种语音控制方案。

第一方面，本申请提供了一种语音控制方法，包括：

获取包含控制指令的语音数据；

解析所述语音数据中的所述控制指令；

基于辅助功能获取终端当前操作界面的屏幕信息；

响应于所述屏幕信息中查找到与解析出的控制指令相匹配的第一控件，按照所述控制指令执行所述第一控件关联的操作。

第二方面，本申请还提供了一种计算机设备，其包括处理器和存储器；

所述存储器，用于存储计算机指令；

所述处理器，用于运行所述存储器中存储的计算机指令，以执行上述的语音控制方法。

第三方面，本申请提供了一种非易失性存储介质，其上存储有处理器可执行指令，当有处理器执行时，所述处理器可执行指令促使所述处理器执行上述的语音控制方法。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一实施例提供的语音控制方法的流程图；

图2为本申请另一实施例提供的语音控制方法的流程图；

图3为本申请再一实施例提供的语音控制方法的流程图；

图4为本申请又一实施例提供的语音控制方法的流程图；

图5为本申请一实施例的计算机设备的结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请的实施例基于安卓操作系统。应当理解，本申请的实施例也可以应用于其他合适的操作系统。

手机语音控制方法，基本上预先设置关键词，并通过关键词去适配相应的应用和/或控件。具体的，用户说出相关控制指令，手机接收用户说出的相关控制指令语音，在本地或者通过服务器进行识别，分析出语义，然后根据分析出的语义与预先设置的关键词比较以进行匹配，对与所匹配的关键词适配的应用/控件进行对应的操作，例如点击，实现手机的操作控制。如，当用户说：“打开设置”，手机接收“打开设置”的语音，识别分析得出“设置”的语义，并与预设的关键词比较发现与“设置”匹配，根据关键词“设置”适配找到“系统-设置”，点击“系统-设置”，完成“系统-设置”的打开。

然而在使用中发现，语音控制往往不能结合当前的界面。例如，以即时通信应用微信为例，用户在“微信-我”的界面想要打开微信设置，说出“打开设置”的语音指令，手机最后打开的是“系统-设置”，而并不是“微信-设置”。导致用户在不同的界面上说出同样的指令却执行的是同一个操作的局面，从而可能造成操作混乱，不便于用户的使用。且语音控制中，打开的都是与关键词适配的应用，当存在应用没有预先设置适配的关键词时，将无法实现语音控制，不便于用户的使用。

图1为本申请一实施例提供的一种语音控制方法的流程图。如图1所示，本申请一实施例提供的语音控制方法，包括：

S100：获取包含控制指令的语音数据。

启动语音控制后，获取用户发出的包含控制指令的语音。在一实施例中，可通过长按终端设备某个物理键，如移动设备的Home键，来启动语音控制。

S200：解析所述语音数据中包含的控制指令。

当获取到用户发出的包含控制指令的语音后，解析所述语音获得所述语音中包含的控制指令。解析语音中包含的控制指令，通常是结合智能语音库截取所接收语音中的关键词并进行关键词的拼接。

S300：基于辅助功能获取终端当前操作界面的屏幕信息。

在一些实施例中，辅助功能(Accessbility)是Android系统中辅助用户操作手机应用的一些功能。本申请中通过辅助功能获取终端当前操作界面的屏幕信息，具体而言，例如，可通过调用Accessbility提供的接口，获取移动设备的当前操作界面的屏幕信息，例如：

调用getRootInActiveWindow获取当前的操作界面的屏幕信息

AccessibilityNodeInfo nodeInfo＝getRootInActiveWindow()；

这个NodeInfo就是当前屏幕信息的一个合集类。

当前操作界面的屏幕信息包括，但不限于，界面上的文字、图片、控件。Text、ID、Clickable等均为控件的属性元素。Text元素为控件的值；ID元素为用于标识控件的唯一标识符，Clickable元素表示该控件是否可点击，当Clickable元素属性为否(false)时，表示控件不能点击。

S400：响应于在所述屏幕信息中查找到与所解析出的控制指令相匹配的控件，按照控制指令执行控件关联的操作。

在一些实施例中，根据解析出的控制指令和获取到的屏幕信息，查找屏幕信息中与解析出的控制指令相匹配的控件，模拟执行所述控件对应的操作，例如，点击操作，完成语音控制。查找屏幕信息中与解析出的控制指令相匹配的控件，即从当前操作界面的屏幕信息中找到用户需要操作控制的控件。

如，用户启动语音控制后，在“微信-我”的界面为当前操作界面时，说：“我要打开设置”，终端的语音控制系统获取“我要打开设置”的语音。根据接收到的“我要打开设置”的语音，截取出所述语音中的关键词“打开”和“设置”，拼接出“打开‘设置’”的控制指令。获取“微信-我”的操作界面的屏幕信息，获得包括“钱包”、“收藏”、“设置”等控件的屏幕信息。在“微信-我”操作界面的屏幕信息中查找与“设置”相匹配的控件，经过遍历屏幕信息，查找到控件“设置”。模拟点击操作，即执行控件点击，从而实现“我要打开设置”的语音控制。不会在“微信-我”的界面执行“打开设置”语音控制的时候，出现打开“系统-设置”的现象，使语音控制结合当前操作界面，提高语音控制的准确性。

在本申请实施例提供的语音控制方法中，在执行语音控制的时候基于辅助功能获取当前操作界面的屏幕信息，做到语音控制所执行操作结合终端当前操作界面的屏幕信息，在终端的任意界面实现与该界面相关的语音控制。即本申请实施例提供的语音控制方法可实现用户看到的操作可直接通过语音进行控制执行操作，不再局限于预先设置适配的应用，有助于实现手机上所有应用的语音控制，扩大了语音控制的控制范围。本申请语音控制方法可用于智能手机、电视等终端设备。

图2为本申请另一实施例提供的一种语音控制方法的流程图。在本申请具体实施方式中，如图2所示，所述方法还包括：

S500:当所述屏幕信息中不存在与解析出的控制指令相匹配的控件时，查找终端系统中与解析出的控制指令相适配的控件并按照所述控制指令执行控件关联的操作。

遍历所述屏幕信息，确定屏幕信息中是否存在与解析出的控制指令相匹配的控件，当存在时，执行步骤S400；当不存在时，执行步骤S500。如此，可有效保证当前操作界面的屏幕信息中无法找到与解析出的控制指令相匹配的控件时，及时停止在当前操作界面的屏幕信息中查找，转而查找终端系统中与解析出的控制指令相适配的控件并执行控件关联的操作，保证语音控制的有效性。

图3为本申请又一实施例提供的一种语音控制方法的流程图。在本申请具体实施方式中，如图3所示，步骤S400：响应于所述屏幕信息中查找到与解析出的控制指令相匹配的控件，按照控制指令执行控件关联的操作，包括：

S401:当所述屏幕信息中存在与解析出的控制指令相匹配的控件时，判断所述控件是否可点击；

S402:响应于所述控件可点击，执行控件的点击；

S403:响应于所述控件不可点击，查找所述控件的父容器中的可点击控件，执行该可点击控件的点击。

因为屏幕信息中的控件具有可点击或不可点击的Clickable属性，当控件具有不可点击的Clickable属性时，模拟点击操作将是无效的，即无法执行控件点击，所以在执行控件点击操作前，判断查找到的控件是否可点击，有效保证屏幕信息中存在与解析出的控制指令相匹配的控件时，执行控件点击操作时的有效性。

如，用户在微信界面说“打开发现”，获取包含控制指令的所述语音并解析所述语音中包含的控制指令，解析识别出“发现”的语义，根据获取到的当前操作界面的屏幕信息，查找所述屏幕信息中包含“发现”的控件，当找到含有“发现”的控件时，获取所述含有“发现”的控件的clickable属性，判断其是否可点击，当其可点击的时候，认为找到的含有“发现”的控件与解析出的控制指令相匹配，执行含有“发现”控件的点击，完成了“打开发现”的语音控制。

图4为本申请再一实施例提供的一种语音控制方法的流程图。在本申请具体实施方式中，如图4所示，本申请实施例提供的语音控制方法，在基于辅助功能获取终端当前操作界面的屏幕信息前，还包括：

S600：确定解析出的控制指令是否与预置词条匹配；

S601：响应于解析出的控制指令与预置词条匹配，根据所述预置词条拆分所解析出的控制指令。

预置词条通常用于表示若干个控制指令，记录其中每一个控制指令的相关步骤。如，预置词条“查看朋友圈”记录“进入微信”、“点击发现”和“点击朋友圈”三个步骤。

在解析出语音中所包含的控制指令后，先进行所述控制指令与预置词条的比较，判断解析出的控制指令是否与预置词条匹配，即判断预置词条中是否包含所述解析出的控制指令。当解析出的控制指令与预置词条匹配或预置词条中包含所述解析出的控制指令时，根据预置词条拆分所解析出的控制指令，根据拆分得到的控制指令依次执行控件关联的操作，例如依次根据相应操作界面的屏幕信息查找相应控制指令的控件进行点击。

如，用户想打开微信朋友圈，启动语音控制在桌面说“进入微信”，语音控制系统获取“进入微信”的语音，解析所述语音获取打开微信的控制指令，获取当前桌面的屏幕信息，在当前桌面的屏幕信息中查找微信控件，执行微信控件点击，进入微信；朋友圈在微信的发现-朋友圈内，则可以先说“发现”，语音控制系统获取“发现”的语音，解析所述语音获取进入发现的控制指令，获取当前微信界面的屏幕信息，在当前微信界面查找到发现控件，执行发现控件点击，进入发现；进入发现界面后，用户可以再说“朋友圈”，语音控制系统获取“朋友圈”的语音，解析所述语音获取进入朋友圈的控制指令，获取当前发现界面的屏幕信息，在当前发现界面的屏幕信息中查找到朋友圈控件，执行朋友圈控件点击，进入朋友圈。如此，基于辅助功能对当前界面的屏幕信息的获取，实现对界面内控件的直接控制。

基于上述实施例提供的语音控制方法，在“查看朋友圈”已设置为预置词条的情况下，用户可在桌面当前操作界面直接说“查看朋友圈”，语音控制系统根据预置词条“查看朋友圈”记录的“进入微信”、“点击发现”和“点击朋友圈”步骤，则会获取当前桌面的屏幕信息，查找微信控件信息，点击进入微信；进入微信界面后，获取微信界面的屏幕信息，查找微信界面中“发现”控件，点击“发现”控件；进入发现界面后，获取发现界面的屏幕信息，查找发现界面中的“朋友圈”控件，点击“朋友圈”控件，进入朋友圈，实现查看朋友圈的操作。如此，本申请实施例提供的语音控制方法通过结合所处界面的屏幕信息实现多个控制操作的执行。

进一步，在本申请具体实施方式中，本申请实施例提供的语音控制方法，还包括：

当所述屏幕信息中存在的与解析出的控制指令相匹配的控件不唯一时，提醒用户手动选择。

当在预设等待时间内未接收到用户手动选择信号，执行所述屏幕信息中第一个与解析出的控制指令相匹配的控件关联的操作。

在具体实施本申请提供的语音控制方法时，在查找所述屏幕信息中与解析出的控制指令相匹配的控件时，可能会查找到两个或两个以上相匹配的可点击控件，即屏幕信息中存在的与解析出的控制指令相匹配的控件不唯一。如此，为保证语音控制正常进行，在本申请具体实施方式中，当所述屏幕信息中存在的与解析出的控制指令相匹配的控件不唯一时，提醒用户手动选择，例如点击以进行选择，如显示文字或语音提醒“您给予的指令不唯一，请手动选择”，根据用户手动选择打开相关控件。更进一步，预设等待时间用于语音控制系统在给予提醒后等待用户进行选择，当在预设等待时间内未接收到用户手动选择信号，点击所述屏幕信息中第一个与解析出的控制指令相匹配的控件。本申请实施例中，不局限于屏幕信息中第一个与解析出的控制指令相匹配的控件，可以为任意一个，可根据需要进行设置。

如，在视频网站搜索界面语音控制搜索XX电影，根据控制指令搜索到N个XX电影相关的电影，当在执行点击XX电影的时候，因为当前界面含有N个XX电影的控件，提醒用户“找到N个电影，请手动选择”，用户可根据此提醒进行手动选择。也可等待一段时间让语音控制系统根据其默认规律自行执行控件点击。如点击第一个“XX电影”控件或更新时间最新的“XX电影”控件等等。

在本申请具体实施方式中，本申请提供的语音控制方法还包括：

当在预设等待时间内接收到用户手动选择信号，记录用户所选择控件的ID；

将解析出的控制指令与所述控件的ID进行唯一适配设置。

具体的，当所述屏幕信息中存在的与解析出的控制指令相匹配的控件不唯一时，提醒用户手动选择，用户在预设等待时间内进行了手动选择，语音控制系统记录用户所选择控件的ID，然后，将解析出的控制指令与所述控件的ID进行唯一适配设置。如此，当用户在相同情况下进行相同的语音控制时，可直接进行此控件的选择，而不会再发生找到多个相匹配的控件时，进行提醒才能继续执行语音控制。

为保证解析出的控制指令与所述控件一一对应，当在预设等待时间内接收到用户手动选择信号，记录用户所点击控件的ID，还可以记录用户所点击控件的Text等属性信息。

更进一步，在本申请具体实施方式中，本申请提供的语音控制方法还包括：

当在预设等待时间内接收到用户手动选择信号，提醒用户是否记录操作；

当接收到记录操作的信号时，将解析出的控制指令与所述控件的ID唯一适配设置。

具体的，当所述屏幕信息中存在的与解析出的控制指令相匹配的控件不唯一时，提醒用户手动选择，用户在预设等待时间内进行了手动选择，例如点击，语音控制系统在预设等待时间内接收到用户手动选择信号，提醒用户是否记录操作；当接收到记录操作的信号时，记录用户所选择控件的ID，然后将解析出的控制指令与所述控件的ID唯一适配设置。除了实现上述实施例的功能，还通过提醒用户是否记录操作，防止语音控制系统自主设置了不合适的匹配；如，用户点击了语音控制指令外的控件。如此，本申请实施例提供的语音控制方法提高语音控制操作的准确性。

在一实施例中，提醒用户是否记录操作以语音的形式实现，用户亦通过语音进行反馈，例如，用户反馈“记录”/“是”来向语音控制系统发出记录操作信号，或者反馈“不记录”/“否”来向语音控制系统发出不记录操作的信号。在一实施例中，提醒用户是否记录操作以弹窗的形式实现，例如，用户通过点击弹窗中的“记录”/“是”控件来向语音控制系统发出记录操作信号。

与上述实施例提供的一种语音控制方法相对应，本申请还提供了一种计算机设备的实施例。

如图5所示，本申请实施例提供的计算机设备700，包括处理器701、存储器702、内存703、网络接口704和内部总线705，其中，所述处理器701、存储器702、内存703和网络接口704通过内部总线705相连；

所述存储器702，用于存储计算机指令；

所述处理器701，配置为运行所述存储器702中存储的计算机指令，以执行上述实施例提供的任意一项所述的语音控制方法。

需要说明的是，本申请实施例上述涉及的处理器可以是中央处理器(Central Processing Unit，CPU)、通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application-Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。处理器也可以是实现计算功能的组合，例如包含一个或多个微处理器组合、DSP和微处理器的组合等等。

其中，处理器701内部设置有微存储器，用于存储程序，程序可以包括程序代码，程序代码包括计算机操作指令。微存储器可能包含随机存取存储器(random access memory，简称RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。图中仅示出了一个处理器，当然，微存储器也可以根据需要，为多个微处理器。微处理器，用于读取存储器中存储的程序代码。本申请实施例提供的语音控制装置可用于智能手机、电视等终端设备。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处，相关之处参见方法实施例的部分说明即可。本领域技术人员在考虑说明书及实践这里的方案后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未具体描述的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围的情况下进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

一种用于终端设备的语音控制方法，所述方法包括：

获取包含控制指令的语音数据；

解析所述语音数据中的所述控制指令；

基于辅助功能获取所述终端设备当前操作界面的屏幕信息；

响应于在所述屏幕信息中查找到与所解析出的控制指令相匹配的第一控件，按照所述控制指令执行所述第一控件关联的操作。
根据权利要求1所述的语音控制方法，还包括：

响应于所述屏幕信息中不存在与所解析出的控制指令相匹配的第一控件，查找所述终端设备的系统中与所解析出的控制指令相匹配的第二控件；并

按照所述控制指令执行所述第二控件关联的操作。
根据权利要求1所述的语音控制方法，基于辅助功能获取所述终端设备当前操作界面的所述屏幕信息，包括：

根据辅助功能提供的接口，获取所述终端设备当前操作界面的所述屏幕信息，

其中，所述屏幕信息包括控件的Text元素、ID元素和指示是否Clickable的元素中的一种或多种。
根据权利要求1所述的语音控制方法，按照所述控制指令执行所述第一控件关联的操作，包括：

核查所述第一控件是否可点击；

响应于所述第一控件可点击，执行所述第一控件关联的操作；

响应于所述第一控件不可点击，查找所述第一控件的父容器中的可点击控件，并执行所述可点击控件关联的操作。
根据权利要求1所述的语音控制方法，在基于辅助功能获取所述终端设备当前操作界面的所述屏幕信息前，还包括：

确定所解析出的控制指令是否与预置词条列表中的第一词条匹配；

响应于所解析出的控制指令与所述预置词条列表中的第一词条匹配，根据所述第一词条拆分所解析出的控制指令。
根据权利要求1所述的语音控制方法，按照所述控制指令执行所述第一控件关联的操作，包括：

确定所述第一控件的个数是否为1，

响应于所述第一控件的个数大于1，向用户发出提示，所述提示用于指示所述用户手动选择。
根据权利要求6所述的语音控制方法，还包括：

在预设等待时间内未接收到所述用户手动选择，执行所述第一控件中的第一个控件关联的操作。
根据权利要求6所述的语音控制方法，还包括：

响应于在预设等待时间内接收到所述用户手动选择，记录所述用户从所述第一控件所选择的目标控件的ID；

将所解析出的控制指令与所述目标控件的ID唯一适配设置。
根据权利要求6所述的语音控制方法，还包括：

响应于预设等待时间内接收到所述用户手动选择，向所述用户发出提示，所述提示用于提醒所述用户记录操作；

当接收到记录操作信号时，将所解析出的控制指令与所述用户从所述第一控件选择的目标控件的ID唯一适配设置。
一种终端设备，包括存储器和处理器，

所述存储器，用于存储计算机指令；

所述处理器，配置为运行所述计算机指令以实现：

获取包含控制指令的语音数据；

解析所述语音数据中的所述控制指令；

基于辅助功能获取所述终端设备当前操作界面的屏幕信息；

响应于在所述屏幕信息中查找到与所解析出的控制指令相匹配的第一控件，按照所述控制指令执行所述第一控件关联的操作。
根据权利要求10所述的设备，所述处理器还配置为：

响应于所述屏幕信息中不存在与所解析出的控制指令相匹配的第一控件，查找所述终端设备的系统中与所解析出的控制指令相匹配的第二控件；并

按照所述控制指令执行所述第二控件关联的操作。
根据权利要求10所述的设备，当基于辅助功能获取所述终端设备当前操作界面的所述屏幕信息时，所述处理器配置为：

根据辅助功能提供的接口，获取所述终端设备当前操作界面的所述屏幕信息，

其中，所述屏幕信息包括控件的Text元素、ID元素和指示是否Clickable的元素中的一种或多种。
根据权利要求10所述的设备，当按照所述控制指令执行所述第一控件关联的操作时，所述处理器配置为：

核查所述第一控件是否可点击；

响应于所述第一控件可点击，执行所述第一控件关联的操作；

响应于所述第一控件不可点击，查找所述第一控件的父容器中的可点击控件，并执行所述可点击控件关联的操作。
根据权利要求10所述的设备，在基于辅助功能获取所述终端设备当前操作界面的所述屏幕信息前，所述处理器配置为：

确定所解析出的控制指令是否与预置词条列表中的第一词条匹配；

响应于所解析出的控制指令与所述预置词条列表中的第一词条匹配，根据所述第一词条拆分所解析出的控制指令。
根据权利要求10所述的设备，当按照所述控制指令执行所述第一控件关联的操作时，所述处理器配置为：

确定所述第一控件的个数是否为1，

响应于所述第一控件的个数大于1，向用户发出提示，所述提示用于指示所述用户手动选择。
根据权利要求15所述的设备，所述处理器还配置为：

在预设等待时间内未接收到所述用户手动选择，执行所述第一控件中的第一个控件关联的操作。
根据权利要求15所述的设备，所述处理器还配置为：

响应于在预设等待时间内接收到所述用户手动选择，记录所述用户从所述第一控件所选择的目标控件的ID；

将所解析出的控制指令与所述目标控件的ID唯一适配设置。
根据权利要求15所述的设备，所述处理器还配置为：

响应于预设等待时间内接收到所述用户手动选择，向所述用户发出提示，所述提示用于提醒所述用户记录操作；

当接收到记录操作信号时，将所解析出的控制指令与所述用户从所述第一控件选择的目标控件的ID唯一适配设置。