WO2020057255A1

WO2020057255A1 - 基于终端界面识别的语音控制方法、系统及智能终端

Info

Publication number: WO2020057255A1
Application number: PCT/CN2019/097800
Authority: WO
Inventors: 王子; 梁博; 杨扬; 杨楠
Original assignee: 珠海格力电器股份有限公司
Priority date: 2018-09-17
Filing date: 2019-07-26
Publication date: 2020-03-26
Also published as: CN109215650A

Abstract

一种基于终端界面识别的语音控制方法、系统及智能终端。方法包括：获取和识别当前界面的内容(S2)；根据预先制定的策略生成与当前界面中操作事件对应的语音指令(S3)；将语音指令叠加显示在当前界面上(S4)；用户通过输入对应的语音指令对终端进行事件操作(S5)。各应用界面详细操作可以通过语音控制，用户可以快速了解和记住各类操作的语音指令，语音指令与界面操作的详细位置实现一一对应，其识别准确度会很大程度的提高，同时提升了用户体验。

Description

基于终端界面识别的语音控制方法、系统及智能终端

相关申请

本申请要求2018年09月17日申请的，申请号为201811082204.9，名称为“基于终端界面识别的语音控制方法、系统及智能终端”的中国专利申请的优先权，在此将其全文引入作为参考。

技术领域

本申请涉及用户界面技术领域，具体涉及一种基于终端界面识别的语音控制方法、系统及智能终端。

背景技术

当前的很多软件采取图形用户界面(GUI，Graphical User Interface)的形式，允许用户通过鼠标、键盘、触摸屏等与GUI交互。随着计算机技术的飞速发展，各种便携式可视装备不断涌现，如智能眼镜、智能手表等等。其中，很多装备是不方便用手操作的，语音控制是一种很好的替代方案。

传统的软件用户界面仅考虑可视表现而开发，对于有助于语音交互的界面开发细节关注不够。目前存在各种技术以提供更好的语音人机交互，其中很多注重于创建可结合的更易于语音输入交互的新交互风格，如CommandTalk、ATIS、ELVIS、SUITEKeys等等。SUITEKeys直接模拟用手移动鼠标并且按各个键的交互。这些系统侧重于提供用于口头人机交互的改进型模型，从而在根本上改变交互风格。

随着通讯技术的不断发展，终端的控制方式越来越丰富，也越来越智能，其中，语音控制即一种应用广泛、技术较成熟的控制方式。但是现有技术中的语音系统，仍存在各应用界面详细操作无法使用语音控制，用户无法了解和记住各类操作的语音指令，语音指令与界面操作的详细位置无法一一对应的问题，其识别准确度会很大程度的降低，造成不良的用户体验。

发明内容

为至少在一定程度上克服相关技术中存在的问题，本申请提供基于终端界面识别的语音控制方法、系统及智能终端。

根据本申请实施例的第一方面，提供一种基于终端界面识别的语音控制方法，包括：

获取和识别当前界面的内容；

根据预先制定的策略生成与当前界面中操作事件对应的语音指令；

将语音指令叠加显示在当前界面上；

用户通过输入对应的语音指令对终端进行事件操作。

在其中一个实施例中，预先对应用程序各界面中的操作事件进行语音指令标注，应用程序界面打开界面时根据标注的策略自动生成语音指令，在当前界面上显示。

在其中一个实施例中，识别当前界面中的控件信息，判断是否存在操作事件，若有则生成与操作事件对应的语音指令。

在其中一个实施例中，控件信息包括ImageView、Buttom、ListView、TextView和EditView中的一种或多种。

在其中一个实施例中，所述操作事件包括编辑、滑动、点击和长按操作中的一种或多种。

在其中一个实施例中，所述语音指令叠加显示于操作事件对应的操作区域上。

根据本申请实施例的第二方面，提供一种基于终端界面识别的语音控制系统，包括：

获取模块，用于获取和识别当前界面的内容；

生成模块，根据预先制定的策略生成与当前界面中操作事件对应的语音指令；

显示模块；将语音指令叠加显示在当前界面上；

执行模块，执行用户输入的语音指令对终端进行事件操作。

在其中一个实施例中，所述生成模块包括判断单元，用于判断当前界面中是否存在控件信息。

在其中一个实施例中，所述生成模块包括存储单元，用于存储与操作事件对应的语音指令，供生成模块调用。

根据本申请实施例的第三方面，提供一种智能终端，包括：

所述智能终端上设有权利要求7-9任一所述的语音控制系统，所述智能终端上设有唤醒装置、显示器、语音接收模块，所述唤醒装置用于唤醒智能终端，所述显示器用于当前界面的显示，所述语音接收模块用于接收用户输入的语音指令。

在其中一个实施例中，所述唤醒装置包括实体按键和/或虚拟触摸按键。

本申请的实施例提供的技术方案可以包括以下有益效果：

获取和识别当前界面的内容；根据预先制定的策略生成与当前界面中操作事件对应的语音指令；将语音指令叠加显示在当前界面上；用户通过输入对应的语音指令对终端进行事件操作。各应用界面详细操作可以通过语音控制，用户可以快速了解和记住各类操作的语音指令，语音指令与界面操作的详细位置实现一一对应，其识别准确度会很大程度的提高，同时提升了用户体验。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1是根据一示例性实施例示出的一种基于终端界面识别的语音控制方法的流程图；

图2是根据一示例性实施例示出的一种基于终端界面识别的语音控制系统的示意图；

图3是根据一示例性实施例示出的一种智能终端的示意图；

图4是根据一示例性实施例示出的一种智能终端的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请的一部分实施例，而不是全部的实施例。

本申请实施例公开了文件下载行为的分析方法及智能终端，该方法的流程图如图1所示，包括：

S1：用户唤醒智能终端语音识别功能；

智能终端上设有唤醒装置、显示器、语音接收模块，所述唤醒装置用于唤醒智能终端，所述显示器用于当前界面的显示，所述语音接收模块用于接收用户输入的语音指令；唤醒装置包括实体按键和/或虚拟触摸按键；用户通过按键唤醒或语音唤醒等唤醒方式打开智能终端的语音识别功能；

S2：智能终端获取和识别当前界面的内容；

唤醒智能终端的语音识别功能后，智能终端对当前界面的内容进行信息获取和识别，获取和识别的主要信息包括界面组成结构级，各类控件，并提取控件信息；

识别当前界面中的控件信息，判断是否存在操作事件，若有则生成与操作事件对应的语音指令；控件信息包括ImageView、Buttom、ListView、TextView和EditView中的一种或多种；操作事件包括编辑、滑动、点击和长按操作中的一种或多种，如图3所示；

S3：根据预先制定的策略生成与当前界面中操作事件对应的语音指令；

预先对应用程序各界面中的操作事件进行语音指令标注，应用程序界面打开界面时根据标注的策略自动生成语音指令，在当前界面上显示；通过读取当前界面的底层信息，获知当前界面的可操作按键或者图标，并在上述按键或者图标上生成对应的语音指令；

在一些实施例中，对当前界面中操作事件生成语音指令的方法为手动设置，具体来说，包括：获取当前界面中操作事件，例如长按或者双击屏幕的设定区域，或者触发屏幕上设定的虚拟按键，或者在设置菜单中选择相关的按键选项。进入手动设置模式；在该模式下，当用户点击按键或者图标时，不会触发按键或者图标，仅会对按键或者图标设置语音指令；选择智能终端当前界面中操作事件，并手动设置语音指令；记忆所述操作事件与语音指令的对应关系；

在一些实施例中，对当前界面中操作事件生成语音指令的方法为自动生成，具体来说，包括：通过读取智能终端当前界面的控件信息，判断是否存在操作事件，若有则自动生成与操作事件对应的语音指令；

S4：将语音指令叠加显示在当前界面上；

智能终端根据预先制定的策略生成与当前界面中操作事件对应的语音指令，并激活语音识别功能后，语音指令叠加显示于操作事件对应的操作区域上；如图4所示，在当前界面的返回按钮位置上叠加显示语音指令返回；

S5：用户通过输入对应的语音指令对终端进行事件操作；

智能终端根据预先制定的策略生成与当前界面中操作事件对应的语音指令，并激活语音识别功能后，语音指令叠加显示于操作事件对应的操作区域上；用户通过输入对应的语音指令对终端进行事件操作；如图4所示，用户输入语音指令返回，智能终端执行返回的操作；

根据图2所示，本申请实施例公开了一种基于终端界面识别的语音控制系统，包括：获取模块1、生成模块2、显示模块3及执行模块4；

获取模块1，用于获取和识别当前界面的内容；获取模块对当前界面的内容进行信息获取和识别，获取和识别的主要信息包括界面组成结构级，各类控件，并提取控件信息；识别当前界面中的控件信息，判断是否存在操作事件，若有则生成与操作事件对应的语音指令；控件信息包括ImageView、Buttom、ListView、TextView和EditView中的一种或多种；操作事件包括编辑、滑动、点击和长按操作中的一种或多种；

生成模块2，根据预先制定的策略生成与当前界面中操作事件对应的语音指令；生成模块2包括判断单元21和存储单元22，判断单元21用于判断当前界面中是否存在控件信息；存储单元22用于存储与操作事件对应的语音指令，供生成模块2调用；

显示模块3；将语音指令叠加显示在当前界面上；生成模块2根据预先制定的策略生成与当前界面中操作事件对应的语音指令，并激活语音识别功能后，显示模块3将语音指令叠加显示于操作事件对应的操作区域上；

执行模块4，执行用户输入的语音指令对终端进行事件操作；生成模块2根据预先制定的策略生成与当前界面中操作事件对应的语音指令，并激活语音识别功能后，显示模块3将语音指令叠加显示于操作事件对应的操作区域上；用户通过输入对应的语音指令，执行模块4执行用户输入的语音指令对终端进行事件操作。

可以理解，本申请是通过一些实施例进行描述的，本领域技术人员知悉的，在不脱离本申请的精神和范围的情况下，可以对这些特征和实施例进行各种改变或等效替换。另外，在本申请的教导下，可以对这些特征和实施例进行修改以适应具体的情况及材料而不会脱离本申请的精神和范围。因此，本申请不受此处所公开的具体实施例的限制，所有落入本申请的权利要求范围内的实施例都属于本申请所保护的范围内。

可以理解的是，上述各实施例中相同或相似部分可以相互参考，在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

需要说明的是，在本申请的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本申请的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的可选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

一种基于终端界面识别的语音控制方法，其特征在于，所述方法包括：

获取和识别当前界面的内容；

根据预先制定的策略生成与当前界面中操作事件对应的语音指令；

将语音指令叠加显示在当前界面上；

用户通过输入对应的语音指令对终端进行事件操作。
根据权利要求1所述的基于终端界面识别的语音控制方法，其特征在于：预先对应用程序各界面中的操作事件进行语音指令标注，应用程序界面打开界面时根据标注的策略自动生成语音指令，在当前界面上显示。
根据权利要求1所述的基于终端界面识别的语音控制方法，其特征在于：识别当前界面中的控件信息，判断是否存在操作事件，若有则生成与操作事件对应的语音指令。
根据权利要求3所述的基于终端界面识别的语音控制方法，其特征在于：控件信息包括ImageView、Buttom、ListView、TextView和EditView中的一种或多种。
根据权利要求1所述的基于终端界面识别的语音控制方法，其特征在于：所述操作事件包括编辑、滑动、点击和长按操作中的一种或多种。
根据权利要求1所述的基于终端界面识别的语音控制方法，其特征在于：所述语音指令叠加显示于操作事件对应的操作区域上。
一种基于终端界面识别的语音控制系统，其特征在于：包括

获取模块，用于获取和识别当前界面的内容；

生成模块，根据预先制定的策略生成与当前界面中操作事件对应的语音指令；

显示模块；将语音指令叠加显示在当前界面上；

执行模块，执行用户输入的语音指令对终端进行事件操作。
根据权利要求7所述的一种基于终端界面识别的语音控制系统，其特征在于：所述生成模块包括判断单元，用于判断当前界面中是否存在控件信息。
根据权利要求7或8所述的一种基于终端界面识别的语音控制系统，其特征在于：所述生成模块包括存储单元，用于存储与操作事件对应的语音指令，供生成模块调用。
一种智能终端，其特征在于，所述智能终端上设有权利要求7-9任一所述的语音控制系统，所述智能终端上设有唤醒装置、显示器、语音接收模块，所述唤醒装置用于唤醒智能终端，所述显示器用于当前界面的显示，所述语音接收模块用于接收用户输入的语音指令。
根据权利要求10所述的智能终端，其特征在于：所述唤醒装置包括实体按键和/或虚拟触摸按键。