WO2023045645A1

WO2023045645A1 - 语音交互方法、电子设备及计算机可读存储介质

Info

Publication number: WO2023045645A1
Application number: PCT/CN2022/113396
Authority: WO
Inventors: 温智坚; 张乐乐; 赖聪; 肖峰
Original assignee: 华为技术有限公司
Priority date: 2021-09-24
Filing date: 2022-08-18
Publication date: 2023-03-30
Also published as: CN115857661A

Abstract

一种语音交互方法、电子设备（81，91，101，14）及计算机可读存储介质，用于解决控件匹配冲突。方法包括：电子设备对获取的第一语音进行处理，得到第一语音指令（S602，S702，S1102）；获取当前界面内各个第一控件的文本描述信息和位置信息（S603，S703）；确定人眼视线在屏幕上的视觉焦点区域（S604，S704）；将第一语音指令与目标信息进行匹配，该目标信息包括各个第一控件的文本描述信息（S605，S705）；若当前界面包括至少两个第一目标控件，针对每个第一目标控件，根据第一目标控件的位置信息，确定第一目标控件是否位于视觉焦点区域内，第一目标控件为文本描述信息与第一语音指令相匹配的控件（S606，S706）；当视觉焦点区域内只包括一个第一目标控件，对视觉焦点区域内的第一目标控件执行预设操作（S607，S707）。

Description

语音交互方法、电子设备及计算机可读存储介质

本申请要求于2021年09月24日提交国家知识产权局、申请号为202111122192.X、申请名称为“语音交互方法、电子设备及计算机可读存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人机交互技术领域，尤其涉及一种语音交互方法、电子设备、计算机可读存储介质及计算机程序产品。

背景技术

随着人机交互技术的不断发展，通过语音控制电子设备的应用也越来越广泛。

目前，通过语音控制电子设备的过程可以如下：用户向电子设备输入用户语音，电子设备采集用户语音之后，对该用户语音进行识别，得到语音指令；电子设备通过遍历当前显示界面的界面布局文件，获得当前显示界面上各个系统原生控件的文本描述信息和坐标信息；再将语音指令和各个控件的文本描述信息进行匹配，找出与该语音指令相匹配的控件；最后，对与语音指令相匹配的控件执行点击操作，以实现通过语音控制电子设备。

如果当前显示界面上包括至少两个具备相同文本描述信息的控件，而该语音指令与这至少两个控件相匹配，即出现至少两个控件与语音指令相匹配，则出现控件匹配冲突的问题。控件匹配冲突问题可能会导致无法准确地匹配用户意图，出现误匹配。

发明内容

本申请提供一种语音交互方法、电子设备、计算机可读存储介质及计算机程序产品，可以解决控件匹配冲突问题。

第一方面，本申请实施例提供一种语音交互方法，应用于电子设备，该方法包括：获取第一语音；对第一语音进行处理，得到第一语音指令；获取当前界面内各个第一控件的文本描述信息和位置信息，第一控件为属于第一类别的控件，电子设备的屏幕显示的当前界面包括至少一个控件；确定人眼视线在屏幕上的视觉焦点区域；将第一语音指令与目标信息进行匹配，该目标信息包括各个第一控件的文本描述信息；若当前界面包括至少两个第一目标控件，针对每个第一目标控件，根据第一目标控件的位置信息，确定第一目标控件是否位于视觉焦点区域内，第一目标控件为文本描述信息与第一语音指令相匹配的控件；当视觉焦点区域内只包括一个第一目标控件，对视觉焦点区域内的第一目标控件执行预设操作。

由上可见，当存在至少两个与第一语音指令相匹配的第一目标控件，即出现控件匹配冲突时，使用视觉焦点区域对至少两个第一目标控件进行筛选，并在视觉焦点区域只包括一个第一目标控件时，将视觉焦点区域内的第一目标控件确定为与第一语音指令相匹配的控件。这样，通过视觉焦点区域减少控件匹配范围，降低匹配冲突的可能性，提高了控件匹配冲突时的匹配准确率。

在第一方面的一些可能的实现方式中，当视觉焦点区域内包括至少两个第一目标控件；该方法还包括：显示视觉焦点区域内每个第一目标控件的唯一标识；获取第二语音；对第二语音进行处理，得到第二语音指令；将第二语音指令与每个第一目标控件的唯一标识进行匹配；当视觉焦点区域内存在一个第二目标控件，对第二目标控件执行预设操作，第二目标控件为唯一标识与第二语音指令相匹配的第一目标控件。

在该实现方式中，当视觉焦点区域内包括至少两个第一目标控件时，则进一步通过给每个第一目标控件增加唯一标识，以让用户再次确认控制意图，进一步提高了控件匹配冲突时的匹配准确率。另外，只显示视觉焦点区域内的第一目标控件的唯一标识，用户交互体验更佳。

在第一方面的一些可能的实现方式中，在显示视觉焦点区域内每个第一目标控件的唯一标识之后，在获取第二语音之前，该方法还包括：显示提示信息，提示信息用于提示针对唯一标识输入语音。

在该实现方式中，电子设备在显示第一目标控件的唯一标识之后，通过提示信息提示用户再次输入控制语音，用户体验更好。

在第一方面的一些可能的实现方式中，上述目标信息还包括视觉焦点区域内的各个第二控件的文本描述信息，第二控件为属于第二类别的控件；

在将第一语音指令与目标信息进行匹配之前，该方法还包括：遍历当前界面的页面布局文件，获得每个控件的位置信息和控件类型信息；根据每个控件的位置信息和控件类型信息，判断视觉焦点区域内是否包括第二控件；当视觉焦点区域内包括至少一个第二控件，对视觉焦点区域进行光学字符识别，获得光学字符识别结果，光学字符识别结果包括视觉焦点区域内各个第二控件的文本描述信息。第二控件是指不可通过遍历界面布局文件获取其文本描述信息的控件，例如，WebView控件。

在该实现方式中，当视觉焦点区域内包括第二控件时，则对视觉焦点区域进行光学字符识别(Optical Character Recognition，OCR)，以获得第二控件的文本描述信息，提高了控件识别覆盖率，进一步提高了控件匹配的准确率。

在第一方面的一些可能的实现方式中，第二类别包括WebView控件和/或第三方自定义控件，第一类别包括系统原生控件。

在第一方面的一些可能的实现方式中，上述确定人眼视线在屏幕上的视觉焦点区域的过程可以包括：通过进行至少两次视线焦点区域估算，获得至少两个待选视线焦点区域，待选视线焦点区域为人眼视线在屏幕上的视觉焦点区域；将第一语音指令与各个第一控件的文本描述信息进行匹配；当存在至少一个第三目标控件，且各个待选视线焦点区域均不包括第三目标控件，将至少两个待选视线焦点区域中的最左边界线、最右边界线、最上边界线以及最下边界线组成的区域作为视觉焦点区域，第三目标控件为文本描述信息与第一语音指令相匹配的第一控件；当存在至少一个第三目标控件，且至少一个第三目标控件不位于至少两个待选视线焦点区域的交集区域，将至少两个目标待选视线焦点区域中的最左边界线、最右边界线、最上边界线以及最下边界线组成的区域作为视觉焦点区域，目标待选视线焦点区域为包括第三目标控件的待选视线焦点区域；当存在至少一个第三目标控件，且至少一个第三目标控件位于至少两个目标待选视线焦点区域的交集区域，将交集区域作为视觉焦点区域。

在该实现方式中，通过结合多次估算出的视觉焦点区域、语音指令和控件的文本描述信息，根据与第一语音指令匹配的第三目标控件在各个估算的视觉焦点区域中的情况，确定出最终的用户视觉焦点区域，提高了视线追踪的准确率。

在第一方面的一些可能的实现方式中，若当前界面只包括一个第一目标控件，该方法还包括：对第一目标控件执行预设操作。

第二方面，本申请实施例提供一种语音交互方法，应用于电子设备，该方法包括：获取第一语音；对第一语音进行处理，得到第一语音指令；确定人眼视线在电子设备的屏幕上的视觉焦点区域，屏幕显示的当前界面包括至少一个控件；获取每个第一控件的文本描述信息，第一控件为属于第一类别且位于视觉焦点区域内的控件；将第一语音指令与目标信息进行匹配，目标信息包括每个第一控件的文本描述信息；当视觉焦点区域内存在一个第一目标控件，对第一目标控件执行预设操作，第一目标控件为文本描述信息与第一语音指令相匹配的控件。

在第二方面的一些可能的实现方式中，当视觉焦点区域内存在至少两个第一目标控件，该方法还包括：显示每个第一目标控件的唯一标识；获取第二语音；对第二语音进行处理，得到第二语音指令；将第二语音指令与每个第一目标控件的唯一标识进行匹配；

当视觉焦点区域内存在一个第二目标控件，则对第二目标控件执行预设操作，第二目标控件为唯一标识与第二语音指令相匹配的第一目标控件。

在第二方面的一些可能的实现方式中，目标信息还包括视觉焦点区域内的各个第二控件的文本描述，第二控件为属于第二类别的控件；在将第一语音指令与目标信息进行匹配之前，该方法还包括：遍历当前界面的页面布局文件，获得每个控件的位置信息和控件类型信息；根据每个控件的位置信息和控件类型信息，判断视觉焦点区域内是否包括第二控件；当视觉焦点区域内包括至少一个第二控件，则对视觉焦点区域进行光学字符识别，获得光学字符识别结果，光学字符识别结果包括视觉焦点区域内各个第二控件的文本描述信息。

在第二方面的一些可能的实现方式中，上述确定人眼视线在电子设备的屏幕上的视觉焦点区域的过程可以包括：通过进行至少两次视线焦点区域估算，获得至少两个待选视线焦点区域，待选视线焦点区域为人眼视线在屏幕上的视觉焦点区域；将第一语音指令与各个第一控件的文本描述信息进行匹配；当存在至少一个第三目标控件，且各个待选视线焦点区域均不包括第三目标控件，将至少两个待选视线焦点区域中的最左边界线、最右边界线、最上边界线以及最下边界线组成的区域作为视觉焦点区域，第三目标控件为文本描述信息与第一语音指令相匹配的第一控件；当存在至少一个第三目标控件，且至少一个第三目标控件不位于至少两个待选视线焦点区域的交集区域，将至少两个目标待选视线焦点区域中的最左边界线、最右边界线、最上边界线以及最下边界线组成的区域作为视觉焦点区域，目标待选视线焦点区域为包括第三目标控件的待选视线焦点区域；当存在至少一个第三目标控件，且至少一个第三目标控件位于至少两个目标待选视线焦点区域的交集区域，将交集区域作为视觉焦点区域。

第三方面，本申请实施例提供一种电子设备，包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序，处理器执行计算机程序时实现如上述第一方面或第二方面任一项的方法。

第四方面，本申请实施例提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现如上述第一方面或第二方面任一项的方法。

第五方面，本申请实施例提供一种芯片系统，该芯片系统包括处理器，处理器与存储器耦合，处理器执行存储器中存储的计算机程序，以实现如上述第一方面或第二方面任一项所述的方法。该芯片系统可以为单个芯片，或者多个芯片组成的芯片模组。

第六方面，本申请实施例提供一种计算机程序产品，当计算机程序产品在电子设备上运行时，使得电子设备执行上述第一方面或第二方面任一项所述的方法。

可以理解的是，上述第二方面至第六方面的有益效果可以参见上述第一方面中的相关描述，在此不再赘述。

附图说明

图1为本申请实施例提供的语音控制电子设备的一种场景示意图；

图2为本申请实施例提供的语音控制电子设备的另一种示意图；

图3为本申请实施例提供的大屏设备22的当前显示界面的一种示意图；

图4为本申请实施例提供的大屏设备22的当前显示界面的另一种示意图；

图5为本申请实施例提供的提示信息的一种示意图；

图6为本申请实施例提供的语音交互方法的一种流程示意图；

图7为本申请实施例提供的语音交互方法的另一种流程示意图；

图8为本申请实施例提供的确定视觉焦点区域的一种示意图；

图9为本申请实施例提供的确定视觉焦点区域的另一种示意图；

图10为本申请实施例提供的确定视觉焦点区域的另一种示意图；

图11为本申请实施例提供的语音交互方法的另一种流程示意框图；

图12为本申请实施例提供的语音交互装置的一种结构示意框图；

图13为本申请实施例提供的基于语音交互装置的流程示意框图；

图14为本申请实施例提供的电子设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。

下面对本申请实施例可能涉及的应用场景进行示例性介绍。

参见图1，为本申请实施例提供的语音控制电子设备的一种场景示意图。如图1所示，该场景下包括用户11和大屏设备12。大屏设备12的当前显示界面121上包括控件122、控件123、控件124、控件125、控件126、控件127、控件128以及控件129。

用户11向大屏设备12输入语音“打开电影”。大屏设备12通过拾音设备采集用户语音之后，对该采集到的用户语音进行处理，得到该用户语音对应的语音指令。例如，大屏设备12可以通过麦克风阵列采集用户语音，并通过自动语音识别(Automatic Speech Recognition，ASR)对该用户语音进行处理，得到语音控制指令。

大屏设备12可以通过遍历界面布局文件，可以获得当前显示界面121上各个系统原生控件的文本描述信息和位置信息。

控件的文本描述信息用于表征控件的文本语义。例如，控件122显示的文本为“首页”，则控件122的文本描述信息包括词语“首页”。同理，控件123的文本描述信息包括词语“电影”。

控件的位置信息用于表征控件在界面或屏幕上的位置，通常以坐标的形式存在。例如，通过控件122的位置信息，可以得知控件122处于当前显示界面121的具体位置。

大屏设备12在获得语音指令“打开电影”和当前界面121上各个系统原生控件的文本描述信息之后，则将语音指令和各个系统原生控件的文本描述信息进行匹配，查找出与该语音指令匹配的控件。

例如，将语音指令中的“电影”与当前界面121上的各个控件的文本描述信息进行匹配。控件123的文本描述信息包括“电影”，与语音指令中的“电影”相匹配，则将控件123确定为与语音指令相匹配的控件。

大屏设备12通过将语音指令和控件文本描述信息进行匹配，确定出与语音指令相匹配的控件之后，则可以对该控件执行相应操作。例如，与语音指令“打开电影”相匹配的控件为控件123，则对控件123执行模拟点击操作。

这样，用户11实现了通过语音控制大屏设备12。

可以理解的是，控件之间的文本描述信息可能相同，也可能不相同。因此，如果当前显示界面121上各个存在两个具有相同文本描述的控件，则会匹配出两个与语音指令相匹配的控件，出现控件匹配冲突的问题。出现控件匹配冲突时，大屏设备12无法确定用户实际想要匹配的是哪个控件，可能会出现误匹配的问题。

例如，控件123和控件128均为系统原生控件，通过遍历当前显示界面121的界面布局文件可以得到控件123的文本描述信息和控件128的文本描述信息。假设控件123和控件128的文本描述信息均包括词语“电影”。此时，与用户语音“打开电影”相匹配的控件包括控件123和控件128。大屏设备12无法确定用户语音“打开电影”是针对控件123，还是针对控件128。

另外，界面布局文件除了包括系统原生控件的文本描述信息之外，还包括当前显示界面121上各个控件的控件类型信息。控件类型信息用于表征该控件的类型。控件的类型示例性包括系统原生控件、第三方自定义控件(非系统原生控件)和WebView控件等。

通过遍历界面布局文件可以获得系统原生控件的文本描述信息，但不能获取到第三方自定义控件和WebView控件的文本描述信息。无法获取到第三方自定义控件和WebView控件等文本描述信息，则无法将这些控件与用户语音指令进行匹配。

例如，假设当前显示界面121上的控件129为WebView控件，大屏设备12通过遍历界面布局文件，获取不到控件129的文本描述信息，则无法将语音指令和控件129的文本描述信息进行匹配。

针对通过语音控制电子设备的场景中存在的控件匹配冲突以及控件识别覆盖率低等问题，本申请实施例提供视觉和语音多模结合的交互方案。

本申请实施例中，如果当前显示界面存在至少两个与语音指令相匹配的控件，则使用用户人眼视线在屏幕上的视觉焦点区域对相匹配的至少两个控件进行筛选，以减少控件匹配范围，降低控件匹配冲突的可能性，提高控件匹配的准确率。

示例性地，下面结合图2至图5，对结合视觉和语音的语音交互过程进行介绍说明。

其中，图2为本申请实施例提供的语音控制电子设备的另一种示意图。图3为本申请实施例提供的大屏设备22的当前显示界面的一种示意图。图4为本申请实施例提供的大屏设备22的当前显示界面的另一种示意图。图5为本申请实施例提供的提示信息的一种示意图。

如图2所示，用户21正在观看大屏设备22当前显示的界面221，用户的眼睛视线在大屏设备22的屏幕上的区域为视觉焦点区域222。并且，用户21向大屏设备22输入用户语音“打开游戏A”。

大屏设备22当前显示的界面221可以如图3所示。在图3中，界面221包括控件223～控件234，每个控件上均具备相应的文本。例如，控件223上的文本为“游戏B”，控件224上的文本为“游戏A”，控件225上的文本为“游戏B”。其中，界面221可以为某个视频播放软件的界面，该界面上的各个控件可以对应一个视频或一个直播间。例如，对于控件224，其可以对应游戏A的视频，或者对应游戏A的直播间。

大屏设备22上可以集成有麦克风阵列和摄像头。大屏设备22通过麦克风阵列采集用户语音“打开游戏A”，同时，通过摄像头采集用户的人脸图像；采集到用户语音之后，对用户语音进行ASR处理，得到语音指令。大屏设备22采集到人脸图像之后，对人脸图像进行人脸区域检测，以确定出图像中的人脸区域；再根据人脸区域进行瞳孔中心定位；接着根据图像坐标系和大屏设备22的屏幕坐标系之间的对应关系，以及图像坐标系下的瞳孔中心，计算出人眼在屏幕上的坐标，进而确定出人眼视线在屏幕上的视觉焦点区域222。

大屏设备22通过遍历界面221的界面布局文件，以获得界面221上系统原生控件的坐标和文本描述信息等。

在一些实施例中，大屏设备22在获得系统原生控件的文本描述信息之后，则将语音指令和各个系统原生控件的文本描述信息进行匹配。

在另一些实施例中，为了提高控件识别准确率，大屏设备22除了通过遍历界面布局文件，获得各个系统原生控件的文本描述信息，还可以从界面布局文件中获取各个控件的控件类型信息，根据控件类型信息，判断视觉焦点区域222内是否包括第三方自定义控件和WebView控件等。如果视觉焦点区域222内包括第三方自定义控件和WebView控件的至少一种，则对视觉焦点区域222进行OCR识别，获得OCR识别结果。在获得系统原生控件的文本描述信息和视觉焦点区域的OCR识别结果之后，大屏设备22将语音指令与系统原生控件的文本描述信息和OCR识别结果进行匹配。

如果界面221中只存在一个控件与语音指令“打开游戏A”相匹配，则对该控件执行点击操作。

如果界面221中存在至少两个控件与语音指令“打开游戏A”相匹配，则根据该至少两个控件的坐标，判断控件是否位于视觉焦点区域222中，并统计位于视觉焦点区域222内的控件。如果视觉焦点区域中只包括一个与语音指令相匹配的控件，则对视觉焦点区域内的控件执行点击操作；如果视觉焦点区域内包括至少两个与语音指令相匹配的控件，则显示视觉焦点区域内每个与语音指令相匹配的控件的唯一标识，并与用户进行多轮对话，以再次确认用户的控制意图。

在图3所示的界面221中，与语音指令“打开游戏A”相匹配的控件包括控件224、控件226、控件228、以及控件233，即存在至少两个控件与语音指令相匹配，出现了控件匹配冲突。

进一步地，大屏设备22根据控件226、控件228以及控件233的坐标信息，判断这三个控件是否位于视觉焦点区域222内，并统计位于视觉焦点区域222内的控件数量。此时，大屏设备22确定控件224位于视觉焦点区域222内，且视觉焦点区域222内只包括一个与语音指令相匹配的控件，则对控件224执行点击操作。

而在图4所示的界面221中，与语音指令“打开游戏A”相匹配的控件包括控件224、控件225、控件226、控件228以及控件233，即存在至少两个控件与语音指令相匹配，出现了控件匹配冲突。

大屏设备22根据相匹配的各个控件的坐标，以及视觉焦点区域222的坐标等，针对各个相匹配的控件，判断其是否位于视觉焦点区域222内，并统计位于视觉焦点区域222内的相匹配控件的数量。此时，控件224和控件225位于视觉焦点区域222内，即视觉焦点区域内222包括至少两个与语音指令相匹配的控件。

为了进一步确认用户控制意图，大屏设备22可以针对视觉焦点区域222内各个与语音指令相匹配的控件，为其显示一个唯一标识，用户可以针对该唯一标识再次输入控制语音。

在图4中，大屏设备22确定出视觉焦点区域222内包括控件224和控件225之后，则给控件224显示角标235，给控件225显示角标236。角标235作为控件224的唯一标识，角标236作为控件225的唯一标识。

大屏设备22在显示角标235和角标236之后，用户21可以针对所显示的角标输入用户语音。例如，用户21再次输入的用户语音为“打开第1个”，大屏设备22在采集到该用户语音之后，对该用户语音进行处理，得到该用户语音对应的语音指令，并将该语音指令与每个控件的唯一标识进行匹配。此时，该语音指令与角标235相匹配，大屏设备22则确定控件224为用户实际想要控制的控件，则对控件224执行点击操作。同理，如果用户再次输入的用户语音为“打开第2个”，与该用户语音相匹配的为角标236，则对控件225执行点击操作。

为了进一步地提高用户交互体验，大屏设备22在显示唯一标识之后，可以通过提示信息提示用户再次输入控制语音。提示方式可以是语音提示，也可以是文字提示。示例性地，如图5所示，大屏设备22在显示角标235和角标236之后，显示提示窗口237。提示窗口237内显示有提示信息“请选择第几个，你可以说第1个”，即如果用户想要选择控件224，则可以说“第1个”，如果用户想要选择控件225，则可以说“第2个”。

需要说明的是，上述提及的通过语音控制大屏设备22的场景仅仅是一种示例，并不造成对本申请实施例的应用场景的限定。

在介绍完本申请实施例可能涉及的应用场景之外，下面将结合附图对本申请实施例提供的方案进行示例性介绍。

参见图6，为本申请实施例提供的语音交互方法的一种流程示意图，该方法可以包括以下步骤：

步骤S601、电子设备获取第一语音。

示例性地，电子设备可以通过拾音设备采集用户语音，以获得第一语音。拾音设备可以集成在电子设备上，也可以不集成在电子设备上。该拾音设备可以具体为麦克风阵列。

步骤S602、电子设备对第一语音进行处理，得到第一语音指令。

示例性地，电子设备对第一语音进行ASR处理，以将第一语音转化成文本控制命令，以获得上述第一语音指令。

步骤S603、电子设备获取当前界面内各第一控件的文本描述信息和位置信息，第一控件为属于第一类别的控件，电子设备的屏幕显示的当前界面包括至少一个控件。

示例性地，上述第一类别可以为系统原生控件。针对系统原生控件，电子设备可以通过遍历当前界面的界面布局文件，获得每个第一控件的文本描述信息和位置信息。

当前界面上显示的控件可能只包括系统原生控件，也可能既包括系统原生控件，也包括第三方自定义控件和Webview控件等。

步骤S604、电子设备确定人眼视线在屏幕上的视觉焦点区域。

具体应用中，电子设备可以通过视线追踪技术，确定用户人眼视线在屏幕上的视觉焦点区域。

例如，电子设备通过摄像头采集用户人脸图像，并检测出该人脸图像中的人脸区域，再基于人脸区域，定位出瞳孔中心，最后根据图像坐标系和屏幕坐标系之间的对应关系，确定出瞳孔中心在屏幕上的视点坐标，即通过视线追踪，获得人眼视线在屏幕上的视觉焦点区域。

步骤S605、电子设备将第一语音指令与目标信息进行匹配，目标信息包括各个第一控件的文本描述信息。

步骤S606、若当前界面包括至少两个第一目标控件，电子设备针对每个第一目标控件，根据第一目标控件的位置信息，确定第一目标控件是否位于视觉焦点区域内，第一目标控件为文本描述信息与第一语音指令相匹配的控件。

具体应用中，电子设备可以根据各个第一目标控件的坐标，以及视觉焦点区域的坐标，确定第一目标控件是否位于视觉焦点区域内，并统计位于视觉焦点区域内的第一目标控件的数量。

在另一些实施例中，如果当前界面只包括一个第一目标控件，则对该第一目标控件执行相应操作，例如，对该第一目标操作执行模拟点击、双击等操作。

而如果当前界面不包括第一目标控件，则可以结束本次对话，也可以持续收音。

步骤S607、若视觉焦点区域内只包括一个第一目标控件，电子设备对视觉焦点区域内的第一目标控件执行预设操作。

上述预设操作可以示例性为单击、双击、或触摸等。在此不对预设操作进行限定。

可以看出，如果电子设备显示的当前界面存在至少两个第一目标控件，即出现了控件匹配冲突，则使用人眼视线在屏幕上的视觉焦点区域进行筛选，以减少控件匹配范围，降低控件匹配冲突的可能性，提高控件匹配准确率。

从另一个方面来说，用户向电子设备输入控制语音，以对某个控件进行控制时，视线通常会注视着包括这个控件的区域。因此，如果当前界面存在至少两个第一目标控件，使用视觉焦点区域对至少两个第一目标控件进行筛选，可以使得匹配出的控件与用户实际意图更相符。

在上述实施例中，如果视觉焦点区域内只包括一个第一目标控件，则将该第一目标控件作为用户实际想要操作的控件，并对该第一目标控件执行预设操作。

而如果视觉焦点区域内包括至少两个第一目标控件时，电子设备不能直接对这至少两个第一目标控件均执行对应操作。此时，为了进一步确定用户意图，可以针对视觉焦点区域内每个第一目标控件，均显示一个唯一标识。用户可以针对每个第一目标控件对应的唯一标识，再次输入对应的语音，以从视觉焦点区域内的至少两个第一目标控件中，选取一个第一目标控件。

参见图7，为本申请实施例提供的语音交互方法的另一种流程示意图，该方法可以包括以下步骤：

步骤S701、电子设备获取第一语音。

步骤S702、电子设备对第一语音进行处理，得到第一语音指令。

步骤S703、电子设备获取当前界面内各第一控件的文本描述信息和位置信息，第一控件为属于第一类别的控件，电子设备的屏幕显示的当前界面包括至少一个控件。

步骤S704、电子设备确定人眼视线在屏幕上的视觉焦点区域。

步骤S705、电子设备将第一语音指令与目标信息进行匹配，该目标信息包括各个第一控件的文本描述信息。

步骤S706、若当前界面包括至少两个第一目标控件，电子设备针对每个第一目标控件，根据第一目标控件的位置信息，确定第一目标控件是否位于视觉焦点区域内，第一目标控件为文本描述信息与第一语音指令相匹配的控件。

步骤S707、若视觉焦点区域内只包括一个第一目标控件，电子设备对视觉焦点区域内的第一目标控件执行预设操作。

可以理解的是，步骤S701～步骤S707的相关说明可以参见上文，在此不再赘述。

步骤S708、若视觉焦点区域内包括至少两个第一目标控件，电子设备显示视觉焦点区域内每个第一目标控件的唯一标识。

上述唯一标识的具体表现形式可以是任意的，在此不作限定。

例如，上述唯一标识可以具体表现为如图4中的角标，即给视觉焦点区域内的每个第一目标控件加上角标。该角标可以是数字，也可以是字母，也可以是符号，在此不作限定。

在另一些实施例中，为了进一步提高用户交互体验，电子设备可以在显示唯一标识之后，或者在显示唯一标识的同时，显示提示信息，该提示信息用于用户针对唯一标识输入语音。该提示信息的具体表现形式可以是任意的。例如，可以以语音提示方式，向用户传递提示信息，也可以以文字提示方式，向用户传递提示信息。

示例性地，参见图5，大屏设备22弹出提示窗口237，提示窗口237内显示有提示信息“请选择第几个，你可以说第1个”。

步骤S709、电子设备获取第二语音。

示例性地，当唯一标识为如图4所示的角标时，当用户想要打开控件224时，第二语音则为“第1个”，或者“打开第1个”。

可以理解的是，电子设备可以通过拾音设备采集用户语音。

步骤S710、电子设备对第二语音进行处理，得到第二语音指令。

具体地，电子设备可以对第二语音进行ASR处理，得到文本控制命令，进而获得第二语音指令。

步骤S711、电子设备将第二语音指令与每个第一目标控件的唯一标识进行匹配。

例如，参见图4所示的场景，如果第二语音为“打开第1个”时，大屏设备22将第二语音指令中的“1”分别和角标235、角标236进行匹配；由于角标235具体为数字1，故角标235与第二语音指令中的“1”相匹配。此时，第二目标控件为控件224。

步骤S712、当视觉焦点区域内只存在一个第二目标控件，电子设备对第二目标控件执行预设操作，第二目标控件为唯一标识与第二语音指令相匹配的第一目标控件。

可以理解的是，视觉焦点区域内每个第一目标控件的唯一标识具有唯一性，且第二语音是针对唯一标识输入的，故通常情况下与第二语音指令相匹配的第一目标控件只有一个，不用统计第二目标控件的数量。

另外，当视觉焦点区域内不存在第二目标控件，即视觉焦点区域内不存在与第二语音指令相匹配的第一目标控件，电子设备可以结束本次对话或者持续收音，也可以提示用户再次输入语音。

需要说明的是，电子设备在将第二语音指令和唯一标识进行匹配之后，则关闭各个第一目标控件的唯一标识显示。例如，当唯一标识为如图4所示的数字角标时，在将语音指令和数字角标匹配之后，则关闭数字角标显示。

进一步地，在视觉焦点区域存在至少两个第一目标控件时，则通过给视觉焦点区域内每个第一目标控件显示唯一标识，以再次确认用户控制意图，进一步提高了控件匹配准确率。

另外，相较于对整个界面内各个控件均显示角标来说，本申请实施例只在视觉焦点区域内存在匹配冲突的控件时，且只显示视觉焦点区域内各个第一目标控件的唯一标识，用户交互体验更佳。

在上述实施例中，电子设备将第一语音指令与目标信息进行匹配，该目标信息包括各个第一控件的文本描述信息。而在另一些实施例中，目标信息还可以包括视觉焦点区域内各个第二控件的文本描述信息。

其中，第二控件为属于第二类别的控件。区别上述第一类别的控件，第一类别的控件是指可以通过遍历界面布局文件获取到相应文本描述信息的控件，第二类别的控件是指遍历界面文本获取不到相应文本描述信息的控件。示例性地，第二类别包括第三方自定义控件和WebView控件中的至少一种。

如果视觉焦点区域内包括第二控件，通过遍历界面布局文件获取不到这些控件的文本描述，导致控件识别覆盖率较低，进而导致后续控件匹配准确率较低。

为了进一步提高控件识别覆盖率，以进一步提高后续的控件匹配准确率，在确定出视觉焦点区域之后，将第一语音指令和目标信息进行匹配之前，上述实施例还可以包括以下步骤：

首先，根据每个控件的位置信息和控件类型信息，判断视觉焦点区域内是否包括第二控件。

具体地，界面布局文件中包括当前界面上各个控件的控件类型信息。根据控件的位置信息和控件类型信息，判断视觉焦点区域内是否包括第二控件。当视觉焦点区域内包括第二控件，则认为需要进行OCR识别，反之，当视觉焦点区域内不包括第二控件，则认为不需要进行OCR识别。

然后，当视觉焦点区域内包括至少一个第二控件，对视觉焦点区域进行光学字符识别，获得光学字符识别结果，光学字符识别结果包括视觉焦点区域内各个第二控件的文本描述信息，还可以包括视觉焦点区域内各个第二控件的坐标信息等。

可以看出，通过OCR识别视觉焦点区域内各个第二控件的文本描述信息，提高了控件识别覆盖率。

此时，目标信息包括各个第一控件的文本描述信息和视觉焦点区域内各个第二控件的文本描述信息。将第一语音指令分别与各个第一控件的文本描述信息、以及各个第二控件的文本描述信息进行匹配。如果当前界面不存在第一目标控件，则结束本次对话或持续收音；如果当前界面只存在一个第一目标控件，则对该第一目标控件执行预设操作；如果当前界面存在至少两个第一目标控件，则使用视觉焦点区域对至少两个第一目标控件进行筛选。具体过程可以参见上文，在此不再赘述。

在上述各个实施例中，电子设备先确定人眼视线在屏幕上的视觉焦点区域，再使用视觉焦点区域对匹配冲突的至少两个第一目标控件进行筛选。

在一些实施例中，电子设备可以只进行一次视线区域估算过程，并将估算的视觉区域确定为最终的用户视觉焦点区域。但是，该方式得到的视觉焦点区域的准确率较低。

在另一些实施例中，为了提高视觉追踪的准确率，以进一步提高后续的控件匹配准确率，电子设备可以根据第一语音指令、控件的文本描述信息、以及至少两次估算的视觉区域，确定最终的用户视觉焦点区域。

示例性地，首先，电子设备通过进行至少两次视线焦点区域估算，获得至少两个待选视线焦点区域，待选视线焦点区域为人眼视线在屏幕上的视线焦点区域。

然后，将第一语音指令与目标信息进行匹配，得到第三目标控件，第三目标控件为文本描述信息与第一语音指令相匹配的控件。在一些情况下，第二目标控件可以等同于第三目标控件。

可以理解的是，当目标信息只包括第一控件的文本描述信息时，则将第一语音指令与第一控件的文本描述信息进行匹配；当目标信息包括第一控件的文本描述信息和第二控件的文本描述信息，则将第一语音指令分别与第一控件的文本描述信息、第二控件的文本描述信息进行匹配。

当存在至少一个第三目标控件，且各个待选视线焦点区域均不包括第三目标控件，将至少两个待选视线焦点区域中的最左边界线、最右边界线、最上边界线以及最下边界线组成的区域作为视觉焦点区域。

可以理解的是，每个待选视线焦点区域通常是条框形区域。

具体应用中，可以基于至少两个待选视线焦点区域中的最左边的坐标，确定最左边界线。在确定出最左边的坐标之后，将通过最左边的坐标，且垂直于X轴的线段作为最左边界线。同理，基于至少两个待选视线焦点区域中的最右边的坐标，确定最右边界线。基于至少两个待选视线焦点区域中的最上边的坐标，以及最下边的坐标，分别确定最上边界线和最下边界线。

示例性地，参见图8示出的确定视觉焦点区域的一种示意图，电子设备81的屏幕82上包括多个待选视觉焦点区域。具体地，通过视线追踪，进行4次视觉焦点区域估算，得到4个待选视觉焦点区域。其中，第一次估算得到的待选视觉焦点区域为区域83，第二次估算得到的待选视觉焦点区域为区域84，第三次估算得到的待选视觉焦点区域为区域85，第四估算得到的待选视觉焦点区域为区域86。此时，不存在第三目标控件。

根据区域83、区域84、区域85以及区域86的坐标，可以确定这四个区域中的最左边界线为区域83的左边界线，即线段87；确定这四个区域中的最右边界线为区域86的右边界线，即线段88；确定这四个区域中的最上边界线为区域84的上边界线，即线段89；确定这四个区域中的最下边界线为区域85的下边界线，即线段810。在图8中，线段87、线段88、线段89和线段810均已加粗。

将加粗的线段87、线段88、线段89和线段810围成的区域确定为用户最终的视觉焦点区域，即图8中的区域811。

可以理解的是，根据第三目标控件的坐标和各个待选视觉焦点区域的坐标，可以判断第三目标控件是否位于待选视觉焦点区域内。

当存在至少一个第三目标控件，且至少一个第三目标控件不位于至少两个待选视线焦点区域的交集区域，将至少两个目标待选视线焦点区域中的最左边界线、最右边界线、最上边界线以及最下边界线组成的区域作为视觉焦点区域，目标待选视线焦点区域为包括第三目标控件的待选视线焦点区域。

示例性地，参见图9示出的确定视觉焦点区域的另一种示意图，电子设备91的屏幕92上包括多个待选视觉焦点区域。具体地，通过视线追踪，进行4次视觉焦点区域估算，得到4个待选视觉焦点区域。其中，第一次估算得到的待选视觉焦点区域为区域93，第二次估算得到的待选视觉焦点区域为区域94，第三次估算得到的待选视觉焦点区域为区域95，第四估算得到的待选视觉焦点区域为区域96。

此时，屏幕92显示的当前界面上存在至少一个第三目标控件。并且，针对每个第三目标控件，根据该第三目标控件的坐标以及待选视觉焦点区域的坐标，判断该第三目标控件是否落入交集区域。交集区域是指至少两个待选视觉焦点区域的交集。

如图9所示，区域93和区域94之间存在交集，区域93和区域95之间存在交集，区域94和区域96之间存在交集，区域96和区域95之间存在交集。

第三目标控件912位于区域94内，但不位于区域94和区域93的交集区域内。第三目标控件913位于区域96内，但不位于区域94和区域96之间的交集区域内。

此外，由于区域94和区域96均包括第三目标控件，则区域94和区域96均为目标待选视觉焦点区域。

根据区域94以及区域96的坐标，可以确定这两个区域中的最左边界线为区域94的左边界线，即线段97；确定这两个区域中的最右边界线为区域96的右边界线，即线段98；确定这两个区域中的最上边界线为区域94的上边界线，即线段99；确定这两个区域中的最下边界线为区域96的下边界线，即线段910。在图9中，线段97、线段98、线段99和线段910均已加粗。

将加粗的线段97、线段98、线段99和线段910围成的区域确定为用户最终的视觉焦点区域，即图9中的区域911。

当存在至少一个第三目标控件，且至少一个第三目标控件位于至少两个目标待选视线焦点区域的交集区域，将交集区域作为视觉焦点区域。

示例性地，参见图10示出的确定视觉焦点区域的另一种示意图，电子设备101的屏幕102上包括多个待选视觉焦点区域。具体地，通过视线追踪，进行4次视觉焦点区域估算，得到4个待选视觉焦点区域。其中，第一次估算得到的待选视觉焦点区域为区域103，第二次估算得到的待选视觉焦点区域为区域104，第三次估算得到的待选视觉焦点区域为区域105，第四估算得到的待选视觉焦点区域为区域106。

此时，屏幕102显示的当前界面上存在至少一个第三目标控件。由于区域105和区域106均包括第三目标控件108，则区域105和区域106均为目标待选视觉焦点区域。并且，第三目标控件108位于区域105和区域106之间的交集区域，则将区域105和区域106之间的交集区域作为用户最终的视觉焦点区域，即图10中的区域107。

可以看出，本申请实施例通过结合语音指令、控件的文本描述信息以及多次估算的视觉区域，确定出用户最终的视觉焦点区域，提高了视线追踪准确率。

在上述实施例中，电子设备先将第一语音指令与目标信息进行匹配，如果当前界面存在至少两个第一目标控件，才使用视觉焦点区域对匹配冲突的至少两个第一目标控件进行筛选。即电子设备先进行一次全局匹配，当全局匹配的结果为存在匹配冲突的至少两个控件时，再使用视觉焦点区域作进一步的筛选。

在另一些实施例中，电子设备也可以不进行全局匹配，而是直接将第一语音指令与视觉焦点区域内的控件进行匹配。

相较而言，先进行一次全局匹配，可以防止用户实际想要控制的控件不位于视觉焦点区域的情况发生，控件匹配准确率更高。

示例性地，参见图11，为本申请实施例提供的语音交互方法的另一种流程示意框图，该方法可以包括以下步骤：

步骤S1101、电子设备获取第一语音。

步骤S1102、电子设备对第一语音进行处理，得到第一语音指令。

步骤S1103、电子设备确定人眼视线在电子设备的屏幕上的视觉焦点区域，屏幕显示的当前界面包括至少一个控件。

步骤S1104、电子设备获取每个第一控件的文本描述信息，第一控件为属于第一类别且位于视觉焦点区域内的控件。

步骤S1105、电子设备将第一语音指令与目标信息进行匹配，目标信息包括每个第一控件的文本描述信息。

步骤S1106、当视觉焦点区域内只存在一个第一目标控件，电子设备对第一目标控件执行预设操作，第一目标控件为文本描述信息与第一语音指令相匹配的控件。

需要说明的是，本实施例与上述实施例的相同或相似之处，可以参见上文，在此不再赘述。

可以看出，本申请实施例将第一语音指令和视觉焦点区域内的控件进行匹配，也可以减少控件匹配范围，降低控件匹配冲突的可能性，进而提高了控件匹配准确率。

在另一些实施例中，当视觉焦点区域内存在至少两个第一目标控件，电子设备可以给每个第一目标控件均显示对应的唯一标识，并获取用户针对唯一标识的第二语音，然后再将第二语音对应的语音指令和唯一标识进行匹配，根据匹配结果执行对应的操作。这样，提高了用户交互体验，提高了控件匹配准确率。

当然，电子设备也可以给用户显示提示信息，该提示信息用于提示用户针对唯一标识输入语音。

在另一些实施例中，上述目标信息还可以包括第二控件的文本描述信息。第二控件为属于第二类别的信息。示例性地，电子设备可以根据控件类型信息，判断视觉焦点区域内是否包括第三方自定义控件和WebView控件等，如果包括，则对视觉焦点区域进行OCR识别，获得OCR识别结果，再将第一语音指令分别和OCR识别结果、第一控件的文本描述信息进行匹配。这样，提高了控件识别覆盖率，进一步提高了控件匹配准确率。

在另一些实施例中，在确定视觉焦点区域时，可以通过结合控件的文本描述、语音指令以及多次估算得到待选视觉焦点区域，以进一步提高视觉追踪的准确率。具体介绍请参见上文，在此不再赘述。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

本申请实施例还提供一种语音交互装置。参见图12，为本申请实施例提供的语音交互装置的一种结构示意框图，该语音交互装置可以包括：

数据获取模块1210，用于获取人脸图像和语音信息。具体地，通过摄像头采集人脸图像，通过收音系统采集控制语音。

视线追踪模块1220，用于根据人脸图像进行屏幕视线追踪。

具体地，视线追踪模块1220对人脸图像进行人脸区域检查，确定出人脸图像中的人脸区域，并从人脸区域中确定出人眼区域；基于人眼区域进行瞳孔定位，再根据瞳孔中心，以及图像坐标系和屏幕坐标系之间的对应关系，进行屏幕视线追踪，以确定出人眼视线在屏幕上的视觉焦点区域。

控件识别模块1230，用于识别控件的文本描述信息和位置信息等。

具体地，控件识别模块1230可以通过遍历界面布局文件对控件进行识别，以获得控件的文本描述信息和坐标信息等；也可以通过OCR识别，获得控件的文本描述信息。例如，对视觉焦点区域进行OCR识别，获得视觉焦点区域内第三方自定义控件或 WebView控件的文本描述信息和坐标信息。

控件匹配模块1240，用于进行ASR语义识别，控件匹配以及唯一标识匹配。

具体地，控件匹配模块1240具体用于对采集到的用户语音进行ASR处理，获得用户语音对应的语音指令，并将用户语音对应的语音指令和控件的文本描述信息进行匹配；还用于将用户语音对应的语音指令与控件的唯一标识进行匹配。

交互执行模块1250，用于对控件执行预设操作。

具体地，交互执行模块1250根据控件匹配模块1240的匹配结果，对相匹配的控件执行点击或双击等预设操作。

基于语音交互装置的流程示意框图可以如图13所示。如图13所示，数据获取模块可以通过相机或红外相机获取到人脸图像信号，通过麦克风阵列获取到语音信息。相机可以是单目相机或双目相机。

在获取到语音信号之后，控件匹配模块可以对语音信号进行ASR处理，得到语音指令。

在获取到人脸图像信号之后，视线追踪模块依次进行人脸检测、瞳孔定位以及屏幕视线追踪等步骤，以确定人眼视线在屏幕上的视线焦点区域。进一步地，为了提高视线追踪准确率，视线追踪模块可以根据控件文本描述信息、语音指令以及通过屏幕视线追踪得到的多次估算区域，确定视线焦点区域。

控件识别模块可以通过遍历界面布局文件，获得控件列表，该控件列表包括系统原生控件的相关信息；还可以通过对视觉焦点区域进行区域OCR识别，获得OCR文本。

控件匹配模块将语音指令和控件列表、OCR文本进行匹配，以进行控件匹配，并在得到匹配结果后，根据匹配结果对控件执行点击操作。

可选地，在控件匹配到执行控件点击操作之间，还可以包括给控件添加数字角标等唯一标识，以及基于唯一标识进行多轮对话等步骤。

需要说明的是，本申请实施例的语音交互方案可以划分为三个部分：图像或语音信号获取部分，视线追踪、控件识别和自然语音识别部分，以及控件匹配与执行部分。其中，语音采集和语音ASR处理、控件遍历以及视线追踪等过程可以同时进行，在此不对这些过程的执行先后顺序进行限定。

图14为本申请一实施例提供的电子设备的结构示意图。如图14所示，该实施例的电子设备14包括：至少一个处理器140(图14中仅示出一个处理器)、存储器141以及存储在所述存储器141中并可在所述至少一个处理器140上运行的计算机程序142，所述处理器140执行所述计算机程序142时实现上述任意各个语音交互方法实施例中的步骤。

该电子设备可包括，但不仅限于，处理器140、存储器141。本领域技术人员可以理解，图14仅仅是电子设备14的举例，并不构成对电子设备14的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如还可以包括输入输出设备、网络接入设备等。

所称处理器140可以是中央处理单元(Central Processing Unit，CPU)，该处理器140还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器141在一些实施例中可以是所述电子设备14的内部存储单元，例如电子设备14的硬盘或内存。所述存储器141在另一些实施例中也可以是所述电子设备14的外部存储设备，例如所述电子设备14上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器141还可以既包括所述电子设备14的内部存储单元也包括外部存储设备。所述存储器141用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等，例如所述计算机程序的程序代码等。所述存储器141还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括：能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区，根据立法和专利实践，计算机可读介质不可以是电载波信号和电信信号。

本申请实施例还提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。

本申请实施例提供了一种计算机程序产品，当计算机程序产品在电子设备上运行时，使得电子设备执行时实现可实现上述各个方法实施例中的步骤。

本申请实施例还提供一种芯片系统，所述芯片系统包括处理器，所述处理器与存储器耦合，所述处理器执行存储器中存储的计算机程序，以实现如上述各个方法实施例所述的方法。所述芯片系统可以为单个芯片，或者多个芯片组成的芯片模组。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。此外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。

最后应说明的是：以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何在本申请揭露的技术范围内的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

一种语音交互方法，其特征在于，应用于电子设备，所述方法包括：

获取第一语音；

对所述第一语音进行处理，得到第一语音指令；

获取当前界面内各个第一控件的文本描述信息和位置信息，所述第一控件为属于第一类别的控件，所述电子设备的屏幕显示的所述当前界面包括至少一个控件；

确定人眼视线在所述屏幕上的视觉焦点区域；

将所述第一语音指令与目标信息进行匹配，所述目标信息包括各个所述第一控件的文本描述信息；

当所述当前界面包括至少两个第一目标控件，针对每个所述第一目标控件，根据所述第一目标控件的位置信息，确定所述第一目标控件是否位于所述视觉焦点区域内，所述第一目标控件为文本描述信息与所述第一语音指令相匹配的控件；

当所述视觉焦点区域内只包括一个所述第一目标控件，对所述视觉焦点区域内的所述第一目标控件执行预设操作。
根据权利要求1所述的方法，其特征在于，当所述视觉焦点区域内包括至少两个所述第一目标控件；所述方法还包括：

显示所述视觉焦点区域内每个所述第一目标控件的唯一标识；

获取第二语音；

对所述第二语音进行处理，得到第二语音指令；

将所述第二语音指令与每个所述第一目标控件的唯一标识进行匹配；

当所述视觉焦点区域内只存在一个第二目标控件，对所述第二目标控件执行所述预设操作，所述第二目标控件为唯一标识与所述第二语音指令相匹配的所述第一目标控件。
根据权利要求2所述的方法，其特征在于，在显示所述视觉焦点区域内每个所述第一目标控件的唯一标识之后，获取第二语音之前，所述方法还包括：

显示提示信息，所述提示信息用于提示针对所述唯一标识输入语音。
根据权利要求1至3任一项所述的方法，其特征在于，所述目标信息还包括所述视觉焦点区域内的各个第二控件的文本描述信息，所述第二控件为属于第二类别的控件；

在将所述第一语音指令与目标信息进行匹配之前，所述方法还包括：

遍历所述当前界面的页面布局文件，获得每个所述控件的位置信息和控件类型信息；

根据每个所述控件的位置信息和控件类型信息，判断所述视觉焦点区域内是否包括所述第二控件；

当所述视觉焦点区域内包括至少一个所述第二控件，对所述视觉焦点区域进行光学字符识别，获得光学字符识别结果，所述光学字符识别结果包括所述视觉焦点区域内各个所述第二控件的文本描述信息。
根据权利要求4所述的方法，其特征在于，所述第二类别的控件包括WebView控件和/或第三方自定义控件，所述第一类别的控件包括系统原生控件。
根据权利要求1至5任一项所述的方法，其特征在于，确定人眼视线在所述屏幕上的视觉焦点区域，包括：

通过进行至少两次视线焦点区域估算，获得至少两个待选视线焦点区域，所述待选视线焦点区域为人眼视线在所述屏幕上的视线焦点区域；

将所述第一语音指令与各个所述第一控件的文本描述信息进行匹配；

当存在至少一个第三目标控件，且各个所述待选视线焦点区域均不包括所述第三目标控件，将所述至少两个待选视线焦点区域中的最左边界线、最右边界线、最上边界线以及最下边界线组成的区域作为所述视觉焦点区域，所述第三目标控件为文本描述信息与所述第一语音指令相匹配的所述第一控件；

当存在至少一个所述第三目标控件，且至少一个所述第三目标控件不位于至少两个待选视线焦点区域的交集区域，将至少两个目标待选视线焦点区域中的最左边界线、最右边界线、最上边界线以及最下边界线组成的区域作为所述视觉焦点区域，所述目标待选视线焦点区域为包括所述第三目标控件的所述待选视线焦点区域；

当存在至少一个所述第三目标控件，且至少一个所述第三目标控件位于至少两个所述目标待选视线焦点区域的交集区域，将所述交集区域作为所述视觉焦点区域。
根据权利要求1所述的方法，其特征在于，当所述当前界面只包括一个所述第一目标控件，所述方法还包括：

对所述第一目标控件执行所述预设操作。
一种语音交互方法，其特征在于，应用于电子设备，所述方法包括：

获取第一语音；

对所述第一语音进行处理，得到第一语音指令；

确定人眼视线在所述电子设备的屏幕上的视觉焦点区域，所述屏幕显示的当前界面包括至少一个控件；

获取每个第一控件的文本描述信息，所述第一控件为属于第一类别且位于所述视觉焦点区域内的控件；

将所述第一语音指令与目标信息进行匹配，所述目标信息包括每个所述第一控件的文本描述信息；

当所述视觉焦点区域内只存在一个第一目标控件，对所述第一目标控件执行预设操作，所述第一目标控件为文本描述信息与所述第一语音指令相匹配的控件。
根据权利要求8所述的方法，其特征在于，确定人眼视线在所述电子设备的屏幕上的视觉焦点区域，包括：

通过进行至少两次视线焦点区域估算，获得至少两个待选视线焦点区域，所述待选视线焦点区域为人眼视线在所述屏幕上的视觉焦点区域；

将所述第一语音指令与各个所述第一控件的文本描述信息进行匹配；

当存在至少一个第三目标控件，且各个所述待选视线焦点区域均不包括所述第三目标控件，将所述至少两个待选视线焦点区域中的最左边界线、最右边界线、最上边界线以及最下边界线组成的区域作为所述视觉焦点区域，所述第三目标控件为文本描述信息与所述第一语音指令相匹配的所述第一控件；

当存在至少一个所述第三目标控件，且至少一个所述第三目标控件不位于至少两个待选视线焦点区域的交集区域，将至少两个目标待选视线焦点区域中的最左边界线、最右边界线、最上边界线以及最下边界线组成的区域作为所述视觉焦点区域，所述目标待选视线焦点区域为包括所述第三目标控件的所述待选视线焦点区域；

当存在至少一个所述第三目标控件，且至少一个所述第三目标控件位于至少两个所述目标待选视线焦点区域的交集区域，将所述交集区域作为所述视觉焦点区域。
一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7或8至9任一项所述的方法。
一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7或8至9任一项所述的方法。
一种计算机程序产品，其特征在于，当所述计算机程序产品在电子设备上运行时，使得电子设备执行如权利要求1至7或8至9任一项所述的方法。