WO2018112856A1

WO2018112856A1 - 基于语音控制的位置定位方法、装置、用户设备及计算机程序产品

Info

Publication number: WO2018112856A1
Application number: PCT/CN2016/111591
Authority: WO
Inventors: 骆磊; 黄晓庆
Original assignee: 深圳前海达闼云端智能科技有限公司
Priority date: 2016-12-22
Filing date: 2016-12-22
Publication date: 2018-06-28
Also published as: CN107077319A

Abstract

一种基于语音控制的位置定位方法、装置、用户设备及计算机程序产品，该方法包括：接收语音控制指令(12)；基于图像分析技术确定语音控制指令所指示的内容在当前显示界面中的位置(13)；定位至确定出的位置(14)。用于解决通过语音控制指令实现定位时，局限性较强，不能高效地配合用户完成对用户设备的操作的问题。

Description

基于语音控制的位置定位方法、装置、用户设备及计算机程序产品

技术领域

本申请涉及通信技术领域，尤其是涉及一种基于语音控制的位置定位方法、装置、用户设备及计算机程序产品。

背景技术

随着语音识别技术的不断发展与应用，语音识别已经可以进行有限的操作，如添加闹钟、添加日程、查天气、讲故事、聊天等等功能。

然而，对于已经固化的应用程序，只能由此应用程序的开发者专门开发一套复杂的语音接口来进行比较简单的行为操作，此类操作大多针对一个常用行为，且受限于语音识别技术的现状，无法实现足够智能的操作。而针对现有的UI操作界面，目前也只能通过点击、滑动等动作进行操作，而无法通过语音进行准确定位，并进而对用户设备进行操作。

因此目前根据接收到的语音指令，实现语音内容定位局限性较强，进而使得不能高效地配合用户完成对用户设备的操作。

发明内容

本申请提供了一种基于语音控制的位置定位方法、装置、用户设备、机器人及计算机程序产品，主要用于提高语音定位的适用性。

一种基于语音控制的位置定位方法，包括：接收语音控制指令；基于图像分析技术确定所述语音控制指令所指示的内容在当前显示界面中的位置；

定位至确定出的所述位置。

所述语音控制指令包括：定位内容和指令内容；所述确定所述语音控制指令中的内容在当前显示界面中的位置，包括：确定所述语音控制指令中的定位内容所指示的内容在当前显示界面中的位置；所述方法还包括：根据所确定的位置和所述指令内容，控制用户设备。

定位至确定出的所述位置，包括：将用户设备中的光标移动至所述位置处。

所述基于图像分析技术确定所述语音控制指令所指示的内容在当前显示界面中的位置，包括：基于图像分析技术确定所述语音控制指令所指示的内容的文字或者所指示的图标在当前显示界面中的位置。

基于图像分析技术确定所述语音控制指令所指示的内容在当前显示界面中的位置，包括：在当前显示界面所显示的文本信息中查找所述语音控制指令所指示的内容的文字，将查找到的文字所在的位置确定为所述语音控制指令所指示的内容在当前显示界面中的位置；或在显示界面所显示的文本信息中无法查找到所述语音控制指令所指示的内容的文字时，基于图像分析技术确定所述语音控制指令所指示的内容在当前显示界面中的位置。

所述方法还包括：在所述语音控制指令所指示的内容位于一个交互按钮上时，触发所述交互按钮。

所述基于图像分析技术确定所述语音控制指令所指示的内容在当前显示界面中的位置，包括：将交互按钮的中心点作为所述语音控制指令所指示的内容在当前显示界面中的位置；触发所述交互按钮，包括：触发所述交互按钮的中心位置。

一种用户设备系统，包括：显示器，存储器，一个或多个处理器；以及一个或多个模块，所述一个或多个模块被存储在所述存储器中，并被配置成由所述一个或多个处理器执行，所述一个或多个模块包括用于执行上述方法中任一所述方法中各个步骤的指令。

所述计算机程序产品包括内嵌于计算机可读的存储介质中的计算机程序，所述计算机程序包括用于使所述电子设备执行上述任一所述方法中的各个步骤的指令。

一种基于语音控制的位置定位装置，包括：接收模块，用于接收语音控制指令；确定模块，用于基于图像分析技术确定所述语音控制指令所指示的内容在当前显示界面中的位置；执行模块，用于定位至确定出的所述位置。

所述语音控制指令包括：定位内容和指令内容；所述确定模块，具体用于确定所述语音控制指令中的定位内容所指示的内容在当前显示界面中的位置；所述执行模块，还用于根据所确定的位置和所述指令内容，控制用户设备。

所述执行模块，具体用于将用户设备中的光标移动至所述位置处。

所述确定模块，具体用于基于图像分析技术确定所述语音控制指令所指示的内容的文字或者所指示的图标在当前显示界面中的位置。

所述确定模块，具体用于在当前显示界面所显示的文本信息中查找所述语音控制指令所指示的内容的文字，将查找到的文字所在的位置确定为所述语音控制指令所指示的内容在当前显示界面中的位置；或在显示界面所显示的文本信息中无法查找到所述语音控制指令所指示的内容的文字时，基于图像分析技术确定所述语音控制指令所指示的内容在当前显示界面中的位置。

所述执行模块，还用于在所述语音控制指令所指示的内容位于一个交互按钮上时，触发所述交互按钮。

所述确定模块，具体用于将交互按钮的中心点作为所述语音控制指令所指示的内容在当前显示界面中的位置；所述执行模块，具体用于触发所述交互按钮的中心位置。

通过本申请上述各实施例提出技术方案，基于语音控制命令，代替用户对用户设备进行点击和滑动等传统操作控制用户设备，只需要极少数的命令识别，如“打开”、“点击…”、“输入…”、“上划下划”等等，即可实现准确度很高的语音控制命令，能够准确根据语音控制命令实现语音控制命令中的内容进行定位，用于解决目前根据接收到的语音指令，实现语音内容定位局限性较强，进而使得不能高效地配合用户完成对用户设备的操作，且不需要对原有系统和应用程序进行改动，也不再需要云端复杂的语意理解模块，达到良好的用户体验。

附图说明

图1为本申请实施例一提出的基于语音控制的位置定位方法流程图；

图2为本申请实施例二提出的基于语音控制实现用户设备解锁功能方法流程图；

图3为本申请实施例二提出的基于语音控制实现用户设备解锁滑动示意图；

图4为本申请实施例三提出的基于语音控制实现定位的用户当前界面示意图；

图5为本申请实施例三提出的基于语音控制实现用户设备控制流程图；

图6为本申请实施例三提出的基于语音控制实现定位的用户当前界面示意图；

图7为本申请实施例五提出的用户设备结构组成示意图；

图8为本申请实施例五提出的用户设备结构组成示意图；

图9为本申请实施例五提出的用户设备结构组成示意图。

具体实施方式

针对现有技术中本申请实施例中的方案可以应用于各种场景中，本申请实施例中的方案可以采用各种计算机语言实现，例如面向对象的程序设计语言Java等。

为了使本申请各实施例中的技术方案及优点更加清楚明白，以下结合附图对本申请的示例性实施例进行进一步详细的说明，显然，所描述的实施例仅是本申请的一部分实施例，而不是所有实施例的穷举。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

实施例一

本申请实施例一提出一种基于语音控制的位置定位方法，如图1所示，其具体处理流程如下述：

步骤11，用户输入语音控制指令。

用户可以通过音频设备，例如麦克风等输入语音控制指令。

步骤12，用户设备接收语音控制指令。

步骤13，用户设备基于图像分析技术确定语音控制指令所指示的内容在当前显示界面中的位置。

作为一种替换的实施方式，上述的步骤S13中“基于图像分析技术确定语音控制指令所指示的内容在当前显示界面中的位置”的过程也可以由用户设备和服务端共同组成的电子系统配合完成语音控制指令所指示的内容在当前显示界面中的位置的处理过程。

具体实施中，用户设备截取当前显示界面中的全部显示界面，用户设备将截取的显示界面和语音控制指令一起发送至服务端，服务端接收用户设备发送的截取的显示界面和语音控制指令，服务端基于接收到的语音控制指令，利用图像分析技术，在接收到的显示图像中确定接收到的语音控制指令所在的位置，服务端将确定出的位置发送给用户设备，用户设备接收服务端发送的服务端分析显示图像后获得的语音控制指令在当前显示界面中的位置，用户设备以当前显示界面中的预设的坐标原点为起点，将当前显示界面和服务端发送的位置匹配，获取语音控制指令在当前显示界面中的位置。

在该种方式中，用户设备还可以截取当前显示界面中的全部显示界面，将显示图像和语音控制指令发送至服务端，接收服务端发送的位置设定的指令，其中位置设定的指令是服务端分析显示界面后获得的语音控制指令在当前显示界面中的位置后发送的，用户设备获得指令中包含的坐标，以当前显示界面中的预设的坐标原点为起点，获得坐标在当前显示界面中的位置。

在具体实施时，可以当前显示界面中的预设的坐标原点为起点，在当前显示界面的显示图像中。确定与关键字在当前显示界面中的对应的图像。

在具体实施时，在确定与语音控制指令在当前显示界面中的对应的位置时，该语音控制指令可以包含定位内容和/或指令内容。

具体地，可以基于图像分析技术确定语音控制指令所指示的内容的文字或者所指示的图标在当前显示界面中的位置。

具体地，在当前显示界面所显示的文本信息中查找语音控制指令所指示的内容的文字，将查找到的文字所在的位置确定为语音控制指令所指示的内容在当前显示界面中的位置；或

在显示界面所显示的文本信息中无法查找到所述语音控制指令所指示的内容的文字时，基于图像分析技术确定语音控制指令所指示的内容在当前显示界面中的位置。

步骤14，定位至确定出的位置。

具体地，语音控制指令包括定位内容和指令内容；则确定语音控制指令中的定位内容所指示的内容在当前显示界面中的位置，上述方法还包括：

根据所确定的位置和所述指令内容，控制用户设备。

一种较佳地实施方式，可以将用户设备中的光标移动至位置处。

进一步地，在上述步骤14之后，还可以包括：

在语音控制指令所指示的内容位于一个交互按钮上时，触发交互按钮。

具体地，在确定位置时，可以将交互按钮的中心点作为语音控制指令所指示的内容在当前显示界面中的位置，触发交互按钮的中心位置。

实施例二

本申请实施例二以一具体实例进一步详细阐述基于语音控制的位置定位方法，通过本申请提出的技术方案实现用户设备解锁功能，如图2所示，其具体处理流程如下述：

步骤21，用户通过触摸用户设备调出语音录入功能。

在上述步骤21中，用户可以通过触摸用户设备屏幕唤醒用户设备，然后调出语音录入功能，也可以通过Home键唤醒用户设备，或者通过触摸方式直接调出语音录入功能，或者省略该步骤21，在此不做具体地限定。

步骤22，用户发送解锁的语音控制指令。

在本申请实施例二提出的技术方案中，解锁的语音控制指令，可以是直接是解锁词汇，还可以是向左滑动解锁块、滑动解锁块之类的语音控制指令，在此不做具体地限定。如图3所示，用户设备解锁功能以向左滑动为例进行详细阐述。具体实施中，还可以是向右滑动、向上滑动、向下滑动、转圈、或者折线等方式。在此不做具体地限定。

步骤23，用户设备接收用户发送的解锁的语音控制指令。

步骤24，用户设备对接收到的语音控制指令进行解析，获得所指示的内容为解锁。

步骤25，用户设备根据所指示的内容解锁，确定解锁点的位置。

解锁可以是向左滑动滑动块实现，也可以是向右等方式，但是无论是哪种方式实现，均需要找到解锁点。在本申请实施例提出的技术方案中，将以向左滑动解锁点为例进行详细阐述。

在上述步骤25中，用户设备根据获取的关键字解锁，在当前显示界面的图像中，基于图像分析技术，确定关键字滑动对应的解锁点在当前显示界面中的位置。

步骤26，触发解锁点向左滑动解锁用户设备。

实施例三

本申请实施例三以一具体实例进一步详细阐述基于语音控制的位置定位方法，实现用户设备的控制方法，如图4所示，用户设备当前显示界面，为某一应用程序，其中包含多个联系人。通过本申请提出的技术方案实现某应用程序中联系人确认功能，如图5所示，其具体处理流程如下述：

步骤51，用户发送点击用户A的语音控制指令。

在本申请实施例三提出的技术方案中，用户通过某应用程序，欲和该应用程序中的用户A进行联系，按照本申请实施例三提出的技术方案，用户发送点击用户A的语音控制指令。

步骤52，用户设备接收点击用户A的语音控制指令。

步骤53，用户设备中的语音识别模块将语音控制指令识别成文字的点击用户A。

步骤54，用户设备中的语音解析模块解析出点击操作，点击位置为用户 A。

步骤55，用户设备中的处理模块，获得当前用户设备的显示界面，并基于图像分析技术，在当前用户设备的显示界面中匹配用户A。

在上述步骤55中，本申请实施例三以用户设备自身的处理模块，基于图像分析技术，在当前用户设备的显示界面中匹配用户A。

具体实施中，处理模块还可以将用户设备的当前显示界面截图，并将截图后的当前显示界面上传至服务端，服务端根据关键字用户A在接收到的截图中进行匹配，获得用户A所在的位置，服务端将位置传输给处理模块。其中在传输截图时，可以以压缩的方式传输，在此不做具体的限定。

步骤56，用户设备根据预先定义的坐标原点，确定用户A的位置。

假设用户设备屏幕左下角定义为坐标的(0，0)，如图6所示，横轴为X轴，纵轴为Y轴。假设当前屏幕分辨率为1080x1920，假设步骤55中分析到的用户A文字在图像中的X轴区间为240-420，Y轴区间为1300-1400，则将点击像素点定位这个矩形的中心点，此例中为(330，1350)。

步骤57，定位到用户A处。

仍沿用上述步骤56中的实施例，用户A所在位置的中心点为(330，1350)，则可以将用户设备的光标定位在该(330，1350)处。

步骤58，根据接收到的语音控制指令中包含的控制内容触发交互按钮。

在接收到的语音控制指令中，包含点击字样，则在定位到确定出的位置之后，用户设备的处理模块按照语音控制命令中的点击，点击用户A。

在上述步骤58中，用户设备的处理模块按照语音控制命令中的点击，点击像素点(330，1350)。

实施例四

通常情况下，通讯录中的联系人是文字形式存储，但是某些应用程序中的应用功能，为便于识别和美观，通过采用图形的方式展示给用户。例如实施例二中的手机解锁，解锁模块同样是图形方式展示，基于此，本申请实施例四以文字匹配图标为例，进一步详细阐述，其处理流程如下述：

步骤一，用户发送搜寻的语音控制指令。

步骤二，用户设备接收搜寻的语音控制指令。

步骤三，用户设备中的语音识别模块将语音控制指令识别成文字的搜寻。

步骤四，用户设备中的处理模块，获得用户设备的当前显示界面，并基于图像分析技术，在用户设备的当前显示界面中匹配搜寻。

在上述步骤五中，本申请实施例四以用户设备自身的处理模块，基于图像分析技术，在用户设备的当前显示界面中匹配搜寻。具体实施中，处理模块还可以将用户设备的当前显示界面截图，并将截图后的当前显示界面上传至服务端，服务端根据关键字搜寻在接收到的截图中进行匹配，获得搜寻所在的位置，服务端将位置传输给处理模块。

具体地，本申请实施例三以用户设备自身进行位置定位为例进行详细阐述，用户设备基于图像分析技术在抓取的屏幕图像中搜寻搜寻文字和分析系统预置的关于搜寻的图形库，如果只搜寻到搜寻文字，未匹配到任何关于搜寻的图形，则与实施例三相同，对中心的像素点进行点击操作；如果未搜寻到搜寻文字，但匹配到了关于搜寻的图形(右上角的放大镜图标)，则对放大镜的中心像素点进行点击操作；如果既搜寻到搜寻文字，又匹配到了关于搜寻的图形，如图6所示的放大镜，则需要进一步分析搜寻文字周围是否有文字，放大镜图形周围是否有文字(有文字的判定为实际的内容)，将周围没有文字的对象判定为点击目标，并对中心像素点进行点击操作。

步骤六，用户设备根据预先定义的坐标原点，确定获得的位置。

在上述步骤一～步骤六中，是以在确定出语音控制指令对应的位置之后，实现对用户设备的控制为例进行详细阐述，具体实施中，在上述步骤六之后，还可以是将光标移动到该位置处，等待用户再次输入的语音控制指令，或者其它指令进行相应操作，在此不做具体地限定。

实施例五

本申请实施例五提出一种用户设备，包括：

显示器，存储器，一个或多个处理器，以及一个或多个模块，一个或多个模块被存储在存储器中，并被配置成由一个或多个处理器执行，一个或多个模块包括用于执行方法实施例一中各个步骤的指令。在此不做赘述。

在本申请实施例五提出的技术方案中，存储器，存储器可以是易失性存储器(英文：volatile memory)，例如随机存取存储器(英文：random-access memory，缩写：RAM)；或者非易失性存储器(英文：non-volatile memory)，例如快闪存储器(英文：flash memory)，硬盘(英文：hard disk drive，缩写：HDD)或固态硬盘(英文：solid-state drive，缩写：SSD)；或者上述种类的存储器的组合。

处理器可以是中央处理器(central processing unit，CPU)，或者是CPU和硬件芯片的组合。

处理器还可以是网络处理器(network processor，NP)。或者是CPU和NP的组合，或者是NP和硬件芯片的组合。

上述硬件芯片可以是以下一种或多种的组合：专用集成电路(application-specific integrated circuit，ASIC)，现场可编程逻辑门阵列(field-programmable gate array，FPGA)，复杂可编程逻辑器件(complex programmable logic device，CPLD)。

可选地，在本申请实施例五提出的用户设备中的一个或多个模块，该些模块可以是具备上述实施例是中提出的装置模块的相应功能。

进一步地，本申请实施例五提出的技术方案中，以图7为例介绍本申请实施例提供的用户设备的控制方法计算节点的逻辑结构。该计算节点可以是用户设备，该用户设备具体可以为桌面计算机、笔记本电脑、智能手机或平板电脑等。如图7所示，该用户设备的硬件层包括中央处理器(Center Processing Unit，CPU)、图形处理器(Graphic Processing Unit，GPU)等，当然还可以包括存储器、输入/输出设备(Input Device)、网络接口等，输入设备可包括键盘、鼠标、触摸屏等，输出设备可包括显示设备如液晶显示器(Liquid Crystal Display，LCD)、阴极射线管(Cathode Ray Tube，CRT)、全息成像(Holographic)、投影(Projector)等。在硬件层之上可运行有操作系统(如Android等)以及一些应用程序。核心库层是操作系统的核心部分，包括输入/输出服务、核心服务、图形设备接口以及实现CPU、GPU图形处理的图形引擎(Graphics Engine)等。图形引擎可包括2D引擎、3D引擎、合成器(Composition)、帧缓冲区(Frame Buffer)等。核心库层还包括输入法服务。其中，输入法服务包括终端自带的输入法服务。除此之外，该终端还包括驱动层、框架层和应用层。驱动层可包括CPU驱动(driver)、GPU驱动、显示控制器驱动、安全区域驱动(Trust Zone Driver)等。框架层可包括图形服务(Graphic Service)、系统服务(System service)、网页服务(Web Service)和用户服务(Customer Service)等；图形服务中，可包括如微件(Widget)、画布(Canvas)、视图(Views)、Render Script等。应用层可包括桌面(launcher)、媒体播放器(Media Player)、浏览器(Browser)等。

本申请实施例提出的用户设备，如图8所示，该用户设备200包括：至少一个处理器201，至少一个网络接口204或者其他用户接口203，存储器205，至少一个通信总线202。通信总线202用于实现这些组件之间的连接通信。该用户设备200可选的包含用户接口203，包括显示器(例如图7所示的LCD、CRT、全息成像(Holographic)或者投影(Projector)等)，键盘或者点击设备(例如，鼠标，轨迹球(trackball),触感板或者触摸屏等)。

存储器205可以包括只读存储器和随机存取存储器，并向处理器201提供存储器205中存储的程序指令和数据。存储器205的一部分还可以包括非易失性随机存取存储器(NVRAM)。

在一些实施方式中，存储器205存储了如下的元素，可执行模块或者数据结构，或者他们的子集，或者他们的扩展集:

操作系统2051，包含各种系统程序指令，该程序指令可运行在例如图8所示的框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。

应用程序2052，包含各种应用程序，例如图8所示的桌面(launcher)、媒体播放器(Media Player)、浏览器(Browser)以及输入法应用等，用于实现各种应用业务。

在本申请实施例中，存储器205也可以称之为存储区域，用于存储数据程序，以及存储操作系统。

处理器201通过调用存储器205存储的程序指令，处理器201用于按照获得的程序指令执行上述方法实施例一中各方法步骤，这里不再赘述。

本申请实施例提出的提出控制用户设备的方法所应用的用户设备，该用户设备可以为手机、平板电脑、个人数字助理(Personal Digital Assistant，PDA)等。参考图9所示，为用户设备300的其中一种结构组成示意图。

该用户设备300主要包括，存储器320、处理器360及输入单元330，该输入单元330用于接收用户在终端上进行操作时的生成的事件。该存储器320用于存储操作系统和各种应用程序的程序指令。

可以理解的，处理器360的具体实现功能可参见上述处理器201的详细阐述，不再赘述。

存储器320可以是用户设备300的内存，该内存可以划分为三个存储空间，分别对应设置在第一运行环境中的安全内存、设置在第二环境中的非安全内存以及第一运行环境和第二运行环境中的应用程序或者硬件都可以访问的共享内存。安全内存、非安全内存以及共享内存的空间划分，可以划分相同的大小，也可以根据存储数据输入事件的不同，划分不同的大小。

用户设备中的输入单元330可用于接收用户输入的数字或字符信息，以及产生与用户设备300的用户设置以及功能控制有关的信号输入。具体地，本申请实施例中，该输入单元330可以包括触控面板331。触控面板331，可收集用户在其上(比如用户使用手指、触笔等任何适合的物体或附件在触控面板331上)的操作，并根据预先设定的程序指令，驱动与触控面板331相应的连接装置。可选的，触控面板331可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给该处理器360，并能接收处理器360发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板331。除了触控面板331，输入单元330还可以包括其他输入设备332，其他输入设备332可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

该用户设备300还可以包括显示单元340，该显示单元340可用于显示由用户输入的信息或提供给用户的信息以及用户设备300的各种菜单界面。该显示单元340可包括显示面板341，可选的，可以采用液晶显示器(Liquid Crystal Display，LCD)或有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板341。

本申请实施例中，该触摸显示屏包括不同的显示区域。每一个显示区域可以包含至少一个应用程序的图标和/或widget桌面控件等界面元素。

该处理器360是用户设备300的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在该存储器320内的软件程序和/或模块，执行用户设备300的各种功能和处理数据，从而对用户设备300进行整体监控。

可选的该用户设备300还可以包括RF电路310，用于提供无线连接的WIFI模块380，以及电源390和用于提供声音输入输出的音频电路370。

实施例六

本申请实施例六提出一种计算机程序产品，所述计算机程序产品包括内嵌于计算机可读的存储介质中的计算机程序，所述计算机程序包括用于使所述电子设备执行执行上述实施例一～实施例四中任一实施例提出的技术方案中的各个步骤的指令。

实施例七

本申请实施例七提出一种基于语音控制的位置定位装置，包括：

接收模块，用于接收语音控制指令。

确定模块，用于基于图像分析技术确定所述语音控制指令所指示的内容在当前显示界面中的位置。

执行模块，用于定位至确定出的所述位置。

其中，所述语音控制指令包括：定位内容和指令内容；所述确定模块，具体用于确定所述语音控制指令中的定位内容所指示的内容在当前显示界面中的位置；所述执行模块，还用于根据所确定的位置和所述指令内容，控制用户设备。

具体地，所述执行模块，具体用于将用户设备中的光标移动至所述位置处。

具体地，所述确定模块，具体用于基于图像分析技术确定所述语音控制指令所指示的内容的文字或者所指示的图标在当前显示界面中的位置。

具体地，所述确定模块，具体用于在当前显示界面所显示的文本信息中查找所述语音控制指令所指示的内容的文字，将查找到的文字所在的位置确定为所述语音控制指令所指示的内容在当前显示界面中的位置；或在显示界面所显示的文本信息中无法查找到所述语音控制指令所指示的内容的文字时，基于图像分析技术确定所述语音控制指令所指示的内容在当前显示界面中的位置。

可选地，所述执行模块，还用于在所述语音控制指令所指示的内容位于一个交互按钮上时，触发所述交互按钮。

具体地，所述确定模块，具体用于将交互按钮的中心点作为所述语音控制指令所指示的内容在当前显示界面中的位置；所述执行模块，具体用于触发所述交互按钮的中心位置。

相应的，本申请另一实施例还提供了一种电子系统，包括用户设备和服务器；所述显示器，存储器，一个或多个处理器，以及通信单元；所述服务器包括存储器，一个或多个处理器，以及通信单元；各个通信单元用于实现与外部设备的通信；还包括：一个或多个模块，所述一个或多个模块被存储在用户设备或者服务器的存储器中，并被配置成由相应的处理器执行，所述一个或多个模块包括用于执行执行上述实施例一～实施例四中任一实施例提出的技术方案中的各个步骤的指令。

这里的用户设备也可以为机器人。

通过本申请上述各实施例提出技术方案，基于语音控制命令，代替用户对用户设备进行点击和滑动等传统操作控制用户设备，只需要极少数的命令识别，如“打开”、“点击…”、“输入…”、“上划下划”等等，即可实现准确度很高的语音操控命令，且不需要对原有系统和应用程序进行改动，也不再需要云端复杂的语意理解模块，达到良好的用户体验。

本领域的技术人员应明白，本申请的实施例可提供为方法、装置(设备)、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、只读光盘、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、装置(设备)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

一种基于语音控制的位置定位方法，其特征在于，包括：

接收语音控制指令；

基于图像分析技术确定所述语音控制指令所指示的内容在当前显示界面中的位置；

定位至确定出的所述位置。
如权利要求1所述的方法，其特征在于，所述语音控制指令包括：定位内容和指令内容；

所述确定所述语音控制指令中的内容在当前显示界面中的位置，包括：

确定所述语音控制指令中的定位内容所指示的内容在当前显示界面中的位置；

所述方法还包括：

根据所确定的位置和所述指令内容，控制用户设备。
如权利要求1所述的方法，其特征在于，定位至确定出的所述位置，包括：

将用户设备中的光标移动至所述位置处。
如权利要求1所述的方法，其特征在于，所述基于图像分析技术确定所述语音控制指令所指示的内容在当前显示界面中的位置，包括：

基于图像分析技术确定所述语音控制指令所指示的内容的文字或者所指示的图标在当前显示界面中的位置。
根据权利要求1所述的方法，其特征在于，基于图像分析技术确定所述语音控制指令所指示的内容在当前显示界面中的位置，包括：

在当前显示界面所显示的文本信息中查找所述语音控制指令所指示的内容的文字，将查找到的文字所在的位置确定为所述语音控制指令所指示的内容在当前显示界面中的位置；或

在显示界面所显示的文本信息中无法查找到所述语音控制指令所指示的内容的文字时，基于图像分析技术确定所述语音控制指令所指示的内容在当前显示界面中的位置。
根据权利要求1所述的方法，其特征在于，所述方法还包括：

在所述语音控制指令所指示的内容位于一个交互按钮上时，触发所述交互按钮。
根据权利要求6所述的方法，其特征在于，所述基于图像分析技术确定所述语音控制指令所指示的内容在当前显示界面中的位置，包括：

将交互按钮的中心点作为所述语音控制指令所指示的内容在当前显示界面中的位置；

触发所述交互按钮，包括：

触发所述交互按钮的中心位置。
一种用户设备，其特征在于，包括：

显示器，存储器，一个或多个处理器；以及一个或多个模块，所述一个或多个模块被存储在所述存储器中，并被配置成由所述一个或多个处理器执行，所述一个或多个模块包括用于执行权利要求1-7中任一所述方法中各个步骤的指令。
根据权利要求8所述的用户设备，其特征在于，所述用户设备系统包括机器人。
一种基于语音控制的位置定位装置，其特征在于，包括：

接收模块，用于接收语音控制指令；

确定模块，用于基于图像分析技术确定所述语音控制指令所指示的内容在当前显示界面中的位置；

执行模块，用于定位至确定出的所述位置。
如权利要求10所述的装置，其特征在于，所述语音控制指令包括：定位内容和指令内容；

所述确定模块，具体用于确定所述语音控制指令中的定位内容所指示的内容在当前显示界面中的位置；

所述执行模块，还用于根据所确定的位置和所述指令内容，控制用户设备。
如权利要求11所述的装置，其特征在于，所述执行模块，具体用于将用户设备中的光标移动至所述位置处。
如权利要求10所述的装置，其特征在于，所述确定模块，具体用于基于图像分析技术确定所述语音控制指令所指示的内容的文字或者所指示的图标在当前显示界面中的位置。
根据权利要求10所述的装置，其特征在于，所述确定模块，具体用于在当前显示界面所显示的文本信息中查找所述语音控制指令所指示的内容的文字，将查找到的文字所在的位置确定为所述语音控制指令所指示的内容在当前显示界面中的位置；或在显示界面所显示的文本信息中无法查找到所述语音控制指令所指示的内容的文字时，基于图像分析技术确定所述语音控制指令所指示的内容在当前显示界面中的位置。
根据权利要求10所述的装置，其特征在于，所述执行模块，还用于在所述语音控制指令所指示的内容位于一个交互按钮上时，触发所述交互按钮。
根据权利要求15所述的装置，其特征在于，所述确定模块，具体用于将交互按钮的中心点作为所述语音控制指令所指示的内容在当前显示界面中的位置；

所述执行模块，具体用于触发所述交互按钮的中心位置。
一种计算机程序产品，所述计算机程序产品包括内嵌于计算机可读的存储介质中的计算机程序，所述计算机程序包括用于使所述电子设备执行如权利要求1-7任一所述方法中的各个步骤的指令。
一种电子系统，其特征在于，包括用户设备和服务器；所述显示器，存储器，一个或多个处理器，以及通信单元；所述服务器包括存储器，一个或多个处理器，以及通信单元；各个通信单元用于实现与外部设备的通信；还包括：一个或多个模块，所述一个或多个模块被存储在用户设备或者服务器的存储器中，并被配置成由相应的处理器执行，所述一个或多个模块包括用于执行权利要求1-7中任一所述方法中各个步骤的指令。
根据权利要求18所述的电子系统，其特征在于，所述用户设备为机器人。