WO2022188552A1

WO2022188552A1 - 设备控制方法及相关装置

Info

Publication number: WO2022188552A1
Application number: PCT/CN2022/072355
Authority: WO
Inventors: 戴强; 张晓帆; 曾理; 王佩玲
Original assignee: Oppo广东移动通信有限公司
Priority date: 2021-03-10
Filing date: 2022-01-17
Publication date: 2022-09-15
Also published as: CN115086095A

Abstract

本申请提供了一种设备控制方法及相关装置，方法包括：获取至少一个固定设备的至少一个角度接收范围以及第一用户的面部朝向角度；确定第一用户需要控制的目标设备，目标设备的角度接收范围与第一用户的面部朝向角度相匹配；控制目标设备执行第一用户的语音指令所指示的操作。本申请实施例有利于提高设备控制的准确度和智能性。

Description

设备控制方法及相关装置

技术领域

本申请属于设备控制技术领域，具体涉及一种设备控制方法及相关装置。

背景技术

随着近几年互联网软硬件的急速发展，功能各异的电子设备环绕在用户周围，如手机、平板、智能音响、电子手表等。这些电子设备在给用户带来极大便利的同时也给用户带来一定程度的困扰，例如当用户希望播放音乐时，用户一般会朝向电视说出播放音乐的语音指令，安装在当前房间内的某个设备上的智能语音助手无法智能准确的识别出用户希望通过电视播放音乐的这一意图。

发明内容

本申请实施例提供了一种设备控制方法及相关装置，以期提高设备控制的准确度和智能性。

第一方面，本申请实施例提供了一种设备控制方法，包括：

获取至少一个固定设备的至少一个角度接收范围以及第一用户的面部朝向角度；

确定所述第一用户需要控制的目标设备，所述目标设备的所述角度接收范围与所述第一用户的面部朝向角度相匹配；

控制所述目标设备执行所述第一用户的语音指令所指示的操作。

可见，本示例中，仲裁设备首先获取至少一个固定设备的至少一个角度接收范围以及第一用户的面部朝向角度；其次，确定所述第一用户需要控制的目标设备；最后，控制所述目标设备执行所述第一用户的语音指令所指示的操作。可见，仲裁设备能够根据第一用户的面部朝向角度结合至少一个固定设备的角度接收范围，智能决策第一用户需要控制的目标设备，从而避免无法准确识别第一用户的控制意图的情况发生，有利于提高设备控制的准确度和智能性。

第二方面，本申请实施例提供了一种设备控制装置，包括：

获取单元，用于至少一个固定设备的至少一个角度接收范围以及第一用户的面部朝向角度；

确定单元，用于确定所述第一用户需要控制的目标设备，所述目标设备的所述角度接收范围与所述第一用户的面部朝向角度相匹配；

控制单元，用于控制所述目标设备执行所述第一用户的语音指令所指示的操作。

第三方面，本申请实施例提供一种电子设备，一个或多个处理器；

一个或多个存储器，用于存储程序，

所述一个或多个存储器和所述程序被配置为，由所述一个或多个处理器控制所述电子设备执行如本申请实施例第一方面任一方法中的步骤的指令。

第四方面，本申请实施例提供了一种芯片，包括：处理器，用于从存储器中调用并运行计算机程序，使得安装有所述芯片的设备执行如本申请实施例第一方面任一方法中所描述的部分或全部步骤。

第五方面，本申请实施例提供了一种计算机可读存储介质，其中，所述计算机可读存储介质存储用于电子数据交换的计算机程序，其中，所述计算机程序使得计算机执行如本申请实施例第一方面任一方法中所描述的部分或全部步骤。

第六方面，本申请实施例提供了一种计算机程序，其中，所述计算机程序可操作来使计算机执行如本申请实施例第一方面任一方法中所描述的部分或全部步骤。该计算机程序可以为一个软件安装包。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本申请实施例提供的一种多设备场景中用户控制的示意图；

图1b是本申请实施例提供的一种设备控制系统10的架构图；

图1c是本申请实施例提供的一种智能语音助手的功能界面示意图；

图1d是本申请实施例提供的一种电子设备的结构示意图；

图2a是本申请实施例提供的一种设备控制方法的流程示意图；

图2b是本申请实施例提供的一种多设备的角度接收范围的示意图；

图2c是本申请实施例提供的一种固定设备的接收角度范围的测量示意图；

图2d是本申请实施例提供的一种展示确定出的目标设备的界面示例图；

图3a是本申请实施例提供的一种设备控制方法的流程示意图；

图3b是本申请实施例提供的一种展示意图设备的示例图；

图3c是本申请实施例提供的另一种展示意图设备的示例图；

图3d是本申请实施例提供的另一种展示意图设备的示例图；

图3e是本申请实施例提供的另一种展示意图设备的示例图；

图4是本申请实施例提供的一种设备控制装置的功能单元组成框图；

图5是本申请实施例提供的另一种设备控制装置的功能单元组成框图；

图6是本申请实施例提供的一种设备控制装置的功能单元组成框图；

图7是本申请实施例提供的另一种设备控制装置的功能单元组成框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

目前，如图1a所示，用户所处的空间存在智能音箱(与用户距离为0.5m)、智能电视1(与用户距离为0.6m)、电脑(与用户距离为1.2m)、智能电视2(与用户距离为0.55m)，用户所处的空间存在多个电视，用户难以使用语音指令控制想要观看的电视。更一般的情况，当用户想听音乐，发出“播放音乐”指令时，当前智能语音助理也存在无法选择合适的设备满足用户意图的情形。

针对上述问题，本申请实施例提供一种设备控制方法，在智能语音助理面临多设备决策问题时，本申请实施例能够根据用户与设备之间的交互习惯，引入一个新的维度特征--用户面部朝向。该特征使得设备与用户之间的交互更加自然流畅，也让用户与设备的关系融合得更加密切。同时用户朝向的固定设备不需具备任何信号采集能力，这一特性极大拓展了朝向设备的类型与范围。

下面结合附图进行详细说明。

请参阅图1b，图1b是本申请实施例提供的一种设备控制系统10。所述设备控制系统10包括固定设备100(例如：智能电视、智能音箱、智能洗衣机、智能空调、防止在桌子上的手机等自身位置在一段时间内不随用户位置变化而变化的设备)、摄像头200(例如：安装在墙角的监控摄像头、放置在智能冰箱上的监控摄像头等)、安装智能语音助手的仲裁设备300(该仲裁设备可以是固定设备中的任意一个，也可以是移动设备中的任意一个，如用户手机，也可以是智能家居场景中专用的控制盒子，还可以是云端的服务器，还可以是共同完成方案的多个设备组成的设备组，此处不做唯一限定)、用户端的移动设备400(例如：用户手持的手机、手腕佩戴的智能手表等自身位置跟随用户位置变化而变化的设备)以及服务器500，所述仲裁设备300与固定设备100、摄像头200、移动设备400以及服务器500均实现通信连接，形成智能家庭场景中的设备控制网络。

其中，所述智能语音助手可以安装在手机等各类设备上以支持本申请的设备控制方法，其表现出的具体的功能名称、界面交互方式可以是多种多样的，此处不做唯一限定，例如安装在OPPO手机上并呈现如图1c的“Breeno”智能助手的设置功能界面。

需要注意的是，仲裁设备300作为本申请实施例的策略执行设备，与其他设备(如：固定设备100和移动设备400)之间的数据、信令交互方式可以是多种多样的，此处不做唯一限定。例如仲裁设备300可以直接与第一摄像头局域网通信连接获取对应信息，仲裁设备300可以通过移动通信网络连接用户所处空间的智能音箱实现对应的信息交互等。

请参阅图1d，图1d是本申请实施例提供的一种电子设备的结构示意图。该电子设备应用于上述设备控制系统10，所述电子设备包括应用处理器120、存储器130、通信模块140、以及一个或多个程序131，所述应用处理器120通过内部通信总线与所述存储器130、所述通信模块140均通信连接。

其中，所述一个或多个程序131被存储在上述存储器130中，且被配置由上述应用处理器120执行，所述一个或多个程序131包括用于执行上述方法实施例中任一步骤的指令。

其中，应用处理器120例如可以是中央处理器(Central Processing Unit，CPU)，通用处理器，数字信号处理器(Digital Signal Processor，DSP)，专用集成电路(Application-Specific Integrated Circuit，ASIC)，现场可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，单元和电路。所述处理器也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等等。通信单元可以是通信模块140、收发器、收发电路等，存储单元可以是存储器130。

所述存储器130可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory，ROM)、可编程只读存储器(programmable ROM，PROM)、可擦除可编程只读存储器(erasable PROM，EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的随机存取存储器(random access memory，RAM) 可用，例如静态随机存取存储器(static RAM，SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM，DR RAM)。

具体实现中，所述应用处理器120用于执行如本申请方法实施例中由仲裁设备执行的任一步骤。

请参阅图2a，图2a是本申请实施例提供的一种设备控制方法的流程示意图，应用于设备控制系统10中的仲裁设备300如图所示，本设备控制方法包括以下操作。

步骤201，获取至少一个固定设备的至少一个角度接收范围以及第一用户的面部朝向角度。

其中，所述至少一个角度接收范围与所述至少一个固定设备一一对应，即每个固定设备对应一个角度接收范围。

其中，所述第一摄像头与第一用户之间的第一距离可以由第一摄像头基于景深算法计算得到。

其中，所述第一用户的面部朝向角度可以表征为相对于当前摄像头的人脸偏转角(yaw)、俯仰角(pitch)、滚动角(roll)，通过角度转换能够得到在第一摄像头的坐标系内的角度。

步骤202，确定所述第一用户需要控制的目标设备，所述目标设备的所述角度接收范围与所述第一用户的面部朝向角度相匹配。

其中，所述目标设备可以为固定设备。

其中，用户所朝向的设备不需要进行信号采集工作。用户朝向的设备可以是智能窗帘、灯具、开关、位置不变的手机等设备，也可以是用户手持的手机的设备，只需要安装智能语音助理的仲裁设备能够控制这些设备即可，这一特性极大拓展了朝向设备的类型与范围。

步骤203，控制所述目标设备执行所述第一用户的语音指令所指示的操作。

其中，所述角度接收范围是指固定设备的边界点与用户位置所组成的扇形角度范围，如图2b所示，假设固定设备包括用户所处空间的手机、音箱、电视1、电视2以及电脑，通过手机的边界点与用户位置之间的扇形区域可以确定手机的角度接收范围为图示的角度范围C，通过音箱的边界点与用户位置之间的扇形区域可以确定音箱的角度接收范围为图示的角度范围B，通过电视1的边界点与用户位置之间的扇形区域可以确定电视1的角度接收范围为图示的角度范围A，通过电脑的边界点与用户位置之间的扇形区域可以确定电脑的角度接收范围为图示的角度范围D，通过电视2的边界点与用户位置之间的扇形区域可以确定电视2的角度接收范围为图示的角度范围E。

在一个可能的实例中，所述获取至少一个固定设备的至少一个角度接收范围，包括：根据第一摄像头的位置、所述第一摄像头与所述第一用户之间的第一距离以及所述至少一个固定设备的位置确定所述至少一个固定设备的至少一个角度接收范围。

具体实现中，设备需要获取所述第一摄像头与所述第一用户之间的第一距离，例如通过所述第一摄像头的深度检测算法计算第一摄像头与所述第一用户之间的第一距离。

可见，本示例中，仲裁设备首先获取第一摄像头与第一用户之间的第一距离，以及第一用户的面部朝向角度；其次，根据第一摄像头的位置、第一距离、至少一个固定设备的位置以及第一用户的面部朝向角度，确定第一用户需要控制的目标设备；最后，控制目标设备执行第一用户的语音指令所指示的操作。可见，仲裁设备能够根据第一用户的面部朝向角度结合第一摄像头的位置、第一距离、至少一个固定设备的位置，智能决策第一用户需要控制的目标设备，从而避免无法准确识别第一用户的控制意图的情况发生，有利于提高设备控制的准确度和智能性。

在本可能的实例中，所述根据第一摄像头的位置所述第一摄像头与所述第一用户之间的第一距离以及所述至少一个固定设备的位置确定所述至少一个固定设备的至少一个角度接收范围，包括：如图2c所示，若坐标点a1为所述第一摄像头的等效位置，以坐标点a1为坐标原点建立直角坐标系Xa1Y，坐标点b1为与根据所述第一距离对应的所述第一用户的等效位置，坐标点b2、坐标点b3为单个固定设备的两个边界点，坐标点a3为坐标点b2在X轴的水平投影点，坐标点a5为坐标点b3在X轴的水平投影点，坐标点a4为射线b1b2与X轴的交点，坐标点a6为射线b1b3与X轴的交点，则在坐标点b1约束下所述单个固定设备的角度接收范围的第一边界角度α1为∠a2b1b2，第二边界角度α2为∠a2b1b3，α1、α2构成所述单个固定设备的角度接收范围。

其中，第一距离对应a1b1的线段长度，根据该a1b1线段长度可以计算出水平投影线段a1a2线段长度以及垂直投影线段a2b1线段长度。

其中，通过如下公式计算α1和α2：

具体实现中，结合图2c分析，通过三角形相似定理可得：

通过求解该式可解得：

其中，a ₂a ₃通过a ₁a ₃-a ₁a ₂得到，根据三角函数可得：

同理，通过三角形相似定理可得：

该式可求得

其中，a ₂a ₅通过a ₁a ₅-a ₁a ₂得到。

已知a ₅a ₆可得：

通过上述公式可确定α ₁、α ₂的取值。

其中，所述单个固定设备的角度接收范围为[α1，α2]。

如图2d所示的示例图，仲裁设备确定第一用户的意图设备后，可以在手机等载体上通过显示屏显示该交互控制结果，可以通过文字提示信息展示本次确定出来的第一用户需要控制的目标设备(即意图设备)。

可见，本示例中，当通过图像的面部朝向算法检测到当前用户的面部朝向角度，即可判定当前用户朝向该设备，若该设备能够提供用户指令所述的能力，系统即调用该设备响应用户的请求。

在一个可能的实例中，所述获取所述第一用户的面部朝向角度，包括：获取通过所述第一摄像头采集的第一图像；检测到所述第一图像包含至少一个用户的影像信息，确定所述第一图像中所述第一用户的影像信息；根据所述第一图像中所述第一用户的影像信息确定所述第一用户的面部朝向角度。

具体实现中，所述根据所述第一图像中所述第一用户的影像信息确定所述第一用户的面部朝向角度，包括：通过神经网络算法提取相对于第一摄像头的人脸偏转角(yaw)、俯仰角(pitch)、滚动角(roll)。

在本可能的实例中，所述检测到所述第一图像包含至少一个用户的影像信息，确定所述第一图像中所述第一用户的影像信息，包括：

检测到所述第一图像中存在多个用户的影像信息；

根据所述语音指令的声纹信息和/或用户的生物特征信息检测是否能够确定所述第一用户的影像信息；

若否(即根据所述语音指令的声纹信息和/或用户的生物特征信息检测到无法能够确定所述第一用户的影像信息)，则根据所述多个用户的影像信息确定所述多个用户的位置，根据所述多个用户的位置、每个用户的声源定位位置信息以及所述每个用户的状态检测是否能够确定所述第一用户的影像信息；

若否(即根据所述多个用户的影像信息确定所述多个用户的位置，根据所述多个用户的位置、每个用户的声源定位位置信息以及所述每个用户的状态检测到无法确定所述第一用户的影像信息)，则根据所述多个用户的面部朝向是否存在设备、所述设备能否提供所述语音指令所描述的能力来确定所述第一用户的影像信息。

其中，所述多个用户还包括除所述第一用户之外的第二用户。

其中，用户的生物特征信息是指反映用户面部生物特征的特征数据，如眼睛间距、鼻子现对于脸部的占比、佩戴眼镜等。

具体实现中，仲裁设备可以预先设置或者实时获取用户的影像信息与用户的声纹信息之间的对应关系，和/或用户的影像信息与用户的生物特征信息之间的对应关系，仲裁设备确定语音指令的声纹特征，和/或提取第一图像的生物特征信息，然后查询上述对应关系，若查询到存在对应的用户的影像信息，则可以确定第一图像确实存在第一用户的影像信息。

进一步地，若未能够确定出来，则可以通过对第一图像分析得到每个用户的图像位置，以及通过声源定位技术处理第一用户的语音指令而识别出的第一用户的声源位置，进行位置比对，如果还未能够匹配出来，或者匹配出来多个，则可以进一步通过每个用户的状态进行筛选，其中，该每个用户的状态包括肢体状态和/或面部状态，通过分析每个用户的肢体状态和/或面部状态来确定当前用户是否在执行通过语音指令控制设备的操作。

进一步地，若还未能够确定出来，则可以进一步基于图像分析确定用户面部朝向的设备，以及该设备是否存在语音指令所描述的能力来确定。例如，用户面部朝向设备包括智能手表，且语音指令所描述的功能是温度调节，显然不匹配，因此被控设备不是智能手表。

具体实现中，所述方法还包括：根据所述语音指令的声纹信息和/或用户的生物特征信息检测到确定出所述第一用户的影像信息。

具体实现中，所述方法还包括：根据所述多个用户的位置、每个用户的声源定位位置信息以及所述每个用户的状态确定所述第一用户的影像信息。

可见，本示例中，对于第一图像中第一用户的影像的识别问题，仲裁设备能够基于多类信息进行梯度化的逐级检测机制，全面、精细化的进行第一用户的检测。

在本可能的示例中，所述方法还包括：检测到所述第一图像中存在单个用户的影像信息；确定所述单个用户的影像信息为所述第一用户的影像信息。

可见，本示例中，针对近存在单个用户的情况，仲裁设备简化算法直接定位当前用户为第一用户，快捷高效实时性好。

在一个可能的实例中，所述确定所述第一用户需要控制的目标设备之前，所述方法还包括：根据所述第一图像中所述第一用户的影像信息检测到所述第一用户的面部未朝向移动设备。

其中，所述移动设备包括可穿戴设备。

具体实现中，可以基于图像分析算法识别出第一用户的面部朝向的图像区域是否存在移动设备，该移动设备可能是用户手持的手机、佩戴的智能手表等。

可见，本示例中，由于实际应用场景中，第一用户可能手持手机并面朝手机进行语音控制，如面朝手机说出“播放老郭的相声”之类的语音指令，因此仲裁设备需要能够基于采集到的第一图像先分析出第一用户是否有针对移动设备的控制意图，并在没有针对移动设备的控制意图的情况下进一步基于面部朝向准确定位需要控制的固定设备，提高设备控制的准确度和全面性。

在本可能的实例中，所述方法还包括：根据所述第一图像中所述第一用户的影像信息检测到所述第一用户的面部朝向存在所述移动设备；根据所述移动设备确定所述第一用户需要控制的目标设备。

其中，所述根据所述移动设备为所述第一用户需要控制的目标设备的具体实现方式包括：若所述移动设备为单个移动设备，则确定所述单个移动设备为所述第一用户需要控制的目标设备；若所述移动设备为多个移动设备，则获取所述多个移动设备中各移动设备的设备状态，并根据所述多个移动设备中各移动设备的设备状态确定所述第一用户需要控制的目标设备。

其中，所述各移动设备的设备状态包括以下至少一种：屏幕状态、是否被用户手持等。

可见，本示例中，由于实际应用场景中，第一用户可能手持手机并面朝手机进行语音控制，如面朝手机说出“播放老郭的相声”之类的语音指令，因此仲裁设备需要能够基于采集到的第一图像先分析出第一用户是否有针对移动设备的控制意图，并在识别出存在针对移动设备的控制意图的情况下，确定该移动设备为第一用户当前需要控制的目标设备，从而避免误识别的情况发生，提高设备控制的准确度和全面性。

在一个可能的实例中，所述第一摄像头是依据所述第一用户的位置进行选择确定。

具体来说，所述第一摄像头为与所述第一用户的声源定位参考位置关联的摄像头；所述第一用户的声源定位参考位置是通过至少三个设备采集所述第一用户的语音指令的时间差、所述三个设备的位置以及声源定位技术确定的。

具体实现中，所述第一摄像头可以是仲裁设备基于第一用户的声源定位结果，从多个摄像头中选择出来的满足预设条件的摄像头，其中，所述满足预设条件可以是以下条件中的至少一种：

摄像头与第一用户在同一房间内；

摄像头与第一用户的距离最小或者小于预设距离阈值；以及，

摄像头的取景范围包括第一用户，或者，摄像头能够正对着第一用户。

仲裁设备选取第一摄像头后，可以通过第一用户的大致方位调整第一摄像头的角度、焦距等状态，使其能清晰准确拍摄出用户的画面。

若当前第一摄像头画面不存在人物，则切换到其他备选摄像头。

若所有摄像头均无法捕捉人物画面，则退出该系统，并可以通过任意设备主动询问用户以确定用户的意图设备，并启动该意图设备为用户服务。

可见，本示例中，仲裁设备能够基于第一用户的声源定位结果从多摄像头中筛选出关联的第一摄像头，提高图像采集检测识别的成功率。

在一个可能的实例中，所述至少一个固定设备的位置和所述第一摄像头的位置是通过视觉扫描定位的方式进行位置标定。

具体实现中，用户可以使用具有双目摄像头的设备定位每个设备的相对位置(包括所属房间号、以及当前房间内的相对位置等)，也可以由用户指定。同时用户可对每个设备的位置进行微调，扩大或缩小设备朝向角度的接收范围以提高控制准确度。

可见，本示例中，系统支持视觉扫描定位来快速构建多设备的空间位置关系，并支持用户微调，提高便捷性和准确度。

可以看出，本申请实施例中，仲裁设备首先获取至少一个固定设备的至少一个角度接收范围以及第一用户的面部朝向角度；其次，确定所述第一用户需要控制的目标设备；最后，控制所述目标设备执行所述第一用户的语音指令所指示的操作。可见，仲裁设备能够根据第一用户的面部朝向角度结合至少一个固定设备的角度接收范围，智能决策第一用户需要控制的目标设备，从而避免无法准确识别第一用户的控制意图的情况发生，有利于提高设备控制的准确度和智能性。

请参阅图3a，图3a是本申请实施例提供的一种展示意图设备方法的流程示意图，应用于设备控制系统10中的任意设备，如图所示，本展示意图设备方法包括以下操作。

步骤301，获取第一用户的语音指令的意图设备的检测结果，所述意图设备的检测结果是根据第一摄像头的位置、第一距离、至少一个固定设备的位置以及所述第一用户的面部朝向角度确定的，所述第一距离为所述第一摄像头与第一用户之间的距离。

步骤302，显示所述意图设备的检测结果。

其中，所述语音指令用于所述目标设备执行对应的操作以完成所述第一用户的控制意图。

在一个可能的示例中，所述显示所述意图设备的检测结果，包括：显示设备控制系统空间模型，所述设备控制系统空间模型包括通过视觉扫描定位的方式进行位置标定而得到的所述至少一个固定设备；突出显示所述至少一个固定设备中被确定的目标设备；和/或，显示用于指示所述目标设备为意图设备的提示信息。

举例来说，如图3b所示的意图设备的显示示意图，其中，意图设备为用虚线框标注的电视1，也可以直接将电视1的图标进行高亮显示等，此处不做唯一限定。

又举例来说，如图3c所示的意图设备的显示示意图，其中，通过文字信息展示意图设备为电视2。

可见，本示例中，设备控制系统支持通过显示屏幕直观展示意图设备的检测结果。

在一个可能的示例中，所述显示所述意图设备的检测结果，包括：显示设备控制系统空间模型，所述设备控制系统空间模型包括通过视觉扫描定位的方式进行位置标定而得到的所述至少一个固定设备和被确定的作为目标设备的移动设备；突出显示所述被确定的作为目标设备的移动设备；和/或，显示用于指示所述目标设备为意图设备的提示信息。

举例来说，如图3d所示的意图设备的显示示意图，其中，意图设备为用突出标注的手机，也可以直接将手机的图标进行高亮显示等，此处不做唯一限定。

又举例来说，如图3e所示的意图设备的显示示意图，其中，通过文字信息展示意图设备为手机。

可以看出，本申请实施例中，设备控制系统能够基于第一用户的面部朝向以及其他关联信息准确确定出第一用户的意图设备，并以可视化方式展示该意图设备的检测结果以直观呈现给用户，提高设备控制的直观性和智能性，提升用户体验。

本申请实施例提供一种设备控制装置，该设备控制装置可以为仲裁设备。具体的，设备控制装置用于执行以上设备控制方法中仲裁设备所执行的步骤。本申请实施例提供的设备控制装置可以包括相应步骤所对应的模块。

本申请实施例可以根据上述方法示例对设备控制装置进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

在采用对应各个功能划分各个功能模块的情况下，图4示出上述实施例中所涉及的设备控制装置的一种可能的结构示意图。如图4所示，设备控制装置4应用于设备控制系统10中的仲裁设备400；所述装置包括：

获取单元40，用于获取第一摄像头与第一用户之间的第一距离，以及所述第一用户的面部朝向角度；

确定单元41，用于根据所述第一摄像头的位置、所述第一距离、至少一个固定设备的位置以及所述第一用户的面部朝向角度，确定所述第一用户需要控制的目标设备；

控制单元42，用于控制所述目标设备执行所述第一用户的语音指令所指示的操作。

在一个可能的示例中，在所述获取至少一个固定设备的至少一个角度接收范围方面，所述获取单元40具体用于：根据第一摄像头的位置、所述第一摄像头与所述第一用户之间的第一距离以及所述至少一个固定设备的位置确定所述至少一个固定设备的至少一个角度接收范围。

在一个可能的示例中，在所述根据第一摄像头的位置所述第一摄像头与所述第一用户之间的第一距离以及所述至少一个固定设备的位置确定所述至少一个固定设备的至少一个角度接收范围方面，所述获取单元40具体用于：若坐标点a1为所述第一摄像头的等效位置，以坐标点a1为坐标原点建立直角坐标系Xa1Y，坐标点b1为与根据所述第一距离对应的所述第一用户的等效位置，坐标点b2、坐标点b3为单个固定设备的两个边界点，坐标点a3为坐标点b2在X轴的水平投影点，坐标点a5为坐标点b3在X轴的水平投影点，坐标点a4为射线b1b2与X轴的交点，坐标点a6为射线b1b3与X轴的交点，则在坐标点b1约束下所述单个固定设备的角度接收范围的第一边界角度α1为∠a2b1b2，第二边界角度α2为∠a2b1b3，α1、α2构成所述单个固定设备的角度接收范围。

在一个可能的示例中，通过如下公式计算α1和α2：

在一个可能的示例中，在所述获取第一用户的面部朝向角度方面，所述获取单元40具体用于：获取通过所述第一摄像头采集的第一图像；以及检测到所述第一图像包含至少一个用户的影像信息，确定所述第一图像中所述第一用户的影像信息；以及根据所述第一图像中所述第一用户的影像信息确定所述第一用户的面部朝向角度。

在一个可能的示例中，在所述检测到所述第一图像包含至少一个用户的影像信息，确定所述第一图像中所述第一用户的影像信息方面，获取单元40具体用于：检测到所述第一图像中存在多个用户的影像信息；

若否，则根据所述多个用户的影像信息确定所述多个用户的位置，根据所述多个用户的位置、每个用户的声源定位位置信息以及所述每个用户的状态检测是否能够确定所述第一用户的影像信息；

若否，则根据所述多个用户的面部朝向是否存在设备、所述设备能否提供所述语音指令所描述的能力来确定所述第一用户的影像信息。

在一个可能的示例中，所述第一摄像头是依据所述第一用户的位置进行选择确定。

在一个可能的示例中，所述至少一个固定设备的位置和所述第一摄像头的位置是通过视觉扫描定位的方式进行位置标定。

在一个可能的示例中，所述确定单元41确定所述第一用户需要控制的目标设备之前，还用于根据所述第一用户的面部朝向角度确定所述第一用户的面部未朝向移动设备。

在一个可能的示例中，所述确定单元41还用于：根据所述第一图像中所述第一用户的影像信息检测到所述第一用户的面部朝向存在所述移动设备；以及根据所述移动设备确定所述第一用户需要控制的目标设备。

在采用集成的单元的情况下，本申请实施例提供的另一种设备控制装置的结构示意图如图5所示。在图5中，设备控制装置5包括：处理模块50和通信模块51。处理模块50用于对设备控制装置的动作进行控制管理，例如，获取单元40、确定单元41、控制单元42、检测单元43所执行的步骤，和/或用于执行本文所描述的技术的其它过程。通信模块51用于支持设备控制装置与其他设备之间的交互。如图5所示，设备控制装置还可以包括存储模块52，存储模块52用于存储设备控制装置的程序代码和数据。

其中，处理模块50可以是处理器或控制器，例如可以是中央处理器(Central Processing Unit，CPU)，通用处理器，数字信号处理器(Digital Signal Processor，DSP)，ASIC，FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。所述处理器也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等等。通信模块51可以是收发器、RF电路或通信接口等。存储模块52可以是存储器。

其中，上述方法实施例涉及的各场景的所有相关内容均可以援引到对应功能模块的功能描述，在此不再赘述。上述设备控制装置4和设备控制装置5均可执行上述图2a所示的设备控制方法中仲裁设备所执行的步骤。

本申请实施例提供一种设备控制装置，该设备控制装置可以为设备控制系统中的任意设备。具体的，设备控制装置用于执行以上设备控制方法中设备控制系统中的任意设备所执行的步骤。本申请实施例提供的设备控制装置可以包括相应步骤所对应的模块。

在采用对应各个功能划分各个功能模块的情况下，图6示出上述实施例中所涉及的设备控制装置的一种可能的结构示意图。如图6所示，设备控制装置6应用于设备控制系统10中的仲裁设备600；所述装置包括：

获取单元60，用于获取第一用户的语音指令的意图设备的检测结果，所述意图设备的检测结果是根据第一摄像头的位置、第一距离、至少一个固定设备的位置以及所述第一用户的面部朝向角度确定的，所述第一距离为所述第一摄像头与第一用户之间的距离；

显示单元61，用于显示所述意图设备的检测结果。

在一个可能的示例中，所述语音指令用于所述目标设备执行对应的操作以完成所述第一用户的控制意图。

在一个可能的示例中，在所述显示所述意图设备的检测结果方面，所述显示单元61，具体用于显示设备控制系统空间模型，所述设备控制系统空间模型包括通过视觉扫描定位的方式进行位置标定而得到的所述至少一个固定设备；以及突出显示所述至少一个固定设备中被确定的目标设备；和/或，显示用于指示所述目标设备为意图设备的提示信息。

在一个可能的示例中，在所述显示所述意图设备的检测结果方面，所述显示单元61，具体用于显示设备控制系统空间模型，所述设备控制系统空间模型包括通过视觉扫描定位的方式进行位置标定而得到的所述至少一个固定设备和被确定的作为目标设备的移动设备；以及突出显示所述被确定的作为目标设备的移动设备；和/或，显示用于指示所述目标设备为意图设备的提示信息。

在采用集成的单元的情况下，本申请实施例提供的另一种设备控制装置的结构示意图如图7所示。在图7中，设备控制装置7包括：处理模块70和通信模块71。处理模块70用于对设备控制装置的动作进行控制管理，例如，获取单元60、显示单元61所执行的步骤，和/或用于执行本文所描述的技术的其它过程。通信模块71用于支持设备控制装置与其他设备之间的交互。如图7所示，设备控制装置还可以包括存储模块72，存储模块72用于存储设备控制装置的程序代码和数据。

其中，处理模块70可以是处理器或控制器，例如可以是中央处理器(Central Processing Unit，CPU)，通用处理器，数字信号处理器(Digital Signal Processor，DSP)，ASIC，FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。所述处理器也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等等。通信模块71可以是收发器、RF电路或通信接口等。存储模块72可以是存储器。

其中，上述方法实施例涉及的各场景的所有相关内容均可以援引到对应功能模块的功能描述，在此不再赘述。上述设备控制装置6和设备控制装置7均可执行上述图2a所示的设备控制方法中仲裁设备所执行的步骤。

上述实施例，可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时，上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令或计算机程序。在计算机上加载或执行所述计算机指令或计算机程序时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线或无线方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集合的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质。半导体介质可以是固态硬盘。

本申请实施例还提供一种计算机存储介质，其中，该计算机存储介质存储用于电子数据交换的计算机程序，该计算机程序使得计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤，上述计算机包括电子设备。

本申请实施例还提供一种计算机程序产品，上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，上述计算机程序可操作来使计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤。该计算机程序产品可以为一个软件安装包，上述计算机包括电子设备。

应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法、装置和系统，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的；例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式；例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理包括，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

虽然本发明披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，可轻易想到变化或替换，均可作各种更动与修改，包含上述不同功能、实施步骤的组合，包含软件和硬件的实施方式，均在本发明的保护范围。

Claims

一种设备控制方法，其特征在于，包括：

获取至少一个固定设备的至少一个角度接收范围以及第一用户的面部朝向角度；

确定所述第一用户需要控制的目标设备，所述目标设备的所述角度接收范围与所述第一用户的面部朝向角度相匹配；

控制所述目标设备执行所述第一用户的语音指令所指示的操作。
根据权利要求1所述的方法，其特征在于，所述获取至少一个固定设备的至少一个角度接收范围，包括：

根据第一摄像头的位置、所述第一摄像头与所述第一用户之间的第一距离以及所述至少一个固定设备的位置确定所述至少一个固定设备的至少一个角度接收范围。
根据权利要求2所述的方法，其特征在于，所述根据第一摄像头的位置所述第一摄像头与所述第一用户之间的第一距离以及所述至少一个固定设备的位置确定所述至少一个固定设备的至少一个角度接收范围，包括：

若坐标点a1为所述第一摄像头的等效位置，以坐标点a1为坐标原点建立直角坐标系Xa1Y，坐标点b1为与根据所述第一距离对应的所述第一用户的等效位置，坐标点b2、坐标点b3为单个固定设备的两个边界点，坐标点a3为坐标点b2在X轴的水平投影点，坐标点a5为坐标点b3在X轴的水平投影点，坐标点a4为射线b1b2与X轴的交点，坐标点a6为射线b1b3与X轴的交点，则在坐标点b1约束下所述单个固定设备的角度接收范围的第一边界角度α1为∠a2b1b2，第二边界角度α2为∠a2b1b3，α1、α2构成所述单个固定设备的角度接收范围。
根据权利要求3所述的方法，其特征在于，通过如下公式计算α1和α2：
根据权利要求1-4任一项所述的方法，其特征在于，所述获取第一用户的面部朝向角度，包括：

获取通过所述第一摄像头采集的第一图像；

检测到所述第一图像包含至少一个用户的影像信息，确定所述第一图像中所述第一用户的影像信息；

根据所述第一图像中所述第一用户的影像信息确定所述第一用户的面部朝向角度。
根据权利要求5所述的方法，其特征在于，所述检测到所述第一图像包含至少一个用户的影像信息，确定所述第一图像中所述第一用户的影像信息，包括：

检测到所述第一图像中存在多个用户的影像信息；

根据所述语音指令的声纹信息和/或用户的生物特征信息检测是否能够确定所述第一用户的影像信息；

若否，则根据所述多个用户的影像信息确定所述多个用户的位置，根据所述多个用户的位置、每个用户的声源定位位置信息以及所述每个用户的状态检测是否能够确定所述第一用户的影像信息；

若否，则根据所述多个用户的面部朝向是否存在设备、所述设备能否提供所述语音指令所描述的能力来确定所述第一用户的影像信息。
根据权利要求1-6任一项所述的方法，其特征在于，所述第一摄像头是依据所述第一用户的位置进行选择确定。
根据权利要求1-6任一项所述的方法，其特征在于，所述至少一个固定设备的位置和所述第一摄像头的位置是通过视觉扫描定位的方式进行位置标定。
根据权利要求1-8任一项所述的方法，其特征在于，所述确定所述第一用户需要控制的目标设备之前，所述方法还包括：

根据所述第一用户的面部朝向角度确定所述第一用户的面部未朝向移动设备。
根据权利要求5所述的方法，其特征在于，所述方法还包括：

根据所述第一图像中所述第一用户的影像信息检测到所述第一用户的面部朝向存在所述移动设备；

根据所述移动设备确定所述第一用户需要控制的目标设备。
一种设备控制装置，其特征在于，包括：

获取单元，用于至少一个固定设备的至少一个角度接收范围以及第一用户的面部朝向角度；

确定单元，用于确定所述第一用户需要控制的目标设备，所述目标设备的所述角度接收范围与所述第一用户的面部朝向角度相匹配；

控制单元，用于控制所述目标设备执行所述第一用户的语音指令所指示的操作。
根据权利要求11所述的装置，其特征在于，在所述获取至少一个固定设备的至少一个角度接收范围方面，所述获取单元具体用于：根据第一摄像头的位置、所述第一摄像头与所述第一用户之间的第一距离以及所述至少一个固定设备的位置确定所述至少一个固定设备的至少一个角度接收范围。
根据权利要求12所述的装置，其特征在于，在所述根据第一摄像头的位置所述第一摄像头与所述第一用户之间的第一距离以及所述至少一个固定设备的位置确定所述至少一个固定设备的至少一个角度接收范围方面，所述获取单元具体用于：若坐标点a1为所述第一摄像头的等效位置，以坐标点a1为坐标原点建立直角坐标系Xa1Y，坐标点b1为与根据所述第一距离对应的所述第一用户的等效位置，坐标点b2、坐标点b3为单个固定设备的两个边界点，坐标点a3为坐标点b2在X轴的水平投影点，坐标点a5为坐标点b3在X轴的水平投影点，坐标点a4为射线b1b2与X轴的交点，坐标点a6为射线b1b3与X轴的交点，则在坐标点b1约束下所述单个固定设备的角度接收范围的第一边界角度α1为∠a2b1b2，第二边界角度α2为∠a2b1b3，α1、α2构成所述单个固定设备的角度接收范围。
根据权利要求13所述的装置，其特征在于，通过如下公式计算α1和α2：
根据权利要求11-14任一项所述的装置，其特征在于，在所述获取第一用户的面部朝向角度方面，所述获取单元具体用于：获取通过所述第一摄像头采集的第一图像；以及检测到所述第一图像包含至少一个用户的影像信息，确定所述第一图像中所述第一用户的影像信息；以及根据所述第一图像中所述第一用户的影像信息确定所述第一用户的面部朝向角度。
根据权利要求15所述的装置，其特征在于，在所述检测到所述第一图像包含至少一个用户的影像信息，确定所述第一图像中所述第一用户的影像信息方面，所述获取单元具体用于：检测到所述第一图像中存在多个用户的影像信息；

根据所述语音指令的声纹信息和/或用户的生物特征信息检测是否能够确定所述第一用户的影像信息；

若否，则根据所述多个用户的影像信息确定所述多个用户的位置，根据所述多个用户的位置、每个用户的声源定位位置信息以及所述每个用户的状态检测是否能够确定所述第一用户的影像信息；

若否，则根据所述多个用户的面部朝向是否存在设备、所述设备能否提供所述语音指令所描述的能力来确定所述第一用户的影像信息。
根据权利要求11-16任一项所述的装置，其特征在于，所述第一摄像头是依据所述第一用户的位置进行选择确定。
根据权利要求11-16任一项所述的装置，其特征在于，所述至少一个固定设备的位置和所述第一摄像头的位置是通过视觉扫描定位的方式进行位置标定。
一种电子设备，其特征在于，包括：

一个或多个处理器；

一个或多个存储器，用于存储程序，

所述一个或多个存储器和所述程序被配置为，由所述一个或多个处理器控制所述电子设备执行如权利要求1-10任一项所述的方法中的步骤。
一种计算机可读存储介质，其特征在于，存储用于电子数据交换的计算机程序，其中，所述计算机程序使得计算机执行如权利要求1-10任一项所述的方法。