WO2018095166A1

WO2018095166A1 - 一种设备控制方法、装置及系统

Info

Publication number: WO2018095166A1
Application number: PCT/CN2017/106800
Authority: WO
Inventors: 陈扬坤; 何赛娟; 陈展
Original assignee: 杭州海康威视数字技术股份有限公司
Priority date: 2016-11-23
Filing date: 2017-10-19
Publication date: 2018-05-31
Also published as: EP3546976A4; CN108089152A; CN108089152B; US20190317178A1; EP3546976A1; EP3546976B1; US10816633B2

Abstract

一种设备控制方法、装置及系统，方法应用于声源定位系统中的视频采集设备（610），该声源定位系统还包括设置于视频采集设备（610）外部的麦克风（620），方法包括：获取各麦克风（620）采集的语音信号，并获取各麦克风（620）的坐标信息，以及各预设位置点的坐标信息（S101）；根据各麦克风（620）采集的语音信号、各麦克风（620）的坐标信息、以及各预设位置点的坐标信息，计算各位置点对应的语音功率值（S102）；识别语音功率值最大的位置点，将该位置点确定为声源位置，并控制自身对准声源位置（S103），将麦克风（620）设置在视频采集设备（610）外部，采集场景中的声音均能被麦克风（620）采集到，因此，能够提高声源定位的准确性，从而提高设备控制的准确性。

Description

一种设备控制方法、装置及系统

本申请要求于2016年11月23日提交中国专利局、申请号为201611047345.8发明名称为“一种设备控制方法、装置及系统”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及自动控制技术领域，特别是涉及一种设备控制方法、装置及系统。

背景技术

随着通信技术的发展，信息交互变得越来越方便。例如，在办公领域，处于不同地区的用户可以进行视频会议；或者，在教育领域，可以通过直播的方式进行在线教学，或通过录播视频的方式进行教学等。

在视频会议、在线教学或视频录播过程中，通常需要定位正在讲话的人，并控制视频采集设备对准正在讲话的人。具体地，可以在会议室或教室安装视频采集设备，如，可以为能够360度旋转及上下调节的云台摄像机，通过该视频采集设备定位声源位置，即为正在讲话的人所处位置，进一步地控制其对准正在讲话的人。

已知的设备控制方法，主要为将麦克风安装在视频采集设备上，通过对麦克风接收的声源进行检测，从而定位声源位置，即为正在讲话的人所处位置，进而控制视频采集设备对准声源位置。但是，上述方法中，由于将麦克风安装在视频采集设备上，因此通常只能定位距离视频采集设备距离较近的声源，而不能准确定位距离视频采集设备距离较远的声源。因此，上述方法中，声源定位准确性较低，从而导致设备控制准确性较低。

发明内容

本申请实施例的目的在于提供一种设备控制方法、装置及系统，以提高设备控制的准确性。具体技术方案如下：

第一方面，本申请实施例提供了一种设备控制方法，应用于声源定位系统中的视频采集设备，所述声源定位系统还包括设置于所述视频采集设备外部的麦克风，所述方法包括：

获取各麦克风采集的语音信号，并获取所述各麦克风的坐标信息，以及各预设位置点的坐标信息；

根据所述各麦克风采集的语音信号、所述各麦克风的坐标信息、以及各预设位置点的坐标信息，计算各位置点对应的语音功率值；

识别语音功率值最大的位置点，将该位置点确定为声源位置，并控制自身对准所述声源位置。

可选地，所述根据所述各麦克风采集的语音信号、所述各麦克风的坐标信息、以及各预设位置点的坐标信息，计算各位置点对应的语音功率值的步骤包括：

根据各麦克风采集的语音信号，计算各语音信号的傅里叶变换；

针对每个预设位置点，根据该预设位置点的坐标信息、以及各麦克风的坐标信息，计算该预设位置点到每两个相邻麦克风的时延差；

根据各语音信号的傅里叶变换，以及所述该预设位置点到每两个相邻麦克风的时延差，计算所述该预设位置点到每两个相邻麦克风的广义互相关；

根据该预设位置点到每两个相邻麦克风的广义互相关，计算该位置点对应的语音功率值。

可选地，所述针对每个预设位置点，根据该预设位置点的坐标信息、以及各麦克风的坐标信息，计算该预设位置点到每两个相邻麦克风的时延差的步骤包括：

根据以下公式，计算任一预设位置点m到任两个相邻麦克风k、l的时延差τ_mkl：

其中，所述D_mk为所述预设位置点m到麦克风k的距离，所述D_ml为所述预设位置点m到麦克风l的距离，所述c为声速。

可选地，所述根据所述各语音信号的傅里叶变换，以及所述该预设位置点到每两个相邻麦克风的时延差，计算所述该预设位置点到每两个相邻麦克风的广义互相关的步骤包括：

根据以下公式，计算所述任一预设位置点m到所述任两个相邻麦克风k、l的广义互相关R(τ_mkl)：

其中，所述M_k(w)为所述麦克风k接收的语音信号的傅里叶变换；所述

为所述麦克风l接收的语音信号的傅里叶变换的共轭；所述w为语音信号频率；所述φ_kl(w)通过以下公式确定：

可选地，所述根据该预设位置点到每两个相邻麦克风的广义互相关，计算该位置点对应的语音功率值的步骤包括：

根据以下公式，计算所述任一预设位置点m对应的语音功率值P(m)：

其中，所述M为麦克风总数。

可选地，所述方法还包括：

确定所述声源位置处的人体的身高；

根据自身的坐标信息、自身的高度、所述声源位置的坐标信息、以及所述声源位置处的人体的身高，计算从自身到所述人体的目标距离；

根据预先保存的各距离与焦距的对应关系，识别与所述目标距离对应的目标焦距，并调节自身的焦距为所述目标焦距。

可选地，所述确定所述声源位置处的人体的身高的步骤包括：

获取预先保存的人体平均身高，并将所获取的人体平均身高确定为所述声源位置处的人体的身高；或

采集包含所述声源位置处的人体的图像，对所述图像进行分析，得到所述声源位置处的人体的身高。

第二方面，本申请实施例提供了一种设备控制装置，应用于声源定位系统中的视频采集设备，所述声源定位系统还包括设置于所述视频采集设备外部的麦克风，所述装置包括：

获取模块，用于获取各麦克风采集的语音信号，并获取所述各麦克风的坐标信息，以及各预设位置点的坐标信息；

第一计算模块，用于根据所述各麦克风采集的语音信号、所述各麦克风的坐标信息、以及各预设位置点的坐标信息，计算各位置点对应的语音功率值；

控制模块，用于识别语音功率值最大的位置点，将该位置点确定为声源位置，并控制自身对准所述声源位置。

可选地，所述计算模块，包括：

第一计算子模块，用于根据各麦克风采集的语音信号，计算各语音信号的傅里叶变换；

第二计算子模块，用于针对每个预设位置点，根据该预设位置点的坐标信息、以及各麦克风的坐标信息，计算该预设位置点到每两个相邻麦克风的时延差；

第三计算子模块，用于根据各语音信号的傅里叶变换，以及所述该预设位置点到每两个相邻麦克风的时延差，计算所述该预设位置点到每两个相邻麦克风的广义互相关；

第四计算子模块，用于根据该预设位置点到每两个相邻麦克风的广义互相关，计算该位置点对应的语音功率值。

可选地，所述第二计算子模块，具体用于根据以下公式，计算任一预设位置点m到任两个相邻麦克风k、l的时延差τ_mkl：

可选地，所述第三计算子模块，具体用于根据以下公式，计算所述任一预设位置点m到所述任两个相邻麦克风k、l的广义互相关R(τ_mkl)：

可选地，所述第四计算子模块，具体用于根据以下公式，计算所述任一预设位置点m对应的语音功率值P(m)：

其中，所述M为麦克风总数。

可选地，所述装置还包括：

确定模块，用于确定所述声源位置处的人体的身高；

第二计算模块，用于根据所述视频采集设备的坐标信息、所述视频采集设备的高度、所述声源位置的坐标信息、以及所述声源位置处的人体的身高，计算从自身到所述人体的目标距离；

调节模块，用于根据预先保存的各距离与焦距的对应关系，识别与所述目标距离对应的目标焦距，并调节自身的焦距为所述目标焦距。

可选地，所述确定模块，具体用于：

第三方面，本申请实施例提供了一种设备控制系统，所述系统包括：视频采集设备、以及设置于所述视频采集设备外部的麦克风；

所述视频采集设备，用于获取各麦克风采集的语音信号，并获取所述各麦克风的坐标信息，以及各预设位置点的坐标信息；根据所述各麦克风采集的语音信号、所述各麦克风的坐标信息、以及各预设位置点的坐标信息，计算各位置点对应的语音功率值；识别语音功率值最大的位置点，将该位置点确定为声源位置，并控制自身对准所述声源位置；

所述各麦克风，用于采集语音信号，并将其采集的语音信号发送给所述视频采集设备。

第四方面，本申请实施例还提供了一种视频采集设备，包括：

处理器、存储器、通信接口和总线；

所述处理器、所述存储器和所述通信接口通过所述总线连接并完成相互间的通信；

所述存储器存储可执行程序代码；

所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于在运行时执行本申请第一方面所述的一种设备控制方法。

第五方面，本申请提供了一种存储介质，其中，该存储介质用于存储可执行程序代码，所述可执行程序代码用于在运行时执行本申请第一方面所述的一种设备控制方法。

第六方面，本申请提供了一种应用程序，其中，该应用程序用于在运行时执行本申请第一方面所述的一种设备控制方法。

本申请实施例中，视频采集设备可以获取各麦克风采集的语音信号，并获取各麦克风的坐标信息，以及各预设位置点的坐标信息，然后根据各麦克风采集的语音信号、各麦克风的坐标信息、以及各预设位置点的坐标信息，计算各位置点对应的语音功率值，最后识别语音功率值最大的位置点，将该位置点确定为声源位置，并控制自身对准所述声源位置。本申请实施例中，将麦克风设置在视频采集设备外部，采集场景中的声音均能被麦克风采集到，因此，能够提高声源定位的准确性，从而提高设备控制的准确性。

附图说明

为了更清楚地说明本申请实施例和现有技术的技术方案，下面对实施例和现有技术中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种设备控制方法的流程图；

图2(a)为本申请实施例的一种教室中麦克风分布情况示意图；

图2(b)为本申请实施例的另一种教室中麦克风分布情况示意图；

图3为本申请实施例提供的一种设备控制方法的另一流程图；

图4为本申请实施例的一种三维坐标系示意图；

图5为本申请实施例提供的一种设备控制装置的结构示意图；

图6为本申请实施例提供的一种设备控制系统的结构示意图；

图7为本申请实施例提供的一种视频采集设备的结构示意图。

具体实施方式

为了提高声源定位的准确性，从而提高设备控制的准确性，本申请实施例提供了一种设备控制方法、装置及系统。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

本申请实施例提供了一种设备控制方法过程，如图1所示，该过程可以包括以下步骤：

S101，获取各麦克风采集的语音信号，并获取所述各麦克风的坐标信息，以及各预设位置点的坐标信息。

在本申请实施例中，为了提高声源定位的准确性，可以在需要进行声源定位的采集场景中，如教室、会议室等，安装视频采集设备，并在视频采集设备外部安装麦克风。其中，上述视频采集设备可以为球机、摄像机等，本申请实施例对此不进行限定。

具体地，可以安装多个麦克风，并且为了能够很好地接收教室、会议室等采集场景各个区域的语音信号，可以将多个麦克风安装在采集场景的各个区域中。例如，如图2(a)所示，其示出了本申请实施例的一种教室中麦克风分布情况示意图，图中为教室俯视图。如图2(a)所示，可以将视频采集设备210安装在讲台附近，将多个麦克风安装在教室四周的墙壁上。并且，每面墙壁上安装的麦克风可以等间距排列，或者，也可以根据教室中学生230的分布情况不等间距排列。

或者，如图2(b)所示，其示出了本申请实施例的另一种教室中麦克风分布情况示意图，图中为教室俯视图。如图2(b)所示，可以将视频采集设备210安装在讲台附近，将多个麦克风安装在教室屋顶。并且，屋顶的各麦克风可以等间距排列，或者，也可以根据教室中学生230的分布情况不等间距排列。

并且，还可以确定各麦克风以及各预设位置点的标识信息，如，各麦克风的标识信息可以为a、b、l、k等，各预设位置点的标识信息可以为1、2、3等。还可以在采集场景中构建平面坐标系，并根据构建的平面坐标系，确定各麦克风以及各预设位置点的坐标信息。上述各预设位置点即为讲话的人可能出现的各位置点。

例如，如图2(a)、2(b)所示，可以将沿教室某一墙壁与地面相交直线的方向确定为X轴，与该墙壁相邻的另一墙壁与地面相交直线的方向确定为Y轴，X轴与Y轴相交点为O点。确定X轴、Y轴后，即可确定各麦克风的坐标信息，如麦克风n的坐标信息可以为：(Xn、Yn)。并且，可以将各麦克风的坐标信息存储在视频采集设备中。视频采集设备中存储的各麦克风的坐标信息可以如表1所示：

表1

麦克风标识信息	坐标信息
n	(1.0、0.2)
k	(3.0、0.2)
l	(5.0、0.2)
t	(7.0、0.2)

在教室中，讲话的人可能为老师或学生，并且，教师通常在讲台上，学生通常在自己座位上。也就是说，讲话的人可能出现的各位置点即为讲台或各学生的座位。因此，当确定X轴、Y轴后，还可以确定讲台的坐标信息，以及各学生座位的坐标信息，如可以确定第i个预设位置点的坐标信息可以为：(Xi、Yi)。并且，可以将讲台的坐标信息，以及各学生座位的坐标信息作为各预设位置点的坐标信息存储在视频采集设备中。视频采集设备中存储的各预设位置点的坐标信息可以如表2所示：

表2

预设位置点标识信息	坐标信息
1	(4.0、7.8)
2	(2.0、6.2)

3	(4.0、6.2)
4	(6.0、6.2)

在本申请实施例中，麦克风采集的语音信号可以通过模拟电路传输给视频采集设备。因此，在本申请实施例中，视频采集设备可以获取各麦克风采集的语音信号。并且，为了进行声源定位，视频采集设备还可以获取各麦克风的坐标信息，以及各预设位置点的坐标信息。例如，视频采集设备可以从本地预定存储空间中获取各麦克风的坐标信息，以及各预设位置点的坐标信息。

S102，根据所述各麦克风采集的语音信号、所述各麦克风的坐标信息、以及各预设位置点的坐标信息，计算各位置点对应的语音功率值。

在本申请实施例中，获取到各麦克风采集的语音信号、各麦克风的坐标信息、以及各预设位置点的坐标信息后，视频采集设备可以根据各麦克风采集的语音信号、各麦克风的坐标信息、以及各预设位置点的坐标信息，计算各位置点对应的语音功率值，以确定声源所在的位置点。

各位置点对应的语音功率值，可以用来表征各位置点声音的大小。可以理解，语音功率值最大的位置点，也就是声音最大的位置点，即为声源位置点。具体地，视频采集设备可以分别针对每个预设位置点，计算该位置点对应的语音功率值。

例如，视频采集设备可以根据各麦克风采集的语音信号，计算各语音信号的傅里叶变换。具体地，视频采集设备可以根据现有的方式，计算各语音信号的傅里叶变换，本申请实施例对此不进行赘述。

针对任一预设位置点，视频采集设备可以首先根据该预设位置点的坐标信息、以及各麦克风的坐标信息，计算该预设位置点到每两个相邻麦克风的时延差。具体地，可以根据以下公式，计算任一预设位置点m到任两个相邻麦克风k、l的时延差τ_mkl：

其中，D_mk为预设位置点m到麦克风k的距离，D_ml为预设位置点m到麦克风l的距离，c为声速，c＝340m/s。

当预设位置点m的坐标信息为(Xm、Ym)，麦克风k的坐标信息为(Xk、Yk)，麦克风l的坐标信息为(Xl、Yl)时，D_mk、D_ml分别为：

然后，视频采集设备可以根据各语音信号的傅里叶变换，以及该预设位置点到每两个相邻麦克风的时延差，计算该预设位置点到每两个相邻麦克风的广义互相关。

具体地，视频采集设备可以根据以下公式，计算预设位置点m到相邻麦克风k、l的广义互相关R(τ_mkl)：

其中，M_k(w)为麦克风k接收的语音信号的傅里叶变换；

为麦克风l接收的语音信号的傅里叶变换的共轭；w为语音信号频率；φ_kl(w)通过以下公式确定：

最后，视频采集设备可以根据该预设位置点到每两个相邻麦克风的广义互相关，计算该位置点对应的语音功率值。具体地，视频采集设备可以根据以下公式，计算预设位置点m对应的语音功率值P(m)：

其中，M为麦克风总数。

S103，识别语音功率值最大的位置点，将该位置点确定为声源位置，并控制自身对准所述声源位置。

当视频采集设备计算得到每个预设位置点对应的语音功率值后，其可以识别语音功率值最大的位置点，并将该位置点确定为声源位置。

声源位置即为正在讲话的人所在位置，与其他位置相比，该位置的声音应该是最大的，因此该位置对应的语音功率值也应该是最大的。因此，在本申请实施例中，可以将语音功率值最大的位置点确定为声源位置。

确定声源位置后，视频采集设备即可控制自身对准该声源位置，以对正在讲话的人进行视频录制。例如，视频采集设备可以控制其镜头方向，使其对准声源位置。视频采集设备控制其镜头方向，使其对准声源位置的过程，可以采用现有的任一种方法，本申请实施例对此过程不进行赘述。

本申请实施例提供了一种设备控制方法，视频采集设备可以获取各麦克风采集的语音信号，并获取各麦克风的坐标信息，以及各预设位置点的坐标信息，然后根据各麦克风采集的语音信号、各麦克风的坐标信息、以及各预设位置点的坐标信息，计算各位置点对应的语音功率值，最后识别语音功率值最大的位置点，将该位置点确定为声源位置，并控制自身对准所述声源位置。本申请实施例中，将麦克风设置在视频采集设备外部，采集场景中的声音均能被麦克风采集到，因此，能够提高声源定位的准确性，从而提高设备控制的准确性。

视频采集设备在视频录制过程中，针对不同距离的目标物体，其通常需要调节焦距，以达到更好的录制效果。例如，当录制距离较近的目标物体时，可以使用较小的焦距，以使录制图像中包括整个目标物体；当录制距离较远的目标物体时，可以使用较大的焦距，以放大目标物体，保证录制图像中目标物体的清晰度。

作为本申请实施例的一种实施方式，视频采集设备控制自身对准声源位置后，针对不同的声源位置，视频采集设备还可以调节其焦距，以达到更好的录制效果。如图3所示，本申请实施例提供的设备控制方法，还可以包括：

S301，确定所述声源位置处的人体的身高。

在本申请实施例中，视频采集设备确定的声源位置仅能确定声源位置的二维坐标。为了准确地确定视频采集设备与声源位置处的人体的精确距离，视频采集设备控制自身对准声源位置后，还可以确定声源位置处的人体的身高。

在一种实现方式中，视频采集设备可以预先保存人体平均身高，如1.68米、1.70米、1.72米等。在确定声源位置处的人体的身高时，获取预先保存的人体平均身高，并将所获取的人体平均身高确定为声源位置处的人体的身高。

在另一种实现方式中，为了提高确定的人体身高的准确性，视频采集设备可以采集包含声源位置处的人体的图像，对该图像进行分析，得到声源位置处的人体的身高。视频采集设备采集图像的过程，以及对图像进行分析的过程，可以采用现有的任一种方法，本申请实施例对此过程不进行赘述。

S302，根据自身的坐标信息、自身的高度、所述声源位置的坐标信息、以及所述声源位置处的人体的身高，计算从自身到所述人体的目标距离。

视频采集设备确定声源位置处人体的身高后，其可以进一步地根据自身的坐标信息、自身的高度、声源位置的坐标信息、以及声源位置处的人体的身高，计算从自身到该人体的目标距离。

具体地，视频采集设备可以根据自身的坐标信息、自身的高度，确定自身的三维坐标，根据声源位置的坐标信息、以及声源位置处的人体的身高，确定人体的三维坐标，进而可以根据自身的三维坐标，以及人体的三维坐标，确定从自身到人体的距离。

例如，如图4所示的三维坐标系，当视频采集设备的三维坐标为(X₀，Y₀，Z₀)，人体的三维坐标为(X₁，Y₁，Z₁)时，可以确定从视频采集设备到人体头部的目标距离l为：

S303，根据预先保存的各距离与焦距的对应关系，识别与所述目标距离对应的目标焦距，并调节自身的焦距为所述目标焦距。

在本申请实施例中，视频采集设备可以预先保存各距离与焦距的对应关系。例如，可以由用户根据经验值，确定各距离与焦距的对应关系，并保存在视频采集设备中。如，视频采集设备中保存的各距离与焦距的对应关系可以如表3所示：

表3

距离	焦距
1米	a1
2米	a2
3米	a3
4米	a4

当视频采集设备确定从自身到人体的目标距离后，其可以根据预先保存的各距离与焦距的对应关系，识别与目标距离对应的目标焦距，并调节自身的焦距为该目标焦距。

例如，视频采集设备可以在其保存的各距离与焦距的对应关系中，识别与目标距离相同的距离，并将该距离对应的焦距确定为与目标距离对应的目标焦距。视频采集设备调节焦距的过程，可以采用现有的任一种方法，本申请实施例对此过程不进行赘述。

有些情况下，视频采集设备计算得到的目标距离可能为小数，在其保存的各距离与焦距的对应关系中，识别不到与目标距离相同的距离。这种情况下，视频采集设备可以在其保存的各距离与焦距的对应关系中，识别与目标距离整数部分对应的距离，并将该距离对应的焦距确定为与目标距离对应的目标焦距。

本申请实施例中，视频采集设备可以根据其与声源位置处人体的实际距离，来调节其焦距，因此，能够提高视频录制效果。

相应于上面的方法实施例，本申请实施例还提供了相应的装置实施例。

图5为本申请实施例提供的一种设备控制装置，应用于声源定位系统中的视频采集设备，所述声源定位系统还包括设置于所述视频采集设备外部的麦克风，所述装置包括：

获取模块510，用于获取各麦克风采集的语音信号，并获取所述各麦克风的坐标信息，以及各预设位置点的坐标信息；

第一计算模块520，用于根据所述各麦克风采集的语音信号、所述各麦克风的坐标信息、以及各预设位置点的坐标信息，计算各位置点对应的语音功率值；

控制模块530，用于识别语音功率值最大的位置点，将该位置点确定为声源位置，并控制自身对准所述声源位置。

本申请实施例提供了一种设备控制装置，视频采集设备可以获取各麦克风采集的语音信号，并获取各麦克风的坐标信息，以及各预设位置点的坐标信息，然后根据各麦克风采集的语音信号、各麦克风的坐标信息、以及各预设位置点的坐标信息，计算各位置点对应的语音功率值，最后识别语音功率值最大的位置点，将该位置点确定为声源位置，并控制自身对准所述声源位置。本申请实施例中，将麦克风设置在视频采集设备外部，采集场景中的声音均能被麦克风采集到，因此，能够提高声源定位的准确性，从而提高设备控制的准确性。

作为本申请实施例的一种实施方式，所述第一计算模块520，包括：

第一计算子模块(图中未示出)，用于根据各麦克风采集的语音信号，计算各语音信号的傅里叶变换；

第二计算子模块(图中未示出)，用于针对每个预设位置点，根据该预设位置点的坐标信息、以及各麦克风的坐标信息，计算该预设位置点到每两个相邻麦克风的时延差；

第三计算子模块(图中未示出)，用于根据各语音信号的傅里叶变换，以及所述该预设位置点到每两个相邻麦克风的时延差，计算所述该预设位置点到每两个相邻麦克风的广义互相关；

第四计算子模块(图中未示出)，用于根据该预设位置点到每两个相邻麦克风的广义互相关，计算该位置点对应的语音功率值。

作为本申请实施例的一种实施方式，所述第二计算子模块，具体用于根据以下公式，计算任一预设位置点m到任两个相邻麦克风k、l的时延差τ_mkl：

作为本申请实施例的一种实施方式，所述第三计算子模块，具体用于根据以下公式，计算所述任一预设位置点m到所述任两个相邻麦克风k、l的广义互相关R(τ_mkl)：

作为本申请实施例的一种实施方式，所述第四计算子模块，具体用于根据以下公式，计算所述任一预设位置点m对应的语音功率值P(m)：

其中，所述M为麦克风总数。

作为本申请实施例的一种实施方式，所述装置还包括：

确定模块(图中未示出)，用于确定所述声源位置处的人体的身高；

第二计算模块(图中未示出)，用于根据所述视频采集设备的坐标信息、所述视频采集设备的高度、所述声源位置的坐标信息、以及所述声源位置处的人体的身高，计算从自身到所述人体的目标距离；

调节模块(图中未示出)，用于根据预先保存的各距离与焦距的对应关系，识别与所述目标距离对应的目标焦距，并调节自身的焦距为所述目标焦距。

作为本申请实施例的一种实施方式，所述确定模块，具体用于：

如图6所示，本申请实施例还提供了一种设备控制系统，所述系统包括：视频采集设备610、以及设置于所述视频采集设备610外部的麦克风620；

所述视频采集设备610，用于获取各麦克风620采集的语音信号，并获取所述各麦克风620的坐标信息，以及各预设位置点的坐标信息；根据所述各麦克风620采集的语音信号、所述各麦克风620的坐标信息、以及各预设位置点的坐标信息，计算各位置点对应的语音功率值；识别语音功率值最大的位置点，将该位置点确定为声源位置，并控制自身对准所述声源位置；

所述各麦克风620，用于采集语音信号，并将其采集的语音信号发送给所述视频采集设备610。

本申请实施例提供了一种设备控制系统，视频采集设备可以获取各麦克风采集的语音信号，并获取各麦克风的坐标信息，以及各预设位置点的坐标信息，然后根据各麦克风采集的语音信号、各麦克风的坐标信息、以及各预设位置点的坐标信息，计算各位置点对应的语音功率值，最后识别语音功率值最大的位置点，将该位置点确定为声源位置，并控制自身对准所述声源位置。本申请实施例中，将麦克风设置在视频采集设备外部，采集场景中的声音均能被麦克风采集到，因此，能够提高声源定位的准确性，从而提高设备控制的准确性。

相应地，如图7所示，本申请实施例还提供了一种视频采集设备，可以包括：

处理器710、存储器720、通信接口730和总线740；

所述处理器710、所述存储器720和所述通信接口730通过所述总线740连接并完成相互间的通信；

所述存储器720存储可执行程序代码；

所述处理器710通过读取所述存储器720中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于在运行时执行本申请实施例所述的一种设备控制方法，其中，所述方法包括：

相应地，本申请实施例还提供了一种存储介质，其中，该存储介质用于存储可执行程序代码，所述可执行程序代码用于在运行时执行本申请实施例所述的一种设备控制方法，其中，所述设备控制方法应用于声源定位系统中的视频采集设备，所述声源定位系统还包括设置于所述视频采集设备外部的麦克风，所述方法包括：

相应地，本申请实施例还提供了一种应用程序，其中，该应用程序用于在运行时执行本申请实施例所述的一种设备控制方法，其中，所述设备控制方法应用于声源定位系统中的视频采集设备，所述声源定位系统还包括设置于所述视频采集设备外部的麦克风，所述方法包括：

对于装置/系统/设备/存储介质/应用程序实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述方法实施方式中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于计算机可读取存储介质中，这里所称得的存储介质，如：ROM/RAM、磁碟、光盘等。

以上所述仅为本申请的较佳实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本申请的保护范围内。

Claims

一种设备控制方法，其特征在于，应用于声源定位系统中的视频采集设备，所述声源定位系统还包括设置于所述视频采集设备外部的麦克风，所述方法包括：

获取各麦克风采集的语音信号，并获取所述各麦克风的坐标信息，以及各预设位置点的坐标信息；

根据所述各麦克风采集的语音信号、所述各麦克风的坐标信息、以及各预设位置点的坐标信息，计算各位置点对应的语音功率值；

识别语音功率值最大的位置点，将该位置点确定为声源位置，并控制自身对准所述声源位置。
根据权利要求1所述的方法，其特征在于，所述根据所述各麦克风采集的语音信号、所述各麦克风的坐标信息、以及各预设位置点的坐标信息，计算各位置点对应的语音功率值的步骤包括：

根据各麦克风采集的语音信号，计算各语音信号的傅里叶变换；

针对每个预设位置点，根据该预设位置点的坐标信息、以及各麦克风的坐标信息，计算该预设位置点到每两个相邻麦克风的时延差；

根据各语音信号的傅里叶变换，以及所述该预设位置点到每两个相邻麦克风的时延差，计算所述该预设位置点到每两个相邻麦克风的广义互相关；

根据该预设位置点到每两个相邻麦克风的广义互相关，计算该位置点对应的语音功率值。
根据权利要求2所述的方法，其特征在于，所述针对每个预设位置点，根据该预设位置点的坐标信息、以及各麦克风的坐标信息，计算该预设位置点到每两个相邻麦克风的时延差的步骤包括：

根据以下公式，计算任一预设位置点m到任两个相邻麦克风k、l的时延差τ_mkl：

其中，所述D_mk为所述预设位置点m到麦克风k的距离，所述D_ml为所述预设位置点m到麦克风l的距离，所述c为声速。
根据权利要求3所述的方法，其特征在于，所述根据所述各语音信号的傅里叶变换，以及所述该预设位置点到每两个相邻麦克风的时延差，计算所述该预设位置点到每两个相邻麦克风的广义互相关的步骤包括：

根据以下公式，计算所述任一预设位置点m到所述任两个相邻麦克风k、l的广义互相关R(τ_mkl)：

其中，所述M_k(w)为所述麦克风k接收的语音信号的傅里叶变换；所述
为所述麦克风l接收的语音信号的傅里叶变换的共轭；所述w为语音信号频率；所述φ_kl(w)通过以下公式确定：
根据权利要求4所述的方法，其特征在于，所述根据该预设位置点到每两个相邻麦克风的广义互相关，计算该位置点对应的语音功率值的步骤包括：

根据以下公式，计算所述任一预设位置点m对应的语音功率值P(m)：

其中，所述M为麦克风总数。
根据权利要求1-5任一项所述的方法，其特征在于，所述方法还包括：

确定所述声源位置处的人体的身高；

根据自身的坐标信息、自身的高度、所述声源位置的坐标信息、以及所述声源位置处的人体的身高，计算从自身到所述人体的目标距离；

根据预先保存的各距离与焦距的对应关系，识别与所述目标距离对应的目标焦距，并调节自身的焦距为所述目标焦距。
根据权利要求6所述的方法，其特征在于，所述确定所述声源位置处的人体的身高的步骤包括：

获取预先保存的人体平均身高，并将所获取的人体平均身高确定为所述声源位置处的人体的身高；或

采集包含所述声源位置处的人体的图像，对所述图像进行分析，得到所述声源位置处的人体的身高。
一种设备控制装置，其特征在于，应用于声源定位系统中的视频采集设备，所述声源定位系统还包括设置于所述视频采集设备外部的麦克风，所述装置包括：

获取模块，用于获取各麦克风采集的语音信号，并获取所述各麦克风的坐标信息，以及各预设位置点的坐标信息；

第一计算模块，用于根据所述各麦克风采集的语音信号、所述各麦克风的坐标信息、以及各预设位置点的坐标信息，计算各位置点对应的语音功率值；

控制模块，用于识别语音功率值最大的位置点，将该位置点确定为声源位置，并控制自身对准所述声源位置。
根据权利要求8所述的装置，其特征在于，所述计算模块，包括：

第一计算子模块，用于根据各麦克风采集的语音信号，计算各语音信号的傅里叶变换；

第二计算子模块，用于针对每个预设位置点，根据该预设位置点的坐标信息、以及各麦克风的坐标信息，计算该预设位置点到每两个相邻麦克风的时延差；

第三计算子模块，用于根据各语音信号的傅里叶变换，以及所述该预设位置点到每两个相邻麦克风的时延差，计算所述该预设位置点到每两个相邻麦克风的广义互相关；

第四计算子模块，用于根据该预设位置点到每两个相邻麦克风的广义互相关，计算该位置点对应的语音功率值。
根据权利要求9所述的装置，其特征在于，所述第二计算子模块，具体用于根据以下公式，计算任一预设位置点m到任两个相邻麦克风k、l的时延差τ_mkl：

其中，所述D_mk为所述预设位置点m到麦克风k的距离，所述D_ml为所述预设位置点m到麦克风l的距离，所述c为声速。
根据权利要求10所述的装置，其特征在于，所述第三计算子模块，具体用于根据以下公式，计算所述任一预设位置点m到所述任两个相邻麦克风k、l的广义互相关R(τ_mkl)：

其中，所述M_k(w)为所述麦克风k接收的语音信号的傅里叶变换；所述
为所述麦克风l接收的语音信号的傅里叶变换的共轭；所述w为语音信号频率；所述φ_kl(w)通过以下公式确定：
根据权利要求11所述的装置，其特征在于，所述第四计算子模块，具体用于根据以下公式，计算所述任一预设位置点m对应的语音功率值P(m)：

其中，所述M为麦克风总数。
根据权利要求8-12任一项所述的装置，其特征在于，所述装置还包括：

确定模块，用于确定所述声源位置处的人体的身高；

第二计算模块，用于根据所述视频采集设备的坐标信息、所述视频采集设备的高度、所述声源位置的坐标信息、以及所述声源位置处的人体的身高，计算从自身到所述人体的目标距离；

调节模块，用于根据预先保存的各距离与焦距的对应关系，识别与所述目标距离对应的目标焦距，并调节自身的焦距为所述目标焦距。
根据权利要求13所述的装置，其特征在于，所述确定模块，具体用于：

获取预先保存的人体平均身高，并将所获取的人体平均身高确定为所述声源位置处的人体的身高；或

采集包含所述声源位置处的人体的图像，对所述图像进行分析，得到所述声源位置处的人体的身高。
一种设备控制系统，其特征在于，所述系统包括：视频采集设备、以及设置于所述视频采集设备外部的麦克风；

所述视频采集设备，用于获取各麦克风采集的语音信号，并获取所述各麦克风的坐标信息，以及各预设位置点的坐标信息；根据所述各麦克风采集的语音信号、所述各麦克风的坐标信息、以及各预设位置点的坐标信息，计算各位置点对应的语音功率值；识别语音功率值最大的位置点，将该位置点确定为声源位置，并控制自身对准所述声源位置；

所述各麦克风，用于采集语音信号，并将其采集的语音信号发送给所述视频采集设备。
一种视频采集设备，其特征在于，包括：

处理器、存储器、通信接口和总线；

所述处理器、所述存储器和所述通信接口通过所述总线连接并完成相互间的通信；

所述存储器存储可执行程序代码；

所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于执行如权利要求1-7任一项所述的一种设备控制方法。
一种存储介质，其特征在于，所述存储介质用于存储可执行程序代码，所述可执行程序代码用于在运行时执行如权利要求1-7任一项所述的一种设备控制方法。
一种应用程序，其特征在于，所述应用程序用于在运行时执行如权利要求1-7任一项所述的一种设备控制方法。