WO2015042897A1

WO2015042897A1 - 一种控制方法、控制装置及控制设备

Info

Publication number: WO2015042897A1
Application number: PCT/CN2013/084558
Authority: WO
Inventors: 陈军; 黄强; 黄志宏
Original assignee: 中兴通讯股份有限公司
Priority date: 2013-09-29
Filing date: 2013-09-29
Publication date: 2015-04-02
Also published as: EP2882180A1; US9591229B2; US20160286133A1; EP2882180A4

Abstract

一种控制方法、控制装置及控制设备。所述控制方法包括：获取包含目标声音源的声音信息的音频数据；根据所述音频数据确定所述目标声音源的位置范围信息；根据所述位置范围信息控制当前无法拍摄到所述目标声音源的拍摄设备的转动，使得所述拍摄设备能够拍摄到所述目标声音源。本发明实施例支持拍摄设备能够拍摄到处于原屏幕范围外的目标声音源。

Description

一种控制方法、控制装置及控制设备

技术领域

本发明实施例涉及图像跟踪领域，尤其涉及一种控制方法、控制装置及控制设备。

背景技术

视频通信过程中，需要将摄像头对准演讲者。现有的解决方案是使用图像识别技术识别出人脸，然后遥控摄像头对准人脸位置，但此方案无法跟踪超出屏幕范围外的演讲者或者处于屏幕范围外的另一演讲者。发明内容

有鉴于此，本发明实施例的目的是提供一种控制方法、控制装置及控制设备，以支持拍摄设备能够拍摄到处于原屏幕范围外的目标声音源。

为解决上述技术问题，本发明实施例提供方案如下：

本发明实施例提供一种控制方法，所述控制方法包括：

获取包含目标声音源的声音信息的音频数据；

根据所述音频数据确定所述目标声音源的位置范围信息；

根据所述位置范围信息控制当前无法拍摄到所述目标声音源的拍摄设备的转动 , 使得所述拍摄设备能够拍摄到所述目标声音源。

优选的，所述位置范围信息为所述目标声音源相对于所述拍摄设备的方向信息，所述居所述位置范围信息控制当前无法拍摄到所述目标声音源的拍摄设备的转动为：

确定所述方向信息对应的所述拍摄设备的转动控制参数；

根据所述转动控制参数控制所述拍摄设备的转动。

优选的，所述音频数据由一声音釆集设备釆集到，所述根据所述音频数据确定所述目标声音源的位置范围信息为：

根据所述音频数据确定所述目标声音源相对于所述声音釆集设备的方位信息；

才艮据所述方位信息确定所述方向信息。

优选的，所述居所述方位信息确定所述方向信息为：

根据所述方位信息，以及所述方位信息与所述方向信息的预设对应关系确定所述方向信息。

优选的，所述声音釆集设备用于确定所述方位信息的一预设平面和所述预设平面上的一预设参考点，所述拍摄设备在所述预设平面上对应一第一对应点，所述目标声音源在所述预设平面上对应一第二对应点，

所述方位信息为所述第二对应点相对于所述预设参考点的位置坐标，所述方向信息为所述第二对应点相对于所述第一对应点的方向信息表征坐标，所述对应关系为以所述预设平面上的发声对应点相对于所述预设参考点的位置坐标为自变量、以所述第一对应点相对于所述预设参考点的位置坐标为参数、以所述发声对应点相对于所述第一对应点的方向信息表征坐标为变量的平面几何函数。

优选的，所述第一对应点相对于所述预设参考点的位置坐标为属于所述预设平面的以所述预设参考点为第一原点的直角坐标上的坐标（al , a2 ) , 所述发声对应点相对于所述预设参考点的位置坐标为所述直角坐标上的坐标 ( X , y ) , y大于 a2 , 所述方向信息表征坐标为属于所述预设平面的以所述第一对应点为第二原点的极坐标上的角度坐标 b ,

当 a2为 0时，所述极坐标的极轴与所述直角坐标的 X轴的方向相同；当 a2不为 0时，所述极坐标的极轴与所述直角坐标的 X轴平行且方向相同，所述平面几何函数为 b=arctan((y- a2)/(x- al)),其中， x不等于 al ;或者，所述平面几何函数为：当 X不等于 al时， b=arctan((y- a2)/(x- al)); 当 x 等于 al时， b=90度。

优选的，所述参数为根据通过学习训练方式得到的至少一个训练声音源在所述预设平面上对应的训练点相对于所述预设参考点的位置坐标和相对于所述第一对应点的方向信息表征坐标所确定。

本发明实施例提供一种控制装置，所述控制装置包括：

获取模块，设置为：获取包含目标声音源的声音信息的音频数据；确定模块，设置为：根据所述音频数据确定所述目标声音源的位置范围信息；

控制模块，设置为：根据所述位置范围信息控制当前无法拍摄到所述目标声音源的拍摄设备的转动，使得所述拍摄设备能够拍摄到所述目标声音源。

优选的，所述位置范围信息为所述目标声音源相对于所述拍摄设备的方向信息，所述控制模块包括：

第一确定单元，设置为：确定所述方向信息对应的所述拍摄设备的转动控制参数；

控制单元，设置为：根据所述转动控制参数控制所述拍摄设备的转动，使得所述拍摄设备能够拍摄到所述目标声音源。

优选的，所述音频数据由一声音釆集设备釆集到，所述确定模块包括：第二确定单元，设置为：根据所述音频数据确定所述目标声音源相对于所述声音釆集设备的方位信息；

第三确定单元，设置为：根据所述方位信息确定所述方向信息。

优选的，所述第三确定单元包括：

确定子单元，设置为：根据所述方位信息，以及所述方位信息与所述方向信息的预设对应关系确定所述方向信息。

本发明实施例提供一种包括以上所述的控制装置的控制设备。

从以上所述可以看出，本发明实施例提供的控制方法、控制装置及控制设备至少包括如下技术效果：

通过获取包含目标声音源的声音信息的音频数据，据此确定目标声音源的位置范围信息，并根据该位置范围信息控制当前无法拍摄到目标声音源的拍摄设备的转动，使得拍摄设备能够拍摄到目标声音源，从而支持拍摄设备能够拍摄到处于原屏幕范围外的目标声音源。附图概述

图 1为本发明实施例提供的一种控制方法的流程图；

图 2为本发明实施例提供的一种控制方法的较佳实施例一的阵列麦克与声音源的位置坐标图；

图 3为本发明实施例提供的一种控制方法的较佳实施例二的阵列麦克放置在摄像头正前方的位置示意图

图 4为本发明实施例提供的一种控制方法的较佳实施例二的阵列麦克与声音源的位置坐标图；

图 5为本发明实施例提供的一种控制方法的较佳实施例二的训练示意图; 图 6为本发明实施例提供的一种控制方法的较佳实施例三的示意图。本发明的较佳实施方式

下面将结合附图及具体实施例对本发明实施例进行详细描述。

图 1为本发明实施例提供的一种控制方法的流程图，参照图 1 , 本发明实施例提供一种控制方法，所述控制方法包括如下步骤：

步骤 101 , 获取包含目标声音源的声音信息的音频数据；

步骤 102, 根据所述音频数据确定所述目标声音源的位置范围信息；步骤 103 , 根据所述位置范围信息控制当前无法拍摄到所述目标声音源的拍摄设备的转动，使得所述拍摄设备能够拍摄到所述目标声音源。

可见，通过获取包含目标声音源的声音信息的音频数据，据此确定目标声音源的位置范围信息，并根据该位置范围信息控制当前无法拍摄到目标声音源的拍摄设备的转动，使得拍摄设备能够拍摄到目标声音源，从而支持拍摄设备能够拍摄到处于原屏幕范围外的目标声音源。

显然，所述目标声音源应处于所述拍摄设备通过转动可以达到的全部可拍摄范围内。

所述目标声音源可以为说话的人，也可以为发声设备。

所述拍摄设备可以为相机或摄像头。

具体地，例如：所述声音信息中可以包含预设的表示所述位置范围信息的关键字内容，则通过语音识别技术就可以根据所述音频数据确定所述位置范围信息。

或者，例如：所述位置范围信息可以为所述目标声音源相对于所述拍摄设备的方向信息，所述根据所述位置范围信息控制当前无法拍摄到所述目标声音源的拍摄设备的转动具体可以为：

确定所述方向信息对应的所述拍摄设备的转动控制参数；

根据所述转动控制参数控制所述拍摄设备的转动。

其中，所述转动控制参数，例如：所述拍摄设备在若干可调整角度中的某一角度的标识，摄像头的云台控制器的旋转角度，摄像头的光轴的方向参数，等等。

具体地，所述音频数据可以由一声音釆集设备釆集到，所述根据所述音频数据确定所述目标声音源的位置范围信息具体可以为：

才艮据所述方位信息确定所述方向信息。

其中，所述声音釆集设备例如，阵列麦克。

所述方位信息可以为方向或位置信息。

进一步地，所述根据所述方位信息确定所述方向信息具体可以为：根据所述方位信息，以及所述方位信息与所述方向信息的预设对应关系确定所述方向信息。

具体地，例如，通过足够多个点的训练来得到足够多的方位信息和方向信息的组合，并通过对这些组合进行拟合而得到所述对应关系。例如，以 0.1m 为分布粒度来放置或移动训练声音源。

又例如，按照特定位置关系放置所述拍摄设备和所述声音釆集设备，使得所述目标发声源处于任一位置时所述方位信息与所述方向信息所表示的方向对应一致；基于该特定位置关系确定所述对应关系。比如，可以将所述拍摄设备和所述声音釆集设备放置在一起，或者，所述声音釆集设备水平放置时，所述拍摄设备放置在所述声音釆集设备的正上方。下面的较佳实施例一中就釆用了放置在一起的方式。

需要说明的是，考虑到实际中所述拍摄设备在放置位置上的限制，所述拍摄设备放置位置可以允许一定的偏离，由于所述拍摄设备在同一时刻能够拍摄到的是一个较宽的范围，只要该偏离能使所述拍摄设备能够拍摄到所述方位信息所表示的方向即可，这可以在工程实践中实地操作实现，在此不再赘述。

又例如，所述声音釆集设备用于确定所述方位信息的一预设平面和所述预设平面上的一预设参考点，所述拍摄设备在所述预设平面上对应一第一对应点，所述目标声音源在所述预设平面上对应一第二对应点，

所述方位信息为所述第二对应点相对于所述预设参考点的位置坐标，所述方向信息为所述第二对应点相对于所述第一对应点的方向信息表征值，所述对应关系为以所述预设平面上的发声对应点相对于所述预设参考点的位置坐标为自变量、以所述第一对应点相对于所述预设参考点的位置坐标为参数、以所述发声对应点相对于所述第一对应点的方向信息表征值为变量的平面几何函数。

其中，所述第一对应点，比如，所述拍摄设备的光心或者所述拍摄设备的光心在所述预设平面的投影。

所述第二对应点，比如，所述目标声音源在所述预设平面的某一点或者所述目标声音源不在所述预设平面的某一点在所述预设平面的投影。

所述发声对应点，比如，声音源在所述预设平面的发声参考点或者声音源不在所述预设平面的发声参考点在所述预设平面的投影。其中，发声参考点可以为人的喉咙的某点或声音源的声音输出单元的某点。

所述方向信息表征值，比如，以所述第二对应点为原点，所述预设平面上以该原点为中心有一轴坐标系时，所述发声对应点在该轴坐标系的角度坐标值。

所述声音釆集设备所对应的预设平面和预设参考点与所述声音釆集设备具体釆用哪种设备有关，比如平面阵列麦克所釆用的定位平面和定位参考点。

需要说明的是，在实际应用中，声音源的位置可以在所述预设平面内，也可以在所述预设平面的某一侧，且由于其它因素的影响，所得到的方位信息可能有很小的误差，但是，由于拍摄设备在同一时刻所能拍摄到的是一个较宽的范围，由此，这种误差并不影响本发明实施例所要解决的技术问题的解决。

这里给出所述平面几何函数的具体例子：所述第一对应点相对于所述预设参考点的位置坐标为属于所述预设平面的以所述预设参考点为第一原点的直角坐标上的坐标（al , a2 ) , 所述发声对应点相对于所述预设参考点的位置坐标为所述直角坐标上的坐标（X, y ) , y大于 a2 , 所述方向信息表征坐标为属于所述预设平面的以所述第一对应点为第二原点的极坐标上的角度坐标 b,

所述参数可以通过工程实施过程中的实地测算得到；或者，所述参数可以为根据通过学习训练方式得到的至少一个训练声音源在所述预设平面上对应的训练点相对于所述预设参考点的位置坐标和相对于所述第一对应点的方向信息表征值所确定。

所述学习训练方式例如：

确定一第一声音源在所述预设平面上对应的第一训练点相对于所述预设参考点的第一位置坐标和相对于所述第一对应点的第一方向信息表征值；根据所述第一位置坐标和所述第一方向信息表征值得到所述参数；其中，所述第一训练点、所述第一对应点和所述预设参考点不共线。下面的较佳实施例二中的学习训练方式就是釆用了这种学习训练方式。所述学习训练方式又例如：

确定一第二声音源在所述预设平面上对应的第二训练点相对于所述预设参考点的第二位置坐标和相对于所述第一对应点的第二方向信息表征值；确定一第三声音源在所述预设平面上对应的第三训练点相对于所述预设参考点的第三位置坐标和相对于所述第一对应点的第三方向信息表征值；根据所述第二位置坐标、所述第二方向信息表征值、所述第三位置坐标、所述第三方向信息表征值得到所述参数；

其中，所述第二训练点、所述第三训练点和所述第一对应点不共线。下面的较佳实施例三中的学习训练方式就是釆用了这种学习训练方式。为了对上述控制方法进一步阐述明白，以下给出所述控制方法的三个较佳实施例：

较佳实施例一：

图 2为本发明实施例提供的一种控制方法的较佳实施例一的阵列麦克与声音源的位置坐标图，参照图 2, 阵列麦克有多种物理形态，本较佳实施例为一线性阵列麦克，上面包含至少 3个咪头。同时，摄像头与阵列麦克放置在一起。本较佳实施例的步骤如下：

步骤 201 , 使用阵列麦克的多个咪头分别接收到音频数据，滤除背景噪声后发给处理中心，或发给处理中心后滤除噪声。

步骤 202. 处理中心根据频率将多路音频数据中的人声部分提取分离，然后根据多路音频数据中人声部分的相位差计算出多个咪头收到的人声时间差。

步骤 203 , 根据多个咪头收到的时间差乘以音速可以计算出距离差，再根据三个咪头之间的距离差可以计算出声音的方位。

具体地，阵列麦克咪头直接距离为已知距离，我们设定为 R, 我们标注咪头 2为坐标原点，咪头 1坐标为 (-R,0), 咪头 3坐标为 (R,0), 我们需要计算得到的声音源坐标为 (x,y);

我们标注声音源到达咪头 1、咪头 2、咪头 3的距离分别为 Ll、 L2、 L3 , 实际我们上一步测得的时间差乘以音速，为 Ll、 L2、 L3之间的差值，也就是说 L1-L3 L2-L3的值已知，我们标注已知的 L1-L3为 D13 , L2-L3为 D23;

根据勾股定理得出：

LI = ^(x + R)² + y² = -jx² + y² + R² + 2xR

L2 =」x² + y²

L3 = l(x - R)² + y² = -]x² + y² + R² - 2xR = L\ = L3 = jx² + y¹ + R² + 2xR - ^x² + y² + R² - 2xR

= jlx² + 2y² + 2R²― 2-yJx⁴ + y⁴ + R⁴ + 2x²y² + 2x²R² + 2y²R² - 4x²R

平方后得: D\3² = 2x² + 2y² + 2R²― 2^⁴ + y⁴ + R⁴ + 2x²y² - 2x²R² + 2y²R²

x⁴ +y⁴ + R⁴ + 2x²y²― 2x²R² + 2y²R²

= x² + 2y² + R² -0.5*Ο\3²

平方后得：

x⁴+y⁴+R⁴+ 2x²y² - 2x²R² + 2y²R² = x⁴ + + (R² -0.5 * D\3² + 2x²y²

+ 2x²(R² -0.5*D13²)+2 (R² -0.5*D13²)

展开后得：

x⁴+y⁴+R⁴ + 2x²y² - 2x²R² + 2y²R² = x⁴ + y⁴ + R⁴ -R²D\3² + 0.25 13⁴ + 2x²y² + 2x²R² -x²D\3² +2y²R² -y²D\3²

左右消除后得：

y²D\ 3² = -R²D\ 3² + 0.25D13⁴ + x²R² - x²D\ 3²

在本较佳实施例的实际应用场景中，声音源永远来自前方，此时负号可以省略，变为：

4R

y = jc + 0.25*7)13 -R 公式 A

7)13 同时，我们还需要满足：

D23 = L2-L3 = Χ² +y² -」x² + y² + R² - 2xR

即：

D23 = Χ² +y² -■Jx² + y² +R² - 2xR 公式 B

使用软件程序可以轻松得出同时满足公式 A与公式 B的 x,y, 具体为：根据 D13的正负判断 X的正负，再以 X为循环变量，循环使用公式 A得到 y, 再使用该 x,y代入公式 B直到公式 B成立，此时得到的 x,y即为声音源位置。声音源的角度则为 tan- ^。步骤 204, 根据上一步计算得到的声音方位，控制摄像头转动对准该方步骤 205, 在摄像头摄取的图像中，使用人脸识别技术找到人脸位置, 具体如下：第二步通过肤色模型二值化图像，即将非肤色部分置为 0, 将肤色部分置为 1 , 其中肤色取值范围可以通过在实际设备中统计学习得到；

第三步调用腐蚀膨胀算法滤波；

第四步使用联通区域检测，以联通区域宽符合人脸大小高大于等于人脸大小为标准，判断出人脸位置。

步骤 206, 将摄像头向人脸方向转动直至对准人脸。

较佳实施例二：

图 3为本发明实施例提供的一种控制方法的较佳实施例二的阵列麦克放置在摄像头正前方的位置示意图，参照图 3 , 阵列麦克有多种物理形态，本较佳实施例为一圓形阵列麦克，上面包含至少 3个咪头。同时，摄像头没有与阵列麦克放置在一起，阵列麦克放置在摄像头正前方。本较佳实施例的步骤如下：

步骤 301 , 使用阵列麦克的多个咪头分别接收到音频数据，滤除背景噪声后发给处理中心，或发给处理中心后滤除噪声。

步骤 302, 处理中心根据频率将多路音频数据中的人声部分提取分离，然后根据多路音频数据中人声部分的相位差计算出多个咪头收到的人声时间差。

步骤 303 , 根据多个咪头收到的时间差乘以音速可以计算出距离差，再根据三个咪头之间的距离差可以计算出声音的方位。

具体地，图 4为本发明实施例提供的一种控制方法的较佳实施例二的阵列麦克与声音源的位置坐标图，参照图 4, 阵列麦克咪头直接距离为已知距离，我们设定为 R,我们标注阵列麦克中心为坐标原点，咪头 1坐标为 (-R,0), 咪头 2坐标为 (0,R), 咪头 3坐标为 (R,0), 我们需要计算得到的声音源坐标为

(x,y);

我们标注声音源到达咪头 1、咪头 2、咪头 3的距离分别为 LI、 L2、 L3 , 实际我们上一步测得的时间差乘以音速，为 Ll、 L2、 L3之间的差值，也就是说 L1-L3 L2-L3的值已知，我们标注已知的 L1-L3为 D13 , L2-L3为 D23;

根据勾股定理得出：

LI = ^(x + R)² + y² = -jx² + y² + R² + 2xR L2 = ^x² + (y-R)² = -]x² + y² +R² - 2yR

L3 = -^(x - R)² + y² = -]x² + y² +R² - 2xR

则

D\3 = L\-L3 = -jx² + y² + R² + 2xR― x² + y² + R

推导得出公式 A: 公式 A

同时，我们还需要满足：

D23 = L2-L3 = ² + y² + R² - 2yR― x² + y² + R² - 2xR

即：

D23 = ² + y² + R²- 2yR― ^x² + y² + R² - 2xR 公式 C

使用软件程序可以轻松得出同时满足公式 A与公式 C的 x,y, 具体为：根据 D13的正负判断 X的正负，再以 X为循环变量，循环使用公式 A得到 y, 再使用该 x、 y代入公式 C直到公式 C成立，此时得到的 x、 y即为声音源位置。

步骤 304, 将摄像头角度对准角度 arctan((d+y)/x)表示的方向。

其中，在实际使用场景，由于会场的数字麦克与摄像头位置固定，不会挪动， d可以釆用学习训练方式得到。具体地，图 5为本发明实施例提供的一种控制方法的较佳实施例二的训练示意图，参照图 5, 训练时让演讲者不站在摄像头正前方，也就是图 5中 a不能为 90度，然后将摄像头转动对准演讲者，摄像头测得角度1)。演讲者说话后，使用前面的步骤得到了 x、 y坐标值，则可通过计算得到摄像机与阵列麦克之间的距离 d, 计算公式为： d=x/tan(b)-y„

步骤 305, 在摄像头摄取的图像中，使用人脸识别技术找到人脸位置，方法如下：

第一步输入釆集到的 YUV数据；

第二步通过肤色模型二值化图像，即将非肤色部分置为 0, 将肤色部分置为 1, 其中肤色取值范围可以通过在实际设备中统计学习得到；

第三步调用腐蚀膨胀算法滤波

第四步使用联通区域检测，以联通区域宽符合人脸大小高大于等于人脸大小为标准，判断出人脸位置

步骤 306, 然后将摄像头向人脸方向转动直至对准人脸。

较佳实施例三：

图 6为本发明实施例提供的一种控制方法的较佳实施例三的示意图，参照图 6, 阵列麦克有多种物理形态，本较佳实施例为一圓形阵列麦克，上面包含至少 3个咪头。摄像头没有与阵列麦克放置在一起，阵列麦克放置在摄像头前方并有水平方向的位移。声音源位置坐标为（x、 y ) , 摄像头相对阵列麦克的坐标为（1, -d ) 。本较佳实施例的步骤如下：

步骤 401 ,通过与较佳实施例二中的步骤 301 303类似的方式得到 x、y。步骤 402, 将摄像头角度对准角度 b表示的方向， b=arctan((y+d)/(x-l))。其中，在实际使用场景，由于会场的数字麦克与摄像头位置固定，不会挪动， d和 1可以釆用学习训练方式得到。具体地，首先，训练者站到摄像头正前方讲话，阵列麦克计算出坐标 (xl,yl),则摄像头的横坐标 l=xl ;然后，训练者站到摄像头非正前方讲话，操作人员控制摄像头对准训练者，此时摄像头自己统计到角度为 b2 ; 阵列麦克计算出坐标 (x2,y2) , 则 tan(b2) = (y2+d)/(x2-l) , 而 l=xl , 则 tan(b2)=(y2+d)/(x2-xl) , 由此可算出 d=tan(b2)*(x2-xl)-y2。

步骤 403 , 在摄像头摄取的图像中，使用人脸识别技术找到人脸位置，方法如下：

第一步输入釆集到的 YUV数据；

第二步通过肤色模型二值化图像，即将非肤色部分置为 0, 将肤色部分置为 1 , 其中肤色取值范围可以通过在实际设备中统计学习得到；

第三步调用腐蚀膨胀算法滤波

步骤 404, 然后将摄像头向人脸方向转动直至对准人脸。

本发明实施例还提供一种控制装置，所述控制装置包括：

获取模块，用于获取包含目标声音源的声音信息的音频数据；

确定模块 ,用于根据所述音频数据确定所述目标声音源的位置范围信息；控制模块，用于根据所述位置范围信息控制当前无法拍摄到所述目标声音源的拍摄设备的转动，使得所述拍摄设备能够拍摄到所述目标声音源。

可见，通过获取包含目标声音源的声音信息的音频数据，据此确定目标声音源的位置范围信息，并根据该位置范围信息控制当前无法拍摄到目标声音源的拍摄设备的转动，使得拍摄设备能够拍摄到目标声音源，从而支持拍摄设备能够拍摄到处于原屏幕范围外的目标声音源

进一步地，所述位置范围信息为所述目标声音源相对于所述拍摄设备的方向信息，所述控制模块包括：

第一确定单元，用于确定所述方向信息对应的所述拍摄设备的转动控制参数；

控制单元，用于根据所述转动控制参数控制所述拍摄设备的转动，使得所述拍摄设备能够拍摄到所述目标声音源。

进一步地，所述音频数据由一声音釆集设备釆集到，所述确定模块包括：第二确定单元，用于根据所述音频数据确定所述目标声音源相对于所述声音釆集设备的方位信息；

第三确定单元，用于根据所述方位信息确定所述方向信息。

进一步地，所述第三确定单元包括：

确定子单元，用于根据所述方位信息，以及所述方位信息与所述方向信息的预设对应关系确定所述方向信息。

本发明实施例还提供一种控制设备，所述控制设备包括以上所述的控制装置。

以上所述仅是本发明实施例的实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明实施例原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明实施例的保护范围。

工业实用性

上述方案支持拍摄设备能够拍摄到处于原屏幕范围外的目标声音源。

Claims

权利要求书

1. 一种控制方法，所述控制方法包括：

获取包含目标声音源的声音信息的音频数据；

根据所述音频数据确定所述目标声音源的位置范围信息；

2. 如权利要求 1所述的控制方法，其中，所述位置范围信息为所述目标声音源相对于所述拍摄设备的方向信息，

所述根据所述位置范围信息控制当前无法拍摄到所述目标声音源的拍摄设备的转动为：

确定所述方向信息对应的所述拍摄设备的转动控制参数；

根据所述转动控制参数控制所述拍摄设备的转动。

3. 如权利要求 2所述的控制方法，其中，所述音频数据由一声音釆集设备釆集到，所述根据所述音频数据确定所述目标声音源的位置范围信息为：根据所述音频数据确定所述目标声音源相对于所述声音釆集设备的方位信息；

才艮据所述方位信息确定所述方向信息。

4. 如权利要求 3所述的控制方法，其中，所述根据所述方位信息确定所述方向信息为：

5. 如权利要求 4所述的控制方法，其中，所述声音釆集设备用于确定所述方位信息的一预设平面和所述预设平面上的一预设参考点，所述拍摄设备在所述预设平面上对应一第一对应点，所述目标声音源在所述预设平面上对应一第二对应点，

6. 如权利要求 5所述的控制方法，其中，所述第一对应点相对于所述预设参考点的位置坐标为属于所述预设平面的以所述预设参考点为第一原点的直角坐标上的坐标（al , a2 ) , 所述发声对应点相对于所述预设参考点的位置坐标为所述直角坐标上的坐标（X, y ) , y大于 a2 , 所述方向信息表征坐标为属于所述预设平面的以所述第一对应点为第二原点的极坐标上的角度坐标 b,

当 a2为 0时，所述极坐标的极轴与所述直角坐标的 X轴的方向相同；当 a2不为 0时，所述极坐标的极轴与所述直角坐标的 X轴平行且方向相同，所述平面几何函数为 b=arctan((y- a2)/(x- al)),其中， x不等于 al ;或者，所述平面几何函数为：当 X不等于 al时， b=arctan((y- a2)/(x- al》；当 x 等于 al时， b=90度。

7. 如权利要求 5所述的控制方法，其中，所述参数为根据通过学习训练方式得到的至少一个训练声音源在所述预设平面上对应的训练点相对于所述预设参考点的位置坐标和相对于所述第一对应点的方向信息表征坐标所确定。

8. 一种控制装置，所述控制装置包括：

9. 如权利要求 8所述的控制装置，其中，所述位置范围信息为所述目标声音源相对于所述拍摄设备的方向信息，所述控制模块包括：

10. 如权利要求 9所述的控制装置，其中，所述音频数据由一声音釆集设备釆集到，所述确定模块包括：

第二确定单元，设置为：根据所述音频数据确定所述目标声音源相对于所述声音釆集设备的方位信息；

11. 如权利要求 10所述的控制装置，其中，所述第三确定单元包括：确定子单元，设置为：根据所述方位信息，以及所述方位信息与所述方向信息的预设对应关系确定所述方向信息。

12. 一种控制设备，所述控制设备包括权利要求 8至 11中任一项所述的控制装置。