WO2021168620A1

WO2021168620A1 - 声源跟踪控制方法和控制装置、声源跟踪系统

Info

Publication number: WO2021168620A1
Application number: PCT/CN2020/076462
Authority: WO
Inventors: 王建亭; 邵喜斌; 布占场; 孟智明; 雷利平; 石阳; 孙元慧
Original assignee: 京东方科技集团股份有限公司; 北京京东方显示技术有限公司
Priority date: 2020-02-24
Filing date: 2020-02-24
Publication date: 2021-09-02
Also published as: CN113631942B; CN113631942A

Abstract

一种声源跟踪控制方法和控制装置（82）、声源跟踪系统。声源跟踪控制装置（82）从第一音频采集电路（F1,811）采集的第一音频信息中提取第一音频段，并同步地从第二音频采集电路（F2,812）采集的第二音频信息中提取第二音频段（101）；根据第一音频段和第二音频段中的预设峰值之间的偏差，确定第一音频段和第二音频段的第一时间偏移量（102）；根据第一时间偏移量，确定声源相距第一音频采集电路（F1,811）的第一距离和声源相距第二音频采集电路（F2,812）的第二距离的第一距离差（103）；根据第一距离差，确定声源的第一偏移角（104）；根据第一偏移角调整视频采集电路（83）的视频采集方向，以便视频采集电路（83）对准声源（105）。

Description

声源跟踪控制方法和控制装置、声源跟踪系统

技术领域

本公开涉及信息处理领域，特别涉及一种声源跟踪控制方法和控制装置、声源跟踪系统。

背景技术

在声源跟踪的相关技术中，第一种方案是针对固定位置的声源跟踪。人员在发言时打开话筒，不发言时关闭话筒。通过监测话筒的开关状态，并控制摄像机对准发言人员，从而实现声源跟踪。第二种方案是将语音识别和人脸识别相结合。通过对语音进行检测以识别出音频特征，根据音频特征从数据库中查询出发言人员的人脸图像信息，进而利用查询出的人脸图像信息在当前场景中识别出发言人员，并控制摄像机对准发言人员，从而实现声源跟踪。

发明内容

根据本公开实施例的第一方面，提供一种声源跟踪控制方法，包括：从第一音频采集电路采集的第一音频信息中提取第一音频段，并同步地从第二音频采集电路采集的第二音频信息中提取第二音频段；根据所述第一音频段和所述第二音频段中的预设峰值之间的偏差，确定所述第一音频段和所述第二音频段的第一时间偏移量；根据所述第一时间偏移量，确定声源相距所述第一音频采集电路的第一距离和所述声源相距所述第二音频采集电路的第二距离的第一距离差；根据所述第一距离差，确定所述声源的第一偏移角；根据所述第一偏移角调整视频采集电路的视频采集方向，以便所述视频采集电路对准所述声源。

在一些实施例中，所述根据所述第一距离差，确定所述声源的第一偏移角包括：利用所述第一距离差，以及所述第一音频采集电路和所述第二音频采集电路之间的距离确定第一距离参数；根据所述第一距离参数和所述第一距离差的比值确定所述声源的第一偏移角。

在一些实施例中，所述根据所述第一音频段和所述第二音频段中的预设峰值之间的偏差，确定所述第一音频段和所述第二音频段的第一时间偏移量包括：根据所述第一音频段中的最大正峰值采样序号和所述第二音频段中的最大正峰值采样序号的第一差值，在所述第一音频段和所述第二音频段中选择出对应的有效正峰值，其中所述第一音频段和所述第二音频段中分别包括多个采样值；根据所述第一音频段中的最小负峰值采样序号和所述第二音频段中的最小负峰值采样序号的第二差值，在所述第一音频段和所述第二音频段中选择出对应的有效负峰值；根据所述第一音频段和所述第二音频段中对应的有效正峰值的采样序号偏差，以及所述第一音频段和所述第二音频段中对应的有效负峰值的采样序号偏差，确定所述第一音频段和所述第二音频段的第一采样时钟偏差；根据所述第一采样时钟偏差和采样转换频率确定所述第一时间偏移量。

在一些实施例中，所述第一音频段中的有效正峰值采样序号和所述第二音频段中对应的有效正峰值采样序号之差与所述第一差值的差在第一预设范围内；所述第一音频段中的有效负峰值采样序号和所述第二音频段中对应的有效负峰值采样序号之差与所述第二差值的差在第二预设范围内。

在一些实施例中，上述方法还包括：判断所述第一音频段或所述第二音频段中的有效正峰值和有效负峰值的第一和值是否小于第一预设门限；若所述第一和值小于第一预设门限，则控制所述视频采集电路进行全景拍摄。

在一些实施例中，上述方法还包括：若所述第一和值不小于第一预设门限，则判断所述第一音频段或所述第二音频段中的所述有效正峰值的数量和所述有效负峰值的数量是否相同；在所述第一音频段或所述第二音频段中的所述有效正峰值的数量和所述有效负峰值的数量相同的情况下，进一步计算第一音频段或第二音频段中的正峰值总数和负峰值总数的第二和值；响应于所述第一和值与所述第二和值之比大于第二预设门限，控制所述视频采集电路进行全景拍摄。

在一些实施例中，上述方法还包括：计算所述第一音频段中的所述最大正峰值采样序号和所述最小负正峰值采样序号的第三差值；计算所述第二音频段中的所述最大正峰值采样序号和所述最小负正峰值采样序号的第四差值；响应于所述第三差值和所述第四差值的正负性一致，且所述第三差值和所述第四差值的差在第三预设范围内，则在所述第一音频段和所述第二音频段中选择出对应的有效正峰值。

在一些实施例中，上述方法还包括：计算所述第一音频段中的正峰值总数和所述第二音频段中的正峰值总数的第五差值，以及所述第一音频段中的正峰值总数和所述第二音频段中的正峰值总数的第三和值；计算所述第一音频段中的负峰值总数和所述第二音频段中的负峰值总数的第六差值，以及所述第一音频段中的负峰值总数和所述第二音频段中的负峰值总数的第四和值；响应于所述第五差值与所述第三和值的比值在第四预定范围内，且所述第六差值与所述第四和值的比值在所述第五预定范围内，则在所述第一音频段和所述第二音频段中选择出对应的有效正峰值。

在一些实施例中，上述方法还包括：同步地从第三音频采集电路采集的第三音频信息中提取第三音频段，从第四音频采集电路采集的第四音频信息中提取第四音频段；根据所述第三音频段和所述第四音频段中的预设峰值之间的偏差，确定所述第三音频段和所述第四音频段的第二时间偏移量；根据所述第二时间偏移量，确定所述声源相距所述第三音频采集电路的第三距离和所述声源相距所述第四音频采集电路的第四距离的第二距离差；根据所述第二距离差，确定所述声源的第二偏移角；根据所述第一偏移角和所述第二偏移角调整视频采集电路的视频采集方向，以便所述视频采集电路对准所述声源。

根据本公开实施例的第二方面，提供一种声源跟踪控制装置，包括：提取模块，被配置为从第一音频采集电路采集的第一音频信息中提取第一音频段，并同步地从第二音频采集电路采集的第二音频信息中提取第二音频段；时间偏移量确定模块，被配置为根据所述第一音频段和所述第二音频段中的预设峰值之间的偏差，确定所述第一音频段和所述第二音频段的第一时间偏移量；距离差确定模块，被配置为根据所述第一时间偏移量，确定声源相距所述第一音频采集电路的第一距离和所述声源相距所述第二音频采集电路的第二距离的第一距离差；偏移角确定模块，被配置为根据所述第一距离差，确定所述声源的第一偏移角；方向调整模块，被配置为根据所述第一偏移角调整视频采集电路的视频采集方向，以便所述视频采集电路对准所述声源。

根据本公开实施例的第三方面，提供一种声源跟踪控制装置，包括：存储器，被配置为存储指令；处理器，耦合到存储器，处理器被配置为基于存储器存储的指令执行实现如上述任一实施例所述的方法。

根据本公开实施例的第四方面，提供一种声源跟踪系统，包括如上述任一实施例所述声源跟踪控制装置，以及：视频采集电路，被配置为根据所述声源跟踪控制装置的控制调整视频采集方向；第一音频采集电路和第二音频采集电路，其中所述第一音频采集电路和所述第二音频采集电路对称设置在所述视频采集电路的两侧。

在一些实施例中，所述声源到所述视频采集电路的距离与所述第一音频采集电路到第二音频采集电路的距离之比大于预设距离门限。

在一些实施例中，跟踪系统还包括：模数转换器，用于对第一音频采集电路采集的音频信号进行模数转换以生成第一音频信息，对第二音频采集电路采集的音频信号进行模数转换以生成第二音频信息；所述视频采集电路包括：方向控制平台和设置在所述方向控制平台上的摄像头，所述方向控制平台被配置为根据所述声源跟踪控制装置的控制调整方向。

根据本公开实施例的第五方面，提供一种计算机可读存储介质，其中，计算机可读存储介质存储有计算机指令，指令被处理器执行时实现如上述任一实施例涉及的方法。

通过以下参照附图对本公开的示例性实施例的详细描述，本公开的其它特征及其优点将会变得清楚。

附图说明

构成说明书的一部分的附图描述了本公开的实施例，并且连同说明书一起用于解释本公开的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本公开，其中：

图1是根据本公开一个实施例的声源跟踪控制方法的流程示意图；

图2是根据本公开一个实施例的时间偏移量计算方法的流程示意图；

图3是根据本公开一个实施例的双曲线模型示意图；

图4是根据本公开另一个实施例的声源跟踪控制方法的流程示意图；

图5是根据本公开另一个实施例的时间偏移量计算方法的流程示意图；

图6是根据本公开一个实施例的声源跟踪控制装置的结构示意图；

图7是根据本公开一个实施例的声源跟踪控制装置的结构示意图；

图8是根据本公开一个实施例的声源跟踪系统的结构示意图；

图9是根据本公开另一个实施例的声源跟踪系统的结构示意图；

图10是根据本公开又一个实施例的声源跟踪系统的结构示意图。

应当明白，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。此外，相同或类似的参考标号表示相同或类似的构件。

具体实施方式

现在将参照附图来详细描述本公开的各种示例性实施例。对示例性实施例的描述仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。本公开可以以许多不同的形式实现，不限于这里所述的实施例。提供这些实施例是为了使本公开透彻且完整，并且向本领域技术人员充分表达本公开的范围。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、材料的组分和数值应被解释为仅仅是示例性的，而不是作为限制。

本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的部分。“包括”或者“包含”等类似的词语意指在该词前的要素涵盖在该词后列举的要素，并不排除也涵盖其他要素的可能。

本公开使用的所有术语(包括技术术语或者科学术语)与本公开所属领域的普通技术人员理解的含义相同，除非另外特别定义。还应当理解，在诸如通用字典中定义的术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义，而不应用理想化或极度形式化的意义来解释，除非这里明确地这样定义。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

发明人通过研究发现，在上述第一种相关技术中，人员在发言时打开话筒，不发言时关闭话筒，因此操作较为繁琐。在上述第二种相关技术中，由于需要进行语音识别和人脸识别，因此计算成本高，同时语音识别和人脸识别的识别率也影响到声源跟踪的精度。

据此，本公开提出一种能够方便快捷地实现声源跟踪的方案。

图1是根据本公开一个实施例的声源跟踪控制方法的流程示意图。在一些实施例中，下列的声源跟踪控制方法步骤由声源跟踪控制装置执行。

在步骤101，从第一音频采集电路采集的第一音频信息中提取第一音频段，并同步地从第二音频采集电路采集的第二音频信息中提取第二音频段。

在一些实施例中，第一音频采集电路和第二音频采集电路为拾音器。第一音频段和第二音频段的时长为50-100ms。

在一些实施例中，第一音频采集电路、第二音频采集电路对称设置在视频采集电路的两侧。视频采集电路到第一音频采集电路的距离和视频采集电路到第二音频采集电路的距离相同。例如，第一音频采集电路、第二音频采集电路和视频采集电路位于第一直线上。

在一些实施例中，视频采集电路包括方向控制平台和设置在方向控制平台上的摄像头。例如，方向控制平台为云台。通过利用方向控制平台支持的通信协议，将控制参数发送给方向控制平台，以便对方向控制平台的方向进行调节，从而调整摄像头的视频采集方向。例如，所使用的通信协议为UART(Universal Asynchronous Receiver/Transmitter，通用异步收发传输器)协议。

在一些实施例中，第一直线为水平方向。第一音频采集电路和第二音频采集电路分别设置在视频采集电路的左右两侧。对第一音频采集电路采集的音频信号进行模数转换以生成第一音频信息，对第二音频采集电路采集的音频信号进行模数转换以生成第二音频信息。

在步骤102，根据第一音频段和第二音频段中的预设峰值之间的偏差，确定第一音频段和第二音频段的第一时间偏移量。

图2是根据本公开一个实施例的时间偏移量计算方法的流程示意图。在一些实施例中，下列的时间偏移量计算方法步骤由声源跟踪控制装置执行。

在步骤201，识别出第一音频段中的最大正峰值采样序号和最小负峰值采样序号、第二音频段中的最大正峰值采样序号和最小负峰值采样序号。

这里需要说明的是，第一音频段和第二音频段中分别包括多个采样值。

例如，在第一音频段中，对于三个连续的音频数据Data(i)、Data(i+1)和Data(i+2)，若Data(i+1)>Data(i)、Data(i+1)>Data(i+2)，且|Data(i+1)|>Th，则Data(i+1)为正峰值。Th为预设门限值。

又例如，在第一音频段中，对于三个连续的音频数据Data(i)、Data(i+1)和Data(i+2)，若Data(i+1)<Data(i)、Data(i+1)<Data(i+2)，且|Data(i+1)|>Th，则Data(i+1)为负峰值。

在一些实施例中，在对第一音频段和第二音频段进行识别处理后，还可检测第一音频段和第二音频段是否对应。

例如，在第一音频段中，最大正峰值采样序号为L _max，最小负正峰值采样序号为L _min。在第二音频段中，最大正峰值采样序号为R _max，最小负正峰值采样序号为R _min。若下列公式(1)和公式(2)成立，即：

(L _max-L _min)(R _max-R _min)＞0 (1)

|(L _max-L _min)-(R _max-R _min)|≤ε1 (2)

则表明第一音频段和第二音频段中的最大正峰值和最小负正峰值的位置是相对应的。ε1为预设门限。

又例如，第一音频段中的正峰值总数为L _Ptotal，第一音频段中的负峰值总数为L _ntotal，第二音频段中的正峰值总数为R _Ptotal，第二音频段中的负峰值总数为R _ntotal。若下列公式(3)和公式(4)成立，即：

则表明第一音频段和第二音频段中的正峰值总数和负峰值总数在合理范围内。ρ ₁和ρ ₂为预设门限。ρ ₁和ρ ₂可以相同，也可不同。

若第一音频段和第二音频段中的最大正峰值和最小负正峰值的位置相对应，且第一音频段和第二音频段中的正峰值总数和负峰值总数在合理范围内，由此可保证时间偏移量的计算精度。若第一音频段和第二音频段中的最大正峰值和最小负正峰值的位置不相对应，或第一音频段和第二音频段中的正峰值总数和负峰值总数不在合理范围内，则表明第一音频段和第二音频段受到外界的干扰。在这种情况下，需要重新从第一音频采集电路采集的第一音频信息中提取第一音频段，并同步地从第二音频采集电路采集的第二音频信息中重新提取第二音频段。

在步骤202，获得第一音频段和第二音频段中的有效正峰值和有效负峰值。

在一些实施例中，根据第一音频段中的最大正峰值采样序号和第二音频段中的最大正峰值采样序号的差值，在第一音频段和第二音频段中选择出对应的有效正峰值。根据第一音频段中的最小负峰值采样序号和第二音频段中的最小负峰值采样序号的差值，在第一音频段和第二音频段中选择出对应的有效负峰值。

例如，L _i是第一音频段中的第i个有效正峰值DL _i的采样序号，R _j是第二音频段中的第j个有效正峰值DR _j的采样序号。第一音频段中的最大正峰值采样序号为L _max，第二音频段中的最大正峰值采样序号为R _max，在DL _i与DR _j相对应的情况下，下列公式(5)成立。

|(L _i-R _j)-(L _max-R _max)|≤σ1 (5)

又例如，L _i是第一音频段中的第i个有效负峰值DL _i的采样序列，R _j是第二音频段中的第j个有效负峰值DR _j的采样序列。若第一音频段中的最小负峰值采样序号为L _min，第二音频段中的最小负峰值采样序号为R _min，在DL _i与DR _j相对应的情况下，下列公式(6)成立。

|(L _i-R _j)-(L _min-R _min)|≤σ2 (6)

在上述公式(5)和公式(6)中，σ1和σ2为预设门限。σ1和σ2为可以相同，也可不同。

在利用上述公式(5)在第一音频段和第二音频段中识别对应的有效正峰值的过程中，若对于第一音频段中的一个正峰值A，无法在第二音频段中查找出相对应的正峰值，则表明正峰值A是因外界干扰而形成的伪峰值。

由此可知，通过利用上述公式(5)和公式(6)识别有效正峰值和有效负峰值的过程也是一个过滤过程，能够有效消除因外界干扰而形成的伪峰值，从而提高第一时间偏移量的精度。

在步骤203，根据第一音频段和第二音频段中对应的有效正峰值的采样序号偏差，以及第一音频段和第二音频段中对应的有效负峰值的采样序号偏差，确定第一音频段和第二音频段的第一采样时钟偏差。

这里需要说明的是，采样序列偏差代表相应正峰值或相应负峰值之间的采样时钟个数。因此通过利用采样序号偏差能够确定出第一音频段和第二音频段的第一采样时钟偏差。

在一些实施例中，针对第一音频段和第二音频段中对应的有效正峰值的采样序号偏差，以及第一音频段和第二音频段中对应的有效负峰值的采样序号偏差，可通过计算算术平均值、几何平均值或标准差值来确定第一音频段和第二音频段的第一采样时钟偏差。

例如，在第一音频段或第二音频段中，有M _Vaiid个有效正峰值，以及N _Vaiid个有效负峰值。第一音频段中的第i个有效峰值与第二音频段中对应的第j个有效峰值的采样序号偏差为△i。通过利用下列公式(7)计算出采样序号偏差的标准差M1，以作为第一音频段和第二音频段的第一采样时钟偏差。

在步骤204，根据第一采样时钟偏差和采样转换频率确定第一时间偏移量。

设采样转换频率为f _COV，则利用下列公式(8)计算第一时间偏移量t1。

在一些实施例中，在获得第一音频段和第二音频段中的有效正峰值和有效负峰值后，还可进一步判断第一音频段或第二音频段中的有效正峰值M _Vaiid和有效负峰值N _Vaiid是否满足下列公式(9)。

M _Vaiid+N _Vaild＜D1 (9)

D1为预设门限。若上述公式(9)成立，则表明第一音频段和第二音频段中的有效峰值太少。这通常是由当前场景处于静默状态所导致的。在这种情况下，控制视频采集电路进行全景拍摄。

这里需要说明的是，视频采集电路在全景拍摄模式下，视频采集电路的视频采集方向与第一音频采集电路和第二音频采集电路所在的平面相垂直。由此视频采集电路能够对当前场景进行全覆盖。

在一些实施例中，在上述公式(9)不成立的情况下，进一步判断第一音频段或第二音频段中的有效正峰值的数量和有效负峰值的数量是否相同。在有效正峰值的数量和有效负峰值的数量相同的情况下，若下列公式(10)成立，即：

则表明第一音频段和第二音频段中的有效峰值太多。其中D2为预设门限，L _Ptotal是第一音频段中的正峰值总数，L _ntotal是第一音频段中的负峰值总数，R _Ptotal是第二音频段中的正峰值总数，R _ntotal是第二音频段中的负峰值总数。若上述公式(10)成立，这通常是多人同时发言所导致的。在这种情况下，通过控制视频采集电路进行全景拍摄。

返回图1。在步骤103，根据第一时间偏移量，确定声源相距第一音频采集电路的第一距离和声源相距第二音频采集电路的第二距离的第一距离差。

由于声音在空气中的传播速度v为340米/秒，因此利用公式(11)计算出第一距离差a1。

在步骤104，根据第一距离差，确定声源的第一偏移角。

图3是根据本公开一个实施例的双曲线模型示意图。

如图3所示，F1为第一音频采集电路，F2为第二音频采集电路，P为发言人员，坐标原点O处为视频采集电路。F1和F2之间的距离(例如，10-30cm)小于视频采集电路相距发言人员的距离(例如，2-5米)，因此可以采取双曲线的渐近线方程来求解。

在一些实施例中，声源到视频采集电路的距离D与第一音频采集电路到第二音频采集电路的距离d的比值大于预设距离门限。若D/d的值大于预设距离门限，则表明相对于F1和F2之间的距离，视频采集电路相距发言人员的距离足够大，在这种情况下适用于双曲线模型。例如，预设距离门限为5。

如图3所示，第一距离差a1＝|PF1|-|PF2|。若a1为正值，则P所在轨迹为双曲线右侧。若a1为负值，则P所在轨迹为双曲线右左侧。相应的双曲线方程如下列公式(12)所示。

这里需要说明的是，c为F1和F2之间的距离，距离参数b满足下列公式(13)。

a1 ²+b ²＝c ² (13)

相应的渐近线方程如下列公式(14)所示。

由此，根据渐近线的斜率获得声源的第一偏移角。例如，利用下列公式(15)计算第一偏移角θ1。

在步骤105，根据第一偏移角调整视频采集电路的视频采集方向，以便视频采集电路对准声源。

在一些实施例中，第一音频采集电路、第二音频采集电路和视频采集电路位于第一直线上，第一直线为水平方向。声源跟踪控制装置利用第一偏移角控制视频采集电路在左右方向上的偏转角度。因此能够在水平面上实现声源跟踪。

在本公开上述实施例提供的声源跟踪控制方法中，通过利用声源到达第一音频采集电路和第二音频采集电路的距离差，确定出声源的偏移角。根据所确定的偏移角对视频采集电路进行方向调整，以便能够对准声源进行拍摄，从而方便快捷地实现声源跟踪。

图4是根据本公开另一个实施例的声源跟踪控制方法的流程示意图。在一些实施例中，下列的声源跟踪控制方法步骤由声源跟踪控制装置执行。

在步骤401，从第一音频采集电路采集的第一音频信息中提取第一音频段，并同步地从第二音频采集电路采集的第二音频信息中提取第二音频段，同步地从第三音频采集电路采集的第三音频信息中提取第三音频段，同步地从第四音频采集电路采集的第四音频信息中提取第四音频段。

在一些实施例中，第一音频采集电路至第四音频采集电路为拾音器。第一音频段至第四音频段的时长为50-100ms。

在一些实施例中，第一音频采集电路、第二音频采集电路对称设置在视频采集电路的两侧。视频采集电路到第一音频采集电路的距离和视频采集电路到第二音频采集电路的距离相同。第三音频采集电路、第四音频采集电路对称设置在视频采集电路的另两侧。视频采集电路到第三音频采集电路的距离和视频采集电路到第四音频采集电路的距离相同。例如，第一音频采集电路、第二音频采集电路和视频采集电路位于第一直线上。第三音频采集电路、第四音频采集电路和视频采集电路位于第二直线上。第一直线和第二直线垂直。

在一些实施例中，视频采集电路包括方向控制平台和设置在方向控制平台上的摄像头。例如，方向控制平台为云台。通过利用方向控制平台支持的通信协议，将控制参数发送给方向控制平台，以便对方向控制平台的方向进行调节，从而调整摄像头的视频采集方向。例如，所使用的通信协议为UART协议。

在一些实施例中，第一直线为水平方向。第一音频采集电路和第二音频采集电路分别设置在视频采集电路的左右两侧。第二直线为竖直方向。第三音频采集电路和第四音频采集电路分别设置在视频采集电路的上下两侧。对第一音频采集电路采集的音频信号进行模数转换以生成第一音频信息，对第二音频采集电路采集的音频信号进行模数转换以生成第二音频信息，对第三音频采集电路采集的音频信号进行模数转换以生成第三音频信息，对第四音频采集电路采集的音频信号进行模数转换以生成第四音频信息。

在步骤402，根据第一音频段和第二音频段中的预设峰值之间的偏差，确定第一音频段和第二音频段的第一时间偏移量，根据第三音频段和第四音频段中的预设峰值之间的偏差，确定第三音频段和第四音频段的第二时间偏移量。

在一些实施例中，利用上述图2中任一实施例所述的时间偏移量计算方法计算第一时间偏移量，利用下述图5中任一实施例所述的时间偏移量计算方法计算第二时间偏移量。

图5是根据本公开另一个实施例的时间偏移量计算方法的流程示意图。在一些实施例中，下列的时间偏移量计算方法步骤由声源跟踪控制装置执行。

在步骤501，识别出第三音频段中的最大正峰值采样序号和最小负峰值采样序号、第四音频段中的最大正峰值采样序号和最小负峰值采样序号。

这里需要说明的是，第三音频段和第四音频段中分别包括多个采样值。

在一些实施例中，在对第三音频段和第四音频段进行识别处理后，还可检测第三音频段和第四音频段是否对应。

例如，在第三音频段中，最大正峰值采样序号为U _max，最小负正峰值采样序号为U _min。在第四音频段中，最大正峰值采样序号为D _max，最小负正峰值采样序号为D _min。若下列公式(16)和公式(17)成立，即：

(U _max-U _min)(D _max-D _min)＞0 (16)

|(U _max-U _min)-(D _max-D _min)|≤ε2 (17)

则表明第三音频段和第四音频段中的最大正峰值和最小负正峰值的位置是相对应的。ε2为预设门限。

又例如，第三音频段中的正峰值总数为U _Ptotal，第三音频段中的负峰值总数为U _ntotal，第四音频段中的正峰值总数为D _Ptotal，第四音频段中的负峰值总数为D _ntotal。若下列公式(18)和公式(19)成立，即：

则表明第三音频段和第四音频段中的正峰值总数和负峰值总数在合理范围内。ρ ₃和ρ ₄为预设门限。ρ ₃和ρ ₄可以相同，也可不同。

若第三音频段和第四音频段中的最大正峰值和最小负正峰值的位置相对应，且第三音频段和第四音频段中的正峰值总数和负峰值总数在合理范围内，由此可保证时间偏移量的计算精度。若第三音频段和第四音频段中的最大正峰值和最小负正峰值的位置不相对应，或第三音频段和第四音频段中的正峰值总数和负峰值总数不在合理范围内，则表明第三音频段和第四音频段受到外界的干扰。在这种情况下，需要重新从第一音频采集电路采集的第一音频信息中提取第一音频段，并同步地从第二音频采集电路采集的第二音频信息中重新提取第二音频段，同步地从第三音频采集电路采集的第三音频信息中提取第三音频段，同步地从第四音频采集电路采集的第四音频信息中提取第四音频段。

在步骤502，获得第三音频段和第四音频段中的有效正峰值和有效负峰值。

在一些实施例中，根据第三音频段中的最大正峰值采样序号和第四音频段中的最大正峰值采样序号的差值，在第三音频段和第四音频段中选择出对应的有效正峰值。根据第三音频段中的最小负峰值采样序号和第四音频段中的最小负峰值采样序号的差值，在第三音频段和第四音频段中选择出对应的有效负峰值。

例如，U _i是第三音频段中的第i个有效正峰值DU _i的采样序号，D _j是第四音频段中的第j个有效正峰值DD _j的采样序号。第三音频段中的最大正峰值采样序号为U _max，第四音频段中的最大正峰值采样序号为D _max，在DU _i与DD _j相对应的情况下，下列公式(20)成立。

|(U _i-D _j)-(U _max-D _max)|≤σ3 (20)

又例如，U _i是第三音频段中的第i个有效负峰值DU _i的采样序列，D _j是第四音频段中的第j个有效负峰值DD _j的采样序列。若第三音频段中的最小负峰值采样序号为U _min，第四音频段中的最小负峰值采样序号为D _min，在DU _i与DD _j相对应的情况下，下列公式(21)成立。

|(U _i-D _j)-(U _min-D _min)|≤σ4 (21)

在上述公式(20)和公式(21)中，σ3和σ4为预设门限。σ3和σ4为可以相同，也可不同。

在利用上述公式(20)在第三音频段和第四音频段中识别对应的有效正峰值的过程中，若对于第三音频段中的一个正峰值B，无法在第四音频段中查找出相对应的正峰值，则表明正峰值B是因外界干扰而形成的伪峰值。

由此可知，通过利用上述公式(20)和公式(21)识别有效正峰值和有效负峰值的过程也是一个过滤过程，能够有效消除因外界干扰而形成的伪峰值，从而提高第二时间偏移量的精度。

在步骤503，根据第三音频段和第四音频段中对应的有效正峰值的采样序号偏差，以及第三音频段和第四音频段中对应的有效负峰值的采样序号偏差，确定第三音频段和第四音频段的第二采样时钟偏差。

在一些实施例中，针对第三音频段和第四音频段中对应的有效正峰值的采样序号偏差，以及第三音频段和第四音频段中对应的有效负峰值的采样序号偏差，可通过计算算术平均值、几何平均值或标准差值来确定第三音频段和第四音频段的第二采样时钟偏差。

例如，在第三音频段或第四音频段中，有M _Vaild个有效正峰值，以及N _Vaild个有效负峰值。第三音频段中的第i个有效峰值与第四音频段中对应的第j个有效峰值的采样序号偏差为△i。通过利用下列公式(22)计算出采样序号偏差的标准差M2，以作为第三音频段和第四音频段的第二采样时钟偏差。

在步骤504，根据第二采样时钟偏差和采样转换频率确定第二时间偏移量。

设采样转换频率为f _COV，则利用下列公式(23)计算第二时间偏移量t2。

在一些实施例中，在获得第三音频段和第四音频段中的有效正峰值和有效负峰值后，还可进一步判断第三音频段或第四音频段中的有效正峰值M _Vaild和有效负峰值N _Vaild是否满足下列公式(24)。

M _Vaild+N _Vaild＜D3 (24)

D3为预设门限。若上述公式(24)成立，则表明第三音频段和第四音频段中的有效峰值太少。这通常是由当前场景处于静默状态所导致的。在这种情况下，控制视频采集电路进行全景拍摄。

在一些实施例中，在上述公式(24)不成立的情况下，进一步判断第三音频段或第四音频段中的有效正峰值的数量和有效负峰值的数量是否相同。在有效正峰值的数量和有效负峰值的数量相同的情况下，若下列公式(25)成立，即：

则表明第三音频段和第四音频段中的有效峰值太多。其中D4为预设门限，U _Ptotal是第三音频段中的正峰值总数，U _ntotal是第三音频段中的负峰值总数，D _Ptotal是第四音频段中的正峰值总数，D _ntotal是第四音频段中的负峰值总数。若上述公式(25)成立，这通常是多人同时发言所导致的。在这种情况下，通过控制视频采集电路进行全景拍摄。

返回图4。在步骤403，根据第一时间偏移量确定声源相距第一音频采集电路的第一距离和声源相距第二音频采集电路的第二距离的第一距离差，根据第二时间偏移量确定声源相距第三音频采集电路的第三距离和声源相距第四音频采集电路的第四距离的第二距离差。

在一些实施例中，利用上述公式(11)计算出第一距离差a1。

在一些实施例中，利用公式(26)计算出第二距离差a2。声音在空气中的传播速度v为340米/秒。

在步骤404，根据第一距离差确定声源的第一偏移角，根据第二距离差确定声源的第二偏移角。

在一些实施例中，利用上述公式(15)计算第一偏移角θ1。

在一些实施例中，根据如图3所示的双曲线模型，相应的双曲线方程如下列公式(27)所示。

这里需要说明的是，c为第三音频采集电路和第四音频采集电路之间的距离，距离参数b满足下列公式(28)。

a2 ²+b ²＝c ² (28)

相应的渐近线方程如下列公式(29)所示。

由此，根据渐近线的斜率获得声源的第二偏移角。例如，利用下列公式(30)计算第二偏移角θ2。

在步骤405，根据第一偏移角和第二偏移角调整视频采集电路的视频采集方向，以便视频采集电路对准声源。

在一些实施例中，第一音频采集电路、第二音频采集电路和视频采集电路位于第一直线上，第一直线为水平方向。第三音频采集电路、第四音频采集电路和视频采集电路位于第四直线上，第二直线为竖直方向。利用第一偏移角可控制视频采集电路在左右方向上的偏转角度，利用第二偏移角可控制视频采集电路在上下方向上的偏转角度。因此能够在三维空间中实现声源跟踪。

图6是根据本公开一个实施例的声源跟踪控制装置的结构示意图。如图6所示，声源跟踪控制装置包括提取模块61、时间偏移量确定模块62、距离差确定模块63、偏移角确定模块64和方向调整模块65。

提取模块61从第一音频采集电路采集的第一音频信息中提取第一音频段，并同步地从第二音频采集电路采集的第二音频信息中提取第二音频段。

时间偏移量确定模块62根据第一音频段和第二音频段中的预设峰值之间的偏差，确定第一音频段和第二音频段的第一时间偏移量。

在一些实施例中，时间偏移量确定模块62利用上述图2所示的流程计算第一音频段和第二音频段的第一时间偏移量。

距离差确定模块63根据第一时间偏移量，确定声源相距第一音频采集电路的第一距离和声源相距第二音频采集电路的第二距离的第一距离差。

偏移角确定模块64根据第一距离差，确定声源的第一偏移角。

在一些实施例中，偏移角确定模块64利用上述公式(15)计算声源的第一偏移角。

方向调整模块65根据第一偏移角调整视频采集电路的视频采集方向，以便视频采集电路对准声源。

在一些实施例中，第一音频采集电路、第二音频采集电路对称设置在视频采集电路的两侧。例如，第一音频采集电路、第二音频采集电路和视频采集电路位于第一直线上。若第一直线为水平方向，则声源跟踪控制装置利用第一偏移角控制视频采集电路在左右方向上的偏转角度。因此能够在水平面上实现声源跟踪。

在一些实施例中，提取模块61从第一音频采集电路采集的第一音频信息中提取第一音频段，并同步地从第二音频采集电路采集的第二音频信息中提取第二音频段，同步地从第三音频采集电路采集的第三音频信息中提取第三音频段，同步地从第四音频采集电路采集的第四音频信息中提取第四音频段。

时间偏移量确定模块62根据第一音频段和第二音频段中的预设峰值之间的偏差，确定第一音频段和第二音频段的第一时间偏移量。时间偏移量确定模块62还根据第三音频段和第四音频段中的预设峰值之间的偏差，确定第三音频段和第三音频段的第二时间偏移量。

在一些实施例中，时间偏移量确定模块62利用上述图2所示的流程计算第一音频段和第二音频段的第一时间偏移量。时间偏移量确定模块62利用上述图5所示的流程计算第三音频段和第四音频段的第二时间偏移量。

距离差确定模块63根据第一时间偏移量，确定声源相距第一音频采集电路的第一距离和声源相距第二音频采集电路的第二距离的第一距离差。距离差确定模块63还根据第二时间偏移量，确定声源相距第三音频采集电路的第三距离和声源相距第四音频采集电路的第四距离的第二距离差。

偏移角确定模块64根据第一距离差，确定声源的第一偏移角。偏移角确定模块64还根据第二距离差，确定声源的第二偏移角。

在一些实施例中，偏移角确定模块64利用上述公式(15)计算声源的第一偏移角。偏移角确定模块64利用上述公式(30)计算声源的第二偏移角。

方向调整模块65根据第一偏移角和第二偏移角调整视频采集电路的视频采集方向，以便视频采集电路对准声源。

在一些实施例中，第一音频采集电路、第二音频采集电路对称设置在视频采集电路的两侧。第三音频采集电路、第四音频采集电路对称设置在视频采集电路的另两侧。例如，第一音频采集电路、第二音频采集电路和视频采集电路位于第一直线上。第三音频采集电路、第四音频采集电路和视频采集电路位于第二直线上。第一直线和第二直线垂直。若第一直线为水平方向，第二直线为竖直方向，则声源跟踪控制装置利用第一偏移角控制视频采集电路在左右方向上的偏转角度，利用第二偏移角控制视频采集电路在上下方向上的偏转角度。因此能够在水平面上实现声源跟踪。

图7是根据本公开一个实施例的声源跟踪控制装置的结构示意图。如图7所示，声源跟踪控制装置包括存储器701和处理器702。

存储器701用于存储指令，处理器702耦合到存储器701，处理器702被配置为基于存储器存储的指令执行实现如图1、图2、图4和图5中任一实施例涉及的方法。

如图7所示，声源跟踪控制装置还包括通信接口703，用于与其它设备进行信息交互。同时，该声源跟踪控制装置还包括总线704，处理器702、通信接口703、以及存储器701通过总线704完成相互间的通信。

存储器701可以包含高速RAM存储器，也可还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器701也可以是存储器阵列。存储器701还可能被分块，并且块可按一定的规则组合成虚拟卷。

此外，处理器702可以是一个中央处理器CPU，或者可以是专用集成电路(Application Specific Integrated Circuit，简称：ASIC)，或是被配置成实施本公开实施例的一个或多个集成电路。

本公开同时还涉及一种计算机可读存储介质，其中计算机可读存储介质存储有计算机指令，指令被处理器执行时实现如图1、图2、图4和图5中任一实施例涉及的方法。

图8是根据本公开一个实施例的声源跟踪系统的结构示意图。如图8所示，声源跟踪系统包括第一音频采集电路811、第二音频采集电路812、声源跟踪控制装置82和视频采集电路83。声源跟踪控制装置82为图6或图7中任一实施例涉及的声源跟踪控制装置。

第一音频采集电路811和第二音频采集电路812对称设置在视频采集电路73的两侧。视频采集电路到第一音频采集电路的距离和视频采集电路到第二音频采集电路的距离相同。例如，第一音频采集电路、第二音频采集电路和视频采集电路位于第一直线上。

在一些实施例中，第一音频采集电路811和第二音频采集电路812为拾音器。

在一些实施例中，第一直线为水平方向。声源跟踪控制装置82利用计算出的第一偏移角，控制视频采集电路83的左右偏转角度，从而能够在水平面上实现声源跟踪。

图9是根据本公开另一个实施例的声源跟踪系统的结构示意图。图9与图8的不同之处在于，在图9所示实施例中，视频采集电路83包括方向控制平台831和设置在方向控制平台831上的摄像头832。例如，方向控制平台831为云台。

声源跟踪控制装置82通过利用方向控制平台831支持的通信协议，将控制参数发送给方向控制平台831，以便对方向控制平台831的方向进行调节，从而调整摄像头832的视频采集方向。例如，所使用的通信协议为UART协议

在一些实施例中，如图8所示，声源跟踪系统还包括模数转换器84。

模数转换器84对第一音频采集电路811采集的音频信号进行模数转换以生成第一音频信息。模数转换器84对第二音频采集电路812采集的音频信号进行模数转换以生成第二音频信息。

这里需要说明的是，模数转换器84中设有多个相互独立的转换模块。因此可利用模数转换器84中的第一转换模块对第一音频采集电路811采集的音频信号进行模数转换以生成第一音频信息，利用模数转换器84中的第二转换模块对第二音频采集电路812采集的音频信号进行模数转换以生成第二音频信息。

在一些实施例中，模数转换器84为流水线(pipelined)式模数转换器、逐次逼近(successive approximation register，简称：SAR)式模数转换器或Σ-△(Sigma-Delta)式模数转换器。

图10是根据本公开另一个实施例的声源跟踪系统的结构示意图。图10与图9的不同之处在于，在图10所示实施例中，声源跟踪系统还包括第三音频采集电路813和第四音频采集电路814。

第三音频采集电路813、第四音频采集电路814对称设置在视频采集电路83的另两侧。视频采集电路83到第三音频采集电路813的距离和视频采集电路83到第四音频采集电路814的距离相同。例如，第一音频采集电路811、第二音频采集电路812和视频采集电路83位于第一直线上。第三音频采集电路813、第四音频采集电路814和视频采集电路83位于第二直线上。第一直线和第二直线垂直。

在一些实施例中，第一直线为水平方向，第二直线为竖直方向。声源跟踪控制装置82利用第一偏移角控制视频采集电路83在左右方向上的偏转角度。声源跟踪控制装置82利用第二偏移角控制视频采集电路83在上下方向上的偏转角度。从而能够在三维空间中实现声源跟踪。

至此，已经详细描述了本公开的实施例。为了避免遮蔽本公开的构思，没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述，完全可以明白如何实施这里公开的技术方案。

虽然已经通过示例对本公开的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本公开的范围。本领域的技术人员应该理解，可在不脱离本公开的范围和精神的情况下，对以上实施例进行修改或者对部分技术特征进行等同替换。本公开的范围由所附权利要求来限定。

Claims

一种声源跟踪控制方法，包括：

从第一音频采集电路采集的第一音频信息中提取第一音频段，并同步地从第二音频采集电路采集的第二音频信息中提取第二音频段；

根据所述第一音频段和所述第二音频段中的预设峰值之间的偏差，确定所述第一音频段和所述第二音频段的第一时间偏移量；

根据所述第一时间偏移量，确定声源相距所述第一音频采集电路的第一距离和所述声源相距所述第二音频采集电路的第二距离的第一距离差；

根据所述第一距离差，确定所述声源的第一偏移角；

根据所述第一偏移角调整视频采集电路的视频采集方向，以便所述视频采集电路对准所述声源。
根据权利要求1所述的控制方法，其中，所述根据所述第一距离差，确定所述声源的第一偏移角包括：

利用所述第一距离差，以及所述第一音频采集电路和所述第二音频采集电路之间的距离确定第一距离参数；

根据所述第一距离参数和所述第一距离差的比值确定所述声源的第一偏移角。
根据权利要求1所述的控制方法，其中，所述根据所述第一音频段和所述第二音频段中的预设峰值之间的偏差，确定所述第一音频段和所述第二音频段的第一时间偏移量包括：

根据所述第一音频段中的最大正峰值采样序号和所述第二音频段中的最大正峰值采样序号的第一差值，在所述第一音频段和所述第二音频段中选择出对应的有效正峰值，其中所述第一音频段和所述第二音频段中分别包括多个采样值；

根据所述第一音频段中的最小负峰值采样序号和所述第二音频段中的最小负峰值采样序号的第二差值，在所述第一音频段和所述第二音频段中选择出对应的有效负峰值；

根据所述第一音频段和所述第二音频段中对应的有效正峰值的采样序号偏差，以及所述第一音频段和所述第二音频段中对应的有效负峰值的采样序号偏差，确定所述第一音频段和所述第二音频段的第一采样时钟偏差；

根据所述第一采样时钟偏差和采样转换频率确定所述第一时间偏移量。
根据权利要求3所述的控制方法，其中：

所述第一音频段中的有效正峰值采样序号和所述第二音频段中对应的有效正峰值采样序号之差与所述第一差值的差在第一预设范围内；

所述第一音频段中的有效负峰值采样序号和所述第二音频段中对应的有效负峰值采样序号之差与所述第二差值的差在第二预设范围内。
根据权利要求3所述的控制方法，还包括：

判断所述第一音频段或所述第二音频段中的有效正峰值和有效负峰值的第一和值是否小于第一预设门限；

若所述第一和值小于第一预设门限，则控制所述视频采集电路进行全景拍摄。
根据权利要求5所述的控制方法，还包括：

若所述第一和值不小于第一预设门限，则判断所述第一音频段或所述第二音频段中的所述有效正峰值的数量和所述有效负峰值的数量是否相同；

在所述第一音频段或所述第二音频段中的所述有效正峰值的数量和所述有效负峰值的数量相同的情况下，进一步计算第一音频段或第二音频段中的正峰值总数和负峰值总数的第二和值；

响应于所述第一和值与所述第二和值之比大于第二预设门限，控制所述视频采集电路进行全景拍摄。
根据权利要求3所述的控制方法，还包括：

计算所述第一音频段中的所述最大正峰值采样序号和所述最小负正峰值采样序号的第三差值；

计算所述第二音频段中的所述最大正峰值采样序号和所述最小负正峰值采样序号的第四差值；

响应于所述第三差值和所述第四差值的正负性一致，且所述第三差值和所述第四差值的差在第三预设范围内，则在所述第一音频段和所述第二音频段中选择出对应的有效正峰值。
根据权利要求3所述的控制方法，还包括：

计算所述第一音频段中的正峰值总数和所述第二音频段中的正峰值总数的第五差值，以及所述第一音频段中的正峰值总数和所述第二音频段中的正峰值总数的第三和值；

计算所述第一音频段中的负峰值总数和所述第二音频段中的负峰值总数的第六差值，以及所述第一音频段中的负峰值总数和所述第二音频段中的负峰值总数的第四和值；

响应于所述第五差值与所述第三和值的比值在第四预定范围内，且所述第六差值与所述第四和值的比值在所述第五预定范围内，则在所述第一音频段和所述第二音频段中选择出对应的有效正峰值。
根据权利要求1-8中任一项所述的控制方法，还包括：

同步地从第三音频采集电路采集的第三音频信息中提取第三音频段，从第四音频采集电路采集的第四音频信息中提取第四音频段；

根据所述第三音频段和所述第四音频段中的预设峰值之间的偏差，确定所述第三音频段和所述第四音频段的第二时间偏移量；

根据所述第二时间偏移量，确定所述声源相距所述第三音频采集电路的第三距离和所述声源相距所述第四音频采集电路的第四距离的第二距离差；

根据所述第二距离差，确定所述声源的第二偏移角；

根据所述第一偏移角和所述第二偏移角调整视频采集电路的视频采集方向，以便所述视频采集电路对准所述声源。
一种声源跟踪控制装置，包括：

提取模块，被配置为从第一音频采集电路采集的第一音频信息中提取第一音频段，并同步地从第二音频采集电路采集的第二音频信息中提取第二音频段；

时间偏移量确定模块，被配置为根据所述第一音频段和所述第二音频段中的预设峰值之间的偏差，确定所述第一音频段和所述第二音频段的第一时间偏移量；

距离差确定模块，被配置为根据所述第一时间偏移量，确定声源相距所述第一音频采集电路的第一距离和所述声源相距所述第二音频采集电路的第二距离的第一距离差；

偏移角确定模块，被配置为根据所述第一距离差，确定所述声源的第一偏移角；

方向调整模块，被配置为根据所述第一偏移角调整视频采集电路的视频采集方向，以便所述视频采集电路对准所述声源。
一种声源跟踪控制装置，包括：

存储器，被配置为存储指令；

处理器，耦合到存储器，处理器被配置为基于存储器存储的指令执行实现如权利要求1-9中任一项所述的方法。
一种声源跟踪系统，包括如权利要求10或11所述的声源跟踪控制装置，以及

视频采集电路，被配置为根据所述声源跟踪控制装置的控制调整视频采集方向；

第一音频采集电路和第二音频采集电路，其中所述第一音频采集电路和所述第二音频采集电路对称设置在所述视频采集电路的两侧。
根据权利要求12所述的跟踪系统，其中：

所述声源到所述视频采集电路的距离与所述第一音频采集电路到第二音频采集电路的距离之比大于预设距离门限。
根据权利要求13所述的跟踪系统，还包括：

模数转换器，用于对第一音频采集电路采集的音频信号进行模数转换以生成第一音频信息，对第二音频采集电路采集的音频信号进行模数转换以生成第二音频信息；

所述视频采集电路包括：方向控制平台和设置在所述方向控制平台上的摄像头，所述方向控制平台被配置为根据所述声源跟踪控制装置的控制调整方向。
一种计算机可读存储介质，其中，计算机可读存储介质存储有计算机指令，所述指令被处理器执行时实现如权利要求1-9中任一项所述的方法。