WO2023143041A1

WO2023143041A1 - 信号处理方法、装置、设备及存储介质

Info

Publication number: WO2023143041A1
Application number: PCT/CN2023/071517
Authority: WO
Inventors: 张磊; 刘智辉; 梁浩恩
Original assignee: 华为技术有限公司
Priority date: 2022-01-25
Filing date: 2023-01-10
Publication date: 2023-08-03
Also published as: CN116546409A

Abstract

本申请公开了一种信号处理方法、装置、设备及存储介质，属于计算机技术领域。本申请实施例提供的信号处理方法中，基于拾音区域中的图像，检测拾音区域中第一对象发生的姿态变化，从而基于第一对象发生的姿态变化，进行相应的扩音处理。通过上述技术方案，根据检测出的拾音区域中对象的姿态变化，能够及时且精准地判断场景中的扩音需求，进而按照扩音需求对声音信号进行相应的扩音控制，有效提升了声音质量。

Description

信号处理方法、装置、设备及存储介质

技术领域

本申请涉及计算机技术领域，特别涉及一种信号处理方法、装置、设备及存储介质。

背景技术

在多人会议的场景下，需要为发言者提供扩音服务。扩音是指：将拾取到的声音进行放大并外放。在一些扩音需求变化的场景中，例如，会议现场出现突发噪音或发生私密谈话，直接对拾取到的声音进行扩音，会影响到会议中的声音质量。

因此，亟需一种信号处理方法，能够根据场景中的扩音需求进行扩音，以提高会议中的声音质量。

发明内容

本申请提供了一种信号处理方法、装置、设备及存储介质，能够有效提升声音质量。该技术方案如下：

第一方面，提供了一种信号处理方法，该方法包括：

基于拾音区域的图像，检测所述拾音区域中至少一个对象的姿态变化；

响应于所述至少一个对象中第一对象发生姿态变化，对来源于所述第一对象的声音信号进行相应的扩音处理。

其中，对象的姿态变化是指对象从一个状态变化到另一个状态，例如，从坐姿变化到站姿。

通过上述技术方案，能够根据检测出的拾音区域中对象的姿态变化，及时且精准地判断场景中的扩音需求，进而按照扩音需求对声音信号进行相应的扩音控制，有效提升了声音质量。

在一种可能实施方式中，所述基于拾音区域的图像，检测所述拾音区域中至少一个对象的姿态变化包括：

基于所述拾音区域在不同时刻的图像，分别确定所述拾音区域内的所述不同时刻对应的坐标集合，所述坐标集合包括所述至少一个对象在所述拾音区域中的坐标；

基于所述不同时刻对应的坐标集合，确定所述拾音区域中至少一个对象的姿态变化。

通过上述技术方案，基于拾音区域中的图像，持续记录各个对象在不同时刻的坐标，进而识别出各个对象在不同时刻是否发生了姿态变化，为基于对象的姿态变化进行扩音处理提供了数据基础，能够准确地确定扩音控制的对象以及相应的扩音控制方式，进而有效地提高声音质量。

在一种可能实施方式中，所述基于所述拾音区域在不同时刻的图像，分别确定所述拾音区域内的所述不同时刻对应的坐标集合包括：

每隔第一时长，对采集到的所述拾音区域的图像进行对象识别，获取识别到的至少一个对象的目标特征在所述图像中的坐标，以得到所述不同时刻对应的坐标集合。

其中，该目标特征可以是对象的人脸特征，例如，脸部中心点或者眼睛等五官。

通过上述技术方案，无需关注对象整体，仅基于对象的目标特征即可确定对象在拾音区域中的坐标，并持续基于目标特征来检测对象的坐标变化，在保证坐标准确性的同时，减少了运算量，提高了检测姿态变化的效率。

在一种可能实施方式中，所述基于所述不同时刻对应的坐标集合，确定所述拾音区域中至少一个对象的姿态变化包括：

基于所述不同时刻对应的坐标集合中的坐标，确定目标方差，所述目标方差表示所述拾音区域中至少一个对象在不同时刻的姿态变化程度；

在所述目标方差大于方差阈值的情况下，基于所述至少一个对象在所述不同时刻的坐标，确定所述至少一个对象的姿态变化。

其中，目标方差能够表示不同对象与所有对象之间的差异，因此，基于拾音区域不同时刻对应的坐标集合确定的目标方差，能够体现每一个对象的坐标相对于坐标平均值的差异，也就能够及时且准确的识别出是否存在发生姿态变化的对象。

通过上述技术方案，基于目标方差对拾音区域中发生的姿态变化进行预判断，在目标方差大于方差阈值的情况下才进行后续步骤，节省了计算资源，提高了扩音控制的效率。

在一种可能实施方式中，所述坐标包括横坐标和纵坐标，所述在所述目标方差大于方差阈值的情况下，基于所述至少一个对象在所述不同时刻的坐标，确定所述至少一个对象的姿态变化包括：

基于所述对象在所述不同时刻的纵坐标，确定所述对象的目标时刻，所述目标时刻为所述对象的纵坐标发生变化的时刻；

若所述目标时刻对应的纵坐标在第二时长内的变化幅度小于目标幅度，确定所述对象的姿态发生变化。

通过上述技术方案，结合了发生姿态变化的目标时刻之后的一段时间内的纵坐标进行判断，避免了复杂姿态变化带来的干扰，提高了识别对象姿态变化的准确性，保证了扩音控制的针对性，进而有效提高了声音质量。

在一种可能实施方式中，所述若所述目标时刻对应的纵坐标在第二时长内的变化幅度小于目标幅度，确定所述对象的姿态发生变化包括：

若所述对象的纵坐标变小，且所述目标时刻对应的纵坐标在所述第二时长内的变化幅度小于目标幅度，确定所述对象从站姿改变为坐姿；

若所述对象的纵坐标变大，且所述目标时刻对应的纵坐标在所述第二时长内的变化幅度小于目标幅度，确定所述对象从坐姿改变为站姿。

其中，由于扩音需求对应的姿态变化通常对应于纵向的姿态变化，例如，站姿到坐姿，或者，坐姿到站姿，因此，基于纵坐标来确定发生大幅度姿态变化的第一对象，能够贴合会议场景中的实际情况，有效提高了基于姿态变化进行扩音控制的准确性。

在一种可能实施方式中，所述响应于所述至少一个对象中第一对象发生姿态变化，对来源于所述第一对象的声音信号进行相应的扩音处理包括：

响应于所述至少一个对象中第一对象发生姿态变化，结合所述拾音区域中的声音信号，对来源于所述第一对象的声音信号进行相应的扩音处理。

在上述技术方案中，考虑到对象的姿态变化具有不可预测性，结合拾音区域中的声音信号对来源于第一对象的声音信号进行扩音控制，精准判断各种特殊情况下的扩音需求，有效提高基于姿态变化进行扩音控制的准确性，进而提高声音质量。

在一种可能实施方式中，所述响应于所述至少一个对象中第一对象发生姿态变化，结合所述拾音区域中的声音信号，对来源于所述第一对象的声音信号进行相应的扩音处理包括：

响应于所述至少一个对象中第一对象发生了第一姿态变化，在所述拾音区域中的声音信号的音量大于或等于音量阈值的情况下，对来源于所述第一对象的声音信号进行扩音处理；

响应于所述至少一个对象中第一对象发生了所述第一姿态变化，在所述拾音区域中的声音信号的音量小于音量阈值的情况下，对来源于所述第一对象的声音信号不进行扩音处理。

其中，通过上述技术方案，在发生姿态变化后，结合拾音区域中的声音信号的音量，对来源于第一对象的声音信号进行扩音控制，考虑到了不同场景下的扩音需求，提高了扩音控制的准确性，进而有效提高了声音质量。

响应于所述至少一个对象中第一对象发生了第一姿态变化，对所述拾音区域中的声音信号进行人声检测，在检测到人声的情况下，对来源于所述第一对象的声音信号进行扩音处理；

响应于所述至少一个对象中第一对象发生了第一姿态变化，对所述拾音区域中的声音信号进行人声检测，在未检测到人声的情况下，对来源于所述第一对象的声音信号不进行扩音处理。

其中，该第一姿态变化表示该第一对象从坐姿变化为站姿。

通过上述技术方案，在发生姿态变化后，对拾音区域中的声音信号的进行人声检测，实现对场景中的扩音需求进行更加智能的判断，提高了针对不同场景进行扩音控制的准确性，进而有效提高了声音质量。

响应于所述至少一个对象中第一对象发生了第一姿态变化，获取所述第一对象在所述拾音区域中的位置；

基于所述拾音区域中的声音信号，确定所述声音信号的声源位置；

所述第一对象位于所述声源位置时，对来源于所述第一对象的声音信号进行扩音处理。

在一些实施例中，所述声源位置是指所述声音信号对应的声源在所述拾音区域中的角度信息；

所述第一对象位于所述声源位置时，对来源于所述第一对象的声音信号进行扩音处理包括：

所述第一对象在所述拾音区域中的角度信息与所述声音信号对应的声源在所述拾音区域中的角度信息匹配的情况下，对来源于所述第一对象的声音信号进行扩音处理。

其中，所述角度信息可以是所述声音信号对应的声源相对于拾音区域中的麦克风阵列的角度，结合基于麦克风阵列在拾音区域中的位置，即可确定拾音区域中声音信号的声源位置。

通过上述技术方案，在发生姿态变化后，通过对比拾音区域中的声源位置与发生姿态变化的第一对象的位置，判断场景中的扩音需求，进一步提高了针对不同场景进行扩音控制的准确性，进而有效提高了声音质量。

响应于所述至少一个对象中第一对象发生了第二姿态变化，对来源于所述第一对象的声音信号不进行扩音处理。

该第二姿态变化表示第一对象从站姿变化为坐姿。

第二方面，提供了一种信号处理方法，该方法包括：

从拾音区域的多个拾音设备中确定目标声源的目标拾音设备，所述目标拾音设备与所述目标声源之间的距离满足目标条件；

对来源于所述目标拾音设备的声音信号进行扩音处理。

上述技术方案中，通过确定目标声源的目标拾音设备，能够及时且精准地对目标声源的声音信号进行扩音控制，有效提高了声音质量。

在一种可能实施方式中，所述拾音区域配置有所述多个拾音设备和遥控设备，所述从拾音区域的多个拾音设备中确定目标声源的目标拾音设备包括：

基于所述遥控设备和所述多个拾音设备之间的信号交互，确定所述遥控设备和所述多个拾音设备之间的距离；

基于所述遥控设备和所述多个拾音设备之间的距离，确定所述目标拾音设备。

上述技术方案中，基于遥控设备与拾音设备之间的信号交互，能够根据遥控设备的位置，实时确定目标声源的目标拾音设备，进而及时且精准地对目标声源的声音信号进行扩音控制，有效提高了声音质量。

在一种可能实施方式中，所述基于所述遥控设备和所述多个拾音设备之间的信号交互，确定所述遥控设备和所述多个拾音设备之间的距离包括：

获取所述遥控设备与所述多个拾音设备之间进行信号交互的时间信息，所述时间信息包括所述遥控设备记录的交互时间以及所述多个拾音设备记录的交互时间；

基于所述时间信息，确定所述遥控设备和所述多个拾音设备之间的距离。

其中，以多个拾音设备中的第一拾音设备为例，该遥控设备与第一拾音设备进行信号交互的时间信息包括：遥控设备向第一拾音设备发送信号的时刻T _a1；第一拾音设备接收到遥控设备发送的信号的时刻T _b1；第一拾音设备在接收到遥控设备发送的信号之后，向遥控设备发送信号的时刻T _b2；遥控设备接收到第一拾音设备发送的信号的时刻T _a2。

通过上述技术方案，基于遥控设备与多个拾音设备之间一对多的信号交互过程，能够同步获取多个拾音设备与遥控设备之间的时间信息，大大提高了获取时间信息的效率。

在一种可能实施方式中，所述获取所述遥控设备与所述多个拾音设备之间进行信号交互的时间信息包括：

从所述遥控设备接收所述遥控设备记录的交互时间以及所述多个拾音设备记录的交互时间；或，

从所述遥控设备接收所述遥控设备记录的交互时间，从所述多个拾音设备接收所述多个拾音设备记录的交互时间。

上述技术方案中，提供了多种方式从不同的设备获取时间信息，使得本申请实施例提供的信号处理方法能够灵活地适配不同的应用场景。其中，仅从遥控设备获取时间信息的方式，能够减少会议终端与拾音设备进行信号交互的次数，简化会议终端获取时间信息的过程，提高获取时间信息的效率。

从所述遥控设备接收所述遥控设备和所述多个拾音设备之间的距离，所述距离由所述遥控设备基于所述遥控设备与所述多个拾音设备之间进行信号交互的过程中记录的交互时间确定。

通过上述技术方案，会议终端直接基于获取到的距离即可确定目标拾音设备，在减少会议终端与多个拾音设备进行信号交互的次数的同时，充分利用到了遥控设备的运算能力，减轻了会议终端的运算负荷。

在一种可能实施方式中，所述信号交互通过蓝牙、超声波、超宽带和无线局域网中任一种方式进行。

在一种可能实施方式中，所述从拾音区域的多个拾音设备中确定目标声源的目标拾音设备之前，所述方法还包括：

所述遥控设备与所述多个拾音设备进行时间同步。

遥控设备与多个拾音设备之间进行时间同步，能够确保各个设备记录交互时间处于同一时间体系中，保证确定出的交互时间的准确性，进而保证确定出的距离的准确性。

在一种可能实施方式中，所述从拾音区域的多个拾音设备中确定目标声源的目标拾音设备包括：

获取所述多个拾音设备对所述目标声源的定位信息；

基于所述定位信息，确定所述目标声源与所述多个拾音设备之间的距离；

将与所述目标声源之间的距离满足所述目标条件的拾音设备，确定为所述目标拾音设备。

在一种可能实施方式中，所述多个拾音设备为多个麦克风阵列，

所述定位信息包括所述多个麦克风阵列与所述目标声源之间的角度信息。

在一种可能实施方式中，所述方法还包括：

在所述目标声源不在所述拾音区域的有效拾音范围内的情况下，不对来源于所述目标拾音设备的声音信号进行扩音处理；

在所述目标声源在所述拾音区域的有效拾音范围内的情况下，对来源于所述目标拾音设备的声音信号进行扩音处理。

对所述多个拾音设备的声音信号进行降噪处理。

通过对声音信号进行降噪处理，可以避免拾音区域中的突发噪音对目标声源的定位信息的准确性造成影响，进而提高声音质量。

第三方面，提供了一种信号处理装置，该装置包括多个功能模块，用于执行如第一方面所提供的信号处理方法中的对应步骤。

第四方面，提供了一种信号处理装置，该装置包括多个功能模块，用于执行如第二方面所提供的信号处理方法中的对应步骤。

第五方面，提供了一种信号处理设备，该信号处理设备包括处理器和存储器，该存储器用于存储至少一段程序代码，该至少一段程序代码由该处理器加载并执行上述的信号处理方法。

第六方面，提供了一种计算机可读存储介质，该计算机可读存储介质用于存储至少一段程序代码，该至少一段程序代码用于执行上述的信号处理方法。

第七方面，提供了一种计算机程序产品，当该计算机程序产品在信号处理设备上运行时，使得该信号处理设备执行上述的信号处理方法。

附图说明

图1是本申请实施例提供的一种信号处理系统的架构示意图；

图2是本申请实施例提供的一种信号处理系统的部署示意图；

图3是本申请实施例提供的一种信号处理方法的流程图；

图4是本申请实施例提供的一种对象坐标的示意图；

图5是本申请实施例提供的一种声源位置的示意图；

图6是本申请实施例提供的一种信号处理系统的架构示意图；

图7是本申请实施例提供的一种信号处理系统的部署示意图；

图8是本申请实施例提供的一种信号处理方法的流程图；

图9是本申请实施例提供的一种信号交互过程的示意图；

图10是本申请实施例提供的一种TW-TOF测距方法的示意图；

图11是本申请实施例提供的一种信号处理系统的部署示意图；

图12是本申请实施例提供的一种信号处理方法的流程图；

图13是本申请实施例提供的一种定位信息获取过程的示意图；

图14是本申请实施例提供的一种距离确定原理的示意图；

图15是本申请实施例提供的一种目标声源不在有效拾音范围内的示意图；

图16是本申请实施例提供的一种信号处理装置的结构示意图；

图17是本申请实施例提供的一种信号处理装置的结构示意图；

图18是本申请实施例提供的一种信号处理设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

在介绍本申请实施例提供的技术方案之前，下面先对本申请涉及的专业术语进行说明。

双向飞行时间法(two way-time of flight，TW-TOF)：利用信号在两个异步收发机(transceiver)之间的飞行时间来测量两个异步收发机对应的节点间的距离。

超宽频(ultra-wideband，UWB)技术是在较宽的频谱上传送极低功率的信号的技术，能实现数百Mbit/s至2Gbit/s的数据传输速率，具有穿透力强、功耗低、抗干扰效果好、安全性高、空间容量大、能精确定位等诸多优点。

接下来对本申请实施例的技术方案进行介绍：

本申请实施例提供了一种信号处理方法，应用于包括图像采集设备的信号处理系统中，该信号处理系统中的信号处理设备能够基于图像采集设备采集的拾音区域的图像，检测拾音区域中对象的姿态变化，从而在拾音区域中的第一对象发生姿态变化的情况下，对来源于第一对象的声音信号进行相应的扩音处理。通过上述技术方案，能够根据检测出的拾音区域中对象的姿态变化，及时且精准地判断场景中的扩音需求，进而按照扩音需求对声音信号进行相应的扩音控制，有效提升了声音质量。

本申请实施例提供了另一种信号处理方法，应用于包括多个拾音设备的信号处理系统中，该信号处理系统中的信号处理设备能够从拾音区域的多个拾音设备中，确定与目标声源之间的距离满足目标条件的目标拾音设备，从而对来源于该目标拾音设备的声音信号进行扩音处理。上述技术方案中，通过确定目标声源的目标拾音设备，能够及时且精准地对目标声源的声音信号进行扩音控制，有效提高了声音质量。

其中，拾音设备用于拾取声音信号。拾音设备具有多种形态，例如，拾音设备可以是麦克风或麦克风阵列等。该麦克风可以是固定麦克风，例如，桌面嵌入式的麦克风；该麦克风还可以是可移动的麦克风。其中，麦克风阵列是指将多个麦克风(单元)按照某种空间结构进行排列得到的阵列结构，麦克风阵列根据阵列结构的空间特性，能够对多个方向的声音信号进行处理，得到各个角度范围内的声音信号。根据不同的使用场景，能够选择不同形态的拾音设备来拾取声音信号，本申请实施例中对拾音设备的形态不做限定。

图1是本申请实施例提供的一种信号处理系统的架构示意图。如图1所示，该信号处理系统包括：图像采集设备110、拾音设备120、信号处理设备130以及扩音设备140。其中，该图像采集设备110用于采集拾音区域的图像；该拾音设备120用于拾取拾音区域中的声音信号；该信号处理设备130用于基于拾音区域的图像，检测拾音区域中对象的姿态变化，并基于检测出的姿态变化，确定对拾音区域中的声音信号的扩音控制方式，并基于扩音控制方式生成相应的扩音控制指令并向扩音设备140发送，其中，该扩音控制方式包括：打开扩音和关闭扩音；该扩音设备140响应于接收到扩音控制指令，按照扩音控制指令指示的扩音控制方式，对声音信号进行扩音，或者，不对声音信号进行扩音。

基于图1对应的信号处理系统的架构，本申请实施例提供了一种信号处理系统的部署示意图，该信号处理系统应用于会议场景中，拾音区域即为会场，拾音区域中的至少一个对象也即是会场中的至少一个与会人。如图2所示，该信号处理系统包括：作为图像采集设备的摄像头210；作为拾音设备的麦克风阵列220；作为信号处理设备的会议终端230；作为扩音设备的扬声器240。其中，该摄像头210部署在会场中，用于采集会场图像。可选地，该摄像头210包括多个摄像头，分别部署在会场中的不同位置，通过该多个摄像头，能够获得更完整的会场图像。其中，该麦克风阵列220用于拾取会场中的声音信号。可选地，通过将该麦克风阵列220部署在会场墙壁的中间位置，使得麦克风阵列220的拾音范围能够均匀地覆盖会场。其中，该会议终端230基于摄像头210采集的会场图像，检测各个与会人的姿态变化，并针对麦克风阵列220拾取的声音信号，生成相应的扩音控制指令，该扩音控制指令指示对声音信号进行相应的扩音处理。该扬声器240响应于接收到扩音控制指令，在扩音控制指令指示对声音信号进行扩音的情况下，对声音信号进行放大并输出放大后的声音；在扩音控制指令指示不对声音信号进行扩音的情况下，不输出声音。图2中是以摄像头210和麦克风阵列220为分别独立于会议终端230以外的设备为例进行说明，可选地，摄像头210、麦克风阵列220可以内置在会议终端230中，作为一个设备部署在会场中。

图3是本申请实施例提供的一种信号处理方法的流程图。该方法应用于图2对应的信号处理系统中，该信号处理系统包括摄像头210、麦克风阵列220、会议终端230以及扬声器240，该信号处理方法由会议终端230执行。如图3所示，该方法包括：

301、会议终端基于拾音区域在不同时刻的图像，分别确定该拾音区域内的不同时刻对应的坐标集合，该坐标集合包括至少一个对象在拾音区域中的坐标。

其中，该拾音区域中存在至少一个对象，则摄像头采集到的拾音区域的图像中，包括至少一个对象在拾音区域中的位置。

在一些实施例中，摄像头的位置固定，摄像头采集到的图像是摄像头采集范围内拾音区域的图像。会议终端基于从摄像头接收到拾音区域的图像，确定拾音区域的参考坐标系，基于此，拾音区域中至少一个对象在拾音区域中的坐标，即可用参考坐标系中的坐标来表示。为了便于理解上述过程，本申请实施例提供了一种对象坐标的示意图，如图4所示，拾音区域的初始图像中，包括四个对象，拾音区域的参考坐标系以拾音区域的图像的左下角为原点(0，0)，参考坐标系的x轴范围即为图像的横向宽度，参考坐标系的y轴范围即为图像的纵向长度。其中，对象的脸部所占的图像区域的中心点坐标是对象在拾音区域的参考坐标系中的坐标。如图4所示，对象1的坐标为(x ₁，y ₁)，对象2的坐标为(x ₂，y ₂)，对象3的坐标为(x ₃，y ₃)，对象4的坐标为(x ₄，y ₄)。

在一些实施例中，会议终端根据摄像头在不同时刻采集的图像，用坐标集合记录不同时刻至少一个对象在参考坐标系中的坐标。在这种示例下，拾音区域初始时刻的坐标集合即包括上述图4中的初始图像对应的四个对象的坐标。随着摄像头不断采集下一时刻的图像，会议终端基于不同时刻的图像即可确定不同时刻对应的坐标集合。

在一些实施例中，每隔第一时长，会议终端对摄像头采集到的拾音区域的图像进行对象识别，获取识别到的至少一个对象的目标特征在该图像中的坐标，以得到不同时刻对应的坐标集合。可选地，该目标特征是至少一个对象的人脸特征，例如，脸部中心点或者眼睛等五官。会议终端对图像进行识别，基于识别出的人脸特征即可确定人脸，从而用人脸特征在图像中的坐标，表示对象在拾音区域中的坐标。可选地，人脸特征在图像中的坐标可以是人脸特征所占的图像区域的中心点坐标，例如，对象的脸部中心点的坐标，参见上述图4。

在一些实施例中，由于至少一个对象在拾音区域中的坐标是基于人脸识别确定的，对象的坐标变化能够用于表示对象的姿态变化。例如，从一个时刻到下一个时刻，若对象从坐姿改变为站姿，相应地该对象的人脸会向上移动，则对象的纵坐标会增大；若对象从站姿改变为坐姿，相应地该对象的人脸会向下移动，则对象的纵坐标会减小。可以理解地，在会议场景中，与会人从坐姿改变为站姿，表示该与会人需要发言，则需要扩音；与会人从站姿变坐姿，表示该与会人停止发言，则不需要继续扩音。基于此，能够基于不同时刻该至少一个对象在该拾音区域中的坐标，判断至少一个对象是否存在扩音需求。

通过上述技术方案，基于拾音区域中的图像，持续记录各个对象在不同时刻的坐标，进而识别出各个对象在不同时刻是否发生了姿态变化，为基于对象的姿态变化进行扩音处理提供了数据基础，能够准确的确定扩音控制的对象以及相应的扩音控制方式，进而有效地提高声音质量。

在一些实施例中，会议终端能够在确定该至少一个对象在拾音区域中的坐标的同时，确定每个对象的身份。在这种示例下，会议终端关联有人脸数据库，该人脸数据库中存储有多个已知对象的人脸数据。可选地，该人脸数据包括每个已知对象的人脸特征数据，例如，对象的眼睛特征数据。基于此，会议终端基于从拾音区域的图像中识别出的人脸，与该人脸数据库中的人脸数据进行匹配，在该识别到的人脸与任一已知对象的人脸数据匹配的情况下，则确定识别到的人脸为该已知对象的人脸，进而将所识别到的人脸的坐标，确定为该已知对象在拾音区域中的坐标。可选地，人脸数据库中的每个已知对象具有对象标识，通过将识别到的人脸的人脸特征在图像中的坐标与和匹配的已知对象的对象标识进行绑定，能够在确定对象在拾音区域中的坐标的同时，确定对象身份。在一些实施例中，在识别到的人脸与人脸数据库中任一已知对象的人脸数据都不匹配的情况下，可以为识别到的人脸对应的对象创建新的对象标识，并写入该识别到的人脸对应的对象的身份信息，实现在人脸数据库中新添加新对象的目的。

通过上述技术方案，无需关注对象整体，仅基于对象的目标特征即可确定对象在拾音区域中的坐标，并持续基于目标特征来检测对象的坐标变化，在保证坐标准确性的同时，减少了运算量，提高了检测姿态变化的效率。进一步地，基于人脸数据库来识别对象的身份，能够防止未经许可的对象参与到会议中，为会议进行提供了安全保障。

302、会议终端基于拾音区域不同时刻对应的坐标集合中的坐标，确定目标方差，该目标方差表示拾音区域中至少一个对象在不同时刻的姿态变化程度。

在一些实施例中，由于该坐标集合中的坐标能够表示对象的姿态，因此，该目标方差能够表示拾音区域中至少一个对象在不同时刻的姿态变化程度，该至少一个对象的姿态变化越明显，则目标方差的值越大，例如，在T ₁时刻，拾音区域中的N个对象均为坐姿，在T ₁之后的T ₂时刻，N个对象中的对象A从坐姿改变为站姿，则在T ₂时刻，对象A的坐标相对于N个对象的坐标平均值的差异要大于T ₁时刻。其中，目标方差的计算参见公式(1)。

D(x)＝E{Σ[X-E(X)] ²} (1)

其中，D(x)是当前时刻的目标方差，X是当前时刻对应的至少一个对象的当前坐标，E(x)是坐标集合中各个坐标的坐标平均值，该坐标集合包括不同时刻对应的坐标集合。

303、在目标方差大于方差阈值的情况下，会议终端基于至少一个对象在不同时刻对应的坐标集合中的纵坐标，确定至少一个对象中第一对象的目标时刻，该目标时刻为第一对象的纵坐标发生变化的时刻。

在一些实施例中，该目标方差大于方差阈值，说明该至少一个对象在不同时刻的姿态变化程度足够明显，也即是，该至少一个对象中存在姿态变化，例如，从站姿改变为坐姿。相应地，若该目标方差小于方差阈值，说明该至少一个对象未发生姿态变化，或者，发生了一些幅度较小的姿态变化，例如，轻微晃动头部。

可以理解地，方差阈值的大小决定了会议终端检测姿态变化的灵敏程度，方差阈值越小，会议终端对拾音区域中对象的姿态变化越敏感。在一些实施例中，具有高分辨率摄像头能够捕捉到十分细微的姿态变化，也即是，具有高分辨率摄像头对姿态变化十分敏感。因此，在摄像头具有高分辨率的情况下，为了避免大量细微的姿态变化影响到对扩音需求对应的姿态变化的检测，可以相应增大方差阈值，保证姿态检测的准确性。

在一些实施例中，会议终端从该至少一个对象中，根据对象的纵坐标，进一步确定出发生了姿态变化的第一对象。可选地，会议终端能够基于对象的对象标识，从不同时刻对应的坐标集合中，获取同一对象对应的不同时刻的纵坐标，进而将纵坐标发生变化的对象确定为第一对象，并获取第一对象纵坐标发生变化的目标时刻。可以理解地，由于扩音需求对应的姿态变化通常对应于纵向的姿态变化，例如，站姿到坐姿，或者，坐姿到站姿，因此，基于纵坐标来确定发生大幅度姿态变化的第一对象，能够贴合会议场景中的实际情况，有效提高基于姿态变化进行扩音处理的准确性。当然，出于不同场景的考虑，能够根据不同维度的数据来确定发生姿态变化的对象，本申请实施例对此不做限定。

304、若目标时刻对应的纵坐标在第二时长内的变化幅度小于目标幅度，会议终端确定第一对象的姿态发生变化。

在一些实施例中，在确定了第一对象的纵坐标在目标时刻发生变化之后，需要结合第一对象的纵坐标变化的趋势来确定第一对象发生了何种姿态变化。其中，若该对象的纵坐标变小，且该目标时刻对应的纵坐标在该第二时长内的变化幅度小于目标幅度，则能够确定该对象从站姿改变为坐姿；若该对象的纵坐标变大，且该目标时刻对应的纵坐标在该第二时长内的变化幅度小于目标幅度，则能够确定该对象从坐姿改变为站姿。

可以理解地，第一对象出于扩音需求发生的姿态变化应该是从一个稳定状态变化到另一个稳定状态，例如，从持续坐姿变化到持续站姿。若第一对象的纵坐标在目标时刻之后的第二时长内变化明显，也即是，变化幅度大于目标幅度，说明第一对象变化后的状态并不稳定，例如，第一对象一开始为坐姿，在目标时刻站起取物后又迅速坐下。在这种情况下，会议终端判断该第一对象发生的姿态变化并非是由于扩音需求而发生的，从而不会进行相应的扩音控制。

305、响应于至少一个对象中第一对象发生姿态变化，会议终端结合拾音区域中的声音信号，对来源于第一对象的声音信号进行相应的扩音处理。

其中，会议终端基于第一对象发生的姿态变化能够确定第一对象的扩音需求，进而根据扩音需求确定相应的扩音控制方式，例如，在需要扩音的情况下，则扩音控制方式为打开扩音；在不需要扩音的情况下，则扩音控制方式为关闭扩音。会议终端基于针对第一对象确定的扩音控制方式，生成针对来源于第一对象的声音信号的扩音控制指令，并向信号处理系统中的扬声器发送该扩音控制指令。在一些实施例中，该扩音控制指令包括扩音打开指令以及扩音关闭指令。该扩音打开指令指示扬声器对声音信号进行放大并输出放大后的声音；该扩音关闭指令指示扬声器不输出声音。本申请实施例对会议终端进行相应扩音控制的方式不做限定。

在一些实施例中，第一对象发生的姿态变化为第一姿态变化，该第一姿态变化表示该第一对象从坐姿变化为站姿。可以理解地，在一些特殊情况下，该第一对象从坐姿变化为站姿并不一定表示该第一对象存在扩音需求，例如，该第一对象的姿态从坐姿变化为站姿，并慢步走出拾音区域，期间并未发出声音。此时，结合第一对象的姿态发生变化后拾音区域中的声音信号，能够进一步排除此类特殊情况。

方式一、结合拾音区域中的声音信号的音量。

在一些实施例中，会议终端响应于第一对象发生了第一姿态变化，在拾音区域中的声音信号的音量大于或等于音量阈值的情况下，对来源于第一对象的声音信号进行扩音处理。可以理解地，拾音区域中的声音信号的音量大于或等于音量阈值，表示拾音区域中大概率存在需要扩音的声音。此时，结合第一对象发生了第一姿态变化，可以认为是该第一对象发生第一姿态变化后进行了发言，也即是，该第一对象存在扩音需求，则对来源于第一对象的声音信号进行扩音处理。

在另一些实施例中，会议终端响应于第一对象发生了第一姿态变化，在拾音区域中的声音信号的音量小于音量阈值的情况下，对来源于该第一对象的声音信号不进行扩音处理。相应地，拾音区域中的声音信号的音量小于音量阈值，表示拾音区域中大概率不存在需要扩音的声音。此时，即使第一对象发生了第一姿态变化，依旧认为该第一对象不存在扩音需求，则对来源于第一对象的声音信号不进行扩音处理。

通过上述技术方案，在发生姿态变化后，结合拾音区域中的声音信号的音量，对来源于第一对象的声音信号进行扩音处理，考虑到了不同场景下的扩音需求，提高了扩音处理的准确性，进而有效提高了声音质量。

方式二、对拾音区域中的声音信号进行人声检测。

在一些实施例中，会议终端响应于第一对象发生了第一姿态变化，对拾音区域中的声音信号进行人声检测，对来源于该第一对象的声音信号进行扩音处理。可以理解地，在拾音区域中检测到人声，表示拾音区域中大概率有人在发言。此时，结合第一对象发生了第一姿态变化，可以认为是该第一对象发生第一姿态变化后进行了发言，也即是，该第一对象存在扩音需求，则对来源于第一对象的声音信号进行扩音处理。

在另一些实施例中，会议终端响应于第一对象发生了第一姿态变化，对拾音区域中的声音信号进行人声检测，在未检测到人声的情况下，对来源于第一对象的声音信号不进行扩音处理。相应地，在拾音区域中未检测到人声，表示拾音区域中大概率无人在发言。此时，即使第一对象发生了第一姿态变化，依旧认为该第一对象不存在扩音需求，则对来源于第一对象的声音信号不进行扩音处理。

通过上述技术方案，在发生姿态变化后，对拾音区域中的声音信号的进行人声检测，实现对场景中的扩音需求进行更加智能的判断，提高了针对不同场景进行扩音处理的准确性，进而有效提高了声音质量。

方式三、结合拾音区域中的声音信号的声源位置。

在另一些实施例中，第一对象发生的姿态变化为第一姿态变化，拾音区域中的声音信号的音量大于音量阈值，且，该拾音区域中存在人声，但该第一对象并不存在扩音需求，例如，该第一对象的姿态从坐姿变化为站姿，随后该第一对象走出拾音区域且未发出声音，在此期间拾音区域中的其他对象正在进行发言，也即是，发生第一姿态变化的第一对象，并不是拾音区域中的声音信号对应的声源。此时，结合第一对象的姿态发生变化后拾音区域中的声音信号的声源位置，能够进一步排除此类特殊情况。结合拾音区域中的声音信号的声源位置，对来源于第一对象的声音信号进行相应的扩音处理的过程包括下述步骤1至步骤3：

步骤1、会议终端响应于第一对象发生了第一姿态变化，获取第一对象在拾音区域中的位置。

在一些实施例中，会议终端通过获取第一对象在拾音区域中的坐标，并结合摄像头在拾音区域中的部署位置，能够确定第一对象在拾音区域中的位置。

步骤2、会议终端基于拾音区域中的声音信号，确定该声音信号的声源位置。

在一些实施例中，会议终端通过麦克风阵列，获取声音信号的声源相对于麦克风阵列的位置，进而基于麦克风阵列在拾音区域中的位置，确定拾音区域中声音信号的声源位置。可选地，该麦克风阵列获取声源相对于麦克风阵列的角度，以确定声源相对于麦克风阵列的位置。在一些实施例中，基于声源相对于麦克风阵列的角度，进一步结合声音信号到达麦克风阵列的不同麦克风(单元)的时延，能够确定声源相对于麦克风阵列的距离，从而根据麦克风阵列在拾音区域中的位置，即可确定声音信号在拾音区域中的声源位置。

步骤3、在第一对象位于声音信号的声源位置时，会议终端对来源于该第一对象的声音信号进行扩音处理。

在一些实施例中，第一对象位于声音信号的声源位置，表示该第一对象发生了第一姿态变化，且，第一对象即为拾音区域中发出声音的声源，因此，可以认为该第一对象存在扩音需求，对来源于该第一对象的声音信号进行扩音处理。

本申请实施例提供了一种声源位置的示意图，如图5所示，会议终端基于麦克风阵列501拾取的拾音区域中的声音信号，确定声音信号对应的声源502的声源位置，并获取第一对象503的位置，与声源位置进行对比，其中，第一对象503的位置基于摄像头504采集的图像确定。

需要说明的是，出于不同的需求，可以对上述方式一、方式二和方式三进行组合后使用，以对不同场景中的扩音需求进行更加精准的判断，从而针对性提高扩音处理的准确性，以提升声音质量，本申请实施例对此不做限定。

在一些实施例中，该第一对象发生的姿态变化为第二姿态变化，该第二姿态变化表示第一对象变化不存在扩音需求，例如，从站姿变化为坐姿。因此，响应于该至少一个对象中第一对象发生了第二姿态变化，无需结合声音信号，会议终端对来源于该第一对象的声音信号不进行扩音处理。

在上述技术方案中，考虑到对象的姿态变化具有不可预测性，结合拾音区域中的声音信号对来源于第一对象的声音信号进行扩音处理，精准判断各种特殊情况下的扩音需求，有效提高基于姿态变化进行扩音处理的准确性，进而提高声音质量。

通过上述技术方案，根据检测出的拾音区域中对象的姿态变化，能够及时且精准地判断场景中的扩音需求，进而按照扩音需求对声音信号进行相应的扩音控制，有效提升了声音质量。

图6是本申请实施例提供的另一种信号处理系统的架构示意图。如图6所示，该信号处理系统包括：多个支持定位功能的拾音设备610、信号处理设备620以及扩音设备630。其中，该支持定位功能的拾音设备610用于拾取拾音区域中的声音信号，并获取关于拾音区域中目标声源的信息；该信号处理设备620从拾音设备610获取拾音区域中的声音信号以及关于目标声源的信息，从多个拾音设备610中，确定出目标声源的目标拾音设备以及对目标声源的扩音控制方式，基于此，生成针对来源于目标拾音设备的声音信号的扩音控制指令，并向扩音设备630发送，其中，该扩音控制方式包括：打开扩音和关闭扩音；该扩音设备630响应于接收到扩音控制指令，按照扩音控制指令指示的扩音控制方式，对来源于目标拾音设备的声音信号进行扩音，或者，不对来源于目标拾音设备的声音信号进行扩音。

基于图6对应的信号处理系统，本申请实施例提供了一种信号处理系统的部署示意图，该信号处理系统应用于会议场景中，拾音区域即为会场。如图7所示，该信号处理系统包括：作为多个支持定位功能的拾音设备的多个支持定位功能的麦克风710；用于和麦克风710进行信号交互的遥控设备720；作为信号处理设备的会议终端730；作为扩音设备的扬声器740。其中，该多个带有定位功能的麦克风710用于拾取会场中的声音信号，并与遥控设备720进行信号交互。其中，该遥控设备720的位置代表目标声源的位置。该会议终端730基于麦克风710与遥控设备720之间的信号交互，能够从会场中的多个麦克风710中，确定目标声源的目标麦克风以及对目标声源的扩音控制方式，进而生成针对来源于目标麦克风的声音信号的扩音控制指令；可选地，目标麦克风是距离目标声源最近的麦克风。该扬声器740响应于接收到该扩音控制指令，按照扩音控制指令指示的扩音控制方式，对来源于目标麦克风的声音信号进行放大并输出放大后的声音，或者，不输出来源于目标麦克风的声音信号。

图8是本申请实施例提供的一种信号处理方法的流程图。该方法应用于图7对应的信号处理系统中，该信号处理方法由会议终端730执行。如图8所示，该方法包括：

801、会议终端获取遥控设备与多个麦克风之间进行信号交互的时间信息，该时间信息包括该遥控设备记录的交互时间以及多个麦克风记录的交互时间。

其中，以多个麦克风中的第一麦克风为例，该遥控设备与第一麦克风进行信号交互的时间信息包括：遥控设备向第一麦克风发送信号的时刻T _a1；第一麦克风接收到遥控设备发送的信号的时刻T _b1；第一麦克风在接收到遥控设备发送的信号之后，向遥控设备发送信号的时刻T _b2；遥控设备接收到第一麦克风发送的信号的时刻T _a2。

在一些实施例中，以多个麦克风中的第一麦克风为例，会议终端从遥控设备接收遥控设备记录的交互时间T _a1和T _a2，从第一麦克风接收该第一麦克风记录的交互时间T _b1和T _b2。

在另一些实施例中，以多个麦克风中的第一麦克风为例，第一麦克风在接收到遥控设备发送的信号之后，向遥控设备发送信号，并在向遥控设备发送的信号中携带T _b1和T _b2，基于此，会议终端能够从该遥控设备接收遥控设备记录的交互时间T _a1和T _a2以及第一麦克风记录的交互时间T _b1和T _b2。通过这种方式来获取信号交互的时间信息，能够减少会议终端与麦克风进行信号交互的次数，简化会议终端获取时间信息的过程，提高获取时间信息的效率。

需要说明的是，多个麦克风中的其他麦克风与上述第一麦克风同理，在此不作赘述。

上述技术方案中，提供了多种方式从不同的设备获取时间信息，使得本申请实施例提供的信号处理方法能够灵活地适配不同的应用场景。

本申请实施例提供了一种信号交互过程的示意图，如图9所示，拾音区域中部署有麦克风901、麦克风902、麦克风903以及麦克风904，遥控设备905向各个麦克风发送信号，信号经过各个麦克风对应的发送时延t _i(i＝1，2，3，4)后被各个麦克风接收；各个麦克风在接收到遥控设备发送的信号之后，分别向遥控设备905发送回复信号，回复信号经过各个麦克风对应的回复时延t _ireply(i＝1，2，3，4)后分别被遥控设备905接收。在上述信号交互的过程中，各个麦克风以及遥控设备各自记录对应的交互时间，并向会议终端906发送。

需要说明的是，上述信号交互可以通过蓝牙、超声波、超宽带和无线局域网中任一种方式进行，本申请实施例对此不做限定。

在一些实施例中，会议终端在获取遥控设备与多个麦克风之间进行信号交互的时间信息的同时，能够从遥控设备获取相应的扩音控制信息，例如，打开扩音、关闭扩音或增大音量等。会议终端基于扩音控制信息，即可确定对目标声源的扩音控制方式，该扩音控制方式包括：打开扩音、关闭扩音、增大音量以及减小音量等。

在一些实施例中，在信号交互过程开始之前，遥控设备与多个麦克风之间进行时间同步，以保证其各自记录交互时间处于同一时间体系中，保证确定出的交互时间的准确性，进而保证确定出的距离的准确性。

通过上述技术方案，基于遥控设备与多个麦克风之间一对多的信号交互过程，能够同步获取多个麦克风与遥控设备之间的时间信息，大大提高了获取时间信息的效率。

802、会议终端基于该时间信息，确定该遥控设备和多个麦克风之间的距离。

在一些实施例中，以多个麦克风中的第一麦克风为例，会议终端基于第一麦克风对应的T _a1、T _b1、T _b2以及T _a2，采用TW-TOF测距方法，能够确定第一麦克风与遥控设备之间的距离，确定过程参见公式(2)至公式(3)。

d ₁＝t ₁*c (3)

其中，T _a1、T _b1、T _b2以及T _a2的定义参见步骤801；t ₁是信号从第一麦克风到遥控设备经过的时延；c是光速；d ₁是第一麦克风与遥控设备之间的距离。

为了便于理解上述过程，本申请实施例提供了一种TW-TOF测距方法的示意图，如图10所示，模块A向模块B发送一个数据包A，并记录下发包时刻T _a1；模块B接收到数据包A，记录下收包时刻T _b1；模块B等待T _reply时长后，向模块A发送数据包B，并记录下发包时刻T _b2(T _b2＝T _reply+T _b1)；模块A接收到数据包B，并记录下收包时刻T _a2。则根据公式(2)和公式(3)，能够计算出模块A和模块B之间的距离d ₁。

通过上述技术方案，基于TW-TOF测距方法将多个麦克风对应的时间信息转化为可供参考的距离，保证了确定出的距离的精确度。

在另一些实施例中，遥控设备基于该遥控设备与该多个麦克风之间进行信号交互的过程中记录的交互时间，确定多个麦克风和遥控设备之间的距离，会议终端直接从该遥控设备接收该多个麦克风和遥控设备之间的距离。通过上述技术方案，会议终端直接基于获取到的距离即可确定目标拾音设备，在减少会议终端与多个拾音设备进行信号交互的次数的同时，充分利用到了遥控设备的运算能力，减轻了会议终端的运算负荷。

803、会议终端基于遥控设备和多个麦克风之间的距离，确定目标麦克风，该目标麦克风与目标声源之间的距离满足目标条件。

在本申请实施例中，该目标条件是指：在多个麦克风之中，与目标声源之间的距离最近。可以理解地，该目标声源的位置即为遥控设备的位置，因此，距离遥控设备最近的麦克风即为距离目标声源最近的麦克风，也即是，距离遥控设备最近的麦克风即为目标声源的目标麦克风。通过上述技术方案，能够根据场景实际需求来设置目标条件，以确定所需的目标麦克风，进而精确地针对来源于目标麦克风的声音信号进行扩音控制，有效提高声音质量。

在另一些实施例中，可以根据实际需求，设置目标条件，例如，出于不需要拾取目标声源的声音的目的，该目标条件可以是：在多个麦克风之中，与目标声源之间的距离最远。本申请实施例对此不作限定。

804、会议终端对来源于目标麦克风的声音信号进行扩音处理。

其中，会议终端在确定了目标声源的目标麦克风之后，获取来源于目标麦克风的声音信号，基于来源于目标麦克风的声音信号，生成对应的扩音控制指令，并向信号处理系统中的扬声器发送扩音控制指令。

在一些实施例中，会议终端基于针对目标声源的扩音控制方式，确定针对来源于目标麦克风的声音信号的扩音控制指令，并向扬声器发送该扩音控制指令，该扩音控制指令指示扬声器按照相应的扩音控制方式对来源于目标麦克风的声音信号进行扩音控制。扬声器响应于接收到针对来源于目标麦克风的声音信号的扩音控制指令，按照该扩音控制指令指示的扩音控制方式，对来源于该目标麦克风的声音信号进行放大并输出放大后的声音，或者，不输出来源于目标麦克风的声音信号对应的声音。

在一些实施例中，会议终端对来源于目标麦克风的声音信号进行处理，以保证来源于目标麦克风的声音信号被更好地放大并输出，进而提高声音质量，例如，对获取到的来源于目标麦克风的声音信号进行降噪处理，本申请实施例对此不做限定。

上述技术方案中，基于麦克风与遥控设备之间的信号交互，能够根据遥控设备的位置，实时确定目标声源的目标麦克风，进而及时且精准地对目标声源的声音信号进行扩音控制，有效提高了声音质量。

基于图6对应的信号处理系统，本申请实施例提供了另一种信号处理系统的部署示意图，该信号处理系统应用于会议场景中，拾音区域即为会场。如图11所示，该信号处理系统包括：作为多个支持定位功能的拾音设备的多个麦克风阵列1110；作为信号处理设备的会议终端1120；作为扩音设备的扬声器1130。其中，该麦克风阵列1110用于拾取会场中的声音信号，并确定对目标声源的定位信息。该会议终端1120基于对目标声源的定位信息，从会场中的多个麦克风阵列1110中，确定目标声源1140的目标麦克风阵列以及对目标声源的扩音控制方式，进而生成针对来源于目标麦克风阵列的声音信号的扩音控制指令；可选地，目标麦克风阵列是距离目标声源最近的麦克风阵列。该扬声器1130响应于接收到该扩音控制指令，按照扩音控制指令指示的扩音控制方式，对来源于目标麦克风阵列的声音信号进行放大并输出放大后的声音，或者，不输出来源于目标麦克风阵列的声音信号。

图12是本申请实施例提供的一种信号处理方法的流程图。该方法应用于图11对应的信号处理系统中，该信号处理方法由会议终端1120执行。如图12所示，该方法包括：

1201、会议终端获取多个麦克风阵列对目标声源的定位信息，该定位信息包括该多个麦克风阵列与该目标声源之间的角度信息。

在一些实施例中，在多个麦克风阵列对目标声源进行定位之前，在会议终端中基于设备部署情况进行参数配置，需要配置的参数包括但不限于：拾音区域的尺寸信息，例如，拾音区域的宽度和长度；多个麦克风阵列与会议终端之间的位置关系，例如，会议终端与任一麦克风阵列之间的距离，多个麦克风阵列之间的距离。

在另一些实施例中，多个麦克风阵列中的第一麦克风内置在会议终端中，在这种情况下，会议终端中配置会议终端和声源之间的最短距离，该最短距离用于预先划定第一麦克风阵列对应的拾音范围，以避免声源位于第一麦克风阵列的拾音范围以外时，无法拾取声源的声音信号。可选地，会议终端中配置有多个麦克风阵列中的第二麦克风阵列的0度角的位置信息，该0度角用于划定该第二麦克风阵列的非拾音范围。

在一些实施例中，会议终端将预先配置的参数发送给各个麦克风阵列，实现对麦克风阵列的参数配置，例如，将第二麦克风阵列的0度角的位置信息发送给第二麦克风阵列，该第二麦克风阵列基于接收到的0度角的位置信息，划分自身的非拾音范围。

为了便于理解上述过程，本申请实施例提供了一种定位信息获取过程的示意图，如图13所示，会议终端1301内置有第一麦克风阵列1302，在拾音区域中与会议终端1301距离L的对称位置，部署有第二麦克风阵列1303。其中，会议终端1301与声源之间的最短距离D ₁预先确定，则基于第一麦克风阵列1302和第二麦克风阵列1303的拾音范围的宽度D，可以确定该第二麦克风阵列1303与第一麦克风阵列1302之间的阴影区域为有效拾音区域。其中，第二麦克风阵列的0度角位于直线l处，则0度角逆时针方向的180度角范围为第二麦克风阵列1303的非拾音范围。在一些实施例中，D ₁为0，则L即为有效拾音区域的长度。基于此，第一麦克风阵列以及第二麦克风阵列对目标声源1304的定位信息包括：目标声源相对于第一麦克风阵列的角度θ ₁，目标声源相对于第二麦克风阵列的角度θ ₂。其中，第一麦克风阵列1302的拾音范围角度θ ₃基于D ₁和D确定。

需要说明的是，上述过程以第一麦克风阵列和第二麦克风阵列为例进行说明，在包括更多麦克风阵列的情况下，获取定位信息的过程与上述过程同理，在此不作赘述。

在一些实施例中，多个麦克风阵列基于拾取到的声音信号，分别确定各自与目标声源之间的角度信息，并将各自的角度信息发送给会议终端。可选地，麦克风阵列将自身与目标声源之间的角度信息，发送给其他麦克风阵列，使得每个麦克风阵列都接收到对目标声源的完整角度信息。

在一些实施例中，拾音区域中的突发噪音可能会影响目标声源的定位信息，例如，某一路麦克风阵列拾取到的突发噪音被误认为是目标声源。因此，在获取该多个麦克风阵列的声音信号之后，通过对该多个麦克风阵列的声音信号进行降噪处理，可以避免拾音区域中的突发噪音对定位信息的准确性造成影响。

1202、会议终端基于定位信息，确定目标声源与多个麦克风阵列之间的距离。

在一些实施例中，定位信息包括该多个麦克风阵列与该目标声源之间的角度信息，会议终端基于目标声源相对于各个麦克风阵列的角度以及预先配置的参数，能够确定出目标声源与多个麦克风阵列之间的距离。下面以多个麦克风阵列包括第一麦克风阵列和第二麦克风阵列为例进行说明。

为了便于理解，本申请实施例提供了一种距离确定原理的示意图，如图14所示，基于目标声源1401相对于第一麦克风阵列1402的角度θ ₁、目标声源1401相对于第二麦克风阵列1403的角度θ ₂以及两个麦克风阵列之间的距离L，能够计算出目标声源偏离两个麦克风阵列的中心连接线的距离Ds；基于Ds、θ ₂、θ ₂以及L(L＝L ₁+L ₂)，则能够确定目标声源与第一麦克风阵列之间的距离d ₁以及目标声源与第二麦克风阵列之间的距离d ₂。上述计算过程参见公式(4)至公式(8)。

需要说明的是，上述过程以第一麦克风阵列和第二麦克风阵列为例进行说明，在包括更多麦克风阵列的情况下，确定距离的过程与上述过程同理，在此不作赘述。

1203、会议终端基于该遥控设备和该多个麦克风阵列之间的距离，确定目标麦克风阵列，该目标麦克风阵列与该目标声源之间的距离满足目标条件。

本步骤参考步骤803，在此不作赘述。

1204、会议终端对来源于目标麦克风阵列的声音信号进行扩音处理。

本步骤参考步骤804，在此不作赘述。

可选地，在目标声源不在拾音区域的有效拾音范围内的情况下，不对来源于目标麦克风阵列的声音信号进行相应的扩音控制；在目标声源在拾音区域的有效拾音范围内的情况下，对来源于目标麦克风阵列的声音信号进行相应的扩音控制。在一些实施例中，在公式(4)中计算出的Ds大于

(D为有效拾音区域的宽度)的情况下，则认为该目标声源不在拾音区域的有效拾音范围内。本申请实施例提供了一种目标声源不在有效拾音范围内的示意图，如图15所示，目标声源1501相对于第一麦克风阵列1502的角度为θ ₁、目标声源1501相对于第二麦克风阵列1503的角度为θ ₂，目标声源1501偏离两个麦克风阵列的中心连接线的距离Ds大于有效拾音区域的宽度的一半

通过上述技术方案，无需手动操作，即可基于对目标声源的定位信息来确定目标声源的目标拾音设备，及时且精准地对目标声源的声音信号进行扩音处理，在提升会议体验的同时，有效提高了声音质量。

图16是本申请实施例提供的一种信号处理装置的结构示意图。如图16所示，该信号处理装置包括：

检测模块1601，用于基于拾音区域的图像，检测该拾音区域中至少一个对象的姿态变化；

信号处理模块1602，用于响应于该至少一个对象中第一对象发生姿态变化，对来源于该第一对象的声音信号进行相应的扩音处理。

在一种可能实施方式中，该检测模块1601包括：

坐标确定单元，用于基于该拾音区域在不同时刻的图像，分别确定该拾音区域内的该不同时刻对应的坐标集合，该坐标集合包括该至少一个对象在该拾音区域中的坐标；

姿态变化确定单元，用于基于该不同时刻对应的坐标集合，确定该拾音区域中至少一个对象的姿态变化。

在一种可能实施方式中，该姿态变化确定单元用于：

基于该不同时刻对应的坐标集合中的坐标，确定目标方差，该目标方差表示该拾音区域中至少一个对象在不同时刻的姿态变化程度；

在该目标方差大于方差阈值的情况下，基于该至少一个对象在该不同时刻的坐标，确定该至少一个对象的姿态变化。

在一种可能实施方式中，该信号处理模块1602包括：

第一处理单元，用于响应于该至少一个对象中第一对象发生姿态变化，结合该拾音区域中的声音信号，对来源于该第一对象的声音信号进行相应的扩音处理。

在一种可能实施方式中，该第一处理单元用于：

响应于该至少一个对象中第一对象发生了第一姿态变化，在该拾音区域中的声音信号的音量大于或等于音量阈值的情况下，对来源于该第一对象的声音信号进行扩音处理；

响应于该至少一个对象中第一对象发生了该第一姿态变化，在该拾音区域中的声音信号的音量小于音量阈值的情况下，对来源于该第一对象的声音信号不进行扩音处理。

在一种可能实施方式中，该第一处理单元用于：

响应于该至少一个对象中第一对象发生了第一姿态变化，对该拾音区域中的声音信号进行人声检测，在检测到人声的情况下，对来源于该第一对象的声音信号进行扩音处理；

响应于该至少一个对象中第一对象发生了第一姿态变化，对该拾音区域中的声音信号进行人声检测，在未检测到人声的情况下，对来源于该第一对象的声音信号不进行扩音处理。

在一种可能实施方式中，该信号处理模块1602包括：

位置获取单元，用于响应于该至少一个对象中第一对象发生了第一姿态变化，获取该第一对象在该拾音区域中的位置；

声源定位单元，用于基于该拾音区域中的声音信号，确定该声音信号的声源位置；

第二处理单元，用于在该第一对象位于该声源位置时，对来源于该第一对象的声音信号进行扩音处理。

在一种可能实施方式中，该信号处理模块1602用于：

响应于该至少一个对象中第一对象发生了第二姿态变化，对来源于该第一对象的声音信号不进行扩音处理。

需要说明的是：上述实施例提供的信号处理装置在进行信号处理时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的信号处理装置与信号处理方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图17是本申请实施例提供的一种信号处理装置的结构示意图。如图17所示，该信号处理装置包括：

确定模块1701，用于从拾音区域的多个拾音设备中确定目标声源的目标拾音设备，该目标拾音设备与该目标声源之间的距离满足目标条件；

处理模块1702，用于对来源于该目标拾音设备的声音信号进行扩音处理。

在一种可能实施方式中，该拾音区域配置有该多个拾音设备和遥控设备，该确定模块1701包括：

距离确定单元，用于基于该遥控设备和该多个拾音设备之间的信号交互，确定该遥控设备和该多个拾音设备之间的距离；

设备确定单元，用于基于该遥控设备和该多个拾音设备之间的距离，确定该目标拾音设备。

在一种可能实施方式中，该距离确定单元用于：

获取该遥控设备与该多个拾音设备之间进行信号交互的时间信息，该时间信息包括该遥控设备记录的交互时间以及该多个拾音设备记录的交互时间；

基于该时间信息，确定该遥控设备和该多个拾音设备之间的距离。

在一种可能实施方式中，该确定模块1701用于：

获取该多个拾音设备对该目标声源的定位信息；

基于该定位信息，确定该目标声源与该多个拾音设备之间的距离；

将与该目标声源之间的距离满足该目标条件的拾音设备，确定为该目标拾音设备。

在一种可能实施方式中，该多个拾音设备为多个麦克风阵列，

该定位信息包括该多个麦克风阵列与该目标声源之间的角度信息。

需要说明的是：上述实施例提供的信号处理装置1700在进行信号处理时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的信号处理装置与信号处理方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本申请实施例提供了一种信号处理设备。示意性地，参考图18，图18是本申请实施例提供的一种信号处理设备的硬件结构示意图。如图18所示，该信号处理设备1800包括存储器1801、处理器1802、通信接口1803以及总线1804。其中，存储器1801、处理器1802、通信接口1803通过总线1804实现彼此之间的通信连接。

存储器1801可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其它类型的静态存储设备，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其它类型的动态存储设备，也可以是电可擦可编程只读存储器(electrically erasable programmable read-only memory，EEPROM)、只读光盘(compact disc read-only memory，CD-ROM)或其它光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其它磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其它介质，但不限于此。存储器1801可以存储至少一段程序代码，当存储器1801中存储的程序代码被处理器1802执行时，使得信号处理设备能够实现上述信号处理方法。存储器1801还可以存储各类数据，包括但不限于图像和声音信号等，本申请实施例对此不作限定。

处理器1802可以是网络处理器(network processor，NP)、中央处理器(central processing unit，CPU)、特定应用集成电路(application-specific integrated circuit，ASIC)或用于控制本申请方案程序执行的集成电路。该处理器1802可以是一个单核(single-CPU)处理器，也可以是一个多核(multi-CPU)处理器。该处理器1802的数量可以是一个，也可以是多个。通信接口1803使用例如收发器一类的收发模块，来实现信号处理设备1800与其他设备或通信网络之间的通信。例如，可以通过通信接口1803获取数据。

其中，存储器1801和处理器1802可以分离设置，也可以集成在一起。

总线1804可包括在信号处理设备1800各个部件(例如，存储器1801、处理器1802、通信接口1803)之间传送信息的通路。

本发明中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分，应理解，“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系，也不对数量和执行顺序进行限定。还应理解，尽管以下描述使用术语第一、第二等来描述各种元素，但这些元素不应受术语的限制。这些术语只是用于将一元素与另一元素区别分开。例如，在不脱离各种所述示例的范围的情况下，第一麦克风可以被称为第二麦克风，并且类似地，第二麦克风可以被称为第一麦克风。第一麦克风和第二麦克风都可以是麦克风，并且在某些情况下，可以是单独且不同的麦克风。

本发明中术语“至少一个”的含义是指一个或多个，本发明中术语“多个”的含义是指两个或两个以上，例如，多个麦克风是指两个或两个以上的麦克风。

以上描述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以程序产品的形式实现。该程序产品包括一个或多个程序指令。在信号处理设备上加载和执行该程序指令时，全部或部分地产生按照本发明实施例中的流程或功能。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

一种信号处理方法，其特征在于，所述方法包括：

基于拾音区域的图像，检测所述拾音区域中至少一个对象的姿态变化；

响应于所述至少一个对象中第一对象发生姿态变化，对来源于所述第一对象的声音信号进行相应的扩音处理。
根据权利要求1所述的方法，其特征在于，所述基于拾音区域的图像，检测所述拾音区域中至少一个对象的姿态变化包括：

基于所述拾音区域在不同时刻的图像，分别确定所述拾音区域内的所述不同时刻对应的坐标集合，所述坐标集合包括所述至少一个对象在所述拾音区域中的坐标；

基于所述不同时刻对应的坐标集合，确定所述拾音区域中至少一个对象的姿态变化。
根据权利要求2所述的方法，其特征在于，所述基于所述不同时刻对应的坐标集合，确定所述拾音区域中至少一个对象的姿态变化包括：

基于所述不同时刻对应的坐标集合中的坐标，确定目标方差，所述目标方差表示所述拾音区域中至少一个对象在不同时刻的姿态变化程度；

在所述目标方差大于方差阈值的情况下，基于所述至少一个对象在所述不同时刻的坐标，确定所述至少一个对象的姿态变化。
根据权利要求1至3任一项所述的方法，其特征在于，所述响应于所述至少一个对象中第一对象发生姿态变化，对来源于所述第一对象的声音信号进行相应的扩音处理包括：

响应于所述至少一个对象中第一对象发生姿态变化，结合所述拾音区域中的声音信号，对来源于所述第一对象的声音信号进行相应的扩音处理。
根据权利要求4所述的方法，其特征在于，所述响应于所述至少一个对象中第一对象发生姿态变化，结合所述拾音区域中的声音信号，对来源于所述第一对象的声音信号进行相应的扩音处理包括：

响应于所述至少一个对象中第一对象发生了第一姿态变化，在所述拾音区域中的声音信号的音量大于或等于音量阈值的情况下，对来源于所述第一对象的声音信号进行扩音处理；

响应于所述至少一个对象中第一对象发生了所述第一姿态变化，在所述拾音区域中的声音信号的音量小于音量阈值的情况下，对来源于所述第一对象的声音信号不进行扩音处理。
根据权利要求4所述的方法，其特征在于，所述响应于所述至少一个对象中第一对象发生姿态变化，结合所述拾音区域中的声音信号，对来源于所述第一对象的声音信号进行相应的扩音处理包括：

响应于所述至少一个对象中第一对象发生了第一姿态变化，对所述拾音区域中的声音信号进行人声检测，在检测到人声的情况下，对来源于所述第一对象的声音信号进行扩音处理；

响应于所述至少一个对象中第一对象发生了第一姿态变化，对所述拾音区域中的声音信号进行人声检测，在未检测到人声的情况下，对来源于所述第一对象的声音信号不进行扩音处理。
根据权利要求4所述的方法，其特征在于，所述响应于所述至少一个对象中第一对象发生姿态变化，对来源于所述第一对象的声音信号进行相应的扩音处理包括：

响应于所述至少一个对象中第一对象发生了第一姿态变化，获取所述第一对象在所述拾音区域中的位置；

基于所述拾音区域中的声音信号，确定所述声音信号的声源位置；

在所述第一对象位于所述声源位置时，对来源于所述第一对象的声音信号进行扩音处理。
根据权利要求1所述的方法，其特征在于，所述响应于所述至少一个对象中第一对象发生姿态变化，对来源于所述第一对象的声音信号进行相应的扩音处理包括：

响应于所述至少一个对象中第一对象发生了第二姿态变化，对来源于所述第一对象的声音信号不进行扩音处理。
一种信号处理方法，其特征在于，所述方法包括：

从拾音区域的多个拾音设备中确定目标声源的目标拾音设备，所述目标拾音设备与所述目标声源之间的距离满足目标条件；

对来源于所述目标拾音设备的声音信号进行扩音处理。
根据权利要求9所述的方法，其特征在于，所述拾音区域配置有所述多个拾音设备和遥控设备，所述从拾音区域的多个拾音设备中确定目标声源的目标拾音设备包括：

基于所述遥控设备和所述多个拾音设备之间的信号交互，确定所述遥控设备和所述多个拾音设备之间的距离；

基于所述遥控设备和所述多个拾音设备之间的距离，确定所述目标拾音设备。
根据权利要求10所述的方法，其特征在于，所述基于所述遥控设备和所述多个拾音设备之间的信号交互，确定所述遥控设备和所述多个拾音设备之间的距离包括：

获取所述遥控设备与所述多个拾音设备之间进行信号交互的时间信息，所述时间信息包括所述遥控设备记录的交互时间以及所述多个拾音设备记录的交互时间；

基于所述时间信息，确定所述遥控设备和所述多个拾音设备之间的距离。
根据权利要求9所述的方法，其特征在于，所述从拾音区域的多个拾音设备中确定目标声源的目标拾音设备包括：

获取所述多个拾音设备对所述目标声源的定位信息；

基于所述定位信息，确定所述目标声源与所述多个拾音设备之间的距离；

将与所述目标声源之间的距离满足所述目标条件的拾音设备，确定为所述目标拾音设备。
根据权利要求12所述的方法，其特征在于，所述多个拾音设备为多个麦克风阵列，所述定位信息包括所述多个麦克风阵列与所述目标声源之间的角度信息。
一种信号处理装置，其特征在于，所述装置包括：

检测模块，用于基于拾音区域的图像，检测所述拾音区域中至少一个对象的姿态变化；

信号处理模块，用于响应于所述至少一个对象中第一对象发生姿态变化，对来源于所述第一对象的声音信号进行相应的扩音处理。
根据权利要求14所述的装置，其特征在于，所述检测模块包括：

坐标确定单元，用于基于所述拾音区域在不同时刻的图像，分别确定所述拾音区域内的所述不同时刻对应的坐标集合，所述坐标集合包括所述至少一个对象在所述拾音区域中的坐标；

姿态变化确定单元，用于基于所述不同时刻对应的坐标集合，确定所述拾音区域中至少一个对象的姿态变化。
根据权利要求15所述的装置，其特征在于，所述姿态变化确定单元用于：

基于所述不同时刻对应的坐标集合中的坐标，确定目标方差，所述目标方差表示所述拾音区域中至少一个对象在不同时刻的姿态变化程度；

在所述目标方差大于方差阈值的情况下，基于所述至少一个对象在所述不同时刻的坐标，确定所述至少一个对象的姿态变化。
根据权利要求14至16任一项所述的装置，其特征在于，所述信号处理模块包括：

第一处理单元，用于响应于所述至少一个对象中第一对象发生姿态变化，结合所述拾音区域中的声音信号，对来源于所述第一对象的声音信号进行相应的扩音处理。
根据权利要求17所述的装置，其特征在于，所述第一处理单元用于：

响应于所述至少一个对象中第一对象发生了第一姿态变化，在所述拾音区域中的声音信号的音量大于或等于音量阈值的情况下，对来源于所述第一对象的声音信号进行扩音处理；

响应于所述至少一个对象中第一对象发生了所述第一姿态变化，在所述拾音区域中的声音信号的音量小于音量阈值的情况下，对来源于所述第一对象的声音信号不进行扩音处理。
根据权利要求17所述的装置，其特征在于，所述第一处理单元用于：

响应于所述至少一个对象中第一对象发生了第一姿态变化，对所述拾音区域中的声音信号进行人声检测，在检测到人声的情况下，对来源于所述第一对象的声音信号进行扩音处理；

响应于所述至少一个对象中第一对象发生了第一姿态变化，对所述拾音区域中的声音信号进行人声检测，在未检测到人声的情况下，对来源于所述第一对象的声音信号不进行扩音处理。
根据权利要求17所述的装置，其特征在于，所述信号处理模块包括：

位置获取单元，用于响应于所述至少一个对象中第一对象发生了第一姿态变化，获取所述第一对象在所述拾音区域中的位置；

声源定位单元，用于基于所述拾音区域中的声音信号，确定所述声音信号的声源位置；

第二处理单元，用于在所述第一对象位于所述声源位置时，对来源于所述第一对象的声音信号进行扩音处理。
根据权利要求14所述的装置，其特征在于，所述信号处理模块用于：

响应于所述至少一个对象中第一对象发生了第二姿态变化，对来源于所述第一对象的声音信号不进行扩音处理。
一种信号处理装置，其特征在于，所述装置包括：

确定模块，用于从拾音区域的多个拾音设备中确定目标声源的目标拾音设备，所述目标拾音设备与所述目标声源之间的距离满足目标条件；

处理模块，用于对来源于所述目标拾音设备的声音信号进行扩音处理。
根据权利要求22所述的装置，其特征在于，所述拾音区域配置有所述多个拾音设备和遥控设备，所述确定模块包括：

距离确定单元，用于基于所述遥控设备和所述多个拾音设备之间的信号交互，确定所述遥控设备和所述多个拾音设备之间的距离；

设备确定单元，用于基于所述遥控设备和所述多个拾音设备之间的距离，确定所述目标拾音设备。
根据权利要求23所述的装置，其特征在于，所述距离确定单元用于：

获取所述遥控设备与所述多个拾音设备之间进行信号交互的时间信息，所述时间信息包括所述遥控设备记录的交互时间以及所述多个拾音设备记录的交互时间；

基于所述时间信息，确定所述遥控设备和所述多个拾音设备之间的距离。
根据权利要求22所述的装置，其特征在于，所述确定模块用于：

获取所述多个拾音设备对所述目标声源的定位信息；

基于所述定位信息，确定所述目标声源与所述多个拾音设备之间的距离；

将与所述目标声源之间的距离满足所述目标条件的拾音设备，确定为所述目标拾音设备。
根据权利要求25所述的装置，其特征在于，所述多个拾音设备为多个麦克风阵列，所述定位信息包括所述多个麦克风阵列与所述目标声源之间的角度信息。
一种信号处理设备，其特征在于，所述信号处理设备包括处理器和存储器，所述存储器用于存储至少一段程序代码，所述至少一段程序代码由所述处理器加载并执行如权利要求1至权利要求13中任一项所述的信号处理方法。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储至少一段程序代码，所述至少一段程序代码用于执行如权利要求1至权利要求13中任一项所述的信号处理方法。
一种计算机程序产品，其特征在于，当所述计算机程序产品在计算机上运行时，使得所述计算机执行如权利要求1至权利要求13中任一项所述的信号处理方法。