WO2023193803A1

WO2023193803A1 - 音量控制方法、装置、存储介质和电子设备

Info

Publication number: WO2023193803A1
Application number: PCT/CN2023/087019
Authority: WO
Inventors: 朱长宝
Original assignee: 南京地平线机器人技术有限公司
Priority date: 2022-04-08
Filing date: 2023-04-07
Publication date: 2023-10-12
Also published as: CN114911449A

Abstract

公开了一种音量控制方法、装置、存储介质和电子设备，其中，方法包括：获取空间区域内的包括空间区域内的人员的图像帧序列和语音信号；确定各图像帧中的虚拟麦克风区域和目标人员的嘴部区域；确定空间区域内的目标人员的嘴部区域与虚拟麦克风区域之间的距离；确定目标人员的人声音频；根据嘴部区域与虚拟麦克风区域之间的距离，调整目标人员的人声音频的播放音量。由此可知，本公开实施例中通过检测目标人员的嘴部区域和虚拟麦克风区域之间的距离变化，并根据检测到的距离变化调整目标人员的人声音频的播放音量，实现了人声播放音量简单、快捷的调整。

Description

音量控制方法、装置、存储介质和电子设备

本公开要求在2022年4月8日提交的、申请号为202210368353.1、发明名称为“音量控制方法、装置、存储介质和电子设备”的中国专利申请的优先权，其全部内容通过引用结合在本公开中。

技术领域

本公开涉及人工智能技术，尤其涉及一种音量控制方法、装置、存储介质和电子设备。

背景技术

随着技术的不断发展，唱歌系统已不在局限于采用传统的实体麦克风进行唱歌，也可以采用手势或者手握其他物体所形成的虚拟麦克风进行唱歌。传统采用实体麦克风的唱歌系统中通常可以通过麦克风中的收音装置或音量调节装置调节人声的播放的音量。

发明内容

现有采用虚拟麦克风的唱歌系统中使用的是虚拟麦克风，其并无收音装置或音量调节装置，因此无法通过虚拟麦克风调节人声播放音量，导致用户体验感差。

为了解决上述技术问题，提出了本公开。本公开的实施例提供了一种音量控制方法、装置、存储介质和电子设备。

本公开的第一个方面，提供了一种音量控制方法，包括：获取空间区域内的包括空间区域内的人员的图像帧序列；基于所述图像帧序列中的各图像帧，确定所述各图像帧中的虚拟麦克风区域和目标人员；基于所述各图像帧，确定所述各图像帧中的目标人员的嘴部区域；基于所述各图像帧中的目标人员的嘴部区域和虚拟麦克风区域，确定所述目标人员的嘴部区域与虚拟麦克风区域之间的距离；获取空间区域内的语音信号，基于所述语音信号确定所述目标人员的人声音频；根据所述目标人员的嘴部区域与虚拟麦克风区域之间的距离，调整所述目标人员的所述人声音频的播放音量。

本公开的第二个方面，提供了一种音量控制系统，包括：位于空间区域内的语音采集装置，图像采集装置，音频播放装置，控制器，其中，所述音频播放装置用于在控制器控制下播放音频，所述控制器用于执行本公开第一方面实施例提出的方法。

本公开的第三个方面，提供了一种音量控制装置，包括：第一获取模块，用于获取空间区域内的包括空间区域内的人员的图像帧序列；第一确定模块，用于基于所述图像帧序列中的各图像帧，确定所述各图像帧中的虚拟麦克风区域和目标人员；第二确定模块，用于基于所述各图像帧，确定所述各图像帧中的目标人员的嘴部区域；第三确定模块，用于基于所述各图像帧中的目标人员的嘴部区域和虚拟麦克风区域，确定所述目标人员的嘴部区域与虚拟麦克风区域之间的距离；第二获取模块，用于获取空间区域内的语音信号，基于所述语音信号确定所述目标人员的人声音频；音量调整模块，用于根据所述目标人员的嘴部区域与虚拟麦克风区域之间的距离，调整所述目标人员的人声音频的播放音量。

本公开的第四个方面，提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行本公开第一方面实施例提出的方法。

本公开的第五个方面，提供了一种电子设备，所述电子设备包括：处理器；用于存储所述处理器可执行指令的存储器；所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述可执行指令以实现本公开第一方面实施例提出的方法。

本公开实施例中通过检测目标人员的嘴部和虚拟麦克风之间的距离变化，并根据检测到的距离变化及时调整目标人员的人声音频的播放音量，实现了人声播放音量的简单、快捷的调整，进而提高了用户的歌唱体验效果。

附图说明

图1是本公开所适用的场景图；

图2是本公开一示例性实施例提供的音量控制方法的流程示意图；

图3是本公开一示例性实施例提供的步骤S202的流程示意图；

图4是本公开一示例性实施例提供的步骤S203的流程示意图；

图5是本公开一示例性实施例提供的一图像帧中脸部关键点的示意图；

图6是本公开一示例性实施例提供的步骤S204的流程示意图；

图7是本公开一示例性实施例提供的步骤S205的流程示意图；

图8是本公开一示例性实施例提供的音量控制系统的结构程示意图；

图9是本公开一示例性实施例提供的音量控制装置的结构示意图；

图10是本公开一示例性实施例提供的电子设备的结构图。

具体实施方式

下面，将参考附图详细地描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。

应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

申请概述

在实现本公开的过程中，发明人发现，由于使用了虚拟麦克风的唱歌系统中的虚拟麦克风并无收音装置或音量调节装置，导致唱歌系统无法通过虚拟麦克风调节人声播放音量，导致用户体验感差。

示例性系统

本公开的技术方案可以应用于辅助使用虚拟麦克风的唱歌系统进行人声音量的调节。例如，使用虚拟麦克风的唱歌系统的场景可以为车辆内部、mini KTV等。图1示出了本公开的一个应用场景。如图1所示，使用虚拟麦克风的唱歌系统可以包括语音采集装置、图像采集装置、音频播放装置和控制器。语音采集装置、图像采集装置和音频播放装置与控制器通讯连接。图像采集装置可以为单目眼摄像头、双目摄像头或TOF(Time of Flight)摄像头等，语音采集装置可以是麦克风或是麦克风阵列等，音频播放装置可以扬声器或音箱设备等，控制器可以为计算平台或服务器等。

本公开可以通过图像采集装置获得空间区域中的图像帧序列。通过语音采集装置获得空间区域中的语音信号。将采集的语音信号和图像帧序列发送给控制器，控制器对图像帧序列和语音信号进行处理，得到目标人员的嘴部区域与虚拟麦克风之间的距离，通过嘴部区域与虚拟麦克风区域之间的距离得到目标人员的人声音频的播放音量，并控制音频播放装置以播放音量播放目标人员的人声音频。

本公开中通过根据目标人员的嘴部区域和虚拟麦克风之间的距离变化，并根据距离变化调整目标人员的人声音频的播放音量，实现了对人声播放音量的简单、快捷调整，进而提高了用户的歌唱体验效果。

示例性方法

图2本公开一示例性实施例提供的一种音量控制方法的流程示意图。本实施例可应用在电子设备上，如图2所示，包括如下步骤：

步骤S201，获取空间区域内的包括空间区域内的人员的图像帧序列。

其中，空间区域可以为进行唱歌的空间，例如空间区域可以为车辆内部空间、mini KTV包房内部空间等。

示例性的，可以通过空间区域中设置的图像采集装置采集空间区域中的视频，然后通过图像识别技术识别出包括有空间区域内的人员的图像帧，然后将包括有空间区域内的人员的图像帧按照时间顺序排列，得到图像帧序列。其中，在对空间区域内的人员进行识别时，可以当识别出图像帧中的人体的特定部位(例如，脸部、头部或是躯干部等)时，确定该图像帧中包括有空间区域内的人员。

步骤S202，基于图像帧序列中的各图像帧，确定各图像帧中的虚拟麦克风区域和目标人员。

其中，利用图像识别技术对图像帧序列中的各图像帧进行识别，确定各图像帧中的目标人员和虚拟麦克风区域。虚拟麦克风可以为预设定的手势或者手持的物体(例如，水瓶或者手机等)。目标人员为空间区域内正在唱歌的人员。当图像帧中包括多个人员时，需要对每一人员进行识别，确定其是否为目标人员。

需要说明是的，步骤S201中对各图像帧的识别可以是粗略的图像识别，目的是在可以确定出图像帧是否有空间区域内的人员。步骤S202中采用的图像识别方式，相较于步骤S201中采用的图像识别方式而言，图像识别精度更高，需要确定出图像帧中的目标人员和虚拟麦克风区域，以便后续步骤基于各图像帧中的目标人员和虚拟麦克风区域进行进一步的后续处理。

步骤S203，基于图像帧序列中的各图像帧，确定各图像帧中的目标人员的嘴部区域。

其中，通过步骤S202识别出各图像帧中的目标人员，利用图像识别技术对各图像帧中的目标人员进行识别，确定各图像帧中的目标人员的嘴部区域。一个示例性的，可以通过训练好的用于识别嘴部区域的神经网络对各图像帧中的目标人员进行识别，以得到各图像帧中的目标人员的嘴部区域，该神经网络可以为快速区域卷积神经网络(Faster Region Convolutional Neural Networks，Faster-RCNN)，YOLO(You Only Look Once)等。另一个示例性的，可以通过训练好的用于识别脸部的神经网络确定各图像帧中的目标人员的脸部关键点，根据各图像帧中目标人员的脸部关键点确定各图像帧中脸部关键点，基于各图像帧中的目标人员的脸部关键点确定各图像像帧中目标人员的嘴部关键点，根据各图像帧中的目标人员的嘴部关键点，确定各图像帧中的目标人员的嘴部区域。再一个示例性的，可以通过训练好的用于识别脸部的神经网络对各图像帧中的目标人员识别，得到各图像帧中的目标人员的脸部图像，检测各图像帧中的目标人员的脸部图像中的嘴部区域是否存在遮挡，当检测到存在遮挡时，可以确定脸部图像的预设位置为嘴部区域，从而得到目标人员的嘴部区域，预设位置可以脸部图像的下部等；当不存在遮挡时，可以通过神经网络等确定目标人员的嘴部区域。

步骤S204，基于各图像帧中的目标人员的嘴部区域和虚拟麦克风区域，确定目标人员的嘴部区域与虚拟麦克风区域之间的距离。

其中，基于步骤S202确定的各图像帧中的虚拟麦克风区域和步骤S203确定的各图像帧中的目标人员的嘴部区域，计算各图像帧中的目标人员的嘴部区域与虚拟麦克风区域之间的距离。通过各图像帧中的目标人员的嘴部区域与虚拟麦克风区域之间的距离，确定出目标人员的嘴部区域和虚拟麦克风区域之间的距离。示例性的，可以先获取各图像帧中的嘴部区域的第一预设点和虚拟麦克风区域的第二预设点，如将各图像帧中嘴部区域中的下唇区域的中心点作为第一预设点，将各图像帧中虚拟麦克风区域中的顶部作为第二预设点，通过计算各图像帧中第一预设点和第二预设点之间的距离，得到目标人员的嘴部区域和虚拟麦克风区域之间的距离。其中，目标人员的嘴部区域和虚拟麦克风区域之间的距离可以为欧氏距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离或马氏距离等。其中，确定出的目标人员的嘴部区域与虚拟麦克风区域之间的距离可以为各图像帧中的目标人员的嘴部区域与虚拟麦克风区域之间的距离，也可以是根据各图像帧中的目标人员的嘴部区域与虚拟麦克风区域之间的距离确定的目标人员的嘴部区域与虚拟麦克风区域之间的最终距离。以上示例用于对本实施例进行说明，在实际应用时，可以根据实际需求设定。

步骤S205，获取空间区域内的语音信号，基于语音信号确定目标人员的人声音频。

其中，空间区域中设置有语音采集装置。通过空间区域中设置的语音采集装置采集空间区域内的音频信号。音频信号包括语音信号和噪声信号，语音信号包括空间区域内部的人员的人声音频。

可以通过音频降噪等技术对语音采集装置采集的音频信号进行人声分离，得到语音信号。根据步骤S202确定各图像帧中的目标人员，确定空间区域内的目标人员的位置，根据空间区域内的目标人员的位置，通过音区定位技术确定语音信号中每一人声音频对应的音区，建立人声音频与音区的对应关系，根据目标人员的位置和音区的位置，确定目标人员对应的音区，根据目标人员对应的音区以及人声音频与音区的对应关系，确定目标人员的人声音频，并提取该人声音频。

步骤S206，根据目标人员的嘴部区域与虚拟麦克风区域之间的距离，调整目标人员的人声音频的播放音量。

其中，根据空间区域内的目标人员的嘴部区域与虚拟麦克风区域之间的距离与播放音量之间的对应关系，确定出空间区域内的目标人员的人声音频的播放音量，并控制音频播放装置以确定的播放音量播放目标人员的人声音频。示例性的，目标人员的嘴部区域与虚拟麦克风区域之间的距离与播放音量之间的对应关系可以预先设置为每一距离对应一播放音量，如距离为5cm、10cm、15cm分别对应的播放音量为20dB(分贝)、15dB、10dB等。还可以设置一个距离与播放音量之间一一对应的公式，根据该公式计算每一距离对应的播放音量。以上示例用于对本实施例进行说明，在实际应用时，可以根据实际需求设定。

示例性的，可以通过一个图像帧序列确定一个播放音量，将目标人员的人声音频以该播放音量播放，此时可以根据各图像帧中的目标人员的嘴部区域与虚拟麦克风区域之间的距离，确定目标人员的嘴部区域与虚拟麦克风区域之间的最终距离，根据目标人员的嘴部区域与虚拟麦克风区域之间的最终距离确定标人员的人声音频的播放音量，以该播放音量播放目标人员的人声音频。还可以根据图像帧序列中的各图像帧的目标人员的嘴部区域与虚拟麦克风区域之间的距离，确定各图像帧的目标人员的嘴部区域与虚拟麦克风区域之间的距离对应的目标人员的播放音量，以各图像帧中的目标人员的播放音量播放目标人员的人声音频。

本公开实施例中通过对图像帧序列中的目标人员的嘴部区域和虚拟麦克风区域的距离，确定目标人员的人声音频的播放音量，并调整人声音频以该播放音量播放，从而实现了通过虚拟麦克风对人声播放音量简单、快捷的控制，进而提高了用户的歌唱体验效果。

在本公开的一个实施例中，如图3所示，步骤202可包括如下步骤：

步骤S2021，对图像帧序列中的各图像帧进行识别，确定各图像帧中的手持虚拟麦克风的图像区域。

步骤S2022，基于各图像帧中的手持虚拟麦克风的图像区域，确定各图像帧中的虚拟麦克风区域，将各图像帧中持有虚拟麦克风的人员确定为各图像帧中的目标人员。

其中，当虚拟麦克风为手持的物体时，可以通过训练好的用于感兴趣区域识别的神经网络识别出各图像帧中的手持虚拟麦克风的图像区域，提取各图像帧中的手持虚拟麦克风的图像区域，之后对各图像帧中的手持虚拟麦克风的图像区域识别，得到各图像帧中的虚拟麦克风区域。当虚拟麦克风为预设定的手势时，可以通过神经网络识别各图像帧中具有预设定的手势的手部区域，然后将各图像帧中具有预设定的手势的手部区域确定为各图像帧的虚拟麦克风区域。神经网络可以卷积神经网络(Convolutional Neural Networks，CNN)或快速区域卷积神经网络。在空间区域中的人员为单个时，当识别出任一图像帧中具有手持虚拟麦克风的图像区域时，将该图像帧中的人员确定为该图像帧的目标人员。

当空间区域中的人员为多个时，建立各图像帧中的人员与其手部区域的对应关系。当虚拟麦克风为手持的物体时，根据各图像帧中的手持虚拟麦克风的图像区域，确定各图像帧中的持有虚拟麦克风的手部区域，基于各图像帧中的人员与其手部区域的对应关系，得到各图像帧中持有虚拟麦克风的人员，将各图像帧中持有虚拟麦克风的人员确定为各图像帧的目标人员；当虚拟麦克风为预设定的手势时，基于各图像帧中人员与其手部区域的对应关系，将各图像帧中对应预设定的手势的手部区域的人员确定为各图像帧中的持有虚拟麦克风的人员，将各图像帧中持有虚拟麦克风的人员确定为各图像帧的目标人员。

本公开实施例中，通过对各图像帧中的手持虚拟麦克风的图像区域进行识别，通过各图像帧中的手持虚拟麦克风的图像区域确定目标人员和虚拟麦克风区域，实现了准确的对各图像帧中目标人员和虚拟麦克风区域的识别。

在本公开一个实施例中，如图4所示，步骤203可包括如下步骤：

步骤S2031，获取各图像帧中的目标人员的嘴部关键点。

其中，可以通过训练好的用于识别脸部关键点的神经网络确定各图像帧中的目标人员的脸部关键点。该神经网络可以为卷积神经网络、快速区域卷积神经网络或YOLO等。脸部关键点包括有嘴部关键点、眼部关键点、鼻部关键点和脸部轮廓关键点，在每一图像帧中可以根据脸部关键点确定出嘴部关键点，图5 示出了一个图像帧中的目标人员的脸部关键点的示意图，如图5所示，脸部共有68个关键点，每一关键点对应一个序号，根据序号与脸部位置的对应关系，得到该图像帧中的目标人员的嘴部关键点，在图5中，序号49～68的关键点为嘴部关键点。也可以直接通过神经网络确定各图像帧中的目标人员的嘴部关键点。

步骤S2032，根据各图像帧中的目标人员的嘴部关键点，确定各图像帧中的目标人员的嘴部区域。

其中，每一嘴部关键点具有位置信息，该位置信息可以是嘴部关键点的坐标值。可以根据各图像帧中嘴部关键点的位置信息确定各图像帧中的目标人员的嘴部区域。示例性的，可以根据嘴部关键点的位置信息，在嘴部关键点外部形成外接检测框，该外接检测框中包括嘴部关键点。将该外接检测的区域确定为嘴部区域。该外接检测框可以为矩形也可以为其他形状。

本公开实施例中，先确定各图像帧中的目标人员的嘴部关键点，然后通过嘴部关键点确定目标人员的嘴部区域，为实现快速准确确定目标人员嘴部关键点提供了一种实现方式。

在本公开一个实施例中，如图6所示，步骤204可包括如下步骤：

步骤S2041，确定各图像帧中的目标人员的嘴部区域的第一预设标识点。

其中，在每一图像帧中，可以利用神经网络等获取各图像帧中的目标人员的嘴部区域的嘴部关键点，将目标人员的嘴部关键点中的任意一个嘴部关键点作为该图像帧中的目标人员的嘴部区域的第一预设标识点。示例性的，可以将各图像帧中的目标人员的嘴部区域中的上唇中心位置、下唇中心位置、嘴角位置、中心位置、上唇顶部位置或下唇顶部位置等作为第一预设标识点。需要注意的是，各图像帧中的嘴部区域的第一预设标识点为相同的点。例如，各图像帧中的目标人员的嘴部区域的上唇中心位置对应的点作为各图像帧中的目标人员的嘴部区域的第一预设标识点。

步骤S2042，确定各图像帧中的虚拟麦克风区域的第二预设标识点。

其中，在每一图像帧中可以将虚拟麦克风区域的任意一个位置作为该虚拟麦克风区域的第二预设标识点。示例性的，可以确定各图像帧中的虚拟麦克风区域的顶点位置、中心位置、上部区域的中心位置或下部区域的中心位置等作为第二预设点。需要注意的是，各图像帧中的虚拟麦克风区域的第二预设标识点为相同的点。例如，确定各图像帧中的虚拟麦克风区域的上部区域的中心位置对应的点作为各图像帧中的虚拟麦克风区域的第二预设标识点。

步骤S2043，根据各图像帧中的第一预设标识点与第二预设标识点，确定目标人员的嘴部区域与虚拟麦克风区域之间的距离。

其中，在每一图像帧中，根据第一预设标识点的坐标值和第二预设标识点的坐标值，确定该图像帧中第一预设标识点和第二预设标识点之间的距离。示例性的，可以通过一个图像帧序列确定一个播放音量，将目标人员的人声音频以该播放音量播放，此时可以将各图像帧中第一预设标识点和第二预设标识点之间的距离的平均值确定为目标人员的嘴部区域与虚拟麦克风区域之间的最终距离，也可以将各图像帧中的第一预设标识点和第二预设标识之间的距离输入训练好的用于确定距离的神经网络，得到目标人员的嘴部区域与虚拟麦克风区域之间的最终距离；根据目标人员的嘴部区域与虚拟麦克风区域之间的最终距离，确定出目标人员的人声音频的播放音量。还可以根据各图像帧的目标人员的第一预设标识点与第二预设标识点，确定出各图像帧的目标人员的嘴部区域与虚拟麦克风区域之间的距离，根据各图像帧的目标人员的嘴部区域与虚拟麦克风区域之间的距离，确定各图像帧中的目标人员的的播放音量，以各图像帧中的目标人员的播放音量播放目标人员的人声音频。

在本公开的一个实施例中，步骤S2041包括：针对各图像帧中的嘴部区域，基于目标人员的嘴部区域或嘴部关键点，确定目标人员的嘴部区域的中心点为目标人员的嘴部区域的第一预设标识点。

其中，在每一图像帧中，可以根据目标人员的嘴部区域的外接检测框的顶点的坐标值，确定目标人员的嘴部区域的中心点，还可以通过确定目标人员的嘴部区域的外部轮廓数据，根据目标人员的嘴部区域的外部轮廓数据，确定目标人员的嘴部区域的中心点，也可以通过目标人员的嘴部区域中的嘴部关键点的坐标值确定目标人员的嘴部区域的中心点；再将该嘴部区域的中心点确定为目标人员的嘴部区域的第一预设标识点。

在本公开的一个实施例中，步骤S2042包括：针对各图像帧中的虚拟麦克风的区域，基于虚拟麦克风区域，确定虚拟麦克风区域的中心点为虚拟麦克风区域的第二预设标识点。

其中，在每一图像帧中，可以通过虚拟麦克风区域的外接检测框的顶点的坐标值，确定虚拟麦克风区域的中心点，还可以通过确定虚拟麦克风区域的外部轮廓数据，根据虚拟麦克风区域的外部轮廓数据，确定虚拟麦克风区域的中心点；再将该虚拟麦克风区域的中心点确定为该虚拟麦克风区域的第二预设标识点。

示例性的，在一个图像帧中，获取目标人员的嘴部区域的第一预设标识点的坐标值和虚拟麦克风区域的第二预设点的坐标值。根据公式(1)计算出该图像帧中的目标人员的嘴部区域与虚拟麦克风区域之间的距离。

其中，(x1，y1，z1)为第一预设标识点的坐标值，(x2，y2，z2)为第二预设标识点的坐标值，d为嘴部区域与虚拟麦克风区域之间的距离。

在本公开的一个实施例中，如图7所示，步骤205可包括如下步骤：

步骤S2051，基于语音信号进行语音分离，获取空间区域内的人员的人声音频信息。

其中，空间区域内的人员的人声音频信息包括：人员的人声音频和人声音频对应的音区。通过对音频采集装置采集的音频信号进行声学降噪处理，以得空间区域内的人员的语音信号，同时基于声源定位技术确定空间区域内的人员的人声音频的音区。

音频信号的声学降噪处理可以包括：先获取参考信号，根据参考信息，对音频信号进行声反馈处理，以消除音频信号中的啸叫，其中可以通过啸叫抑制算法对音频信号进行声反馈处理，参考信号为用于播放人声音频的音频播放装置的播放信号；然后，对经过声反馈处理的音频信号进行降噪处理，以消除语音信号中噪音，得到干净的空间区域内的人员的语音信号，该语音信号包括空间区域内所有人员的人声音频，其中可以采用谱减法和OMLSA(Optimally-modified Log-spectral Amplitude)算法对音频信号进行降噪处理。可以通过音源定位技术确定每个人员的人声音频对应的音区，并建立人声音频与音区的对应关系。

步骤S2052，基于各图像帧中的目标人员，确定各图像帧中的目标人员的位置。

其中，根据步骤S202确定各图像帧中的目标人员，获取各图像帧中的目标人员的位置。示例性的，可以提取各图像帧中的目标人员的区域图像，将各图像帧中的目标人员的区域图像输入训练好的神经网络，得到各图像帧中目标人员的位置。

步骤S2053，基于各图像帧中的目标人员的位置和人声音频信息，确定目标人员的人声音频。

其中，可以通过各图像帧中的目标人员的位置，确定目标人员的最终位置。示例性的，可以对各图像帧中的目标人员的位置进行加和求平均，得到空间区域内的目标人员的最终位置，也可以将各图像帧中的目标人员的位置输入神经网络，得到空间区域内的目标人员的最终位置。根据目标人员的最终位置和人声音频信息中的音区的位置，确定目标人员对应的音区；根据人声音频与音区的对应关系，提取该音区对应的人声音频，即得到目标人员的人声音频。还可以在各图像帧中选择预设定的图像帧作为关键图像帧，根据关键图像帧中的目标人员的位置确定目标人员对应的音区，提取该音区对应的人声音频，即得到目标人员的人声音频。

本公开实施例中，根据语音信号得到空间区域内的人员的人声音频和人声音频对应的音区，之后基于空间区域内的目标人员的位置以及空间区域内的人员的人声音频和人声音频对应的音区，确定空间区域内的目标人员的人声音频。实现了快速准确的对目标人员的人声音频的确定。

在本公开的一个实施例中，步骤S206包括：基于预设的距离与播放音量之间的对应关系，根据目标人员的嘴部区域与虚拟麦克风区域之间的距离，调整目标人员的人声音频的播放音量。

其中，可以预先设置距离与播放音量之间的对应关系，根据距离与播放音量之间的对应关系、以及目标人员的嘴部区域与虚拟麦克风区域之间的距离，确定目标人员的人声音频的播放音量。例如，设定一个基准音量距离，该基准音量距离下播放音量不调整，假设基准音量距离为5cm，则预设的距离与播放音量之间的对应关系为v＝20log₁₀(0.05/d)，v表示播放音量，其单位可以为dB，d表示嘴部区域与虚拟麦克风区域之间的距离，其单位可以为m(米)。以上仅仅是本实施例的一个例子，在实际使用中，可以调整不同的参数达到最优的体验。

在本公开的一个实施例中，还包括：将目标人员的人声音频与伴奏音频混合，通过空间区域内的音频播放装置以所述播放音量播放。其中将空间区域内的目标人员的人声音频与伴奏音频混合，得到混合伴奏人声音频，将混合伴奏人声音频中的目标人员的人声音频通过空间区域内的音频播放装置以目标人员的人声音频的播放音量播放。其中，混合伴奏人声中伴奏音频可以通过空间区域内的音频播放装置以预设播放音量播放，也可以通过空间区域内的音频播放装置跟随人声音频的播放音量调整后播放。

本公开实施例提供的任一种音量控制方法可以由任意适当的具有数据处理能力的设备执行，包括但不限于：终端设备和服务器等。或者，本公开实施例提供的任一种音量控制方法可以由处理器执行，如处理器通过调用存储器存储的相应指令来执行本公开实施例提及的任一种音量控制方法。下文不再赘述。

示例性音量控制系统

图8是本公开一个实施例中音量控制系统的结构框图。如图8所示，包括：位于空间区域内的语音采集装置，图像采集装置，音频播放装置，控制器，其中，音频播放装置用于在控制器控制下播放音频，控制器用于执行所述的音量控制方法。

在本公开的一个实施例中，图像采集装置用于采集空间区域内的图像帧序列，音频采集装置用于采集空间区域内的语音信号，控制器用于处理图像帧序列和语音信号，以得到空间区域内的目标人员的人声音频的播放音量，并控制音频播放装置以播放音量播放空间区域的目标人员的人声音频。

示例性装置

图9是本公开一个实施例中音量控制装置的结构框图。如图9所示，音量控制装置包括：第一获取模块100、第一确定模块101、第二确定模块102、第三确定模块103、第二获取模块104、音量调整模块105。

第一获取模块100，用于获取空间区域内的包括空间区域内的人员的图像帧序列；

第一确定模块101，用于基于所述图像帧序列中的各图像帧，确定所述各图像帧中的虚拟麦克风区域和目标人员；

第二确定模块102，用于基于所述各图像帧，确定所述各图像帧中的目标人员的嘴部区域；

第三确定模块103，用于基于所述各图像帧中的目标人员的嘴部区域和虚拟麦克风区域，确定目标人员的嘴部区域与虚拟麦克风区域之间的距离；

第二获取模块104，用于获取空间区域内的语音信号，基于所述语音信号确定所述目标人员的人声音频；

音量调整模块105，用于根据所述目标人员的嘴部区域与虚拟麦克风区域之间的距离，调整所述目标人员的所述人声音频的播放音量。

在本公开的一个实施例中，第一确定模块101包括：

第一确定子模块，用于对所述图像帧序列中的各图像帧进行识别，确定所述各图像帧中的手持虚拟麦克风的图像区域；

第二确定子模块，用于基于所述各图像帧中的手持虚拟麦克风的图像区域，确定所述各图像帧中的虚拟麦克风区域，将所述各图像帧中持有所述虚拟麦克风的人员确定为所述各图像帧中的目标人员。

在本公开的一个实施例中，第二确定模块102包括：

第三确定子模块，用于获取所述各图像帧中的目标人员的嘴部关键点；

第四确定子模块，用于根据所述各图像帧中的目标人员的嘴部关键点，确定所述各图像帧中的目标人员的嘴部区域。

在本公开的一个实施例中，第三确定模块103包括：

第四确定子模块，用于确定所述各图像帧中的目标人员的嘴部区域的第一预设标识点；

第五确定子模块，用于确定所述各图像帧中的虚拟麦克风区域的第二预设标识点；

第六确定子模块，用于根据所述各图像帧中的所述第一预设标识点与所述第二预设标识点，确定所述目标人员的嘴部区域与虚拟麦克风区域之间的距离。

在本公开的一个实施例中，第四确定子模块，还用于针对所述各图像帧中的嘴部区域，基于所述目标人员的嘴部区域或嘴部关键点，确定所述目标人员的嘴部区域的中心点为所述目标人员的嘴部区域的第一预设标识点；

第五确定子模块，还用于针对所述各图像帧中的虚拟麦克风的区域，基于所述虚拟麦克风区域，确定所述麦克风区域的中心点为所述虚拟麦克风区域的第二预设标识点。

在本公开的一个实施例中，第二获取模块104包括：

第一获取子模块，用于基于所述语音信号进行语音分离，获取空间区域内的人员的人声音频信息，所述人员的人声音频信息包括：人员的人声音频和人声音频对应的音区；

第六确定子模块，用于基于所述各图像帧中的目标人员，确定所述空间区域内的目标人员的位置；

第七确定子模块，用于基于所述空间区域内的目标人员的位置和所述人声音频信息，确定所述目标人员的人声音频。

在本公开的一个实施例中，音量调整模块105还用于基于预设的距离与播放音量之间的对应关系，根据所述目标人员的嘴部区域与虚拟麦克风区域之间的距离，调整所述目标人员的人声音频的播放音量。

在本公开的一个实施例中，所述音量控制装置还包括：

混合模块，用于将所述目标人员的人声音频与伴奏音频混合，通过空间区域内的音频播放装置以所述播放音量播放。

示例性电子设备

下面，参考图10来描述根据本公开实施例的电子设备。如图10所示，电子设备10包括一个或多个处理器11和存储器12。

处理器11可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备中的其他组件以执行期望的功能。

存储器12可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器11可以运行所述程序指令，以实现上文所述的本公开的各个实施例的音量控制方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备10还可以包括：输入装置13和输出装置14，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

例如，输入装置13可以是上述的麦克风或麦克风阵列，用于捕捉声源的输入信号。此外，该输入设备13还可以包括例如键盘、鼠标等等。

该输出装置14可以向外部输出各种信息，包括确定出的距离信息、方向信息等。该输出设备14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图10中仅示出了该电子设备中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的音量控制方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的音量控制方法中的步骤。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本领域的技术人员可以对本公开进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本公开权利要求及其等同技术的范围之内，则本公开也意图包含这些改动和变型在内。

Claims

一种音量控制方法，包括：

获取空间区域内的包括空间区域内的人员的图像帧序列；

基于所述图像帧序列中的各图像帧，确定所述各图像帧中的虚拟麦克风区域和目标人员；

基于所述各图像帧，确定所述各图像帧中的目标人员的嘴部区域；

基于所述各图像帧中的目标人员的嘴部区域和虚拟麦克风区域，确定目标人员的嘴部区域与虚拟麦克风区域之间的距离；

获取空间区域内的语音信号，基于所述语音信号确定所述目标人员的人声音频；

根据所述目标人员的嘴部区域与虚拟麦克风区域之间的距离，调整所述目标人员的人声音频的播放音量。
根据权利要求1所述的方法，其中，所述基于所述图像帧序列中的各图像帧，确定所述各图像帧中的虚拟麦克风区域和目标人员，包括：

对所述图像帧序列中的各图像帧进行识别，确定所述各图像帧中的手持虚拟麦克风的图像区域；

基于所述各图像帧中的手持虚拟麦克风的图像区域，确定所述各图像帧中的虚拟麦克风区域，将所述各图像帧中持有所述虚拟麦克风的人员确定为所述各图像帧中的目标人员。
根据权利要求1所述的方法，其中，基于所述图像帧序列中的各图像帧，确定所述各图像帧中的目标人员的嘴部区域，包括：

获取所述各图像帧中的目标人员的嘴部关键点；

根据所述各图像帧中的目标人员的嘴部关键点，确定所述各图像帧中的目标人员的嘴部区域。
根据权利要求3所述的方法，其中，所述基于所述各图像帧中的目标人员的嘴部区域和虚拟麦克风区域，确定目标人员的嘴部区域与虚拟麦克风区域之间的距离，包括：

确定所述各图像帧中的目标人员的嘴部区域的第一预设标识点；

确定所述各图像帧中的虚拟麦克风区域的第二预设标识点；

根据所述各图像帧中的所述第一预设标识点与所述第二预设标识点，确定所述目标人员的嘴部区域与虚拟麦克风区域之间的距离。
根据权利要求4所述的方法，其中，所述确定所述各图像帧中的嘴部区域的第一预设标识点，包括：

针对所述各图像帧中的嘴部区域第一预设标识点，基于所述目标人员的嘴部区域或嘴部关键点，确定所述目标人员的嘴部区域的中心点为所述目标人员的嘴部区域的第一预设标识点；

所述确定所述各图像帧中的虚拟麦克风的第二预设标识点，包括：

针对所述各图像帧中的虚拟麦克风的区域第二预设标识点，基于所述虚拟麦克风区域，确定所述麦克风区域的中心点为所述虚拟麦克风区域的第二预设标识点。
根据权利要求1-5中任一项所述的方法，其中，所述基于所述语音信号，确定所述目标人员的人声音频，包括：

基于所述语音信号进行语音分离，获取空间区域内的人员的人声音频信息，所述人员的人声音频信息包括：人员的人声音频和人声音频对应的音区；

基于所述各图像帧中的目标人员，确定所述各图像帧中的目标人员的位置；

基于所述各图像帧中的目标人员的位置和所述人声音频信息，确定所述目标人员的人声音频。
根据权利要求1-5中任一项所述的方法，其中，所述根据所述目标人员的嘴部区域与虚拟麦克风区域之间的距离，调整所述目标人员的人声音频的播放音量，包括：

基于预设的距离与播放音量之间的对应关系，根据所述目标人员的嘴部区域与虚拟麦克风区域之间的距离，调整所述目标人员的人声音频的播放音量。
根据权利要求1-5中任一项所述的方法，所述目标人员的人声音频的播放音量之后，还包括：

将所述目标人员的人声音频与伴奏音频混合，通过空间区域内的音频播放装置以所述播放音量播放。
一种音量控制系统，包括：

位于空间区域内的语音采集装置，图像采集装置，音频播放装置，控制器，其中，所述音频播放装置用于在控制器控制下播放音频，所述控制器用于执行权利要求1-8任一项所述的方法。
一种音量控制装置，包括：

第一获取模块，用于获取空间区域内的包括空间区域内的人员的图像帧序列；

第一确定模块，用于基于所述图像帧序列中的各图像帧，确定所述各图像帧中的虚拟麦克风区域和目标人员；

第二确定模块，用于基于所述各图像帧，确定所述各图像帧中的目标人员的嘴部区域；

第三确定模块，用于基于所述各图像帧中的目标人员的嘴部区域和虚拟麦克风区域，确定目标人员的嘴部区域与虚拟麦克风区域之间的距离；

第二获取模块，用于获取空间区域内的语音信号，基于所述语音信号确定所述目标人员的人声音频；

音量调整模块，用于根据所述目标人员的嘴部区域与虚拟麦克风区域之间的距离，调整所述目标人员的人声音频的播放音量。
一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-8任一项所述的方法。
一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述可执行指令以实现上述1-8任一项所述的方法。