WO2021143656A1

WO2021143656A1 - 立体声拾音方法、装置、终端设备和计算机可读存储介质

Info

Publication number: WO2021143656A1
Application number: PCT/CN2021/071156
Authority: WO
Inventors: 韩博; 刘鑫; 熊伟; 靖霄; 李峰
Original assignee: 华为技术有限公司
Priority date: 2020-01-16
Filing date: 2021-01-12
Publication date: 2021-07-22
Also published as: US20230048860A1; BR112022013690A2; JP7528228B2; CN113132863A; CN117528349A; EP4075825A1; CN113132863B; CN114846816A; CN114846816B; EP4075825A4; JP2023511090A

Abstract

本发明实施例提出一种立体声拾音方法、装置、终端设备和计算机可读存储介质。终端设备从多个麦克风的拾音数据中获取多个目标拾音数据，获取终端设备设备的姿态数据和摄像头数据，根据姿态数据和摄像头数据从预先存储的多个波束参数组中确定与多个目标拾音数据对应的目标波束参数组，并根据目标波束参数组和多个目标拾音数据形成立体声波束。如此，当终端设备处于不同的视频录制场景时，根据不同的姿态数据和摄像头数据确定出不同的目标波束参数组，进而利用不同的目标波束参数组调整立体声波束的方向，故可以有效降低录制环境中的噪声影响，使得终端设备在不同的视频录制场景中均能获得较佳的立体声录音效果。

Description

立体声拾音方法、装置、终端设备和计算机可读存储介质

本申请要求在2020年1月16日提交中国国家知识产权局、申请号为202010048851.9的中国专利申请的优先权，发明名称为“立体声拾音方法、装置、终端设备和计算机可读存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及音频处理领域，具体而言，涉及一种立体声拾音方法、装置、终端设备和计算机可读存储介质。

背景技术

随着终端技术的发展，视频录制已成为手机、平板等终端设备中的一项重要应用，用户对视频的录音效果的要求也越来越高。

目前，在使用终端设备录制视频时，一方面因视频录制场景复杂多变以及录制过程中环境噪声的影响，另一方面终端设备生成的立体声波束的方向往往因配置参数的固化而无法调节，导致终端设备难以适应各种场景需求，从而无法获得较佳的立体声录音效果。

发明内容

有鉴于此，本发明的目的在于提供一种立体声拾音方法、装置、终端设备和计算机可读存储介质，以使终端设备在不同的视频录制场景中均能获得较佳的立体声录音效果。

为了实现上述目的，本发明实施例采用的技术方案如下：

第一方面，本发明实施例提供一种立体声拾音方法，应用于终端设备，所述终端设备包括多个麦克风，所述方法包括：

从所述多个麦克风的拾音数据中获取多个目标拾音数据；

获取所述终端设备的姿态数据和摄像头数据；

根据所述姿态数据和所述摄像头数据从预先存储的多个波束参数组中确定与所述多个目标拾音数据对应的目标波束参数组；其中，所述目标波束参数组包括所述多个目标拾音数据各自对应的波束参数；

根据所述目标波束参数组和所述多个目标拾音数据形成立体声波束。

本发明实施例提供的立体声拾音方法中，由于目标波束参数组是根据终端设备的姿态数据和摄像头数据来确定的，当终端设备处于不同的视频录制场景时，将获得不同的姿态数据和摄像头数据，进而确定出不同的目标波束参数组，这样在根据目标波束参数组和多个目标拾音数据形成立体声波束时，利用不同的目标波束参数组可以调整立体声波束的方向，从而有效降低录制环境中的噪声影响，使得终端设备在不同的视频录制场景中均能获得较佳的立体声录音效果。在可选的实施方式中，所述摄像头数据包括启用数据，所述启用数据表征被启用的摄像头；

所述根据所述姿态数据和所述摄像头数据从预先存储的多个波束参数组中确定与所述多个目标拾音数据对应的目标波束参数组的步骤包括：根据所述姿态数据和所述启用数据从预先存储的多个波束参数组中确定与所述多个目标拾音数据对应的第一目标波束参数组；

根据所述目标波束参数组和所述多个目标拾音数据形成立体声波束的步骤包括：根据所述第一目标波束参数组和所述多个目标拾音数据形成第一立体声波束；其中，所述第一立体声波束指向被启用的摄像头的拍摄方向。

本发明实施例中，通过终端设备的姿态数据和表征被启用的摄像头的启用数据来确定第一目标波束参数组，并根据第一目标波束参数组和多个目标拾音数据形成第一立体声波束，实现了在不同的视频录制场景下，第一立体声波束的方向根据姿态数据和启用数据进行适应性地调整，确保终端设备录制视频时可以获得较佳的立体声录音效果。

在可选的实施方式中，所述多个波束参数组包括第一波束参数组、第二波束参数组、第三波束参数组和第四波束参数组，所述第一波束参数组、所述第二波束参数组、所述第三波束参数组和所述第四波束参数组中的所述波束参数不同；

其中，当所述姿态数据表征所述终端设备处于横屏状态，且所述启用数据表征后置摄像头被启用时，所述第一目标波束参数组为所述第一波束参数组；

当所述姿态数据表征所述终端设备处于横屏状态，且所述启用数据表征前置摄像头被启用时，所述第一目标波束参数组为所述第二波束参数组；

当所述姿态数据表征所述终端设备处于竖屏状态，且所述启用数据表征后置摄像头被启用时，所述第一目标波束参数组为所述第三波束参数组；

当所述姿态数据表征所述终端设备处于竖屏状态，且所述启用数据表征前置摄像头被启用时，所述第一目标波束参数组为所述第四波束参数组。

在可选的实施方式中，所述摄像头数据包括启用数据和变焦数据，其中所述变焦数据为所述启用数据表征的被启用的摄像头的变焦倍数；

所述根据所述姿态数据和所述摄像头数据从预先存储的多个波束参数组中确定与所述多个目标拾音数据对应的目标波束参数组的步骤包括：根据所述姿态数据、所述启用数据和所述变焦数据从预先存储的多个波束参数组中确定与所述多个目标拾音数据对应的第二目标波束参数组；

根据所述目标波束参数组和所述多个目标拾音数据形成立体声波束的步骤包括：根据所述第二目标波束参数组和所述多个目标拾音数据形成第二立体声波束；其中，所述第二立体声波束指向被启用的摄像头的拍摄方向，且所述第二立体声波束的宽度随着所述变焦倍数的增大而收窄。

本发明实施例中，通过终端设备的姿态数据、表征被启用的摄像头的启用数据以及变焦数据来确定第二目标波束参数组，并根据第二目标波束参数组和多个目标拾音数据形成第二立体声波束，实现了在不同的视频录制场景下，第二立体声波束的方向和宽度根据姿态数据、启用数据以及变焦数据进行适应性地调整，从而在嘈杂环境以及远距离拾音条件下，能够实现较好的录音鲁棒性。

在可选的实施方式中，所述从所述多个麦克风的拾音数据中获取多个目标拾音数据的步骤包括：

根据所述多个麦克风的拾音数据获取未发生堵麦的麦克风的序号；

检测每个所述麦克风的拾音数据中是否存在异常音数据；

若存在异常音数据，则消除所述多个麦克风的拾音数据中的异常音数据，得到初始目标拾音数据；

从所述初始目标拾音数据中选取所述未发生堵麦的麦克风的序号对应的拾音数据作为所述多个目标拾音数据。

本发明实施例中，通过对多个麦克风进行堵麦检测以及对多个麦克风的拾音数据进行异常音处理，来确定用于形成立体声波束的多个目标拾音数据，实现了在有异常声音干扰和麦克风堵孔的情况下，仍具有较好的录音鲁棒性，从而保证良好的立体声录音效果。

在可选的实施方式中，所述根据所述多个麦克风的拾音数据获取未发生堵麦的麦克风的序号的步骤包括：

对每个所述麦克风的拾音数据均进行时域分帧处理和频域变换处理，以得到每个所述麦克风的拾音数据对应的时域信息和频域信息；

将不同麦克风的拾音数据对应的时域信息和频域信息分别进行比较，得到时域比较结果和频域比较结果；

根据所述时域比较结果和所述频域比较结果确定发生堵麦的麦克风的序号；

基于所述发生堵麦的麦克风的序号确定未发生堵麦的麦克风的序号。

本发明实施例中，通过比较不同麦克风的拾音数据对应的时域信息和频域信息，能够得到比较准确的堵麦检测结果，有利于后续确定用于形成立体声波束的多个目标拾音数据，从而保证良好的立体声录音效果。

在可选的实施方式中，所述检测每个所述麦克风的拾音数据中是否存在异常音数据的步骤包括：

对每个所述麦克风的拾音数据进行频域变换处理，得到每个所述麦克风的拾音数据对应的频域信息；

根据预先训练的异常音检测网络和每个所述麦克风的拾音数据对应的频域信息检测每个所述麦克风的拾音数据中是否存在异常音数据。

本发明实施例中，通过将麦克风的拾音数据进行频域变换处理，并利用预先训练的异常音检测网络及麦克风的拾音数据对应的频域信息来检测麦克风的拾音数据中是否存在异常音数据，便于后续得到比较干净的拾音数据，从而保证良好的立体声录音效果。

在可选的实施方式中，所述消除所述多个麦克风的拾音数据中的异常音数据的步骤包括：

利用预先训练的声音检测网络检测所述异常音数据中是否存在预设的声音数据；

若不存在预设的声音数据，则消除所述异常音数据；

若存在预设的声音数据，则降低所述异常音数据的强度。

本发明实施例中，在对异常音进行消除处理时，通过检测异常音数据中是否存在预设的声音数据，并基于检测结果采取不同的消除措施，既能保证获得比较干净的拾音数据，又能避免用户期望录到的声音数据被完全消除。

从所述多个麦克风的拾音数据中选取所述未发生堵麦的麦克风的序号对应的拾音数据作为所述多个目标拾音数据。

本发明实施例中，通过对多个麦克风进行堵麦检测，进而选取未发生堵塞的麦克风的序号对应的拾音数据，用于后续形成立体声波束，可使终端设备录制视频时不会因为麦克风堵孔导致音质的明显降低，或者立体声的明显不平衡，即在有麦克风堵孔的情况下，可以保证立体声录音效果，录音鲁棒性好。

检测每个所述麦克风的拾音数据中是否存在异常音数据；

若存在异常音数据，则消除所述多个麦克风的拾音数据中的异常音数据，得到多个目标拾音数据。

本发明实施例中，通过对该多个麦克风的拾音数据进行异常音检测和异常音消除处理，可以得到比较干净的拾音数据，用于后续形成立体声波束。如此，实现了在终端设备录制视频时，有效降低异常音数据对立体声录音效果的影响。在可选的实施方式中，所述根据所述目标波束参数组和所述多个目标拾音数据形成立体声波束的步骤之后，所述方法还包括：

修正所述立体声波束的音色。

本发明实施例中，通过修正立体声波束的音色，可将频响修正平直，从而获得较好的立体声录音效果。

在可选的实施方式中，所述根据所述目标波束参数组和所述多个目标拾音数据形成立体声波束的步骤之后，所述方法还包括：

调节所述立体声波束的增益。

本发明实施例中，通过调节立体声波束的增益，可使小音量的拾音数据能够听得清，大音量的拾音数据不会产生削波失真，从而将用户录到的声音调整到合适音量，提高用户的视频录制体验。

在可选的实施方式中，所述摄像头数据包括被启用的摄像头的变焦倍数，所述调节所述立体声波束的增益的步骤包括：

根据所述摄像头的变焦倍数调节所述立体声波束的增益。

本发明实施例中，根据摄像头的变焦倍数调节立体声波束的增益，可使目标声源的音量不会因为距离远而降低，从而提升录制视频的声音效果。

在可选的实施方式中，所述麦克风的数量为3至6个，其中至少一个麦克风设置在所述终端设备的屏幕正面或所述终端设备的背面。

本发明实施例中，通过设置至少一个麦克风在终端设备的屏幕正面或终端设备的背面，以确保能够形成指向终端设备前后方向的立体声波束。

在可选的实施方式中，所述麦克风的数量为3个，所述终端设备的顶部和底部分别设置一个麦克风，所述终端设备的屏幕正面或所述终端设备的背面设置一个麦克风。

在可选的实施方式中，所述麦克风的数量为6个，所述终端设备的顶部和底部分别设置两个麦克风，所述终端设备的屏幕正面和所述终端设备的背面分别设置一个麦克风。

第二方面，本发明实施例提供一种立体声拾音装置，应用于终端设备，所述终端设备包括多个麦克风，所述装置包括：

拾音数据获取模块，用于从所述多个麦克风的拾音数据中获取多个目标拾音数据；

设备参数获取模块，用于获取所述终端设备的姿态数据和摄像头数据；

波束参数确定模块，用于根据所述姿态数据和所述摄像头数据从预先存储的多个波束参数组中确定与所述多个目标拾音数据对应的目标波束参数组；其中，所述目标波束参数组包括所述多个目标拾音数据各自对应的波束参数；

波束形成模块，用于根据所述目标波束参数组和所述多个目标拾音数据形成立体声波束。

第三方面，本发明实施例提供一种终端设备，包括存储有计算机程序的存储器和处理器，所述计算机程序被所述处理器读取并运行时，实现如前述实施方式中任一项所述的方法。

第四方面，本发明实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器读取并运行时，实现如前述实施方式中任一项所述的方法。

第五方面，本发明实施例还提供一种计算机程序产品，当计算机程序产品在计算机上运行时，使得计算机执行前述实施方式中任一项所述的方法。

第六方面，本发明实施例还提供一种芯片系统，该芯片系统包括处理器，还可以包括存储器，用于实现如前述实施方式中任一项所述的方法。该芯片系统可以由芯片构成，也可以包含芯片和其他分立器件。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本发明实施例提供的终端设备的一种硬件结构示意图；

图2示出了本发明实施例提供的终端设备上的麦克风数量为3个时的布局示意图；

图3示出了本发明实施例提供的终端设备上的麦克风数量为6个时的布局示意图；

图4示出了本发明实施例提供的立体声拾音方法的一种流程示意图；

图5本发明实施例提供的立体声拾音方法的另一种流程示意图；

图6示出了终端设备处于横屏状态且启用后置摄像头时对应的第一立体声波束的示意图；

图7示出了终端设备处于横屏状态且启用前置摄像头时对应的第一立体声波束的示意图；

图8示出了终端设备处于竖屏状态且启用后置摄像头时对应的第一立体声波束的示意图；

图9示出了终端设备处于竖屏状态且启用前置摄像头时对应的第一立体声波束的示意图；

图10示出了本发明实施例提供的立体声拾音方法的又一种流程示意图；

图11a-11c示出了第二立体声波束的宽度随被启用的摄像头的变焦倍数的变化而变化的示意图；

图12示出了图4中S201的一种子步骤流程示意图；

图13示出了图4中S201的另一种子步骤流程示意图；

图14示出了图4中S201的又一种子步骤流程示意图；

图15示出了本发明实施例提供的立体声拾音方法的又一种流程示意图；

图16示出了本发明实施例提供的立体声拾音方法的又一种流程示意图；

图17示出了本发明实施例提供的立体声拾音装置的一种功能模块示意图；

图18示出了本发明实施例提供的立体声拾音装置的另一种功能模块示意图；

图19示出了本发明实施例提供的立体声拾音装置的又一种功能模块示意图。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本发明实施例提供的立体声拾音方法及装置可以应用于手机、平板电脑等终端设备中。示例性的，图1示出了终端设备的一种硬件结构示意图。终端设备可以包括处理器110、内部存储器120、外部存储器接口130、传感器模块140、摄像头150、显示屏160、音频模块170、扬声器171、麦克风172、受话器173、耳机接口174、移动通信模块180、无线通信模块190、USB(Universal Serial Bus，通用串行总线)接口101、充电管理模块102、电源管理模块103、电池104、按键105、马达106、指示器107、用户标识模块(Subscriber Identification Module，SIM)卡接口108、天线1、天线2等。

应当理解的是，图1所示的硬件结构仅是一个示例。本发明实施例的终端设备可以具有比图1中所示终端设备更多的或者更少的部件，可以组合两个或更多的部件，或者可以具有不同的部件配置。图1中所示出的各种部件可以在包括一个或多个信号处理和/或专用集成电路在内的硬件、软件、或硬件和软件的组合中实现。

其中，处理器110可以包括一个或多个处理单元。例如，处理器110可以包括应用处理器(Application Processor，AP)，调制解调处理器，图形处理器(Graphics Processing Unit，GPU)，图像信号处理器(Image Signal Processor，ISP)，控制器，存储器，视频编解码器，数字信号处理器(Digital Signal Processor，DSP)，基带处理器，和/或神经网络处理器(Neural-network Processing Unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。控制器可以是终端设备的神经中枢和指挥中心，控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从存储器中直接调用，避免了重复存取，减少了处理器110的等待时间，因而提高了系统的效率。

内部存储器120可以用于存储计算机程序和/或数据。在一些实施例中，内部存储器120可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能，图像播放功能、人脸识别功能)等；存储数据区可存储终端设备使用过程中所创建的数据(比如音频数据、图像数据)等。示例性的，处理器110可以通过运行存储在内部存储器120的计算机程序和/或数据，从而执行终端设备的各种功能应用以及数据处理。例如，当内部存储器120中存储的计算机程序和/或数据被处理器110读取并运行时，可使终端设备执行本发明实施例所提供的立体声拾音方法，使得终端设备在不同的视频录制场景中均能获得较佳的立体声录音效果。此外，内部存储器120可以包括高速随机存取存储器，还可以包括非易失性存储器。例如，非易失性存储器可以包括至少一个磁盘存储器件、闪存器件、通用闪存存储器(Universal Flash Storage，UFS)等。

外部存储器接口130可以用于连接外部存储卡，例如Micro SD卡，实现扩展终端设备的存储能力。外部存储卡通过外部存储器接口130与处理器110通信，实现数据存储功能。例如将音频、视频等文件保存在外部存储卡中。

传感器模块140可以包括一个或多个传感器。例如，加速度传感器140A、陀螺仪传感器140B、距离传感器140C、压力传感器140D、触摸传感器140E、指纹传感器140F、环境光传感器140G、骨传导传感器140H、接近光传感器140J、温度传感器140K、气压传感器140L、磁传感器140M等，对此不作限定。

其中，该加速度传感器140A能够感知到加速力的变化，比如晃动、跌落、上升、下降以及手持终端设备的角度的变化等各种移动变化，都能被加速度传感器140A转化为电信号。在本实施例中，通过加速度传感器140A可以检测终端设备处于横屏状态或者是竖屏状态。

陀螺仪传感器140B可以用于确定终端设备的运动姿态。在一些实施例中，可以通过陀螺仪传感器140B确定终端设备围绕三个轴(即，x，y和z轴)的角速度。陀螺仪传感器140B可以用于拍摄防抖。示例性的，当按下快门，陀螺仪传感器140B检测终端设备抖动的角度，根据角度计算出镜头模组需要补偿的距离，让镜头通过反向运动抵消终端设备的抖动，实现防抖。陀螺仪传感器140B还可以用于导航，体感游戏场景。

距离传感器140C可以用于测量距离。终端设备可以通过红外或激光测量距离。示例性的，终端设备在拍摄场景下，可以利用距离传感器140C测距以实现快速对焦。

压力传感器140D可以用于感受压力信号，将压力信号转换成电信号。在一些实施例中，压力传感器140D可以设置于显示屏160。压力传感器140D的种类很多，如电阻式压力传感器，电感式压力传感器，电容式压力传感器等。电容式压力传感器可以是包括至少两个具有导电材料的平行板。当有力作用于压力传感器140D时，电极之间的电容改变，终端设备根据电容的变化确定压力的强度。当有触摸操作作用于显示屏160时，终端设备可以通过压力传感器140D检测触摸操作强度，还可以根据压力传感器140D的检测信号计算触摸的位置。

触摸传感器140E，也称“触控面板”。触摸传感器140E可以设置于显示屏160，由触摸传感器140E与显示屏160组成触摸屏，也称“触控屏”。触摸传感器140E用于检测作用于其上或附近的触摸操作。触摸传感器140E可以将检测到的触摸操作传递给应用处理器，以确定触摸事件类型，可以通过显示屏160提供与触摸操作相关的视觉输出。在另一些实施例中，触摸传感器140E也可以设置于终端设备的表面，与显示屏160所处的位置不同。

指纹传感器140F可以用于采集指纹。终端设备可以利用采集的指纹特性实现指纹解锁，访问应用锁，指纹拍照，指纹接听来电等功能。

环境光传感器140G可以用于感知环境光亮度。终端设备可以根据感知的环境光亮度自适应调节显示屏160亮度。环境光传感器140G也可用于拍照时自动调节白平衡。环境光传感器140G还可以与接近光传感器140J配合，检测终端设备是否在口袋里，以防误触。骨传导传感器140H可以用于获取振动信号。在一些实施例中，骨传导传感器140H可以获取人体声部振动骨块的振动信号。骨传导传感器140H也可以接触人体脉搏，接收血压跳动信号。在一些实施例中，骨传导传感器140H也可以设置于耳机中，结合成骨传导耳机。音频模块170可以基于骨传导传感器140H获取的声部振动骨块的振动信号，解析出语音信号，实现语音功能。应用处理器可以基于骨传导传感器140H获取的血压跳动信号解析心率信息，实现心率检测功能。

接近光传感器140J可以包括例如发光二极管(LED)和光检测器，例如光电二极管。发光二极管可以是红外发光二极管。终端设备通过发光二极管向外发射红外光。终端设备使用光电二极管检测来自附近物体的红外反射光。当检测到充分的反射光时，可以确定终端设备附近有物体。当检测到不充分的反射光时，终端设备可以确定终端设备附近没有物体。终端设备可以利用接近光传感器140J检测用户手持终端设备贴近耳朵通话，以便自动熄灭屏幕达到省电的目的。

温度传感器140K可以用于检测温度。在一些实施例中，终端设备利用温度传感器140K检测的温度，执行温度处理策略。例如，当温度传感器140K上报的温度超过阈值，终端设备执行降低位于温度传感器140K附近的处理器的性能，以便降低功耗实施热保护。在另一些实施例中，当温度低于另一阈值时，终端设备对电池104加热，以避免低温导致终端设备异常关机。在其他一些实施例中，当温度低于又一阈值时，终端设备对电池104的输出电压执行升压，以避免低温导致的异常关机。

气压传感器140L可以用于测量气压。在一些实施例中，终端设备通过气压传感器140L测得的气压值计算海拔高度，辅助定位和导航。

磁传感器140M可以包括霍尔传感器。终端设备可以利用磁传感器140M检测翻盖皮套的开合。在一些实施例中，当终端设备是翻盖机时，终端设备可以根据磁传感器140M检测翻盖的开合，进而根据检测到的皮套的开合状态或翻盖的开合状态，设置翻盖自动解锁等特性。

摄像头150用于捕获图像或视频。物体通过镜头生成光学图像投射到感光元件，感光元件可以是电荷耦合器件(Charge Coupled Device，CCD)或互补金属氧化物半导体(Complementary Metal-Oxide-Semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像信号，ISP将数字图像信号输出到DSP加工处理，DSP将数字图像信号转换成标准的RGB、YUV等格式的图像信号。在一些实施例中，终端设备可以包括1个或多个摄像头150，对此不作限定。一个示例中，终端设备包括2个摄像头150，例如1个前置摄像头和1个后置摄像头；又一个示例中，终端设备包括5个摄像头150，例如3个后置摄像头和2个前置摄像头。终端设备可以通过ISP、摄像头150、视频编解码器、GPU、显示屏160以及应用处理器等实现拍摄功能。

显示屏160用于显示图像、视频等。显示屏160包括显示面板，显示面板可以采用液晶显示屏(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode，OLED)、有源矩阵有机发光二极体或主动矩阵有机发光二极体(Active-Matrix Organic Light Emitting Diode的，AMOLED)，柔性发光二极管(Flex Light-Emitting Diode，FLED)、Miniled、MicroLed、Micro-oLed、量子点发光二极管(Quantum Dot Light Emitting Diodes，QLED)等。示例性的，终端设备可以通过GPU、显示屏160、应用处理器等实现显示功能。

在本实施例中，终端设备可以通过音频模块170、扬声器171、麦克风172、受话器173、耳机接口174，以及应用处理器等实现音频功能。例如音频播放、录音等。

音频模块170用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中，音频模块170可以设置于处理器110中，或将音频模块170的部分功能模块设置于处理器110中。

扬声器171，也称“喇叭”，用于将音频电信号转换为声音信号。例如，终端设备可以通过扬声器171播放音乐、发出语音提示等。

麦克风172，也称“话筒”、“传声器”，用于采集声音(例如周围环境声音，包括人发出的声音、设备发出的声音等)，并将声音信号转换为音频电信号，即本实施例中的拾音数据。需要说明的是，终端设备可以设置多个麦克风172，通过在终端设备上布置多个麦克风172，可使用户在使用终端设备录制视频时，获得优质的立体声录音效果。

在本实施例中，终端设备上设置的麦克风172的数量可以为3至6个，其中，至少一个麦克风172设置在终端设备的屏幕正面或终端设备的背面，以确保能够形成指向终端设备前后方向的立体声波束。

示例性的，如图2所示，当麦克风的数量为3个时，终端设备的顶部和底部分别设置一个麦克风(即m1和m2)，终端设备的屏幕正面或终端设备的背面设置一个麦克风(即m3)；如图3所示，当麦克风的数量为6个时，终端设备的顶部和底部分别设置两个麦克风(即m1、m2，和m3、m4)，终端设备的屏幕正面和终端设备的背面分别设置一个麦克风(即m5和m6)。可以理解，在其他实施例中，麦克风172的数量还可以为4个或者5个，且至少一个麦克风172设置在终端设备的屏幕正面或终端设备的背面。

受话器173，也称“听筒”，用于将音频电信号转换为声音信号。当终端设备接听电话或语音信息时，可以通过将受话器173靠近人耳接听语音。

耳机接口174用于连接有线耳机。耳机接口174可以是USB接口，也可以是3.5mm的开放移动终端设备平台(Open Mobile Terminal Platform，OMTP)标准接口，美国蜂窝电信工业协会(Cellular Telecommunications Industry Association of the USA，CTIA)标准接口。

终端设备的无线通信功能可以通过天线1、天线2、移动通信模块180、无线通信模块190、调制解调处理器以及基带处理器等实现。

天线1和天线2用于发射和接收电磁波信号。终端设备中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用，以提高天线的利用率。例如，可以将天线1复用为无线局域网的分集天线。在另外一些实施例中，天线可以和调谐开关结合使用。

移动通信模块180可以提供应用在终端设备上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块180可以包括至少一个滤波器、开关、功率放大器、低噪声放大器(Low Noise Amplifier，LNA)等。移动通信模块180可以由天线1接收电磁波，并对接收的电磁波进行滤波、放大等处理，传送至调制解调处理器进行解调。移动通信模块180还可以对经调制解调处理器调制后的信号放大，经天线1转为电磁波辐射出去。在一些实施例中，移动通信模块180的至少部分功能模块可以被设置于处理器110中。在另一些实施例中，移动通信模块180的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。

调制解调处理器可以包括调制器和解调器。其中，调制器用于将待发送的低频基带信号调制成中高频信号，解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后，被传递给应用处理器。应用处理器通过音频设备(不限于扬声器171，受话器173等)输出声音信号，或通过显示屏160显示图像或视频。在一些实施例中，调制解调处理器可以是独立的器件。在另一些实施例中，调制解调处理器可以独立于处理器110，与移动通信模块180或其他功能模块设置在同一个器件中。

无线通信模块190可以提供应用在终端设备上的包括无线局域网(Wireless Local Area Networks，WLAN)(如无线保真(Wireless Fidelity，Wi-Fi)网络)，蓝牙(BitTorrent，BT)，全球导航卫星系统(Global Navigation Satellite System，GNSS)，调频(Frequency Modulation，FM)，近距离无线通信技术(Near Field Communication，NFC)，红外技术(Infrared Radiation，IR)等无线通信的解决方案。无线通信模块190可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块190经由天线2接收电磁波，将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器110。无线通信模块190还可以从处理器110接收待发送的信号，对其进行调频、放大处理，经天线2转为电磁波辐射出去。

在一些实施例中，终端设备的天线1和移动通信模块180耦合，天线2和无线通信模块190耦合，使得终端设备可以通过无线通信技术与网络以及其他设备通信。该无线通信技术可以包括全球移动通讯系统(Global System for Mobile Communication，GSM)，通用分组无线服务(General Packet Radio Service，GPRS)，码分多址接入(Code Division Multiple Access，CDMA)，宽带码分多址(Wideband Code Division Multiple Access，WCDMA)，时分码分多址(Time Division-Synchronous Code Division Multiple Access，TD-SCDMA)，长期演进(Long Term Evolution，LTE)，BT，GNSS，WLAN，NFC，FM，和/或IR技术等。GNSS可以包括全球卫星定位系统(Global Positioning System，GPS)，全球导航卫星系统(Global Navigation Satellite System，GLONASS)，北斗卫星导航系统(BeiDou Navigation Satellite System，BDS)，准天顶卫星系统(Quasi-Zenith Satellite System，QZSS)和/或星基增强系统(Satellite Based Augmentation System，SBAS)。

USB接口101是符合USB标准规范的接口，具体可以是Mini USB接口、Micro USB接口、USB Type C接口等。USB接口101可以用于连接充电器为终端设备充电，也可以用于终端设备与外围设备之间传输数据。还可以用于连接耳机，通过耳机播放声音。示例性的，USB接口101除了可以为耳机接口174以外，还可以用于连接其他终端设备，例如AR(Augmented Reality，增强现实)设备、计算机等。

充电管理模块102用于从充电器接收充电输入。其中，充电器可以是无线充电器，也可以是有线充电器。在一些有线充电的实施例中，充电管理模块102可以通过USB接口101接收有线充电器的充电输入。在一些无线充电的实施例中，充电管理模块102可以通过终端设备的无线充电线圈接收无线充电输入。充电管理模块102为电池104充电的同时，还可以通过电源管理模块103为终端设备供电。

电源管理模块103用于连接电池104、充电管理模块102与处理器110。电源管理模块103接收电池104和/或充电管理模块102的输入，为处理器110、内部存储器120、摄像头150、显示屏160等供电。电源管理模块103还可以用于监测电池容量、电池循环次数、电池健康状态(漏电、阻抗)等参数。在一些实施例中，电源管理模块103可以设置于处理器110中。在另一些实施例中，电源管理模块103和充电管理模块102也可以设置于同一个器件中。

按键105包括开机键，音量键等。按键105可以是机械按键，也可以是触摸式按键。终端设备可以接收按键输入，产生与终端设备的用户设置以及功能控制有关的按键信号输入。

马达106可以产生振动提示。马达106可以用于来电振动提示，也可以用于触摸振动反馈。例如，作用于不同应用(例如摄像，音频播放等)的触摸操作，可以对应不同的振动反馈效果。作用于显示屏160不同区域的触摸操作，马达106也可对应不同的振动反馈效果。不同的应用场景(例如：时间提醒，接收信息，闹钟，游戏等)也可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。

指示器107可以是指示灯，可以用于指示充电状态，电量变化，也可以用于指示消息，未接来电，通知等。

SIM卡接口108用于连接SIM卡。SIM卡可以通过插入SIM卡接口108，或从SIM卡接口108拔出，实现和终端设备的接触和分离。终端设备可以支持一个或多个SIM卡接口。SIM卡接口108可以支持Nano SIM卡，Micro SIM卡，SIM卡等。同一个SIM卡接口108可以同时插入多张卡。多张卡的类型可以相同，也可以不同。SIM卡接口108也可以兼容不同类型的SIM卡。SIM卡接口108也可以兼容外部存储卡。终端设备通过SIM卡和网络交互，实现通话以及数据通信等功能。在一些实施例中，终端设备采用eSIM，即：嵌入式SIM卡。eSIM卡可以嵌在终端设备中，不能和终端设备分离。

本发明实施例提供的立体声拾音方法，利用终端设备的姿态数据和摄像头数据确定目标波束参数组，并结合麦克风拾取的目标拾音数据形成立体声波束。由于不同的姿态数据和摄像头数据决定了不同的目标波束参数组，因此可以利用不同的目标波束参数组调整立体声波束的方向，从而有效降低录制环境中的噪声影响，使得终端设备在不同的视频录制场景中均能获得较佳的立体声录音效果。此外，通过检测麦克风的堵孔情况、消除各种异常音数据、修正立体声波束的音色以及调节立体声波束的增益，在保证良好的立体声录音效果的同时，进一步增强了录音的鲁棒性。

图4为本发明实施例提供的立体声拾音方法的一种流程示意图，该立体声拾音方法可以在具有上述硬件结构的终端设备上实现。请参照图4，该立体声拾音方法可以包括以下步骤：

S201，从多个麦克风的拾音数据中获取多个目标拾音数据。

在本实施例中，当用户使用终端设备摄像或者录制视频时，终端设备可以通过其上设置的多个麦克风采集声音，然后从该多个麦克风的拾音数据中获得多个目标拾音数据。

其中，该多个目标拾音数据既可以根据该多个麦克风的拾音数据直接获得，也可以按照一定规则选取该多个麦克风中的部分麦克风的拾音数据得到，还可以是将多个麦克风的拾音数据按照一定方式进行处理后得到，对此不作限制。

S202，获取终端设备的姿态数据和摄像头数据。

在本实施例中，该终端设备的姿态数据可以通过上述的加速度传感器140A获得，该姿态数据可以表征终端设备处于横屏状态或者是竖屏状态；该摄像头数据可以理解为用户使用终端设备录制视频的过程中，终端设备上设置的摄像头所对应的使用情况。

S203，根据姿态数据和摄像头数据从预先存储的多个波束参数组中确定与多个目标拾音数据对应的目标波束参数组；其中，目标波束参数组包括多个目标拾音数据各自对应的波束参数。

在本实施例中，该波束参数组可以预先训练得到并存储在终端设备中，其包括若干影响立体声波束形成的参数。在一个示例中，可以预先针对终端设备可能处于的视频录制场景，确定终端设备所对应的姿态数据和摄像头数据，并基于该姿态数据和摄像头数据设置相匹配的波束参数组。如此，可以得到多个波束参数组，分别对应不同的视频录制场景，将该多个波束参数组存储在终端设备中以供后续录制视频时使用。例如，当用户使用终端设备摄像或者录制视频时，终端设备基于当前获取的姿态数据和摄像头数据，可以从多个波束参数组中确定匹配的目标波束参数组。

可以理解，当终端设备处于不同的视频录制场景时，终端设备对应的姿态数据和摄像头数据会相应地发生变化，故基于姿态数据和摄像头数据可从多个波束参数组中确定出不同的目标波束参数组，即多个目标拾音数据各自对应的波束参数会随着视频录制场景的不同而发生改变。

S204，根据目标波束参数组和多个目标拾音数据形成立体声波束。

在本实施例中，目标波束参数组中的波束参数可以理解为权重值，在根据目标波束参数组和多个目标拾音数据形成立体声波束时，可以利用每个目标拾音数据和对应的权重值进行加权求和运算，最终得到立体声波束。

由于立体声波束具备空间指向性，故通过对多个目标拾音数据进行波束形成处理，可对立体声波束指向的空间方向之外的拾音数据实现不同程度的抑制作用，从而有效降低录制环境中的噪声影响。同时，由于多个目标拾音数据各自对应的波束参数会随着视频录制场景的不同而发生改变，故根据目标波束参数组和多个目标拾音数据形成的立体声波束的方向，也将随着视频录制场景的变化而变化，使得终端设备在不同的视频录制场景中均能获得较佳的立体声录音效果。

在一些实施例中，用户使用终端设备录制视频时，会根据录制场景的不同选用不同的摄像头进行拍摄，还可能调整终端设备的姿态使其处于横屏状态或者竖屏状态。在此情形下，终端设备的摄像头数据可以包括启用数据，该启用数据用于表征被启用的摄像头。如图5所示，上述步骤S203可以包括子步骤S203-1：根据姿态数据和启用数据从预先存储的多个波束参数组中确定与多个目标拾音数据对应的第一目标波束参数组；上述步骤S204可以包括子步骤S204-1：根据第一目标波束参数组和多个目标拾音数据形成第一立体声波束，其中，第一立体声波束指向被启用的摄像头的拍摄方向。

在实际应用中，当终端设备处于不同的视频录制场景时，需要对应不同的波束参数组，故终端设备中可以预先存储多个波束参数组。在一个示例中，该多个波束参数组可以包括第一波束参数组、第二波束参数组、第三波束参数组和第四波束参数组，第一波束参数组、第二波束参数组、第三波束参数组和第四波束参数组中的波束参数不同。

以视频录制场景包括终端设备的横、竖屏状态以及前、后置摄像头的使用情况为例，当姿态数据表征终端设备处于横屏状态，且启用数据表征后置摄像头被启用时，第一目标波束参数组为第一波束参数组；当姿态数据表征终端设备处于横屏状态，且启用数据表征前置摄像头被启用时，第一目标波束参数组为第二波束参数组；当姿态数据表征终端设备处于竖屏状态，且启用数据表征后置摄像头被启用时，第一目标波束参数组为第三波束参数组；当姿态数据表征终端设备处于竖屏状态，且启用数据表征前置摄像头被启用时，第一目标波束参数组为第四波束参数组。

示例性的，如图6～图9所示，为第一立体声波束的方向根据终端设备的横、竖屏状态的切换以及前、后置摄像头的启用而变化的示意图。其中，图6中的终端设备处于横屏状态且启用后置摄像头进行拍摄，图7中的终端设备处于横屏状态且启用前置摄像头进行拍摄，图8中的终端设备处于竖屏状态且启用后置摄像头进行拍摄，图9中的终端设备处于竖屏状态且启用前置摄像头进行拍摄。

在图6～图9中，左、右箭头分别表示左、右波束的方向，该第一立体声波束可以理解为左、右波束的合成波束；水平面指的是与终端设备的当前拍摄姿态(横屏状态或竖屏状态)下的竖边垂直的平面，所形成的第一立体声波束的主轴位于该水平面内。当终端设备发生横、竖屏切换时，第一立体声波束的方向也会随之变化。例如，图6所示的第一立体声波束的主轴位于与终端设备的横屏状态下的竖边垂直的水平面上，当终端设备发生横、竖屏切换后，第一立体声波束的主轴则位于与竖屏状态下的竖边垂直的水平面上，如图8所示。

此外，由于被启用的摄像头的拍摄方向一般为用户重点需要拾音的方向，故第一立体声波束的方向还会跟随被启用的摄像头的拍摄方向而变化。例如，在图6和图8中，第一立体声波束的方向均指向后置摄像头的拍摄方向，在图7和图9中，第一立体声波束的方向均指向前置摄像头的拍摄方向。

由此可见，在不同的视频录制场景下，该多个目标拾音数据将对应不同的第一目标波束参数组，进而形成不同方向的第一立体声波束，使得第一立体声波束的方向根据终端设备的横、竖屏状态的切换以及前、后置摄像头的启用进行适应性地调整，确保终端设备录制视频时可以获得较佳的立体声录音效果。

在一些实施例中，用户使用终端设备录制视频时，不仅会对终端设备进行横、竖屏切换以及选用不同的摄像头进行拍摄，而且还会根据拍摄目标的距离远近使用变焦。在此情形下，该摄像头数据可以包括上述的启用数据和变焦数据，其中变焦数据为该启用数据表征的被启用的摄像头的变焦倍数。如图10所示，上述步骤S203可以包括子步骤S203-2：根据姿态数据、启用数据和变焦数据从预先存储的多个波束参数组中确定与多个目标拾音数据对应的第二目标波束参数组；上述步骤S204可以包括子步骤S204-2：根据第二目标波束参数组和多个目标拾音数据形成第二立体声波束；其中，第二立体声波束指向被启用的摄像头的拍摄方向，且第二立体声波束的宽度随着变焦倍数的增大而收窄。

其中，该第二立体声波束的宽度随着被启用的摄像头的变焦倍数的增大而变窄，可以使声像更加集中，因为在用户使用变焦的时候，往往是远距离拾音场景，目标的信噪比更低，通过第二立体声波束的收窄可以提升信噪比，使得终端设备在低信噪比的情况下录音鲁棒性更好，从而获得较佳的立体声录音效果。

在本实施例中，为了实现第二立体声波束的宽度随着被启用的摄像头的变焦倍数的增大而变窄，可以预先设定第二立体声波束在不同姿态数据、启用数据和变焦数据情况下对应的目标形状，然后利用最小二乘法训练得到匹配的波束参数组，使得根据该波束参数组形成的第二立体声波束近似于设定的目标形状，从而得到不同姿态数据、启用数据和变焦数据情况下对应的波束参数组。

当用户使用终端设备录制视频时，随着变焦倍数的调大或者调小，终端设备可以匹配到不同变焦倍数对应的第二目标波束参数组，进而基于第二目标波束参数组和多个目标拾音数据形成不同宽度的第二立体声波束，以适应用户的视频录制需求。示例性的，如图11a-11c所示，为第二立体声波束的宽度随被启用的摄像头的变焦倍数的变化而变化的示意图。在图11a-11c中，第二立体声波束为左、右波束的合成波束，0度方向为用户录制视频时被启用的摄像头的拍摄方向(也可称作目标方向)。当用户使用低变焦倍数录制视频时，终端设备可以匹配到低变焦倍数对应的第二目标波束参数组，进而形成图11a所示的较宽的第二立体声波束；其中，图11a中的左、右波束分别指向拍摄方向的左右45度。当用户使用中等变焦倍数录制视频时，终端设备可以匹配到中等变焦倍数对应的第二目标波束参数组，进而形成图11b所示收窄的第二立体声波束；其中，图11b中的左、右波束的指向收窄到拍摄方向的左右30度附近。当用户使用高等变焦倍数录制视频时，终端设备可以匹配到高等变焦倍数对应的第二目标波束参数组，进而形成图11c所示进一步较窄的第二立体声波束；其中，图11c中的左、右波束的指向进一步收窄到拍摄方向的左右10度附近。

从图11a-11c中可以看出，第二立体声波束的宽度随着被启用的摄像头的变焦倍数的增大而变窄，可以提高非目标方向上的降噪能力。以左波束为例，在图11a中，其对60度方向上的拾音数据几乎没有抑制作用；在图11b中，对60度方向上的拾音数据有一定的抑制作用；在图11c中，对60度方向上的拾音数据有较大的抑制作用。

可见，在用户使用终端设备录制视频且有使用变焦时，根据终端设备的横、竖屏状态的切换，前、后置摄像头的启用，以及被启用的摄像头的变焦倍数的变化，可确定出不同的第二目标波束参数组，进而形成不同方向和宽度的第二立体声波束，使得第二立体声波束的方向和宽度能够随着终端设备的姿态、被启用的摄像头以及变焦倍数的变化而自适应调整，故在嘈杂环境以及远距离拾音条件下，能够实现较好的录音鲁棒性。

在实际应用中，用户使用终端设备录制视频时，立体声录音效果除了会受到环境噪声的干扰，还很容易因为用户手持终端设备而发生手指或其它部位堵住麦克风的情况，或者由于脏污进入导声孔而产生的堵麦问题而受到影响；以及随着终端设备的功能越来越强大，终端设备的自噪声(即终端设备内部电路产生的噪声)也越来越容易被麦克风拾取到，比如摄像头的马达噪声、WiFi干扰声、电容充放电导致的杂音等；此外，用户在摄像时因为变焦或其它操作，手指或其他部位会触碰屏幕或者摩擦到麦克孔附近，从而产生一些不是用户期望录到的异常声音。这些自噪声或者异常声音的干扰，在一定程度上影响了视频的立体声录音效果。

基于此，本实施例提出在获取到多个麦克风的拾音数据后，通过对多个麦克风进行堵麦检测以及对多个麦克风的拾音数据进行异常音处理，来确定用于形成立体声波束的多个目标拾音数据，以在有异常声音干扰和/或麦克风堵孔的情况下，仍能实现较好的录音鲁棒性，从而保证良好的立体声录音效果。下面，对获取多个目标拾音数据的过程进行详细说明。

如图12所示，S201包括如下子步骤：

S2011-A，根据多个麦克风的拾音数据获取未发生堵麦的麦克风的序号。

可选地，终端设备在获取多个麦克风的拾音数据后，通过对每个麦克风的拾音数据均进行时域分帧处理和频域变换处理，可以得到每个麦克风的拾音数据对应的时域信息和频域信息，将不同麦克风的拾音数据对应的时域信息和频域信息分别进行比较，可得到时域比较结果和频域比较结果，根据时域比较结果和频域比较结果确定发生堵麦的麦克风的序号，基于发生堵麦的麦克风的序号确定未发生堵麦的麦克风的序号。由于在对信号进行时域分析时，时域信息相同并不能说明两个信号完全相同，需要从频域角度对信号进一步分析，故本实施例通过对麦克风的拾音数据从时域和频域这两个不同角度进行分析，可以有效提高麦克风堵麦检测的准确性，避免从单一角度分析导致麦克风堵麦的误判。在一个示例中，时域信息可以是拾音数据对应的时域信号的RMS(Root-Mean-Square，均方根)值，频域信息可以是拾音数据对应的频域信号在设定频率(例如2KHz)以上高频部分的RMS值，该高频部分的RMS值在麦克风出现堵孔时的特征更加明显。

在实际应用中，当终端设备中存在发生堵麦的麦克风时，发生堵麦的麦克风和未发生堵麦的麦克风的拾音数据中，时域信号的RMS值和高频部分的RMS值，都会存在差别，即便是未发生堵麦的麦克风之间，由于麦克风自身结构以及终端设备壳体遮挡等因素的影响，时域信号的RMS值和高频部分的RMS值也会存在细微差异。因此，可在终端设备研发阶段，需要找出发生堵麦和未发生堵麦的麦克风之间的差异，并根据该差异设定对应的时域阈值和频域阈值，分别用于在时域对不同麦克风的拾音数据对应的时域信号的RMS值进行比较，得到时域比较结果，以及在频域对不同麦克风的拾音数据对应的高频部分的RMS值进行比较，得到频域比较结果，进而结合时域比较结果和频域比较结果判断是否存在发生堵麦的麦克风。在本实施例中，该时域阈值和频域阈值可为本领域技术人员通过实验获得的经验值。

以终端设备包括3个麦克风为例，该3个麦克风的序号分别为m1、m2、m3，该3个麦克风的拾音数据对应的时域信号的RMS值分别为A1、A2、A3，该3个麦克风的拾音数据对应的高频部分的RMS值分别为B1、B2、B3；当在时域对该3个麦克的拾音数据对应的时域信息进行比较时，可分别计算A1与A2、A1与A3、A2与A3的差值，并将该差值与设定的时域阈值进行比较，当差值未超过时域阈值时，则认为两个麦克风的拾音数据对应的时域信息一致；当差值高于时域阈值时，则认为两个麦克风的拾音数据对应的时域信息不一致，并确定两个麦克风的拾音数据对应的时域信息的大小关系；同理，在频域对该3个麦克的拾音数据对应的频域信息进行比较时，可分别计算B1与B2、B1与B3、B2与B3的差值，并将该差值与设定的频域阈值进行比较，当差值未超过频域阈值时，则认为两个麦克风的拾音数据对应的频域信息一致；当差值高于频域阈值时，则认为两个麦克风的拾音数据对应的频域信息不一致，并确定两个麦克风的拾音数据对应的频域信息的大小关系。

在本实施例中，当结合时域比较结果和频域比较结果判断麦克风是否发生堵麦时，若想尽量将堵麦的麦克风检测出来，则可以根据两个麦克风的时域信息和频域信息其中之一不一致，来确定发生堵麦的麦克风。例如，当将不同麦克风的拾音数据对应的时域信息和频域信息分别进行比较，得到的时域比较结果为： A1＝A2＝A3，得到的频域比较结果为：B1<B2、B1<B3、B2＝B3；则基于该时域比较结果和频域比较结果可以确定发生堵麦的麦克风的序号为m1，未发生堵麦的麦克风的序号为m2和m3。

若想避免发生误检，则可以根据两个麦克风的时域信息和频域信息均不一致，来确定发生堵麦的麦克风。例如，当将不同麦克风的拾音数据对应的时域信息和频域信息分别进行比较，得到的时域比较结果为：A1<A2、A1<A3、A2＝A3，得到的频域比较结果为：B1<B2、B1<B3、B2＝B3；则基于该时域比较结果和频域比较结果可以确定发生堵麦的麦克风的序号为m1，未发生堵麦的麦克风的序号为m2和m3。

S2012-A，检测每个麦克风的拾音数据中是否存在异常音数据。

在本实施例中，可以对每个麦克风的拾音数据进行频域变换处理，得到每个麦克风的拾音数据对应的频域信息，根据预先训练的异常音检测网络和每个麦克风的拾音数据对应的频域信息检测每个麦克风的拾音数据中是否存在异常音数据。

其中，该预先训练的异常音检测网络可以是在终端设备研发阶段，通过收集大量的异常音数据(例如，一些具有特定频率的声音数据)，并采用AI(Artificial Intelligence，人工智能)算法进行特征学习得到。在检测阶段，将每个麦克风的拾音数据对应的频域信息输入该预先训练的异常音检测网络，即可得到是否存在异常音数据的检测结果。

S2013-A，若存在异常音数据，则消除多个麦克风的拾音数据中的异常音数据，得到初始目标拾音数据。

在本实施例中，异常音数据可以包括终端设备的自噪声、用户手指触碰屏幕或摩擦麦克孔等异常声音，异常音数据的消除可以采用AI算法并结合时域滤波、频域滤波的方式进行处理。可选地，当检测到异常音数据时，可以对异常音数据的频点降低增益，即乘以0～1之间的数值，达到消除异常音数据或者降低异常音数据的强度的目的。

在一个示例中，可以利用预先训练的声音检测网络检测异常音数据中是否存在预设的声音数据，其中，该预先训练的声音检测网络可以采用AI算法进行特征学习得到，该预设的声音数据可以理解为用户期望录到的非噪声数据，例如说话声、音乐等，当利用预先训练的声音检测网络存在用户期望录到的非噪声数据时，则不对该异常音数据进行消除，只需降低该异常音数据的强度(例如，乘以数值0.5)；当利用预先训练的声音检测网络不存在用户期望录到的非噪声数据时，则直接消除该异常音数据(例如，乘以数值0)。

S2014-A，从初始目标拾音数据中选取未发生堵麦的麦克风的序号对应的拾音数据作为多个目标拾音数据。

例如，在序号分别为m1、m2、m3的麦克风中，若发生堵麦的麦克风的序号为m1，未发生堵麦的麦克风的序号为m2和m3，则可从初始目标拾音数据中选取序号m2和m3对应的拾音数据作为目标拾音数据，得到多个目标拾音数据，用于后续形成立体声波束。

需要说明的是，上述S2011-A可以在S2012-A之前执行，也可以在S2012-A之后执行，还可以和S2012-A同时执行；也即是说，本实施例不对堵麦检测和异常音数据处理的顺序进行限制。

在本实施例中，通过结合麦克风的堵麦检测和麦克风的拾音数据的异常音处理，可以确定用于形成立体声波束的多个目标拾音数据，当用户使用终端设备录制视频时，即使有麦克风发生堵孔以及麦克风的拾音数据中存在异常音数据，仍能保证良好的立体声录音效果，从而实现较好的录音鲁棒性。在实际应用中，还可以仅通过对麦克风进行堵麦检测或者对麦克风的拾音数据进行异常音处理，来确定用于形成立体声波束的多个目标拾音数据。

如图13所示，当通过对麦克风进行堵麦检测来确定用于形成立体声波束的多个目标拾音数据时，S201包括如下子步骤：

S2011-B，根据多个麦克风的拾音数据获取未发生堵麦的麦克风的序号。

其中，S2011-B的具体内容可以参考前述S2011-A，此处不再赘述。

S2012-B，从多个麦克风的拾音数据中选取未发生堵麦的麦克风的序号对应的拾音数据作为多个目标拾音数据。

例如，在序号分别为m1、m2、m3的麦克风中，若发生堵麦的麦克风的序号为m1，未发生堵麦的麦克风的序号为m2和m3，则在该3个麦克风的拾音数据中选择序号为m2和m3的麦克风的拾音数据为目标拾音数据，得到多个目标拾音数据。

可见，针对用户录制视频时可能出现麦克风堵孔的情况，终端设备在获取到多个麦克风的拾音数据后，根据该多个麦克风的拾音数据对多个麦克风进行堵麦检测，得出未发生堵塞的麦克风的序号，并选取未发生堵塞的麦克风的序号对应的拾音数据，用于后续形成立体声波束。如此，可使终端设备录制视频时不会因为麦克风堵孔导致音质的明显降低，或者立体声的明显不平衡，即在有麦克风堵孔的情况下，可以保证立体声录音效果，录音鲁棒性好。

如图14所示，当通过对麦克风的拾音数据进行异常音处理来确定用于形成立体声波束的多个目标拾音数据时，S201包括如下子步骤：

S2011-C，检测每个麦克风的拾音数据中是否存在异常音数据。

其中，S2011-C的具体内容可以参考前述S2012-A，此处不再赘述。

S2012-C，若存在异常音数据，则消除多个麦克风的拾音数据中的异常音数据，得到多个目标拾音数据。

也即是说，终端设备在获取到多个麦克风的拾音数据后，通过对该多个麦克风的拾音数据进行异常音检测和异常音消除处理，则可得到比较“干净”的拾音数据(即多个目标拾音数据)，用于后续形成立体声波束。如此，实现了在终端设备录制视频时，有效降低手指摩擦麦克风、终端设备的各种自噪声等异常音数据对立体声录音效果的影响。

在实际应用中，由于声波从终端设备的麦克孔到模数转换过程中产生的频响变化，例如麦克本体频响不平直、麦克管道共振效应、滤波电路等因素，也会在一定程度上影响立体声录音效果。基于此，请参照图15，在根据目标波束参数组和多个目标拾音数据形成立体声波束后(即步骤S204后)，该立体声拾音方法还包括以下步骤：

S301，修正立体声波束的音色。

通过修正立体声波束的音色，可将频响修正平直，从而获得较好的立体声录音效果。

在一些实施例中，为了将用户录到的声音调整到合适的音量，还可以对生成的立体声波束进行增益控制。请参照图16，在根据目标波束参数组和多个目标拾音数据形成立体声波束后(即步骤S204后)，该立体声拾音方法还包括以下步骤：

S401，调节立体声波束的增益。

通过调节立体声波束的增益，可使小音量的拾音数据能够听得清，大音量的拾音数据不会产生削波失真，从而将用户录到的声音调整到合适音量，提高用户的视频录制体验。

在实际应用中，用户一般会在远距离拾音的场景下使用变焦，此时目标声源的音量会因为距离远而降低，从而影响录制的声音效果。基于此，本实施例提出根据摄像头的变焦倍数调节立体声波束的增益，在远距离拾音场景下，随着变焦倍数的增大，增益放大量也随之增加，从而保证远距离拾音场景目标声源的音量仍旧清晰大声。

需要说明的是，在实际的视频录制过程中，终端设备在根据目标波束参数组和多个目标拾音数据形成立体声波束后，可以先对该立体声波束进行音色修正，然后调节该立体声波束的增益，以得到更好的立体声录音效果。

为了执行上述实施例及各个可能的方式中的相应步骤，下面给出一种立体声拾音装置的实现方式。请参阅图17，为本发明实施例提供的一种立体声拾音装置的功能模块图。需要说明的是，本实施例所提供的立体声拾音装置，其基本原理及产生的技术效果和上述实施例相同，为简要描述，本实施例部分未提及之处，可参考上述的实施例中相应内容。该立体声拾音装置包括：拾音数据获取模块510、设备参数获取模块520、波束参数确定模块530、波束形成模块540。

该拾音数据获取模块510用于从多个麦克风的拾音数据中获取多个目标拾音数据。

可以理解，该拾音数据获取模块510可以执行上述S201。

该设备参数获取模块520用于获取终端设备的姿态数据和摄像头数据。

可以理解，该设备参数获取模块520可以执行上述S202。

该波束参数确定模块530用于根据姿态数据和摄像头数据从预先存储的多个波束参数组中确定与多个目标拾音数据对应的目标波束参数组；其中，目标波束参数组包括多个目标拾音数据各自对应的波束参数。

可以理解，该波束参数确定模块530可以执行上述S203。

该波束形成模块540用于根据目标波束参数组和多个目标拾音数据形成立体声波束。

可以理解，该波束形成模块540可以执行上述S204。

在一些实施例中，该摄像头数据可以包括启用数据，启用数据表征被启用的摄像头，该波束参数确定模块530用于根据姿态数据和启用数据从预先存储的多个波束参数组中确定与多个目标拾音数据对应的第一目标波束参数组。该波束形成模块540可以根据第一目标波束参数组和多个目标拾音数据形成第一立体声波束；其中，第一立体声波束指向被启用的摄像头的拍摄方向。

可选地，多个波束参数组包括第一波束参数组、第二波束参数组、第三波束参数组和第四波束参数组，第一波束参数组、第二波束参数组、第三波束参数组和第四波束参数组中的波束参数不同。

其中，当姿态数据表征终端设备处于横屏状态，且启用数据表征后置摄像头被启用时，第一目标波束参数组为第一波束参数组；当姿态数据表征终端设备处于横屏状态，且启用数据表征前置摄像头被启用时，第一目标波束参数组为第二波束参数组；当姿态数据表征终端设备处于竖屏状态，且启用数据表征后置摄像头被启用时，第一目标波束参数组为第三波束参数组；当姿态数据表征终端设备处于竖屏状态，且启用数据表征前置摄像头被启用时，第一目标波束参数组为第四波束参数组。

可以理解，该波束参数确定模块530可以执行上述S203-1，该波束形成模块540可以执行上述S204-1。

在另一些实施例中，该摄像头数据可以包括启用数据和变焦数据，其中变焦数据为启用数据表征的被启用的摄像头的变焦倍数，该波束参数确定模块530用于根据姿态数据、启用数据和变焦数据从预先存储的多个波束参数组中确定与多个目标拾音数据对应的第二目标波束参数组。该波束形成模块540可以根据第二目标波束参数组和多个目标拾音数据形成第二立体声波束；其中，第二立体声波束指向被启用的摄像头的拍摄方向，且第二立体声波束的宽度随着变焦倍数的增大而收窄。

可以理解，该波束参数确定模块530可以执行上述S203-2，该波束形成模块540可以执行上述S204-2。

请参照图18，该拾音数据获取模块510可以包括堵麦检测模块511和/或异常音处理模块512，以及目标拾音数据选取模块513，通过堵麦检测模块511和/或异常音处理模块512，以及目标拾音数据选取模块513可以从多个麦克风的拾音数据中获取多个目标拾音数据。

可选地，当通过堵麦检测模块511、异常音处理模块512和目标拾音数据选取模块513来获取多个目标拾音数据时，该堵麦检测模块511用于根据多个麦克风的拾音数据获取未发生堵麦的麦克风的序号，该异常音处理模块512用于检测每个麦克风的拾音数据中是否存在异常音数据，若存在异常音数据，则消除多个麦克风的拾音数据中的异常音数据，得到初始目标拾音数据，该目标拾音数据选取模块513用于从初始目标拾音数据中选取未发生堵麦的麦克风的序号对应的拾音数据作为多个目标拾音数据。

其中，该堵麦检测模块511用于对每个麦克风的拾音数据均进行时域分帧处理和频域变换处理，以得到每个麦克风的拾音数据对应的时域信息和频域信息，将不同麦克风的拾音数据对应的时域信息和频域信息分别进行比较，得到时域比较结果和频域比较结果，根据时域比较结果和频域比较结果确定发生堵麦的麦克风的序号，基于发生堵麦的麦克风的序号确定未发生堵麦的麦克风的序号。

该异常音处理模块512用于对每个麦克风的拾音数据进行频域变换处理，得到每个麦克风的拾音数据对应的频域信息，根据预先训练的异常音检测网络和每个麦克风的拾音数据对应的频域信息检测每个麦克风的拾音数据中是否存在异常音数据。当需要消除异常音数据时，可以利用预先训练的声音检测网络检测异常音数据中是否存在预设的声音数据，若不存在预设的声音数据，则消除异常音数据，若存在预设的声音数据，则降低异常音数据的强度。

可选地，当通过堵麦检测模块511和目标拾音数据选取模块513来获取多个目标拾音数据时，该堵麦检测模块511用于根据多个麦克风的拾音数据获取未发生堵麦的麦克风的序号，该目标拾音数据选取模块513从多个麦克风的拾音数据中选取未发生堵麦的麦克风的序号对应的拾音数据作为多个目标拾音数据。

可选地，当通过异常音处理模块512和目标拾音数据选取模块513来获取多个目标拾音数据时，该异常音处理模块512用于检测每个麦克风的拾音数据中是否存在异常音数据，若存在异常音数据，则消除多个麦克风的拾音数据中的异常音数据，得到多个目标拾音数据。

可以理解，该堵麦检测模块511可以执行上述S2011-A、S2011-B；该异常音处理模块512可以执行上述S2012-A、S2013-A、S2011-C；该目标拾音数据选取模块513可以执行上述S2014-A、S2012-B、S2012-C。

请参照图19，该立体声拾音装置还可以包括音色修正模块550和增益控制模块560。

其中，音色修正模块550用于修正立体声波束的音色。

可以理解，该音色修正模块可以执行上述S301。

该增益控制模块560用于调节立体声波束的增益。

其中，该增益控制模块560可以根据摄像头的变焦倍数调节立体声波束的增益。

可以理解，该增益控制模块560可以执行上述S401。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器读取并运行时，实现上述各个实施例所揭示的立体声拾音方法。

本发明实施例还提供了一种计算机程序产品，当计算机程序产品在计算机上运行时，使得计算机执行上述各个实施例所揭示的立体声拾音方法。

本发明实施例还提供了一种芯片系统，该芯片系统包括处理器，还可以包括存储器，用于实现上述各个实施例所揭示的立体声拾音方法。该芯片系统可以由芯片构成，也可以包含芯片和其他分立器件。

综上，本发明实施例提供的立体声拾音方法、装置、终端设备和计算机可读存储介质，由于目标波束参数组是根据终端设备的姿态数据和摄像头数据来确定的，当终端设备处于不同的视频录制场景时，将获得不同的姿态数据和摄像头数据，进而确定出不同的目标波束参数组，这样在根据目标波束参数组和多个目标拾音数据形成立体声波束时，利用不同的目标波束参数组可以调整立体声波束的方向，从而有效降低录制环境中的噪声影响，使得终端设备在不同的视频录制场景中均能获得较佳的立体声录音效果。此外，通过检测麦克风的堵孔情况以及针对各种异常音数据进行消除处理，实现了在有麦克风发生堵孔及存在异常音数据的情况下录制视频，仍能保证良好的立体声录音效果，录音鲁棒性好。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是手机、平板电脑等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

一种立体声拾音方法，应用于终端设备，所述终端设备包括多个麦克风，其特征在于，所述方法包括：

从所述多个麦克风的拾音数据中获取多个目标拾音数据；

获取所述终端设备的姿态数据和摄像头数据；

根据所述姿态数据和所述摄像头数据从预先存储的多个波束参数组中确定与所述多个目标拾音数据对应的目标波束参数组；其中，所述目标波束参数组包括所述多个目标拾音数据各自对应的波束参数；

根据所述目标波束参数组和所述多个目标拾音数据形成立体声波束。
根据权利要求1所述的方法，其特征在于，所述摄像头数据包括启用数据，所述启用数据表征被启用的摄像头；

所述根据所述姿态数据和所述摄像头数据从预先存储的多个波束参数组中确定与所述多个目标拾音数据对应的目标波束参数组的步骤包括：根据所述姿态数据和所述启用数据从预先存储的多个波束参数组中确定与所述多个目标拾音数据对应的第一目标波束参数组；

根据所述目标波束参数组和所述多个目标拾音数据形成立体声波束的步骤包括：根据所述第一目标波束参数组和所述多个目标拾音数据形成第一立体声波束；其中，所述第一立体声波束指向被启用的摄像头的拍摄方向。
根据权利要求2所述的方法，其特征在于，所述多个波束参数组包括第一波束参数组、第二波束参数组、第三波束参数组和第四波束参数组，所述第一波束参数组、所述第二波束参数组、所述第三波束参数组和所述第四波束参数组中的所述波束参数不同；

其中，当所述姿态数据表征所述终端设备处于横屏状态，且所述启用数据表征后置摄像头被启用时，所述第一目标波束参数组为所述第一波束参数组；

当所述姿态数据表征所述终端设备处于横屏状态，且所述启用数据表征前置摄像头被启用时，所述第一目标波束参数组为所述第二波束参数组；

当所述姿态数据表征所述终端设备处于竖屏状态，且所述启用数据表征后置摄像头被启用时，所述第一目标波束参数组为所述第三波束参数组；

当所述姿态数据表征所述终端设备处于竖屏状态，且所述启用数据表征前置摄像头被启用时，所述第一目标波束参数组为所述第四波束参数组。
根据权利要求1所述的方法，其特征在于，所述摄像头数据包括启用数据和变焦数据，其中所述变焦数据为所述启用数据表征的被启用的摄像头的变焦倍数；

所述根据所述姿态数据和所述摄像头数据从预先存储的多个波束参数组中确定与所述多个目标拾音数据对应的目标波束参数组的步骤包括：根据所述姿态数据、所述启用数据和所述变焦数据从预先存储的多个波束参数组中确定与所述多个目标拾音数据对应的第二目标波束参数组；

根据所述目标波束参数组和所述多个目标拾音数据形成立体声波束的步骤包括：根据所述第二目标波束参数组和所述多个目标拾音数据形成第二立体声波束；其中，所述第二立体声波束指向被启用的摄像头的拍摄方向，且所述第二立体声波束的宽度随着所述变焦倍数的增大而收窄。
根据权利要求1-4任一项所述的方法，其特征在于，所述从所述多个麦克风的拾音数据中获取多个目标拾音数据的步骤包括：

根据所述多个麦克风的拾音数据获取未发生堵麦的麦克风的序号；

检测每个所述麦克风的拾音数据中是否存在异常音数据；

若存在异常音数据，则消除所述多个麦克风的拾音数据中的异常音数据，得到初始目标拾音数据；

从所述初始目标拾音数据中选取所述未发生堵麦的麦克风的序号对应的拾音数据作为所述多个目标拾音数据。
根据权利要求5所述的方法，其特征在于，所述根据所述多个麦克风的拾音数据获取未发生堵麦的麦克风的序号的步骤包括：

对每个所述麦克风的拾音数据均进行时域分帧处理和频域变换处理，以得到每个所述麦克风的拾音数据对应的时域信息和频域信息；

将不同麦克风的拾音数据对应的时域信息和频域信息分别进行比较，得到时域比较结果和频域比较结果；

根据所述时域比较结果和所述频域比较结果确定发生堵麦的麦克风的序号；

基于所述发生堵麦的麦克风的序号确定未发生堵麦的麦克风的序号。
根据权利要求5所述的方法，其特征在于，所述检测每个所述麦克风的拾音数据中是否存在异常音数据的步骤包括：

对每个所述麦克风的拾音数据进行频域变换处理，得到每个所述麦克风的拾音数据对应的频域信息；

根据预先训练的异常音检测网络和每个所述麦克风的拾音数据对应的频域信息检测每个所述麦克风的拾音数据中是否存在异常音数据。
根据权利要求5所述的方法，其特征在于，所述消除所述多个麦克风的拾音数据中的异常音数据的步骤包括：

利用预先训练的声音检测网络检测所述异常音数据中是否存在预设的声音数据；

若不存在预设的声音数据，则消除所述异常音数据；

若存在预设的声音数据，则降低所述异常音数据的强度。
根据权利要求1-4任一项所述的方法，其特征在于，所述从所述多个麦克风的拾音数据中获取多个目标拾音数据的步骤包括：

根据所述多个麦克风的拾音数据获取未发生堵麦的麦克风的序号；

从所述多个麦克风的拾音数据中选取所述未发生堵麦的麦克风的序号对应的拾音数据作为所述多个目标拾音数据。
根据权利要求1-4任一项所述的方法，其特征在于，所述从所述多个麦克风的拾音数据中获取多个目标拾音数据的步骤包括：

检测每个所述麦克风的拾音数据中是否存在异常音数据；

若存在异常音数据，则消除所述多个麦克风的拾音数据中的异常音数据，得到多个目标拾音数据。
根据权利要求1-4任一项所述的方法，其特征在于，所述根据所述目标波束参数组和所述多个目标拾音数据形成立体声波束的步骤之后，所述方法还包括：

修正所述立体声波束的音色。
根据权利要求1-4任一项所述的方法，其特征在于，所述根据所述目标波束参数组和所述多个目标拾音数据形成立体声波束的步骤之后，所述方法还包括：

调节所述立体声波束的增益。
根据权利要求12所述的方法，其特征在于，所述摄像头数据包括被启用的摄像头的变焦倍数，所述调节所述立体声波束的增益的步骤包括：

根据所述摄像头的变焦倍数调节所述立体声波束的增益。
根据权利要求1-4任一项所述的方法，其特征在于，所述麦克风的数量为3至6个，其中至少一个麦克风设置在所述终端设备的屏幕正面或所述终端设备的背面。
根据权利要求14所述的方法，其特征在于，所述麦克风的数量为3个，所述终端设备的顶部和底部分别设置一个麦克风，所述终端设备的屏幕正面或所述终端设备的背面设置一个麦克风。
根据权利要求14所述的方法，其特征在于，所述麦克风的数量为6个，所述终端设备的顶部和底部分别设置两个麦克风，所述终端设备的屏幕正面和所述终端设备的背面分别设置一个麦克风。
一种立体声拾音装置，应用于终端设备，所述终端设备包括多个麦克风，其特征在于，所述装置包括：

拾音数据获取模块，用于从所述多个麦克风的拾音数据中获取多个目标拾音数据；

设备参数获取模块，用于获取所述终端设备的姿态数据和摄像头数据；

波束参数确定模块，用于根据所述姿态数据和所述摄像头数据从预先存储的多个波束参数组中确定与所述多个目标拾音数据对应的目标波束参数组；其中，所述目标波束参数组包括所述多个目标拾音数据各自对应的波束参数；

波束形成模块，用于根据所述目标波束参数组和所述多个目标拾音数据形成立体声波束。
一种终端设备，其特征在于，包括存储有计算机程序的存储器和处理器，所述计算机程序被所述处理器读取并运行时，实现如权利要求1-16中任一项所述的方法。
一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器读取并运行时，实现如权利要求1-16中任一项所述的方法。