WO2016082199A1

WO2016082199A1 - 录取录像对象的声音的方法和移动终端

Info

Publication number: WO2016082199A1
Application number: PCT/CN2014/092534
Authority: WO
Inventors: 康俊腾
Original assignee: 华为技术有限公司
Priority date: 2014-11-28
Filing date: 2014-11-28
Publication date: 2016-06-02
Also published as: US20170263264A1; US10062393B2; CN107004426A; CN107004426B

Abstract

本发明实施例公开了录取录像对象的声音的方法和移动终端，用于降低录取的录像对象的声音中的背景噪声，提高录音质量。本发明实施例方法包括：移动终端通过人脸识别获取录像对象的位置信息，将该位置信息转换为作为波束赋形技术的输入参数的波束配置信息，对录取到的声音信号进行波束赋形处理，使得录像对象所在方位的声音信号的信号强度被增强，其他方位的声音信号的信号强度被衰减，得到录像对象所在方位的声音。

Description

录取录像对象的声音的方法和移动终端

技术领域

本发明涉及数据处理领域，尤其涉及录取录像对象的声音的方法和移动终端。

背景技术

录像是指用光学、电磁等方法把图像记录下来，例如录取一个小孩的运动，或一个动物的觅食过程等，随着电子技术的发展，在录像过程中，一般也会同时进行录音，以得到完整的音视频资料。

目前，因为录像过程中录像的对象的位置会动态变化，为了能采集到录像的对象的声音，录像过程中一般采用的全指向录音，即声音从0至360度进入麦克风而输出不会有明显的变化。

然而，在实际应用中，采取全指向录音，在得到录像对象的声音的同时，还会得到其他所有角度的声音，使得录音结果中背景噪声太大，严重影响录音质量。

发明内容

本发明实施例提供了录取录像对象的声音的方法和移动终端，用于降低录取的录像对象的声音中的背景噪声，提高录音质量。

本发明实施例第一方面提供了一种录取录像对象的声音的方法，包括：

移动终端在录像的过程中，通过人脸识别得到所述录像对象相对于所述移动终端的位置信息，所述位置信息包括所述录像对象相对于所述移动终端的角度信息和距离信息；

所述移动终端将所述位置信息转换为波束配置信息，所述波束配置信息为波束赋形技术的输入参数；

所述移动终端根据所述波束配置信息，对录取到的声音信号进行波束赋形处理，使得所述录像对象所在方位的声音信号的信号强度被增强，其他方位的声音信号的信号强度被衰减，得到所述录像对象所在方位的声音。

结合本发明实施例的第一方面，本发明实施例第一方面的第一种实现方式中，所述波束配置信息包括声源方位角度，波束方向和波束宽度；

所述移动终端将所述位置信息转换为波束配置信息具体包括：

所述移动终端将所述录像对象相对于所述终端的角度信息转换为声源方位角度与波束方向；

所述移动终端将所述录像对象相对于所述终端的距离信息转换为波束宽度，其中，距离越远，波束宽度越窄。

结合本发明实施例的第一方面或第一方面的第一种实现方式，本发明实施例第一方面的第二种实现方式中，所述移动终端中包括至少两个麦克风；

所述移动终端根据所述波束配置信息，对录取到的声音信号进行波束赋形处理具体包括：

所述移动终端根据所述波束配置信息，调整每个麦克风采集声音信号的参数，使得所述移动终端中各麦克风采集到的声音信号合成后，仅存在所述录像对象所在方位的声音信号。

结合本发明实施例的第一方面至第一方面的第二种实现方式中任一种实现方式，本发明实施例第一方面的第三种实现方式中，其特征在于，所述通过人脸识别对录像对象进行追踪的步骤之前还包括：

所述移动终端对比录像画面中各对象与存储的预置对象，确定所述录像画面中与所述预置对象相同的对象为所述录像对象。

本发明实施例第二方面提供了一种移动终端，用于录取录像对象的声音，包括：

识别模块，用于在录像的过程中，通过人脸识别得到所述录像对象相对于所述移动终端的位置信息，所述位置信息包括所述录像对象相对于所述移动终端的角度信息和距离信息；

转换模块，用于将所述识别模块得到的位置信息转换为波束配置信息，所述波束配置信息为波束赋形技术的输入参数；

处理模块，用于根据所述波束配置信息，对录取到的声音信号进行波束赋形处理，增益所述录像对象所在方位的声音信号的信号强度，衰减其他方位的声音信号的信号强度，得到所述录像对象所在方位的声音。

结合本发明实施例的第二方面，本发明实施例第二方面的第一种实现方式中，所述波束配置信息包括声源方位角度，波束方向和波束宽度；

所述转换模块具体包括：

第一转换单元，用于将所述录像对象相对于所述移动终端的角度信息转换为声源方位角度与波束方向；

第二转换单元，用于将所述录像对象相对于所述移动终端的距离信息转换为波束宽度，其中，距离越远，波束宽度越窄。

结合本发明实施例的第二方面或第二方面的第一种实现方式，本发明实施例第二方面的第二种实现方式中，所述移动终端中包括至少两个麦克风；

所述处理模块具体用于，根据所述波束配置信息，调整每个麦克风采集声音信号的参数，使得所述移动终端中各麦克风录取到的声音信号合成后，仅存在所述录像对象所在方位的声音信号，得到所述录像对象所在方位的声音。

结合本发明实施例的第二方面至第二方面的第二种实现方式中任一种实现方式，本发明实施例第二方面的第三种实现方式中，所述移动终端还包括：

确定模块，用于对比录像画面中各对象与存储的预置对象，确定所述录像画面中与所述预置对象相同的对象为所述录像对象。

本发明实施例第三方面提供了一种移动终端，用于录取录像对象的声音，包括：

摄像头、麦克风、处理器和存储器；

在录像的过程中，摄像头通过人脸识别得到所述录像对象相对于所述移动终端的位置信息，所述位置信息包括所述录像对象相对于所述移动终端的角度信息和距离信息，同时，所述麦克风录取所述移动终端周围的声音信号；

所述摄像头将得到的所述位置信息传输给所述处理器；

通过调用所述存储器中存储的操作指令，所述处理器接收到所述位置信息后，将所述位置信息转换为波束配置信息，所述波束配置信息为波束赋形技术的输入参数；

所述处理器根据转换得到的所述波束配置信息，对所述麦克风录取到的声音信号进行波束赋形处理，使得所述录像对象所在方位的声音信号的信号强度被增强，其他方位的声音信号的信号强度被衰减，得到所述录像对象所在方位的声音。

结合本发明实施例的第三方面，本发明实施例第三方面的第一种实现方式中，所述波束配置信息包括声源方位角度，波束方向和波束宽度；

所述处理器接收到所述位置信息后，将所述位置信息转换为波束配置信息具体包括：

所述处理器接收到所述位置信息后，将所述位置信息中录像对象相对于所述移动终端的角度信息转换为声源方位角度与波束方向；

将所述位置信息中录像对象相对于所述移动终端的距离信息转换为波束宽度，其中，距离越远，波束宽度越窄。

结合本发明实施例的第三方面或第三方面的第一种实现方式，本发明实施例第三方面的第二种实现方式中，所述麦克风为至少两个；

所述处理器根据转换得到的所述波束配置信息，对所述麦克风录取到的声音信号进行波束赋形处理具体包括：

所述处理器根据转换得到所述波束配置信息，调整每个麦克风采集声音信号的参数，使得各麦克风采集到的声音信号合成后，仅存在所述录像对象所在方位的声音信号。

结合本发明实施例的第三方面至第三方面的第二种实现方式，本发明实施例第三方面的第三种实现方式中，所述存储器中还存储有预置对象的信息；

所述摄像头通过人脸识别得到所述录像对象相对于所述移动终端的位置信息之前，所述处理器对比录像画面中各对象与存储的预置对象，确定所述录像画面中与所述预置对象相同的对象为所述录像对象。

从以上技术方案可以看出，本发明实施例具有以下优点：本发明实施例中移动终端通过人脸识别追踪获取录像对象的位置信息，将该位置信息转换为作为波束赋形技术的输入参数的波束配置信息，对录取到的声音信号进行波束赋形处理，使得录像对象所在方位的声音信号的信号强度被增强，其他方位的声音信号的信号强度被衰减，得到录像对象所在方位的声音，这样就避免了其他方位的声音对该录像对象的声音的影响，降低了录取的录像对象的声音中的背景噪声，提高了录音质量。

附图说明

图1为本发明实施例中录像中录音的方法一个流程示意图；

图2为本发明实施例中录像中录音的方法另一个流程示意图；

图3为本发明实施例中终端一个结构示意图；

图4为本发明实施例中终端另一个结构示意图；

图5为本发明实施例中终端另一个结构示意图；

图6为本发明实施例中终端另一个结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

术语“人脸识别”，表示基于人的脸部特征信息进行身份识别的一种生物识别技术。用摄像机或摄像头采集含有人脸的图像或视频流，并自动在图像中检测和跟踪人脸，进而对检测到的人脸进行脸部的一系列处理与识别的相关技术，通常也叫做人像识别、面部识别。

术语“波束赋形”又可称为空域滤波，是一种使用传感器阵列定向发送和接收信号的信号处理技术。波束赋形技术通过调整相位阵列的基本单元的参数，使得某些角度的信号获得相长干涉，而另一些角度的信号获得相消干涉。波束赋形既可以用于信号发射端，又可以用于信号接收端。在发射端，波束赋形器控制每一个发射装置的相位和信号幅度，从而在发射出的信号波阵中获得需要相长和相消干涉模式。在接收端，不同接收器接收到的信号被以一种恰当的方式组合起来，从而获得期盼中的信号辐射模式。

请参阅图1，本发明实施例中录取录像对象的声音的方法一个实施例包括：

101、移动终端在录像的过程中，通过人脸识别得到录像对象相对于所述移动终端的位置信息；

移动终端在录像的过程中，会录取到图像信号和声音信号，移动终端根据录取到的图像信号，通过对该图像信号表示的录像画面进行人脸识别，得到录像对象相对于移动终端的位置信息，其中，该位置信息包括该录像对象相对于该移动终端的角度信息和距离信息。

可以理解的是，当录像对象在录像过程中位置变动时，该位置信息也会随着实时变化。

102、移动终端将所述位置信息转换为波束配置信息；

移动终端得到该位置信息后，将该位置信息转换为波束配置信息，其中，该波束配置信息为波束赋形技术的输入参数。

103、移动终端根据所述波束配置信息，对录取到的声音信号进行波束赋形处理，使得所述录像对象所在方位的声音信号的信号强度被增强，其他方位的声音信号的信号强度被衰减，得到所述录像对象所在方位的声音。

终端得到波束配置信息后，根据该波束配置信息，对录取到的声音信号进行波束赋形处理，使得所述录像对象所在方位的声音信号的信号强度被增强，其他方位的声音信号的信号强度被衰减，得到所述录像对象所在方位的声音。

本发明实施例中移动终端通过人脸识别获取录像对象的位置信息，将该位置信息转换为作为波束赋形技术的输入参数的波束配置信息，对录取到的声音信号进行波束赋形处理，使得录像对象所在方位的声音信号的信号强度被增强，其他方位的声音信号的信号强度被衰减，得到录像对象所在方位的声音，这样就避免了其他方位的声音对该录像对象的声音的影响，降低了录取的动态录像对象的声音中的背景噪声，提高了录音质量。

下面对本发明实施例中录取录像对象的声音的方法进行具体描述，请参阅图2，本发明实施例中录取录像对象的声音的方法另一个实施例包括：

201、在录像的过程中，移动终端对比录像画面中各对象与存储的预置对象，确定所述录像画面中与所述预置对象相同的对象为录像对象；

在录像过程中，移动终端会录取到图像信号和声音信号，移动终端根据录取到的图像信号，对比该图像信号表示的录像画面中各对象与存储的预置对象，确定录像画面中与该预置对象相同的对象为录像对象。

具体的，可以采用多种形式存储该预置对象，例如可以为包含有录像对象的图片，在录像之前，终端可以接收或存储包含有录像对象的图片，指定该图片中的特定对象为录像对象；也可以直接输入预置对象的影像信息，还可以采用其它方式，此处不作限定。

除此之外，在录像过程中，移动终端还可以通过对象确认信息指定录像画面中的特定对象为录像对象，还可以有很多其他的方式，此处不做限定。

可以理解的是，在实际应用中，也可以不执行步骤201，移动终端可以将录像画面中所有人脸识别能识别的对象都自动作为录像对象，此处不做限定。

202、移动终端通过人脸识别得到所述录像对象相对于所述移动终端的位置信息；

移动终端确定录像对象后，通过对录像画面中的录像对象进行人脸识别，得到该录像对象相对于移动终端的位置信息，其中，该位置信息包括该录像对象相对于该移动终端的角度信息和距离信息。

具体的，该位置信息可以包括人脸识别识别出的录像对象的人脸的角度和距离，可以理解的是，该位置信息还可以包括有其他的信息，例如运动趋势等等，此处不作限定。

203、移动终端将所述位置信息转换为波束配置信息；

具体的，该波束配置信息可以包括声源方位角度，波束方向和波束宽度，还可以包括更多的其他参数，例如采样率、麦克风间距、最大降噪量等，此处不作限定。

具体的，移动终端将所述位置信息转换为波束配置信息，可以为移动终端将录像对象相对于所述移动终端的角度信息转换为声源方位角度与波束方向，将录像对象相对于所述移动终端的距离信息转换为波束宽度，其中，距离越远，波束宽度越窄。

204、移动终端根据所述波束配置信息，调整每个麦克风采集声音信号的参数，使得所述移动移动终端中各麦克风采集到的声音信号合成后，仅存在所述录像对象所在方位的声音信号，得到所述录像对象所在方位的声音。

移动终端中包括至少两个麦克风，移动终端得到波束配置信息后，根据该波束配置信息，利用波束赋形技术，调整各麦克风采集声音信号的参数，增强该录像对象对应方位的声音信号的信号强度，衰减其他方位的声音信号的信号强度，使得移动终端中各麦克风获取到的声音信号合成后，仅存在所述录像对象所在方位的声音信号，得到所述录像对象所在方位的声音。

本发明实施例中，移动终端可以对比录像画面中各对象与存储的预置对象，确定录像画面中与预置对象相同的对象为录像对象，能更准确的对需要的录像对象的声音进行录取。

下面对本发明实施例中的移动终端进行描述，请参阅图3，本发明实施例中移动终端一个实施例包括：

识别模块301，用于在录像的过程中，通过人脸识别得到所述录像对象相对于所述移动终端的位置信息，所述位置信息包括所述录像对象相对于所述移动终端的角度信息和距离信息；

转换模块302，用于将所述识别模块301得到的位置信息转换为波束配置信息，所述波束配置信息为波束赋形技术的输入参数；

处理模块303，用于根据所述波束配置信息，对录取到的声音信号进行波束赋形处理，增益所述录像对象所在方位的声音信号的信号强度，衰减其他方位的声音信号的信号强度，得到所述录像对象所在方位的声音。

本发明实施例中识别模块301通过人脸识别追踪获取录像对象的位置信息，转换模块302将该位置信息转换为作为波束赋形技术的输入参数的波束配置信息，处理模块303对录取到的声音信号进行波束赋形处理，使得录像对象所在方位的声音信号的信号强度被增强，其他方位的声音信号的信号强度被衰减，得到录像对象所在方位的声音，这样就避免了其他方位的声音对该录像对象的声音的影响，降低了录取的动态录像对象的声音中的背景噪声，提高了录音质量。

上面实施例中，转换模块302将位置信息转换为波束配置信息，在实际应用中，该波束配置信息可以包括声源方位角度，波束方向和波束宽度，请参阅图4，作为本发明实施例中移动终端另一个实施例，上述移动终端中转换模块302具体包括：

第一转换单元401，用于将所述录像对象相对于所述移动终端的角度信息转换为声源方位角度与波束方向；

第二转换单元402，用于将所述录像对象相对于所述移动终端的距离信息转换为波束宽度，其中，距离越远，波束宽度越窄。

具体的，该移动终端中包括至少两个麦克风，该处理模块303具体可以用于，根据所述波束配置信息，调整每个麦克风采集声音信号的参数，使得所述终端中各麦克风录取到的声音信号合成后，仅存在所述录像对象所在方位的声音信号，得到所述录像对象所在方位的声音。

本实施例中，转换模块302将人脸识别得到的位置信息中特定参数转换为波束配置信息中的对应参数，进一步的，处理模块303可以根据波束配置信息调整各麦克风的参数，使得移动终端中各麦克风录取到的声音信号合成后，仅存在所述录像对象所在方位的声音信号，实现了仅对录像对象对应方位的声音的录取。

上面实施例中，识别模块301通过人脸识别对录像对象进行追踪，在实际应用中，该录像对象可以确定为出现在录像中的任意对象，也可以为预先存储的预置对象，请参阅图5，作为本发明实施例中移动终端另一个实施例，上述移动终端还包括：

确定模块501，用于对比录像画面中各对象与存储的预置对象，确定所述录像画面中与所述预置对象相同的对象为所述录像对象。

本发明实施例中，确定模块501可以根据存储的预置对象，对比确定出录像对象，能更准确的对需要的录像对象的声音进行录取。

请参阅图6，本发明实施例中移动终端600另一个实施例包括：

摄像头601、麦克风602、处理器603和存储器604；

该移动终端中还可以包括RF电路605、音频电路606、扬声器607、电源管理芯片608、输入/输出(I/O)子系统609、其他输入/控制设备610、外设接口611以及外部端口612，这些部件通过一个或多个通信总线或信号线613来通信。

其中，摄像头601可以通过外设接口611与处理器603相连，麦克风602可以通过外设接口611与音频电路606和处理器603相连。

值得说明的是，本实施例提供的移动终端的一个示例，本发明实施例涉及的移动终端可以具有比图7所示出的更多或更少的部件，可以组合两个或更多个部件，或者可以具有不同的部件配置或设置，各个部件可以在包括一个或多个信号处理和/或专用集成电路在内的硬件、软件或硬件和软件的组合实现。

下面就本实施例提供的移动终端进行详细的描述。

存储器604：所述存储器604可以被CPU603、外设接口611等访问，所述存储器604可以包括高速随机存取存储器，还可以包括非易失性存储器，例如一个或多个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

外设接口611，所述外设接口可以将设备的输入和输出外设连接到CPU603和存储器604。

I/O子系统609：所述I/O子系统609可以将设备上的输入输出外设，例如触摸屏614和其他输入/控制设备610，连接到外设接口611。I/O子系统609可以包括显示控制器6091和用于控制其他输入/控制设备610的一个或多个输入控制器6092。其中，一个或多个输入控制器6092从其他输入/控制设备610接收电信号或者向其他输入/控制设备610发送电信号，其他输入/控制设备610可以包括物理按钮(按压按钮、摇臂按钮等)、拨号盘、滑动开关、操纵杆、点击滚轮。值得说明的是，输入控制器6092可以与以下任一个连接：键盘、红外端口、USB接口以及诸如鼠标的指示设备。

触摸屏614：所述触摸屏614是移动终端与用户之间的输入接口和输出接口，将可视输出显示给用户，可视输出可以包括图形、文本、图标、视频等。

I/O子系统609中的显示控制器6091从触摸屏614接收电信号或者向触摸屏614发送电信号。触摸屏614检测触摸屏上的接触，显示控制器6091将检测到的接触转换为与显示在触摸屏614上的用户界面对象的交互，即实现人机交互，显示在触摸屏614上的用户界面对象可以是运行游戏的图标、联网到相应网络的图标等。值得说明的是，设备还可以包括光鼠，光鼠是不显示可视输出的触摸敏感表面，或者是由触摸屏形成的触摸敏感表面的延伸。

RF电路605，主要用于建立移动终端与无线网络(即网络侧)的通信，实现移动终端与无线网络的数据接收和发送。例如收发短信息、电子邮件等。具体地，RF电路605接收并发送RF信号，RF信号也称为电磁信号，RF电路605将电信号转换为电磁信号或将电磁信号转换为电信号，并且通过该电磁信号与通信网络以及其他设备进行通信。RF电路605可以包括用于执行这些功能的已知电路，其包括但不限于天线系统、RF收发机、一个或多个放大器、调谐器、一个或多个振荡器、数字信号处理器、CODEC芯片组、用户标识模块(Subscriber Identity Module,SIM)等等。

音频电路606，主要用于从外设接口604接收音频数据，将该音频数据转换为电信号，并且可以将该电信号发送给扬声器607。

扬声器607，用于将手机通过RF电路605从无线网络接收的语音信号，还原为声音并向用户播放该声音。

电源管理芯片608，用于为CPU603、I/O子系统609及外设接口611所连接的硬件进行供电及电源管理。

具体的，在录像的过程中，摄像头601通过人脸识别得到录像对象相对于移动终端的位置信息，所述位置信息包括所述录像对象相对于所述移动终端的角度信息和距离信息，同时，所述麦克风602录取所述移动终端周围的声音信号；

所述摄像头601将得到的所述位置信息传输给所述处理器603；

通过调用所述存储器601中存储的操作指令，所述处理器603接收到所述位置信息后，将所述位置信息转换为波束配置信息，所述波束配置信息为波束赋形技术的输入参数；

所述处理器603根据转换得到的所述波束配置信息，对所述麦克风602录取到的声音信号进行波束赋形处理，使得所述录像对象所在方位的声音信号的信号强度被增强，其他方位的声音信号的信号强度被衰减，得到所述录像对象所在方位的声音。

可选的，所述波束配置信息包括声源方位角度，波束方向和波束宽度，该处理器603接收到所述位置信息后，可以将所述位置信息中录像对象相对于所述移动终端的角度信息转换为声源方位角度与波束方向；将所述位置信息中录像对象相对于所述移动终端的距离信息转换为波束宽度，其中，距离越远，波束宽度越窄。

可选的，该麦克风602为至少两个，该处理器603可以根据转换得到所述波束配置信息，调整每个麦克风602采集声音信号的参数，使得各麦克风602 采集到的声音信号合成后，仅存在所述录像对象所在方位的声音信号。

可选的，该存储器604中还存储有预置对象的信息，该摄像头601通过人脸识别得到录像对象相对于移动终端的位置信息之前，处理器603可以对比录像画面中各对象与存储的预置对象，确定该录像画面中与预置对象相同的对象为录像对象。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

一种录取录像对象的声音的方法，其特征在于，包括：

移动终端在录像的过程中，通过人脸识别得到所述录像对象相对于所述移动终端的位置信息，所述位置信息包括所述录像对象相对于所述移动终端的角度信息和距离信息；

所述移动终端将所述位置信息转换为波束配置信息，所述波束配置信息为波束赋形技术的输入参数；

所述移动终端根据所述波束配置信息，对录取到的声音信号进行波束赋形处理，使得所述录像对象所在方位的声音信号的信号强度被增强，其他方位的声音信号的信号强度被衰减，得到所述录像对象所在方位的声音。
根据权利要求1所述的方法，其特征在于，所述波束配置信息包括声源方位角度，波束方向和波束宽度；

所述移动终端将所述位置信息转换为波束配置信息具体包括：

所述移动终端将所述录像对象相对于所述终端的角度信息转换为声源方位角度与波束方向；

所述移动终端将所述录像对象相对于所述终端的距离信息转换为波束宽度，其中，距离越远，波束宽度越窄。
根据权利要求1或2所述的方法，其特征在于，所述移动终端中包括至少两个麦克风；

所述移动终端根据所述波束配置信息，对录取到的声音信号进行波束赋形处理具体包括：

所述移动终端根据所述波束配置信息，调整每个麦克风采集声音信号的参数，使得所述移动终端中各麦克风采集到的声音信号合成后，仅存在所述录像对象所在方位的声音信号。
根据权利要求1至3中任一项所述的方法，其特征在于，所述通过人脸识别对录像对象进行追踪的步骤之前还包括：

所述移动终端对比录像画面中各对象与存储的预置对象，确定所述录像画面中与所述预置对象相同的对象为所述录像对象。
一种移动终端，用于录取录像对象的声音，其特征在于，包括：

识别模块，用于在录像的过程中，通过人脸识别得到所述录像对象相对于所述移动终端的位置信息，所述位置信息包括所述录像对象相对于所述移动终端的角度信息和距离信息；

转换模块，用于将所述识别模块得到的位置信息转换为波束配置信息，所述波束配置信息为波束赋形技术的输入参数；

处理模块，用于根据所述波束配置信息，对录取到的声音信号进行波束赋形处理，增益所述录像对象所在方位的声音信号的信号强度，衰减其他方位的声音信号的信号强度，得到所述录像对象所在方位的声音。
根据权利要求5所述的移动终端，其特征在于，所述波束配置信息包括声源方位角度，波束方向和波束宽度；

所述转换模块具体包括：

第一转换单元，用于将所述录像对象相对于所述移动终端的角度信息转换为声源方位角度与波束方向；

第二转换单元，用于将所述录像对象相对于所述移动终端的距离信息转换为波束宽度，其中，距离越远，波束宽度越窄。
根据权利要求5或6所述的移动终端，其特征在于，所述移动终端中包括至少两个麦克风；

所述处理模块具体用于，根据所述波束配置信息，调整每个麦克风采集声音信号的参数，使得所述移动终端中各麦克风录取到的声音信号合成后，仅存在所述录像对象所在方位的声音信号，得到所述录像对象所在方位的声音。
根据权利要求5至7中任一项所述的移动终端，其特征在于，所述移动终端还包括：

确定模块，用于对比录像画面中各对象与存储的预置对象，确定所述录像画面中与所述预置对象相同的对象为所述录像对象。
一种移动终端，用于录取录像对象的声音，其特征在于，包括：

摄像头、麦克风、处理器和存储器；

在录像的过程中，摄像头通过人脸识别得到所述录像对象相对于所述移动终端的位置信息，所述位置信息包括所述录像对象相对于所述移动终端的角度信息和距离信息，同时，所述麦克风录取所述移动终端周围的声音信号；

所述摄像头将得到的所述位置信息传输给所述处理器；

通过调用所述存储器中存储的操作指令，所述处理器接收到所述位置信息后，将所述位置信息转换为波束配置信息，所述波束配置信息为波束赋形技术的输入参数；

所述处理器根据转换得到的所述波束配置信息，对所述麦克风录取到的声音信号进行波束赋形处理，使得所述录像对象所在方位的声音信号的信号强度被增强，其他方位的声音信号的信号强度被衰减，得到所述录像对象所在方位的声音。
根据权利要求9所述的移动终端，其特征在于，所述波束配置信息包括声源方位角度，波束方向和波束宽度；

所述处理器接收到所述位置信息后，将所述位置信息转换为波束配置信息具体包括：

所述处理器接收到所述位置信息后，将所述位置信息中录像对象相对于所述移动终端的角度信息转换为声源方位角度与波束方向；

将所述位置信息中录像对象相对于所述移动终端的距离信息转换为波束宽度，其中，距离越远，波束宽度越窄。
根据权利要求9或10所述的移动终端，其特征在于，所述麦克风为至少两个；

所述处理器根据转换得到的所述波束配置信息，对所述麦克风录取到的声音信号进行波束赋形处理具体包括：

所述处理器根据转换得到所述波束配置信息，调整每个麦克风采集声音信号的参数，使得各麦克风采集到的声音信号合成后，仅存在所述录像对象所在方位的声音信号。
根据权利要求9至11中任一项所述的移动终端，其特征在于，所述存储器中还存储有预置对象的信息；

所述摄像头通过人脸识别得到所述录像对象相对于所述移动终端的位置信息之前，所述处理器对比录像画面中各对象与存储的预置对象，确定所述录像画面中与所述预置对象相同的对象为所述录像对象。