WO2023230782A1

WO2023230782A1 - 一种音效控制方法、装置及存储介质

Info

Publication number: WO2023230782A1
Application number: PCT/CN2022/096053
Authority: WO
Inventors: 余俊飞; 史润宇; 郭锴槟; 贺天睿
Original assignee: 北京小米移动软件有限公司
Priority date: 2022-05-30
Filing date: 2022-05-30
Publication date: 2023-12-07
Also published as: CN117501363A

Abstract

本公开是关于一种音效控制方法、装置及存储介质。其中，音效控制方法包括：获取第一音频信号、第二音频信号以及视频信号，所述第一音频信号为所述终端中待播放视频中的音频信号，所述第二音频信号至少包括所述第一音频信号以及环境音频信号，所述视频信号为所述待播放视频中的视频信号；基于所述第二音频信号以及所述视频信号，确定目标音效控制信息；按照所述目标音效控制信息控制所述终端播放所述第一音频信号的音效。通过本公开的音效控制方法，可以提升智能设备在音效控制方面的环境适应性，使用户获得最佳的视听体验。

Description

一种音效控制方法、装置及存储介质

技术领域

本公开涉及音频处理领域，尤其涉及音效控制方法、装置及存储介质。

背景技术

相关技术中，手机、音响等智能设备采用人为主观选择的方式对音效进行控制，具体为，人为选择音效模式，音效控制器根据人为选择的音效模式调整参数，根据参数调整音频文件设置和麦克风设置，将调整过的音频播放。然而，在实际应用中，人为主观选择进行音效控制，操作较为复杂且音效模式较为单一，导致无法感知音频内容及设备所处环境，不能对播放音效进行有效且便利的智能调整。

发明内容

为克服相关技术中存在的问题，本公开提供一种音效控制方法、装置及存储介质。

根据本公开实施例的第一方面，提供一种音效控制方法，应用于终端，包括：

获取第一音频信号、第二音频信号以及视频信号，所述第一音频信号为所述终端中待播放视频中的音频信号，所述第二音频信号至少包括所述第一音频信号以及环境音频信号，所述视频信号为所述待播放视频中的视频信号；

基于所述第二音频信号以及所述视频信号，确定目标音效控制信息；

按照所述目标音效控制信息控制所述终端播放所述第一音频信号的音效。

在一种实施方式中，基于所述第二音频信号以及视频信号，确定音效控制信息，包括：

将所述第二音频信号和所述视频信号输入至音效控制信息生成模型，所述音效控制信息生成模型基于终端播放的音频训练信号、环境音频训练信号以及终端播放的视频训练信号预先训练得到；

基于所述音效控制信息生成模型的输出结果，确定所述目标音效控制信息。

在一种实施方式中，所述音效控制信息生成模型采用如下方式预先训练：

获取音频训练信号和视频训练信号，所述音频训练信号至少包括终端播放的音频训练信号和环境音频训练信号，所述视频训练信号包括终端播放的视频训练信号；

基于所述音频训练信号、所述视频训练信号以及预设的音频控制信息，对多模态深度学习模型进行训练，直至收敛；

将训练收敛的多模态深度学习模型作为音效控制信息生成模型。

在一种实施方式中，基于所述音频训练信号、所述视频训练信号以及预设的音频控制信息，对多模态深度学习模型进行训练，包括：

对所述音频训练信号进行降噪处理，并将降噪处理后的音频训练信号按照预设帧长切分为等时长音频帧；

将所述获取的视频信号进行预处理，所述预处理为对所述视频训练信号进行最近邻升采样，得到与所述音频帧对齐的采样视频帧；

基于所述音频帧和采样视频帧，对所述多模态深度学习模型进行训练。

在一种实施方式中，所述基于所述音频帧和采样视频帧，对所述多模态深度学习模型进行训练，包括：

提取所述音频帧的对数梅尔谱音频信号特征，并提取所述采样视频帧的高维视频信号特征；

利用多层卷积神经网络，分别对所述对数梅尔谱音频信号特征和所述高维视频信号特征进行高维映射，并对映射后的音频信号特征和视频信号特征进行特征融合，得到融合特征；

基于所述融合特征，对所述多模态深度学习模型进行训练。

根据本公开实施例的第二方面，一种音效控制装置，应用于终端，包括：

获取单元，获取第一音频信号、第二音频信号以及视频信号，所述第一音频信号为所述终端中待播放视频中的音频信号，所述第二音频信号至少包括所述第一音频信号以及环境音频信号，所述视频信号为所述待播放视频中的视频信号；

确定单元，基于所述第二音频信号以及所述视频信号，确定目标音效控制信息；

播放单元，按照所述目标音效控制信息控制所述终端播放所述第一音频信号的音效。

在一种实施方式中，所述确定单元采用如下方式基于所述第二音频信号以及视频信号，确定音效控制信息：

在一种实施方式中，所述确定单元的所述音效控制信息生成模型采用如下方式预先训练：

在一种实施方式中，所述确定单元采用如下方式基于所述音频训练信号、所述视频训练信号以及预设的音频控制信息，对多模态深度学习模型进行训练：

在一种实施方式中，所述确定单元采用如下方式基于所述音频帧和采样视频帧，对所述多模态深度学习模型进行训练：

基于所述融合特征，对所述多模态深度学习模型进行训练。

根据本公开实施例的第三方面，提供一种音效控制装置，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：执行第一方面或第一方面任意一种实施方式中所述的音效控制方法。

根据本公开实施例的第四方面，提供一种非临时性计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行执行第一方面或第一方面任意一种实施方式中所述的音效控制方法。

本公开的实施例提供的技术方案可以包括以下有益效果：获取第一音频信号、第二音频信号以及视频信号，第一音频信号为终端中待播放视频中的音频信号，第二音频信号至少包括第一音频信号以及环境音频信号，视频信号为待播放视频中的视频信号，基于第二音频信号以及视频信号，确定目标音效控制信息，按照目标音效控制信息控制所述终端播放所述第一音频信号的音效。本公开实施例提供的音效控制方法能够动态、智能地实现播放音量、声音音调等音频参数的调整，提升智能设备在音效控制方面的环境适应性，使用户获得最佳的视听体验。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的一种音效控制方法的流程图。

图2是根据一示例性实施例示出的一种确定音效控制信息的方法流程图。

图3是根据一示例性实施例示出的一种音效控制信息生成模型的方法流程图。

图4是根据一示例性实施例示出的一种多模态深度学习模型训练的方法流程图。

图5是根据一示例性实施例示出的一种多模态深度学习模型训练的方法流程图。

图6示出了本公开一示例性实施例示出的一种提取音频帧的对数梅尔谱信号特征的方法流程图。

图7是根据一示例性实施例示出的一种音频控制装置框图。

图8是根据一示例性实施例示出的一种用于音效控制的装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。

本公开实施例提供的音效控制方法能够应用于手机、平板等智能设备，并动态的根据音频播放内容以及设备所处环境对音效进行智能调整，提升智能设备在音效控制方面的环境适应性，使用户获得更好的视听体验。

相关技术中，控制音效的方法是人为主观选择的方式对音效进行控制，可以控制音频信号在回声、混响、均衡度等方面的效果，其中，人为控制音响的回声处理模块、混响处理模块、均衡处理模块等的参数，或者人为选择预调整好的音效控制效果，音效控制器根据参数调整音频文件设置以及麦克风设置，以达到音频播放时播放的为经过音效处理的音频。

在实际应用中，音效控制方法还存在着研究的进步空间，例如，可以是根据环境智能调整音效，或者根据设备播放环境以及音视频内容智能调整音效。

有鉴于此，本公开实施例提供一种音效控制方法，在该音效控制方法中，设备获取第一音频信号、第二音频信号以及视频信号，第一音频信号为终端待播放视频中的音频信号，第二音频信号至少包括第一音频信号以及和环境音频信号，视频信号为待播放视频中的视频信号，将音频及视频数据进行特征提取后传输至音效控制信息生成模型，根据音效控制信息生成模型的输出结果，确定目标音效控制信息，根据目标音效控制信息播放音频信号。从而实现根据设备所处环境以及待播放视频的内容智能调整待播放音频的音效，操作简单，并且能对设备所处环境进行实时自适应，使用户获得更好的视听体验。

图1是根据一示例性实施例示出的一种音效控制方法的流程图。如图1所示，音效控制方法应用于终端中，包括以下步骤。

在步骤S11中，获取第一音频信号、第二音频信号以及视频信号，第一音频信号为终端中待播放视频中的音频信号，第二音频信号至少包括第一音频信号以及环境音频信号，视频信号为待播放视频中的视频信号。

在步骤S12中，基于第二音频信号以及视频信号，确定目标音效控制信息。

在步骤S13中，按照目标音效控制信息控制终端播放第一音频信号的音效。

本公开实施例中，需要获取三种信号，分别为第一音频信号、第二音频信号以及视频信号，终端中待播放视频中的音频信号为第一音频信号，第二音频信号至少包括终端中待播放视频中的音频信号以及环境音频信号，即，第二音频信号至少包括第一音频信号以及环境音信号。获取第一音频信号以及第二音频信号的方式可以是，例如，开启设备麦克风获取。视频信号为待播放视频中的视频信号，获取视频信号的方式可以是，例如，终端截取当前播放的视频。

本公开实施例中，目标音效控制信息根据第二音频信号以及视频信号确定，终端根据目标音效控制信息播放第一音频信号的音效，即，终端根据目标音效控制信息控制第一音频信号的音效，其中，目标音效控制信息调整音响的回声处理、混响处理、均衡处理等处理器的系数，控制音频信号在回声、混响、均衡度等方面的效果，目标音效控制信息调整各个音响的播放顺序、时间、速率和强度，使音频产生环绕声、立体声等效果，并进行播放。

本公开实施例中，提供的音效控制方法能够获取设备的环境音频，并将环境音频包含在音效控制信息的因素之中，可以更为智能的调节待播放音频的音效。

进一步地，本公开实施例中，需要确定音效控制信息。

图2是根据一示例性实施例示出的一种确定音效控制信息的方法流程图。如图2所示，基于第二音频信号以及视频信号，确定音效控制信息，包括以下步骤。

在步骤S21中，将第二音频信号和视频信号输入至音效控制信息生成模型，音效控制信息生成模型基于终端播放的音频训练信号、环境音频训练信号以及终端播放的视频训练信号预先训练得到。

在步骤S22中，基于音效控制信息生成模型的输出结果，确定目标音效控制信息。

本公开实施例中，目标音效控制信息是将第二音频信号和视频信号输入至音效控制信息生成模型获得，该模型输出的输出为目标音效控制信息。其中，音效控制信息生成模型根据终端播放的音频训练信号、环境音频训练信号以及终端播放的视频训练信号预先训练得到。

其中，环境音频训练信号可以包括多种，例如，人声嘈杂的环境训练信号、车水马龙的环境训练信号、施工现场的环境训练信号、电梯中的环境训练信号、安静的环境训练信号等。

例如，在人声嘈杂的环境中，音效控制信息生成模型根据第二音频信号和视频信号输出适应人声嘈杂环境的目标音效控制信息，从而获得目标音效控制信息。

本公开实施例中，目标音效控制信息是能够动态且智能调整的，从而使得用户的使用舒适度更高。

进一步地，本公开实施例中，音效控制信息生成模型需要进行预先训练。

图3是根据一示例性实施例示出的一种音效控制信息生成模型的方法流程图。如图3所示，音效控制信息生成模型的预先训练包括以下步骤。

在步骤S31中，获取音频训练信号和视频训练信号，音频训练信号至少包括终端播放的音频训练信号和环境音频训练信号，视频训练信号包括终端播放的视频训练信号。

在步骤S32中，基于音频训练信号、视频训练信号以及预设的音频控制信息，对多模态深度学习模型进行训练，直至收敛。

在步骤S33中，将训练收敛的多模态深度学习模型作为音效控制信息生成模型。

本公开实施例中，音效控制信息生成模型是经过预先训练的，预先训练音效控制信息生成模型需要获取音频训练信号和视频训练信号，其中，音频训练信号至少包括终端播放的音频训练信号和环境音频训练信号，视频训练信号包括终端播放的视频训练信号。根据音频训练信号、视频训练信号以及预设的音频控制信息，对多模态深度学习模型进行训练，直至收敛，将训练收敛的多模态深度学习模型作为音效控制信息生成模型。

本公开实施例中，提供的音效控制方法能够实现对音效的实时控制和处理，使用户的使用感受良好。

进一步地，本公开实施例中，需要对多模态深度学习模型进行训练。

图4是根据一示例性实施例示出的一种多模态深度学习模型训练的方法流程图。如图4所示，基于音频训练信号、视频训练信号以及预设的音频控制信息，对多模态深度学习模型进行训练，包括以下步骤。

在步骤S41中，对音频训练信号进行降噪处理，并将降噪处理后的音频训练信号按照预设帧长切分为等时长音频帧。

本公开实施例中，对音频训练信号进行降噪处理，其中，降噪处理包括将音频训练信号输入至自适应滤波器，该自适应滤波器可以采用FIR滤波器和时域自适应滤波方法进行设计，将降噪后的音频训练信号均匀的切分为多个等时长的音频帧。其中，切分为等时长的音频帧，可以例如是3秒的等时长的音频帧，若切分的时长大于3秒，则用户的听感更好，若切分的时长小于3秒，则音频训练信号的识别率更高。

在步骤S42中，将获取的视频信号进行预处理，预处理为对视频训练信号进行最近邻升采样，得到与音频帧对齐的采样视频帧。

本公开实施例中，视频训练信号的获取方式可以是，例如，通过终端传输或者在终端安装摄像头录制的视频信号。对获取到的视频信号进行预处理，预处理为对视频信号进行最近邻升采样，得到与音频帧对齐的采样视频帧，其中，最近邻升采样即对视频训练信号中相邻时刻的图像信号进行复制，直至视频训练信号帧数与音频训练信号帧数相等。

在步骤S43中，基于音频帧和采样视频帧，对多模态深度学习模型进行训练。

本公开实施例中，多模态深度学习模型是根据音频帧和采样视频帧进行训练的。

本公开实施例中，提供的多模态深度学习模型能够实现动态的处理各种场景下音频播放的音效调节。

进一步地，本公开实施例中，需要对多模态深度学习模型进行进一步的训练。

图5是根据一示例性实施例示出的一种多模态深度学习模型训练的方法流程图。如图5所示，基于音频帧和采样视频帧，对多模态深度学习模型进行训练，包括以下步骤。

在步骤S51中，提取音频帧的对数梅尔谱音频信号特征，并提取采样视频帧的高维视频信号特征。

本公开实施例中，需要提取音频帧的对数梅尔谱音频信号特征，图6示出了本公开一示例性实施例示出的一种提取音频帧的对数梅尔谱信号特征的方法流程图，参阅图6，对预处理后的音频训练信号进行加窗处理，即，音频训练信号S_pre与窗函数f_win相乘，即S_win＝S_pre*f_win，对经过加窗处理的信号进行快速傅里叶变换得到音频频域信号S_fre，进一步计算音频频域信号S_fre的幅度谱S_pow，即S_pow＝abs(S_fre)，设计一组总数为k的梅尔滤波器h_mel，其中，第m个滤波器H _m的频域计算公式为：

其中，上述总数为k的梅尔滤波器，k的最小值为0，最大值不超过音频训练信号的采样点数，且k的最大值与所处终端有关。

接述上例，幅度谱S_pow与梅尔滤波器进行卷积并计算其对数结果，得到对数梅尔谱特征，计算公式为：

其中

为卷积运算符。

本公开实施例中，提取采样视频帧的高维视频信号特征，具体为，利用深度学习网络对采样视频帧提取为高维视频信号特征。

在步骤S52中，利用多层卷积神经网络，分别对对数梅尔谱音频信号特征和高维视频信号特征进行高维映射，并对映射后的音频信号特征和视频信号特征进行特征融合，得到融合特征。

本公开实施例中，利用多层卷积神经网络，对对数梅尔谱音频信号特征和高维视频信号特征进行高维映射，映射到更高维度的特征，并对映射后的音频信号特征和视频信号特征进行特征融合，其中，特征融合方式可以是通过BLSTM(Bi-directional Long Short Term Memory，双向长短时记忆网络)进行特征融合，得到融合特征。

在步骤S53中，基于融合特征，对多模态深度学习模型进行训练。

本公开实施例中，多模态深度学习模型根据融合特征进行训练，融合特征中包括映射后的音频信号特征以及视频信号特征。

本公开实施例中，对多模态深度学习模型的进一步训练，可以更好的根据视频播放内容调整音频控制信息的生成，使经过音效控制方法控制的音频更好的符合视频播放内容。

需要说明的是，本领域内技术人员可以理解，本公开实施例上述涉及的各种实施方式/实施例中可以配合前述的实施例使用，也可以是独立使用。无论是单独使用还是配合前述的实施例一起使用，其实现原理类似。本公开实施中，部分实施例中是以一起使用的实施方式进行说明的。当然，本领域内技术人员可以理解，这样的举例说明并非对本公开实施例的限定。

基于相同的构思，本公开实施例还提供一种音频控制装置。

可以理解的是，本公开实施例提供的音频控制装置为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。结合本公开实施例中所公开的各示例的单元及算法步骤，本公开实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同的方法来实现所描述的功能，但是这种实现不应认为超出本公开实施例的技术方案的范围。

图7是根据一示例性实施例示出的一种音频控制装置框图。参照图7，该音频控制装置100包括获取单元101，确定单元102和播放单元103。

获取单元101，获取第一音频信号、第二音频信号以及视频信号，第一音频信号为终端中待播放视频中的音频信号，第二音频信号至少包括第一音频信号以及环境音频信号，视频信号为待播放视频中的视频信号；

确定单元102，基于第二音频信号以及视频信号，确定目标音效控制信息；

播放单元103，按照目标音效控制信息控制终端播放第一音频信号的音效。

在一种实施方式中，确定单元102采用如下方式基于第二音频信号以及视频信号，确定音效控制信息：将第二音频信号和视频信号输入至音效控制信息生成模型，音效控制信息生成模型基于终端播放的音频训练信号、环境音频训练信号以及终端播放的视频训练信号预先训练得到；基于音效控制信息生成模型的输出结果，确定目标音效控制信息。

在一种实施方式中，确定单元102的音效控制信息生成模型采用如下方式预先训练：

获取音频训练信号和视频训练信号，音频训练信号至少包括终端播放的音频训练信号和环境音频训练信号，视频训练信号包括终端播放的视频训练信号；基于音频训练信号、视频训练信号以及预设的音频控制信息，对多模态深度学习模型进行训练，直至收敛；将训练收敛的多模态深度学习模型作为音效控制信息生成模型。

在一种实施方式中，确定单元102采用如下方式基于音频训练信号、视频训练信号以及预设的音频控制信息，对多模态深度学习模型进行训练：对音频训练信号进行降噪处理，并将降噪处理后的音频训练信号按照预设帧长切分为等时长音频帧；将获取的视频信号进行预处理，预处理为对视频训练信号进行最近邻升采样，得到与音频帧对齐的采样视频帧；基于音频帧和采样视频帧，对多模态深度学习模型进行训练。

在一种实施方式中，确定单元102采用如下方式基于音频帧和采样视频帧，对多模态深度学习模型进行训练：提取音频帧的对数梅尔谱音频信号特征，并提取采样视频帧的高维视频信号特征；利用多层卷积神经网络，分别对对数梅尔谱音频信号特征和高维视频信号特征进行高维映射，并对映射后的音频信号特征和视频信号特征进行特征融合，得到融合特征；基于融合特征，对多模态深度学习模型进行训练。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图8是根据一示例性实施例示出的一种用于音效控制的装置200的框图。例如，装置200可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图8，装置200可以包括以下一个或多个组件：处理组件202，存储器204，电力组件206，多媒体组件208，音频组件210，输入/输出(I/O)接口212，传感器组件214，以及通信组件216。

处理组件202通常控制装置200的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件202可以包括一个或多个处理器220来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件202可以包括一个或多个模块，便于处理组件202和其他组件之间的交互。例如，处理组件202可以包括多媒体模块，以方便多媒体组件208和处理组件202之间的交互。

存储器204被配置为存储各种类型的数据以支持在装置200的操作。这些数据的示例包括用于在装置200上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器204可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电力组件206为装置200的各种组件提供电力。电力组件206可以包括电源管理系统，一个或多个电源，及其他与为装置200生成、管理和分配电力相关联的组件。

多媒体组件208包括在所述装置200和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件208包括一个前置摄像头和/或后置摄像头。当装置200处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件210被配置为输出和/或输入音频信号。例如，音频组件210包括一个麦克风(MIC)，当装置200处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器204或经由通信组件216发送。在一些实施例中，音频组件210还包括一个扬声器，用于输出音频信号。

I/O接口212为处理组件202和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件214包括一个或多个传感器，用于为装置200提供各个方面的状态评估。例如，传感器组件214可以检测到装置200的打开/关闭状态，组件的相对定位，例如所述组件为装置200的显示器和小键盘，传感器组件214还可以检测装置200或装置200一个组件的位置改变，用户与装置200接触的存在或不存在，装置200方位或加速/减速和装置200的温度变化。传感器组件214可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件214还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件214还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件216被配置为便于装置200和其他设备之间有线或无线方式的通信。装置200可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件216经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件216还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置200可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器204，上述指令可由装置200的处理器220执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

进一步可以理解的是，本公开中“多个”是指两个或两个以上，其它量词与之类似。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

进一步可以理解的是，术语“第一”、“第二”等用于描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开，并不表示特定的顺序或者重要程度。实际上，“第一”、“第二”等表述完全可以互换使用。例如，在不脱离本公开范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。

进一步可以理解的是，本公开实施例中尽管在附图中以特定的顺序描述操作，但是不应将其理解为要求按照所示的特定顺序或是串行顺序来执行这些操作，或是要求执行全部所示的操作以得到期望的结果。在特定环境中，多任务和并行处理可能是有利的。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利范围来限制。

Claims

一种音效控制方法，其特征在于，应用于终端，包括：

获取第一音频信号、第二音频信号以及视频信号，所述第一音频信号为所述终端中待播放视频中的音频信号，所述第二音频信号至少包括所述第一音频信号以及环境音频信号，所述视频信号为所述待播放视频中的视频信号；

基于所述第二音频信号以及所述视频信号，确定目标音效控制信息；

按照所述目标音效控制信息控制所述终端播放所述第一音频信号的音效。
根据权利要求1所述的方法，其特征在于，基于所述第二音频信号以及视频信号，确定音效控制信息，包括：

将所述第二音频信号和所述视频信号输入至音效控制信息生成模型，所述音效控制信息生成模型基于终端播放的音频训练信号、环境音频训练信号以及终端播放的视频训练信号预先训练得到；

基于所述音效控制信息生成模型的输出结果，确定所述目标音效控制信息。
根据权利要求2所述的方法，其特征在于，所述音效控制信息生成模型采用如下方式预先训练：

获取音频训练信号和视频训练信号，所述音频训练信号至少包括终端播放的音频训练信号和环境音频训练信号，所述视频训练信号包括终端播放的视频训练信号；

基于所述音频训练信号、所述视频训练信号以及预设的音频控制信息，对多模态深度学习模型进行训练，直至收敛；

将训练收敛的多模态深度学习模型作为音效控制信息生成模型。
根据权利要求3所述的方法，其特征在于，基于所述音频训练信号、所述视频训练信号以及预设的音频控制信息，对多模态深度学习模型进行训练，包括：

对所述音频训练信号进行降噪处理，并将降噪处理后的音频训练信号按照预设帧长切分为等时长音频帧；

将所述获取的视频信号进行预处理，所述预处理为对所述视频训练信号进行最近邻升采样，得到与所述音频帧对齐的采样视频帧；

基于所述音频帧和采样视频帧，对所述多模态深度学习模型进行训练。
根据权利要求4所述的方法，其特征在于，所述基于所述音频帧和采样视频帧，对所述多模态深度学习模型进行训练，包括：

提取所述音频帧的对数梅尔谱音频信号特征，并提取所述采样视频帧的高维视频信号特征；

利用多层卷积神经网络，分别对所述对数梅尔谱音频信号特征和所述高维视频信号特征进行高维映射，并对映射后的音频信号特征和视频信号特征进行特征融合，得到融合特征；

基于所述融合特征，对所述多模态深度学习模型进行训练。
一种音效控制装置，其特征在于，应用于终端，包括：

获取单元，获取第一音频信号、第二音频信号以及视频信号，所述第一音频信号为所述终端中待播放视频中的音频信号，所述第二音频信号至少包括所述第一音频信号以及环境音频信号，所述视频信号为所述待播放视频中的视频信号；

确定单元，基于所述第二音频信号以及所述视频信号，确定目标音效控制信息；

播放单元，按照所述目标音效控制信息控制所述终端播放所述第一音频信号的音效。
根据权利要求6所述的装置，其特征在于，所述确定单元采用如下方式基于所述第二音频信号以及视频信号，确定音效控制信息：

将所述第二音频信号和所述视频信号输入至音效控制信息生成模型，所述音效控制信息生成模型基于终端播放的音频训练信号、环境音频训练信号以及终端播放的视频训练信号预先训练得到；

基于所述音效控制信息生成模型的输出结果，确定所述目标音效控制信息。
根据权利要求7所述的装置，其特征在于，所述确定单元的所述音效控制信息生成模型采用如下方式预先训练：

获取音频训练信号和视频训练信号，所述音频训练信号至少包括终端播放的音频训练信号和环境音频训练信号，所述视频训练信号包括终端播放的视频训练信号；

基于所述音频训练信号、所述视频训练信号以及预设的音频控制信息，对多模态深度学习模型进行训练，直至收敛；

将训练收敛的多模态深度学习模型作为音效控制信息生成模型。
根据权利要求8所述的装置，其特征在于，所述确定单元采用如下方式基于所述音频训练信号、所述视频训练信号以及预设的音频控制信息，对多模态深度学习模型进行训练：

对所述音频训练信号进行降噪处理，并将降噪处理后的音频训练信号按照预设帧长切分为等时长音频帧；

将所述获取的视频信号进行预处理，所述预处理为对所述视频训练信号进行最近邻升采样，得到与所述音频帧对齐的采样视频帧；

基于所述音频帧和采样视频帧，对所述多模态深度学习模型进行训练。
根据权利要求9所述的装置，其特征在于，所述确定单元采用如下方式基于所述音频帧和采样视频帧，对所述多模态深度学习模型进行训练：

提取所述音频帧的对数梅尔谱音频信号特征，并提取所述采样视频帧的高维视频信号特征；

利用多层卷积神经网络，分别对所述对数梅尔谱音频信号特征和所述高维视频信号特征进行高维映射，并对映射后的音频信号特征和视频信号特征进行特征融合，得到融合特征；

基于所述融合特征，对所述多模态深度学习模型进行训练。
一种音效控制装置，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：执行权利要求1至5中任意一项所述的音效控制方法。
一种非临时性计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行权利要求1至5中任意一项所述的音效控制方法。