一种构造听音场景的方法和相关装置
本申请要求于2019年11月25日提交中国专利局、申请号为201911169274.2、申请名称为“构造听音场景的方法和相关装置”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及音频处理领域,尤其涉及一种构造听音场景的方法和相关装置。
背景技术
音乐是一种反映人类现实生活情感的艺术,可以陶冶人的情操,激发人的想象力,丰富我们的精神生活。而随着电子设备的普及,人们可以使用多种播放设备来播放音乐。为了提升用户听音感受,播放设备中回内置有供用户选择的各种音效元素,使得用户播放音乐时,人为的往音乐中添加多种音效元素以达到特别的播放效果。例如,播放设备在播放周杰伦的《稻香》时,用户可以选择田园的音效元素加入歌曲中一起播放。但是,播放设备在播放添加的音效元素只是简单的混音到原始音乐中,且音效元素固定,使得用户难以感受到音效元素所构造出的意境,影响了用户听音乐的真实感和沉浸感。
因此,怎样在用户听音乐时,使用音效元素构造更真实的听音场景是本领域的技术人员正在研究的问题。
发明内容
本申请实施例公开了一种构造听音场景的方法及相关装置,能够在用户听音乐时,提升用户的听音乐时的临场感和沉浸感。
第一方面,本申请实施例提供一种构造听音场景的方法,包括:确定目标音频,其中,目标音频用于表征目标场景中的声音特点;确定目标音频的声源的位置;根据声源的位置对目标音频进行声像调制,得到目标音频的双声道音频,该目标音频的双声道音频在同时输出时能够产生目标音频来自声源的位置的效果;将目标音频的双声道音频渲染到目标音乐中,得到目标音乐在目标场景中播放的效果。
可以看出,在用户听音乐时,混入可以表征听音场景的音效元素。在音效元素的音频混入音乐时,先根据声源的位置对音效元素的音频进行声像调制,使得音效元素进入双耳中时彷佛是从声源的位置传来的,提升用户的听音乐时的临场感和沉浸感。
第一方面的另一种可选的方案中,上述目标音频为根据所述目标音乐的类型信息或者整体歌词匹配的音频;和/或,所述目标音频为根据所述目标音乐的歌词内容匹配的音频。
也即是说,在目标音乐的人声出现之前和结束之后,目标歌曲属于只有伴奏而没有人声演唱的阶段,这一阶段可根据歌曲的类型或者整体歌词内容确定目标音频,使得听者在歌曲的伴奏部分即可感受到与歌曲风格或歌曲内容匹配的音频。而在目标音乐的人声部分,音乐的主要效果由演唱的歌词传递,因此根据歌词的具体内容匹配目标音频,这样以音乐歌词为主导的匹配音频的方法,使得加入的音频更符合目标音乐的内容,提升了听音乐的体验。
在第一方面的另一种可选的方案中,确定目标音频,包括:接收针对目标音频的选择操作,确定为目标音频。
可以看出,在选取需要混音的音频时,向用户提供一个或多个音频,接收到针对目标音频的选择操作从而确定为目标音频。也即是说,用户在听音乐的过程中,可以根据自身喜好自主选择音频混入到音乐中,从而构造个性化的听音场景,激发了用户的创作与欲望,增加了听音体验的趣味性。
在第一方面的另一种可选的方案中,确定目标音频的声源的位置,包括:确定目标音频在多个时间节点的声源的位置;
根据声源的位置对目标音频进行声像调制,得到目标音频的双声道音频,包括:根据多个时间节点的声源的位置对目标音频进行声像调制,得到目标音频的双声道音频。
目前的设备在播放音乐添加音效元素时,声源的位置固定不变,左耳和右耳听到的内容相同,声响位置居中或者固定不变。但是,音效元素的声源的位置在空间中可能相对人耳固定不变,也可能产生位移。本申请实施例提供的方法,对于表征目标听音场景的音频时,按照预设的时间间隔确定目标音频在多个时间节点的声源的位置,根据多个时间节点的声源位置对目标音频进行声像调制,使得产生目标音频来自声源的位置的效果,并且移动轨迹可以变化,增加了用户的临场感,使得构造出的听音场景更自然。
在第一方面的另一种可选的方案中,根据声源的位置对目标音频进行声像调制,得到目标音频的双 声道音频,包括:
将上述目标音频划分为多个音频帧;
根据多个音频帧的时间节点所对应的声源的位置,对多个音频帧分别卷积从声源的位置到左耳和右耳的头相关传递函数,得到目标音频的双声道音频。
可以看出,使用头相关传递函数进行声像调制前,需要对目标音频进行分帧处理,提升音频处理的效果。通过划分的音频帧进行卷积头相关传递函数的处理,使得目标音频的双声道音频在左耳和右耳播放时,使听者产生目标音频来自声源的位置的效果,使得音效元素的呈现更加真实。
在第一方面的另一种可选的方案中,根据多个音频帧所对应的声源的位置,对多个音频帧分别卷积从声源的位置到左耳和右耳的头相关传递函数,得到目标音频的双声道音频,包括:
获取第一音频帧所对应的时间节点的声源的第一位置,第一音频帧为多个音频帧中的一个音频帧;
若第一位置落入预设测量点范围,则确定第一位置对应的第一头相关传递函数;其中,上述预设测量点范围内的每个测量点对应有头相关传递函数;
对第一音频帧分别卷积从第一位置到左耳和右耳的第一头相关传递函数,得到目标音频的第一音频帧的双声道音频。
可以看出,由于目标音频的声源的位置是可以连续变化的,因此在多音频帧中的第一音频帧时,先确定第一音频帧对应的第一位置,进而确定第一位置对应的头相关函数,再进行卷积处理。经过卷积头相关函数处理的目标音频的双声道音频,在听者的左耳和右耳播放时,能够使听者产生目标音乐彷佛是从声源的位置传来的,提升了用户的听音乐时的临场感和沉浸感。
在第一方面的另一种可选的方案中,若第一位置未落入预设测量点范围,则根据第一位置确定P个测量位置点,P个测量位置点为落于预设测量点范围的P个点,其中,P为不小于1的整数;
根据P个测量位置点分别对应的头相关传递函数拟合得到第一位置对应的第二头相关传递函数;
对第一音频帧分别卷积从第一位置到左耳和右耳的第二头相关传递函数,得到目标音频的第一音频帧的双声道音频。
可以看出,所述头相关传递函数预设有测量点范围,预设测量点范围内的每个测量点对应有头相关传递函数。若上述第一位置没有落入测量点范围,可以通过确定第一位置靠近的落入预设范围的P个测量点,通过拟合P个测量点对应的头相关传递函数拟合得到第一位置的头相关传递函数,可以提高目标音频的声像调制效果的准确率,增强了目标音频的处理过程的效果稳定性。
在第一方面的另一种可选的方案中,目标音频的双声道音频包含左声道音频和右声道音频;
将目标音频的双声道音频渲染到目标音乐中,包括:
根据左声道音频的均方根RMS值、右声道音频的RMS值和目标音乐的RMS值确定调制因子;
根据调制因子调整左声道音频的RMS和右声道音频的RMS值,得到调整后的左声道音频和调整后的右声道音频;其中,调整后的左声道音频的RMS值和调整后的右声道的RMS值不高于目标音乐的RMS值;
将调整后的左声道音频混音到目标音乐的左声道中,作为目标音乐的左声道的渲染音频;将调整后的右声道音频混音到目标音乐的右声道中,作为目标音乐的右声道的渲染音频。
目前的设备在播放音乐添加音效元素时,添加的音效元素的声音强度不统一,部分音效元素响度非常大,容易造成数据溢出,盖过了音乐的声音,部分音效元素响度非常小,几乎感知不到,影响用户听音乐的体验。本申请实施例提供的方法,在将目标音频混入到音乐中时,先对目标音乐的功率进行调制,改变音乐的响度等特征,防止音效元素盖过原有的音乐信号,也可以防止音效元素由于响度过小而作用不明显的情况发生,使得添加的音效元素的音频不影响用户聆听原音乐。
在第一方面的另一种可选的方案中,调整前左声道音频的RMS值为RMSA1;调整前右声道音频的RMS值为RMSB1;目标音乐的RMS值为RMSY;上述根据左声道音频均方根RMS值、右声道音频的RMS值和目标音乐的RMS值确定调制因子,包括:
将左声道音频的RMS值调整为RMSA2,将右声道音频的RMS值调整为RMSB2,使RMSA2、RMSB2与RMSY满足如下关系:
RMSA2=alpha*RMSY,
RMSB2=alpha*RMSY,alpha为预设的比例系数,且0<alpha<1
RMSA2与RMSA1的比值作为第一左声道调制因子MA1,即:
将RMSB2与RMSB1的比值作为第一右声道调制因子MB1,即:
将MA1与MB1的较小值作为第一组值M1,即:
M
1=min(M
A1,M
B1)
将第一组值确定为调制因子。
可以看出,通过目标音乐左声道音频的RMS值、目标音乐右声道的音频的RMS值和目标音乐的RMS值确定调制因子,通过调制因子调制目标音频的功率,控制目标音频的均方根值与目标音乐的均方根值成一定比例,使得目标音频的出现并不过多影响原始音乐的聆听。其中,音效元素与目标音乐的比值alpha值的设定可以系统预设或者开放给用户自己设置,用户可以根据自身喜好设置比例系数,从而构造个性化的听音效果,增加了听音体验的趣味性。
在第一方面的另一种可选的方案中,上述根据左声道音频均方根RMS值、右声道音频的RMS值和目标音乐的RMS值确定调制因子,还包括:
调整所述左声道音频的RMS值为RMSA3,调整所述右声道音频的RMS值为RMSB3,使RMSA3、RMSB3与RMSY满足如下关系:
RMSA3=F-RMSY,其中,F为浮点型所能表示的数字的最大数;
RMSB3=F-RMSY;
RMS A3与RMSA1的比值作为第二左声道调制因子MA2,即:
将RMSB3与RMSB1的比值作为第二右声道调制因子MB2,即:
将MA2与MB2的较小值作为第二组值M2,即:
M
2=min(M
A2,M
B2)
所述第一组值小于所述第二组值。
可以看出,确定调制因子时,需要使得混音后的渲染音频的RMS值不能超过机器数的取值范围的最大值,这样可以防止数据溢出的前提下,可以尽可能的防止目标音频由于功率过大而掩盖了目标音乐,也可以防止目标音频由于功率过小而作用不明显的情况发生,确保了目标音乐主体地位。
在第一方面的另一种可选的方案中,在确定目标音频之后,在确定目标音频的声源的位置之前,还包括:
若目标音频的采样率与目标音乐的采样率不相同,则将目标音频的采样率转换为目标音乐的采样率。
可以看出,确定目标音频后,若目标音频与目标音乐的采样率不相同,将音效元素的采样率转换为目标音乐的采样率,使得混音时听起来更自然。
第二方面,本申请实施例提供一种构造听音场景的装置,包括:
音频选取单元,用于确定目标音频,其中,目标音频用于表征目标场景中的声音特点;
位置确定单元,用于确定目标音频的声源的位置;
声像调制单元,用于根据声源的位置对目标音频进行声像调制,得到目标音频的双声道音频,该目标音频的双声道音频在同时输出时能够产生目标音频来自声源的位置的效果;
音频渲染单元,用于将目标音频的双声道音频渲染到目标音乐中,得到目标音乐在目标场景中播放的效果。
可以看出,在用户听音乐时混入可以表征听音场景的音效元素。在音效元素的音频混入音乐时,先根据声源的位置对音效元素的音频进行声像调制,使得音效元素进入双耳中时彷佛是从声源的位置传来的,使得音效元素可以构造出更真实听音场景,提升用户的听音乐时的临场感和沉浸感。
在第二方面的另一种可选的方案中,所述目标音频为根据所述目标音乐的类型信息或者整体歌词匹配的音频;和/或,
所述目标音频为根据所述目标音乐的歌词内容匹配的音频。
也即是说,在目标音乐的人声出现之前和结束之后,目标歌曲属于只有伴奏而没有人声演唱的阶段,这一阶段可根据歌曲的类型或者整体歌词内容确定目标音频,使得听者在歌曲的伴奏部分即可感受到与 歌曲风格或歌曲内容匹配的音频。而在目标音乐的人声部分,音乐的主要效果由演唱的歌词传递,因此根据歌词的具体内容匹配目标音频,这样以音乐歌词为主导的匹配音频的方法,使得加入的音频更符合目标音乐的内容,提升了听音乐的体验。
在第二方面的另一种可选的方案中,音频选取单元,用于确定目标音频,具体为:
接收针对目标音频的选择操作,将选择操作指定的音频确定为目标音频。
可以看出,在选取需要混音的音频时,可以向用户提供一个或多个音频,接收到针对目标音频的选择操作从而确定为目标音频。也即是说,用户在听音乐的过程中,可以根据自身喜好自主选择音频混入到音乐中,从而构造个性化的听音场景,激发了用户的创作与欲望,增加了听音体验的趣味性。
在第二方面的另一种可选的方案中,位置确定单元,用于确定目标音频的声源的位置,具体为:
确定目标音频在多个时间节点的声源的位置;
声像调制单元,用于根据声源的位置对目标音频进行声像调制,得到目标音频的双声道音频,具体为:
根据多个时间节点的声源的位置对目标音频进行声像调制,得到目标音频的双声道音频。
目前的设备在播放音乐添加音效元素时,声源的位置固定不变,左耳和右耳听到的内容相同,声响位置居中或者固定不变。但是,音效元素的声源的位置在空间中可能相对人耳固定不变,也可能产生位移。本申请实施例提供的装置,对于表征目标听音场景的音频时,按照预设的时间间隔确定目标音频在多个时间节点的声源的位置,根据多个时间节点的声源位置对目标音频进行声像调制,使得产生目标音频来自声源的位置的效果,并且移动轨迹可以变化,增加了用户的临场感,使得构造出的听音场景更自然。
在第二方面的另一种可选的方案中,声像调制单元,包括:
分帧子单元,将上述目标音频划分为多个音频帧;
声像生成子单元,用于根据多个音频帧的时间节点所对应的声源的位置,对多个音频帧分别卷积从声源的位置到左耳和右耳的头相关传递函数,得到目标音频的双声道音频。
可以看出,使用头相关传递函数进行声像调制前,需要对目标音频进行分帧处理,提升音频处理的效果。通过划分的音频帧进行卷积头相关传递函数的处理,使得目标音频的双声道音频在左耳和右耳播放时,使听者产生目标音频来自声源的位置的效果,使得音效元素的呈现更加真实。
在第二方面的另一种可选的方案中,声像生成子单元,包括:
帧位匹配子单元,用于获取第一音频帧所对应的声源的第一位置,第一音频帧为多个音频帧中的一个音频帧;
位置测量子单元,用于若第一位置落入预设测量点范围,则确定第一位置对应的第一头相关传递函数;其中,预设测量点范围内的每个测量点对应有头相关传递函数;
卷积子单元,用于对第一音频帧分别卷积从第一位置到左耳和右耳的第一头相关传递函数,得到目标音频的第一音频帧的双声道音频。
可以看出,由于目标音频的声源的位置是可以连续变化的,因此在多音频帧中的第一音频帧时,先确定第一音频帧对应的第一位置,进而确定第一位置对应的头相关函数,再进行卷积处理。经过卷积头相关函数处理的目标音频的双声道音频,在听者的左耳和右耳播放时,能够使听者产生目标音乐彷佛是从声源的位置传来的,提升了用户的听音乐时的临场感和沉浸感。
在第二方面的另一种可选的方案中,上述位置测量子单元,还用于若第一位置未落入预设测量点范围,则根据第一位置确定P个测量位置点,所述P个测量位置点为落于所述预设测量点范围的P个点,其中,P为不小于1的整数;
所述装置还包括:
位置拟合子单元,用于根据P个测量位置点对应的头相关传递函数拟合得到所述第一位置对应的第二头相关传递函数;
所述卷积子单元,还用于对第一音频帧分别卷积从第一位置到左耳和右耳的第二头相关传递函数,得到所述目标音频的第一音频帧的双声道音频。
可以看出,所述头相关传递函数预设有测量点范围,预设测量点范围内的每个测量点对应有头相关传递函数。若上述第一位置没有落入测量点范围,可以通过确定第一位置靠近的落入预设范围的P个测量点,通过拟合P个测量点对应的头相关传递函数拟合得到第一位置的头相关传递函数,可以提高目标音频的声像调制效果的准确率,增强了目标音频的处理过程的效果稳定性。
在第二方面的另一种可选的方案中,音频渲染单元,用于将目标音频的双声道音频渲染到目标音乐中,得到目标音乐在目标场景中播放的效果,具体为:
调制因子确定子单元,用于根据左声道音频的均方根RMS值、右声道音频的RMS值和目标音乐的RMS值确定调制因子;
调整子单元,用于根据上述调制因子调整左声道音频的RMS和右声道音频的RMS值,得到调整后的左声道音频和调整后的右声道音频;其中,调整后的左声道音频的RMS值和调整后的右声道的RMS值不高于目标音乐的RMS值;
混音子单元,用于将调整后的左声道音频混音到目标音乐的左声道中,作为目标音乐的左声道的渲染音频;将调整后的右声道音频混音到目标音乐的右声道中,作为目标音乐的右声道的渲染音频。
目前的设备在播放音乐添加音效元素时,添加的音效元素的声音强度不统一,部分音效元素响度非常大,容易造成数据溢出,盖过了音乐的声音,部分音效元素响度非常小,几乎感知不到,影响用户听音乐的体验。可以看出,本申请实施例提供的装置,在将目标音频混入到音乐中时,先对目标音乐的功率进行调制,改变音乐的响度等特征,防止音效元素盖过原有的音乐信号,也可以防止音效元素由于响度过小而作用不明显的情况发生,使得添加的音效元素的音频不影响用户聆听原音乐。
在第二方面的另一种可选的方案中,左声道音频的RMS值为RMSA1;右声道音频的RMS值为RMSB1;目标音乐的RMS值为RMSY;调制因子确定子单元,用于根据左声道音频均方根RMS值、右声道音频的RMS值和目标音乐的RMS值确定调制因子,具体为:
将所述左声道音频的RMS值调整为RMSA2,将所述右声道音频的RMS值调整为RMSB2,使RMSA2、RMSB2与RMSY满足如下关系:
RMSA2=alpha*RMSY,
RMSB2=alpha*RMSY,alpha为预设的比例系数,且0<alpha<1
RMSA2与RMSA1的比值作为第一左声道调制因子MA1,即:
将RMSB2与RMSB1的比值作为第一右声道调制因子MB1,即:
将MA1与MB1的较小值作为第一组值M1,即:
M
1=min(M
A1,M
B1)
将第一组值确定为调制因子。
可以看出,通过目标音乐左声道音频的RMS值、目标音乐右声道的音频的RMS值和目标音乐的RMS值确定调制因子,通过调制因子调制目标音频的功率,控制目标音频的均方根值与目标音乐的均方根值成一定比例,使得目标音频的出现并不过多影响原始音乐的聆听。其中,音效元素与目标音乐的比值alpha值的设定可以系统预设或者开放给用户自己设置,用户可以根据自身喜好设置比例系数,从而构造个性化的听音效果,增加了听音体验的趣味性。
在第二方面的另一种可选的方案中,上述调制因子确定子单元,还用于:
调整所述左声道音频的RMS值为RMSA3,调整所述右声道音频的RMS值为RMSB3,使RMSA3、RMSB3与RMSY满足如下关系:
RMSA3=F-RMSY,其中,F为浮点型所能表示的数字的最大数;
RMSB3=F-RMSY;
RMS A3与RMSA1的比值作为第二左声道调制因子MA2,即:
将RMSB3与RMSB1的比值作为第二右声道调制因子MB2,即:
将MA2与MB2的较小值作为第二组值M2,即:
M
2=min(M
A2,M
B2)
其中,所述第一组值小于所述第二组值。
可以看出,确定调制因子时,需要使得混音后的渲染音频的RMS值不能超过机器数的取值范围的最大值,这样可以防止数据溢出的前提下,可以尽可能的防止目标音频由于功率过大而掩盖了目标音乐,也可以防止目标音频由于功率过小而作用不明显的情况发生,确保了目标音乐主体地位。
在第二方面的另一种可选的方案中,装置还包括,采样率转换单元,用于在音频选取单元确定目标音频之后,在位置确定单元确定目标音频的声源的位置之前,若目标音频的采样率与目标音乐的采样率不相同,则将目标音频的采样率转换为目标音乐的采样率。
可以看出,确定目标音频后,若目标音频与目标音乐的采样率不相同,将音效元素的采样率转换为目标音乐的采样率,使得混音时听起来更自然。
第三方面,本申请实施例提供一种构造听音场景的装置,其特征在于,包括:处理器和存储器,存储器用于存储有计算机程序,处理器用于调用计算机程序,以执行权利要求1-11中任一项的方法。
第四方面,本申请实施例提供了一种计算机存储介质,包括计算机程序,当该计算机程序在电子设备上运行时,使得该电子设备执行本申请实施例第一方面或第一方面的任意一种实现方式提供的方法。
第五方面,本申请实施例提供了一种计算机程序产品,当该计算机程序产品在电子设备上运行时,使得该电子设备执行本申请实施例第一方面或第一方面的任意一种实现方式提供的方法。
可以理解地,上述提供的第二方面提供的构造听音场景的装置、第三方面提供的构造听音场景的装置、第四方面提供的计算机存储介质,以及第五方面提供的计算机程序产品均用于执行第一方面所提供的音乐可视化方法,因此,其所能达到的有益效果可参考第一方面所提供的构造听音场景的方法中的有益效果,此处不再赘述。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对本申请实施例或背景技术中所需要使用的附图作简单地介绍。
图1是本申请实施例提供的一种构造虚拟听音场景的方法的场景示意图;
图2是本申请实施例提供的一种构造虚拟听音场景的方法的流程示意图;
图3是本申请实施例提供一种确定目标音频的方法的示意图;
图4是本申请实施例提供又一种确定目标音频的方法的示意图;
图5是本申请实施例提供又一种确定目标音频的方法的示意图;
图6是本申请实施例提供的一种声源的位置的示意图;
图7是本申请实施例提供的又一种声源的位置的示意图;
图8是本申请实施例提供的一种可能的分帧处理的方法示意图;
图9是本申请实施例提供的一种加窗处理的效果的示意图;
图10是本申请实施例提供的又一种声源的位置的示意图;
图11是本申请实施例提供的一种均方根值的测量示意图;
图12是本申请实施例提供的一种确定音频混入时间的方法的示意图;
图13是本申请实施例提供的又一种确定音频混入时间的方法的示意图;
图14是本申请实施例提供的一种调制功率的方法的流程示意图;
图15是本申请实施例提供的又一种调制功率的方法的流程示意图;
图16是本申请实施例提供的又一种确定音频混入时间的方法的示意图;
图17是本申请实施例提供的一种构造听音场景的装置的结构示意图;
图18是本申请实施例提供的又一种构造听音场景的装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、详细的描述。
本申请实施例公开了一种能够在用户听音乐时,提升用户的听音乐时的临场感和沉浸感。本申请实施例中,在用户听音乐时,混入可以表征听音场景的音效元素。在音效元素的音频混入音乐时,先根据声源的位置对音效元素的音频进行声像调制,使得音效元素进入双耳中时彷佛是从声源的位置传来的,提升用户的听音乐时的临场感和沉浸感。
请参见图1,图1是本申请实施例提供的一种构造虚拟听音场景的方法的场景示意图,该方法可以通过电脑、手机等电子设备来实现,该电子设备在执行构造虚拟听音场景105的方法的过程中,涉及对音效元素的音频101、音效元素进行声像调制过的左声道音频102、音效元素进行声像调制过的右声道 音频103、原始音乐104的处理。
音效元素的音频101可以是根据原始音乐104的类型或者歌词匹配的音效元素的音频,也可以是接收用户的选择操作而确定的音效元素的音频。音效元素的音频可以表征某些场景的特点,例如,山林这一场景的声音可以由鸟叫的声音、树叶摇动的声音来进行表征。
音效元素的音频101经过声像调制后得到左声道音频102和右声道音频103。进行声像调制前,需要先确定音效元素的音频中声源的位置,因为有的音频需要声源固定不动,而有的声源需要具有一定的运动轨迹。例如,相对于听者来说,场景中树叶声可以固定不动,而小鸟的声音可能会从由远及近或者从左到右运动,因此需要按照预设的时间间隔确定声源在多个时间节点的位置。空间中的一个声源的位置可以用三维坐标表示,例如可由[方位角,仰角,距离]这一坐标来表示。确定多个时间节点声源的位置后,对音效元素的音频进行分帧、加窗等处理,再确定音频帧中声源的位置到左右的头相关传递函数,将音频帧分别卷积从声源位置到达左耳和右耳的头相关传递函数,得到左声道音频102和右声道音频103,即单通道音频分别卷积从声源位置到达左耳和右耳的传递函数,从而形成双耳音频。当左声道音频102和右声道音频103分别在左耳和右耳同时播放时,能使听者产生音效元素是来自声源的位置的效果。
可选的,音效元素101可以是海浪声、树叶声、流水声等可以表征场景的音频文件,可以通过微软数字音频格式(windows media audio,WMA)、动态影像专家压缩标准音频层面3(Moving Picture Experts Group Audio Layer III,MP3)等音频格式进行存储,下文中目标音频即为音效元素的音频。
原始音乐104是一种可以播放的音频文件,可以在播放时将原始音乐与音效元素的左声道音频102和右声道音频103做混音操作,将混音后的音乐在左耳和右耳播放,使得用户在使用播放设备播放混音后的音乐时,除了聆听到原始音乐104还可以感受到特殊场景元素萦绕耳旁,仿佛真的置身在听音场景106中。
可选的,原始音乐104可以是多种格式的音频文件,例如微软数字音频格式(windows media audio,WMA)、动态影像专家压缩标准音频层面3(Moving Picture Experts Group Audio Layer III,MP3)等格式的音频文件,可以通过耳机等播放设备播放等,下文中目标音乐即为原始音乐。可选的,所述电子设备也可以作为播放设备,用于播放混音后的音乐,在这种情况下,播放设备时集成在电子设备中的一个播放模块,该电子设备可以是电带有计算能力的智能耳机等设备。可选的,电子设备可以将混音后的音乐通过有线接口、无限接口(如WIFI接口、蓝牙接口)等方式发送给播放设备,播放设备用于播放上述混音后的音乐,在这种情况下,电子设备可以是服务器(或服务器集群)、电脑主机等电子设备,播放设备可以是蓝牙耳机、有线耳机等设备。
也即是说,听音场景106可以通过添加一些特殊的音效片段,以及渲染音效等手段,使得听者感受到一种独特的虚拟听音环境。常见的听音场景主要有海边、窗边、郊外等,这些场景都可以通过一些音效元素的添加而营造出来。
请参见图2,图2是本申请实施例提供的一种构造听音场景的方法的流程图,该方法可以包括如下步骤:
S201:电子设备确定目标音频。
具体地,上述电子设备可以是手机、电脑等具有运算能力的设备,上述目标音频为混入到目标音乐中的音效元素的音频,上述目标音乐可以歌曲、录音带等音乐文件。电子设备可以通过以下可选方式确定目标音频。
方式一,通过目标音乐类型信息确定目标音频。电子设备中可以预先存储目标音乐的类型信息或者目标音乐的类型信息的标签,或者电子设备可以通过有线接口、无线接口等方式获取目标音乐的类型信息或者类型信息的标签。电子设备根据上述目标音乐的类型信息或者上述目标音乐的类型信息的标签匹配音效元素,根据音效元素的匹配参数确定目标音频。可选的,一首歌曲可以有多种类型或者多个标签。在匹配音效元素时,为了目标音频与目标音乐的相关度更高,可以预设第一匹配阈值。具体的,电子设备根据目标音乐的类型信息或类型信息标签匹配一个或多个音效元素,得到一个或多个音效元素的匹配参数,将匹配参数高于第一匹配阈值的一个或多个音效元素的音频确定为目标音频。可选的,在歌曲的人声出现之前和人声出现之后(即歌曲只有伴奏的时期),通过方式一的方式确定目标音频。
案例1,参见图3,图3是本申请实施例提供的一种可能的确定目标音频的方法的示意图,包含目标音乐301、歌曲信息302和匹配信息303。其中,目标音乐可以是歌手周杰伦演唱的歌曲《稻香》,电子设备中预先在歌曲信息302中存储了《稻香》的类型信息,即《稻香》属于民谣类歌曲,同时也属于嘻哈类型,因此根据民谣和嘻哈的类型信息匹配多个音效元素,得到多个音效元素的匹配参数。在确定 目标音频时,为了保证选择的音效元素混音时不突兀,电子设备可以先预设第一匹配阈值。例如,预设第一匹配阈值为75.0,表明只有匹配参数高于75.0的音效元素才可以确定为目标音频。可选的,为了控制选取的音效元素的数量,电子设备可以预设选取的音效元素的数量,例如,预设选取的音效元素数量为2,则表明在匹配参数高于75.0的音效元素中,确定匹配参数为前2个的音效元素的音频作为目标音频。参见图3,可知在《稻香》的人声出现之前时期,可以将“山林小溪的流水声”和“虫鸣声”都可以确定为目标音频。而“清新粒子特效”由于低于第一匹配阈值因此不能确定为目标音频,“风吹树叶的声音”虽然高于第一匹配阈值,但是预设了只选择两个音效元素,因此也不能确定为目标音频。
方式二,通过目标音乐的整体歌词确定目标音频。电子设备中可以预先存储目标音乐的整体歌词,或者电子设备可以通过有线接口、无线接口等方式获取目标音乐的整体歌词。电子设备根据整体歌词匹配音效元素,得到音效元素的匹配参数,根据音效元素的匹配参数确定目标音频。在匹配音效元素时,为了目标音频与目标音乐的相关度更高,可以预设第二匹配阈值。具体的,电子设备可以利用文本匹配算法,将目标音乐的整体歌词匹配一个或多个音效元素,得到一个或多个音效元素的匹配参数,将匹配参数高于第二匹配阈值的一个或多个音效元素的音频确定为目标音频,其中,上述第二匹配阈值可以与上述第一匹配阈值相等,也可以不相等,这里不做限制。可选的,在歌曲的人声出现之前和人声出现之后(即歌曲只有伴奏的时期),通过方式二的方式确定目标音频。
案例2,电子设备中预先存储了《稻香》的整体歌词,在确定目标音频时,根据《稻香》的整体歌词匹配多个音效元素,若电子设备预设第二匹配阈值为76.0,则匹配参数高于76.0的音效元素可以确定为目标音频。可选的,为了控制选取的音效元素的数量,电子设备可以预设选取的音效元素的数量,例如,预设选取的音效元素数量为3,则表明在匹配参数高于75.0的音效元素中,确定匹配参数为前3个的音效元素的音频作为目标音频。
方式三:通过目标音乐的歌词内容确定目标音频,其中,所述目标音乐的歌词内容为歌词的字、词语、短句或者句子等具体内容。电子设备中可以预先存储目标音乐的歌词内容,或者电子设备可以通过有线接口、无线接口等方式获取目标音乐的歌词内容。电子设备根据歌词内容匹配音效元素,得到音效元素的匹配参数,根据音效元素的匹配参数确定目标音频。在匹配音效元素时,为了目标音频与目标音乐的相关度更高,可以预设第三匹配阈值。具体的,电子设备可以分词算法将歌词分为字、词语、短句等具体内容,可以利用文本匹配算法,将目标音乐的歌词内容匹配一个或多个音效元素,得到一个或多个音效元素的匹配参数,将匹配参数高于第三匹配阈值的一个或多个音效元素的音频确定为目标音频,其中,上述第三匹配阈值可以与上述第一匹配阈值或者上述第二匹配阈值相等,也可以不相等,这里不做限制。可选的,在目标音乐的人声演唱阶段(即人声出现之后和人声结束之前的阶段),通过方式三的方式确定目标音频。
案例3,参见图4,图4是本申请实施例提供的又一种可能的确定目标音频的方法的示意图,包含目标音乐401和匹配信息402。其中,目标音乐可以是《稻香》,电子设备通过分词算法将《稻香》歌词分为字、词语、短句等具体歌词内容,根据《稻香》的具体歌词内容可以进行文本匹配,即根据歌词中具体的文本来匹配一个或多个音效元素,得到一个或多个文本分别匹配的一个或多个音效元素的匹配参数。在确定目标音频时,由于《稻香》的人声演唱阶段是音乐的主体部分,需要音效元素与文本具有强相关性,因此可以先预设第三匹配阈值,只有匹配参数高于预设第三匹配阈值的音效才可以确定为目标音频,例如,只有匹配参数高于85.0的音效元素的音频才可以确定为目标音频。参见图4,若预设第三匹配阈值为85.0,在歌曲《稻香》中,与歌词文本“梦”匹配的音效元素有“粒子光感音效”和“魔法闪光音效”,其中“魔法闪光音效”匹配参数只有79.6,则不可将其音频确定为目标音频。可选的,可以预设选取的音效元素的数量,例如,预设选取的音效元素数量为3,则表明在匹配参数高于85.0的音效元素中,确定匹配参数为前3的音效元素的音频作为目标音频。
方式四:电子设备向用户提供多个可供选择的音效元素的音频的选项,电子设备接收用户针对目标音频的选择操作,确定目标音频。具体的,电子设备中包含了可触摸屏幕等信息输入设备,接收用户的输入操作,将输入操作指示的音频确定为目标音频。
案例4,参见图5,图5是本申请实施例提供的又一种确定目标音频的方法示意图。电子设备配置有显示屏,显示屏上显示了周杰伦演唱的《稻香》的播放界面。用户在《稻香》播放过程中,可以点击或者拖拽表征音效元素的音频的选项标签,拖动到想要混入的时间上,则将该用户选择的音效元素的音频确定为目标音频。可选的,用户可以将音效元素拖动到歌词的词语或短句中,则该歌词所对应的音乐的时间戳即为用户选择的目标音频混入的时间,时间戳(timestamp),指的是一个时间数据,通常是一个字符序列,可标识歌曲的时间。
S202:若目标音频的采样率与目标音乐的采样率不相同,电子设备将目标音频的采样率转换为目标 音乐的采样率。
具体的,确定目标音频后,若目标音频与目标音乐的采样率不相同,则混音时听起来会有突兀感,因此需要将音效元素的采样率转换为目标音乐的采样率,使得混音时听起来更自然。例如,目标音频采样率为44100Hz,而目标音乐的采样率为48000Hz,则可以将目标音频的采样率转换为48000Hz,使得混音时听起来更自然。可选的,转换目标音频采样率的步骤可以不执行,若目标音频的采样率与目标音乐的采样率不相同,在不转换采样率的情况下,目标音频混音至目标音乐中时,听起来较为突兀,目标音频营造出的场景效果与目标音乐的适配性也会较差。
S203:电子设备确定目标音频的声源的位置。
具体的,空间的任意一个声源的位置即为声源的位置参数,可以由三维坐标表示。例如,相对听者,声源的位置可以由[方位角,仰角,距离]这一三维坐标表示。在不同的场景中,声源的位置可以是固定的位置或者变化的位置,例如,虫鸣声等可以是固定的声源位置,而海浪声、风声等需要声源位置连续变化。再如,人声开始之前,即音乐的开头部分,目标音频要由远及近,表示音乐缓缓飘来的效果。确定声源的位置可以通过以下可选方法确定:
方法一,电子设备预先存储目标音频中声源的位置。具体的,电子设备中预先存储了目标音频和目标音频中声源的位置的对应关系,在电子设备确定目标声源后,根据目标音频及目标音频与声源的位置的对应关系确定声源的位置。
方法二,电子设备根据确定目标音频的时间来确定声源的位置。具体的,电子设备中预先存储了在目标音乐的不同阶段声源的位置。例如,确定目标音频的时间是在目标音乐的人声开始之前,则目标音频的位置关系可以从远到近变化,在目标音乐的人声结束之后,则目标音频的位置关系可以从远到近变化。
方法三,接收用户操作选择声源的位置。具体的,电子设备可以向用户提供声源位置的位置范围、位置选项、运动速度、运动方向等选项,接收用户的输入操作或者选择操作表征的声源的位置,作为目标音频的声源的位置。
可选的,电子设备可以集成计算声源的位置的单元,通过模拟不同声源的位置,基于大数据或人工智能技术得到更合适目标音频的声源的位置。可选的,电子设备还可以接收其他用于专业计算声源位置的训练平台的发送的声源的位置。在这里不做赘述。
确定目标音频的声源的位置后,在具体生成位置时,可以有以下几种情况:
情况一,目标音频的声源的位置固定,则使用固定位置参数表示。例如,参见图6,图6是本申请实施例提供的一种可能的声源的位置的示意图,包括目标音频的声源的位置601和听者602,声源的位置的三维坐标使用[方位角,仰角,距离]来表示。位置601使用[20,16,1.6],可以表明该目标音频的声源的位置相对于听者602来说,方位角为20°,仰角为16°,距离为1.6米。
情况二,参见图7,图7是本申请实施例提供的一种变化位置的声源的位置的示意图,包括目标音频的开始位置701、结束位置702和听者602,声源的位置的三维坐标使用[方位角,仰角,距离]来表示。该目标音频的声源需要在播放过程中,由位置701运动至位置702。通过预设的第一时间间隔T1,确定目标音频的声源在多个时间节点的位置。例如,预设第一时间间隔T1为0.1秒,则每间隔0.1确定一次声源位置。在开始时间,目标音频的声源的位置相对于听者602来说,方位角是20°,仰角是16°,距离是1.6米。在距离开始时间0.1秒时,目标音频的声源的位置相对于听者602来说,方位角是22°,仰角是15°,距离是1.5米,以此得到声源在多个时间节点的位置。
S204:电子设备根据声源的位置对目标音频进行声像调制,得到目标音频的双声道音频。
具体的,声源的位置可以是固定的位置或者变化的位置,声像调制可以使得目标音频听起来仿佛是从声源的位置传来的。电子设备根据目标音频在多个时间节点所分别对应的声源的位置,对目标音频分别进行声像调制,得到所述目标音频的双声道音频。所述声像调制的方法可以是卷积头相关传递函数、或者时延法、相位差法等声像调制方法。
作为一种优化的方案,为了尽可能保证声像调制的效果,电子设备可以先对上述目标音频进行预加重处理和归一化处理。预加重处理是一种对音频的高频分量进行提升的处理方式。因为在实际过程中,音频的功率谱随频率的增加而减小,其大部分能量集中在低频范围内,这就造成音频在高频端的信噪比可能降到不能容许的程度,因此采用预加重处理增加音频的高频分辨率。具体地,可以通过高通数字滤波器实现预加重处理。上述归一化处理是常见的简化计算的信息处理方式,将有量纲的处理对象变换为无量纲的处理对象,使得处理结果能够有更广泛的适用性。
对目标音频进行预加重和归一化处理之后,电子设备根据预设第二时间间隔T2将上述目标音频划分为多个音频帧。音频信号是一种随时间而变化的信号,可以认为在一小段时间里(一般10~30ms)音 频信号近似不变,即音频具有短时平稳性;可以对目标音频进行分帧处理,按照预设第二时间间隔T2将上述目标音频划分为多个音频帧(也可以称为分析帧)来进行处理,可选的,可以将音频帧的第二时间间隔预设为0.1*Fs,其中Fs为目标音频当前的采样率。
电子设备在进行对目标音频的分帧处理时,可以采用可移动的有限长度窗口进行加权的方法,即加窗分帧处理,以解决因为对音频进行分帧处理破坏了音频的自然度和连续性,导致频谱泄露的问题。在分帧处理时,每秒的音频帧数可以为33~100帧,视实际情况而定。分帧处理可以采用连续分段的方法,也可以采用交叠分段的方法。交叠分段是为了使音频帧之间平滑过渡,保持其连续性。前一帧和后一帧的交叠部分称为帧移,帧移与帧长的比值一般0~0.5;其中帧长为一个音频帧的采样点的数目或采样时间。参见图8,图8是本申请实施例提供的一种可能的分帧处理的方法示意图,其中N为帧长,M为帧移。例如,针对6秒的采样率为50kHz的PCM音频信号,可以取30ms为帧长,可以取15ms为帧移,则将上述音频信号划分为401个音频帧,每个音频帧的采样点的数目,即样本数目为1500。在具体实施中,可以选择矩形窗、汉宁窗、三角窗等语音信号处理常用的窗函数进行加窗分帧处理。例如,可以将划分音频帧的第二时间间隔预设为0.1*Fs,其中Fs为目标音频当前的采样率,帧移设定为0.1*Fs-256,汉宁窗长度为512。参见图9,图9是本申请实施例提供的一种可能的加窗处理的效果的示意图,加窗操作可以有效防止不同数据帧卷积不同传递函数时,由于信号的不连续而产生的杂音,其中不同的窗口长度呈现不同的处理效果。经过预处理、分帧、加窗等处理后,可以得到目标音频的多个音频帧。
作为一种较佳的实施方案,电子设备可以根据多个音频帧的时间节点所分别对应的声源的位置,对多个音频帧分别卷积从声源的位置到左耳和右耳的头相关传递函数,得到所述目标音频的双声道音频。
其中,头相关传输函数(head related transfer functions,HRTF)又称为生理传输函数(anatomical transfer function,ATF),是一种音效定位算法,可以利用耳间时间延迟(interaural time delay,ITD)、相互放大差异(interaural amplitude difference,IAD)和耳廓频率振动等技术产生立体音效,使声音传递至人耳内的耳廓,耳道和鼓膜时,聆听者会有环绕音效的感觉该系统会受到耳廓、头型、肩膀等因素的影响。人能听到声音是声音在空间中传播的结果,声音从声源到人耳鼓膜传播过程中发生了变化,这种变化可以看成是人的双耳对声音的滤波作用,可以通过经过HRTF处理过的音频模拟这种滤波效果。也即是说,聆听者可通过经过HRTF处理过的音频判断音频的声源的位置。
电子设备使用头相关传输函数卷积合成双声道音频时,通过将目标音频的声源的位置作为测量点,通过卷积头相关处理函数赋予其方位感。例如,将德国科隆大学的HRTF数据库作为标准传递函数库,将音频的声源的位置信息用[方位角,仰角,距离]这一三维位置坐标表示,将三维位置坐标作为参数确定该位置到双耳的HRTF函数,分别卷积从声源位置到达左耳和右耳的HRTF函数,从而形成目标音频的双声道音频。其中,德国科隆大学的HRTF数据库要求,位置的预设参数范围分别为,方位角度范围设为-90度~90度,仰角角度范围为-90度~90度,距离为0.5米~1.5米,以及远场距离(大于1.5米)。具体处理时,可以包含以下几种情况:
情况一,对于固定位置的声源,可以看作在多个时间节点内三维坐标不改变。电子设备根据目标音频的声源的位置,若该参数落入HRTF函数库的预设参数范围,确定该声源位置的头相关传输函数,并进行卷积处理。参见图6,图6是本申请实施例提供的一种可能的声源的位置的示意图,包括目标音频的声源601和听者602。将德国科隆大学的HRTF数据库作为标准传递函数库,输入声源的位置[20,16,1.6],若位置[20,16,1.6]落入预设参数范围,确定位置[20,16,1.6]对应的头相关传递函数,为了便于描述,这里称为第一头相关传递函数。对目标音频的多个音频帧卷积从声源位置到左耳的第一头相关传递函数,得到目标音频的左声道音频,对目标音频的多个音频帧卷积声源位置到右耳的第一头相关传递函数,得到目标音频的右声道音频。
情况二,对于位置变化的声源,电子设备可以按照预设的时间间隔T确定了声源在多个时间节点的位置。电子设备根据目标音频的声源的位置,若该落入HRTF函数库的预设参数范围,确定多个时间节点的声源的位置的头相关传递函数并进行卷积处理。参见图7,图7是本申请实施例提供的一种变化位置的声源的位置的示意图,包括目标音频的开始位置701、结束位置702和听者602。该目标音频的声源需要在播放过程中,由位置701运动至位置702,在位置701到位置702之间确定在多个时间节点声源的位置。根据第一音频帧的开始或者结束时间节点对应的声源的位置,确定从该声源的位置分别到左耳和右耳的头相关传递函数,对第一音频帧进行卷积头相关传递函数,得到目标音频的第一音频帧的双声道音频帧。例如,将德国科隆大学的HRTF数据库作为标准传递函数库,输入第一音频帧对应的时间节点的声源的位置[20,16,1.6],若位置[20,16,1.6]落入预设参数范围,确定位置[20,16,1.6]分别到左耳和右耳的头相关传递函数。对目标音频的第一音频帧卷积从声源位置到左耳的头相关传递函数,得到第一音频帧的左声道音频,对目标音频的第一音频帧卷积声源位置到右耳的头相关传递函数,得到第一音频帧 的右声道音频。同理,对目标音频的多个音频帧卷积相对位置的头相关传递函数,得到目标音频的双声道音频。
情况三,若通过情况一或情况二确定声源的位置时,第一位置的位置没有落入HRTF函数库的预设参数范围,则电子设备可以确定第一位置的周围P个位置点,通过P个位置点对应的头相关传递函数进行拟合,得到第一位置对应的头相关传递函数,为了便于描述,可以称这里得到的头相关函数为第二头相关函数。其中P为不小于1的整数。参见图10,图10是本申请实施例提供的又一种可能的声源的位置的示意图,包括目标音频的第一位置1001、第二位置1002、第三位置1003、第四位置1004和听者1005。若电子设备在对音频帧进行卷积头相关传递函数时,选定的第一位置1001没有落入HRTF的预设参数范围,则确定与1002距离较近的P个测量点。例如,预设P值为3,表明确定与第一位置最近的3个测量点,即第二位置1002、第三位置1003和第四位置1004,这个3个测量点的位置均落入HRTF函数库的预设参数范围,通过拟合3个测量点对应的头相关传递函数得到第一位置的对应的第二头相关传递函数。可选的,可以通过3个测量点到第一位置的距离权重,拟合3个测量点对应的头相关传递函数得到第一位置对应的头相关传递函数。
S205:电子设备对目标音频的双声道音频的功率进行调制。
具体的,在将目标音频的双声道音频渲染到目标音乐前,为了使目标音频不过多影响目标音乐的聆听感受,电子设备可以对目标音频进行功率调制,即降低目标音频的功率,使得目标音频的功率低于目标音乐的功率。需要注意的是,对双声道音频的功率进行调制只是一种较佳的实施例,作为提升用户体验的一种可选方案。在对目标音频的双声道音频的功率进行调制前,电子设备需要先确定目标音频渲染到目标音乐的时间,即确定目标音频的混入时间。确定目标音频混入时间时可以有以下几种可选的方案:
方案一:电子设备预先设置目标音频混入的时间。可选的,电子设备在将目标音频渲染到目标音乐中时,可以多次混入目标音频,或者按照预设的第三时间间隔T3循环出现。参见图12,图12是本申请实施例提供的一种可能的确定音频混入时间的方法,包括目标音频1201和目标音乐1202。在目标音频混入时,若目标音频长度为6s,且预设第一次混入的时间为5s,预设第三时间间隔T3为7s,表示目标音频第一次混入的时间为目标音乐的第5s时,在第11s时目标音频结束混音,第二次混音时为目标音乐的第18s时。可选的,通过上述方式一和方式二确定的音频音频,可以使用预设目标音频第一次混入的时间的方案混入。例如,在案例一中,在播放歌曲《稻香》时,可以预设在第5s混入可以表征田野环境花草虫鸟的声音,构造出《稻香》在田野环境播放的场景效果。
方案二:电子设备根据歌词的时间戳确定目标音频混入的时间。例如,电子设备可以通过方式二确定的目标音频,由于匹配目标音频时是通过歌词来匹配,因此匹配的歌词开始演唱的时间戳即为目标音频混入的时间。参见图13,图13是本申请实施例提供的又一种可能的确定音频混入时间的方法,包括目标音频1301和目标音乐1302,其中目标音频1301为根据t5到t6之间演唱的歌词来匹配确定的音频。例如,参见图4,在案例三中,根据“稻香”这一歌词匹配的“田野花草虫鸣声”在确定为目标音频后,混入的时间为“稻香”这一歌词开始演唱的时间戳。
方案三:电子设备接收用户选择的选择或输入操作,将选择或输入操作指示的时间确定为目标音频混入的时间。例如,参见图5,在案例四中,若用户将“虫鸣声”拖动到歌词“萤火虫”上,则选择“萤火虫”这一歌词开始演唱的时间作为音频混入的时间。
电子设备确定目标音频的混入时间后,可以根据音频混入的时间对音频进行功率调制。可选的,在需要在统一时间混入多个音频时,电子设备可以将多个音频的功率按比例降低,使得最后输出的整体攻略不超过预定的功率阈值。由于音频信号是一种随机的信号,音频信号的功率可以使用均方根值(root meam square,RMS)来表示,是以音频信号峰值等幅的正弦信号的一种测量结果,接近于平均值,代表音频的发热能量。均方根值也称作为效值,它的计算方法是先平方、再平均、然后开方。参见图11,图11是本申请实施例提供的一种均方根值的测量示意图,图中表示了1.00V的音频CH1在此音频信号情况下,均方根值为513.0mV。对目标音频进行功率调制,可以防止音效元素由于响度过大而掩盖了音乐信号,也可以防止音效元素由于响度过小而作用不明显的情况发生,可以通过以下几种方法对功率进行调制:
方法一,确定第一调制因子将目标音频调制为目标音乐的RMS值的alpha倍,其中alpha为预设的参数或接收用户的输入操作指示的参数,且0<alpha<1。参加图14,图14是本申请实施例提供的一种调制功率的方法的流程示意图,主要包括以下步骤:
S1411:计算目标音频的左声道音频RMSA1,计算右声道音频RMSB1,计算目标音乐音频RMSY。
具体的,由于目标音频的左声道音频和右声道音频经过卷积函数处理,因此调制音频时,需要对单通道分别计算功率。
S1412:获取计算参数alpha。
S1413:将左声道音频设为RMSA2,使RMSA2=alpha*RMSY。
S1414:将RMSA2与RMSA1的比值作为第一左声道调制因子MA1。
具体的,将RMSA2与RMSA1的比值作为第一左声道调制因子MA1,即:
S1415:将右声道音频设为RMSB2,使RMSB2=alpha*RMSY。
S1416:将RMSB2与RMSB1的比值作为第一右声道调制因子MB1。
具体的,将RMSB2与RMSB1的比值作为第一右声道调制因子MB1,即:
S1417:将MA1与MB1的较小值作为第一调制因子M1,将目标音频的左声道的音频和右声道音频的RMS值分别调整为M1*RMSA1和M1*RMSB1。
具体的,将MA1与MB1的较小值作为第一调制因子M1,即:
M
1=min(M
A1,M
B1)
S1417:将MA1与MB1的较小值作为第一调制因子M1,将目标音频的左声道的音频和右声道音频的RMS值分别调整为M1*RMSA1和M1*RMSB1。
具体的,将MA1与MB1的较小值作为第一调制因子M1,即:
M_1=min(M_A1,M_B1)
由于目标音频进行了卷积函数处理,为了保持上述双音频的声像调制效果不变,左右两个通道的幅度调制需要共用一个调制因子,因此将MA1与MB1的较小值作为第一调制因子M1。
可选的,通过方式一进行调制时,若调制后的目标音频混合到目标音乐以后,得到的混音的音频的均方根值超过机器数的取值范围,则需要降低目标音频的功率,否则会造成数据溢出。在图14所示的方法中,若系统预设alpha=0.5;则通过第一调制因子调制后的目标音乐RMS值比目标音乐RMS值少6dB,保证了音效元素的出现并不过多影响原始音乐的聆听。
方法二,确定第二调制因子,调制目标音频的RMS值,使目标音乐的RMS值与目标音频的RMS值的和值为不超过机器数的取值范围的最大值。其中,在调制使目标音频的RMS值始终小于目标音乐的RMS值。参见图15,图15是本申请实施例提供的又一种可能的调制功率的方法的流程示意图,其中,F为机器数的取值范围的最大值,主要包括以下步骤:
S1521:计算目标音频的左声道音频RMSA1,计算右声道音频RMSB1,计算目标音乐音频RMSY。
S1522:将左声道音频设为RMSA3,使RMSA3=F-RMSY。
S1523:将RMS
A3与RMS
A1的比值作为第二左声道调制因子M
A2。
具体的,将RMS
A3与RMS
A1的比值作为第二左声道调制因子M
A2,即:
S1524:将声道音频设为RMS
B3,使RMS
B3=F-RMS
Y。
S1525:将RMS
B3与RMS
B1的比值作为第二右声道调制因子M
B2。
具体的,将RMS
A3与RMS
A1的比值作为第二右声道调制因子M
A2,即:
S1526:将M
A2与M
B2的较小值作为第二调制因子M
2,将目标音频的左声道的音频和右声道音频的RMS值分别调整为M
2*RMS
A1和M
2*RMS
B1。
具体的,将M
A1与M
B1的较小值作为第一调制因子M
1,即:
M
2=min(M
A2,M
B2)
在图15所示的方法中,电子设备可以通过第二调制因子,使目标音乐的RMS值与目标音频的RMS值的和值为不超过机器数的取值范围的最大值,这一调制方法在防止数据溢出的前提下,可以尽可能保 证了音效元素的出现并不过多影响原始音乐的聆听。
方法三,确定第三调制因子,调制目标音频的RMS值,使得目标音频的RMS值低于目标音乐的RMS值。其中,第三调制因子可以使用其他方式确定,用于调制目标音乐的RMS值,例如,将第一调制因子与第二调制因子中的较小值作为第三调制因子,即在第一调制因子的值小于第二调制因子的值的情况下,将第一调制因子确定为调制因子,用于调制目标音频的RMS值,使得目标音频的RMS值低于目标音乐的RMS值。同理,在第二调制因子的值小于第一调制因子的值的情况下,将第二调制因子确定为调制因子,用于调制调制目标音频的RMS值,使得目标音频的RMS值低于目标音乐的RMS值。这一调制方法在防止数据溢出的前提下,可以尽可能的保证音效数据与音乐数据的RMS比例关系不变,可以防止目标音频由于功率过大而掩盖了目标音乐,也可以防止目标音频由于功率过小而作用不明显的情况发生,确保了目标音乐主体地位。
可选的,由于音乐播放的是实时进行的,构造听音场景会使用多种音效元素的音频,参见图16,图16是本申请实施例提供的又一种确定音频混入时间的方法,包含第一音频1601、第二音频1602和目标音乐1603。其中,第二音频1602混入时间为t7至t9时间段,其中在t7至t9中间的t8时,需要混入第一音频,对于同一时间需要混入多个音频时,则需要先将几种音频做平均调整权重法的混音操作,并对混音操作后的音频作功率调制,使得混音后的音频的RMS值低于目标音乐的RMS值。
S206:电子设备将目标音频的双声道音频渲染到目标音乐中,得到目标音乐在所述目标场景中播放的效果。
具体的,电子设备根据步骤S206中确定的目标音频的混入时间,将目标音频的双声道音频混音到目标音乐中,得到混音后的音乐,使得播放设备在播放婚后的音乐时,听者能感觉的目标音乐在目标场景中播放的效果。
可选的,所述电子设备也可以作为播放设备,用于播放混音后的音乐,在这种情况下,播放设备时集成在电子设备中的一个播放模块,该电子设备可以是电带有计算能力的智能耳机等设备。可选的,电子设备可以将混音后的音乐通过有线接口、无限接口(如WIFI接口、蓝牙接口)等方式发送给播放设备,播放设备用于播放上述混音后的音乐,在这种情况下,电子设备可以是服务器(或服务器集群)、电脑主机等电子设备,播放设备可以是蓝牙耳机、有线耳机等设备。
例如,电子设备以歌曲《稻香》作为目标音乐,将田园作为目标场景,电子设备确定代表田园的场景的目标音频为“田野花草虫鸟声”“小溪流水声”“光感特效声”,确定目标音频中的声源的位置后,对目标音频进行卷积处理,功率调制等操作,按照目标音频的混入时间,将目标音频混入到《稻香》的音频中,得到混音音频。将混音音频通过耳机连接接口发送给头戴式耳机,使得听者使用头戴式耳机听《稻香》时,感觉到音效元素萦绕在耳边,彷佛置身田野当中闻着稻香一样。
在图2所示的方法中,用户听音乐时混入可以表征听音场景的音效元素。在音效元素的音频混入音乐时,电子设备先确定音频的声源的位置,根据声源的位置对音效元素的音频进行声像调制,使得音效元素进入双耳中时彷佛是从声源的位置传来的,使得音效元素可以构造出更真实听音场景,提升用户的听音乐时的临场感和沉浸感。
上述详细阐述了本申请实施例的方法,下面提供了本申请实施例的装置。
请参见图17,图17是本申请实施例提供的一种构造听音场景的装置170的结构示意图,该服务器170可以包括音频获取单元1701、位置确定单元1702、声像调制单元1703和音频渲染单元1704,其中,各个单元的详细描述如下:
音频选取单元1701,用于确定目标音频,其中,目标音频用于表征目标场景中的声音特点;
位置确定单元1702,用于确定目标音频的声源的位置;
声像调制单元1703,用于根据声源的位置对目标音频进行声像调制,得到目标音频的双声道音频,该目标音频的双声道音频在同时输出时能够产生目标音频来自声源的位置的效果;
音频渲染单元1704,用于将目标音频的双声道音频渲染到目标音乐中,得到目标音乐在目标场景中播放的效果。
可以看出,在用户听音乐时混入可以表征听音场景的音效元素。在音效元素的音频混入音乐时,先根据声源的位置对音效元素的音频进行声像调制,使得音效元素进入双耳中时彷佛是从声源的位置传来的,使得音效元素可以构造出更真实听音场景,提升用户的听音乐时的临场感和沉浸感。
在另一种可选的方案中在所述目标音乐的人声部分出现之前或人声结束之后,所述目标音频为根据所述目标音乐的类型信息或者整体歌词匹配的音频;和/或,
在所述目标音乐的人声部分,所述目标音频为根据所述目标音乐的歌词内容匹配的音频。
也即是说,在目标音乐的人声出现之前和结束之后,目标歌曲属于只有伴奏而没有人声演唱的阶段,这一阶段可根据歌曲的类型或者整体歌词内容确定目标音频,使得听者在歌曲的伴奏部分即可感受到与歌曲风格或歌曲内容匹配的音频。而在目标音乐的人声部分,音乐的主要效果由演唱的歌词传递,因此根据歌词的具体内容匹配目标音频,这样以音乐歌词为主导的匹配音频的方法,使得加入的音频更符合目标音乐的内容,提升了听音乐的体验。
在另一种可选的方案中,音频选取单元1701,用于确定目标音频,具体为:
接收针对目标音频的选择操作,确定为目标音频。
可以看出,在选取需要混音的音频时,向用户提供一个或多个音频,接收到针对目标音频的选择操作从而确定为目标音频。也即是说,用户在听音乐的过程中,可以根据自身喜好自主选择音频混入到音乐中,从而构造个性化的听音场景,激发了用户的创作与欲望,增加了听音体验的趣味性。
在另一种可选的方案中,位置确定单元1702,用于确定目标音频的声源的位置,具体为:
确定目标音频在多个时间节点的声源的位置;
声像调制单元,用于根据声源的位置对目标音频进行声像调制,得到目标音频的双声道音频,具体为:
根据多个时间节点的声源的位置对目标音频进行声像调制,得到目标音频的双声道音频。
目前的设备在播放音乐添加音效元素时,声源的位置固定不变,左耳和右耳听到的内容相同,声响位置居中或者固定不变。但是,音效元素的声源的位置在空间中可能相对人耳固定不变,也可能产生位移。本申请实施例提供的装置,对于表征目标听音场景的音频时,按照预设的时间间隔确定目标音频在多个时间节点的声源的位置,根据多个时间节点的声源位置对目标音频进行声像调制,使得产生目标音频来自声源的位置的效果,并且移动轨迹可以变化,增加了用户的临场感,使得构造出的听音场景更自然。
在另一种可选的方案中,声像调制单元1703,包括:
分帧子单元1705,将上述目标音频划分为多个音频帧;
声像生成子单元1706,用于根据多个音频帧的时间节点所对应的声源的位置,对多个音频帧分别卷积从声源的位置到左耳和右耳的头相关传递函数,得到目标音频的双声道音频。
可以看出,使用头相关传递函数进行声像调制前,需要对目标音频进行分帧处理,提升音频处理的效果。通过划分的音频帧进行卷积头相关传递函数的处理,使得目标音频的双声道音频在左耳和右耳播放时,使听者产生目标音频来自声源的位置的效果,使得音效元素的呈现更加真实。
在另一种可选的方案中,声像生成子单元1706,包括:
帧位匹配子单元1707,用于获取第一音频帧所对应的声源的第一位置,第一音频帧为多个音频帧中的一个音频帧;
位置测量子单元1708,用于若第一位置落入预设测量点范围,则确定第一位置对应的第一头相关传递函数;其中,预设测量点范围内的每个测量点对应有头相关传递函数;
卷积子单元1709,用于对第一音频帧分别卷积从第一位置到左耳和右耳的第一头相关传递函数,得到目标音频的第一音频帧的双声道音频。
可以看出,由于目标音频的声源的位置是可以连续变化的,因此在多音频帧中的第一音频帧时,先确定第一音频帧对应的第一位置,进而确定第一位置对应的头相关函数,再进行卷积处理。经过卷积头相关函数处理的目标音频的双声道音频,在听者的左耳和右耳播放时,能够使听者产生目标音乐彷佛是从声源的位置传来的,提升了用户的听音乐时的临场感和沉浸感。
在另一种可选的方案中,上述位置测量子单元1708,还用于若第一位置未落入预设测量点范围,则根据第一位置确定P个测量位置点,所述P个测量位置点为落于所述预设测量点范围的P个点,其中,P为不小于1的整数;
所述装置还包括:
位置拟合子单元1710,用于根据P个测量位置点对应的头相关传递函数拟合得到所述第一位置对应的第二头相关传递函数;
所述卷积子单元1709,还用于对第一音频帧分别卷积从第一位置到左耳和右耳的第二头相关传递函数,得到所述目标音频的第一音频帧的双声道音频。
可以看出,所述头相关传递函数预设有测量点范围,预设测量点范围内的每个测量点对应有头相关传递函数。若上述第一位置没有落入测量点范围,可以通过确定第一位置靠近的落入预设范围的P个测量点,通过拟合P个测量点对应的头相关传递函数拟合得到第一位置的头相关传递函数,可以提高目标音频的声像调制效果的准确率,增强了目标音频的处理过程的效果稳定性。
在另一种可选的方案中,音频渲染单元1704,用于将目标音频的双声道音频渲染到目标音乐中,得到目标音乐在目标场景中播放的效果,具体为:
调制因子确定子单元1711,用于根据左声道音频的均方根RMS值、右声道音频的RMS值和目标音乐的RMS值确定调制因子;
调整子单元1712,用于根据上述调制因子调整左声道音频的RMS和右声道音频的RMS值,得到调整后的左声道音频和调整后的右声道音频;其中,调整后的左声道音频的RMS值和调整后的右声道的RMS值不高于目标音乐的RMS值;
混音子单元1713,用于将调整后的左声道音频混音到目标音乐的左声道中,作为目标音乐的左声道的渲染音频;将调整后的右声道音频混音到目标音乐的右声道中,作为目标音乐的右声道的渲染音频。
目前的设备在播放音乐添加音效元素时,添加的音效元素的声音强度不统一,部分音效元素响度非常大,容易造成数据溢出,盖过了音乐的声音,部分音效元素响度非常小,几乎感知不到,影响用户听音乐的体验。可以看出,本申请实施例提供的装置,在将目标音频混入到音乐中时,先对目标音乐的功率进行调制,改变音乐的响度等特征,防止音效元素盖过原有的音乐信号,也可以防止音效元素由于响度过小而作用不明显的情况发生,使得添加的音效元素的音频不影响用户聆听原音乐。
在另一种可选的方案中,左声道音频的RMS值为RMSA1;右声道音频的RMS值为RMSB1;目标音乐的RMS值为RMSY;调制因子确定子单元1711,用于根据左声道音频均方根RMS值、右声道音频的RMS值和目标音乐的RMS值确定调制因子,具体为:
将所述左声道音频的RMS值调整为RMSA2,将所述右声道音频的RMS值调整为RMSB2,使RMSA2、RMSB2与RMSY满足如下关系:
RMS
A2=alpha*RMS
Y,
RMS
B2=alpha*RMS
Y,alpha为预设的比例系数,且0<alpha<1
RMS
A2与RMS
A1的比值作为第一左声道调制因子M
A1,即:
将RMS
B2与RMS
B1的比值作为第一右声道调制因子M
B1,即:
将M
A1与M
B1的较小值作为第一组值M
1,即:
M
1=min(M
A1,M
B1)
将第一组值确定为调制因子。
可以看出,通过目标音乐左声道音频的RMS值、目标音乐右声道的音频的RMS值和目标音乐的RMS值确定调制因子,通过调制因子调制目标音频的功率,控制目标音频的均方根值与目标音乐的均方根值成一定比例,使得目标音频的出现并不过多影响原始音乐的聆听。其中,音效元素与目标音乐的比值alpha值的设定可以系统预设或者开放给用户自己设置,用户可以根据自身喜好设置比例系数,从而构造个性化的听音效果,增加了听音体验的趣味性。
在另一种可选的方案中,上述调制因子确定子单元1713,还用于:
调整所述左声道音频的RMS值为RMSA3,调整所述右声道音频的RMS值为RMSB3,使RMSA3、RMSB3与RMSY满足如下关系:
RMS
A3=F-RMS
Y,其中,F为浮点型所能表示的数字的最大数;
RMS
B3=F-RMS
Y;
RMS
A3与RMS
A1的比值作为第二左声道调制因子M
A2,即:
将RMS
B3与RMS
B1的比值作为第二右声道调制因子M
B2,即:
将M
A2与M
B2的较小值作为第二组值M
2,即:
M
2=min(M
A2,M
B2)
其中,所述第一组值小于所述第二组值。
可以看出,确定调制因子时,需要使得混音后的渲染音频的RMS值不能超过机器数的取值范围的最大值,这样可以防止数据溢出的前提下,可以尽可能的防止目标音频由于功率过大而掩盖了目标音乐,也可以防止目标音频由于功率过小而作用不明显的情况发生,确保了目标音乐主体地位。
在另一种可选的方案中,装置还包括,采样率转换单元1714,用于在音频选取单元确定目标音频之后,在位置确定单元确定目标音频的声源的位置之前,若目标音频的采样率与目标音乐的采样率不相同,则将目标音频的采样率转换为目标音乐的采样率。
可以看出,确定目标音频后,若目标音频与目标音乐的采样率不相同,将音效元素的采样率转换为目标音乐的采样率,使得混音时听起来更自然。
可以看出,通过图17所描述的装置,可以在用户听音乐时,混入可以表征听音场景的音效元素。在音效元素的音频混入音乐时,先根据声源的位置对音效元素的音频进行声像调制,使得音效元素进入双耳中时彷佛是从声源的位置传来的,使得音效元素可以构造出更真实听音场景,提升用户的听音乐时的临场感和沉浸感。
需要说明的是,各个操作的实现还可以对应参照图2所示的方法实施例的相应描述。该装置170为图2所示方法实施例中的电子设备,或者集成在所述电子设备中的一个模块。
请参见图18,图18是本申请实施例提供的又一种构造听音场景的装置180的结构示意图。该构造听音场景的装置可以包括:处理器1801、存储器1802和总线1803,其中,存储器1801和处理器1802可通过总线1803或其他方式连接,本申请实施例以通过总线连接为例,各个单元的详细描述如下。
处理器1801(或称中央处理器(Central Processing Unit,CPU))是装置的计算核心以及控制核心,其可以解析装置内的各类指令以及处理装置的各类数据,例如:CPU可以在装置内部结构之间传输各类交互数据,等等。
存储器1802(Memory)是装置中的存储设备,用于存放程序和数据。可以理解的是,此处的存储器1802既可以包括装置的内置存储器,当然也可以包括装置所支持的扩展存储器。存储器801提供存储空间,该存储空间存储了装置的操作系统及其他数据,例如,可以包括:Android系统、iOS系统、Windows Phone系统等等,本申请对此并不作限定。
处理器1801可以调用存储器1802中存储的程序指令,用于执行如图2所示实施例提供的方法。
需要说明的是,各个操作的实现还可以对应参照图2所示的方法实施例的相应描述。该装置180为图2所示方法实施例中的电子设备,或者集成在所述电子设备中的一个模块。
本申请实施例还提供了一种计算机可读存储介质,上述计算机可读存储介质中存储有计算机指令,当上述计算机可读存储介质在处理器上运行时,实现图2所的实施例中电子设备所执行的操作。
本申请实施例还提供一种计算机程序产品,当所述计算机程序产品在处理器上运行时,实现图2所的实施例中电子设备所执行的操作。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者通过所述计算机可读存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如,固态硬盘(solid state disk,SSD))等。