WO2013020341A1

WO2013020341A1 - 一种音效变音方法及装置

Info

Publication number: WO2013020341A1
Application number: PCT/CN2011/084151
Authority: WO
Inventors: 赵伟峰
Original assignee: 深圳市万兴软件有限公司
Priority date: 2011-08-10
Filing date: 2011-12-16
Publication date: 2013-02-14
Also published as: CN102307327A; CN102307327B

Abstract

本发明实施例提供了一种音效变音方法，所述方法包括：将原声音信号经过波形相似叠加法进行时长调整；对经过时长调整的声音信号使用重釆样算法进行放缩，使得放缩后的声音信号与原声音信号时长相等。相应的，本发明实施例还公开了一种音效变音装置。采用本发明，可实现多种用户需要的特殊音效，例如花栗鼠、腹语、鬼音音效等。

Description

一种音效变音方法及装置

本申请要求于 2011年 08月 10日提交中国专利局、申请号为 201110228483.7 发明名称为 "一种音效变音方法及装置" 的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及数字音效技术领域，尤其涉及一种音效变音方法及装置。背景技术

日常生活中，我们在收听各种声音文件时往往需要对某数字声音输出进行变音处理，得到人们需要的各种音效，最常用的就是在听 MP3格式的音乐文件时经常会使用 EQ均衡器对数字声音的音效进行调节， EQ均衡器变音改变音效的原理是通过将数字声音信号分为多个频段，分别对所述多个频段不同频率的信号进行调节和增益，只能祈祷补偿扬声器和声场的缺陷，补偿和修饰各种声源及其它辅助作用，但是类似于花栗鼠、腹语、鬼音等特殊音效，现有的变音方法就无法实现了。发明内容

有鉴于此，本发明所要解决的技术问题在于，提供一种音效变音方法及装置，以实现花栗鼠、腹语、鬼音等特殊音效。

本发明实施例提供了一种音效变音方法，所述方法包括：

将原声音信号经过波形相似叠加法进行时长调整，调整因子取值为 [0.5 ,

2.0];

对经过时长调整的声音信号使用重釆样算法进行放缩 , 使得放缩后的声音信号与原声音信号时长相等。

其中，所述调整因子取值为 1.8时，所述放缩后得到的声音信号为花栗鼠音效。其中，所述调整因子取值为 0.6时，所 ^文缩后得到的声音信号为腹音音效。其中，所述调整因子取值为 0.8时，所述方法还包括：

将经过放缩后的声音信号经过基于 iir滤波器系统的混响模型，该混响模型的系统函数为 H(Z) = l/(l - p.z , 其中 p为系统衰减系数， N为延迟釆样点数， N为釆样率和延迟时间 t的乘积，其中延迟时间 t选用回音的延迟时间 [100ms, 300ms] , 经过此混响系统的声音信号为鬼音音效。

其中，所述混响模型的延迟时间 t为 200ms。

相应的，本发明实施例还提供了一种音效变音装置，所述音效变音装置包括：

声音信号输入模块，用于接收原声音信号输入；

变音模块，用于将所述声音信号输入模块接收到的原声音信号进行变音处理，得到所需音效的声音信号，其中所述变音模块包括：

时长调整单元，用于将所述原声音信号经过波形相似叠加法进行时长调整，调整因子取值为 [0.5 , 2.0];

重釆样单元，用于对经过时长调整的声音信号使用重釆样算法进行放缩，使得放缩后的声音信号与原声音信号时长相等；

输出单元，用于输出经过所述变音模块变音处理得到的声音信号。

其中，所述时长调整单元的调整因子取值为 1.8时，所述变音模块变音处理得到声音信号为花栗鼠音效。

其中，所述时长调整单元的调整因子取值为 0.6时，所述变音模块变音处理得到声音信号为腹音音效。

其中，所述时长调整单元的调整因子取值为 0.8, 所述变音模块还包括：混响单元，用于将经过所述重釆样单元放缩后的声音信号经过基于 iir滤波器系统的混响模型，该混响模型的系统函数为 H(Z) = l/(l - p - Z^N ) , 其中 p为系统衰减系数， N为延迟釆样点数， N为釆样率和延迟时间 t的乘积，其中延迟时间 t选用回音的延迟时间 [100ms, 300ms] , 经过此混响系统的声音信号为鬼音音效。

其中，所述混响模型的延迟时间 t为 200ms。

实施本发明实施例，具有如下有益效果：通过将输入的原声音信号通过波形相似叠加算法和重釆样算法进行变调不变速，可实现多种用户需要的特殊音效，例如花栗鼠、腹语、鬼音音效等。附图说明

图 1为本发明实施例中一种音效变音装置的组成结构示意图；

图 2为本发明另一实施例中的一种音效变音装置的组成结构示意图；图 3为本发明实施例中一种音效变音方法的流程示意图；

图 4为本发明另一实施例中的一种音效变音方法的流程示意图。具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图 1 为本发明实施例中一种音效变音装置的组成结构示意图，如图所示该音效变音装置包括：

声音信号输入模块 10, 用于接收原声音信号输入；

变音模块 20,用于将所述声音信号输入模块 10接收到的原声音信号进行变音处理，得到所需音效的声音信号，其中所述变音模块 20包括：

时长调整单元 21 , 用于将所述原声音信号经过波形相似叠加法进行时长调整，调整因子取值为 [0.5 , 2.0]; 其中所述波形相似叠加法具体可以为：

根据十二定律分别将升调的倍数区间 [1.0, 2.0]和降调的倍数区间 [0.5 , 1.0] 各划分为 12份, 其中划分得到每份升调的倍数区间的取值是 2 , 而划分得到的每份峰调的倍数区间的取值为 2- ¹¹¹¹。

将原声音信号进行加窗分帧处理，假设窗长即分析信号帧的帧长 Lw, 合成帧的帧长也为 Lw, 在合成阶段需要进行叠加抵消窗效应，重叠相加（ola )长度 Lo为 0.5Lw, 假设合成窗帧移为 La, 则分析窗帧移为 Lb=La/r, r为调整因子，取值为 [0.5 , 2.0]。在原声音信号中，每移动 Lb个长度，取出 Lw个分析信号，然后与分析帧中的信号叠加，分析信号帧长 Lw中的前 Lo个信号与合成信号的后 Lo个釆样点进行叠加，然后将分析信号中剩余的 La个釆样点直接添加到合成信号尾部。在进行重叠相加时，可以直接用对两个信号叠加后除以 2来保证幅度不变，也可以釆用三角窗进行叠加。

实际上，由于语音信号的短时周期性，分析窗帧移需要每次根据信号的特性来移动以保证不破坏语音信号的短时周期性，而避免产生咔咔声。 wsola算法根据波形相似性计算法则，使得叠加的两个信号在叠加时候仍然保持波峰和波峰对齐，而保持信号的短时周期性。因此，分析窗的帧移 Lb实际上是以 Lb为中心点，前后确定 k个釆样值中搜索与合成窗叠加部分最相似的波形，因此分析窗的帧移每次为于区间 [Lb-k, Lb +k]之间。其中可以釆用两种相似度选择方案：归一化相关系数和 AMDF (平均幅度差值函数）法。

重釆样单元 22,用于对经过时长调整的声音信号使用重釆样算法进行放缩 , 使得放缩后的声音信号与原声音信号时长相等。具体的，由于进行了 wsola相似算法之后，得到的声音信号变为原声音信号时长的 r倍，即升调的信号时长变长，峰调的信号时长变短。需要用 resample (重釆样）算法对信号进行放缩，恢复到原来的时长以实现变调不变速。为了方便计算，每次从变调后的信号中取出 La 个长度的信号，然后变为 Lb长度，这样能够满足正好恢复原始长度。具体可以为：先求 La, Lb的最大公约数，化简分数 Lb/La为最简分数 M/N, 对于输入 La长的信号，通过线性插值拉伸为原来的 M倍，即， La*M, 然后每隔 N个取一个，抽取为 La*M/N, 即 Lb长度。至此，变调不变速实现完毕，该变音模块可以通过釆用不同取值的调整因子，对输入的声音信号进行变音得到不同音效的声音信号。

输出单元 30, 用于输出经过所述变音模块变音处理得到的声音信号。具体实现中，当所述时长调整单元 21的调整因子取值为 1.8时，所述变音模块 20变音处理得到的声音信号即输出单元 30输出的声音信号为花栗鼠音效。而当所述时长调整单元 21的调整因子取值为 0.6时，所述变音模块 20变音处理得到声音信号即输出单元 30输出的声音信号为腹音音效。

图 2 为本发明另一实施例中的一种音效变音装置的组成结构示意图，如图所示该音效变音装置包括：

声音信号输入模块 10, 用于接收原声音信号输入；

时长调整单元 21和重釆样单元 22如上文实施例中所述，于此不再赘述，本实施例中的时长调整单元的调整因子取值为 0.8。本实施例中的变音模块还包括混响单元 23 , 用于将经过所述重釆样单元 22放缩后的声音信号经过基于 iir 滤波器系统的混响模型，该混响模型的系统函数为 H(Z) = l/(l - p - Z^N ) , 其中 p为系统衰减系数，取值区间为 [0, 1], 根据经验值， p可以取值为 0.5 , N为延迟釆样点数， N为釆样率和延迟时间 t的乘积，现有应用该混响模型时选用的延迟时间 t的取值一般都小于 50ms, 而本实施例中的 N中延迟时间 t选用回音的延迟时间 [100ms, 300ms]来实现鬼音效果，较优的本实施例中的延迟时间 t取值为 200ms, 由此经过混响单元 23的声音信号为鬼音音效。

输出单元 30, 用于输出经过所述变音模块变音处理得到的声音信号。本实施例中输出单元 30输出的为混响单元 23输出的鬼音音效的声音信号。

图 3 为本发明实施例中一种音效变音方法的流程示意图；如图所示该方法流程包括：

步骤 S10,将原声音信号经过波形相似叠加法进行时长调整，调整因子取值为 [0.5 , 2.0]; 其中所述波形相似叠加法具体可以为：

步骤 S20,对经过时长调整的声音信号使用重釆样算法进行放缩，使得放缩后的声音信号与原声音信号时长相等。具体的，由于进行了 wsola相似算法之后，得到的声音信号变为原声音信号时长的 r倍，即升调的信号时长变长，降调的信号时长变短。需要用 resample (重釆样）算法对信号进行放缩，恢复到原来的时长以实现变调不变速。为了方便计算，每次从变调后的信号中取出 La个长度的信号，然后变为 Lb长度，这样能够满足正好恢复原始长度。具体可以为：先求 La, Lb的最大公约数，化简分数 Lb/La为最简分数 M/N, 对于输入 La长的信号，通过线性插值拉伸为原来的 M倍，即， La*M, 然后每隔 N个取一个，抽取为 La*M/N, 即 Lb长度。至此，变调不变速实现完毕。

当釆用不同取值的调整因子时，通过对输入的原声音信号进行上述两个步骤的变音处理，可以将原声音信号变音成需要的声音信号。例如，当调整因子 r 取值为为 1.8时，经过上述两个步骤处理得到的声音信号即为花栗鼠音效。而当调整因子 r取值为 0.6时 ,经过上述两个步骤处理得到的声音信号即为腹音音效。

图 4为本发明另一实施例中的一种音效变音方法的流程示意图。

步骤 S10和步骤 S20与上一实施例中相同，于此不再赘述。本实施例中的调整因子取值为 0.8。本实施例中的音效变音方法在步骤 S20后还包括：

步骤 S30, 将经过放缩后的声音信号经过基于 iir滤波器系统的混响模型，该混响模型的系统函数为 (Ζ) = ΐ/(1 -ρ ·ζ , 其中 ρ为系统衰减系数， Ν为延迟釆样点数， Ν为釆样率和延迟时间 t的乘积，其中延迟时间 t选用回音的延迟时间 [100ms, 300ms], 较优的本实施例中的延迟时间 t可以取值为 200ms, 由此经过混响模型后得到的声音信号为鬼音音效。

以上所揭露的仅为本发明一种较佳实施例而已，当然不能以此来限定本发明之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本发明权利要求所作的等同变化，仍属于发明所涵盖的范围。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体（Read-Only Memory, ROM)或随机存储记忆体（Random Access Memory, RAM)等。

Claims

权利要求

1. 一种音效变音方法，其特征在于，所述方法包括：

2.0];

2. 如权利要求 1所述的音效变音方法，其特征在于，所述调整因子取值为 1.8时，所述放缩后得到的声音信号为花栗鼠音效。

3. 如权利要求 1所述的音效变音方法，其特征在于，所述调整因子取值为 0.6时，所述放缩后得到的声音信号为腹音音效。

4. 如权利要求 1-3任一项所述的音效变音方法，其特征在于，所述调整因子取值为 0.8时，所述方法还包括：

5. 如权利要求 4所述的音效变音方法，其特征在于，所述混响模型的延迟时间 t为 200ms。

6. 一种音效变音装置，其特征在于，所述音效变音装置包括：

声音信号输入模块，用于接收原声音信号输入；

7. 如权利要求 6所述的音效变音装置，其特征在于，所述时长调整单元的调整因子取值为 1.8时，所述变音模块变音处理得到声音信号为花栗鼠音效。

8. 如权利要求 6所述的音效变音装置，其特征在于，所述时长调整单元的调整因子取值为 0.6时，所述变音模块变音处理得到声音信号为腹音音效。

9. 如权利要求 6-8任一项所述的音效变音装置，其特征在于，所述时长调整单元的调整因子取值为 0.8, 所述变音模块还包括：

混响单元，用于将经过所述重釆样单元放缩后的声音信号经过基于 iir滤波器系统的混响模型，该混响模型的系统函数为 H(Z) = l/(l - p - Z^N ) , 其中 p为系统衰减系数， N为延迟釆样点数， N为釆样率和延迟时间 t的乘积，其中延迟时间 t选用回音的延迟时间 [100ms, 300ms] , 经过此混响系统的声音信号为鬼音音效。

10. 如权利要求 9所述的音效变音装置，其特征在于，所述混响模型的延迟时间 t为 200ms。