WO2013189199A1 - 一种单通道语音去混响的方法和装置 - Google Patents

一种单通道语音去混响的方法和装置 Download PDF

Info

Publication number
WO2013189199A1
WO2013189199A1 PCT/CN2013/073584 CN2013073584W WO2013189199A1 WO 2013189199 A1 WO2013189199 A1 WO 2013189199A1 CN 2013073584 W CN2013073584 W CN 2013073584W WO 2013189199 A1 WO2013189199 A1 WO 2013189199A1
Authority
WO
WIPO (PCT)
Prior art keywords
current frame
sound
power spectrum
late
power
Prior art date
Application number
PCT/CN2013/073584
Other languages
English (en)
French (fr)
Inventor
楼厦厦
吴晓婕
李波
Original Assignee
歌尔声学股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 歌尔声学股份有限公司 filed Critical 歌尔声学股份有限公司
Priority to KR1020147035393A priority Critical patent/KR101614647B1/ko
Priority to US14/407,610 priority patent/US9269369B2/en
Priority to JP2015516415A priority patent/JP2015519614A/ja
Priority to DK13807732.6T priority patent/DK2863391T3/da
Priority to EP13807732.6A priority patent/EP2863391B1/en
Publication of WO2013189199A1 publication Critical patent/WO2013189199A1/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Telephone Function (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

一种单通道语音去混响的方法和装置,所述方法包括:对输入的单通道语音信号进行分帧,按时间顺序对帧信号进行处理(S100):对当前帧进行短时傅里叶变换,获得当前帧的功率谱和相位谱(S200);选取当前帧之前的、到当前帧的距离在设定的时长范围内的若干帧,将这些帧的功率谱进行线性叠加估计出当前帧的晚期反射声的功率谱(S300);通过谱减法从当前帧的功率谱中去除估计出的当前帧的晚期反射声的功率谱,得到当前帧的直达声和早期反射声的功率谱(S400);将当前帧的直达声和早期反射声的功率谱与当前帧的相位谱一起进行短时傅里叶逆变换,获得当前帧去混响后的信号(S500)。该去混响方法和装置能够解决单通道语音去混响中估计混响环境的传递函数或估计混响时间困难的问题。

Description

本发明涉及语音增强领域, 特别涉及单通道语音去混响的方法和装置。 背景技术 在电话会议, 智能电视网络电话等语音通讯中, 说话人距离麦克风比较 -远, 且通话环境是一个相对封闭的空间, 麦克风端接收的信号容易受到环境混响的 影响。 比如, 在房间内, 语音经过墙面、 地板和家具等多次反射, 麦克风端接 收到的信号是直达声和反射声的混合信号。 这部分反射声就是混响信号。 混响 严重时, 会导致语音不清楚, 影响通话质量。 另外, 混响带来的千扰, 还会导 致声学接收系统性能变差, 语音识别系统性能显著下降等。
早期的去混响方法主要是利用反卷积来进行的。 这类方法需要提前知道准 确的混响环境(房间或办公室等) 的沖激响应或传递函数。 混响环境的冲激响 应可以通过某种特别的方法或装置提前测量得到, 也可以通过其它方法单独估 计得到。 然后利用这个已知的混响环境冲激响应, 估计逆滤波器, 实现对混响 信号的反卷积, 从而实现去混 。 这类方法的问题是, 混响环境的沖激响应往 往很难提前获得, 且求取逆滤波器的过程本身可能引入新的不稳定因素。
另一类去混响方法, 不需要估计混响环境的沖激响应, 因此不需要计算逆 滤波器和进行逆滤波运算, 也被称为盲去混响方法。 这类方法通常基于语音模 型假设, 比如: 混响导致接收的浊音激励脉冲发生变化, 使得周期性变得不那 么明显,从,¾影响语音清晰度。这类方法一般基于 LPC( Linear Prediction Coding, 线性预测编码)模型, 假定产生语音的模型是一个全极点模型, 而混响或其它 加性噪声在整个系统中引入了新的零点, 从而千扰了浊音激凝脉冲, 但并不影 响全极点滤波器。 去混响方法是: 估计信号的 LPC残差, 然后按照基因同步猝发 >(1则 ( pitch— synchronous clustering criterion )或11 更 { K rtosis )
Figure imgf000003_0001
: , 来估计干净的脉冲激励序列, 从而实现去混响。 这类方法的问题是计算复杂度 往往非常高, 且对于混响只影响全零点滤波器的假设, 与实验分析存在不相符 的情况。 利用錯减法去混响是一个较佳的方案, 语音信号包括直达声、 早期反射声 和晚期反射声, 采用谱减法将晚期反射声的功率谱从整个语音的功率谱中除去 能够提高语音质量。 但其中的关键问题在于晚期反射声的谱的估计, 即如何获 得比较准确的晚期反射声的功率谱, 从, ¾在将晚期反射声的成份有效去除的同 时又不损伤语音。 在单通道语音去混响中, 因为只有一路麦克风信息可用, 因 此估计混响环境的传递函数或估计混响时间 (RT60 ) 非常困难。 发明内容 本发明提供的一种单通道语音去混响的方法和装置, 以解决单通道语音去 混响中估计混响环境的传递函数或估计混响时间困难的问¾。
本发明公开了一种单通道语音去混响的方法, 所述方法包括:
对输入的单通道语音信号进.行分幀, 按时间顺序对帧信号进 ^于如下处理: 对当前帧进 ^亍短时傅里叶变换, 获得当前帧的功率谱和相位谱;
选取当前帧之前的、 到当前帧的距离在设置的时长范围内的若千幀, 将这 些帧的功率谱进-行线性叠加估计出当前帧的晚期反射声的功率谱;
通过讲减法从当前帧的功率讲中去除估计出的当前帧的晚期反射声的功率 谱, 得到当前帧的直达声和早期反射声的功率谱;
将当前帧的直达声和早期反射声的功率錯与当前帧的相位谱一起进行短时 傅里叶逆变换, 获得当前帧去混响后的信号。
较佳地, 依据晚期反.射声的衰减特性, 设置所述时长范围的上限值; 依据语音相关特性及直达声和早期反射声在混响环境下的冲击响应分布区 域, 设置所述时长范围的下限值。
较佳地, 所述时长范围的上限值选择在 ()。3秒〜 0.5秒之间的值。
较佳地, 所述时长范围的下限值选择在 50毫秒〜 80毫秒之间的值。
较佳地, 所述将这些幀的功率谱进行线性叠加估计出当前帧的晚期反射声 的功率谱具体包括:
应用自回归 AR模型将这些帧的功率谱中全部成分进行线姓叠加估计出当前 幀的晚期反射声的功率谱;
或^ ¾, 应用滑动平均 MA模型将这些帧的功率借中直达声和早期反射声成分进行 线性叠加估计出当前帧的晚期反.射声的功率谱-; 应用自回归 AR模型将这些帧的功率谱中全部成分进行线性叠加, 并且应用 滑动平均 M A模型将这些帧的功率谱中直达声和早期反射声成分进行线性叠加, 估计出当前幀的晚期反射声的功率谱。
本发明还公开了一种单通道语音去混响的装置, ^述装置包括:
分帧单元, 用于对输入的单通道语音信号进行分帧, 按时间顺序向傅里叶 变换单元输出帧信号;
傅里叶变换单元, 用于对接收的当前帧进行短时傅里叶变换, 获得当前帧 的功率谱和相位谱, 向谱减单元和谱估计单元输出当前幀的功率谱, 向傅里叶 逆变换单元输出相位 ;
传计单元, 用于将当前帧之前的、 到当前帧的距离在设置的时长范围内 的若千帧的功率-潜进行线性叠力^ 估计出当前帧的晚期反射声的功率谱, 向-潜 减单元输出估计的当前帧的晚期反射声的功率 -潜;
谱减单元, 用于通过谱减法从傅里叶变换单元获得的当前帧的功率语中去 除从錯估计单元获得的当前幀的晚期反射声的功率讲, 得到当前帧的直达声和 早期反射声的功率讲, 向傅里叶逆变换单元输出当前帧的直达声和早期反射声 的功率 ;
傅里叶逆变换单元, 用于将从谱减单元获得的当前帧的直达声和早期反射 声的功率谱与从傅里叶变换单元获得的当前幀的相位谱一起进行短时傅里叶逆 变换, 输出当前帧去混响后的信号。
较佳地, 所述谱估计单元具体用于, 依据晚期反射声的衰减特性设置所述 时长范围的上限值; 和 Z或, 依椐语音相关特性及直达声和早期反射声在混响环 境下的冲击响应分布区域设置所述时长范围的下限值。
较佳地, ^述潘估计单元具体用于, 选择时长范围的上限值为 (),3秒〜 0.5秒 之.间的值。
较佳地, 所述潜估计单元具体用于, 选择时长范围的下限值为 50毫秒〜 8()毫 秒之间的俏.。
较佳地, 所述 估计单元具体用于: 对于当前帧之前的、 到当前帧的距离在所述设置的时长范围内的若千帧, 应用自回归 AR模型将这些帧的功率谱中全部成分进行线性叠加估计出当前帧的 晚期反射声的功率谱; 对于当前帧之前的 到当前帧的距离在所述设置的时长范围内的若千帧, 应用滑动平均 MA模型将这些帧的功率谱中直达声和早期反射声成分进行线性 叠加估计出当前幀的晚期反射声的功率谱;
或者,
对于当前帧之前的 到当前帧的距离在所述设置的时长范围内的若千帧, 应用自回归 AR 型将这些帧的功率谱中全部成分进行线性叠加, 并且应用滑动 平均 MA模型将这些帧的功率谱中直达声和早期反射声成分进行线性叠加,估计 出当前帧的晚期反射声的功率谱。
本发明实施例的有益效果是: 通过选取当前帧之前的、 到当前帧的距离在 设置的时长范围内的若千帧, 将这些幀的功率谱进行线性叠加估计出当前帧的 晚期反射声的功率谱, 能够不需估计混响环境的传递函数或混响时间, 便可以 估计出当前帧的晚期反射声的功率谱, 进而利用谱减法进行去混响, 简化了去 依据语音相关特性及直达声和早期反射声在混响环境下的冲击响应分布区 域设置时长范围的下限值, 能够在去除混响的同时更^ "保留有用的直达声和早 依据晚期反射声的衰减特性设置时长范围的上限值, 能够在保证估计的晚 期反射声的功率谱的准确性的同时, 减少叠加运算量;
本发明实施例将上限值选择为 0.3秒〜 (),5秒之间的值, 该上限值为通过实验 获得的门限值, 在混响环境发生变化时, 无需调整该上限值, 都能够获得 4 好 的去混响效果;
本发明实施例将下限值设置在 5()毫秒〜 80毫秒之间, 在混响环境变化时, 无 需改变下限值, 便能够有效避开直达声和早期反射声进行叠加, 使得叠加结果 中基本不包含直达声和早期反射声 , 从而在去混响的同时保留有用的直达声和 早期反射声, 取得较好的话音质量
上述混 环境的变化包括: 从无混响的消声室到混响非常严重的大礼堂 W"围说明 图 i为本发明单通道语音去混响的方法的流程图;
图 2为真实房间的冲激 应的示意图;
图 3为本发明实施效果示意图, 图 3 ( a )为混响信号时域示意图, 图 3 ( b ) 为去混响后的信号的时域示意图, 图 3 ( e ) 为混响信号和去混响信号的能量包 络曲线;
图 4为本发明单通道—语音去混响装置的结构图;
图 5为本发明单通道—语音去混响装置具体实施方式的结构图。
为使本发明的目的 > 技术方案和优点更.加清楚, 下面将结合附图对本发明 实旅方式作进一步地详.细描述- 参见图 1, 为本发明提供的单通道语音去混响的方法的流程图。
步骤. S100, 对输入的单通道语音信号进-行分帧, 按时间顺序对帧信号进-行 如下处理。
步骤 S200, 对当前帧进 短时傅里叶变换, 获得当前帧的功率錯和相位谱。 步骤 S300, 选取当前帧之前的、 到当前幀的距离在设置的时长范围内的若 千帧, 将这些帧的功率谱进 _行线性叠加估计出当前帧的晚期反射声的功率谱。
所述若千帧为一个预设数量的帧, 可以为时长范围内的所有帧或该时长范 围内的一部分帧。
步驟 S400, 通过谱减法从当前帧的功率谱中去除估计的当前帧的晚期反.射 声的功率谱, 得到当前帧的直达声和早期反射声的功率谋。
步驟 S50(), 将当前幀的直达声和早期反射声的功率谱与当前帧的相位谱一 起进行短时傅里叶逆变换, 获得当前幀去混响后的信号。
在混响环境中, 麦克风采集到的信号 ), 即单通道语音信号, 是直达声和 反射声的混合, 可用如下混响模型表示:
x(t) = h * s(t) + n(t)
其中, 是从声源发出的信号, A是从声源位置到麦克风位置两点之间的 房间冲激响应, *表示卷积运算, 表示混响环境内的其它加性噪声。
—个真实房间的沖激响应, 如图 2所示。 可以将它划分为 3个部分, 直达 峰^、 早期反射 和晚期反射 。 和 5(0的卷积可以简单地认为是声源发出 的信号经过一定的延迟后在麦克风端的再现, 对应于 x 中的直达声部分。 早期 反射部分的冲击响应对应于 之后一段时长的部分, 该时长的结東时间点为
50ms至 80ms中的某个时间点。 一般.认为这一部分和 )卷积所产生的早期反射 声对直达声有加强和改善音质的作用。 晚期反射声部分的冲击响应是去除 和 ^后房间冲激响应余下的长长的拖尾部分, 这一部分与信号 )卷积所产生的反 射声, 就是会对听感造成影响的混响成份。 去混响算法主要是去除这一部分的 影响。
因此, 混响模型也可表示为:
x(t) = {he! + he) * s(t) + M * s(j) + n{t) hi部分符合指数衰减模型 , 可用如下方程近似:
3 In 10
hl( ) - h(i)e 7
其中, 是混响环境的混响时间 (RT60 ), )是零均值高斯分布随机变量。 下面详细描述如何进行晚期反射声的功率语估计。
从功率谱分柝角度来看, 信号功率谱 可以表示为: 其中 /)为晚期反射声的功率谱, 而 ^, /)是直达声和早期反射声的功率 谱,应予以保留。估计出晚期反射声的功率谱 后,可以利用谱减法把}^/) 从 /)中估计出来, 从而实现去混响。
根据混响产生模型分折, 晚期反射声的功率谱与在它之前的信号功率谱或 信号功率 中的某些成份成线性关系, 而直达声和早期反射声的功率 由于人 的语音特性, 恰恰和过去的信号功率谱或信号功率讲中的某些成份不构成线性 关系。 因此, 通过对当前帧之前的特定时长的帧的功率錯中成分进行线性叠加, 能够估计出当前帧的晚期反射声的功率谱。 接着, 再通过谱减法将晚期反射声 的功率谱从功率谱中去除掉, 能够实现单通道语音去混响。 较.佳地, 依据晚期反射声的衰减特性设置所述时长范围的上限值。
进行语估计所用的帧越多, 估计越准确, 但是过多的帧造成运算量的增加。 通过图 2和 ^部分的指数衰减模型可知距离当前幀越远的反射声能量越小, 在 某一时刻之后的反射声能量可以被忽略。 因此, 依据晚期反射声的衰减特性获 得该反射声能量可以被忽略的时刻, 设置上限值为该时刻距离当前幀时刻的时 长。 由此, 能够在保证估计的晚期反射声的功率谱的准确性的同时, 减少叠加 运界量。 较佳地, 依椐语音相关特性及直达声和早期反射声在混响环境下的冲击响 应分布区域, 来设置 ^述时长范围的下限值。
通过图 2可知直达声和早期反射声能量集中在距离当前幀较近的时间内。 依据直达声和早期反射声在混响环境下的冲击响应分布区域设置下限值, 使得 在线性叠加时避开直达声和早期反射声能量集中的时间段, 能够在去除混响的 同时更好保留有用的直达声和早期反射声, 提高话音质量。 较佳地, 所述时长范围的下限值选择为 50毫秒〜 80毫秒之间的值。
通过实验发现,在各种环境下, 只要保证下限值取值为 50ms〜 80ms之间的 数值, 就可以有效地绕过直达声和早期.反射声部分, 更好地估计出有效的晚期 反射声的功率谱。 当环境发生变化后, 无需调整下限值设置, 便可获得较好话 音质量。 较佳地, 所述时长范围的上限值选择为在 0.3秒〜 0.5秒之间的值。
理论上, 上限值的设置与应用方法的具体环境相关。 在本发明所涉及的晚 期反射声的功率语估计中, 上限值理论上对应于房间冲激响应的长度, 但结合 混响产生模型以及真实环境的冲激响应 ^部分按指数模型衰减, 距离当前时刻 越远的反射声能量越小, 超过 0.5s后反射声的能量几乎可以忽略不计。 因此, 实际中只需要使用一个粗略的上限值就可以适用于绝大多数混响环境。 经验证, 上限值取在 0.3秒〜 0,5秒之间的值时, 对消声室环境(混响时间 常短)、 一般 办公室环境(混响时间 0,3 ~ 0.5s )、 甚或大礼堂(混响时间 >i s ) 的多种混响环 境都具有艮好的适应性。 在消声室环境下, 几乎没有晚期反射声。 本发明的方 法只估计线性成份, 且绕过了直达声和早期反射声的能量集中时间段, 因此即 便上限值的取值比消声室的混响时间长很多, 但有效的语音成份并不会被去除。 而在大礼堂环境中, 虽然上限值的取值可能小于真实的混 时间, 但由于冲激 响应按指数衰减得非常快, 前 0,3s 内的晚期反射声成份占据了总体晚期反射声 成份的绝大部分能量, 因为也可以把混响很.好地去除。 在一具体实施方式中, 所述将这些帧的功率谱进行线性叠加估计出当前帧 的晚期反.射声的功率谱具体包括:应用自回归 AR模型将这些帧的功率谱中全部 成分进行线姓叠加估计出当前帧的晚期反射声的功率谱。
例如, 按如下公式使用 AR模型估计当前帧的晚期反射声的功率谱:
R , f) -∑ ' X(t j - At, f) 其中, 为估计的晚期反射声的功率谱, 为由设置的时长范围的下限 值得出的起始阶数, ^为由设置的时长范围的上限值得出的 AR模型的阶数, ""为 AR模型估计参数; ^Δί,/)为当前帧之前 j帧的功率谱, 为帧间距。 在一具体实施方式中, 所述将这些帧的功率讲进行线性叠加估计出当前幀 的晚期反射声的功率谱具体包括: 应用滑动平均 MA模型将这些帧的功率谱中 直达声和早期反射声成分进行线性叠加估计出当前帧的晚期反射声的功率谱。
例如, 按如下公式使用 MA模型估计当前幀的晚期反射声的功率谱:
R(i f) - 2 β, f ' Y(t - j ' Δ ·, /) 其中, 为估计的晚期反射声的功率谱, ^为由设置的时长范围的下限 值得出的起始阶数, 为由设置的时长范围的上限值得出的 ΜΑ模型的阶数, β 为 ΜΑ模型估计参数; 。^/)为当前帧之前 j帧的直达声和早期反.射声 的功率谱, 为帧间距。 在一具体实施方式中, 所述将这些帧的功率谱进行线性叠加估计出当前帧 的晚期反射声的功率谱具体包括:应用自回归 AR模型将这些幀的功率谱中全部 成分进行线姓叠加, 并且应用滑动平均 MA模型将这些帧的功率谱中直达声和 早期反射声成分进行线性叠加, 估计出当前帧的晚期反射声的功率潘。
例如, 按如下公式使用 ARMA模型估计当前帧的晚期反射声的功率谱:
R(t, f) - ¾ a f , X(t - j ' At, ./') .+· Y(t― j ' At, f) 其中, 计的晚期反射声的功率谱, ^为由设置的
值得出的起始阶数, J 为由设置的时长范围的上限值得出的 AR模型的阶数, a 为 AR模型估计 -数, 为由设置的上限值得出的 MA模型的阶数, 为 MA模型怙 "ί十参数, Y(t -- j - M )为当前帧之前 j帧的直达声和早期反射声的功 率谱, ίϊ~^'Δί'/)为当前帧之前 j帧的功率讲, 为帧间距。
AR模型、 ΜΑ模型、 ARMA模型的具体求解, 现有技术中存在公知算法, 比如, 利用 Yule- Walker (尤利-沃克)方程求解或 Burg (伯格)算法。
利用讲减法来去混响, 估计晚期反射声的功率谱最为关键。 现有技术中提 到的晚期反射声的功率谱估计往往是上述提出的 AR或 MA或 ARMA模型的某 种特例, 此外, 其它晚期反射声的功率讲估计方法往往需要在语音间歇阶段估 计混响环境的混响时间(RT60 ), 作为晚期反射声的功率谱估计中的一个重要参 数。 在本专利中, 不需要估计混响时间或对各种环境估计冲激响应, 便可以适 应多种不同的混响环境, 以及说话人在混响环境中由于运动等造成的混响冲激 响应或混响时间发生改变的情况。 中, 通
Figure imgf000011_0001
函数;
ή直达声和早期反射声的功率
^ * 功率谱 ^、/)估计完成后, 去除混响的语音信号 可以通 过谱减法得到:
Figure imgf000011_0002
其中, ,/) 为谱-; Gain (增益 ) 函数' n :^果如图 3 所示。 混响信号 (单通道语音信号) 采集自会议 室, 声源和麦克风距离 2m, 混响时间 ( RT60 )约 0,45s。 按本发明中提出的 AR 模型估计晚期反射声的功率谱, 下限值设置为 80ms, 上限值设置为 0,5s。 依图 示可知, 应用本发明方法去混响后, 混响拖尾明显衰减, 语音质量得到显著提 升。 本发明的装置如图 4所示, 单通道―语音去混响的装置包括如下单元。
分帧单元 100, 用于对输入的单通道 _语音信号进行分帧, 按时间顺序向傅里 叶变换单元 200输出幀信号。
傅里叶变换单元 200, 用于对接收的当前帧进行短时傅里叶变换, 获得当前 幀的功率谱和相位谱, 向谱减单元 400和 估计单元 300输出当前帧的功率谱, 向傅里叶逆变换单元 500输出相位谱。
谱估计单元 300, 用于将当前帧之前的、 到当前帧的距离在设置的时长范围 内的若千幀的功率谱进行线姓叠加, 估计出当前帧的晚期反 声的功率谱, 向 谱减单元 400输出估计的当前帧的晚期反射声的功率
减单元 400,用于通过 f减法从傅里叶变换单元 200获得的当前帧的功率 谱中去除从 估计单元 300获得的当前幀的晚期反射声的功率谱, 得到当前顿 的直达声和早期反射声的功率谱, 向傅里叶逆变换单元 500输出当前帧的直达 声和早期反射声的功率语。
傅里叶逆变换单元 500,用于将从傳减单元 400获得的当前帧的直达声和早 期反射声的功率谱与从傅里叶变换单元 200获得的当前幀的相位谱一起进行短 时傅里叶逆变换, 输出当前帧去混响后的信号。
较佳地, 所述讲估计单元 300具体用于, 依据晚期反射声的衰减特性设置 所述时长范围的上限值。
较佳地, 谋估计单元 300 具体用于, 依据语音相关特性及直达声和早期反 射声在混响环境下的沖击响应分布区域设置所述时长范围的下限值。
较佳地, 谱估计单元 300具体用于,选择时长范围的上限值为 0.3秒〜 0.5秒 之.间的值。
较佳地, 潘估计单元 300具体用于, 选择时长范围的下限值为 5()毫秒〜 80 毫秒之间的值。
具体实施方式的装置如图 5所示, 所述 估计单元 300具体用于: 对于当 前帧之前的 到当前帧的距离在设置的时长范围内的若千帧, 应用自回归 AR 模型将这些帧的功率谱中全部成分进行线性叠加估计出当前帧的晚期反射声的 功率谱。 例如, 按如下公式使用 AR模型估计当前帧的晚期反射声的功率借: R(t, f) 二 J αΊ, f ' X(i - j ' At, f)
Figure imgf000013_0001
其中, 为估计的晚期反射声的功率谱, '7。为由设置的下限值得出的起 始级数, 为由设置的上限值得出的 AR模型的阶数, 为 AR模型估计参数; X{t -j - M )为当前帧之前 j帧的功率谱, 为幀间距。
在另一具体实施方式中, 所述錯估计单元 300具体用于: 对于当前帧之前 的 到当前幀的距离在设置的时长范围内的若千帧, 应用滑动平均 MA模型将 这些帧的功率谱中直达声和早期反射声成分进行线性叠加估计出当前帧的晚期 反射声的功率谱-。
例如, 按如下公式使用 MA模型估计当前幀的晚期反射声的功率谱: '/ ) =^ U ( . · 。 Δ"')
==:Jo
其中, 为估计的晚期反射声的功率谱, ^。为由设置的下限^ ί得出的起 始级数, 为由设置的上限值得出的 ΜΑ模型的阶数, /为 ΜΑ模型估计参 数; . ,/)为当前帧之前 j帧的直达声和早期反射声的功率錯, 为帧间距。
在另一具体实施方式中, 所述錯估计单元 300具体用于: 对于当前幀之前 的、到当前帧的距离在设置的时长范围内的若千帧,应用自回归 AR模型将这些 幀的功率谱中全部成分进行线性叠加, 并且应用滑动平均 MA模型将这些帧的 功率谱中直达声和早期反射声成分进行线性叠加, 估计出当前帧的晚期反.射声 的功率请。
例如, 按如下公式使用 ARMA模型估计当前幀的晚期反身声的功率谱: R{t, f) = a i, f ' x^― j ' Δί, ) + β · Y(i― j · At, f)
j ' J
其中, 为估计的晚期反射声的功率讲, 为由设置的下限值得出的起 始级数, 为由设置的上限值得出的 AR模型的阶数, /为 AR模型估计参数, ^"为由设置的上限值得出的 MA模型的阶数, 为 MA 模型估计参数, Y(t ~j - At,f)为当前帧之前 j 帧的直达声和早期反射声的功率谱, X(t -j -M,f)为 当前帧之前 j帧的功率谱, ^为幀间距
AR模型、 ΜΑ模型、 A MA模型的具体求解, 现有技术中存在公知算法, 比如, 利用 Yuie- Walker (尤利-沃克)方程求解或 Burg (伯格) 算法, 所述谱减单元 400具体用于: 依据晚期反射声的功率谱通
益函数, 将增益函数与当前帧的功率谱相乘得当前帧的直达声和早期反射声的 功率 -。
晚期反射声的功率谱 估计完成后, 去除混响的语音信号 ^'/)可以通 过谱减法得到:
Figure imgf000014_0001
Figure imgf000014_0002
以上所述仅为本发明的较佳实施例而已, 并非用于限定本发明的保护范围 凡在本发明的精神和原则之内所作的任何修改、 等同替换、 改进等, 均包含 本发明的保护范围内。

Claims

1、 一种单通道语音去混响的方法, 其特征在于, 所述方法包括: 对输入的单通道语音信号进.行分帧, 按时间顺序对帧信号进.行如下处理: 对当前幀进行短时傅里叶变换, 获得当前帧的功率谱和相位谱;
选取当前帧之前的、 到当前帧的距离在设置的时长范围内的若千帧, 将这 些幀的功率-潜进行线性叠加估计出当前幀的晚期反射声的功率语;
通过语减法从当前帧的功率讲中去除估计出的当前帧的晚期反射声的功率 谱, 得到当前幀的直达声和早期反射声的功率谱;
将当前帧的直达声和早期反射声的功率谱与当前帧的相位錯一起进行短时 傅里叶逆变换, 获得当前帧去混响后的信号。
2、 根据权利要求 1所述的方法, 其特征在于,
依据晚期反射声的衰减特性, 设置所述时长范围的上限值;
和,' '或,
依据语音相关特性及直达声和早期反 声在混响环境下的冲击响应分布区 域, 设置所述时长范围的下限值。
3、 根据权利要求 1所述的方法, 其特征在于,
所述时长范围的上限值选择在 0,3秒〜 0,5秒之间的值。
4、 根据权利要求 1所述的方法, 其特征在于,
所述时长范围的下限值选择在 50毫秒〜 80毫秒之间的值。
5、 根据权利要求 1所述的方法, 其特征在于,
所述将这些顿的功率谱进行线性叠加估计出当前帧的晚期反射声的功率谱 具体包括:
应用自回归 AR模型将这些幀的功率谱中全部成分进 线性叠加估计出当 前幀的晚期反射声的功率谱; 应用滑动平均 MA模型将这些帧的功率谱中直达声和早期反射声成分进行 线性叠加估计出当前帧的晚期反射声的功率谱; 加, 估计出当前帧的晚期反射声的功率谱。
6、 一种单通道.语音去混响的装置, 其特征在于, 所述装置包括:
分幀单元, 用于对输入的单通道—语音信号进行分帧, 按时间顺序向傅里叶 变换单元输出帧信号;
傅里叶变换单元, 用于对接收的当前帧进行短时傅里叶变换, 获得当前帧 的功率谱和相位'谱, 向谱减单元和谱估计单元输出当前帧的功率讲, 向傅里叶 逆变换单元输出相位谱;
谱估计单元, 用于将当前帧之前的、 到当前帧的距离在设置的时长范围内 的若千帧的功率谱进行线性叠加, 估计出当前帧的晚期反射声的功率谱, 向谱 减单元输出估计的当前幀的晚期反射声的功率讲;
谱减单元, 用于通过谱减法从傅里叶变换单元获得的当前帧的功率谱中去 除从讲估计单元获得的当前帧的晚期反射声的功率谱, 得到当前帧的直达声和 早期反射声的功率谱, 向傅里叶逆变换单元输出当前帧的直达声和早期反射声 的功率 -潜;
傅里叶逆变换单元, 用于将从傳减单元获得的当前帧的直达声和早期反射 声的功率谱与从傅里叶变换单元获得的当前帧的相位谱一起进行短时傅里叶 逆变换, 输出当前帧去混响后的信号。
7、 根据权利要求 6所述的装置, 其特征在于,
所述讲估计单元具体用于, 依据晚期反射声的衰减特性设置所述时长范围 的上限值; 和 /或,依据语音相关特性及直达声和早期反射声在混响环境下的沖 击响应分布区域设置所述时长范围的下限值。
8、 根据权刹要求 6所述的装置, 其特征在于,
所述潘估计单元具体用于,选择时长范围的上限值为 0.3秒〜 0,5秒之间的值。
9、 根据权利要求 6所述的装置, 其特征在于,
所述潘估计单元具体用于, 选择时长范围的下限值为 50毫秒〜 8()毫秒之间 的值。
10、 根据权利要求 6所述的装置, 其特征在于,
所述潘估计单元具体用于:
对于当前帧之前的、 到当前帧的距离在所述_设置的时长范围内的若千帧, 应用自回归 AR模型将这些帧的功率谱中全部成分进行线性叠加估计出当前幀 对于当前帧之前的、 到当前帧的距离在所述设置的时长范围内的若千帧, 应用滑动平均 MA模型将这些帧的功率谱中直达声和早期反射声成分进行线性 叠加估计出当前帧的晚期反射声的功率谱;
或者,
对于当前帧之前的 到当前帧的距离在所述设置的时长范围内的若干帧, 应用自回归 AR模型将这些幀的功率谱中全部成分进行线性叠加, 并且应用滑 动平均 MA模型将这些帧的功率谱中直达声和早期反射声成分进行线性叠加, 估计出当前帧的晚期反射声的功率谱。
PCT/CN2013/073584 2012-06-18 2013-04-01 一种单通道语音去混响的方法和装置 WO2013189199A1 (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
KR1020147035393A KR101614647B1 (ko) 2012-06-18 2013-04-01 단일채널 음성의 반향제거를 위한 방법 및 장치
US14/407,610 US9269369B2 (en) 2012-06-18 2013-04-01 Method and device for dereverberation of single-channel speech
JP2015516415A JP2015519614A (ja) 2012-06-18 2013-04-01 シングルチャンネル音声残響除去方法及びその装置
DK13807732.6T DK2863391T3 (da) 2012-06-18 2013-04-01 Fremgangsmåde og indretning til fjernelse af efterklang af enkanal-tale
EP13807732.6A EP2863391B1 (en) 2012-06-18 2013-04-01 Method and device for dereverberation of single-channel speech

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201210201879.7A CN102750956B (zh) 2012-06-18 2012-06-18 一种单通道语音去混响的方法和装置
CN201210201879.7 2012-06-18

Publications (1)

Publication Number Publication Date
WO2013189199A1 true WO2013189199A1 (zh) 2013-12-27

Family

ID=47031075

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2013/073584 WO2013189199A1 (zh) 2012-06-18 2013-04-01 一种单通道语音去混响的方法和装置

Country Status (7)

Country Link
US (1) US9269369B2 (zh)
EP (1) EP2863391B1 (zh)
JP (2) JP2015519614A (zh)
KR (1) KR101614647B1 (zh)
CN (1) CN102750956B (zh)
DK (1) DK2863391T3 (zh)
WO (1) WO2013189199A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016054421A (ja) * 2014-09-03 2016-04-14 リオン株式会社 残響抑制装置
CN111512367A (zh) * 2017-09-21 2020-08-07 弗劳恩霍夫应用研究促进协会 提供处理的降噪且混响降低的音频信号的信号处理器和方法
CN113160842A (zh) * 2021-03-06 2021-07-23 西安电子科技大学 一种基于mclp的语音去混响方法及系统

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102750956B (zh) 2012-06-18 2014-07-16 歌尔声学股份有限公司 一种单通道语音去混响的方法和装置
CN104867497A (zh) * 2014-02-26 2015-08-26 北京信威通信技术股份有限公司 一种语音降噪方法
CN106504763A (zh) * 2015-12-22 2017-03-15 电子科技大学 基于盲源分离与谱减法的麦克风阵列多目标语音增强方法
CN107358962B (zh) * 2017-06-08 2018-09-04 腾讯科技(深圳)有限公司 音频处理方法及音频处理装置
CN109754821B (zh) * 2017-11-07 2023-05-02 北京京东尚科信息技术有限公司 信息处理方法及其系统、计算机系统和计算机可读介质
CN110111802B (zh) * 2018-02-01 2021-04-27 南京大学 基于卡尔曼滤波的自适应去混响方法
US10726857B2 (en) * 2018-02-23 2020-07-28 Cirrus Logic, Inc. Signal processing for speech dereverberation
CN108986799A (zh) * 2018-09-05 2018-12-11 河海大学 一种基于倒谱滤波的混响参数估计方法
CN109584896A (zh) * 2018-11-01 2019-04-05 苏州奇梦者网络科技有限公司 一种语音芯片及电子设备
CN112997249B (zh) * 2018-11-30 2022-06-14 深圳市欢太科技有限公司 语音处理方法、装置、存储介质及电子设备
CN110364161A (zh) 2019-08-22 2019-10-22 北京小米智能科技有限公司 响应语音信号的方法、电子设备、介质及系统
CN111123202B (zh) * 2020-01-06 2022-01-11 北京大学 一种室内早期反射声定位方法及系统
EP3863303B1 (en) * 2020-02-06 2022-11-23 Universität Zürich Estimating a direct-to-reverberant ratio of a sound signal
CN111489760B (zh) * 2020-04-01 2023-05-16 腾讯科技(深圳)有限公司 语音信号去混响处理方法、装置、计算机设备和存储介质
KR102191736B1 (ko) 2020-07-28 2020-12-16 주식회사 수퍼톤 인공신경망을 이용한 음성향상방법 및 장치
CN112599126B (zh) * 2020-12-03 2022-05-27 海信视像科技股份有限公司 一种智能设备的唤醒方法、智能设备及计算设备
CN112863536A (zh) * 2020-12-24 2021-05-28 深圳供电局有限公司 环境噪声提取方法、装置、计算机设备和存储介质
CN113223543B (zh) * 2021-06-10 2023-04-28 北京小米移动软件有限公司 语音增强方法、装置和存储介质
CN113362841B (zh) * 2021-06-10 2023-05-02 北京小米移动软件有限公司 音频信号处理方法、装置和存储介质
CN114333876B (zh) * 2021-11-25 2024-02-09 腾讯科技(深圳)有限公司 信号处理的方法和装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1989550A (zh) * 2004-07-22 2007-06-27 皇家飞利浦电子股份有限公司 音频信号去混响
US20080059157A1 (en) * 2006-09-04 2008-03-06 Takashi Fukuda Method and apparatus for processing speech signal data
US20080292108A1 (en) * 2006-08-01 2008-11-27 Markus Buck Dereverberation system for use in a signal processing apparatus
CN101315772A (zh) * 2008-07-17 2008-12-03 上海交通大学 基于维纳滤波的语音混响消减方法
CN101385386A (zh) * 2006-03-03 2009-03-11 日本电信电话株式会社 混响除去装置、混响除去方法、混响除去程序和记录介质
CN101454825A (zh) * 2006-09-20 2009-06-10 哈曼国际工业有限公司 用于提取和改变输入信号的混响内容的方法和装置
US8160262B2 (en) * 2007-10-31 2012-04-17 Nuance Communications, Inc. Method for dereverberation of an acoustic signal
CN102750956A (zh) * 2012-06-18 2012-10-24 歌尔声学股份有限公司 一种单通道语音去混响的方法和装置

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5029509A (en) * 1989-05-10 1991-07-09 Board Of Trustees Of The Leland Stanford Junior University Musical synthesizer combining deterministic and stochastic waveforms
JPH0739968B2 (ja) * 1991-03-25 1995-05-01 日本電信電話株式会社 音響伝達特性模擬方法
JPH1091194A (ja) * 1996-09-18 1998-04-10 Sony Corp 音声復号化方法及び装置
US6011846A (en) * 1996-12-19 2000-01-04 Nortel Networks Corporation Methods and apparatus for echo suppression
US6261101B1 (en) * 1997-12-17 2001-07-17 Scientific Learning Corp. Method and apparatus for cognitive training of humans using adaptive timing of exercises
US6496795B1 (en) * 1999-05-05 2002-12-17 Microsoft Corporation Modulated complex lapped transform for integrated signal enhancement and coding
US6618712B1 (en) * 1999-05-28 2003-09-09 Sandia Corporation Particle analysis using laser ablation mass spectroscopy
JP2001175298A (ja) * 1999-12-13 2001-06-29 Fujitsu Ltd 騒音抑圧装置
JP2003533753A (ja) * 2000-05-17 2003-11-11 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ スペクトルのモデル化
DE60110086T2 (de) * 2000-07-27 2006-04-06 Activated Content Corp., Inc., Burlingame Stegotextkodierer und -dekodierer
US6862558B2 (en) * 2001-02-14 2005-03-01 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration Empirical mode decomposition for analyzing acoustical signals
ATE539431T1 (de) * 2004-06-08 2012-01-15 Koninkl Philips Electronics Nv Kodierung von tonsignalen mit hall
WO2006040734A1 (en) * 2004-10-13 2006-04-20 Koninklijke Philips Electronics N.V. Echo cancellation
JP4486527B2 (ja) * 2005-03-07 2010-06-23 日本電信電話株式会社 音響信号分析装置およびその方法、プログラム、記録媒体
JP2007065204A (ja) * 2005-08-30 2007-03-15 Nippon Telegr & Teleph Corp <Ntt> 残響除去装置、残響除去方法、残響除去プログラム及びその記録媒体
US7856353B2 (en) * 2007-08-07 2010-12-21 Nuance Communications, Inc. Method for processing speech signal data with reverberation filtering
JP5178370B2 (ja) * 2007-08-09 2013-04-10 本田技研工業株式会社 音源分離システム
US20090154726A1 (en) * 2007-08-22 2009-06-18 Step Labs Inc. System and Method for Noise Activity Detection
JP4532576B2 (ja) * 2008-05-08 2010-08-25 トヨタ自動車株式会社 処理装置、音声認識装置、音声認識システム、音声認識方法、及び音声認識プログラム
JP2009276365A (ja) * 2008-05-12 2009-11-26 Toyota Motor Corp 処理装置、音声認識装置、音声認識システム、音声認識方法
JP4977100B2 (ja) * 2008-08-11 2012-07-18 日本電信電話株式会社 残響除去装置、残響除去方法、そのプログラムおよび記録媒体
JP4960933B2 (ja) * 2008-08-22 2012-06-27 日本電信電話株式会社 音響信号強調装置とその方法と、プログラムと記録媒体
JP5645419B2 (ja) * 2009-08-20 2014-12-24 三菱電機株式会社 残響除去装置
US20120328112A1 (en) * 2010-03-10 2012-12-27 Siemens Medical Instruments Pte. Ltd. Reverberation reduction for signals in a binaural hearing apparatus
EP2600344B1 (en) * 2010-07-26 2015-02-18 Panasonic Corporation Multi-input noise suppresion device, multi-input noise suppression method, program, and integrated circuit
JP5751110B2 (ja) * 2011-09-22 2015-07-22 富士通株式会社 残響抑制装置および残響抑制方法並びに残響抑制プログラム

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1989550A (zh) * 2004-07-22 2007-06-27 皇家飞利浦电子股份有限公司 音频信号去混响
CN101385386A (zh) * 2006-03-03 2009-03-11 日本电信电话株式会社 混响除去装置、混响除去方法、混响除去程序和记录介质
US20080292108A1 (en) * 2006-08-01 2008-11-27 Markus Buck Dereverberation system for use in a signal processing apparatus
US20080059157A1 (en) * 2006-09-04 2008-03-06 Takashi Fukuda Method and apparatus for processing speech signal data
CN101454825A (zh) * 2006-09-20 2009-06-10 哈曼国际工业有限公司 用于提取和改变输入信号的混响内容的方法和装置
US8160262B2 (en) * 2007-10-31 2012-04-17 Nuance Communications, Inc. Method for dereverberation of an acoustic signal
CN101315772A (zh) * 2008-07-17 2008-12-03 上海交通大学 基于维纳滤波的语音混响消减方法
CN102750956A (zh) * 2012-06-18 2012-10-24 歌尔声学股份有限公司 一种单通道语音去混响的方法和装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016054421A (ja) * 2014-09-03 2016-04-14 リオン株式会社 残響抑制装置
CN111512367A (zh) * 2017-09-21 2020-08-07 弗劳恩霍夫应用研究促进协会 提供处理的降噪且混响降低的音频信号的信号处理器和方法
CN111512367B (zh) * 2017-09-21 2023-03-14 弗劳恩霍夫应用研究促进协会 提供处理的降噪且混响降低的音频信号的信号处理器和方法
CN113160842A (zh) * 2021-03-06 2021-07-23 西安电子科技大学 一种基于mclp的语音去混响方法及系统
CN113160842B (zh) * 2021-03-06 2024-04-09 西安电子科技大学 一种基于mclp的语音去混响方法及系统

Also Published As

Publication number Publication date
EP2863391A4 (en) 2015-09-09
EP2863391B1 (en) 2020-05-20
KR20150005719A (ko) 2015-01-14
US20150149160A1 (en) 2015-05-28
CN102750956B (zh) 2014-07-16
CN102750956A (zh) 2012-10-24
EP2863391A1 (en) 2015-04-22
JP6431884B2 (ja) 2018-11-28
JP2015519614A (ja) 2015-07-09
US9269369B2 (en) 2016-02-23
KR101614647B1 (ko) 2016-04-21
DK2863391T3 (da) 2020-08-03
JP2017021385A (ja) 2017-01-26

Similar Documents

Publication Publication Date Title
WO2013189199A1 (zh) 一种单通道语音去混响的方法和装置
US10891931B2 (en) Single-channel, binaural and multi-channel dereverberation
US20140025374A1 (en) Speech enhancement to improve speech intelligibility and automatic speech recognition
US11133019B2 (en) Signal processor and method for providing a processed audio signal reducing noise and reverberation
JP6019969B2 (ja) 音響処理装置
WO2012116934A1 (en) Apparatus and method for determining a measure for a perceived level of reverberation, audio processor and method for processing a signal
Mosayyebpour et al. Single-microphone early and late reverberation suppression in noisy speech
EP3692529B1 (en) An apparatus and a method for signal enhancement
Cherkassky et al. Blind synchronization in wireless sensor networks with application to speech enhancement
US11380312B1 (en) Residual echo suppression for keyword detection
Zhou et al. Speech dereverberation with a reverberation time shortening target
CN109920444B (zh) 回声时延的检测方法、装置以及计算机可读存储介质
CN202887704U (zh) 一种单通道语音去混响装置
CN106340302A (zh) 一种语音数据的去混响方法及装置
CN112837697B (zh) 一种回声抑制方法及装置
US20240079018A1 (en) Adaptive echo cancellation
KR20160149736A (ko) 음성 인식 장치 및 그 동작 방법
JP2015037238A (ja) 残響抑圧装置とその方法と、プログラムとその記録媒体
Islam et al. Statistical modeling for suppression of late reverberation with inverse filtering for early reflections
Mosayyebpour et al. Single-microphone speech enhancement by skewness maximization and spectral subtraction

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13807732

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2015516415

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 14407610

Country of ref document: US

ENP Entry into the national phase

Ref document number: 20147035393

Country of ref document: KR

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 2013807732

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE