WO2018024058A1 - 一种混响时间估计方法及装置 - Google Patents
一种混响时间估计方法及装置 Download PDFInfo
- Publication number
- WO2018024058A1 WO2018024058A1 PCT/CN2017/090887 CN2017090887W WO2018024058A1 WO 2018024058 A1 WO2018024058 A1 WO 2018024058A1 CN 2017090887 W CN2017090887 W CN 2017090887W WO 2018024058 A1 WO2018024058 A1 WO 2018024058A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- reverberation
- autocorrelation function
- speech signal
- parameter
- reverberation time
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01H—MEASUREMENT OF MECHANICAL VIBRATIONS OR ULTRASONIC, SONIC OR INFRASONIC WAVES
- G01H7/00—Measuring reverberation time ; room acoustic measurements
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10K—SOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
- G10K15/00—Acoustics not otherwise provided for
- G10K15/08—Arrangements for producing a reverberation or echo sound
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/09—Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
- G10L21/057—Time compression or expansion for improving intelligibility
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/305—Electronic adaptation of stereophonic audio signals to reverberation of the listening space
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0011—Long term prediction filters, i.e. pitch estimation
Abstract
一种混响时间估计方法及装置,用以解决现有的基于语音模型的混响时间估计方法中,对混响时间小于预设门限的混响语音的混响时间产生过估计的问题。该混响时间估计方法为:在混响环境下获得当前混响语音信号(101);基于历史混响语音信号和当前混响语音信号确定自相关函数(102);根据自相关函数以及预设的极大似然估计模型,确定该当前混响语音信号的混响时间(103)。
Description
本申请要求在2016年8月02日提交中国专利局、申请号为201610626191.1、发明名称为一种混响时间估计方法及装置的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
本发明涉及音频信号处理技术领域,尤其涉及一种混响时间估计方法及装置。
混响时间(表示为RT60)定义为:在特定房屋空间中从声音激励停止时起算,其残余声能经过多次反射后衰减至-60dB(相当于平均声能密度降为原来的10-6)所需要的时间。混响时间是衡量特定房屋空间混响特性的一个重要指标,并且与解混响算法中后期混响(Late-Reverberation)功率的计算估计密切相关。
传统混响时间的估计方法是采用声音激励方法,主要思想为:在声音激励信号停止后测量声能衰减至低于起始观测时能量的60dB所经历的时间。该方法需要冲激特性的语音测试信号,以便在声音停止激励后对声能的测试不受语音拖尾成分的影响。显然,该方法不能满足实时处理应用的要求。
为此,人们探讨并提出用所接收的语音信号进行混响时间盲估计的方法,然而这种方法仅能在已检测出的语音间隙期间来应用,而且还需假设语音的结束时刻没有拖尾且语音中的间隙要足够长,因而也无法在实际中有效应用。
为改进和克服混响时间盲估计的缺陷,相关学者又提出了一种基于语音模型的更为鲁棒(Robust)的混响时间估计方法(以下简称基于语音模型的估计方法),该方法应用线性预测方法来处理所接收的语音信号,并获得该语音信号相应的残差信号,然后用该残差信号的自相关函数代入到混响时间的极大似然估计器(Maximum-Likelihood Estimator,MLE),从而获得该语音信号相应的混响时间估值。工作原理具体如下:
在混响环境下获得语音信号,假设该语音信号不存在噪声干扰,表示为公式1:
x[n]=s[n]*h[n] (公式1)
其中,x[n]表示接收语音信号,s[n]表示源语音信号,h[n]表示房屋冲激响应(Room Impulse Response,RIR),“*”表示线性卷积算子。根据统计声学理论,RIR可以用Polack模型表示为如公式2所示的非平稳随机过程:
h[n]=w[n]an,n>0 (公式2)
其中,公式2中:
a=e-δ (公式3)
其中,fs表示采样频率,w[n]表示零均值的高斯白噪声。
由于s[n]可以看作是激励信号e[n]与声道滤波器v[n]卷积的结果,因此公式1可以表示为公式5所示:
x[n]=e[n]*v[n]*h[n] (公式5)
通过对x[n]进行线性预测(Linear Prediction,LP)分析,获得残差信号,该残差信号可以看作是语音生成模型中激励信号的一种近似。考虑到声道滤波器可以表示成一个时变的全极点滤波器,而RIR通常被认为是全零点滤波器,故可以认为v[n]与h[n]彼此间互不相关,因此通过对x[n]进行LP分析,可以近似地将声道滤波器的效应从混响语音数据中移去,从而获得如公式6所示的残差信号:
残差信号的N点的自相关函数可以表示为公式7所示:
其中,Ce[n]是e[n]的自相关函数,Ch[n]是h[n]的自相关函数。鉴于自相关函数Ce[n]衰减速度比Ch[n]快,可以认为:
其中,k表示Ce[n]的均值。由上式可知残差信号的自相关与RIR的自相关有相同的统计特性,因此可以用残差信号的自相关代入MLE中。在工程实现中我们用时间平均代替统计平均,首先计算每一帧的自相关函数然后每隔L帧计算一次平均自相关函数得到的平均自相关函数作为MLE估计器的输入。
最佳的参数a和k对应于公式10的自然对数极大值点,为此:
尽管基于语音模型的混响时间估计方法不需要检测语音的时隙,并且利用全部的语音数据进行估计,但实际应用发现,该方法通常对混响时间小于预设门限的混响语音的RT60产生过估计。
发明内容
本发明实施例提供一种混响时间估计方法及装置,用以解决现有的基于语音模型的混响时间估计方法中,对混响时间小于预设门限的混响语音的混响时间产生过估计的问题。
本发明实施例提供的具体技术方案如下:
第一方面,本发明实施例提供了一种混响时间估计方法,包括:
在混响环境下获得当前混响语音信号;
基于历史混响语音信号和所述当前混响语音信号确定自相关函数;
根据所述自相关函数以及预设的极大似然估计模型,确定所述当前混响语音信号的混响时间。
可能的实施方式中,基于历史混响语音信号和所述当前混响语音信号确定自相关函数之前,所述方法还包括:
对所述历史混响语音信号和所述当前混响语音信号进行降采样处理。
可能的实施方式中,基于历史混响语音信号和所述当前混响语音信号确定自相关函数,包括:
从所述当前混响语音信号中提取连续的M个混响语音帧,基于历史混响语音信号和所述M个混响语音帧确定自相关函数为:其中,表示所述自相关函数,N表示一个混响语音帧中参与自相关函数计算的采样点的个数,表示所述混响语音帧的残差信号,n表示移位距离,所述混响语音帧对应的残差信号为对所述混响语音帧进行线性预测得到线性预测系数并基于所述线性预测系数对所述混响语音帧进行线性预测滤波后得到,M为大于1的正整数。
可能的实施方式中,根据所述自相关函数以及预设的极大似然估计模型,确定所述当前混响语音信号的混响时间,包括:
若确定混响时间估计过程中提取混响语音帧的总数超过M的L倍,在每获得连续的L个自相关函数后,根据所述连续的L个自相关函数确定平均自相关函数,根据所述平均自相关函数以及所述预设的极大似然估计模型,确定所述当前混响语音信号的混响时间;
若确定混响时间估计过程中提取混响语音帧的总数未超过M的L倍,对本次确定的所述自相关函数进行平滑处理后,根据平滑处理后的自相关函数以及所述预设的极大似然估计模型,确定所述当前混响语音信号的混响时间。
可能的实施方式中,根据所述连续的L个自相关函数确定平均自相关函数,包括:
可能的实施方式中,对本次确定的所述自相关函数进行平滑处理,包括:
可能的实施方式中,根据所述平均自相关函数以及所述预设的极大似然估计模型,确定所述当前混响语音信号的混响时间,包括:
根据所述平均自相关函数以及所述预设的极大似然估计模型中定义的第一约束条件,确定第一参数和第二参数;
根据所述第一参数以及所述预设的极大似然估计模型中定义的第二约束条件,确定所述当前混响语音信号的混响时间的估计值;
根据预设的采用降采样后的混响语音信号帧确定的混响时间的估计值与混响时间的有效值之间的映射关系,确定所述混响语音信号的混响时间的估计值对应的混响时间的有效值;
其中,所述第一约束条件表示为:
其中,N表示一个混响语音帧中参与自相关函数计算的采样点的个数,a表示所述第一参数,k表示所述第二参数,表示所述平均自相关函数,表示对所述第一参数求偏导数,表示对所述第二参数求偏导数,表示所述平均自相关函数所述第一参数以及所述第二参数的似然函数,表示为
可能的实施方式中,根据平滑处理后的自相关函数以及所述预设的极大似然估计模
型,确定所述当前混响语音信号的混响时间,包括:
根据所述平滑处理后的自相关函数以及所述预设的极大似然估计模型中定义的第一约束条件,确定第一参数和第二参数;
根据所述第一参数以及所述预设的极大似然估计模型中定义的第二约束条件,确定所述当前混响语音信号的混响时间的估计值;
根据预设的采用降采样后的混响语音信号帧确定的混响时间的估计值与混响时间的有效值之间的映射关系,确定所述混响语音信号的混响时间的估计值对应的混响时间的有效值;
其中,所述第一约束条件表示为:
其中,N表示一个混响语音帧中参与自相关函数计算的采样点的个数,a表示所述第一参数,k表示所述第二参数,表示平滑处理后的自相关函数,表示对所述第一参数求偏导数,表示对所述第二参数求偏导数,表示所述平滑处理后的自相关函数所述第一参数以及所述第二参数的似然函数,表示为
可能的实施方式中,确定所述混响语音信号的混响时间的估计值对应的混响时间的有效值之后,所述方法还包括:
按照公式对所述混响时间
的有效值进行平滑处理,其中,表示所述混响时间的有效值,表示本次平滑处理后的混响时间,表示上一次平滑处理后的混响时间,α表示第一平滑因子,β表示第二平滑因子,α小于β,α大于零且小于1,β大于零且小于1。
第二方面,本发明实施例提供了一种混响时间估计装置,包括:
第一处理模块,用于在混响环境下获得当前混响语音信号;
第二处理模块,用于基于历史混响语音信号和所述当前混响语音信号确定自相关函数;
第三处理模块,用于根据所述自相关函数以及预设的极大似然估计模型,确定所述当前混响语音信号的混响时间。
可能的实施方式中,所述第二处理模块还用于:
基于历史混响语音信号和所述当前混响语音信号确定自相关函数之前,对所述历史混响语音信号和所述当前混响语音信号进行降采样处理。
可能的实施方式中,所述第二处理模块具体用于:
从所述当前混响语音信号中提取连续的M个混响语音帧,基于历史混响语音信号和所述M个混响语音帧确定自相关函数为:其中,表示所述自相关函数,N表示一个混响语音帧中参与自相关函数计算的采样点的个数,表示所述混响语音帧的残差信号,n表示移位距离,所述混响语音帧对应的残差信号为对所述混响语音帧进行线性预测得到线性预测系数并基于所述线性预测系数对所述混响语音帧进行线性预测滤波后得到,M为大于1的正整数。
可能的实施方式中,所述第三处理模块具体用于:
若确定混响时间估计过程中提取混响语音帧的总数超过M的L倍,在每获得连续的L个自相关函数后,根据所述连续的L个自相关函数确定平均自相关函数,根据所述平均自相关函数以及所述预设的极大似然估计模型,确定所述当前混响语音信号的混响时间;
若确定混响时间估计过程中提取混响语音帧的总数未超过M的L倍,对本次确定的所述自相关函数进行平滑处理后,根据平滑处理后的自相关函数以及所述预设的极大似然估计模型,确定所述当前混响语音信号的混响时间。
可能的实施方式中,所述第三处理模块具体用于:
可能的实施方式中,所述第三处理模块具体用于:
可能的实施方式中,所述第三处理模块具体用于:
根据所述平均自相关函数以及所述预设的极大似然估计模型中定义的第一约束条件,确定第一参数和第二参数;
根据所述第一参数以及所述预设的极大似然估计模型中定义的第二约束条件,确定所述当前混响语音信号的混响时间的估计值;
根据预设的采用降采样后的混响语音信号帧确定的混响时间的估计值与混响时间的有效值之间的映射关系,确定所述混响语音信号的混响时间的估计值对应的混响时间的有效值;
其中,所述第一约束条件表示为:
其中,N表示一个混响语音帧中参与自相关函数计算的采样点的个数,a表示所述第一参数,k表示所述第二参数,表示所述平均自相关函数,表示对所述第一参数求偏导数,表示对所述第二参数求偏导数,表示所述平均自相关函数所述第一参数以及所述第二参数的似然函数,表示为
可能的实施方式中,所述第三处理模块具体用于:
根据所述平滑处理后的自相关函数以及所述预设的极大似然估计模型中定义的第一约束条件,确定第一参数和第二参数;
根据所述第一参数以及所述预设的极大似然估计模型中定义的第二约束条件,确定所述当前混响语音信号的混响时间的估计值;
根据预设的采用降采样后的混响语音信号帧确定的混响时间的估计值与混响时间的有效值之间的映射关系,确定所述混响语音信号的混响时间的估计值对应的混响时间的有效值;
其中,所述第一约束条件表示为:
其中,N表示一个混响语音帧中参与自相关函数计算的采样点的个数,a表示所述第一参数,k表示所述第二参数,表示平滑处理后的自相关函数,表示对所述第一参数求偏导数,表示对所述第二参数求偏导数,表示所述平滑处理后的自相关函数所述第一参数以及所述第二参数的似然函数,表示为
可能的实施方式中,所述第三处理模块具体用于:
确定所述混响语音信号的混响时间的估计值对应的混响时间的有效值之后,按照公式对所述混响时间的有效值进行平滑处理,其中,表示所述混响时间的有效值,表示本次平滑处理后的混响时间,表示上一次平滑处理后的混响时间,α表示第一平滑因子,β表示第二平滑因子,α小于β,α大于零且小于1,β大于零且小于1。
第三方面,本发明实施例提供了一种设备,该设备主要包括处理器和存储器,其中,存储器中保存有预设的程序,处理器用于读取存储器中的程序,按照该程序执行以下过程:
在混响环境下获得当前混响语音信号;
基于历史混响语音信号和所述当前混响语音信号确定自相关函数;
根据所述自相关函数以及预设的极大似然估计模型,确定所述当前混响语音信号的混响时间。
可能的实施方式中,处理器还用于:
在基于历史混响语音信号和所述当前混响语音信号确定自相关函数之前,对所述历史混响语音信号和所述当前混响语音信号进行降采样处理。
可能的实施方式中,基于历史混响语音信号和所述当前混响语音信号确定自相关函数,包括:
从所述当前混响语音信号中提取连续的M个混响语音帧,基于历史混响语音信号和所述M个混响语音帧确定自相关函数为:其中,表示所述自相关函数,N表示一个混响语音帧中参与自相关函数计算的采样点的个数,表示所述混响语音帧的残差信号,n表示移位距离,所述混响语音帧对应的残差信号为对所述混响语音帧进行线性预测得到线性预测系数并基于所述线性预测系数对所述混响语音帧进行线性预测滤波后得到,M为大于1的正整数。
可能的实施方式中,处理器在根据所述自相关函数以及预设的极大似然估计模型,确定所述当前混响语音信号的混响时间时,具体用于:
若确定混响时间估计过程中提取混响语音帧的总数超过M的L倍,在每获得连续的L个自相关函数后,根据所述连续的L个自相关函数确定平均自相关函数,根据所述平均自
相关函数以及所述预设的极大似然估计模型,确定所述当前混响语音信号的混响时间;
若确定混响时间估计过程中提取混响语音帧的总数未超过M的L倍,对本次确定的所述自相关函数进行平滑处理后,根据平滑处理后的自相关函数以及所述预设的极大似然估计模型,确定所述当前混响语音信号的混响时间。
可能的实施方式中,处理器在根据所述连续的L个自相关函数确定平均自相关函数时,具体用于:
可能的实施方式中,处理器对本次确定的所述自相关函数进行平滑处理时,具体用于:
可能的实施方式中,处理器根据所述平均自相关函数以及所述预设的极大似然估计模型,确定所述当前混响语音信号的混响时间时,具体用于:
根据所述平均自相关函数以及所述预设的极大似然估计模型中定义的第一约束条件,确定第一参数和第二参数;
根据所述第一参数以及所述预设的极大似然估计模型中定义的第二约束条件,确定所述当前混响语音信号的混响时间的估计值;
根据预设的采用降采样后的混响语音信号帧确定的混响时间的估计值与混响时间的有效值之间的映射关系,确定所述混响语音信号的混响时间的估计值对应的混响时间的有效值;
其中,所述第一约束条件表示为:
其中,N表示一个混响语音帧中参与自相关函数计算的采样点的个数,a表示所述第一参数,k表示所述第二参数,表示所述平均自相关函数,表示对所述第一参数求偏导数,表示对所述第二参数求偏导数,表示所述平均自相关函数所述第一参数以及所述第二参数的似然函数,表示为
可能的实施方式中,处理器根据平滑处理后的自相关函数以及所述预设的极大似然估计模型,确定所述当前混响语音信号的混响时间时,具体用于:
根据所述平滑处理后的自相关函数以及所述预设的极大似然估计模型中定义的第一约束条件,确定第一参数和第二参数;
根据所述第一参数以及所述预设的极大似然估计模型中定义的第二约束条件,确定所述当前混响语音信号的混响时间的估计值;
根据预设的采用降采样后的混响语音信号帧确定的混响时间的估计值与混响时间的有效值之间的映射关系,确定所述混响语音信号的混响时间的估计值对应的混响时间的有效值;
其中,所述第一约束条件表示为:
其中,N表示一个混响语音帧中参与自相关函数计算的采样点的个数,a表示所述第一参数,k表示所述第二参数,表示平滑处理后的自相关函数,表示对所述第
一参数求偏导数,表示对所述第二参数求偏导数,表示所述平滑处理后的自相关函数所述第一参数以及所述第二参数的似然函数,表示为
可能的实施方式中,处理器还用于:
在确定所述混响语音信号的混响时间的估计值对应的混响时间的有效值之后,按照公式对所述混响时间的有效值进行平滑处理,其中,表示所述混响时间的有效值,表示本次平滑处理后的混响时间,表示上一次平滑处理后的混响时间,α表示第一平滑因子,β表示第二平滑因子,α小于β,α大于零且小于1,β大于零且小于1。
基于以上技术方案,本发明实施例中,基于历史语音信号和当前混响语音信号确定自相关函数,根据该自相关函数以及预设的极大似然估计模型,确定混响语音信号的混响时间,可以进一步提高混响时间的估计精度,解决了现有的基于语音模型的混响时间估计方法中,对混响时间小于预设门限的混响语音的混响时间产生过估计的问题。
图1为本发明实施例中进行混响时间估计的方法流程示意图;
图2为本发明实施例中基于语音模型的混响时间估计过程示意图;
图3为本发明实施例中混响时间估计装置结构示意图;
图4为本发明实施例中设备结构示意图。
为了使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施例作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全
部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
为了解决现有的基于语音模型的混响时间估计方法中,对混响时间小于预设门限的混响语音的混响时间产生过估计的问题,本发明实施例中对现有的基于语音模型的混响时间估计方法进行了改进。
本发明实施例中,将混响时间小于预设门限的混响语音成为小混响语音,例如,将混响时间小于400毫秒的混响语音称为小混响语音。
本发明实施例中,对现有的基于语音模型的混响时间估计方法进行改进后,进行混响时间估计的方法流程如图1所示,具体如下:
步骤101:在混响环境下获得当前混响语音信号。
步骤102:基于历史混响语音信号和所述当前混响语音信号确定自相关函数。
发明人发现,现有的基于语音模型的混响时间估计过程中,在公式13中,计算无偏自相关函数具有局部的窗口效应,为改善和提高自相关函数的计算精度,本发明实施例中提出了基于历史混响语音信号和当前混响时间信号确定自相关函数的方法。
相对公式13提出的无偏的自相关函数的定义,带历史数据的无偏自相关函数定义如下:
首先在帧长为N的数据前填充M长的历史数据,然后根据公式14求取:
具体地,基于历史混响语音信号和所述当前混响语音信号确定自相关函数的过程具体如下:
从所述当前混响语音信号中提取连续的M个混响语音帧,基于历史混响语音信号和所述M个混响语音帧确定自相关函数为:
其中,表示所述自相关函数,N表示一个混响语音帧中参与自相关函数计算的采样点的个数,表示所述混响语音帧的残差信号,n表示移位距离(以样点为单位),所述混响语音帧对应的残差信号为对所述混响语音帧进行线性预测得到线性预测系数并基于所述线性预测系数对所述混响语音帧进行线性预测滤波后得到,M为大于1的正整数。
较佳地,n小于或等于N的二分之一。
步骤103:根据所述自相关函数以及预设的极大似然估计模型,确定所述当前混响语音信号的混响时间。
本发明实施例中,鉴于现有的基于语音模型的混响时间估计方法中,需要对连续多次获得自相关函数进行平均,这就为混响时间的估计造成较大的等待时延,尤其是导致第一次计算得到混响时间的时间延迟太长。
例如,假设一个混响语音帧的时长为20毫秒,一个混响语音帧包含的采样点数为N=320,即混响语音信号的采样频率为16KHz,假设用于计算自相关函数的帧数M=12,用于计算平均自相关函数所需的自相关函数的个数L=20,则计算得到第一个混响时间估计值需要的延迟为:20毫秒×12×20=4.8秒。以应用于去混响应用为例,将直接影响前4.8秒的去混响性能。
为此,本发明实施例中在开始混响时间估计的4.8秒之前,与在开始混响时间估计的4.8之后,采用不同的混响时间估计方式。具体地,在开始混响时间估计的4.8秒之前采用确定混响时间的第二处理方式,在开始混响时间估计的4.8之后采用确定混响时间的第一处理方式。
具体地,根据所述自相关函数以及预设的极大似然估计模型,确定所述当前混响语音信号的混响时间,具体可以分为以下两种处理方式:
第一处理方式,若确定混响时间估计过程中提取混响语音帧的总数超过M的L倍,在每获得连续的L个自相关函数后,根据所述连续的L个自相关函数确定平均自相关函数,根据所述平均自相关函数以及所述预设的极大似然估计模型,确定所述当前混响语音信号的混响时间。
第一处理方式中,根据所述连续的L个自相关函数确定平均自相关函数,具体为:按照公式19确定平均自相关函数,
该第一处理方式中,根据所述平均自相关函数以及所述预设的极大似然估计模型,
确定所述当前混响语音信号的混响时间,具体过程如下:根据所述平均自相关函数以及所述预设的极大似然估计模型中定义的第一约束条件,确定第一参数和第二参数;根据所述第一参数以及所述预设的极大似然估计模型中定义的第二约束条件,确定所述当前混响语音信号的混响时间的估计值;其中,所述第一约束条件表示为:
其中,N表示一个混响语音帧中参与自相关函数计算的采样点的个数,a表示所述第一参数,k表示所述第二参数,表示所述平均自相关函数,表示对所述第一参数求偏导数,表示对所述第二参数求偏导数,表示所述平均自相关函数所述第一参数以及所述第二参数的似然函数,表示为:
其中,所述第二约束条件为:
其中,RT60表示所述当前混响语音信号的混响时间的估计值,fs表示确定所述混响时间采用的混响语音帧的采样率。
该第一处理方式中,每连续获得L个自相关函数后计算平均自相关函数,基于平均自相关函数确定混响时间的估计值,可以在不影响混响时间估计的准确性的情况下,进一步降低运算量。
第二处理方式,若确定混响时间估计过程中提取混响语音帧的总数未超过M的L倍,对本次确定的所述自相关函数进行平滑处理后,根据平滑处理后的自相关函数以及所述预设的极大似然估计模型,确定所述当前混响语音信号的混响时间。
例如,在混响时间估计开始后的4.8秒之前,每240毫秒得到一个自相关函数后就确定一次混响时间,为了避免减少由于自相关函数的波动,采用递归平滑的方式对自相关
函数进行平滑处理。
具体地,该第二处理方式中,对本次确定的所述自相关函数进行平滑处理,具体为:按照公式23对所述混响语音帧的自相关函数进行平滑处理,
该第二处理方式中,根据平滑处理后的自相关函数以及所述预设的极大似然估计模型,确定所述当前混响语音信号的混响时间,具体为:根据所述平滑处理后的自相关函数以及所述预设的极大似然估计模型中定义的第一约束条件,确定第一参数和第二参数;根据所述第一参数以及所述预设的极大似然估计模型中定义的第二约束条件,确定所述当前混响语音信号的混响时间的估计值;其中,所述第一约束条件表示为:
其中,N表示一个混响语音帧中参与自相关函数计算的采样点的个数,a表示所述第一参数,k表示所述第二参数,表示平滑处理后的自相关函数,表示对所述第一参数求偏导数,表示对所述第二参数求偏导数,表示所述平滑处理后的自相关函数所述第一参数以及所述第二参数的似然函数,表示为:
其中,所述第二约束条件为:
其中,RT60表示所述当前混响语音信号的混响时间的估计值,fs表示确定所述混响时间采用的混响语音帧的采样率。
优选地,基于历史混响语音信号和所述当前混响语音信号确定自相关函数之前,对所述历史混响语音信号和所述当前混响语音进行降采样处理,基于降采样后的历史混响语音信号和降采样后的当前混响语音信号确定自相关函数。
鉴于现有的基于语音模型的混响时间估计方法中,假设一帧语音帧包含的采样点数为N,计算自相关的帧数为M,且N×M需要足够大才能够使得语音模型成立,计算自相关的运算量很大。例如,假设N×M=3840,即对应240毫秒内以16KHz的采样速率进行采样获得数据个数,如果只计算N×M/2=1920个自相关值,则计算复杂度为:乘法次数为N×M×N×M/2=7372800,加法次数为(N×M-1)×N×M/2=7370800。
通过降采样可以有效降低计算量,具体地,假设输入的语音信号的采样频率为16KHz,假设将采样频率降为4KHz,则自相关函数的计算运算量将变为原来的1/16,即降采样后的计算复杂度为:乘法次数为7372800/16=460800,加法次数为7370800/16=460680。同时极大似然估计过程的计算复杂度也会降为原来的1/16。
优选地,如果采用降采样后的历史语音信号和降采样后的当前混响语音信号计算自相关函数以及计算混响语音信号的混响时间的估计值,则在采用第一或第二处理方式确定当前混响语音信号的混响时间的估计值之后,根据预设的采用降采样后的混响语音信号帧确定的混响时间的估计值与混响时间的有效值之间的映射关系,确定所述混响语音信号的混响时间的估计值对应的混响时间的有效值。
具体地,采用降采样后的历史语音信号和降采样后的当前混响语音信号计算得到的自相关函数后,将该自相关函数代入极大似然估计模型中得到的为混响时间的估计值。采用未进行降采样处理的历史语音信号和当前混响语音信号计算得到的自相关函数,将该自相关函数代入极大似然估计模型中得到的为混响时间的有效值。混响时间的估计值与混响时间的有效值之间存在映射关系,该映射关系可采用数学映射函数Γ(·)表示为:
优选地,对于第二处理方式,为了减小估计出的混淆时间的有效值的波动性,确定所述混响语音信号的混响时间的估计值对应的混响时间的有效值之后,按照公式25对所
述混响时间的有效值进行平滑处理,
该第二处理方式中对混响时间的有效值进行平滑处理的基本思想是以“快上升慢下降”为准则的,即当瞬时的混响时间的有效值大于上一次平滑处理后的混淆时间时,使用较小的平滑因子α,否则,使用较大的平滑因子β。
具体应用中,在混响时间估计开始后的第一个4.8秒之后,按照第一处理方式,每4.8秒进行一次MLE来更新混响时间的估计值,从而进一步降低运算量,因为同一空间内混响时间是相对固定的。
以下通过一个具体实施例对本发明实施例所提供的基于语音模型的混响时间估计方法进行完整说明。
如图2所示为该具体实施例中基于语音模型的混响时间估计过程示意图,具体过程如下:
步骤201:在初始化过程中配置以下参数:一个语音帧中包含的样点数为N;配置M、L、平滑因子α和β,设置帧计数器Cnt=0,设置计数器m=0,以及设置计数器h=0。
步骤202:读取一个混响语音帧,更新Cnt=Cnt+1以及更新m=m+1。
步骤203:对混响语音帧进行降采样处理。
步骤204:对将采样处理后的混响语音帧进行LPC分析以及LP滤波。
步骤205:判断是否满足m>M,若是,执行步骤206,否则,执行步骤202。
步骤206:按照公式15计算M个混响语音帧的残差信号的自相关函数,并更新m=0,以及更新h=h+1。
步骤207:判断是否满足Cnt>M×L,若不满足,执行步骤208,否则执行步骤209;
步骤208:按照公式20对自相关函数进行平滑处理后,执行步骤211。
步骤209:按照公式16计算连续L个自相关函数的平均自相关函数后,执行步骤210。
步骤210:判断是否满足h>L,若不满足,转去执行步骤202,否则,执行步骤211。
步骤211:计算混响时间,具体为:根据平滑处理后的自相关函数或者平均自相关函
数,采用Newton-Raphson方法求解公式21,得到参数a和k,根据公式23得到混响时间的估计值,根据公式24得到该混响时间的估计值对应的混响时间的有效值,更新h=0。
步骤212:判断是否仍在接收混响语音信号,若是,转去执行步骤202,否则,结束。
基于同一发明构思,本发明实施例中提供了一种混响时间估计装置,该装置的具体实施可参见方法实施例部分的描述,重复之处不再赘述,如图3所示,该装置主要包括:
第一处理模块301,用于在混响环境下获得当前混响语音信号;
第二处理模块302,用于基于历史混响语音信号和所述当前混响语音信号确定自相关函数;
第三处理模块303,用于根据所述自相关函数以及预设的极大似然估计模型,确定所述当前混响语音信号的混响时间。
可能的实施方式中,所述第二处理模块还用于:
基于历史混响语音信号和所述当前混响语音信号确定自相关函数之前,对所述历史混响语音信号和所述当前混响语音信号进行降采样处理。
可能的实施方式中,所述第二处理模块具体用于:
从所述当前混响语音信号中提取连续的M个混响语音帧,基于历史混响语音信号和所述M个混响语音帧确定自相关函数为:其中,表示所述自相关函数,N表示一个混响语音帧中参与自相关函数计算的采样点的个数,表示所述混响语音帧的残差信号,n表示移位距离,所述混响语音帧对应的残差信号为对所述混响语音帧进行线性预测得到线性预测系数并基于所述线性预测系数对所述混响语音帧进行线性预测滤波后得到,M为大于1的正整数。
可能的实施方式中,所述第三处理模块具体用于:
若确定混响时间估计过程中提取混响语音帧的总数超过M的L倍,在每获得连续的L个自相关函数后,根据所述连续的L个自相关函数确定平均自相关函数,根据所述平均自相关函数以及所述预设的极大似然估计模型,确定所述当前混响语音信号的混响时间;
若确定混响时间估计过程中提取混响语音帧的总数未超过M的L倍,对本次确定的所述自相关函数进行平滑处理后,根据平滑处理后的自相关函数以及所述预设的极大似然估计模型,确定所述当前混响语音信号的混响时间。
可能的实施方式中,所述第三处理模块具体用于:
可能的实施方式中,所述第三处理模块具体用于:
可能的实施方式中,所述第三处理模块具体用于:
根据所述平均自相关函数以及所述预设的极大似然估计模型中定义的第一约束条件,确定第一参数和第二参数;
根据所述第一参数以及所述预设的极大似然估计模型中定义的第二约束条件,确定所述当前混响语音信号的混响时间的估计值;
根据预设的采用降采样后的混响语音信号帧确定的混响时间的估计值与混响时间的有效值之间的映射关系,确定所述混响语音信号的混响时间的估计值对应的混响时间的有效值;
其中,所述第一约束条件表示为:
其中,N表示一个混响语音帧中参与自相关函数计算的采样点的个数,a表示所述第一参数,k表示所述第二参数,表示所述平均自相关函数,表示对所述第一参数求偏导数,表示对所述第二参数求偏导数,表示所述平均自相关函数所述第一参数以及所述第二参数的似然函数,表示为
可能的实施方式中,所述第三处理模块具体用于:
根据所述平滑处理后的自相关函数以及所述预设的极大似然估计模型中定义的第一约束条件,确定第一参数和第二参数;
根据所述第一参数以及所述预设的极大似然估计模型中定义的第二约束条件,确定所述当前混响语音信号的混响时间的估计值;
根据预设的采用降采样后的混响语音信号帧确定的混响时间的估计值与混响时间的有效值之间的映射关系,确定所述混响语音信号的混响时间的估计值对应的混响时间的有效值;
其中,所述第一约束条件表示为:
其中,N表示一个混响语音帧中参与自相关函数计算的采样点的个数,a表示所述第一参数,k表示所述第二参数,表示平滑处理后的自相关函数,表示对所述第一参数求偏导数,表示对所述第二参数求偏导数,表示所述平滑处理后的自相关函数所述第一参数以及所述第二参数的似然函数,表示为
可能的实施方式中,所述第三处理模块具体用于:
确定所述混响语音信号的混响时间的估计值对应的混响时间的有效值之后,按照公式对所述混响时间的有效值进行平滑处理,其中,表示所述混响时间的有效值,表示本次平滑处理后的混响时间,表示上一次平滑处理后的混响时间,α表示第一平滑因子,β表示第二平滑因子,α小于β,α大于零且小于1,β大于零且小于1。
基于同一发明构思,本发明实施例还提供了一种设备,该设备的具体实施可参见方法实施例的相关描述,如图4所示,该设备主要包括处理器401和存储器402,其中,存储器402中保存有预设的程序,处理器401用于读取存储器402中的程序,按照该程序执行以下过程:
在混响环境下获得当前混响语音信号;
基于历史混响语音信号和所述当前混响语音信号确定自相关函数;
根据所述自相关函数以及预设的极大似然估计模型,确定所述当前混响语音信号的混响时间。
可能的实施方式中,处理器401还用于:基于历史混响语音信号和所述当前混响语音信号确定自相关函数之前,对所述历史混响语音信号和所述当前混响语音信号进行降采样处理。
可能的实施方式中,处理器401基于历史混响语音信号和所述当前混响语音信号确定自相关函数时,具体用于:从所述当前混响语音信号中提取连续的M个混响语音帧,基于历史混响语音信号和所述M个混响语音帧确定自相关函数为:其中,表示所述自相关函数,N表示一个混响语音帧中参与自相关函数计算的采样点的个数,表示所述混响语音帧的残差信号,n表示移位距离,所述混响语音帧对应的残差信号为对所述混响语音帧进行线性预测得到线性预测系数并基于所述线性预测系数对所述混响语音帧进行线性预测滤波后得到,M为大于1的正整数。
可能的实施方式中,处理器401根据所述自相关函数以及预设的极大似然估计模型,确定所述当前混响语音信号的混响时间时,具体用于:若确定混响时间估计过程中提取混
响语音帧的总数超过M的L倍,在每获得连续的L个自相关函数后,根据所述连续的L个自相关函数确定平均自相关函数,根据所述平均自相关函数以及所述预设的极大似然估计模型,确定所述当前混响语音信号的混响时间;
若确定混响时间估计过程中提取混响语音帧的总数未超过M的L倍,对本次确定的所述自相关函数进行平滑处理后,根据平滑处理后的自相关函数以及所述预设的极大似然估计模型,确定所述当前混响语音信号的混响时间。
可能的实施方式中,处理器401对本次确定的所述自相关函数进行平滑处理时,具体用于:
可能的实施方式中,处理器401根据所述平均自相关函数以及所述预设的极大似然估计模型,确定所述当前混响语音信号的混响时间时,具体用于:
根据所述平均自相关函数以及所述预设的极大似然估计模型中定义的第一约束条件,确定第一参数和第二参数;
根据所述第一参数以及所述预设的极大似然估计模型中定义的第二约束条件,确定所述当前混响语音信号的混响时间的估计值;
根据预设的采用降采样后的混响语音信号帧确定的混响时间的估计值与混响时间的有效值之间的映射关系,确定所述混响语音信号的混响时间的估计值对应的混响时间的有效值;
其中,所述第一约束条件表示为:
其中,N表示一个混响语音帧中参与自相关函数计算的采样点的个数,a表示所述第一参数,k表示所述第二参数,表示所述平均自相关函数,表示对所述第一参数求偏导数,表示对所述第二参数求偏导数,表示所述平均自相关函数所述第一参数以及所述第二参数的似然函数,表示为
可能的实施方式中,处理器401根据平滑处理后的自相关函数以及所述预设的极大似然估计模型,确定所述当前混响语音信号的混响时间时,具体用于:
根据所述平滑处理后的自相关函数以及所述预设的极大似然估计模型中定义的第一约束条件,确定第一参数和第二参数;
根据所述第一参数以及所述预设的极大似然估计模型中定义的第二约束条件,确定所述当前混响语音信号的混响时间的估计值;
根据预设的采用降采样后的混响语音信号帧确定的混响时间的估计值与混响时间的有效值之间的映射关系,确定所述混响语音信号的混响时间的估计值对应的混响时间的有效值;
其中,所述第一约束条件表示为:
其中,N表示一个混响语音帧中参与自相关函数计算的采样点的个数,a表示所述第一参数,k表示所述第二参数,表示平滑处理后的自相关函数,表示对所述第一参数求偏导数,表示对所述第二参数求偏导数,表示所述平滑处理后的自相关函数所述第一参数以及所述第二参数的似然函数,表示为
可能的实施方式中,处理器401还用于:
在确定所述混响语音信号的混响时间的估计值对应的混响时间的有效值之后,按照公式对所述混响时间的有效值进行平滑处理,其中,表示所述混响时间的有效值,表示本次平滑处理后的混响时间,表示上一次平滑处理后的混响时间,α表示第一平滑因子,β表示第二平滑因子,α小于β,α大于零且小于1,β大于零且小于1。
其中,处理器和存储器之间通过总线连接,总线架构可以包括任意数量的互联的总线和桥,具体由处理器代表的一个或多个处理器和存储器代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口提供接口。处理器负责管理总线架构和通常的处理,存储器可以存储处理器在执行操作时所使用的数据。
基于以上技术方案,本发明实施例中,基于历史语音信号和当前混响语音信号确定自相关函数,根据该自相关函数以及预设的极大似然估计模型,确定混响语音信号的混响时间,可以进一步提高混响时间的估计精度,解决了现有的基于语音模型的混响时间估计方
法中,对混响时间小于预设门限的混响语音的混响时间产生过估计的问题。
并且,本发明实施例中,在对历史语音信号以及当前混响语音信号进行降采样处理,基于降采样后的历史语音信号以及降采样后的当前混响语音信号计算自相关函数,可以进一步降低计算复杂度,提高混响时间估计的实时性。
另外,本发明实施例中,在混响时间估计开始的设定时长内,在每次计算得到自相关函数后,根据该自相关函数确定混响时间,从而可以解决现有的基于语音模型的混响时间估计过程中,首次获得混响时间的等待时延长的问题,缩短了工程实现中首次获得混响时间的等待时长,使得更适合实际应用。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (27)
- 一种混响时间估计方法,其特征在于,包括:在混响环境下获得当前混响语音信号;基于历史混响语音信号和所述当前混响语音信号确定自相关函数;根据所述自相关函数以及预设的极大似然估计模型,确定所述当前混响语音信号的混响时间。
- 如权利要求1所述的方法,其特征在于,基于历史混响语音信号和所述当前混响语音信号确定自相关函数之前,所述方法还包括:对所述历史混响语音信号和所述当前混响语音信号进行降采样处理。
- 如权利要求2所述的方法,其特征在于,根据所述自相关函数以及预设的极大似然估计模型,确定所述当前混响语音信号的混响时间,包括:若确定混响时间估计过程中提取混响语音帧的总数超过M的L倍,在每获得连续的L个自相关函数后,根据所述连续的L个自相关函数确定平均自相关函数,根据所述平均自相关函数以及所述预设的极大似然估计模型,确定所述当前混响语音信号的混响时间;若确定混响时间估计过程中提取混响语音帧的总数未超过M的L倍,对本次确定的所述自相关函数进行平滑处理后,根据平滑处理后的自相关函数以及所述预设的极大似然估计模型,确定所述当前混响语音信号的混响时间。
- 如权利要求5所述的方法,其特征在于,根据所述平均自相关函数以及所述预设的极大似然估计模型,确定所述当前混响语音信号的混响时间,包括:根据所述平均自相关函数以及所述预设的极大似然估计模型中定义的第一约束条件,确定第一参数和第二参数;根据所述第一参数以及所述预设的极大似然估计模型中定义的第二约束条件,确定所述当前混响语音信号的混响时间的估计值;根据预设的采用降采样后的混响语音信号帧确定的混响时间的估计值与混响时间的有效值之间的映射关系,确定所述混响语音信号的混响时间的估计值对应的混响时间的有效值;其中,所述第一约束条件表示为:其中,N表示一个混响语音帧中参与自相关函数计算的采样点的个数,a表示所述第一参数,k表示所述第二参数,表示所述平均自相关函数,表示对所述第一参数求偏导数,表示对所述第二参数求偏导数,表示所述平均自相关函数所述第一参数以及所述第二参数的似然函数,表示为
- 如权利要求6所述的方法,其特征在于,根据平滑处理后的自相关函数以及所述预设的极大似然估计模型,确定所述当前混响语音信号的混响时间,包括:根据所述平滑处理后的自相关函数以及所述预设的极大似然估计模型中定义的第一约束条件,确定第一参数和第二参数;根据所述第一参数以及所述预设的极大似然估计模型中定义的第二约束条件,确定所述当前混响语音信号的混响时间的估计值;根据预设的采用降采样后的混响语音信号帧确定的混响时间的估计值与混响时间的有效值之间的映射关系,确定所述混响语音信号的混响时间的估计值对应的混响时间的有效值;其中,所述第一约束条件表示为:其中,N表示一个混响语音帧中参与自相关函数计算的采样点的个数,a表示所述第一参数,k表示所述第二参数,表示平滑处理后的自相关函数,表示对所述第一参数求偏导数,表示对所述第二参数求偏导数,表示所述平滑处理后的自相关函数所述第一参数以及所述第二参数的似然函数,表示为
- 一种混响时间估计装置,其特征在于,包括:第一处理模块,用于在混响环境下获得当前混响语音信号;第二处理模块,用于基于历史混响语音信号和所述当前混响语音信号确定自相关函数;第三处理模块,用于根据所述自相关函数以及预设的极大似然估计模型,确定所述当前混响语音信号的混响时间。
- 如权利要求10所述的装置,其特征在于,所述第二处理模块还用于:基于历史混响语音信号和所述当前混响语音信号确定自相关函数之前,对所述历史混响语音信号和所述当前混响语音信号进行降采样处理。
- 如权利要求11所述的装置,其特征在于,所述第三处理模块具体用于:若确定混响时间估计过程中提取混响语音帧的总数超过M的L倍,在每获得连续的L个自相关函数后,根据所述连续的L个自相关函数确定平均自相关函数,根据所述平均自相关函数以及所述预设的极大似然估计模型,确定所述当前混响语音信号的混响时间;若确定混响时间估计过程中提取混响语音帧的总数未超过M的L倍,对本次确定的所述自相关函数进行平滑处理后,根据平滑处理后的自相关函数以及所述预设的极大似然估计模型,确定所述当前混响语音信号的混响时间。
- 如权利要求14所述的装置,其特征在于,所述第三处理模块具体用于:根据所述平均自相关函数以及所述预设的极大似然估计模型中定义的第一约束条件,确定第一参数和第二参数;根据所述第一参数以及所述预设的极大似然估计模型中定义的第二约束条件,确定所述当前混响语音信号的混响时间的估计值;根据预设的采用降采样后的混响语音信号帧确定的混响时间的估计值与混响时间的有效值之间的映射关系,确定所述混响语音信号的混响时间的估计值对应的混响时间的有效值;其中,所述第一约束条件表示为:其中,N表示一个混响语音帧中参与自相关函数计算的采样点的个数,a表示所述第一参数,k表示所述第二参数,表示所述平均自相关函数,表示对所述第一参数求偏导数,表示对所述第二参数求偏导数,表示所述平均自相关函数 所述第一参数以及所述第二参数的似然函数,表示为
- 如权利要求15所述的装置,其特征在于,所述第三处理模块具体用于:根据所述平滑处理后的自相关函数以及所述预设的极大似然估计模型中定义的第一约束条件,确定第一参数和第二参数;根据所述第一参数以及所述预设的极大似然估计模型中定义的第二约束条件,确定所述当前混响语音信号的混响时间的估计值;根据预设的采用降采样后的混响语音信号帧确定的混响时间的估计值与混响时间的有效值之间的映射关系,确定所述混响语音信号的混响时间的估计值对应的混响时间的有效值;其中,所述第一约束条件表示为:其中,N表示一个混响语音帧中参与自相关函数计算的采样点的个数,a表示所述第一参数,k表示所述第二参数,表示平滑处理后的自相关函数,表示对所述第一参数求偏导数,表示对所述第二参数求偏导数,表示所述平滑处理后的自相关函数所述第一参数以及所述第二参数的似然函数,表示为
- 一种设备,其特征在于,该设备包括处理器和存储器,其中,所述存储器用于存储计算机可读程序,所述处理器用于读取所述存储器中的程序,按照该程序执行以下过程:在混响环境下获得当前混响语音信号;基于历史混响语音信号和所述当前混响语音信号确定自相关函数;根据所述自相关函数以及预设的极大似然估计模型,确定所述当前混响语音信号的混响时间。
- 如权利要求19所述的设备,其特征在于,所述处理器还用于:在基于历史混响语音信号和所述当前混响语音信号确定自相关函数之前,对所述历史混响语音信号和所述当前混响语音信号进行降采样处理。
- 如权利要求20所述的设备,其特征在于,所述处理器根据所述自相关函数以及预设的极大似然估计模型,确定所述当前混响语音信号的混响时间时,具体用于:若确定混响时间估计过程中提取混响语音帧的总数超过M的L倍,在每获得连续的L个自相关函数后,根据所述连续的L个自相关函数确定平均自相关函数,根据所述平均自相关函数以及所述预设的极大似然估计模型,确定所述当前混响语音信号的混响时间;若确定混响时间估计过程中提取混响语音帧的总数未超过M的L倍,对本次确定的所述自相关函数进行平滑处理后,根据平滑处理后的自相关函数以及所述预设的极大似然估计模型,确定所述当前混响语音信号的混响时间。
- 如权利要求23所述的设备,其特征在于,所述处理器根据所述平均自相关函数以及所述预设的极大似然估计模型,确定所述当前混响语音信号的混响时间时,具体用于:根据所述平均自相关函数以及所述预设的极大似然估计模型中定义的第一约束条件,确定第一参数和第二参数;根据所述第一参数以及所述预设的极大似然估计模型中定义的第二约束条件,确定所述当前混响语音信号的混响时间的估计值;根据预设的采用降采样后的混响语音信号帧确定的混响时间的估计值与混响时间的有效值之间的映射关系,确定所述混响语音信号的混响时间的估计值对应的混响时间的有效值;其中,所述第一约束条件表示为:其中,N表示一个混响语音帧中参与自相关函数计算的采样点的个数,a表示所述第一参数,k表示所述第二参数,表示所述平均自相关函数,表示对所述第一参数求偏导数,表示对所述第二参数求偏导数,表示所述平均自相关函数所述第一参数以及所述第二参数的似然函数,表示为
- 如权利要求24所述的设备,其特征在于,所述处理器根据平滑处理后的自相关函数以及所述预设的极大似然估计模型,确定所述当前混响语音信号的混响时间时,具体用于:根据所述平滑处理后的自相关函数以及所述预设的极大似然估计模型中定义的第一约束条件,确定第一参数和第二参数;根据所述第一参数以及所述预设的极大似然估计模型中定义的第二约束条件,确定所述当前混响语音信号的混响时间的估计值;根据预设的采用降采样后的混响语音信号帧确定的混响时间的估计值与混响时间的有效值之间的映射关系,确定所述混响语音信号的混响时间的估计值对应的混响时间的有效值;其中,所述第一约束条件表示为:其中,N表示一个混响语音帧中参与自相关函数计算的采样点的个数,a表示所述第一参数,k表示所述第二参数,表示平滑处理后的自相关函数,表示对所述第一参数求偏导数,表示对所述第二参数求偏导数,表示所述平滑处理后的自相关函数所述第一参数以及所述第二参数的似然函数,表示为
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610626191.1A CN107680603B (zh) | 2016-08-02 | 2016-08-02 | 一种混响时间估计方法及装置 |
CN201610626191.1 | 2016-08-02 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2018024058A1 true WO2018024058A1 (zh) | 2018-02-08 |
Family
ID=61073423
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/CN2017/090887 WO2018024058A1 (zh) | 2016-08-02 | 2017-06-29 | 一种混响时间估计方法及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN107680603B (zh) |
WO (1) | WO2018024058A1 (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109151702B (zh) * | 2018-09-21 | 2021-10-08 | 歌尔科技有限公司 | 音频设备的音效调节方法、音频设备及可读存储介质 |
CN109686380B (zh) * | 2019-02-18 | 2021-06-18 | 广州视源电子科技股份有限公司 | 语音信号的处理方法、装置及电子设备 |
CN111785292B (zh) * | 2020-05-19 | 2023-03-31 | 厦门快商通科技股份有限公司 | 一种基于图像识别的语音混响强度估计方法、装置及存储介质 |
CN113077804B (zh) * | 2021-03-17 | 2024-02-20 | 维沃移动通信有限公司 | 回声消除方法、装置、设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009211021A (ja) * | 2008-03-04 | 2009-09-17 | Japan Advanced Institute Of Science & Technology Hokuriku | 残響時間推定装置及び残響時間推定方法 |
CN105628170A (zh) * | 2014-11-06 | 2016-06-01 | 广州汽车集团股份有限公司 | 一种车内混响时间的测量和计算方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2729024A1 (fr) * | 1994-12-30 | 1996-07-05 | Matra Communication | Annuleur d'echo acoustique avec filtrage en sous-bandes |
US20040213415A1 (en) * | 2003-04-28 | 2004-10-28 | Ratnam Rama | Determining reverberation time |
CN1212609C (zh) * | 2003-11-12 | 2005-07-27 | 中国科学院声学研究所 | 基于人耳听觉特性的语音信号时间延迟估计方法 |
CN103440869B (zh) * | 2013-09-03 | 2017-01-18 | 大连理工大学 | 一种音频混响的抑制装置及其抑制方法 |
-
2016
- 2016-08-02 CN CN201610626191.1A patent/CN107680603B/zh active Active
-
2017
- 2017-06-29 WO PCT/CN2017/090887 patent/WO2018024058A1/zh active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009211021A (ja) * | 2008-03-04 | 2009-09-17 | Japan Advanced Institute Of Science & Technology Hokuriku | 残響時間推定装置及び残響時間推定方法 |
CN105628170A (zh) * | 2014-11-06 | 2016-06-01 | 广州汽车集团股份有限公司 | 一种车内混响时间的测量和计算方法 |
Non-Patent Citations (4)
Title |
---|
JAYASHREE, R. ET AL.: "Accurate Estimation of Reverberation Time and Drr Using Maximum Likelihood Estimator", INTERNATIONAL JOURNAL OF EMERGING TECHNOLOGY AND ADVANCED ENGINEERING, vol. 3, no. 1, 30 January 2013 (2013-01-30), pages 14, XP055461333, ISSN: 2250-2459 * |
KESHAVARZ, A. ET AL.: "Speech-Model Based Accurate Blind Reverberation Time Estimation Using an LPC Filter[J", IEEE TRANSACTIONS ON AUDIO SPEECH AND LANGUAGE PROCESSING, vol. 20, no. 6, 30 August 2012 (2012-08-30), pages 1884 - 1893, XP011442834 * |
MEI, TIEMIN ET AL.: "New Method of Reverberation Time Estimation", JOURNAL OF SHENYANG LIGONG UNIVERSITY, vol. 31, no. 6, 30 December 2012 (2012-12-30), pages 66 - 69, ISSN: 1003-1251 * |
WU, LIFU ET AL.: "An Improved Algorithm for Blind Estimation of Reverberation Time Based on Maximum Likelihood", JOURNAL OF APPLIED ACOUSTICS, vol. 35, no. 4, 30 July 2016 (2016-07-30), pages 288 - 293, XP055072696, ISSN: 1000-310X * |
Also Published As
Publication number | Publication date |
---|---|
CN107680603B (zh) | 2021-08-31 |
CN107680603A (zh) | 2018-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2018024058A1 (zh) | 一种混响时间估计方法及装置 | |
RU2685391C1 (ru) | Способ, устройство и система для подавления шума | |
RU2650617C2 (ru) | Автоматическая обработка ультразвуковых данных | |
Eaton et al. | Noise-robust reverberation time estimation using spectral decay distributions with reduced computational cost | |
US7590526B2 (en) | Method for processing speech signal data and finding a filter coefficient | |
CN109643552A (zh) | 用于可变噪声状况中语音增强的鲁棒噪声估计 | |
CN109801646B (zh) | 一种基于融合特征的语音端点检测方法和装置 | |
CN114298443B (zh) | 基于健康状态指数的工业设备预测性维护方法、装置和电子设备 | |
EP3526792B1 (en) | Voice activity detection method and apparatus | |
Yu et al. | Speech enhancement using a DNN-augmented colored-noise Kalman filter | |
Deng et al. | Online Blind Reverberation Time Estimation Using CRNNs. | |
JP2009210647A (ja) | 雑音除去装置、その方法、そのプログラム及び記録媒体 | |
Christensen | Accurate estimation of low fundamental frequencies from real-valued measurements | |
KR20180067920A (ko) | 화성 성분에 기반한 음성 끝점 검출 장치 및 방법 | |
JP4965891B2 (ja) | 信号処理装置およびその方法 | |
Jaramillo et al. | A study on how pre-whitening influences fundamental frequency estimation | |
JP2007081455A (ja) | 音源位置・受音位置推定方法、その装置、そのプログラム、およびその記録媒体 | |
CN104363554A (zh) | 一种扬声器异常音检测方法 | |
Löllmann et al. | Comparative study of single-channel algorithms for blind reverberation time estimation | |
JP7373358B2 (ja) | 音抽出システム及び音抽出方法 | |
WO2018138543A1 (en) | Probabilistic method for fundamental frequency estimation | |
US8150062B2 (en) | Determination of the adequate measurement window for sound source localization in echoic environments | |
JP2009211021A (ja) | 残響時間推定装置及び残響時間推定方法 | |
JP4755555B2 (ja) | 音声信号区間推定方法、及びその装置とそのプログラムとその記憶媒体 | |
JP2010044150A (ja) | 残響除去装置、残響除去方法、そのプログラムおよび記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 17836240 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 17836240 Country of ref document: EP Kind code of ref document: A1 |