WO2018024058A1 - 一种混响时间估计方法及装置 - Google Patents

一种混响时间估计方法及装置 Download PDF

Info

Publication number
WO2018024058A1
WO2018024058A1 PCT/CN2017/090887 CN2017090887W WO2018024058A1 WO 2018024058 A1 WO2018024058 A1 WO 2018024058A1 CN 2017090887 W CN2017090887 W CN 2017090887W WO 2018024058 A1 WO2018024058 A1 WO 2018024058A1
Authority
WO
WIPO (PCT)
Prior art keywords
reverberation
autocorrelation function
speech signal
parameter
reverberation time
Prior art date
Application number
PCT/CN2017/090887
Other languages
English (en)
French (fr)
Inventor
赵亚利
梁民
沙永涛
Original Assignee
电信科学技术研究院
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 电信科学技术研究院 filed Critical 电信科学技术研究院
Publication of WO2018024058A1 publication Critical patent/WO2018024058A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01HMEASUREMENT OF MECHANICAL VIBRATIONS OR ULTRASONIC, SONIC OR INFRASONIC WAVES
    • G01H7/00Measuring reverberation time ; room acoustic measurements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K15/00Acoustics not otherwise provided for
    • G10K15/08Arrangements for producing a reverberation or echo sound
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/057Time compression or expansion for improving intelligibility
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0011Long term prediction filters, i.e. pitch estimation

Abstract

一种混响时间估计方法及装置,用以解决现有的基于语音模型的混响时间估计方法中,对混响时间小于预设门限的混响语音的混响时间产生过估计的问题。该混响时间估计方法为:在混响环境下获得当前混响语音信号(101);基于历史混响语音信号和当前混响语音信号确定自相关函数(102);根据自相关函数以及预设的极大似然估计模型,确定该当前混响语音信号的混响时间(103)。

Description

一种混响时间估计方法及装置
本申请要求在2016年8月02日提交中国专利局、申请号为201610626191.1、发明名称为一种混响时间估计方法及装置的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本发明涉及音频信号处理技术领域,尤其涉及一种混响时间估计方法及装置。
背景技术
混响时间(表示为RT60)定义为:在特定房屋空间中从声音激励停止时起算,其残余声能经过多次反射后衰减至-60dB(相当于平均声能密度降为原来的10-6)所需要的时间。混响时间是衡量特定房屋空间混响特性的一个重要指标,并且与解混响算法中后期混响(Late-Reverberation)功率的计算估计密切相关。
传统混响时间的估计方法是采用声音激励方法,主要思想为:在声音激励信号停止后测量声能衰减至低于起始观测时能量的60dB所经历的时间。该方法需要冲激特性的语音测试信号,以便在声音停止激励后对声能的测试不受语音拖尾成分的影响。显然,该方法不能满足实时处理应用的要求。
为此,人们探讨并提出用所接收的语音信号进行混响时间盲估计的方法,然而这种方法仅能在已检测出的语音间隙期间来应用,而且还需假设语音的结束时刻没有拖尾且语音中的间隙要足够长,因而也无法在实际中有效应用。
为改进和克服混响时间盲估计的缺陷,相关学者又提出了一种基于语音模型的更为鲁棒(Robust)的混响时间估计方法(以下简称基于语音模型的估计方法),该方法应用线性预测方法来处理所接收的语音信号,并获得该语音信号相应的残差信号,然后用该残差信号的自相关函数代入到混响时间的极大似然估计器(Maximum-Likelihood Estimator,MLE),从而获得该语音信号相应的混响时间估值。工作原理具体如下:
在混响环境下获得语音信号,假设该语音信号不存在噪声干扰,表示为公式1:
x[n]=s[n]*h[n]        (公式1)
其中,x[n]表示接收语音信号,s[n]表示源语音信号,h[n]表示房屋冲激响应(Room Impulse Response,RIR),“*”表示线性卷积算子。根据统计声学理论,RIR可以用Polack模型表示为如公式2所示的非平稳随机过程:
h[n]=w[n]an,n>0        (公式2)
其中,公式2中:
a=e         (公式3)
Figure PCTCN2017090887-appb-000001
其中,fs表示采样频率,w[n]表示零均值的高斯白噪声。
由于s[n]可以看作是激励信号e[n]与声道滤波器v[n]卷积的结果,因此公式1可以表示为公式5所示:
x[n]=e[n]*v[n]*h[n]       (公式5)
通过对x[n]进行线性预测(Linear Prediction,LP)分析,获得残差信号,该残差信号可以看作是语音生成模型中激励信号的一种近似。考虑到声道滤波器可以表示成一个时变的全极点滤波器,而RIR通常被认为是全零点滤波器,故可以认为v[n]与h[n]彼此间互不相关,因此通过对x[n]进行LP分析,可以近似地将声道滤波器的效应从混响语音数据中移去,从而获得如公式6所示的残差信号:
Figure PCTCN2017090887-appb-000002
残差信号的N点的自相关函数可以表示为公式7所示:
Figure PCTCN2017090887-appb-000003
其中,Ce[n]是e[n]的自相关函数,Ch[n]是h[n]的自相关函数。鉴于自相关函数Ce[n]衰减速度比Ch[n]快,可以认为:
Figure PCTCN2017090887-appb-000004
其中,k表示Ce[n]的均值。由上式可知残差信号的自相关与RIR的自相关有相同的统计特性,因此可以用残差信号的自相关代入MLE中。在工程实现中我们用时间平均代替统计平均,首先计算每一帧的自相关函数
Figure PCTCN2017090887-appb-000005
然后每隔L帧计算一次平均自相关函数
Figure PCTCN2017090887-appb-000006
得到的平均自相关函数作为MLE估计器的输入。
计算L帧的自相关函数
Figure PCTCN2017090887-appb-000007
的均值,表示为公式9所示:
Figure PCTCN2017090887-appb-000008
基于参数a和k的自相关函数
Figure PCTCN2017090887-appb-000009
的似然函数可表示为公式10:
Figure PCTCN2017090887-appb-000010
最佳的参数a和k对应于公式10的自然对数极大值点,为此:
Figure PCTCN2017090887-appb-000011
Figure PCTCN2017090887-appb-000012
其中,
Figure PCTCN2017090887-appb-000013
表示对参数a求偏导数,
Figure PCTCN2017090887-appb-000014
表示对参数k求偏导数。应用Newton-Raphson方法求解公式11和公式12组成的联立方程式计算出参数a和k,然后根据公式3和公式4得到混响时间的估计值。
基于语音模型的混响时间估计方法的作者们曾建议:在实际应用中,
Figure PCTCN2017090887-appb-000015
对于语音数据采用无偏自相关的计算方法,即表示为公式13所示,其中N为一帧语音帧包含的样点数:
Figure PCTCN2017090887-appb-000016
尽管基于语音模型的混响时间估计方法不需要检测语音的时隙,并且利用全部的语音数据进行估计,但实际应用发现,该方法通常对混响时间小于预设门限的混响语音的RT60产生过估计。
发明内容
本发明实施例提供一种混响时间估计方法及装置,用以解决现有的基于语音模型的混响时间估计方法中,对混响时间小于预设门限的混响语音的混响时间产生过估计的问题。
本发明实施例提供的具体技术方案如下:
第一方面,本发明实施例提供了一种混响时间估计方法,包括:
在混响环境下获得当前混响语音信号;
基于历史混响语音信号和所述当前混响语音信号确定自相关函数;
根据所述自相关函数以及预设的极大似然估计模型,确定所述当前混响语音信号的混响时间。
可能的实施方式中,基于历史混响语音信号和所述当前混响语音信号确定自相关函数之前,所述方法还包括:
对所述历史混响语音信号和所述当前混响语音信号进行降采样处理。
可能的实施方式中,基于历史混响语音信号和所述当前混响语音信号确定自相关函数,包括:
从所述当前混响语音信号中提取连续的M个混响语音帧,基于历史混响语音信号和所述M个混响语音帧确定自相关函数为:
Figure PCTCN2017090887-appb-000017
其中,
Figure PCTCN2017090887-appb-000018
表示所述自相关函数,N表示一个混响语音帧中参与自相关函数计算的采样点的个数,
Figure PCTCN2017090887-appb-000019
表示所述混响语音帧的残差信号,n表示移位距离,所述混响语音帧对应的残差信号为对所述混响语音帧进行线性预测得到线性预测系数并基于所述线性预测系数对所述混响语音帧进行线性预测滤波后得到,M为大于1的正整数。
可能的实施方式中,根据所述自相关函数以及预设的极大似然估计模型,确定所述当前混响语音信号的混响时间,包括:
若确定混响时间估计过程中提取混响语音帧的总数超过M的L倍,在每获得连续的L个自相关函数后,根据所述连续的L个自相关函数确定平均自相关函数,根据所述平均自相关函数以及所述预设的极大似然估计模型,确定所述当前混响语音信号的混响时间;
若确定混响时间估计过程中提取混响语音帧的总数未超过M的L倍,对本次确定的所述自相关函数进行平滑处理后,根据平滑处理后的自相关函数以及所述预设的极大似然估计模型,确定所述当前混响语音信号的混响时间。
可能的实施方式中,根据所述连续的L个自相关函数确定平均自相关函数,包括:
按照公式
Figure PCTCN2017090887-appb-000020
确定平均自相关函数,其中,
Figure PCTCN2017090887-appb-000021
表示连续L次确定的自相关函数中的第l个自相关该函数,
Figure PCTCN2017090887-appb-000022
表示平均自相关函数。
可能的实施方式中,对本次确定的所述自相关函数进行平滑处理,包括:
按照公式
Figure PCTCN2017090887-appb-000023
对所述混响语音帧的自相关函数进行平滑处理,其中,
Figure PCTCN2017090887-appb-000024
表示本次确定的所述自相关函数,
Figure PCTCN2017090887-appb-000025
表示第l次平滑处理后的自 相关函数,
Figure PCTCN2017090887-appb-000026
表示第l-1次平滑处理后的自相关函数,β表示预设的平滑系数,0<β<1。
可能的实施方式中,根据所述平均自相关函数以及所述预设的极大似然估计模型,确定所述当前混响语音信号的混响时间,包括:
根据所述平均自相关函数以及所述预设的极大似然估计模型中定义的第一约束条件,确定第一参数和第二参数;
根据所述第一参数以及所述预设的极大似然估计模型中定义的第二约束条件,确定所述当前混响语音信号的混响时间的估计值;
根据预设的采用降采样后的混响语音信号帧确定的混响时间的估计值与混响时间的有效值之间的映射关系,确定所述混响语音信号的混响时间的估计值对应的混响时间的有效值;
其中,所述第一约束条件表示为:
Figure PCTCN2017090887-appb-000027
其中,N表示一个混响语音帧中参与自相关函数计算的采样点的个数,a表示所述第一参数,k表示所述第二参数,
Figure PCTCN2017090887-appb-000028
表示所述平均自相关函数,
Figure PCTCN2017090887-appb-000029
表示对所述第一参数求偏导数,
Figure PCTCN2017090887-appb-000030
表示对所述第二参数求偏导数,
Figure PCTCN2017090887-appb-000031
表示所述平均自相关函数
Figure PCTCN2017090887-appb-000032
所述第一参数以及所述第二参数的似然函数,表示为
Figure PCTCN2017090887-appb-000033
其中,所述第二约束条件为:
Figure PCTCN2017090887-appb-000034
RT60表示所述当前混响语音信号的混响时间的估计值,fs表示确定所述混响时间采用的混响语音帧的采样率。
可能的实施方式中,根据平滑处理后的自相关函数以及所述预设的极大似然估计模 型,确定所述当前混响语音信号的混响时间,包括:
根据所述平滑处理后的自相关函数以及所述预设的极大似然估计模型中定义的第一约束条件,确定第一参数和第二参数;
根据所述第一参数以及所述预设的极大似然估计模型中定义的第二约束条件,确定所述当前混响语音信号的混响时间的估计值;
根据预设的采用降采样后的混响语音信号帧确定的混响时间的估计值与混响时间的有效值之间的映射关系,确定所述混响语音信号的混响时间的估计值对应的混响时间的有效值;
其中,所述第一约束条件表示为:
Figure PCTCN2017090887-appb-000035
其中,N表示一个混响语音帧中参与自相关函数计算的采样点的个数,a表示所述第一参数,k表示所述第二参数,
Figure PCTCN2017090887-appb-000036
表示平滑处理后的自相关函数,
Figure PCTCN2017090887-appb-000037
表示对所述第一参数求偏导数,
Figure PCTCN2017090887-appb-000038
表示对所述第二参数求偏导数,
Figure PCTCN2017090887-appb-000039
表示所述平滑处理后的自相关函数
Figure PCTCN2017090887-appb-000040
所述第一参数以及所述第二参数的似然函数,表示为
Figure PCTCN2017090887-appb-000041
其中,所述第二约束条件为:
Figure PCTCN2017090887-appb-000042
RT60表示所述当前混响语音信号的混响时间的估计值,fs表示确定所述混响时间采用的混响语音帧的采样率。
可能的实施方式中,确定所述混响语音信号的混响时间的估计值对应的混响时间的有效值之后,所述方法还包括:
按照公式
Figure PCTCN2017090887-appb-000043
对所述混响时间 的有效值进行平滑处理,其中,
Figure PCTCN2017090887-appb-000044
表示所述混响时间的有效值,
Figure PCTCN2017090887-appb-000045
表示本次平滑处理后的混响时间,
Figure PCTCN2017090887-appb-000046
表示上一次平滑处理后的混响时间,α表示第一平滑因子,β表示第二平滑因子,α小于β,α大于零且小于1,β大于零且小于1。
第二方面,本发明实施例提供了一种混响时间估计装置,包括:
第一处理模块,用于在混响环境下获得当前混响语音信号;
第二处理模块,用于基于历史混响语音信号和所述当前混响语音信号确定自相关函数;
第三处理模块,用于根据所述自相关函数以及预设的极大似然估计模型,确定所述当前混响语音信号的混响时间。
可能的实施方式中,所述第二处理模块还用于:
基于历史混响语音信号和所述当前混响语音信号确定自相关函数之前,对所述历史混响语音信号和所述当前混响语音信号进行降采样处理。
可能的实施方式中,所述第二处理模块具体用于:
从所述当前混响语音信号中提取连续的M个混响语音帧,基于历史混响语音信号和所述M个混响语音帧确定自相关函数为:
Figure PCTCN2017090887-appb-000047
其中,
Figure PCTCN2017090887-appb-000048
表示所述自相关函数,N表示一个混响语音帧中参与自相关函数计算的采样点的个数,
Figure PCTCN2017090887-appb-000049
表示所述混响语音帧的残差信号,n表示移位距离,所述混响语音帧对应的残差信号为对所述混响语音帧进行线性预测得到线性预测系数并基于所述线性预测系数对所述混响语音帧进行线性预测滤波后得到,M为大于1的正整数。
可能的实施方式中,所述第三处理模块具体用于:
若确定混响时间估计过程中提取混响语音帧的总数超过M的L倍,在每获得连续的L个自相关函数后,根据所述连续的L个自相关函数确定平均自相关函数,根据所述平均自相关函数以及所述预设的极大似然估计模型,确定所述当前混响语音信号的混响时间;
若确定混响时间估计过程中提取混响语音帧的总数未超过M的L倍,对本次确定的所述自相关函数进行平滑处理后,根据平滑处理后的自相关函数以及所述预设的极大似然估计模型,确定所述当前混响语音信号的混响时间。
可能的实施方式中,所述第三处理模块具体用于:
按照公式
Figure PCTCN2017090887-appb-000050
确定平均自相关函数,其中,
Figure PCTCN2017090887-appb-000051
表示连续L次 确定的自相关函数中的第l个自相关该函数,
Figure PCTCN2017090887-appb-000052
表示平均自相关函数。
可能的实施方式中,所述第三处理模块具体用于:
按照公式
Figure PCTCN2017090887-appb-000053
对所述混响语音帧的自相关函数进行平滑处理,其中,
Figure PCTCN2017090887-appb-000054
表示本次确定的所述自相关函数,
Figure PCTCN2017090887-appb-000055
表示第l次平滑处理后的自相关函数,
Figure PCTCN2017090887-appb-000056
表示第l-1次平滑处理后的自相关函数,β表示预设的平滑系数,0<β<1。
可能的实施方式中,所述第三处理模块具体用于:
根据所述平均自相关函数以及所述预设的极大似然估计模型中定义的第一约束条件,确定第一参数和第二参数;
根据所述第一参数以及所述预设的极大似然估计模型中定义的第二约束条件,确定所述当前混响语音信号的混响时间的估计值;
根据预设的采用降采样后的混响语音信号帧确定的混响时间的估计值与混响时间的有效值之间的映射关系,确定所述混响语音信号的混响时间的估计值对应的混响时间的有效值;
其中,所述第一约束条件表示为:
Figure PCTCN2017090887-appb-000057
其中,N表示一个混响语音帧中参与自相关函数计算的采样点的个数,a表示所述第一参数,k表示所述第二参数,
Figure PCTCN2017090887-appb-000058
表示所述平均自相关函数,
Figure PCTCN2017090887-appb-000059
表示对所述第一参数求偏导数,
Figure PCTCN2017090887-appb-000060
表示对所述第二参数求偏导数,
Figure PCTCN2017090887-appb-000061
表示所述平均自相关函数
Figure PCTCN2017090887-appb-000062
所述第一参数以及所述第二参数的似然函数,表示为
Figure PCTCN2017090887-appb-000063
其中,所述第二约束条件为:
Figure PCTCN2017090887-appb-000064
RT60表示所述当前混响语音信号的混响时间的估计值,fs表示确定所述混响时间采用的混响语音帧的采样率。
可能的实施方式中,所述第三处理模块具体用于:
根据所述平滑处理后的自相关函数以及所述预设的极大似然估计模型中定义的第一约束条件,确定第一参数和第二参数;
根据所述第一参数以及所述预设的极大似然估计模型中定义的第二约束条件,确定所述当前混响语音信号的混响时间的估计值;
根据预设的采用降采样后的混响语音信号帧确定的混响时间的估计值与混响时间的有效值之间的映射关系,确定所述混响语音信号的混响时间的估计值对应的混响时间的有效值;
其中,所述第一约束条件表示为:
Figure PCTCN2017090887-appb-000065
其中,N表示一个混响语音帧中参与自相关函数计算的采样点的个数,a表示所述第一参数,k表示所述第二参数,
Figure PCTCN2017090887-appb-000066
表示平滑处理后的自相关函数,
Figure PCTCN2017090887-appb-000067
表示对所述第一参数求偏导数,
Figure PCTCN2017090887-appb-000068
表示对所述第二参数求偏导数,
Figure PCTCN2017090887-appb-000069
表示所述平滑处理后的自相关函数
Figure PCTCN2017090887-appb-000070
所述第一参数以及所述第二参数的似然函数,表示为
Figure PCTCN2017090887-appb-000071
其中,所述第二约束条件为:
Figure PCTCN2017090887-appb-000072
RT60表示所述当前混响语音信号的混响时间的估计值,fs表示确定所述混响时间采用的混响语音帧的采样率。
可能的实施方式中,所述第三处理模块具体用于:
确定所述混响语音信号的混响时间的估计值对应的混响时间的有效值之后,按照公式
Figure PCTCN2017090887-appb-000073
对所述混响时间的有效值进行平滑处理,其中,
Figure PCTCN2017090887-appb-000074
表示所述混响时间的有效值,
Figure PCTCN2017090887-appb-000075
表示本次平滑处理后的混响时间,
Figure PCTCN2017090887-appb-000076
表示上一次平滑处理后的混响时间,α表示第一平滑因子,β表示第二平滑因子,α小于β,α大于零且小于1,β大于零且小于1。
第三方面,本发明实施例提供了一种设备,该设备主要包括处理器和存储器,其中,存储器中保存有预设的程序,处理器用于读取存储器中的程序,按照该程序执行以下过程:
在混响环境下获得当前混响语音信号;
基于历史混响语音信号和所述当前混响语音信号确定自相关函数;
根据所述自相关函数以及预设的极大似然估计模型,确定所述当前混响语音信号的混响时间。
可能的实施方式中,处理器还用于:
在基于历史混响语音信号和所述当前混响语音信号确定自相关函数之前,对所述历史混响语音信号和所述当前混响语音信号进行降采样处理。
可能的实施方式中,基于历史混响语音信号和所述当前混响语音信号确定自相关函数,包括:
从所述当前混响语音信号中提取连续的M个混响语音帧,基于历史混响语音信号和所述M个混响语音帧确定自相关函数为:
Figure PCTCN2017090887-appb-000077
其中,
Figure PCTCN2017090887-appb-000078
表示所述自相关函数,N表示一个混响语音帧中参与自相关函数计算的采样点的个数,
Figure PCTCN2017090887-appb-000079
表示所述混响语音帧的残差信号,n表示移位距离,所述混响语音帧对应的残差信号为对所述混响语音帧进行线性预测得到线性预测系数并基于所述线性预测系数对所述混响语音帧进行线性预测滤波后得到,M为大于1的正整数。
可能的实施方式中,处理器在根据所述自相关函数以及预设的极大似然估计模型,确定所述当前混响语音信号的混响时间时,具体用于:
若确定混响时间估计过程中提取混响语音帧的总数超过M的L倍,在每获得连续的L个自相关函数后,根据所述连续的L个自相关函数确定平均自相关函数,根据所述平均自 相关函数以及所述预设的极大似然估计模型,确定所述当前混响语音信号的混响时间;
若确定混响时间估计过程中提取混响语音帧的总数未超过M的L倍,对本次确定的所述自相关函数进行平滑处理后,根据平滑处理后的自相关函数以及所述预设的极大似然估计模型,确定所述当前混响语音信号的混响时间。
可能的实施方式中,处理器在根据所述连续的L个自相关函数确定平均自相关函数时,具体用于:
按照公式
Figure PCTCN2017090887-appb-000080
确定平均自相关函数,其中,
Figure PCTCN2017090887-appb-000081
表示连续L次确定的自相关函数中的第l个自相关该函数,
Figure PCTCN2017090887-appb-000082
表示平均自相关函数。
可能的实施方式中,处理器对本次确定的所述自相关函数进行平滑处理时,具体用于:
按照公式
Figure PCTCN2017090887-appb-000083
对所述混响语音帧的自相关函数进行平滑处理,其中,
Figure PCTCN2017090887-appb-000084
表示本次确定的所述自相关函数,
Figure PCTCN2017090887-appb-000085
表示第l次平滑处理后的自相关函数,
Figure PCTCN2017090887-appb-000086
表示第l-1次平滑处理后的自相关函数,β表示预设的平滑系数,0<β<1。
可能的实施方式中,处理器根据所述平均自相关函数以及所述预设的极大似然估计模型,确定所述当前混响语音信号的混响时间时,具体用于:
根据所述平均自相关函数以及所述预设的极大似然估计模型中定义的第一约束条件,确定第一参数和第二参数;
根据所述第一参数以及所述预设的极大似然估计模型中定义的第二约束条件,确定所述当前混响语音信号的混响时间的估计值;
根据预设的采用降采样后的混响语音信号帧确定的混响时间的估计值与混响时间的有效值之间的映射关系,确定所述混响语音信号的混响时间的估计值对应的混响时间的有效值;
其中,所述第一约束条件表示为:
Figure PCTCN2017090887-appb-000087
其中,N表示一个混响语音帧中参与自相关函数计算的采样点的个数,a表示所述第一参数,k表示所述第二参数,
Figure PCTCN2017090887-appb-000088
表示所述平均自相关函数,
Figure PCTCN2017090887-appb-000089
表示对所述第一参数求偏导数,
Figure PCTCN2017090887-appb-000090
表示对所述第二参数求偏导数,
Figure PCTCN2017090887-appb-000091
表示所述平均自相关函数
Figure PCTCN2017090887-appb-000092
所述第一参数以及所述第二参数的似然函数,表示为
Figure PCTCN2017090887-appb-000093
其中,所述第二约束条件为:
Figure PCTCN2017090887-appb-000094
RT60表示所述当前混响语音信号的混响时间的估计值,fs表示确定所述混响时间采用的混响语音帧的采样率。
可能的实施方式中,处理器根据平滑处理后的自相关函数以及所述预设的极大似然估计模型,确定所述当前混响语音信号的混响时间时,具体用于:
根据所述平滑处理后的自相关函数以及所述预设的极大似然估计模型中定义的第一约束条件,确定第一参数和第二参数;
根据所述第一参数以及所述预设的极大似然估计模型中定义的第二约束条件,确定所述当前混响语音信号的混响时间的估计值;
根据预设的采用降采样后的混响语音信号帧确定的混响时间的估计值与混响时间的有效值之间的映射关系,确定所述混响语音信号的混响时间的估计值对应的混响时间的有效值;
其中,所述第一约束条件表示为:
Figure PCTCN2017090887-appb-000095
其中,N表示一个混响语音帧中参与自相关函数计算的采样点的个数,a表示所述第一参数,k表示所述第二参数,
Figure PCTCN2017090887-appb-000096
表示平滑处理后的自相关函数,
Figure PCTCN2017090887-appb-000097
表示对所述第 一参数求偏导数,
Figure PCTCN2017090887-appb-000098
表示对所述第二参数求偏导数,
Figure PCTCN2017090887-appb-000099
表示所述平滑处理后的自相关函数
Figure PCTCN2017090887-appb-000100
所述第一参数以及所述第二参数的似然函数,表示为
Figure PCTCN2017090887-appb-000101
其中,所述第二约束条件为:
Figure PCTCN2017090887-appb-000102
RT60表示所述当前混响语音信号的混响时间的估计值,fs表示确定所述混响时间采用的混响语音帧的采样率。
可能的实施方式中,处理器还用于:
在确定所述混响语音信号的混响时间的估计值对应的混响时间的有效值之后,按照公式
Figure PCTCN2017090887-appb-000103
对所述混响时间的有效值进行平滑处理,其中,
Figure PCTCN2017090887-appb-000104
表示所述混响时间的有效值,
Figure PCTCN2017090887-appb-000105
表示本次平滑处理后的混响时间,
Figure PCTCN2017090887-appb-000106
表示上一次平滑处理后的混响时间,α表示第一平滑因子,β表示第二平滑因子,α小于β,α大于零且小于1,β大于零且小于1。
基于以上技术方案,本发明实施例中,基于历史语音信号和当前混响语音信号确定自相关函数,根据该自相关函数以及预设的极大似然估计模型,确定混响语音信号的混响时间,可以进一步提高混响时间的估计精度,解决了现有的基于语音模型的混响时间估计方法中,对混响时间小于预设门限的混响语音的混响时间产生过估计的问题。
附图说明
图1为本发明实施例中进行混响时间估计的方法流程示意图;
图2为本发明实施例中基于语音模型的混响时间估计过程示意图;
图3为本发明实施例中混响时间估计装置结构示意图;
图4为本发明实施例中设备结构示意图。
具体实施方式
为了使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施例作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全 部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
为了解决现有的基于语音模型的混响时间估计方法中,对混响时间小于预设门限的混响语音的混响时间产生过估计的问题,本发明实施例中对现有的基于语音模型的混响时间估计方法进行了改进。
本发明实施例中,将混响时间小于预设门限的混响语音成为小混响语音,例如,将混响时间小于400毫秒的混响语音称为小混响语音。
本发明实施例中,对现有的基于语音模型的混响时间估计方法进行改进后,进行混响时间估计的方法流程如图1所示,具体如下:
步骤101:在混响环境下获得当前混响语音信号。
步骤102:基于历史混响语音信号和所述当前混响语音信号确定自相关函数。
发明人发现,现有的基于语音模型的混响时间估计过程中,在公式13中,计算无偏自相关函数具有局部的窗口效应,为改善和提高自相关函数的计算精度,本发明实施例中提出了基于历史混响语音信号和当前混响时间信号确定自相关函数的方法。
相对公式13提出的无偏的自相关函数的定义,带历史数据的无偏自相关函数定义如下:
首先在帧长为N的数据前填充M长的历史数据,然后根据公式14求取:
Figure PCTCN2017090887-appb-000107
具体地,基于历史混响语音信号和所述当前混响语音信号确定自相关函数的过程具体如下:
从所述当前混响语音信号中提取连续的M个混响语音帧,基于历史混响语音信号和所述M个混响语音帧确定自相关函数为:
Figure PCTCN2017090887-appb-000108
其中,
Figure PCTCN2017090887-appb-000109
表示所述自相关函数,N表示一个混响语音帧中参与自相关函数计算的采样点的个数,
Figure PCTCN2017090887-appb-000110
表示所述混响语音帧的残差信号,n表示移位距离(以样点为单位),所述混响语音帧对应的残差信号为对所述混响语音帧进行线性预测得到线性预测系数并基于所述线性预测系数对所述混响语音帧进行线性预测滤波后得到,M为大于1的正整数。
较佳地,n小于或等于N的二分之一。
根据实际应用中测试的结果可知,采用
Figure PCTCN2017090887-appb-000111
代替
Figure PCTCN2017090887-appb-000112
代入到公式11、公式12、公式3和公式4中,得到的RT60比现有的基于语音模型的估计方法更为准确,尤其是可以解决对小混响语音的过估计的问题。
步骤103:根据所述自相关函数以及预设的极大似然估计模型,确定所述当前混响语音信号的混响时间。
本发明实施例中,鉴于现有的基于语音模型的混响时间估计方法中,需要对连续多次获得自相关函数进行平均,这就为混响时间的估计造成较大的等待时延,尤其是导致第一次计算得到混响时间的时间延迟太长。
例如,假设一个混响语音帧的时长为20毫秒,一个混响语音帧包含的采样点数为N=320,即混响语音信号的采样频率为16KHz,假设用于计算自相关函数的帧数M=12,用于计算平均自相关函数所需的自相关函数的个数L=20,则计算得到第一个混响时间估计值需要的延迟为:20毫秒×12×20=4.8秒。以应用于去混响应用为例,将直接影响前4.8秒的去混响性能。
为此,本发明实施例中在开始混响时间估计的4.8秒之前,与在开始混响时间估计的4.8之后,采用不同的混响时间估计方式。具体地,在开始混响时间估计的4.8秒之前采用确定混响时间的第二处理方式,在开始混响时间估计的4.8之后采用确定混响时间的第一处理方式。
具体地,根据所述自相关函数以及预设的极大似然估计模型,确定所述当前混响语音信号的混响时间,具体可以分为以下两种处理方式:
第一处理方式,若确定混响时间估计过程中提取混响语音帧的总数超过M的L倍,在每获得连续的L个自相关函数后,根据所述连续的L个自相关函数确定平均自相关函数,根据所述平均自相关函数以及所述预设的极大似然估计模型,确定所述当前混响语音信号的混响时间。
第一处理方式中,根据所述连续的L个自相关函数确定平均自相关函数,具体为:按照公式19确定平均自相关函数,
Figure PCTCN2017090887-appb-000113
其中,
Figure PCTCN2017090887-appb-000114
表示连续L次确定的自相关函数中的第l个自相关该函数,
Figure PCTCN2017090887-appb-000115
表示平均自相关函数。
该第一处理方式中,根据所述平均自相关函数以及所述预设的极大似然估计模型, 确定所述当前混响语音信号的混响时间,具体过程如下:根据所述平均自相关函数以及所述预设的极大似然估计模型中定义的第一约束条件,确定第一参数和第二参数;根据所述第一参数以及所述预设的极大似然估计模型中定义的第二约束条件,确定所述当前混响语音信号的混响时间的估计值;其中,所述第一约束条件表示为:
Figure PCTCN2017090887-appb-000116
其中,N表示一个混响语音帧中参与自相关函数计算的采样点的个数,a表示所述第一参数,k表示所述第二参数,
Figure PCTCN2017090887-appb-000117
表示所述平均自相关函数,
Figure PCTCN2017090887-appb-000118
表示对所述第一参数求偏导数,
Figure PCTCN2017090887-appb-000119
表示对所述第二参数求偏导数,
Figure PCTCN2017090887-appb-000120
表示所述平均自相关函数
Figure PCTCN2017090887-appb-000121
所述第一参数以及所述第二参数的似然函数,表示为:
Figure PCTCN2017090887-appb-000122
其中,所述第二约束条件为:
Figure PCTCN2017090887-appb-000123
其中,RT60表示所述当前混响语音信号的混响时间的估计值,fs表示确定所述混响时间采用的混响语音帧的采样率。
该第一处理方式中,每连续获得L个自相关函数后计算平均自相关函数,基于平均自相关函数确定混响时间的估计值,可以在不影响混响时间估计的准确性的情况下,进一步降低运算量。
第二处理方式,若确定混响时间估计过程中提取混响语音帧的总数未超过M的L倍,对本次确定的所述自相关函数进行平滑处理后,根据平滑处理后的自相关函数以及所述预设的极大似然估计模型,确定所述当前混响语音信号的混响时间。
例如,在混响时间估计开始后的4.8秒之前,每240毫秒得到一个自相关函数后就确定一次混响时间,为了避免减少由于自相关函数的波动,采用递归平滑的方式对自相关 函数进行平滑处理。
具体地,该第二处理方式中,对本次确定的所述自相关函数进行平滑处理,具体为:按照公式23对所述混响语音帧的自相关函数进行平滑处理,
Figure PCTCN2017090887-appb-000124
其中,
Figure PCTCN2017090887-appb-000125
表示本次确定的所述自相关函数,
Figure PCTCN2017090887-appb-000126
表示第l次平滑处理后的自相关函数,
Figure PCTCN2017090887-appb-000127
表示第l-1次平滑处理后的自相关函数,β表示预设的平滑系数,0<β<1。
该第二处理方式中,根据平滑处理后的自相关函数以及所述预设的极大似然估计模型,确定所述当前混响语音信号的混响时间,具体为:根据所述平滑处理后的自相关函数以及所述预设的极大似然估计模型中定义的第一约束条件,确定第一参数和第二参数;根据所述第一参数以及所述预设的极大似然估计模型中定义的第二约束条件,确定所述当前混响语音信号的混响时间的估计值;其中,所述第一约束条件表示为:
Figure PCTCN2017090887-appb-000128
其中,N表示一个混响语音帧中参与自相关函数计算的采样点的个数,a表示所述第一参数,k表示所述第二参数,
Figure PCTCN2017090887-appb-000129
表示平滑处理后的自相关函数,
Figure PCTCN2017090887-appb-000130
表示对所述第一参数求偏导数,
Figure PCTCN2017090887-appb-000131
表示对所述第二参数求偏导数,
Figure PCTCN2017090887-appb-000132
表示所述平滑处理后的自相关函数
Figure PCTCN2017090887-appb-000133
所述第一参数以及所述第二参数的似然函数,表示为:
Figure PCTCN2017090887-appb-000134
其中,所述第二约束条件为:
Figure PCTCN2017090887-appb-000135
其中,RT60表示所述当前混响语音信号的混响时间的估计值,fs表示确定所述混响时间采用的混响语音帧的采样率。
优选地,基于历史混响语音信号和所述当前混响语音信号确定自相关函数之前,对所述历史混响语音信号和所述当前混响语音进行降采样处理,基于降采样后的历史混响语音信号和降采样后的当前混响语音信号确定自相关函数。
鉴于现有的基于语音模型的混响时间估计方法中,假设一帧语音帧包含的采样点数为N,计算自相关的帧数为M,且N×M需要足够大才能够使得语音模型成立,计算自相关的运算量很大。例如,假设N×M=3840,即对应240毫秒内以16KHz的采样速率进行采样获得数据个数,如果只计算N×M/2=1920个自相关值,则计算复杂度为:乘法次数为N×M×N×M/2=7372800,加法次数为(N×M-1)×N×M/2=7370800。
通过降采样可以有效降低计算量,具体地,假设输入的语音信号的采样频率为16KHz,假设将采样频率降为4KHz,则自相关函数的计算运算量将变为原来的1/16,即降采样后的计算复杂度为:乘法次数为7372800/16=460800,加法次数为7370800/16=460680。同时极大似然估计过程的计算复杂度也会降为原来的1/16。
优选地,如果采用降采样后的历史语音信号和降采样后的当前混响语音信号计算自相关函数以及计算混响语音信号的混响时间的估计值,则在采用第一或第二处理方式确定当前混响语音信号的混响时间的估计值之后,根据预设的采用降采样后的混响语音信号帧确定的混响时间的估计值与混响时间的有效值之间的映射关系,确定所述混响语音信号的混响时间的估计值对应的混响时间的有效值。
具体地,采用降采样后的历史语音信号和降采样后的当前混响语音信号计算得到的自相关函数后,将该自相关函数代入极大似然估计模型中得到的为混响时间的估计值。采用未进行降采样处理的历史语音信号和当前混响语音信号计算得到的自相关函数,将该自相关函数代入极大似然估计模型中得到的为混响时间的有效值。混响时间的估计值与混响时间的有效值之间存在映射关系,该映射关系可采用数学映射函数Γ(·)表示为:
Figure PCTCN2017090887-appb-000136
其中,
Figure PCTCN2017090887-appb-000137
表示混响时间的估计值,
Figure PCTCN2017090887-appb-000138
表示混响时间的有效值。
优选地,对于第二处理方式,为了减小估计出的混淆时间的有效值的波动性,确定所述混响语音信号的混响时间的估计值对应的混响时间的有效值之后,按照公式25对所 述混响时间的有效值进行平滑处理,
Figure PCTCN2017090887-appb-000139
其中,
Figure PCTCN2017090887-appb-000140
表示所述混响时间的有效值,
Figure PCTCN2017090887-appb-000141
表示本次平滑处理后的混响时间,
Figure PCTCN2017090887-appb-000142
表示上一次平滑处理后的混响时间,α表示第一平滑因子,β表示第二平滑因子,α小于β,α大于零且小于1,β大于零且小于1。
该第二处理方式中对混响时间的有效值进行平滑处理的基本思想是以“快上升慢下降”为准则的,即当瞬时的混响时间的有效值大于上一次平滑处理后的混淆时间时,使用较小的平滑因子α,否则,使用较大的平滑因子β。
具体应用中,在混响时间估计开始后的第一个4.8秒之后,按照第一处理方式,每4.8秒进行一次MLE来更新混响时间的估计值,从而进一步降低运算量,因为同一空间内混响时间是相对固定的。
以下通过一个具体实施例对本发明实施例所提供的基于语音模型的混响时间估计方法进行完整说明。
如图2所示为该具体实施例中基于语音模型的混响时间估计过程示意图,具体过程如下:
步骤201:在初始化过程中配置以下参数:一个语音帧中包含的样点数为N;配置M、L、平滑因子α和β,设置帧计数器Cnt=0,设置计数器m=0,以及设置计数器h=0。
步骤202:读取一个混响语音帧,更新Cnt=Cnt+1以及更新m=m+1。
步骤203:对混响语音帧进行降采样处理。
步骤204:对将采样处理后的混响语音帧进行LPC分析以及LP滤波。
步骤205:判断是否满足m>M,若是,执行步骤206,否则,执行步骤202。
步骤206:按照公式15计算M个混响语音帧的残差信号的自相关函数,并更新m=0,以及更新h=h+1。
步骤207:判断是否满足Cnt>M×L,若不满足,执行步骤208,否则执行步骤209;
步骤208:按照公式20对自相关函数进行平滑处理后,执行步骤211。
步骤209:按照公式16计算连续L个自相关函数的平均自相关函数后,执行步骤210。
步骤210:判断是否满足h>L,若不满足,转去执行步骤202,否则,执行步骤211。
步骤211:计算混响时间,具体为:根据平滑处理后的自相关函数或者平均自相关函 数,采用Newton-Raphson方法求解公式21,得到参数a和k,根据公式23得到混响时间的估计值,根据公式24得到该混响时间的估计值对应的混响时间的有效值,更新h=0。
步骤212:判断是否仍在接收混响语音信号,若是,转去执行步骤202,否则,结束。
基于同一发明构思,本发明实施例中提供了一种混响时间估计装置,该装置的具体实施可参见方法实施例部分的描述,重复之处不再赘述,如图3所示,该装置主要包括:
第一处理模块301,用于在混响环境下获得当前混响语音信号;
第二处理模块302,用于基于历史混响语音信号和所述当前混响语音信号确定自相关函数;
第三处理模块303,用于根据所述自相关函数以及预设的极大似然估计模型,确定所述当前混响语音信号的混响时间。
可能的实施方式中,所述第二处理模块还用于:
基于历史混响语音信号和所述当前混响语音信号确定自相关函数之前,对所述历史混响语音信号和所述当前混响语音信号进行降采样处理。
可能的实施方式中,所述第二处理模块具体用于:
从所述当前混响语音信号中提取连续的M个混响语音帧,基于历史混响语音信号和所述M个混响语音帧确定自相关函数为:
Figure PCTCN2017090887-appb-000143
其中,
Figure PCTCN2017090887-appb-000144
表示所述自相关函数,N表示一个混响语音帧中参与自相关函数计算的采样点的个数,
Figure PCTCN2017090887-appb-000145
表示所述混响语音帧的残差信号,n表示移位距离,所述混响语音帧对应的残差信号为对所述混响语音帧进行线性预测得到线性预测系数并基于所述线性预测系数对所述混响语音帧进行线性预测滤波后得到,M为大于1的正整数。
可能的实施方式中,所述第三处理模块具体用于:
若确定混响时间估计过程中提取混响语音帧的总数超过M的L倍,在每获得连续的L个自相关函数后,根据所述连续的L个自相关函数确定平均自相关函数,根据所述平均自相关函数以及所述预设的极大似然估计模型,确定所述当前混响语音信号的混响时间;
若确定混响时间估计过程中提取混响语音帧的总数未超过M的L倍,对本次确定的所述自相关函数进行平滑处理后,根据平滑处理后的自相关函数以及所述预设的极大似然估计模型,确定所述当前混响语音信号的混响时间。
可能的实施方式中,所述第三处理模块具体用于:
按照公式
Figure PCTCN2017090887-appb-000146
确定平均自相关函数,其中,
Figure PCTCN2017090887-appb-000147
表示连续L次 确定的自相关函数中的第l个自相关该函数,
Figure PCTCN2017090887-appb-000148
表示平均自相关函数。
可能的实施方式中,所述第三处理模块具体用于:
按照公式
Figure PCTCN2017090887-appb-000149
对所述混响语音帧的自相关函数进行平滑处理,其中,
Figure PCTCN2017090887-appb-000150
表示本次确定的所述自相关函数,
Figure PCTCN2017090887-appb-000151
表示第l次平滑处理后的自相关函数,
Figure PCTCN2017090887-appb-000152
表示第l-1次平滑处理后的自相关函数,β表示预设的平滑系数,0<β<1。
可能的实施方式中,所述第三处理模块具体用于:
根据所述平均自相关函数以及所述预设的极大似然估计模型中定义的第一约束条件,确定第一参数和第二参数;
根据所述第一参数以及所述预设的极大似然估计模型中定义的第二约束条件,确定所述当前混响语音信号的混响时间的估计值;
根据预设的采用降采样后的混响语音信号帧确定的混响时间的估计值与混响时间的有效值之间的映射关系,确定所述混响语音信号的混响时间的估计值对应的混响时间的有效值;
其中,所述第一约束条件表示为:
Figure PCTCN2017090887-appb-000153
其中,N表示一个混响语音帧中参与自相关函数计算的采样点的个数,a表示所述第一参数,k表示所述第二参数,
Figure PCTCN2017090887-appb-000154
表示所述平均自相关函数,
Figure PCTCN2017090887-appb-000155
表示对所述第一参数求偏导数,
Figure PCTCN2017090887-appb-000156
表示对所述第二参数求偏导数,
Figure PCTCN2017090887-appb-000157
表示所述平均自相关函数
Figure PCTCN2017090887-appb-000158
所述第一参数以及所述第二参数的似然函数,表示为
Figure PCTCN2017090887-appb-000159
其中,所述第二约束条件为:
Figure PCTCN2017090887-appb-000160
RT60表示所述当前混响语音信号的混响时间的估计值,fs表示确定所述混响时间采用的混响语音帧的采样率。
可能的实施方式中,所述第三处理模块具体用于:
根据所述平滑处理后的自相关函数以及所述预设的极大似然估计模型中定义的第一约束条件,确定第一参数和第二参数;
根据所述第一参数以及所述预设的极大似然估计模型中定义的第二约束条件,确定所述当前混响语音信号的混响时间的估计值;
根据预设的采用降采样后的混响语音信号帧确定的混响时间的估计值与混响时间的有效值之间的映射关系,确定所述混响语音信号的混响时间的估计值对应的混响时间的有效值;
其中,所述第一约束条件表示为:
Figure PCTCN2017090887-appb-000161
其中,N表示一个混响语音帧中参与自相关函数计算的采样点的个数,a表示所述第一参数,k表示所述第二参数,
Figure PCTCN2017090887-appb-000162
表示平滑处理后的自相关函数,
Figure PCTCN2017090887-appb-000163
表示对所述第一参数求偏导数,
Figure PCTCN2017090887-appb-000164
表示对所述第二参数求偏导数,
Figure PCTCN2017090887-appb-000165
表示所述平滑处理后的自相关函数
Figure PCTCN2017090887-appb-000166
所述第一参数以及所述第二参数的似然函数,表示为
Figure PCTCN2017090887-appb-000167
其中,所述第二约束条件为:
Figure PCTCN2017090887-appb-000168
RT60表示所述当前混响语音信号的混响时间的估计值,fs表示确定所述混响时间采用的混响语音帧的采样率。
可能的实施方式中,所述第三处理模块具体用于:
确定所述混响语音信号的混响时间的估计值对应的混响时间的有效值之后,按照公式
Figure PCTCN2017090887-appb-000169
对所述混响时间的有效值进行平滑处理,其中,
Figure PCTCN2017090887-appb-000170
表示所述混响时间的有效值,
Figure PCTCN2017090887-appb-000171
表示本次平滑处理后的混响时间,
Figure PCTCN2017090887-appb-000172
表示上一次平滑处理后的混响时间,α表示第一平滑因子,β表示第二平滑因子,α小于β,α大于零且小于1,β大于零且小于1。
基于同一发明构思,本发明实施例还提供了一种设备,该设备的具体实施可参见方法实施例的相关描述,如图4所示,该设备主要包括处理器401和存储器402,其中,存储器402中保存有预设的程序,处理器401用于读取存储器402中的程序,按照该程序执行以下过程:
在混响环境下获得当前混响语音信号;
基于历史混响语音信号和所述当前混响语音信号确定自相关函数;
根据所述自相关函数以及预设的极大似然估计模型,确定所述当前混响语音信号的混响时间。
可能的实施方式中,处理器401还用于:基于历史混响语音信号和所述当前混响语音信号确定自相关函数之前,对所述历史混响语音信号和所述当前混响语音信号进行降采样处理。
可能的实施方式中,处理器401基于历史混响语音信号和所述当前混响语音信号确定自相关函数时,具体用于:从所述当前混响语音信号中提取连续的M个混响语音帧,基于历史混响语音信号和所述M个混响语音帧确定自相关函数为:
Figure PCTCN2017090887-appb-000173
其中,
Figure PCTCN2017090887-appb-000174
表示所述自相关函数,N表示一个混响语音帧中参与自相关函数计算的采样点的个数,
Figure PCTCN2017090887-appb-000175
表示所述混响语音帧的残差信号,n表示移位距离,所述混响语音帧对应的残差信号为对所述混响语音帧进行线性预测得到线性预测系数并基于所述线性预测系数对所述混响语音帧进行线性预测滤波后得到,M为大于1的正整数。
可能的实施方式中,处理器401根据所述自相关函数以及预设的极大似然估计模型,确定所述当前混响语音信号的混响时间时,具体用于:若确定混响时间估计过程中提取混 响语音帧的总数超过M的L倍,在每获得连续的L个自相关函数后,根据所述连续的L个自相关函数确定平均自相关函数,根据所述平均自相关函数以及所述预设的极大似然估计模型,确定所述当前混响语音信号的混响时间;
若确定混响时间估计过程中提取混响语音帧的总数未超过M的L倍,对本次确定的所述自相关函数进行平滑处理后,根据平滑处理后的自相关函数以及所述预设的极大似然估计模型,确定所述当前混响语音信号的混响时间。
可能的实施方式中,处理器401根据所述连续的L个自相关函数确定平均自相关函数时,具体用于:按照公式
Figure PCTCN2017090887-appb-000176
确定平均自相关函数,其中,
Figure PCTCN2017090887-appb-000177
表示连续L次确定的自相关函数中的第l个自相关该函数,
Figure PCTCN2017090887-appb-000178
表示平均自相关函数。
可能的实施方式中,处理器401对本次确定的所述自相关函数进行平滑处理时,具体用于:
按照公式
Figure PCTCN2017090887-appb-000179
对所述混响语音帧的自相关函数进行平滑处理,其中,
Figure PCTCN2017090887-appb-000180
表示本次确定的所述自相关函数,
Figure PCTCN2017090887-appb-000181
表示第l次平滑处理后的自相关函数,
Figure PCTCN2017090887-appb-000182
表示第l-1次平滑处理后的自相关函数,β表示预设的平滑系数,0<β<1。
可能的实施方式中,处理器401根据所述平均自相关函数以及所述预设的极大似然估计模型,确定所述当前混响语音信号的混响时间时,具体用于:
根据所述平均自相关函数以及所述预设的极大似然估计模型中定义的第一约束条件,确定第一参数和第二参数;
根据所述第一参数以及所述预设的极大似然估计模型中定义的第二约束条件,确定所述当前混响语音信号的混响时间的估计值;
根据预设的采用降采样后的混响语音信号帧确定的混响时间的估计值与混响时间的有效值之间的映射关系,确定所述混响语音信号的混响时间的估计值对应的混响时间的有效值;
其中,所述第一约束条件表示为:
Figure PCTCN2017090887-appb-000183
其中,N表示一个混响语音帧中参与自相关函数计算的采样点的个数,a表示所述第一参数,k表示所述第二参数,
Figure PCTCN2017090887-appb-000184
表示所述平均自相关函数,
Figure PCTCN2017090887-appb-000185
表示对所述第一参数求偏导数,
Figure PCTCN2017090887-appb-000186
表示对所述第二参数求偏导数,
Figure PCTCN2017090887-appb-000187
表示所述平均自相关函数
Figure PCTCN2017090887-appb-000188
所述第一参数以及所述第二参数的似然函数,表示为
Figure PCTCN2017090887-appb-000189
其中,所述第二约束条件为:
Figure PCTCN2017090887-appb-000190
RT60表示所述当前混响语音信号的混响时间的估计值,fs表示确定所述混响时间采用的混响语音帧的采样率。
可能的实施方式中,处理器401根据平滑处理后的自相关函数以及所述预设的极大似然估计模型,确定所述当前混响语音信号的混响时间时,具体用于:
根据所述平滑处理后的自相关函数以及所述预设的极大似然估计模型中定义的第一约束条件,确定第一参数和第二参数;
根据所述第一参数以及所述预设的极大似然估计模型中定义的第二约束条件,确定所述当前混响语音信号的混响时间的估计值;
根据预设的采用降采样后的混响语音信号帧确定的混响时间的估计值与混响时间的有效值之间的映射关系,确定所述混响语音信号的混响时间的估计值对应的混响时间的有效值;
其中,所述第一约束条件表示为:
Figure PCTCN2017090887-appb-000191
其中,N表示一个混响语音帧中参与自相关函数计算的采样点的个数,a表示所述第一参数,k表示所述第二参数,
Figure PCTCN2017090887-appb-000192
表示平滑处理后的自相关函数,
Figure PCTCN2017090887-appb-000193
表示对所述第一参数求偏导数,
Figure PCTCN2017090887-appb-000194
表示对所述第二参数求偏导数,
Figure PCTCN2017090887-appb-000195
表示所述平滑处理后的自相关函数
Figure PCTCN2017090887-appb-000196
所述第一参数以及所述第二参数的似然函数,表示为
Figure PCTCN2017090887-appb-000197
其中,所述第二约束条件为:
Figure PCTCN2017090887-appb-000198
RT60表示所述当前混响语音信号的混响时间的估计值,fs表示确定所述混响时间采用的混响语音帧的采样率。
可能的实施方式中,处理器401还用于:
在确定所述混响语音信号的混响时间的估计值对应的混响时间的有效值之后,按照公式
Figure PCTCN2017090887-appb-000199
对所述混响时间的有效值进行平滑处理,其中,
Figure PCTCN2017090887-appb-000200
表示所述混响时间的有效值,
Figure PCTCN2017090887-appb-000201
表示本次平滑处理后的混响时间,
Figure PCTCN2017090887-appb-000202
表示上一次平滑处理后的混响时间,α表示第一平滑因子,β表示第二平滑因子,α小于β,α大于零且小于1,β大于零且小于1。
其中,处理器和存储器之间通过总线连接,总线架构可以包括任意数量的互联的总线和桥,具体由处理器代表的一个或多个处理器和存储器代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口提供接口。处理器负责管理总线架构和通常的处理,存储器可以存储处理器在执行操作时所使用的数据。
基于以上技术方案,本发明实施例中,基于历史语音信号和当前混响语音信号确定自相关函数,根据该自相关函数以及预设的极大似然估计模型,确定混响语音信号的混响时间,可以进一步提高混响时间的估计精度,解决了现有的基于语音模型的混响时间估计方 法中,对混响时间小于预设门限的混响语音的混响时间产生过估计的问题。
并且,本发明实施例中,在对历史语音信号以及当前混响语音信号进行降采样处理,基于降采样后的历史语音信号以及降采样后的当前混响语音信号计算自相关函数,可以进一步降低计算复杂度,提高混响时间估计的实时性。
另外,本发明实施例中,在混响时间估计开始的设定时长内,在每次计算得到自相关函数后,根据该自相关函数确定混响时间,从而可以解决现有的基于语音模型的混响时间估计过程中,首次获得混响时间的等待时延长的问题,缩短了工程实现中首次获得混响时间的等待时长,使得更适合实际应用。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (27)

  1. 一种混响时间估计方法,其特征在于,包括:
    在混响环境下获得当前混响语音信号;
    基于历史混响语音信号和所述当前混响语音信号确定自相关函数;
    根据所述自相关函数以及预设的极大似然估计模型,确定所述当前混响语音信号的混响时间。
  2. 如权利要求1所述的方法,其特征在于,基于历史混响语音信号和所述当前混响语音信号确定自相关函数之前,所述方法还包括:
    对所述历史混响语音信号和所述当前混响语音信号进行降采样处理。
  3. 如权利要求2所述的方法,其特征在于,基于历史混响语音信号和所述当前混响语音信号确定自相关函数,包括:
    从所述当前混响语音信号中提取连续的M个混响语音帧,基于历史混响语音信号和所述M个混响语音帧确定自相关函数为:
    Figure PCTCN2017090887-appb-100001
    其中,
    Figure PCTCN2017090887-appb-100002
    表示所述自相关函数,N表示一个混响语音帧中参与自相关函数计算的采样点的个数,
    Figure PCTCN2017090887-appb-100003
    表示所述混响语音帧的残差信号,n表示移位距离,所述混响语音帧对应的残差信号为对所述混响语音帧进行线性预测得到线性预测系数并基于所述线性预测系数对所述混响语音帧进行线性预测滤波后得到,M为大于1的正整数。
  4. 如权利要求2所述的方法,其特征在于,根据所述自相关函数以及预设的极大似然估计模型,确定所述当前混响语音信号的混响时间,包括:
    若确定混响时间估计过程中提取混响语音帧的总数超过M的L倍,在每获得连续的L个自相关函数后,根据所述连续的L个自相关函数确定平均自相关函数,根据所述平均自相关函数以及所述预设的极大似然估计模型,确定所述当前混响语音信号的混响时间;
    若确定混响时间估计过程中提取混响语音帧的总数未超过M的L倍,对本次确定的所述自相关函数进行平滑处理后,根据平滑处理后的自相关函数以及所述预设的极大似然估计模型,确定所述当前混响语音信号的混响时间。
  5. 如权利要求4所述的方法,其特征在于,根据所述连续的L个自相关函数确定平均自相关函数,包括:
    按照公式
    Figure PCTCN2017090887-appb-100004
    确定平均自相关函数,其中,
    Figure PCTCN2017090887-appb-100005
    表示连续L次 确定的自相关函数中的第l个自相关该函数,
    Figure PCTCN2017090887-appb-100006
    表示平均自相关函数。
  6. 如权利要求4所述的方法,其特征在于,对本次确定的所述自相关函数进行平滑处理,包括:
    按照公式
    Figure PCTCN2017090887-appb-100007
    对所述混响语音帧的自相关函数进行平滑处理,其中,
    Figure PCTCN2017090887-appb-100008
    表示本次确定的所述自相关函数,
    Figure PCTCN2017090887-appb-100009
    表示第l次平滑处理后的自相关函数,
    Figure PCTCN2017090887-appb-100010
    表示第l-1次平滑处理后的自相关函数,β表示预设的平滑系数,0<β<1。
  7. 如权利要求5所述的方法,其特征在于,根据所述平均自相关函数以及所述预设的极大似然估计模型,确定所述当前混响语音信号的混响时间,包括:
    根据所述平均自相关函数以及所述预设的极大似然估计模型中定义的第一约束条件,确定第一参数和第二参数;
    根据所述第一参数以及所述预设的极大似然估计模型中定义的第二约束条件,确定所述当前混响语音信号的混响时间的估计值;
    根据预设的采用降采样后的混响语音信号帧确定的混响时间的估计值与混响时间的有效值之间的映射关系,确定所述混响语音信号的混响时间的估计值对应的混响时间的有效值;
    其中,所述第一约束条件表示为:
    Figure PCTCN2017090887-appb-100011
    其中,N表示一个混响语音帧中参与自相关函数计算的采样点的个数,a表示所述第一参数,k表示所述第二参数,
    Figure PCTCN2017090887-appb-100012
    表示所述平均自相关函数,
    Figure PCTCN2017090887-appb-100013
    表示对所述第一参数求偏导数,
    Figure PCTCN2017090887-appb-100014
    表示对所述第二参数求偏导数,
    Figure PCTCN2017090887-appb-100015
    表示所述平均自相关函数
    Figure PCTCN2017090887-appb-100016
    所述第一参数以及所述第二参数的似然函数,表示为
    Figure PCTCN2017090887-appb-100017
    其中,所述第二约束条件为:
    Figure PCTCN2017090887-appb-100018
    RT60表示所述当前混响语音信号的混响时间的估计值,fs表示确定所述混响时间采用的混响语音帧的采样率。
  8. 如权利要求6所述的方法,其特征在于,根据平滑处理后的自相关函数以及所述预设的极大似然估计模型,确定所述当前混响语音信号的混响时间,包括:
    根据所述平滑处理后的自相关函数以及所述预设的极大似然估计模型中定义的第一约束条件,确定第一参数和第二参数;
    根据所述第一参数以及所述预设的极大似然估计模型中定义的第二约束条件,确定所述当前混响语音信号的混响时间的估计值;
    根据预设的采用降采样后的混响语音信号帧确定的混响时间的估计值与混响时间的有效值之间的映射关系,确定所述混响语音信号的混响时间的估计值对应的混响时间的有效值;
    其中,所述第一约束条件表示为:
    Figure PCTCN2017090887-appb-100019
    其中,N表示一个混响语音帧中参与自相关函数计算的采样点的个数,a表示所述第一参数,k表示所述第二参数,
    Figure PCTCN2017090887-appb-100020
    表示平滑处理后的自相关函数,
    Figure PCTCN2017090887-appb-100021
    表示对所述第一参数求偏导数,
    Figure PCTCN2017090887-appb-100022
    表示对所述第二参数求偏导数,
    Figure PCTCN2017090887-appb-100023
    表示所述平滑处理后的自相关函数
    Figure PCTCN2017090887-appb-100024
    所述第一参数以及所述第二参数的似然函数,表示为
    Figure PCTCN2017090887-appb-100025
    其中,所述第二约束条件为:
    Figure PCTCN2017090887-appb-100026
    RT60表示所述当前混响语音信号 的混响时间的估计值,fs表示确定所述混响时间采用的混响语音帧的采样率。
  9. 如权利要求8所述的方法,其特征在于,确定所述混响语音信号的混响时间的估计值对应的混响时间的有效值之后,所述方法还包括:
    按照公式
    Figure PCTCN2017090887-appb-100027
    对所述混响时间的有效值进行平滑处理,其中,
    Figure PCTCN2017090887-appb-100028
    表示所述混响时间的有效值,表示本次平滑处理后的混响时间,
    Figure PCTCN2017090887-appb-100030
    表示上一次平滑处理后的混响时间,α表示第一平滑因子,β表示第二平滑因子,α小于β,α大于零且小于1,β大于零且小于1。
  10. 一种混响时间估计装置,其特征在于,包括:
    第一处理模块,用于在混响环境下获得当前混响语音信号;
    第二处理模块,用于基于历史混响语音信号和所述当前混响语音信号确定自相关函数;
    第三处理模块,用于根据所述自相关函数以及预设的极大似然估计模型,确定所述当前混响语音信号的混响时间。
  11. 如权利要求10所述的装置,其特征在于,所述第二处理模块还用于:
    基于历史混响语音信号和所述当前混响语音信号确定自相关函数之前,对所述历史混响语音信号和所述当前混响语音信号进行降采样处理。
  12. 如权利要求11所述的装置,其特征在于,所述第二处理模块具体用于:
    从所述当前混响语音信号中提取连续的M个混响语音帧,基于历史混响语音信号和所述M个混响语音帧确定自相关函数为:
    Figure PCTCN2017090887-appb-100031
    其中,
    Figure PCTCN2017090887-appb-100032
    表示所述自相关函数,N表示一个混响语音帧中参与自相关函数计算的采样点的个数,
    Figure PCTCN2017090887-appb-100033
    表示所述混响语音帧的残差信号,n表示移位距离,所述混响语音帧对应的残差信号为对所述混响语音帧进行线性预测得到线性预测系数并基于所述线性预测系数对所述混响语音帧进行线性预测滤波后得到,M为大于1的正整数。
  13. 如权利要求11所述的装置,其特征在于,所述第三处理模块具体用于:
    若确定混响时间估计过程中提取混响语音帧的总数超过M的L倍,在每获得连续的L个自相关函数后,根据所述连续的L个自相关函数确定平均自相关函数,根据所述平均自相关函数以及所述预设的极大似然估计模型,确定所述当前混响语音信号的混响时间;
    若确定混响时间估计过程中提取混响语音帧的总数未超过M的L倍,对本次确定的所述自相关函数进行平滑处理后,根据平滑处理后的自相关函数以及所述预设的极大似然估计模型,确定所述当前混响语音信号的混响时间。
  14. 如权利要求13所述的装置,其特征在于,所述第三处理模块具体用于:
    按照公式
    Figure PCTCN2017090887-appb-100034
    确定平均自相关函数,其中,
    Figure PCTCN2017090887-appb-100035
    表示连续L次确定的自相关函数中的第l个自相关该函数,
    Figure PCTCN2017090887-appb-100036
    表示平均自相关函数。
  15. 如权利要求13所述的装置,其特征在于,所述第三处理模块具体用于:
    按照公式
    Figure PCTCN2017090887-appb-100037
    对所述混响语音帧的自相关函数进行平滑处理,其中,
    Figure PCTCN2017090887-appb-100038
    表示本次确定的所述自相关函数,
    Figure PCTCN2017090887-appb-100039
    表示第l次平滑处理后的自相关函数,
    Figure PCTCN2017090887-appb-100040
    表示第l-1次平滑处理后的自相关函数,β表示预设的平滑系数,0<β<1。
  16. 如权利要求14所述的装置,其特征在于,所述第三处理模块具体用于:
    根据所述平均自相关函数以及所述预设的极大似然估计模型中定义的第一约束条件,确定第一参数和第二参数;
    根据所述第一参数以及所述预设的极大似然估计模型中定义的第二约束条件,确定所述当前混响语音信号的混响时间的估计值;
    根据预设的采用降采样后的混响语音信号帧确定的混响时间的估计值与混响时间的有效值之间的映射关系,确定所述混响语音信号的混响时间的估计值对应的混响时间的有效值;
    其中,所述第一约束条件表示为:
    Figure PCTCN2017090887-appb-100041
    其中,N表示一个混响语音帧中参与自相关函数计算的采样点的个数,a表示所述第一参数,k表示所述第二参数,
    Figure PCTCN2017090887-appb-100042
    表示所述平均自相关函数,
    Figure PCTCN2017090887-appb-100043
    表示对所述第一参数求偏导数,
    Figure PCTCN2017090887-appb-100044
    表示对所述第二参数求偏导数,
    Figure PCTCN2017090887-appb-100045
    表示所述平均自相关函数
    Figure PCTCN2017090887-appb-100046
    所述第一参数以及所述第二参数的似然函数,表示为
    Figure PCTCN2017090887-appb-100047
    其中,所述第二约束条件为:
    Figure PCTCN2017090887-appb-100048
    RT60表示所述当前混响语音信号的混响时间的估计值,fs表示确定所述混响时间采用的混响语音帧的采样率。
  17. 如权利要求15所述的装置,其特征在于,所述第三处理模块具体用于:
    根据所述平滑处理后的自相关函数以及所述预设的极大似然估计模型中定义的第一约束条件,确定第一参数和第二参数;
    根据所述第一参数以及所述预设的极大似然估计模型中定义的第二约束条件,确定所述当前混响语音信号的混响时间的估计值;
    根据预设的采用降采样后的混响语音信号帧确定的混响时间的估计值与混响时间的有效值之间的映射关系,确定所述混响语音信号的混响时间的估计值对应的混响时间的有效值;
    其中,所述第一约束条件表示为:
    Figure PCTCN2017090887-appb-100049
    其中,N表示一个混响语音帧中参与自相关函数计算的采样点的个数,a表示所述第一参数,k表示所述第二参数,
    Figure PCTCN2017090887-appb-100050
    表示平滑处理后的自相关函数,
    Figure PCTCN2017090887-appb-100051
    表示对所述第一参数求偏导数,
    Figure PCTCN2017090887-appb-100052
    表示对所述第二参数求偏导数,
    Figure PCTCN2017090887-appb-100053
    表示所述平滑处理后的自相关函数
    Figure PCTCN2017090887-appb-100054
    所述第一参数以及所述第二参数的似然函数,表示为
    Figure PCTCN2017090887-appb-100055
    其中,所述第二约束条件为:
    Figure PCTCN2017090887-appb-100056
    RT60表示所述当前混响语音信号的混响时间的估计值,fs表示确定所述混响时间采用的混响语音帧的采样率。
  18. 如权利要求17所述的装置,其特征在于,所述第三处理模块具体用于:
    确定所述混响语音信号的混响时间的估计值对应的混响时间的有效值之后,按照公式
    Figure PCTCN2017090887-appb-100057
    对所述混响时间的有效值进行平滑处理,其中,
    Figure PCTCN2017090887-appb-100058
    表示所述混响时间的有效值,
    Figure PCTCN2017090887-appb-100059
    表示本次平滑处理后的混响时间,
    Figure PCTCN2017090887-appb-100060
    表示上一次平滑处理后的混响时间,α表示第一平滑因子,β表示第二平滑因子,α小于β,α大于零且小于1,β大于零且小于1。
  19. 一种设备,其特征在于,该设备包括处理器和存储器,其中,所述存储器用于存储计算机可读程序,所述处理器用于读取所述存储器中的程序,按照该程序执行以下过程:
    在混响环境下获得当前混响语音信号;
    基于历史混响语音信号和所述当前混响语音信号确定自相关函数;
    根据所述自相关函数以及预设的极大似然估计模型,确定所述当前混响语音信号的混响时间。
  20. 如权利要求19所述的设备,其特征在于,所述处理器还用于:
    在基于历史混响语音信号和所述当前混响语音信号确定自相关函数之前,对所述历史混响语音信号和所述当前混响语音信号进行降采样处理。
  21. 如权利要求20所述的设备,其特征在于,所述处理器基于历史混响语音信号和所述当前混响语音信号确定自相关函数时,具体用于:
    从所述当前混响语音信号中提取连续的M个混响语音帧,基于历史混响语音信号和所述M个混响语音帧确定自相关函数为:
    Figure PCTCN2017090887-appb-100061
    其中,
    Figure PCTCN2017090887-appb-100062
    表示所述自相关函数,N表示一个混响语音帧中参与自相关函数计算的采样点的个数,
    Figure PCTCN2017090887-appb-100063
    表示所述混响语音帧的残差信号,n表示移位距离,所述混响语音帧对应的残差信号为对所述混响语音帧进行线性预测得到线性预测系数并基于所述线性预测系数对所述混响语 音帧进行线性预测滤波后得到,M为大于1的正整数。
  22. 如权利要求20所述的设备,其特征在于,所述处理器根据所述自相关函数以及预设的极大似然估计模型,确定所述当前混响语音信号的混响时间时,具体用于:
    若确定混响时间估计过程中提取混响语音帧的总数超过M的L倍,在每获得连续的L个自相关函数后,根据所述连续的L个自相关函数确定平均自相关函数,根据所述平均自相关函数以及所述预设的极大似然估计模型,确定所述当前混响语音信号的混响时间;
    若确定混响时间估计过程中提取混响语音帧的总数未超过M的L倍,对本次确定的所述自相关函数进行平滑处理后,根据平滑处理后的自相关函数以及所述预设的极大似然估计模型,确定所述当前混响语音信号的混响时间。
  23. 如权利要求22所述的设备,其特征在于,所述处理器根据所述连续的L个自相关函数确定平均自相关函数时,具体用于:
    按照公式
    Figure PCTCN2017090887-appb-100064
    确定平均自相关函数,其中,
    Figure PCTCN2017090887-appb-100065
    表示连续L次确定的自相关函数中的第l个自相关该函数,
    Figure PCTCN2017090887-appb-100066
    表示平均自相关函数。
  24. 如权利要求22所述的设备,其特征在于,所述处理器对本次确定的所述自相关函数进行平滑处理时,具体用于:
    按照公式
    Figure PCTCN2017090887-appb-100067
    对所述混响语音帧的自相关函数进行平滑处理,其中,
    Figure PCTCN2017090887-appb-100068
    表示本次确定的所述自相关函数,
    Figure PCTCN2017090887-appb-100069
    表示第l次平滑处理后的自相关函数,
    Figure PCTCN2017090887-appb-100070
    表示第l-1次平滑处理后的自相关函数,β表示预设的平滑系数,0<β<1。
  25. 如权利要求23所述的设备,其特征在于,所述处理器根据所述平均自相关函数以及所述预设的极大似然估计模型,确定所述当前混响语音信号的混响时间时,具体用于:
    根据所述平均自相关函数以及所述预设的极大似然估计模型中定义的第一约束条件,确定第一参数和第二参数;
    根据所述第一参数以及所述预设的极大似然估计模型中定义的第二约束条件,确定所述当前混响语音信号的混响时间的估计值;
    根据预设的采用降采样后的混响语音信号帧确定的混响时间的估计值与混响时间的有效值之间的映射关系,确定所述混响语音信号的混响时间的估计值对应的混响时间的有效值;
    其中,所述第一约束条件表示为:
    Figure PCTCN2017090887-appb-100071
    其中,N表示一个混响语音帧中参与自相关函数计算的采样点的个数,a表示所述第一参数,k表示所述第二参数,
    Figure PCTCN2017090887-appb-100072
    表示所述平均自相关函数,
    Figure PCTCN2017090887-appb-100073
    表示对所述第一参数求偏导数,
    Figure PCTCN2017090887-appb-100074
    表示对所述第二参数求偏导数,
    Figure PCTCN2017090887-appb-100075
    表示所述平均自相关函数
    Figure PCTCN2017090887-appb-100076
    所述第一参数以及所述第二参数的似然函数,表示为
    Figure PCTCN2017090887-appb-100077
    其中,所述第二约束条件为:
    Figure PCTCN2017090887-appb-100078
    RT60表示所述当前混响语音信号的混响时间的估计值,fs表示确定所述混响时间采用的混响语音帧的采样率。
  26. 如权利要求24所述的设备,其特征在于,所述处理器根据平滑处理后的自相关函数以及所述预设的极大似然估计模型,确定所述当前混响语音信号的混响时间时,具体用于:
    根据所述平滑处理后的自相关函数以及所述预设的极大似然估计模型中定义的第一约束条件,确定第一参数和第二参数;
    根据所述第一参数以及所述预设的极大似然估计模型中定义的第二约束条件,确定所述当前混响语音信号的混响时间的估计值;
    根据预设的采用降采样后的混响语音信号帧确定的混响时间的估计值与混响时间的有效值之间的映射关系,确定所述混响语音信号的混响时间的估计值对应的混响时间的有效值;
    其中,所述第一约束条件表示为:
    Figure PCTCN2017090887-appb-100079
    其中,N表示一个混响语音帧中参与自相关函数计算的采样点的个数,a表示所述第一参数,k表示所述第二参数,
    Figure PCTCN2017090887-appb-100080
    表示平滑处理后的自相关函数,
    Figure PCTCN2017090887-appb-100081
    表示对所述第一参数求偏导数,
    Figure PCTCN2017090887-appb-100082
    表示对所述第二参数求偏导数,
    Figure PCTCN2017090887-appb-100083
    表示所述平滑处理后的自相关函数
    Figure PCTCN2017090887-appb-100084
    所述第一参数以及所述第二参数的似然函数,表示为
    Figure PCTCN2017090887-appb-100085
    其中,所述第二约束条件为:
    Figure PCTCN2017090887-appb-100086
    RT60表示所述当前混响语音信号的混响时间的估计值,fs表示确定所述混响时间采用的混响语音帧的采样率。
  27. 如权利要求26所述的设备,其特征在于,所述处理器还用于:
    在确定所述混响语音信号的混响时间的估计值对应的混响时间的有效值之后,按照公式
    Figure PCTCN2017090887-appb-100087
    对所述混响时间的有效值进行平滑处理,其中,
    Figure PCTCN2017090887-appb-100088
    表示所述混响时间的有效值,
    Figure PCTCN2017090887-appb-100089
    表示本次平滑处理后的混响时间,
    Figure PCTCN2017090887-appb-100090
    表示上一次平滑处理后的混响时间,α表示第一平滑因子,β表示第二平滑因子,α小于β,α大于零且小于1,β大于零且小于1。
PCT/CN2017/090887 2016-08-02 2017-06-29 一种混响时间估计方法及装置 WO2018024058A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201610626191.1A CN107680603B (zh) 2016-08-02 2016-08-02 一种混响时间估计方法及装置
CN201610626191.1 2016-08-02

Publications (1)

Publication Number Publication Date
WO2018024058A1 true WO2018024058A1 (zh) 2018-02-08

Family

ID=61073423

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2017/090887 WO2018024058A1 (zh) 2016-08-02 2017-06-29 一种混响时间估计方法及装置

Country Status (2)

Country Link
CN (1) CN107680603B (zh)
WO (1) WO2018024058A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109151702B (zh) * 2018-09-21 2021-10-08 歌尔科技有限公司 音频设备的音效调节方法、音频设备及可读存储介质
CN109686380B (zh) * 2019-02-18 2021-06-18 广州视源电子科技股份有限公司 语音信号的处理方法、装置及电子设备
CN111785292B (zh) * 2020-05-19 2023-03-31 厦门快商通科技股份有限公司 一种基于图像识别的语音混响强度估计方法、装置及存储介质
CN113077804B (zh) * 2021-03-17 2024-02-20 维沃移动通信有限公司 回声消除方法、装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009211021A (ja) * 2008-03-04 2009-09-17 Japan Advanced Institute Of Science & Technology Hokuriku 残響時間推定装置及び残響時間推定方法
CN105628170A (zh) * 2014-11-06 2016-06-01 广州汽车集团股份有限公司 一种车内混响时间的测量和计算方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2729024A1 (fr) * 1994-12-30 1996-07-05 Matra Communication Annuleur d'echo acoustique avec filtrage en sous-bandes
US20040213415A1 (en) * 2003-04-28 2004-10-28 Ratnam Rama Determining reverberation time
CN1212609C (zh) * 2003-11-12 2005-07-27 中国科学院声学研究所 基于人耳听觉特性的语音信号时间延迟估计方法
CN103440869B (zh) * 2013-09-03 2017-01-18 大连理工大学 一种音频混响的抑制装置及其抑制方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009211021A (ja) * 2008-03-04 2009-09-17 Japan Advanced Institute Of Science & Technology Hokuriku 残響時間推定装置及び残響時間推定方法
CN105628170A (zh) * 2014-11-06 2016-06-01 广州汽车集团股份有限公司 一种车内混响时间的测量和计算方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
JAYASHREE, R. ET AL.: "Accurate Estimation of Reverberation Time and Drr Using Maximum Likelihood Estimator", INTERNATIONAL JOURNAL OF EMERGING TECHNOLOGY AND ADVANCED ENGINEERING, vol. 3, no. 1, 30 January 2013 (2013-01-30), pages 14, XP055461333, ISSN: 2250-2459 *
KESHAVARZ, A. ET AL.: "Speech-Model Based Accurate Blind Reverberation Time Estimation Using an LPC Filter[J", IEEE TRANSACTIONS ON AUDIO SPEECH AND LANGUAGE PROCESSING, vol. 20, no. 6, 30 August 2012 (2012-08-30), pages 1884 - 1893, XP011442834 *
MEI, TIEMIN ET AL.: "New Method of Reverberation Time Estimation", JOURNAL OF SHENYANG LIGONG UNIVERSITY, vol. 31, no. 6, 30 December 2012 (2012-12-30), pages 66 - 69, ISSN: 1003-1251 *
WU, LIFU ET AL.: "An Improved Algorithm for Blind Estimation of Reverberation Time Based on Maximum Likelihood", JOURNAL OF APPLIED ACOUSTICS, vol. 35, no. 4, 30 July 2016 (2016-07-30), pages 288 - 293, XP055072696, ISSN: 1000-310X *

Also Published As

Publication number Publication date
CN107680603B (zh) 2021-08-31
CN107680603A (zh) 2018-02-09

Similar Documents

Publication Publication Date Title
WO2018024058A1 (zh) 一种混响时间估计方法及装置
RU2685391C1 (ru) Способ, устройство и система для подавления шума
RU2650617C2 (ru) Автоматическая обработка ультразвуковых данных
Eaton et al. Noise-robust reverberation time estimation using spectral decay distributions with reduced computational cost
US7590526B2 (en) Method for processing speech signal data and finding a filter coefficient
CN109643552A (zh) 用于可变噪声状况中语音增强的鲁棒噪声估计
CN109801646B (zh) 一种基于融合特征的语音端点检测方法和装置
CN114298443B (zh) 基于健康状态指数的工业设备预测性维护方法、装置和电子设备
EP3526792B1 (en) Voice activity detection method and apparatus
Yu et al. Speech enhancement using a DNN-augmented colored-noise Kalman filter
Deng et al. Online Blind Reverberation Time Estimation Using CRNNs.
JP2009210647A (ja) 雑音除去装置、その方法、そのプログラム及び記録媒体
Christensen Accurate estimation of low fundamental frequencies from real-valued measurements
KR20180067920A (ko) 화성 성분에 기반한 음성 끝점 검출 장치 및 방법
JP4965891B2 (ja) 信号処理装置およびその方法
Jaramillo et al. A study on how pre-whitening influences fundamental frequency estimation
JP2007081455A (ja) 音源位置・受音位置推定方法、その装置、そのプログラム、およびその記録媒体
CN104363554A (zh) 一种扬声器异常音检测方法
Löllmann et al. Comparative study of single-channel algorithms for blind reverberation time estimation
JP7373358B2 (ja) 音抽出システム及び音抽出方法
WO2018138543A1 (en) Probabilistic method for fundamental frequency estimation
US8150062B2 (en) Determination of the adequate measurement window for sound source localization in echoic environments
JP2009211021A (ja) 残響時間推定装置及び残響時間推定方法
JP4755555B2 (ja) 音声信号区間推定方法、及びその装置とそのプログラムとその記憶媒体
JP2010044150A (ja) 残響除去装置、残響除去方法、そのプログラムおよび記録媒体

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17836240

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 17836240

Country of ref document: EP

Kind code of ref document: A1