WO2013060079A1

WO2013060079A1 - 一种基于信道模式噪声的录音回放攻击检测方法和系统

Info

Publication number: WO2013060079A1
Application number: PCT/CN2011/084868
Authority: WO
Inventors: 贺前华; 王志锋; 罗海宇; 陈芬
Original assignee: 华南理工大学
Priority date: 2011-10-26
Filing date: 2011-12-29
Publication date: 2013-05-02
Also published as: CN102436810A

Abstract

本发明涉及智能语音信号处理、模式识别与人工智能技术领域，特别是涉及一种基于信道模式噪声的说话人识别系统中录音回放攻击检测方法和系统。本发明公开了一种说话人识别系统中更加简便和高效的录音回放攻击检测方法，所述方法步骤如下：（1）输入待识别语音信号；（2）对语音信号进行预处理；（3）提取预处理后语音信号中的信道模式噪声；（4）提取基于信道模式噪声的长时统计特征；（5）根据信道噪声分类判决模型对长时统计特征进行分类。本发明利用信道模式噪声进行录音回放攻击检测，所提取的特征维数低，计算复杂度低，错误识别率低。因此，可极大提高说话人识别系统的安全性能，更易于在现实中使用。

Description

说明书一种基于信道模式噪声的录音回放攻击检测方法和系统技术领域

本发明涉及智能语音信号处理、模式识别与人工智能技术领域，特别是涉及一种基于信道模式噪声的说话人识别系统中录音回放攻击检测方法和系统。

背景技术

随着说话人识别技术的不断发展，说话人识别系统得到了非常广泛的应用，例如：司法取证、电子商务、金融系统等。与此同时，说话人识别系统所面临的一些安全问题制约了其发展和应用。说话人识别系统面临的两种常见攻击是说话人仿冒攻击和录音回放攻击。说话人仿冒攻击是指攻击者通过模仿说话人识别系统中用户的声音对系统进行攻击。在双胞胎语音库上的说话人识别实验表明现有的说话人识别技术能够区分具有类似声学特性的双胞胎语音，因此实施说话人仿冒攻击需要有非常好的模仿技巧，使得攻击者的语音能够和系统用户的语音达到高度相似，这使得仿冒攻击的可实施性不高。录音回放攻击是指攻击者事先用高保真录音设备偷录说话人识别系统中用户的语音，然后通过高保真功放在系统输入端回放，以此对说话人识别系统实施攻击。对于文本相关的说话人识别系统，可以通过偷录用户进入系统时的语音或偷录大量用户语音通过音节拼接的方式实施回放攻击。对于文本无关的系统只需获得用户部分语音即可实施回放攻击。与仿冒语音相比，录音回放语音是真实来自于用户本人，它对说话人识别系统造成的威胁更大。另一方面，现在性能好的高保真录音及回放设备不断涌现，价格也越来越便宜，并且体积也越来越小，便于携带不易被发现，这也让录音回放攻击变得越来越容易。

防止录音回放攻击的一种策略是通过系统随机挑选语句让用户跟读，在进行说话人识别的同时还要判断用户是否按要求来跟读。这种方法的实施需要事先准备丰富的语音库，并且要求用户按照语音内容跟读，当用户按照自己的发音习惯跟读时，将有可能不能通过说话人识别系统，这种不太友好的交互性方式不容易被用户所接受。而且这种方法会牺牲掉说话人识别系统对于特定用户特定文本的安全保护性，会产生其它安全问题。在实际的应用中，这种方法只能用于文本相关的说话人识别系统，在做说话人识别的同时还要进行语音的文本识别，这也降低了说话人识别系统的总体效率。

还有采用句子相似度比较的方法，用户每次输入的口令虽然文本相同，但是两次不可能采集到同样的样本，因此如果输入的句子和存储的句子相似度高过一定的范围就可以认定为录音回放攻击。这种方法存在明显缺陷：一、该算法只能够应用于文本相关的说话人识别系统进行录音回放攻击检测；二、用户每次进入系统的样本都要存下来，需要大量存储空间；三、每次用户进入系统的样本都要和所有存储样本进行相似性比较，计算量非常大；四、如果所录回放语音并不是在用户进入系统时录制，例如私下录制或者是通过音节拼接得到，那么这个方法就无效；五、这种方法对阈值设定的依赖性很强，说话人识别本身就是进行相似度比较，相似度高的判断为同一个说话人，因此回防攻击和说话人自身识别的相似度阈值的界限很难确定。

发明内容

本发明的目的在于克服现有技术的缺陷和不足，提供一种基于信道模式噪声的录音回放攻击检测方法，用于说话人识别系统中可提高录音回放攻击检测的成功率。

本发明的另一目的还在于提供实现上述方法的系统。

本发明的目的通过下述技术方案实现：

一种基于信道模式噪声的录音回放攻击检测方法，其特征在于，所述录音回放攻击检测方法包括以下步骤：

(1) 输入待识别语音信号；

(2) 对语音信号进行预处理；

(3) 提取预处理后语音信号中的信道模式噪声；

(4) 提取基于信道模式噪声的长时统计特征；

(5)根据信道噪声分类判决模型对长时统计特征进行分类，得到录音回放攻击检测的判决结果。

所述步骤（2) 预处理包括预加重、分帧和加窗。

所述步骤（3) 包括以下步骤：

(31) 将预处理后的语音信号进行去噪滤波处理；

(32) 对去噪滤波处理前、后的信号分别进行统计帧分析；

(33) 将统计帧分析后的两路信号提取对数功率谱，并作减法运算，提取出输入语音信号的信道模式噪声。

所述统计帧是对语音信号的短时帧做离散傅里叶变换后，取其中相同频率成分的平均值。

所述步骤（4) 包括以下步骤：

(41 ) 提取信道模式噪声的 0~5阶 Legendre多项式展开系数；

(42) 提取信道模式噪声的六个统计特征；

(43 )将上述步骤获得的数值合并成一组 12维的长时统计特征矢量，作为录音回放攻击检测的特征矢量。

所述步骤（42) 的六个统计特征为信道模式噪声的最小值、最大值、均值、中值、标准差以及最大值和最小值的差值。

所述步骤（5 ) 的信道噪声分类判决模型建立包括如下步骤：

(51 ) 输入训练语音信号；

( 52 ) 重复步骤（2 ) ~ (4 )，得到训练的信道模式噪声的长时统计特征；

(53 ) 利用支持向量机（Support Vector Machine, SVM ) 进行分类，建立信道噪声分类判决模型。

实现上述方法的系统，包括：

一一输入模块，用于输入训练或待识别语音信号；

一一预处理模块，用于对语音信号进行预处理，其包括预加重、分帧和加窗单元；

一一信道模式噪声提取模块，用于提取预处理后语音信号中的信道模式噪声；

一一长时统计特征提取模块，用于提取基于信道模式噪声的长时统计特征；一一信道噪声模型模块，用于将训练的长时统计特征利用支持向量机进行分类，建立信道噪声分类判决模型；

一一识别决策模块，用于利用信道噪声分类判决模型对待识别语音号的长时统计特征进行分类，得到录音回放攻击检测的判决结果；

一一输出模块，用于输出待识别语音信号的判决结果。

本发明的基本原理是：通过提取语言信号的信道模式噪声进行录音回放攻击检测。在说话识别系统中，原始语音是指系统采集用户的原始语音，回放语音指录音回放攻击语音。回放语音在进入说话人识别系统录音信道之前，还经历了一次录音和回放的过程。不同录音和回放设备会引入设备自身不同的信道噪声（麦克风、扬声器、抖动电路、前置放大器、功率放大器、输入和输出滤波器、 A\D、 D\A、取样保持电路等都会引入相应的噪声），这些信道噪声叠加在回放语音上，使得回放语音和原始语音存在着细微的差异。本发明将这些来自不同录音与回放设备中换能器 (传声器、扬声器）和不同电路引入的噪声称为信道模式噪声。原始语音中含有系统录音设备的信道模式噪声，而回放语音不仅含有系统的信道模式噪声，还含有偷录设备和回放设备的信道模式噪声，因此提取出待识别语音中的信道模式噪声即可进行录音回放攻击检测。本发明通过去噪滤波器提取信道模式噪声，并在信道模式噪声的基础上提取长时统计特征，再利用支持向量机建立信道噪声模型用以判决说话人识别系统的输入是否为录音回放攻击。

本发明与现有的录音回放攻击检测方法相比，具有以下的优点和有益效果： ( 1 )可以应用于文本相关的说话人识别系统，也可以应用于文本无关的说话人识别系统。

(2)对原始语音和回放语音的分类识别可以在说话人识别之前也可以在之后，因此，可以利用信道噪声模型建立前端录音回放攻击检测器或后端录音回放攻击检测器，使得录音回放攻击算法的应用更加灵活。

(3 ) 长时统计特征与 MFCC (Mel Frequency Cepstrum Coefficient, Md频率倒谱系数）特征相比，特征维数明显减少，在训练阶段，提取特征时，效率明显提高。并且不需要将每次用户进入系统的样本存储下来，节省了大量的存储空间和计算资源。

附图说明

图 1是本发明的系统结构图。

图 2 是信道模式噪声提取以及基于信道模式噪声的长时特征提取流程图。

图 3是统计帧提取流程图。

图 4是连接说话人识别系统后的对比图。

具体实施方式

下面结合附图和实施例对本发明的实施作进一步描述，但本发明的实施不限于此。

本发明的录音回放攻击检测方法可在嵌入式系统中按以下步骤实现：

步骤（1 )，输入训练语音，其包括原始语音信号和回放语音信号。步骤（2)，对输入语音信号进行预处理，包括对语音信号进行预加重、分帧和加窗处理。预加重是对语音信号进行高通滤波，滤波器的传输函数为 HW^-az-¹, 其中 α=0.975。对语音信号的分帧，其中帧长为 512个点，帧移为 256个点。对语音信号所加的窗为汉明窗，其中汉明窗的函数为：

0.54 -0.46 cos (^- ), 0≤w≤N-l

ω_Η{η) N-l

1 ，其他步骤（3)，提取预处理后语音信号中的信道模式噪声，提取步骤如图 2所示。信道模式噪声的提取分为以下步骤：

步骤 S301, 将步骤（2) 中经过预处理的语音输入到信道模式噪声提取模块 300;

步骤 S302,将步骤 S301中的信号通过去噪滤波器进行去噪滤波处理，去噪滤波器的设计如下：

H(z) = ，其中 N = 32,a = 0.94 ;

步骤 S303,将步骤 S302中经过去噪滤波和步骤 S301中未经过去噪滤波的语音信号分别进行统计帧分析。统计帧是语音信号短时帧中相同频率成分的平均值，设 ={^[«], 表示帧数为 Γ的语音信号，则第 (1 <i<T)帧信号； c_; W(0 <n<N-\)的离散傅里叶变换为：

那么统计帧^ t]的表达式如下: 1 i=l

1 T N-l 2 kn

= ∑∑ ] 如图 3所示，步骤 S303中统计帧的提取方法分为以下步骤：步骤 S3031 ,将经步骤 S301、 S302处理的信号进行离散傅里叶变换; 步骤 S3032, 将步骤 S3031 中经过离散傅里叶变换的信号每帧中相同频率成分叠加；步骤 S3033 , 将步骤 S3032中叠加的频谱求平均，得到输入信号的统计帧。步骤 S304, 求对数功率谱，将步骤 S303 中的经过统计帧分析的两路信号提取对数功率谱，然后将未经过去噪滤波的一路信号减去经过去噪滤波器的另一路信号，从而得到输入语音信号的信道模式噪声，如下式所

其中 DefiltO为步骤 S302中设计的去噪滤波器。步骤（4)，在上述步获得的信号模式噪声的基础上提取两组长时统计特征，一组为 0~5 Legendre多项式系数，另外一组为信道模式噪声的 6种统计特征。步骤 S401 , Legendre多项式系数的提取：取 0~5阶的 legendre多项式系数对提取的信道模式噪声进行参数拟合。

Legendre多项式的形式如下: f (x) =∑L_nP_n (x)

n=0 其中 3， ^为 Legendre多项式系数。在提取信道模式噪声之后进行 Legendre多项式展开，获得 L_Q~L₅的多项式系数。每个 Legendre多项式系数体现了信道模式噪声一个方面的信息： L0 信道模式噪声的直流部分； L1 信道模式噪声分布曲线的斜率； L2 信道模式噪声分布曲线的曲率； L3——信道模式噪声分布曲线的 S曲率； L4、 L5 信道模式噪声分布曲线的更多细节信息。

步骤 S402, 提取基于信道模式噪声的统计特征，这一组统计特征包括以下六种特征：

• PN_min: 信道模式噪声的最小值；

• PN_max: 信道模式噪声的最大值；

• PN_mean: 信道模式噪声的均值；

• PN_median: 信道模式噪声的中值；

• PN_diff：最大值和最小值的差；

• PN_stdev: 信道模式噪声的标准差。将两组长时统计特征合并成一组 12维的长时统计特征矢量，将其作为录音回放攻击检测的特征矢量。步骤（5 )，建立支持向量机信道噪声分类判决模型，用来区分输入的待识别语音是原始语音还是回放语音。支持向量机构建信道噪声模型参数的具体过程如下:支持向量机构建信道噪声模型参数包括正样本和负样本。其中正样本为原始语音信号经过上述步骤（2 ) ~ (4) 获得的基于信道模式噪声的长时统计特征。负样本为回放语音信号经过上述步骤（2 ) ~ (4) 获得的基于信道模式噪声的长时统计特征。

所谓支持向量机分类是要求分类面不但能将两类样本正确分开，而且使分类间隔最大。我们可以对样本集 i = l,-,n , xeR^d , }^[-1,+1]，进行归一化使其满足：

此时分类间隔等于 2/llvvll, 使间隔最大等价于使 llvvll²最小。因此满足上式且使 |w|²最小的分类面就叫做最优分类面，其上的训练样本点就称作支持向量。

禾 lj用 Lagrange优化方法求解， Lagrange函数为：

将该函数转化为 Wolf对偶问题，即在约束条件： ^ y_ia_i = 0，禾口；≥ 0， i = 1,···,η 下对《_;求解下列函数最大值：

«,为原问题中与每个约束条件）^ (n,) + b]-l≥0， = 1,···,«对应的 Lagrange乘子。解上述问题后，设得到的最优解解为《, Pb*， χ为输入的待分类数据。可以得到的最优分类函数（即支持向量机的输出函数），

实际中语音样本不可能完全无噪，完全线性可分，所以是在线性不可分的情况下使用支持向量机分类器。则可以在约束条件 y_i[(wx_i) + b]-l≥0 , ϊ = 1,···,η

中增加一个松弛因子 ≥0，则约束条件变为：

y_i[(wx_i) + b]-l + _i>0， ί =

则 Lagrange函数为：

L(w,b, ) =—(w.w) + c\ ^

2 i=l J 转变为 Wolf 问题得：在 _γΆ = 0禾卩 0≤ ≤ C， ί = 1,---,η条件下求解：

ί=1

其中 C为常数，用以控制对错份样本惩罚的程度，称为惩罚因子。所以，在线性不可分的情况下，支持向量机的输出函数可以表示为：

其中， 0≤ !≤C， i = l,...,n , _Sgn(.)为符号函数，

为径向基内积函数，可作为作为支持向量机的核函数：

=6χρ(-/ΐ|| -^||)， Λ > 0

实际操作中可以选择不同的核函数。

惩罚因子 C禾卩通过 SMO (Sequential Minimal Optimization,序贯最小优化）算法和网格搜索算法确定，并用于训练信道噪声模型。通过实际参数优化的一组设置为： C = 0.03125, = 0.0078125。

步骤（6)，原始语音和回放语音的分类识别，输入待识别的语音信号，经过上述步骤（2) ~ (4) 获得基于信道模式噪声的长时统计特征，利用步骤（5 ) 建立的信道噪声模型进行录音回放攻击检测，最后输出判决结果。

如图 1所示，本发明的一种录音回放攻击检测系统包括：

一一输入模块 100，用于输入训练或待识别语音信号；

一一预处理模块 200，用于对语音信号进行预处理，其包括预加重、分帧和加窗单元；

一一信道模式噪声提取模块 300，用于提取预处理后语音信号中的信道模式噪声；

一一长时统计特征提取模块 400，用于提取基于信道模式噪声的长时统计特征；

一一信道噪声模型模块 500，用于将训练的长时统计特征利用支持向量机进行分类，建立信道噪声分类判决模型；

一一识别决策模块 600，用于利用信道噪声模型模块判决输入的待识别语音是否为录音回放攻击语音；

一一输出模块 700，用于输出待识别语音信号的判决结果。

本发明提供的一种基于信道模式噪声录音回放攻击检测方法，在录音与回放语音数据库（Authentic and Playback Speech Database, APSD) 中与基于句子相似度比较方法进行对比，如表 1所示，基于信道模式噪声的方法错误率更低。

表 1

错误率基于信道模式噪声方法句子相似度比较的方法错误拒绝率 2.8619% 15.6732% 错误接受率 2.4507% 15.6732%

如图 4所示，将两种方法建立的录音回放攻击检测器分别和实际的说话人识别系统相连接。对于含有回放攻击语音的数据，未加载回放攻击检测模块的说话人识别系统错误率很高，安全性能很低。加载基于信道模式噪声的回放攻击检测模块后系统等错误率最低，为 10.2564%。而加载基于句子相似度比较的回放攻击检测模块后系统等错误率为 29.0598%。

本发明所提出的一种基于信道模式噪声录音回放攻击检测方法不仅简单易实现，算法效率高，并且错误率低。用在嵌入式识别及其它智能设备上将有更高的效率。

Claims

权利要求书

1、一种基于信道模式噪声的录音回放攻击检测方法，其特征在于包括以下步骤：

( 1 ) 输入待识别语音信号；

(2) 对语音信号进行预处理；

(3 ) 提取预处理后语音信号中的信道模式噪声；

(4) 提取基于信道模式噪声的长时统计特征；

(5 )根据信道噪声分类判决模型对长时统计特征进行分类，得到录音回放攻击检测的判决结果。

2、如权利要求 1所述的一种录音回放攻击检测方法，其特征在于，所述步骤（2) 中的预处理包括预加重、分帧和加窗。

3、如权利要求 1所述的一种录音回放攻击检测方法，其特征在于，所述步骤（3 ) 还包括以下步骤：

(31 ) 将预处理后的语音信号进行去噪滤波处理；

(32) 对去噪滤波处理前、后的信号分别进行统计帧分析；

(33 ) 将统计帧分析后的两路信号提取对数功率谱，并作减法运算，提取出输入语音信号的信道模式噪声。

4、如权利要求 3所述的一种录音回放攻击检测方法，其特征在于，所述统计帧是对语音信号的短时帧做离散傅里叶变换后，取其中相同频率成分的平均值。

5、如权利要求 1所述的一种录音回放攻击检测方法，其特征在于，所述步骤（4) 还包括以下步骤： (41 ) 提取信道模式噪声的 0~5阶 Legendre多项式展开系数；

(42) 提取信道模式噪声的六个统计特征；

6、如权利要求 5所述的一种录音回放攻击检测方法，其特征在于，所述步骤（42)的六个统计特征为信道模式噪声的最小值、最大值、均值、中值、标准差以及最大值和最小值的差值。

7、如权利要求 1所述的一种录音回放攻击检测方法，其特征在于，所述步骤（5 ) 的信道噪声分类判决模型建立包括如下步骤：

(51 ) 输入训练语音信号；

(53 ) 利用支持向量机进行分类，建立信道噪声分类判决模型。

8、一种基于信道模式噪声的录音回放攻击检测系统，其特征在于包括: 一一输入模块（100)，用于输入训练语音信号或待识别语音信号；一一预处理模块（200)，用于对训练语音信号或待识别语音信号进行预处理，其包括预加重、分帧和加窗单元；

一一信道模式噪声提取模块（300)，用于提取预处理后训练语音信号或待识别语音信号中的信道模式噪声；

一一长时统计特征提取模块（400)，用于提取基于信道模式噪声的训练语音信号或待识别语音信号的长时统计特征；

一一信道噪声模型模块（500 )，用于将训练语音信号的长时统计特征利用支持向量机进行分类，建立信道噪声分类判决模型；一一识别决策模块（600)，用于利用信道噪声分类判决模型对待识别语音信号的长时统计特征进行分类，得到录音回放攻击检测的判决结果；一一输出模块（700)，用于输出待识别语音信号的判决结果。