WO2013086736A1

WO2013086736A1 - 说话人识别方法及设备

Info

Publication number: WO2013086736A1
Application number: PCT/CN2011/084121
Authority: WO
Inventors: 张翔; 万华林; 张军
Original assignee: 华为技术有限公司
Priority date: 2011-12-16
Filing date: 2011-12-16
Publication date: 2013-06-20
Also published as: CN103562993A; CN103562993B; US9142210B2; US20140114660A1

Abstract

本发明提供一种说话人识别方法及设备。本发明通过采用SVM对得分函数中的第一向量（即权重向量）进行可鉴别性的重新估计，使得测试语音的特征参数的识别结果更加准确，从而提高了说话人识别的可鉴别性。

Description

说话人识别方法及设备

技术领域本发明涉及说话人识别技术，尤其涉及一种说话人识别方法及设备。背景技术

声纹识别技术也称说话人识别技术，是根据语音对说话人进行区别，用以进行说话人身份鉴别的技术。一般来说，说话人识别技术主要包括目标说话人模型注册和测量得分，使得根据获得的分数得出识别结果。例如：在基于高斯混合模型（Gaussian Mixture Model , 简称 GMM ) -通用背景模型 ( Universal Background Model, 简称 UBM ) 的系统中，首先，利用 UBM 和目标说话人的 GMM, 获得测试语音的特征参数基于对数似然比的得分函数；然后，将测试语音的特征参数作为得分函数的输入，获得对应的说话人分数；如果上述分数高于一个预先设置的门限值，则识别结果为真（True )；如果上述分数低于上述预先设置的门限值，则识别结果为假（False ) 。

然而，上述现有技术中的说话人识别方法的可鉴别性较低。发明内容

本发明实施例提供一种说话人识别方法及设备，用以提高可鉴别性。 —方面提供了一种说话人识别方法，包括：

利用测试语音的特征参数、第一 GMM和第二 GMM,获得所述测试语音的特征参数的第一得分函数，所述第一得分函数为所述测试语音的特征参数在所述第一 GMM上的第一似然概率的对数与所述测试语音的特征参数在所述第二 GMM上的第二似然概率的对数的差值；

利用所述测试语音的特征参数和第三 GMM,获得所述测试语音的特征参数在所述第三 GMM上的第三似然概率，所述第三 GMM 由所述第一 GMM 和所述第二 GMM构成；

根据所述第一得分函数和所述第三似然概率，获得所述测试语音的特征参数的第二得分函数，所述第二得分函数等于第一向量与第二向量的内积，所述第一向量为一个元素全为 1 的向量，所述第二向量为所述测试语音的特征参数在所述第一 GMM和所述第二 GMM上的平均后验概率差值向量；利用训练识别对的第二向量，并通过 SVM, 对所述第一向量进行重新估计，获得第三向量，并获得所述测试语音的特征参数的第三得分函数，以便将测试语音的特征参数作为输入，获得对应的说话人分数，所述第三得分函数等于所述第三向量与所述第二向量的内积。

另一方面提供了一种说话人识别设备，包括：

第一获得单元，用于利用测试语音的特征参数、第一 GMM和第二 GMM, 获得所述测试语音的特征参数的第一得分函数，所述第一得分函数为所述测试语音的特征参数在所述第一 GMM上的第一似然概率的对数与所述测试语音的特征参数在所述第二 GMM上的第二似然概率的对数的差值；

第二获得单元，用于利用所述测试语音的特征参数和第三 GMM,获得所述测试语音的特征参数在所述第三 GMM上的第三似然概率，所述第三 GMM 由所述第一 GMM和所述第二 GMM构成；

第三获得单元，用于根据所述第一得分函数和所述第三似然概率，获得所述测试语音的特征参数的第二得分函数，所述第二得分函数等于第一向量与第二向量的内积，所述第一向量为一个元素全为 1 的向量，所述第二向量为所述测试语音的特征参数在所述第一 GMM和所述第二 GMM上的平均后验概率差值向量；

第四获得单元，用于利用训练识别对的第二向量，并通过 SVM, 对所述第一向量进行重新估计，获得第三向量，并获得所述测试语音的特征参数的第三得分函数，以便将测试语音的特征参数作为输入，获得对应的说话人分数，所述第三得分函数等于所述第三向量与所述第二向量的内积。

由上述技术方案可知，本发明实施例通过采用 SVM对得分函数中的第一向量（即权重向量）进行可鉴别性的重新估计，使得测试语音的特征参数的识别结果更加准确，从而提高了说话人识别的可鉴别性。附图说明为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图 1为本发明一实施例提供的说话人识别方法的流程示意图；

图 2为本发明另一实施例提供的说话人识别设备的结构示意图。具体实施方式为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图 1为本发明一实施例提供的说话人识别方法的流程示意图，如图 1所示，本实施例的说话人识别方法可以包括：

101、利用测试语音的特征参数、第一 GMM和第二 GMM, 获得上述测试语音的特征参数的第一得分函数，上述第一得分函数为上述测试语音的特征参数在上述第一 GMM上的第一似然概率的对数与上述测试语音的特征参数在上述第二 GMM上的第二似然概率的对数的差值；

其中，测试语音（即每个人）的特征参数与其他人都不同，具有唯一性，不易伪造和假冒。

102、利用上述测试语音的特征参数和第三 GMM, 获得上述测试语音的特征参数在上述第三 GMM上的第三似然概率，上述第三 GMM由上述第一 GMM和上述第二 GMM构成；

103、根据上述第一得分函数和上述第三似然概率，获得上述测试语音的特征参数的第二得分函数，上述第二得分函数等于第一向量与第二向量的内积，上述第一向量（即权重向量）为一个元素全为 1 的向量，上述第二向量为上述测试语音的特征参数在上述第一 GMM和上述第二 GMM上的平均后验概率差值向量；

104、利用训练识别对的第二向量，并通过 SVM, 对上述第一向量进行重新估计，获得第三向量，并获得上述测试语音的特征参数的第三得分函数，以便将测试语音的特征参数作为输入，获得对应的说话人分数，上述第三得分函数等于上述第三向量与上述第二向量的内积。

在本实施例的一个应用场景中，上述第一 GMM 可以为目标说话人的 GMM , 上述第二 GMM可以为 UBM; 或者上述第一 GMM可以为 UBM, 上述第二 GMM可以为目标说话人的 GMM。首先，可以利用测试语音的特征参数、 UBM和目标说话人的 GMM, 获得上述测试语音的特征参数的第一得分函数，上述第一得分函数为上述测试语音的特征参数在目标说话人的 GMM 上的第一似然概率的对数与上述测试语音的特征参数在 UBM 上的第二似然概率

其中，为测试语音的特征参数， r为测试语音的特征参数的总个数； s为目标说话人的 GMM; 为测试语音的特征参数在目标说话人的 GMM上的似然概率； m为 UBM; p (o_t \m)为测试语音的特征参数在 UBM上的似然概率。

然后，则可以利用上述测试语音的特征参数、以及 UBM 和目标说话人的 GMM构成的组合目标说话人的 GMM ,获得上述测试语音的特征参数在上述组合目标说话人的 GMM上的第三似然概率，即：

其中，；^ | /；)为测试语音的特征参数在组合目标说话人的 GMM上的似然概率。

对于一个测试语音的特征参数与一个目标说话人模型构成的识别对 ( Trial ) 来说，获得的分数越大，识别结果被判决为真（True ) 的概率就越大；反之，获得的分数越小，识别结果被判决为假（False ) 的概率就越大。在没有先验的情况下，被判决为真和假的概率是相同的，因此可以令

= p (m) = Q.5。

对于公式（3 )利用二阶泰勒级数展开即 log x = x - l进行近似，去掉不影响识别结果的常则公式（3)可以简化为:

其中，公式（4)可以表示成与/ 的内积。其中，为一个元素全为

1 的向量，即： = [l，...，lf ; /^/；；)为上述测试语音的特征参数在 UBM和目标说话人的 GMM上的平均后验概率差值向量，可以称之为识别对信息向量，即： W = [ …，，

其中， _φ

实际上， =[1，...，1]'可以看作是一个权重向量，由于该权重向量对于目标说话人的 GMM与 UBM中的每个高斯分量来说，对应的权重都是相等的，所以会影响识别结果的可鉴别性。因此，可以通过如下方式，对上述权重向量即进行重新估计，用以提高可鉴别性。

首先，假设一个训练集来训练权重向量；其中，识别结果被判决为真 (True) 的训练识别对（即一个测试语音的特征参数与一个目标说话人模型构成的识别对）为 {x,}， i = \,..., N 识别结果被判决为假（False) 的训练识别对（即一个测试语音的特征参数与一个目标说话人模型构成的识别对）为

{y,}, i = ..., N₂ , 则上述训练识别对的识别对信息向量则为和 6(3,)。

然后，利用训练识别对的识别对信息向量则为 ^χ,)和 6(3,)，并通过支持向量机（Support Vector Machine, 简称 SVM) , 获得重新估计之后的权重向量，即：

其中， /为支持向量的个数； δ,.为 -1或者 +1, 由训练识别对的类别来决定，为支持向量的权重； V,为支持向量； )=μο，...，ο]'。

其中， SVM 可以采用线性核函数或广义线性区分序列（Generalized linear discriminant sequence, 简称 GLDS )核函数等。

最后，可以将公式（6) 代入公式（4) 中，可以得到：

至此，可以将测试语音的特征参数作为输入，获得对应的说话人分数，使得能够根据获得的分数得出识别结果（真或假）。

本实施例中，通过采用 SVM对得分函数中的第一向量（即权重向量）进行可鉴别性的重新估计，使得测试语音的特征参数的识别结果更加准确，从而提高了说话人识别的可鉴别性。

需要说明的是：对于前述的方法实施例，为了简单描述，故将其表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

图 2为本发明另一实施例提供的说话人识别设备的结构示意图，如图 2 所示，本实施例的说话人识别设备可以包括第一获得单元 21、第二获得单元 22、第三获得单元 23和第四获得单元 24。其中，第一获得单元 21用于利用测试语音的特征参数、第一 GMM和第二 GMM,获得上述测试语音的特征参数的第一得分函数，上述第一得分函数为上述测试语音的特征参数在上述第一 GMM 上的第一似然概率的对数与上述测试语音的特征参数在上述第二 GMM上的第二似然概率的对数的差值；第二获得单元 22用于利用上述测试语音的特征参数和第三 GMM , 获得上述测试语音的特征参数在上述第三 GMM上的第三似然概率，上述第三 GMM由上述第一 GMM和上述第二 GMM 构成；第三获得单元 23用于根据上述第一得分函数和上述第三似然概率，获得上述测试语音的特征参数的第二得分函数，上述第二得分函数等于第一向量与第二向量的内积，上述第一向量为一个元素全为 1 的向量，上述第二向量为上述测试语音的特征参数在上述第一 GMM和上述第二 GMM上的平均后验概率差值向量；第四获得单元 24用于利用训练识别对的第二向量，并通过 SVM, 对上述第一向量进行重新估计，获得第三向量，并获得上述测试语音的特征参数的第三得分函数，以便将测试语音的特征参数作为输入，获得对应的说话人分数，上述第三得分函数等于上述第三向量与上述第二向量的内积。

上述图 1对应的实施例中方法可以由本实施例提供的说话人识别设备实现。在本实施例的一个应用场景中，上述第一 GMM 可以为目标说话人的 GMM , 上述第二 GMM可以为 UBM; 或者上述第一 GMM可以为 UBM, 上述第二 GMM可以为目标说话人的 GMM。

例如：本实施例中第一获得单元 21具体可以用于

利用测试语音的特征参数、 UBM和目标说话人的 GMM, 获得上述测试语音的特征参数的第一得分函数公式（ 1 ) , 即：

( 1 )

其中，为测试语音的特征参数， Γ为测试语音的特征参数的总个数； s为目标说话人的 GMM; 为测试语音的特征参数在目标说话人的 GMM上的似然概率； m为 UBM; p (o_t \m)为测试语音的特征参数在 UBM上的似然概率。

例如：本实施例中第二获得单元 22具体可以用于

利用上述测试语音的特征参数、以及 UBM和目标说话人的 GMM构成的组合目标说话人的 GMM,获得上述测试语音的特征参数在上述组合目标说话人的 GMM上的似然概率，即：

其中，为测试语音的特征参数在组合目标说话人的 GMM上的似然概率。

例如：本实施例中第三获得单元 23具体可以用于

将 ^) = p( ) = 0.5和公式（2 ) , 代入公式（1 ) 中，得到公式（3 ) , 即：

利用二阶泰勒级数展开，对公式（3 )进行简化，获得上述测试语音的特征参数的第二得分函数公式（4 ) , 即： Score =

其中， '为一个元素全为 1的向量，即： v'=[l，...，l了；为上述测试语音的特征参数在 UBM和目标说话人的 GMM上的平均后验概率差值向量，可以称之为识别对信息向量，即： 6(；7；)=[ ...， φ^-,

其中， ( 5 )

例如：本实施例中第四获得单元 24具体可以用于

利用识别结果被判决为真的训练识别对 {χ, }， i = \,..., 的识别对信息向量和识别结果被判决为假的训练识别对 i = ..., N₂的识别对信息向量 6( ），并通过支持向量机 SVM, 获得重新估计之后的即：

( I

W (6) 其中， /为支持向量的个数， δ,.为 -1或者 +1, 由训练识别对的类别来决定， ζ,.为支持向量的权重， V,.为支持向量； Ζ) = [ί，0，...，0]'。

将公式（6) 代入公式（4) 中，得到上述测试语音的特征参数的第三得分函数公式（7) , 即：

本实施例中，通过第四获得单元采用 SVM对得分函数中的第一向量（即权重向量）进行可鉴别性的重新估计，使得测试语音的特征参数的识别结果更加准确，从而提高了说话人识别的可鉴别性。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外 ,在本发明各个实施例中的各功能单元可以集成在一个处理单元中 , 也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例上述方法的部分步骤。而前述的存储介质包括： U盘、移动硬盘、只读存储器（Read-Only Memory, 简称 ROM ) 、随机存取存储器（ Random Access Memory, 简称 RAM )、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

权利要求书

1、一种说话人识别方法，其特征在于，包括：

利用测试语音的特征参数、第一高斯混合模型 GMM和第二 GMM,获得所述测试语音的特征参数的第一得分函数，所述第一得分函数为所述测试语音的特征参数在所述第一 GMM上的第一似然概率的对数与所述测试语音的特征参数在所述第二 GMM上的第二似然概率的对数的差值；

根据所述第一得分函数和所述第三似然概率，获得所述测试语音的特征参数的第二得分函数，所述第二得分函数等于第一向量与第二向量的内积，所述第一向量为一个元素全为 1 的向量，所述第二向量为所述测试语音的特征参数在所述第一 GMM和所述第二 GMM上的平均后验概率差值向量；利用训练识别对的第二向量，并通过支持向量机 SVM, 对所述第一向量进行重新估计，获得第三向量，并获得所述测试语音的特征参数的第三得分函数，以便将测试语音的特征参数作为输入，获得对应的说话人分数，所述第三得分函数等于所述第三向量与所述第二向量的内积。

2、根据权利要求 1所述的方法，其特征在于，所述第一 GMM或者所述第二 GMM为通用背景模型 UBM。

3、根据权利要求 2所述的方法，其特征在于，所述利用测试语音的特征参数、第一高斯混合模型 GMM和第二 GMM,获得所述测试语音的特征参数的第一得分函数，具体为：

利用测试语音的特征参数、 UBM和目标说话人的 GMM, 获得所述测试语音的特征参数的第一得分函数：

( 1 )

其中，为测试语音的特征参数， Γ为测试语音的特征参数的总个数； s 为目标说话人的 GMM； _P (o_t \s)为测试语音的特征参数在目标说话人的 GMM 上的似然概率； w为 UBM; 为测试语音的特征参数在 UBM上的似然概率。

4、根据权利要求 2或 3所述的方法，其特征在于，所述利用所述测试语音的特征参数和第三 GMM, 获得所述测试语音的特征参数在所述第三 GMM 上的第三似然概率，具体为：

利用所述测试语音的特征参数、以及 UBM和目标说话人的 GMM构成的组合目标说话人的 GMM,获得所述测试语音的特征参数在所述组合目标说话人的 GMM上的似然概率：

p(o_t

+ p(o_t \m)p(m) ( 2 ) 其中，为测试语音的特征参数在组合目标说话人的 GMM上的似然概率。

5、根据权利要求 4所述的方法，其特征在于，所述根据所述第一得分函数和所述第三似然概率，获得所述测试语音的特征参数的第二得分函数，具体为：

(3)；

利用二阶泰勒级数展开，对公式（3)进行简化，获得所述测试语音的特征

其中， '为一个元素全为 1 的向量； 6(/7；)为所述测试语音的特征参数在

UBM和目后验概率差值向量： 6(；7；)=[ ...， φ_ε]·, 其中， (5)；

6、根据权利要求 5所述的方法，其特征在于，所述利用训练识别对的第二向量，并通过 SVM, 对所述第一向量进行重新估计，获得第三向量，并获得所述测试语音的特征参数的第三得分函数，具体为：

利用识别结果被判决为真的训练识别对 {x, }， i = \,..., 的识别对信息向量和识别结果被判决为假的训练识别对 { ψ = !, ..., Ν₂的识别对信息向量 6 获得重新估计之后的 κ :

的个数， δ,.为 -1或者 + 1 , 由训练识别对的类别来决定， ζ,.为支持向量的权重， ν,.为支持向量； Ζ) = [ί，0，...，0]' ;

将公式（6 ) 代入公式（4 ) 中，得到所述测试语音的特征参数的第三得分

7、一种说话人识别设备，其特征在于，包括：

第一获得单元，用于利用测试语音的特征参数、第一高斯混合模型 GMM 和第二 GMM,获得所述测试语音的特征参数的第一得分函数，所述第一得分函数为所述测试语音的特征参数在所述第一 GMM上的第一似然概率的对数与所述测试语音的特征参数在所述第二 GMM上的第二似然概率的对数的差值；

第二获得单元，用于利用所述测试语音的特征参数和第三 GMM ,获得所述测试语音的特征参数在所述第三 GMM上的第三似然概率，所述第三 GMM 由所述第一 GMM和所述第二 GMM构成；

第三获得单元，用于根据所述第一得分函数和所述第三似然概率，获得所述测试语音的特征参数的第二得分函数 , 所述第二得分函数等于第一向量与第二向量的内积，所述第一向量为一个元素全为 1 的向量，所述第二向量为所述测试语音的特征参数在所述第一 GMM和所述第二 GMM上的平均后验概率差值向量；

第四获得单元，用于利用训练识别对的第二向量，并通过支持向量机 SVM , 对所述第一向量进行重新估计，获得第三向量，并获得所述测试语音的特征参数的第三得分函数，以便将测试语音的特征参数作为输入，获得对应的说话人分数，所述第三得分函数等于所述第三向量与所述第二向量的内积。

8、根据权利要求 7所述的设备，其特征在于，所述第一 GMM或者所述第二 GMM为通用背景模型 UBM。

9、根据权利要求 8所述的设备，其特征在于，所述第一获得单元具体用于

利用测试语音的特征参数、 UBM和目标说话人的 GMM, 获得所述测试语音一得分函数：

其中，为测试语音的特征参数， r为测试语音的特征参数的总个数； s 为目标说话人的 GMM； _P(o_t \s)为测试语音的特征参数在目标说话人的 GMM 上的似然概率； w为 UBM; 为测试语音的特征参数在 UBM上的似然概率。

10、根据权利要求 8或 9所述的设备，其特征在于，所述第二获得单元具体用于

11、根据权利要求 10 所述的设备，其特征在于，所述第三获得单元具体用于

利用二阶泰勒级数展开，对公式（3 )进行简化，获得所述测试语音的特征参数的第二得分函数：

UBM和目标

其中 , _φ

12、根据权利要求 11 所述的设备，其特征在于，所述第四获得单元具体用于

利用识别结果被判决为真的训练识别对 {x, }， i = \,..., 的识别对信息向量和识别结果被判决为假的训练识别对 i = ..., N₂的识别对信息向量 6( ），并通过 SVM, 获得重新估计之后的 κ :

( I

W (6) 其中， /为支持向量的个数， δ,.为 -1或者 +1, 由训练识别对的类别来决定， ζ,.为支持向量的权重， ν,.为支持向量； Ζ) = [ί，0，...，0]' ;

将公式（6) 代入公式（4) 中，得到所述测试语音的特征参数的第三得分函数：