WO2018010683A1

WO2018010683A1 - 身份向量生成方法、计算机设备和计算机可读存储介质

Info

Publication number: WO2018010683A1
Application number: PCT/CN2017/092892
Authority: WO
Inventors: 李为; 钱柄桦; 金星明; 李科; 吴富章; 吴永坚; 黄飞跃
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2016-07-15
Filing date: 2017-07-14
Publication date: 2018-01-18
Also published as: US20190115031A1; EP3486903A4; CN106169295A; US10909989B2; EP3486903B1; CN106169295B; EP3486903A1

Abstract

一种身份向量生成方法，包括：获取待处理语音数据（S302，S402）；从所述待处理语音数据提取相应的声学特征（S304，S404）；对各所述声学特征属于说话人背景模型中每个高斯分布分量的后验概率进行统计得到统计量（S306）；将所述统计量映射到统计量空间获得参考统计量；所述统计量空间根据超过预设语音时长的语音样本所对应的统计量构建而成（S308）；根据统计得到的所述统计量和所述参考统计量确定修正统计量（S310）；及根据所述修正统计量生成身份向量（S312）。该方法能够补偿因待处理语音数据的语音时长过短和语音稀疏的情况下导致的统计量偏估，提高身份向量的身份识别性能。

Description

身份向量生成方法、计算机设备和计算机可读存储介质

本申请要求于2016年7月15日提交中国专利局，申请号为201610560366.3，发明名称为“身份向量生成方法和装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机技术领域，特别是涉及一种身份向量生成方法、计算机设备和计算机可读存储介质。

背景技术

说话人身份识别是一种重要的身份识别手段，采集用户说出一段语音，并将采集的语音进行预处理、特征提取、建模和参数估计等一系列操作后，将语音映射为一段定长的可以表达说话人语音特征的向量，该向量称为身份向量(i-vector)。身份向量可以良好地表达相应语音中包括的说话人身份信息。

目前在生成语音数据的身份向量时，需要提取出其声学特征，并基于高斯混合模型形式的说话人背景模型，统计各声学特征属于说话人背景模型中每个高斯分布分量的后验概率的统计量，进而基于该统计量生成身份向量。

然而，目前生成身份向量的方式，在语音数据语音长度比较短或者语音比较稀疏的情况下，会导致身份向量的身份识别性能降低。

发明内容

根据本申请的各种实施例，提供一种身份向量生成方法、计算机设备和计算机可读存储介质。

一种身份向量生成方法，包括：

获取待处理语音数据；

从所述待处理语音数据提取相应的声学特征；

对各所述声学特征属于说话人背景模型中每个高斯分布分量的后验概率进行统计得到统计量；

将所述统计量映射到统计量空间获得参考统计量；所述统计量空间根据超过预设语音时长的语音样本所对应的统计量构建而成；

根据统计得到的所述统计量和所述参考统计量确定修正统计量；及

根据所述修正统计量生成身份向量。

一种计算机设备，包括存储器和处理器，所述存储器中储存有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行以下步骤：

获取待处理语音数据；

从所述待处理语音数据提取相应的声学特征；

根据所述修正统计量生成身份向量。

一个或多个存储有计算机可读指令的非易失性的计算机可读存储介质，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行以下步骤：

获取待处理语音数据；

从所述待处理语音数据提取相应的声学特征；

根据所述修正统计量生成身份向量。

本申请的一个或多个实施例的细节在下面的附图和描述中提出。本申请的其它特征和优点将从说明书、附图以及权利要求书变得明显。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为一个实施例中说话人识别系统的应用环境图；

图2A为一个实施例中服务器的内部结构示意图；

图2B为一个实施例中终端的内部结构示意图；

图3为一个实施例中身份向量生成方法的流程示意图；

图4为另一个实施例中身份向量生成方法的流程示意图；

图5为一个实施例中构建统计量空间的步骤的流程示意图；

图6为一个实施例中计算机设备的结构框图；

图7为一个实施例中统计量生成模块的结构框图；

图8为另一个实施例中计算机设备的结构框图；

图9为再一个实施例中计算机设备的结构框图。

具体实施方式

为了使本申请的技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

可以理解，本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件，但这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。第一零阶统计量和第二零阶统计量两者都是零阶统计量，但其不是同一零阶统计量。

图1为一个实施例中说话人识别系统的应用环境图。如图1所示，该系统包括通过网络连接的终端110和服务器120。终端110可用于采集待验证语音数据，并采用本申请中的身份向量生成方法生成待验证身份向量，并将待验证身份向量发送到服务器120。服务器120可收集目标说话人类别的语音数据，并采用本申请中的身份向量生成方法生成目标说话人身份向量。服务器120可用于计算待验证身份向量和目标说话人身份向量的相似度；根据相似度进行说话人身份验证。服务器120可用于向终端110反馈身份验证结果。

图2A为一个实施例中服务器的内部结构示意图。如图2A所示，该服务器包括通过系统总线连接的处理器、非易失性存储介质、内存储器和网络接口。其中，该服务器的非易失性存储介质存储有操作系统、数据库和计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器实现一种身份向量生成方法。该服务器的处理器用于提供计算和控制能力，支撑整个服务器的运行。该服务器的内存储器中可存储有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行一种身份向量生成方法。该服务器的网络接口用于与终端连接通信。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。本领域技术人员可以理解，图2A中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的服务器的限定，具体的服务器可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

图2B为一个实施例中终端的内部结构示意图。如图2B所示，该终端包括通过系统总线连接的处理器、非易失性存储介质、内存储器、网络接口和声音采集装置。其中，终端的非易失性存储介质存储有操作系统，还存储有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器实现一种身份向量生成方法。该处理器用于提供计算和控制能力，支撑整个终端的运行。终端中的内存储器中可储存有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行一种身份向量生成方法。网络接口用于与服务器进行网络通信。该终端可以是手机、平板电脑或者个人数字助理或穿戴式设备等。本领域技术人员可以理解，图2B中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的终端的限定，具体的终端可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

图3为一个实施例中身份向量生成方法的流程示意图。本实施例以该方法应用于服务器120来举例说明。参照图3，该方法具体包括如下步骤：

S302，获取待处理语音数据。

其中，待处理语音数据是指需要对其进行一系列处理以生成相应的身份向量的语音数据。语音数据是在说话人将语音说出后由声音采集设备所采集的声音进行保存而形成的数据。待处理语音数据可以包括待验证语音数据和目标说话人类别的语音数据，其中待验证语音数据是指未知说话人类别并需要判断是否属于目标说话人类别的语音数据；目标说话人类别是已知的说话人类别，是目标说话人说话形成的语音数据所构成的类别。

S304，从待处理语音数据提取相应的声学特征。

具体地，服务器可以对待处理语音数据进行预处理，比如滤除噪声或者统一语音格式等，再从经过预处理的待处理语音数据提取相应的声学特征向量。声学特征向量是指反映声学特性的声学特征所构成的向量。声学特征向量包括一系列的声学特征，该声学特征可以是梅尔倒谱系数(MFCC，Mel Frequency Cepstrum Coefficient)或者线性预测倒谱系数(LPCC)。

S306，对各声学特征属于说话人背景模型中每个高斯分布分量的后验概率进行统计得到统计量。

其中，说话人背景模型是采用一系列的语音样本训练得到的高斯混合模型，用来训练表示与说话人无关的特征分布。其中高斯混合模型是固定数量的高斯分布分量叠加而成的数学模型。说话人背景模型可通过EM算法(Expectation Maximization Algorithm，译为期望最大化算法)训练得到。说话人背景模型可采用GMM-UBM(Gaussian Mixture Model-Universal Background Model，高斯混合模型-通用背景模型)。

在一个实施例中，说话人背景模型可用如下公式(1)表示：

其中，x表示语音样本；C是高斯混合模型所包括高斯分布分量的总数，c表示高斯混合模型所包括的高斯分布分量的序号；N(x|μ_c，∑_c)表示第c个高斯分布分量；a_c是第c个高斯分布分量的系数；μ_c是第c个高斯分布分量的均值；∑_c是第c个高斯分布分量的方差。

在一个实施例中，声学特征向量可表达为：{y₁，y₂...y_L}。该声学特征向量包括L个声学特征，每个声学特征可表示为y_t，其中，t∈[1，L]。在一个实施例中，声学特征向量中各声学特征属于说话人背景模型中每个高斯分布分量的后验概率可表示为：P(c|y_t，Ω)。其中，Ω表示说话人背景模型。P(c|y_t，Ω)表示在说话人背景模型Ω和声学特征y_t已观测到的情况下声学特征y_t属于第c个高斯分布分量的后验概率。服务器可基于后验概率P(c|y_t，Ω)进行统计得到统计量。

S308，将统计量映射到统计量空间获得参考统计量；统计量空间根据超过预设语音时长的语音样本所对应的统计量构建而成。

其中，统计量空间是一种向量空间，统计量空间根据语音样本所对应的与上述统计得到的统计量同类型的统计量构建而成，该用来构建统计量空间的语音样本的语音时长超过预设语音时长，预设语音时长比如30秒。用来构建统计量空间的语音样本可以是从用于训练说话人背景模型的语音样本中筛选出的超过预设语音时长的语音样本。将统计得到的统计量映射到统计量空间后得到参考统计量，该参考统计量是根据超过预设语音时长的语音样本所对应的统计量确定的先验统计量。

S310，根据统计得到的统计量和参考统计量确定修正统计量。

其中，修改统计量是利用参考统计量修正统计得到的统计量后得到的统计量，该统计量结合了先验的统计量和后验的统计量。

S312，根据修正统计量生成身份向量。

具体地，在得到修正统计量后，可以利用修正统计量并采用常规的生成身份向量的方式来生成身份向量。

上述身份向量生成方法，统计量空间根据超过预设语音时长的语音样本所对应的统计量构建而成，在对各声学特征属于说话人背景模型中每个高斯分布分量的后验概率进行统计得到统计量后，将该统计量映射到该统计量空间中，得到的参考统计量是先验统计量。利用先验统计量来对统计得到的统计量进行修正得到修正统计量，该修正统计量能够补偿因待处理语音数据的语音时长过短和语音稀疏的情况下导致的统计量偏估，提高身份向量的身份识别性能。

图4为另一个实施例中身份向量生成方法的流程示意图。如图4所示，该身份向量生成方法包括如下步骤：

S402，获取待处理语音数据。

S404，从待处理语音数据提取相应的声学特征。

S406，对应于说话人背景模型中的每个高斯分布分量，分别统计各声学特征属于相应高斯分布分量的后验概率的总和作为相应的第一零阶统计量。

具体地，对应于说话人背景模型Ω中的每个高斯分布分量c，分别统计各声学特征y_t属于相应高斯分布分量c的后验概率P(c|y_t，Ω)的总和，将该总和作为相应高斯分布分量c所对应的第一零阶统计量。

更具体地，可采用如下公式(2)计算对应于高斯分布分量c的第一零阶统计量N_c(u)：

其中，u表示待处理语音数据；N_c(u)表示待处理语音数据u对应于高斯分布分量c的第一零阶统计量；y_t表示声学特征向量的L个声学特征中第t个声学特征；P(c|y_t，Ω)表示在说话人背景模型Ω和声学特征y_t已观测到的情况下声学特征y_t属于第c个高斯分布分量的后验概率。

S408，对应于说话人背景模型中的每个高斯分布分量，分别将各声学特征以该声学特征属于相应高斯分布分量的后验概率为权重计算加权和作为相应的第一一阶统计量。

其中，S404和S406包括于上述步骤S304。具体地，对应于说话人背景模型中的每个高斯分布分量c，分别将各声学特征y_t以该声学特征y_t属于相应高斯分布分量c的后验概率P(c|y_t，Ω)为权重计算加权和，将该加权和作为应高斯分布分量c所对应的第一一阶统计量。

更具体地，可采用如下公式(3)计算对应于高斯分布分量c的第一一阶统计量F_c(u)：

其中，u表示待处理语音数据；F_c(u)表示待处理语音数据u对应于高斯分布分量c的第一一阶统计量；y_t表示声学特征向量的L个声学特征中第t个声学特征；P(c|y_t，Ω)表示在说话人背景模型Ω和声学特征y_t已观测到的情况下声学特征y_t属于第c个高斯分布分量的后验概率。

S410，将第一零阶统计量和第一一阶统计量映射到统计量空间，获得对应说话人背景模型中每个高斯分布分量的参考一阶统计量和相应参考零阶统计量的第二商；统计量空间根据超过预设语音时长的语音样本所对应的统计量构建而成。

具体地，将第一零阶统计量N_c(u)和第一一阶统计量F_c(u)映射到统计量空间H，得到对应说话人背景模型中每个高斯分布分量c的参考一阶统计量F_c ^ref(u)和相应参考零阶统计量N_c ^ref(u)的第二商：F_c ^ref(u)/N_c ^ref(u)。

S412，将第一一阶统计量与相应第一零阶统计量的第三商，与相应高斯分布分量的第二商加权求和，得到对应说话人背景模型中每个高斯分布分量的修正一阶统计量和相应修正零阶统计量的第四商作为修正统计量。

具体地，可采用如下公式(4)计算对应于高斯分布分量c的修正统计量：

其中，

表示对应于高斯分布分量c的修正一阶统计量；

表示对应于高斯分布分量c的修正零阶统计量；R1和R2是权重；

表示对应于高斯分布分量c的第二商；

表示对应于高斯分布分量c的第三商。可限定R1和R2的和为1。

在一个实施例中，加权求和中，第三商的权重为相应高斯分布分量的第一零阶统计量除以相应的第一零阶统计量与可调参数的和，第二商的权重为可调参数除以相应高斯分布分量的第一零阶统计量与可调参数的和。

具体地，可采用如下公式(5)计算对应于高斯分布分量c的修正统计量：

其中，第三商

的权重为

是相应高斯分布分量c的第一零阶统计量N_c(u)除以相应的第一零阶统计量N_c(u)与可调参数q的和；第二商

的权重为

是可调参数q除以相应高斯分布分量c的第一零阶统计量N_c(u)与可调参数q的和。q取0.4～1时可达到很好的效果。本实施例中，通过调整可调参数，可以针对不同环境进行差异性调整，增加鲁棒性。

S414，根据修正统计量生成身份向量。

具体地，当

时可求得

按照如下公式(6)定义说话人背景模型的均值超向量m：

其中，μ₁、μ₂……μ_C分别是说话人背景模型各高斯分布分量的均值。

按照如下公式(7)定义对角矩阵形式的修正零阶统计量矩阵

其中，

分别是对应于说话人背景模型各高斯分布分量的修正零阶统计量。

按照如下公式(8)定义修正一阶统计量矩阵

其中，

分别是对应于说话人背景模型各高斯分布分量的修正一阶统计量。

在一个实施例中，可根据如下公式(9)计算身份向量

其中，I表示单位矩阵；T表示已知的全因子矩阵(Total Factor Matrix)；t表示转置；∑表示对角矩阵形式的协方差矩阵，∑的对角元素是各高斯分布分量的协方差；m表示说话人背景模型的均值超向量；

表示修正零阶统计量矩阵；

表示修正一阶统计量矩阵。

在一个实施例中，可对上述公式(9)进行变换，将涉及矩阵

和

的计算变换为涉及

和

的计算，而

本实施例中在得到

后可直接用来计算身份向量，不必构建矩阵

和

简化计算。

本实施例中，利用第一一阶统计量和第一零阶统计量可以更加准确地反映声学特征的特性，便于计算出准确的修正统计量。由于一阶统计量与相应零阶统计量的商基本保持在稳定的范围内，可以在确定修正统计量时直接进行线性加和，减少计算量。

图5为一个实施例中构建统计量空间的步骤的流程示意图。参照图5，构建统计量空间的步骤具体包括如下步骤

S502，获取超过预设语音时长的语音样本。

具体地，可从用于训练说话人背景模型的语音样本中筛选出语音时长超过预设语音时长的语音样本。

S504，按照语音样本中说话人类别统计对应于说话人背景模型中的每个高斯分布分量的第二零阶统计量和第二一阶统计量。

具体地，若获取的语音样本共有S个说话人类别，对于第s个说话人类别，参照上述公式(2)和(3)，分别统计对应于每个高斯分布分量c的第二零阶统计量

和第二一阶统计量

S506，计算第二一阶统计量和相应的第二零阶统计量的第一商。

具体地，对于每个说话类别s，分别计算对应于说话人背景模型中每个高斯分布分量c的第二一阶统计量

和相应的第二零阶统计量

的第一商

S508，根据计算出的第一商构建统计量空间。

具体地，可将对于每个说话类别s且对应于说话人背景模型中每个高斯分布分量c的第一商，按照说话人类别和对应的高斯分布分量依次排布形成表征统计量空间的矩阵。

本实施例中，基于第二一阶统计量和相应的第二零阶统计量的第一商建立统计量空间，由于一阶统计量与相应零阶统计量的商基本保持在稳定的范围内，便于将第一零阶统计量和第一一阶统计量映射到统计量空间的计算，提高计算效率。

在一个实施例中，S508包括：将计算出的第一商减去相应高斯分布分量的均值得到相应的差值；将得到的差值按照说话人类别和对应的高斯分布分量依次排布形成表征统计量空间的矩阵。

具体地，可按照如下公式(10)确定表征统计量空间的矩阵H：

其中，m表示说话人背景模型的均值超向量；

s∈[1，S]，表示第s个说话人类别对应的第二一阶统计量矩阵，

表示各第s个说话人类别的对应于说话人背景模型各高斯分布分量c的第二零阶统计量。

可表示为如下形式：

因此，上述公式(10)可变形为如下公式(11)

本实施例中，将计算出的第一商减去相应高斯分布分量的均值得到相应的差值，从而将得到的差值按照说话人类别和对应的高斯分布分量依次排布形成表征统计量空间的矩阵，使得构建出的统计量空间中心大致在统计量空间的原点处，便于计算，提高计算效率。

在一个实施例中，步骤S410具体包括：获取统计量空间的正交基向量；求取正交基向量的映射系数，正交基向量与映射系数的乘积加上相应高斯分布分量的均值后，与相应高斯分布分量的第三商之间的二范数距离最小化；将正交基向量乘以映射系数后加上相应高斯分布分量的均值，得到对应说话人背景模型中每个高斯分布分量的参考一阶统计量和相应参考零阶统计量的第二商。

具体地，统计量空间可通过特征值分解得到统计量空间的一组正交基向量F^eigen。可定义如下公式(12)的优化函数：

其中，N_c(u)表示对应于高斯分布分量c的第一零阶统计量；F_c(u)表示对应于高斯分布分量c的第一一阶统计量；

表示对应于高斯分布分量c的第三商；μ_c表示对应于高斯分布分量c的均值；F^eigen表示统计量空间H的正交基向量；

表示映射系数。

优化如公式(12)的优化函数，得到的最优的映射系数

如下公式(13)：

进一步地，按照如下公式(14)计算对应说话人背景模型中每个高斯分布分量的参考一阶统计量和相应参考零阶统计量的第二商：

本实施例中，可实现准确地将第一零阶统计量和第一一阶统计量映射到统计量空间。

在一个实施例中，待处理语音数据包括待验证语音数据和目标说话人类别的语音数据；步骤S312包括：根据与待验证语音数据对应的修正统计量生成待验证身份向量；根据与目标说话人类别的语音数据对应的修正统计量生成目标说话人身份向量。该身份向量生成方法还包括：计算待验证身份向量和目标说话人身份向量的相似度；根据相似度进行说话人身份验证。

具体地，说话人身份识别可以应用于多种需要认证未知用户身份的场景。说话人身份识别分为线下(off-line)和线上(on-line)两个阶段：线下阶段需要收集大量的非目标说话人类别的语音样本用于训练说话人身份识别系统，说话人身份识别系统包括身份向量提取模块与身份向量规整模块。

线上阶段又分为两个阶段：注册阶段与识别阶段。在注册阶段中，需要获取目标说话人的语音数据，将该语音数据进行预处理、特征提取与模型训练后，映射为一段定长的身份向量，该已知身份向量即是表征目标说话人身份的一个模型。而在识别阶段中，获取一段身份未知的待验证语音，将该待验证语音同样经过预处理、特征提取与模型训练后，映射为一段待验证身份向量。

目标说话人类别的身份向量与识别阶段的待验证身份向量接下来在相似度计算模块中计算相似度，将相似度与预先人工设定的一个门限值进行比较，若相似度大于等于门限值，则可判定待验证语音对应的身份与目标说话人身份匹配，身份验证通过。若相似度小于门限值，则可判定待验证语音对应的身份与目标说话人身份不匹配，身份验证未通过。相似度可采用余弦相似度、皮尔森相关系数或者欧氏距离等。

本实施例中，即使是语音时长很短的语音数据，通过本实施例的身份向量生成方法，依然可以生成身份识别性能较高的身份向量，不需要说话人说出太长的语音，使得短时文本无关说话人识别能够广泛推广。

图6为一个实施例中计算机设备600的结构框图。计算机设备600可用作服务器，也可以用作终端。服务器的内部结构可对应于如图2A所示的结构，终端的内部结构可对应于如图2B所示的结构。下述每个模块可全部或部分通过软件、硬件或其组合来实现。

如图6所示，计算机设备600包括声学特征提取模块610、统计量生成模块620、映射模块630、修正统计量确定模块640和身份向量生成模块650。

声学特征提取模块610，用于获取待处理语音数据；从待处理语音数据提取相应的声学特征。

统计量生成模块620，用于对各声学特征属于说话人背景模型中每个高斯分布分量的后验概率进行统计得到统计量。

映射模块630，用于将统计量映射到统计量空间获得参考统计量；统计量空间根据超过预设语音时长的语音样本所对应的统计量构建而成。

修正统计量确定模块640，用于根据统计得到的统计量和参考统计量确定修正统计量。

身份向量生成模块650，用于根据修正统计量生成身份向量。

上述计算机设备600，统计量空间根据超过预设语音时长的语音样本所对应的统计量构建而成，在对各声学特征属于说话人背景模型中每个高斯分布分量的后验概率进行统计得到统计量后，将该统计量映射到该统计量空间中，得到的参考统计量是先验统计量。利用先验统计量来对统计得到的统计量进行修正得到修正统计量，该修正统计量能够补偿因待处理语音数据的语音时长过短和语音稀疏的情况下导致的统计量偏估，提高身份向量的身份识别性能。

图7为一个实施例中统计量生成模块620的结构框图。本实施例中，统计得到的统计量包括第一零阶统计量和第一一阶统计量；统计量生成模块620包括：第一零阶统计量生成模块621和第一一阶统计量生成模块622。

第一零阶统计量生成模块621，用于对应于说话人背景模型中的每个高斯分布分量，分别统计各声学特征属于相应高斯分布分量的后验概率的总和作为相应的第一零阶统计量。

第一一阶统计量生成模块622，用于对应于说话人背景模型中的每个高斯分布分量，分别将各声学特征以该声学特征属于相应高斯分布分量的后验概率为权重计算加权和作为相应的第一一阶统计量。

图8为另一个实施例中计算机设备600的结构框图。计算机设备600还包括：统计量统计模块660和统计量空间构建模块670。

统计量统计模块660，用于获取超过预设语音时长的语音样本；按照语音样本中说话人类别统计对应于说话人背景模型中的每个高斯分布分量的第二零阶统计量和第二一阶统计量。

统计量空间构建模块670，用于计算第二一阶统计量和相应的第二零阶统计量的第一商；根据计算出的第一商构建统计量空间。

在一个实施例中，统计量空间构建模块670还用于将计算出的第一商减去相应高斯分布分量的均值得到相应的差值；将得到的差值按照说话人类别和对应的高斯分布分量依次排布形成表征统计量空间的矩阵。

在一个实施例中，参考统计量包括对应说话人背景模型中每个高斯分布分量的参考一阶统计量和相应参考零阶统计量的第二商；修正统计量确定模块640还用于将第一一阶统计量与相应第一零阶统计量的第三商，与相应高斯分布分量的第二商加权求和，得到对应说话人背景模型中每个高斯分布分量的修正一阶统计量和相应修正零阶统计量的第四商作为修正统计量。

在一个实施例中，修正统计量确定模块640用于加权求和时，第三商的权重为相应高斯分布分量的第一零阶统计量除以相应的第一零阶统计量与可调参数的和，第二商的权重为可调参数除以相应高斯分布分量的第一零阶统计量与可调参数的和。本实施例中，通过调整可调参数，可以针对不同环境进行差异性调整，增加鲁棒性。

在一个实施例中，映射模块630还用于获取统计量空间的正交基向量；求取正交基向量的映射系数，正交基向量与映射系数的乘积加上相应高斯分布分量的均值后，与相应高斯分布分量的第三商之间的二范数距离最小化；将正交基向量乘以映射系数后加上相应高斯分布分量的均值，得到对应说话人背景模型中每个高斯分布分量的参考一阶统计量和相应参考零阶统计量的第二商。

在一个实施例中，待处理语音数据包括待验证语音数据和目标说话人类别的语音数据；身份向量生成模块650还用于根据与待验证语音数据对应的修正统计量生成待验证身份向量；根据与目标说话人类别的语音数据对应的修正统计量生成目标说话人身份向量。

图9为再一个实施例中计算机设备600的结构框图。本实施例中计算机设备600还包括：说话人身份验证模块680，用于计算待验证身份向量和目标说话人身份向量的相似度；根据相似度进行说话人身份验证。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，所述存储器中储存有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行以下步骤：获取待处理语音数据；从所述待处理语音数据提取相应的声学特征；对各所述声学特征属于说话人背景模型中每个高斯分布分量的后验概率进行统计得到统计量；将所述统计量映射到统计量空间获得参考统计量；所述统计量空间根据超过预设语音时长的语音样本所对应的统计量构建而成；根据统计得到的所述统计量和所述参考统计量确定修正统计量；及根据所述修正统计量生成身份向量。

在一个实施例中，统计得到的所述统计量包括第一零阶统计量和第一一阶统计量；所述对各所述声学特征属于说话人背景模型中每个高斯分布分量的后验概率进行统计得到统计量包括：对应于说话人背景模型中的每个高斯分布分量，分别统计各所述声学特征属于相应高斯分布分量的后验概率的总和作为相应的第一零阶统计量；及对应于说话人背景模型中的每个高斯分布分量，分别将各所述声学特征以该声学特征属于相应高斯分布分量的后验概率为权重计算加权和作为相应的第一一阶统计量。

在一个实施例中，计算机可读指令还使得处理器执行以下步骤：获取超过预设语音时长的语音样本；按照所述语音样本中说话人类别统计对应于说话人背景模型中的每个高斯分布分量的第二零阶统计量和第二一阶统计量；计算所述第二一阶统计量和相应的第二零阶统计量的第一商；及根据计算出的第一商构建统计量空间。

在一个实施例中，所述根据计算出的第一商构建统计量空间包括：将计算出的第一商减去相应高斯分布分量的均值得到相应的差值；及将得到的差值按照说话人类别和对应的高斯分布分量依次排布形成表征统计量空间的矩阵。

在一个实施例中，所述参考统计量包括对应所述说话人背景模型中每个高斯分布分量的参考一阶统计量和相应参考零阶统计量的第二商；所述根据统计得到的所述统计量和所述参考统计量确定修正统计量包括：将所述第一一阶统计量与相应第一零阶统计量的第三商，与相应高斯分布分量的所述第二商加权求和，得到对应所述说话人背景模型中每个高斯分布分量的修正一阶统计量和相应修正零阶统计量的第四商作为修正统计量。

在一个实施例中，所述加权求和中，所述第三商的权重为相应高斯分布分量的第一零阶统计量除以相应的第一零阶统计量与可调参数的和，所述第二商的权重为所述可调参数除以所述相应高斯分布分量的第一零阶统计量与所述可调参数的和。

在一个实施例中，所述将所述统计量映射到统计量空间获得参考统计量包括：获取所述统计量空间的正交基向量；求取所述正交基向量的映射系数，所述正交基向量与所述映射系数的乘积加上相应高斯分布分量的均值后，与相应高斯分布分量的第三商之间的二范数距离最小化；及将所述正交基向量乘以所述映射系数后加上相应高斯分布分量的均值，得到对应所述说话人背景模型中每个高斯分布分量的参考一阶统计量和相应参考零阶统计量的第二商。

在一个实施例中，所述待处理语音数据包括待验证语音数据和目标说话人类别的语音数据；所述根据所述修正统计量生成身份向量包括：根据与所述待验证语音数据对应的修正统计量生成待验证身份向量；及根据与目标说话人类别的语音数据对应的修正统计量生成目标说话人身份向量；所述计算机可读指令还使得所述处理器执行以下步骤：计算所述待验证身份向量和所述目标说话人身份向量的相似度；及根据所述相似度进行说话人身份验证。

上述计算机设备，统计量空间根据超过预设语音时长的语音样本所对应的统计量构建而成，在对各声学特征属于说话人背景模型中每个高斯分布分量的后验概率进行统计得到统计量后，将该统计量映射到该统计量空间中，得到的参考统计量是先验统计量。利用先验统计量来对统计得到的统计量进行修正得到修正统计量，该修正统计量能够补偿因待处理语音数据的语音时长过短和语音稀疏的情况下导致的统计量偏估，提高身份向量的身份识别性能。

在一个实施例中，提供了一个或多个存储有计算机可读指令的非易失性的计算机可读存储介质，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行以下步骤：获取待处理语音数据；从所述待处理语音数据提取相应的声学特征；对各所述声学特征属于说话人背景模型中每个高斯分布分量的后验概率进行统计得到统计量；将所述统计量映射到统计量空间获得参考统计量；所述统计量空间根据超过预设语音时长的语音样本所对应的统计量构建而成；根据统计得到的所述统计量和所述参考统计量确定修正统计量；及根据所述修正统计量生成身份向量。

上述计算机可读存储介质，统计量空间根据超过预设语音时长的语音样本所对应的统计量构建而成，在对各声学特征属于说话人背景模型中每个高斯分布分量的后验概率进行统计得到统计量后，将该统计量映射到该统计量空间中，得到的参考统计量是先验统计量。利用先验统计量来对统计得到的统计量进行修正得到修正统计量，该修正统计量能够补偿因待处理语音数据的语音时长过短和语音稀疏的情况下导致的统计量偏估，提高身份向量的身份识别性能。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，该存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

一种身份向量生成方法，包括：

获取待处理语音数据；

从所述待处理语音数据提取相应的声学特征；

对各所述声学特征属于说话人背景模型中每个高斯分布分量的后验概率进行统计得到统计量；

将所述统计量映射到统计量空间获得参考统计量；所述统计量空间根据超过预设语音时长的语音样本所对应的统计量构建而成；

根据统计得到的所述统计量和所述参考统计量确定修正统计量；及

根据所述修正统计量生成身份向量。
根据权利要求1所述的方法，其特征在于，统计得到的所述统计量包括第一零阶统计量和第一一阶统计量；所述对各所述声学特征属于说话人背景模型中每个高斯分布分量的后验概率进行统计得到统计量包括：

对应于说话人背景模型中的每个高斯分布分量，分别统计各所述声学特征属于相应高斯分布分量的后验概率的总和作为相应的第一零阶统计量；及

对应于说话人背景模型中的每个高斯分布分量，分别将各所述声学特征以该声学特征属于相应高斯分布分量的后验概率为权重计算加权和作为相应的第一一阶统计量。
根据权利要求2所述的方法，其特征在于，还包括：

获取超过预设语音时长的语音样本；

按照所述语音样本中说话人类别统计对应于说话人背景模型中的每个高斯分布分量的第二零阶统计量和第二一阶统计量；

计算所述第二一阶统计量和相应的第二零阶统计量的第一商；及

根据计算出的第一商构建统计量空间。
根据权利要求3所述的方法，其特征在于，所述根据计算出的第一商构建统计量空间包括：

将计算出的第一商减去相应高斯分布分量的均值得到相应的差值；及

将得到的差值按照说话人类别和对应的高斯分布分量依次排布形成表征统计量空间的矩阵。
根据权利要求2所述的方法，其特征在于，所述参考统计量包括对应所述说话人背景模型中每个高斯分布分量的参考一阶统计量和相应参考零阶统计量的第二商；所述根据统计得到的所述统计量和所述参考统计量确定修正统计量包括：

将所述第一一阶统计量与相应第一零阶统计量的第三商，与相应高斯分布分量的所述第二商加权求和，得到对应所述说话人背景模型中每个高斯分布分量的修正一阶统计量和相应修正零阶统计量的第四商作为修正统计量。
根据权利要求5所述的方法，其特征在于，所述加权求和中，所述第三商的权重为相应高斯分布分量的第一零阶统计量除以相应的第一零阶统计量与可调参数的和，所述第二商的权重为所述可调参数除以所述相应高斯分布分量的第一零阶统计量与所述可调参数的和。
根据权利要求5所述的方法，其特征在于，所述将所述统计量映射到统计量空间获得参考统计量包括：

获取所述统计量空间的正交基向量；

求取所述正交基向量的映射系数，所述正交基向量与所述映射系数的乘积加上相应高斯分布分量的均值后，与相应高斯分布分量的第三商之间的二范数距离最小化；及

将所述正交基向量乘以所述映射系数后加上相应高斯分布分量的均值，得到对应所述说话人背景模型中每个高斯分布分量的参考一阶统计量和相应参考零阶统计量的第二商。
根据权利要求1所述的方法，其特征在于，所述待处理语音数据包括待验证语音数据和目标说话人类别的语音数据；所述根据所述修正统计量生成身份向量包括：

根据与所述待验证语音数据对应的修正统计量生成待验证身份向量；及

根据与目标说话人类别的语音数据对应的修正统计量生成目标说话人身份向量；

所述方法还包括：

计算所述待验证身份向量和所述目标说话人身份向量的相似度；及

根据所述相似度进行说话人身份验证。
一种计算机设备，包括存储器和处理器，所述存储器中储存有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行以下步骤：

获取待处理语音数据；

从所述待处理语音数据提取相应的声学特征；

对各所述声学特征属于说话人背景模型中每个高斯分布分量的后验概率进行统计得到统计量；

将所述统计量映射到统计量空间获得参考统计量；所述统计量空间根据超过预设语音时长的语音样本所对应的统计量构建而成；

根据统计得到的所述统计量和所述参考统计量确定修正统计量；及

根据所述修正统计量生成身份向量。
根据权利要求9所述的计算机设备，其特征在于，统计得到的所述统计量包括第一零阶统计量和第一一阶统计量；所述对各所述声学特征属于说话人背景模型中每个高斯分布分量的后验概率进行统计得到统计量包括：

对应于说话人背景模型中的每个高斯分布分量，分别统计各所述声学特征属于相应高斯分布分量的后验概率的总和作为相应的第一零阶统计量；及

对应于说话人背景模型中的每个高斯分布分量，分别将各所述声学特征以该声学特征属于相应高斯分布分量的后验概率为权重计算加权和作为相应的第一一阶统计量。
根据权利要求10所述的计算机设备，其特征在于，所述计算机可读指令还使得所述处理器执行以下步骤：

获取超过预设语音时长的语音样本；

按照所述语音样本中说话人类别统计对应于说话人背景模型中的每个高斯分布分量的第二零阶统计量和第二一阶统计量；

计算所述第二一阶统计量和相应的第二零阶统计量的第一商；及

根据计算出的第一商构建统计量空间。
根据权利要求11所述的计算机设备，其特征在于，所述根据计算出的第一商构建统计量空间包括：

将计算出的第一商减去相应高斯分布分量的均值得到相应的差值；及

将得到的差值按照说话人类别和对应的高斯分布分量依次排布形成表征统计量空间的矩阵。
根据权利要求10所述的计算机设备，其特征在于，所述参考统计量包括对应所述说话人背景模型中每个高斯分布分量的参考一阶统计量和相应参考零阶统计量的第二商；所述根据统计得到的所述统计量和所述参考统计量确定修正统计量包括：

将所述第一一阶统计量与相应第一零阶统计量的第三商，与相应高斯分布分量的所述第二商加权求和，得到对应所述说话人背景模型中每个高斯分布分量的修正一阶统计量和相应修正零阶统计量的第四商作为修正统计量。
根据权利要求13所述的计算机设备，其特征在于，所述加权求和中，所述第三商的权重为相应高斯分布分量的第一零阶统计量除以相应的第一零阶统计量与可调参数的和，所述第二商的权重为所述可调参数除以所述相应高斯分布分量的第一零阶统计量与所述可调参数的和。
根据权利要求13所述的计算机设备，其特征在于，所述将所述统计量映射到统计量空间获得参考统计量包括：

获取所述统计量空间的正交基向量；

求取所述正交基向量的映射系数，所述正交基向量与所述映射系数的乘积加上相应高斯分布分量的均值后，与相应高斯分布分量的第三商之间的二范数距离最小化；及

将所述正交基向量乘以所述映射系数后加上相应高斯分布分量的均值，得到对应所述说话人背景模型中每个高斯分布分量的参考一阶统计量和相应参考零阶统计量的第二商。
根据权利要求9所述的计算机设备，其特征在于，所述待处理语音数据包括待验证语音数据和目标说话人类别的语音数据；所述根据所述修正统计量生成身份向量包括：

根据与所述待验证语音数据对应的修正统计量生成待验证身份向量；及

根据与目标说话人类别的语音数据对应的修正统计量生成目标说话人身份向量；

所述计算机可读指令还使得所述处理器执行以下步骤：

计算所述待验证身份向量和所述目标说话人身份向量的相似度；及

根据所述相似度进行说话人身份验证。
一个或多个存储有计算机可读指令的非易失性的计算机可读存储介质，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行以下步骤：

获取待处理语音数据；

从所述待处理语音数据提取相应的声学特征；

对各所述声学特征属于说话人背景模型中每个高斯分布分量的后验概率进行统计得到统计量；

将所述统计量映射到统计量空间获得参考统计量；所述统计量空间根据超过预设语音时长的语音样本所对应的统计量构建而成；

根据统计得到的所述统计量和所述参考统计量确定修正统计量；及

根据所述修正统计量生成身份向量。
根据权利要求17所述的计算机可读存储介质，其特征在于，统计得到的所述统计量包括第一零阶统计量和第一一阶统计量；所述对各所述声学特征属于说话人背景模型中每个高斯分布分量的后验概率进行统计得到统计量包括：

对应于说话人背景模型中的每个高斯分布分量，分别统计各所述声学特征属于相应高斯分布分量的后验概率的总和作为相应的第一零阶统计量；及

对应于说话人背景模型中的每个高斯分布分量，分别将各所述声学特征以该声学特征属于相应高斯分布分量的后验概率为权重计算加权和作为相应的第一一阶统计量。
根据权利要求18所述的计算机可读存储介质，其特征在于，所述计算机可读指令还使得所述处理器执行以下步骤：

获取超过预设语音时长的语音样本；

按照所述语音样本中说话人类别统计对应于说话人背景模型中的每个高斯分布分量的第二零阶统计量和第二一阶统计量；

计算所述第二一阶统计量和相应的第二零阶统计量的第一商；及

根据计算出的第一商构建统计量空间。
根据权利要求19所述的计算机可读存储介质，其特征在于，所述根据计算出的第一商构建统计量空间包括：

将计算出的第一商减去相应高斯分布分量的均值得到相应的差值；及

将得到的差值按照说话人类别和对应的高斯分布分量依次排布形成表征统计量空间的矩阵。
根据权利要求18所述的计算机可读存储介质，其特征在于，所述参考统计量包括对应所述说话人背景模型中每个高斯分布分量的参考一阶统计量和相应参考零阶统计量的第二商；所述根据统计得到的所述统计量和所述参考统计量确定修正统计量包括：

将所述第一一阶统计量与相应第一零阶统计量的第三商，与相应高斯分布分量的所述第二商加权求和，得到对应所述说话人背景模型中每个高斯分布分量的修正一阶统计量和相应修正零阶统计量的第四商作为修正统计量。
根据权利要求21所述的计算机可读存储介质，其特征在于，所述加权求和中，所述第三商的权重为相应高斯分布分量的第一零阶统计量除以相应的第一零阶统计量与可调参数的和，所述第二商的权重为所述可调参数除以所述相应高斯分布分量的第一零阶统计量与所述可调参数的和。
根据权利要求21所述的计算机可读存储介质，其特征在于，所述将所述统计量映射到统计量空间获得参考统计量包括：

获取所述统计量空间的正交基向量；

求取所述正交基向量的映射系数，所述正交基向量与所述映射系数的乘积加上相应高斯分布分量的均值后，与相应高斯分布分量的第三商之间的二范数距离最小化；及

将所述正交基向量乘以所述映射系数后加上相应高斯分布分量的均值，得到对应所述说话人背景模型中每个高斯分布分量的参考一阶统计量和相应参考零阶统计量的第二商。
根据权利要求17所述的计算机可读存储介质，其特征在于，所述待处理语音数据包括待验证语音数据和目标说话人类别的语音数据；所述根据所述修正统计量生成身份向量包括：

根据与所述待验证语音数据对应的修正统计量生成待验证身份向量；及

根据与目标说话人类别的语音数据对应的修正统计量生成目标说话人身份向量；

所述计算机可读指令还使得所述处理器执行以下步骤：

计算所述待验证身份向量和所述目标说话人身份向量的相似度；及

根据所述相似度进行说话人身份验证。