WO2020220541A1

WO2020220541A1 - 一种识别说话人的方法及终端

Info

Publication number: WO2020220541A1
Application number: PCT/CN2019/103299
Authority: WO
Inventors: 张丝潆; 曾庆亮; 王健宗
Original assignee: 平安科技（深圳）有限公司
Priority date: 2019-04-29
Filing date: 2019-08-29
Publication date: 2020-11-05
Also published as: CN110111798A; CN110111798B

Abstract

一种识别说话人的方法及终端，该方法包括：获取待测者针对基准数字串说出的待识别的音频信息（S101）；音频信息包括数字串；提取音频信息的扬声器潜变量以及数字潜变量（S102）；扬声器潜变量用于标识扬声器的特征信息，数字潜变量用于标识音频信息中待测者对数字的发音特征；当扬声器潜变量符合预设要求时，将数字潜变量输入预设的贝叶斯模型进行声纹识别，得到身份识别结果（103）。该方法基于音频信息中的扬声器潜变量以及数字潜变量识别说话人的身份信息，能够避免因不同扬声器对于相同的数字具有不同的发音，以及说话人对于相同数字在不同时刻的发音不同，从而干扰身份识别结果的情况，能够提高身份识别结果的准确度。

Description

一种识别说话人的方法及终端

本申请要求于2019年04月29日提交中国专利局、申请号为201910354414.7、发明名称为“一种识别说话人的方法及终端”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请属于计算机技术领域，尤其涉及一种识别说话人的方法及终端。

背景技术

随着信息技术和网络技术的迅猛发展，人们对身份识别技术的需求越来越多。基于传统密码认证的身份识别技术在实际应用中已经暴露出许多不足之处(例如安全可靠性较低)，而基于生物特征辨别的身份识别技术近年来也日益成熟并在实际应用中展现出其优越性。其中，声纹识别技术便是基于生物特征辨别的身份识别技术之一。

声纹是指说话人语音频谱的信息图。由于每个人的发音器官不同，所发出来的声音及其音调各不相同，因此，以声纹作为基本特征进行身份识别具有不可替代性和稳定性。声纹识别有文本相关的(Text-Dependent)和文本无关的(Text-Independent)两种。

与语音内容不受约束的文本无关的说话人识别相反，文本相关的说话人验证系统更有利于安全应用，因为它们在短时会话中往往能够表现出更高的准确性。

典型的文本相关说话人识别是让每个用户使用固定短语，来匹配注册和测试短语。对于这种情况，可以预先记录来自用户的话语，然后播放它。在训练和测试话语具有不同场景的情况下，通过共享相同的语音内容，可以在一定程度上提高识别防护的安全性，系统会随机给出一些数字串，用户需正确念出对应的内容才可识别声纹，这种随机性的引入使得文本相关识别中每一次采集到的声纹都有内容时序上的差异。然而，在使用随机提示数字串识别说话人时，由于部分样本数字词汇固定且数字样本有限，而且对于相同的数字，不同的扬声器具有不同的发音，这样会导致无法准确识别说话人的身份。

技术问题

本申请实施例提供了一种识别说话人的方法及终端，以解决现有技术中，对于复杂的声纹语音信息(例如，短话音、模仿语音等)，文本无关型的声纹识别系统无法准确提取说话人的语音特征，从而导致无法准确识别说话人的身份的问题。

技术解决方案

有鉴于此，本申请实施例提供了一种识别说话人的方法及终端，以解决现有技术中，对于复杂的声纹语音信息(例如，短话音、模仿语音等)，文本无关型的声纹识别系统无法准确提取说话人的语音特征，从而导致无法准确识别说话人的身份的问题。

本申请实施例的第一方面提供了一种识别说话人的方法，包括：

获取待测者针对基准数字串说出的待识别的音频信息；其中，所述基准数字串是预先存储，并随机播放或随机显示，所述音频信息包括所述待测者说出的数字串对应的音频；

提取所述音频信息的扬声器潜变量以及数字潜变量；其中，所述扬声器潜变量用于标识扬声器的特征信息，所述数字潜变量在确认所述待测者说出的数字串与所述基准数字串相同时提取，所述数字潜变量用于标识所述音频信息中所述待测者对数字的发音特征；

当所述扬声器潜变量符合预设要求时，将所述数字潜变量输入预设的贝叶斯模型进行声纹识别，得到身份识别结果；其中，所述预设要求基于清晰可辨认的音频信息所对应的扬声器潜变量的值进行设置；所述贝叶斯模型是通过使用机器学习算法对声音样本集中单一说话者说出每个数字的数字潜变量进行训练得到；所述每个数字潜变量具有标识该数字潜变量所属的说话者的身份标签；所述贝叶斯模型与所述声音样本集中的所述单一说话者具有对应关系。

本申请实施例的第二方面提供了一种终端，包括：

获取单元，用于获取待测者针对基准数字串说出的待识别的音频信息；其中，所述基准数字串是预先存储，并随机播放或随机显示，所述音频信息包括所述待测者说出的数字串对应的音频；

提取单元，用于提取所述音频信息的扬声器潜变量以及数字潜变量；其中，所述扬声器潜变量用于标识扬声器的特征信息，所述数字潜变量在确认所述待测者说出的数字串与所述基准数字串相同时提取，所述数字潜变量用于标识所述音频信息中所述待测者对数字的发音特征；

识别单元，用于当所述扬声器潜变量符合预设要求时，将所述数字潜变量输入预设的贝叶斯模型进行声纹识别，得到身份识别结果；其中，所述贝叶斯模型是通过使用机器学习算法对声音样本集中单一说话者说出每个数字的数字潜变量进行训练得到；所述每个数字潜变量具有标识该数字潜变量对应所属的说话者的身份标签；所述贝叶斯模型与所述声音样本集中的所述单一说话者具有对应关系。

本申请实施例的第三方面提供了一种终端，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现以下步骤：

本申请实施例的第四方面提供了一种计算机非易失性可读存储介质，所述计算机非易失性可读存储介质存储有计算机可读指令，所述计算机可读指令被处理器执行时实现以下步骤：

有益效果

本申请实施例，通过提取待识别的音频信息的扬声器潜变量以及数字潜变量；当扬声器潜变量符合要求时，将数字潜变量输入预设的贝叶斯模型进行声纹识别，得到身份识别结果。由于预设要求是基于清晰可辨认的音频信息所对应的扬声器潜变量的值进行设置，当音频信息中的扬声器潜变量符合预设要求时，可以排除扬声器本身性能对数字发音对身份识别结果的干扰，此时基于待测者说出的每个数字的数字潜变量识别说话人的身份信息，由于每个数字的数字潜变量可以有多个，因此，即时说话人在不同时刻对于相同数字发音不同，也能够准确识别说话人的身份，能够避免因不同的扬声器对于相同的数字具有不同的发音，以及说话人对于相同数字在不同时刻的发音不同，从而干扰身份识别结果的情况，能够提高身份识别结果的准确度。

附图说明

图1是本申请一实施例提供的一种识别说话人的方法的实现流程图；

图2是本申请另一实施例提供的一种识别说话人的方法的实现流程图；

图3是本申请一实施例提供的零假设和备择假设的示意图；

图4是本申请一实施例提供的一种终端的示意图；

图5是本申请另一实施例提供的一种终端的示意图。

本发明的实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

请参见图1，图1是本申请实施例提供的一种识别说话人的方法的实现流程图。本实施例中识别说话人的方法的执行主体为终端。终端包括但不限于智能手机、平板电脑、可穿戴设备等移动终端，还可以是台式电脑等。如图所示的识别说话人的方法可包括：

S101：获取待测者针对基准数字串说出的待识别的音频信息；其中，所述基准数字串是预先存储，并随机播放或随机显示，所述音频信息包括所述待测者说出的数字串对应的音频。

终端在检测到说话人识别指令时，可以通过内置的声音拾取装置(例如，麦克风、扬声器)获取周围环境中的说话人发出的待识别的音频信息，此时，说话人发出的音频信息是依据终端随机给出的基准数字串发出；或者终端根据说话人识别指令中包含的文件标识获取该文件标识对应的音频文件或视频文件，并提取音频文件或视频文件中的音频信息，将其识别为待识别的音频信息。音频文件或视频文件中包含待测者念出基准数字串得到的音频信息，音频文件或视频文件可以是用户上传的，也可以从用于存储音频文件或视频文件的服务器中下载得到。基准数字串是预先存储在终端中，并由终端随机播放或随机显示。基准数字串的数量可以包括多个。

待识别的音频信息包括数字串对应的音频，数字串由至少一个数字组成。

S102：提取所述音频信息的扬声器潜变量以及数字潜变量；其中，所述扬声器潜变量在确认所述待测者说出的数字串与所述基准数字串相同时提取，所述数字潜变量用于标识扬声器的特征信息，所述数字潜变量用于标识所述音频信息中所述待测者对数字的发音特征。

终端基于获取到的音频信息，计算音频信息的扬声器变量。扬声器潜变量包括但不限于信噪比，还可以包括扬声器的效率、声压级等。

信噪比(signal-to-noise ratio)是描述信号中有效成分与噪声成分的比例关系参数。其中，扬声器的信噪比越高，扬声器拾取的声音越清晰。例如，终端从音频信息中提取正常的声音信号以及无信号时的噪声信号，基于正常的声音信号以及噪声信号，计算音频信息的信噪比。

终端可以将获取到的音频信息输入预先训练好的深度神经网络(Deep Neural Networks,DNN)模型，通过深度神经网络提取音频信息中每个数字的数字潜变量。数字潜变量用于标识同一数字的发音特征。同一个数字可以具有至少两个不同的数字潜变量，即具有至少两个不同的发音。例如，数字“1”的发音包括“一”、“幺”等。

本实施例中，深度神经网络模型包括输入层、隐含层和输出层。输入层包括一个输入层节点，用于从外部接收输入的音频信息。隐含层包括两个以上的隐含层节点，用于对音频信息进行处理，提取音频信息的数字潜变量。输出层用于输出处理结果，即输出音频信息的数字潜变量。

深度神经网络模型基于声音样本集训练得到，声音样本集中包括说话人说出每个数字对应的声音样本。说话人的数目可以为多个，例如500或1500，在一定程度上训练的样本数量越多，使用训练得到的神经网络模型进行识别时，结果越准确。声音样本中包括预设数目的声音样本，每个声音样本具有标记的数字潜变量，每个数字潜变量与样本标签一一对应。声音样本可以只包括一个数字，声音样本集中的每个数字可以对应有至少两个数字潜变量。声音样本包括的数字包括所有可能随机生成的基准数字串包含的数字。例如，随机生成的基准数字串包括0～9，10个数字中的任意6个数字时，声音样本集中包括0～9这10个数字的声音样本。

在训练的过程中，输入深度神经网络模型的输入数据为音频信息，该音频信息可以是基于音频信息得到的向量矩阵，向量矩阵由依次从音频信息中提取的包含数字的音频数据对应的向量组成。深度神经网络模型的输出数据为音频信息中每个数字的数字潜变量。

可以理解的是，一个说话人对应一个神经网络识别模型，当需要识别多个说话人时，训练多个说话人各自对应的神经网络识别模型。

终端在提取出扬声器潜变量时，基于预设条件判断提取的扬声器潜变量是否符合预设要求。预设条件用于判断音频信息中的声音是否清晰能够辨认，预设条件可以基于清晰能够辨认的声音所对应的扬声器潜变量的值进行设置。例如，当扬声器潜变量为信噪比时，预设条件可以是信噪比大于或等于预设信噪比阈值。预设信噪比阈值为清晰能够辨认的声音所对应的信噪比。

当扬声器潜变量符合要求时，执行S103；当扬声器潜变量不符合要求时，可以返回S101，也可以输出身份识别结果为当前的说话人与基准数字串对应的说话人不匹配。

S103：当所述扬声器潜变量符合预设要求时，将所述数字潜变量输入预设的贝叶斯模型进行声纹识别，得到身份识别结果；其中，所述预设要求基于清晰可辨认的音频信息所对应的扬声器潜变量的值进行设置；所述贝叶斯模型是通过使用机器学习算法对声音样本集中单一说话者说出每个数字的数字潜变量进行训练得到；所述每个数字潜变量具有标识该数字潜变量所属的说话者的身份标签；所述贝叶斯模型与所述声音样本集中的所述单一说话者具有对应关系。

例如，当说话人说出某数字具有该数字潜变量时，那么，该数字潜变量的身份标签表示：说出该数字的说话人的身份。

在本实施例中，预设的贝叶斯模型的表达式如下：

p(x _ijk|u _i,v _j,θ)＝N(x _ijk|μ+u _i+v _j,∑ _ε)；其中，p(u _i)＝N(u _i|0,∑ _u)；p(v _j)＝N(v _j|0,∑ _v)。

其中，p(x _ijk|u _i,v _j,θ)表示一个人说了一个数字的概率，x _ijk表示在第k个会话中第i个人说了第j个数字。由于做身份验证或者录入信息时，可能会要求说话人说多次不同的数字串，因此，k表示第k个会话，θ是贝叶斯模型中参数的统称。条件概率N(x _ijk|μ+u _i+v _j,∑ _ε)表示符合均值为μ+u _i+v _j，方差为∑ _ε的高斯分布；∑ _ε表示ε的对角协方差；信号分量x _ijk＝μ+u _i+v _j+ _εijk，即代表信号分量x _ijk取决于说话人和数字；噪声分量ε _ijk表示在第k个会话中第i个人说第j个数字的偏差或噪声，μ表示训练向量的总体平均值。

u _i表示说话者i的数字潜在变量，u _i被定义为具有对角协方差∑ _u的高斯，p(u _i)表示说话人是i的概率，N(u _i|0,∑ _u)是关于∑ _u的高斯分布；v _j表示说话者j的数字潜在变量，是v _j被定义为具有对角协方差∑ _v的高斯，p(v _j)表示是说话人j的概率，N(v _j|0,∑ _v)是关于∑ _v的高斯分布。

形式上，贝叶斯模型可以用条件概率来描述N(x|μ，Σ)表示x中的高斯，具有平均μ和协方差Σ。

终端在完成迭代计算说话人说了音频信息中包含的每个数字各自对应概率时，基于每次迭代计算得到的每个数字对应概率对说话人进行身份识别，得到身份识别结果。

例如，迭代总次数为10次，说话者i说了一个数字的概率大于或等于预设概率阈值(例如0.8)时，记1分，说话者i说了一个数字的概率小于预设概率阈值(例如0.8)时，记0分，统计10次迭代计算后说话者i的总得分，当总得分大于或等于预设分值阈值(例如7分)时，判定音频信息对应的说话人为说话者i。

本申请实施例，通过提取待识别的音频信息的扬声器潜变量以及数字潜变量；当扬声器潜变量符合要求时，将数字潜变量输入预设的贝叶斯模型进行声纹识别，得到身份识别结果。由于预设要求是基于清晰可辨认的音频信息所对应的扬声器潜变量的值进行设置，当音频信息中的扬声器潜变量符合预设要求时，可以排除因扬声器本身对数字发音因的不同而对身份识别结果的干扰，此时基于待测者说出的每个数字的数字潜变量识别说话人的身份信息，由于每个数字的数字潜变量可以有多个，因此，即时说话人在不同时刻对于相同数字发音不同，也能够准确识别说话人的身份，能够避免因不同的扬声器对于相同的数字具有不同的发音，以及说话人对于相同数字在不同时刻的发音不同，从而干扰身份识别结果的情况，能够提高身份识别结果的准确度。

请参见图2，图2是本申请另一实施例提供的一种识别说话人的方法的实现流程图。本实施例中识别说话人的方法的执行主体为终端。终端包括但不限于智能手机、平板电脑、可穿戴设备等移动终端，还可以是台式电脑等。本实施例的识别说话人的方法包括以下步骤：

S201：获取待测者针对基准数字串说出的待识别的音频信息；其中，所述基准数字串是预先存储，并随机播放或随机显示，所述音频信息包括所述待测者说出的数字串对应的音频。

本实施例中S201与上一实施例中S101相同，具体请参阅上一实施例中S101的相关描述，此处不赘述。

S202：提取所述音频信息的扬声器潜变量以及数字潜变量；其中，所述扬声器潜变量在确认所述待测者说出的数字串与所述基准数字串相同时提取，所述数字潜变量用于标识扬声器的特征信息，所述数字潜变量用于标识所述音频信息中所述待测者对数字的发音特征。

本实施例中S202与上一实施例中S102相同，具体请参阅上一实施例中S102的相关描述，此处不赘述。

进一步地，S202可以包括S2021～S2023。具体如下：

S2021：从所述音频信息中提取扬声器潜变量，并基于所述扬声器潜变量的值检测音频信息是否合格。

具体地，终端可以从待识别的音频信息中提取扬声器潜变量，并基于提取的扬声器潜变量的值、预设的扬声器潜变量阈值，检测音频信息是否合格，以确认音频信息中的声音是否清晰能够辨认。扬声器潜变量用于标识扬声器的特征信息。扬声器潜变量包括但不限于信噪比，还可以包括扬声器的效率、声压级等。预设的扬声器潜变量阈值是基于清晰可辨认的音频信息所对应的扬声器潜变量的值进行设置。

信噪比是描述信号中有效成分与噪声成分的比例关系参数。扬声器的信噪比越高，扬声器拾取的声音越清晰。例如，终端从音频信息中提取正常的声音信号以及无信号时的噪声信号，基于正常的声音信号以及噪声信号，计算音频信息的信噪比。

例如，当扬声器潜变量为信噪比时，终端在检测到扬声器的信噪比的值大于或等于70时，判定待识别的音频信息合格，可清晰辨认音频信息中的数字。

当检测结果为音频信息不合格时，提示说话者重读随机的基准数字串，以重新获取音频信息；或者从存储音频数据对应的数据库中重新获取待识别的音频信息。其中，基准数字串是终端在识别说话人身份的过程中随机生成或从数据库中随机获取，并提示给用户的数字串，终端可以在S101之前终端随机播放或显示该基准数字串，当采用语音播报的方式播放基准数字串时，以标准发音播放基准数字串。基准数字串包括预设数目的数字，例如，基准数字串中包括5或6个数字。

当检测结果为音频信息合格时，执行S2022。

S2022：当所述音频信息合格时，基于所述基准数字串以及所述待测者说出的数字串对应的音频，检测所述待测者说出的数字串与所述基准数字串是否相同。

当检测结果为音频信息合格时，终端可以从音频信息中依次提取包含数字的语音片段，采用语音识别技术识别音频信息所包含的数字串，将基准数字串与识别出的数字串进行比较，判断音频信息包含的数字串与基准数字串是否相同。

或者，终端还可以播放该基准数字串，得到基准数字串对应的音频，将基准数字串对应的音频与待测者说出的数字串对应的音频进行比较，检测待测者说出的数字串与基准数字串是否相同。通过播放该基准数字串得到的音频，与采集到待测者说出的数字串对应的音频进行比较，终端在拾取音频和播放音频信息时，可以减少因扬声器本身的性能对数字发音偏差。

当识别出的数字串中的任一数字与基准数字串中的任一数字不同，或多个数字的排列顺序不相同时，判定音频信息包含的数字串与基准数字串不同。此时，可以返回S201重新获取待识别的语音数据；也可以输出身份识别结果为当前的说话人与基准数字串对应的说话人不匹配。

当基准数字串中的每个数字与识别出的数字串中的每个数字相同，且多个数字的排列顺序也相同时，判定音频信息包含的数字串与基准数字串相同，执行S2023。

S2023：当检测结果为相同时，从所述音频信息中提取数字潜变量。

终端在确认音频信息包含的数字串与基准数字串相同时，将音频信息转换成矩阵向量输入DNN模型进行处理，从音频信息中提取数字串中的每个数字的数字潜变量。数字潜变量用于标识该音频信息中待测者对数字的发音特征。

具体地，终端可以将获取到的音频信息输入预先训练好的DNN模型，通过深度神经网络提取音频信息中每个数字的数字潜变量。数字潜变量用于标识同一数字的发音特征。同一个数字可以具有至少两个不同的数字潜变量，即具有至少两个不同的发音。例如，数字“1”的发音包括“一”、“幺”等。

S203：当所述扬声器潜变量符合预设要求时，将所述数字潜变量输入预设的贝叶斯模型进行处理，得到所述音频信息的似然比分数；其中，所述预设要求基于清晰可辨认的音频信息所对应的扬声器潜变量的值进行设置；所述贝叶斯模型是通过使用机器学习算法对声音样本集中单一说话者说出每个数字的数字潜变量进行训练得到；所述每个数字潜变量具有标识该数字潜变量所属的说话者的身份标签；所述贝叶斯模型与所述声音样本集中的所述单一说话者具有对应关系。

终端将音频信息包含的每个数字的数字潜变量输入预设的贝叶斯模型，并通过以下公式p(x _ijk|u _i,v _j,θ)＝N(x _ijk|μ+u _i+v _j,∑ _ε)计算说话人说了音频信息中包含的每个数字各自对应概率。其中，p(u _i)＝N(u _i|0,∑ _u)；p(v _j)＝N(v _j|0,∑ _v)。

其中，p(x _ijk|u _i,v _j,θ)表示一个人说了一个数字的概率，x _ijk表示在第k个会话中第i个人说了第j个数字。由于做身份验证或者录入信息时，可能会要求说话人说多次不同的数字串，因此，k表示第k个会话，θ是贝叶斯模型中参数的统称。条件概率N(x _ijk|μ+u _i+v _j,∑ _ε)表示符合均值为μ+u _i+v _j，方差为∑ _ε的高斯分布；∑ _ε表示ε的对角协方差；信号分量x _ijk＝μ+u _i+v _j+ε _ijk，即代表信号分量x _ijk取决于说话人和数字；噪声分量ε _ijk表示在第k个会话中第i个人说第j个数字的偏差或噪声，μ表示训练向量的总体平均值。

终端在计算出说话人说了音频信息中包含的每个数字各自对应概率时，基于计算得到的概率计算似然比分数。

似然比分数表示说话人i说了第j个数字的概率与不是说话人i说了第j个数字的概率之比。例如，如果说话人i说了第j个数字的概率为0.6，那么不是说话人i说了第j个数字的概率为0.4，似然比分数为0.6/0.4＝1.5。

可以理解的是，终端可以按预设的迭代次数(例如)计算说话人说了音频信息中包含的每个数字各自对应概率，其中，预设的迭代次数可以为10次，也可以按实际需要进行设置。

此时，终端可以基于说话人多次说了第j个数字各自对应的似然比分数，计算说话人说了第j个数字的平均似然比分数，并将该平均似然分数比作为计算说话人说了第j个数字的似然比分数。

为了提高身份识别结果的准确度，终端还可以基于说话人多次说了第j个数字各自对应的似然比分数，筛选出大于或等于预设似然比分数阈值的似然比分数，并计算筛选出的似然比分数的均值，将计算得到的均值作为说话人说了第j个数字的似然比分数。预设似然比分数阈值可以为1.2，但并不限于此，具体可根据实际情况进行设置，此处不做限制。

S204：基于所述似然比分数输出所述音频信息的身份识别结果。

由于似然比分数表示说话人i说了第j个数字的概率与不是说话人i说了第j个数字的概率之比，因此，终端可以在确认说话人i说了第j个数字的似然比分数大于1时，判定音频信息的说话人为说话人i。当说话人i说了第j个数字的似然比分数小于或等于1时，判定音频信息的说话人为不是说话人i。

进一步地，在一实施方式中，为了便于使用共同的似然比分数阈值识别说话人身份，以提高识别效率。S204可以包括：采用公式s'＝(s-μ ₁)/δ ₁对所述似然比分数进行归一化处理，并基于所述归一化处理后的似然比分数输出所述音频信息的身份识别结果；其中，s'为所述归一化处理后的似然比分数，s为所述似然比分数，μ ₁为假的说话者得分分布的近似平均值，δ ₁为假的说话者得分分布的标准偏差。

终端通过使用上式将来自不同说话者的似然比分数转换为相似的范围，从而能够使用共同的似然比分数阈值进行判断。其中μ ₁和σ ₁分别是假的说话者得分分布的近似平均值和标准偏差。其中，可以通过以下三种归一化方法进行对似然比分数进行归一化处理：

1)零归一化(Z-Norm)使用一批针对目标模型的非目标话语来计算平均μ ₁和标准差σ ₁；即，通过估计冒认者得分分布的均值和方差并对得分分布进行线性变换的规整方案。Z-Norm针对某个说话人概率模型，利用大批的冒认者说话语音数据进行测试，得到冒充者得分分布。然后，从冒充得分分布中计算得到均值μ ₁和标准差σ ₁，然后将μ ₁、σ ₁代入公式s'＝(s-μ ₁)/δ ₁计算归一化处理后的似然比分数。

2)测试归一化(T-Norm)使用未知说话者的特征向量对一组假的说话者模型来计算统计数据；即，基于冒充者得分分布的均值和标准差进行归一化。与Z-Norm的不同之处在于，T-Norm是利用大量冒充者说话人模型而不是冒充者语音数据来计算均值和标准方差。归一化过程是在识别时进行的，一条测试语音数据同时和所声称的说话人模型及大量冒充者模型进行比较，分别取得冒充者得分，进而计算出冒充者得分分布和归一化参数μ ₁和σ ₁。

3)将由Z-Norm和T-Norm计算得到的归一化值的均值作为最终的归一化值，以形成似然比分数s归一化后的分数s'。其中，z-norm以及T-Norm为现有技术，此处不再一一赘述。

进一步地，在另一实施方式中，为了提高识别结果的可信度与准确度，减少误判的概率，S204可以包括：基于所述似然比分数确定所述音频信息的身份识别结果；采用似然比验证方法检验所述身份识别结果是否可信，并在验证所述身份识别结果可信时，输出身份识别结果；其中，当验证所述身份识别结果不可信时，返回S201，或者结束流程。

请一并参阅图3，图3是本申请一实施例提供的零假设和备择假设的示意图。

具体地，将验证视为一种具有零假设H ₀的假设检验问题，其中，音频向量i具有相同的说话者和数字潜变量u _i和v _j以及备择假设H ₁。i、j均为大于或等于1的正整数。

零假设H ₀中一个人对应一个说的数字；备择假设H ₁中一个人对应多个数字，或者一个数字对应多个人，或者多个人多个数字混合。U ₁、U ₂、V ₁、V ₂表示不同的说话人。

终端可以通过比较如图3所示的不同假设下数据的可能性进行验证。Xt代表一个人说了一个数字；例如：i说了j数字。Xs代表这个数字是一个人说的；例如：j数字是i说的。ε _t表示Xt的误差，ε _s表示Xs的误差。

在零假设H ₁下，特征Xt和Xs不匹配。

根据假设H ₀，两边判断一致，特征Xt和Xs匹配。

当特征Xt和Xs匹配时，判定音频信息的身份识别结果是准确、可信的，输出身份识别结果。

当特征Xt和Xs不匹配时，判定音频信息的身份识别结果是不可信的，可能存在误判，此时返回S201或结束识别说话人身份的流程。

进一步地，在S204之后，还可以包括S205：当所述身份识别结果为可信，且身份校验通过时，响应来自所述音频信息对应的说话人的语音控制指令，并执行所述语音控制指令对应的预设操作。

终端在获取到身份识别结果可信，基于预置的合法身份信息判断该身份识别结果对应的说话人是否为合法用户，当该身份识别结果对应的说话人为合法用户时，判定校验通过。之后，在获取到该说话人输入的语音控制指令时，响应该语音控制指令，获取该语音控制指令对应的预设操作，并执行该语音控制指令对应的预设操作。

例如，语音控制指令为搜索指令，且该搜索指令用于搜索某物品时，响应该搜索指令，从本地数据库或网络数据库搜索该搜索指令对应的某物品的相关信息。

本申请实施例，通过提取待识别的音频信息的扬声器潜变量以及数字潜变量；当扬声器潜变量符合预设要求时，将所述数字潜变量输入预设的贝叶斯模型进行处理，得到音频信息的似然比分数；基于似然比分数输出音频信息的身份识别结果。由于预设要求是基于清晰可辨认的音频信息所对应的扬声器潜变量的值进行设置，当音频信息中的扬声器潜变量符合预设要求时，可以排除扬声器本身性能对数字发音对身份识别结果的干扰，此时基于待测者说出的每个数字的数字潜变量识别说话人的身份信息，由于每个数字的数字潜变量可以有多个，因此，即时说话人在不同时刻对于相同数字发音不同，也能够准确识别说话人的身份，能够避免因不同的扬声器对于相同的数字具有不同的发音，以及说话人对于相同数字在不同时刻的发音不同，从而干扰身份识别结果的情况，能够提高身份识别结果的准确度。基于音频信息的似然比分数输出该音频信息的身份识别结果，能够减小误判几率，进一步提高识别结果的准确性。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

请参阅图4，图4是本申请一实施例提供的一种终端的示意图。终端包括的各单元用于执行图1～图2对应的实施例中的各步骤。具体请参阅图1～图2各自对应的实施例中的相关描述。为了便于说明，仅示出了与本实施例相关的部分。参见图4，终端4包括：

获取单元410，用于获取待测者针对基准数字串说出的待识别的音频信息；其中，所述基准数字串是预先存储，并随机播放或随机显示，所述音频信息包括所述待测者说出的数字串对应的音频；

提取单元420，用于提取所述音频信息的扬声器潜变量以及数字潜变量；其中，所述扬声器潜变量用于标识扬声器的特征信息，所述数字潜变量在确认所述待测者说出的数字串与所述基准数字串相同时提取，所述数字潜变量用于标识所述音频信息中所述待测者对数字的发音特征；

识别单元430，用于当所述扬声器潜变量符合预设要求时，将所述数字潜变量输入预设的贝叶斯模型进行声纹识别，得到身份识别结果；其中，所述预设要求基于清晰可辨认的音频信息所对应的扬声器潜变量的值进行设置；所述贝叶斯模型是通过使用机器学习算法对声音样本集中单一说话者说出每个数字的数字潜变量进行训练得到；每个数字潜变量具有标识该数字潜变量所属的说话者的身份标签；所述贝叶斯模型与所述声音样本集中的所述单一说话者具有对应关系。

进一步地，提取单元420包括：

第一检测单元，用于从所述音频信息中提取扬声器潜变量，并基于所述扬声器潜变量的值检测音频信息是否合格；

第二检测单元，用于当所述音频信息合格时，基于所述基准数字串以及所述待测者说出的数字串对应的音频，检测所述待测者说出的数字串与所述基准数字串是否相同；

潜变量提取单元，用于当检测结果为相同时，从所述音频信息中提取数字潜变量。

进一步地，识别单元430包括：

计算单元，用于将所述数字潜变量输入预设的贝叶斯模型进行处理，得到所述音频信息的似然比分数；

身份识别单元，用于基于所述似然比分数输出所述音频信息的身份识别结果。

进一步地，身份识别单元具体用于：采用公式s'＝(s-μ ₁)/δ ₁对所述似然比分数进行归一化处理，并基于所述归一化处理后的似然比分数输出所述音频信息的身份识别结果；其中，s'为所述归一化处理后的似然比分数，s为所述似然比分数，μ ₁为假的说话者得分分布的近似平均值，δ ₁为假的说话者得分分布的标准偏差。

进一步地，身份识别单元具体用于：基于所述似然比分数确定所述音频信息的身份识别结果；采用似然比验证方法检验所述身份识别结果是否可信，并在验证所述身份识别结果可信时，输出身份识别结果；其中，当验证所述身份识别结果不可信时，结束流程或者获取单元410执行所述获取待测者针对基准数字串说出的待识别的音频信息。

图5是本申请另一实施例提供的一种终端的示意图。如图5所示，该实施例的终端5包括：处理器50、存储器51以及存储在所述存储器51中并可在所述处理器50上运行的计算机可读指令52。所述处理器50执行所述计算机可读指令52时实现上述各个终端的识别说话人的方法实施例中的步骤，例如图1所示的S101至S103。或者，所述处理器50执行所述计算机可读指令52时实现上述各装置实施例中各单元的功能，例如图4所示单元410至430功能。

示例性的，所述计算机可读指令52可以被分割成一个或多个单元，所述一个或者多个单元被存储在所述存储器51中，并由所述处理器50执行，以完成本申请。所述一个或多个单元可以是能够完成特定功能的一系列计算机可读指令的指令段，该指令段用于描述所述计算机可读指令52在所述终端4中的执行过程。例如，所述计算机可读指令52可以被分割成获取单元、提取单元以及识别单元，各单元具体功能如上所述，具体请参阅图4对应的实施例中的描述。

所述终端可包括，但不仅限于，处理器50、存储器51。本领域技术人员可以理解，图5仅仅是终端5的示例，并不构成对终端5的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述终端还可以包括输入输出终端、网络接入终端、总线等。

所称处理器50可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器51可以是所述终端5的内部存储单元，例如终端5的硬盘或内存。所述存储器51也可以是所述终端5的外部存储终端，例如所述终端5上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器51还可以既包括所述终端5的内部存储单元也包括外部存储终端。所述存储器51用于存储所述计算机可读指令以及所述终端所需的其他程序和数据。所述存储器51还可以用于暂时地存储已经输出或者将要输出的数据。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，所述的计算机可读指令可存储于一计算机非易失性可读取存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

一种识别说话人的方法，其特征在于，包括：

获取待测者针对基准数字串说出的待识别的音频信息；其中，所述基准数字串是预先存储，并随机播放或随机显示，所述音频信息包括所述待测者说出的数字串对应的音频；

提取所述音频信息的扬声器潜变量以及数字潜变量；其中，所述扬声器潜变量用于标识扬声器的特征信息，所述数字潜变量在确认所述待测者说出的数字串与所述基准数字串相同时提取，所述数字潜变量用于标识所述音频信息中所述待测者对数字的发音特征；

当所述扬声器潜变量符合预设要求时，将所述数字潜变量输入预设的贝叶斯模型进行声纹识别，得到身份识别结果；其中，所述预设要求基于清晰可辨认的音频信息所对应的扬声器潜变量的值进行设置；所述贝叶斯模型是通过使用机器学习算法对声音样本集中单一说话者说出每个数字的数字潜变量进行训练得到，所述每个数字潜变量具有标识该数字潜变量所属的说话者的身份标签；所述贝叶斯模型与所述声音样本集中的所述单一说话者具有对应关系。
根据权利要求1所述的方法，其特征在于，所述提取所述音频信息的扬声器潜变量以及数字潜变量，包括：

从所述音频信息中提取扬声器潜变量，并基于所述扬声器潜变量的值检测音频信息是否合格；

当所述音频信息合格时，基于所述基准数字串以及所述待测者说出的数字串对应的音频，检测所述待测者说出的数字串与所述基准数字串是否相同；

当检测结果为相同时，从所述音频信息中提取数字潜变量。
根据权利要求1或2所述的方法，其特征在于，所述当所述扬声器潜变量符合预设要求时，将所述数字潜变量输入预设的贝叶斯模型进行声纹识别，得到身份识别结果，包括：

将所述数字潜变量输入预设的贝叶斯模型进行处理，得到所述音频信息的似然比分数；

基于所述似然比分数输出所述音频信息的身份识别结果。
根据权利要求3所述的方法，其特征在于，所述基于所述似然比分数输出所述音频信息的身份识别结果，包括：

采用公式s'＝(s-μ ₁)/δ ₁对所述似然比分数进行归一化处理，并基于所述归一化处理后的似然比分数输出所述音频信息的身份识别结果；其中，s'为所述归一化处理后的似然比分数，s为所述似然比分数，μ ₁为假的说话者得分分布的近似平均值，δ ₁为假的说话者得分分布的标准偏差。
根据权利要求3所述的方法，其特征在于，所述基于所述似然比分数输出所述音频信息的身份识别结果，包括：

基于所述似然比分数确定所述音频信息的身份识别结果；

采用似然比验证方法检验所述身份识别结果是否可信，并在验证所述身份识别结果可信时，输出所述身份识别结果；其中，当验证所述身份识别结果不可信时，返回所述获取待测者针对基准数字串说出的待识别的音频信息，或者结束。
一种终端，其特征在于，包括：

获取单元，用于获取待测者针对基准数字串说出的待识别的音频信息；其中，所述基准数字串是预先存储，并随机播放或随机显示，所述音频信息包括所述待测者说出的数字串对应的音频；

提取单元，用于提取所述音频信息的扬声器潜变量以及数字潜变量；其中，所述扬声器潜变量用于标识扬声器的特征信息，所述数字潜变量在确认所述待测者说出的数字串与所述基准数字串相同时提取，所述数字潜变量用于标识所述音频信息中所述待测者对数字的发音特征；

识别单元，用于当所述扬声器潜变量符合预设要求时，将所述数字潜变量输入预设的贝叶斯模型进行声纹识别，得到身份识别结果；其中，所述贝叶斯模型是通过使用机器学习算法对声音样本集中单一说话者说出每个数字的数字潜变量进行训练得到；所述每个数字潜变量具有标识该数字潜变量对应所属的说话者的身份标签；所述贝叶斯模型与所述声音样本集中的所述单一说话者具有对应关系。
根据权利要求6所述的终端，其特征在于，所述提取单元包括：

第一检测单元，用于从所述音频信息中提取扬声器潜变量，并基于所述扬声器潜变量的值检测音频信息是否合格；

第二检测单元，用于当所述音频信息合格时，基于所述基准数字串以及所述待测者说出的数字串对应的音频，检测所述待测者说出的数字串与所述基准数字串是否相同；

潜变量提取单元，用于当检测结果为相同时，从所述音频信息中提取数字潜变量。
根据权利要求6或7所述的终端，其特征在于，所述识别单元包括：

计算单元，用于将所述数字潜变量输入预设的贝叶斯模型进行处理，得到所述音频信息的似然比分数；

身份识别单元，用于基于所述似然比分数输出所述音频信息的身份识别结果。
根据权利要求8所述的终端，其特征在于，所述身份识别单元具体用于：采用公式 s'＝(s-μ ₁)/δ ₁对所述似然比分数进行归一化处理，并基于所述归一化处理后的似然比分数输出所述音频信息的身份识别结果；其中，s'为所述归一化处理后的似然比分数，s为所述似然比分数，μ ₁为假的说话者得分分布的近似平均值，δ ₁为假的说话者得分分布的标准偏差。
根据权利要求8所述的终端，其特征在于，所述身份识别单元具体用于：基于所述似然比分数确定所述音频信息的身份识别结果；采用似然比验证方法检验所述身份识别结果是否可信，并在验证所述身份识别结果可信时，输出身份识别结果；其中，当验证所述身份识别结果不可信时，结束流程或者通知所述获取单元执行所述获取待测者针对基准数字串说出的待识别的音频信息。
一种终端，其特征在于，所述终端包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现如下步骤：

获取待测者针对基准数字串说出的待识别的音频信息；其中，所述基准数字串是预先存储，并随机播放或随机显示，所述音频信息包括所述待测者说出的数字串对应的音频；

提取所述音频信息的扬声器潜变量以及数字潜变量；其中，所述扬声器潜变量用于标识扬声器的特征信息，所述数字潜变量在确认所述待测者说出的数字串与所述基准数字串相同时提取，所述数字潜变量用于标识所述音频信息中所述待测者对数字的发音特征；

当所述扬声器潜变量符合预设要求时，将所述数字潜变量输入预设的贝叶斯模型进行声纹识别，得到身份识别结果；其中，所述预设要求基于清晰可辨认的音频信息所对应的扬声器潜变量的值进行设置；所述贝叶斯模型是通过使用机器学习算法对声音样本集中单一说话者说出每个数字的数字潜变量进行训练得到；所述每个数字潜变量具有标识该数字潜变量所属的说话者的身份标签；所述贝叶斯模型与所述声音样本集中的所述单一说话者具有对应关系。
根据权利要求11所述的终端，其特征在于，所述提取所述音频信息的扬声器潜变量以及数字潜变量，包括：

从所述音频信息中提取扬声器潜变量，并基于所述扬声器潜变量的值检测音频信息是否合格；

当所述音频信息合格时，基于所述基准数字串以及所述待测者说出的数字串对应的音频，检测所述待测者说出的数字串与所述基准数字串是否相同；

当检测结果为相同时，从所述音频信息中提取数字潜变量。
根据权利要求11或12所述的终端，其特征在于，所述当扬声器潜变量符合要求时，将所述数字潜变量输入预设的贝叶斯模型进行声纹识别，得到身份识别结果，包括：

将所述数字潜变量输入预设的贝叶斯模型进行处理，得到所述音频信息的似然比分数；

基于所述似然比分数输出所述音频信息的身份识别结果。
根据权利要求13所述的终端，其特征在于，所述基于所述似然比分数输出所述音频信息的身份识别结果，包括：

采用公式s'＝(s-μ ₁)/δ ₁对所述似然比分数进行归一化处理，并基于所述归一化处理后的似然比分数输出所述音频信息的身份识别结果；其中，s'为所述归一化处理后的似然比分数，s为所述似然比分数，μ ₁为假的说话者得分分布的近似平均值，δ ₁为假的说话者得分分布的标准偏差。
根据权利要求13所述的终端，其特征在于，所述基于所述似然比分数输出所述音频信息的身份识别结果，包括：

基于所述似然比分数确定所述音频信息的身份识别结果；

采用似然比验证方法检验所述身份识别结果是否可信，并在验证所述身份识别结果可信时，输出所述身份识别结果；其中，当验证所述身份识别结果不可信时，返回所述获取待测者针对基准数字串说出的待识别的音频信息，或者结束。
一种计算机非易失性可读存储介质，所述计算机非易失性可读存储介质存储有计算机可读指令，其特征在于，所述计算机可读指令被处理器执行时实现如下步骤：

获取待测者针对基准数字串说出的待识别的音频信息；其中，所述基准数字串是预先存储，并随机播放或随机显示，所述音频信息包括所述待测者说出的数字串对应的音频；

提取所述音频信息的扬声器潜变量以及数字潜变量；其中，所述扬声器潜变量用于标识扬声器的特征信息，所述数字潜变量在确认所述待测者说出的数字串与所述基准数字串相同时提取，所述数字潜变量用于标识所述音频信息中所述待测者对数字的发音特征；

当所述扬声器潜变量符合预设要求时，将所述数字潜变量输入预设的贝叶斯模型进行声纹识别，得到身份识别结果；其中，所述预设要求基于清晰可辨认的音频信息所对应的扬声器潜变量的值进行设置；所述贝叶斯模型是通过使用机器学习算法对声音样本集中单一说话者说出每个数字的数字潜变量进行训练得到，所述每个数字潜变量具有标识该数字潜变量所属的说话者的身份标签；所述贝叶斯模型与所述声音样本集中的所述单一说话者具有对应关系。
根据权利要求16所述的计算机非易失性可读存储介质，其特征在于，所述提取所述音频信息的扬声器潜变量以及数字潜变量，包括：

从所述音频信息中提取扬声器潜变量，并基于所述扬声器潜变量的值检测音频信息是否合格；

当所述音频信息合格时，基于所述基准数字串以及所述待测者说出的数字串对应的音频，检测所述待测者说出的数字串与所述基准数字串是否相同；

当检测结果为相同时，从所述音频信息中提取数字潜变量。
根据权利要求16或17所述的计算机非易失性可读存储介质，其特征在于，所述当所述扬声器潜变量符合预设要求时，将所述数字潜变量输入预设的贝叶斯模型进行声纹识别，得到身份识别结果，包括：

将所述数字潜变量输入预设的贝叶斯模型进行处理，得到所述音频信息的似然比分数；

基于所述似然比分数输出所述音频信息的身份识别结果。
根据权利要求18所述的计算机非易失性可读存储介质，其特征在于，所述基于所述似然比分数输出所述音频信息的身份识别结果，包括：

采用公式s'＝(s-μ ₁)/δ ₁对所述似然比分数进行归一化处理，并基于所述归一化处理后的似然比分数输出所述音频信息的身份识别结果；其中，s'为所述归一化处理后的似然比分数，s为所述似然比分数，μ ₁为假的说话者得分分布的近似平均值，δ ₁为假的说话者得分分布的标准偏差。
根据权利要求18所述的计算机非易失性可读存储介质，其特征在于，所述基于所述似然比分数输出所述音频信息的身份识别结果，包括：

基于所述似然比分数确定所述音频信息的身份识别结果；

采用似然比验证方法检验所述身份识别结果是否可信，并在验证所述身份识别结果可信时，输出所述身份识别结果；其中，当验证所述身份识别结果不可信时，返回所述获取待测者针对基准数字串说出的待识别的音频信息，或者结束。