WO2021169365A1

WO2021169365A1 - 声纹识别的方法和装置

Info

Publication number: WO2021169365A1
Application number: PCT/CN2020/125337
Authority: WO
Inventors: 郎玥; 徐嘉明
Original assignee: 华为技术有限公司
Priority date: 2020-02-29
Filing date: 2020-10-30
Publication date: 2021-09-02
Also published as: CN113327620A

Abstract

一种声纹识别的方法和装置，声纹识别的方法包括：获取待识别用户的待识别语音信号（710）；对待识别语音信号进行情感识别，获取待识别语音信号对应的第一情绪（720）；获取已注册用户在第一情绪下的声纹模板，当第一情绪对应不同情绪时，不同情绪对应的声纹模板不同（730）；根据待识别语音信号和声纹模板，判断待识别用户是否为已注册用户（740）。通过将相同情绪下的待识别语音信号与声纹模板进行匹配，能够有助于降低用户的情绪波动对声纹识别的影响，从而增强声纹识别的鲁棒性。

Description

声纹识别的方法和装置

本申请要求于2020年02月29日提交中国专利局、申请号为202010132716.2、申请名称为“声纹识别的方法和装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及生物识别领域，并且更具体的，涉及声纹识别的方法和装置。

背景技术

声纹识别是通过对一种或多种语音信号的特征分析来达到对未知声音辨别的目的，简单的说就是辨别某一句话是否是某一个人说的技术。声纹识别的理论基础是每一个人的声音都具有独特的特征，通过该特征能将不同人的声音进行有效的区分。声纹识别的基本原理是通过分析声音信号的语谱之间的相似度，达到声纹识别的目的。语谱的特征直接影响了声纹识别的结果。通常，用户在注册声纹模板的时候情绪相对平静。

而在实际使用过程中，用户的情绪是多种多样的，有时会比较焦急，有时候又会比较开心、激动，这些情绪都会影响语谱的特征，使得情绪的波动会对声纹识别的准确率有负面的影响。现有的一种声纹识别的方案中，会通过情感检测方法检测情感语言的形变程度计算情感因子，并在训练与识别阶段分别在模型层与特征层对情感所引起的语言变化进行补偿。但是，一方面，该方案在确定情感因子时依赖于情感检测的准确度，不准确的情感检测会降低声纹识别的准确率。另一方面，对语音特征的补偿会进一步影响声纹识别的准确率。

因此，在用户情绪波动的情况下，如何提高声纹识别的准确率是亟需解决的问题。

发明内容

本申请提供一种声纹识别的方法和装置，通过将相同情绪下的待识别语音信号与声纹模板进行匹配，能够有助于降低用户的情绪波动对声纹识别的影响，从而增强声纹识别的鲁棒性。

第一方面，提供了一种声纹识别的方法，该方法包括：

获取待识别用户的待识别语音信号；

对所述待识别语音信号进行情感识别，获取所述待识别语音信号对应的第一情绪；

获取已注册用户在所述第一情绪对应的声纹模板，当第一情绪对应不同情绪时，所述不同情绪对应的声纹模板不同；

根据所述待识别语音信号和所述声纹模板，判断所述待识别用户是否为所述已注册用户。

因此，本申请实施例通过对待识别用户的待识别语音信号进行情感识别，获取该待识别语音信号的第一情绪，并获取已注册用户在该第一情绪下的声纹模板，根据该待识别语音信号与该声纹模板进行声纹匹配，判断该待识别用户是否为已注册用户。因此，本申请实施例通过将相同情绪下的待识别语音信号与声纹模板进行匹配，能够有助于降低用户的情绪波动对声纹识别的影响，从而有助于实现用户在不同的情绪下，获得一致的声纹识别的用户体验，从而增强声纹识别的鲁棒性。

作为示例，可以将已注册用户的声纹模板与待识别语音信号的语音特征向量的进行匹配，获取待识别语音信号的语音特征向量与已注册用户的声纹模板的相似度。然后，可以判断相似度是否高于阈值。当相似度高于阈值时，则判断待识别用户为已注册用户。此时，可以响应于用户的请求，执行相应的操作，例如智能终端解锁，或开启应用等，不作限定。当相似度不高于阈值时，则判断待识别用户不是已注册用户。此时，可以拒绝用户的请求，例如保持锁屏，或拒绝开启应用等，不作限定。

示例性的，所述第一情绪包括平静、喜悦、愤怒、悲伤、急切、恐惧和惊讶中的至少一种。也就是说，第一情绪可以是多种情绪中的其中一种单一的情绪，例如平静、喜悦、愤怒、悲伤、急切、恐惧或惊讶等，第一情绪也可以是由多种情绪组成的混合情绪，例如平静和喜悦的混合情绪，愤怒、急切和悲伤的混合情绪等，本申请实施例对此不作限定。在本申请实施例中，当第一情绪为不同情绪时，对应的声纹模板不同。

结合第一方面，在第一方面的某些实现方式中，所述获取已注册用户在所述第一情绪下的声纹模板，包括：

从所述已注册用户的多种不同情绪下的声纹模板中，获取所述第一情绪对应的声纹模板，其中，所述多种不同情绪包括所述第一情绪。

也就是说，此时第一情绪为多种情绪中的其中一种单一的情绪，此时可以通过调用该情绪下的声纹模板进行声纹识别。

因此，本申请实施例通过识别待识别用户的待识别语音信号的情绪，并调用已注册用户在该情绪下的声纹模板，将该待识别语音信号与已注册用户的该情绪下的声纹模板进行声纹匹配，判断该待识别用户是否为已注册用户。因此，本申请实施例通过将相同情绪下的待识别语音信号与声纹模板进行匹配，能够有助于降低用户的情绪波动对声纹识别的影响，从而有助于实现用户在不同的情绪下，获得一致的声纹识别的用户体验，从而增强声纹识别的鲁棒性。

结合第一方面，在第一方面的某些实现方式中，所述第一情绪由至少两种情绪中的每种情绪的权重系数表征。

其中，所述获取已注册用户在所述第一情绪下的声纹模板，包括：

从所述已注册用户的多种不同情绪下的声纹模板中，确定所述第一情绪中的所述至少两种情绪中的每种情绪对应的声纹模板；

根据所述每种情绪的声纹模板，以及所述每种情绪的权重系数，获取所述第一情绪对应的声纹模板。

也就是说，此时第一情绪为由多种情绪组成的混合情绪，此时可以根据已注册用户的该多种情绪对应的声纹模板，生成第一情绪对应的混合声纹模板，然后根据该混合声纹模板进行声纹匹配。

因此，本申请实施例通过识别用户当前情绪中包含的各个情绪的权重系数，并根据该情绪中的各个情绪的权重系数，对已注册用户的声纹模板集中各个情绪进行加权求和获取混合声纹模板，将该待识别语音信号与该混合声纹模板进行匹配，判断该待识别用户是否为已注册用户。因此，本申请实施例通过将相同情绪下的待识别语音信号与声纹模板进行匹配，能够有助于降低用户的情绪波动对声纹识别的影响，从而有助于实现用户在不同的情绪下，获得一致的声纹识别的用户体验，从而增强声纹识别的鲁棒性。

结合第一方面，在第一方面的某些实现方式中，还可以通过显示界面显示所述第一情绪，使得用户获知当前待识别语音信号对应的情绪。

结合第一方面，在第一方面的某些实现方式中，当所述第一情绪由至少两种情绪中的每种情绪的权重系数表征时，所述通过显示界面显示所述第一情绪，可以通过所述显示界面显示所述每种情绪和所述每种情绪的权重系数。

在一些可能的实现方式中，当用户对于第一情绪的类型，或者对第一情绪中的每种情绪的权重系数不满意时，还可以获取用户的第一操作，其中，所述第一操作用于修正所述第一情绪的类型，或者用于修正所述第一情绪中的至少两种情绪中的每种情绪的权重系数。然后，响应于所述第一操作，对所述第一情绪进行更新。

因此，本申请实施例通过向用户显示第一情绪，并在用户对第一情绪的类型，或者第一情绪中每种情绪的权重系数不满意时，可以参考用户的对自己真实情绪的判断，对第一情绪进行更新，进而有助于准确的识别用户当前的情绪状态，有助于降低用户的情绪波动对声纹识别的影响，从而有助于实现用户在不同的情绪下，获得一致的声纹识别的用户体验，从而增强声纹识别的鲁棒性。

结合第一方面，在第一方面的某些实现方式中，所述获取已注册用户在所述第一情绪下的声纹模板之前，还包括：

获取多种不同情绪下的注册语音信号；

根据所述多种不同情绪的注册语音信号，获取所述已注册用户在所述多种不同情绪中的每种情绪的声纹模板。

因此，相对于现有技术中只生成用户在情绪平静状态下的声纹模板，本申请实施例能够生成用户在不同的情绪下的声纹模板，并且该不同情绪下的声纹模板不同。因此，本申请实施例能够在声纹识别的过程中，适配用户不同的情绪变化，有助于提升声纹识别的准确率。

作为一种实现方式，可以直接采集用户在不同情绪下的注册语音，获取该用户的不同情绪下的注册语音信号。

结合第一方面，在第一方面的某些实现方式中，可以通过显示界面向用户显示至少两种预设情绪；然后，获取用户的第二操作，所述第二操作用于录入用户在所述至少两种预设情绪下的语音。响应于所述第二操作，获取所述至少两种预设情绪下的注册语音信号，其中，所述多种不同情绪下的注册语音信号包括所述至少两种预设情绪下的注册语音信号。

示例性的，预设情绪可以为平静、喜悦、愤怒、悲伤、急切、恐惧或惊讶等，本申请实施例对此不作限定。

这样，能够实现通过终端设备的界面，引导用户录入在至少两种情绪下的语音，从而获取用户的不同情绪下的注册语音信号。

结合第一方面，在第一方面的某些实现方式中，所述获取多种不同情绪下的注册语音信号，包括：

获取第一注册语音信号；

对所述第一注册语音信号进行情感转换，获取所述多种不同情绪下的注册语音信号。

因此，通过采集用户在一种情绪下的注册语音，获取用户在该情绪下的注册语音信号，并对该注册语音信号进行情感识别，可以获取多种不同情绪下的注册语音信号。

结合第一方面，在第一方面的某些实现方式中，所述对所述第一注册语音信号进行情感转换，获取所述多种不同情绪下的注册语音信号，包括：

通过显示界面向用户显示至少两个预设情绪；

获取用户的第三操作，其中，所述第三操作用于在所述至少两种预设情绪中选择所述多种不同情绪；

响应于所述第三操作，对所述第一注册语音信号进行情感变换，获取所述多种不同情绪下的注册语音信号。

这样，能够实现通过终端设备的界面，引导用户选择需要进行情感转换的情绪，从而根据用户选择的情绪类型，对注册语音信号进行情感转换，获取用户的不同情绪下的注册语音信号。

结合第一方面，在第一方面的某些实现方式中，所述根据所述待识别语音信号和所述声纹模板，判断所述待识别用户是否为所述已注册用户，包括：

对所述待识别语音信号进行声纹特征提取，获取所述待识别语音信号的声纹信息；

根据所述声纹信息和所述声纹模板，判断所述待识别用户是否为所述已注册用户。

声纹信息能够标识待识别语音信号的特征信息，因此，将该待识别语音信号的声纹信息与已注册用户的该情绪下的声纹模板进行声纹匹配，能够判断该待识别用户是否为已注册用户。

第二方面，本申请实施例提供了一种声纹识别的装置，用于执行上述第一方面或第一方面的任意可能的实现方式中的方法，具体的，该装置包括用于执行上述第一方面或第一方面的任意可能的实现方式中的方法的模块。

第三方面，本申请实施例提供了一种声纹识别的装置，包括：一个或多个处理器；存储器，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述第一方面或第一方面的任意可能的实现方式中的方法。

第四方面，本申请实施例提供了一种计算机可读介质，用于存储计算机程序，该计算机程序包括用于执行第一方面或第一方面的任意可能的实现方式中的方法的指令。

第五方面，本申请实施例还提供一种包含指令的计算机程序产品，当该计算机程序产品在计算机上运行时，使得该计算机执行第一方面或第一方面的任意可能的实现方式中的方法。

应理解，本申请的第二至第五方面及对应的实现方式所取得的有益效果参见本申请的第一方面及对应的实现方式所取得的有益效果，不再赘述。

附图说明

图1是一种声纹识别的方法的示意性流程图；

图2是本申请实施例提供的一种声纹识别的系统的示意图；

图3是本申请实施例提供的声纹注册流程的一个具体示例；

图4是本申请实施例提供的声纹注册流程的另一个具体示例；

图5是本申请实施例提供的声纹识别流程的一个具体示例；

图6是本申请实施例提供的声纹识别流程的另一个具体示例；

图7是本申请实施例提供的终端设备的显示界面的一个示例；

图8是本申请实施例提供的终端设备的显示界面的另一个示例；

图9是本申请实施例提供的终端设备的显示界面的另一个示例；

图10是本申请实施例提供的终端设备的显示界面的另一个示例；

图11是本申请实施例提供的终端设备的显示界面的另一个示例；

图12是本申请实施例提供的终端设备的显示界面的另一个示例；

图13是本申请实施例提供的终端设备的显示界面的另一个示例；

图14是本申请实施例提供的终端设备的显示界面的另一个示例；

图15是本申请实施例提供的一种声纹识别的方法的示意性流程图；

图16是本申请实施例提供的一种声纹识别的装置的示意性框图；

图17是本申请实施例提供的另一种声纹识别的装置的示意性框图。

具体实施方式

下面将结合附图，对本申请中的技术方案进行描述。

图1示出了一种声纹识别的方法100的示意性流程图。如图1所示，声纹识别主要包括声纹注册和声纹确认/辨别两个流程。其中，在声纹注册阶段(包括步骤101、步骤102、步骤103和步骤105)，可以获取一个或多个用户的声纹模板。在声纹确认/辨别阶段(包括步骤101、步骤102、步骤103、步骤106和步骤107)，可以获取未知说话人的声音特征信息，然后将该声音特征信息与在声纹注册阶段获取的已知的声纹模板进行匹配，进行声纹确认/辨别。声纹确认/辨别阶段也可以被称为声纹识别阶段。

其中，声纹确认即说话人确认，用于判断未知说话人是否为某个指定人。示例性的，在进行声纹确认时，可以将获取的未知说话人的声音特征信息与指定人的声纹模板进行匹配，确认该未知说话人是否为该指定人。

声纹辨认即说话人辨认，用于判断未知说话人是已知记录说话人中的哪一位。在进行声纹辨别时，可以将获取的未知说话人的声音特性与多个已知记录人的声纹模板分别进行匹配，判断该位置说话人是这几个已知记录说话人中的哪一位。

请继续参考图1，在声纹注册阶段，可以对采集到的用户的声音信号(也可以称为注册语音信号)，进行信号处理，比如执行步骤101(即语音检测)、步骤102(语音增强)等处理，以获取处理后的注册语音信号。作为示例，步骤101，即语音检测例如可以包括语音激活检测，步骤102，即语音增强例如可以包括语音降噪处理、去混响处理等。然后，对处理后的注册语音信号执行步骤103，即进行特征提取，获取注册语音信号的特征信息。然后，执行步骤104，即通过声纹模型对该注册语音信号的特征信息进行训练，得到该用户的声纹模板。

在用户完成声纹注册之后，可以获取该用户的声纹模板。此时可以将该用户称为“已注册用户”。

另外，可以通过上述方式获取至少一个用户的声纹模板，即获取至少一个已注册用户的声纹模板。在一些实施例中，可以通过上述声纹注册过程，建立一个声纹模板库，该声纹模板库中可以包括不同已注册用户的多个声纹模板。

在声纹确认/辨认的阶段，同样可以对采集到的用户的声音信号(也可以称为待识别语音信号)，进行信号处理，比如执行步骤101(即语音检测)、步骤102(语音增强)等处理，以获取处理后的待识别语音信号。然后，执行步骤103，即对处理后的待识别语音信号进行特征提取，获取待识别语音信号的特征信息。然后，执行步骤105，即将待识别语音信号的特征信息和已注册用户的声纹模板进行声纹匹配。一个示例，可以获取该待识别语音信号的特征信息和该声纹模板的相似度得分。然后执行步骤106，即根据该相似度得分，确认待识别用户是否为已注册用户。

一些实施例中，用户的声纹模板中包括该用户的声音信号的语谱特征。具体而言，声音信号的语谱是声音信号的一种图像化的表示方式，能够表示声音信号的各个频率点的频率幅值随时间的变化情况。一个示例，声音信号在各个频率点的幅值大小可以用颜色来区分。其中，说话人的声音的基频以及谐频在语谱上表现为一条一条的亮线。在声纹匹配的时候，可以对用户的声音信号进行处理，获取该声音信号的语谱，然后对比该图谱与声纹模板中的语谱之间的相似度，最终达到声纹识别的目的。

在声纹识别的过程中，用户的情绪可以是多种多样的，这些情绪会影响用户发出的语音的频谱特性。这可能会导致相同用户在不同的情绪下，发出的语音的频谱特性的差别可能是比较大，从而影响声纹识别的准确率。例如，用户在情绪平静时进行了声纹注册，此时获得的声纹模板中包含该用户在情绪平静的状态下的声音信号的语谱特性。而当用户在喜悦的状态下，提取到的待识别语音信号的语谱特性与声纹模板中的语谱特性的差别可能会比较大，可能导致声纹匹配度较低，影响声纹识别的准确率。

有鉴于此，本申请实施例提供了一种情绪自适应声纹识别方法，通过生成多种情绪的声纹模板(或声纹模板集)，并根据多种情绪的声纹模板(或声纹模板集)进行声纹匹配，从而实现情绪自适应的声纹识别。

作为示例，在本申请实施例中，情绪可以包括平静、喜悦、愤怒、悲伤、急切、恐惧和惊讶等中的至少一种情绪。即，情绪可以为平静、喜悦、愤怒、悲伤、急切、恐惧和惊讶等情形中的一种单一情绪，或者其中两种以上的组合情绪，或混合情绪等，本申请实施例对此不做限定。

生成多种情绪的声纹模板(或声纹模板集)是在声纹注册阶段完成的。例如，可以录入用户不同情绪下的注册语音信号，或者可以对一种情绪下的注册语音信号进行情感变化，生成不同情绪下的注册语音信号。然后对该不同情绪下的注册语音信号进行训练，生成多种不同情绪的声纹模版。

作为一种实现方式，可以在终端设备中预设情绪，例如预设平静、喜悦、愤怒、悲伤、恐惧、急切和惊讶等多种预设情绪。在声纹注册阶段，可以分别生成多种不同预设情绪中的每种预设情绪下的声纹模板，比如平静情绪下的声纹模板、喜悦情绪下的声纹模板、愤怒情绪下的声纹模板、悲伤情绪下的声纹模板、恐惧情绪下的声纹模板、急切情绪下的声纹模板和惊讶情绪下的声纹模板，本申请实施例对此不作限定。其中，不同情绪下对应的声纹模板不同。

根据多种情绪的声纹模板(或声纹模板集)进行声纹匹配是在声纹识别阶段完成的。示例性的，可以对待识别的语音进行情感识别，并根据情感识别的结果，获得对应的声纹模板，然后根据该声纹模板进行声纹匹配。情感识别的结果，即对待识别的语音信号进行情感识别所获得的情绪，可以称为第一情绪。当第一情绪对应不同情绪时，该不同情绪对应的声纹模板不同。

作为一种实现方式，该第一情绪可以是预设的多种不同情绪中的其中一种情绪，即单一的情绪，例如平静、喜悦、愤怒、悲伤、恐惧、急切或惊讶等。此时，可以从多种预设情绪的声纹模板中选择对应情绪的声纹模板，然后根据所选择的声纹模板与待识别语音信号的声纹特征进行声纹匹配。作为一个具体的例子，当第一情绪为喜悦时，可以将喜悦情绪下的声纹模板确定为该第一情绪下的声纹模板。

作为另一种实现方式，该第一情绪可以由多种预设情绪组成的混合情绪，例如平静和悲伤的混合情绪，喜悦和急切的混合情绪，愤怒、悲伤和急切的混合情绪等。此时，可以利用该多种预设情绪的声纹模板生成第一情绪的混合声纹模板，根据该混合声纹模板与待识别语音信号的声纹特征进行声纹匹配。作为一个具体例子，当第一情绪为平静和悲伤的混合情绪时，可以根据平静情绪下的声纹模板和悲伤情绪下的声纹模板，生成该第一情绪下的混合声纹模板。

由于本申请实施例是将相同情绪下的待识别语音信号与声纹模板进行匹配的，因此本申请实施例能够有助于减小情绪波动对声纹识别的影响，从而有助于实现用户在不同的情绪下，获得一致的声纹识别的用户体验，从而增强声纹识别的鲁棒性。

图2示出了本申请实施例提供的一种声纹识别的系统200的示意图。示例性的，该系统200可以应用于各种终端设备，比如手机、智能音箱、车载电子设备等智能设备的声纹识别功能中，用于终端设备确认用户身份，以便实现唤醒设备、启动智能助手等功能，本申请实施例对此不做限定。

如图2所示，该系统200中可以包括信号处理模块201、情感变化模块202、声纹模板生成模块203、特征提取模块204、情感识别模块205、声纹模板获取模块206和声纹匹配模块207。其中，图2中的箭头可以用于表示信号流的传输方向。

其中，信号处理模块201、情感识别模块205、声纹模板获取模块206、特征提取模块204以及声纹匹配模块207可以用于声纹确认/辨认过程，信号处理模块201、情感变化模块202以及声纹模板生成模块203可以用于声纹注册过程。通常，在声纹确认/辨认之前，需要先进行声纹注册。

其中，信号处理模块201用于对获取的语音信号进行信号处理。作为示例，对信号进行处理例如对信号进行语音激活检测、降噪处理、去混响处理等，以获得处理后的语音信号。

作为示例，在声纹注册阶段，信号处理模块201用于对注册语音信号进行信号处理，获得处理后的注册语音信号；在声纹确认/辨认阶段，信号处理模块201用于对待识别语音信号进行信号处理，获得处理后的注册语音信号。

本申请实施例中，系统200中可以包括一个或多个信号处理模块201，本申请实施例对此不作限制。在具体实施例中，对注册语音信号进行信号处理的信号处理模块与对待识别语音信号进行信号处理的信号处理模块可以为同一个模块，或者不同的模块，都在本申请实施例的保护范围之内。

情感变化模块202用于在声纹注册阶段，对注册语音信号进行情感变化处理，以获得不同情绪下的注册语音信号。作为示例，情感变化模块202可以对经信号处理模块201处理之后的注册语音信号进行情感变化处理，获取不同情绪下的注册语音信号。具体的，不同情绪可以参见上文中的描述，为了简洁，这里不再赘述。

声纹模板生成模块203用于根据不同情绪对应的注册语音信号进行声纹模版训练，获得不同情绪对应的声纹模版，即多种情绪的声纹模版。

作为示例，声纹模板生成模块203可以提取待识别语音信号的特征信息，并对该特征信息进行声纹模板训练，生成该待识别语音信号对应的声纹模板。在一些实施例中，可以对多种不同情绪下的注册语音信号分别进行声纹模板训练，以分别获得用户在不同情绪下的声纹模板。

特征提取模块204用于在声纹注册阶段，对待识别语音信号进行特征提取，得到待识别语音信号的特征信息，即声纹信息。

情感识别模块205用于在声纹确认/辨认阶段，对待识别用户的待识别语音信号进行情感识别，确定该待识别语音信号对应的情绪。

具体而言，用户的情绪的波动会影响用户的语音的语谱的特征。情感识别模块205能够根据获取的语音信号中的语谱的特征，识别出用户的情绪。比如用户在录入语音时是急切的，此时可以识别出该待识别语音信号对应的情绪为急切情绪。又比如用户在录入语音时是喜悦的，此时可以识别出该待识别语音信号对应的情绪为喜悦情绪。又比如在录入语音时是愤怒的，此时可以识别出该待识别语音信号对应的情绪为愤怒情绪。

示例性的，情感识别模块205可以为离散语音情感分类器，或者维度语音情感预测其等，本申请实施例对此不做限定。

声纹模板获取模块206，用于在声纹确认/辨认阶段，根据情感识别结果和多种情绪的声纹模板，确定声纹匹配中使用的声纹模板。示例性的，声纹模板获取模块206可以从声纹模板库中获取待识别语音信号对应的情绪的声纹模板，或者根据声纹模板库中的声纹模板，生成该待识别语音信号对应的情绪的混合声纹模板。

声纹匹配模块207用于在声纹确认/辨认阶段，根据声纹模板和特待识别语音信号的特征信息，进行声纹匹配，判断待识别用户是否为已注册用户。

应理解，图2示出了声纹识别的系统200的模块或单元，但这些模块或单元仅是示例，本申请实施例的声纹识别装置还可以包括其他模块或单元，或者包括图2中的各个模块或单元的变形。此外，图2中的图像获取装置有可能并非要包括图2中的全部模块或单元。

下面，结合图2中所示的声纹识别的系统200，以及下文中的图3至图6，详细描述本申请实施例提供的声纹注册和声纹确认/辨认的过程。

在声纹注册阶段，可以获得用户在不同情绪下的注册语音信号，并根据不同情绪下的注册语音信号，生成对应情绪下的声纹模板。下面结合图3和图4描述本申请实施例提供的两种生成不同情绪下的声纹模板的方式。

图3示出了本申请实施例提供的声纹注册流程的一个具体示例。其中，可以根据用户的语音进行不同情感的变化，获得用户在不同情绪下的语音，然后生成对应情绪的声纹模块。

如图3所示，在声纹注册阶段，首先可以通过步骤301获取用户输入的注册语音信号。示例性的，用户可以通过设备的语音获取模块输入一段语音，获取该语音对应的注册语音信号。该注册语音信号可以称为用户输入的注册语音信号。

可选的，可以通过图2中的信号处理模块201对该注册语音信号进行处理，获取处理后的注册语音信号。具体的，处理过程可以参见上文中的描述，为了简洁，这里不再赘述。

需要说明的是，用户可以在平静的情绪下输入该语音，或者是在悲伤、愤怒、喜悦等情绪波动的情况下输入该语音，本申请实施例对此不做限定。

还需要说明的是，在本申请实施例中，用户输入的语音可以是文本相关的，或者是文本无关的，本申请实施例对此不作限定。

然后，可以执行步骤302，将用户的注册语音信号进行不同情感的变换。例如，图2的情感变化模块202通过对用户输入的注册语音信号进行情感变化，获取该用户在各种不同情绪下的注册语音信号。

情感变化是直接对用户的注册语音信号进行转换。作为示例，情感变化可以将用户的注册语音信号变为悲伤情绪下的注册语音信号、愤怒情绪下的注册语音、喜悦模式下的注册语音等，本申请实施例对此不作限定。

作为示例，用户的注册语音信号可以是设备采集到的用户的语音信号，可以是经过端点检测、降噪处理、去混响等处理后的时域信号。

示例性的，可以采用谱-韵律双变换的语音情感转换算法实现情感转换，或者采用稀疏约束的情感语音转换算法实现情感转换，本申请实施例对此不做限定。

在一些实施例中，可以预先设定情绪的种类。作为一例，情感变化模块202可以预先设定(即预设)悲伤、愤怒、喜悦、急切四种情绪。此时，当情感变化模块202获取到用户输入的注册语音信号时，可以对用户输入的注册语音信号进行情感转换，获取该用户在悲伤情绪下的注册语音信号、在愤怒情绪下的注册语音信号、在喜悦情绪下的注册语音信号和在急切情绪下的注册语音信号。可选的，还可以根据用户的需求，增加、更改或者删除的预设的情绪种类。

然后，可以执行步骤303，根据用户在不同情绪下的注册语音信号，生成该不同情绪下的声纹模板。作为示例，可以通过图2中的声纹模块生成模块203生成该用户的在该情绪下的声纹模板。

一些实施例中，用户在不同情绪下的声纹模板可以构成一个集合，该集合可以称为多种情绪的声纹模板集。示例性的，声纹模板库中可以包含多个已注册用户的多种情绪的声纹模板集。

因此，通过上述步骤301至303，能够完成对该用户的声纹注册，此时该用户可以被称为已注册用户。并且，相对于现有技术中只生成用户在情绪平静状态下的声纹模板，本申请实施例能够生成用户在不同的情绪下的声纹模板，并且该不同情绪下的声纹模板不同。因此，本申请实施例能够在声纹识别的过程中，适配用户不同的情绪变化，有助于提升声纹识别的准确率。

图4示出了本申请实施例提供的声纹注册流程的另一个具体示例。其中，可以直接采集用户在不同情绪下的注册语音信号，然后根据不同情绪下的注册语音训练对应的声纹模板。

如图4所示，在声纹注册阶段，首先可以通过步骤401获取用户输入的至少一个注册语音信号，其中该至少一个注册语音信号包括用户在至少一种情绪下的至少一个注册语音信号。也就是说，可以直接采集用户在不同情绪下的注册语音，获取该用户的不同情绪下的注册语音信号。

作为一些可能的实现方式，在用户进行声纹注册的时候，可以通过终端设备的界面向用户提示录入不同情绪下的语音，或者通过语音向用户提示录入不同情绪下的语音，本申请实施例对此不做限定。

然后，可以执行步骤402，即根据不同情绪下的注册语音信号，生成对应情绪下的声纹模板。具体的，步骤402与步骤303类似，可以参见上文中的描述，为了简洁，这里不再赘述。

因此，通过上述步骤401至402，能够完成对该用户的声纹注册，此时该用户可以被称为已注册用户。并且，相对于现有技术中只生成用户在情绪平静状态下的声纹模板，本申请实施例能够生成用户在不同的情绪下的声纹模板。因此，本申请实施例能够在声纹识别的过程中，适配用户不同的情绪变化，有助于提升声纹识别的准确率。

需要说明的是，本申请实施例中，当系统架构200中包括情感变化模块202和声纹模板生成模块203时，系统200可以完成声纹注册过程和声纹确认/辨认过程。当系统200中没有包括情感变化模块202和声纹模板生成模块203时，包含该系统200的终端设备可以将获取的注册语音信号发送至其他设备，比如云端服务器，由该其他设备根据接收到的用户的注册语音信号，训练生成该用户的声纹模板，再将该声纹模板发送给终端设备。具体的，云端服务器生成声纹模板的过程与终端设备生成声纹模板的过程相似，可以参见上文中的描述，为了简洁，这里不再赘述。

在声纹确认/辨认阶段，可以根据识别的用户的待识别语音信号的情绪，获取已注册用户在该情绪下的声纹模板，然后将该待识别语音信号的特征信息与已注册用户的该情绪下的声纹模板进行声纹匹配，获取声纹确认/辨认结果。下面结合图5至图6描述本申请实施例提供两种不同的声纹识别的方式。

图5示出了本申请实施例提供的声纹识别流程的一个具体示例。其中，通过情绪识别，可以判断出用户当前所处的情绪状态为预设的多种不同情绪中的其中一种单一情绪，此时可以通过调用该情绪下的声纹模板进行声纹识别。

如图5所示，在声纹确认/辨认阶段，首先可以通过步骤501获取用户输入的待识别语音信号。示例性的，用户可以通过设备的语音获取模块输入一段语音，获取该语音对应的待识别语音信号。这里，该用户即为待识别用户。

可选的，可以通过图2中的信号处理模块201对该待识别语音信号进行处理，获取处理后的待识别语音信号。具体的，处理过程可以参见上文中的描述，为了简洁，这里不再赘述。

这里，用户可以在平静的情绪下输入该语音，或者是在悲伤、愤怒、喜悦等情绪波动的情况下输入该语音，本申请实施例对此不做限定。

然后，可以执行步骤502，对待识别语音信号进行情感识别，获取当前用户的第一情绪。这里，该第一情绪可以为预先设定情绪中的其中一种，比如悲伤、愤怒、喜悦等。示例性的，步骤502可以由图2中的情感识别模块205执行。

然后，可以执行步骤503，对待识别语音信号进行声纹特征提取，以获取该待识别语音信号的声纹信息。示例性的，步骤503可以由图2中的特征提取模块204执行。

作为示例，用户的待识别语音信号可以是设备采集到的用户的待识别的语音信号，可以是经过端点检测、降噪处理、去混响等处理后的时域信号。

作为一种可能的实现方式，在声纹确认/辨认阶段进行声纹特征提取所采用的特征提取算法，与声纹注册阶段训练生成声纹模板时所采用的特征提取算法相同。

然后，可以执行步骤504，根据情感识别的识别结果，调取已注册用户的该第一情绪的声纹模板，对待识别语音信号进行声纹判决，从而判断出用户的身份。作为示例，可以将步骤503中获取的声纹信息与该已注册用户第一情绪的声纹模板进行匹配，确定待识别用户是否为该已注册用户。

示例性的，步骤504可以由图2中的声纹模板获取模块206和声纹匹配模块207执行。其中，声纹模板获取模块206可以根据在步骤502中识别的第一情绪，在已注册用户的声纹模板集中获取该第一情绪的声纹模板。然后，声纹匹配模块207将在步骤503中获取的声纹信息与该第一情绪下的声纹模板进行匹配，确定待识别用户是否为该已注册用户。

因此，本申请实施例通过识别待识别用户的待识别语音信号的情绪，并调用已注册用户在该情绪下的声纹模板，将该待识别语音信号的特征信息与已注册用户的该情绪下的声纹模板进行声纹匹配，判断该待识别用户是否为已注册用户。因此，本申请实施例通过将相同情绪下的待识别语音信号与声纹模板进行匹配，能够有助于降低用户的情绪波动对声纹识别的影响，从而有助于实现用户在不同的情绪下，获得一致的声纹识别的用户体验，从而增强声纹识别的鲁棒性。

图6示出了本申请实施例提供的声纹识别流程的另一个具体示例。其中，通过情绪识别，判断用户当前所处的情绪状态为由多种预设情绪组成的混合情绪，此时可以根据该多种预设情绪对应的声纹模板，生成用户当前情绪的混合声纹模板，然后根据该混合声纹模板进行声纹识别。

如图6所示，在声纹确认/辨认阶段，首先可以通过步骤601获取用户输入的待识别语音信号。具体的，步骤601可以参见步骤501的描述，为了简洁，这里不再赘述。

然后，可以执行步骤602，对待识别语音信号进行情感识别，获取当前用户的第一情绪。这里，该第一情绪为由多种预设情绪组成的混合情绪，即，第一情绪为预先设定情绪中的两种或两种以上的情绪的组合。

在一些场景中，待识别用户的语音往往包含多种情绪因素，比如愤怒加急切，又比如喜悦加激动等。而在情感识别时，难以界定当前的情绪属于哪一种，此时可以采用多种情绪的组合来描述当前用户的情绪状态。

作为一种可能的实现方式，第一情绪可以由至少两种情绪中的每种情绪的权重系数表征。示例性的，可以使用情感识别模模块，对待识别用户的待识别语音信号进行情感识别，获得用户当前的第一情绪的中的每种情绪的权重系数。这里，每种情绪的权重系数能够表示该每种情绪在第一情绪中所占的比例。也就是说，通过对至少两个情绪中的每个情绪分别乘以每个情绪的权重系数，然后对该至少两个乘积求和，可以获得第一情绪。

在一些实施例中，第一情绪中包括的该至少两种情绪中每种情绪的权重系数可以组成该第一情绪的权重系数矢量。

示例性的，通过步骤602可以获取第一情绪的权重系数矢量，可以表示为[W ₁…W _i…W _N]，其中W _i是第i种情绪对应的权重系数，表征了第i种情绪在待识别语音信号中发生的概率，N表示第一情绪中包含的情绪种类的总数。一个具体的例子，N可以为多种情绪的声纹模板集中包含的不同情绪的声纹模板的数量，或者N可以为预先设定的情绪的种类。其中，N为大于1的正整数。

例如，情感识别模块205可以识别出在第一情绪中，愤怒情绪的概率是60％，急切情绪的概率是30％，悲伤的情绪的概率是10％，那么愤怒情绪的权重系数可以记为0.6，急切情绪的权重系数可以记为0.3，悲伤情绪的权重系数可以记为0.1。

然后，可以执行步骤603，对待识别语音信号进行声纹特征提取，以获取该待识别语音信号的声纹信息。具体的，步骤603可以参见步骤503的描述，为了简洁，这里不再赘述。

然后，可以执行步骤604，生成混合声纹模板。这里，该混合声纹模板即第一情绪下的声纹模板。示例性的，可以从已注册用户的多种不同情绪下的声纹模板中，确定该第一情绪中的至少两种情绪中的每种情绪对应的声纹模板，然后根据每种情绪的声纹模板，以及每种情绪的权重系数，获取第一情绪对应的声纹模板。

示例性的，步骤604可以由图2中的声纹模板获取模块206执行。声纹模板获取模块206可以获取已注册用户的声纹模板集，再根据第一情绪中的各个情绪的权重系数，即第一情绪的权重系数矢量，对该声纹模板集中的第一情绪中的各个情绪的声纹模板进行加权平均，得到混合声纹模板。一个示例，混合声纹模板可以满足如下公式(1)：

其中，x表示该混合声纹模板，x _i表示第i种情绪对应的声纹模板，W _i、N可以参见上文中的描述。

然后，可以执行步骤605，根据步骤604中获取的混合声纹模板，对待识别语音信号进行声纹判决。示例性的，步骤605可以由图2中的声纹匹配模块207执行。声纹匹配模块207可以将步骤603中获取的声纹信息与该混合声纹模板进行匹配，确定所述待识别用户是否为该已注册用户。

因此，本申请实施例通过识别用户当前情绪中包含的各个情绪的权重系数，并根据该情绪中的各个情绪的权重系数，对已注册用户的声纹模板集中各个情绪进行加权求和获取混合声纹模板，将该待识别语音信号的特征信息与该混合声纹模板进行匹配，判断该待识别用户是否为已注册用户。因此，本申请实施例通过将相同情绪下的待识别语音信号与声纹模板进行匹配，能够有助于降低用户的情绪波动对声纹识别的影响，从而有助于实现用户在不同的情绪下，获得一致的声纹识别的用户体验，从而增强声纹识别的鲁棒性。

以下，结合图7至图14从用户使用终端设备的角度，描述本申请实施例提供的声纹识别的方法。

首先，进行声纹注册，生成用户的声纹模型。

一个示例，用户首次使用终端设备的声纹识别功能时，终端设备可以提示用户是否需要进行声纹注册。作为一个具体的例子，请参考图7，示出了终端设备显示界面的一个示例。如图7所示，可以通过终端设备的显示界面显示“是否注册声纹模板”。可选的，终端设备还可以显示“是”和“否”两个虚拟按键，用于获取用户的操作。当用户输入“是”的操作时，响应于该操作，终端设备可以进入录入用户语音的界面。当用户输入“否”的操作时，响应于该操作，终端设备退出该界面。

在一些实施例中，终端设备还可以通过物理按键，获取用户的操作。例如，当用户选择“确认”按键时，可以进入录入用户注册语音的界面，当用户选择“返回”按键时，退出图7所示界面。

当终端设备不具有显示界面时，或者在终端设备显示图7所示的界面的同时，终端设备可以对用户进行语音提示，例如通过音频播放器播放“是否注册声纹模板”，或者其他语音，本申请实施例对此不做限定。

另一个示例，用户还可以在安全设置中，选择增加新的用于声纹识别的声纹模板。作为一个具体的例子，请参考图8，示出了终端设备的一个示例。如图8所示，用户可以通过图8中左侧的安全与隐私的显示界面，输入进入“声纹”的操作。响应于该操作，显示见面可以呈现如图8中右侧所示的界面。此时，用户可以通过输入“新建声纹模板”的操作。响应于该操作，端侧交互设备可以进入录入用户语音的界面。

在本申请实施例中，可以采用两种方式获取用户的多个不同情绪下的注册语音信号。作为一个具体的例子，请参考图9，示出了终端设备显示界面的一个示例。如图9所示，可以通过终端设备的显示界面显示“请选择录入语音的方式”，以及该两种录入语音的方式，分别为“录入多种情绪的语音”和“录入一种情绪的语音”。当用户执行选择“录入多种情绪的语音”的操作时，响应于该操作，终端设备可以进入录入多种语音的界面。当用户输入“录入一种情绪的语音”的操作时，响应于该操作，终端设备进入录入一种情绪的语音的界面。

图10示出了录入用户语音的界面的一个示例。如图10中的(a)图所示，当选择录入多种情绪的语音之后，可以在显示界面显示“请选择录入语音时的情绪”，并显示在该终端设备中预设的情绪，例如平静、悲伤、喜悦、恐惧、愤怒和急切等，但是本申请实施例并不限于此。对应的，用户看到该显示界面后，可以执行选择一种情绪的操作，例如用户选择了“恐惧”的情绪。示例性的，用户可以根据自己的心情，选择希望录入语音的情绪。

响应于用户执行的选择情绪的操作，可以向用户显示图10中的(b)图所示的界面。以用户选择“恐惧”情绪为例，此时可以在界面中显示“请录入恐惧情绪下的语音”的提示，以及“开始录音”的虚拟按键。此时，用户可以执行录入恐惧情绪下的语音的操作。例如，用户可以长按“开始录音”虚拟按键，并同时输入一段恐惧情绪下的语音。响应于用户执行录入恐惧情绪下的语音的操作，终端设备可以通过语音获取模块(例如麦克风组件)来获取用户的录入的恐惧情绪下的注册语音信号。

需要说明的是，以上仅以用户录入恐惧情绪下的语音为例进行描述，用户还可以采用同样的方式录入其他情绪下的语音，本申请实施例对此不作限定。另外，本申请实施例对用户录入某种情绪下的语音的时间和先后顺序不作限定，例如用户可以在不同的时间分别录入不同的情绪下的语音，这些都在本申请实施例的保护范围之内。

在图10中，可以将用户执行的选择预设情绪，并录入该预设情绪下的语音的操作称为操作#1，即操作#1用于录入用户在该预设情绪下的语音，但是本申请实施例并不限于此。

在一些实施例中，在终端设备没有显示界面，或者在终端设备显示图10所示的界面的同时，还可以对用户进行语音提示，例如，通过音频播放器播放“请选择录入语音时的情绪”，“请录入恐惧情绪下的语音”等，或者其他语音，本申请实施例对此不做限定。

终端设备在获取用户的不同情绪下的注册语音信号之后，可以对该不同情绪下的注册语音信号进行信号处理，例如语音激活检测、语音降噪处理、去混响处理等，本申请实施例对此不做限定。

图11示出了录入用户语音的界面的另一个示例。如图11中的(a)图所示，当选择录入一种情绪的语音之后，可以在显示界面显示“请选择情感转换的情绪”，并显示在该终端设备中预设的情绪，例如平静、悲伤、喜悦、恐惧、愤怒和急切等，但是本申请实施例并不限于此。对应的，用户看到该显示界面后，可以执行从该至少两种预设情绪中选择多种不同情绪的操作#2，例如用户选择了“平静”、“喜悦”、“恐惧”等情绪。

响应于用户执行的选择情绪的操作#2，可以向用户显示图11中的(b)图所示的界面。此时可以在界面中显示“请录入的语音”的提示，以及“开始录音”的虚拟按键。此时，用户可以执行录入语音的操作。例如，用户可以长按“开始录音”虚拟按键，并同时输入一段的语音。响应于用户执行录入语音的操作，终端设备可以通过语音获取模块(例如麦克风组件)来获取用户的录入的注册语音信号。需要说明的是，这里对用户录入该语音的情绪的类型不作限定。

可选的，终端设备在获取该注册语音信号之后，可以对该注册语音信号进行信号处理，例如语音激活检测、语音降噪处理、去混响处理等，本申请实施例对此不做限定。

然后，终端设备可以对该注册语音信号进行情感转换，将该注册语音信号变换为在图11中选择的至少两种情绪下的注册语音信号，即获得用户的多种情绪的注册语音信号。作为示例，可以通过图2中的情感变化模板202对注册语音信号进行情感变化。

然后，可以根据用户的多种情绪下的注册语音信号，生成该用户的多种情绪的声纹模板。作为示例，可以通过图2中的声纹模板生成模块203生成多种情绪下的声纹模板。

具体的，情感变化以及生成声纹模板的过程可以参见上文中的描述，为了简洁，这里不再赘述。

声纹注册完成之后，可以对待识别用户进行声纹识别。

一个示例，用户在开启终端设备，或者启用终端设备的某些需要安全验证的功能时，终端设备可以提示用户需要进行声纹验证。作为一个示例，终端设备可以进入录入测试者测试语音的界面。图12示出了录入用户语音的界面的另一个示例。如图12所示，可以在显示界面显示“请您录入语音以进行声纹验证”。可选的，终端设备还可以在界面中显示“开始录音”的虚拟按键。当用户选择录入语音时，用户可以通过点击或长按“开始录音”虚拟按键，并在点击“开始录音”按键之后，或者长按“开始录音”按键的同时输入一段待识别语音。响应于用户输入语音的操作，终端设备可以通过语音获取模块(例如麦克风组件)来获取用户的待识别语音信号。

在一些实施例中，在终端设备没有显示界面，或者在终端设备显示图12所示的界面的同时，终端设备还可以对用户进行语音提示，例如，通过音频播放器播放“请您录入一段语音以进行声纹验证”，或者其他语音，本申请实施例对此不做限定。

终端设备在获取用户的待识别语音信号之后，可以对该待识别语音信号进行信号处理，例如语音激活检测、语音降噪处理、去混响处理等，本申请实施例对此不做限定。

终端设备在获取待识别语音信号之后，一方面，可以对该待识别语音信号进行特征提取，获取该待识别语音信号的声纹信息。作为示例，可以通过图2中的特征提取模块204对待识别语音信号进行特征提取。另一方面，可以对待识别语音信号进行情感识别，获取该待识别语音信号对应的第一情绪。作为示例，可以通过图2中的情感识别模块205对待识别语音信号进行情感识别。

在一些实施例中，可以通过显示界面向用户显示该第一情绪，即检测到的用户的情绪。图13中的图(a)示出了显示第一情绪的界面的一个示例。其中，第一情绪为预设情绪中的一种。在图14中的(a)图示出了显示第一情绪的界面的另一个示例，第一情绪由至少两种情绪中的每种情绪的权重系数标准，此时可以通过显示界面显示该至少两种预设情绪中的每个预设情绪和每种预设情绪的权重系数。例如，如图14中(a)图所示，第一情绪中愤怒情绪的权重系数为0.6，急切情绪的权重系数为0.3，悲伤情绪的权重系数为0.1，其余情绪的权重系数为0。

在一些可选的实施例中，当用户对显示界面中显示的第一情绪的类型不满意，或者对第一情绪中的至少两种情绪中每种情绪的权重系数不满意时，可以执行操作#3，即修正该第一情绪的类型，或者修改该第一情绪中的至少两种情绪中每种情绪的权重系数。在获取用户的操作#3之后，终端设备可以根据该操作#3，更新第一情绪。

作为一个具体的例子，在图13中，当用户执行修改操作时，可以向用户显示图13中(b)图所示的界面，此时可以向用户提供可选的情绪类型，例如急切，或者平静，供用户选择。作为一种可能的实现方式，在图13中(b)中供用户选择的情绪可以为在对待识别语音信号进行情感识别时，可能得到的情绪的类型。

作为另一个具体的例子，在图14中，当用户执行修改操作时，可以向用户显示图14中(b)图所示的界面，此时用户可以选择更改每种情绪的权重系数。

当第一情绪为预先设定的情绪中的其中一时，可以直接调用已注册用户的该第一情绪下的声纹模板，并将该声纹模板与待识别语音信号的声纹信息进行匹配，判断待识别用户是否为已注册用户。

作为示例，可以通过图2中的声纹模块获取模块206获取已注册用户的第一情绪下的声纹模板，通过声纹匹配模块207对该声纹模板与待识别语音信号的声纹信息进行匹配，并获得匹配结果。

当第一情绪为预先设定的多种情绪的组合时，可以确定第一情绪对应的权重系数矢量，通过该权重系数矢量对已注册用户的不同情绪的注册声纹模板进行加权，得到混合声纹模板。然后，将该混合声纹模板与待识别语音信号的声纹信息进行匹配，判断待识别用户是否为已注册用户。

作为示例，可以通过图2中的声纹模块获取模块206获取该混合声纹模板，通过声纹匹配模块207对该混合声纹模板与待识别语音信号的声纹信息进行匹配，并获得匹配结果。

具体的，声纹识别的过程可以参见上文中的描述，为了简洁，这里不再赘述。

由于本申请实施例是将相同情绪下的待识别语音信号的特征信息与声纹模板进行匹配的，因此本申请实施例能够有助于降低用户的情绪波动对声纹识别的影响，从而有助于实现用户在不同的情绪下，获得一致的声纹识别的用户体验，从而增强声纹识别的鲁棒性。

图15示出了本申请实施例提供的一种声纹识别的方法的示意性流程图。其中，该方法可以由图2中的系统200执行。该方法包括步骤710至步骤740。

步骤710，获取待识别用户的待识别语音信号。

步骤720，对所述待识别语音信号进行情感识别，获取所述待识别语音信号对应的第一情绪。

步骤730，获取已注册用户在所述第一情绪对应的声纹模板，当第一情绪对应不同情绪时，所述不同情绪对应的声纹模板不同。

步骤740，根据所述待识别语音信号和所述声纹模板，判断所述待识别用户是否为所述已注册用户。

在一些可能的实现方式中，所述获取已注册用户在所述第一情绪下的声纹模板，包括：

也就是说，此时第一情绪可以为预设的多种情绪中的其中一种单一的情绪，此时可以通过调用该情绪下的声纹模板进行声纹识别。具体的，可以参见上文图5中的描述，为了简洁，这里不再赘述。

在一些可能的实现方式中，所述第一情绪由至少两种情绪中的每种情绪的权重系数表征。

也就是说，此时第一情绪可以为由多种预设情绪组成的混合情绪，此时可以根据已注册用户的该多种预设情绪对应的声纹模板，生成第一情绪对应的混合声纹模板，然后根据该混合声纹模板进行声纹匹配。具体的，可以参见上文中图6的描述，为了简洁，这里不再赘述。

在一些可能的实现方式中，还可以通过显示界面显示所述第一情绪。

在一些可能的实现方式中，当所述第一情绪由至少两种情绪中的每种情绪的权重系数表征时，所述通过显示界面显示所述第一情绪，可以通过所述显示界面显示所述每种情绪和所述每种情绪的权重系数。

具体的，显示第一情绪，以及对第一情绪进行更新，可以参见上文图13和图14中的描述，为了简洁，这里不再赘述。

在一些可能的实现方式中，所述获取已注册用户在所述第一情绪下的声纹模板之前，还包括：

获取多种不同情绪下的注册语音信号；

作为一种实现方式，可以直接采集用户在不同情绪下的注册语音，获取该用户的不同情绪下的注册语音信号。具体的，可以参见上文图4中的描述，为了简洁，这里不再赘述。

在一些可能的实现方式中，所述获取多种不同情绪下的注册语音信号，包括：

通过显示界面向用户显示至少两种预设情绪；

获取用户的第二操作，所述第二操作用于录入用户在所述至少两种预设情绪下的语音；

响应于所述第二操作，获取所述至少两种预设情绪下的注册语音信号，其中，所述多种不同情绪下的注册语音信号包括所述至少两种预设情绪下的注册语音信号。

具体的，可以参见上文图10中的描述，为了简洁，这里不再赘述。

获取第一注册语音信号；

具体的，可以参见上文图3中的描述，为了简洁，这里不再赘述。

在一些可能的实现方式中，所述对所述第一注册语音信号进行情感转换，获取所述多种不同情绪下的注册语音信号，包括：

通过显示界面向用户显示至少两个预设情绪；

具体的，可以参见上文图11中的描述，为了简洁，这里不再赘述。

在一些可能的实现方式中，所述根据所述待识别语音信号和所述声纹模板，判断所述待识别用户是否为所述已注册用户，包括：

在一些可能的实现方式中，所述第一情绪包括平静、喜悦、愤怒、悲伤、急切、恐惧和惊讶中的至少一种。

上文结合图1至图15对本申请实施例提供的声纹识别的方法进行了详细描述，下面结合图16和图17对本申请实施例的声纹识别的装置进行介绍。应理解，图16和图17中的声纹识别的装置能够执行本申请实施例中的声纹识别的方法中的各个步骤，为了避免重复，下面在介绍图16和图17中的声纹识别的装置时适当省略重复的描述。

图16是本申请实施例的声纹识别的装置的示意性框图。图16中的声纹识别的装置800包括第一获取单元810、情感识别单元820、第二获取单元830和判断单元840。

具体的，当声纹识别的装置800执行声纹识别的方法时，第一获取单元810，用于获取待识别用户的待识别语音信号；情感识别单元820，用于对所述待识别语音信号进行情感识别，获取所述待识别语音信号对应的第一情绪；第二获取单元830，用于获取已注册用户在所述第一情绪下的声纹模板，其中，当第一情绪对应不同情绪时，所述不同情绪对应的声纹模板不同；判断单元840，用于根据所述待识别语音信号和所述声纹模板，判断所述待识别用户是否为所述已注册用户。

在一些可能的实现方式中，所述第二获取单元860具体用于从所述已注册用户的多种不同情绪下的声纹模板中，获取所述第一情绪对应的声纹模板，其中，所述多种不同情绪包括所述第一情绪。

在一些可能的实现方式中，所述第一情绪由至少两种情绪中的每种情绪的权重系数表征。此时，所述第二获取单元830具体用于从所述已注册用户的多种不同情绪下的声纹模板中，确定所述第一情绪中的所述至少两种情绪中的每种情绪对应的声纹模板，然后根据所述每种情绪的声纹模板，以及所述每种情绪的权重系数，获取所述第一情绪对应的声纹模板。

在一些可能的实现方式中，装置800还包括显示界面，用于显示所述第一情绪。

在一些可能的实现方式中，当所述第一情绪由至少两种情绪中的每种情绪的权重系数表征时，所述显示界面具体用于显示所述每种情绪和所述每种情绪的权重系数。

在一些可能的实现方式中，装置800还包括第三获取单元，用于获取用户的第一操作，其中，所述第一操作用于修正所述第一情绪的类型，或者用于修正所述第一情绪中的至少两种情绪中的每种情绪的权重系数。所述情感识别单元820还应用于响应于所述第一操作，对所述第一情绪进行更新。

在一些可能的实现方式中，装置800还包括第四获取单元，用于获取多种不同情绪下的注册语音信号。以及，还可以包括第五获取单元，用于根据所述多种不同情绪的注册语音信号，获取所述已注册用户在所述多种不同情绪中的每种情绪的声纹模板。

一种可能的实现方式，第四获取单元可以与第一获取单元为相同的单元，但是本申请实施例对此不作限定。

在一些可能的实现方式中，所述第四获取单元具体用于通过显示界面向用户显示至少两种预设情绪；然后获取用户的第二操作，所述第二操作用于录入用户在所述至少两种预设情绪下的语音；响应于所述第二操作，获取所述至少两种预设情绪下的注册语音信号，其中，所述多种不同情绪下的注册语音信号包括所述至少两种预设情绪下的注册语音信号。

在一些可能的实现方式中，所述第四获取单元具体用于获取第一注册语音信号，然后对所述第一注册语音信号进行情感转换，获取所述多种不同情绪下的注册语音信号。

在一些可能的实现方式中，所述第四获取单元具体用于通过显示界面向用户显示至少两个预设情绪；然后获取用户的第三操作，其中，所述第三操作用于在所述至少两种预设情绪中选择所述多种不同情绪；响应于所述第三操作，对所述第一注册语音信号进行情感变换，获取所述多种不同情绪下的注册语音信号。

在一些可能的实现方式中，所述判断单元840具体用于对所述待识别语音信号进行声纹特征提取，获取所述待识别语音信号的声纹信息。然后，判断单元840根据所述声纹信息和所述声纹模板，判断所述待识别用户是否为所述已注册用户。

图17是本申请实施例的声纹识别的装置的结构示意图。作为示例，该声纹识别的装置可以为终端设备。如图17所示，该声纹识别的装置包括通信模块910、传感器920、用户输入模块930、输出模块940、处理器950、音视频输入模块960、存储器970以及电源980。

通信模块910可以包括至少一个能使该计算机系统与通信系统或其他计算机系统之间进行通信的模块。例如，通信模块910可以包括有线网络接口，广播接收模块、移动通信模块、无线因特网模块、局域通信模块和位置(或定位)信息模块等其中的一个或多个。这多种模块均在现有技术中有多种实现，本申请不一一描述。

传感器920可以感测系统的当前状态，诸如打开/闭合状态、位置、与用户是否有接触、方向、和加速/减速，并且传感器920可以生成用于控制系统的操作的感测信号。

用户输入模块930，用于接收输入的数字信息、字符信息或接触式触摸操作/非接触式手势，以及接收与系统的用户设置以及功能控制有关的信号输入等。用户输入模块930包括触控面板和/或其他输入设备。

例如，用户输入模块930可以用于获取用户输入的第一操作，其中，所述第一操作用于修正第一情绪的类型，或者用于修正第一情绪中的至少两种情绪中的每种情绪的权重系数。

又例如，用户输入模块930可以用于获取所述用户输入的第二操作，其中，所述第二操作用于录入用户在所述至少两种预设情绪下的语音。

又例如，用户输入模块930可以用于获取所述用户输入的第三操作，所述第三操作用于在至少两种预设情绪中选择所述多种不同情绪。

输出模块940包括显示面板，用于显示由用户输入的信息、提供给用户的信息或系统的各种菜单界面等。可选的，可以采用液晶显示器(liquid crystal display，LCD)或有机发光二极管(organic light-emitting diode,OLED)等形式来配置显示面板。在其他一些实施例中，触控面板可覆盖显示面板上，形成触摸显示屏。另外，输出模块940还可以包括音频输出模块、告警器以及触觉模块等。

例如，输出模块940用于通过显示屏向用户显示第一情绪，例如显示第一情绪的类型，或者第一情绪中的至少两个情绪中每种情绪的权重系数。

又例如，输出模块940可以用于通过显示屏向所述用户显示或提示是否注册声纹模板，或者提示用户选择录入语音时的情绪，或者提示用户选择情感转换的情绪等，本申请实施例对此不作限定。

音视频输入模块960，用于输入音频信号或视频信号。音视频输入模块960可以包括摄像头和麦克风。

电源980可以在处理器950的控制下接收外部电力和内部电力，并且提供系统的各个组件的操作所需的电力。

处理器950可以指示一个或多个处理器，例如，处理器950可以包括一个或多个中央处理器，或者包括一个中央处理器和一个图形处理器，或者包括一个应用处理器和一个协处理器(例如微控制单元)。当处理器950包括多个处理器时，这多个处理器可以集成在同一块芯片上，也可以各自为独立的芯片。一个处理器可以包括一个或多个物理核，其中物理核为最小的处理模块。

例如，处理器950用于获取待识别用户的待识别语音信号，并对所述待识别语音信号进行情感识别，获取所述待识别语音信号对应的第一情绪。然后，处理器950获取已注册用户在所述第一情绪下的声纹模板，其中，当所述第一情绪对应不同情绪时，所述不同情绪对应的声纹模板不同。然后，处理器950根据所述待识别语音信号和所述声纹模板，判断所述待识别用户是否为所述已注册用户。

又例如，处理器930还用于获取多种不同情绪下的注册语音信号，然后根据所述多种不同情绪的注册语音信号，获取所述已注册用户在所述多种不同情绪中的每种情绪的声纹模板。

又例如，所述处理器930还用于响应于用户的第一操作，更新第一情绪。或者，响应于用户的第二操作，获取所述至少两种预设情绪下的注册语音信号。或者，响应于用户的第三操作，对所述第一注册语音信号进行情感变换，获取所述多种不同情绪下的注册语音信号。

存储器970存储计算机程序，该计算机程序包括操作系统程序972和应用程序971等。典型的操作系统如微软公司的Windows，苹果公司的MacOS等用于台式机或笔记本的系统，又如谷歌公司开发的基于

的安卓

系统等用于移动终端的系统。前述实施例提供的方法可以通过软件的方式实现，可以认为是应用程序971的具体实现。

存储器970可以是以下类型中的一种或多种：闪速(flash)存储器、硬盘类型存储器、微型多媒体卡型存储器、卡式存储器(例如SD或XD存储器)、随机存取存储器(random access memory,RAM)、静态随机存取存储器(static RAM,SRAM)、只读存储器(read only memory,ROM)、电可擦除可编程只读存储器(electrically erasable programmable read-only memory，EEPROM)、可编程只读存储器(programmable ROM,PROM)、磁存储器、磁盘或光盘。在其他一些实施例中，存储器970也可以是因特网上的网络存储设备，系统可以对在因特网上的存储器970执行更新或读取等操作。

处理器950用于读取存储器970中的计算机程序，然后执行计算机程序定义的方法，例如处理器950读取操作系统程序972从而在该系统运行操作系统以及实现操作系统的各种功能，或读取一种或多种应用程序971，从而在该系统上运行应用。

存储器970还存储有除计算机程序之外的其他数据973，例如本申请中涉及的声纹模板、待识别语音信号、注册语音信号等。

图16中各个模块的连接关系仅为一种示例，本申请任意实施例提供的方法也可以应用在其它连接方式的声纹识别的装置中，例如所有模块通过总线连接。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

一种声纹识别的方法，其特征在于，包括：

获取待识别用户的待识别语音信号；

对所述待识别语音信号进行情感识别，获取所述待识别语音信号对应的第一情绪；

获取已注册用户在所述第一情绪下的声纹模板，其中，当所述第一情绪对应不同情绪时，所述不同情绪对应的声纹模板不同；

根据所述待识别语音信号和所述声纹模板，判断所述待识别用户是否为所述已注册用户。
根据权利要求1所述的方法，其特征在于，所述获取已注册用户在所述第一情绪下的声纹模板，包括：

从所述已注册用户的多种不同情绪下的声纹模板中，获取所述第一情绪对应的声纹模板，其中，所述多种不同情绪包括所述第一情绪。
根据权利要求1所述的方法，其特征在于，所述第一情绪由至少两种情绪中的每种情绪的权重系数表征；

其中，所述获取已注册用户在所述第一情绪下的声纹模板，包括：

从所述已注册用户的多种不同情绪下的声纹模板中，确定所述第一情绪中的所述至少两种情绪中的每种情绪对应的声纹模板；

根据所述每种情绪的声纹模板，以及所述每种情绪的权重系数，获取所述第一情绪对应的声纹模板。
根据权利要求1-3任一项所述的方法，其特征在于，所述方法还包括：

通过显示界面显示所述第一情绪。
根据权利要求4所述的方法，其特征在于，当所述第一情绪由至少两种情绪中的每种情绪的权重系数表征时，所述通过显示界面显示所述第一情绪，包括：

通过所述显示界面显示所述每种情绪和所述每种情绪的权重系数。
根据权利要求4或5所述的方法，其特征在于，还包括：

获取用户的第一操作，其中，所述第一操作用于修正所述第一情绪的类型，或者用于修正所述第一情绪中的至少两种情绪中的每种情绪的权重系数；

响应于所述第一操作，对所述第一情绪进行更新。
根据权利要求1-6任一项所述的方法，其特征在于，所述获取已注册用户在所述第一情绪下的声纹模板之前，还包括：

获取多种不同情绪下的注册语音信号；

根据所述多种不同情绪的注册语音信号，获取所述已注册用户在所述多种不同情绪中的每种情绪的声纹模板。
根据权利要求7所述的方法，其特征在于，所述获取多种不同情绪下的注册语音信号，包括：

通过显示界面向用户显示至少两种预设情绪；

获取用户的第二操作，所述第二操作用于录入用户在所述至少两种预设情绪下的语音；

响应于所述第二操作，获取所述至少两种预设情绪下的注册语音信号，其中，所述多种不同情绪下的注册语音信号包括所述至少两种预设情绪下的注册语音信号。
根据权利要求7所述的方法，其特征在于，所述获取多种不同情绪下的注册语音信号，包括：

获取第一注册语音信号；

对所述第一注册语音信号进行情感转换，获取所述多种不同情绪下的注册语音信号。
根据权利要求9所述的方法，其特征在于，所述对所述第一注册语音信号进行情感转换，获取所述多种不同情绪下的注册语音信号，包括：

通过显示界面向用户显示至少两个预设情绪；

获取用户的第三操作，其中，所述第三操作用于在所述至少两种预设情绪中选择所述多种不同情绪；

响应于所述第三操作，对所述第一注册语音信号进行情感变换，获取所述多种不同情绪下的注册语音信号。
根据权利要求1-10任一项所述的方法，其特征在于，所述根据所述待识别语音信号和所述声纹模板，判断所述待识别用户是否为所述已注册用户，包括：

对所述待识别语音信号进行声纹特征提取，获取所述待识别语音信号的声纹信息；

根据所述声纹信息和所述声纹模板，判断所述待识别用户是否为所述已注册用户。
根据权利要求1-11任一项所述的方法，其特征在于，所述第一情绪包括平静、喜悦、愤怒、悲伤、急切、恐惧和惊讶中的至少一种。
一种声纹识别的装置，其特征在于，包括：

第一获取单元，用于获取待识别用户的待识别语音信号；

情感识别单元，用于对所述待识别语音信号进行情感识别，获取所述待识别语音信号对应的第一情绪；

第二获取单元，用于获取已注册用户在所述第一情绪下的声纹模板，其中，当第一情绪对应不同情绪时，所述不同情绪对应的声纹模板不同；

判断单元，用于根据所述待识别语音信号和所述声纹模板，判断所述待识别用户是否为所述已注册用户。
根据权利要求13所述的装置，其特征在于，所述第二获取单元具体用于：

从所述已注册用户的多种不同情绪下的声纹模板中，获取所述第一情绪对应的声纹模板，其中，所述多种不同情绪包括所述第一情绪。
根据权利要求13所述的装置，其特征在于，所述第一情绪由至少两种情绪中的每种情绪的权重系数表征；

其中，所述第二获取单元具体用于：

从所述已注册用户的多种不同情绪下的声纹模板中，确定所述第一情绪中的所述至少两种情绪中的每种情绪对应的声纹模板；

根据所述每种情绪的声纹模板，以及所述每种情绪的权重系数，获取所述第一情绪对应的声纹模板。
根据权利要求13-15任一项所述的装置，其特征在于，还包括：

显示界面，用于显示所述第一情绪。
根据权利要求16所述的装置，其特征在于，当所述第一情绪由至少两种情绪中的每种情绪的权重系数表征时，所述显示界面具体用于显示所述每种情绪和所述每种情绪的权重系数。
根据权利要求16或17所述的装置，其特征在于，还包括：

第三获取单元，用于获取用户的第一操作，其中，所述第一操作用于修正所述第一情绪的类型，或者用于修正所述第一情绪中的至少两种情绪中的每种情绪的权重系数；

所述情感识别单元还应用于响应于所述第一操作，对所述第一情绪进行更新。
根据权利要求13-18任一项所述的装置，其特征在于，还包括：

第四获取单元，用于获取多种不同情绪下的注册语音信号；

第五获取单元，用于根据所述多种不同情绪的注册语音信号，获取所述已注册用户在所述多种不同情绪中的每种情绪的声纹模板。
根据权利要求19所述的装置，其特征在于，所述第四获取单元具体用于：

通过显示界面向用户显示至少两种预设情绪；

获取用户的第二操作，所述第二操作用于录入用户在所述至少两种预设情绪下的语音；

响应于所述第二操作，获取所述至少两种预设情绪下的注册语音信号，其中，所述多种不同情绪下的注册语音信号包括所述至少两种预设情绪下的注册语音信号。
根据权利要求19所述的装置，其特征在于，所述第四获取单元具体用于：

获取第一注册语音信号；

对所述第一注册语音信号进行情感转换，获取所述多种不同情绪下的注册语音信号。
根据权利要求21所述的装置，其特征在于，所述第四获取单元具体用于：

通过显示界面向用户显示至少两个预设情绪；

获取用户的第三操作，其中，所述第三操作用于在所述至少两种预设情绪中选择所述多种不同情绪；

响应于所述第三操作，对所述第一注册语音信号进行情感变换，获取所述多种不同情绪下的注册语音信号。
根据权利要求13-22任一项所述的装置，其特征在于，所述判断单元具体用于：

对所述待识别语音信号进行声纹特征提取，获取所述待识别语音信号的声纹信息；

根据所述声纹信息和所述声纹模板，判断所述待识别用户是否为所述已注册用户。
根据权利要求13-23任一项所述的装置，其特征在于，所述第一情绪包括平静、喜悦、愤怒、悲伤、急切、恐惧和惊讶中的至少一种。
一种终端设备，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-12中任一项所述的方法。