WO2022057283A1

WO2022057283A1 - 声纹注册方法、装置和计算机可读存储介质

Info

Publication number: WO2022057283A1
Application number: PCT/CN2021/093285
Authority: WO
Inventors: 童颖
Original assignee: 北京沃东天骏信息技术有限公司; 北京京东世纪贸易有限公司
Priority date: 2020-09-21
Filing date: 2021-05-12
Publication date: 2022-03-24
Also published as: CN112309406A

Abstract

一种声纹注册方法、装置(500)和计算机可读存储介质。声纹注册方法包括：根据朗读文本、以及用于引导用户采用预设声音属性说出朗读文本的流程文本，生成指导信息(S102)；在指导信息被输出给用户后，获取用户的朗读语音(S104)；确定朗读语音的声音属性、以及识别朗读语音对应的文字内容(S106)；在朗读语音的声音属性为预设的声音属性、朗读语音对应的文字内容与朗读文本匹配的情况下，确定朗读语音可用(S108)；在朗读语音可用的情况下，存储用户和从朗读语音中提取的声纹信息之间的对应关系(S110)。声纹注册方法提高了声纹注册的适用人群和使用便捷度，也提高了注册流程的效率。

Description

声纹注册方法、装置和计算机可读存储介质

相关申请的交叉引用

本申请是以CN申请号为202010996045.4，申请日为2020年9月21日的申请为基础，并主张其优先权，该CN申请的公开内容在此作为整体引入本申请中。

技术领域

本发明涉及语音技术领域，特别涉及一种声纹注册方法、装置和计算机可读存储介质。

背景技术

声纹识别技术根据某条音频来判断当前音频是来自于哪个人，需要具备说话人模型等先验信息。在声纹识别中，需要事先获得指定的某个人或多个人的信息。当获得未知音频时，判定该音频是否属于指定的说话人中的某一个。

声纹识别的基本步骤可以包括以下几个：首先利用大量的说话人语音来训练一个声纹识别模型；然后是注册，即设备需要先录入某个说话人的音频，由此生成该说话人的说话人模型；之后是测试，即将未知的测试音频与说话人模型进行匹配，判断该测试音频是否属于指定说话人。声纹识别与语音识别不同，声纹识别不需要根据音频来判断相应的文字信息，且不需要判定说话人的年龄、性别等先验信息。

声纹识别可以应用于日常智能设备，以提供个性化的服务；也可以用于金融和安防领域，以进行身份的确认。这就要求声纹识别具有比较高的准确性和比较高的防攻击性。

在相关技术中，在声纹识别的注册阶段，说话人根据设备提示的文字信息来录入与文字信息对应的音频，并且录入的音频大于或等于1条。

发明内容

根据本发明一些实施例的第一个方面，提供一种声纹注册方法，包括：根据朗读文本、以及用于引导用户采用预设声音属性说出朗读文本的流程文本，生成指导信息；在指导信息被输出给用户后，获取用户的朗读语音；确定朗读语音的声音属性、以及识别朗读语音对应的文字内容；在朗读语音的声音属性为预设的声音属性、朗读语音对应的文字内容与朗读文本匹配的情况下，确定朗读语音可用；对于用于声纹注册的指导信息，在朗读语音可用的情况下，存储用户和从朗读语音中提取的声纹信息之间的对应关系。

在一些实施例中，指导信息为指导语音。

在一些实施例中，根据朗读文本和流程文本，生成具有预设声音属性的指导语音。

在一些实施例中，在朗读语音的声音属性为预设的声音属性、朗读语音对应的文字内容与朗读文本匹配、并且朗读语音不为噪声的情况下，确定朗读语音可用。

在一些实施例中，声纹注册方法还包括：在朗读语音的声音属性不为预设的声音属性、或者朗读语音对应的文字内容不与朗读文本匹配、或者朗读语音为噪声的情况下，确定朗读语音不可用；在朗读语音不可用的情况下，根据朗读语音的不可用类型，输出相应的朗读纠正信息，其中，不可用类型包括声音属性不匹配、朗读语音的内容不完整、朗读语音为噪声。

在一些实施例中，在朗读语音对应的文字内容包括朗读文本的情况下，或者，在朗读语音对应的文字内容对应的音素序列包括朗读文本对应的音素序列的情况下，朗读语音对应的文字内容与朗读文本匹配。

在一些实施例中，声纹注册方法还包括：获取用户输入的注册信息中的声音属性，作为预设声音属性；或者，在生成指导信息之前，采集用户的语音，并确定所采集的用户的语音的声音属性，作为预设声音属性。

在一些实施例中，确定朗读语音的声音属性包括：将朗读语音的语音特征输入到预设的声音属性分类模型中，获得朗读语音的声音属性。

在一些实施例中，确定朗读语音的声音属性包括：将朗读语音的语音特征输入到预设的神经网络模型中，获得神经网络模型的隐藏层提取的语音嵌入特征向量；计算语音嵌入特征向量与每个声音属性的预设语音嵌入特征向量之间的距离，并确定其中的最短距离；在最短距离不大于预设距离阈值的情况下，将最短距离对应的声音属性确定为朗读语音的声音属性；在最短距离大于预设距离阈值的情况下，将朗读语音的声音属性确定为未知属性。

在一些实施例中，识别朗读语音对应的文字内容包括：采用朗读语音的声音属性所对应的语音识别模型，确定朗读语音对应的文字内容。

在一些实施例中，声纹注册方法还包括：从字库中随机选择预设数量的字，组成备选文本，并确定备选文本的音素组合；检测预设的文本库中，音素组合的出现频率；在音素组合的出现频率低于预设频率的情况下，将备选文本作为朗读文本。

在一些实施例中，采用预设声音属性对应的孤立词识别模型对朗读语音进行识别，并获得朗读语音对应的文字内容。

在一些实施例中，指导信息为指导语音，并且流程文本包括随机选择的每个字对应的描述文本。

在一些实施例中，声音属性为方言类型。

在一些实施例中，对于用于声纹验证的指导信息，在朗读语音可用的情况下，如果提取的声纹与存储的、用户对应的声纹匹配，通过用户的身份验证。

根据本发明一些实施例的第二个方面，提供一种声纹注册装置，包括：指导信息生成模块，被配置为根据朗读文本、以及用于引导用户采用预设声音属性说出朗读文本的流程文本，生成指导信息；朗读语音获取模块，被配置为在指导信息被输出给用户后，获取用户的朗读语音；朗读语音解析模块，被配置为确定朗读语音的声音属性、以及识别朗读语音对应的文字内容；可用性确定模块，被配置为在朗读语音的声音属性为预设的声音属性、朗读语音对应的文字内容与朗读文本匹配的情况下，确定朗读语音可用；存储模块，被配置为对于用于声纹注册的指导信息，在朗读语音可用的情况下，存储用户和从朗读语音中提取的声纹信息之间的对应关系。

根据本发明一些实施例的第三个方面，提供一种声纹注册装置，包括：存储器；以及耦接至存储器的处理器，处理器被配置为基于存储在存储器中的指令，执行前述任意一种声纹注册方法。

根据本发明一些实施例的第四个方面，提供一种声纹注册系统，包括：前述任意一种声纹注册装置；输出设备，被配置为输出声纹注册装置生成的指导信息；以及录音设备，被配置为录制用户的朗读语音。

在一些实施例中，输出设备为声音输出设备。

根据本发明一些实施例的第五个方面，提供一种非瞬时性计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现前述任意一种声纹注册方法。

上述发明中的一些实施例具有如下优点或有益效果：本发明的实施例能够通过自动生成的引导信息，引导用户以预设声音属性说出预设的朗读文本。并且，可以根据用户的说话习惯进行验证和语音采集，并在了解用户使用的声音属性的情况下进行语音识别，提高了识别的准确率。因此提高了声纹注册的适用人群和使用便捷度，也提高了注册流程的效率。

通过以下参照附图对本发明的示例性实施例的详细描述，本发明的其它特征及其优点将会变得清楚。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1A示出了根据本发明一些实施例的声纹注册方法的流程示意图。

图1B示出了根据本发明一些实施例的声纹验证方法的流程示意图。

图2示出了根据本发明一些实施例的指导语音输出方法的流程示意图。

图3示出了根据本发明一些实施例的朗读纠正方法的流程示意图。

图4示出了根据本发明一些实施例的朗读文本生成方法的流程示意图。

图5示出了根据本发明一些实施例的声纹注册装置的结构示意图。

图6示出了根据本发明一些实施例的声纹注册系统的结构示意图。

图7示出了根据本发明另一些实施例的声纹注册装置的结构示意图。

图8示出了根据本发明又一些实施例的声纹注册装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为授权说明书的一部分。

在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

发明人对相关技术进行分析后发现，在相关技术中，声纹识别中只要求用户说出文字对应的音频，而部分用户使用的是非普通话，可能会导致识别不够准确、或者注册过程不顺畅。

本发明实施例所要解决的一个技术问题是：如何提高声纹注册的适用广度。

图1A示出了根据本发明一些实施例的声纹注册方法的流程示意图。如图1A所示，该实施例的声纹注册方法包括步骤S102～S110。

在步骤S102中，根据朗读文本、以及用于引导用户采用预设声音属性说出朗读文本的流程文本，生成指导信息。

在一些实施例中，声音属性是指方言类型。当用户只会说方言、而不会说普通话时，引导用户使用方言说出预设的内容；或者，当用户会说普通话时，引导用户使用普通话说出预设的内容。从而，对于同一语言下的不同方言，也能够提供个性化的声纹注册方式，提高了声纹注册的适用广度以及用户使用的便捷度。

在一些实施例中，获取用户输入的注册信息中的声音属性，作为预设声音属性。

在一些实施例中，在生成指导信息之前，采集用户的语音，并确定所采集的用户的语音的声音属性，作为预设声音属性。例如，在生成指导信息之前，播放或显示“请随便说几句”等引导信息，以便令用户在放松的状态下随意地说一些内容，并识别用户使用的声音属性。从而，能够更准确地检测用户更习惯使用的声音属性。

流程文本包括一些引导用语，例如“请您说出”“请重复一次”等等。在一些实施例中，流程文本包括采用预设声音属性的描述文本和预设的引导模板合成的文本。例如，粤语的描述文本为“粤语”，引导模板为“请使用<描述文本>说出”，其中“<>”为占位符，以供描述文本进行替换。合成的文本为“请使用粤语说出”。

在一些实施例中，指导信息用于声纹注册、或者用于声纹验证。每种指导信息的类型例如对应预设的流程文本，以使用户明确当前是注册过程还是验证过程。

在步骤S104中，在指导信息被输出给用户后，获取用户的朗读语音。

引导用户说出朗读文本的一个示例性过程如下。对于说四川话的用户，在该用户注册时欲使用户使用四川话说出“早上好”，则朗读文本为“早上好”，流程文本例如为“请使用四川话说出”。通过用户的终端播放或显示的内容为“请使用四川话说出早上好”，从而用户在听到该播放内容后，会使用四川话说出“早上好”。

在步骤S106中，确定朗读语音的声音属性、以及识别朗读语音对应的文字内容。

在一些实施例中，将朗读语音的语音特征输入到预设的声音属性分类模型中，获得朗读语音的声音属性。声音属性分类模型例如为通过采用标记的声音样本训练的深度神经网络模型。声音属性分类模型能够识别预设种类的声音属性，并将任意的输入识别为预设种类的其中一个。

在一些实施例中，将朗读语音的语音特征输入到预设的神经网络模型中，获得神经网络模型的隐藏层提取的语音嵌入特征向量，例如，提取池化(pooling)层后的一层或两层输出的特征向量；计算语音嵌入特征向量与每个声音属性的预设语音嵌入特征向量之间的距离，并确定其中的最短距离；在最短距离不大于预设距离阈值的情况下，将最短距离对应的声音属性确定为朗读语音的声音属性；在最短距离大于预设距离阈值的情况下，将朗读语音的声音属性确定为未知属性。通过这种方式，当用户使用的声音属性不属于任何一种预设的声音属性时，将其判定为未知属性。

上述两种声音属性的分类方式也可以应用于对其他语音的识别，例如，在生成指导信息之前，采集用户的语音，并通过上述两种方式中的一种确定所采集的用户的语音的声音属性。

在一些实施例中，采用朗读语音的声音属性所对应的语音识别模型，确定朗读语音对应的文字内容。例如，如果用户使用普通话说出朗读语音，则使用普通话对应的语音识别模型、或者通用的语音识别模型；如果用户使用四川话说出朗读语音，则使用四川话对应的语音识别模型。从而，能够更准确地识别用户说话内容。

在步骤S108中，在朗读语音的声音属性为预设的声音属性、朗读语音对应的文字内容与朗读文本匹配的情况下，确定朗读语音可用。

在一些实施例中，在朗读语音对应的文字内容包括朗读文本的情况下，朗读语音对应的文字内容与朗读文本匹配。

在一些实施例中，在朗读语音对应的文字内容对应的音素序列包括朗读文本对应的音素序列的情况下，朗读语音对应的文字内容与朗读文本匹配。例如，朗读文本中的词语包括“极度”，而用户的朗读语音的识别结果中的相应内容是“嫉妒”，二者在汉语中的发音是相同的。识别结果中的文字虽然与朗读文本不一致、但发音是一致的，此时也可以认为朗读语音对应的文字内容与朗读文本匹配。

由于声纹注册阶段，语音识别的主要目的是进行活体检测、以及充分地采集用户对各种音素的发音情况，对文字信息的准确性的要求并不高。因此通过音素匹配来确认文本匹配的方式可以提高注册效率。

通过确认朗读语音的声音属性为预设的声音属性，可以使得注册的声音属性与用户习惯使用的声音属性、或者用户选择的声音属性保持一致。当每种声音属性对应一个语音识别模型时，能够提高识别的准确度。

通过确认朗读语音对应的文字内容是否与朗读文本匹配，能够实现活体检测，降低说话方并非真人、而是录音的可能性。从而提高了注册的安全性。并且，当朗读文本中包括较多音素时，根据语音识别结果确定朗读语音是否可用的方式也能够令用户说出的语音覆盖更多的音素、以生成更全面的说话人模型。

在一些实施例中，在朗读语音的声音属性为预设的声音属性、朗读语音对应的文字内容与朗读文本匹配、并且朗读语音不为噪声的情况下，确定朗读语音可用。例如，通过语音端点检测(Voice Activity Detection，简称：VAD)模型识别采集的声音是语音还是噪声。

在步骤S110中，对于用于声纹注册的指导信息，在朗读语音可用的情况下，通过注册，存储用户和从朗读语音中提取的声纹信息之间的对应关系。

通过上述实施例，能够通过自动生成的引导信息，引导用户以预设声音属性说出预设的朗读文本。并且，可以根据用户的说话习惯进行验证和语音采集，并在了解用户使用的声音属性的情况下进行语音识别，提高了识别的准确率。因此，上述实施例提高了声纹注册的适用人群和使用便捷度，也提高了注册流程的效率。

在一些实施例中，在完成注册后，当用户后续在使用相关的应用或产品时，用户使用预设的声音属性说话。通过提取用户语音中的声纹、并将其与注册阶段存储的声纹进行对比，可以确定说话人是否为注册用户。下面参考图1B描述本发明声纹验证方法的实施例。

图1B示出了根据本发明一些实施例的声纹验证方法的流程示意图。如图1B所示，该实施例的声纹验证方法包括步骤S112～S120，其中，步骤S112～S118的具体实施方式参考图1A实施例中的步骤S102～S108，这里不再赘述。

在步骤S120中，对于用于声纹验证的指导信息，在所述朗读语音可用的情况下，如果提取的声纹与存储的、所述用户对应的声纹匹配，通过所述用户的身份验证。

通过上述实施例，在声纹验证阶段也能够通过自动生成的引导信息，引导用户以预设声音属性说出预设的朗读文本。并且，可以根据用户的说话习惯进行验证和语音采集，并在了解用户使用的声音属性的情况下进行语音识别，提高了识别的准确率。因此，上述实施例提高了基于声纹的验证过程的适用人群和使用便捷度，也提高了验证流程的效率。

在一些实施例中，指导信息为指导语音，从而以语音的方式提示用户采用相应的声音属性说出预设的内容。下面参考图2描述指导语音输出方法的实施例。

图2示出了根据本发明一些实施例的指导语音输出方法的流程示意图。如图2所示，该实施例的指导语音输出方法包括步骤S202～S206。

在步骤S202中，根据朗读文本、以及用于引导用户采用预设声音属性说出朗读文本的流程文本，生成指导文本。

在步骤S204中，将指导文本转换为指导语音。

在步骤S206中，将指导语音播放给用户。

在一些实施例中，使用从文本到语音(Text To Speech，简称：TTS)技术将指导文本转换为指导语音。在一些实施例中，生成的指导语音为具有某种情绪、语调的语音，从而可以增强语音指导过程中的趣味性和互动性。在一些实施例中，生成的指导语音为具有预设声音属性的语音，从而可以更有助于使用相应声音属性的用户理解要说出的内容，并能够更准确地采用相应声音属性说话。

通过使用语音播放指导信息的方式，能够使得不识字、认字不全、视力较差或失明等阅读有障碍的用户也能够获得待朗读的信息，从而提高了声纹识别应用的适用广度。

在一些实施例中，当识别到用户的朗读语音不符合要求时，可以根据具体情况给出相应的纠正信息，以引导用户更准确地说出预设的内容。下面参考图3描述本发明朗读纠正方法的实施例。

图3示出了根据本发明一些实施例的朗读纠正方法的流程示意图。如图3所示，该实施例的朗读纠正方法包括步骤S302～S312。

在步骤S302中，在指导信息被输出给用户后，获取用户的朗读语音。指导信息的生成方式参见前述实施例，这里不再赘述。

在步骤S304中，确定朗读语音的声音属性、以及识别朗读语音对应的文字内容，并检测朗读语音是否为噪声。

在步骤S306中，在朗读语音的声音属性为预设的声音属性、朗读语音对应的文字内容与朗读文本匹配、并且朗读语音不为噪声的情况下，确定朗读语音可用。

在步骤S308中，存储用户和从朗读语音中提取的声纹信息之间的对应关系。

在步骤S310中，在朗读语音的声音属性不为预设的声音属性、或者朗读语音对应的文字内容不与朗读文本匹配、或者朗读语音为噪声的情况下，确定朗读语音不可用。

在步骤S312中，在朗读语音不可用的情况下，根据朗读语音的不可用类型，输出相应的朗读纠正信息作为指导信息，其中，不可用类型包括声音属性不匹配、朗读语音的内容不完整、朗读语音为噪声。然后，回到步骤S302以继续获取用户的朗读语音。

例如，当预设的方言类型为普通话，而用户使用四川话说出朗读语音时，朗读纠正信息为“请使用普通话再重复一遍”等类似的信息；当用户只说出了朗读文本的部分内容时，朗读纠正信息为“内容有缺失，请完整地再说一遍”等类似的信息；当朗读语音为噪声时，朗读纠正信息为“听不清楚，请到安静的地方再说一遍”。每种纠正信息中还可以包括朗读文本对应的信息。朗读纠正信息通过文字显示或语音播放等方式输出给用户。

通过上述实施例的方法，可以在用户声纹的注册、识别等声纹应用过程中自动生成引导和纠正信息，以辅助用户更快速、准确地完成声纹应用相关的操作。

在一些实施例中，当生成朗读文本时，选择出现频率低于预设值的字、词或者句子，以降低攻击者提前录音以进行攻击的可能性。在一些实施例中，还可以自动生成无意义的“自造词”，以进一步降低被攻击的可能性。下面参考图4描述朗读文本生成方法的实施例。

图4示出了根据本发明一些实施例的朗读文本生成方法的流程示意图。如图4所示，该实施例的朗读文本生成方法包括步骤S402～S406。

在步骤S402中，从字库中随机选择预设数量的字，组成备选文本，并确定备选文本的音素组合。

在步骤S404中，检测预设的文本库中，音素组合的出现频率。

在步骤S406中，在音素组合的出现频率低于预设频率的情况下，将备选文本作为朗读文本。

例如，随机选择“鸣”、“添”组成备选文本时，虽然现有词库中并没有“鸣添”这个词，但是该词语与常用词“明天”包括完全相同的音素，从而该备选文本的音素组合出现频率较高。

在一些实施例中，在指导信息采用指导语音的形式的情况下，查找每个随机选择的字的描述文本、作为流程文本的一部分，以便将描述文本转换为语音播放。例如，生造词为“较奇”，则可以将“较是比较的较”、“奇是奇怪的奇”分别作为生造词中两个字的描述文本，指导语音的内容例如为“请说出较奇，较是比较的较，奇是奇怪的奇”。通过这种方式，可以辅助用户更形象地理解待朗读的内容，从而用户能够更准确地说出预设的内容。

在一些实施例中，当使用生造词作为朗读文本、并识别用户的朗读语音时，采用预设声音属性对应的孤立词识别模型对朗读语音进行识别，并获得朗读语音对应的文字内容。通常，语音识别模型中包含了多元语言模型，例如2-Gram(二元语法)、3-Gram(三元语法)模型。而当使用生造词时，在识别过程中可以使用孤立词识别模型，该模型例如使用1-Gram(一元语法)模型或不使用语法模型，以在识别过程中仅从语音角度出发，不考语义对识别结果造成的影响。

通过上述实施例的方法，能够自动合成低唤醒度的文本，从而提高了安全性。

下面参考图5描述声纹注册装置的实施例。

图5示出了根据本发明一些实施例的声纹注册装置的结构示意图。如图5所示，该实施例的声纹注册装置500包括：指导信息生成模块5100，被配置为根据朗读文本、以及用于引导用户采用预设声音属性说出所述朗读文本的流程文本，生成指导信息；朗读语音获取模块5200，被配置为在所述指导信息被输出给用户后，获取用户的朗读语音；朗读语音解析模块5300，被配置为确定所述朗读语音的声音属性、以及识别所述朗读语音对应的文字内容；可用性确定模块5400，被配置为在所述朗读语音的声音属性为所述预设的声音属性、所述朗读语音对应的文字内容与所述朗读文本匹配的情况下，确定所述朗读语音可用；存储模块5500，被配置为对于用于声纹注册的指导信息，在所述朗读语音可用的情况下，存储所述用户和从所述朗读语音中提取的声纹信息之间的对应关系。

在一些实施例中，指导信息为指导语音。

在一些实施例中，指导信息生成模块5100进一步被配置为根据朗读文本和流程文本，生成具有预设声音属性的指导语音。

在一些实施例中，可用性确定模块5400进一步被配置为在朗读语音的声音属性为预设的声音属性、朗读语音对应的文字内容与朗读文本匹配、并且朗读语音不为噪声的情况下，确定朗读语音可用。

在一些实施例中，可用性确定模块5400进一步被配置为在朗读语音的声音属性不为预设的声音属性、或者朗读语音对应的文字内容不与朗读文本匹配、或者朗读语音为噪声的情况下，确定朗读语音不可用；指导信息生成模块5100进一步被配置为在朗读语音不可用的情况下，根据朗读语音的不可用类型，生成相应的朗读纠正信息、添加到指导信息中，其中，不可用类型包括声音属性不匹配、朗读语音的内容不完整、朗读语音为噪声。

在一些实施例中，声纹注册装置500还包括：声音属性获取模块5600，被配置为获取用户输入的注册信息中的声音属性，作为预设声音属性；或者，在生成指导信息之前，采集用户的语音，并确定所采集的用户的语音的声音属性，作为预设声音属性。

在一些实施例中，朗读语音解析模块5300进一步被配置为将朗读语音的语音特征输入到预设的声音属性分类模型中，获得朗读语音的声音属性。

在一些实施例中，朗读语音解析模块5300进一步被配置为将朗读语音的语音特征输入到预设的神经网络模型中，获得神经网络模型的隐藏层提取的语音嵌入特征向量；计算语音嵌入特征向量与每个声音属性的预设语音嵌入特征向量之间的距离，并确定其中的最短距离；在最短距离不大于预设距离阈值的情况下，将最短距离对应的声音属性确定为朗读语音的声音属性；在最短距离大于预设距离阈值的情况下，将朗读语音的声音属性确定为未知属性。

在一些实施例中，朗读语音解析模块5300进一步被配置为采用朗读语音的声音属性所对应的语音识别模型，确定朗读语音对应的文字内容。

在一些实施例中，声纹注册装置500还包括：朗读文本生成模块5700，被配置为从字库中随机选择预设数量的字，组成备选文本，并确定备选文本的音素组合；检测预设的文本库中，音素组合的出现频率；在音素组合的出现频率低于预设频率的情况下，将备选文本作为朗读文本。

在一些实施例中，朗读语音解析模块5300进一步被配置为采用预设声音属性对应的孤立词识别模型对朗读语音进行识别，并获得朗读语音对应的文字内容。

在一些实施例中，声音属性为方言类型。

在一些实施例中，声纹注册装置500还包括验证模块5800，被配置为对于用于声纹验证的指导信息，在朗读语音可用的情况下，如果提取的声纹与存储的、用户对应的声纹匹配，通过该用户的身份验证。

下面参考图6描述本发明声纹注册系统的实施例。

图6示出了根据本发明一些实施例的声纹注册系统的结构示意图。如图6所示，该实施例的声纹注册系统60包括：声纹注册装置610，其具体实时方式可以参考声纹注册装置500；输出设备620，被配置为输出所述声纹注册装置生成的指导信息；以及录音设备630，被配置为录制用户的朗读语音。

在一些实施例中，输出设备620为声音输出设备。

图7示出了根据本发明另一些实施例的声纹注册装置的结构示意图。如图7所示，该实施例的声纹注册装置70包括：存储器710以及耦接至该存储器710的处理器720，处理器720被配置为基于存储在存储器710中的指令，执行前述任意一个实施例中的声纹注册方法。

其中，存储器710例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)以及其他程序等。

图8示出了根据本发明又一些实施例的声纹注册装置的结构示意图。如图8所示，该实施例的声纹注册装置80包括：存储器810以及处理器820，还可以包括输入输出接口830、网络接口840、存储接口850等。这些接口830，840，850以及存储器810和处理器820之间例如可以通过总线860连接。其中，输入输出接口830为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口840为各种联网设备提供连接接口。存储接口850为SD卡、U盘等外置存储设备提供连接接口。

本发明的实施例还提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现前述任意一种声纹注册方法。

本领域内的技术人员应当明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解为可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

一种声纹注册方法，包括：

根据朗读文本、以及用于引导用户采用预设声音属性说出所述朗读文本的流程文本，生成指导信息；

在所述指导信息被输出给用户后，获取用户的朗读语音；

确定所述朗读语音的声音属性、以及识别所述朗读语音对应的文字内容；

在所述朗读语音的声音属性为所述预设的声音属性、所述朗读语音对应的文字内容与所述朗读文本匹配的情况下，确定所述朗读语音可用；

对于用于声纹注册的指导信息，在所述朗读语音可用的情况下，存储所述用户和从所述朗读语音中提取的声纹信息之间的对应关系。
根据权利要求1所述的声纹注册方法，其中，所述指导信息为指导语音。
根据权利要求2所述的声纹注册方法，其中，根据所述朗读文本和所述流程文本，生成具有所述预设声音属性的指导语音。
根据权利要求1所述的声纹注册方法，

在所述朗读语音的声音属性为所述预设的声音属性、所述朗读语音对应的文字内容与所述朗读文本匹配、并且所述朗读语音不为噪声的情况下，确定所述朗读语音可用。
根据权利要求1所述的声纹注册方法，还包括：

在所述朗读语音的声音属性不为所述预设的声音属性、或者所述朗读语音对应的文字内容不与所述朗读文本匹配、或者所述朗读语音为噪声的情况下，确定所述朗读语音不可用；

在所述朗读语音不可用的情况下，根据所述朗读语音的不可用类型，输出相应的朗读纠正信息，其中，所述不可用类型包括声音属性不匹配、所述朗读语音的内容不完整、所述朗读语音为噪声。
根据权利要求1～5中任一项所述的声纹注册方法，其中，在所述朗读语音对应的文字内容包括所述朗读文本的情况下，或者，在所述朗读语音对应的文字内容对应的音素序列包括所述朗读文本对应的音素序列的情况下，所述朗读语音对应的文字内容与所述朗读文本匹配。
根据权利要求1所述的声纹注册方法，还包括：

获取所述用户输入的注册信息中的声音属性，作为所述预设声音属性；或者，

在生成所述指导信息之前，采集用户的语音，并确定所采集的用户的语音的声音属性，作为所述预设声音属性。
根据权利要求1所述的声纹注册方法，其中，所述确定所述朗读语音的声音属性包括：

将所述朗读语音的语音特征输入到预设的声音属性分类模型中，获得所述朗读语音的声音属性。
根据权利要求1所述的声纹注册方法，其中，所述确定所述朗读语音的声音属性包括：

将所述朗读语音的语音特征输入到预设的神经网络模型中，获得所述神经网络模型的隐藏层提取的语音嵌入特征向量；

计算所述语音嵌入特征向量与每个声音属性的预设语音嵌入特征向量之间的距离，并确定其中的最短距离；

在所述最短距离不大于预设距离阈值的情况下，将所述最短距离对应的声音属性确定为所述朗读语音的声音属性；

在所述最短距离大于预设距离阈值的情况下，将所述朗读语音的声音属性确定为未知属性。
根据权利要求1所述的声纹注册方法，其中，所述识别所述朗读语音对应的文字内容包括：

采用所述朗读语音的声音属性所对应的语音识别模型，确定所述朗读语音对应的文字内容。
根据权利要求1所述的声纹注册方法，还包括：

从字库中随机选择预设数量的字，组成备选文本，并确定所述备选文本的音素组合；

检测预设的文本库中，所述音素组合的出现频率；

在所述音素组合的出现频率低于预设频率的情况下，将所述备选文本作为所述朗读文本。
根据权利要求11所述的声纹注册方法，其中，采用所述预设声音属性对应的孤立词识别模型对所述朗读语音进行识别，并获得所述朗读语音对应的文字内容。
根据权利要求11所述的声纹注册方法，其中，所述指导信息为指导语音，并且所述流程文本包括随机选择的每个字对应的描述文本。
根据权利要求1所述的声纹注册方法，其中，所述声音属性为方言类型。
根据权利要求1～5中任一项所述的声纹注册方法，还包括：

对于用于声纹验证的指导信息，在所述朗读语音可用的情况下，如果提取的声纹与存储的、所述用户对应的声纹匹配，通过所述用户的身份验证。
一种声纹注册装置，包括：

指导信息生成模块，被配置为根据朗读文本、以及用于引导用户采用预设声音属性说出所述朗读文本的流程文本，生成指导信息；

朗读语音获取模块，被配置为在所述指导信息被输出给用户后，获取用户的朗读语音；

朗读语音解析模块，被配置为确定所述朗读语音的声音属性、以及识别所述朗读语音对应的文字内容；

可用性确定模块，被配置为在所述朗读语音的声音属性为所述预设的声音属性、所述朗读语音对应的文字内容与所述朗读文本匹配的情况下，确定所述朗读语音可用；

存储模块，被配置为对于用于声纹注册的指导信息，在所述朗读语音可用的情况下，存储所述用户和从所述朗读语音中提取的声纹信息之间的对应关系。
一种声纹注册系统，包括：

权利要求16所述的声纹注册装置；

输出设备，被配置为输出所述声纹注册装置生成的指导信息；以及

录音设备，被配置为录制用户的朗读语音。
根据权利要求17所述的声纹注册系统，其中，所述输出设备为声音输出设备。
一种声纹注册装置，包括：

存储器；以及

耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行如权利要求1～15中任一项所述的声纹注册方法。
一种非瞬时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现权利要求1～15中任一项所述的声纹注册方法。