WO2016150032A1

WO2016150032A1 - 基于人工智能的声纹登录方法和装置

Info

Publication number: WO2016150032A1
Application number: PCT/CN2015/084038
Authority: WO
Inventors: 李超; 关勇; 贾磊
Original assignee: 百度在线网络技术（北京）有限公司
Priority date: 2015-03-20
Filing date: 2015-07-15
Publication date: 2016-09-29
Also published as: CN104821934A; CN104821934B; EP3174262A1; KR101908711B1; US20170124311A1; JP6567040B2; JP2017530387A; KR20160147280A; US10380332B2; EP3174262A4; EP3174262B1

Abstract

本发明公开了一种基于人工智能的声纹登录方法，包括：S1、接收用户的登录请求，并获取用户的用户信息；S2、生成登录字符串，并根据用户信息对应的字符替代对照信息对登录字符串中的至少一个字符进行替换；S3、将替换之后的登录字符串提供至用户，并接收用户阅读登录字符串的语音信息；以及S4、根据用户阅读所述登录字符串的语音信息对用户进行登录验证。该方法一方面通过结合声纹和用户设置的字符替代对照信息的声纹验证方式，提高了声纹密码的安全性，另一方面按照用户喜好隐藏的字符满足了用户不希望密码被明文显示出来的心理需求，提升了用户体验，且提高了密码的安全性。本发明还公开了一种基于人工智能的声纹登录装置。

Description

基于人工智能的声纹登录方法和装置

相关申请的交叉引用

本申请要求百度在线网络技术(北京)有限公司于2015年3月20日提交的、发明名称为“基于人工智能的声纹登录方法和装置”的、中国专利申请号“201510125685.7”的优先权。

技术领域

本发明涉及登录认证技术领域，尤其涉及一种基于人工智能(Artificial Intelligence)的声纹登录方法和装置。

背景技术

目前的网站(或设备)登录系统主要是通过用户输入账户和密码(或手势动作)进行身份验证，验证通过之后进行登录。但是存在的问题是：基于密码及手势输入的登录方式，一旦密码或手势被他人得知，同样可以完成登录，从而存在安全隐患，并且，为了增加安全性，用户通常需要为不同的对象设置不同的且带有特殊字符的密码，但这无疑给用户带来了较大的记忆负担。

另外，目前也出现了通过声纹作为密码以进行登录验证。但是，传统的声纹密码受环境噪声、通道差异等因素的影响，可靠性不高，特别是在涉及到机密和金融等领域时，会存在安全问题。

发明内容

本发明的目的旨在至少在一定程度上解决上述的技术问题之一。

为此，本发明的第一个目的在于提出一种基于人工智能的声纹登录方法。该方法一方面通过结合声纹和用户设置的字符替代对照信息的声纹验证方式，提高了声纹密码的安全性，另一方面按照用户喜好隐藏的字符满足了用户不希望密码被明文显示出来的心理需求，提升了用户体验，且提高了密码的安全性。

本发明的第二个目的在于提出一种基于人工智能的声纹登录装置。

为了实现上述目的，本发明第一方面实施例的基于人工智能的声纹登录方法，包括：S1、接收用户的登录请求，并获取所述用户的用户信息；S2、生成登录字符串，并根据所述用户信息对应的字符替代对照信息对所述登录字符串中的至少一个字符进行替换；S3、将替换之后的所述登录字符串提供至所述用户，并接收所述用户阅读所述登录字符串的语音信息；以及S4、根据所述用户阅读所述登录字符串的语音信息对所述用户进行登录验证。

本发明实施例的基于人工智能的声纹登录方法，可先接收用户的登录请求，并获取用户的用户信息，之后可生成登录字符串，并根据用户信息对应的字符替代对照信息对登录字符串中的至少一个字符进行替换，然后将替换之后的登录字符串提供至用户，并接收用户阅读登录字符串的语音信息，以及根据用户阅读所述登录字符串的语音信息对用户进行登录验证，至少具有以下几个优点：(1)通过结合声纹和用户设置的字符替代对照信息的声纹验证方式，能够达到声纹安全性和传统密码安全性累加的效果，提高了声纹密码的安全性；(2)按照用户喜好隐藏的字符满足了用户不希望密码被明文显示出来的心理需求，同时，用户只需设置几个替换字符即可，无需在刻意去记忆冗长的密码，提升了用户体验，且提高了密码的安全性。

为了实现上述目的，本发明第二方面实施例的基于人工智能的声纹登录装置，包括：获取模块，用于接收用户的登录请求，并获取所述用户的用户信息；替换模块，用于生成登录字符串，并根据所述用户信息对应的字符替代对照信息对所述登录字符串中的至少一个字符进行替换；第一提供模块，用于将替换之后的所述登录字符串提供至所述用户；第一接收模块，用于接收所述用户阅读所述登录字符串的语音信息；以及验证模块，用于根据所述用户阅读所述登录字符串的语音信息对所述用户进行登录验证。

本发明实施例的基于人工智能的声纹登录装置，可通过获取模块接收用户的登录请求，并获取用户的用户信息，替换模块生成登录字符串，并根据用户信息对应的字符替代对照信息对登录字符串中的至少一个字符进行替换，第一提供模块将替换之后的登录字符串提供至用户，第一接收模块接收用户阅读登录字符串的语音信息，验证模块根据用户阅读所述登录字符串的语音信息对用户进行登录验证，至少具有以下几个优点：(1)通过结合声纹和用户设置的字符替代对照信息的声纹验证方式，能够达到声纹安全性和传统密码安全性累加的效果，提高了声纹密码的安全性；(2)按照用户喜好隐藏的字符满足了用户不希望密码被明文显示出来的心理需求，同时，用户只需设置几个替换字符即可，无需在刻意去记忆冗长的密码，提升了用户体验，且提高了密码的安全性。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中，

图1是根据本发明一个实施例的基于人工智能的声纹登录方法的流程图；

图2(a)是根据本发明一个实施例的为用户提供的编辑界面的示例图；

图2(b)是根据本发明一个实施例的提供给用户的替换之后的注册字符串的示例图；

图2(c)是根据本发明一个实施例的提供给用户的替换之后的登录字符串的示例图；

图3是根据本发明一个实施例的基于人工智能的声纹登录装置的结构示意图；

图4是根据本发明另一个实施例的基于人工智能的声纹登录装置的结构示意图；

图5是根据本发明又一个实施例的基于人工智能的声纹登录装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述根据本发明实施例的基于人工智能的声纹登录方法和装置。

本发明实施例提出了一种基于人工智能的声纹登录方法，包括：S1、接收用户的登录请求，并获取用户的用户信息；S2、生成登录字符串，并根据用户信息对应的字符替代对照信息对登录字符串中的至少一个字符进行替换；S3、将替换之后的登录字符串提供至用户，并接收用户阅读登录字符串的语音信息；以及S4、根据语音信息对用户进行登录验证。

图1是根据本发明一个实施例的基于人工智能的声纹登录方法的流程图。如图1所示，该基于人工智能的声纹登录方法可以包括：

S101，接收用户的登录请求，并获取用户的用户信息。

举例而言，假设本发明实施例的人工智能的声纹登录方法应用于网站登录系统中，当用户打开网站准备登录时，用户可通过客户端向登录系统发送登录请求，登录系统在接收到用户通过客户端发送的登录请求之后，获取用户的用户信息。其中，在本发明的实施例中，用户信息可包括但不限于账户/用户名、用户ID(IDentity，身份标识号码)等。

进一步的，在本发明的一个实施例中，在用户进行登录之前，用户可先进行注册，即在接收用户的登录请求，并获取用户的用户信息(即上述步骤S101)之前，该基于人工智能的声纹登录方法还可包括：接收用户的注册请求，并将注册字符串提供至用户；接收用户阅读注册字符串的语音信息，并提取用户的声纹。其中，在本发明的实施例中，注册字符串可为随机生成的数字串。此外，为了能够覆盖更大的样本空间，注册字符串中的数字只出现一次。

具体地，假设本发明实施例的人工智能的声纹登录方法应用于网站登录系统中，当用户打开网站准备准备注册时，用户可通过客户端向登录系统发送注册请求，登录系统在接收到用户的注册请求之后，可随机生成一个注册字符串，并将该注册字符串提供给用户。之后，可接收用户按照提供的注册字符串进行朗读而生成的语音信息，并对该语音信息进行语音识别以生成对应的文本信息，并将该文本信息与系统中预先保存的注册字符串文本进行匹配，在匹配不成功时，可向用户返回匹配错误并提示用户重新按照提供的注册字符串进行朗读；在匹配成功时可判断用户注册成功。同时，还可通过ivector(identity-vector)建模方法对用户阅读注册字符串的语音信息进行提取以得到用户的声纹，并建立且保存该用户的用户信息与声纹的对应关系。由此，用户可通过语音即可完成注册，简化了用户的操作步骤。

其中，在本发明的实施例中，上述ivector(identity-vector)建模方法可包括以下步骤：提取用户阅读注册字符串的语音信息；将阅读注册字符串的语音信息中的多段语音的声学特征在普通背景模型UBM(Universal Background Model)条件下进行Baum-Welch统计，并提取多段语音的多个ivector；根据多段语音的多个ivector获取用户的注册ivector。具体地，ivector(identity-vector)建模方法可包括信号处理和建模两个阶段。信号处理包含信号预增强、语音端点检测(VAD)、特征声学提取以及特征处理等几个环节。建模阶段将每段语音的声学特征(例如MFCC)在普通背景模型UBM条件下进行Baum-Welch统计，以计算其后验概率，该后验概率服从高斯分布，该后验概率的期望便是ivector。例如一段语音u切割为L帧的声学特征{y₁,y₂,...,y_L}，特征维度为D，在包含C个高斯的UBM模型Ω上计算Baum-Welch的0阶统计和1阶统计，其计算如下：

其中，c＝1,2,…,C是高斯模型的索引，P(c|y_t,Ω)是y_t在第c个高斯上的后验概率，m_c是第c个高斯的期望。使用下面的公式(3)，可以得到语音u的ivector：

η＝(I+T^tΣ^-1NT)^-1T^tΣ^-1F (3)

其中，N是对角元素为N_cI(c＝1,...,C)的CD×CD维度的方阵，F是所有一阶统计F_c组合起来的CD×1的向量，T和Σ是ivector提取器的转移矩阵和方差阵，在训练阶段通过因子分析的方法获得，这里直接调取即可，算子()^t表示矩阵转置，I为单位矩阵。

假设注册过程中用户阅读注册字符串时的语音信息具有K句话，每句话都提取一个独立的ivector，当检测到用户将所有数字串读完以后，可将这K个ivector结合到一起来计算出用户的唯一的ivector，用来表征用户的声纹特性，即计算如下：

其中，norm()算子表示长度归一化，即将括号内向量的模变为1。同时，也支持

的声纹表征形式。

由此，可通过上述ivector(identity-vector)建模方法对用户阅读注册字符串的语音信息进行提取以得到用户的声纹。

进一步的，在本发明的一个实施例中，在用户注册的过程中，可先让用户根据需求和喜好设置替换字符。具体地，该基于人工智能的声纹登录方法还可包括：提供编辑界面，并在编辑界面中提供用于替换字符串中字符的替换符号；接收用户选择的被替换的字符及对应的替换符号，以生成字符替代对照信息。其中，在本发明的实施例中，替换符号可为但不限于字符(如！@#$％^&*()等)、图片(如“水”“火”“风”等)或汉字(如“水”“火”“风”等)等。由此，通过结合特殊字符、图片、汉字等符号，可以让密码更友好，提高了密码的可用性。

更具体地，在用户注册的过程中，在将注册字符串提供至用户之前，可为用户提供一个编辑界面，并在该编辑界面中提供替换字符串中字符的替换符号，如键盘中的特殊字符、汉字、或图片等，用户可根据自己的需要和喜好选择被替换的字符及对应的替换符号。在接收到用户选择的被替换的字符及对应的替换符号之后，可根据用户的选择生成字符替代对照信息。例如，用户可根据自己的喜好将字符2替换成符号？、将字符8替换成符号&。又如，用户可根据自己的喜好将字符1替换成符号#、将字符6替换成符号@，这样可根据用户的设置生成该用户的字符替代对照信息，即将字符2替换成符号？、将字符8替换成符号&、字符1替换成符号#、将字符6替换成符号@。

需要说明的是，在本发明的一个实施例中，注册字符串可包括用户选择的被替换的字符。这样，在生成字符替代对照信息之后，在随机生成一个注册字符串时，可根据该用户的字符替代对照信息将该注册字符串(如32149658)中用户选择的被替换的字符(即字符1和字符6)进行字符替换，即将注册字符串32149658替换成32#49@58，并将该替换之后的注册字符串32#49@58提供给用户，用户在朗读注册字符串时，可根据之前自己设置的替换符号，将该注册字符串中的替换字符#和@对应的朗读成相应的字符1和字符6，即用户在朗读注册字符串(如32#49@5)时应朗读成32149658。

S102，生成登录字符串，并根据用户信息对应的字符替代对照信息对登录字符串中的至少一个字符进行替换。其中，在本发明的实施例中，登录字符串可为随机生成的数字串。由此可防止录音欺骗，提高登录的安全性。

具体地，在接收用户的登录请求并获取到用户的用户信息之后，可为该用户随机生成一个登录字符串，并根据用户信息找到该用户先前设置的字符替代对照信息，并根据该字符替代对照信息将随机生成的登录字符串中的字符进行替换，其中，被替换的字符和替换后的字符均来源于用户先前设置的字符替代对照信息。例如，用户的字符替代对照信息包括字符1替换成符号#、将字符6替换成符号@，随机生成的登录字符串为91765，则可根据字符替代对照信息将该登录字符串替换为9#7@5。其中，可以理解，在本发明的实施例中，随机生成的登录字符串与注册字符串中的多个数字可均不相同。此外，为了使登录验证过程用户所说的数字串尽量靠近用户注册的声纹特征，登录字符串中的每个数字也只能出现一次，同时该登录字符串必须含有用户选择的被替换的数字。

S103，将替换之后的登录字符串提供至用户，并接收用户阅读登录字符串的语音信息。

具体地，可将替换之后的登录字符串提供给用户，用户可按照提示对该登录字符串进行朗读。在检测到用户朗读结束后，可接收用户阅读该登录字符串的语音。

S104，根据用户阅读所述登录字符串的语音信息对用户进行登录验证。

具体而言，在本发明的实施例中，可对用户阅读所述登录字符串的语音信息进行语音识别以获取语音信息对应的文本信息；将文本信息与登录字符串进行匹配；如果一致，则进一步对用户阅读所述登录字符串的语音信息进行声纹匹配；以及如果声纹匹配通过，则判断用户通过登录验证。

更具体地，在接收到用户阅读登录字符串的语音信息之后，可对该语音信息进行语音识别，得到对应的文本信息，之后可将该文本信息与预先生成的登录字符串进行匹配，若不匹配，则向用户返回错误并提示用户重新按照提供的登录字符串进行阅读，只有当匹配时，可进一步根据语音信息进行声纹匹配，若该语音信息中的声纹与先前存储的该用户的声纹匹配，则可判断用户通过登录验证，否则视为登录失败。

其中，由于登录字符串为一串数字，则用户阅读该字符串时一般会用一句话读完该字符串，即产生的语音信息中该语音应为一段语音，以语音信息中具有一段语音为例，在本发明的实施例中，对用户阅读登录字符串的语音信息进行声纹匹配的具体实现过程可如下：提取用户阅读登录字符串的语音信息；将阅读登录字符串的语音信息中的语音的声学特征在普通背景模型UBM条件下进行Baum-Welch统计，并提取该语音的ivector以作为用户的登录ivector将登录ivector与注册ivector进行比对以判断声纹是否匹配。具体地，声纹匹配过程可包括信号处理、声纹比对和一致性判断这三个阶段。其中，声纹匹配过程中的信号处理与注册过程中的信号处理完全一致，可参照上述注册过程中信号处理的描述，在此不再赘述。声纹比对阶段将登陆过程产生的ivector和用户注册时生成的ivector进行比对打分，其中，可以采用余弦距离、支持向量机(SVM)、贝叶斯分类器、以及GPLDA (高斯概率线性判别分析)等方法来实现。下面以当前系统采用的GPLDA方法做详细描述声纹比对的过程：

假设来自验证过程的ivector为η₁，服务器上用户注册的声纹ivetor为η₂，那么就有两种假设：H₁两者属于同一说话人；H₀两者属于不同的说话人。因此，可以得到这个假设检验的对数似然比score：

其中，假设分子分母的条件概率分布都服从高斯分布，并且期望值为0，从而，上述对数斯然比score可以简化为如下式(6)：

其中，上述式(6)中的Q、P、Σ_tot和Σ_ac分别由下述式(7)表示：

其中，Φ和Σ来自GPLDA模型的训练阶段，这里直接提取即可。其中，GPLDA的模型为下述式(8)表示：

η_r＝m+Φβ+ε_r (8)

其中，η_r表示观测到的第r个人的ivector，β是该说话人声纹的真实值，其是隐变量无法直接获得，Φ是转移矩阵，ε_r是观测误差，服从Ν(0,Σ)的高斯分布。

另外，本发明实施例的声纹验证过程中可支持多分类器分数融合。也就是说，在验证阶段采用多种分类算法，例如同时使用SVM，GPLDA和余弦距离3种分类器，然后将三个分类器的得分进行分数融合，得到一个最终分数。

此外，本发明实施例的声纹验证过程中还可支持多特征融合，也就是说，可以提取多种声学特征，然后利用相同或者不同的分类器进行打分，再将分数融合到一起。例如，可同时提取一段语音的MFCC和PLP特征，然后分别得到基于MFCC和PLP的ivector，再进入GPLDA分类器，得到2个分数，最后将这2个分数融合成一个分数。

最后，在声纹匹配过程中的一致性判断阶段中，可将上述得到的分数与一个预先设定的阈值进行判断，如果该分数大于预设阈值，则认为是同一个说话人(即同一个用户)，即判断该用户登录成功，否则视为不同说话人，判断该用户登录失败。

需要说明的是，在本发明的实施例中，注册字符串和登录字符串是随机生成的，所以向用户提供的替换之后的注册字符串和登录字符串中的替换字符的位置是随机分布的，用户在阅读这些注册字符串和登录字符串时，将注册字符串和登录字符串中的替换字符替换成自己设置的字符发音即可。由此，按照用户需求和喜好隐藏的字符满足了用户不希望密码被明文显示出来的心里需求，提升了用户体验。

为了使得本领域的技术人员能够更加了解本发明，下面将举例说明。

举例而言，在接收到用户的注册请求时，可先为用户提供编辑界面，在该编辑界面提供了用于替换字符串中字符的替换符号，如图2(a)所示，该编辑界面中可具有“字符”和“显示为”这两个属性，用户可在该编辑界面中设置需要将哪些字符用替换字符来替换，如将字符2替换显示为？、将字符8替换显示为&。在用户设置完之后，可根据用户的设置生成字符替代对照信息。之后，可随机生成一个注册字符串(如67925843)，并根据上述字符替代对照信息对该注册字符串进行替换，并将替换之后的注册字符串提供给用户，如图2(b)中所示的即为提供给用户的替换之后的注册字符串679？5&43，用户阅读时将该字符串中的替换符号替换成自己设置的字符发音即可，即用户阅读时应发出67925843对应的发音，此时还可根据用户的语音提取出用户的声纹，以便后续登录验证使用。在接收到用户的登录请求时，可随机生成一个登录字符串，如915238，之后可根据用户信息对应的字符替换对照信息对该登录字符串915238进行替换，并将替换之后的登录字符串提供给用户，如图2(c)中所示的即为提供给用户的替换之后的登录字符串915？3&，同样，用户阅读时将该字符串中的替换符号替换成自己设置的字符发音即可，即用户阅读时应发出915238对应的发音，并在验证用户阅读的登录字符串的语音信息正确时，进一步根据语音进行声纹验证，若声纹匹配成功，则可判定该用户登录成功。

为了实现上述实施例，本发明还提出了一种基于人工智能的声纹登录装置，获取模块，用于接收用户的登录请求，并获取用户的用户信息；替换模块，用于生成登录字符串，并根据用户信息对应的字符替代对照信息对登录字符串中的至少一个字符进行替换；第一提供模块，用于将替换之后的登录字符串提供至用户；第一接收模块，用于接收用户阅读登录字符串的语音信息；以及验证模块，用于根据用户阅读所述登录字符串的语音信息对用户进行登录验证。

图3是根据本发明一个实施例的基于人工智能的声纹登录装置的结构示意图。如图3所示，该基于人工智能的声纹登录装置可以包括：获取模块10、替换模块20、第一提供模块30、第一接收模块40和验证模块50。

具体地，获取模块10可用于接收用户的登录请求，并获取用户的用户信息。举例而言，假设本发明实施例的人工智能的声纹登录装置应用于网站登录系统中，当用户打开网站准备登录时，用户可通过客户端向登录系统发送登录请求，获取模块10在接收到用户通过客户端发送的登录请求之后，获取用户的用户信息。其中，在本发明的实施例中，用户信息可包括但不限于账户/用户名、用户ID等。

替换模块20可用于生成登录字符串，并根据用户信息对应的字符替代对照信息对登录字符串中的至少一个字符进行替换。其中，在本发明的实施例中，登录字符串可为随机生成的数字串。由此可防止录音欺骗，提高登录的安全性。更具体地，在获取模块10接收用户的登录请求并获取到用户的用户信息之后，替换模块20可为该用户随机生成一个登录字符串，并根据用户信息找到对应的字符替代对照信息，并根据该字符替代对照信息将随机生成的登录字符串中的字符进行替换，其中，被替换的字符和替换后的字符均来源于字符替代对照信息。例如，用户的字符替代对照信息包括字符1替换成符号#、将字符6替换成符号@，随机生成的登录字符串为91765，则可根据字符替代对照信息将该登录字符串替换为9#7@5。其中，为了使登录验证过程用户所说的数字串尽量靠近用户注册的声纹特征，登录字符串中的每个数字也只能出现一次，同时该登录字符串必须含有用户选择的被替换的数字。

第一提供模块30可用于将替换之后的登录字符串提供至用户。第一接收模块40可用于接收用户阅读登录字符串的语音信息。更具体地，第一提供模块30可将替换之后的登录字符串提供给用户，用户可按照提示对该登录字符串进行朗读。在第一接收模块40检测到用户朗读结束后，可接收用户阅读该登录字符串的语音。

验证模块50可用于根据用户阅读登录字符串的语音信息对用户进行登录验证。具体而言，在本发明的实施例中，验证模块50根据用户阅读登录字符串的语音信息对用户进行登录验证的具体实现过程可为：对用户阅读所述登录字符串的语音信息进行语音识别以获取语音信息对应的文本信息；将文本信息与登录字符串进行匹配；如果一致，则进一步对语音信息进行声纹匹配；以及如果声纹匹配通过，则判断用户通过登录验证。

更具体地，验证模块50在接收到用户阅读登录字符串的语音信息之后，可对该语音信息进行语音识别，得到对应的文本信息，之后可将该文本信息与预先生成的登录字符串进行匹配，若不匹配，则向用户返回错误并提示用户重新按照提供的登录字符串进行阅读，只有当匹配时，可进一步根据语音信息进行声纹匹配，若该语音信息中的声纹与先前存储的该用户的声纹匹配，则可判断用户通过登录验证，否则视为登录失败。

其中，由于登录字符串为一串数字，则用户阅读该字符串时一般会用一句话读完该字符串，即产生的语音信息中该语音应为一段语音，以语音信息中具有一段语音为例，在本发明的实施例中，验证模块50对用户阅读登录字符串的语音信息进行声纹匹配的具体实现过程可如下：提取用户阅读登录字符串的语音信息；将阅读登录字符串的语音信息中的语音的声学特征在普通背景模型UBM条件下进行Baum-Welch统计，并提取该语音的ivector以作为用户的登录ivector；将登录ivector与注册ivector进行比对以判断声纹是否匹配。具体的实现过程可参照上述本发明实施例的基于人工智能的声纹登录方法中的描述，在此不再赘述。

进一步的，在本发明的一个实施例中，如图4所示，该基于人工智能的声纹登录装置还可包括第二接收模块60和提取模块70。具体地，第二接收模块60可用于在获取模块10接收用户的登录请求，并获取用户的用户信息之前，接收用户的注册请求，并将注册字符串提供至用户。提取模块70可用于接收用户阅读注册字符串的语音信息，并提取用户的声纹。其中，在本发明的实施例中，注册字符串可为随机生成的数字串。此外，为了能够覆盖更大的样本空间，注册字符串中的数字只出现一次。可以理解，在本发明的实施例中，随机生成的登录字符串与注册字符串中的多个数字可均不相同。

更具体地，假设本发明实施例的人工智能的声纹登录装置应用于网站登录系统中，当用户打开网站准备准备注册时，用户可通过客户端向登录系统发送注册请求，第二接收模块60在接收到用户的注册请求之后，可随机生成一个注册字符串，并将该注册字符串提供给用户。提取模块70接收用户按照提供的注册字符串进行朗读而生成的语音信息，并对该语音信息进行语音识别以生成对应的文本信息，并将该文本信息与系统中预先保存的注册字符串文本进行匹配，在匹配不成功时，可向用户返回匹配错误并提示用户重新按照提供的注册字符串进行朗读；在匹配成功时可判断用户注册成功。同时，提取模块70还可通过ivector(identity-vector)建模方法对用户阅读注册字符串的语音信息进行提取以得到用户的声纹，并建立且保存该用户的用户信息与声纹的对应关系。由此，用户可通过语音即可完成注册，简化了用户的操作步骤。

其中，在本发明的实施例中，述ivector(identity-vector)建模方法可包括以下步骤：提取用户阅读注册字符串的语音信息；将阅读注册字符串的语音信息中的多段语音的声学特征在普通背景模型UBM条件下进行Baum-Welch统计，并提取多段语音的多个ivector；根据多段语音的多个ivector获取用户的注册ivector。具体的实现过程可参照上述本发明实施例的基于人工智能的声纹登录方法中的具体描述，在此不再赘述。

进一步的，在本发明的一个实施例中，如图5所示，该基于人工智能的声纹登录装置还可包括第二提供模块80和生成模块90。具体地，第二提供模块80可用于提供编辑界面，并在编辑界面中提供用于替换字符串中字符的替换符号。生成模块90可用于接收用户选择的被替换的字符及对应的替换符号，以生成字符替代对照信息。其中，在本发明的实施例中，替换符号可为但不限于字符(如！@#$％^&*()等)、图片(如“水”“火”“风”等)或汉字(如“水”“火”“风”等)等。由此，通过结合特殊字符、图片、汉字等符号，可以让密码更友好，提高了密码的可用性。

更具体地，在用户注册的过程中，在第二接收模块60将注册字符串提供至用户之前，第二提供模块80可为用户提供一个编辑界面，并在该编辑界面中提供替换字符串中字符的替换符号，如键盘中的特殊字符、汉字、或图片等，用户可根据自己的需要和喜好选择被替换的字符及对应的替换符号。生成模块90在接收到用户选择的被替换的字符及对应的替换符号之后，可根据用户的选择生成字符替代对照信息。例如，用户可根据自己的喜好将字符2替换成符号？、将字符8替换成符号&。又如，用户可根据自己的喜好将字符1替换成符号#、将字符6替换成符号@，这样可根据用户的设置生成该用户的字符替代对照信息，即将字符2替换成符号？、将字符8替换成符号&、字符1替换成符号#、将字符6替换成符号@。

需要说明的是，在本发明的一个实施例中，注册字符串可包括用户选择的被替换的字符。这样，在生成模块90生成字符替代对照信息之后，第二接收模块60在随机生成一个注册字符串时，可根据该用户的字符替代对照信息将该注册字符串(如32149658)中用户选择的被替换的字符(即字符1和字符6)进行字符替换，即将注册字符串32149658替换成32#49@58，并将该替换之后的注册字符串32#49@58提供给用户，用户在朗读注册字符串时，可根据之前自己设置的替换符号，将该注册字符串中的替换字符#和@对应的朗读成相应的字符1和字符6，即用户在朗读注册字符串(如32#49@5)时应朗读成32149658。

在本发明的描述中，需要理解的是，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“至少一个”的含义是一个或多个，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

一种基于人工智能的声纹登录方法，其特征在于，包括以下步骤：

S1、接收用户的登录请求，并获取所述用户的用户信息；

S2、生成登录字符串，并根据所述用户信息对应的字符替代对照信息对所述登录字符串中的至少一个字符进行替换；

S3、将替换之后的所述登录字符串提供至所述用户，并接收所述用户阅读所述登录字符串的语音信息；以及

S4、根据所述用户阅读所述登录字符串的语音信息对所述用户进行登录验证。
如权利要求1所述的基于人工智能的声纹登录方法，其特征在于，所述根据所述用户阅读所述登录字符串的语音信息对所述用户进行登录验证具体包括：

S41、对所述用户阅读所述登录字符串的语音信息进行语音识别以获取所述语音信息对应的文本信息；

S42、将所述文本信息与所述登录字符串进行匹配；

S43、如果一致，则进一步对所述用户阅读所述登录字符串的语音信息进行声纹匹配；以及

S44、如果声纹匹配通过，则判断所述用户通过登录验证。
如权利要求1或2所述的基于人工智能的声纹登录方法，其特征在于，在所述步骤S1之前，还包括：

S5、接收所述用户的注册请求，并将注册字符串提供至所述用户；以及

S6、接收所述用户阅读所述注册字符串的语音信息，并提取所述用户的声纹。
如权利要求3所述的基于人工智能的声纹登录方法，其特征在于，还包括：

S7、提供编辑界面，并在所述编辑界面中提供用于替换字符串中字符的替换符号；以及

S8、接收用户选择的被替换的字符及对应的替换符号，以生成所述字符替代对照信息。
如权利要求4所述的基于人工智能的声纹登录方法，其特征在于，所述替换符号为字符、图片或汉字。
如权利要求3所述的基于人工智能的声纹登录方法，其特征在于，所述注册字符串和所述登录字符串为随机生成的数字串，其中，所述注册字符串和所述登录字符串中的多个数字均不相同。
如权利要求6所述的基于人工智能的声纹登录方法，其特征在于，所述注册字符串中包括所述用户选择的被替换的字符。
如权利要求3所述的基于人工智能的声纹登录方法，其特征在于，通过ivector(identity-vector)建模方法提取所述用户的声纹。
如权利要求8所述的基于人工智能的声纹登录方法，其特征在于，所述ivector(identity-vector)建模方法包括：

提取所述用户阅读所述注册字符串的语音信息；

将阅读所述注册字符串的所述语音信息中的多段语音的声学特征在普通背景模型UBM条件下进行Baum-Welch统计，并提取所述多段语音的多个ivector；

根据所述多段语音的多个ivector获取所述用户的注册ivector。
如权利要求6所述的基于人工智能的声纹登录方法，其特征在于，所述登录字符串中包括所述用户选择的被替换的字符。
如权利要求9所述的基于人工智能的声纹登录方法，其特征在于，所述对所述用户阅读所述登录字符串的语音信息进行声纹匹配具体包括：

提取所述用户阅读所述登录字符串的语音信息；

将所述用户阅读所述登录字符串的所述语音信息中的语音的声学特征在普通背景模型UBM条件下进行Baum-Welch统计，并提取所述语音的ivector以作为所述用户的登录ivector；

将所述登录ivector与所述注册ivector进行比对以判断声纹是否匹配。
一种基于人工智能的声纹登录装置，其特征在于，包括：

获取模块，用于接收用户的登录请求，并获取所述用户的用户信息；

替换模块，用于生成登录字符串，并根据所述用户信息对应的字符替代对照信息对所述登录字符串中的至少一个字符进行替换；

第一提供模块，用于将替换之后的所述登录字符串提供至所述用户；

第一接收模块，用于接收所述用户阅读所述登录字符串的语音信息；以及

验证模块，用于根据所述用户阅读所述登录字符串的语音信息对所述用户进行登录验证。
如权利要求12所述的基于人工智能的声纹登录装置，其特征在于，所述验证模块具体用于：

对所述用户阅读所述登录字符串的语音信息进行语音识别以获取所述语音信息对应的文本信息；

将所述文本信息与所述登录字符串进行匹配；

如果一致，则进一步对所述用户阅读所述登录字符串的语音信息进行声纹匹配；以及

如果声纹匹配通过，则判断所述用户通过登录验证。
如权利要求12或13所述的基于人工智能的声纹登录装置，其特征在于，还包括：

第二接收模块，用于在所述获取模块接收用户的登录请求，并获取所述用户的用户信息之前，接收所述用户的注册请求，并将注册字符串提供至所述用户；以及

提取模块，用于接收所述用户阅读所述注册字符串的语音信息，并提取所述用户的声纹。
如权利要求14所述的基于人工智能的声纹登录装置，其特征在于，还包括：

第二提供模块，用于提供编辑界面，并在所述编辑界面中提供用于替换字符串中字符的替换符号；以及

生成模块，用于接收用户选择的被替换的字符及对应的替换符号，以生成所述字符替代对照信息。
如权利要求15所述的基于人工智能的声纹登录装置，其特征在于，所述替换符号为字符、图片或汉字。
如权利要求14所述的基于人工智能的声纹登录装置，其特征在于，所述注册字符串和所述登录字符串为随机生成的数字串，其中，所述注册字符串和所述登录字符串中的多个数字均不相同。
如权利要求17所述的基于人工智能的声纹登录装置，其特征在于，所述注册字符串中包括所述用户选择的被替换的字符。
如权利要求14所述的基于人工智能的声纹登录装置，其特征在于，所述提取模块通过ivector(identity-vector)建模方法提取所述用户的声纹。
如权利要求19所述的基于人工智能的声纹登录装置，其特征在于，所述ivector(identity-vector)建模方法包括：

提取所述用户阅读所述注册字符串的语音信息；

将阅读所述注册字符串的所述语音信息中的多段语音的声学特征在普通背景模型UBM条件下进行Baum-Welch统计，并提取所述多段语音的多个ivector；

根据所述多段语音的多个ivector获取所述用户的注册ivector。
如权利要求17所述的基于人工智能的声纹登录装置，其特征在于，所述登录字符串中包括所述用户选择的被替换的字符。
如权利要求20所述的基于人工智能的声纹登录装置，其特征在于，所述验证模块具体用于：

提取所述用户阅读所述登录字符串的语音信息；

将所述用户阅读所述登录字符串的所述语音信息中的语音的声学特征在普通背景模型UBM条件下进行Baum-Welch统计，并提取所述语音的ivector以作为所述用户的登录 ivector；

将所述登录ivector与所述注册ivector进行比对以判断声纹是否匹配。