WO2018209918A1

WO2018209918A1 - 使用语音输入进行验证的方法和系统

Info

Publication number: WO2018209918A1
Application number: PCT/CN2017/112143
Authority: WO
Inventors: 刘光明
Original assignee: 刘光明
Priority date: 2017-05-17
Filing date: 2017-11-21
Publication date: 2018-11-22
Also published as: CN107147499A

Abstract

本公开提供一种使用语音输入进行验证的方法和系统(100)。在提出验证请求时，语音输入装置(101)使用户将所获取的用于验证的代码通过语音进行输入。语音识别装置(102)识别输入的语音，提取识别出的语音特征和识别出的代码。语音特征判断装置(103)判断识别出的语音特征是否与预先确定的语音特征相一致。代码判断装置(104)判断识别出的代码是否与预先设置的验证码相一致。验证装置(105)在上述两个判断装置的判断结果均为"相一致"的情况下，输出验证通过的指令。本发明避免了他人冒用用户身份输入密码或验证码的不安全情形。同时，通过增加语音识别的安全手段，进一步提升了应用和服务的安全性。

Description

使用语音输入进行验证的方法和系统

技术领域

本发明涉及用户身份验证，更具体涉及使用语音输入进行验证的方法和系统。

背景技术

随着在电脑或移动设备上安装的应用和服务的数量越来越多，这些应用和服务的安全问题引起了人们的注意。安全问题之一是确定使用应用和服务的用户身份，特别是在一些涉及财务、支付、涉及个人隐私或其他对安全要求很严格的应用和服务中，确定用户身份是很重要的一个环节。

现有的应用和服务进行用户身份验证的手段一般是使用验证码。具体地说，可以是固定密码验证、随机密码验证。例如，作为随机密码验证的一个步骤，随机密码一般会发送到用户指定的设备上，例如发送到用户手机上。但是，这样的场景的安全性是基于一个前提的，即用户自己持有用户设备，例如手机。如果用户手机被盗，或者手机被其他人所控制，那么密码就会被手机当前的持有者所获得，则该持有者可以利用发送到手机上的密码来完成应用和服务所需的身份验证，从而以安全用户的身份进行危害用户财产或隐私安全的行为(例如交易等)。在这种情况下，所谓的安全性荡然无存。

除了密码之外，为了防止对应用和服务的恶意攻击或不正常使用(例如使用计算机程序多次登录、多次提交信息、多次评论、刷票、刷好评等等)，应用和服务还会使用额外的验证码来进行验证。例如，通过用图片来显示规则或不规则的数字、汉字、字母或其他字符，要求用户输入这些字符来进行验证。

目前常见的密码为数字序列(例如4位或6位数字)。但是数字密码相对来说是容易被破解或被泄露，图片中的数字验证码也容易被识别，从而失去其验证的意义。随着人工智能的不断发展，即使使用字母和/或汉字等其他字符来作为密码或者验证码，其安全性也还是有局限性的。

发明内容

为了解决上述问题，本发明提供一种使用语音输入进行验证的方法和系统。用户需要用语音的方式输入密码或验证码，即朗读出密码或验证码，应用或服务通过语音识别来验证输入的密码或验证码。验证分为两个方面：一方面是代码的验证；另一方面则是语音的验证，即语音需要与用户的语音相一致。这样避免了他人冒用用户身份输入密码或验证码的不安全情形。同时，通过增加语音识别的安全手段，进一步提升了应用和服务的安全性。

根据本发明的第一方面，提供一种使用语音输入进行验证的方法，包括：当提出验证请求时，用户将所获取的用于验证的代码通过语音进行输入；识别输入的语音，提取识别出的语音特征和识别出的代码；判断识别出的语音特征是否与预先确定的语音特征相一致；判断识别出的代码是否与预先设置的验证码相一致；在上述两个判断结果均为“相一致”的情况下，用户验证通过。

在两个判断结果中任何一个为“不一致”的情况下，用户验证失败。

优选地，所述代码可以是可用语音读出的字符。所述代码可以是字母、数字和汉字中的一种或组合。

一方面，所述的预先确定的语音特征可以预先存储在用户设备上。另一方面，所述的预先确定的语音特征可以预先存储在服务器或云端。

一方面，所述的预先设置的验证码可以由用户设备在本地生成。另一方面，所述的预先设置的验证码可以由服务器或云端生成并发送给用户。

根据本发明的第二方面，提供一种使用语音输入进行验证的系统，包括：语音输入装置，用于在提出验证请求时，使用户将所获取的用于验证的代码通过语音进行输入；语音识别装置，用于识别输入的语音，提取识别出的语音特征和识别出的代码；语音特征判断装置，用于判断识别出的语音特征是否与预先确定的语音特征相一致；代码判断装置，用于判断识别出的代码是否与预先设置的验证码相一致；验证装置，用于在上述两个判断装置的判断结果均为“相一致”的情况下，输出验证通过的指令。

根据本发明的第三方面，提供一种计算机可读存储介质，用于记录可由处理器执行的指令，所述指令在被处理器执行时，使得处理器执行使用语音输入进行验证的方法，包括：当提出验证请求时，用户将所获取的用于验证的代码通过语音进行输入；识别输入的语音，提取识别出的语音特征和识别出的代码；判断识别出的语音特征是否与预先确定的语音特征相一致；判断识别出的代码是否与预先设置的验证码相一致；在上述两个判断结果均为“相一致”的情况下，用户验证通过。

本发明的一个优势在于，在用户手机被他人持有的情况下，由于他人的语音输入无法与用户自身的语音相匹配，会造成验证失败，从而保护了用户的安全。

而且，在要求使用图片中的验证码进行输入时，通过增加语音识别环节，进一步避免了恶意或不正常访问，从而保证交易活动的真实性和安全性。

附图说明

下面参考附图结合实施例说明本发明。在附图中：

图1是图示说明根据本发明的实施例的使用语音输入进行验证的系统的示意图。

图2是图示说明根据本发明的实施例的使用语音输入进行验证的方法的流程图。

具体实施方式

下面将结合附图来详细解释本发明的具体实施例。

在下文中，密码或验证码等用于验证的字符型代码可以被统一称为验证码或代码。

如图1中所示，根据本发明的使用语音输入进行验证的系统100包括：语音输入装置101、语音识别装置102、语音特征判断装置103、代码判断装置104和验证装置105。

在运行一些应用或接入一些服务时，相应的应用或服务可能会要求用户进行验证。例如，当我们通过桌面电脑或移动设备上的付款应用进行支付时，付款应用可能会要求使用者输入用户密码和/或随机验证码。用户密码可以是用户提前设置好，由应用进行预先存储以便今后检验；用户密码可以存储在用户设备上以方便查验，也可以存储在云端或服务器上，在调用云端或服务器上的服务时进行查验。随机验证码则可以由应用或服务的后端服务器发送到用户预留或当前指定的移动设备上。随机验证码也可以由本地用户设备或者后端服务器以网页图片的形式提供给用户。例如，我们常见的网站图形验证码是将验证码(代码)隐藏在图片中，由用户进行识别，然后输入到验证码的方框中。

根据本发明的实施例，在例如由应用或服务提出验证请求时，语音输入装置101使用户将所获取的用于验证的代码通过语音进行输入。如前面所述，用户获取的用于验证的代码(简称为验证码)可以是提前设置好的，也可以是临时、随机设置从而发送给用户设备的。这里需要注意的是，用户设备可以是用户用来进行应用或服务的设备，也可以是另外的设备。

根据本发明的实施例，所述的代码是可用语音读出的字符。例如，所述代码可以是字母、数字和汉字中的一种或组合。

根据本发明的实施例，例如，用户获取的验证码是“123456”，则用户通过按顺序朗读“1”、“2”、“3”、“4”、“5”、“6”来进行语音输入。

语音识别装置102识别通过语音输入装置101输入的语音，提取识别出的语音特征和识别出的代码。用户的语音可以输入到运行应用或服务的用户设备中进行识别，也可以输入到第三方设备中进行识别，在第三方设备做出下文所述的判断结果后通知用户设备，或者也可以是输入到用户设备，由用户设备转发到第三方设备进行识别处理。

所述的语音特征可以是具体的语音或语音片段，也可以是语音的特征参数。本发明所使用的语音特征是用于区分不同用户的。例如，不同的用户的语音会呈现不同的基音、基频、谐波，并且清音和浊音的发声都会有不同的特点。这些声音的特点也可以被称作“声纹”。本领域技术人员应该理解，根据不同的语音识别算法，可以选取不同的语音特征来用于区分不同用户。本发明包括所有这些语音特征，并且在实际应用中不局限于其中任何一种语音特征。

除了识别语音特征，语音识别装置102还需要识别出具体的代码(验证码)。本领域技术人员应当理解，在实际应用中，可以选用合适的语音识别算法来识别用户通过语音输入的代码。

语音特征判断装置103判断语音识别装置102识别出的语音特征是否与预先确定的语音特征相一致。如前所述，语音特征是用于区分不同用户的。所以，特定的用户，例如用户设备的使用者或主人可以预先确定好自己的语音特征，例如通过预定的程序录制一些语音以训练得到自己的语音特征，或者例如预先录制一些可能用于验证码的特定字符的语音(诸如字母、数字、规定范围内的若干汉字、或者一些声母、韵母等发音元素)。总之，语音特征判断装置103可以调用到这样的预先确定的语音特征，从而可以与从输入的语音中识别出的语音特征进行比较。如果比较结果相一致，则说明当前输入语音的用户就是预先确定语音特征的用户，即相同用户。

根据本发明的实施例，所述的预先确定的语音特征可以预先存储在用于接收语音的用户设备上。例如，用户直接在手机上预先进行语音训练，从而将自己的语音特征存储在手机上，以便今后的验证。另一方面，所述的预先确定的语音特征也可以预先存储在服务器或云端。例如，用户在用户设备上进行了语音训练之后，将训练结果，即提炼出的语音特征转存到服务器或云端上，以便今后用户在不同用户设备上都能进行验证。

代码判断装置104判断语音识别装置102识别出的代码是否与预先设置的验证码相一致。如前所述，验证码可以是授权用户预先设置的，也可以是由应用或服务、用户设备、云端或服务器根据验证的请求而预先设置并提供或呈现给用户的。这里所述的“预先”设置，是相对于用户的输入与语音识别而言的，即，验证码在预先设置好之后，才谈得上以后的验证这一环节。总之，代码判断装置104可以调用到这样的预先设置的验证码，从而可以与从输入的语音中识别出的代码进行比较，以达到验证的目的。

根据本发明的实施例，所述的预先设置的验证码可以由用户设备在本地生成，也可以由服务器或云端生成并发送给用户。

在上述两个判断装置的判断结果均为“相一致”的情况下，验证装置105输出验证通过的指令。

另一方面，在两个判断结果中任何一个为“不一致”的情况下，验证装置105可以输出用户验证失败的指示或指令。因此，在图1中，将验证装置105的框绘制成了一个与门(AND gate)的形态，以反映其逻辑功能。

可以设想这样一种应用场景：用户需要使用手机或电脑上的支付工具(应用或服务)进行支付。该支付工具在支付交易发生前，要求用户进行身份验证。一方面，该支付工具可以要求用户提供个人账号和/或密码；另一方面，该支付工具的后台服务器可以向该用户的移动设备(例如手机)发送一条消息，该消息中包括验证码，用户需要输入接收到的验证码以进行双重校验。这样的验证方案是为了保证上述交易是在用户知情并允许的情况下发生的。该验证方案的一个前提是用户的移动设备一定是用户自己持有的。如背景技术中所述，如果用户的移动设备被盗或被他人控制，则上述的验证方案将会失去意义。

根据本发明，在同样的应用场景中，用户需要进行语音输入。也就是说，除了对验证码本身进行比对验证之外，还需要对输入验证码的人进行语音识别，以判断这个人是否就是用户本人。本领域技术人员应该可以想到，这样的识别除了语音识别之外，还可以是其他的附带生物特征的识别，比如虹膜、指纹、掌纹等识别。但是，本发明的特点在于，将验证码与语音相结合，输入的载体是语音，输入的内容是代码。通过语音识别，既可以实现语音特征的验证(用户本人身份的验证)，也可以实现字母、数字、汉字等字符代码(只要它们是可读的，即可以使用语音来表示和区分)的验证(验证码的验证)。

在这样的场景中，如果是他人冒用用户的身份进行交易，在语音识别之后，会发现输入的语音的语音特征与用户的语音特征不相符，从而可以拒绝交易。另外，因为采用了语音输入且识别、验证语音特征的方式，杜绝了使用机器或计算机程序进行重复登录、刷票、刷好评等不正常行为，从而进一步加强了应用或服务的安全性。

如图2中所示，根据本发明的使用语音输入进行验证的方法200开始于步骤S201，在该步骤，当提出验证请求时，用户将所获取的用于验证的代码通过语音进行输入。

根据本发明的实施例，所述代码是可用语音读出的字符。例如，所述代码可以是字母、数字和汉字中的一种或组合。

在步骤S203，识别输入的语音，提取识别出的语音特征和识别出的代码。

在步骤S205，判断识别出的语音特征是否与预先确定的语音特征相一致。

根据本发明的实施例，所述的预先确定的语音特征可以预先存储在用于接收语音的用户设备上，也可以预先存储在服务器或云端。

在步骤S207，判断识别出的代码是否与预先设置的验证码相一致。

根据本发明的实施例，所述的预先设置的验证码可以由用户设备在本地生成，也可以由服务器或云端生成并发送给用户。另外，所述的预先设置的验证码还可以是用户自己来预先设置的，并由用户自己来保存或记忆。

步骤S205和S207可以是一前一后进行，也可以并行同时进行。即使是一前一后进行的情况，步骤S205也并不必然在步骤S207之前或之后进行。也就是说，尽管根据图2中所示，步骤S205和S207是按顺序进行的，但该图示只是一个示例，并不希望限定这样的次序。

在步骤S209，在上述两个步骤S205和S207的判断结果均为“相一致”的情况下，用户验证通过。

另一方面，在两个判断结果中任何一个为“不一致”的情况下，用户验证失败。

本领域普通技术人员应该认识到，本发明的方法和系统可以实现为计算机程序。如上结合图1和2所述，根据上述实施例的方法和系统可以执行一个或多个程序，包括指令来使得计算机或处理器执行结合附图所述的算法。这些程序可以使用各种类型的非瞬时计算机可读介质存储并提供给计算机或处理器。非瞬时计算机可读介质包括各种类型的有形存贮介质。非瞬时计算机可读介质的示例包括磁性记录介质(诸如软盘、磁带和硬盘驱动器)、磁光记录介质(诸如磁光盘)、CD-ROM(紧凑盘只读存储器)、CD-R、CD-R/W 以及半导体存储器(诸如ROM、PROM(可编程ROM)、EPROM(可擦写PROM)、闪存ROM和RAM(随机存取存储器))。进一步，这些程序可以通过使用各种类型的瞬时计算机可读介质而提供给计算机。瞬时计算机可读介质的示例包括电信号、光信号和电磁波。瞬时计算机可读介质可以用于通过诸如电线和光纤的有线通信路径或无线通信路径提供程序给计算机。

因此，根据本发明，还可以提供一种计算机程序或一种计算机可读存储介质，用于记录可由处理器执行的指令，所述指令在被处理器执行时，使得处理器执行使用语音输入进行验证的方法，包括：当提出验证请求时，用户将所获取的用于验证的代码通过语音进行输入；识别输入的语音，提取识别出的语音特征和识别出的代码；判断识别出的语音特征是否与预先确定的语音特征相一致；判断识别出的代码是否与预先设置的验证码相一致；在上述两个判断结果均为“相一致”的情况下，用户验证通过。

上面已经描述了本发明的各种实施例和实施情形。但是，本发明的精神和范围不限于此。本领域技术人员将能够根据本发明的教导而做出更多的应用，而这些应用都在本发明的范围之内。

Claims

一种使用语音输入进行验证的方法，包括：

当提出验证请求时，用户将所获取的用于验证的代码通过语音进行输入；

识别输入的语音，提取识别出的语音特征和识别出的代码；

判断识别出的语音特征是否与预先确定的语音特征相一致；

判断识别出的代码是否与预先设置的验证码相一致；

在上述两个判断结果均为“相一致”的情况下，用户验证通过。
根据权利要求1所述的方法，其中，在两个判断结果中任何一个为“不一致”的情况下，用户验证失败。
根据权利要求1所述的方法，其中，所述代码是可用语音读出的字符。
根据权利要求3所述的方法，其中，所述代码是字母、数字和汉字中的一种或组合。
根据权利要求1所述的方法，其中，所述的预先确定的语音特征预先存储在用于接收语音的用户设备上。
根据权利要求1所述的方法，其中，所述的预先确定的语音特征预先存储在服务器或云端。
根据权利要求1所述的方法，其中，所述的预先设置的验证码由用户设备在本地生成。
根据权利要求1所述的方法，其中，所述的预先设置的验证码由服务器或云端生成并发送给用户。
一种使用语音输入进行验证的系统，包括：

语音输入装置，用于在提出验证请求时，使用户将所获取的用于验证的代码通过语音进行输入；

语音识别装置，用于识别输入的语音，提取识别出的语音特征和识别出的代码；

语音特征判断装置，用于判断识别出的语音特征是否与预先确定的语音特征相一致；

代码判断装置，用于判断识别出的代码是否与预先设置的验证码相一致；

验证装置，用于在上述两个判断装置的判断结果均为“相一致”的情况下，输出验证通过的指令。
一种计算机可读存储介质，用于记录可由处理器执行的指令，所述指令在被处理器执行时，使得处理器执行使用语音输入进行验证的方法，包括：

当提出验证请求时，用户将所获取的用于验证的代码通过语音进行输入；

识别输入的语音，提取识别出的语音特征和识别出的代码；

判断识别出的语音特征是否与预先确定的语音特征相一致；

判断识别出的代码是否与预先设置的验证码相一致；

在上述两个判断结果均为“相一致”的情况下，用户验证通过。