WO2019127929A1

WO2019127929A1 - 一种电子设备声纹支付方法及装置

Info

Publication number: WO2019127929A1
Application number: PCT/CN2018/079533
Authority: WO
Inventors: 郭一明
Original assignee: 广州势必可赢网络科技有限公司
Priority date: 2017-12-26
Filing date: 2018-03-20
Publication date: 2019-07-04
Also published as: CN107871236B; CN107871236A

Abstract

本申请实施例提供了一种电子设备声纹支付方法及装置。当用户选择支付时，电子设备就会从缓存区中调用预置时间段内的实时监听的实时音频数据，提取实时音频数据中的实时声学特征并将实时声学特征与预置声学特征进行匹配，根据匹配分数判断实时音频数据中是否存在电子设备拥有者的声音，若是，则说明电子设备是电子设备拥有者本人在使用，电子设备执行支付操作，整个过程中无需用户输入验证码或者支付密码，用户只需要下达支付指令电子设备就会根据实时音频数据自动判断是否支付，支付过程方便快捷，因为每个人声音的声学特征差异较大，所以通过声学特征进行验证安全可靠，解决了当前电子设备支付方法难以同时满足方便和安全的技术问题。

Description

一种电子设备声纹支付方法及装置

本申请要求于2017年12月26日提交中国专利局、申请号为201711435244.2、发明名称为“一种电子设备声纹支付方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请实施例涉及电子支付领域，尤其涉及一种电子设备声纹支付方法及装置。

背景技术

当前在使用电子设备进行付款操作时，往往通过验证码和传统的输入支付密码等验证方式进行验证，需要手动输入密码或者验证码，过程较为繁琐，但是如果直接采用免密支付，则对于用户的账号安全存在较大的风险。

因此，导致了当前电子设备支付方法难以同时满足方便和安全的技术问题。

发明内容

本申请提供了一种电子设备声纹支付方法及装置，解决了当前电子设备支付方法难以同时满足方便和安全的技术问题。

本申请提供了一种电子设备声纹支付方法，包括：

S1：接收支付指令，根据支付指令获取缓存区中预置时间段内的实时监听的实时音频数据；

S2：提取实时音频数据中的实时声学特征，将实时声学特征与声纹数据库中的预置声学特征进行匹配获取匹配分数，判断匹配分数是否大于预置阈值，若是，则执行支付操作。

优选地，步骤S2之后还包括：步骤S3；

S2具体包括：提取实时音频数据中的实时声学特征，将实时声学特征与声纹数据库中的预置声学特征进行匹配获取匹配分数，判断匹配分数是否大于预置阈值，若是，则执行支付操作，若否，则执行步骤S3；

S3：声纹验证失败，提示操作用户输入支付密码。

优选地，步骤S2具体包括：

S21：对实时音频数据进行端点检测，获取实时音频数据中的说话人音频数据；

S22：对说话人音频数据进行去噪处理，对去噪后的说话人音频数据进行特征提取，获取说话人音频数据中的实时声学特征；

S23：将实时声学特征与声纹数据库中的预置声学特征进行匹配获取匹配分数，判断匹配分数是否大于预置阈值，若是，则执行支付操作，若否，则执行步骤S3。

优选地，步骤S1之前还包括：

S01：接收注册指令和注册音频数据，根据注册指令判断注册音频数据是否符合预置语音质量标准的要求，如是，则执行步骤S01；

S02：提取注册音频数据中的注册声学特征，将注册声学特征存入声纹数据库中作为预置声学特征。

优选地，步骤S01之后，步骤S1之前还包括：步骤S03；

S01具体包括：接收注册指令和注册音频数据，根据注册指令判断注册音频数据是否符合预置语音质量标准的要求，如是，则执行步骤S02，若否，则执行步骤S03；

S03：声纹注册失败，提示用户重新输入注册音频数据并返回步骤S01。

本申请提供了一种电子设备声纹支付装置，包括：

数据获取单元，用于接收支付指令，根据支付指令获取缓存区中预置时间段内的实时监听的实时音频数据；

特征匹配单元，用于提取实时音频数据中的实时声学特征，将实时声学特征与声纹数据库中的预置声学特征进行匹配获取匹配分数，判断匹配分数是否大于预置阈值，若是，则执行支付操作。

优选地，还包括：失败提醒单元；

特征匹配单元，具体用于提取实时音频数据中的实时声学特征，将实时声学特征与声纹数据库中的预置声学特征进行匹配获取匹配分数，判断匹配分数是否大于预置阈值，若是，则执行支付操作，若否，则触发失败提醒单元；

失败提醒单元，用于声纹验证失败，提示操作用户输入支付密码。

优选地，特征匹配单元具体包括：

检测子单元，用于对实时音频数据进行端点检测，获取实时音频数据中的说话人音频数据；

特征子单元，用于对说话人音频数据进行去噪处理，对去噪后的说话人音频数据进行特征提取，获取说话人音频数据中的实时声学特征；

匹配子单元，用于将实时声学特征与声纹数据库中的预置声学特征进行匹配获取匹配分数，判断匹配分数是否大于预置阈值，若是，则执行支付操作，若否，则触发失败提醒单元。

优选地，还包括：

语音注册单元，用于接收注册指令和注册音频数据，根据注册指令判断注册音频数据是否符合预置语音质量标准的要求，如是，则触发提取存档单元；

提取存档单元，用于提取注册音频数据中的注册声学特征，将注册声学特征存入声纹数据库中作为预置声学特征。

优选地，还包括：失败返回单元；

语音注册单元，具体用于接收注册指令和注册音频数据，根据注册指令判断注册音频数据是否符合预置语音质量标准的要求，如是，则触发提取存档单元，若否，则触发失败返回单元；

失败返回单元，用于声纹注册失败，提示用户重新输入注册音频数据并触发语音注册单元。

从以上技术方案可以看出，本申请具有以下优点：

本申请提供了一种电子设备声纹支付方法，包括：S1：接收支付指令，根据支付指令获取缓存区中预置时间段内的实时监听的实时音频数据；S2：提取实时音频数据中的实时声学特征，将实时声学特征与声纹数据库中的预置声学特征进行匹配获取匹配分数，判断匹配分数是否大于预置阈值，若是，则执行支付操作。

本申请中当用户选择支付时，电子设备接收支付指令，就会从缓存区中调用预置时间段内的实时监听的实时音频数据，通过提取实时音频数据中的实时声学特征并将实时声学特征与预置声学特征进行匹配，根据匹配分数判断实时音频数据中是否存在电子设备拥有者自身的声音，若是，则说明电子设备是电子设备拥有者本人在使用，电子设备执行支付操作，整个过程中无需用户输入验证码或者支付密码，用户只需要下达支付指令电子设备就会根据实时音频数据自动判断是否支付，支付过程方便快捷，同时因为每个人的声音对应的声学特征差异较大，所以通过声学特征进行验证安全可靠，解决了当前电子设备支付方法难以同时满足方便和安全的技术问题。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本申请实施例提供的一种电子设备声纹支付方法的一个实施例的流程示意图；

图2为本申请实施例提供的一种电子设备声纹支付方法的另一个实施例的流程示意图；

图3为本申请实施例提供的一种电子设备声纹支付装置的一个实施例的结构示意图。

具体实施方式

本申请实施例提供了一种电子设备声纹支付方法及装置，解决了当前电子设备支付方法难以同时满足方便和安全的技术问题。

为使得本申请的发明目的、特征、优点能够更加的明显和易懂，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本申请一部分实施例，而非全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

请参阅图1，本申请实施例提供了一种电子设备声纹支付方法的一个实施例，包括：

步骤101：接收支付指令，根据支付指令获取缓存区中预置时间段内的实时监听的实时音频数据。

需要说明的是，用户需要支付时点击支付选项，电子设备会接收到支付指令，并根据支付指令获取缓存区中预置时间段内的实时监听的实时音频数据。

步骤102：提取实时音频数据中的实时声学特征，将实时声学特征与声纹数据库中的预置声学特征进行匹配获取匹配分数，判断匹配分数是否大于预置阈值，若是，则执行步骤103。

需要说明的是，获取缓存区中预置时间段内的实时监听的实时音频数据之后，提取实时音频数据中的实时声学特征，将实时声学特征与声纹数据库中的预置声学特征进行匹配获取匹配分数，判断匹配分数是否大于预置阈值以决定是否执行步骤103进行支付。

步骤103：执行支付操作。

需要说明的是，本实施例中当用户选择支付时，电子设备接收支付指令，就会从缓存区中调用预置时间段内的实时监听的实时音频数据，通过提取实时音频数据中的实时声学特征并将实时声学特征与预置声学特征进行匹配，根据匹配分数判断实时音频数据中是否存在电子设备拥有者自身的声音，若是，则说明电子设备是电子设备拥有者本人在使用，电子设备执行支付操作，整个过程中无需用户输入验证码或者支付密码，用户只需要下达支付指令电子设备就会根据实时音频数据自动判断是否支付，支付过程方便快捷，同时因为每个人的声音对应的声学特征差异较大，所以通过声学特征进行验证安全可靠，解决了当前电子设备支付方法难以同时满足方便和安全的技术问题。

以上为本申请实施例提供的一种电子设备声纹支付方法的一个实施例，以下为本申请实施例提供的一种电子设备声纹支付方法的另一个实施例。

请参阅图2，本申请实施例提供了一种电子设备声纹支付方法的另一个实施例，包括：

步骤201：接收注册指令和注册音频数据，根据注册指令判断注册音频数据是否符合预置语音质量标准的要求，如是，则执行步骤202，若否，则执行步骤203。

需要说明的是，预置语音质量标准可以包括但不限于：预置信噪比标准、预置音量标准和预置有效时长标准。

步骤202：提取注册音频数据中的注册声学特征，将注册声学特征存入声纹数据库中作为预置声学特征。

需要说明的是，声纹数据库中的预置声学特征可以是从其他设备或者系统直接获取的预置声学特征，也可以是通过注册进行处理得到的注册声学特征。

如果注册音频数据符合预置语音质量标准的要求，则提取注册音频数据中的注册声学特征，将注册声学特征存入声纹数据库中作为预置声学特征。

声学特征可以包括但不限于：声谱特征、韵律学特征和音质特征。

步骤203：声纹注册失败，提示用户重新输入注册音频数据并返回步骤201。

需要说明的是，如果注册音频数据不符合预置语音质量标准的要求，则声纹注册失败，提示用户重新输入注册音频数据并返回步骤201重新进行注册操作。

步骤204：接收支付指令，根据支付指令获取缓存区中预置时间段内的实时监听的实时音频数据。

需要说明的是，接收到支付指令之后获取缓存区中预置时间段内的实时监听的实时音频数据，预置时间段可以根据需要进行设定，如接收到支付指令之前的30秒、1分钟和5分钟等。

步骤205：对实时音频数据进行端点检测，获取实时音频数据中的说话人音频数据。

需要说明的是，对实时音频数据进行端点检测可以辨别实时音频数据中的说话人音频数据和非说话人音频数据，后续步骤中只对说话人音频数据进行处理可以节省数据处理量，提高处理效率，减少处理时间。

步骤206：对说话人音频数据进行去噪处理，对去噪后的说话人音频数据进行特征提取，获取说话人音频数据中的实时声学特征。

需要说明的是，对说话人音频数据进行去噪处理可以将背景噪声等去除，提高说话人身份辨识的准确性。

步骤207：将实时声学特征与声纹数据库中的预置声学特征进行匹配获取匹配分数，判断匹配分数是否大于预置阈值，若是，则执行步骤208，若否，则执行步骤209。

需要说明的是，将实时声学特征与声纹数据库中的预置声学特征进行匹配获取匹配分数，如果匹配分数大于预置阈值，则说明电子设备当前为声纹注册用户在进行支付操作，则执行步骤208进行支付操作，如果匹配分数小于预置阈值，则说明电子设备当前并非是声纹注册用户在进行操作，声纹验证失败。

步骤208：执行支付操作。

需要说明的是，如何进行支付操作为本领域技术人员公知技术手段，在此不再赘述。

步骤209：声纹验证失败，提示操作用户输入支付密码。

需要说明的是，声纹验证失败时，为了避免存在声纹验证错误等原因造成无法支付的情况，可以提示用户输入支付密码，通过支付密码进行支付验证。

本实施例中当用户选择支付时，电子设备接收支付指令，就会从缓存区中调用预置时间段内的实时监听的实时音频数据，通过提取实时音频数据中的实时声学特征并将实时声学特征与预置声学特征进行匹配，根据匹配分数判断实时音频数据中是否存在声纹注册用户自身的声音，若是，则说明电子设备是声纹注册用户本人在使用，电子设备执行支付操作，整个过程中无需用户输入验证码或者支付密码，用户只需要下达支付指令电子设备就会根据实时音频数据自动判断是否支付，支付过程方便快捷，同时因为每个人的声音对应的声学特征差异较大，所以通过声学特征进行验证安全可靠，解决了当前电子设备支付方法难以同时满足方便和安全的技术问题。

以上为本申请实施例提供的一种电子设备声纹支付方法的另一个实施例，以下为本申请实施例提供的一种电子设备声纹支付装置的一个实施例。

请参阅图3，本申请实施例提供了一种电子设备声纹支付装置的一个实施例，包括：

数据获取单元303，用于接收支付指令，根据支付指令获取缓存区中预置时间段内的实时监听的实时音频数据。

特征匹配单元304，用于提取实时音频数据中的实时声学特征，将实时声学特征与声纹数据库中的预置声学特征进行匹配获取匹配分数，判断匹配分数是否大于预置阈值，若是，则执行支付操作。

进一步地，还包括：失败提醒单元305。

特征匹配单元304，具体用于提取实时音频数据中的实时声学特征，将实时声学特征与声纹数据库中的预置声学特征进行匹配获取匹配分数，判断匹配分数是否大于预置阈值，若是，则执行支付操作，若否，则触发失败提醒单元305。

失败提醒单元305，用于声纹验证失败，提示操作用户输入支付密码。

进一步地，特征匹配单元304具体包括：

检测子单元3041，用于对实时音频数据进行端点检测，获取实时音频数据中的说话人音频数据。

特征子单元3042，用于对说话人音频数据进行去噪处理，对去噪后的说话人音频数据进行特征提取，获取说话人音频数据中的实时声学特征。

匹配子单元3043，用于将实时声学特征与声纹数据库中的预置声学特征进行匹配获取匹配分数，判断匹配分数是否大于预置阈值，若是，则执行支付操作，若否，则触发失败提醒单元305。

进一步地，还包括：

语音注册单元300，用于接收注册指令和注册音频数据，根据注册指令判断注册音频数据是否符合预置语音质量标准的要求，如是，则触发提取存档单元301；

提取存档单元301，用于提取注册音频数据中的注册声学特征，将注册声学特征存入声纹数据库中作为预置声学特征。

进一步地，还包括：失败返回单元302。

语音注册单元300，具体用于接收注册指令和注册音频数据，根据注册指令判断注册音频数据是否符合预置语音质量标准的要求，如是，则触发提取存档单元301，若否，则触发失败返回单元302。

失败返回单元302，用于声纹注册失败，提示用户重新输入注册音频数据并触发语音注册单元300。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

一种电子设备声纹支付方法，其特征在于，包括：

S1：接收支付指令，根据支付指令获取缓存区中预置时间段内的实时监听的实时音频数据；

S2：提取实时音频数据中的实时声学特征，将实时声学特征与声纹数据库中的预置声学特征进行匹配获取匹配分数，判断匹配分数是否大于预置阈值，若是，则执行支付操作。
根据权利要求1所述的一种电子设备声纹支付方法，其特征在于，步骤S2之后还包括：步骤S3；

S2具体包括：提取实时音频数据中的实时声学特征，将实时声学特征与声纹数据库中的预置声学特征进行匹配获取匹配分数，判断匹配分数是否大于预置阈值，若是，则执行支付操作，若否，则执行步骤S3；

S3：声纹验证失败，提示操作用户输入支付密码。
根据权利要求2所述的一种电子设备声纹支付方法，其特征在于，步骤S2具体包括：

S21：对实时音频数据进行端点检测，获取实时音频数据中的说话人音频数据；

S22：对说话人音频数据进行去噪处理，对去噪后的说话人音频数据进行特征提取，获取说话人音频数据中的实时声学特征；

S23：将实时声学特征与声纹数据库中的预置声学特征进行匹配获取匹配分数，判断匹配分数是否大于预置阈值，若是，则执行支付操作，若否，则执行步骤S3。
根据权利要求1所述的一种电子设备声纹支付方法，其特征在于，步骤S1之前还包括：

S01：接收注册指令和注册音频数据，根据注册指令判断注册音频数据是否符合预置语音质量标准的要求，如是，则执行步骤S02；

S02：提取注册音频数据中的注册声学特征，将注册声学特征存入声纹数据库中作为预置声学特征。
根据权利要求4所述的一种电子设备声纹支付方法，其特征在于，步骤S01之后，步骤S1之前还包括：步骤S03；

S01具体包括：接收注册指令和注册音频数据，根据注册指令判断注册音频数据是否符合预置语音质量标准的要求，如是，则执行步骤S02，若否，则执行步骤S03；

S03：声纹注册失败，提示用户重新输入注册音频数据并返回步骤S01。
一种电子设备声纹支付装置，其特征在于，包括：

数据获取单元，用于接收支付指令，根据支付指令获取缓存区中预置时间段内的实时监听的实时音频数据；

特征匹配单元，用于提取实时音频数据中的实时声学特征，将实时声学特征与声纹数据库中的预置声学特征进行匹配获取匹配分数，判断匹配分数是否大于预置阈值，若是，则执行支付操作。
根据权利要求6所述的一种电子设备声纹支付装置，其特征在于，还包括：失败提醒单元；

特征匹配单元，具体用于提取实时音频数据中的实时声学特征，将实时声学特征与声纹数据库中的预置声学特征进行匹配获取匹配分数，判断匹配分数是否大于预置阈值，若是，则执行支付操作，若否，则触发失败提醒单元；

失败提醒单元，用于声纹验证失败，提示操作用户输入支付密码。
根据权利要求7所述的一种电子设备声纹支付装置，其特征在于，特征匹配单元具体包括：

检测子单元，用于对实时音频数据进行端点检测，获取实时音频数据中的说话人音频数据；

特征子单元，用于对说话人音频数据进行去噪处理，对去噪后的说话人音频数据进行特征提取，获取说话人音频数据中的实时声学特征；

匹配子单元，用于将实时声学特征与声纹数据库中的预置声学特征进行匹配获取匹配分数，判断匹配分数是否大于预置阈值，若是，则执行支付操作，若否，则触发失败提醒单元。
根据权利要求6所述的一种电子设备声纹支付装置，其特征在于，还包括：

语音注册单元，用于接收注册指令和注册音频数据，根据注册指令判断注册音频数据是否符合预置语音质量标准的要求，如是，则触发提取存档单元；

提取存档单元，用于提取注册音频数据中的注册声学特征，将注册声学特征存入声纹数据库中作为预置声学特征。
根据权利要求9所述的一种电子设备声纹支付装置，其特征在于，还包括：失败返回单元；

语音注册单元，具体用于接收注册指令和注册音频数据，根据注册指令判断注册音频数据是否符合预置语音质量标准的要求，如是，则触发提取存档单元，若否，则触发失败返回单元；

失败返回单元，用于声纹注册失败，提示用户重新输入注册音频数据并触发语音注册单元。