WO2019114507A1

WO2019114507A1 - 语音处理方法、装置、存储介质及终端设备

Info

Publication number: WO2019114507A1
Application number: PCT/CN2018/116587
Authority: WO
Inventors: 陈岩; 刘耀勇
Original assignee: Oppo广东移动通信有限公司
Priority date: 2017-12-14
Filing date: 2018-11-21
Publication date: 2019-06-20
Also published as: CN109960910A; CN109960910B

Abstract

一种语音处理方法，该语音处理方法通过获取待验证语音信息，并对待验证语音信息进行第一验证；如果第一验证失败，则启动第二验证；其中，第二验证包括除语音验证以外的验证方式；接收第二验证的验证信息，根据验证信息判断待验证语音信息是否通过第二验证；如果待验证语音信息通过第二验证，则将待验证语音信息确定为预存语音信息，并将预存语音信息存储至识别库。

Description

语音处理方法、装置、存储介质及终端设备

本公开要求在2017年12月14日提交中国专利局、申请号为201711339174.0的中国专利申请的优先权，该申请的全部内容通过引用结合在本公开中。

技术领域

本公开涉及计算机语音处理技术领域，例如涉及一种语音处理方法、装置、存储介质及终端设备。

背景技术

随着终端设备的发展，终端设备逐渐成为人们日常生活必不可少且随身携带的工具，终端设备上也有诸多关于用户的私密或重要的信息，用户一般会在终端设备上设置身份验证，以防被不怀好意的人通过终端设备窃取用户的信息。验证方式包括基于语音的识别来进行验证用户身份的方法，即终端设备获取用户说的语音，并判断该语音是不是用户本人的声音来验证用户的身份。而用户的声音会受到自身因素或外部因素的干扰而发生变化，例如用户如果感冒了，用户感冒的声音会比平时的声音显得鼻音较重，而终端设备可能就无法识别出用户感冒的声音，导致语音识别的准确率低下。

发明内容

本公开提供一种语音处理方法、装置、存储介质及终端设备，可以提高语音验证的准确性。

本公开提供了一种语音处理方法，包括：

获取第一待验证语音信息，并对所述第一待验证语音信息进行第一验证；

如果所述第一验证失败，则启动第二验证；其中，所述第二验证包括除语音验证以外的验证方式；

接收所述第二验证的验证信息，根据所述验证信息判断所述第一待验证语音信息是否通过所述第二验证；

如果所述第一待验证语音信息通过所述第二验证，则将所述第一待验证语音信息确定为预存语音信息，并将预存语音信息存储至识别库。

本公开还提供了一种语音处理装置，包括：

语音验证模块，设置为获取第一待验证语音信息，并对所述第一待验证语音信息进行第一验证；

验证启动模块，设置为在第一验证失败时，启动第二验证；其中，所述第二验证包括除语音验证以外的验证方式；

验证模块，设置为接收第二验证的验证信息，根据所述验证信息判断所述第一待验证语音信息是否通过所述第二验证；

语音存储模块，设置为在所述第一待验证语音信息通过所述第二验证时，将所述第一待验证语音信息确定为预存语音信息，并将预存语音信息存储至识别库。

本公开还提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现如本公开实施例所述的语音处理方法。

本公开还提供了一种终端设备，包括存储器，处理器及存储在存储器上并可在处理器运行的计算机程序，所述处理器执行所述计算机程序时实现如本公开实施例所述的语音处理方法。

本公开提供的一种语音处理方案可以在用户的语音信息验证失败时，通过判断用户身份决定是否将验证失败的语音信息存入识别库，可以在后续用户再次使用语音验证时候，提高语音验证的准确性。

附图说明

图1为一实施例提供的一种语音处理方法的流程示意图；

图2为另一实施例提供的一种语音处理方法的流程示意图；

图3为另一实施例提供的一种语音处理方法的流程示意图；

图4为另一实施例提供的一种语音处理方法的流程示意图；

图5为另一实施例提供的一种语音处理方法的流程示意图；

图6为另一实施例提供的一种语音处理方法的流程示意图；

图7为一实施例提供的一种语音处理装置的结构框图；

图8为一实施例提供的一种终端设备的结构示意图；

图9为另一实施例提供的一种终端设备的结构示意图。

具体实施方式

下面结合附图并通过具体实施方式来说明本公开的技术方案。此处所描述的具体实施例仅仅用于解释本公开，而非对本公开的限定。另外，为了便于描述，附图中仅示出了与本公开相关的部分而非全部结构。

终端设备可包括智能手机、平板电脑和其他具有操作系统的设备。终端设备的解锁方式可包括语音验证方式，终端设备上的应用程序(Application，APP)的开启验证也可包括语音验证方式，但是如果用户的声音因为感冒发生一些变化时，可能无法通过语音验证。而此时通过其他方式验证用户的身份，可以将感冒的语音作为验证参考语音，可以提高后续语音验证的准确性。

图1为一实施例提供的一种语音处理方法的流程示意图，该方法可以由语音处理装置执行，该装置可以由软件和/或硬件实现，一般可以集成在终端设备中，也可以集成在其他安装有操作系统的设备中。如图1所示，该方法包括如下步骤。

S1100、获取待验证语音信息，并对所述待验证语音信息进行第一验证。

所述待验证语音信息可为终端设备的用户在语音验证时输出的待验证语音信息，通过终端设备获取该待验证语音信息。语音验证可以是终端设备通过用户输出的待验证语音信息来验证是否为管理员本人的验证方式。待验证语音信息可以是所述用户用于解锁终端设备所输出的语音信息，还可以是所述用户用于解锁终端设备上的应用程序所输出的语音信息。在一实施例中，所述应用程序可以是微信，用户可以通过说出预先设置的文字或数字，根据用户说的语音来判断用户是否通过第一验证。

用户通过输出待验证语音信息，终端设备可以对该待验证语音信息进行分析和验证。在一实施例中，可以通过将待验证语音信息与识别库的预设语音信息进行比对来对待验证语音信息进行验证，预设语音信息可以是终端设备的管理员本人最早使用对应的语音验证时所录制的标准语音信息，通过将待验证语音信息与标准语音信息来进行比对，可以判断该待验证语音信息是否与标准语音信息是否匹配，进而可以判断用户是否是终端设备的管理员本人。

S1110、如果第一验证失败，则启动第二验证；其中，所述第二验证包括除语音验证以外的验证方式。

在一实施例中，所述第二验证可包括指纹验证、密码验证、图形验证、人脸识别验证和虹膜识别验证中的至少一种。如果所述待验证语音信息验证失败了，则可以通过启动第二次验证来验证用户是否为管理员本人。终端设备上的验证方式包括多种方式，可以根据用户设置或系统预设来确定第二次验证的方式，本实施例在此不作限定。

S1120、接收第二验证的验证信息，根据所述验证信息判断所述待验证语音信息是否通过所述第二验证。

所述第二验证的验证信息为用户根据启动的第二验证所输入的验证信息。在一实施例中，如果第二验证为指纹验证，则第二验证的验证信息为用户的指纹信息；如果第二验证为密码验证，则第二验证的验证信息为用户输入的密码信息。根据所述第二验证的验证信息判断所述待验证语音信息是否通过所述第二验证，可以确定用户是否为管理员本人。

S1130、如果所述待验证语音信息通过所述第二验证，则将所述待验证语音信息确定为预存语音信息，并将预存语音信息存储至识别库。

如果待验证语音信息通过所述第二验证，则可以确定用户为管理员本人，相应的所述待验证语音信息也是管理员本人的语音信息，用户可能因为一些自身因素或外部因素导致声音发生变化，可以将所述待验证语音确定为预存语音信息，并将预存语音信息存储至识别库。如果下次用户还是因为同样的自身因素或外部因素导致声音发生变化时，输出的待验证语音信息可以通过验证。

例如，用户因为感冒，声音发生了变化，则可以将感冒的待验证语音信息确定为预存语音信息，并将预存语音信息存储至识别库，如果下次用户再发生感冒时，识别库中已存储有用户在感冒时的预存语音信息，则用户感冒的待验证语音信息也能通过验证。所以通过将所述待验证语音信息确定为预存语音信息并存储至识别库可以提高后续的语音验证的准确性。

在一实施例中，如果管理员本人的亲友需要与管理员本人共同使用终端设备或终端设备上的应用程序，也可以通过本实施例的技术方案，将管理员本人的亲友的待验证语音信息确定为预存语音信息，并将预存语音信息存储至识别库。在一实施例中，可以通过获取他人(例如亲友)的待验证语音信息，而因为他人的待验证语音信息与用户的标准语音信息不同，第一验证肯定会验证失败，相应的启动第二验证。而此时，用户(管理员本人)可以输入第二验证的验证信息，通过第二验证后，则可以将他人的待验证语音信息作为预存语音信息存储至识别库，后续他人便可以通过自己的声音通过终端设备或终端设备上的应用程序的语音验证。通过本实施例可以提高语音识别的使用效率，还可以扩充语音验证的功能。

图2为另一实施例提供的一种语音处理方法的流程示意图。如图2所示，该方法包括如下步骤。

S1200、获取第一待验证语音信息，并对所述第一待验证语音信息进行第一验证。

S1210、如果第一验证失败，则启动第二验证；其中，所述第二验证包括除语音验证以外的验证方式。

S1220、接收第二验证的验证信息，根据所述验证信息判断所述第一待验证语音信息是否通过所述第二验证。

S1230、如果所述第一待验证语音信息通过所述第二验证，则将所述第一待验证语音信息确定为预存语音信息，并将预存语音信息存储至识别库。

上述操作的具体实施方式可以参考上文的相关描述，在此不再赘述。

S1240、获取第二待验证语音信息，根据识别库中的预存语音信息对第二待验证语音信息进行验证；其中，所述预存语音信息为至少一个。

在一实施例中，所述第二待验证语音信息可以是用户在后续使用语音验证时所输出的待验证语音信息。根据识别库中的预存语音信息对第二待验证语音信息进行验证，所述预存语音信息可以是通过上述实施例中所述的确定为预存语音信息的第一待验证语音信息，也可以是识别库中存储的其他预存语音信息。在一实施例，其他预存语音信息可以是终端设备的管理员本人在最早使用或启动语音验证时，所录制的标准语音信息。所以识别库中的预存语音信息为至少一个，即至少包括管理员本人在最早使用或启动语音验证时，所录制的标准语音信息。如果预存语音信息为一个以上，则可包括通过上述实施例中所述的确定为预存语音信息的第一待验证语音信息。

在一实施例中，识别库中的预存语音信息也可以只包括上述实施例中所述的确定为预存语音信息的第一待验证语音信息；而管理员本人在最早使用或启动语音验证时，所录制的标准语音信息可以存储在其他存储模块中。识别库中只要包括上述实施例中所述的确定为预存语音信息的第一待验证语音信息，便可以增加用于语音验证的比对素材，提高语音验证的准确性。

在一实施例中，所述根据识别库中的预存语音信息对第二待验证语音信息进行验证可以通过下述方式进行实施：

S12400、将所述第二待验证语音信息和所述预存语音信息进行比对。

S12410、如果任一所述预存语音信息和所述第二待验证语音信息的比对结果符合预设条件，则确定所述第二待验证语音信息通过验证。

所述将所述第二待验证语音信息和所述预存语音信息进行比对，可以是将第二待验证语音信息的特征信息和预存语音信息的特征信息进行比对，所述预设条件可以是比对误差值小于设定误差值。如果第二待验证语音信息的特征信息和预存语音信息的特征信息之间的误差值小于设定误差值，则可以确定第二待验证语音信息和预存语音信息两个语音信息匹配成功，则可以确定所述第二待验证语音信息通过验证。

在一实施例中，识别库中存储的预存语音信息为一个以上，则只要识别库中任意一个预存语音信息和第二待验证语音信息的比对结果符合预设条件，则可以确定所述第二待验证语音信息通过验证。如果识别库中存储的预存语音信息为一个以上，则识别库中一定包括所述的确定为预存语音信息的第一待验证语音信息，还可包括管理员本人在最早使用或启动语音验证时，所录制的标准语音信息。所以只要任意一个预存语音信息和第二待验证语音信息的比对结果符合预设条件，则可以确定输出第二待验证语音信息的用户为终端设备的管理员本人，用户可以通过语音验证。

通过将所述第二待验证语音信息和所述预存语音信息进行比对，如果任一所述预存语音信息和所述第二待验证语音信息的比对结果符合预设条件，则确定所述第二待验证语音信息通过验证，可以使用户进行语音验证时，将用户输出的第二待验证语音信息与不同的比对素材进行比对，可以提高语音验证的准确性。

图3为另一实施例提供的一种语音处理方法的流程示意图。如图3所示，该方法包括如下步骤。

S1300、获取待验证语音信息，并对所述待验证语音信息进行第一验证。

S1310、如果第一验证失败，则启动第二验证；其中，所述第二验证包括除语音验证以外的验证方式。

S1320、接收第二验证的验证信息，根据所述验证信息判断所述待验证语音信息是否通过所述第二验证。

S1330、将所述待验证语音信息确定为预存语音信息。

S1340、对所述预存语音信息进行预处理，得到所述预存语音信息的特征参数；其中，所述特征参数包括体现声音特质的特征参数。

在一实施例中，预处理过程可包括：对预存语音信息进行分帧处理，以得到至少一个的语音帧。在一实施例中，每个语音帧的帧长可以是20毫秒(ms)至50ms中的任意数值。因为语音信息是不稳定的信号，语音信息中的信号变化一般都非常快速，所以将语音信息进行分帧处理，得到的语音帧具有足够长的周期，语音帧内的信号也不会发生剧烈变化，可以提高后续处理的效率。

分别对每一个语音帧进行提取特征参数的处理。在一实施例中，特征参数可包括质心、均方根和梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient)等参数。质心可以体现语音帧内信号的基本频率带，均方根可以体现语音帧的信号强弱，梅尔倒谱系数可以模拟体现人耳对不同频率语音的感知，可以有效表示人的语音的声音特质。特征参数还可以包括声能值、基音频率和共振峰值等可以体现声音特质的特征参数。

S1350、将所述预存语音信息的特征参数存储至识别库。

因为语音信息的大小一般较大，一段10秒(s)左右的语音信息的大小一般为十几千字节(Kilobyte，KB)，如果直接将预存语音信息存储至识别库，可能会导致占用过多存储空间。而使用预存语音信息一般是在后台进行计算处理，用户无需再次听到预存语音信息，所以可以将所述预存语音信息的特征参数存储至识别库，如此可以保存语音信息中的可以体现声音特质的特征参数，能够实现后续的计算处理，且占用很小的存储空间。

图4为另一实施例提供的一种语音处理方法的流程示意图。如图4所示，该方法包括如下步骤。

S1400、获取第一待验证语音信息，并对所述第一待验证语音信息进行第一验证。

S1410、如果第一验证失败，则启动第二验证；其中，所述第二验证包括除语音验证以外的验证方式。

S1420、接收第二验证的验证信息，根据所述验证信息判断所述第一待验证语音信息是否通过所述第二验证。

S1430、将所述第一待验证语音信息确定为预存语音信息。

S1440、对所述预存语音信息进行预处理，得到所述预存语音信息的特征参数；其中，所述特征参数包括体现声音特质的特征参数。

S1450、将所述预存语音信息的特征参数存储至识别库。

S1460、获取第二待验证语音信息，对所述第二待验证语音信息进行预处理，得到所述第二待验证语音信息的特征参数。

本实施例中，所述特征参数可包括体现声音特质的特征参数。可包括质心、均方根和梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient)等参数。还可以包括声能值、基音频率和共振峰值等可以体现声音特质的特征参数。具体实施方式可以参考上文的相关描述，在此不再赘述。

S1470、计算所述第二待验证语音信息的特征参数与所述预存语音信息的特征参数的欧氏距离。

S1480、如果任一所述预存语音信息的特征参数和所述第二待验证语音信息的特征参数的欧氏距离小于预设阈值，则确定所述第二待验证语音信息通过验证。

本实施例中，所述欧氏距离(Euclidean Distance)指的是在一个N维空间中的两点之间的真实距离或两点形成的向量的自然长度，N可以是大于0的任意自然数。在一实施例中，如果特征参数包括质心、均方根和梅尔频率倒谱系数，则在质心、均方根和梅尔频率倒谱系数形成的三维空间中，计算第二待验证语音信息的(a1，b1，c1)和预存语音信息的(a2，b2，c2)两点形成的向量的自然长度即欧氏距离；其中，a1和a2为质心，b1和b2为均方根，c1和c2为梅尔频率倒谱系数。如果预存语音信息的特征参数和第二待验证语音信息的特征参数的欧氏距离小于预设阈值，则可以确定该预存语音信息和该第二待验证语音信息比较接近，相互匹配，可以确定所述第二待验证语音信息通过验证。

通过计算所述第二待验证语音信息的特征参数与所述预存语音信息的特征参数的欧氏距离，如果任一所述预存语音信息的特征参数和所述第二待验证语音信息的特征参数的欧氏距离小于预设阈值，则确定所述第二待验证语音信息通过验证，可以比较两个语音信息中的体现声音特质的特征参数，能够有效提高比对的效率。

图5为另一实施例提供的一种语音处理方法的流程示意图。如图5所示，该方法包括如下步骤。

S1500、获取第一待验证语音信息，并对所述第一待验证语音信息进行第一验证。

S1510、如果第一验证失败，则启动第二验证；其中，所述第二验证包括除语音验证以外的验证方式。

S1520、接收第二验证的验证信息，根据所述验证信息判断所述第一待验证语音信息是否通过所述第二验证。

S1530、如果所述第一待验证语音信息通过所述第二验证，获取与第一待验证语音信息对应的失败类别信息。

在一实施例中，所述失败类别信息可以是系统预存的多个类别信息，获取与第一待验证语音信息对应的失败类别信息可以是将系统预存的多个类别信息发送给用户，并根据用户的选择确定多个类别信息中至少一个类别信息为失败类别信息。失败类别信息还可以是用户输入的自定义内容。在一实施例中，系统预存的多个类别信息可包括感冒、声音沙哑和喉咙发炎等，用户也可以通过输入自定义内容“感冒了”、“声音哑了”和“亲友”来作为失败类别信息。

S1540、将所述第一待验证语音信息确定为预存语音信息，并将所述预存语音信息和所述失败类别信息存储至识别库。

如果用户输入的第一待验证语音信息未通过操作S1500中的第一验证，但是用户输入的第二验证的验证信息通过了第二验证，则可以确定验证失败的第一待验证语音信息为管理员本人或获得管理员授权，可以通过获取第一待验证语音信息对应的失败类别信息，来确定第一待验证语音信息验证失败的原因。并将失败类别信息以及确定为预存语音信息的第一待验证语音信息存储至识别库，可以给后续用户进行语音验证时，为用户提供相应的服务信息。

S1550、将所述第二待验证语音信息和所述预存语音信息进行比对。

S1560、如果任一所述预存语音信息和所述第二待验证语音信息的比对结果符合预设条件，则确定所述第二待验证语音信息通过验证。

S1570、从所述识别库中获取与目标语音信息对应的失败类别信息，所述目标语音信息为符合预设条件的比对结果对应的预设语音信息。

如果第二待验证语音信息验证通过，则确定与第二待验证语音信息比对结果符合预设条件的目标语音信息对应的失败类别信息，可以确定用户在输出第二待验证语音信息时的状态。在一实施例中，如果用户输入的第二待验证语音信息和目标语音信息比对结果符合预设条件，且该目标语音信息对应的失败类别信息为感冒，则可以确定用户此时很可能感冒了；可以根据获取到的失败类别信息为用户提供相应的服务信息，例如可以在获取到失败类别信息为感冒时，推送温馨提醒信息“多喝热水”等信息给用户。还可以将失败类别信息传输至终端设备上的健康类应用程序，健康类应用程序可以根据失败类别信息记录用户的健康状态，并为用户提供相应的服务信息，可以使终端设备更智能化。

获取到失败类别信息后的操作可以根据实际应用的需求而设定，本实施例在此不作限定。

图6为另一实施例提供的一种语音处理方法的流程示意图。如图6所示，该方法包括如下步骤。

S1600、获取第一待验证语音信息，并对所述第一待验证语音信息进行第一验证。

S1610、如果第一验证失败，则启动第二验证；其中，所述第二验证包括除语音验证以外的验证方式。

S1620、接收第二验证的验证信息，根据所述验证信息判断所述第一待验证语音信息是否通过所述第二验证。

S1630、在所述第一待验证语音信息通过所述第二验证之后，获取与第一待验证语音信息对应的失败类别信息。

S1640、将所述第一待验证语音信息和所述失败类别信息发送至后台服务器。

在一实施例中，还可以将第一待验证语音信息和所述失败类别信息上传至后台服务器，后台研发工作人员可以根据失败类别信息对第一待验证语音信息进行分析和研发，可以辅助研发人员关于失败类别信息对应的语音研发和管理。

图7为一实施例提供的一种语音处理装置的结构框图，该装置可以执行语音处理方法，如图7所示，该装置包括：第一语音验证模块210，设置为获取第一待验证语音信息，并对所述第一待验证语音信息进行第一验证；验证启动模块211，设置为在第一验证失败时，启动第二验证；其中，所述第二验证包括除语音验证以外的验证方式；验证模块212，设置为接收第二验证的验证信息，根据所述验证信息判断所述第一待验证语音信息是否通过所述第二验证；语音存储模块213，设置为在所述第一待验证语音信息通过所述第二验证时，将所述第一待验证语音信息确定为预存语音信息，并将所述预存语音信息存储至识别库。

通过本实施例提供的技术方案，可以在用户的语音信息验证失败时，通过判断用户身份决定是否将验证失败的语音信息存入识别库，可以在后续用户再次使用语音验证时候，提高语音验证的准确性。

在一实施例中，上述装置还包括：第二语音验证模块，设置为在将所述第一待验证语音信息确定为预存语音信息，并将所述预存语音信息存储至识别库之后，获取第二待验证语音信息，根据所述识别库中的预存语音信息对所述第二待验证语音信息进行验证；其中，所述预存语音信息为至少一个。

在一实施例中，验证模块包括：比对单元，设置为将所述第二待验证语音信息和所述预存语音信息进行比对；验证单元，设置为在任一所述预存语音信息和所述第二待验证语音信息的比对结果符合预设条件时，确定所述第二待验证语音信息通过验证。

在一实施例中，语音存储模块包括：确定单元，设置为将所述第一待验证语音信息确定为预存语音信息；预处理单元，设置为对所述预存语音信息进行预处理，得到所述预存语音信息的特征参数；其中，所述特征参数包括体现声音特质的特征参数；存储单元，设置为将所述预存语音信息的特征参数存储至识别库。

在一实施例中，比对单元包括：预处理子单元，设置为对所述第二待验证语音信息进行预处理，得到所述第二待验证语音信息的特征参数；计算子单元，设置为计算所述第二待验证语音信息的特征参数与所述预存语音信息的特征参数的欧氏距离；验证单元是设置为：在任一所述预存语音信息的特征参数和所述第二待验证语音信息的特征参数的欧氏距离小于预设阈值时，确定所述第二待验证语音信息通过验证。

在一实施例中，上述装置还包括：类别信息获取模块，设置为在第二验证的验证信息通过所述第二验证之后，获取与第一待验证语音信息对应的失败类别信息；语音存储模块是设置为：将所述第一待验证语音信息确定为预存语音信息，并所述预存语音信息和所述失败类别信息存储至识别库；上述装置还包括：类别信息确定模块，设置为在确定第二待验证语音信息通过验证之后，从所述识别库中获取与目标语音信息对应的失败类别信息，所述目标语音信息为符合预设条件的比对结果对应的预设语音信息。

在一实施例中，上述装置还包括：类别信息获取模块，设置为在第一待验证语音信息通过所述第二验证之后，获取与第一待验证语音信息对应的失败类别信息；后台发送模块，设置为将所述第一待验证语音信息和所述失败类别信息发送至后台服务器。

在一实施例中，所述第二验证包括指纹验证、密码验证、图形验证、人脸识别验证和虹膜识别验证中的至少一种。

在一实施例中，所述装置还包括：还包括：信息推送模块，设置为在从所述识别库中获取与目标语音信息对应的失败类别信息之后，根据所述目标语音信息对应的失败类别信息推送与所述失败类别信息对应的服务信息。

本实施例所提供的一种包含计算机可执行指令的存储介质，计算机可执行指令不限于如上所述的语音处理操作，还可以执行本公开任意实施例所提供的语音处理方法中的相关操作。

本实施例还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行语音处理方法，该方法包括：获取待验证语音信息，并对所述待验证语音信息进行第一验证；如果第一验证失败，则启动第二验证；其中，所述第二验证包括除语音验证以外的验证方式；接收第二验证的验证信息，根据所述验证信息判断所述待验证语音信息是否通过所述第二验证；如果所述待验证语音信息通过所述第二验证，则将所述待验证语音信息确定为预存语音信息，并将预存语音信息存储至识别库。

存储介质——任何的一种类型的存储器设备或存储设备。术语“存储介质”旨在包括：安装介质，例如紧凑型光盘只读储存器(Compact Disc Read-Only Memory，CD-ROM)、软盘或磁带装置；计算机系统存储器或随机存取存储器，诸如动态随机存取存储器(Dynamic Random Access Memory，DRAM)、双倍数据速率随机存取存储器(Double Data Rate Random Access Memory，DDR RAM)、静态随机存取存储器(Static Random Access Memory，SRAM)、扩展数据输出随机存取存储器(Extended Data Output Random Access Memory，EDO RAM)，兰巴斯(Rambus)随机存取存储器(Random Access Memory，RAM)等；非易失性存储器，诸如闪存、磁介质(例如硬盘或光存储)；寄存器或其它相似类型的存储器元件等。存储介质可以还包括其它类型的存储器或其组合。另外，存储介质可以位于程序在其中被执行的第一计算机系统中，或者可以位于不同的第二计算机系统中，第二计算机系统通过网络(诸如因特网)连接到第一计算机系统。第二计算机系统可以提供程序指令给第一计算机用于执行。术语“存储介质”可以包括可以驻留在不同位置中(例如在通过网络连接的不同计算机系统中)的两个或更多存储介质。存储介质可以存储可由一个或多个处理器执行的程序指令(例如程序指令实现为计算机程序)。

本实施例提供了一种终端设备，该终端设备中可集成公开实施例提供的语音处理装置。

图8为一实施例提供的一种终端设备的结构示意图，本实施例提供了一种终端设备，包括存储器31，处理器32及存储在存储器31上并可在处理器运行的计算机程序，所述处理器执行所述计算机程序时实现上述实施例所述的语音处理方法。本实施例提供的终端设备，可以在用户的语音信息验证失败时，通过判断用户身份决定是否将验证失败的语音信息存入识别库，可以在后续用户再次使用语音验证时候，提高语音验证的准确性。

图9为另一实施例提供的一种终端设备的结构示意图。如图9所示，该终端设备可以包括：壳体(图9中未示出)、触摸屏(图9中未示出)、触摸按键(图9中未示出)、存储器301、中央处理器(Central Processing Unit，CPU)302(又称处理器，以下简称CPU)、电路板(图9中未示出)和电源电路(图9中未示出)。所述电路板安置在所述壳体围成的空间内部；所述CPU302和所述存储器301设置在所述电路板上；所述电源电路，设置为为所述终端设备的至少一个电路或器件供电；所述存储器301，设置为存储可执行程序代码；所述CPU302通过读取所述存储器301中存储的可执行程序代码来运行与所述可执行程序代码对应的计算机程序，以实现以下步骤：获取待验证语音信息，并对所述待验证语音信息进行第一验证；如果第一验证失败，则启动第二验证；其中，所述第二验证包括除语音验证以外的验证方式；接收第二验证的验证信息，根据所述验证信息判断所述待验证语音信息是否通过所述第二验证；如果所述待验证语音信息通过所述第二验证，则将所述待验证语音信息确定为预存语音信息，并将预存语音信息存储至识别库。

所述终端设备还包括：外设接口303、射频(Radio Frequency，RF)电路305、音频电路306、扬声器311、电源管理芯片308、输入/输出(I/O)子系统309、触摸屏312、其他输入/控制设备310以及外部端口304，这些部件通过一个或多个通信总线或信号线307来通信。

图9示出的终端设备300仅仅是终端设备的一个范例，并且终端设备300可以具有比图9中所示出的更多的或者更少的部件，可以组合两个或更多的部件，或者可以具有不同的部件配置。图9中所示出的多种部件可以在包括一个或多个信号处理和/或专用集成电路在内的硬件、软件、或硬件和软件的组合中实现。

下面就本实施例提供的用于实现语音处理的终端设备进行描述，该终端设备以手机为例。

存储器301，所述存储器301可以被CPU302以及外设接口303等访问，所述存储器301可以包括高速随机存取存储器，还可以包括非易失性存储器，例如一个或多个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

外设接口303，所述外设接口303可以将设备的输入和输出外设连接到CPU302和存储器301。

I/O子系统309，所述I/O子系统309可以将设备上的输入外设和输出外设，例如触摸屏312和其他输入/控制设备310，连接到外设接口303。I/O子系统309可以包括显示控制器3091和设置为控制其他输入/控制设备310的一个或多个输入控制器3092。其中，一个或多个输入控制器3092从其他输入/控制设备310接收电信号或者向其他输入/控制设备310发送电信号，其他输入/控制设备310可以包括物理按钮(按压按钮以及摇臂按钮等)、拨号盘、滑动开关、操纵杆以及点击滚轮。在一实施例中，输入控制器3092可以与以下任一个连接：键盘、红外端口、USB接口以及诸如鼠标的指示设备。

触摸屏312，所述触摸屏312是用户终端设备与用户之间的输入接口和输出接口，将可视输出显示给用户，可视输出可以包括图形、文本、图标以及视频等。

I/O子系统309中的显示控制器3091从触摸屏312接收电信号或者向触摸屏312发送电信号。触摸屏312检测触摸屏312上的接触，显示控制器3091将检测到的接触转换为与显示在触摸屏312上的用户界面对象的交互，即实现人机交互，显示在触摸屏312上的用户界面对象可以是运行游戏的图标、联网到相应网络的图标等。本实施例中，设备还可以包括光鼠，光鼠是不显示可视输出的触摸敏感表面，或者是由触摸屏形成的触摸敏感表面的延伸。

RF电路305，主要设置为建立手机与无线网络(即网络侧)的通信，实现手机与无线网络的数据接收和发送。例如收发短信息以及电子邮件等。本实施例中，RF电路305接收并发送RF信号，RF信号也称为电磁信号，RF电路305将电信号转换为电磁信号或将电磁信号转换为电信号，并且通过该电磁信号与通信网络以及其他设备进行通信。RF电路305可以包括用于执行这些功能的已知电路，RF电路305包括但不限于天线系统、RF收发机、一个或多个放大器、调谐器、一个或多个振荡器、数字信号处理器、编译码器(COder-DECoder，CODEC)芯片组、用户标识模块(Subscriber Identity Module，SIM)等等。

音频电路306，主要设置为从外设接口303接收音频数据，将该音频数据转换为电信号，并且将该电信号发送给扬声器311。

扬声器311，设置为将手机通过RF电路305从无线网络接收的语音信号，还原为声音并向用户播放该声音。

电源管理芯片308，设置为为CPU302、I/O子系统及外设接口所连接的硬件进行供电及电源管理。

本申请实施例提供的终端设备，可以提高语音验证的准确性。

上述实施例中提供的语音处理装置、存储介质及终端设备可执行本公开任意实施例所提供的语音处理方法，具备执行该方法相应的功能模块和有益效果。未在上述实施例中描述的技术细节，可参见本公开任意实施例所提供的语音处理方法。

Claims

一种语音处理方法，包括：

获取第一待验证语音信息，并对所述第一待验证语音信息进行第一验证；

如果所述第一验证失败，则启动第二验证；其中，所述第二验证包括除语音验证以外的验证方式；

接收所述第二验证的验证信息，根据所述验证信息判断所述第一待验证语音信息是否通过所述第二验证；

如果所述第一待验证语音信息通过所述第二验证，则将所述第一待验证语音信息确定为预存语音信息，并将所述预存语音信息存储至识别库。
如权利要求1所述的方法，其中，所述将所述第一待验证语音信息确定为预存语音信息，并将所述预存语音信息存储至识别库之后，还包括：

获取第二待验证语音信息，根据所述识别库中的预存语音信息对所述第二待验证语音信息进行验证；其中，所述预存语音信息为至少一个。
如权利要求2所述的方法，其中，所述根据所述识别库中的语音信息对第二待验证语音信息进行验证包括：

将所述第二待验证语音信息和所述预存语音信息进行比对；

如果任一所述预存语音信息和所述第二待验证语音信息的比对结果符合预设条件，则确定所述第二语音信息通过验证。
如权利要求3所述的方法，其中，所述将所述第一待验证语音信息确定为预存语音信息，并将所述预存语音信息存储至识别库包括：

将所述第一待验证语音信息确定为预存语音信息；

对所述预存语音信息进行预处理，得到所述预存语音信息的特征参数；其中，所述特征参数包括体现声音特质的特征参数；

将所述预存语音信息的特征参数存储至识别库。
如权利要求4所述的方法，其中，所述将所述第二待验证语音信息和所述预存语音信息进行比对包括：

对所述第二待验证语音信息进行预处理，得到所述第二待验证语音信息的特征参数；

计算所述第二待验证语音信息的特征参数与所述预存语音信息的特征参数的欧氏距离；

所述如果任一所述预存语音信息和所述第二待验证语音信息的比对结果符合预设条件，则确定所述第二待验证语音信息通过验证，包括：

如果任一所述预存语音信息的特征参数和所述第二待验证语音信息的特征参数的欧氏距离小于预设阈值，则确定所述第二语音信息通过验证。
如权利要求3所述的方法，在所述第一待验证语音信息通过所述第二验证之后，还包括：

获取与所述第一待验证语音信息对应的失败类别信息；

所述将所述第一待验证语音信息确定为预存语音信息，并将所述预存语音信息存储至识别库包括：

将所述第一待验证语音信息确定为预存语音信息，并将所述预存语音信息和所述失败类别信息存储至识别库；

在确定第二待验证语音信息通过验证之后，还包括：

从所述识别库中获取与目标语音信息对应的失败类别信息，其中，所述目标语音信息为符合预设条件的比对结果对应的预设语音信息。
如权利要求1至5任一项所述的方法，在所述第一待验证语音信息通过所述第二验证之后，还包括：

获取与所述第一待验证语音信息对应的失败类别信息；

将所述第一待验证语音信息和所述失败类别信息发送至后台服务器。
根据权利要求1-7任一项所述的方法，其中，所述第二验证包括指纹验证、密码验证、图形验证、人脸识别验证和虹膜识别验证中的至少一种。
根据权利要求6所述的方法，其中，在所述从所述识别库中获取与目标语音信息对应的失败类别信息之后，还包括：

根据所述目标语音信息对应的失败类别信息推送与所述失败类别信息对应的服务信息。
一种语音处理装置，包括：

第一语音验证模块，设置为获取第一待验证语音信息，并对所述第一待验证语音信息进行第一验证；

验证启动模块，设置为在所述第一验证失败时，启动第二验证；其中，所述第二验证包括除语音验证以外的验证方式；

验证模块，设置为接收所述第二验证的验证信息，根据所述验证信息判断所述第一待验证语音信息是否通过所述第二验证；

语音存储模块，设置为在所述第一待验证语音信息通过所述第二验证时，将所述第一待验证语音信息确定为预存语音信息，并将所述预存语音信息存储至识别库。
根据权利要求10所述的装置，还包括：第二语音验证模块，设置为在所述将所述第一待验证语音信息确定为预存语音信息，并将所述预存语音信息存储至识别库之后：获取第二待验证语音信息，根据所述识别库中的预存语音信息对所述第二待验证语音信息进行验证；其中，所述预存语音信息为至少一个。
根据权利要求11所述的装置，其中，所述验证模块包括：比对单元，设置为将所述第二待验证语音信息和所述预存语音信息进行比对；验证单元，设置为如果任一所述预存语音信息和所述第二待验证语音信息的比对结果符合预设条件，则确定所述第二语音信息通过验证。
根据权利要求12所述的装置，其中，所述语音存储模块包括：确定单元，设置为将所述第一待验证语音信息确定为预存语音信息；预处理单元，设置为对所述预存语音信息进行预处理，得到所述预存语音信息的特征参数；其中，所述特征参数包括体现声音特质的特征参数；存储单元，设置为将所述预存语音信息的特征参数存储至识别库。
根据权利要求13所述的装置，其中，所述比对单元包括：预处理子单元，设置为对所述第二待验证语音信息进行预处理，得到所述第二待验证语音信息的特征参数；计算子单元，设置为计算所述第二待验证语音信息的特征参数与所述预存语音信息的特征参数的欧氏距离；

所述验证单元是设置为：如果任一所述预存语音信息的特征参数和所述第二待验证语音信息的特征参数的欧氏距离小于预设阈值，则确定所述第二语音信息通过验证。
根据权利要求12所述的装置，还包括：类别信息获取模块，设置为在所述第一待验证语音信息通过所述第二验证之后，获取与所述第一待验证语音信息对应的失败类别信息；

语音存储模块是设置为将所述第一待验证语音信息确定为预存语音信息，并将所述预存语音信息和所述失败类别信息存储至识别库；

所述装置还包括：类别信息确定模块，设置为在确定第二待验证语音信息通过验证之后，还包括：从所述识别库中获取与目标语音信息对应的失败类别信息，其中，所述目标语音信息为符合预设条件的比对结果对应的预设语音信息。
根据权利要求10-14任一项所述的装置，还包括：类别信息获取模块，设置为在所述第一待验证语音信息通过所述第二验证之后，获取与所述第一待验证语音信息对应的失败类别信息；后台发送模块，设置为将所述第一待验证语音信息和所述失败类别信息发送至后台服务器。
根据权利要求10-16任一项所述的装置，其中，所述第二验证包括指纹验证、密码验证、图形验证、人脸识别验证和虹膜识别验证中的至少一种。
根据权利要求15所述的装置，还包括：信息推送模块，设置为：在所述从所述识别库中获取与目标语音信息对应的失败类别信息之后，根据所述目标语音信息对应的失败类别信息推送与所述失败类别信息对应的服务信息。
一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-9中任一项所述的语音处理方法。
一种终端设备，包括存储器，处理器及存储在存储器上并可在处理器运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1-9任一项所述的语音处理方法。