WO2018149209A1

WO2018149209A1 - 语音识别方法、电子设备以及计算机存储介质

Info

Publication number: WO2018149209A1
Application number: PCT/CN2017/113154
Authority: WO
Inventors: 万秋生
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2017-02-15
Filing date: 2017-11-27
Publication date: 2018-08-23
Also published as: US20190295534A1; EP3584786B1; EP3584786A1; US20210249000A1; JP6771805B2; US11562736B2; CN108447471A; KR20190082900A; CN108447471B; JP2020505643A; US11043211B2; KR102222317B1; EP3584786A4

Abstract

一种语音识别方法，包括：获取采集的待识别语音信息，并确定待识别语音信息的语意信息（S310）；在语意信息不满足预设规则时，对待识别语音信息进行分段处理，获得各语音片段，并提取各语音片段的声纹信息（S320）；在本地声纹数据库中存在尚未匹配过的声纹信息时，从本地声纹数据库中获取一个尚未匹配过的声纹信息作为待匹配声纹信息（S330）；对各语音片段的声纹信息与待匹配声纹信息进行匹配，从各语音片段的声纹信息中确定出与待匹配声纹信息匹配成功的筛选后声纹信息（S340）；将各筛选后声纹信息对应的语音片段进行组合，获得组合语音信息，并确定组合语音信息的组合语意信息（S350）；在组合语意信息满足预设规则时，将组合语意信息作为语音识别结果（S360）。

Description

语音识别方法、电子设备以及计算机存储介质

本申请要求于2017年02月15曰提交中国专利局，申请号为2017100821115，发明名称为“语音识别方法及语音识别装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及计算机信息处理技术领域，特别是涉及一种语音识别方法、电子设备以及计算机存储介质。

背景技术

随着智能技术的发展，进行语音识别并根据识别的语音进行控制，已成为智能技术应用中的一项重要内容，各种智能产品中应用语音识别技术以实现智能化控制，随着智能产品的增加以及对语音识别的准确度的要求越来越高，各种语音识别技术层出不穷。

目前常用的语音识别方式是通过提取用户发出的待识别语音信息的特征，再根据识别算法对该用户发出的待识别语音信息进行识别。然而，在多人讲话的场合(如车内)使用语音识别功能，捕获到的待识别语音信息可能包含多人的说话内容，其中只有一个人的待识别语音信息是有效的，存在他人发出的噪音，无法识别出正确的语意，导致语音识别准确性不足。

发明内容

根据本申请的各种实施例，提供一种语音识别方法、电子设备以及计算机存储介质。

一种语音识别方法，包括以下步骤：

获取采集的待识别语音信息，并确定所述待识别语音信息的语意信息；

在所述语意信息不满足预设规则时，对所述待识别语音信息进行分段处理，获得各语音片段，并提取各所述语音片段的声纹信息；

在本地声纹数据库中存在尚未匹配过的声纹信息时，从所述本地声纹数据库中获取一个尚未匹配过的声纹信息作为待匹配声纹信息；

对各所述语音片段的声纹信息与所述待匹配声纹信息进行匹配，从各所述语音片段的声纹信息中确定出与所述待匹配声纹信息匹配成功的筛选后声纹信息；

将各所述筛选后声纹信息对应的语音片段进行组合，获得组合语音信息，并确定所述组合语音信息的组合语意信息；

在所述组合语意信息满足所述预设规则时，将所述组合语意信息作为语音识别结果。

一种电子设备，包括存储器和处理器，所述存储器中储存有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行以下步骤：

一种计算机存储介质，所述计算机存储介质上存储有计算机程序，所述计算机程序被处理器执行时，实现上述任意一项所述表情处理方法的步骤。

本申请的一个或多个实施例的细节在下面的附图和描述中提出。本发明的其它特征、目的和优点将从说明书、附图以及权利要求书变得明显。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为一个实施例语音识别方法的应用环境示意图；

图2为一个实施例中电子设备的内部结构示意图；

图3为一个实施例中语音识别方法的流程示意图；

图4为另一个实施例的语音识别方法的流程示意图；

图5为一具体实施例的语音识别方法的流程示意图；

图6为一个实施例中电子设备的结构框图；

图7为另一个实施例中电子设备的结构框图；

图8为另一个实施例中电子设备中存储模块的结构框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

图1为一个实施例中语音识别方法的应用环境示意图。参照图1，该语音识别方法应用于语音识别系统。该语音识别系统包括终端10和服务器20，终端10与服务器20可以通过网络进行通信。终端10可对语音信息进行识别获得语意信息，再对语意信息进行进一步处理确定语音识别结果，也可将获取的语音信息通过网络上传至对应的服务器20，服务器20可对终端10上传的语音信息进行识别，并可将识别结果通过网络发送至终端10，终端10将接收的识别结果作为语意信息，并根据接收的语意信息确定语音识别结果。终端10根据语音识别结果可生成相应的指令以执行后续的相关操作，实现语音智能化控制。该终端10可以是任何一种能够实现智能输入输出以及识别语音的设备，例如，台式终端或移动终端，移动终端可以是智能手机、平板电脑、车载电脑、穿戴式智能设备等。该服务器20可以是接收语音信息并进行语音识别的平台所在的服务器，服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

如图2所示，在其中一个实施例中，提供了一种电子设备，可以是图1中的终端10。该电子设备包括通过系统总线连接的处理器、非易失性存储介质、内存储器和通信接口。其中，该电子设备的非易失性存储介质存储有操作系统、本地声纹数据库和计算机可读指令，本地声纹数据库中存储声纹信息，该计算机可读指令可用于实现一种语音识别方法。该电子设备的处理器用于提供计算和控制能力，支撑整个电子设备的运行。该电子设备的内存储器中可储存有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行一种语音识别方法。通信接口用于与服务器20通信。本领域技术人员可以理解，图2中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

如图3所示，在其中一个实施例中，提供了一种语音识别方法，本实施例以该方法应用于上述图1终端10来举例说明。该方法具体包括如下步骤S310至步骤S360：

S310：获取采集的待识别语音信息，并确定待识别语音信息的语意信息。

在本实施例中，语音信息可为用户通过终端的语音输入装置输入的音频信息，即通过语音输入装置可采集到用户的语音信息，在对待识别语音信息采集完成后，可获取采集的待识别语音信息，其中，语音输入装置可包括但不限于麦克风。待识别语音信息是指需要对其进行识别获得语意信息的语音信息，语意信息可为文字信息，对待识别语音信息进行语音识别获得对应的语意信息，即可确定待识别语音信息的语意信息，也就是可确定输入待识别语音信息的用户表达出的语意。

S320：在语意信息不满足预设规则时，对待识别语音信息进行分段处理，获得各语音片段，并提取各语音片段的声纹信息。

在确定待识别语音信息的语意信息之后，需要判断其是否满足预设规则，在本实施例中，预设规则可为预先设置的对语意信息的要求，也就是说，语意信息不满足预设规则时，表示该语音信息不满足对其的要求，则认为其是不准确。比如，由于是对音频进行识别，一般情况下，用户在通过音频准确表达其想表达的内容时，对应的语音信息应满足人说话时的语法要求，从而，预先规则可为语意信息符合预设语法规则。

另一方面，实现本实施例的语音识别方法的终端可以包括多种工作模式，这些工作模式可以包括但不限于导航模式、音乐模式、广播模式和节目模式等，在不同的工作模式下工作，终端可满足不同的用户需求，且每种工作模式有其对应的词库，词库中包括了工作模式对应可能用到的词汇，在确定语意信息后，还可判断语意信息分词后得到的关键词是否在词库中，若在，则表示用户的待识别语音信息的语意信息是在终端的工作模式下可能用到的词汇。

据此，在本实施例中，预设规则可以为语意信息符合预设语法规则且语意信息在单个词库中，语意信息不满足预设规则时，认为对待识别语音信息识别获得的语意信息不能被终端准确识别，从而无法转变成对应的指令以执行相应的操作。另一方面，预设规则也可以为语意信息符合预设语法规则、语意信息在单个词库中且语音信息有对应的指令，当语意信息符合预设语法规则且语音信息在单个词库中，但是语意信息不能转化为有效指令，即该语意信息没有对应的指令时，认为其还是不符合预设规则。

在一具体应用示例中，比如，确定的语意信息为“我要你好播放音乐”，用户A对应说的是“我要播放音乐”，然而在其说话过程中，用户B在用户A的“我要”后面插入了“你好”，虽然“播放音乐”是在音乐模式对应词库中，但是整个句子的语法不符合人类正常语法，从而可认为其不满足预设规则的。又比如，语意信息为“你好”，既符合预设语法规则，又在词库中，但是其实质上是一种问候语，而非一种控制语，终端没有与“你好”对应的指令，即无法生成执行相应操作的指令，也可以认为其不满足预设规则。

在判定语意信息不满足预设规则时，认为其不准确，为了提高识别准确性，需要对待识别语音信息进行分段处理，以获得各语音片段，并提取各语音片段的声纹信息。由于每个人的声纹信息是不同的，同一个人的不同语音信息对应相同的声纹信息，例如，用户A说出不同的语音信息，但是为同一用户A说出的，其声纹信息是相同的。为了提高准确度，可通过声纹信息的判断提出单人的语音信息。

S330：在本地声纹数据库中存在尚未匹配过的声纹信息时，从本地声纹数据库中获取一个尚未匹配过的声纹信息作为待匹配声纹信息。

本地声纹数据库可存储声纹信息，在本地声纹数据库中存储的声纹信息可为与终端进行过语音交互的用户的声纹信息，且其对应的语意信息至少有一次满足预设规则。将各语音片段对应的语意信息与本地声纹数据库中存储的尚未匹配过的声纹信息进行匹配时，首先需要从本地声纹数据库中获取一个尚未匹配过的声纹信息作为待匹配声纹信息，即进行各语音片段的声纹信息与本地声纹数据库中声纹信息匹配时，每次将本地声纹数据库中单个的待匹配声纹信息与各语音片段的声纹信息进行匹配，这样即可筛选出单个用户的语音信息。

S340：对各语音片段的声纹信息与待匹配声纹信息进行匹配，从各语音片段的声纹信息中确定出与待匹配声纹信息匹配成功的筛选后声纹信息。

语音信息中可能包括多个用户的语音，从本地声纹数据库中选择出一个尚未匹配过的待匹配声纹信息后，即选择一个用户的声纹信息后，将各语音片段的声纹信息与该待匹配声纹信息进行匹配，相同用户的声纹信息相同，各语音片段的声纹信息中与待匹配声纹信息匹配成功的声纹信息是同一用户的声纹信息，即筛选后声纹信息即为待匹配声纹信息对应的用户的声纹信息。

S350：将各筛选后声纹信息对应的语音片段进行组合，获得组合语音信息，并确定组合语音信息的组合语意信息。

由于各筛选后声纹信息是来自同一用户，从而，可将各筛选后声纹信息对应的语音片段进行组合，即将同一用户的语音片段进行组合，得到的组合语音信息即是同一用户的语音，是同一用户的语音数据，然后，确定组合语音信息的组合语意信息，组合语意信息即为该用户的待识别语音信息对应的准确表达的语意。

S360：在组合语意信息满足预设规则时，将组合语意信息作为语音识别结果。

获得组合语意信息后，虽然组合语意信息为上述用户的待识别语音信息对应的准确表达的语意，但是语音信息可能为多个用户的语音，有可能通过上述步骤获得的组合语音信息的组合语音信息是不满足预设规则的，为了进一步提高准确性，需要对组合语音信息是否满足预设规则进行判断，当满足时，进一步说明该语意信息是准确的，此时，可将组合语意信息作为语音识别结果，实现语音识别目的。后续可根据语音识别结果生成相应的指令，根据指令可执行相应的操作。比如，语意信息为“我要你好播放音乐”，如果选出的待匹配声纹信息为用户A的声纹信息，语音片段“我要”和“播放音乐”的声纹信息与用户A的声纹信息匹配成功，即筛选后声纹信息为语音片段“我要”和“播放音乐”的声纹信息，则可将语音片段“我要”和“播放音乐”组合作为最终的组合语音信息，确定组合语音信息为“我要播放音乐”，既符合预设语法要求又在词库中，且是一个需要执行播放音乐操作的语意信息，有对应的指令，即根据该指令可执行播放音乐的操作，认为该组合语意信息是满足预设规则的，将“我要播放音乐”作为语音识别结果。后续可生成与之对应的播放音乐的指令以执行音乐。

上述语音识别方法，首先确定待识别语音信息的语意信息，在语意信息不满足预设规则时，表示此时识别的语意信息可能不准确，此时，将待识别语音信息进行分段，获得各语音片段，并提取各语音片段的声纹信息，在本地声纹数据库中存在尚未匹配过的声纹信息时，从本地声纹数据库中获取一个尚未匹配过的声纹信息作为待匹配声纹信息，为后续声纹匹配提供依据，即提供进行声纹匹配的单个用户的待匹配声纹信息，然后，对各语音片段的声纹信息与待匹配声纹信息进行匹配，从各语音片段的声纹信息中确定出与待匹配声纹信息匹配成功的筛选后声纹信息，即筛选出与上述待匹配声纹信息匹配的单个用户的声纹信息，并将各筛选后声纹信息对应的语音片段进行组合，获得组合语音信息，并对组合语音信息进行识别，获得组合语意信息，从而获得单个用户表达的语意，为了提高识别准确性，还需对组合语意信息是否满足预设规则进行判断，满足时表示已获得了准确识别的语意，即准确获得了用户想表达的语意，此时将组合语意信息作为语音识别结果，提高语音识别准确度。

在其中一个实施例中，上述语音识别方法，还包括步骤：在组合语意信息不满足预设规则时，返回在本地声纹数据库中存在尚未匹配过的声纹信息时，从本地声纹数据库中获取一个尚未匹配过的声纹信息作为待匹配声纹信息的步骤。

在组合语意信息不满足预设规则时，表示该组合语音信息不满足对其的要求，则认为其不准确。需对下一个用户的声纹信息进行匹配。比如，语意信息为“我要你好播放音乐”，如果选出的待匹配声纹信息为用户B的声纹信息，语音片段“你好”的声纹信息与用户B的声纹信息匹配成功，即筛选后声纹信息为语音片段“你好”的声纹信息，则可将语音片段“你好”作为最终的组合语音信息，确定组合语音信息为“你好”，虽然是符合预设语法要求且在词库中，但是其没有对应的指令，即不能生成执行操作的指令，因此也可以认为其不满足预设规则，此时需要返回在本地声纹数据库中存在尚未匹配过的声纹信息时，从本地声纹数据库中获取一个尚未匹配过的声纹信息作为待匹配声纹信息的步骤，获取下一个未匹配过的声纹信息作为待匹配声纹信息，继续进行声纹匹配过程。

如图4所示，在其中一个实施例中，上述语音识别方法，还包括步骤：

S370：在语意信息满足预设规则时，将语意信息作为语音识别结果。

在语意信息满足预设规则时，表示该语音信息满足对其的要求，则认为其是准确，将其作为语音识别结果，从而，可获得较为准确的语音识别结果，提高语音识别准确性。

请继续参阅图4，在其中一个实施例中，在语意信息满足预设规则时，将语意信息作为语音识别结果之后，还可以包括步骤：

S381：提取待识别语音信息的声纹信息。

S382：将提取的声纹信息与本地声纹数据库中存储的各声纹信息进行比对；

S383：在提取的声纹信息与本地声纹数据库中存储的各声纹信息均匹配失败时，将提取的声纹信息存储于本地声纹数据库。

语意信息满足预设规则时，认为其较为准确，将其作为语音识别结果之后，还可提取待识别语音信息的声纹信息，将该声纹信息存储到本地声纹数据库中。具体地，在存储之前，还需要对该声纹信息与本地声纹数据库中存储的各声纹信息进行比对，也就是比对本地声纹数据库中存储的各声纹信息是否存在与提取的声纹信息匹配的，若不存在，即提取的声纹信息与本地声纹数据库中存储的各声纹信息均匹配失败，说明该提取的声纹信息对应的用户是首次与终端进行语音交互，且对应的语音信息满足预设规则，因此将提取的声纹信息存储于本地声纹数据库。

在其中一个实施例中，将声纹信息存储于本地声纹数据库的方式包括：建立提取的声纹信息的用户标识；将提取的声纹信息与对应的用户标识关联存储于本地声纹数据库，并将用户标识的优先等级初始化为初始等级。

其中，用户标识为能唯一指定用户身份的标识，可以包括数字、字母和标点符号中的至少一种的字符的字符串，用户标识与声纹信息对应，也就是实现声纹信息与说话人对应起来。在提取的声纹信息与本地声纹数据库中存储的各声纹信息均匹配失败时，表示提取的声纹信息对应的用户是首次语音交互且语意信息满足预设要求，建立提取的声纹信息的用户标识，将提取的声纹信息与对应的用户标识关联存储于本地声纹数据库，并将用户标识的优先等级初始化为初始等级，比如，初始等级为1，表示其等级是最低的等级，优先等级越高，表示该用户进行语音交互的次数越多，其对应的声纹信息越重要。

在其中一个实施例中，上述语音识别方法，还可以包括步骤：在提取的声纹信息与本地声纹数据库中存储的声纹信息匹配成功时，将提取的声纹信息对应的用户标识的优先等级增加预设等级。

在提取的声纹信息与本地声纹数据库中存储的声纹信息匹配成功时，说明该提取的声纹信息之前已存储过了，表示提取的声纹信息对应的用户之前有与终端进行过语音交互，且对应的语意信息满足预设规则，并非首次进行语音交互，此时，将提取的声纹信息对应的用户标识的优先等级增加预设等级，以提高该用户的声纹信息的重要程度。具体地，预设等级可为1，比如，提取的声纹信息对应的用户标识的优先等级原来为1，增加预设等级1，即则优先等级变为2。

在其中一个实施例中，本地声纹数据库中还可以建立有用户标识，本地声纹数据库中存储的声纹信息与用户标识对应。

据此，从本地声纹数据库中获取一个尚未匹配过的声纹信息作为待匹配声纹信息的方式可以包括：根据用户标识的优先等级的预设等级顺序，从本地声纹数据库中获取一个尚未匹配过的用户标识对应的声纹信息作为待匹配声纹信息。

如此可从本地声纹数据库中有序地获取一个尚未匹配过的用户标识对应的声纹信息作为待匹配声纹信息，而不是杂乱无章进行选择，有效防止出错。

在其中一个实施例中，预设等级顺序可以包括优先等级从高到低的顺序或优先等级从低到高的顺序。

由于用户标识的优先等级越高，对应的声纹信息越重要，也就是越常用语音进行控制的用户，比如，在机车内，终端为车载电脑，一般车主进行语音控制最为频繁，优先等级越高，其重要程度越高，待识别语音信息对应的用户越有可能是车主，从而，根据优先等级从高到低的顺序进行选择待匹配声纹信息，不但可有顺序地进行声纹匹配，防止出错，而且可提高整体的识别效率。另外，预设等级顺序采用优先等级从低到高的顺序时，可有顺序地选择待匹配声纹信息，有效地进行声纹匹配，防止出错。

在其中一个实施例中，上述语音识别方法，还可以包括步骤：在组合语意信息不满足预设规则，且本地声纹数据库中不存在尚未匹配过的声纹信息时，给出识别错误提示信息。

在组合语意信息不满足预设规则时，表示组合语意信息不准确，为了准确识别，需要进行下一个尚未匹配过的声纹信息选择，但本地声纹数据库中不存在尚未匹配过的声纹信息，说明本地声纹数据库中声纹信息均已匹配过，声纹信息匹配终止，此时，给出识别错误提示信息，以提醒用户此次语音识别失效，以便用户快速进入先一个语音控制过程。

在其中一个实施例中，在确定待识别语音信息的语意信息之后，对待识别语音信息进行分段处理之前，还包括步骤：提取语意信息的关键词。

当语意信息不符合预设语法规则、语意信息的关键词不同时存在于一个词库或在本地指令库中不存在与语意信息的关键词对应的指令时，判定语意信息不满足预设规则。

每种工作模式对应有词库，即工作模式与词库对应，在判断语意信息是否符合预设规则时，首先对其是否符合预设语法规则进行判断，若符合预设语法规则，则查看语意信息的关键词是否同时在一个词库，这是由于有多种工作模式下有多种词库，关键词可能分布在各种词库中，由于一次语音只能对一种工作模式下进行与工作模式对应的相关操作，若关键词是分布在各词库中，说明该语意信息的关键词不满足预设规则。另外，本地指令库用于存储控制执行相关操作的指令，具体地，语意信息的关键词与指令关联存储，通过语意信息的关键词可找到对应的指令，后续根据指令执行相应的操作。若语意信息符合预设语法规则、且对应的关键词都在一个词库中，但是在本地指令库中不存在与之对应的指令，说明该语音信息还是无效的，无法得到对应的指令，即无法实现语音控制。比如，语意信息为“你好”，其满足预设语法规则，且存在一个词库中，但是其是一个简单的问候语，并不是一个控制语句，在本地指令库中不存在与“你好”对应的据此可执行相应操作的指令。

在本实施例中，在确定组合语音信息的组合语意信息之后，将组合语意信息作为语音识别结果之前，还包括步骤：提取组合语意信息的关键词。

当组合语意信息符合预设语法规则，组合语意信息的关键词同时存在于一个词库且在本地指令库中存在与组合语意的关键词对应的指令时，判定组合语意信息满足预设规则。

组合语意信息符合预设语法规则，组合语意信息的关键词同时存在于一个词库且在本地指令库中存在与组合语意的关键词对应的指令时，认为组合语意信息是满足预设规则的，此时将其作为语音识别结果，由于可在本地指令库可找到与组合语意的关键词对应的指令，后续即可根据该指令进行相关操作。比如，组合语音信息为“我要播放音乐”，是符合预设语法规则的，若其关键词为“播放”和“音乐”，这些关键词同时存在于与音乐模式对应的词库中，且在本地指令库中存在与“播放”对应的指令，认为“我要播放音乐”满足预设规则，可在本地指令库中找到对应的播放指令进行音乐播放。

在其中一个实施例中，确定待识别语音信息的语意信息的方式可以包括：

对待识别语音信息进行语音识别，获得语意信息。在对待识别语音信息进行识别时，可通过在终端本地进行识别，即对待识别语音信息进行语音识别，可获得语意信息，这样可提高确定语意信息的效率，从而提高整个语音识别效率。

将待识别语音信息发送至云端服务器。

接收云端服务器对待识别语音信息进行语音识别的识别结果，将识别结果作为语意信息。

从而也可通过在云端服务器进行识别，即将待识别语音信息发送至云端服务器，云端服务器对待识别语音信息进行语音识别的识别结果，将识别结果作为语意信息，由于在云端服务器可存储大量的据以进行识别的数据，可提高识别准确性。

下面以一具体实施例对上述的语音识别方法加以具体说明，请参阅图5，为一具体实施例的语音识别方法的流程图。

首先，获取采集的识别语音信息，对其进行识别获得语意信息，或将其发送给云端服务器，接收云端服务器进行语音识别的识别结果，识别结果作为语意信息。然后，判断语意信息是否满足预设规则，在若不满足，对待识别语音信息进行分段处理，获得各语音片段，并提取各语音片段的声纹信息；在本地声纹数据库中查找是否存在尚未匹配过的声纹信息，若存在，从本地声纹数据库中获取一个尚未匹配过的声纹信息作为待匹配声纹信息；对各语音片段的声纹信息与待匹配声纹信息进行匹配，从各语音片段的声纹信息中确定出与待匹配声纹信息匹配成功的筛选后声纹信息；将各筛选后声纹信息对应的语音片段进行组合，获得组合语音信息，并确定组合语音信息的组合语意信息；再判断组合语意信息是否满足预设规则，若满足，则将组合语意信息作为语音识别结果；后续可提取待识别语音信息的声纹信息；将提取的声纹信息与本地声纹数据库中存储的各声纹信息进行比对；在提取的声纹信息与本地声纹数据库中存储的各声纹信息均匹配失败时，将提取的声纹信息存储于本地声纹数据库。另外，在提取的声纹信息与本地声纹数据库中存储的声纹信息匹配成功时，将提取的声纹信息对应的用户标识的优先等级增加预设等级。

另外，在组合语意信息不满足预设规则时，返回在本地声纹数据库中查找是否存在尚未匹配过的声纹信息的步骤，在本地声纹数据库中存在尚未匹配过的声纹信息时，再从本地声纹数据库中获取一个尚未匹配过的声纹信息作为待匹配声纹信息。在本地声纹数据库中不存在尚未匹配过的声纹信息时，给出识别错误提示信息。在语意信息满足预设规则时，将语意信息作为语音识别结果。

如图6所示，在其中一个实施例中，本申请还提供一种电子设备600，电子设备600的内部结构可对应于如图2所示的结构，下述每个模块可全部或部分通过软件、硬件或其组合来实现。电子设备600包括语意信息确定模块601、分段声纹获取模块602、待匹配声纹信息获取模块603、匹配筛选模块604、组合模块605和识别结果确定模块606。

语意信息确定模块601，用于获取采集的待识别语音信息，并确定待识别语音信息的语意信息。

分段声纹获取模块602，用于在语意信息不满足预设规则时，对待识别语音信息进行分段处理，获得各语音片段，并提取各语音片段的声纹信息。

待匹配声纹信息获取模块603，用于在本地声纹数据库中存在尚未匹配过的声纹信息时，从本地声纹数据库中获取一个尚未匹配过的声纹信息作为待匹配声纹信息。

匹配筛选模块604，用于对各语音片段的声纹信息与待匹配声纹信息进行匹配，从各语音片段的声纹信息中确定出与待匹配声纹信息匹配成功的筛选后声纹信息。

组合模块605，用于将各筛选后声纹信息对应的语音片段进行组合，获得组合语音信息，并确定组合语音信息的组合语意信息。

识别结果确定模块606，用于在组合语意信息满足预设规则时，将组合语意信息作为语音识别结果。

上述电子设备，首先确定待识别语音信息的语意信息，在语意信息不满足预设规则要求时，表示此时识别的语意信息可能不准确，此时，将待识别语音信息进行分段，获得各语音片段，并提取各语音片段的声纹信息，在本地声纹数据库中存在尚未匹配过的声纹信息时，从本地声纹数据库中获取一个尚未匹配过的声纹信息作为待匹配声纹信息，为后续声纹匹配提供依据，即提供进行声纹匹配的单个用户的待匹配声纹信息，然后，对各语音片段的声纹信息与待匹配声纹信息进行匹配，从各语音片段的声纹信息中确定出与待匹配声纹信息匹配成功的筛选后声纹信息，也就是从各语音片段的声纹信息中筛选出与上述待匹配声纹信息匹配的单个用户的声纹信息，并将各筛选后声纹信息对应的语音片段进行组合，获得组合语音信息，即获得单个用户的组合语音信息，并对组合语音信息进行识别，获得组合语意信息，从而获单个用户表达的语意，为了提高识别准确性，还需对组合语意信息判断是否满足预设规则要求，满足时表示已获得了准确识别的语意，即准确获得了用户想表达的语意，此时将组合语意信息作为语音识别结果，提高语音识别准确度。

在其中一个实施例中，上述识别结果确定模块606，还用于在组合语意信息不满足预设规则时，返回待匹配声纹信息获取模块603执行在本地声纹数据库中存在尚未匹配过的声纹信息时，从本地声纹数据库中获取一个尚未匹配过的声纹信息作为待匹配声纹信息。

在其中一个实施例中，上述识别结果确定模块606，用于在语意信息满足预设规则时，将语意信息作为语音识别结果。

如图7所示，在其中一个实施例中，上述电子设备600，还包括：

语音声纹提取模块607，用于识别结果确定模块606在语意信息满足预设规则时，将语意信息作为语音识别结果后，提取待识别语音信息的声纹信息。

声纹比对模块608，用于将提取的声纹信息与本地声纹数据库中存储的各声纹信息进行比对。

存储模块609，用于在提取的声纹信息与本地声纹数据库中存储的各声纹信息均匹配失败时，将提取的声纹信息存储于本地声纹数据库。

请参阅图8，在其中一个实施例中，存储模块609包括：

标识建立模块6091，用于建立提取的声纹信息的用户标识。

初始化模块6092，用于将提取的声纹信息与对应的用户标识关联存储于本地声纹数据库，并将用户标识的优先等级初始化为初始等级。

在其中一个实施例中，上述电子设备，还包括等级增加模块。

等级增加模块，用于在提取的声纹信息与本地声纹数据库中存储的声纹信息匹配成功时，将提取的声纹信息对应的用户标识的优先等级增加预设等级。

在其中一个实施例中，本地声纹数据库中存储的声纹信息与用户标识对应。

上述待匹配声纹信息获取模块603，用于根据用户标识的优先等级的预设等级顺序，从本地声纹数据库中获取一个尚未匹配过的用户标识对应的声纹信息作为待匹配声纹信息。

在其中一个实施例中，预设等级顺序包括优先等级从高到低的顺序或优先等级从低到高的顺序。

在其中一个实施例中，上述电子设备，还包括：提示模块。

提示模块，用于在组合语意信息不满足预设规则，且本地声纹数据库中不存在尚未匹配过的声纹信息时，给出识别错误提示信息。

在其中一个实施例中，上述电子设备，还包括：信息关键词提取模块。

信息关键词提取模，用于提取语意信息的关键词，以及提取组合语意信息的关键词。

上述分段声纹获取模块602，在语意信息不符合预设语法规则、语意信息的关键词不同时存在于一个词库或在本地指令库中不存在与语意信息的关键词对应的指令时，判定语意信息不满足预设规则。

上述识别结果确定模块606，在组合语意信息符合预设语法规则，组合语意信息的关键词同时存在于一个词库且在本地指令库中存在与组合语意的关键词对应的指令时，判定组合语意信息满足预设规则。

在其中一个实施例中，上述语意信息确定模块601包括：

识别模块，用于对待识别语音信息进行语音识别，获得语意信息。

或者

信息发送模块，用于将待识别语音信息发送至云端服务器。

语意信息获取模块，用于接收云端服务器对待识别语音信息进行语音识别的识别结果，将识别结果作为语意信息。

在一个实施例中，一种电子设备，包括存储器和处理器，存储器中储存有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行以下步骤：获取采集的待识别语音信息，并确定待识别语音信息的语意信息；在语意信息不满足预设规则时，对待识别语音信息进行分段处理，获得各语音片段，并提取各语音片段的声纹信息；在本地声纹数据库中存在尚未匹配过的声纹信息时，从本地声纹数据库中获取一个尚未匹配过的声纹信息作为待匹配声纹信息；对各语音片段的声纹信息与待匹配声纹信息进行匹配，从各语音片段的声纹信息中确定出与待匹配声纹信息匹配成功的筛选后声纹信息；将各筛选后声纹信息对应的语音片段进行组合，获得组合语音信息，并确定组合语音信息的组合语意信息；在组合语意信息满足预设规则时，将组合语意信息作为语音识别结果。

在其中一个实施例中，计算机可读指令还使得处理器执行以下步骤：在组合语意信息不满足预设规则时，返回在本地声纹数据库中存在尚未匹配过的声纹信息时，从本地声纹数据库中获取一个尚未匹配过的声纹信息作为待匹配声纹信息的步骤。

在其中一个实施例中，计算机可读指令还使得处理器执行以下步骤：在语意信息满足预设规则时，将语意信息作为语音识别结果。

在其中一个实施例中，计算机可读指令还使得处理器执行以下步骤：在语意信息满足预设规则时，将语意信息作为语音识别结果之后，提取待识别语音信息的声纹信息；将提取的声纹信息与本地声纹数据库中存储的各声纹信息进行比对；在提取的声纹信息与本地声纹数据库中存储的各声纹信息均匹配失败时，将提取的声纹信息存储于本地声纹数据库。

在其中一个实施例中，计算机可读指令还使得处理器执行以下步骤：将声纹信息存储于本地声纹数据库的方式包括：建立提取的声纹信息的用户标识；将提取的声纹信息与对应的用户标识关联存储于本地声纹数据库，并将用户标识的优先等级初始化为初始等级。

在其中一个实施例中，计算机可读指令还使得处理器执行以下步骤：在提取的声纹信息与本地声纹数据库中存储的声纹信息匹配成功时，将提取的声纹信息对应的用户标识的优先等级增加预设等级。

在其中一个实施例中，本地声纹数据库中存储的声纹信息与用户标识对应；

计算机可读指令还使得处理器执行以下步骤：从本地声纹数据库中获取一个尚未匹配过的声纹信息作为待匹配声纹信息的方式包括：根据用户标识的优先等级的预设等级顺序，从本地声纹数据库中获取一个尚未匹配过的用户标识对应的声纹信息作为待匹配声纹信息。

在其中一个实施例中，计算机可读指令还使得处理器执行以下步骤：在组合语意信息不满足预设规则，且本地声纹数据库中不存在尚未匹配过的声纹信息时，给出识别错误提示信息。

在其中一个实施例中，计算机可读指令还使得处理器执行以下步骤：在确定待识别语音信息的语意信息之后，对待识别语音信息进行分段处理之前，还包括步骤：提取语意信息的关键词。

在本实施例中，计算机可读指令还使得处理器执行以下步骤：在确定组合语音信息的组合语意信息之后，将组合语意信息作为语音识别结果之前，还包括步骤：提取组合语意信息的关键词；

在其中一个实施例中，计算机可读指令还使得处理器执行以下步骤：确定待识别语音信息的语意信息的方式可以包括：对待识别语音信息进行语音识别，获得语意信息。

在其中一个实施例中，计算机可读指令还使得处理器执行以下步骤：确定待识别语音信息的语意信息的方式可以包括：

将待识别语音信息发送至云端服务器。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一非易失性的计算机可读取存储介质中，如本发明实施例中，该计算机程序可存储于计算机存储介质中，并被该计算机系统中的至少一个处理器执行，以实现包括如上述各方法的实施例的流程。其中，计算机存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

一种语音识别方法，其特征在于，应用于终端，包括以下步骤：

获取采集的待识别语音信息，并确定所述待识别语音信息的语意信息；

在所述语意信息不满足预设规则时，对所述待识别语音信息进行分段处理，获得各语音片段，并提取各所述语音片段的声纹信息；

在本地声纹数据库中存在尚未匹配过的声纹信息时，从所述本地声纹数据库中获取一个尚未匹配过的声纹信息作为待匹配声纹信息；

对各所述语音片段的声纹信息与所述待匹配声纹信息进行匹配，从各所述语音片段的声纹信息中确定出与所述待匹配声纹信息匹配成功的筛选后声纹信息；

将各所述筛选后声纹信息对应的语音片段进行组合，获得组合语音信息，并确定所述组合语音信息的组合语意信息；

在所述组合语意信息满足所述预设规则时，将所述组合语意信息作为语音识别结果。
根据权利要求1所述的语音识别方法，其特征在于，还包括步骤：

在所述组合语意信息不满足所述预设规则时，返回在本地声纹数据库中存在尚未匹配过的声纹信息时，从所述本地声纹数据库中获取一个尚未匹配过的声纹信息作为待匹配声纹信息的步骤。
根据权利要求1所述的语音识别方法，其特征在于，还包括步骤：

在所述语意信息满足所述预设规则时，将所述语意信息作为语音识别结果。
根据权利要求3所述的语音识别方法，其特征在于，在所述语意信息满足所述预设规则时，将所述语意信息作为语音识别结果之后，还包括步骤：

提取所述待识别语音信息的声纹信息；

将提取的所述声纹信息与所述本地声纹数据库中存储的各声纹信息进行比对；

在提取的所述声纹信息与所述本地声纹数据库中存储的各声纹信息均匹配失败时，将提取的所述声纹信息存储于所述本地声纹数据库。
根据权利要求4所述的语音识别方法，其特征在于，将所述声纹信息存储于所述本地声纹数据库的方式包括：

建立提取的所述声纹信息的用户标识；

将提取的所述声纹信息与对应的所述用户标识关联存储于所述本地声纹数据库，并将所述用户标识的优先等级初始化为初始等级。
根据权利要求5所述的语音识别方法，其特征在于，还包括步骤：

在提取的所述声纹信息与所述本地声纹数据库中存储的声纹信息匹配成功时，将提取的所述声纹信息对应的用户标识的优先等级增加预设等级。
根据权利要求1所述的语音识别方法，其特征在于，所述本地声纹数据库中存储的声纹信息与用户标识对应；

从所述本地声纹数据库中获取一个尚未匹配过的声纹信息作为待匹配声纹信息的方式包括：

根据所述用户标识的优先等级的预设等级顺序，从所述本地声纹数据库中获取一个尚未匹配过的用户标识对应的声纹信息作为待匹配声纹信息。
根据权利要求1所述的语音识别方法，其特征在于，

在确定所述带识别语音信息的语意信息之后，对所述待识别语音信息进行分段处理之前，还包括步骤：提取所述语意信息的关键词；

当所述语意信息不符合预设语法规则、所述语意信息的关键词不同时存在于一个词库或在本地指令库中不存在与所述语意信息的关键词对应的指令时，判定所述语意信息不满足所述预设规则；

在确定所述组合语音信息的组合语意信息之后，将所述组合语意信息作为语音识别结果之前，还包括步骤：提取所述组合语意信息的关键词；

当所述组合语意信息符合所述预设语法规则，所述组合语意信息的关键词同时存在于一个词库且在所述本地指令库中存在与所述组合语意的关键词对应的指令时，判定所述组合语意信息满足所述预设规则。
一种电子设备，包括存储器和处理器，所述存储器中储存有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行以下步骤：

获取采集的待识别语音信息，并确定所述待识别语音信息的语意信息；

在所述语意信息不满足预设规则时，对所述待识别语音信息进行分段处理，获得各语音片段，并提取各所述语音片段的声纹信息；

在本地声纹数据库中存在尚未匹配过的声纹信息时，从所述本地声纹数据库中获取一个尚未匹配过的声纹信息作为待匹配声纹信息；

对各所述语音片段的声纹信息与所述待匹配声纹信息进行匹配，从各所述语音片段的声纹信息中确定出与所述待匹配声纹信息匹配成功的筛选后声纹信息；

将各所述筛选后声纹信息对应的语音片段进行组合，获得组合语音信息，并确定所述组合语音信息的组合语意信息；

在所述组合语意信息满足所述预设规则时，将所述组合语意信息作为语音识别结果。
根据权利要求9所述的电子设备，其特征在于，所述计算机可读指令还使得所述处理器执行以下步骤：

在所述组合语意信息不满足所述预设规则时，返回在本地声纹数据库中存在尚未匹配过的声纹信息时，从所述本地声纹数据库中获取一个尚未匹配过的声纹信息作为待匹配声纹信息的步骤。
根据权利要求9所述的电子设备，其特征在于，所述计算机可读指令还使得所述处理器执行以下步骤：

在所述语意信息满足所述预设规则时，将所述语意信息作为语音识别结果。
根据权利要求11所述的电子设备，其特征在于，所述计算机可读指令还使得所述处理器执行以下步骤：

在所述语意信息满足所述预设规则时，将所述语意信息作为语音识别结果之后，提取所述待识别语音信息的声纹信息；

将提取的所述声纹信息与所述本地声纹数据库中存储的各声纹信息进行比对；

在提取的所述声纹信息与所述本地声纹数据库中存储的各声纹信息均匹配失败时，将提取的所述声纹信息存储于所述本地声纹数据库。
根据权利要求12所述的电子设备，其特征在于，计算机可读指令还使得处理器执行以下步骤：将所述声纹信息存储于所述本地声纹数据库的方式包括：

建立提取的所述声纹信息的用户标识；

将提取的所述声纹信息与对应的所述用户标识关联存储于所述本地声纹数据库，并将所述用户标识的优先等级初始化为初始等级。
根据权利要求13所述的电子设备，其特征在于，在提取的所述声纹信息与所述本地声纹数据库中存储的声纹信息匹配成功时，将提取的所述声纹信息对应的用户标识的优先等级增加预设等级。
根据权利要求9所述的电子设备，其特征在于，所述本地声纹数据库中存储的声纹信息与用户标识对应；

计算机可读指令还使得处理器执行以下步骤：从所述本地声纹数据库中获取一个尚未匹配过的声纹信息作为待匹配声纹信息的方式包括：

根据所述用户标识的优先等级的预设等级顺序，从所述本地声纹数据库中获取一个尚未匹配过的用户标识对应的声纹信息作为待匹配声纹信息。
根据权利要求9所述的电子设备，其特征在于，计算机可读指令还使得处理器执行以下步骤：在确定所述带识别语音信息的语意信息之后，对所述待识别语音信息进行分段处理之前，还包括步骤：提取所述语意信息的关键词；

当所述语意信息不符合预设语法规则、所述语意信息的关键词不同时存在一个词库或在本地指令库中不存在与所述语意信息的关键词对应的指令时，判定所述语意信息不满足所述预设规则；

在确定所述组合语音信息的组合语意信息之后，将所述组合语意信息作为语音识别结果之前，还包括步骤：提取所述组合语意信息的关键词；

当所述组合语意信息符合所述预设语法规则，所述组合语意信息的关键词同时存在于一个词库且在所述本地指令库中存在与所述组合语意的关键词对应的指令时，判定所述组合语意信息满足所述预设规则。
一种计算机存储介质，所述计算机存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现权利要求1-8中任意一项所述的表情处理方法的步骤。