WO2017032070A1

WO2017032070A1 - 语音识别方法、设备及计算机存储介质

Info

Publication number: WO2017032070A1
Application number: PCT/CN2016/081829
Authority: WO
Inventors: 赵永
Original assignee: 中兴通讯股份有限公司
Priority date: 2015-08-21
Filing date: 2016-05-12
Publication date: 2017-03-02
Also published as: CN106469558A

Abstract

一种语音识别方法，所述方法包括：采集语音指令，将所述语音指令的音频流发送到云端服务器进行识别的同时，在本地记录所述音频流数据（S1）；在收到网络异常信息时，启动重试等待（S2）；在满足重试条件时，将本地记录的所述音频流数据再次发送到所述云端服务器（S3）。

Description

语音识别方法、设备及计算机存储介质

技术领域

本发明涉及移动终端语音识别技术领域，特别涉及一种语音识别方法、设备及计算机存储介质。

背景技术

由于移动终端的计算和存储能力相对较弱，而语音识别的计算量较大且需要较大的空间来存储语音库，故现有的语音识别方案，比如：苹果智能语音助手(Apple Siri)、谷歌即时(Google Now)等，均是在云端进行语音识别，移动终端只负责语音指令的采集和传输。为尽量降低反应延迟，现有技术不等待用户发出全部语音指令，而是在用户刚发出语音指令的同时，便将采集到的音频流直接传输到云端服务器，由云端服务器直接对音频流进行处理和识别。采用现有技术的方案，在进行语音识别过程中需要保持终端的网络连接，但实际情况中，由于移动终端经常会随用户快速移动，时常会出现网络连接不佳的情况，比如：行车过程中、终端切换信号基站、通过隧道、超出无线保真(WIFI，Wireless Fidelity)范围和WIFI路由重启等，这都会影响语音识别的成功率。

现有技术直接将音频流实时传输到云端服务器，一旦网络异常，移动终端本地和云端服务器均没有完整的音频数据，只能向用户汇报网络异常，如：网络掉线时报网络错误；网速慢等导致长时间收不到服务器响应时报网络超时等，由用户根据异常情况，在排除异常后重新发出语音指令来再次识别。故现有技术的语音识别失败率较高，且需要用户人工干预来重新识别，识别效率低，用户体验不佳。

发明内容

为解决现有存在的技术问题，本发明实施例期望提供一种语音识别方法、设备及计算机存储介质，以提高云端语音识别效率，增强用户体验。

本发明实施例的技术方案是这样实现的：

在本发明实施例的一方面，本发明实施例提供了一种语音识别方法，所述方法包括：

采集语音指令，将所述语音指令的音频流发送到云端服务器进行识别的同时，在本地记录所述音频流数据；

在收到网络异常信息时，启动重试等待；

在满足重试条件时，将本地记录的所述音频流数据再次发送到所述云端服务器。

上述方案中，所述方法还包括：循环执行所述重试等待和所述再次发送，直至所述云端服务器识别成功或者达到最大重试次数。

上述方案中，所述方法还包括：所述网络异常信息由所述云端服务器返回，或者在超出预定时间仍未收到所述云端服务器的响应时自动产生。

上述方案中，所述方法还包括：在识别成功或达到最大重试次数后删除本地记录的所述音频流数据。

上述方案中，所述方法还包括：在初始化时和/或根据用户输入，设置最大重试次数以及各次重试等待时间。

在本发明实施例的另一方面，本发明实施例还提供一种语音识别设备，所述设备包括：

音频采集模块，配置为采集语音指令，将所述语音指令的音频流发送到云端服务器进行识别的同时，在本地记录所述音频流数据；

重试等待模块，配置为在收到网络异常信息时，启动重试等待；

重试处理模块，配置为在满足重试条件时，将本地记录的所述音频流数据再次发送到所述云端服务器。

上述方案中，所述设备还包括：循环执行模块，配置为循环执行所述重试等待模块和所述重试处理模块，直至所述云端服务器识别成功或者达到最大重试次数。

上述方案中，所述设备还包括：异常识别模块，配置为识别由所述云端服务器返回的所述网络异常信息，或者在超出预定时间仍未收到所述云端服务器的响应时自动产生所述网络异常信息。

上述方案中，所述设备还包括：数据清理模块，配置为在识别成功或达到最大重试次数后删除本地记录的所述音频流数据。

上述方案中，所述设备还包括：设置模块，配置为在初始化时和/或根据用户输入，设置最大重试次数以及各次重试等待时间。

本发明实施例提供了一种计算机存储介质，所述计算机存储介质中存储有计算机程序，所述计算机程序用于执行以上所述的语音识别方法。

本发明实施例期望提供的语音识别方法、设备及计算机存储介质，通过本地存储数据自动进行异常后的重试处理，无需用户的干预即可反复进行重试处理，确保云端语音识别的顺利进行，可大幅提高网络连接不理想时云端语音识别的成功率，避免用户重复输入语音指令，提高了语音识别效率，提升用户体验。

附图说明

图1为本发明实施例提供的语音识别方法的流程示意图；

图2为本发明实施例提供的语音识别设备的结构示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行详细说明，应当理解，以下所说明的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

为在网络连接不理想时确保云端语音识别的成功率，避免用户重复输入语音指令，如图1所示，本发明实施例提供了一种语音识别方法，所述方法包括：

S1：采集语音指令，将所述语音指令的音频流发送到云端服务器进行识别的同时，在本地记录所述音频流数据；

S2：在收到网络异常信息时，启动重试等待；

S3：在满足重试条件时，将本地记录的所述音频流数据再次发送到所述云端服务器。

其中，本发明实施例中的网络环境为数据链路、WIFI以及其它的无线网络环境，所述网络异常信息包括但不限于网络掉线时的网络错误信息、网速慢等导致长时间收不到服务器响应时的网络超时信息等。

上述步骤S2中，所述网络异常信息由云端服务器返回，或在超出预定时间仍未收到云端服务器的响应时自动产生。

上述步骤S3中，所述重试条件包括：排除网络异常情况和/或达到重试等待时间。

在一实施方式中，本发明实施例的方法中，进行重试的步骤S2和S3重复执行，直到云端识别成功或者达到重试次数的上限。其中，最大重试次数以及每次重试等待时间的间隔可在语音识别初始化时设置或由用户动态调整。

本发明实施例通过重试机制提高云端语音识别效率，语音指令以音频流方式直接发送到云端进行识别的同时，本地也记录完整音频流数据的至少一份拷贝，音频流数据可采用本地录音文件数据、内存数据等保存方式；为合理控制本地存储空间，在识别成功或达到最大重试次数后删除本地保存的音频流数据。最大重试次数N以及每次重试的等待时间可以预先设置。其中，各次重试等待时间可以相同，也可以分别设置为不同的值，比如：第i次重试的等待时间Ti可以逐一设置，也可以按一定变化规律(递增、递减、先增后减、先减后增等等)自动设置；所述变化规律可以采用预设函数来表示也可是随机序列。此外，最大重试次数及重试等待时间也可由用户随时更改调整。

语音识别主要应用于用户不便用手直接操作终端设备的情况，比如驾驶期间，在将语音指令的音频流发送到云端之后，等待云端识别的结果，若云端返回识别后的操作指令，则按所述操作指令控制终端设备，本次语音识别结束。若未收到识别后的操作指令而是第i次返回网络异常信息，则启动第i次重试等待，按预设的等待时间Ti进行计时。在到达等待时间Ti时，或者网络异常情况被排除时，比如发现可用网络并建立连接后，将本地保存的音频流数据再次发送给云端服务器进行识别。若返回网络异常信息的次数i大于预设的最大重试次数N，则返回识别失败信息并结束本次语音识别。

如图2所示，本发明实施例还同时提供了一种语音识别设备1，与云端服务器2进行交互，所述语音识别设备1包括：

音频采集模块101，配置为采集语音指令，将所述语音指令的音频流发送到云端服务器2进行识别的同时，在本地记录所述音频流数据；

重试等待模块102，配置为在收到网络异常信息时，启动重试等待；

重试处理模块103，配置为在满足重试条件时，将本地记录的所述音频流数据再次发送到所述云端服务器2。

在本发明优选实施例中，重试可重复多次循环执行，故所述语音识别设备1还包括：循环执行模块，配置为循环执行所述重试等待模块和所述重试处理模块，直至所述云端服务器识别成功或者达到最大重试次数。

异常信息由云端服务器返回或本地产生，所述语音识别设备1还包括：异常识别模块，配置为识别由所述云端服务器返回的所述网络异常信息，或者在超出预定时间仍未收到所述云端服务器的响应时自动产生所述网络异常信息。

在一实施方式中，所述语音识别设备1还包括：数据清理模块，配置为在识别成功或达到最大重试次数后删除本地记录的所述音频流数据。以及，设置模块，配置为在初始化时和/或根据用户输入，设置最大重试次数以及各次重试等待时间。

在一实施方式中，上述语音识别设备可以是移动终端本身；也可以是相对独立的功能单元，通过移动终端加载后实现终端到云端服务器的云端语音识别。

在实际应用中，所述音频采集模块101、重试等待模块102以及重试处理模块103、循环执行模块、异常识别模块、数据清理模块和设置模块均可由位于终端设备中的中央处理器(Central Processing Unit，CPU)、微处理器(Micro Processor Unit，MPU)、数字信号处理器(Digital Signal Processor，DSP)、或现场可编程门阵列(Field Programmable Gate Array，FPGA)等实现。所述音频流数据记录在数据记录模块中，所述数据记录模块可由各种存储器、或存储设备等存储介质实现。

下面介绍本发明实施例的几个典型应用场景：用户启动语音识别，优选设置最大重试次数为3，各次重试等待时间分别为10秒、20秒、30秒。在第1个示例的场景中，用户在车载环境中使用终端语音识别，车辆正处在没有移动数据信号或者移动数据信号弱的地带，用户开启语音识别发出语音命令，使用本发明实施例的方案，即使第一次识别失败，如果车辆能够在后面重试的10秒、20秒、30秒的等待时间内到达网络信号好的位置，就仍然能够成功识别语音。在第2个示例的场景中，用户终端接入WIFI进行语音识别，用户开启语音识别发出语音命令，远端路由器出现故障或者重启等问题，使用本发明实施例的方案，即使第一次识别失败，如果网络路由能够在后面重试的10秒、20秒、30秒的等待时间内恢复正常，就仍然能够成功识别语音。

本发明实施例还记载了一种计算机存储介质，所述计算机存储介质中存储有计算机可执行指令，所述计算机可执行指令用于执行前述各个实施例所述的语音识别方法。

综上所述，本发明实施例所述技术方案具有以下技术效果：

通过本地存储数据自动进行异常后的重试处理，无需用户的干预即可反复进行重试处理，确保云端语音识别的顺利进行，可大幅提高网络连接不理想时云端语音识别的成功率，避免用户重复输入语音指令，提高了语音识别效率，提升用户体验。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(ROM，Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

工业实用性

本发明实施例中，采集语音指令，将所述语音指令的音频流发送到云端服务器进行识别的同时，在本地记录所述音频流数据；在收到网络异常信息时，启动重试等待；在满足重试条件时，将本地记录的所述音频流数据再次发送到所述云端服务器；如此，通过本地存储数据自动进行异常后的重试处理，无需用户的干预即可反复进行重试处理，确保云端语音识别的顺利进行，可大幅提高网络连接不理想时云端语音识别的成功率，避免用户重复输入语音指令，提高了语音识别效率，提升用户体验。

Claims

一种语音识别方法，所述方法包括：

采集语音指令，将所述语音指令的音频流发送到云端服务器进行识别的同时，在本地记录所述音频流数据；

在收到网络异常信息时，启动重试等待；

在满足重试条件时，将本地记录的所述音频流数据再次发送到所述云端服务器。
根据权利要求1所述的方法，其中，所述方法还包括：

循环执行所述重试等待和所述再次发送，直至所述云端服务器识别成功或者达到最大重试次数。
根据权利要求1所述的方法，其中，所述方法还包括：

所述网络异常信息由所述云端服务器返回，或者在超出预定时间仍未收到所述云端服务器的响应时自动产生。
根据权利要求2所述的方法，其中，所述方法还包括：

在识别成功或达到最大重试次数后删除本地记录的所述音频流数据。
根据权利要求1所述的方法，其中，所述方法还包括：

在初始化时和/或根据用户输入，设置最大重试次数以及各次重试等待时间。
一种语音识别设备，所述设备包括：

音频采集模块，配置为采集语音指令，将所述语音指令的音频流发送到云端服务器进行识别的同时，在本地记录所述音频流数据；

重试等待模块，配置为在收到网络异常信息时，启动重试等待；

重试处理模块，配置为在满足重试条件时，将本地记录的所述音频流数据再次发送到所述云端服务器。
根据权利要求6所述的设备，其中，所述设备还包括：

循环执行模块，配置为循环执行所述重试等待模块和所述重试处理模块，直至所述云端服务器识别成功或者达到最大重试次数。
根据权利要求6所述的设备，其中，所述设备还包括：

异常识别模块，配置为识别由所述云端服务器返回的所述网络异常信息，或者在超出预定时间仍未收到所述云端服务器的响应时自动产生所述网络异常信息。
根据权利要求7所述的设备，其中，所述设备还包括：

数据清理模块，配置为在识别成功或达到最大重试次数后删除本地记录的所述音频流数据。
根据权利要求6所述的设备，其中，所述设备还包括：

设置模块，配置为在初始化时和/或根据用户输入，设置最大重试次数以及各次重试等待时间。
一种计算机存储介质，所述计算机存储介质中存储有计算机可执行指令，所述计算机可执行指令用于执行权利要求1至5任一项所述的方法。