WO2020228270A1

WO2020228270A1 - 语音处理方法、装置、计算机设备及存储介质

Info

Publication number: WO2020228270A1
Application number: PCT/CN2019/116513
Authority: WO
Inventors: 王健宗; 贾雪丽
Original assignee: 平安科技（深圳）有限公司
Priority date: 2019-05-10
Filing date: 2019-11-08
Publication date: 2020-11-19
Also published as: CN110232916A

Abstract

一种语音处理方法、装置、计算机设备及存储介质，其方法包括：通过音频缓冲器缓存实时环境声音信号（S10）；检测实时环境声音信号是否包含指定关键词（S20）；若检测到实时环境声音信号包含指定关键词，则通过语音识别模型对实时环境声音信号进行识别，获得用户口语指令（S30）；将用户口语指令转化为机器逻辑指令（S40）；将机器逻辑指令发送到执行设备，以使执行设备执行机器逻辑指令（S50）。该语音处理方法可以克服现有技术中唤醒和语音识别不同步，实时对用户的语音指令进行识别，提高了用户体验。

Description

语音处理方法、装置、计算机设备及存储介质

本申请以2019年5月10日提交的申请号为201910390372.2，名称为“语音处理方法、装置、计算机设备及存储介质”的中国发明申请为基础，并要求其优先权。

技术领域

本申请涉及语音处理领域，尤其涉及一种语音处理方法、装置、计算机设备及存储介质。

背景技术

现有的一部分语音识别系统，是依赖于语音进行激活的。这种语音交互系统，往往依赖于对用户语音中的关键词进行识别。例如，一具有语音交互功能的智能音箱，其设置的唤醒关键词为“Hello”，当用户在智能音箱附近说出“Hello”，智能音箱的语音识别模块在关键词监测模式下监测到该“Hello”语音，然后将语音识别模块切换工作模式(从关键词监测模式切换为语音识别模式)，监听用户发出的语音指令(语音指令可以用于命令智能音箱打开音乐或播报新闻等)。

然而，在现有的语音识别过程中，关键词识别与语音指令识别之间存在一定的时间间隔(切换工作模式需要一定时间)，导致用户在连续说出唤醒关键词与语音指令时，语音指令无法被正确识别(因为此时语音识别模式尚未启用)。虽然，在时间间隔内，可以通过播放一个简短的铃声或者产生一些视觉反馈来通知用户设备已经完成加载，可以使用语音指令进行下一步操作。然而，这种时间间隔产生的停顿在语音的自然流中产生中断，对用户体验的质量产生负面影响。

发明内容

基于此，有必要针对上述技术问题，提供一种语音处理方法、装置、计算机设备及存储介质，以克服现有技术中，唤醒和语音识别不同步，导致用户体验不佳的问题。

一种语音处理方法，包括：

通过音频缓冲器缓存实时环境声音信号；

检测所述实时环境声音信号是否包含指定关键词；

若检测到所述实时环境声音信号包含所述指定关键词，则通过语音识别模型对所述实时环境声音信号进行识别，获得用户口语指令；

将所述用户口语指令转化为机器逻辑指令；

将所述机器逻辑指令发送到执行设备，以使执行设备执行所述机器逻辑指令。

一种语音处理装置，包括：

缓存模块，用于通过音频缓冲器缓存实时环境声音信号；

检测模块，用于检测所述实时环境声音信号是否包含指定关键词；

识别模块，用于若检测到所述实时环境声音信号包含所述指定关键词，则通过语音识别模型对所述实时环境声音信号进行识别，获得用户口语指令；

指令转化模块，用于将所述用户口语指令转化为机器逻辑指令；

执行模块，用于将所述机器逻辑指令发送到执行设备，以使执行设备执行所述机器逻辑指令。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现如下步骤：

通过音频缓冲器缓存实时环境声音信号；

检测所述实时环境声音信号是否包含指定关键词；

将所述用户口语指令转化为机器逻辑指令；

一个或多个存储有计算机可读指令的可读存储介质，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行如下步骤：

通过音频缓冲器缓存实时环境声音信号；

检测所述实时环境声音信号是否包含指定关键词；

将所述用户口语指令转化为机器逻辑指令；

本申请的一个或多个实施例的细节在下面的附图和描述中提出，本申请的其他特征和优点将从说明书、附图以及权利要求变得明显。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例中语音处理方法的一应用环境示意图；

图2是本申请一实施例中语音处理方法的一流程示意图；

图3是本申请一实施例中语音处理方法的一流程示意图；

图4是本申请一实施例中语音处理方法的一流程示意图；

图5是本申请一实施例中语音处理方法的一流程示意图；

图6是本申请一实施例中语音处理方法的一流程示意图；

图7是本申请一实施例中语音处理方法的一流程示意图；

图8是本申请一实施例中语音处理装置的一结构示意图；

图9是本申请一实施例中语音处理装置的一结构示意图；

图10是本申请一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本实施例提供的语音处理方法，可应用在如图1的应用环境中，其中，客户端通过网络与服务端进行通信。客户端包括但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一实施例中，如图2所示，提供一种语音处理方法，以该方法应用在图1中的服务端为例进行说明，包括如下步骤：

S10、通过音频缓冲器缓存实时环境声音信号。

本实施例中，音频缓冲器可以指用于临时记录实时环境声音信号的存储器。音频存储器的存储大小可以调整为超过最长的指定关键字或关键短语的持续时间的存储空间。例如，指定关键字的长度为10秒钟，则音频存储器的存储空间可以设置为可存储大于10秒的实时环境声音信号。实时环境声音信号指的是当前环境下所录制的声音信号。由于音频存储器的存储空间有限，因而，音频存储器中仅保存距离当前最近一段时间(长度为音频存储器的存储空间的上限)的实时环境声音信号。

S20、检测所述实时环境声音信号是否包含指定关键词。

可以使用语音唤醒处理模块检测实时环境声音信号是否包含指定关键词。语音唤醒处理模块中可以包含相应的语音识别模型。语音唤醒处理模块可以基于现有的关键字定位技术，如微软小娜

的WoV唤醒处理单元。指定关键词可以根据用户自主设置，也可以基于系统内的预先设置。

语音唤醒处理模块可以检测音频缓冲器中的实时环境声音信号是否包含指定关键词，并确定检测结果。例如，指定关键词设置为“你好，电脑”，若实时环境声音信号中包含“你好，电脑”，语音唤醒处理模块可以检测到实时环境声音信号中包含的“你好，电脑”，并确定实时环境声音信号包含指定关键词。在判断实时环境声音信号是否包含指定关键词时，预先设置匹配度阈值，计算实时环境声音信号与指定关键词的匹配度(可以先生成指定关键词的标准语音，从标准语音提取声学特征，如声音能量、波形等，然后从实时环境声音信号提取声学特征，然后，计算指定关键字对应的声学特征与实时环境声音信号与的匹配度)，判断计算出的匹配度是否不小于匹配度阈值，若计算出的匹配度不小于匹配度阈值，则判定实时环境声音信号包含指定关键词，若计算出的匹配度小于匹配度阈值，则判定实时环境声音信号不包含指定关键词。在此处，匹配度用于表征由指定关键词生成的标准语音与实时环境声音信号的相似程度。

S30、若检测到所述实时环境声音信号包含所述指定关键词，则通过语音识别模型对所述实时环境声音信号进行识别，获得用户口语指令。

可以使用语音识别模块中预设的语音识别模型对实时环境声音信号进行识别，获取用户的口语指令。语音识别模块可以是独立于语音唤醒处理模块的语音处理模块，如，可以是基于ASR(Automatic Speech Recognition的缩写，自动语音识别)技术的语音处理模块。语音唤醒处理模块可以内嵌或连接触发器，该触发器与语音识别模块连接。当语音唤醒处理模块检测到实时环境声音信号包含指定关键词，则激活触发器，由触发器发出唤醒信号，唤醒语音识别模块。语音识别模块唤醒后，将从休眠或待机状态转换到激活状态，并通过该语音识别模块中预置的语音识别模型对音频缓冲器缓存的实时环境声音信号进行识别。此时，语音识别模块可以识别音频缓冲器缓存的指定关键词之后的实时环境声音信号，并将指定关键词之后的实时环境声音信号转化为用户口语指令。例如，用户开始讲话，具体内容为：你好电脑，请打开厨房的灯。由于“你好电脑”是指定关键词，语音识别模块可以识别音频缓冲器缓存的指定关键词之后的实时环境声音信号，识别出用户口语指定“请打开厨房的灯”。

语音识别模型可以是内部自建的，也可以使用外部的计算资源。若使用外部的语音识别模型，则可以通过专用的接口向该语音识别模型发送待识别的实时环境声音信号，并获取该语音识别模型反馈的识别结果(即用户口语指令)。若语音识别模型为自建的模型，可获取大量的语音样本(如可以使用公用网络的开源数据)，然后将语音样本输入预设的神经网络模型中进行训练。这里的神经网络模型可以是基于Markov算法、N-gram算法或递归神经网络的统计语言模型。在训练完毕后，使用测试样本对训练后的模型进行测试，若测试通过，则可以将训练后的模型用作本实施例的语音识别模型。

需要注意的是，若语音唤醒处理模块检测到音频缓冲器中的实时环境声音信号不包含指定关键词，则继续检测音频缓冲器中的实时环境声音信号的变化。

S40、将所述用户口语指令转化为机器逻辑指令。

本实施例中，可以使用自然语言理解模块将用户口语指令转化为机器逻辑指令。自然语言理解模块可以基于用户口语指令生成机器逻辑指令。由于机器并无法识别用户口语指令，需要自然语言理解模块对用户口语指令中的信息进行提取，生成机器可以识别的机器逻辑指令。例如，用户口语指令为“请打开厨房的灯”，自然语言理解模块可以从“请打开厨房的灯”提取出关键信息：“打开”、“厨房”、“灯”，并生成相应的开启厨房的灯的控制指令(即机器逻辑指令)。

S50、将所述机器逻辑指令发送到执行设备，以使执行设备执行所述机器逻辑指令。

执行设备可以是与语音处理装置连接的受控设备，如家用设备，智能汽车等。当执行设备接收到语音处理装置发送的机器逻辑指令时，可以根据机器逻辑指令执行相应的操作。如当厨房的灯接收到自然语言理解模块发送的开启指令时，则厨房的灯响应该开启指令，并完成开启操作。在一些情况下，执行设备也可以是非实体的设备，如手机或其他设备上的音乐播放器、收音机等。

步骤S10-S50中，通过音频缓冲器缓存实时环境声音信号，以实时获取环境中的声音信息(即为上述实时环境声音信号)。检测所述实时环境声音信号是否包含指定关键词，通过关键词检测以确定是否唤醒语音处理装置。若检测到所述实时环境声音信号包含所述指定关键词，则通过语音识别模型对所述实时环境声音信号进行识别，获得用户口语指令，以快速唤醒设备，同时对音频缓冲器中的实时环境声音信号进行处理，获得用户口语指令。将所述用户口语指令转化为机器逻辑指令，以将用户口语指令转化为机器可识别的指令。将所述机器逻辑指令发送到执行设备，以使执行设备执行所述机器逻辑指令，以完成用户口语指令所要求完成的操作。

可选的，如图3所示，所述通过音频缓冲器缓存实时环境声音信号，包括：

S101、采集环境声音，生成所述实时环境声音信号；

S102、在所述音频缓冲器以循环缓冲的方式存储所述实时环境声音信号。

本实施例中，可以使用采集模块采集环境声音。声音采集模块可以是诸如麦克风或麦克风阵列之类的音频捕抓设备。声音采集模块可以录制其所在环境内的声音(可以包括用户的语音)，并将环境内的声音转化为实时环境声音信号。

音频缓冲器可以配置为存储由声音采集模块提供的实时环境声音信号。实时环境声音信号可以包括用户讲话时的用户语音片段(或从这些用户语音片段中提取的音频特征)。

具体的，音频缓冲器可以是循环缓冲器或环形缓冲器。音频缓冲器以循环缓冲的方式存储实时环境声音信号，即，时间最久的实时环境声音信号被更新的实时环境声音信号所覆盖。

步骤S101-S102中，采集环境声音，生成所述实时环境声音信号，以获得声音信号的初始数据。在所述音频缓冲器以循环缓冲的方式存储所述实时环境声音信号，以将实时采集到的声音信号缓存于音频缓存器中。

可选的，如图4所示，所述检测所述实时环境声音信号是否包含指定关键词之前，还包括：

S21、获取用户输入的关键词设置信息；

S22、判断所述关键词设置信息是否符合预设规范；

S23、若所述关键词设置信息符合所述预设规范，则确定所述关键词设置信息为所述指定关键词。

本实施例中，可以提供多种形式获取用户输入的关键词设置信息，可以是语音输入，也可以是文本输入。关键词设置信息指的是用户输入的用于设置指定关键词的信息。例如，用户打算使用“你好电脑”作为指定关键词，则可以通过语音输入的方式录入关键词设置信息(如，在关键词设置程序中，说出“你好电脑”，由声音采集模块采集到该关键词设置信息)，也可以通过输入“你好电脑”文本的方式录入关键词设置信息(如，使用与语音处理装置连接智能手机，智能手机上安装有控制语音处理装置的应用程序，用户可以在该应用程序上输入“你好电脑”的关键词设置信息)。

预设规范用于确定关键词设置信息是否适于作为语音处理装置的指定关键词。例如，而预设规范可以定义一些非法字符，如非法字符可以是标点符号，当关键词设置信息包括标点符号，则该关键词设置信息不符合预设规范。

预设规范还可以规定一些非法、或不文明词句不能作为指定关键词。例如，若关键词设置信息中包含“fuck”、“法西斯”等词语时，该关键词设置信息也是不符合预设规范。

在另一些情况下，如关键词设置信息以语音方式进行输入，当用户发出的语音无法被正常识别(如用户发出模仿动物的叫声)，也可以判断用户输入的关键词设置信息不符合预设规范。

当关键词设置信息不符合预设规范时，可以提醒用户当前输入的关键词信息不可用，需要重新输入关键词设置信息。

若关键词设置信息符合预设规范，则确定所述关键词设置信息为所述指定关键词。

步骤S21-S23中，获取用户输入的关键词设置信息，以获得用于唤醒设备的关键词。判断所述关键词设置信息是否符合预设规范，以确保关键词设置信息中设置的关键词可用或适用。若所述关键词设置信息符合所述预设规范，则确定所述关键词设置信息为所述指定关键词，以完成关键词的设置。

可选的，如图5所示，所述若检测到所述实时环境声音信号包含关键词的语音，则对所述实时环境声音信号进行识别，获得用户口语指令，包括：

S301、当检测到所述实时环境声音信号包含关键词的语音时，生成唤醒指令；

S302、根据所述唤醒指令监测所述实时环境声音信号中的用户语句终点；

S303、若监测到所述实时环境声音信号中的用户语句终点，则对所述用户语句终点前的所述实时环境声音信号进行识别，并将所述用户语句终点前的所述实时环境声音信号转化为所述用户口语指令。

本实施例中，可以设置触发器来响应关键词的检测结果。例如，当语音唤醒处理模块检测到实时环境声音信号包含关键词的语音，则可以基于语音唤醒处理模块内嵌的或与连接语音唤醒处理模块连接的触发器产生唤醒信号(也即唤醒指令)，并将该唤醒信号发送至语音识别模块。当接收唤醒信号，语音识别模块可以从低功率空闲状态转换为高功率识别状态。此时，语音唤醒处理模块处于空置状态。

处于高功率识别状态时，语音识别模块可以监测实时环境声音信号中的用户语句终点，来确定需要处理的实时环境声音信号。可以基于预设时长范围和实时环境声音信号的能量变化来确定用户语句终点。如可以定义预设时长范围为3-10秒，能量阈值为当前环境的背景噪音平均值，当检测到的实时环境声音信号低于能量阈值，则认为用户发言完毕(也可以是停顿)，即监测到实时环境声音信号中的用户语句终点(此处的用户语句终点也可能不是实际的用户语音的终点)。

在一些实施例中，需要处理的实时环境声音信号可以包括音频缓冲器缓冲的初始段(即包括指定关键词的实时环境声音信号)和实时环境声音信号之后的一个或多个附加接收段的音频信号。其中，附加接收段包括来自用户的进一步语音。在另一些实施例中，指定关键词可以同时被语音唤醒处理模块和语音识别模块所识别。

语音识别模块还可以设置停止进行语音识别的终点。例如，在指定时长的时间内未检测到语音活动，则语音识别模块从高功率识别状态转换到低功率空闲状态。

步骤S301-S303中，当检测到所述实时环境声音信号包含关键词的语音时，生成唤醒指令，以及时响应用户的口语指令。根据所述唤醒指令监测所述实时环境声音信号中的用户语句终点，以确保获取到的用户口语指令是完整的。若监测到所述实时环境声音信号中的用户语句终点，则对所述用户语句终点前的所述实时环境声音信号进行识别，并将所述用户语句终点前的所述实时环境声音信号转化为所述用户口语指令，以获得需要进行处理的用户口语指令。

可选的，如图6所示，所述通过音频缓冲器缓存实时环境声音信号之前，包括：

S11、检测当前环境中的所有声音信号，并判断在所有声音信号中是否存在符合预设声源要求的目标声源；

S12、在存在符合预设声源要求的目标声源时，为所述目标声源添加识别标识；

S13、通过声源定位运算对所述目标声源进行定位，获取所述目标声源的声源位置，所述声源位置与所述识别标识关联。

在本实施例中，在音频缓冲器缓存实时环境声音信号之前，可以先对获取到的环境中的所有声音信号进行检测，判断各个声音信号是否符合预设声源要求。在此处，可以对获取到的环境中的所有声音信号进行分离，获得多个独立的声音信号。如，可以使用ManyEars技术对声音信号进行分离。

具体的，符合预设声源要求的目标声源，是指在预设音量大小范围中的持续时长大于预设时长的声音信号。其中，预设音量大小范围可以根据需求进行设定，可以设定该音量大小范围的最小值和最大值。超出所述音量大小范围的最大值的即视为噪音，此时将其排除在目标声源的范围之外。小于所述音量大小的最小值的，可以视为其不是该当前环境中所需要进行追踪的追踪对象所发出的目标声源。可理解地，预设音量大小范围以及预设时长可以根据当前环境的不同进行设定。

进一步地，在不存在符合预设声源要求的目标声源时，此时继续获取当前环境中的声音信号进行检测。

在确定存在符合预设声源要求的目标声源时，可以为该目标声源添加识别标识。在声音信号中存在多个符合预设声源要求的目标声源时，可以为各个目标声源添加不同的识别标识，如，可以标记为第一目标声源、第二目标声源等。

作为优选，可以由通过ManyEars技术中的声源定位运算对属于目标声源的声音信息进行定位，确定目标声源的具体的实时位置。在此处，声音的采集设备可以是麦克风阵列，可以根据采集到的声音信号的时序上的微小差别计算出目标声源的声源位置。声源位置可以包括方向和距离。

步骤S11-S13中，检测当前环境中的所有声音信号，并判断在所有声音信号中是否存在符合预设声源要求的目标声源，以确定目标声源的存在。在存在符合预设声源要求的目标声源时，为所述目标声源添加识别标识，以区分可能存在的不同目标声源。通过声源定位运算对所述目标声源进行定位，获取所述目标声源的声源位置，所述声源位置与所述识别标识关联，以确定目标声源对应的位置(即声源位置)。

可选的，所述通过语音识别模型对所述实时环境声音信号进行识别，获得用户口语指令，包括：

S304、获取与所述声源位置匹配的调校参数；

S305、根据所述调校参数对所述实时环境声音信号进行处理，生成优化声音信号；

S306、使用所述语音识别模型对所述优化声音信号进行处理，获得所述用户口语指令。

本实施例中，为了提高对实时环境信号的识别率，可以根据计算出的声源位置对实时环境信号进行优化处理。在此处，调校参数包括但不限于音量增益、特定噪音特征参数、混响回音特征参数。调教参数因所在环境的不同而存在差异，同时，也受到声音信号采集设备的放置位置影响。在一些情况下，调教参数可以是根据在先采集的语音数据自主学习而获得(如，可使用无监督学习算法自行对已采集的语音数据进行处理)。

在获得与声源位置匹配的调校参数后，可以使用该调校参数对实时环境声音信号进行优化处理，生成更利于语音识别模型识别的优化声音信号。

最后，由语音识别模型对优化声音信号进行处理，获得需要的用户口语指令。由于优化声音信号的质量更高，获得的用户口语指令也更为精确。在一些特定环境下，优化声音信号可以有效消除原有的实时环境信号中的环境杂音、混响信号，大大提高用户口语指令的识别正确率，减少用户重复发出口语指令的次数。

步骤S304-S306中，获取与所述声源位置匹配的调校参数，以进一步对实时环境信号进行优化处理。根据所述调校参数对所述实时环境声音信号进行处理，生成优化声音信号，以获得更适于语音识别模型处理的声音信号。使用所述语音识别模型对所述优化声音信号进行处理，获得所述用户口语指令，以识别出用户的口语指令。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

在一实施例中，提供一种语音处理装置，该语音处理装置与上述实施例中语音处理方法一一对应。如图8所示，该语音处理装置包括缓存模块10、检测模块20、识别模块30、指令转化模块40和执行模块50。各功能模块详细说明如下：

缓存模块10，用于通过音频缓冲器缓存实时环境声音信号；

检测模块20，用于检测所述实时环境声音信号是否包含指定关键词；

识别模块30，用于若检测到所述实时环境声音信号包含所述指定关键词，则通过语音识别模型对所述实时环境声音信号进行识别，获得用户口语指令；

指令转化模块40，用于将所述用户口语指令转化为机器逻辑指令；

执行模块50，用于将所述机器逻辑指令发送到执行设备，以使执行设备执行所述机器逻辑指令。

可选的，如图9所示，缓存模块10包括：

采集单元101，用于采集环境声音，生成所述实时环境声音信号；

存储单元102，用于在所述音频缓冲器以循环缓冲的方式存储所述实时环境声音信号。

可选的，语音处理装置还包括设置模块，该设置模块包括：

获取设置信息单元，用于获取用户输入的关键词设置信息；

规范判断单元，用于判断所述关键词设置信息是否符合预设规范；

确定关键词单元，用于若所述关键词设置信息符合所述预设规范，则确定所述关键词设置信息为所述指定关键词。

可选的，识别模块30包括：

唤醒单元，用于当检测到所述实时环境声音信号包含关键词的语音时，生成唤醒指令；

语句终点检测单元，用于根据所述唤醒指令监测所述实时环境声音信号中的用户语句终点；

口语指令转化单元，用于若监测到所述实时环境声音信号中的用户语句终点，则对所述用户语句终点前的所述实时环境声音信号进行识别，并将所述用户语句终点前的所述实时环境声音信号转化为所述用户口语指令。

可选的，语音处理装置还包括定位模块，该定位模块包括：

目标声源判断单元，用于检测当前环境中的所有声音信号，并判断在所有声音信号中是否存在符合预设声源要求的目标声源；

添加标识单元，用于在存在符合预设声源要求的目标声源时，为所述目标声源添加识别标识；

确定声源位置单元，用于通过声源定位运算对所述目标声源进行定位，获取所述目标声源的声源位置，所述声源位置与所述识别标识关联。

可选的，识别模块30包括：

获取参数单元，用于获取与所述声源位置匹配的调校参数；

声音优化单元，用于根据所述调校参数对所述实时环境声音信号进行处理，生成优化声音信号；

语音识别单元，用于使用所述语音识别模型对所述优化声音信号进行处理，获得所述用户口语指令。

关于语音处理装置的具体限定可以参见上文中对于语音处理方法的限定，在此不再赘述。上述语音处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机可读指令和数据库。该内存储器为非易失性存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的数据库用于存储上述语音处理方法所涉及的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种语音处理方法。本实施例所提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令，处理器执行计算机可读指令时实现以下步骤：

通过音频缓冲器缓存实时环境声音信号；

检测所述实时环境声音信号是否包含指定关键词；

将所述用户口语指令转化为机器逻辑指令；

在一个实施例中，提供了一种计算机可读存储介质，本实施例所提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质。可读存储介质上存储有计算机可读指令，计算机可读指令被处理器执行时实现以下步骤：

通过音频缓冲器缓存实时环境声音信号；

检测所述实时环境声音信号是否包含指定关键词；

将所述用户口语指令转化为机器逻辑指令；

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，所述的计算机可读指令可存储于一非易失性计算机可读取存储介质或易失性可读存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

一种语音处理方法，其特征在于，包括：

通过音频缓冲器缓存实时环境声音信号；

检测所述实时环境声音信号是否包含指定关键词；

若检测到所述实时环境声音信号包含所述指定关键词，则通过语音识别模型对所述实时环境声音信号进行识别，获得用户口语指令；

将所述用户口语指令转化为机器逻辑指令；

将所述机器逻辑指令发送到执行设备，以使执行设备执行所述机器逻辑指令。
如权利要求1所述的语音处理方法，其特征在于，所述通过音频缓冲器缓存实时环境声音信号，包括：

采集环境声音，生成所述实时环境声音信号；

在所述音频缓冲器以循环缓冲的方式存储所述实时环境声音信号。
如权利要求1所述的语音处理方法，其特征在于，所述检测所述实时环境声音信号是否包含指定关键词之前，还包括：

获取用户输入的关键词设置信息；

判断所述关键词设置信息是否符合预设规范；

若所述关键词设置信息符合所述预设规范，则确定所述关键词设置信息为所述指定关键词。
如权利要求1所述的语音处理方法，其特征在于，所述若检测到所述实时环境声音信号包含关键词的语音，则对所述实时环境声音信号进行识别，获得用户口语指令，包括：

当检测到所述实时环境声音信号包含关键词的语音时，生成唤醒指令；

根据所述唤醒指令监测所述实时环境声音信号中的用户语句终点；

若监测到所述实时环境声音信号中的用户语句终点，则对所述用户语句终点前的所述实时环境声音信号进行识别，并将所述用户语句终点前的所述实时环境声音信号转化为所述用户口语指令。
如权利要求1所述的语音处理方法，其特征在于，所述通过音频缓冲器缓存实时环境声音信号之前，包括：

检测当前环境中的所有声音信号，并判断在所有声音信号中是否存在符合预设声源要求的目标声源；

在存在符合预设声源要求的目标声源时，为所述目标声源添加识别标识；

通过声源定位运算对所述目标声源进行定位，获取所述目标声源的声源位置，所述声源位置与所述识别标识关联。
如权利要求5所述的语音处理方法，其特征在于，所述通过语音识别模型对所述实时环境声音信号进行识别，获得用户口语指令，包括：

获取与所述声源位置匹配的调校参数；

根据所述调校参数对所述实时环境声音信号进行处理，生成优化声音信号；

使用所述语音识别模型对所述优化声音信号进行处理，获得所述用户口语指令。
一种语音处理装置，其特征在于，包括：

缓存模块，用于通过音频缓冲器缓存实时环境声音信号；

检测模块，用于检测所述实时环境声音信号是否包含指定关键词；

识别模块，用于若检测到所述实时环境声音信号包含所述指定关键词，则通过语音识别模型对所述实时环境声音信号进行识别，获得用户口语指令；

指令转化模块，用于将所述用户口语指令转化为机器逻辑指令；

执行模块，用于将所述机器逻辑指令发送到执行设备，以使执行设备执行所述机器逻辑指令。
如权利要求7所述的语音处理装置，其特征在于，所述缓存模块包括：

采集单元，用于采集环境声音，生成所述实时环境声音信号；

存储单元，用于在所述音频缓冲器以循环缓冲的方式存储所述实时环境声音信号。
如权利要求7所述的语音处理装置，其特征在于，所述语音处理装置还包括设置模块，该设置模块包括：

获取设置信息单元，用于获取用户输入的关键词设置信息；

规范判断单元，用于判断所述关键词设置信息是否符合预设规范；

确定关键词单元，用于若所述关键词设置信息符合所述预设规范，则确定所述关键词设置信息为所述指定关键词。
如权利要求7所述的语音处理装置，其特征在于，所述识别模块包括：

唤醒单元，用于当检测到所述实时环境声音信号包含关键词的语音时，生成唤醒指令；

语句终点检测单元，用于根据所述唤醒指令监测所述实时环境声音信号中的用户语句终点；

口语指令转化单元，用于若监测到所述实时环境声音信号中的用户语句终点，则对所述用户语句终点前的所述实时环境声音信号进行识别，并将所述用户语句终点前的所述实时环境声音信号转化为所述用户口语指令。
如权利要求7所述的语音处理装置，其特征在于，所述语音处理装置还包括定位模块，该定位模块包括：

目标声源判断单元，用于检测当前环境中的所有声音信号，并判断在所有声音信号中是否存在符合预设声源要求的目标声源；

添加标识单元，用于在存在符合预设声源要求的目标声源时，为所述目标声源添加识别标识；

确定声源位置单元，用于通过声源定位运算对所述目标声源进行定位，获取所述目标声源的声源位置，所述声源位置与所述识别标识关联。
如权利要求11所述的语音处理装置，其特征在于，所述识别模块包括：

获取参数单元，用于获取与所述声源位置匹配的调校参数；

声音优化单元，用于根据所述调校参数对所述实时环境声音信号进行处理，生成优化声音信号；

语音识别单元，用于使用所述语音识别模型对所述优化声音信号进行处理，获得所述用户口语指令。
一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，其特征在于，所述处理器执行所述计算机可读指令时实现如下步骤：

通过音频缓冲器缓存实时环境声音信号；

检测所述实时环境声音信号是否包含指定关键词；

若检测到所述实时环境声音信号包含所述指定关键词，则通过语音识别模型对所述实时环境声音信号进行识别，获得用户口语指令；

将所述用户口语指令转化为机器逻辑指令；

将所述机器逻辑指令发送到执行设备，以使执行设备执行所述机器逻辑指令。
如权利要求13所述的计算机设备，其特征在于，所述通过音频缓冲器缓存实时环境声音信号，包括：

采集环境声音，生成所述实时环境声音信号；

在所述音频缓冲器以循环缓冲的方式存储所述实时环境声音信号。
如权利要求13所述的计算机设备，其特征在于，在所述检测所述实时环境声音信号是否包含指定关键词之前，所述处理器执行所述计算机可读指令时还实现如下步骤：

获取用户输入的关键词设置信息；

判断所述关键词设置信息是否符合预设规范；

若所述关键词设置信息符合所述预设规范，则确定所述关键词设置信息为所述指定关键词。
如权利要求13所述的计算机设备，其特征在于，所述若检测到所述实时环境声音信号包含关键词的语音，则对所述实时环境声音信号进行识别，获得用户口语指令，包括：

当检测到所述实时环境声音信号包含关键词的语音时，生成唤醒指令；

根据所述唤醒指令监测所述实时环境声音信号中的用户语句终点；

若监测到所述实时环境声音信号中的用户语句终点，则对所述用户语句终点前的所述实时环境声音信号进行识别，并将所述用户语句终点前的所述实时环境声音信号转化为所述用户口语指令。
一个或多个存储有计算机可读指令的可读存储介质，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行如下步骤：

通过音频缓冲器缓存实时环境声音信号；

检测所述实时环境声音信号是否包含指定关键词；

若检测到所述实时环境声音信号包含所述指定关键词，则通过语音识别模型对所述实时环境声音信号进行识别，获得用户口语指令；

将所述用户口语指令转化为机器逻辑指令；

将所述机器逻辑指令发送到执行设备，以使执行设备执行所述机器逻辑指令。
如权利要求17所述的可读存储介质，其特征在于，所述通过音频缓冲器缓存实时环境声音信号，包括：

采集环境声音，生成所述实时环境声音信号；

在所述音频缓冲器以循环缓冲的方式存储所述实时环境声音信号。
如权利要求17所述的可读存储介质，其特征在于，在所述检测所述实时环境声音信号是否包含指定关键词之前，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器还执行如下步骤：

获取用户输入的关键词设置信息；

判断所述关键词设置信息是否符合预设规范；

若所述关键词设置信息符合所述预设规范，则确定所述关键词设置信息为所述指定关键词。
如权利要求17所述的可读存储介质，其特征在于，所述若检测到所述实时环境声音信号包含关键词的语音，则对所述实时环境声音信号进行识别，获得用户口语指令，包括：

当检测到所述实时环境声音信号包含关键词的语音时，生成唤醒指令；

根据所述唤醒指令监测所述实时环境声音信号中的用户语句终点；

若监测到所述实时环境声音信号中的用户语句终点，则对所述用户语句终点前的所述实时环境声音信号进行识别，并将所述用户语句终点前的所述实时环境声音信号转化为所述用户口语指令。