WO2018121747A1

WO2018121747A1 - 语音控制方法和装置

Info

Publication number: WO2018121747A1
Application number: PCT/CN2017/119923
Authority: WO
Inventors: 王嘉晋; 熊友军
Original assignee: 深圳市优必选科技有限公司
Priority date: 2016-12-31
Filing date: 2017-12-29
Publication date: 2018-07-05
Also published as: CN106686243A

Abstract

本发明公开了语音控制方法，应用于设有第一音频单元和第二音频单元的系统，语音控制方法包括以下步骤：获取第一音频单元输入的第一语音信息；识别第一语音信息中的语音指令；根据语音指令判断是否需要停止获取第二音频单元输入的第二语音信息；若需要，则停止获取第二音频单元输入的第二语音信息。通过在设有第一音频单元和第二音频单元的系统中，将第一音频单元作为语音识别引擎的音频输入源，第二音频单元作为通话录音等其他应用的输入源，实现在通话或者录音过程中可以并行识别语音指令。解决了业界普遍存在的在音视频通话中无法同时用语音并行处理语音指令的问题。

Description

语音控制方法和装置

技术领域

本发明涉及语音识别领域，特别涉及语音控制方法和装置。

背景技术

现阶段，带有语音控制功能的电子装置一般来说硬件上只有一路麦克风或拾音器等作为音频输入单元，语音通话或者录入声音的时候，这一路麦克风会被占用，语音识别引擎程序就无法使用这一路麦克风进行语音指令的识别。现有技术通常是将语音引擎和视频通话或者语音录入写在一个应用里，这样语音先经过语音引擎识别，经过识别不是指令，则把语音透传给视频通话或者语音录入逻辑，但这样做有两个缺点：

1.所有普通语音都要经过语音识别处理，再进行录入，语音有较大延时，很容易音视频不同步。

2.需要定制视频通话或者语音录入程序，因为需要使用语音引擎提供的API来导入声音，机器人上无法使用普通的调用Android标准AudioRecord的第三方视频通话或者语音录入程序。

发明内容

为了克服现有技术的不足，本发明的目的在于提供语音控制方法和装置，其能解决现有技术通常是将语音引擎和视频通话或者语音录入写在一个应用里，所有普通语音都要经过语音识别处理，再进行录入，语音有较大延时，很容易音视频不同步，且需要定制视频通话或者语音录入程序的问题。

本发明的目的采用以下技术方案实现：

语音控制方法，应用于设有第一音频单元和第二音频单元的系统，所述语音控制方法包括以下步骤：

获取所述第一音频单元输入的第一语音信息；

识别所述第一语音信息中的语音指令；

根据所述语音指令判断是否需要停止获取所述第二音频单元输入的第二语音信息；

若需要，则停止获取所述第二音频单元输入的第二语音信息。

优选的，所述获取所述第一音频单元输入的第一语音信息之前，还包括以下步骤：

接收唤醒所述第一音频单元的唤醒指令；

判断是否允许唤醒所述第一音频单元；

若允许唤醒所述第一音频单元，则唤醒所述第一音频单元。

优选的，所述若需要，则停止获取所述第二音频单元输入的第二语音信息，具体为：若需要停止获取所述第二音频单元输入的第二语音信息，则挂断音频通话或视频通话。

分配所述第一音频单元为语音识别引擎的输入源。

另一方面，本发明还公开了语音控制装置，包括：

第一获取单元，用于获取所述第一音频单元输入的第一语音信息；

第二获取单元，用于获取所述第二音频单元输入的第二语音信息；

识别单元，用于识别所述第一语音信息中的语音指令；

第一判断单元，用于根据所述语音指令判断是否需要停止获取所述第二音频单元输入的第二语音信息；

停止单元，用于若需要，则停止获取所述第二音频单元输入的第二语音信息。

优选的，所述语音控制装置还包括：

接收单元，用于接收唤醒所述第一音频单元的唤醒指令；

第二判断单元，用于判断是否允许唤醒所述第一音频单元，若允许唤醒所述第一音频单元，则唤醒所述第一音频单元。

优选的，所述停止单元包括：

挂断单元，用于若需要停止获取所述第二音频单元输入的第二语音信息，则挂断音频通话或视频通话。

优选的，所述语音控制装置还包括：

分配单元，用于分配所述第一音频单元为语音识别引擎的输入源。

优选的，所述第一音频单元和第二音频单元均包括麦克风、麦克风矩阵、麦克风接口、麦克风矩阵接口或无线音频输入装置。

语音控制装置，包括：

处理器以及用于存储处理器可执行的指令的存储器；

所述处理器被配置为：

获取所述第一音频单元输入的第一语音信息；

识别所述第一语音信息中的语音指令；

相比现有技术，本发明的有益效果在于：通过在设有第一音频单元和第二音频单元的系统中，将第一音频单元作为语音识别引擎的音频输入源，第二音频单元作为通话录音等其他应用的输入源，实现在通话或者录音过程中可以并行识别语音指令。解决了业界普遍存在的在音视频通话中无法同时用语音并行处理语音指令(包括挂断音频通话)的问题。该方法无需定制音视频通话或录音程序，且避免了录音延迟，导致音视频不同步的问题。

附图说明

图1是本发明实施例一提供的语音控制方法的流程示意图。

图2是本发明实施例二提供的语音控制方法的流程示意图。

图3是本发明实施例三提供的语音控制装置的结构示意图。

图4是本发明实施例四提供的语音控制装置的结构示意图。

具体实施方式

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂，以下特举较佳实施例，并配合附图，详细说明如下。

实施例一：

如图1所示的语音控制方法，应用于设有第一音频单元和第二音频单元的系统。针对语音通话和录音功能占有音频输入单元，导致语音识别引擎无法使用麦克风等音频输入单元进行语音指令识别的缺点，在硬件上多引入了一路音频输入单元，将语音识别引擎的声源指定为多加的这一路音频输入单元，在通话或者录音过程中可以并行识别语音指令。

具体的，在硬件上多引入一路麦克风源，可以通过I2S(Inter—IC Sound)总线接入，该总线专责于音频设备之间的数据传输，广泛应用于各种多媒体系统。它采用了沿独立的导线传输时钟与数据信号的设计，通过将数据和时钟信号分离，避免了因时差诱发的失真，为用户节省了购买抵抗音频抖动的专业设备的费用。

音频输入单元可以包括麦克风、麦克风矩阵、麦克风接口、麦克风矩阵接口或无线音频输入装置。

所述语音控制方法包括以下步骤：

S110，获取所述第一音频单元输入的第一语音信息。

预先已经设定第一音频单元为语音识别引擎的音频输入源，第一语音信息作为语音识别引擎进行语音识别的对象。

S120，识别所述第一语音信息中的语音指令。

语音识别引擎预先存储有语音指令和与语音指令相对应的应用、处理数据、做出动作等反应机制。处理器、控制器中的语音识别引擎或者独立的语音识别芯片对第一语音信息做处理，识别第一语音信息中是否有与预先存储的语音指令对应的信息，若有，则进行步骤S130；若没有，则继续获取所述第一音频单元输入的第一语音信息。

S130，根据所述语音指令判断是否需要停止获取所述第二音频单元输入的第二语音信息。

语音识别引擎中预先存储的语音指令，有些优先级较高，或者第二音频单元输入第二语音信息会干扰语音指令相应的反应机制，就需要停止获取所述第二音频单元输入的第二语音信息。当然也包括第一语音信息中的语音指令相应的反应机制就是停止获取所述第二音频单元输入的第二语音信息这种情况。

S140，若需要，则停止获取所述第二音频单元输入的第二语音信息。

具体的，是通过向正在使用第二音频单元的应用如音视频通话、录音等发送关闭或中止命令，停止第二音频单元的输入。

所述若需要，则停止获取所述第二音频单元输入的第二语音信息，具体为：若需要停止获取所述第二音频单元输入的第二语音信息，则挂断音频通话或视频通话，音频通话也可是录音过程，视频通话也可以是录像过程。

本实施例提供的语音控制方法，通过在设有第一音频单元和第二音频单元的系统中，将第一音频单元作为语音识别引擎的音频输入源，第二音频单元作为通话录音等其他应用的输入源，实现在通话或者录音过程中可以并行识别语音指令。解决了业界普遍存在的在音视频通话中无法同时用语音并行处理语音指令(包括挂断音频通话)的问题。该方法无需定制音视频通话或录音程序，且避免了录音延迟，导致音视频不同步的问题。

实施例二：

如图2所示的语音控制方法，应用于设有第一音频单元和第二音频单元的系统，所述语音控制方法包括以下步骤：

S201，分配所述第一音频单元为语音识别引擎的输入源。本发明涉及的“第一”和“第二”仅用于区别不同部件，不具备区分顺序作用。可以分配所述第一音频单元为语音识别引擎的输入源，当然也可以分配其他音频单元，如第二音频单元为语音识别引擎的输入源。

具体的，所述分配可以通过应用程序编程接口(Application Programming Interface,API)等手段来实现。

通过可以分配语音识别引擎的输入源，可以方便布置或调整第一音频单元和第二音频单元的位置。

作为本发明的进一步改进，所述语音控制方法还包括以下步骤：

S202，接收唤醒所述第一音频单元的唤醒指令。

具体的，可以为启动语音识别引擎设置一条专用指令。在语音识别引擎未启动之前，即使识别到语音识别引擎预先存储的语音指令，也不会执行与所述语音指令相对应的事件。

S203，判断是否允许唤醒所述第一音频单元。如果设备处于紧急通话状态或有比所述唤醒动作优先级高的指令，即使接收到唤醒所述第一音频单元的唤醒指令，第一音频单元也不允许向语音识别引擎输出音频信息。

S204，若允许唤醒所述第一音频单元，则唤醒所述第一音频单元。第一音频单元激活生效，允许获取所述第一音频单元输入的第一语音信息，即执行步骤S210。

通过使语音识别引擎可关闭和开启，实现设备计算资源的高效利用，而同样可以保证本发明所要实现的效果：通过在设有第一音频单元和第二音频单元的系统中，将第一音频单元作为语音识别引擎的音频输入源，第二音频单元作为通话录音等其他应用的输入源，实现在通话或者录音过程中可以并行识别语音指令。

S210，获取所述第一音频单元输入的第一语音信息。

S220，识别所述第一语音信息中的语音指令。

S230，根据所述语音指令判断是否需要停止获取所述第二音频单元输入的第二语音信息。

S240，若需要，则停止获取所述第二音频单元输入的第二语音信息。

步骤S210、S220、S230和S240，分别对应实施例一中的S110、S120、S130和S140，不再赘述。

实施例三：

如图3所示的语音控制装置，包括：

111，第一获取单元，用于获取所述第一音频单元输入的第一语音信息。

112，第二获取单元，用于获取所述第二音频单元输入的第二语音信息。

典型的，所述第一音频单元和第二音频单元均包括麦克风、麦克风矩阵、麦克风接口、麦克风矩阵接口或无线音频输入装置。

101，分配单元，用于分配所述第一音频单元为语音识别引擎的输入源。

102，接收单元，用于接收唤醒所述第一音频单元的唤醒指令；

103第二判断单元，用于判断是否允许唤醒所述第一音频单元，若允许唤醒所述第一音频单元，则唤醒所述第一音频单元。

120，识别单元，用于识别所述第一语音信息中的语音指令；

130，第一判断单元，用于根据所述语音指令判断是否需要停止获取所述第二音频单元输入的第二语音信息；

140，停止单元，用于若需要，则停止获取所述第二音频单元输入的第二语音信息。

具体的，所述停止单元包括挂断单元(图未示)，用于若需要停止获取所述第二音频单元输入的第二语音信息，则挂断音频通话或视频通话。音频通话也包括录音等过程。

本实施例中的装置与前述实施例中的方法是基于同一发明构思下的两个方面，在前面已经对方法实施过程作了详细的描述，所以本领域技术人员可根据前述描述清楚地了解本实施中的系统的结构及实施过程，为了说明书的简洁，在此就不再赘述。

为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本发明时可以把各模块的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的模块或单元可以是或者也可以不是物理上分开的，作为模块或单元示意的部件可以是或者也可以不是物理模块，既可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明可用于众多通用或专用的计算系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等，如实施例四。

实施例四：

如图4所示的装置，包括：处理器200以及用于存储处理器200可执行的指令的存储器300；

所述处理器200被配置为：

获取所述第一音频单元输入的第一语音信息；

识别所述第一语音信息中的语音指令；

本发明实施例提供的装置，通过在设有第一音频单元和第二音频单元的系统中，将第一音频单元作为语音识别引擎的音频输入源，第二音频单元作为通话录音等其他应用的输入源，实现在通话或者录音过程中可以并行识别语音指令。解决了业界普遍存在的在音视频通话中无法同时用语音并行处理语音指令(包括挂断音频通话)的问题。该方法无需定制音视频通话或录音程序，且避免了录音延迟，导致音视频不同步的问题。

对于本领域的技术人员来说，可根据以上描述的技术方案以及构思，做出其它各种相应的改变以及变形，而所有的这些改变以及变形都应该属于本发明权利要求的保护范围之内。

Claims

语音控制方法，其特征在于，应用于设有第一音频单元和第二音频单元的系统，所述语音控制方法包括以下步骤：

获取所述第一音频单元输入的第一语音信息；

识别所述第一语音信息中的语音指令；

根据所述语音指令判断是否需要停止获取所述第二音频单元输入的第二语音信息；

若需要，则停止获取所述第二音频单元输入的第二语音信息。
如权利要求1所述的语音控制方法，其特征在于：所述获取所述第一音频单元输入的第一语音信息之前，还包括以下步骤：

接收唤醒所述第一音频单元的唤醒指令；

判断是否允许唤醒所述第一音频单元；

若允许唤醒所述第一音频单元，则唤醒所述第一音频单元。
如权利要求1所述的语音控制方法，其特征在于：所述若需要，则停止获取所述第二音频单元输入的第二语音信息，具体为：若需要停止获取所述第二音频单元输入的第二语音信息，则挂断音频通话或视频通话。
如权利要求1-3中任一项所述的语音控制方法，其特征在于：所述获取所述第一音频单元输入的第一语音信息之前，还包括以下步骤：

分配所述第一音频单元为语音识别引擎的输入源。
语音控制装置，其特征在于，包括：

第一获取单元，用于获取所述第一音频单元输入的第一语音信息；

第二获取单元，用于获取所述第二音频单元输入的第二语音信息；

识别单元，用于识别所述第一语音信息中的语音指令；

第一判断单元，用于根据所述语音指令判断是否需要停止获取所述第二音频单元输入的第二语音信息；

停止单元，用于若需要，则停止获取所述第二音频单元输入的第二语音信息。
如权利要求5所述的语音控制装置，其特征在于，还包括：

接收单元，用于接收唤醒所述第一音频单元的唤醒指令；

第二判断单元，用于判断是否允许唤醒所述第一音频单元，若允许唤醒所述第一音频单元，则唤醒所述第一音频单元。
如权利要求5所述的语音控制装置，其特征在于，所述停止单元包括：

挂断单元，用于若需要停止获取所述第二音频单元输入的第二语音信息，则挂断音频通话或视频通话。
如权利要求5-7中任一项所述的语音控制装置，其特征在于，还包括：

分配单元，用于分配所述第一音频单元为语音识别引擎的输入源。
如权利要求5-7中任一项所述的语音控制装置，其特征在于，所述第一音频单元和第二音频单元均包括麦克风、麦克风矩阵、麦克风接口、麦克风矩阵接口或无线音频输入装置。
语音控制装置，其特征在于，包括：

处理器以及用于存储处理器可执行的指令的存储器；

所述处理器被配置为：

获取所述第一音频单元输入的第一语音信息；

识别所述第一语音信息中的语音指令；

根据所述语音指令判断是否需要停止获取所述第二音频单元输入的第二语音信息；

若需要，则停止获取所述第二音频单元输入的第二语音信息。