WO2020244402A1

WO2020244402A1 - 基于麦克风信号的语音交互唤醒电子设备、方法和介质

Info

Publication number: WO2020244402A1
Application number: PCT/CN2020/092067
Authority: WO
Inventors: 史元春; 喻纯
Original assignee: 清华大学
Priority date: 2019-06-03
Filing date: 2020-05-25
Publication date: 2020-12-10
Also published as: CN110428806B; CN110428806A

Abstract

一种基于麦克风信号的语音交互唤醒电子设备、方法和介质。电子设备具有存储器和中央处理器，存储器上存储有计算机可执行指令，计算机可执行指令被中央处理器执行时能够执行如下操作：分析多个麦克风采集的声音信号（S201）；判断用户是否正在近距离对着电子设备说话（S202）；响应于确定用户正在近距离对着电子设备说话，将麦克风采集的声音信号作为用户的语音输入处理（S203）。交互方法适用于用户在携带智能电子设备时进行语音输入，操作自然且简单，简化了语音输入的步骤，降低交互负担和难度，使得交互更加自然。

Description

基于麦克风信号的语音交互唤醒电子设备、方法和介质

本申请要求于2019年06月03日提交至中国专利局、申请号为201910475972.9、发明名称为“基于麦克风信号的语音交互唤醒电子设备、方法和介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请总的来说涉及语音输入领域，且更为具体地，涉及智能电子设备、语音输入触发方法。

背景技术

随着计算机技术的发展，语音识别算法日益成熟，语音输入因其在交互方式上的高自然性与有效性而正变得越来越重要。用户可以通过语音与移动设备(手机、手表等)进行交互，完成指令输入、信息查询、语音聊天等多种任务。

而在何时触发语音输入这一点上，现有的解决方案都有一些缺陷：

1.物理按键触发

按下(或按住)移动设备的某个(或某些)物理按键后，激活语音输入。

该方案的缺点是：需要物理按键；容易误触发；需要用户按键。

2.界面元素触发

点击(或按住)移动设备的屏幕上的界面元素(如图标)，激活语音输入。

该方案的缺点是：需要设备具备屏幕；触发元素占用屏幕内容；受限于软件UI限制，可能导致触发方式繁琐；容易误触发。

3.唤醒词(语音)检测

以某个特定词语(如产品昵称)为唤醒词，设备检测到对应的唤醒词后激活语音输入。

该方案的缺点是：隐私性和社会性较差；交互效率较低。

发明内容

鉴于上述情况，提出了本申请：

根据本申请的一个方面，提供了一种配置有多个麦克风的电子设备，电子设备具有存储器和中央处理器，存储器上存储有计算机可执行指令，计算机可执行指令被中央处理器执行时能够执行如下操作：分析多个麦克风采集的声音信号；判断用户是否正在近距离对着电子设备说话；响应于确定用户正在近距离对着电子设备说话，将麦克风采集的声音信号作为用户的语音输入处理。

优选的，多个麦克风构成麦克风阵列系统。

优选的，所述判断用户是否正在近距离对着电子设备说话包括：利用到达阵列上各传声器的声音信号之间的时间差计算用户嘴部相对于麦克风阵列的位置；当用户嘴部距离电子设备的距离小于一定阈值时，确定用户正在近距离对着电子设备说话。

优选的，所述距离阈值为10厘米。

优选的，所述将该声音信号作为用户的语音输入做处理包括：根据说话人嘴部和电子设备之间距离的不同，对用户的语音输入做不同处理。

优选的，所述判断用户是否正在近距离对着电子设备说话包括：判断是否至少有一个麦克风采集的声音信号中包含用户说话的语音信号；响应于确定至少有一个麦克风采集的声音信号中包含用户说话的语音信号，从麦克风采集的声音信号中提取语音信号；判断从不同麦克风采集的声音信号中提取的语音信号的幅度差异是否超过预定阈值时；响应于确定幅度差值超过预定阈值，确认用户正在近距离对着电子设备说话。

优选的，电子设备还可操作来：定义多个麦克风中，语音信号幅度最大的麦克风为响应麦克风；根据响应麦克风的不同，对用户的语音输入做不同的处理。

优选的，所述判断用户是否正在近距离对着电子设备说话包括：利用提前训练的机器学习模型，处理多个麦克风的声音信号，判断用户是否正在近距离对着电子设备说话。

优选的，用户说话的语音包括：用户以正常音量说话的声音；用户以小音量说话的声音；用户以声带不发声方式说话发出的声音。

优选的，用户说话的语音包括：用户以正常音量说话的声音，用户以小音量说话的声音，用户以声带不发声方式说话发出的声音。

优选的，电子设备还可操作来：响应于确定用户正在近距离对着电子设备说话；判断用户在以如下方式中的一种在发声，包括：用户以正常音量说话的声音；用户以小音量说话的声音；用户以声带不发声方式说话发出的声音；以及根据判断的结果不同，对声音信号做不同的处理。

优选的，所述不同的处理为激活不同的应用程序处理语音输入。

优选的，判断的特征包括音量、频谱特征，能量分布等。

优选的，将声音信号作为用户的语音输入所做的处理包括以下一种或多种：将声音信号存储到电子设备上的可存储介质；将声音信号通过互联网发送出去；将声音信号中的语音信号识别为文字，存储到电子设备上的可存储介质；将声音信号中的语音信号识别为文字，通过互联网发送出去；将声音信号中的语音信号识别为文字，理解用户的语音指令，执行相应操作。

优选的，电子设备还可操作来通过声纹分析识别特定用户，只对包含特定用户语音的声音信号做处理。

优选的，电子设备为智能手机、智能手表、智能戒指、平板电脑中的一种。

根据本申请的另一个方面，提供了一种由配置有多个麦克风的电子设备执行的语音输入触发方法，电子设备具有存储器和中央处理器，存储器上存储有计算机可执行指令，计算机可执行指令被中央处理器执行时能够执行所述语音输入触发方法，所述语音输入触发方法包括：分析多个麦克风采集的声音信号；判断用户是否正在近距离对着电子设备说话；响应于确定用户正在近距离对着电子设备说话，将麦克风采集的声音信号作为用户的语音输入处理。

根据本申请的另一个方面，提供了一种计算机可读介质，其上存储有计算机可执行指令，计算机可执行指令被计算机执行时能够执行语音交互唤醒方法，所述语音交互唤醒方法包括：分析多个麦克风采集的声音信号；判断用户是否正在近距离对着电子设备说话；响应于确定用户正在近距离对着电子设备说话，将麦克风采集的声音信号作为用户的语音输入处理

根据本申请的另一个方面，提供了一种配置有麦克风的电子设备，电子设备具有存储器和中央处理器，存储器上存储有计算机可执行指令，计算机可执行指令被中央处理器执行时能够执行如下操作：分析麦克风采集的声音信号，识别声音信号中是否包含人说话的语音以及是否包含人说话产生的气流撞击麦克风产生的风噪声音，响应于确定声音信号中包含人说话的声音以及包含用户说话产生的气流撞击麦克风产生的风噪声音，将该声音信号作为用户的语音输入做处理。

优选的，电子设备还可操作来：响应于确定用户正在近距离对着电子设备说话，判断用户在以如下方式中的一种在发声，包括：用户以正常音量说话的声音，用户以小音量说话的声音，用户以声带不发声方式说话发出的声音；根据判断的结果不同，对声音信号做不同的处理。

优选的，判断使用的特征包括音量、频谱特征，能量分布等。

优选的，电子设备为智能手机、智能手表、智能戒指中的一种。

优选的，电子设备还可操作来：使用神经网络模型判断声音信号中是否包含用户说话的语音以及说话产生的气流撞击麦克风产生的风噪声音。

优选的，电子设备还可操作来识别声音信号中是否包含人说话的语音以及是否包含人说话产生的气流撞击麦克风产生的风噪声音包括识别声音信号中是否包含用户说话的语音；响应于确定声音信号中包含用户说话的语音，识别语音中的音素，将语音信号表示为音素序列；针对音素序列中的每个音素，确定该音素是否为吐气音素，即：用户发声该音素时有气流从嘴中出来；将声音信号按照固定窗口长度切分为声音片段序列；利用频率特征，识别每个声音片段是否包含风噪声；将语音音素序列中的吐气音素和声音片段序列中识别为风噪声的片段做比较，同时将音素序列中的非吐气音素和风噪声片段作比较，当吐气音素与风噪声片段重合度高于一定阈值，且非吐气音素与非风噪声片段重合度低于一定阈值时，判断该声音信号中包含用户说话产生的气流撞击麦克风产生的风噪声音。

优选的，识别声音信号中是否包含人说话的语音以及是否包含人说话产生的气流撞击麦克风产生的风噪声音包括：识别声音信号中包含风噪的声音特征；响应于确定声音信号中包含风噪声，识别声音信号包含语音信号；响应于确定声音信号中包含语音信号，识别语音信号对应的音素序列；针对声音信号中的风噪特征，计算每一时刻的风噪特征强度；针对音素序列中的每个音素，根据预先定义的数据模型获得该音素吐气的强度；通过基于高斯混合贝叶斯模型分析风噪特征与音素序列的一致性，重合度高于一定阈值时，判断该声音信号中包含用户说话产生的气流撞击麦克风产生的风噪声音。

根据本申请的另一个方面，一种配置有麦克风的电子设备，电子设备具有存储器和中央处理器，存储器上存储有计算机可执行指令，计算机可执行指令被中央处理器执行时能够执行如下操作：判断麦克风采集的声音信号中是否包含语音信号；响应于确认麦克风采集的声音信号中包含语音信号，判断用户是否在做低声说话，即以低于正常音量的方式说话；响应于确定用户正在做低声说话，无需任何唤醒操作地将声音信号作为语音输入处理。

优选的，所述低声说话包括声带不发声的低声说话和声带发声的低声说话两种方式。

优选的，电子设备还操作来：响应于确定用户在做低声说话；判断用户在做声带不发声的低声说话还是在做声带发声的低声说话；根据判断的结果不同，对声音信号做不同的处理。

优选的，不同的处理为激活不同的应用程序来响应语音输入。

优选的，判断用户是否在做低声说话时使用的信号特征包括音量、频谱特征，能量分布。

优选的，判断用户在做声带不发声的低声说话或者在做声带发声的低声说话时使用的信号特征包括音量、频谱特征，能量分布。

优选的，所述判断用户是否在做低声说话包括：利用机器学习模型，处理麦克风采集的声音信号，判断用户是否在低声说话。

优选的，所述机器学习模型为卷积神经网络模型或者循环神经网络模型。

优选的，所述判断用户在做声带不发声的低声说话还是在做声带发声的低声说话包括：利用机器学习模型，处理麦克风采集的声音信号，判断用户在做声带不发声的低声说话或者在做声带发声的低声说话。

优选的，通过声纹分析识别特定用户，只对包含特定用户语音的声音信号做处理。

优选的，电子设备为智能手机、智能手表、智能戒指等。

根据本申请的另一个方面，一种配置有麦克风的智能电子设备，所述智能电子便携设备如下操作与用户进行基于语音输入的交互：处理麦克风捕获的声音信号判断声音信号中是否存在语音信号；响应于确认声音信号中存在语音信号，基于麦克风采集的声音信号进一步判断智能电子设备与用户的嘴部距离是否小于预定阈值；响应于确定电子设备与用户嘴部距离小于预定阈值，将麦克风采集的声音信号作为语音输入处理。

优选的，预定阈值为3厘米。

优选的，预定阈值为1厘米。

优选的，电子设备的麦克风处还有接近光传感器，通过接近光传感器判断是否有物体接近电子设备。

优选的，电子设备的麦克风处还有距离传感器，通过距离传感器直接测量电子设备与用户嘴部的距离。

优选的，通过麦克风收集的声音信号特征来判断智能电子设备与用户的嘴部距离是否小于预定阈值。

优选的，所述语音信号包括下面各项之一或者组合：用户以正常音量说话发出的声音；用户低声说话发出的声音；用户声带不发声说话产生的声音。

优选的，判断中使用的特征包括音量、频谱特征，能量分布等。

优选的，判断智能电子设备与用户的嘴部距离是否小于预定阈值时使用的特征包括声音信号中的时域特征和频域特征，包括音量、频谱能量。

优选的，所述判断智能电子设备与用户的嘴部距离是否小于预定阈值包括：从麦克风采集到的声音信号信号通过滤波器提取语音信号；判断所述语音信号的能量是否超过一定阈值；响应于语音信号强度超过一定阈值，判断电子设备与用户嘴部距离小于预定阈值。

优选的，所述判断智能电子设备与用户的嘴部距离是否小于预定阈值包括：利用深度神经网络模型处理麦克风采集的数据，判断智能电子设备与用户的嘴部距离是否小于预定阈值。

优选的，所述判断智能电子设备与用户的嘴部距离是否小于预定阈值包括：记录用户在未做语音输入时的语音信号；将麦克风当前采集的语音信号与未做语音输入时的语音信号作比较；如果判断麦克风当前采集的语音信号音量超过未做语音输入时的语音信号的音量一定阈值，判断智能电子设备与用户的嘴部距离小于预定阈值。

优选的，电子设备还通过声纹分析识别特定用户，只对包含特定用户语音的声音信号做处理。

优选的，电子设备为智能手机、智能手表、智能戒指等。

此处的移动设备包括但不限于手机、头戴式显示器、手表，以及智能戒指、腕表等更小型的智能穿戴设备。

本方案优势：

1.交互更加自然。将设备放在嘴前即触发语音输入，符合用户习惯与认知。

2.使用效率更高。单手即可使用。无需在不同的用户界面/应用之间切换，也不需按住某个按键，直接抬起手到嘴边就能使用。

3.收音质量高。设备的录音机在用户嘴边，收取的语音输入信号清晰，受环境音的影响较小。

4.高隐私性与社会性。设备在嘴前，用户只需发出相对较小的声音即可完成高质量的语音输入，对他人的干扰较小，同时用户姿势可以包括捂嘴等，具有较好的隐私保护。

附图说明

从下面结合附图对本申请实施例的详细描述中，本申请的上述和/或其它目的、特征和优势将变得更加清楚并更容易理解。其中：

图1是根据本申请实施例的语音输入交互方法的示意性流程图。

图2示出了根据本申请的另一实施例的配置有多个麦克风的电子设备使用多个麦克风接收的声音信号的差别的语音输入触发方法的总体流程图。

图3示出了根据本申请实施例的内置有麦克风的电子设备基于低声说话方式识别的语音输入触发方法的总体流程图。

图4描述基于麦克风的声音信号的距离判断的语音输入触发方法的总体流程图

图5是根据本申请实施例的触发姿势中的将手机上端麦克风贴近嘴部的正面示意图。

图6是根据本申请实施例的触发姿势中的将手机上端麦克风贴近嘴部的侧面示意图。

图7是根据本申请实施例的触发姿势中的将手机下端麦克风贴近嘴部的示意图。

图8是根据本申请实施例的触发姿势中的将智能手表麦克风贴近嘴部的示意图。

具体实施方式

为了使本领域技术人员更好地理解本申请，下面结合附图和具体实施方式对本申请作进一步详细说明。

本公开针对智能电子设备的语音输入触发，基于配置的麦克风捕捉的声音内在特征，来确定是否触发语音输入应用，其中无需传统的物理按键触发、界面元素触发、唤醒词检测，交互更加自然。将设备放在嘴前即触发语音输入，符合用户习惯与认知。

下面将从以下几个方面来继续本公开：1、基于人类说话时风噪声特征的语音输入触发，具体地，通过识别人说话时候的语音和风噪声音来直接启动语音输入并将接收的声音信号作为语音输入处理；2、基于多个麦克风接收的声音信号的差别的语音输入触发；3、基于低声说话方式识别的语音输入触发；4、基于麦克风的声音信号的距离判断的语音输入触发。

一、基于人类说话时风噪声特征的语音输入触发

当用户近距离对着麦克风说话时，即使声音很小或者不触发声带发声，麦克风采集到的声音信号中包含两种声音成分，一是人声带和口腔震动发出的声音，二是人说话产生的气流撞击麦克风产生的风噪声音。可以基于这个特性来触发电子设备的语音输入应用。

图1示出了根据本申请实施例的语音输入交互方法100的示意性流程图。

在步骤S101中，分析麦克风采集的声音信号，识别声音信号中是否包含人说话的语音以及是否包含人说话产生的气流撞击麦克风产生的风噪声音，

在步骤S102中，响应于确定声音信号中包含人说话的声音以及包含用户说话产生的气流撞击麦克风产生的风噪声音，将该声音信号作为用户的语音输入做处理。

本申请实施例的语音输入交互方法特别适合于在隐私要求比较高的情况下，不用声带发声地进行语音输入。

这里用户说话的语音可以包括：用户以正常音量说话的声音、用户以小音量说话的声音、用户以声带不发声方式说话发出的声音。

在一个示例中，可以识别上述不同的说话方式，根据识别结果产生不同的反馈，比如正常说话就是控制手机的语音助理，低声说话就是控制微信，声带不发声说话就是做语音转录笔记。

作为示例，将声音信号作为用户的语音输入所做的处理包括以下一种或多种：

将声音信号存储到电子设备上的可存储介质；

将声音信号通过互联网发送出去；

将声音信号中的语音信号识别为文字，存储到电子设备上的可存储介质；

将声音信号中的语音信号识别为文字，通过互联网发送出去；

将声音信号中的语音信号识别为文字，理解用户的语音指令，执行相应操作。

在一个示例中，还包括通过声纹分析识别特定用户，只对包含特定用户语音的声音信号做处理。

在一个示例中，电子设备为智能手机、智能手表、智能戒指中的一种。

在一个示例中，使用神经网络模型判断声音信号中是否包含用户说话的语音以及说话产生的气流撞击麦克风产生的风噪声音。此仅为示例，可以使用其他机器学习算法。

在一个示例中，识别声音信号中是否包含人说话的语音以及是否包含人说话产生的气流撞击麦克风产生的风噪声音包括：

识别声音信号中是否包含用户说话的语音；

响应于确定声音信号中包含用户说话的语音，识别语音中的音素，将语音信号表示为音素序列；

针对音素序列中的每个音素，确定该音素是否为吐气音素，即：用户发声该音素时有气流从嘴中出来；

将声音信号按照固定窗口长度切分为声音片段序列；

利用频率特征，识别每个声音片段是否包含风噪声；

将语音音素序列中的吐气音素和声音片段序列中识别为风噪声的片段做比较，同时将音素序列中的非吐气音素和风噪声片段作比较，当吐气音素与风噪声片段重合度高于一定阈值，且非吐气音素与非风噪声片段重合度低于一定阈值时，判断该声音信号中包含用户说话产生的气流撞击麦克风产生的风噪声音。

识别声音信号中包含风噪的声音特征；

响应于确定声音信号中包含风噪声，识别声音信号包含语音信号；

响应于确定声音信号中包含语音信号，识别语音信号对应的音素序列；

针对声音信号中的风噪特征，计算每一时刻的风噪特征强度；

针对音素序列中的每个音素，根据预先定义的数据模型获得该音素吐气的强度；

通过基于高斯混合贝叶斯模型分析风噪特征与音素序列的一致性，重合度高于一定阈值时，判断该声音信号中包含用户说话产生的气流撞击麦克风产生的风噪声音。

二、基于多个麦克风接收的声音信号的差别的语音输入触发

电子设备例如手机内置有多个麦克风的电子设备，电子设备具有存储器和中央处理器，存储器上存储有计算机可执行指令，计算机可执行指令被中央处理器执行时能够执行本实施例的语音输入触发方法。

如图2所示，在步骤S201中，分析多个麦克风采集的声音信号。

在一个示例中，多个麦克风包括至少3个麦克风，构成麦克风阵列系统，通过声音信号达到各个麦克风的时间差可以估计声源相对于智能设备的空间位置。

这里的声音信号包括例如声音信号的幅度、频率等等。

在步骤S202中，基于多个麦克风采集的声音信号，判断用户是否正在近距离对着电子设备说话。

在一个示例中，判断用户是否正在近距离对着电子设备说话包括：

利用到达阵列上各传声器的声音信号之间的时间差计算用户嘴部相对于麦克风阵列的位置，

当用户嘴部距离电子设备的距离小于一定阈值时，确定用户正在近距离对着电子设备说话。

在一个示例中，所述距离阈值为10厘米。

在步骤S203中，响应于确定用户正在近距离对着电子设备说话，将麦克风采集的声音信号作为用户的语音输入处理。

在一个示例中，将该声音信号作为用户的语音输入做处理包括：

根据说话人嘴部和电子设备之间距离的不同，对用户的语音输入做不同处理。例如，当距离为0-3cm时，激活语音助手响应用户的语音输入；当距离为3-10cm时，激活微信应用程序响应用户的语音输入，将语音信息发送给好友；

判断是否至少有一个麦克风采集的声音信号中包含用户说话的语音信号，

响应于确定至少有一个麦克风采集的声音信号中包含用户说话的语音信号，从麦克风采集的声音信号中提取语音信号，

判断从不同麦克风采集的声音信号中提取的语音信号的幅度差异是否超过预定阈值时，

响应于确定幅度差值超过预定阈值，确认用户正在近距离对着电子设备说话。

在上面的例子中，还可以包括：

定义多个麦克风中语音信号幅度最大的麦克风为响应麦克风，

根据响应麦克风的不同，对用户的语音输入做不同的处理。例如，当响应麦克风是智能手机底部的麦克风时，激活智能手机上的语音助手；当响应麦克风是智能手机顶部的麦克风时，激活录音机功能将用户的语音记录到存储设备；

在一个示例中，判断用户是否正在近距离对着电子设备说话包括：利用提前训练的机器学习模型，处理多个麦克风的声音信号，判断用户是否正在近距离对着电子设备说话。一般地，准备训练样本数据，然后利用训练样本数据来训练选定的机器学习模型，在实际应用时(有时也叫测试)，将多个麦克风捕获的声音信号(作为测试样本)输入机器学习模型，得到的输出表示用户是否正在近距离对着电子设备说话。作为示例，机器学习模型例如为深度学习神经网络、支持向量机、决策树等。

在一个示例中，用户说话的语音包括：用户以正常音量说话的声音，用户以小音量说话的声音，用户以声带不发声方式说话发出的声音。

在一个示例中，将声音信号作为用户的语音输入所做的处理包括以下一种或多种：将声音信号存储到电子设备上的可存储介质；将声音信号通过互联网发送出去；将声音信号中的语音信号识别为文字，存储到电子设备上的可存储介质；将声音信号中的语音信号识别为文字，通过互联网发送出去；将声音信号中的语音信号识别为文字，理解用户的语音指令，执行相应操作。

在一个示例，还包括通过声纹分析识别特定用户，只对包含特定用户语音的声音信号做处理。

作为示例，电子设备为智能手机、智能手表、智能戒指、平板电脑等。

本实施例利用内置的不同麦克风之间声音信号的差别来识别用户是否近距离对着电子设备说话，进而决定是否启动语音输入，具有识别可靠，计算方法简单等优点。

三、基于低声说话方式识别的语音输入触发

低声说话是指说话音量小于正常说话(比如与他人正常交谈)音量的方式。低声说话包括两种方式。一种是声带不震动的低声说话(俗称悄悄话)，另一种是声带发生震动的低声说话。在声带不震动的低声说话方式下，产生的声音主要包含空气通过喉部、嘴部发出的声音以及嘴内舌头牙齿发出的声音。在声带震动的低声说话方式下，发出的声音除了包含声带不震动的低声说话方式下产生的声音，还包括声带震动产生的声音。但相比于正常音量的说话方式，声带震动的低声说话过程中，声带震动程度较小，产生的声带震动声音较小。声带不震动低声说话产生的声音和声带震动产生的声音的频率范围不同，可以区分。声带震动低声说话和声带震动的正常音量说话可以通过音量阈值来区分，具体的阈值可以提前设定，也可以由用户来设定。

示例方法：对麦克风采集的语音信号做滤波处理，提取两部分信号，分别为声带震动产生的声音成分V1和空气通过喉部、嘴部发出的以及嘴内舌头牙齿发出的声音V2。当V1和V2的能量比值小于一定阈值时，判定用户在做低声说话。

一般情况下，低声说话只有当用户距离麦克风比较近的时候才能检测，比如距离小于30厘米时。而定义近距离情况下的低声说话作为语音输入，对用户而言是一种易于学习和理解和方便操作的交互方式，可以免除显式的唤醒操作，比如按压特定的唤醒按键或者是通过语音唤醒词。且这种方式在绝大多数的实际使用情况下，不会被误触发。

图3示出了根据本申请实施例的配备有麦克风的电子设备基于低声说话方式识别的语音输入触发方法的总体流程图。配备有麦克风的电子设备具有存储器和中央处理器，存储器上存储有计算机可执行指令，计算机可执行指令被中央处理器执行时能够执行根据本申请实施例的语音输入触发方法。

如图3所示，在步骤S301中，判断麦克风采集的声音信号中是否包含语音信号。

在步骤S302中，响应于确认麦克风采集的声音信号中包含语音信号，判断用户是否在做低声说话，即以低于正常音量的方式说话。

在步骤S303中，响应于确定用户正在做低声说话，无需任何唤醒操作地将声音信号作为语音输入处理。

低声说话可以包括声带不发声的低声说话和声带发声的低声说话两种方式。

在一个示例中，语音输入触发方法还可以包括：响应于确定用户在做低声说话，判断用户在做声带不发声的低声说话还是在做声带发声的低声说话，根据判断的结果不同，对声音信号做不同的处理。

作为示例，不同的处理为将语音输入交给不同的应用程序来处理。比如正常说话就是控制手机的语音助理，低声说话就是控制微信，声带不发声说话就是做语音转录笔记。

作为示例，判断用户是否在做低声说话时使用的信号特征可以包括音量、频谱特征，能量分布等。

作为示例，判断用户在做声带不发声的低声说话或者在做声带发声的低声说话时使用的信号特征包括音量、频谱特征，能量分布等。

作为示例，判断用户是否在做低声说话可以包括：利用机器学习模型，处理麦克风采集的声音信号，判断用户是否在低声说话。

作为示例，机器学习模型可以为卷积神经网络模型或者循环神经网络模型。

作为示例，判断用户在做声带不发声的低声说话还是在做声带发声的低声说话包括：利用机器学习模型，处理麦克风采集的声音信号，判断用户在做声带不发声的低声说话或者在做声带发声的低声说话。

将声音信号存储到电子设备上的可存储介质；

将声音信号通过互联网发送出去；

作为示例，语音输入触发方法还可以包括：通过声纹分析识别特定用户，只对包含特定用户语音的声音信号做处理。

作为示例，电子设备可以为智能手机、智能手表、智能戒指等。

有关低声说话模式以及检测方法，作为示例，可以参考下述参考文献：

Zhang,Chi,and John HL Hansen."Analysis and classification of speech mode:whispered through shouted."Eighth Annual Conference of the International Speech Communication Association.2007.

Meenakshi,G.Nisha,and Prasanta Kumar Ghosh."Robust whisper activity detection using long-term log energy variation of sub-band signal."IEEE Signal Processing Letters 22.11(2015):1859-1863.

四、基于麦克风的声音信号的距离判断的语音输入触发

下面结合图4描述基于麦克风的声音信号的距离判断的语音输入触发方法的总体流程图。

如图4所示，在步骤401中，处理麦克风捕获的声音信号判断声音信号中是否存在语音信号。

在步骤402中，响应于确认声音信号中存在语音信号，基于麦克风采集的声音信号进一步判断智能电子设备与用户的嘴部距离是否小于预定阈值。

在步骤403中，响应于确定电子设备与用户嘴部距离小于预定阈值，将麦克风采集的声音信号作为语音输入处理。

在一个示例中，预定阈值为10厘米。

语音信号可以包括下面各项之一或者组合：用户以正常音量说话发出的声音；用户低声说话发出的声音；用户声带不发声说话产生的声音。

在一个示例中，判断智能电子设备与用户的嘴部距离是否小于预定阈值时使用的特征包括声音信号中的时域特征和频域特征，包括音量、频谱能量。

在一个示例中，所述判断智能电子设备与用户的嘴部距离是否小于预定阈值包括：利用深度神经网络模型处理麦克风采集的数据，判断智能电子设备与用户的嘴部距离是否小于预定阈值。

在一个示例中，所述判断智能电子设备与用户的嘴部距离是否小于预定阈值包括：记录用户在未做语音输入时的语音信号，将麦克风当前采集的语音信号与未做语音输入时的语音信号作比较，如果判断麦克风当前采集的语音信号音量超过未做语音输入时的语音信号的音量一定阈值，判断智能电子设备与用户的嘴部距离小于预定阈值。

在一个示例中，语音输入触发还包括通过声纹分析识别特定用户，只对包含特定用户语音的声音信号做处理。

在一个示例中，电子设备为智能手机、智能手表、智能戒指等。

图5至图8显示了几例用户将智能电子便携设备的麦克风放置到嘴边较近距离的位置，此时用户发出的语音将作为语音输入。其中，图5与图6分别是手机上端有麦克风的情况，在这种情况下，用户有语音交互意图时，可以将手机的麦克风移动到嘴边0～10厘米处，直接说话即可作为语音输入。图7是手机下端有麦克风的情况，与前述上端有麦克风相类似，两种姿势不是互斥的，如果手机上下端均有麦克风则任意一种姿势均可以实施交互方案。图8是对应设备为智能手表时的情况，与上述设备为手机的情况类似。上述对触发姿势的说明是示例性的，并非穷尽性的，并且也不限于所披露的各种设备和麦克风情况。

作为使用单个麦克风来接收声音输入并触发语音输入的一个具体实施例子，可以首先通过分析单麦克风接收到的声音输入，判断是否为语音，并通过分析语音的近距离特有的特征，如麦克风爆破音、近场风噪、吹气声、能量、频谱特征、时域特征等，判断电子设备自身与用户的嘴的距离是否小于给定阈值，以及通过声纹识别判断语音输入来源是否属于可服务用户，结合以上几点来判断是否将麦克风信号作为语音输入。

作为使用双麦克风来接收声音输入并触发语音输入的一个具体实施例子，通过分析双麦克风输入信号的特征差异，如能量特征、频谱特征，判断发声位置是否贴近其中一个麦克风，通过双麦克风的信号差异从而屏蔽环境噪音、分离语音到对应的单声道，然后通过上述单麦克风的特征分析方法，判断电子设备自身与用户的嘴的距离小于给定阈值，以及通过声纹识别判断语音输入来源是否属于可服务用户，结合以上几点来判断是否将信号作为语音输入。

作为使用多麦克风阵列来接收声音输入并触发语音输入的一个具体实施例子，通过比较分析不同麦克风接收到的声音输入的信号的差异，通过从环境中分离近场语音信号，识别与检测声音信号是否包括语音，通过多麦克风阵列的声源定位技术判断语音信号的用户嘴的位置与设备之间的距离是否小于预定阈值，以及通过声纹识别判断语音输入来源是否属于可服务用户，结合以上几点来判断是否将信号作为语音输入。

在一个示例中，在智能电子便携设备通过分析语音信号，检测到发音位置位于自身附近，也即移动设备位于用户嘴部较近位置，智能电子便携设备便将声音信号作为语音输入，根据任务与上下文的不同，再结合自然语言处理技术理解用户的语音输入并完成相应的任务。

麦克风并不局限于前述示例，而是可以包括下面各项之一或者其组合：设备内置单麦克风；设备内置双麦克风；设备内置多麦克风阵列；外接无线麦克风；以及外接有线麦克风。

如前所述，智能电子便携设备可以为手机，装备有双耳蓝牙耳机、带有麦克风的有线耳机或者其他麦克风传感器。

智能电子便携设备可以为手表，以及智能戒指、腕表中的一种智能穿戴设备。

智能电子便携设备为头戴式智能显示设备，装备有麦克风或者多麦克风组。

在一个示例中，在电子设备激活语音输入应用后，可以做出反馈输出，反馈输出包括震动、语音、图像中的一种或者其组合。

本申请各个实施例的方案可以提供下述一种或几种优势：

以上已经描述了本申请的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

一种配置有多个麦克风的电子设备，电子设备具有存储器和中央处理器，存储器上存储有计算机可执行指令，计算机可执行指令被中央处理器执行时能够执行如下操作：

分析多个麦克风采集的声音信号，

判断用户是否正在近距离对着电子设备说话，

响应于确定用户正在近距离对着电子设备说话，将麦克风采集的声音信号作为用户的语音输入处理。
根据权利要求1的电子设备，多个麦克风构成麦克风阵列系统。
根据权利要求2的电子设备，所述判断用户是否正在近距离对着电子设备说话包括：

利用到达阵列上各传声器的声音信号之间的时间差计算用户嘴部相对于麦克风阵列的位置，

当用户嘴部距离电子设备的距离小于一定阈值时，确定用户正在近距离对着电子设备说话。
根据权利要求3的电子设备，所述距离阈值为10厘米。
根据权利要求3的电子设备，所述将该声音信号作为用户的语音输入做处理包括：

根据说话人嘴部和电子设备之间距离的不同，对用户的语音输入做不同处理。
根据权利要求1的电子设备，所述判断用户是否正在近距离对着电子设备说话包括：

判断是否至少有一个麦克风采集的声音信号中包含用户说话的语音信号，

响应于确定至少有一个麦克风采集的声音信号中包含用户说话的语音信号，从麦克风采集的声音信号中提取语音信号，

判断从不同麦克风采集的声音信号中提取的语音信号的幅度差异是否超过预定阈值时，

响应于确定幅度差值超过预定阈值，确认用户正在近距离对着电子设备说话。
根据权利要求6的电子设备，还包括：

定义多个麦克风中，语音信号幅度最大的麦克风为响应麦克风，

根据响应麦克风的不同，对用户的语音输入做不同的处理。
根据权利要求1的电子设备，所述判断用户是否正在近距离对着电子设备说话包括：

利用提前训练的机器学习模型，处理多个麦克风的声音信号，判断用户是否正在近距离对着电子设备说话。
根据权利要求1的电子设备，用户说话的语音包括：

用户以正常音量说话的声音，

用户以小音量说话的声音，

用户以声带不发声方式说话发出的声音。
根据权利要求1的电子设备，还包括：

响应于确定用户正在近距离对着电子设备说话，

判断用户在以如下方式中的一种在发声，包括：

用户以正常音量说话的声音，

用户以小音量说话的声音，

用户以声带不发声方式说话发出的声音；以及

根据判断的结果不同，对声音信号做不同的处理。
根据权利要求10的电子设备，所述不同的处理为激活不同的应用程序处理语音输入。
根据权利要求10的电子设备，判断的特征包括音量、频谱特征，能量分布。
根据权利要求1的电子设备，将声音信号作为用户的语音输入所做的处理包括以下一种或多种：

将声音信号存储到电子设备上的可存储介质；

将声音信号通过互联网发送出去；

将声音信号中的语音信号识别为文字，存储到电子设备上的可存储介质；

将声音信号中的语音信号识别为文字，通过互联网发送出去；

将声音信号中的语音信号识别为文字，理解用户的语音指令，执行相应操作。
根据权利要求1的电子设备，还包括通过声纹分析识别特定用户，其中只对包含特定用户语音的声音信号做处理。
根据权利要求1的电子设备，电子设备为智能手机、智能手表、智能戒指、平板电脑中的一种。
一种由配置有多个麦克风的电子设备执行的语音交互唤醒方法，电子设备具有存储器和中央处理器，存储器上存储有计算机可执行指令，计算机可执行指令被中央处理器执行时能够执行所述语音交互唤醒方法所述语音交互唤醒方法包括：

分析多个麦克风采集的声音信号，

判断用户是否正在近距离对着电子设备说话，

响应于确定用户正在近距离对着电子设备说话，将麦克风采集的声音信号作为用户的语音输入处理。
一种计算机可读介质，其上存储有计算机可执行指令，计算机可执行指令被计算机执行时能够执行语音交互唤醒方法，所述语音交互唤醒方法包括：

分析多个麦克风采集的声音信号，

判断用户是否正在近距离对着电子设备说话，

响应于确定用户正在近距离对着电子设备说话，将麦克风采集的声音信号作为用户的语音输入处理。