WO2022156438A1

WO2022156438A1 - 一种唤醒方法及电子设备

Info

Publication number: WO2022156438A1
Application number: PCT/CN2021/138534
Authority: WO
Inventors: 刘长飞; 李树为; 孙渊
Original assignee: 华为技术有限公司
Priority date: 2021-01-20
Filing date: 2021-12-15
Publication date: 2022-07-28
Also published as: EP4258259A1; EP4258259A4; CN114863936A

Abstract

一种唤醒方法及电子设备。电子设备包括：处理器；存储器；M个麦克风；P个超声波发射器；Q个超声波接收器；存储器上的计算机程序，当被处理器执行时，电子设备执行：通过M个麦克风检测到第一声波信号；获取到第一拾音方向；当第一声波信号在第一拾音方向的分量与预设的唤醒词之间的相似度小于预设的第一阈值，且大于或等于预设的第二阈值时，通过收发第二声波信号，第二声波信号为超声波信号获取到第二拾音方向；当第一声波信号在第二拾音方向的分量与预设的唤醒词之间的相似度大于预设的第三阈值时，电子设备唤醒，从而提高电子设备的唤醒准确率，降低误唤醒概率，改善用户体验。

Description

一种唤醒方法及电子设备

本申请要求于2021年01月20日提交国家知识产权局、申请号为202110075531.7、申请名称为“一种唤醒方法及电子设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及终端领域，尤其涉及一种唤醒方法及电子设备。

背景技术

随着语音识别技术的发展，许多电子设备都安装有语音助手(例如，小E、Siri等)来实现与用户的语音交互。通常来说，电子设备会预设一个或多个唤醒词(例如，“你好小E”、“hi Siri”等)。在检测到预设的唤醒词后，电子设备唤醒，通过语音助手与用户语音交互。

不过，在实践中发现，有时即使用户发出的声波信号包含预设的唤醒词，电子设备也不唤醒；或者，有时即使用户发出的声波信号不包含预设的唤醒词，电子设备却唤醒。这给用户带来了不好的体验。

发明内容

为了解决上述的技术问题，本申请提供一种唤醒方法及电子设备。本申请提供的技术方案，可以提高电子设备唤醒的准确率，降低电子设备误唤醒的概率，改善用户体验。

第一方面，提供一种电子设备，处于未唤醒状态。电子设备包括：处理器；存储器；M(M为大于1的正整数)个麦克风，每个麦克风对应一个拾音入口；M个麦克风的M个拾音入口位于电子设备的第一表面，第一表面在一个平面上；上述M个麦克风中任意两个麦克风之间的距离都是固定的；P(P为大于等于1的正整数)个超声波发射器，每个超声波发射器对应一个超声波发射口；上述P个超声波发射器的P个超声波发射口位于第二表面；第二表面不同于第一表面；Q(Q为大于1的正整数)个超声波接收器，每个超声波接收器对应一个超声波接收口；上述Q个超声波接收器的Q个超声波接收口位于电子设备的第三表面，第三表面在一个平面上；第三表面不同于第一表面；上述Q个超声波接收器中任意两个超声波接收器之间的距离都是固定的；上述Q个超声波接收口与上述P个超声波发射口朝向不同的方向；以及计算机程序，其中计算机程序存储在存储器上，当计算机程序被处理器执行时，使得电子设备执行以下步骤：

通过上述M个麦克风检测到第一声波信号；响应于第一声波信号，根据第一声波信号到达M个麦克风中至少两个麦克风的到达时间差值，以及至少两个麦克风中的部分或全部麦克风之间的距离，获取到第一拾音方向；其中，第一拾音方向用于指示：第一声源位置在第一表面所在平面上的第一投影点，相对于第一表面所在平面上一个固定点(该固定点不同于第一投影点)；进而，获取第一声波信号在第一拾音方向上的第一声波信号分量；在第一声波信号分量与预设的唤醒词之间的相似度小于预设的第一阈值，且大于或等于预设的第二阈值后，可通过P个超声波发射器发射第二声波信号，第二声波信号为超声波信号；进而，可通过Q个超声波接收器接收到第二声波信号；响应于第二声波信号，根据第二声波信号到达Q个超声波接收器中至少两个超声波接收器的到达时间差值，以及至少两个超声波接收器中的部分或全部超声波接收器之间的距离，获取到第二拾音方向；其中，第二拾音方向用于指示：第二声源位置在第一表面所在平面上的第二投影点，相对于固定点(该固定点不同于第二投影点)的方向；进而，获取到第二声波信号在第二拾音方向上的第二声波信号分量；在第二声波信号分量与预设的唤醒词之间的相似度大于预设的第三阈值后，说明第一声波信号中包含该唤醒词，则电子设备唤醒。

可以看出，第一方面提供电子设备在执行唤醒方法可以划分为两个阶段。在第一阶段中，电子设备可以先按照声音唤醒流程，定位出第一拾音方向，进而识别第一声波信号在第一拾音方向上的声波信号分量与预设的唤醒词之间的相似度。当第一拾音方向上的声波信号分量与预设的唤醒词之间的相似度在第一阈值和第二阈值之间时，上述唤醒方法可进入第二阶段。在第二阶段中，电子设备可以使用超声波信号定位出第二拾音方向，进而识别第一声波信号在第二拾音方向上的声波信号分量与预设的唤醒词之间的相似度。当第二拾音方向上的声波信号分量与预设的唤醒词之间的相似度满足对应的阈值条件后，电子设备唤醒。这样，电子设备可以通过两个阶段对拾音方向的定位确定最终用户所在的声源位置，从而按照最终确定的声源位置进行唤醒词的识别，提高电子设备唤醒的准确率，降低电子设备误唤醒的概率。

根据第一方面，在第一声波信号分量与预设的唤醒词之间的相似度大于第一阈值后，电子设备还执行：唤醒电子设备。也就是说，如果在上述第一阶段中，第一声波信号在第一拾音方向上的声波信号分量与预设的唤醒词之间的相似度较高，说明电子设备检测到的第一声波信号与预设的唤醒词较为接近，则唤醒电子设备，不需要进入上述第二阶段再次进行定位。

根据第一方面，或者以上第一方面的任意一种实现方式，在第一声波信号分量与预设的唤醒词之间的相似度小于第二阈值后，电子设备还执行：保持未唤醒状态。也就是说，如果在上述第一阶段中，第一声波信号在第一拾音方向上的声波信号分量与预设的唤醒词之间的相似度较低，说明电子设备检测到的第一声波信号与预设的唤醒词差别较大，则电子设备可继续保持未唤醒的状态，也不需要进入上述第二阶段再次进行定位。

根据第一方面，或者以上第一方面的任意一种实现方式，在第二声波信号分量与预设的唤醒词之间的相似度小于或等于第三阈值后，电子设备还执行：保持未唤醒状态。也就是说，如果在上述第二阶段中，第一声波信号在第二拾音方向上的声波信号分量与预设的唤醒词之间的相似度较高，说明虽然在第一阶段中识别出第一声波信号与唤醒词之间的相似度不高，但通过超声波定位可确定实际第一声波信号与预设的唤醒词较为接近，则唤醒电子设备。

根据第一方面，或者以上第一方面的任意一种实现方式，上述Q个超声波接收器具体可以为上述M个麦克风的部分或全部；其中，Q小于等于M；上述超声波接收口此时为拾音入口；上述第三表面与第一表面相同。这样，电子设备可利用现有的麦克风参与超声波定位，不需要额外新增超声波接收器，降低在语音交互场景下进行超声波定位的成本。

根据第一方面，或者以上第一方面的任意一种实现方式，上述Q个超声波接收器可以不同于上述M个麦克风的部分或全部。

根据第一方面，或者以上第一方面的任意一种实现方式，电子设备还包括：N个扬声器，这N个扬声器的N个声波发射口位于第四表面；N为大于等于1的正整数；第四表面不同于上述第一表面。

根据第一方面，或者以上第一方面的任意一种实现方式，电子设备还包括：上述P个超声波发射器为上述N个扬声器的部分或全部；其中，P小于等于N；上述超声波发射口此时为声波发射口；第四表面与第二表面相同。这样，电子设备可利用现有的扬声器参与超声波定位，不需要额外新增超声波发射器，降低在语音交互场景下进行超声波定位的成本。

根据第一方面，或者以上第一方面的任意一种实现方式，上述P个超声波发射器可以不同于N个扬声器的部分或全部。

根据第一方面，或者以上第一方面的任意一种实现方式，上述第二表面平行于上述第一表面。

第二方面，提供一种电子设备，处于未唤醒状态。电子设备包括：处理器；存储器；M(M为大于1的正整数)个麦克风，每个麦克风对应一个拾音入口；M个麦克风的M个拾音入口位于电子设备的第一表面，第一表面在一个平面上；上述M个麦克风中任意两个麦克风之间的距离都是固定的；P(P为大于等于1的正整数)个超声波发射器，每个超声波发射器对应一个超声波发射口；上述P个超声波发射器的P个超声波发射口位于第二表面；第二表面不同于第一表面；Q(Q为大于1的正整数)个超声波接收器，每个超声波接收器对应一个超声波接收口；上述Q个超声波接收器的Q个超声波接收口位于电子设备的第三表面，第三表面在一个平面上；第三表面不同于第一表面；上述Q个超声波接收器中任意两个超声波接收器之间的距离都是固定的；上述Q个超声波接收口与上述P个超声波发射口朝向不同的方向；以及计算机程序，其中计算机程序存储在存储器上，当计算机程序被处理器执行时，使得电子设备执行以下步骤：

通过M个麦克风检测到第一声波信号；响应于第一声波信号，根据第一声波信号到达M个麦克风中至少两个麦克风的到达时间差值，以及至少两个麦克风中的部分或全部麦克风之间的距离，获取到第一拾音方向；第一拾音方向用于指示：第一声源位置在第一表面所在平面上的第一投影点，相对于第一表面所在平面上一个固定点的方向；固定点不同于第一投影点；获取到第一声波信号在第一拾音方向上的第一声波信号分量；在第一声波信号分量与预设的唤醒词之间的相似度小于预设的第一阈值，且大于或等于预设的第二阈值后，通过P个超声波发射器发射第二声波信号，第二声波信号为超声波信号；通过Q个超声波接收器接收到第二声波信号；响应于第二声波信号，根据第二声波信号到达Q个超声波接收器中至少两个超声波接收器的到达时间差值，以及至少两个超声波接收器中的部分或全部超声波接收器之间的距离，获取到第二拾音方向；第二拾音方向用于指示，第二声源位置在第一表面所在平面上的第二投影点，相对于固定点的方向；固定点不同于第二投影点；根据第一拾音方向和第二拾音方向确定第三拾音方向，第三拾音方向用于指示，第三声源位置在第一表面所在平面上的第三投影点，相对于固定点的方向；获取到第一声波信号在第三拾音方向上的第三声波信号分量；在第三声波信号分量与预设的唤醒词之间的相似度大于预设的第三阈值后，电子设备唤醒。

可以看出，第二方面提供的电子设备执行的唤醒方法也可以划分为两个阶段。在第一阶段中，电子设备可以先按照声音唤醒流程，定位出第一拾音方向，进而识别第一声波信号在第一拾音方向上的声波信号分量与预设的唤醒词之间的相似度。当第一拾音方向上的声波信号分量与预设的唤醒词之间的相似度在第一阈值和第二阈值之间时，上述唤醒方法可进入第二阶段。与第一方面不同的是，在第二阶段中，电子设备可以使用超声波信号定位出第二拾音方向，进而，通过第二拾音方向校正第一拾音方向，得到与用户实际所在位置更接近的第三拾音方向。这样，电子设备可识别第一声波信号在第三拾音方向上的声波信号分量与预设的唤醒词之间的相似度。当第三拾音方向上的声波信号分量与预设的唤醒词之间的相似度满足对应的阈值条件后，电子设备唤醒。进而电子设备唤醒的准确率更高，电子设备误唤醒的概率更低。

根据第二方面，在第一声波信号分量与预设的唤醒词之间的相似度大于第一阈值后，电子设备还执行：唤醒电子设备。与第一方面类似的，如果在上述第一阶段中，第一声波信号在第一拾音方向上的声波信号分量与预设的唤醒词之间的相似度较高，说明电子设备检测到的第一声波信号与预设的唤醒词较为接近，则唤醒电子设备，不需要进入上述第二阶段再次进行定位。

根据第二方面，或者以上第二方面的任意一种实现方式，在第一声波信号分量与预设的唤醒词之间的相似度小于第二阈值后，电子设备还执行：保持未唤醒状态。与第一方面类似的，如果在上述第一阶段中，第一声波信号在第一拾音方向上的声波信号分量与预设的唤醒词之间的相似度较低，说明电子设备检测到的第一声波信号与预设的唤醒词差别较大，则电子设备可继续保持未唤醒的状态，也不需要进入上述第二阶段再次进行定位。

根据第二方面，或者以上第二方面的任意一种实现方式，在第三声波信号分量与预设的唤醒词之间的相似度小于或等于第三阈值后，电子设备还执行：保持未唤醒状态。

根据第二方面，或者以上第二方面的任意一种实现方式，电子设备根据第一拾音方向和第二拾音方向确定第三拾音方向；包括：如果第一拾音方向与第二拾音方向的方向偏差绝对值小于预设的第四阈值，或，第一拾音方向与第二拾音方向的方向偏差绝对值大于预设的第五阈值后，则第三拾音方向与第一拾音方向相同。

根据第二方面，或者以上第二方面的任意一种实现方式，电子设备根据第一拾音方向和第二拾音方向确定第三拾音方向；包括：如果第一拾音方向与第二拾音方向的方向偏差绝对值，大于预设的第四阈值，且小于第五阈值，则第三拾音方向为在第一拾音方向上，叠加第一拾音方向与第二拾音方向的方向偏差绝对值与预设的比例系数的积。

根据第二方面，或者以上第二方面的任意一种实现方式，上述Q个超声波接收器为上述M个麦克风的部分或全部；其中，Q小于等于M；其中，上述超声波接收口为拾音入口；第三表面与第一表面相同。

根据第二方面，或者以上第二方面的任意一种实现方式，上述Q个超声波接收器不同于上述M个麦克风的部分或全部。

根据第二方面，或者以上第二方面的任意一种实现方式，电子设备还包括：N个扬声器，这N个扬声器的N个声波发射口位于第四表面；N为大于等于1的正整数；第四表面不同于第一表面。

根据第二方面，或者以上第二方面的任意一种实现方式，上述P个超声波发射器为上述N个扬声器的部分或全部；其中，P小于等于N；上述超声波发射口为声波发射口；第四表面与第二表面相同。

根据第二方面，或者以上第二方面的任意一种实现方式，上述P个超声波发射器不同于上述N个扬声器的部分或全部。

根据第二方面，或者以上第二方面的任意一种实现方式，上述第二表面平行于上述第一表面。

第三方面，提供一种唤醒方法。唤醒方法包括：通过M个麦克风检测到第一声波信号；响应于第一声波信号，根据第一声波信号到达上述M个麦克风中至少两个麦克风的到达时间差值，以及至少两个麦克风中的部分或全部麦克风之间的距离，获取到第一拾音方向；其中，第一拾音方向用于指示，第一声源位置在第一表面所在平面上的第一投影点，相对于第一表面所在平面上一个固定点的方向；该固定点不同于第一投影点；获取到第一声波信号在第一拾音方向上的第一声波信号分量；在第一声波信号分量与预设的唤醒词之间的相似度小于预设的第一阈值，且大于或等于预设的第二阈值后，通过P个超声波发射器发射第二声波信号，第二声波信号为超声波信号；通过Q个超声波接收器接收到第二声波信号；响应于第二声波信号，根据第二声波信号到达Q个超声波接收器中至少两个超声波接收器的到达时间差值，以及至少两个超声波接收器中的部分或全部超声波接收器之间的距离，获取到第二拾音方向；其中，第二拾音方向用于指示，第二声源位置在第一表面所在平面上的第二投影点，相对于固定点的方向；该固定点不同于第二投影点；获取到第二声波信号在第二拾音方向上的第二声波信号分量；在第二声波信号分量与预设的唤醒词之间的相似度大于预设的第三阈值后，电子设备唤醒。

与第一方面提供的电子设备对应的，第三方面提供的唤醒方法可以划分为两个阶段。在第一阶段中，电子设备可以先按照声音唤醒流程，定位出第一拾音方向，进而识别第一声波信号在第一拾音方向上的声波信号分量与预设的唤醒词之间的相似度。当第一拾音方向上的声波信号分量与预设的唤醒词之间的相似度在第一阈值和第二阈值之间时，上述唤醒方法可进入第二阶段。在第二阶段中，电子设备可以使用超声波信号定位出第二拾音方向，进而识别第一声波信号在第二拾音方向上的声波信号分量与预设的唤醒词之间的相似度。当第二拾音方向上的声波信号分量与预设的唤醒词之间的相似度满足对应的阈值条件后，电子设备唤醒。这样，电子设备可以通过两个阶段对拾音方向的定位确定最终用户所在的声源位置，从而按照最终确定的声源位置进行唤醒词的识别，提高电子设备唤醒的准确率，降低电子设备误唤醒的概率。

根据第三方面，在第一声波信号分量与预设的唤醒词之间的相似度大于第一阈值后，方法还包括：电子设备唤醒。

根据第三方面，或者以上第三方面的任意一种实现方式，在第一声波信号分量与预设的唤醒词之间的相似度小于第二阈值后，方法还包括：电子设备保持未唤醒状态。

根据第三方面，或者以上第三方面的任意一种实现方式，在第二声波信号分量与预设的唤醒词之间的相似度小于或等于第三阈值后，方法还包括：电子设备保持未唤醒状态。

第三方面的任意一种实现方式分别与第一方面的任意一种实现方式相对应。第三方面中任意一种实现方式所对应的技术效果可参见上述第一方面中任意一种实现方式所对应的技术效果，此处不再赘述。

第四方面，提供一种唤醒方法。唤醒方法包括：通过M个麦克风检测到第一声波信号；响应于第一声波信号，根据第一声波信号到达M个麦克风中至少两个麦克风的到达时间差值，以及至少两个麦克风中的部分或全部麦克风之间的距离，获取到第一拾音方向；其中，第一拾音方向用于指示，第一声源位置在第一表面所在平面上的第一投影点，相对于第一表面所在平面上一个固定点的方向；该固定点不同于第一投影点；获取到第一声波信号在第一拾音方向上的第一声波信号分量；在第一声波信号分量与预设的唤醒词之间的相似度小于预设的第一阈值，且大于或等于预设的第二阈值后，通过P个超声波发射器发射第二声波信号，第二声波信号为超声波信号；通过Q个超声波接收器接收到第二声波信号；响应于第二声波信号，根据第二声波信号到达Q个超声波接收器中至少两个超声波接收器的到达时间差值，以及至少两个超声波接收器中的部分或全部超声波接收器之间的距离，获取到第二拾音方向；其中，第二拾音方向用于指示，第二声源位置在第一表面所在平面上的第二投影点，相对于固定点的方向；该固定点不同于第二投影点；根据第一拾音方向和第二拾音方向确定第三拾音方向，其中，第三拾音方向用于指示，第三声源位置在第一表面所在平面上的第三投影点，相对于上述固定点的方向；获取到第一声波信号在第三拾音方向上的第三声波信号分量；在第三声波信号分量与预设的唤醒词之间的相似度大于预设的第三阈值后，电子设备唤醒。

与第二方面提供的电子设备对应的，第四方面提供的唤醒方法也可以划分为两个阶段。在第一阶段中，电子设备可以先按照声音唤醒流程，定位出第一拾音方向，进而识别第一声波信号在第一拾音方向上的声波信号分量与预设的唤醒词之间的相似度。当第一拾音方向上的声波信号分量与预设的唤醒词之间的相似度在第一阈值和第二阈值之间时，上述唤醒方法可进入第二阶段。与第三方面不同的是，在第二阶段中，电子设备可以使用超声波信号定位出第二拾音方向，进而，通过第二拾音方向校正第一拾音方向，得到与用户实际所在位置更接近的第三拾音方向。这样，电子设备可识别第一声波信号在第三拾音方向上的声波信号分量与预设的唤醒词之间的相似度。当第三拾音方向上的声波信号分量与预设的唤醒词之间的相似度满足对应的阈值条件后，电子设备唤醒。进而电子设备唤醒的准确率更高，电子设备误唤醒的概率更低。

根据第四方面，在第一声波信号分量与预设的唤醒词之间的相似度大于第一阈值后，方法还包括：电子设备唤醒。

根据第四方面，或者以上第四方面的任意一种实现方式，在第一声波信号分量与预设的唤醒词之间的相似度小于第二阈值后，方法还包括：电子设备保持未唤醒状态。

根据第四方面，或者以上第四方面的任意一种实现方式，在第三声波信号分量与预设的唤醒词之间的相似度小于或等于第三阈值后，方法还包括：电子设备保持未唤醒状态。

根据第四方面，或者以上第四方面的任意一种实现方式，根据第一拾音方向和第二拾音方向确定第三拾音方向；包括：在第一拾音方向与第二拾音方向的方向偏差绝对值小于预设的第四阈值，或，第一拾音方向与第二拾音方向的方向偏差绝对值大于预设的第五阈值后，第三拾音方向与第一拾音方向相同。

根据第四方面，或者以上第四方面的任意一种实现方式，根据第一拾音方向和第二拾音方向确定第三拾音方向；包括：在第一拾音方向与第二拾音方向的方向偏差绝对值，大于预设的第四阈值，且小于第五阈值后，第三拾音方向为在第一拾音方向上，叠加第一拾音方向与第二拾音方向的方向偏差绝对值与预设的比例系数的积。

第四方面的任意一种实现方式分别与第二方面的任意一种实现方式相对应。第四方面中任意一种实现方式所对应的技术效果可参见上述第二方面中任意一种实现方式所对应的技术效果，此处不再赘述。

第五方面，提供一种唤醒方法。唤醒方法包括：通过M个麦克风检测到第一声波信号；响应于第一声波信号，根据第一声波信号到达M个麦克风中至少两个麦克风的到达时间差值，以及至少两个麦克风中的部分或全部麦克风之间的距离，获取到第一拾音方向；其中，第一拾音方向用于指示，第一声源位置在第一表面所在平面上的第一投影点，相对于第一表面所在平面上一个固定点的方向；该固定点不同于第一投影点；通过P个超声波发射器发射第二声波信号，第二声波信号为超声波信号；通过Q个超声波接收器接收到第二声波信号；响应于第二声波信号，根据第二声波信号到达Q个超声波接收器中至少两个超声波接收器的到达时间差值，以及至少两个超声波接收器中的部分或全部超声波接收器之间的距离，获取到第二拾音方向；其中，第二拾音方向用于指示，第二声源位置在第一表面所在平面上的第二投影点，相对于固定点的方向；该固定点不同于第二投影点；根据第一拾音方向和第二拾音方向确定第三拾音方向，其中，第三拾音方向用于指示，第三声源位置在第一表面所在平面上的第三投影点，相对于上述固定点的方向；获取到第一声波信号在第三拾音方向上的第三声波信号分量；在第三声波信号分量与预设的唤醒词之间的相似度大于预设的第三阈值后，电子设备唤醒。

在第五方面提供的唤醒方法中，电子设备检测到第一声波信号后，可进行两次定位过程。一次可根据第一声波信号到达M个麦克风的时间进行定位，得到第一拾音方向；一次可通过收发超声波信号对障碍物进行定位，得到第二拾音方向。进而，通过第二拾音方向校正第一拾音方向后，可得到与用户实际所在位置更接近的第三拾音方向。这样，电子设备可识别第一声波信号在第三拾音方向上的声波信号分量与预设的唤醒词之间的相似度。当第三拾音方向上的声波信号分量与预设的唤醒词之间的相似度满足对应的阈值条件后，电子设备唤醒。进而电子设备唤醒的准确率更高，电子设备误唤醒的概率更低。

第六方面，本申请提供一种计算机可读存储介质，包括计算机指令，当计算机指令在上述电子设备上运行时，使得电子设备执行上述任一项所述的唤醒方法。

第七方面，本申请提供一种计算机程序产品，当计算机程序产品在上述电子设备上运行时，使得电子设备执行上述任一项所述的唤醒方法。

可以理解地，上述各个方面所提供的计算机可读存储介质以及计算机程序产品均应用于上文所提供的对应方法以及对应的电子设备，因此，其所能达到的有益效果可参考上文所提供的对应的电子设备或方法中的有益效果，此处不再赘述。

附图说明

图1A为本申请实施例提供的唤醒方法的场景示意图；

图1B为提供的电子设备定位到的声源位置的示意图；

图1C为提供的电子设备定位到的声源位置的示意图；

图2为本申请实施例提供的电子设备的硬件结构示意图；

图3为本申请实施例提供的唤醒方法中声波信号定位的原理示意图；

图4-图7为本申请实施例提供的唤醒方法中声波信号处理的流程示意图；

图8为本申请实施例提供的一种唤醒方法的部分流程示意图；

图9为本申请实施例提供的一种唤醒方法中超声波信号定位障碍物的原理示意图；

图10为本申请实施例提供的一种唤醒方法中超声波信号定位障碍物位置的示意图；

图11为本申请实施例提供的一种唤醒方法中声波信号处理的流程示意图；

图12为本申请实施例提供的另一种唤醒方法的部分流程示意图；

图13为本申请实施例提供的另一种唤醒方法中声源位置的示意图；

图14为本申请实施例提供的另一种唤醒方法中声波信号处理的示意图；

图15为本申请实施例提供的电子设备的硬件结构示意图。

具体实施方式

下面结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。其中，在本申请实施例的描述中，以下实施例中所使用的术语只是为了描述特定实施例的目的，而并非旨在作为对本申请的限制。如在本申请的说明书和所附权利要求书中所使用的那样，单数表达形式“一种”、“所述”、“上述”、“该”和“这一”旨在也包括例如“一个或多个”这种表达形式，除非其上下文中明确地有相反指示。还应当理解，在本申请以下各实施例中，“至少一个”、“一个或多个”是指一个或两个以上(包含两个)。术语“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系；例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B的情况，其中A、B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。

在本说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。术语“连接”包括直接连接和间接连接，除非另外说明。“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。

在本申请实施例中，“示例性地”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性地”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性地”或者“例如”等词旨在以具体方式呈现相关概念。

图1A为本申请实施例提供的唤醒方法的场景示意图。如图1A所示，电子设备100具有语音交互的功能，可接收声波信号。具体来说，电子设备100的上表面设置有多个麦克风或麦克风阵列170C的拾音入口；每个麦克风或每个麦克风阵列对应一个拾音入口；多个麦克风或麦克风阵列170C通过上表面的不同拾音入口，接收声波信号。可选地，电子设备100的其他部位(比如，侧面等)或上表面可设置有扬声器(图中未示出)，用于输出声波信号。用户200可通过声波信号唤醒电子设备100，进而在电子设备100唤醒后，通过进一步的语音指令控制电子设备，执行对应的功能。示例性地，电子设备100可为智能音箱、智能电视、智能空调、智能门锁、智能灯等具有语音交互功能的设备。本申请对此不做限制。

需要说明的是，声波信号包括语音信号(频率在20Hz-20000Hz的信号)。可选地，声波信号还包括超声波信号(频率大于20000Hz的信号)。可选地，声波信号还可包括次声波信号(频率低于20Hz的信号)。用户发出的声波信号，是指用户发出的语音信号。

需要说明的是，图1A中多个麦克风或麦克风阵列170C的多个拾音入口，设置在电子设备100的上表面，仅为示意性举例。上述多个拾音入口也可设置在另外的表面上。在电子设备100的使用中，上表面或另外的表面处于水平面或接近水平面。另外的表面接近水平面是指，虽然另外的表面不平整，存在一定的凹凸，但凹凸影响小，可近似认为水平面。以下为了便于说明，以多个麦克风或麦克风阵列170C设置在电子设备100的上表面为例进行介绍。

在实践中发现，有时即使用户200发出的声波信号包含预设的唤醒词，电子设备100也不唤醒；或者，有时即使用户200发出的声波信号不包含预设的唤醒词，电子设备100却唤醒。这打扰了用户，给用户带来了不好的体验。

为了解决上述的技术问题，发明人经过长期深入的研究、实验及分析，总结出引起上述误差，主要存在两个方面的原因。在阐明上述两个方面的原因之前，先介绍电子设备侧的语音交互过程，以及电子设备根据检测到的声波信号，对声源位置的定位过程。

需要说明的是，由于多个麦克风或麦克风阵列170C的拾音入口设置在电子设备100的上表面上，电子设备100不能识别到声源位置的三维位置，只能识别到声源位置在上表面所在平面上的投影对应的位置，即二维位置。下面结合图1B具体说明。图1B为电子设备100定位到的声源位置的示意图。如图1B所示，电子设备100的上表面为XY轴平面，上表面的中心点为O点。电子设备100根据接收到的声波信号，仅能识别到声源位置A1(X1,Y1)，无法识别到声源位置的高度。因此，下文中有关声源位置的概念，实质上为声源位置在电子设备100的上表面的投影。上述O点为上表面的中心点仅为示意性举例。实际上，上表面上的任意一个固定点都可以为O点。

电子设备侧的语音交互过程，一般来说，可划分为五个环节：唤醒、响应、输入、理解和反馈。示例性地，语音交互功能可由电子设备100安装的语音助手来具体实施。结合图1A，进一步阐述上述的五个环节。如图1A所示，电子设备100处于唤醒之前的状态(比如，待机状态等)。用户200输出包含预设的唤醒词的声波信号。电子设备100在接收到该声波信号后，识别该声波信号是否包含预设的唤醒词。若从该声波信号中识别出预设的唤醒词，电子设备100调用语音交互助手，或者激活电子设备100的语音交互功能，电子设备100唤醒，进入工作状态。可选地，电子设备100还可对用户发出的上述声波信号进行应答。这样，电子设备100从第一状态(比如，待机状态等)切换到第二状态(比如，工作状态等)。之后，用户200可发出进一步的语音指令。电子设备100在接收到进一步的语音指令后，可通过语音识别算法识别出对应的语义内容，即理解该进一步的语音指令，从而执行对应的功能。为了能及时地响应声波信号，电子设备100的拾音装置通常需要常开(always on)。示例性地，电子设备100的拾音装置可为麦克风阵列或多个麦克风。电子设备100可通过麦克风阵列或多个麦克风实时地检测声波信号。

为了实现精准的唤醒，及对用户发出的语音快速响应，电子设备100会根据检测到的声波信号，识别该声波信号对应的声源位置，获取来自该声源位置的方向(可称为拾音方向)，进而获取该声波信号在拾音方向上的分量，基于该分量，进行处理。这样，可以减少处理的数据量，提高响应速度。

具体来说，如图1B所示，电子设备100在检测到声波信号后，可对该声波信号所对应的声源位置A1进行定位，获取到该声波信号所在的声源位置A1。进而，电子设备100可将来自声源位置A1的方向作为拾音方向，根据该拾音方向，获取到该拾音方向上的声波信号分量。后续，电子设备100可将获取到的声波信号分量输入唤醒词模型。在唤醒词模型中，使用预设算法提取该声波信号分量的声波特征，并比较该声波特征与预设的唤醒词对应的声波特征之间的相似度(也称为置信度)。如果相似度大于预设的阈值，则电子设备100可确认检测到的声波信号包含预设的唤醒词；此时，电子设备100唤醒，进入工作状态。如果相似度小于预设的阈值，则电子设备100可确认检测到的声波信号不包含预设的唤醒词；此时，电子设备100可继续保持唤醒之前的状态(比如，待机状态等)。

不过，发明人发现，电子设备100根据检测到的声波信号，定位出的声源位置一般会存在偏差。图1C为提供的电子设备100定位到的声源位置的示意图。如图1C所示，电子设备100根据检测到的声波信号，定位出的声源位置为声源位置A1，而实际上用户200是在声源位置A2发出声波信号。从而，存在偏差。这样的偏差，会影响电子设备100后续的一系列处理，导致处理结果不精准，误差较大。

发明人经过长期深入的研究、实验及分析，总结得到上述声源位置定位偏差主要有两方面原因：

1、电子设备100在声源位置定位中使用的到达时间(time of arrival，TOA)算法或到达时间差(time difference of arrival，TDOA)算法，本身精度不够精准，计算出的声源位置本身存在偏差；

2、电子设备100和用户200所处环境一般存在噪声源，噪声源发出的噪声，也会导致声源位置的定位偏差。电子设备100虽然可以通过降噪算法滤除一部分噪声信号，但残留的噪声信号仍然会影响电子设备100的声源位置定位结果，使得电子设备100定位出的声源位置A1与用户200实际所在的声源位置A2出现偏差。

当电子设备100定位出的声源位置A1与用户200实际所在的声源位置A2出现偏差时，如果电子设备100将来自声源位置A1的方向作为拾音方向，进一步提取声波信号在该拾音方向上的声波信号分量，从而无法准确地反映出用户输入的声波信号。后续，导致电子设备100识别唤醒词的准确率降低，用户体验较差。

为了提高电子设备唤醒的准确率，降低电子设备误唤醒的概率，改善用户体验，本申请提供一种唤醒方法及电子设备。本申请实施例提供的唤醒方法应用于电子设备。电子设备可以为智能音箱、智能电视、智能空调、智能冰箱、智能灯、智能门、智能锁、智能窗帘等各种智能家居设备、智能手机、智能眼镜、智能手表、智能手环等各种可穿戴电子设备、平板电脑、笔记本电脑、个人数字助理(personal digital assistant，PDA)、车载设备、虚拟现实设备、增强现实设备等具有语音交互功能的电子设备。本申请对此不做限制。

示例性地，图2示出了本申请实施例提供的电子设备100的硬件结构示意图。如图2所示，电子设备100可以包括处理器110，外部存储器接口120，内部存储器121，通用串行总线(universal serial bus，USB)接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风阵列170C，耳机接口170D，传感器模块180，按键190，马达191，指示器192，摄像头193，显示屏194，用户标识模块(subscriber identification module，SIM)卡接口195，超声波发射器196，超声波接收器197，以及USB接口198等。

可以理解的是，本申请实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中，电子设备100可以包括比图2所示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图2所示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元。例如，处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processing unit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了系统的效率。

在一些实施例中，处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit，I2C)接口，集成电路内置音频(inter-integrated circuit sound，I2S)接口，脉冲编码调制(pulse code modulation，PCM)接口，通用异步收发传输器(universal asynchronous receiver/transmitter，UART)接口，移动产业处理器接口(mobile industry processor interface，MIPI)，通用输入输出(general-purpose input/output，GPIO)接口，用户标识模块(subscriber identity module，SIM)接口，和/或通用串行总线(universal serial bus，USB)接口等。

充电管理模块140用于从充电器接收充电输入。其中，充电器可以是无线充电器，也可以是有线充电器。在一些有线充电的实施例中，充电管理模块140可以通过USB接口130接收有线充电器的充电输入。在一些无线充电的实施例中，充电管理模块140可以通过电子设备100的无线充电线圈接收无线充电输入。充电管理模块140为电池142充电的同时，还可以通过电源管理模块141为电子设备供电。

电源管理模块141用于连接电池142，充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入，为处理器110，内部存储器121，外部存储器接口120和无线通信模块150等供电。电源管理模块141还可以用于监测电池容量，电池循环次数，电池健康状态(漏电，阻抗)等参数。在其他一些实施例中，电源管理模块141也可以设置于处理器110中。在另一些实施例中，电源管理模块141和充电管理模块140也可以设置于同一个器件中。

电子设备100的无线通信功能可以通过天线1，天线2以及无线通信模块150等实现。

移动通信模块150可以提供应用在电子设备上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括一个或多个滤波器，开关，功率放大器，低噪声放大器(low noise amplifier，LNA)等。移动通信模块150可以由天线1接收电磁波，并对接收的电磁波进行滤波，放大等处理，传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大，经天线1转为电磁波辐射出去。在一些实施例中，移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中，移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。

无线通信模块160可以提供应用在电子设备上的包括无线局域网(wireless local area networks，WLAN)(如无线保真(wireless fidelity，Wi-Fi)网络)，蓝牙(Bluetooth，BT)，全球导航卫星系统(global navigation satellite system，GNSS)，调频(frequency modulation，FM)，近距离无线通信技术(near field communication，NFC)，红外技术(infrared，IR)等无线通信的解决方案。无线通信模块160可以是集成一个或多个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波，将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号，对其进行调频，放大，经天线2转为电磁波辐射出去。

外部存储器接口120可以用于连接外部存储卡，例如Micro SD卡，实现扩展电子设备的存储能力。外部存储卡通过外部存储器接口120与处理器110通信，实现数据存储功能。例如将音乐，视频等文件保存在外部存储卡中。

内部存储器121可以用于存储一个或多个计算机程序，该一个或多个计算机程序包括指令。处理器110可以通过运行存储在内部存储器121的上述指令，从而使得电子设备执行本申请一些实施例中所提供的唤醒的方法，以及各种功能应用和数据处理等。内部存储器121可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统；该存储程序区还可以存储一个或多个应用程序(比如图库、联系人等)等。存储数据区可存储电子设备使用过程中所创建的数据(比如照片，联系人等)等。此外，内部存储器121可以包括高速随机存取存储器，还可以包括非易失性存储器，例如一个或多个磁盘存储器件，闪存器件，通用闪存存储器(universal flash storage，UFS)等。在另一些实施例中，处理器110通过运行存储在内部存储器121的指令，和/或存储在设置于处理器中的存储器的指令，来使得电子设备执行本申请实施例中所提供的唤醒方法，以及各种功能应用和数据处理。

电子设备可以通过音频模块170，扬声器170A，受话器170B，麦克风阵列170C，耳机接口170D以及应用处理器等实现音频功能。例如音乐播放，录音等。

音频模块170用于将数字音频信息转换成模拟声波信号输出，也用于将模拟音频输入转换为数字声波信号。音频模块170还可以用于对声波信号编码和解码。在一些实施例中，音频模块170可以设置于处理器110中，或将音频模块170的部分功能模块设置于处理器110中。

扬声器170A，也称“喇叭”，用于将音频电信号转换为声波信号。电子设备可以通过扬声器170A收听音乐，或收听免提通话。

麦克风阵列170C包括多个麦克风。其中，麦克风也可称“话筒”，“传声器”，用于将声波信号转换为电信号。当拨打电话或发送语音信息时，用户可以通过人嘴靠近麦克风发声，将声波信号输入到麦克风。在一些实施例中，电子设备可以使用麦克风阵列170C采集声波信号，进而根据麦克风阵列170C中每个麦克风采集到的声波信号识别声音来源，实现声源定位、定向录音等功能。电子设备可以设置一个或多个麦克风阵列170C。在另一种实施方式中，麦克风阵列170C可被替换为多个麦克风；即电子设备100不包含麦克风阵列170C，而是包括多个麦克风。多个麦克风的拾音入口位于电子设备100的诸如上表面的同一表面。

传感器180可以包括压力传感器，陀螺仪传感器，气压传感器，磁传感器，加速度传感器，距离传感器，接近光传感器，指纹传感器，温度传感器，触摸传感器，环境光传感器，骨传导传感器等，本申请实施例对此不做任何限制。

超声波发射器196和超声波接收器197，分别用于发射超声波信号以及接收超声波信号。超声波发射器196和超声波接收器197，均可为一个或多个；本申请对此不做限制。本领域技术人员可以根据实际经验或实际应用场景对此进行设置。超声波信号是一种频率高于20000Hz(赫兹)的声波信号。超声波信号具有方向性好，反射能力和穿透能力强等特点。

示例性地，超声波发射器196具体可以为多个扬声器196A(图2中未示出)，即扬声器196A具有发射超声波信号的功能。示例性地，超声波接收器197具体可以为麦克风阵列197A(图2中未示出)或多个麦克风197B(图2中未示出)，即麦克风阵列197A、多个麦克风197B具有接收超声波信号的功能。

在一些实施例中，电子设备100不包含超声波发射器196；超声波发射器196的功能集成在扬声器170A中。也就是说，扬声器170A既能发出人耳能够感知的声波信号，也能发射超声波信号。这样，电子设备不再需要额外设置超声波发射器196。

在一些实施例中，类似地，电子设备100不包含超声波接收器197；超声波接收器197的功能集成在麦克风阵列170C中。也就是说，麦克风阵列170C既能接收人耳能够感知的声波信号，也可以接收超声波信号。这样，电子设备不再需要额外设置超声波接收器197。

在一些实施例中，电子设备100不包含超声波发射器196，也不包含超声波接收器197。超声波发射器196的功能集成在扬声器170A中，超声波接收器197的功能集成在麦克风阵列170C中。

USB接口198可用于连接其他的设备。示例性地，USB接口198可为一个或多个USB接口。

需要说明的是，在电子设备100包括超声波发射器196，以及多个麦克风或麦克风阵列170C，且超声波发射器196与多个麦克风或麦克风阵列170C没有集成在一体时，超声波发射器196的顶部所在的平面，与多个麦克风或麦克风阵列170C的拾音入口所在的平面平行或近似平行。近似平行是指，两个平面虽然不平行，但角度差异很小，可以看作是平行。

可选地，当电子设备100为智能音箱时，电子设备100还可以包括GPU、显示屏以及按键等一项或多项器件。本申请实施例对此不做任何限制。

可选地，当电子设备100为智能电视时，电子设备100还可以包括GPU、显示屏等一项或多项器件，并且还可以为电子设备配备遥控器、红外传感器等一项或多项器件。本申请实施例对此不做任何限制。

可选地，当电子设备100为智能手机时，电子设备100还可以包括GPU、显示屏、耳机接口、按键、电池、马达、指示器以及SIM卡接口等一项或多项器件。本申请实施例对此不做任何限制。

在本申请实施例中，电子设备100在检测接收到的声波信号是否包含唤醒词时，可引入超声波信号检测用户所在的声源位置，提高声源位置的检测精度。

图3为本申请实施例提供的唤醒方法中声波信号定位的原理示意图。

如图3所示，用户200在声源位置B1发出声波信号。电子设备100根据接收到的声波信号(接收到的声波信号包括但不限于用户200发出的声波信号)，使用TOA算法或TDOA算法进行定位，获取到声源位置B2。并且，电子设备100在收到声波信号后，还可以使用超声波定位方法对用户进行定位，得到障碍物位置B3。进而，电子设备100结合这两次定位结果(即声源位置B2和障碍物位置B3)最终确定用户所在的声源位置B4(声源位置B4与声源位置B2或障碍物位置B3，可以相同，也可以不同)。这样，电子设备100可通过障碍物位置B3修正声源位置B2，使得电子设备100确定出的声源位置B4更加接近用户实际所在的声源位置B1。

这样，电子设备后续可将来自声源位置B4的方向作为拾音方向，识别检测到的声波信号是否包含唤醒词。由于电子设备确定出的声源位置B4与用户实际对应的声源位置B1之间的偏差较小，使得电子设备按照声源位置B4方向的声波信号分量，来判断包含唤醒词的准确率更高，从而提高电子设备唤醒的准确率，降低电子设备误唤醒的概率，改善用户体验。

示例性地，电子设备100可以包括N(N为大于1的正整数)个扬声器和L(L为大于等于1的正整数)个麦克风阵列。其中，每个麦克风阵列包括M(M为大于1的正整数)个麦克风。N个扬声器和L个麦克风阵列设置在电子设备100的不同位置。N个扬声器中任意两者之间的距离、M个麦克风中任意两者之间的距离都固定(相等或不相等均可，但都固定)。M个麦克风的拾音入口或L个麦克风阵列的拾音入口位于电子设备100的诸如上表面的同一表面。

可替换地，电子设备100可以包括N(N为大于1的正整数)个扬声器和M(M为大于1的正整数)个麦克风。N个扬声器和M个麦克风设置在电子设备100的不同位置。N个扬声器中任意两者之间的距离、M个麦克风中任意两者之间的距离都固定。M个麦克风的拾音入口位于电子设备100的诸如上表面的同一表面。

为了方便说明，下面都采用位于一个麦克风阵列的M个麦克风为例进行介绍。本领域技术人员应当了解，不位于一个麦克风阵列中，单独的M个麦克风也在本申请的保护范围内。

其中，N个扬声器中的每个扬声器均可作为超声波发射器，发射超声波信号(高于20000Hz的声波信号)。并且，N个扬声器中的每个扬声器还可以播放人耳能够感知的声波信号(20Hz至20000Hz的声波信号)。M个麦克风中的每个麦克风均可作为超声波接收器，接收超声波信号。并且，M个麦克风中的每个麦克风还可以采集人耳能够感知的声波信号。这样，电子设备100可利用扬声器和麦克风实现超声波定位，不需要额外新增超声波发射器和超声波接收器，降低在语音交互场景下进行超声波定位的成本。

可替换地，N个扬声器中的每个扬声器只可以播放人耳能够感知的声波信号(20Hz至20000Hz的声波信号)。M个麦克风中的每个麦克风只可以采集人耳能够感知的声波信号。电子设备100另外设置有P个超声波发射器，以及Q个超声波接收器。其中，P为大于等于1的正整数，Q为大于1的正整数。Q个超声波接收器中任意两者之间的距离都固定。在P为大于1的正整数时，P个超声波发射器中任意两者之间的距离都固定。

在一些实施例中，电子设备100可将麦克风阵列中的M个麦克风设置为常开状态，从而通过这M个麦克风实时采集声波信号。此时，如果电子设备100所处的环境中存在超声波信号，则超声波信号作为一种高频的声波信号也可能被各个麦克风采集到。在仅需要使用声波信号时，各个麦克风可将采集到的声波信号输入至对应的低通滤波器中，将声波信号中大于20000Hz的超声波信号滤除。这样，电子设备可基于滤波后的声波信号，以及来自声源位置的拾音方向，获取到拾音方向上的声波信号分量，从而确定拾音方向上的声波信号分量是否包含预设的唤醒词。而在仅需要使用超声波信号时，各个麦克风可将采集到的声波信号输入至对应的高通滤波器中，将声波信号中小于20000Hz的信号滤除。进而，电子设备可基于滤波后的声波信号进行超声波定位，从而定位出障碍物位置B3。

示例性，图4-图7为本申请实施例提供的唤醒方法中声波信号处理的流程示意图。如图4所示，麦克风阵列中的M个麦克风采集到声波信号A(假设声波信号A不包括超声波信号，即使包括也可以通过低通滤波器滤除)。由于M个麦克风的位置不同， M个麦克风中不同麦克风采集到的声波信号A的波形可能不同(差异较小，甚至无差异)，并且不同麦克风采集到的声波信号A的时间点也可能不同。因此，如图4所示，电子设备100可以通过这M个麦克风获取到对应的M路声波信号A。

电子设备100获取到M路声波信号A后，还可以根据M路声波信号A对声源位置进行定位。示例性地，由于M路声波信号A中每一路声波信号A到达对应麦克风的时间点不同，那么，电子设备可以根据上述时间点，使用TOA算法或TDOA算法计算对应的声源位置B2。

如图5所示，电子设备100计算出声源位置B2后，可以将来自声源位置B2的方向确定为第一拾音方向。将M路声波信号A中每一路声波信号A，在时间上对齐(即对齐各路声波信号A的起始时间点)。在时间上对齐后，获取M路声波信号A中每一路声波信号A在第一拾音方向上的分量，即M路声波信号A分量501。将M路声波信号A分量501融合为一路声波信号，即声波信号A’。

此外，也可以如图6所示，电子设备100在计算出声源位置B2后，可以将来自声源位置B2的方向确定为第一拾音方向。获取M路声波信号A中每一路声波信号A在第一拾音方向上的分量，即M路声波信号A分量501。之后，在时间上对齐(即对齐各路声波信号A的起始时间点)。在时间上对齐后，将M路声波信号A分量501融合为一路声波信号，即声波信号A’。

上述的融合，可以为直接将M路声波信号A分量501直接叠加，也可以将M路声波信号A分量501加权平均，还可以为其他的方式。本申请对此不做限制。

如图7所示，电子设备100获取到声波信号A’后，可将声波信号A’输入预设的唤醒词模型。唤醒词模型存储有预设的唤醒词的声波特征701。之后，在唤醒词模型中，使用预设算法提取声波信号A’的声波特征702，并将提出出的声波特征702与预设的唤醒词对应的声波特征701相比较，获取到两者之间的相似度(也称为置信度)。最终获取到两者的相似度为相似度1(也可称为第一相似度)。其中，声波特征702和声波特征701可以通过相关代码、函数、矩阵或频谱图表示，本申请对此不做限制。

图8为本申请实施例提供的一种唤醒方法的部分流程示意图。如图8所示，在根据图4-图7示出的处理流程得出的相似度1后，若相似度1大于第一阈值(比如，90％，90分等)，表明电子设备100检测到的声波信号A与预设的唤醒词较为接近，则电子设备100可确定声波信号A包含预设的唤醒词。进而，电子设备100唤醒。示例性地，电子设备100调用语音助手，由语音助手与用户语音交互。

若相似度1小于第二阈值(比如，60％，60分等)，表明电子设备100检测到的声波信号A与预设的唤醒词差别较大，则电子设备100可确定声波信号A没有包含预设的唤醒词。进而，电子设备100继续保持未唤醒的状态。其中，第二阈值小于第一阈值。另外，第二阈值和第一阈值均可调整，不限于上述举例的阈值。

若相似度1位于第二阈值和第一阈值之间，表明电子设备100检测到的声波信号A可能包含预设的唤醒词，则电子设备100可按照S801-S805，通过超声波定位，来进一步确定声波信号A是否包含预设的唤醒词，从而进一步确定电子设备100是否唤醒。

S801、电子设备100根据超声波信号的发射和接收之间的时长，超声波在空气中的传输速度，甚至根据使用TOA算法或TDOA算法得到的声源位置，获取到一个障碍物位置。

在具体阐述S801之前，先介绍超声波定位的原理。图9为本申请实施例提供的一种唤醒方法中超声波信号定位障碍物的原理示意图。电子设备100设置有P个超声波发射器和Q个超声波接收器。P个超声波发射器和Q个超声波接收器在电子设备100上朝向不同的方向。即P个超声波发射器向K方向发射超声波，Q个超声波接收器不位于P个超声波发射器的K方向上。也就是说，Q个超声波接收器不能接收到P个超声波发射器直接发射的超声波信号，只能接收到P个超声波发射器发射的超声波信号，经障碍物反射后的超声波信号。P为大于等于1的正整数，Q为大于1的正整数。

如图9所示，以P个超声波发射器包括扬声器1001、扬声器102以及扬声器1003，Q个麦克风包括麦克风1011、麦克风1012以及麦克风1013为例。扬声器1001可在一定角度范围内发射超声波信号1。类似地，扬声器1002可在一定角度范围内发射超声波信号2(图9未示出)，扬声器1003可在一定角度范围内发射超声波信号3(图9未示出)。超声波信号1、超声波信号2以及超声波信号3遇到包括用户200在内的障碍物后发生反射。麦克风1011、麦克风1012以及麦克风1013可采集到反射后的超声波信号1、超声波信号2以及超声波信号。

以超声波信号1为例，在经过包括用户200在内的障碍物后，超声波信号1发生发射，反射后的超声波信号1到达麦克风1011、麦克风1012以及麦克风1013的时长及时间点不同。电子设备100根据超声波信号1的发射和接收两者的时长，以及超声波在空气中的传输速度，获取到障碍物的位置。当然，通过这种方式，获取到的障碍物的位置也是存在一定的偏差的。

示例性地，如果电子设备100周边的障碍物只有用户200，那么获取到的障碍物的位置可以为图3所示的障碍物位置B3。

示例性地，如果电子设备100周边的障碍物较多，包括但不限于用户200，那么可以根据先前获取到的声源位置B2，排除掉与声源位置B2差别较大的障碍物的位置，保留与声源位置B2相差在一定范围内的障碍物的位置。图10为本申请实施例提供的一种唤醒方法中超声波信号定位障碍物位置的示意图。如图10所示，通过超声波定位，获取到的障碍物的位置有两个，分别为障碍物位置B3和障碍物位置B5。由于障碍物位置B5与声源位置B2相差较大，在上述的一定范围之外，排除障碍物位置B5；由于障碍物位置B3与声源位置B2相差在上述的一定范围之内，保留障碍物位置B3。按照上述方式，保留下来的障碍物位置可以为一个，也可以多于一个。

示例性地，保留下来的障碍物位置可记为定位结果1。

示例性地，在保留下来的障碍物位置为多个时，可以将保留下来的多个障碍物位置，叠加后平均，来得到一个障碍物位置。

示例性地，上述的一定范围，可以为与来自声源位置B2的方向，相差一定角度的范围。上述的一定角度，可以为预设的角度。

可选地，超声波信号2也可单独发射。进而，按照上述方式，也可获取到基于超声波信号2的发射、反射获取到的定位结果2。定位结果2可包括一个或多个障碍物位置。

可选地，超声波信号3也可单独发射。进而，按照上述方式，也可获取到基于超声波信号3的发射、反射获取到的定位结果3。定位结果3可包括一个或多个障碍物位置。

之后，电子设备100可使用预设的聚类算法，对上述定位结果1、定位结果2以及定位结果3进行聚类分析。示例性地，上述聚类算法可以包括K均值聚类算法(k-means clustering algorithm，也可称为k-means聚类算法)或自组织映射神经网络(self-organizing maps，SOM)聚类算法等。电子设备100通过聚类分析可以将多个定位结果中相似度较高的障碍物位置聚合为一个障碍物位置(例如，图3中的障碍物位置B3)。此时，电子设备100可将聚合后的障碍物位置确定为可以使用的障碍物位置。

可选地，电子设备100也可以只使用超声波信号1确定出来的一个障碍物位置。

需要说明的是，各个麦克风采集到的声波信号可以包括超声波信号，也可以包括人耳能够识别的声波信号。在S801中，各个麦克风可先将采集到的声波信号输入至对应的高通滤波器中，将声波信号中小于20000Hz的声波信号滤除，得到相应的超声波信号。进而，电子设备100可以按照上述方法，确定出一个障碍物位置。

S802、电子设备100将来自所述障碍物位置的方向作为第二拾音方向，获取到声波信号A在所述第二拾音方向上的声波信号A分量即声波信号A”。

可结合图11进一步阐明S802。图11为本申请实施例提供的一种唤醒方法中声波信号处理的流程示意图。如图11所示，电子设备100可将来自所述障碍物位置的方向作为第二拾音方向，电子设备100采集到的M路声波信号A在时间上对齐后，提取M路声波信号A在所述第二拾音方向上的分量，获取到M路声波信号A分量1101。之后，电子设备100可将上述M路声波信号A分量1101融合，获取到声波信号A”。当然，也可以类似于图6所示，先提取M路声波信号A在所述第二拾音方向上的分量，之后在时间对齐后，再融合；具体流程不再赘述。

S803、电子设备100可将上述声波信号A”输入预设的唤醒词模型，计算声波信号A”与唤醒词的相似度2(也称为第二相似度)。

有关相似度2的计算过程，与相似度1的计算过程类似。此处不再赘述。

若相似度2大于第三阈值，表明声波信号A在第二拾音方向上的分量声波信号A”与预设的唤醒词接近，则电子设备100可确定声波信号A包含预设的唤醒词。此时，电子设备100可执行步骤S804。其中，第三阈值可以大于第一阈值，也可以小于第一阈值。比如，第三阈值可为95％或95分，也可为80％或80分等。

若相似度2小于第三阈值，表明声波信号A在第二拾音方向上的分量声波信号A”与预设的唤醒词相差较大，则电子设备100可确定声波信号A没有包含预设的唤醒词。此时，电子设备100可执行步骤S805。

S804、电子设备100唤醒。

示例性地，电子设备100可调用语音助手，或激活语音助手的功能。

S805、电子设备100保持未唤醒状态。

示例性地，电子设备100继续保持未唤醒状态(比如，待机状态等)。

可以看出，本申请提供的唤醒方法可以划分为两个阶段。在第一阶段中，电子设备可以先按照声音唤醒流程，识别检测到的声波信号与预设的唤醒词之间的相似度1。在相似度1大于第一阈值，电子设备唤醒；在相似度1小于第二阈值，电子设备继续保持未唤醒状态；在相似度1在第一阈值和第二阈值之间时，唤醒方法可进入第二阶段。

在第二阶段中，电子设备可以使用超声波信号定位出障碍物位置，并通过第一阶段中识别出的声源位置，对障碍物位置筛选及计算，最终获取到一个障碍物位置。电子设备计算来自障碍物位置的方向上的声波信号分量与预设的唤醒词之间的相似度2。在相似度2满足对应的阈值条件后，电子设备唤醒；否则，电子设备继续保持未唤醒状态。

需要说明的是，本领域技术人员可以根据实际经验或实际应用场景设置上述的第三阈值。示例性地，当第一阈值设置较高时，可将第三阈值设置为小于第一阈值的数值。例如，第一阈值可以设置为95，第三阈值可以设置为小于95的数值(比如，70或80等)。也就是说，当第一阶段检测到相似度1大于第一阈值(比如，95)后，电子设备才会确定声波信号包含预设的唤醒词。否则，进入第二阶段，电子设备通过超声波定位，计算相似度2。当相似度2大于第三阈值(比如，70或80)后，电子设备唤醒。

或者，当第一阈值设置较低时，可将第三阈值设置为大于第一阈值的数值。例如，第一阈值可以设置为75，第三阈值可以设置为大于75的数值(比如，85或95等)。也就是说，当第一阶段检测到相似度1小于第一阈值(比如，75)后，进入第二阶段；电子设备通过超声波定位，计算相似度2。当相似度2大于第三阈值(比如，70或80)后，电子设备唤醒。

此外，本申请还提供了另外一种唤醒方法的实施例。另外一种唤醒方法与前文所述的唤醒方法相比，都包含相同的第一阶段，但第二阶段有所区别。有关第一阶段的内容，此处不再赘述。

结合图12介绍另外一种唤醒方法中第二阶段的内容。图12为本申请实施例提供的另一种唤醒方法的部分流程示意图。如图12所示，在根据图4-图7示出的处理流程得出的相似度1后，通过超声波定位，确定出第二拾音方向，并根据第一拾音方向和第二拾音方向来进一步确定第三拾音方向，继而获取声波信号A在第三拾音方向上的分量即声波信号A”’，进而确定声波信号A”’是否包含预设的唤醒词，来确定电子设备100是否唤醒。

具体来说，在根据图4-图7示出的处理流程得出的相似度1后，若相似度1大于第一阈值(比如，90％，90分等)，表明电子设备100检测到的声波信号A与预设的唤醒词较为接近，则电子设备100可确定声波信号A包含预设的唤醒词。进而，电子设备100唤醒。示例性地，电子设备100调用语音助手，由语音助手与用户语音交互。

若相似度1位于第二阈值和第一阈值之间，表明电子设备100检测到的声波信号 A可能包含预设的唤醒词，则电子设备100可按照S1201-S1205，通过超声波定位，来进一步确定声波信号A是否包含预设的唤醒词，从而进一步确定电子设备100是否唤醒。具体来说，另一种唤醒方法的部分流程包括：

S1201、电子设备100根据超声波信号的发射和接收之间的时长，超声波在空气中的传输速度，甚至根据TOA算法或TDOA算法得到的声源位置，获取到一个障碍物位置。

其中，S1201的相关内容可参见S801的相关内容，故此处不再赘述。

S1202、电子设备100将来自所述障碍物位置的方向作为第二拾音方向，根据第二拾音方向和第一拾音方向确定第三拾音方向。

考虑到声源位置B2和障碍物位置B3均可能存在误差，为了更准确地确定声源位置，电子设备还可以结合声源位置B2和障碍物位置B3，重新确定用户所在的声源位置。

下面结合图13，来进一步阐明S1202。图13为本申请实施例提供的另一种唤醒方法中声源位置的示意图。示例性地，如图13所示，电子设备100的上表面为XY轴平面，上表面的中心点为O点。X轴和Y轴为过O点的两条相互垂直的坐标轴。该XY轴坐标系与之前的图1B、图1C的坐标系相同。声源位置B2为电子设备100在第一阶段中，通过TOA算法或TDOA算法定位出的声源位置；障碍物位置B3为电子设备按照S1201，使用超声波信号，最终定位出的一个障碍物位置；假设声源位置B4为最终计算得到的更为接近用户的声源位置。分别连接B2、B3、B4和O点，可以得到线段B2O与X轴的夹角α，线段B3O与X轴的夹角β，线段B4O与X轴的夹角γ。α反映声源位置B2与电子设备之间的相对方向；β反映障碍物位置B3与电子设备之间的相对方向；γ反映声源位置B4与电子设备之间的相对方向。α和β均可按照上述的方法，计算得到；而γ为未知的。设α与β之差的绝对值△＝|α-β|。进而，电子设备100可以按照下述的公式(1)计算γ。

其中，k为预设的比例系数，0≤k≤1；θ ₁为预设值1(例如，5°等)，θ ₂为预设值2(例如，10°等)。当α小于β时，公式(1)中的±取+；当α大于β时，公式(1)中的±取-。

也就是说，当△较小或较大时，表明通过超声波定位以及计算得到的障碍物位置B3的误差可能较大，则电子设备100可将上述声源位置B2确定为最终用户对应的声源位置；此时，确定出来的用户的声源位置B4与X轴的夹角γ为α。

当△在预设范围(即θ ₁和θ ₂所定义的区间)内时，电子设备可通过比例系数k调整△的权重，最终确定γ，即声源位置B4与电子设备100之间的相对方向。也就是说，电子设备可以在首次定位出的声源位置B2的基础上，结合超声波定位得到的障碍物位置B3，对声源位置B2进行校正，得到与用户位置更接近的声源位置B4。这样，当定位出的声源位置B2因为噪音等因素与用户位置偏差较大时，电子设备100通过上述方法，可得到与用户位置更接近的声源位置B1。

可选地，θ ₁也可为负值。

需要说明的是，上述的公式(1)仅为一种示意性举例；也可依据其他的公式计算γ。

当然，本领域技术人员还可以按照上述原理，设置其他坐标系(例如三维坐标系)，本申请对此不做限制。

S1203、电子设备100获取到声波信号A在所述第三拾音方向上的声波信号A分量即声波信号A”’。

与上述实施例中步骤S802类似的，电子设备100可将γ指示的方向作为第三拾音方向。图14为本申请实施例提供的唤醒方法中声波信号处理的示意图。如图14所示，电子设备100可提取M路声波信号在第三拾音方向上的声波信号A分量1401，并将提取到的M路声波信号A分量1401融合为声波信号A”’，从而得到第三拾音方向上的声波信号。

S1204、电子设备100可将上述声波信号A”’输入预设的唤醒词模型，计算声波信号A”’与唤醒词的相似度3(也称为第三相似度)。

与上述实施例中步骤S803类似的，电子设备100获取到声波信号A”’与预设的唤醒词之间的相似度即相似度3(也称为第三相似度)。有关融合以及后续处理的流程，与上述第一拾音方向、第二拾音方向上的融合及后续处理流程类似，请参见前述内容；此处不再赘述。

若相似度3大于第三阈值，表明声波信号A在第三拾音方向上的分量声波信号A”’与预设的唤醒词接近，则电子设备100可确定声波信号A包含预设的唤醒词。此时，电子设备100可执行步骤S1205。其中，第三阈值可以大于第一阈值，也可以小于第一阈值。比如，第三阈值可为95％或95分，也可为80％或80分等。

若相似度3小于第三阈值，表明声波信号A在第三拾音方向上的分量声波信号A”’与预设的唤醒词相差较大，则电子设备100可确定声波信号A没有包含预设的唤醒词。此时，电子设备100可执行步骤S1206。

S1205、电子设备100唤醒。

S1206、电子设备100保持未唤醒状态。

由于第三拾音方向更接近用户对应的声源位置指示的方向，因此电子设备100以上述声波信号A”’输入唤醒词模型，计算出的相似度3更加准确，进而电子设备100唤醒的准确率更高，电子设备100误唤醒的概率更低。发明人经过实验，证实在有噪音的场景下，使用本申请实施例提供的唤醒方法的电子设备100，能提高唤醒的准确率，降低误唤醒的概率。

在另一些实施例中，电子设备100在按照上述方法检测声波信号A是否包含唤醒词时，可以得到第一拾音方向，第二拾音方向，并根据第一拾音方向和第二拾音方向得到第三拾音方向，根据声波信号A在第三拾音方向上的声波信号分量与唤醒词之间的相似度，确定是否唤醒电子设备。在两者的相似度大于预设的阈值后，唤醒电子设备。否则，电子设备继续保持未唤醒状态。其中，声波信号A在第三拾音方向上的声波信号分量与唤醒词之间的相似度，是将声波信号A在第三拾音方向上的声波信号分量输入唤醒词模型，根据预设的算法提取出的声波特征，与预设的唤醒词对应的声波特征，两者之间的相似度。具体请参见上文描述。

在另一些实施例中，电子设备100在按照上述方法检测声波信号A是否包含唤醒词时，可以得到声波信号A’(即声波信号A在第一拾音方向上的声波信号分量)与唤醒词之间的相似度1，也可以得到声波信号A”(即声波信号A在第二拾音方向上的声波信号分量)与唤醒词之间的相似度2，还可以得到声波信号A”’(即声波信号A在第三拾音方向的声波信号分量)与唤醒词之间的相似度3。

也就是说，电子设备100在检测声波信号A是否包含唤醒词时，可以得到上述的相似度1至相似度3中的三个。此时，假设相似度3为相似度1至相似度3中的最高值；表明与相似度3对应的第三拾音方向，更接近用户对应的声源位置指示的方向。那么，电子设备100可以将相似度3对应的声波信号，作为本次识别唤醒词的依据，与预设的阈值比较，若大于预设的阈值，则电子设备唤醒；之后，使用第三拾音方向，提取本次后续电子设备检测到的声波信号，执行进一步的语音指令。

在另外一些实施例中，电子设备100在按照上述方法检测声波信号A是否包含唤醒词时，可以得到声波信号A’(即声波信号A在第一拾音方向上的声波信号分量)与唤醒词之间的相似度1，也可以得到声波信号A”(即声波信号A在第二拾音方向上的声波信号分量)与唤醒词之间的相似度2。

也就是说，电子设备100在检测声波信号A是否包含唤醒词时，可以得到上述的相似度1至相似度2中的两个。此时，假设相似度2为相似度1至相似度2中的最高值；表明与相似度2对应的第二拾音方向，更接近用户对应的声源位置指示的方向。那么，电子设备100可以将相似度2对应的声波信号，作为本次识别唤醒词的依据，与预设的阈值比较，若大于预设的阈值，则电子设备唤醒；之后，使用第二拾音方向，提取本次后续电子设备检测到的声波信号，执行进一步的语音指令。

在另外一些实施例中，电子设备100按照上述方法计算出相似度1后，如果相似度1在第一阈值和第二阈值之间，则电子设备100可按照上述方法计算出相似度2和/或相似度3。也就是说，电子设备100在检测声波信号A是否包含唤醒词时，当上述相似度1满足一定的阈值条件后，还可以得到上述相似度2和相似度3中的至少一个。此时，电子设备100可确定已得到的所有相似度(例如相似度1、相似度2以及相似度3)中的最大值。例如，如果相似度1为最大值，表明电子设备100检测到的声波信号A’与预设的唤醒词更接近，第一拾音方向也更接近用户对应的声源位置指示的方向。那么，电子设备100可将声波信号A’作为本次识别唤醒词的依据，根据声波信号A’与唤醒词之间的相似度1确定是否唤醒。

仍以相似度1为相似度1、相似度2以及相似度3中的最大值举例，电子设备100唤醒后，可继续按照与相似度1对应的第一拾音方向检测声波信号，从而识别用户的语音指令。例如，电子设备100唤醒后，可使用语音助手进一步采集声波信号。进而，电子设备可获取该声波信号在第一拾音方向上的声波信号分量，并根据在第一拾音方向上的声波信号分量识别并执行对应的语音指令。在这种场景下，由于第一拾音方向相比于第二拾音方向或第三拾音方向更接近用户对应的声源位置指示的方向，因此第一拾音方向上的声波信号更加真实地还原用户的实际语音。这样，电子设备100在本次后续的语音识别准确率也会随之提高。以噪音场景举例，电子设备100按照上述方法，进行语音识别的准确率可以提高4％甚至更高。

需要说明的是，执行上述实施例中唤醒方法的电子设备为具有超声波定位功能的电子设备，本申请实施例对此不做限制。

图15为本申请实施例提供的电子设备的硬件结构示意图。电子设备具体可以包括：多个超声波发射器1501(超声波发射器1501具体可以为扬声器)；多个超声波接收器1502(超声波接收器1502具体可以为麦克风)；一个或多个处理器1503；存储器1504；一个或多个应用程序(未示出)；以及一个或多个计算机程序1505，上述各器件可以通过一个或多个通信总线1506连接。其中，该一个或多个计算机程序1505被存储在存储器1504中并被配置为被该一个或多个处理器1503执行；该一个或多个计算机程序1505包括指令，该指令可以用于执行上述实施例中电子设备执行的相关步骤。当然，该电子设备还可以包括触摸屏(例如，触摸屏可以包括触摸传感器和显示屏)、鼠标等输入设备。

需要说明的是，图15所示的硬件结构仅为示例性，并不用于限制本申请的范围。本申请提供的电子设备还可以为其他的硬件结构。

通过以上的实施方式的描述，所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请实施例各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：快闪存储器、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请实施例的具体实施方式，但本申请实施例的保护范围并不局限于此，任何在本申请实施例揭露的技术范围内的变化或替换，都应涵盖在本申请实施例的保护范围之内。因此，本申请实施例的保护范围应以所述权利要求的保护范围为准。

Claims

一种电子设备，处于未唤醒状态，其特征在于，所述电子设备包括：

处理器；

存储器；

M个麦克风，每个麦克风对应一个拾音入口；所述M个麦克风的M个拾音入口位于所述电子设备的第一表面，所述第一表面在一个平面上；所述M个麦克风中任意两个麦克风之间的距离都是固定的；M为大于1的正整数；

P个超声波发射器，每个超声波发射器对应一个超声波发射口；所述P个超声波发射器的P个超声波发射口位于第二表面；P为大于等于1的正整数；所述第二表面不同于所述第一表面；

Q个超声波接收器，每个超声波接收器对应一个超声波接收口；所述Q个超声波接收器的Q个超声波接收口位于所述电子设备的第三表面，所述第三表面在一个平面上；所述Q个超声波接收器中任意两个超声波接收器之间的距离都是固定的；Q为大于1的正整数；所述Q个超声波接收口与所述P个超声波发射口朝向不同的方向；所述第三表面不同于所述第一表面；

以及计算机程序，其中所述计算机程序存储在所述存储器上，当所述计算机程序被所述处理器执行时，使得所述电子设备执行以下步骤：

通过所述M个麦克风检测到第一声波信号；

响应于所述第一声波信号，根据所述第一声波信号到达所述M个麦克风中至少两个麦克风的到达时间差值，以及所述至少两个麦克风中的部分或全部麦克风之间的距离，获取到第一拾音方向；所述第一拾音方向用于指示，第一声源位置在所述第一表面所在平面上的第一投影点，相对于所述第一表面所在平面上一个固定点的方向；所述固定点不同于所述第一投影点；

获取到所述第一声波信号在所述第一拾音方向上的第一声波信号分量；

在所述第一声波信号分量与预设的唤醒词之间的相似度小于预设的第一阈值，且大于或等于预设的第二阈值后，

通过所述P个超声波发射器发射第二声波信号，第二声波信号为超声波信号；

通过所述Q个超声波接收器接收到所述第二声波信号；

响应于所述第二声波信号，根据所述第二声波信号到达所述Q个超声波接收器中至少两个超声波接收器的到达时间差值，以及所述至少两个超声波接收器中的部分或全部超声波接收器之间的距离，获取到第二拾音方向；所述第二拾音方向用于指示，第二声源位置在所述第一表面所在平面上的第二投影点，相对于所述固定点的方向；所述固定点不同于所述第二投影点；

获取到所述第二声波信号在所述第二拾音方向上的第二声波信号分量；

在所述第二声波信号分量与预设的唤醒词之间的相似度大于预设的第三阈值后，所述电子设备唤醒。
根据权利要求1所述的电子设备，其特征在于，所述电子设备还执行：

在所述第一声波信号分量与预设的唤醒词之间的相似度大于所述第一阈值后，所述电子设备唤醒。
根据权利要求1或2所述的电子设备，其特征在于，所述电子设备还执行：

在所述第一声波信号分量与预设的唤醒词之间的相似度小于所述第二阈值后，所述电子设备保持未唤醒状态。
根据权利要求1-3中任意一项所述的电子设备，其特征在于，所述电子设备还执行：

在所述第二声波信号分量与预设的唤醒词之间的相似度小于或等于所述第三阈值后，所述电子设备保持未唤醒状态。
根据权利要求1-4中任意一项所述的电子设备，其特征在于，所述Q个超声波接收器为所述M个麦克风的部分或全部；其中，Q小于等于M；所述超声波接收口为所述拾音入口；所述第三表面与所述第一表面相同。
根据权利要求1-4中任意一项所述的电子设备，其特征在于，所述Q个超声波接收器不同于所述M个麦克风的部分或全部。
根据权利要求1-6中任意一项所述的电子设备，其特征在于，所述电子设备还包括：

N个扬声器，所述N个扬声器的N个声波发射口位于第四表面；N为大于等于1的正整数；所述第四表面不同于所述第一表面。
根据权利要求7所述的电子设备，其特征在于，所述电子设备还包括：

所述P个超声波发射器为所述N个扬声器的部分或全部；其中，P小于等于N；所述超声波发射口为所述声波发射口；所述第四表面与所述第二表面相同。
根据权利要求7所述的电子设备，其特征在于，所述P个超声波发射器不同于所述N个扬声器的部分或全部。
根据权利要求1-9中任意一项所述的电子设备，其特征在于，所述第二表面平行于所述第一表面。
一种电子设备，处于未唤醒状态，其特征在于，所述电子设备包括：

处理器；

存储器；

M个麦克风，每个麦克风对应一个拾音入口；所述M个麦克风的M个拾音入口位于所述电子设备的第一表面，所述第一表面在一个平面上；所述M个麦克风中任意两个麦克风之间的距离都是固定的；M为大于1的正整数；

P个超声波发射器，所述P个超声波发射器的P个超声波发射口位于第二表面；P为大于等于1的正整数；所述第二表面不同于所述第一表面；

Q个超声波接收器，每个超声波接收器对应一个超声波接收口；所述Q个超声波接收器的Q个超声波接收口位于所述电子设备的第三表面，所述第三表面在一个平面上；所述Q个超声波接收器中任意两个超声波接收器之间的距离都是固定的；Q为大于1的正整数；所述Q个超声波接收口与所述P个超声波发射口朝向不同的方向；所述第三表面不同于所述第一表面；

以及计算机程序，其中所述计算机程序存储在所述存储器上，当所述计算机程序被所述处理器执行时，使得所述电子设备执行以下步骤：

通过所述M个麦克风检测到第一声波信号；

响应于所述第一声波信号，根据所述第一声波信号到达所述M个麦克风中至少两个麦克风的到达时间差值，以及所述至少两个麦克风中的部分或全部麦克风之间的距离，获取到第一拾音方向；所述第一拾音方向用于指示，第一声源位置在所述第一表面所在平面上的第一投影点，相对于所述第一表面所在平面上一个固定点的方向；所述固定点不同于所述第一投影点；

获取到所述第一声波信号在所述第一拾音方向上的第一声波信号分量；

在所述第一声波信号分量与预设的唤醒词之间的相似度小于预设的第一阈值，且大于或等于预设的第二阈值后，

通过所述P个超声波发射器发射第二声波信号，第二声波信号为超声波信号；

通过所述Q个超声波接收器接收到所述第二声波信号；

响应于所述第二声波信号，根据所述第二声波信号到达所述Q个超声波接收器中至少两个超声波接收器的到达时间差值，以及所述至少两个超声波接收器中的部分或全部超声波接收器之间的距离，获取到第二拾音方向；所述第二拾音方向用于指示，第二声源位置在所述第一表面所在平面上的第二投影点，相对于所述固定点的方向；所述固定点不同于所述第二投影点；

根据所述第一拾音方向和所述第二拾音方向确定第三拾音方向，所述第三拾音方向用于指示，第三声源位置在所述第一表面所在平面上的第三投影点，相对于所述固定点的方向；

获取到所述第一声波信号在所述第三拾音方向上的第三声波信号分量；

在所述第三声波信号分量与预设的唤醒词之间的相似度大于预设的第三阈值后，所述电子设备唤醒。
根据权利要求11所述的电子设备，其特征在于，所述电子设备还执行：

在所述第一声波信号分量与预设的唤醒词之间的相似度大于所述第一阈值后，所述电子设备唤醒。
根据权利要求11或12所述的电子设备，其特征在于，所述电子设备还执行：

在所述第一声波信号分量与预设的唤醒词之间的相似度小于所述第二阈值后，所述电子设备保持未唤醒状态。
根据权利要求11-13中任意一项所述的电子设备，其特征在于，所述电子设备还执行：

在所述第三声波信号分量与预设的唤醒词之间的相似度小于或等于所述第三阈值后，所述电子设备保持未唤醒状态。
根据权利要求11-14中任一项所述的电子设备，其特征在于，所述根据所述第一拾音方向和所述第二拾音方向确定第三拾音方向；包括：

在所述第一拾音方向与所述第二拾音方向的方向偏差绝对值小于预设的第四阈值，或，所述第一拾音方向与所述第二拾音方向的方向偏差绝对值大于预设的第五阈值后，所述第三拾音方向与所述第一拾音方向相同。
根据权利要求11-15中任意一项所述的电子设备，其特征在于，所述根据所述第一拾音方向和所述第二拾音方向确定第三拾音方向；包括：

在所述第一拾音方向与所述第二拾音方向的方向偏差绝对值，大于预设的第四阈值，且小于第五阈值后，所述第三拾音方向为在所述第一拾音方向上，叠加所述第一拾音方向与所述第二拾音方向的方向偏差绝对值与预设的比例系数的积。
根据权利要求11-16中任意一项所述的电子设备，其特征在于，所述Q个超声波接收器为所述M个麦克风的部分或全部；其中，Q小于等于M；所述超声波接收口为所述拾音入口；所述第三表面与所述第一表面相同。
根据权利要求11-17中任意一项所述的电子设备，其特征在于，所述Q个超声波接收器不同于所述M个麦克风的部分或全部。
根据权利要求11-18中任意一项所述的电子设备，其特征在于，所述电子设备还包括：

N个扬声器，所述N个扬声器的N个声波发射口位于第四表面；N为大于等于1的正整数；所述第四表面不同于所述第一表面。
根据权利要求19所述的电子设备，其特征在于，

所述P个超声波发射器为所述N个扬声器的部分或全部；其中，P小于等于N；所述超声波发射口为所述声波发射口；所述第四表面与所述第二表面相同。
根据权利要求19所述的电子设备，其特征在于，所述P个超声波发射器不同于所述N个扬声器的部分或全部。
根据权利要求11-21中任意一项所述的电子设备，其特征在于，所述第二表面平行于所述第一表面。
一种唤醒方法，应用于电子设备；所述电子设备处于未唤醒状态，所述电子设备包括：处理器；存储器；M个麦克风，每个麦克风对应一个拾音入口；所述M个麦克风的M个拾音入口位于所述电子设备的第一表面，所述第一表面在一个平面上；所述M个麦克风中任意两个麦克风之间的距离都是固定的；M为大于1的正整数；P个超声波发射器，所述P个超声波发射器的P个超声波发射口位于第二表面；P为大于等于1的正整数；所述第二表面不同于所述第一表面；Q个超声波接收器，每个超声波接收器对应一个超声波接收口；所述Q个超声波接收器的Q个超声波接收口位于所述电子设备的第三表面，所述第三表面在一个平面上；所述Q个超声波接收器中任意两个超声波接收器之间的距离都是固定的；Q为大于1的正整数；所述Q个超声波接收口与所述P个超声波发射口朝向不同的方向；所述第三表面不同于所述第一表面；所述方法包括：

通过所述M个麦克风检测到第一声波信号；

响应于所述第一声波信号，根据所述第一声波信号到达所述M个麦克风中至少两个麦克风的到达时间差值，以及所述至少两个麦克风中的部分或全部麦克风之间的距离，获取到第一拾音方向；所述第一拾音方向用于指示，第一声源位置在所述第一表面所在平面上的第一投影点，相对于所述第一表面所在平面上一个固定点的方向；所述固定点不同于所述第一投影点；

获取到所述第一声波信号在所述第一拾音方向上的第一声波信号分量；

在所述第一声波信号分量与预设的唤醒词之间的相似度小于预设的第一阈值，且大于或等于预设的第二阈值后，

通过所述P个超声波发射器发射第二声波信号，第二声波信号为超声波信号；

通过所述Q个超声波接收器接收到所述第二声波信号；

响应于所述第二声波信号，根据所述第二声波信号到达所述Q个超声波接收器中至少两个超声波接收器的到达时间差值，以及所述至少两个超声波接收器中的部分或全部超声波接收器之间的距离，获取到第二拾音方向；所述第二拾音方向用于指示，第二声源位置在所述第一表面所在平面上的第二投影点，相对于所述固定点的方向；所述固定点不同于所述第二投影点；

获取到所述第二声波信号在所述第二拾音方向上的第二声波信号分量；

在所述第二声波信号分量与预设的唤醒词之间的相似度大于预设的第三阈值后，所述电子设备唤醒。
根据权利要求23所述的方法，其特征在于，所述方法还包括：

在所述第一声波信号分量与预设的唤醒词之间的相似度大于所述第一阈值后，所述电子设备唤醒。
根据权利要求23或24所述的方法，其特征在于，所述方法还包括：

在所述第一声波信号分量与预设的唤醒词之间的相似度小于所述第二阈值后，所述电子设备保持未唤醒状态。
根据权利要求23-25中任意一项所述的方法，其特征在于，所述方法还包括：

在所述第二声波信号分量与预设的唤醒词之间的相似度小于或等于所述第三阈值后，所述电子设备保持未唤醒状态。
一种唤醒方法，应用于电子设备；所述电子设备处于未唤醒状态，所述电子设备包括：处理器；存储器；M个麦克风，每个麦克风对应一个拾音入口；所述M个麦克风的M个拾音入口位于所述电子设备的第一表面，所述第一表面在一个平面上；所述M个麦克风中任意两个麦克风之间的距离都是固定的；M为大于1的正整数；P个超声波发射器，所述P个超声波发射器的P个超声波发射口位于第二表面；P为大于等于1的正整数；所述第二表面不同于所述第一表面；Q个超声波接收器，每个超声波接收器对应一个超声波接收口；所述Q个超声波接收器的Q个超声波接收口位于所述电子设备的第三表面，所述第三表面在一个平面上；所述Q个超声波接收器中任意两个超声波接收器之间的距离都是固定的；Q为大于1的正整数；所述Q个超声波接收口与所述P个超声波发射口朝向不同的方向；所述第三表面不同于所述第一表面；所述方法包括：

通过所述M个麦克风检测到第一声波信号；

响应于所述第一声波信号，根据所述第一声波信号到达所述M个麦克风中至少两个麦克风的到达时间差值，以及所述至少两个麦克风中的部分或全部麦克风之间的距离，获取到第一拾音方向；所述第一拾音方向用于指示，第一声源位置在所述第一表面所在平面上的第一投影点，相对于所述第一表面所在平面上一个固定点的方向；所述固定点不同于所述第一投影点；

获取到所述第一声波信号在所述第一拾音方向上的第一声波信号分量；

在所述第一声波信号分量与预设的唤醒词之间的相似度小于预设的第一阈值，且大于或等于预设的第二阈值后，

通过所述P个超声波发射器发射第二声波信号，第二声波信号为超声波信号；

通过所述Q个超声波接收器接收到所述第二声波信号；

响应于所述第二声波信号，根据所述第二声波信号到达所述Q个超声波接收器中至少两个超声波接收器的到达时间差值，以及所述至少两个超声波接收器中的部分或全部超声波接收器之间的距离，获取到第二拾音方向；所述第二拾音方向用于指示，第二声源位置在所述第一表面所在平面上的第二投影点，相对于所述固定点的方向；所述固定点不同于所述第二投影点；

根据所述第一拾音方向和所述第二拾音方向确定第三拾音方向，所述第三拾音方向用于指示，第三声源位置在所述第一表面所在平面上的第三投影点，相对于所述固定点的方向；

获取到所述第一声波信号在所述第三拾音方向上的第三声波信号分量；

在所述第三声波信号分量与预设的唤醒词之间的相似度大于预设的第三阈值后，所述电子设备唤醒。
根据权利要求27所述的方法，其特征在于，所述方法还包括：

在所述第一声波信号分量与预设的唤醒词之间的相似度大于所述第一阈值后，所述电子设备唤醒。
根据权利要求27或28所述的方法，其特征在于，所述方法还包括：

在所述第一声波信号分量与预设的唤醒词之间的相似度小于所述第二阈值后，所述电子设备保持未唤醒状态。
根据权利要求27-29中任意一项所述的方法，其特征在于，所述方法还包括：

在所述第三声波信号分量与预设的唤醒词之间的相似度小于或等于所述第三阈值后，所述电子设备保持未唤醒状态。
根据权利要求27-30中任一项所述的方法，其特征在于，所述根据所述第一拾音方向和所述第二拾音方向确定第三拾音方向；包括：

在所述第一拾音方向与所述第二拾音方向的方向偏差绝对值小于预设的第四阈值，或，所述第一拾音方向与所述第二拾音方向的方向偏差绝对值大于预设的第五阈值后，所述第三拾音方向与所述第一拾音方向相同。
根据权利要求27-31中任意一项所述的方法，其特征在于，所述根据所述第一拾音方向和所述第二拾音方向确定第三拾音方向；包括：

在所述第一拾音方向与所述第二拾音方向的方向偏差绝对值，大于预设的第四阈值，且小于第五阈值后，所述第三拾音方向为在所述第一拾音方向上，叠加所述第一拾音方向与所述第二拾音方向的方向偏差绝对值与预设的比例系数的积。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括计算机程序，当所述计算机程序在电子设备上运行时，使得所述电子设备执行如权利要求23-32中任意一项所述的方法。
一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得所述计算机执行如权利要求23-32中任意一项所述的方法。