WO2020029882A1

WO2020029882A1 - 一种方位角估计的方法、设备及存储介质

Info

Publication number: WO2020029882A1
Application number: PCT/CN2019/099049
Authority: WO
Inventors: 郑脊萌; 高毅; 于蒙; 刘二男
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2018-08-06
Filing date: 2019-08-02
Publication date: 2020-02-13
Also published as: EP3836136B1; EP3836136A1; TW202008352A; CN110164423B; TWI711035B; EP3836136A4; CN110164423A; US20200395005A1; US11908456B2

Abstract

一种方位角估计的方法，包括：终端设备获取多通路采样信号并缓存多通路采样信号（301）；终端设备对多通路采样信号中每路采样信号进行唤醒词检测，并确定每路采样信号的唤醒词检测得分（302）；若终端设备根据每路采样信号的唤醒词检测得分确定存在唤醒词，则对缓存的多通路采样信号进行空间谱估计，以得到空间谱估计结果，唤醒词包含于目标语音（303）；终端设备根据空间谱估计结果和最高的唤醒词检测得分，确定目标语音的方位角（304）。还涉及一种终端设备、计算机可读存储介质。

Description

一种方位角估计的方法、设备及存储介质

本申请要求于2018年08月06日提交中国专利局、申请号为201810887965.5、发明名称“一种方位角估计的方法、设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请实施例涉及语音处理技术领域，具体涉及一种方位角估计的方法、设备及计算机可读存储介质。

背景技术

随着智能音箱及其衍生品的流行，人机之间的语音交互，尤其是远场语音交互，逐渐成为了一个重要的研究方向。在语音交互领域，远场语音交互通常是指距离大于1米。人机之间的语音交互被认为是未来最重要的用户流量入口。因此，互联网平台和内容服务商都高度重视对语音识别接口的探索与创新。

目前消费电子领域的语音交互智能设备主要是智能音箱，带语音控制功能的智能电视或电视盒子等产品。这些产品的主要使用场景都是用户的家庭或客厅。在这类使用场景中，房间的混响以及环境中的噪音都会对语音识别造成巨大的挑战，进而严重影响用户的使用体验。

为了实现更好的远场语音识别性能，上述语音交互设备往往都装备有多麦克风阵列并利用波束形成算法提升语音信号质量。但为了达到最优的性能，波束形成算法需要给定目标语音的方位角，且对该方位角的准确度非常敏感。因此，提升目标语音方位角估计的准确性便成为了提升远场语音识别系统性能的一个瓶颈。

发明内容

本申请实施例提供一种方位角估计的方法，用于提高语音交互过程中方位角估计的准确性。本申请实施例还提供了相应的设备及计算机可读存储介质。

本申请实施例第一方面提供一种方位角估计的方法，包括：

终端设备获取多通路采样信号并缓存所述多通路采样信号；

所述终端设备对所述多通路采样信号中每路采样信号进行唤醒词检测，并确定每路采样信号的唤醒词检测得分；

若所述终端设备根据所述每路采样信号的唤醒词检测得分确定存在所述唤醒词，则对缓存的所述多通路采样信号进行空间谱估计，以得到空间谱估计结果，所述唤醒词包含于目标语音；

所述终端设备根据所述空间谱估计结果和最高的唤醒词检测得分，确定所述目标语音的方位角。

本申请实施例第二方面提供一种终端设备，包括：

获取单元，被设置为获取多通路采样信号；

缓存单元，被设置为缓存所述获取单元获取的所述多通路采样信号；

检测单元，被设置为对所述缓存单元缓存的多通路采样信号中每路采样信号进行唤醒词检测，并确定每路采样信号的唤醒词检测得分；

谱估计单元，被设置为若根据所述检测单元确定的所述每路采样信号的唤醒词检测得分确定存在所述唤醒词，则对缓存的所述多通路采样信号进行空间谱估计，以得到空间谱估计结果，所述唤醒词包含于目标语音；

确定单元，被设置为根据所述谱估计单元的空间谱估计结果和所述检测单元检测出的最高的唤醒词检测得分，确定所述目标语音的方位角。

本申请实施例第三方面提供一种终端设备，所述终端设备包括：输入/输出(I/O)接口、处理器和存储器，所述存储器中存储有程序指令；

所述处理器被设置为执行存储器中存储的程序指令，执行如上述第一方面所述的方法。

本申请实施例第四方面提供一种计算机可读存储介质，包括指令，当所述指令在计算机设备上运行时，使得所述计算机设备执行如上述第一方面所述的方法。

本申请实施例的又一方面提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面所述的方法。

本申请实施例采用多路采样信号中最高的唤醒词得分辅助多路采样信号的空间谱估计结果来检测目标语音的方位角，从而避免了噪声对目标语音方位角检测的影响，提高了语音交互过程中方位角估计的准确性。

附图说明

图1是本申请实施例中人机语音交互的一场景示例示意图；

图2是本申请实施例中人机语音交互的另一场景示例示意图；

图3是本申请实施例中方位角估计的方法的一实施例示意图；

图4是本申请实施例中方位角估计的方法的另一实施例示意图；

图5是本申请实施例中方位角估计的方法的另一实施例示意图；

图6是本申请实施例中终端设备的一实施例示意图；

图7是本申请实施例中终端设备的一实施例示意图；

图8是本申请实施例中终端设备的一实施例示意图；

图9是本申请实施例中终端设备的一实施例示意图。

具体实施方式

下面结合附图，对本申请的实施例进行描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。本领域普通技术人员可知，随着技术的发展和新场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

本申请实施例提供一种方位角估计的方法，用于提高语音交互过程中方位角估计的准确性。本申请实施例还提供了相应的设备及计算机可读存储介质。以下分别进行详细说明。

本申请实施例中的终端设备为语音交互设备，可以是具有语音交互功能的音响、电视、电视盒子或者机器人等设备。

作为用户隐私保护和降低整机功耗的一种手段，具有语音交互功能的终端设备中一般都会设置一个唤醒词。唤醒词通常是预先设定的一个词或一句话。当用户说出唤醒词并被终端设备检测到以后，用户发出的语音信号才被当作命令发送给云端设备进行语音交互服务。因为终端设备在对声音信号进行采样时，会采集到各个方向上的声音信号，其中会通常会包括噪声信号，而噪声信号会对人机语音交互造成影响，所以通常终端设备会先确定用户发出语音的方位角，然后对该方位角方向上的信号进行增强，其他方向上的信号进行抑制，从而保证顺畅的人机语音交互。所以，在人机交互过程中，针对用户发出语音的方位角的估计就显得尤为重要。

图1为本申请实施例中的人机语音交互场景的一示例示意图。

如图1所示，用户在要唤醒具有语音交互功能的智能电视10时，可以说出唤醒词，如该场景中，唤醒词为“电视你好”，该唤醒词经过空气传输到达智能电视10，智能电视中设置有多阵列的声音接收器，该接收器可以是麦克风。每个阵列可以理解为是一个通路，每个通路会接收到一路采样信号，智能电视10会缓存所述多通路采样信号，人后对所述多通路采样信号中每路采样信号进行唤醒词检测，并确定每路采样信号的唤醒词检测得分；若根据所述每路采样信号的唤醒词检测得分确定存在所述唤醒词，则对缓存的所述多通路采样信号进行空间谱估计，以得到空间谱估计结果，所述唤醒词包含于目标语音；根据所述空间谱估计结果和最高的唤醒词检测得分，确定所述目标语音的方位角。

目标语音为发出唤醒词的用户的语音，目标语音中包括唤醒词。

在确定目标语音的方位角后，如图2所示，智能电视10就可以与云端设备20进行语音交互了。若语音交互过程中，用户对智能电视10说了“琅琊榜”，智能电视10会将采集到的语音信号进行语音识别，或者传输给云端设备20进行语音识别，云端设备20识别出语音内容是“琅琊榜”后，会向智能电视10返回与电视机“琅琊榜”相关的内容。

以上结合场景示例对本申请实施例中的方位角估计和语音交互做了简单的描述，下面结合图3介绍本申请实施例中的方位角估计的方法。

如图3所示，本申请实施例提供的方位角估计的方法的一实施例包括：

301、终端设备获取多通路采样信号并缓存所述多通路采样信号。

302、终端设备对所述多通路采样信号中每路采样信号进行唤醒词检测，并确定每路采样信号的唤醒词检测得分。

303、若终端设备根据所述每路采样信号的唤醒词检测得分确定存在所述唤醒词，则对缓存的所述多通路采样信号进行空间谱估计，以得到空间谱估计结果，所述唤醒词包含于目标语音。

304、终端设备根据所述空间谱估计结果和最高的唤醒词检测得分，确定所述目标语音的方位角。

本申请实施例提供的方位角估计的方法还可以参阅图4进行理解。如图4所示，终端设备会通过麦克风接收到阵列信号，然后将接收到的阵列信号按照不同方向划分为N束，每束信号经过一个通路，如图4中所示，N束分别为从方向1到方向N，例如N＝4，则可以是0度方向为方向1、90度方向为方向2、180度方向为方向3、270度方向为方向4。对于每个通路上的采样信号都可以进行单通路降噪，也就是降低该通路上的噪音。然后再对每个通路的采样信号进行唤醒词检测。

其中，可选地，所述终端设备对所述多通路采样信号中每路采样信号进行唤醒词检测，并确定每路采样信号的唤醒词检测得分，可以包括：

对所述多通路采样信号中每路采样信号进行唤醒词检测，并确定所述每路采样信号的唤醒词的置信度，所述置信度为所述每路采样信号中的内容与预配置的唤醒词的相似程度；

根据所述每路采样信号的唤醒词的置信度确定所述每路采样信号的唤醒词检测得分。

也就是说，对唤醒词检测主要是检测该通路中的采样信号中的内容与预配置的唤醒词的相似程度，如果预配置的唤醒词为“电视你好”，一路采样信号中检测到的内容为“电视”，则表示该路采样信号与预配置的唤醒词一定程度上相似，该路采样信号的唤醒词检测得分可以为5分。若另外一路采样信号中检测到的内容为“电视你”，则表示该路采样信号与预配置的唤醒词很大程度上相似，该路采样信号的唤醒词检测得分可以为8分。当然，具体的唤醒词检测得分是通过算法计算得到的，该处只是举例说明，不应将其理解为是对唤醒词检测得分的限定。

终端设备检测出每路采样信号的唤醒词检测得分后，需要根据每路采样信号的唤醒词检测得分进行综合判决，综合判决的方案可以是：

当所述每路采样信号中有任意一路采样信号的唤醒词检测得分大于得分阈值，则终端设备确定所述每路采样信号的唤醒词检测得分确定存在所述唤醒词。

例如：若得分阈值为6分，4个通路的唤醒词检测得分分别为3分、5分、7分和8分，则有两个通路的唤醒词检测得分大于得分阈值6分，则可以确定存在唤醒词。当然，这只是确定存在唤醒词的一种判断方案，还可以是其他的可行性判断方案，例如：通过各个通路的累计得分确定是否存在唤醒词。

确定存在唤醒词后，就可以激活方位角评估、语音信号处理和语音识别几个功能。

另外，终端设备在确定存在唤醒词后，还可以：

确定所述唤醒词从开始出现到结束所处的时间段；

从缓存的所述多通路采样信号中提取出所述时间段内的目标采样信号；

对应的，所述终端设备对缓存的所述多通路采样信号进行空间谱估计，以得到空间谱估计结果，包括：

对所述目标采样信号进行空间谱估计，以得到空间谱估计结果。

当确定了唤醒词从开始出现到结束所处的时间段，则在对缓存的所述多通路采样信号进行空间谱估计时，只需要提取该时间段内容的目标采样信号就好，不需要对缓存的全部采样信号都做估计，这样可以减少空间谱估计时的计算量。

其中，所述确定所述唤醒词从开始出现到结束所处的时间段，可以包括：

确定所述唤醒词结束的时间点；

根据所述唤醒词结束的时间点，以及所述唤醒词的得分变化记录或者采样信号的能量波动记录，确定所述唤醒词开始出现的时间点；

根据所述唤醒词开始出现的时间点和所述唤醒词结束的时间点，确定所述唤醒词从开始出现到结束所处的时间段。

本申请实施例中，唤醒词结束的时间点是很容易确定的，如：唤醒词检测得分最高的点就可以是唤醒词结束的时间点，唤醒词开始出现的时间点可以是唤醒词检测得分开始出现变化的时间点，如果没有出现唤醒词，那么之前的唤醒词检测得分基本是趋于零的，当有唤醒词出现时，则唤醒词检测得分就会出现变化，例如：升到了1分，升到了2分，则最开始出现变化的点就可以确定为是唤醒词开始出现的时间点。

另外，需要说明的是，根据唤醒词检测得分来确定唤醒词所处的时间段只是一种方式，例如还可以是：通过采样信号的能量波动记录来确定，在用户说出唤醒词前后采样信号的能量相对会比较小，这样就可以把能量从开始升高到降低趋于平稳的时间段确定为是唤醒词所处的时间段。

本申请实施例中，缓存单元是会缓存采样信号的，但如果用户没有说出唤醒词，缓存单元缓存很多采样信号也没有意义。所以，为了节省缓存空间，本申请实施例中会按照缓存的采样信号的长度清理缓存，该清理缓存的方案可以是：对于缓存的所述多通路采样信号，保留最新的(M+N)时间长度的采样信号，删除所述(M+N)时间长度之外的采样信号，所述M为所述唤醒词占用时长，所述N为预置时长。

也就是说，缓存单元中会一直缓存最新采集到的大于唤醒词所占用时间长度的采样信号，这样即可以确保缓存了唤醒词，又可以有效的节省缓存空间。

在确定存在唤醒词后，方位角估计单元被激活，若确定出唤醒词开始出现的时刻为t ₀，唤醒词结束的时刻为t ₁，则该方位角估计单元从缓存单元中提取t ₀到t ₁时间段内的目标采样信号，并对该目标采样信号进行空间谱估计。

其中，所述终端设备对所述目标采样信号进行空间谱估计，以得到空间谱估计结果，可以包括：根据所述目标采样信号，计算出多个备选方位角上信号功率强度。

方位角估计单元在接收到激活信号后，使用t ₀至t ₁时间段的目标采样信号计算出空间谱，空间谱也就是多个备选方位角所对应的即各个备选方向的信号功率强度。

备选方向角的选择是由使用场景和估计精度需求决定。比如，当使用环形麦克风阵列且方位角估计精度要求为10度时，备选方向可以选择为0°，10°，20°，…，350°；当使用线性麦克风阵列且方位角估计精度要求为30度时，备选方向可以选择为0°，30°，60°，…，180°。在本申请实施例中，可以将该多个备选方位角标记为θ ₁，θ ₂，...，θ _K，其中K是备选方位角的个数。空间谱估计算法估计出每一个备选方向上的信号功率强度，记为：P ₁，P ₂，...，P _K。空间谱估计算法可以采用Super-Cardioid固定波束形成算法或者其它空间谱估计算法，此处不作详细讨论。

在完成空间谱估计后，可选地，所述终端设备根据所述空间谱估计结果和最高的唤醒词检测得分，确定所述目标语音的方位角，可以包括：

确定目标主波束的方位角度，所述目标主波束为所述最高的唤醒词检测得分所对应采样信号的主波束；

确定所述多个备选方位角上信号功率强度中的局部极大值点；

根据所述目标主波束的方位角度和所述局部极大值点，确定所述目标语音的方位角。

其中，所述根据所述目标主波束的方位角度和所述局部极大值点，确定所述目标语音的方位角，可以包括：

将与所述目标主波束的方位角度最接近的局部极大值点所对应的备选方位角，确定为所述目标语音的方位角；或者，

若与所述目标主波束的方位角度最接近的局部极大值点有至少两个，则根将所述至少两个局部极大值点各自所对应的备选方位角的平均值确定为所述目标语音的方位角。

也就是说，本申请实施例中，如图5所示，方位角估计的过程中可以包括空间谱估计，以及空间谱和唤醒词检测得分判断两个过程。在综合判断过程中可以使用空间谱估计结果和唤醒词检测得分(记为：S ₁，S ₂，...，S _N)进行综合以去除强噪声对空间谱产生的干扰。其中，可行的方案可以是确定最高的唤醒词检测得分S _*和其前置固定波束形成算法的主波束方向β _*。更高的唤醒词得分代表更好的目标语音质量和更小的噪声残留，那么目标语音的方向是在β _*的附近。在空间谱的所有局部极大值点中找到离β _*最近的那一个，其对应的备选方位角记为θ _*，θ _*即为对目标语音的方位角的估计。

当环境中存在强噪声时，上述算法设计中的空间谱可能存在多个局部极大值点。其中的一个或多个局部极大值点可能是由噪声干扰而来，其所对应的备选方位角代表的是环境当中的点源干扰噪声方向。通过β _*在方位角上的辅助，可以滤除掉这些噪声产生的干扰，例如：在90度方向和270度方向都各自有一个局部极大值点，若根据最高的唤醒词检测得分S _*和其前置固定波束形成算法的主波束方向β _*＝60°，则可以选择到90度方向的局部极大值点，从而准确的确定到目标语音的方位角为90度。

另外，因为人机交互中唤醒词有其天然的最小长度限制，记为Tmin，在一次唤醒之后的Tmin时间内不会再出现第二次唤醒。因此，可以节省这段时间内的唤醒词检测运算量用于方位角估计。

因此，可选地，本申请实施例中，所述终端设备对缓存的所述多通路采样信号进行空间谱估计，以得到空间谱估计结果时，所述方法还可以包括：

终端设备在确定存在所述唤醒词到唤醒词再次出现的时间长度内，停止对所述多通路采样信号中每路采样信号进行唤醒词检测。

所以，本申请实施例中，在检测到唤醒词之前，多通路唤醒词检测模块持续运行，方位角估计模块不做任何运算，语音信号处理模块不做任何处理而只作内部状态跟踪。

当在Ts时刻检测到唤醒词，则在Ts到Ts+Tmin时间段内停止所有多通路唤醒词检测模块的计算，其中可以包括前置固定波束形成算法、降噪算法和单通路唤醒词检测模块。

在Ts到Ts+Tmin时间段内采用空间谱估计算法进行空间谱估计，得到更好的空间谱估计性能和分辨率，结合Ts时刻的唤醒词检测得分，最终得到最优的目标语音的方位角。

通过上述分时进行唤醒词检测和方位角估计的方案，可以减少系统峰值运算量，降低系统延迟和可能的丢帧、信号不连续等现象。

另外需要说明的是，本申请实施例中，方位角估计在检测到唤醒词之前不做任何计算。在接收到唤醒词模块提供的激活信号后，从缓存单元中提取t ₀至t ₁时间段的目标采样信号，并估计可能的语音信号方位角。综合该估计结果和多通路唤醒词检测模块的得分得到最终的目标语音的方位角估计结果，并将该目标语音的方位角度输出给语音信号处理模块，使语音信号处理模块在进行语音交互的过程中可以增强该目标语音的方位角方向的信号，抑制其他方向的信号，从而确保顺畅的语音交互。

语音信号处理模块在检测到唤醒词之前只作内部状态跟踪，例如：回声消除、噪声强度、语音检测等，而不对多通路的采样信号作任何处理。在接收到唤醒词得分综合判断模块提供的激活信号后，使用方位角估计模块最新估计出的语音信号的方位角作为波束形成等语音处理算法的目标方向，进行目标语音信号增强，输出增强的信号给到语音识别模块。

语音识别模块在检测到唤醒词之前不进行任何识别运算。在接收到唤醒词得分综合判断模块提供的激活信号后，识别语音信号处理模块提供的经过增强的目标语音信号，并提供识别结果，直至识别结束。

以上多个实施例描述了语音交互过程中方位角估计的方法，下面结合附图描述本申请实施例中的终端设备。

如图6所示，本申请实施例提供的终端设备40包括一个或多个处理器，以及一个或多个存储程序单元的存储器，其中，所述程序单元由所述处理器执行，所述程序单元包括：

获取单元401，被设置为获取多通路采样信号；

缓存单元402，被设置为缓存所述获取单元401获取的所述多通路采样信号；

检测单元403，被设置为对所述缓存单元402缓存的多通路采样信号中每路采样信号进行唤醒词检测，并确定每路采样信号的唤醒词检测得分；

谱估计单元404，被设置为若根据所述检测单元403确定的所述每路采样信号的唤醒词检测得分确定存在所述唤醒词，则对缓存的所述多通路采样信号进行空间谱估计，以得到空间谱估计结果，所述唤醒词包含于目标语音；

确定单元405，被设置为根据所述谱估计单元404的空间谱估计结果和所述检测单元检测出的最高的唤醒词检测得分，确定所述目标语音的方位角。

可选地，确定单元405还被设置为确定所述唤醒词从开始出现到结束所处的时间段；

谱估计单元404被设置为：

可选地，谱估计单元404被设置为：根据所述目标采样信号，计算出多个备选方位角上信号功率强度。

可选地，谱估计单元404被设置为：

将与所述目标主波束的方位角度最接近的局部极大值点所对应的备选方位角，确定为所述目标语音的方位角。

可选地，谱估计单元404被设置为：

可选地，确定单元405被设置为：

确定所述唤醒词结束的时间点；

可选地，如图7所示，本申请实施例提供的终端设备40还包括控制单元406，

所述控制单元406，被设置为在确定存在所述唤醒词到唤醒词再次出现的时间长度内，停止对所述多通路采样信号中每路采样信号进行唤醒词检测。

可选地，检测单元403被设置为：

可选地，确定单元405还被设置为：当所述每路采样信号中有任意一路采样信号的唤醒词检测得分大于得分阈值，则确定所述每路采样信号的唤醒词检测得分确定存在所述唤醒词。

可选地，如图8所示，本申请实施例提供的终端设备40还包括清理单元407，

所述清理单元407，被设置为对于缓存的所述多通路采样信号，保留最新的(M+N)时间长度的采样信号，删除所述(M+N)时间长度之外的采样信号，所述M为所述唤醒词占用时长，所述N为预置时长。

以上实施例所描述的终端设备40可以参阅图1至图5部分的相应描述进行理解，本处不再重复赘述。

图9是本申请实施例提供的终端设备50的结构示意图。所述终端设备50包括处理器510、存储器540和输入输出(I/O)接口530，存储器540可以包括只读存储器和随机存取存储器，并向处理器510提供操作指令和数据。存储器540的一部分还可以包括非易失性随机存取存储器(NVRAM)。

在一些实施方式中，存储器540存储了如下的元素，可执行模块或者数据结构，或者他们的子集，或者他们的扩展集:

在本申请实施例中，在方位角估计的过程中，通过调用存储器540存储的操作指令(该操作指令可存储在操作系统中)，

获取多通路采样信号并缓存所述多通路采样信号；

对所述多通路采样信号中每路采样信号进行唤醒词检测，并确定每路采样信号的唤醒词检测得分；

若根据所述每路采样信号的唤醒词检测得分确定存在所述唤醒词，则对缓存的所述多通路采样信号进行空间谱估计，以得到空间谱估计结果，所述唤醒词包含于目标语音；

根据所述空间谱估计结果和最高的唤醒词检测得分，确定所述目标语音的方位角。

处理器510控制终端设备50的操作，处理器510还可以称为中央处理单元(Central Processing Unit，CPU)。存储器540可以包括只读存储器和随机存取存储器，并向处理器510提供指令和数据。存储器540的一部分还可以包括非易失性随机存取存储器(NVRAM)。具体的应用中终端设备50的各个组件通过总线系统520耦合在一起，其中总线系统520除包括数据总线之外，还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见，在图中将各种总线都标为总线系统520。

上述本申请实施例揭示的方法可以应用于处理器510中，或者由处理器510实现。处理器510可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器510中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器510可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器540，处理器510读取存储器540中的信息，结合其硬件完成上述方法的步骤。

可选地，处理器510被设置为：

确定所述唤醒词从开始出现到结束所处的时间段；

可选地，处理器510被设置为：

根据所述目标采样信号，计算出多个备选方位角上信号功率强度。

可选地，处理器510被设置为：

确定所述唤醒词结束的时间点；

可选地，处理器510还被设置为：

在确定存在所述唤醒词到唤醒词再次出现的时间长度内，停止对所述多通路采样信号中每路采样信号进行唤醒词检测。

可选地，处理器510被设置为：

可选地，处理器510还被设置为：

当所述每路采样信号中有任意一路采样信号的唤醒词检测得分大于得分阈值，则确定所述每路采样信号的唤醒词检测得分确定存在所述唤醒词。

可选地，处理器510还被设置为：

对于缓存的所述多通路采样信号，保留最新的(M+N)时间长度的采样信号，删除所述(M+N)时间长度之外的采样信号，所述M为所述唤醒词占用时长，所述N为预置时长。

上对终端设备50的描述可以参阅图1至图5部分的描述进行理解，本处不再重复赘述。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。

所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘(Solid State Disk，SSD))等。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：ROM、RAM、磁盘或光盘等。

以上对本申请实施例所提供的方位角估计的方法、终端设备以及计算机可读存储介质进行了详细介绍，本文中应用了具体个例对本申请实施例的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请实施例的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请实施例的限制。

工业实用性

Claims

一种方位角估计的方法，包括：

终端设备获取多通路采样信号并缓存所述多通路采样信号；

所述终端设备对所述多通路采样信号中每路采样信号进行唤醒词检测，并确定每路采样信号的唤醒词检测得分；

若所述终端设备根据所述每路采样信号的唤醒词检测得分确定存在所述唤醒词，则对缓存的所述多通路采样信号进行空间谱估计，以得到空间谱估计结果，所述唤醒词包含于目标语音；

所述终端设备根据所述空间谱估计结果和最高的唤醒词检测得分，确定所述目标语音的方位角。
根据权利要求1所述的方法，其中，所述方法还包括：

所述终端设备确定所述唤醒词从开始出现到结束所处的时间段；

所述终端设备从缓存的所述多通路采样信号中提取出所述时间段内的目标采样信号；

所述对缓存的所述多通路采样信号进行空间谱估计，以得到空间谱估计结果，包括：

对所述目标采样信号进行空间谱估计，以得到空间谱估计结果。
根据所述权利要求2所述的方法，其中，所述对所述目标采样信号进行空间谱估计，以得到空间谱估计结果，包括：

根据所述目标采样信号，计算出多个备选方位角上信号功率强度。
根据所述权利要求3所述的方法，其中，所述终端设备根据所述空间谱估计结果和最高的唤醒词检测得分，确定所述目标语音的方位角，包括：

确定目标主波束的方位角度，所述目标主波束为所述最高的唤醒词检测得分所对应采样信号的主波束；

确定所述多个备选方位角上信号功率强度中的局部极大值点；

根据所述目标主波束的方位角度和所述局部极大值点，确定所述目标语音的方位角。
根据所述权利要求4所述的方法，其中，所述根据所述目标主波束的方位角度和所述局部极大值点，确定所述目标语音的方位角，包括：

将与所述目标主波束的方位角度最接近的局部极大值点所对应的备选方位角，确定为所述目标语音的方位角。
根据所述权利要求4所述的方法，其中，所述根据所述目标主波束的方位角度和所述局部极大值点，确定所述目标语音的方位角，包括：

若与所述目标主波束的方位角度最接近的局部极大值点有至少两个，则根将所述至少两个局部极大值点各自所对应的备选方位角的平均值确定为所述目标语音的方位角。
根据权利要求2-6任一所述的方法，其中，所述终端设备确定所述唤醒词从开始出现到结束所处的时间段，包括：

确定所述唤醒词结束的时间点；

根据所述唤醒词结束的时间点，以及所述唤醒词的得分变化记录或者采样信号的能量波动记录，确定所述唤醒词开始出现的时间点；

根据所述唤醒词开始出现的时间点和所述唤醒词结束的时间点，确定所述唤醒词从开始出现到结束所处的时间段。
根据权利要求2-6任一所述的方法，其中，所述对缓存的所述多通路采样信号进行空间谱估计，以得到空间谱估计结果时，所述方法还包括：

所述终端设备在确定存在所述唤醒词到唤醒词再次出现的时间长度内，停止对所述多通路采样信号中每路采样信号进行唤醒词检测。
根据权利要求1-6任一所述的方法，其中，所述终端设备对所述多通路采样信号中每路采样信号进行唤醒词检测，并确定每路采样信号的唤醒词检测得分，包括：

对所述多通路采样信号中每路采样信号进行唤醒词检测，并确定所述每路采样信号的唤醒词的置信度，所述置信度为所述每路采样信号中的内容与预配置的唤醒词的相似程度；

根据所述每路采样信号的唤醒词的置信度确定所述每路采样信号的唤醒词检测得分。
根据权利要求1-6任一所述的方法，其中，所述方法还包括：

当所述每路采样信号中有任意一路采样信号的唤醒词检测得分大于得分阈值，则所述终端设备确定所述每路采样信号的唤醒词检测得分确定存在所述唤醒词。
根据权利要求1-6任一所述的方法，其中，所述方法还包括：

对于缓存的所述多通路采样信号，所述终端设备保留最新的(M+N)时间长度的采样信号，删除所述(M+N)时间长度之外的采样信号，所述M为所述唤醒词占用时长，所述N为预置时长。
一种终端设备，包括一个或多个处理器，以及一个或多个存储程序单元的存储器，其中，所述程序单元由所述处理器执行，所述程序单元包括：

获取单元，被设置为获取多通路采样信号；

缓存单元，被设置为缓存所述获取单元获取的所述多通路采样信号；

检测单元，被设置为对所述缓存单元缓存的多通路采样信号中每路采样信号进行唤醒词检测，并确定每路采样信号的唤醒词检测得分；

谱估计单元，被设置为若根据所述检测单元确定的所述每路采样信号的唤醒词检测得分确定存在所述唤醒词，则对缓存的所述多通路采样信号进行空间谱估计，以得到空间谱估计结果，所述唤醒词包含于目标语音；

确定单元，被设置为根据所述谱估计单元的空间谱估计结果和所述检测单元检测出的最高的唤醒词检测得分，确定所述目标语音的方位角。
一种终端设备，所述终端设备包括：输入/输出(I/O)接口、处理器和存储器，所述存储器中存储有程序指令；

所述处理器被设置为执行存储器中存储的程序指令，执行如权利要求1-11任一所述的方法。
一种计算机可读存储介质，包括指令，当所述指令在计算机设备上运行时，使得所述计算机设备执行如权利要求1-11中任一项所述的方法。