WO2020001163A1

WO2020001163A1 - 语音识别方法和装置、计算机设备和电子设备

Info

Publication number: WO2020001163A1
Application number: PCT/CN2019/085625
Authority: WO
Inventors: 高毅; 郑脊萌; 于蒙; 罗敏
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2018-06-28
Filing date: 2019-05-06
Publication date: 2020-01-02
Also published as: US20200335088A1; CN110164446A; CN110164446B; US11217229B2; EP3816995A4; JP2021515281A; EP3816995A1; CN110364166A; JP7109852B2; CN110364166B

Abstract

本申请涉及一种语音识别方法、装置、计算机设备和电子设备，方法包括：接收麦克风阵列采集的音频信号；将音频信号在多个不同目标方向分别进行波束形成处理，得到对应的多路波束信号；分别对每路波束信号进行语音识别，得到各路波束信号的语音识别结果；根据各路波束信号的语音识别结果，确定音频信号的语音识别结果。该方法无需考虑声源方向，通过在不同目标方向进行波束形成处理，使得至少一个目标方向与实际声音产生方向接近，因而至少一个在目标方向进行增强后的波束信号是清楚的，因而根据各波束信号进行语音识别，能够提高语音识别准确率。

Description

语音识别方法和装置、计算机设备和电子设备

本申请要求于2018年06月28日提交的申请号为201810689667.5、发明名称为“语音信号识别方法和装置、计算机设备和电子设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及语音交互技术领域，特别是涉及一种语音识别方法和装置、计算机设备和电子设备。

背景技术

智能语音交互是一项通过语音命令实现人机交互的技术。通过将语音交互技术植入电子设备，可以使得电子设备人工智能化，而人工智能化的电子设备目前越来越受到用户的喜欢。例如，亚马逊的Echo智能音箱在市场上获得了巨大成功。

对于植入了语音交互技术的电子设备而言，准确地识别用户的语音命令是实现人机交互的基础。而用户使用电子设备的环境是不确定的，当用户处于环境噪声较大的场景下时，如何降低环境噪声对语音识别的影响，提高电子设备的语音识别准确率是亟待解决的一个问题。

相关技术解决这一问题的方法通常为：首先通过麦克风阵列中的所有麦克风采集音频信号，之后根据采集到的音频信号确定声源角度，并根据声源角度对音频信号进行指向性采集，从而减少不相关噪声的干扰。而这种方式受声源角度精确度的影响，当声源角度检测错误时，将导致语音识别的准确率降低。

发明内容

基于此，本申请实施例提供了一种语音识别方法和装置、计算机设备和电子设备，能够解决相关技术存在的对语音的识别准确率低的问题。

一种语音识别方法，包括：

接收麦克风阵列采集的音频信号；

将所述音频信号在多个不同目标方向分别进行波束形成处理，得到对应的多路波束信号；

分别对每路波束信号进行语音识别，得到各路波束信号的语音识别结果；

根据各路波束信号的语音识别结果，确定音频信号的语音识别结果。

一种语音识别装置，包括：

音频信号接收模块，用于接收麦克风阵列采集的音频信号；

波束形成器，用于将所述音频信号在多个不同目标方向分别进行波束形成处理，得到对应的多路波束信号；

语音识别模块，用于分别对每路波束信号进行语音识别，得到各路波束信号的语音识别结果；

处理模块，用于根据各路波束信号的语音识别结果，确定所述音频信号的语音识别结果。

一种计算机设备，包括麦克风阵列、存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如上述方法的步骤。

一种电子设备，包括：

用于采集音频信号的麦克风阵列，所述麦克风阵列包括至少两层环形结构；

与所述麦克风阵列连接的处理器，用于对所述音频信号进行处理；

存储有计算机程序的存储器；

封装所述麦克风阵列和所述处理器的壳体；

所述计算机程序被所述处理器执行时，使得所述处理器执行如上述的语音识别方法。

上述的语音识别方法和装置、计算机设备和电子设备，通过对麦克风阵列采集的音频信号在多个不同目标方向进行波束形成处理，可以得到对应的多路波束信号，实现了分别在不同目标方向进行声音增强处理，能够清楚地提取各个目标方向增强处理后的波束信号，即该方法无需考虑声源方向，通过在不同目标方向进行波束形成处理，使得至少一个目标方向与实际声音产生方向接近，因而至少一个在目标方向进行增强后的波束信号是清楚的，因而根据各个波束信号进行语音识别，能够提高语音识别准确率。

附图说明

图1为一个实施例中语音识别方法的流程示意图；

图2为一个实施例中麦克风阵列的示意图；

图3为一个实施例中在四个目标方向进行波束形成处理得到的波束信号的示意图；

图4为一个实施例中波束形成器与语音识别模型的交互示意图；

图5为一个实施例中语音识别模型的结构示意图；

图6为一个实施例中语音识别模型的神经网络节点检测到唤醒词时的信号示意图；

图7为一个实施例的语音识别的架构图；

图8为一个实施例的麦克风阵列的示意图；

图9为另一个实施例的麦克风阵列的示意图；

图10为一个实施例中语音识别方法的步骤流程示意图；

图11为一个实施例中语音识别装置的结构框图；

图12为一个实施例中计算机设备的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，提供了一种语音识别方法。本实施例主要以该方法应用于语音识别设备为例进行说明。语音识别设备可以为植入了语音交互技术的电子设备，该电子设备可以是能够实现人机交互的智能终端、智能家电或机器人等。如图1所示，该语音识别方法包括：

S102，接收麦克风阵列采集的音频信号。

麦克风阵列即指代麦克风的排列，由一定数量的麦克风组成。各个麦克风采集环境声音的模拟信号，经过模数转换器、增益控制器、编解码器等音频采集设备将该模拟信号转换为数字音频信号。

不同排列方式的麦克风阵列，采集音频信号的效果不同。

例如，麦克风阵列可采用一维麦克风阵列，其阵元中心位于同一条直线上。根据相邻阵元间距是否相同，又可分为均匀线性阵列(Uniform Linear Array，ULA)和嵌套线性阵列。均匀线性阵列是最简单的阵列拓扑结构，其阵元之间距离相等、相位及灵敏度一致。嵌套线性阵列则可看成几组均匀线性阵列的叠加，是一类特殊的非均匀阵。这种线性麦克风阵列在水平方向上不能区分整个360度范围内的声源方向，而只能区分180度范围内的声源方向。这种线性麦克风阵列可适应于180度范围的应用环境，例如，语音识别设备靠墙，或是语音识别设备处于声音来源为180度范围的环境。

又例如，麦克风阵列可采用二维麦克风阵列，即平面麦克风阵列，其阵元中心分布在一个平面上。根据阵列的几何形状可分为等边三角形阵、T型阵、均匀圆阵、均匀方阵、同轴圆阵、圆形或矩形面阵等。平面麦克风阵列可以得到信号的水平方位角和垂直方位角信息。这种平面麦克风阵列可适应于360度范围的应用环境，例如，语音识别设备需要接收不同朝向的声音。

再例如，麦克风阵列可采用三维麦克风阵列，即立体麦克风阵列，其阵元中心分布在立体空间中。根据阵列的立体形状可分为四面体阵、正方体阵、长方体阵、球型阵等。立体麦克风阵列可以得到信号的水平方位角、垂直方位角、声源与麦克风阵列参考点距离这三种信息。

现以麦克风阵列为环形为例进行说明。一种实施例的环形麦克风阵列如图2所示，本实施例中用了6个物理麦克风，依次安放在方位角0度、60度、120度、180度、240度、300度，半径为R的圆周上，这6个物理麦克风组成一个环形麦克风阵列。每个麦克风采集环境声音的模拟信号，经过模数转换器、增益控制器、编解码器等音频采集设备将该模拟信号转换为数字声音信号。环形麦克风阵列能够360度采集声音信号。

S104，将采集到的音频信号在多个不同目标方向分别进行波束形成处理，得到对应的多个波束信号。

波束形成，是对麦克风阵列中各个麦克风输出的音频信号进行时延或相位补偿、幅度加权处理，以形成指向特定方向的波束。例如，对麦克风阵列采集的音频信号在0度、90度、180度或270度方向进行波束形成，形成指向0度、90度、180度或270度方向的波束。

作为一个示例，可采用波束形成器将音频信号在设定方向分别进行波束形成处理。波束形成器是基于特定麦克风阵列设计的算法，它能够对特定的一个或者多个目标方向的音频信号进行增强，对非目标方向的音频信号进行抑制。波束形成器可以是任何类型的能设定方向的波束形成器，包括但不限于超方向波束形成器、基于MVDR(Minimum Variance Distortionless Response,最小方差无畸变响应)或者MUSIC(Multiple Signal Classification，多信号分类)算法的波束形成器。

本实施例中，设置有多个波束形成器，每个波束形成器在不同方向进行波束形成处理。作为一个示例，多个麦克风的数字音频信号组成麦克风阵列信号送往多个波束形成器。各个波束形成器对不同的设定方向的音频信号进行增强处理，对其它方向的音频信号进行抑制，越偏离设定方向的音频信号被抑制的越多，这样就能提取设定方向附近的音频信号。

一个实施例中，设置有四个波束形成器，分别在0度、90度、180度和270度对音频信号进行波束形成处理，对多个方向的音频信号进行波束形成处理，得到的多路波束信号的示意图如图3所示。可以理解的是，对于输入各波束形成器的音频信号，不限于采集该音频信号的麦克风阵列的排列方式。对于多目标方向分别进行波束形成处理而言，能够对目标方向的音频信号进行增强处理，降低其它方向的音频信号的干扰，因此，作为一个示例，采集该音频信号的麦克风阵列至少具有两个不同方向的麦克风。

以利用图2所示的麦克风阵列采集音频信号为例，如图3所示，将多个麦克风的数字音频信号组成麦克风阵列信号，对0度方向的声音维持不变(0dB增益)，对60度和330度方向的声音具有大于9dB的抑制效果(约-9dB增益)，对90度和270度方向的声音则具有超过20dB的抑制。线条越接近圆心则表示对该方向的声音抑制越多，从而实现了对0度方向的音频信号的增强，降低了其它方向的音频信号的干扰。

请继续参阅图3，将多个麦克风的数字音频信号组成麦克风阵列信号，对90度方向的声音维持不变(0dB增益)，对30度和150度方向的声音具有大于9dB的抑制效果(约-9dB增益)，对0度和180度方向的声音则具有超过20dB的抑制。线条越接近圆心则表示对该方向的声音抑制越多，从而实现了对90度方向的音频信号的增强，降低了其它方向的音频信号的干扰。

请继续参阅图3，将多个麦克风的数字音频信号组成麦克风阵列信号，对180度方向的声音维持不变(0dB增益)，对120度和240度方向的声音具有大于9dB的抑制效果(约-9dB增益)，对90度和270度方向的声音则具有超过20dB的抑制。线条越接近圆心则表示对该方向的声音抑制越多，从而实现了对180度方向的音频信号的增强，降低了其它方向的音频信号的干扰。

请继续参阅图3，将多个麦克风的数字音频信号组成麦克风阵列信号，对270度方向的声音维持不变(0dB增益)，对210度和330度方向的声音具有大于9dB的抑制效果(约-9dB增益)，对180度和0度方向的声音则具有超过20dB的抑制。线条越接近圆心则表示对该方向的声音抑制越多，从而实现了对270度方向的音频信号的增强，降低了其它方向的音频信号的干扰。

可以理解的是，为了实现其它目标方向音频信号的增强，在其它的实施例中，还可以设置更多或更少的波束形成器，以提取其它方向的波束信号。通过对设定的多个不同目标方向分别进行波束形成处理，对于该波束形成器的波束信号而言，能够实现对目标方向的音频信号的增强，降低了其它方向的音频信号的干扰。而多路目标方向的音频信号中，至少有一路波束信号与实际声音方向接近，即至少有一路波束信号能够反应实际声音，同时降低了其它方向的噪声的干扰。

本实施例中，对于麦克风阵列采集的音频信号，无需鉴别声源方向，均在设定的多个不同目标方向进行波束形成处理。这样做的优点在于，能够得到多个目标方向的波束信号，其中必然有至少一个波束信号与实际声音方向接近，即至少一个波束信号能够反应实际声音。对于该方向的波束形成器而言，对该方向的音频信号进行增强处理，对其它方向的音频信号进行抑制处理，能够增强实际声音方向对应角度的音频信号，即减少了其它方向的音频信号，能够清楚地提取在该方向的音频信号，降低了其它方向的音频信号(包括噪声)的干扰。

S106，分别对每路波束信号进行语音识别，得到各路波束信号的语音识别结果。

本实施例中，对于每一路波束信号分别进行语音识别，由于对音频信号在设定的多个不同目标方向进行波束形成处理，得到多路波束信号，即对于一路波束信号而言，是通过对设定目标方向的音频信号进行增强处理，非设定目标方向的音频信号进行抑制处理得到，故而每一路波束信号能够反应不同方向的音频信号的声音增强信号，根据每个方向的波束信号进行语音识别，对于包含人声的声音增强信号，能够提高语音识别的准确率。

S108，根据各路波束信号的语音识别结果，确定采集到的音频信号的语音识别结果。

通过对每一路波束信号进行语音识别，能够提高对应方向的音频信号的语音识别准确率，根据各个方向的波束信号的语音识别结果，能够得到来自多个方向的音频信号的语音识别结果，即结合各路声音增强后的语音识别结果，得到采集到的音频信号的语音识别结果。

上述的语音识别方法，通过对麦克风阵列采集的音频信号，在设定的多个不同目标方向进行波束形成处理，得到对应的多路波束信号，能够分别在不同目标方向进行声音增强处理后，清楚地提取各个目标方向增强处理后的波束信号，即该方法无需考虑声源方向，通过在不同目标方向进行波束形成处理，那么至少一个目标方向与实际声音产生方向接近，因而至少一个在目标方向进行增强后的波束信号是清楚地，因而根据各个波束信号进行语音识别，能够提高语音识别的准确率。

在另一个实施例中，分别对每路波束信号进行语音识别，得到各路波束信号的语音识别结果，包括：将每路波束信号分别输入对应的语音识别模型，由各个语音识别模型并行对对应的波束信号进行语音识别，得到各路波束信号的语音识别结果。

作为一个示例，语音识别模型使用神经网络模型预先训练得到。将每路波束信号对应的特征向量，例如能量和子带特征等，通过预先训练好的神经网络参数逐层计算，进行语音识别。

在另一个实施例中，设置与波束形成器数量对应的语音识别模型，即一个波束形成器与一个语音识别模型对应，如图4所示，作为一个示例，将每路波束信号分别输入对应的语音识别模型，由各个语音识别模型并行对对应的波束信号进行语音识别，得到各路波束信号的语音识别结果。

本实施例中，通过设置与波束形成器数量对应的语音识别模型，对各路波束信号并行进行语音识别，能够提高语音识别的效率。

作为一个示例，一个波束形成器和一个语音识别模型配对运行在一个CPU(Central Processing Unit，中央处理单元)或DSP(Digital Signal Processor，数字信号处理器)上，即多对波束形成器和语音识别模型配对运行在多个CPU上，然后将语音识别模型的语音识别结果综合起来得到最终的语音识别结果。通过这种并行运算可以极大加快软件执行速度。

本实施例中，由不同的硬件计算单元来处理以分摊计算量，提高系统稳定性，并提高语音识别响应速度。作为一个示例，N个波束形成器被分成M组，M<＝N,每一组由指定的硬件计算单元(例如DSP或CPU核)来执行计算。同理，N个语音识别模型被分成M组，M<＝N,每一组由指定的硬件计算单元(例如DSP或CPU核)来执行计算。

本申请的语音识别方法可应用关键词检测(Spokenkeywordspotting或SpokenTermDetection)。

关键词检测是语音识别领域的一个子领域，其目的是在音频信号中检测指定词语的所有出现位置。在一个实施例中，可将关键词检测方法应用到唤醒词检测领域。其中，唤醒词是指设定的语音指令。当检测到唤醒词时，处于休眠或锁屏状态下的语音识别设备进入到等待指令状态。

其中，语音识别结果包括关键词检测结果。根据各路波束信号的语音识别结果，确定采集到的音频信号的语音识别结果，包括：根据各路波束信号的关键词检测结果，确定采集到的音频信号的关键词检测结果。

其中，各个语音识别模型接收对应的波束形成器输出的波束信号，并检测其中是否包含关键词，并将检测结果输出。即，各个语音识别模型用于根据接收到的各个方向上的波束信号，来检测来自各个方向的音频信号中是否包含关键词。以关键词包括4个字为例，如图5所示，将波束信号的特征向量(例如能量和子带特征等)，通过预先训练好的网络参数逐层计算各个节点的输出值，最后在输出层得到关键词检测结果。

在一个实施例中，检测结果可以为二元符号，例如，输出0表示没有检测到关键词，输出1表示检测到关键词。根据各路波束信号的关键词检测结果，确定采集到的音频信号的关键词检测结果，包括：当任意一路波束信号的关键词检测结果为检测到关键词时，确定采集到的音频信号的关键词检测结果为检测到关键词，即当多个语音识别模型中至少有一个语音识别模型检测到关键词时，确定检测到关键词。

另外，关键词检测结果还可包括关键词检测概率；根据各路波束信号的关键词检测结果，确定采集到的音频信号的关键词检测结果，包括：当至少一路波束信号的关键词检测概率大于预设值时，确定采集到的音频信号的关键词检测结果为检测到关键词。

如图5所示，假设关键词是“你好小听”，该神经网络输出层具有5个节点，分别代表该段语音属于“你”“好”“小”“听”四个关键字以及非关键字的概率。如果在一段时间窗口Dw内出现了唤醒词，则神经网络的输出节点将出现类似图6所示信号，即可依次观察到“你”“好”“小”“听”四个关键字的概率增大。通过在该时间窗口中累积唤醒词中这四个关键字的概率，即可判断是否出现关键词。

在一个实施例中，根据各路波束信号的关键词检测结果，确定采集到的音频信号的关键词检测结果，包括：将各路波束信号的关键词检测概率输入预先训练的分类器，根据分类器的输出确定采集到的音频信号是否包括关键词。

其中，各个语音识别模型输出各个方向唤醒词出现的概率，由一个分类器来作出最终的检测判决，该分类器包括但不限于神经网络、SVM(Support Vector Machine，支持向量机)、决策树等各种分类算法。上述分类器在本实施例中也称为后处理逻辑模块。

在另一个实施例中，根据各路波束信号的语音识别结果，确定采集到的音频信号的语音识别结果，包括：获取各路波束信号的语音识别结果的语言学得分和/或声学得分；将最高得分的语音识别结果，确定为采集到的音频信号的语音识别结果。

其中，该语音识别方法可应用于连续或非连续语音识别领域，将多个波束形成器的输出同时送入多个语音识别模型，最终的语音识别结果采用具有最佳语音识别效果的语音识别模型的输出。作为一个示例，最终的语音识别结果可为具有最大声学得分或者语言学得分的语音识别结果，或者两者组合的语音识别结果。

在另一个实施例中，语音识别方法还包括：对语音识别设备输出的音频信号导致的回声进行抑制处理。

对于包括音频播放功能的语音识别设备而言，例如，智能音箱，为避免自身播放声音对语音识别的干扰，参见图7，本申请实施例还设置有回声消除模块，回声消除模块可以去除语音识别设备因自身进行播放而被麦克风采集到的回声。如图7所示，该回声消除模块可以置于波束形成器之前或之后。作为一个示例，当多方向波束形成器输出声音的声道数量小于麦克风数量时，将回声消除模块置于多方向波束形成器之后可以有效降低运算量。

在一个实施例中，如图7所示，回声消除器模块或者波束形成器的多路输出信号可以经过一个声道选择模块进一步减少输出声道数量，以降低后续多个语音识别模块的运算量和内存消耗。

以唤醒词检测为例，多方向波束形成器输出的多路波束信号会被送到多个语音识别模型进行唤醒词检测。多个语音识别模型在进行唤醒词检测得到多路唤醒词检测结果后，会将多路唤醒词检测结果输出到后处理逻辑模块进行最终判决，以确定当前声学场景下是否出现唤醒词。

在一个实施例中，提供一种电子设备，包括：用于采集音频信号的麦克风阵列，所述麦克风阵列包括至少两层环形结构；

存储有计算机程序的存储器；

封装所述麦克风阵列和所述处理器的壳体；

所述计算机程序被所述处理器执行时，使得所述处理器执行如上述各实施例的语音识别方法。

其中，当麦克风阵列为环形阵列时，环形阵列中麦克风可以安放在标准的圆周上，也可以安放在椭圆形的圆周上；麦克风均匀分布在圆周上，也可以非均匀地安放在圆周上。环节结构的麦克风阵列能够360度地采集音频信号，提高声源检测的方向，适用于远场环境。

在一个实施例中，各环形结构上设置至少三个麦克风。即，各环形结构上安放大于或等于三个麦克风，构成多层环形阵列。环形阵列上的麦克风越多，理论上计算声源方向的精度越高，对目标方向的声音的增强质量越好。考虑到麦克风越多成本和计算复杂度越高，各环形结构上分别设置4个至8个麦克风。

在一个实施例中，为了降低声音检测的复杂度，各环形结构上的麦克风均匀设置。

在一个实施例中，各环形结构为同心圆，相邻两个环形结构的麦克风分别设置在相同方向。即各环形结构上的麦克风分别设置在同一角度。如图8所示，以两个环形结构为例，每个环形结构上设置三个麦克风。内层麦克风和外层麦克风分别在0度，120度和240度设置。多层环形结构的麦克风阵列增加了麦克风个数，使得阵列可以获得更好的指向性。

在一个实施例中，任意两个环形结构上的麦克风具有夹角。即，各环形结构上的麦克风错开设置。如图9所示，以两个环形结构为例，每个环形结构上设置三个麦克风。内层环形结构分别在0度，120度和240度设置麦克风，外层环形结构分别在60度，180度和300度设置麦克风。这种方式的麦克风阵列，麦克风相对位置更加多样性，比如外层麦克风与内层麦克风之间具有不同夹角，从而对某些方向的声源具有更好的检测和增强效果，麦克风分布更密集则增加了空间采样，对一些频率的声音信号具有更好的检测和增强效果。

在另一个实施例中，可以在环形阵列的圆心上安放麦克风形成麦克风阵列，在圆心上放置麦克风增加了麦克风个数，可以增强阵列的指向性，比如圆心的麦克风可以与圆周上的任意一个麦克风组合成一个具有两个麦克风的线性阵列，有利于检测声源方向。圆心的麦克风也可以与圆周上的多个麦克风组合成不同形状的麦克风子阵列，有利于检测不同方向/频率的信号。

本申请的语音识别方法，可应用于关键词检测，例如唤醒词检测，连续或非连续任意语音识别领域。下面，以语音识别方法应用于唤醒词检测为例，对语音识别方法进行说明。如图10所示，该方法包括以下步骤：

S1002，接收麦克风阵列采集的音频信号。

其中，麦克风阵列的排布方式不限，例如，当电子设备靠墙，或是，电子设备处于声音来源为180度范围的环境时，麦克风阵列可以为线性排布。又例如，当电子设备需要接收不同朝向的声音，如电子设备处于360度范围的应用环境时，麦克风阵列可采用环形麦克风阵列，一种环形麦克风阵列的排布方式分别如图2、图8和图9所示。各个麦克风采集环境声音的模拟信号，经过模数转换器、增益控制器、编解码器等音频采集设备将模拟信号转换为数字音频信号。

S1004，将采集到的音频信号在多个不同目标方向分别进行波束形成处理，得到对应的多路波束信号。

S1006，分别将每路波束信号输入语音识别模型，由语音识别模型并行对对应的波束信号进行语音识别，得到各路波束信号的唤醒词检测结果。

本实施例中，通过设置与波束形成器数量对应的语音识别模型，对各路波束信号并行进行语音识别，能够提高唤醒词检测的效率。

一个实施例的语音识别模型结构如图5所示，各个语音识别模型接收对应的波束形成器输出的波束信号，并检测其中是否包含唤醒词信号，并将检测结果输出。以唤醒词包括4个字为例，如图5所示，将波束信号的特征向量(例如能量和子带特征等)，通过预先训练好的网络参数逐层计算各个节点的输出值，最后在输出层得到唤醒词或者唤醒词中关键字的概率。如图5所示，假设唤醒词是“你好小听”，该神经网络输出层具有5个节点，分别代表该段语音属于“你”“好”“小”“听”四个关键字以及非关键字的概率。

S1008，根据各路波束信号的唤醒词检测结果，得到采集到的音频信号的唤醒词检测结果。

其中，唤醒词检测结果可以是二元符号(例如输出0表示没有检测到唤醒词，输出1表示检测到唤醒词)，也可以是输出概率(例如概率值越大表示检测到唤醒词的概率越大)。作为一个示例，当各个语音识别模型中至少有一个语音识别模型检测到唤醒词时，确定检测到唤醒词。如果语音识别模型的输出为唤醒词出现的概率，当至少一个语音识别模型的输出概率大于预设值时，认为检测到唤醒词。或者，各个语音识别模型输出各个方向唤醒词出现的概率，由一个分类器来作出最终的检测判决，即将各路波束信号的唤醒词检测概率输入分类器，根据分类器的输出确定采集到的音频信号是否包括唤醒词。

上述的方法，采用麦克风阵列进行音频信号采集，通过多方向波束形成器对麦克风阵列信号进行滤波形成多个方向性增强信号，通过多个语音识别模型对方向性增强信号中的唤醒词进行监测，根据对多个语音识别模型输出的唤醒词检测结果进行综合得到最终判别结果。该方法无需考虑声源方向，通过在不同目标方向进行波束形成处理，至少一个目标方向与实际声音产生方向接近，因而至少一个在目标方向进行增强后的波束信号是清楚地，因而根据各个波束信号进行唤醒词检测，能够提高在该方向上唤醒词检测的准确率。

一种语音识别装置，如图11所示，包括：

音频信号接收模块1101，用于接收麦克风阵列采集的音频信号；

波束形成器1102，用于将所述音频信号在多个不同目标方向分别进行波束形成处理，得到对应的多路波束信号；

语音识别模块1103，用于分别对每路波束信号进行语音识别，得到各路波束信号的语音识别结果。

处理模块1104，用于根据各路波束信号的语音识别结果，确定所述音频信号的语音识别结果。

上述的语音识别装置，通过对麦克风阵列采集的音频信号在多个不同目标方向进行波束形成处理，可以得到对应的多路波束信号，实现了分别在不同目标方向进行声音增强处理，能够清楚地提取各个目标方向增强处理后的波束信号，即该方法无需考虑声源方向，通过在不同目标方向进行波束形成处理，使得至少一个目标方向与实际声音产生方向接近，因而至少一个在目标方向进行增强后的波束信号是清楚的，因而根据各个波束信号进行语音识别，能够提高语音识别准确率。

在另一个实施例中，所述处理模块，用于根据各路波束信号的关键词检测结果，确定所述音频信号的关键词检测结果。

在另一个实施例中，处理模块，用于当任意一路波束信号的关键词检测结果为检测到关键词时，确定所述音频信号的关键词检测结果为检测到关键词。

在另一个实施例中，所述关键词检测结果包括关键词检测概率；处理模块，用于当至少一路所述波束信号的关键词检测概率大于预设值时，确定所述音频信号的关键词检测结果为检测到关键词。

在另一个实施例中，处理模块，用于将各路所述波束信号的关键词检测概率输入分类器，根据所述分类器的输出确定所述音频信号是否包括关键词。

在另一个实施例中，处理模块，用于计算各路波束信号的语音识别结果的语言学得分和/或声学得分，将最高得分的语音识别结果，确定为所述音频信号的语音识别结果。

在另一个实施例中，语音识别模块，用于将每路波束信号分别输入对应的语音识别模型，由各个语音识别模型并行对对应的所述波束信号进行语音识别，得到各路波束信号的语音识别结果。

如图4所示，一个波束形成器与一个语音识别模型对应。所述语音识别模块，用于将每路波束信号分别输入对应的语音识别模型，由各个语音识别模型并行对对应的所述波束信号进行语音识别，得到各路波束信号的语音识别结果。

在另一个实施例中，语音识别装置还包括回声消除模块，用于对语音识别设备输出的音频信号的回声进行抑制处理。

在另一个实施例中，语音识别装置还包括声道选择模块，回声消除模块或者波束成形器的多路输出信号可以经过一个声道选择模块进一步减少输出声道数量，以降低后续多路语音识别模块的运算量和内存消耗。

图12示出了一个实施例中计算机设备的内部结构图。该计算机设备可以是语音识别设备。如图12所示，该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置、显示屏和麦克风阵列和音频输出设备。其中，麦克风阵列采集音频信号。存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现语音识别方法。

该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行语音识别方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。音频输出设备包括扬声器，用于播放声音。

本领域技术人员可以理解，图12中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的语音识别装置可以实现为一种计算机程序的形式，计算机程序可在如图12所示的计算机设备上运行。计算机设备的存储器中可存储组成该语音识别装置的各个程序模块，比如，图11所示的音频信号接收模块、波束形成器和语音识别模块。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的语音识别方法中的步骤。

例如，图12所示的计算机设备可以通过如图11所示的语音识别装置中的音频信号接收模块执行接收麦克风阵列采集的音频信号的步骤。计算机设备可通过波束形成器执行将所述音频信号在设定的多个不同目标方向分别进行波束形成处理，得到对应的多路波束信号的步骤。计算机设备可通过语音识别模块执行根据各路所述波束信号进行语音识别的步骤。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行以下步骤：

接收麦克风阵列采集的音频信号；

根据各路波束信号的语音识别结果，确定所述音频信号的语音识别结果。

在另一个实施例中，所述语音识别结果包括关键词检测结果；所述根据各路波束信号的语音识别结果，确定所述音频信号的语音识别结果，包括：根据各路波束信号的关键词检测结果，确定所述音频信号的关键词检测结果。

在另一个实施例中，所述根据各路波束信号的关键词检测结果，确定所述音频信号的关键词检测结果，包括：当任意一路波束信号的关键词检测结果为检测到关键词时，确定所述音频信号的关键词检测结果为检测到关键词。

在另一个实施例中，所述关键词检测结果包括关键词检测概率；所述根据各路波束信号的关键词检测结果，确定所述音频信号的关键词检测结果，包括：当至少一路所述波束信号的关键词检测概率大于预设值时，确定所述音频信号的关键词检测结果为检测到关键词。

在另一个实施例中，所述根据各路波束信号的关键词检测结果，确定所述音频信号的关键词检测结果，包括：将各路所述波束信号的关键词检测概率输入分类器，根据所述分类器的输出确定所述音频信号是否包括关键词。

在另一个实施例中，所述根据各路波束信号的语音识别结果，确定所述音频信号的语音识别结果，包括：获取各路波束信号的语音识别结果的语言学得分和/或声学得分；将最高得分的语音识别结果，确定为所述音频信号的语音识别结果。

在另一个实施例中，所述分别对每路波束信号进行语音识别，得到各路波束信号的语音识别结果，包括：将每路波束信号分别输入对应的语音识别模型，由各个语音识别模型并行对对应的所述波束信号进行语音识别，得到各路波束信号的语音识别结果。

在另一个实施例中，语音识别方法还包括：对语音识别设备输出的音频信号的回声进行抑制处理。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

一种语音识别方法，包括：

接收麦克风阵列采集的音频信号；

将所述音频信号在多个不同目标方向分别进行波束形成处理，得到对应的多路波束信号；

分别对每路波束信号进行语音识别，得到各路波束信号的语音识别结果；

根据各路波束信号的语音识别结果，确定所述音频信号的语音识别结果。
根据权利要求1所述的方法，其特征在于，所述语音识别结果包括关键词检测结果；

所述根据各路波束信号的语音识别结果，确定所述音频信号的语音识别结果，包括：根据各路波束信号的关键词检测结果，确定所述音频信号的关键词检测结果。
根据权利要求2所述的方法，其特征在于，所述根据各路波束信号的关键词检测结果，确定所述音频信号的关键词检测结果，包括：

当任意一路波束信号的关键词检测结果为检测到关键词时，确定所述音频信号的关键词检测结果为检测到关键词。
根据权利要求2所述的方法，其特征在于，所述关键词检测结果包括关键词检测概率；

所述根据各路波束信号的关键词检测结果，确定所述音频信号的关键词检测结果，包括：

当至少一路所述波束信号的关键词检测概率大于预设值时，确定所述音频信号的关键词检测结果为检测到关键词。
根据权利要求2所述的方法，其特征在于，所述关键词检测结果包括关键词检测概率；

所述根据各路波束信号的关键词检测结果，确定所述音频信号的关键词检测结果，包括

将各路所述波束信号的关键词检测概率输入分类器，根据所述分类器的输出确定所述音频信号是否包括关键词。
根据权利要求1所述的方法，其特征在于，所述根据各路波束信号的语音识别结果，确定所述音频信号的语音识别结果，包括：

获取各路波束信号的语音识别结果的语言学得分和/或声学得分；

将最高得分的语音识别结果，确定为所述音频信号的语音识别结果。
根据权利要求1所述的方法，其特征在于，所述分别对每路波束信号进行语音识别，得到各路波束信号的语音识别结果，包括：

将每路波束信号分别输入对应的语音识别模型，由各个语音识别模型并行对对应的所述波束信号进行语音识别，得到各路波束信号的语音识别结果。
根据权利要求1所述的方法，其特征在于，所述方法还包括，对语音识别设备输出的音频信号的回声进行抑制处理。
一种语音识别装置，包括：

音频信号接收模块，用于接收麦克风阵列采集的音频信号；

波束形成器，用于将所述音频信号在多个不同目标方向分别进行波束形成处理，得到对应的多路波束信号；

语音识别模块，用于分别对每路波束信号进行语音识别，得到各路波束信号的语音识别结果；

处理模块，用于根据各路波束信号的语音识别结果，确定所述音频信号的语音识别结果。
一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至8中任一项所述方法的步骤。
一种电子设备，包括：

用于采集音频信号的麦克风阵列，所述麦克风阵列包括至少两层环形结构；

与所述麦克风阵列连接的处理器，用于对所述音频信号进行处理；

存储有计算机程序的存储器；

封装所述麦克风阵列和所述处理器的壳体；

所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至8任一项所述的语音识别方法。
根据权利要求11所述的电子设备，其特征在于，各环形结构上均匀设置有至少三个麦克风。
根据权利要求11所述的电子设备，其特征在于，各环形结构为同心圆。
根据权利要求13所述的电子设备，其特征在于，相邻两个环形结构的麦克风分别设置在相同方向。
根据权利要求13所述的电子设备，其特征在于，任意两个环形结构上的麦克风具有夹角。