WO2019071989A1

WO2019071989A1 - 一种智能设备的语音增强方法、装置及智能设备

Info

Publication number: WO2019071989A1
Application number: PCT/CN2018/094658
Authority: WO
Inventors: 朱剑; 张向东; 于振宇; 罗志平; 严栋
Original assignee: 歌尔股份有限公司
Priority date: 2017-10-13
Filing date: 2018-07-05
Publication date: 2019-04-18
Also published as: CN107680593A; US20190378530A1; US10984816B2

Abstract

本发明公开了一种智能设备的语音增强方法、装置及智能设备。该方法包括：实时监测并采集用户发出的语音信号；根据语音信号确定用户的方向；采集用户所在方向的深度图像；根据深度图像确定用户的声源方向；根据用户的声源方向调整智能设备上的麦克风阵列的波束成形方向，并对语音信号进行增强处理。可见，本发明先通过声源定位获取到用户的大致方向，再采集用户所在方向的深度图像，根据深度图像来实现用户的声源方向的精确定位，将根据深度图像确定的用户的声源方向作为调整麦克风阵列的波束成形方向的基准，提高用户的声源方向的声音强度。避免现有技术因确定的用户的声源方向不准确造成无法识别获得语音指令的缺陷，提高了语音增强的效果。

Description

一种智能设备的语音增强方法、装置及智能设备

技术领域

本发明涉及声源定位技术领域，特别涉及一种智能设备的语音增强方法、装置及智能设备。

背景技术

随着机器人等智能设备所处的声学环境越来越复杂，对于智能硬件的语音识别愈发具有挑战性，当用户离麦克风比较远时，智能硬件有可能识别不出用户输入的语音信号，因此需要对输入的语音信号进行语音增强处理。

现有的语音增强方法中，当用户发出语音信号时，通过声源定位确定用户的声源方向，再通过波束成形增大采集的语音信号中位于用户声源方向的声音的强度，并将采集的语音信号中其他方向的信号视为噪声进行滤除。可见，通过声源定位确定出用户的声源方向的准确性对语音增强的效果至关重要。若确定的用户的声源方向不准确，则会将用户的实际语音信号作为噪声滤除，导致无法获得并识别语音指令。

在实际使用中，当用户移动的时候，用户的声源方向将随之改变，若语音增强算法中的波束成形方向仍然保持不变，用户的实际语音信号可能也会被当作外界噪声被滤除，导致无法识别用户语音信号中的语音指令，此时，用户需要重新输入控制声源定位功能开启的语音信号(语音关键词)，重新进行声源定位确定用户的声源方向，采用新确定的声源方向进行语音增强，才能正确识别语音信号中的语音指令。当用户在不停走动的时候，若想通过语音控制机器人等智能设备，就要不停的重复发出控制声源定位功能开启的语音关键词，以重新定位用户的声源方向，降低了用户体验。

发明内容

为了解决现有的语音增强方法因确定的用户的声源方向不准确造成无法识别获得语音指令的问题，本发明提供了一种语音增强方法、装置及智能设备。

本发明的一个实施例提供一种智能设备的语音增强方法，包括：

实时监测并采集用户发出的语音信号；

根据语音信号确定用户的方向；

采集用户所在方向的深度图像；

根据深度图像确定用户的声源方向；

根据用户的声源方向调整智能设备上的麦克风阵列的波束成形方向，并对语音信号进行增强处理。

本发明的另一个实施例还提供一种智能设备的语音增强装置，包括：

语音信号采集单元，用于实时监测并采集用户发出的语音信号；

用户方向确定单元，用于根据语音信号确定用户的方向；

深度图像采集单元，用于采集用户所在方向的深度图像；

声源方向确定单元，用于根据深度图像确定用户的声源方向；

增强处理单元，用于根据用户的声源方向调整智能设备上的麦克风阵列的波束成形方向，并对语音信号进行增强处理。

本发明的另一个实施例提供一种智能设备，包括：存储器和处理器，存储器和处理器之间通过内部总线通讯连接；还包括与处理器分别相连的麦克风阵列和深度摄像头；麦克风阵列实时监测并采集用户发出的语音信号，并将语音信号发送至处理器；深度摄像头采集用户所在方向的深度图像，并将深度图像发送至处理器；存储器存储有能够被处理器执行的程序指令，程序指令被处理器执行时能够实现上述的智能设备的语音增强方法。

本发明的有益效果是，先根据获取的用户发出的语音信号粗略确定用户的方向，在获取到用户的大致方向后，再进一步采集用户所在方向的深度图像，根据深度图像来实现用户的声源方向的精确定位，将根据深度图像确定的用户的声源方向作为调整麦克风阵列的波束成形方向的基准，提高用户的声源方向的声音质量、强度。相对于现有技术，本发明通过深度图像更准确地确定用户的声源方向，从而便于更准确地调整麦克风阵列的波束成形方向，使麦克风阵列能精确对准用户的声源方向，实现语音增强，避免现有技术因确定的用户的声源方向不准确，在语音增强处理过程中，将用户实际发出的语音信号误判为噪声消除掉，进而造成无法识别获得语音信号中的语音指令的缺陷，提高了语音增强的效果及准确性，进而提高了语音指令识别的准确度。

附图说明

图1为本发明一个实施例的智能设备的语音增强方法的流程示意图；

图2为本发明一个实施例的智能设备的结构示意图；

图3为本发明一个实施例的深度摄像头、麦克风阵列与用户的空间坐标关系示意图；

图4为本发明一个实施例的用户的预设部位与麦克风阵列的空间坐标关系示意图；

图5为本发明另一个实施例的智能设备的语音增强方法的流程示意图；

图6为本发明一个实施例的智能设备的语音增强装置的结构示意图；

图7为本发明一个实施例的智能设备的原理框图。

具体实施方式

为了解决或部分解决背景技术中提出的技术问题，本申请的发明人想到根据获取的用户发出的语音信号粗略确定用户的方向，通过采集用户所在方向的深度图像，根据深度图像确定用户的声源方向，将根据深度图像确定的用户的声源方向作为调整麦克风阵列的波束成形方向的基准，提高用户的声源方向的声音强度。相对于现有技术，本发明通过深度图像更准确地确定用户的声源方向，从而更准确地确定麦克风阵列的波束成形方向，避免现有技术因确定的用户的声源方向不准确造成无法识别获得语音指令的缺陷，提高了语音增强的效果以识别获得语音指令。

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

图1为本发明一个实施例的智能设备的语音增强方法的流程示意图。如图1所示，本发明实施例的方法包括：

S11：实时监测并采集智能设备用户发出的语音信号；

具体实施时，可通过语音采集器采集用户发出的语音信号，本发明实施例优选麦克风阵列作为语音采集器。如图2所示，麦克风阵列21设置在智能设备的侧表面。可理解的是，图2展示的麦克风阵列21的设置方式只是示意性的，当智能设备为机器人时，麦克风阵列还可设置在机器人的头部或其他部位。

S12：根据语音信号确定用户的方向；

可理解的是，本发明实施例的智能设备采用声源定位的方式根据语音信号确定用户的方向，在此，用户的方向为用户当前大致方向。

S13：采集用户所在方向的深度图像；

本发明实施例在确定用户的大致方向后，通过深度摄像头采集用户所在方向的深度图像。如图2所示，深度摄像头22设置在智能设备的侧表面。可理解的是，图2展示的深度摄像头22的设置方式只是示意性的，当智能设备为机器人时，深度摄像头还可设置在机器人的其它部位。

S14：根据深度图像确定用户的声源方向；

深度图像是指将从深度摄像头到场景中各点的距离(深度)作为像素值的图像，可根据深度图像确定用户的声源的空间位置坐标，根据用户的声源的空间位置坐标确定用户的声源方向。

S15：根据用户的声源方向调整智能设备上的麦克风阵列的波束成形方向，并对语音信号进行增强处理。

可理解的是，对语音信号进行增强处理指的是增大波束成形方向的语音信号的强度，滤除其他方向的语音信号。如果根据语音信号确定的用户的方向作为波束成形方向进行语音增强，当确定的用户的方向不准确时用户的实际语音信号会被当作外界噪声滤除，无法识别用户的语音指令；而本发明实施例将根据深度图像确定的用户的声源方向作为麦克风阵列的波束成形方向，完成语音增强。

本发明实施例提供的智能设备的语音增强方法，先根据获取的用户发出的语音信号粗略确定用户的方向，在获取到用户的大致方向后，再进一步采集用户所在方向的深度图像，根据深度图像来实现用户的声源方向的精确定位，将根据深度图像确定的用户的声源方向作为调整麦克风阵列的波束成形方向的基准，提高用户的声源方向的声音质量、强度。相对于现有技术，本发明通过深度图像更准确地确定用户的声源方向，从而便于更准确地确定麦克风阵列的波束成形方向，使麦克风阵列能精确对准用户的声源方向，实现语音增强，避免现有技术因确定的用户的声源方向不准确，在语音增强处理过程中，将用户实际发出的语音信号误判为噪声消除掉，进而造成无法识别获得语音信号中的语音指令的缺陷，提高了语音增强的效果及准确性，进而提高了语音指令识别的准确性。

在实际应用中，由于用户可能会移动，当用户移动时，即声源方向改变时，若不对移动后的用户重新采集深度图像，依然根据用户移动前的深度图像确定的声源方向对语音信号进行增强处理，则用户的实际语音信号有可能被作为噪声滤除，导致无法识别获得语音指令，用户需要重复关键词(关键词可以启动麦克风阵列的声源定位功能)，麦克风阵列重新进行声源定位，影响用户体验。

在本发明实施例的一种可选的实施方式中，与图1中的方法类似，该方法还包括：

实时监测用户的移动情况；

在监测到用户移动时，采集用户的移动方向；

控制智能设备朝向用户的移动方向运动，并采集用户移动后的深度图像。

本发明实施例可在智能设备上设置深度摄像头，根据深度摄像头采集的用户的深度图像实时监测用户的移动情况；在监测到用户移动时，采集用户的移动方向，控制智能设备朝向用户的移动方向转动，从而当用户向某个方向移动时，智能设备也随之向某个方向转动；智能设备在运动后重新采集用户的深度图像，根据重新采集的用户的深度图像确定用户的声源方向，避免用户的实际语音信号被当作外界噪声滤除，保证用户移动时仍然可以识别获得用户指令，用户无需重复关键词，提升了用户体验。

具体地，根据深度图像确定用户的声源方向，包括：

根据深度图像确定用户的预设部位的空间位置坐标；

根据麦克风阵列的空间位置坐标和用户的预设部位的空间位置坐标确定用户的声源方向。

可理解的是，深度图像中包括深度信息，可根据包含深度信息的深度图像采用骨骼算法准确确定用户的预设部位的空间位置坐标，进而根据麦克风阵列的空间位置坐标和用户的预设部位的空间位置坐标确定用户的声源方向。优选地，用户的预设部位为头部或颈部。

在本发明的实施例中，以深度摄像头为原点建立空间坐标系，其中，垂直于地面竖直向上的方向为Y轴正方向，X轴和Z轴平行于地面，Z轴与深度摄像头的中心轴线重合，深度摄像头采集深度图像的方向为Z轴正方向，X轴与Z轴垂直。如图3所示，将深度摄像头中心点的空间位置坐标作为坐标原点(0，0，0)，其中心轴线上的所有点 X＝0，Y＝0。在空间坐标系中，将经过麦克风阵列中心点且平行于X轴的方向作为参考0度方向。以下结合图4说明根据麦克风阵列的空间位置坐标和用户的头部的空间位置坐标确定用户的声源方向，以及确定智能设备与用户之间的距离的具体过程。

假设通过深度摄像头采集的用户的深度图像中，提取到的用户头部的空间位置坐标为(X1,Y1,Z1)，麦克风阵列中心点的空间位置坐标为(X2,Y2,Z2)(该麦克风阵列中心点的空间位置坐标可根据麦克风阵列与深度摄像头之间的设置位置关系获得，为固定值)，则

参照图4，可根据如下公式计算出麦克风阵列中心点和用户的头部连线与X轴的夹角：

根据如下公式计算得到麦克风阵列中心点与用户头部的连线在水平面的投影线与X轴的夹角：

而，麦克风阵列中心点与用户头部之间的直线距离：

由于麦克风阵列设置在智能设备上，上述直线距离L则可近似为智能设备与用户头部之间的直线距离。

因此，结合上述夹角C、夹角D以及距离L，则可判断出智能设备与用户之间的距离，并精确定位到用户的声源方向。

在实际应用中，当用户移动时有可能导致智能设备与用户之间的距离超出麦克风阵列的拾音范围，此时无法识别获得用户指令。

进一步地，为保证智能设备与用户之间的距离在拾音范围之内，该方法还包括：

根据用户所在方向的深度图像确定智能设备与用户之间的距离；

根据智能设备与用户之间的距离确定是否控制智能设备运动；

是则控制智能设备朝向用户所在方向运动，缩短智能设备与用户之间的距离。

在实际应用中，可控制智能设备以预设的步长朝向用户所在方向运动，并实时获取运动后的距离；也可以计算智能设备与用户之间的距离与拾音范围的差值，根据该差值控制智能设备朝向用户所在方向运动指定距离，使得智能设备与用户之间的距离在拾音范围之内。

具体地，根据用户所在方向的深度图像确定智能设备与用户之间的距离，包括：

根据用户所在方向的深度图像确定用户的预设部位的空间位置坐标；

根据麦克风阵列的空间位置坐标和用户的预设部位的空间位置坐标确定智能设备与用户的预设部位之间的距离。

可理解的是，本发明实施例的智能设备与用户的预设部位之间的距离指的是直线距离。

具体地，根据智能设备与用户之间的距离确定是否控制智能设备运动，包括：

若智能设备与用户的预设部位之间的距离大于预设距离阈值，则控制智能设备运动。

需要说明的是，本发明当智能设备与用户的预设部位之间的距离大于预设距离阈值，则控制智能设备运动，缩短智能设备与用户之间的距离，保证智能设备与用户之间的距离在拾音范围之内，以完成语音指令识别。

在实际应用中，控制智能设备运动包括控制智能设备移动和转动。假设麦克风阵列的拾音范围即预设距离阈值为S，若L大于S，则表明智能设备与用户的预设部位之间的距离大于预设距离阈值，即智能设备与用户之间的距离在拾音范围之外，此时需要控制智能设备移动L-S，缩短智能设备与用户之间的距离。

为控制智能设备转动，可以根据麦克风阵列的空间位置坐标和用户的预设部位的空间位置坐标确定智能设备的水平转动方向。

参照图4，根据如下公式确定智能设备的麦克风阵列中心点与用户头部的连线在水平面的投影线与X轴的夹角：

其中，D为麦克风阵列中心点与用户头部的连线在水平面的投影线与X轴的夹角，即智能设备的水平转动方向。通过控制智能设备水平转动到方向D可使得用户进入到麦克风阵列的拾音范围内。

需要说明的是，由于麦克风阵列中心点沿着X轴的方向为参考0度方向，因此，用户的声源方向根据麦克风阵列中心点和用户的头部的连线与X轴的夹角C和麦克风阵列中心点与用户头部的连线在水平面的投影线与X轴的夹角D确定。

在实际应用中，当智能设备与用户的预设部位之间的距离大于预设距离阈值，则控制智能设备沿水平方向转动到方向D，并移动L-S，然后重新采集用户所在方向的深度图像，根据重新采集的深度图像确定用户的声源方向。

以下结合图5说明本发明为保证智能设备与用户之间的距离在拾音范围之内，实现语音增强的完整过程，如图5所示，本发明实施例的方法包括：

S51：通过麦克风阵列实时监测并采集用户发出的语音信号；

S52：根据语音信号确定用户的方向；

S53：通过深度摄像头采集用户所在方向的深度图像；

S54：根据深度图像确定用户的声源方向；

S55：根据用户所在方向的深度图像确定智能设备与用户之间的距离；

S56：判断智能设备与用户的预设部位之间的距离是否大于预设距离阈值，若是，则进入步骤S58，否则，进入步骤S57；

S57：根据用户的声源方向调整智能设备上的麦克风阵列的波束成形方向，并对语音信号进行增强处理；

S58：确定智能设备的移动距离和水平移动方向；

S59：控制智能设备移动，缩短智能设备与用户之间的距离，并返回步骤S53重新采集用户的深度图像。

本发明实施例先根据获取的用户发出的语音信号粗略确定用户的方向，在获取到用户的大致方向后，再进一步采集用户所在方向的深度图像，根据深度图像来实现用户的声源方向的精确定位，将根据深度图像确定的用户的声源方向作为调整麦克风阵列的波束成形方向的基准，提高用户的声源方向的声音质量、强度。相对于现有技术，本发明通过深度图像更准确地确定用户的声源方向，从而便于更准确地调整麦克风阵列的波束成形方向，使麦克风阵列能精确对准用户的声源方向，实现语音增强避免现有技术因确定的用户的声源方向不准确，在语音增强处理过程中，将用户实际发出的语音信号误判为噪声消除掉，进而造成无法识别获得语音指令的缺陷，提高了语音增强的效果以识别获得语音指令。

并且，本发明实施例当智能设备与用户的预设部位之间的距离大于预设距离阈值，则将移动距离和水平移动方向发送给智能设备，控制智能设备运动，缩短智能设备与用户之间的距离，保证智能设备与用户之间的距离在拾音范围之内，以完成语音指令识别。

图6为本发明一个实施例的智能设备的语音增强装置的结构示意图。如图6所示，本发明实施例的装置包括语音信号采集单元61、用户方向确定单元62、深度图像采集单元63、声源方向确定单元64和增强处理单元65，具体地：

语音信号采集单元61，用于实时监测并采集用户发出的语音信号；

用户方向确定单元62，用于根据语音信号确定用户的方向；

深度图像采集单元63，用于采集用户所在方向的深度图像；

声源方向确定单元64，用于根据深度图像确定用户的声源方向；

增强处理单元65，用于根据用户的声源方向调整智能设备上的麦克风阵列的波束成形方向，并对语音信号进行增强处理。

本发明实施例提供的智能设备的语音增强装置，先根据获取的用户发出的语音信号粗略确定用户的方向，在获取到用户的大致方向后，再进一步采集用户所在方向的深度图像，根据深度图像来实现用户的声源方向的精确定位，将根据深度图像确定的用户的声源方向作为调整麦克风阵列的波束成形方向的基准，提高用户的声源方向的声音质量、强度。相对于现有技术，本发明通过深度图像更准确地确定用户的声源方向，从而便于更准确地确定麦克风阵列的波束成形方向，使麦克风阵列能精确对准用户的声源方向，实现语音增强，避免现有技术因确定的用户的声源方向不准确，在语音增强处理过程中，将用户实际发出的用户语音信号误判为噪声消除掉，进而造成无法识别获得语音指令的缺陷，提高了语音增强的效果以识别获得语音指令。

在本发明实施例的一种可选的实施方式中，还包括：

移动监测单元，用于实时监测用户的移动情况；

移动方向采集单元，用于在监测到用户移动时，采集用户的移动方向；

运动控制单元，用于控制智能设备朝向用户的移动方向运动；

深度图像采集单元还用于采集用户移动后的深度图像。

声源方向确定单元64具体用于：根据深度图像确定用户的预设部位的空间位置坐标；

进一步地，该装置还包括：

距离确定单元，用于根据用户所在方向的深度图像确定智能设备与用户之间的距离；

判断单元，用于根据智能设备与用户之间的距离确定是否控制智能设备运动；

运动控制单元，用于在确定控制智能设备运动时，控制智能设备朝向用户所在方向运动，缩短智能设备与用户之间的距离。

在本发明实施例的一种实施方式中，距离确定单元，具体用于根据所述用户所在方向的深度图像确定用户的预设部位的空间位置坐标；

进一步地，判断单元，具体用于在智能设备与用户的预设部位之间的距离大于预设距离阈值时，确定控制智能设备运动。

本发明实施例的智能设备的语音增强装置可以用于执行上述方法实施例，其原理和技术效果类似，此处不再赘述。

图7为本发明一个实施例的智能设备的原理框图。

参照图7，智能设备包括：存储器71和处理器72，存储器71和处理器72之间通过内部总线73通讯连接；还包括与处理器72分别相连的麦克风阵列74和深度摄像头75；麦克风阵列74实时监测并采集用户发出的语音信号，并将语音信号发送至处理器72；深度摄像头75采集用户所在方向的深度图像，并将深度图像发送至处理器72；存储器72存储有能够被处理器71执行的程序指令，程序指令被处理器71执行时能够实现上述的智能设备的语音增强方法。

此外，上述的存储器72中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例提供一种计算机可读存储介质，计算机可读存储介质存储计算机指令，计算机指令使计算机执行上述各方法实施例所提供的智能设备的语音增强方法。

综上所述，根据本发明的技术方案，先根据获取的用户发出的语音信号粗略确定用户的方向，在获取到用户的大致方向后，再进一步采集用户所在方向的深度图像，根据深度图像来实现用户的声源方向的精确定位，将根据深度图像确定的用户的声源方向作为调整麦克风阵列的波束成形方向的基准，提高用户的声源方向的声音质量、强度。相对于现有技术，本发明通过深度图像更准确地确定用户的声源方向，从便于而更准确地确定麦克风阵列的波束成形方向，使麦克风阵列能精确对准用户的声源方向，实现语音增强，避免现有技术因确定的用户的声源方向不准确，在语音增强处理过程中，将用户实际发出的语音信号误判为噪声消除掉，进而造成无法识别获得语音指令的缺陷，提高了语音增强的效果以识别获得语音指令。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

需要说明的是术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本发明的说明书中，说明了大量具体细节。然而能够理解的是，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。类似地，应当理解，为了精简本发明公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释呈反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

以上所述，仅为本发明的具体实施方式，在本发明的上述教导下，本领域技术人员可以在上述实施例的基础上进行其他的改进或变形。本领域技术人员应该明白，上述的具体描述只是更好的解释本发明的目的，本发明的保护范围应以权利要求的保护范围为准。

Claims

一种智能设备的语音增强方法，其中，包括：

实时监测并采集用户发出的语音信号；

根据所述语音信号确定所述用户的方向；

采集所述用户所在方向的深度图像；

根据所述深度图像确定所述用户的声源方向；

根据所述用户的声源方向调整所述智能设备上的麦克风阵列的波束成形方向，并对所述语音信号进行增强处理。
根据权利要求1所述的方法，其中，所述方法还包括：

实时监测用户的移动情况；

在监测到用户移动时，采集用户的移动方向；

控制智能设备朝向所述用户的移动方向运动，并采集所述用户移动后的深度图像。
根据权利要求1所述的方法，其中，通过麦克风阵列实时监测并采集用户发出的语音信号；通过深度摄像头采集所述用户所在方向的深度图像；

所述根据所述深度图像确定所述用户的声源方向，包括：

根据所述深度图像确定所述用户的预设部位的空间位置坐标；

根据所述麦克风阵列的空间位置坐标和所述用户的预设部位的空间位置坐标确定所述用户的声源方向。
根据权利要求3所述的方法，其中，所述方法还包括：

根据所述用户所在方向的深度图像确定所述智能设备与所述用户之间的距离；

根据所述智能设备与所述用户之间的距离确定是否控制所述智能设备运动；

是则控制所述智能设备朝向所述用户所在方向运动，缩短所述智能设备与所述用户之间的距离。
根据权利要求4所述的方法，其中，所述根据所述用户所在方向的深度图像确定所述智能设备与所述用户之间的距离，包括：

根据所述用户所在方向的深度图像确定所述用户的预设部位的空间位置坐标；

根据所述麦克风阵列的空间位置坐标和所述用户的预设部位的空间位置坐标确定所述智能设备与所述用户的预设部位之间的距离；

所述根据所述智能设备与所述用户之间的距离确定是否控制所述智能设备运动，包括：

若所述智能设备与所述用户的预设部位之间的距离大于预设距离阈值，则控制所述智能设备运动。
根据权利要求3所述的方法，其中，所述用户的预设部位为所述用户的头部或颈部。
一种智能设备的语音增强装置，其中，包括：

语音信号采集单元，用于实时监测并采集用户发出的语音信号；

用户方向确定单元，用于根据所述语音信号确定所述用户的方向；

深度图像采集单元，用于采集所述用户所在方向的深度图像；

声源方向确定单元，用于根据所述深度图像确定所述用户的声源方向；

增强处理单元，用于根据所述用户的声源方向调整所述智能设备上的麦克风阵列的波束成形方向，并对所述语音信号进行增强处理。
根据权利要求7所述的装置，其中，还包括：

移动监测单元，用于实时监测用户的移动情况；

移动方向采集单元，用于在监测到用户移动时，采集用户的移动方向；

运动控制单元，用于控制智能设备朝向所述用户的移动方向运动；

所述深度图像采集单元还用于采集所述用户移动后的深度图像。
根据权利要求7所述的装置，其中，所述声源方向确定单元具体用于：根据所述深度图像确定所述用户的预设部位的空间位置坐标；

根据所述麦克风阵列的空间位置坐标和所述用户的预设部位的空间位置坐标确定所述用户的声源方向。
根据权利要求9所述的装置，其中，还包括：

距离确定单元，用于根据所述用户所在方向的深度图像确定所述智能设备与所述用户的预设部位之间的距离；

判断单元，用于在所述智能设备与所述用户的预设部位之间的距离大于预设距离阈值时，确定控制所述智能设备运动；

运动控制单元，用于在确定控制所述智能设备运动时，控制所述智能设备朝向所述用户所在方向运动，缩短所述智能设备与所述用户之间的距离。
一种智能设备，其中，包括：存储器和处理器，所述存储器和所述处理器之间通过内部总线通讯连接；还包括分别与所述处理器相连的语音采集器和深度摄像头；

所述语音采集器实时监测并采集用户发出的语音信号，并将所述语音信号发送至所述处理器；所述深度摄像头采集所述用户所在方向的深度图像，并将所述深度图像发送至所述处理器；

所述存储器存储有能够被所述处理器执行的程序指令，所述程序指令被处理器执行时能够实现如下步骤：

根据接收的所述语音信号确定所述用户的方向；

接收所述用户所在方向的深度图像，并根据所述深度图像确定所述用户的声源方向；

根据所述用户的声源方向调整所述智能设备上的麦克风阵列的波束成形方向，并对所述语音信号进行增强处理。
根据权利要求11所述的智能设备，其中，所述深度摄像头还用于实时监测用户的移动情况，并将所述用户的移动情况发送至所述处理器；

所述程序指令被所述处理器执行时还实现如下步骤：

根据接收的用户的移动情况；

在监测到用户移动时，采集用户的移动方向；

控制智能设备朝向所述用户的移动方向运动，并采集所述用户移动后的深度图像。
根据权利要求11所述的智能设备，其中，所述处理器根据所述深度图像确定所述用户的声源方向，包括：

根据所述深度图像确定所述用户的预设部位的空间位置坐标；

根据所述麦克风阵列的空间位置坐标和所述用户的预设部位的空间位置坐标确定所述用户的声源方向。
根据权利要求13所述的智能设备，其中，所述程序指令被所述处理器执行时还实现如下步骤：

根据所述用户所在方向的深度图像确定所述智能设备与所述用户之间的距离；

根据所述智能设备与所述用户之间的距离确定是否控制所述智能设备运动；

是则控制所述智能设备朝向所述用户所在方向运动，缩短所述智能设备与所述用户之间的距离。
根据权利要求14所述的智能设备，其中，所述处理器根据所述用户所在方向的深度图像确定所述智能设备与所述用户之间的距离，包括：

根据所述用户所在方向的深度图像确定所述用户的预设部位的空间位置坐标；根据所述麦克风阵列的空间位置坐标和所述用户的预设部位的空间位置坐标确定所述智能设备与所述用户的预设部位之间的距离；

所述处理器根据所述智能设备与所述用户之间的距离确定是否控制所述智能设备运动，包括：

若所述智能设备与所述用户的预设部位之间的距离大于预设距离阈值，则控制所述智能设备运动。
根据权利要求11所述的智能设备，其中，所述语音采集器为麦克风阵列。