WO2021212608A1

WO2021212608A1 - 定位声源用户的方法、装置和计算机设备

Info

Publication number: WO2021212608A1
Application number: PCT/CN2020/093425
Authority: WO
Inventors: 龚连银; 苏雄飞; 周宝; 陈远旭
Original assignee: 平安科技（深圳）有限公司
Priority date: 2020-04-24
Filing date: 2020-05-29
Publication date: 2021-10-28
Also published as: CN111650558A; CN111650558B

Abstract

本申请涉及人工智能及区块链技术，揭示了定位声源用户的方法包括：获取声源定位识别到的声音来源对应的指定方位，以及机器人当前所处空间位置对应的视觉中心线方位；根据指定方位以及视觉中心线方位，得到预旋转的空间区域跨度；根据预旋转的空间区域跨度控制机器人旋转，旋转至指定方位位于机器人的视觉范围内；判断在机器人的视野范围内是否获取到指定用户的用户画像；若是则获取指定用户的动作数据，经过预设方式处理得到处理结果，将处理结果输入至VGG网络进行识别计算得到动作类型；接收VGG网络识别计算后输出的数据结果，根据VGG网络的数据结果判断声源方位是否与指定方位相一致；若是，则判定指定方位的指定用户为声源用户提高定位精准度。

Description

定位声源用户的方法、装置和计算机设备

本申请要求于2020年4月24日提交中国专利局、申请号为202010334984.2，发明名称为“定位声源用户的方法、装置和计算机设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及到人工智能及区块链领域，特别是涉及到定位声源用户的方法、装置和计算机设备。

背景技术

现有机器人系统一般只存在视觉或声音一种方式进行定位。但发明人意识到视觉定位对使用环境要求较高，需要有良好的光线环境，而且当使用者不在摄像头范围内时，该功能基本无法使用，视觉定位需要处理的数据量大，对机器人系统的运算能力有较高要求。声音定位时，精度较低，不能满足精确追踪的交互场景，在噪声嘈杂的环境中精度更低。所以，现有机器人定位系统不能满足各种场景下的精准定位的需求。

技术问题

本申请的主要目的为提供定位声源用户的方法，旨在解决现有机器人定位系统不能满足各种场景下的精准定位的需求的技术问题。

技术解决方案

本申请提出一种定位声源用户的方法，包括：

获取声源定位识别到的声音来源对应的指定方位，以及机器人当前所处空间位置对应的视觉中心线方位；根据指定方位以及视觉中心线方位，得到预旋转的空间区域跨度；根据预旋转的空间区域跨度控制机器人旋转，旋转至指定方位位于机器人的视觉范围内；判断在机器人的视野范围内是否获取到指定用户的用户画像；若是，则获取指定用户的动作数据，并经过预设方式处理，得到处理结果，并将处理结果输入至VGG网络进行识别计算，以得到动作数据对应的动作类型；接收VGG网络识别计算后输出的数据结果，并根据VGG网络的数据结果判断声源方位是否与指定方位相一致，其中，数据结果包括动作类型属于嘴部动作；若是，则判定指定方位的指定用户为声源用户。

本申请还提供了一种定位声源用户的装置，包括：

第一获取模块，用于获取声源定位识别到的声音来源对应的指定方位，以及机器人当前所处空间位置对应的视觉中心线方位；得到模块，用于根据指定方位以及视觉中心线方位，得到预旋转的空间区域跨度；旋转模块，用于根据预旋转的空间区域跨度控制机器人旋转，旋转至指定方位位于机器人的视觉范围内；第一判断模块，用于判断在机器人的视野范围内是否获取到指定用户的用户画像；第二获取模块，用于若是，则获取指定用户的动作数据，并经过预设方式处理，得到处理结果，并将处理结果输入至VGG网络进行识别计算，以得到动作数据对应的动作类型；接收模块，用于接收VGG网络识别计算后输出的数据结果，并根据VGG网络的数据结果判断声源方位是否与指定方位相一致；判定模块，用于若是，则判定指定方位的指定用户为声源用户。

本申请还提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现方法的步骤。

本申请还提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现的方法的步骤。

有益效果

本申请通过在视觉定位中通过将人的系列动作数据作为VGG网络的输入，通过动作数据提高区分的精准度，并将视觉定位和声音定位进行综合使用，以提高机器人定位说话的目标用户的精准度。

附图说明

图1本申请一实施例的定位声源用户的方法流程示意图；

图2本申请一实施例的定位声源用户的装置结构示意图；

图3本申请一实施例的计算机设备内部结构示意图。

本发明的最佳实施方式

参照图1，本申请一实施例的定位声源用户的方法，包括：

S1：获取声源定位识别到的声音来源对应的指定方位，以及机器人当前所处空间位置对应的视觉中心线方位。

声源定位通过麦克风阵列实现。通过对阵列中的每个麦克风设置延迟参数，通过控制不同的延时参数，实现不同的方位指向，可以对定位的区域进行网格划分，每个网格点对各个麦克风在时域上进行延迟，然后求和计算麦克风阵列的声压，通过声压确定声源方位，即声源相对于机器人的方位位置，即指定方位。机器人中同时具备声源定位以及视觉定位，视觉中心线方位为视野范围内的中心位置。比如根据机器人选用的是单目结构还是双目结构来确定，单目结构中以经过单目中心垂直于机器人脸部所在平面的直线方向为视觉中心线方位；双目结构以经过双目连接线的中点垂直于机器人脸部所在平面的中垂线方向为视觉中心线方位。

S2：根据指定方位以及视觉中心线方位，得到预旋转的空间区域跨度。

空间区域跨度包括机器人当前的视觉中心线方位到指定方位的弧度范围对应的区域，从当前的视觉中心线方位逆时针方向旋转到指定方位时对应的弧度区域，或从当前的视觉中心线方位顺时针方向旋转到指定方位时对应的弧度区域。通过声源初步定位，以协助机器人快速调整视觉定位的方位，提高响应灵敏度和精准度。

S3：根据预旋转的空间区域跨度控制机器人旋转，旋转至指定方位位于机器人的视觉范围内。

指定方位位于机器人的视觉范围内，包括位于视觉范围内的任意位置，优选指定方位与视觉中心线方位重合，以提高视觉定位的精准性。旋转包括旋转配备摄像头的头部，或旋转机器人整个身体。旋转过程可通过控制机器人腰部和头部偏航角配合将摄像头对准说话者方位，即对准指定方位。

S4：判断在机器人的视野范围内是否获取到指定用户的用户画像。

用户画像包括头部画像，以便通过识别头部画像中的嘴部动作，对该用户是否在说话进行预估判断。

S5：若是，则获取指定用户的动作数据，并经过预设方式处理，得到处理结果，并将处理结果输入至VGG网络进行识别计算，以得到动作数据对应的动作类型。

当存在头部画像时，则认为该用户可能在说话，通过进一步获取嘴部动作，并通过预设方式处理嘴部动作后，输入VGG网络对嘴部动作类型进行深度解析计算。预设方式处理包括将获取的嘴部动作视频信息，拼接成携带时间序列的单一的图片信息，以便被VGG网络识别。

S6：接收VGG网络识别计算后输出的数据结果，并根据VGG网络的数据结果判断声源方位是否与指定方位相一致，其中，数据结果包括动作类型属于嘴部动作。

S7：若是，则判定指定方位的指定用户为声源用户。

VGG网络输出的数据结果包括是否存在嘴部动作，比如图片信息中依据时间序列嘴部形态发生较大的变化，则认为存在嘴部动作，否则不存在。如果VGG网络判断指定方位处的指定用户存在嘴部动作，且同时声源定位指定的声源方位预指定方位一致，则确定指定用户为声源用户。通过结合视觉定位和声源定位的优点实现对声源用户的精准定位，可快速找到说话者，提高说话者与机器人的人机交互体验以及交互效果。本申请实施例通过声源定位的技术来确定目标用户的大概位置，快速给出定位结果；然后通过视觉定位对目标用户进行精确定位，在视觉定位中通过将人的系列动作数据作为VGG网络的输入，通过动作数据提高区分目标用户的精准度。动作数据在输入VGG网络前，要通过特定的数据处理方式，以便处理后的数据可被VGG网络识别并运算，排除仿真人或类似用户的物体对视觉定位的干扰，目标用户指视野范围内的指定用户。

进一步地，获取指定用户的动作数据，并经过预设方式处理，得到处理结果，并将处理结果输入至VGG网络进行识别计算，以得到动作数据对应的动作类型的步骤S5，包括：

S51：获取指定用户在指定时间段内的动作数据，动作数据为连续的多帧动作序列；S52：将连续的多帧动作序列，通过

合并拼接成一个静态图像数据，其中，p _i∈R ⁿ，表示t时刻的关键点，i表示关键点的序号；B _i,k(t)表示变换矩阵，k表示维度；p(t)是t∈[t _i,t _i+1)时间内输出的静态图像数据；S53：将静态图像数据输入至VGG网络进行识别计算。

本申请应用了人工智能领域中的图像、视频识别技术，其中，指定时间段指摄像头采集的嘴部动作视频的连续时间跨度。通过将摄像头采集的嘴部动作视频，拆成连续的多帧动作序列，并按照时间序列实现依次拼接，将嘴部动作视频形成一个静态图像数据，以便被VGG网络识别计算。每个人的行为可由一些关键点决定，包括嘴部动作，比如嘴部动作有15个关键点，则i＝0至14。通过对VGG网络的输入端进行改进，使其能够处理连续的多帧动作序列，实现识别嘴部动作。B _i,k(t)表示变换矩阵，k表示维度，比如

p(t)是t∈[t _i,t _i+1)时间内的输出结果，R ⁿ表示实数中的整数。

这个公式也可写为

相当于最后任意时间段内t∈[t _i,t _i+1)，这些用户的关键点的信息都是由多帧的运动关键点合成的，从而实现了把多帧连续运动序列合成输入的信息结构，VGG网络分类的结果也就可以针对运动的动作，M ₆表示6*6的矩阵。

进一步地，获取指定用户的动作数据，并经过预设方式处理，得到处理结果，并将处理结果输入至VGG网络进行识别计算，以得到动作数据对应的动作类型的步骤S5之前，包括：

S50a:判断机器人的视野范围内的指定用户的数量是否为两个及以上；S50b:若是，则根据Yolov3算法在机器人的视野范围对应的视野图中，选择出各指定用户分别对应的方块区域；S50c：分别截取各方块区域对应的指定时间段内的系列动作作为动作数据。

对于同一指定方位处或当前视野范围内存在多人的情况，本申请实施例先根据Yolov3算法用方框选择出多个人分别所处的位置，即的方块区域，然后再分别截取每个人的系列动作作为对应用户的动作数据，利用时间维度信息可以获取更高维度的特征量，提高分析精准度。Yolov3是一阶段End2End的目标检测器。Yolov3将输入图像分成S*S个格子，每个格子预测B个bounding box，每个boundingbox预测内容包括:Location(x,y,w,h)、Confidence Score和C个类别的概率，因此Yolov3输出层的channel数为S*S*B*(5+C)。Yolov3的loss函数有三部分组成：Location误差，Confidence误差和分类误差。

进一步地，根据指定方位以及视觉中心线方位，得到预旋转的空间区域跨度的步骤S2，包括：

S21：获取从视觉中心线方位顺时针旋转到指定方位时的第一区域跨度，以及从视觉中心线方位逆时针旋转到指定方位时的第二区域跨度；S22：比较第一区域跨度与第二区域跨度的大小；S23：当第一区域跨度大于第二区域跨度时，将第二区域跨度作为空间区域跨度，当第一区域跨度不大于第二区域跨度时，将第一区域跨度作为空间区域跨度。

本实施例以存在一个指定方位为例，当接收到指定方位处的声源发出声音时，视觉中心线方位旋转到指定方位对应的方向，使指定方位位于旋转后的视野范围内，优选指定方位预旋转调整好的视觉中心线方位重合。为方便快速响应，控制以跨度小的弧度区域为待旋转的空间区域跨度。

进一步地，指定方位的数量为两个及以上，空间区域跨度包括两个及以上，根据指定方位以及视觉中心线方位，得到预旋转的空间区域跨度的步骤S2，包括：

S31：获取从视觉中心线方位顺时针旋转经过所有指定方位对应的第一总区域跨度，以及从视觉中心线方位逆时针旋转经过所有对应的第二总区域跨度；S32：比较第一总区域跨度与第二总区域跨度的大小；S33：当第一总区域跨度大于第二总区域跨度时，将第二总区域跨度作为空间区域跨度，当第一总区域跨度不大于第二总区域跨度时，将第一总区域跨度作为空间区域跨度。

本申请实施例以存在多个指定方位为例，即多个区域同时发出声音或接续发出声音，则需要对的多个区域依次进行视觉精准定位。首先根据多个指定方位分别到旋转前的视觉中心线方位的所有覆盖弧度区间，选出最大的覆盖弧度区间作为总区域跨度。以旋转前的视觉中心线方位为起点，顺时针旋转依次经过各指定方位的最大的覆盖弧度区间作为第一总区域跨度。以旋转前的视觉中心线方位为起点，逆时针旋转依次经过各指定方位的最大的覆盖弧度区间作为第二总区域跨度。通过选定旋转方位后，然后依次分析各指定方位处分别对应用户的动作数据，实现对说话者的精准定位。

进一步地，接收VGG网络识别计算后输出的数据结果，并根据VGG网络的数据结果判断声源方位是否与指定方位相一致的步骤S6，包括：

S61：分析数据结果是否包括嘴部的张合动作；S62：若是，则再次确定当前声源方位是否为指定方位；S63：若是，则判定声源方位与指定方位相一致，否则，不一致。

通过分析是否存在嘴部的张合动作，初步判断是否在说话，若初步判断在说话，则再次调用声源定位进行辅助分析，若声源定位和视觉定位均指向指定用户为说话者，则判定指定用户为说话者。即如果存在嘴部动作加上对指定用户的声音方位正确，则判定指定用户在说话。两者的判断指向不聚焦，则通过继续循环判断流程，寻找声源用户即说话者。比如存在嘴部动作但对指定用户的声音方位不是来源此方位。VGG只能处理静态图片信息，达到识别图片中标记点的特征，比如根据图片中标记点的特征进行水果种类识别等，无法直接通过VGG测定得到动作信息，如嘴部张合动作。本实施例通过将动作视频的多帧图片，拼接后输入VGG，根据VGG的输出数据得到图片中的标记点位置的变化轨迹，判断嘴部是否存在张合动作，并结合声源定位判断嘴部张合动作与声源定位的方位一致性，如果该方位捕获到的视频中用户嘴巴存在张合动作，且同时该方位也存在声源声音，则判定该用户为说话者，即声源用户。声源方位依然采用麦克风阵列声源定位技术进行确定。

进一步地，分析数据结果是否包括嘴部的张合动作的步骤S61之前，包括：

S60a:判断摄像头的聚焦条件相对于指定用户距离摄像头的距离是否正常； S60b:若是，则判断在聚焦条件下获取的用户画像的分辨率是否在预设范围内；S60c:若是，则控制VGG网络识别计算，否则终止计算。

优选地，为进一步保证动作数据的私密和安全性，动作数据还可以存储于一区块链的节点中。

需要说明的是，本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

另外，本方案还可应用于智慧交通领域中，从而推动智慧城市的建设。本实施例通过分辨率排除电子屏幕内的虚拟人物对现实说话者定位的干扰，由于电子屏幕具有反光性，同等距离、同等聚焦条件下，拍摄到的现实用户的图像或视频的分辨率，要远远高于拍摄到的电子屏幕中的虚拟用户的分辨率。当分辨率不满足要求，则直接终止VGG网络识别计算，输出声源方位是否与指定方位不相一致的结论。

参照图2，本申请一实施例的定位声源用户的装置，包括：

第一获取模块1，用于获取声源定位识别到的声音来源对应的指定方位，以及机器人当前所处空间位置对应的视觉中心线方位。

得到模块2，用于根据指定方位以及视觉中心线方位，得到预旋转的空间区域跨度。

旋转模块3，用于根据预旋转的空间区域跨度控制机器人旋转，旋转至指定方位位于机器人的视觉范围内。

第一判断模块4，用于判断在机器人的视野范围内是否获取到指定用户的用户画像。

第二获取模块5，用于若是，则获取指定用户的动作数据，并经过预设方式处理，得到处理结果，并将处理结果输入至VGG网络进行识别计算，以得到动作数据对应的动作类型。

接收模块6，用于接收VGG网络识别计算后输出的数据结果，并根据VGG网络的数据结果判断声源方位是否与指定方位相一致，其中，数据结果包括动作类型属于嘴部动作。

判定模块7，用于若是，则判定指定方位的指定用户为声源用户。

进一步地，第二获取模块5，包括：

第一获取单元，用于获取指定用户在指定时间段内的动作数据，动作数据为连续的多帧动作序列；拼接单元，用于将连续的多帧动作序列，通过

合并拼接成一个静态图像数据，其中，p _i∈R ⁿ表示t时刻的关键点，i表示关键点的序号；B _i,k(t)表示变换矩阵，k表示维度；p(t)是t∈[t _i,t _i+1)时间内输出的静态图像数据；输入单元，用于将静态图像数据输入至VGG网络进行识别计算。

指定时间段指摄像头采集的嘴部动作视频的连续时间跨度。通过将摄像头采集的嘴部动作视频，拆成连续的多帧动作序列，并按照时间序列实现依次拼接，将嘴部动作视频形成一个静态图像数据，以便被VGG网络识别计算。每个人的行为可由一些关键点决定，包括嘴部动作，比如嘴部动作有15个关键点，则i＝0至14。通过对VGG网络的输入端进行改进，使其能够处理连续的多帧动作序列，实现识别嘴部动作。B _i,k(t)表示变换矩阵，k表示维度，比如

这个公式也可写为

进一步地，定位声源用户的装置，包括：

第二判断模块，用于判断机器人的视野范围内的指定用户的数量是否为两个及以上；选择模块，用于若是，则根据Yolov3算法在机器人的视野范围对应的视野图中，选择出各指定用户分别对应的方块区域；截取模块，用于分别截取各方块区域对应的指定时间段内的系列动作作为动作数据。

进一步地，得到模块2，包括：

第二获取单元，用于获取从视觉中心线方位顺时针旋转到指定方位时的第一区域跨度，以及从视觉中心线方位逆时针旋转到指定方位时的第二区域跨度；第一比较单元，用于比较第一区域跨度与第二区域跨度的大小；第一作为单元，用于当第一区域跨度大于第二区域跨度时，将第二区域跨度作为空间区域跨度，当第一区域跨度不大于第二区域跨度时，将第一区域跨度作为空间区域跨度。

进一步地，另一实施例中，得到模块2，包括：

第三获取单元，用于获取从视觉中心线方位顺时针旋转经过所有指定方位对应的第一总区域跨度，以及从视觉中心线方位逆时针旋转经过所有对应的第二总区域跨度；第二比较单元，用于比较第一总区域跨度与第二总区域跨度的大小；第二作为单元，用于当第一总区域跨度大于第二总区域跨度时，将第二总区域跨度作为空间区域跨度，当第一总区域跨度不大于第二总区域跨度时，将第一总区域跨度作为空间区域跨度。

进一步地，接收模块6，包括：

分析单元，用于分析数据结果是否包括嘴部的张合动作；确定单元，用于若是，则再次确定当前声源方位是否为指定方位；判定单元，用于若是，则判定声源方位与指定方位相一致，否则，不一致。

进一步地，接收模块6，包括：

第一判断单元，用于判断摄像头的聚焦条件相对于指定用户距离摄像头的距离是否正常；第二判断单元，用于若是，则判断在聚焦条件下获取的用户画像的分辨率是否在预设范围内；控制单元，用于若是，则控制VGG网络识别计算，否则终止计算。

本实施例通过分辨率排除电子屏幕内的虚拟人物对现实说话者定位的干扰，由于电子屏幕具有反光性，同等距离、同等聚焦条件下，拍摄到的现实用户的图像或视频的分辨率，要远远高于拍摄到的电子屏幕中的虚拟用户的分辨率。当分辨率不满足要求，则直接终止VGG网络识别计算，输出声源方位是否与指定方位不相一致的结论。

参照图3，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储定位声源用户的过程需要的所有数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现定位声源用户的方法。

处理器执行定位声源用户的方法，包括：获取声源定位识别到的声音来源对应的指定方位，以及机器人当前所处空间位置对应的视觉中心线方位；根据指定方位以及视觉中心线方位，得到预旋转的空间区域跨度；根据预旋转的空间区域跨度控制机器人旋转，旋转至指定方位位于机器人的视觉范围内；判断在机器人的视野范围内是否获取到指定用户的用户画像；若是，则获取指定用户的动作数据，并经过预设方式处理，得到处理结果，并将处理结果输入至VGG网络进行识别计算，以得到动作数据对应的动作类型；接收VGG网络识别计算后输出的数据结果，并根据VGG网络的数据结果判断声源方位是否与指定方位相一致，其中，数据结果包括动作类型属于嘴部动作；若是，则判定指定方位的指定用户为声源用户。

计算机设备，通过在视觉定位中通过将人的系列动作数据作为VGG网络的输入，通过动作数据提高区分的精准度，并将视觉定位和声音定位进行综合使用，以提高机器人定位说话的目标用户的精准度。

本领域技术人员可理解，图3示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定。

本申请一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现定位声源用户的方法，包括：获取声源定位识别到的声音来源对应的指定方位，以及机器人当前所处空间位置对应的视觉中心线方位；根据指定方位以及视觉中心线方位，得到预旋转的空间区域跨度；根据预旋转的空间区域跨度控制机器人旋转，旋转至指定方位位于机器人的视觉范围内；判断在机器人的视野范围内是否获取到指定用户的用户画像；若是，则获取指定用户的动作数据，并经过预设方式处理，得到处理结果，并将处理结果输入至VGG网络进行识别计算，以得到动作数据对应的动作类型；接收VGG网络识别计算后输出的数据结果，并根据VGG网络的数据结果判断声源方位是否与指定方位相一致，其中，数据结果包括动作类型属于嘴部动作；若是，则判定指定方位的指定用户为声源用户。

计算机可读存储介质，通过在视觉定位中通过将人的系列动作数据作为VGG网络的输入，通过动作数据提高区分的精准度，并将视觉定位和声音定位进行综合使用，以提高机器人定位说话的目标用户的精准度。

本领域普通技术人员可以理解实现实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成的，计算机程序可存储于计算机可读取存储介质中，该计算机程序在执行时，可包括如各方法的实施例的流程，计算机可读存储介质可以是非易失性，也可以是易失性。本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

Claims

一种定位声源用户的方法，包括：

获取声源定位识别到的声音来源对应的指定方位，以及机器人当前所处空间位置对应的视觉中心线方位；

根据所述指定方位以及所述视觉中心线方位，得到预旋转的空间区域跨度；

根据所述预旋转的空间区域跨度控制机器人旋转，旋转至所述指定方位位于所述机器人的视觉范围内；

判断在所述机器人的视野范围内是否获取到指定用户的用户画像；

若是，则获取所述指定用户的动作数据并经过预设方式处理，得到处理结果，并将所述处理结果输入至VGG网络进行识别计算，以得到所述动作数据对应的动作类型；

接收所述VGG网络识别计算后输出的数据结果，并根据所述VGG网络的数据结果判断声源方位是否与所述指定方位相一致，其中，所述数据结果包括所述动作类型属于嘴部动作；

若是，则判定所述指定方位的指定用户为声源用户。
根据权利要求1所述的定位声源用户的方法，所述获取所述指定用户的动作数据并经过预设方式处理，得到处理结果，并将所述处理结果输入至VGG网络进行识别计算，以得到所述动作数据对应的动作类型的步骤，包括：

获取所述指定用户在指定时间段内的动作数据，所述动作数据为连续的多帧动作序列；

将连续的多帧所述动作序列，通过
合并拼接成一个静态图像数据，其中，p _i∈R ⁿ，表示t时刻的关键点，i表示关键点的序号；B _i,k(t)表示变换矩阵，k表示维度；p(t)是t∈[t _i,t _i+1)时间内输出的静态图像数据；

将所述静态图像数据输入至VGG网络进行识别计算。
根据权利要求1所述的定位声源用户的方法，所述获取所述指定用户的动作数据并经过预设方式处理，得到处理结果，并将所述处理结果输入至VGG网络进行识别计算，以得到所述动作数据对应的动作类型的步骤之前，包括：

判断所述机器人的视野范围内的所述指定用户数量是否为两个及以上；

若是，则根据Yolov3算法在所述机器人的视野范围对应的视野图中，选择出各所述指定用户分别对应的方块区域；

分别截取各所述方块区域对应的所述指定时间段内的系列动作作为所述动作数据。
根据权利要求1所述的定位声源用户的方法，所述根据所述指定方位以及所述视觉中心线方位，得到预旋转的空间区域跨度的步骤，包括：

获取从所述视觉中心线方位顺时针旋转到所述指定方位时的第一区域跨度，以及从所述视觉中心线方位逆时针旋转到所述指定方位时的第二区域跨度；

比较所述第一区域跨度与所述第二区域跨度的大小；

当所述第一区域跨度大于所述第二区域跨度时，将所述第二区域跨度作为所述空间区域跨度，当所述第一区域跨度不大于所述第二区域跨度时，将所述第一区域跨度作为所述空间区域跨度。
根据权利要求1所述的定位声源用户的方法，所述指定方位的数量为两个及以上，所述空间区域跨度包括两个及以上，所述根据所述指定方位以及所述视觉中心线方位，得到预旋转的空间区域跨度的步骤，包括：

获取从所述视觉中心线方位顺时针旋转经过所有所述指定方位对应的第一总区域跨度，以及从所述视觉中心线方位逆时针旋转经过所有所述对应的第二总区域跨度；

比较所述第一总区域跨度与所述第二总区域跨度的大小；

当所述第一总区域跨度大于所述第二总区域跨度时，将所述第二总区域跨度作为所述空间区域跨度，当所述第一总区域跨度不大于所述第二总区域跨度时，将所述第一总区域跨度作为所述空间区域跨度。
根据权利要求1所述的定位声源用户的方法，所述接收所述VGG网络识别计算后输出的数据结果，并根据所述VGG网络的数据结果判断声源方位是否与所述指定方位相一致的步骤，包括：

分析所述数据结果是否包括嘴部的张合动作；

若是，则再次确定当前声源方位是否为所述指定方位；

若是，则判定声源方位与所述指定方位相一致，否则，不一致。
根据权利要求6所述的定位声源用户的方法，所述分析所述数据结果是否包括嘴部的张合动作的步骤之前，包括：

判断摄像头的聚焦条件相对于所述指定用户距离所述摄像头的距离是否正常；

若是，则判断在所述聚焦条件下获取的所述用户画像的分辨率是否在预设范围内；

若是，则控制所述VGG网络识别计算，否则终止计算。
一种定位声源用户的装置，包括：

第一获取模块，用于获取声源定位识别到的声音来源对应的指定方位，以及机器人当前所处空间位置对应的视觉中心线方位；

得到模块，用于根据所述指定方位以及所述视觉中心线方位，得到预旋转的空间区域跨度；

旋转模块，用于根据所述预旋转的空间区域跨度控制机器人旋转，旋转至所述指定方位位于所述机器人的视觉范围内；

第一判断模块，用于判断在所述机器人的视野范围内是否获取到指定用户的用户画像；

第二获取模块，用于若是，则获取所述指定用户的动作数据，并经过预设方式处理，得到处理结果，并将所述处理结果输入至VGG网络进行识别计算，以得到所述动作数据对应的动作类型；

接收模块，用于接收所述VGG网络识别计算后输出的数据结果，并根据所述VGG网络的数据结果判断声源方位是否与所述指定方位相一致；

判定模块，用于若是，则判定所述指定方位的指定用户为声源用户。
根据权利要求8所述的定位声源用户的装置，所述第二获取模块，包括：

第一获取单元，用于获取所述指定用户在指定时间段内的动作数据，所述动作数据为连续的多帧动作序列；

拼接单元，用于将连续的多帧所述动作序列，通过
合并拼接成一个静态图像数据，其中，p _i∈R ⁿ，表示t时刻的关键点，i表示关键点的序号；B _i,k(t)表示变换矩阵，k表示维度；p(t)是t∈[t _i,t _i+1)时间内输出的静态图像数据；

输入单元，用于将所述静态图像数据输入至VGG网络进行识别计算。
根据权利要求8所述的定位声源用户的装置，包括：

第二判断模块，用于判断所述机器人的视野范围内的所述指定用户数量是否为两个及以上；

选择模块，用于若所述指定用户数量为两个及以上，则根据Yolov3算法在所述机器人的视野范围对应的视野图中，选择出各所述指定用户分别对应的方块区域；

截取模块，用于分别截取各所述方块区域对应的所述指定时间段内的系列动作作为所述动作数据。
一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现定位声源用户的方法，其中，定位声源用户的方法，包括：

获取声源定位识别到的声音来源对应的指定方位，以及机器人当前所处空间位置对应的视觉中心线方位；

根据所述指定方位以及所述视觉中心线方位，得到预旋转的空间区域跨度；

根据所述预旋转的空间区域跨度控制机器人旋转，旋转至所述指定方位位于所述机器人的视觉范围内；

判断在所述机器人的视野范围内是否获取到指定用户的用户画像；

若是，则获取所述指定用户的动作数据并经过预设方式处理，得到处理结果，并将所述处理结果输入至VGG网络进行识别计算，以得到所述动作数据对应的动作类型；

接收所述VGG网络识别计算后输出的数据结果，并根据所述VGG网络的数据结果判断声源方位是否与所述指定方位相一致，其中，所述数据结果包括所述动作类型属于嘴部动作；

若是，则判定所述指定方位的指定用户为声源用户。
根据权利要求11所述的计算机设备，所述获取所述指定用户的动作数据并经过预设方式处理，得到处理结果，并将所述处理结果输入至VGG网络进行识别计算，以得到所述动作数据对应的动作类型的步骤，包括：

获取所述指定用户在指定时间段内的动作数据，所述动作数据为连续的多帧动作序列；

将连续的多帧所述动作序列，通过
合并拼接成一个静态图像数据，其中，p _i∈R ⁿ，表示t时刻的关键点，i表示关键点的序号；B _i,k(t)表示变换矩阵，k表示维度；p(t)是t∈[t _i,t _i+1)时间内输出的静态图像数据；

将所述静态图像数据输入至VGG网络进行识别计算。
根据权利要求11所述的计算机设备，所述获取所述指定用户的动作数据并经过预设方式处理，得到处理结果，并将所述处理结果输入至VGG网络进行识别计算，以得到所述动作数据对应的动作类型的步骤之前，包括：

判断所述机器人的视野范围内的所述指定用户数量是否为两个及以上；

若是，则根据Yolov3算法在所述机器人的视野范围对应的视野图中，选择出各所述指定用户分别对应的方块区域；

分别截取各所述方块区域对应的所述指定时间段内的系列动作作为所述动作数据。
根据权利要求11所述的计算机设备，所述根据所述指定方位以及所述视觉中心线方位，得到预旋转的空间区域跨度的步骤，包括：

获取从所述视觉中心线方位顺时针旋转到所述指定方位时的第一区域跨度，以及从所述视觉中心线方位逆时针旋转到所述指定方位时的第二区域跨度；

比较所述第一区域跨度与所述第二区域跨度的大小；

当所述第一区域跨度大于所述第二区域跨度时，将所述第二区域跨度作为所述空间区域跨度，当所述第一区域跨度不大于所述第二区域跨度时，将所述第一区域跨度作为所述空间区域跨度。
根据权利要求11所述的计算机设备，所述指定方位的数量为两个及以上，所述空间区域跨度包括两个及以上，所述根据所述指定方位以及所述视觉中心线方位，得到预旋转的空间区域跨度的步骤，包括：

获取从所述视觉中心线方位顺时针旋转经过所有所述指定方位对应的第一总区域跨度，以及从所述视觉中心线方位逆时针旋转经过所有所述对应的第二总区域跨度；

比较所述第一总区域跨度与所述第二总区域跨度的大小；

当所述第一总区域跨度大于所述第二总区域跨度时，将所述第二总区域跨度作为所述空间区域跨度，当所述第一总区域跨度不大于所述第二总区域跨度时，将所述第一总区域跨度作为所述空间区域跨度。
一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现定位声源用户的方法，其中，定位声源用户的方法，包括：

获取声源定位识别到的声音来源对应的指定方位，以及机器人当前所处空间位置对应的视觉中心线方位；

根据所述指定方位以及所述视觉中心线方位，得到预旋转的空间区域跨度；

根据所述预旋转的空间区域跨度控制机器人旋转，旋转至所述指定方位位于所述机器人的视觉范围内；

判断在所述机器人的视野范围内是否获取到指定用户的用户画像；

若是，则获取所述指定用户的动作数据并经过预设方式处理，得到处理结果，并将所述处理结果输入至VGG网络进行识别计算，以得到所述动作数据对应的动作类型；

接收所述VGG网络识别计算后输出的数据结果，并根据所述VGG网络的数据结果判断声源方位是否与所述指定方位相一致，其中，所述数据结果包括所述动作类型属于嘴部动作；

若是，则判定所述指定方位的指定用户为声源用户。
根据权利要求16所述的计算机可读存储介质，所述获取所述指定用户的动作数据并经过预设方式处理，得到处理结果，并将所述处理结果输入至VGG网络进行识别计算，以得到所述动作数据对应的动作类型的步骤，包括：

获取所述指定用户在指定时间段内的动作数据，所述动作数据为连续的多帧动作序列；

将连续的多帧所述动作序列，通过
合并拼接成一个静态图像数据，其中，p _i∈R ⁿ，表示t时刻的关键点，i表示关键点的序号；B _i,k(t)表示变换矩阵，k表示维度；p(t)是t∈[t _i,t _i+1)时间内输出的静态图像数据；

将所述静态图像数据输入至VGG网络进行识别计算。
根据权利要求16所述的计算机可读存储介质，所述获取所述指定用户的动作数据并经过预设方式处理，得到处理结果，并将所述处理结果输入至VGG网络进行识别计算，以得到所述动作数据对应的动作类型的步骤之前，包括：

判断所述机器人的视野范围内的所述指定用户数量是否为两个及以上；

若是，则根据Yolov3算法在所述机器人的视野范围对应的视野图中，选择出各所述指定用户分别对应的方块区域；

分别截取各所述方块区域对应的所述指定时间段内的系列动作作为所述动作数据。
根据权利要求16所述的计算机可读存储介质，所述根据所述指定方位以及所述视觉中心线方位，得到预旋转的空间区域跨度的步骤，包括：

获取从所述视觉中心线方位顺时针旋转到所述指定方位时的第一区域跨度，以及从所述视觉中心线方位逆时针旋转到所述指定方位时的第二区域跨度；

比较所述第一区域跨度与所述第二区域跨度的大小；

当所述第一区域跨度大于所述第二区域跨度时，将所述第二区域跨度作为所述空间区域跨度，当所述第一区域跨度不大于所述第二区域跨度时，将所述第一区域跨度作为所述空间区域跨度。
根据权利要求16所述的计算机可读存储介质，所述指定方位的数量为两个及以上，所述空间区域跨度包括两个及以上，所述根据所述指定方位以及所述视觉中心线方位，得到预旋转的空间区域跨度的步骤，包括：

获取从所述视觉中心线方位顺时针旋转经过所有所述指定方位对应的第一总区域跨度，以及从所述视觉中心线方位逆时针旋转经过所有所述对应的第二总区域跨度；

比较所述第一总区域跨度与所述第二总区域跨度的大小；

当所述第一总区域跨度大于所述第二总区域跨度时，将所述第二总区域跨度作为所述空间区域跨度，当所述第一总区域跨度不大于所述第二总区域跨度时，将所述第一总区域跨度作为所述空间区域跨度。