WO2019033747A1

WO2019033747A1 - 无人机智能跟随目标确定方法、无人机和遥控器

Info

Publication number: WO2019033747A1
Application number: PCT/CN2018/078582
Authority: WO
Inventors: 梅江元
Original assignee: 深圳市道通智能航空技术有限公司
Priority date: 2017-08-18
Filing date: 2018-03-09
Publication date: 2019-02-21
Also published as: EP3471021A1; EP3471021B1; CN109409354B; CN109409354A; CN113762252A; EP3471021A4; CN113762252B

Abstract

本发明实施例公开了一种无人机智能跟随目标确定方法、无人机和电子设备。所述方法包括：获取无人机传回的图像；根据用户对所述无人机传回的图像的点击获得感兴趣的区域图片；加载深度学习网络模型并将获取的所述区域图片输入所述深度学习网络模型，利用所述深度学习网络模型输出多个框选所述区域图片中目标的候选外接框及所述候选外接框内的目标属于预设类别的概率；依据所述候选外接框及所述候选外接框内的目标属于预设类别的概率判断所述区域图片内是否存在目标图像。本发明实施例通过获取用户感兴趣的图像，从而可以将该用户感兴趣的图像作为基于深度学习算法网络模型的输入，进行目标预测，计算量小、运算时间短、对硬件设备要求低。

Description

无人机智能跟随目标确定方法、无人机和遥控器

技术领域

本发明实施例涉及计算机视觉领域，特别涉及一种无人机智能跟随目标确定方法、无人机和遥控器。

背景技术

随着无人机技术的发展，无人机在军事及民用领域都得到了广泛的应用。随着应用的日趋广泛，对无人机的性能也不断提出新的要求，尤其是在智能化上的要求。基于视觉的无人机智能跟随是智能化无人机的关键功能之一，在行业中也有着重要的应用。在消费级无人机领域，智能跟随功能是高端无人机的重要标志之一，为用户带来很多乐趣；在行业级无人机领域，智能跟随可以用于逃犯追踪、异常目标行为分析等，对国家安全以及治安维稳有着重要的意义。

在智能跟随技术中，如何对无人机拍摄的目标进行初始化一直是智能跟随的难题之一，如果目标无法准确框选，接下来的跟踪过程很容易出现目标丢失的情况。目前，动态目标的框选和识别一般是通过基于深度学习的目标检测算法来完成，基于深度学习的目标检测算法，可以将目标识别与定位过程在一个统一的深度学习框架中完成，且定位准确、可识别种类很多。

实现本发明过程中，发明人发现相关技术中至少存在如下问题：基于深度学习的目标检测算法计算量大，一次图片预测过程要达到十亿甚至百亿次浮点运算，如果采用一般的处理器，则会导致运算时间非常长，很难达到实时性要求，因此，对处理器的要求较高。

发明内容

本发明实施例的目的是提供一种算法计算量小、运算时间短、对硬件设备要求低的无人机智能跟随目标确定方法、无人机和遥控器。

第一方面，本发明实施例提供了一种无人机智能跟随目标确定方法，所述方法包括：

所述电子设备获取无人机传回的图像；

所述电子设备根据用户对所述无人机传回的图像的点击获得感兴趣的区域图片；

所述电子设备加载深度学习网络模型并将获取的所述区域图片输入所述深度学习网络模型，利用所述深度学习网络模型输出多个框选所述区域图片中目标的候选外接框及所述候选外接框内的目标属于预设类别的概率；

依据所述候选外接框及所述候选外接框内的目标属于预设类别的概率判断所述区域图片内是否存在目标图像；

如果存在目标图像，则发送目标跟随命令给所述无人机。

可选的，所述方法还包括：如果不存在目标图像，所述电子设备提示用户所述图像内无感兴趣的目标。

可选的，所述方法还包括：如果不存在目标图像，所述电子设备提示用户重新点击所述图像以重新选择感兴趣目标。

可选的，所述依据所述候选外接框及所述候选外接框内的目标属于预设类别的概率判断所述区域图片内是否存在目标图像，包括：

S1：针对每一个所述预设类别，获取属于该预设类别概率最大的目标对应的候选外接框，分别计算其他各个候选外接框与该候选外接框的重合率，将重合率大于第一预设阀值的候选外接框内的目标属于该预设类别的概率置为零；

S2：针对其他各个预设类别，重复步骤S1；

S3：针对执行完步骤S2后剩下的每个候选外接框，获取该候选外接框内的目标属于各个预设类别的概率中概率最大的预设类别作为该候选外接框内的目标所属的类别，并将最大概率大于第二预设阈值的目标作为可能目标图像；

S4：计算所述可能目标图像与所述用户点击位置的距离系数，则所述距离系数δ表示为：

其中，可能目标图像的坐标为(x _o，y _o)，点击位置坐标为(x _p，y _p)；

S5、获取各个可能目标图像的距离系数与其所属的类别的概率的乘积并找出所述乘积的最大值，如果该最大值大于第三预设阀值，则将该乘积的最大值对应的可能目标图像作为所述目标图像，记录所述目标图像所属的类别。

可选的，所述深度学习网络模型包括至少2个卷积层和至少2个采样层。

可选的，所述深度学习网络模型依次包括：

第一卷积层、第一下采样层、第二卷积层、第二下采样层、第三卷积层、第三下采样层、第四卷积层、第四下采样层、第五卷积层、第五下采样层、第六卷积层、第六下采样层、第七卷积层、第八卷积层和区域层。

可选的，所述第一卷积层、所述第二卷积层、所述第三卷积层、所述第四卷积层、所述第五卷积层和所述第六卷积层中，后一个卷积层的滤波器数量是前一个卷积层滤波器数量的2倍，所述第六卷积层和所述第七卷积层的滤波器数量相等；

所述第一下采样层、所述第二下采样层、所述第三下采样层、所述第四下采样层和所述第五下采样层的窗口尺寸为2*2像素，跳跃间隔为2，所述第六下采样层的窗口尺寸为2*2像素，跳跃间隔为1。

可选的，所述第一卷积层的滤波器数量为4，所述第一下采样层、所述第二下采样层、所述第三下采样层、所述第四下采样层、所述第五下采样层和所述第六下采样层均采用最大值下采样法。

可选的，各个所述卷积层均使用3*3像素的滤波器。

可选的，所述区域图片大小为288*288像素，利用所述深度学习网络模型共获得9*9*5个所述候选外接框。

第二方面，本发明实施例提供了一种无人机智能跟随目标确定方法，所述方法包括：

所述无人机获取图像；

所述无人机根据用户的点击操作获取感兴趣的区域图片；

所述无人机加载深度学习网络模型并将获取的所述区域图片输入所述深度学习网络模型，利用所述深度学习网络模型输出多个框选所述区域图片中目标的候选外接框及所述候选外接框内的目标属于预设类别的概率；

如果存在目标图像，则跟随所述目标。

可选的，所述方法还包括：如果不存在目标图像，所述无人机发送指令至电子设备，所述指令用于提示所述用户所述图像内无感兴趣目标。

可选的，所述指令还用于提示所述用户重新点击所述图像以重新选择感兴趣目标。

S2：针对其他各个预设类别，重复步骤S1；

可选的，所述深度学习网络模型依次包括：

可选的，各个所述卷积层均使用3*3像素的滤波器。

第三方面，本发明实施例提供了一种遥控器，包括：

操作杆；

信号接收器，用于接收无人机传回的图像；

信号发送器，用于发送指令给所述无人机；

显示屏；以及

处理器；

其中，处理器用于：

根据用户对所述无人机传回的图像的点击获得感兴趣的区域图片；

加载深度学习网络模型并将获取的所述区域图片输入所述深度学习网络模型，利用所述深度学习网络模型输出多个框选所述区域图片中目标的候选外接框及所述候选外接框内的目标属于预设类别的概率；

如果存在目标图像，则通过所述信号发送器发送目标跟随命令给所述无人机。

可选的，如果不存在目标图像，所述显示屏显示所述图像内无感兴趣的目标的提示。

可选的，如果不存在目标图像，所述显示屏显示重新点击所述图像以重新选择感兴趣目标的提示。

可选的，所述处理器还用于执行第一方面中任一所述的方法。

第四方面，本发明实施例提供了一种无人机，包括机身、与所述机身相连的机臂、设于所述机臂的动力装置、用于获取图像的图像传感器、设于所述机身内的处理器和信号发送器，所述处理器用于：

根据用户的点击操作获取感兴趣的区域图片；

依据所述候选外接框及所述候选外接框内的目标属于预设类别的概率判断所述区域图片内是否存在目标图像，如果存在目标图像，则控制所述无人机跟随所述目标。

可选的，所述方法还包括：如果不存在目标图像，所述无人机通过所述信号发送器发送指令至电子设备，所述指令用于提示所述用户所述图像内无感兴趣目标。

可选的，所述处理器还用于执行第二方面中任一项所述的方法。

第五方面，本发明实施例提供了一种非易失性计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，当所述计算机可执行指令被电子设备执行时，使所述电子设备第一方面的任一项所述的方法。

第六方面，本发明实施例提供了一种非易失性计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，当所述计算机可执行指令被无人机执行时，使所述无人机执行第二方面任一项所述的方法。

第七方面，本发明实施例提供了一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被电子设备执行时，使所述电子设备执行第一方面所述的方法。

第八方面，本发明实施例提供了一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被无人机执行时，使所述无人机执行第二方面所述的方法。

本发明实施例的有益效果是：本发明实施例根据用户的点击位置在原始图像上获取感兴趣的区域图片，并将所述感兴趣的区域图片输入深度学习网络模型进行目标预测，计算量小、运算时间短、对硬件设备要求低。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1是本发明实施例提供的目标确定方法和装置的应用场景示意图；

图2是电子设备执行的本发明目标确定方法的一个实施例的流程示意图；

图3是本发明目标确定方法的一个实施例的过程示意图；

图4是本发明目标确定方法的一个实施例中对候选外接框进行去重处理步骤的示意图；

图5是本发明实施例中基于深度学习算法的网络结构的示意图；

图6是无人机执行的本发明目标确定方法的一个实施例的流程示意图；

图7是本发明目标确定装置的一个实施例的结构示意图；

图8是本发明目标确定装置的一个实施例的结构示意图；

图9是本发明实施例提供的无人机的硬件结构示意图；

图10是本发明实施例提供的电子设备的硬件结构示意图；

图11是本发明实施例提供的遥控器的硬件结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的无人机智能跟随目标确定方法和装置适用于如图1所示的应用场景。所述应用场景包括无人机10、电子设备20和用户30。所述无人机10可以是任何合适类型的高空或者低空飞行器，包括典型的四轴飞行器、可悬停的遥控直升机或者具有一定移动速度的固定翼飞行器等。电子设备20可以是例如遥控器、智能手机、平板电脑、个人电脑、手提电脑等。用户30可以通过任何合适类型的、一种或者多种用户交互设备与电子设备20交互，这些用户交互设备可以是鼠标、按键、触摸屏等。无人机10和电子设备20可以通过分别设置在其内部的无线通信模块建立通信连接，上传或者下发数据/指令。

无人机10可以实现对目标的跟踪，所述目标例如是特定的人、车、船或者动物等，为了跟踪目标，所述无人机10需要首先确定目标。无人机10上设置有至少一个图像采集装置，例如高清摄像头或者运动摄像机等，用以完成图像的拍摄。无人机10将所述图像通过无线网络回传到电子设备20上，电子设备20将所述图像在电子设备20的屏幕上显示。用户30可以对所述图像进行操作，例如点击所述图像上的某一感兴趣的目标，电子设备20依据用户30的点击操作以确定所述图像中感兴趣目标的位置。

可以基于深度学习网络模型对拍摄图像中的目标进行识别和确认，如果对整个原始图像进行图像识别，计算量较大。而根据用户30的点击位置在原始图像上获取用户30感兴趣的区域图片，然后针对该用户30感兴趣的区域图片进行图像识别，相对计算量小，识别速度快。可以由电子设备20从原始图像中根据用户30的点击位置获得用户30感兴趣的区域图片，然后再针对该用户30感兴趣的区域图片基于深度学习算法进行目标识别，获得目标图像。本实施例中，将深度学习网络模型加载在电子设备20端，在电子设备20上完成目标识别和确认，不会占用无人机10的计算资源，在无人机10未增加任何硬件成本的条件下，为无人机10增加了新的功能。在其他可能的实施例中，深度学习网络模型也可以加载在无人机10端，电子设备20将用户30感兴趣的区域图片和用户30的点击位置发送给无人机10，由无人机10对该用户30感兴趣的区域图片基于深度学习算法进行目标识别，获得目标图像。电子设备20也可以仅将用户30的点击位置发送给无人机10，由无人机10根据该点击位置在原始图像上获得感兴趣的区域图片，并基于该感兴趣的区域图片进行识别。

图2为本发明实施例提供的一种无人机智能跟随目标确定方法的流程示意图，所述方法可以由图1中的电子设备20执行，如图2所示，所述方法包括：

101：电子设备20获取无人机10传回的图像；

无人机10拍摄图像后会将所述图像发送给电子设备20，电子设备 20接收到无人机10回传的图像后，可以在电子设备20的屏幕上显示所述图像。

102：电子设备20根据用户30对所述无人机10传回的图像的点击操作获得感兴趣的区域图片。

用户30可以点击电子设备20屏幕上无人机10传回的图像，以确定需要跟踪的目标，电子设备20可以根据用户30的点击位置获取用户30感兴趣的区域图片。例如，根据用户30在屏幕上点击的位置坐标(x _m,y _m)，确定所述点击位置在所述图像上对应的坐标(x _p,y _p)，并根据该坐标(x _p,y _p)对原图像进行裁剪获得感兴趣的区域图片。一般情况下，无人机10传回图片为1280*720像素，感兴趣的区域图片可以是以坐标(x _p,y _p)为中心的288*288像素的区域。请参照图3，步骤(1)-(2)示出了感兴趣的区域图片的获取过程，其中，图中“+”标记表示用户30的点击位置，虚线框框住的部分为获得的感兴趣的区域图片。

103：电子设备20加载深度学习网络模型并将获取的所述区域图片输入深度学习网络模型，利用所述深度学习网络模型输出多个框选所述区域图片中目标的候选外接框及所述候选外接框内的目标属于预设类别的概率。

在进行目标预测之前，可以预先获取基于深度学习的网络模型，具体包括：

将多个图片以及所述图片对应的预设类别作为输入，基于深度学习算法进行模型训练，获得基于深度学习的网络模型以及网络模型中的各权重参数。其中，所述预设类别例如：人；微型、小型、中型汽车等；公交车、卡车等；农用车、三轮车、拖拉机等；自行车、摩托车等骑行目标；船等水上目标；无人机等飞行目标；猫、狗等常见宠物；其他动物；其他显著目标等。预设类别的个数可以为任意数量，例如10个。

请参照图3，图3中的(3)-(4)步骤示出了将感兴趣的区域图片基于深度学习网络模型进行预测的过程。

将所述区域图片输入深度学习网络模型，将获得框选该区域图片中所有目标的多个候选外接框，每个候选外接框内的目标具有对应各个预设类别的概率。例如，将288*288像素的感兴趣的区域图片输入如图5所示的基于深度学习的网络模型进行预测，将输出9*9*5*15个预测结果。其中，9*9*5表示候选外接框的个数，“5”由训练样本均值聚类获得，“15”代表每个候选外接框的参数，分别为4个位置参数(包括坐标和长宽)、10个所属预设类别的概率和1个是否是目标的概率参数。405个侯选外接框提供了足够的数量供从中选出最优的目标图像的最小外接框。将输入图像设定为288x288的分辨率在保证识别精度的基础上提高了识别速度。

可选的，在所述方法的某些实施例中，所述基于深度学习的网络模型至少包括2个卷积层和至少2个采样层。具体的，可以采用图5中所示的深度学习网络模型300，包括15层网络结构，15层的网络结构既避免层数过高过度拟合，又避免了层数过低精度不够，优化了深度学习网络结构。所述深度学习网络模型依次包括：

其中，可选的，除第八卷积层外，后一个卷积层的滤波器数量是前一个卷积层滤波器数量的2倍，第七卷积层和第八卷积层滤波器数量相等。请参照图5所示，如果第一个卷积层的滤波器数量为4，则后面的卷积层的滤波器数量依次为8、16、32、64、128、256、256。

第一下采样层、第二下采样层、第三下采样层、第四下采样层和第五下采样层的窗口尺寸为2*2像素，跳跃间隔为2，所述第六下采样层的窗口尺寸为2*2像素，跳跃间隔为1。

其中，可选的，各个卷积层可以采用3*3像素的滤波器，3*3像素的滤波器计算量较小。

其中，可选的，所述第一下采样层、第二下采样层、第三下采样层、第四下采样层、第五下采样层和第六下采样层可以采用最大值下采样法。

从第一个卷积层的4个滤波器开始，后一个卷积层滤波器的数量是前一个卷积层滤波器数量的2倍(最后一个卷积层除外)，每经过一次卷积层，特征数量翻倍。下采样层的窗口尺寸是2x2，跳跃间隔为2(最后一个下采样层除外)，每经过一次下采样层，特征分辨率减半。这样设置可以将分辨率和特征数量的变化结合起来，分辨率的减少对应了特征数量的增加。

104：依据所述候选外接框及所述候选外接框属于预设类别的概率判断所述区域图片内是否存在目标图像；如果存在目标图像，则发送目标跟随命令给所述无人机10。

可选的，在所述方法的其他实施例中，如果不存在目标图像，电子设备20提示用户30所述图像内无感兴趣的目标。电子设备20还可以进一步提示用户重新点击所述图像以重新选择感兴趣目标。

请参照图3，图3的(5)-(6)-(7)步骤示出了确认目标图像的过程。确认所述区域图片内是否存在目标图像，具体包括以下步骤：

步骤1：针对每一个所述预设类别，获取属于该预设类别概率最大的目标对应的候选外接框，分别计算其他各个候选外接框与该概率最大的候选外接框的重合率，将重合率大于第一预设阀值的候选外接框内的目标属于该预设类别的概率置为零。

例如，如果具有i个候选外接框，预设类别的数量为j个，假设第i个候选外接框属于第j个预设类别的概率是P _ij。那么针对每一个预设类别j，根据P _ij进行排序，将P _ij大的候选外接框排在前面，P _ij小的候选外接框排在后面。请参照图4所示，对于同一个预设类别j，依次计算P _ij最大的候选外接框后面的其他候选外接框与P _ij最大的候选外接框的重合率IOU，如果重合率IOU大于第一预设阈值θ ₁，则将后面的候选外接框属于该预设类别j的概率置为0。其中，重合率IOU表征两个候选外接框重合的程度，重合率越大，说明两个候选外接框越相似，当两个候选外接框的重合率大于第一预设阀值θ ₁时，说明两个候选外接框相似度较高。为了简化计算，去掉概率较小的候选外接框，第一预设阀值θ ₁可以根据实际应用情况设置。重合率IOU可以采用公式(1)。

其中，S ₁和S ₂分别代表两个候选外接框的面积，S ₁₂为两者重合部分的面积。

步骤2：针对其他各个预设类别，重复步骤1。

即针对其余各个预设类别均进行上述步骤1的去重处理。

步骤3：针对执行完步骤2后剩下的每个候选外接框，获取该候选外接框内的目标属于各个预设类别的概率中概率最大的预设类别作为该候选外接框内的目标所属的类别，并将最大概率大于第二预设阈值θ ₂的目标作为可能目标图像。

对经过步骤1和步骤2去重处理之后剩下的各个候选外接框，依次计算每一个候选外接框内的目标属于各个预设类别的概率的最大值P _i＝max(P _ij)，并记录对应的预设类别j。选取P _i值大于第二预设阀值θ ₂的目标作为可能目标图像，并记录其对应的预设类别j作为所述可能目标图像所属的类别。

其中，概率值P _i表征目标属于其所属类别的可能性，P _i值越大，则其属于该类别的可能性越大，如果P _i值大于第二预设阀值θ ₂，说明候选外接框属于其所属类别的可能性较大，为了进一步简化计算，去除P _i小于第二预设阀值θ ₂的目标对应的候选外接框，第二预设阀值θ ₂的值可以根据实际应用情况设置。

步骤4：计算所述可能目标图像与所述用户30点击位置的距离系数，则所述距离系数δ表示为：

其中，可能目标图像的坐标为(x _o，y _o)，点击位置坐标为(x _p，y _p)。

距离系数δ表征候选外接框距离用户30点击位置的远近，δ越大，候选外接框离用户30点击位置越近，δ越小，候选外接框离用户30点击位置越远。

该距离系数计算公式可以将各个同类目标区分开来，即使用户30的点击位置发生在目标图像外，仍然可以将目标准确框出。

步骤5：获取各个可能目标图像的距离系数与其所属的类别的概率的乘积ε _i并找出所述乘积的最大值max(ε _i)，如果该最大值max(ε _i)大于第三预设阀值θ ₃，则将该乘积的最大值max(ε _i)对应的可能目标图像作为目标图像，记录所述目标图像所属的类别。

即计算各个可能目标图像的判定值ε _i＝P _iδ _i，并获取各个可能目标图像中判定值的最大值ε＝max(ε _i)，如果ε大于第三预设阀值θ ₃，则将ε对应的可能目标图像作为目标图像，记录所述目标图像所属的类别。如果ε不大于第三预设阀值θ ₃，则说明用户30点击的位置附近没有用户30需要跟踪的目标，可以通过电子设备20端发送提示，请用户30重新选择目标。

其中，判定值ε表征可能目标图像距离用户30点击位置的远近和属于其所属类别的可能性，ε值越大，则其距离用户30点击位置越近，属于其所属类别的可能性越大，如果ε值大于第三预设阀值θ ₃，说明该可能目标图像距离用户30点击位置比较近，属于其所属类别的可能性较大，可以将该可能目标图像作为目标图像，第三预设阀值θ ₃的值可以根据实际应用情况设置。

可选的，在所述方法的其他实施例中，确认出目标图像及目标图像所属的类别后，可以根据目标图像的类别调整飞行策略。例如目标是车辆这类的快速移动的大目标，无人机10需要提高自身飞行高度和飞行速度，以获得更大的视野以及跟踪速度；而如果目标是人这样的小目标，无人机10需要降低高度减小速度，保证目标在视野中不因过小而丢失。

本发明实施例根据用户30的点击位置在原始图像上获取感兴趣的区域图片，并将所述感兴趣的区域图片作为输入，基于深度学习的网络模型进行目标预测，计算量小、运算时间短、对硬件设备要求低。

本发明实施例还提供了另一无人机智能跟随目标确定方法，可以由图1中的无人机10执行。如图6所示，所述方法包括：

201：无人机10获取图像。

无人机10通过图像采集装置采集图像。

202：无人机10根据用户30的点击操作获取感兴趣的区域图片。

无人机10将采集的原始图像通过无线网络传回到电子设备20，根据用户30对原始图像的点击操作可以获得用户30感兴趣的区域图片。可以由电子设备20根据用户30的点击操作获取用户30感兴趣的区域图片，再将用户30感兴趣的区域图片传回给无人机10。或者，电子设备20仅将用户30的点击位置发送给无人机10，由无人机10根据用户30的点击位置，从原始图像中获得用户30感兴趣的区域图片。

203：无人机10加载深度学习网络模型并将获取的所述区域图片输入深度学习网络模型，利用所述深度学习网络模型输出多个框选所述区域图片中目标的候选外接框及所述候选外接框内的目标属于预设类别的概率。

204：依据所述候选外接框及所述候选外接框内的目标属于预设类别的概率判断所述区域图片内是否存在目标图像；如果存在目标图像，则跟随所述目标。

可选的，在所述方法的其他实施例中，如果不存在目标图像，无人机10发送指令至电子设备20，该指令用于提示用户30所述图像内无感兴趣的目标。所述指令还可以进一步用于提示用户重新点击所述图像以重新选择感兴趣目标。

其中，关于步骤203和步骤204的技术细节请分别参照步骤103和步骤104的描述，在此不再赘述。可选的，在上述方法的某些实施例中，所述基于深度学习的网络模型包括至少2个卷积层和至少2个采样层。具体的，可以采用图5中所示的深度学习网络模型300，该深度学习网络模型的具体结构和技术细节请参照上述关于基于深度学习的网络模型的介绍，在此亦不再赘述。

本发明实施例通过获取用户30感兴趣的区域图片，并将该感兴趣的区域图片作为基于深度学习的网络模型的输入，进行目标预测，计算量小、运算时间短、对硬件设备要求低。

相应的，如图7所示，本发明实施例还提供了一种无人机智能跟随目标确定装置，用于电子设备20，所述装置300包括：

图像获取模块301，用于获取无人机10传回的图像；

图像处理模块302，用于根据用户30对所述无人机10传回的图像的点击获得感兴趣的区域图片；

图像预测模块303，用于加载深度学习网络模型并将获取的所述区域图片输入深度学习网络模型，利用所述深度学习网络模型输出多个框选所述区域图片中目标的候选外接框及所述候选外接框内的目标属于预设类别的概率；

目标图像确认模块304，用于依据所述候选外接框及所述候选外接框内的目标属于预设类别的概率判断所述区域图片内是否存在目标图像；如果存在目标图像，则发送目标跟随命令给所述无人机。

可选的，在所述装置的其他实施例中，目标图像确认模块304还用于如果不存在目标图像，提示用户所述图像内无感兴趣的目标。目标图像确认模块304还可以进一步提示用户重新点击所述图像以重新选择感兴趣目标。

可选的，在所述装置的某些实施例中，所述目标图像确认模块304具体用于：

S2：针对其他各个预设类别，重复步骤S1；

S3：针对执行完步骤S2后剩下的每个候选外接框，获取该候选外接框内的目标属于各个预设类别的概率中概率最大的预设类别作为该候选外接框内的目标所属的类别，并将最大概率大于第二预设阈值θ ₂的目标作为可能目标图像；

S4：计算所述可能目标图像与所述用户30点击位置的距离系数，则所述距离系数δ表示为：

S5、获取各个可能目标图像的距离系数与其所属的类别的概率的乘积ε _i并找出所述乘积的最大值max(ε _i)，如果该最大值max(ε _i)大于第三预设阀值θ ₃，则将该乘积的最大值max(ε _i)对应的可能目标图像作为所述目标图像，记录所述目标图像所属的类别。

可选的，在所述装置的某些实施例中，所述深度学习网络模型至少包括2个卷积层和至少2个采样层。具体的，所述深度学习网络模型包括：

其中，可选的，第一卷积层、第二卷积层、第三卷积层、第四卷积层、第五卷积层和第六卷积层中，后一个卷积层的滤波器数量是前一个卷积层滤波器数量的2倍，第六卷积层和第七卷积层的滤波器数量相等；

其中，可选的，所述第一卷积层的滤波器数量为4，所述第一下采样层、第二下采样层、第三下采样层、第四下采样层、第五下采样层和第六下采样层均采用最大值下采样法。

可选的，各个所述卷积层均使用3*3像素的滤波器。

可选的，在所述装置的某些实施例中，所述区域图片大小为288*288 像素，利用所述深度学习网络模型共获得9*9*5个候选外接框。

相应的，如图8所示，本发明实施例还提供了一种无人机智能跟随目标确定装置，用于无人机10，所述装置400包括:

图像采集模块401，用于获取图像；

第二图像处理模块402，用于根据用户30的点击操作获取感兴趣的区域图片；

图像预测模块303，用于加载深度学习网络模型并将获取的所述区域图片输入所述深度学习网络模型，利用所述深度学习网络模型输出多个框选所述区域图片中目标的候选外接框及所述候选外接框内的目标属于预设类别的概率；

目标图像确认模块304，用于依据所述候选外接框及所述候选外接框内的目标属于预设类别的概率判断所述区域图片内是否存在目标图像；如果存在目标图像，则跟随所述目标。

可选的，在所述装置的其他实施例中，如果不存在目标图像，无人机10发送指令至电子设备20，该指令用于提示用户30所述图像内无感兴趣的目标。所述指令还可以进一步用于提示用户重新点击所述图像以重新选择感兴趣目标。

其中，关于图像预测模块303和目标图像确认模块304的技术细节请分别参照无人机智能跟随目标确定装置300中的图像预测模块303和目标图像确认模块304，在此不再赘述。可选的，在上述装置的某些实施例中，所述基于深度学习的网络模型包括至少2个卷积层和至少2个采样层。具体的，可以采用图5中所示的深度学习网络模型300，该深度学习网络模型的具体结构和技术细节请参照上述关于基于深度学习的网络模型的介绍，在此亦不再赘述。

需要说明的是，上述装置可执行本申请实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在装置实施例中详尽描述的技术细节，可参见本申请实施例所提供的方法。

图9是本发明实施例提供的无人机10的硬件结构示意图，如图9所示，无人机10包括：机身14、与所述机身14相连的机臂15、设于所述机臂的动力装置17、用于获取图像的图像传感器16、设于机身14内的处理器11、信号发送器13和内置或者外置于无人机10的存储器12(图9中以存储器12内置于无人机10中为例)。

其中，处理器11和存储器12可以通过总线或者其他方式连接。

存储器12作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的目标确定方法对应的程序指令/单元(例如，附图8所示的图像采集模块401、第二图像处理模块402、图像预测模块303和目标图像确认模块304)。处理器11通过运行存储在存储器12中的非易失性软件程序、指令以及单元，从而执行无人机10的各种功能应用以及数据处理，即实现上述方法实施例的目标确定方法。

存储器12可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据用户终端设备使用所创建的数据等。此外，存储器12可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器12可选包括相对于处理器11远程设置的存储器，这些远程存储器可以通过网络连接至无人机10。

所述一个或者多个模块存储在所述存储器12中，当被所述一个或者多个处理器11执行时，执行上述任意方法实施例中的目标确定方法，例如，执行以上描述的图6中的方法步骤201至步骤204，实现图8中的图像采集模块401、第二图像处理模块402、图像预测模块303和目标图像确认模块304的功能。

其中，如果无人机10利用所述目标确定方法判断存在目标图像，则跟随所述目标。可选的，如果不存在目标图像，无人机10发送指令至电子设备20，所述指令用于提示所述用户所述图像内无感兴趣目标。所述指令还可以进一步用于提示所述用户重新点击所述图像以重新选择感兴趣目标。

上述无人机10可执行本发明实施例所提供的目标确定方法，具备执行方法相应的功能模块和有益效果。未在无人机10实施例中详尽描述的技术细节，可参见本发明实施例所提供的目标确定方法。

本发明实施例提供了一种非易失性计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个处理器执行，例如，执行以上描述的图6中的方法步骤201至步骤204，实现图8中的图像采集模块401、第二图像处理模块402、图像预测模块303和目标图像确认模块304的功能。

图10是本发明实施例提供的电子设备20的硬件结构示意图，如图10所示，该电子设备20包括：

一个或多个处理器21以及存储器22，图10中以一个处理器21为例。

处理器21和存储器22可以通过总线或者其他方式连接，图10中以通过总线连接为例。

存储器22作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的目标确定方法对应的程序指令/单元(例如，附图7所示的图像获取模块301、图像处理模块302、图像预测模块303和目标图像确认模块304)。处理器21通过运行存储在存储器22中的非易失性软件程序、指令以及单元，从而执行电子设备20的各种功能应用以及数据处理，即实现上述方法实施例的目标确定方法。

存储器22可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据电子设备20使用所创建的数据等。此外，存储器22可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器22可选包括相对于处理器21远程设置的存储器，这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

所述一个或者多个单元存储在所述存储器22中，当被所述一个或者多个处理器21执行时，执行上述任意方法实施例中的目标确定方法，例如，执行以上描述的图2中的方法步骤101-104，实现图7所示的图像获取模块301、图像处理模块302、图像预测模块303和目标图像确认模块304的功能。

上述电子设备20可执行本发明实施例所提供的目标确定方法，具备执行方法相应的功能模块和有益效果。未在电子设备20实施例中详尽描述的技术细节，可参见本发明实施例所提供的目标确定方法。

本申请实施例的电子设备20以多种形式存在，包括但不限于:

(1)遥控器。

(2)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(3)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如iPad。

(4)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(5)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

其中，电子设备20可以为图11所示的遥控器，所述遥控器除包括上述的处理器21和存储器22外，还包括操作杆25、信号接收器26、信号发送器23和显示屏24，其中，信号接收器26用于接收无人机10传回的图像，信号发送器23用于发送指令给所述无人机10。

其中，如果遥控器利用所述目标确定方法判断存在目标图像，则通过信号发送器23发送目标跟随命令给无人机10。可选的，如果不存在目标图像，显示屏24显示所述图像内无感兴趣的目标的提示，显示屏24还可以进一步显示重新点击所述图像以重新选择感兴趣目标的提示。

本发明实施例还提供了一种非易失性计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个处理器执行，例如，执行以上描述的图2中的方法步骤101-104，实现图7所示的图像获取模块301、图像处理模块302、图像预测模块303和目标图像确认模块304的功能。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施例的描述，本领域普通技术人员可以清楚地了解到各实施例可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；在本发明的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本发明的不同方面的许多其它变化，为了简明，它们没有在细节中提供；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

一种无人机智能跟随目标确定方法，用于电子设备端，其特征在于，所述方法包括：

所述电子设备获取无人机传回的图像；

所述电子设备根据用户对所述无人机传回的图像的点击获得感兴趣的区域图片；

所述电子设备加载深度学习网络模型并将获取的所述区域图片输入所述深度学习网络模型，利用所述深度学习网络模型输出多个框选所述区域图片中目标的候选外接框及所述候选外接框内的目标属于预设类别的概率；

依据所述候选外接框及所述候选外接框内的目标属于预设类别的概率判断所述区域图片内是否存在目标图像；

如果存在目标图像，则发送目标跟随命令给所述无人机。
根据权利要求1所述的方法，其特征在于，所述方法还包括：

如果不存在目标图像，所述电子设备提示用户所述图像内无感兴趣的目标。
根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

如果不存在目标图像，所述电子设备提示用户重新点击所述图像以重新选择感兴趣目标。
根据权利要求1-3中任一所述的方法，其特征在于，所述依据所述候选外接框及所述候选外接框内的目标属于预设类别的概率判断所述区域图片内是否存在目标图像，包括：

S1：针对每一个所述预设类别，获取属于该预设类别概率最大的目标对应的候选外接框，分别计算其他各个候选外接框与该候选外接框的重合率，将重合率大于第一预设阀值的候选外接框内的目标属于该预设类别的概率置为零；

S2：针对其他各个预设类别，重复步骤S1；

S3：针对执行完步骤S2后剩下的每个候选外接框，获取该候选外接框内的目标属于各个预设类别的概率中概率最大的预设类别作为该候选外接框内的目标所属的类别，并将最大概率大于第二预设阈值的目标作为可能目标图像；

S4：计算所述可能目标图像与所述用户点击位置的距离系数，则所述距离系数δ表示为：

其中，可能目标图像的坐标为(x _o，y _o)，点击位置坐标为(x _p，y _p)；

S5、获取各个可能目标图像的距离系数与其所属的类别的概率的乘积并找出所述乘积的最大值，如果该最大值大于第三预设阀值，则将该乘积的最大值对应的可能目标图像作为所述目标图像，记录所述目标图像所属的类别。
根据权利要求1-4中任一所述的方法，其特征在于，所述深度学习网络模型包括至少2个卷积层和至少2个采样层。
根据权利要求1-5中任一所述的方法，其特征在于，所述深度学习网络模型依次包括：

第一卷积层、第一下采样层、第二卷积层、第二下采样层、第三卷积层、第三下采样层、第四卷积层、第四下采样层、第五卷积层、第五下采样层、第六卷积层、第六下采样层、第七卷积层、第八卷积层和区域层。
根据权利要求6所述的方法，其特征在于，所述第一卷积层、所述第二卷积层、所述第三卷积层、所述第四卷积层、所述第五卷积层和所述第六卷积层中，后一个卷积层的滤波器数量是前一个卷积层滤波器数量的2倍，所述第六卷积层和所述第七卷积层的滤波器数量相等；

所述第一下采样层、所述第二下采样层、所述第三下采样层、所述第四下采样层和所述第五下采样层的窗口尺寸为2*2像素，跳跃间隔为2，所述第六下采样层的窗口尺寸为2*2像素，跳跃间隔为1。
根据权利要求6或7所述的方法，其特征在于，所述第一卷积层的滤波器数量为4，所述第一下采样层、所述第二下采样层、所述第三下采样层、所述第四下采样层、所述第五下采样层和所述第六下采样层均采用最大值下采样法。
根据权利要求5-8中任一所述的方法，其特征在于，各个所述卷积层均使用3*3像素的滤波器。
根据权利要求1-9中任一所述的方法，其特征在于，所述区域图片大小为288*288像素，利用所述深度学习网络模型共获得9*9*5个所述候选外接框。
一种无人机智能跟随目标确定方法，应用于无人机，其特征在于，所述方法包括：

所述无人机获取图像；

所述无人机根据用户的点击操作获取感兴趣的区域图片；

所述无人机加载深度学习网络模型并将获取的所述区域图片输入所述深度学习网络模型，利用所述深度学习网络模型输出多个框选所述区域图片中目标的候选外接框及所述候选外接框内的目标属于预设类别的概率；

依据所述候选外接框及所述候选外接框内的目标属于预设类别的概率判断所述区域图片内是否存在目标图像；

如果存在目标图像，则跟随所述目标。
根据权利要求11所述的方法，其特征在于，所述方法还包括：

如果不存在目标图像，所述无人机发送指令至电子设备，所述指令用于提示所述用户所述图像内无感兴趣目标。
根据权利要求11或12所述的方法，其特征在于，所述指令还用于提示所述用户重新点击所述图像以重新选择感兴趣目标。
根据权利要求11-13中任一所述的方法，其特征在于，所述依据所述候选外接框及所述候选外接框内的目标属于预设类别的概率判断所述区域图片内是否存在目标图像，包括：

S1：针对每一个所述预设类别，获取属于该预设类别概率最大的目标对应的候选外接框，分别计算其他各个候选外接框与该候选外接框的重合率，将重合率大于第一预设阀值的候选外接框内的目标属于该预设类别的概率置为零；

S2：针对其他各个预设类别，重复步骤S1；

S3：针对执行完步骤S2后剩下的每个候选外接框，获取该候选外接框内的目标属于各个预设类别的概率中概率最大的预设类别作为该候选外接框内的目标所属的类别，并将最大概率大于第二预设阈值的目标作为可能目标图像；

S4：计算所述可能目标图像与所述用户点击位置的距离系数，则所述距离系数δ表示为：

其中，可能目标图像的坐标为(x _o，y _o)，点击位置坐标为(x _p，y _p)；

S5、获取各个可能目标图像的距离系数与其所属的类别的概率的乘积并找出所述乘积的最大值，如果该最大值大于第三预设阀值，则将该乘积的最大值对应的可能目标图像作为所述目标图像，记录所述目标图像所属的类别。
根据权利要求11-14中任一所述的方法，其特征在于，所述深度学习网络模型包括至少2个卷积层和至少2个采样层。
根据权利要求15所述的方法，其特征在于，所述深度学习网络模型依次包括：

第一卷积层、第一下采样层、第二卷积层、第二下采样层、第三卷积层、第三下采样层、第四卷积层、第四下采样层、第五卷积层、第五下采样层、第六卷积层、第六下采样层、第七卷积层、第八卷积层和区域层。
根据权利要求16所述的方法，其特征在于，所述第一卷积层、所述第二卷积层、所述第三卷积层、所述第四卷积层、所述第五卷积层和所述第六卷积层中，后一个卷积层的滤波器数量是前一个卷积层滤波器数量的2倍，所述第六卷积层和所述第七卷积层的滤波器数量相等；

所述第一下采样层、所述第二下采样层、所述第三下采样层、所述第四下采样层和所述第五下采样层的窗口尺寸为2*2像素，跳跃间隔为2，所述第六下采样层的窗口尺寸为2*2像素，跳跃间隔为1。
根据权利要求16或17所述的方法，其特征在于，所述第一卷积层的滤波器数量为4，所述第一下采样层、所述第二下采样层、所述第三下采样层、所述第四下采样层、所述第五下采样层和所述第六下采样层均采用最大值下采样法。
根据权利要求15-18中任一所述的方法，其特征在于，各个所述卷积层均使用3*3像素的滤波器。
根据权利要求11-19中任一所述的方法，其特征在于，所述区域图片大小为288*288像素，利用所述深度学习网络模型共获得9*9*5个所述候选外接框。
一种遥控器，其特征在于，包括：

操作杆；

信号接收器，用于接收无人机传回的图像；

信号发送器，用于发送指令给所述无人机；

显示屏；以及

处理器；

其中，处理器用于：

根据用户对所述无人机传回的图像的点击获得感兴趣的区域图片；

加载深度学习网络模型并将获取的所述区域图片输入所述深度学习网络模型，利用所述深度学习网络模型输出多个框选所述区域图片中目标的候选外接框及所述候选外接框内的目标属于预设类别的概率；

依据所述候选外接框及所述候选外接框内的目标属于预设类别的概率判断所述区域图片内是否存在目标图像；

如果存在目标图像，则通过所述信号发送器发送目标跟随命令给所述无人机。
根据权利要求22所述的遥控器，其特征在于，如果不存在目标图像，所述显示屏显示所述图像内无感兴趣的目标的提示。
根据权利要求22或23所述的遥控器，其特征在于，如果不存在目标图像，所述显示屏显示重新点击所述图像以重新选择感兴趣目标的提示。
根据权利要求22-24任一所述的遥控器，其特征在于，所述处理器还用于执行权利要求3-10中任一项所述的方法。
一种无人机，包括机身、与所述机身相连的机臂、设于所述机臂的动力装置、用于获取图像的图像传感器、设于所述机身内的处理器和信号发送器，其特征在于，所述处理器用于：

根据用户的点击操作获取感兴趣的区域图片；

加载深度学习网络模型并将获取的所述区域图片输入所述深度学习网络模型，利用所述深度学习网络模型输出多个框选所述区域图片中目标的候选外接框及所述候选外接框内的目标属于预设类别的概率；

依据所述候选外接框及所述候选外接框内的目标属于预设类别的概率判断所述区域图片内是否存在目标图像，如果存在目标图像，则控制所述无人机跟随所述目标。
根据权利要求26所述的无人机，其特征在于，所述方法还包括：

如果不存在目标图像，所述无人机通过所述信号发送器发送指令至电子设备，所述指令用于提示所述用户所述图像内无感兴趣目标。
根据权利要求26或27所述的无人机，其特征在于，所述指令还用于提示所述用户重新点击所述图像以重新选择感兴趣目标。
根据权利要求26-28任一所述的无人机，其特征在于，所述处理器还用于执行权利要求14-21中任一项所述的方法。
一种非易失性计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，当所述计算机可执行指令被电子设备执行时，使所述电子设备执行权利要求1-10的任一项所述的方法。
一种非易失性计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，当所述计算机可执行指令被无人机执行时，使所述无人机执行权利要求11-21任一项所述的方法。