WO2021203368A1

WO2021203368A1 - 图像处理方法、装置、电子设备和存储介质

Info

Publication number: WO2021203368A1
Application number: PCT/CN2020/083997
Authority: WO
Inventors: 任创杰; 李思晋; 李鑫超
Original assignee: 深圳市大疆创新科技有限公司
Priority date: 2020-04-09
Filing date: 2020-04-09
Publication date: 2021-10-14
Also published as: CN112655021A

Abstract

本发明实施例提供一种图像处理方法、装置、电子设备和存储介质，其中方法，包括：获取拍摄的视频流；根据所述视频流中的至少一帧图像，确定姿态信息满足预设条件的目标；启用与所述预设条件对应的功能。本发明实施例提供的图像处理方法、装置、电子设备和存储介质，可以获取拍摄的视频流，根据所述视频流中的至少一帧图像，确定姿态信息满足预设条件的目标，并启用与所述预设条件对应的功能，简化了使用相应功能所需的步骤，减少了花费的时间，提高了设备的使用效率，为用户提供更完善的人机交互功能和更友好的人机交互体验，提高用户体验度。

Description

图像处理方法、装置、电子设备和存储介质

技术领域

本发明实施例涉及无人机技术领域，尤其涉及一种图像处理方法、装置、电子设备和存储介质。

背景技术

现有技术中，在智能设备与用户进行交互的过程中，往往需要用户进行一定的操作才能使用相应的功能。以提供智能跟随功能的无人机为例，用户想要进入智能跟随模式，需要在无人机或者绑定的手机上进行一系列的复杂操作，按照提示一步一步完成指定的步骤，才能使用无人机的智能跟随功能。

现有技术的不足之处在于，使用相应功能需要的步骤比较繁琐，花费的时间较久，设备的使用效率低下。

发明内容

本发明实施例提供了一种图像处理方法、装置、电子设备和存储介质，用于解决现有技术中电子设备的操作步骤繁琐、操作效率低下的技术问题。

本发明的第一方面提供了一种图像处理方法，包括:

获取拍摄的视频流；

根据所述视频流中的至少一帧图像，确定姿态信息满足预设条件的目标；

启用与所述预设条件对应的功能。

本发明的第二方面提供了一种图像处理装置，包括：

存储器，用于存储计算机程序；

处理器，用于运行所述存储器中存储的计算机程序以实现：

获取拍摄的视频流；

启用与所述预设条件对应的功能。

本发明的第三方面提供了一种电子设备，包括第二方面所述的图像处理装置。

本发明实施例第四方面提供一种计算机可读存储介质，所述计算机可读存储介质中存储有程序指令，所述程序指令用于实现第一方面所述的方法。

本发明实施例提供的一种图像处理方法、装置、电子设备和存储介质，可以获取拍摄的视频流，根据所述视频流中的至少一帧图像，确定姿态信息满足预设条件的目标，并启用与所述预设条件对应的功能，简化了使用相应功能所需的步骤，减少了花费的时间，提高了设备的使用效率，为用户提供更完善的人机交互功能和更友好的人机交互体验，提高用户体验度。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本发明实施例一提供的一种图像处理方法的流程示意图；

图2为本发明实施例二提供的一种图像处理方法的流程示意图；

图3为本发明实施例三提供的一种图像处理方法的流程示意图；

图4为本发明实施例三提供的一种图像处理方法中单手挥手姿态的关键点位置示意图；

图5为本发明实施例三提供的一种图像处理方法中确定用户关键点信息的流程示意图；

图6为本发明实施例三提供的一种图像处理方法中确定关键点信息的原理示意图；

图7为本发明实施例三提供的一种图像处理方法中置信度特征图的高斯分布区域和零响应背景的位置示意图；

图8为本发明实施例四提供的一种图像处理装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。

本发明实施例提供的图像处理方法，可以通过拍摄的图像确定用户的姿态信息，并根据姿态信息启用相应的功能，本发明实施例提供的方法可以应用于任意电子设备，例如手机、相机、云台、无人机、无人车、AR(Augmented Reality，增强现实)设备、监控设备等。

下面结合附图，以所述电子设备为无人机为例，对本发明的一些实施方式作详细说明。在各实施例之间不冲突的情况下，下述的实施例或实施例中的特征可以相互组合。

实施例一

本发明实施例一提供一种图像处理方法。图1为本发明实施例一提供的一种图像处理方法的流程示意图。如图1所示，本实施例中的图像处理方法，可以包括：

步骤101、获取拍摄的视频流。

本实施例中方法的执行主体可以为无人机中的图像处理装置。所述无人机上可以设置有拍摄装置，本步骤中的获取拍摄的视频流，可以具体包括：获取无人机的拍摄装置拍摄的视频流。

步骤102、根据所述视频流中的至少一帧图像，确定姿态信息满足预设条件的目标。

所述拍摄装置拍摄的视频流可以包括多帧图像，从所述多帧图像中选择至少一帧图像，确定其中姿态信息满足预设条件的目标。

所述目标可以为人或者车等物体。若所述目标为人，则所述姿态信息可以包括但不限于：站立、行走、下蹲、卧倒等。若所述目标为车，则所述姿态信息可以包括但不限于：直行、左转、右转等。

步骤103、启用与所述预设条件对应的功能。

其中，本步骤中所启用的功能可以为无人机具有的任意功能，所述预设条件与启用的功能可以根据实际需要来设置。例如，所述姿态信息满足预设条件可以包括但不限于：出现预定姿态、维持预定姿态超过预设时间、由第一姿态转为第二姿态等中的任意一项或多项。启用的相应功能可以包括但不限于：起飞、降落、改变姿态、录音、录像、拍照、进入省电模式、关机等中的任意一项或多项。

在一个可选的实施方式中，所述无人机可以设置有音频播放装置，若检测到用户拍手，则可以开启自动播放音乐的功能。

在另一个可选的实施方式中，所述无人机可以用于对车辆进行跟踪，并根据车辆的姿态信息启动对应的功能，例如，若检测到所述车辆处于转弯状态，则可以升高无人机，以扩大视野，防止跟丢车辆。

本实施例提供的图像处理方法，可以获取拍摄的视频流，根据所述视频流中的至少一帧图像，确定姿态信息满足预设条件的目标，并启用与所述预设条件对应的功能，简化了使用相应功能所需的步骤，减少了花费的时间，提高了无人机的使用效率，为用户提供更完善的人机交互功能和更友好的人机交互体验，提高用户体验度。

实施例二

本发明实施例二提供一种图像处理方法。本实施例是在上述实施例提供的技术方案的基础上，在检测到用户挥手时自动进入跟随模式。

图2为本发明实施例二提供的一种图像处理方法的流程示意图。如图2所示，本实施例中的图像处理方法，可以包括：

步骤201、获取拍摄的视频流，所述视频流中的至少一帧图像用于确定用户的姿态信息。

本步骤中，将用于确定用户姿态信息的图像记为待处理的图像。

在一个可选的实施方式中，可以从所述视频流中选择一帧图像作为待处理的图像，简单、便于计算，能够有效提高用户姿态检测的效率。

在另一个可选的实施方式中，可以将所述视频流的连续多帧图像作为待处理的图像，能够有效提高用户姿态检测的准确性。

在又一个可选的实施方式中，可以从所述视频流中间隔选取多帧图像，例如，每隔1秒选取一帧图像，能够兼顾效率和准确率。

步骤202、针对所述至少一帧图像中的每一帧图像，确定所述图像中的至少一个用户的姿态信息。

可选的，可以通过样本对神经网络进行训练，利用训练后的神经网络对图像进行处理，得到对应的姿态信息。或者，也可以直接利用OpenPose、YOLO等算法检测图像中用户的姿态信息。

在待处理的图像只有一帧的情况下，通过步骤202可以得到所述图像中的至少一个用户的姿态信息。

在待处理的图像有多帧的情况下，通过步骤202可以得到多帧图像中的用户的姿态信息。有些用户可能只在一帧或者少数几帧图像中出现，但是依然可以检测这些用户的姿态信息。

步骤203、根据所确定的至少一个用户的姿态信息，确定待跟随的目标，其中，所述待跟随的目标为姿态信息满足预设条件的用户。

可选的，所述待跟随的目标可以为一个或者多个。在跟随多个目标的场景下，当多个目标分离时，可以停止跟随，也可以从中选择部分目标继续进行跟随。本实施例中，以待跟随的目标为一个为例来进行说明。

在一个可选的实施方式中，根据所确定的至少一个用户的姿态信息，确定待跟随的目标，可以包括：若有且仅有一个用户的姿态信息满足预设条件，则确定所述用户为待跟随的目标。

例如，所述预设条件可以为维持预设姿态超过预设时间。那么，若有且仅有一个用户维持预设姿态超过预设时间，则确定所述用户为待跟随的目标。

可选的，所述预设姿态可以为单手挥手姿态，所述预设时间可以为1秒。那么，只有当单个用户处于单手挥手状态的时间超过1秒时，才能成为待跟随的目标。若单人双手挥手、双手放低、单人单手举高时间不够长，或者多人同时单手挥手，都不能确定待跟随的目标。通过设置有且仅有一个用户满足预设条件时才能触发自动跟随功能，能够快速、准确地实现单人跟踪，避免跟错目标。

在另一个可选的实施方式中，根据所确定的至少一个用户的姿态信息，确定待跟随的目标，可以包括：若有多个用户的姿态信息满足预设条件，则确定所述多个用户中最先被检测到满足预设条件的用户为待跟随的目标。

例如，若有多个用户单手挥手的时间超过1秒，那么可以将最先检测到单手挥手超过1秒的用户作为待跟随的目标。通过将最先满足姿态条件的用户设置为待跟随的目标，能够有效避免其它用户的干扰，保证跟随顺利进行。

在另一个可选的实施方式中，根据所确定的至少一个用户的姿态信息，确定待跟随的目标，可以包括：若有多个用户的姿态信息满足预设条件，则确定所述多个用户中距离拍摄画面中心最近的用户为待跟随的目标。

例如，若有多个用户单手挥手的时间超过1秒，那么可以在单手挥手超过 1秒的用户中选择距离画面中心最近的用户作为待跟随的目标。通过在满足条件的多个用户中选择靠近画面中心的用户作为待跟随的目标，能够保证待跟随的目标最靠近画面中心，节约转向目标的时间，提高跟随的效率。

在另一个可选的实施方式中，根据所确定的至少一个用户的姿态信息，确定待跟随的目标，可以包括：若有多个用户的姿态信息满足预设条件且所述多个用户中包括预设用户，则确定所述预设用户为待跟随的目标。

例如，若有多个用户单手挥手的时间超过1秒，则可以对所述多个用户进行身份识别，如果其中包含了预设用户，则可以将所述预设用户作为待跟随的目标。

其中，所述身份识别可以通过人脸识别、虹膜识别等方式来实现。所述预设用户可以是之前设定的任意用户。例如，无人机的所有者可以将自己设置为预设用户，在有多人同时做出单手挥手的姿态时，无人机可以从中识别出所述所有者，并以其作为待跟随的目标。通过优先对预设用户进行跟随，可以有效满足用户的个性化需求。

步骤204、对所述目标进行跟随。

在确定待跟随的目标后，可以进入跟随模式，对所述目标进行跟随，从而实现通过单手挥手自动进入跟随模式。当然，除了单手挥手以外，也可以将其它姿态作为触发自动跟随的姿态，例如拍手、点头等。

可选的，对所述目标进行跟随，可以通过将无人机与目标之间的距离始终控制在预设范围内来实现。例如，目标向前走，则无人机也随之向前走，目标停止，则无人机也停止。具体的跟随策略可以根据实际需要来设置，本实施例对此不作限制。

本实施例提供的图像处理方法，通过获取拍摄的视频流，所述视频流中的至少一帧图像用于确定用户的姿态信息，针对所述至少一帧图像中的每一帧图像，确定所述图像中的至少一个用户的姿态信息，若有用户的姿态满足预设条件如出现单手挥手或其它姿态，则可以确定所述用户为待跟随的目标，并对所述目标进行跟随，能够有效实现通过单手挥手或其它姿态直接自动进入跟随模式，相比于通过手机连接无人机的遥控器、打开应用程序、点击一系列的按钮、选中跟随目标等一系列操作才能进入跟随模式的方案来说，简化了进入跟随模式所需的步骤，减少了花费的时间，提高了无人机自动跟随的效率，节约了无人机的电量，延长了无人机的使用时间。

实施例三

本发明实施例三提供一种图像处理方法。本实施例是在上述实施例提供的技术方案的基础上，通过先确定关键点再确定姿态信息的方法来实现对用户姿态的检测。

图3为本发明实施例三提供的一种图像处理方法的流程示意图。如图3所示，本实施例中的图像处理方法，可以包括：

步骤301、获取拍摄的视频流，所述视频流中的至少一帧图像用于确定用户的姿态信息。

本实施例中，步骤301的具体实现原理和方法可以参见前述实施例，此处不再赘述。

步骤302、针对所述至少一帧图像中的每一帧图像，根据所述图像确定待分析的至少一个用户。

本步骤中，可以通过多目标跟踪算法(Multi-Object Tracking，MOT)等方式来识别所述图像中的全部用户，所述待分析的至少一个用户可以是所述图像中检测到的全部或部分用户。

可选的，可以从所述全部用户中选择预设数量的用户作为所述待分析的至少一个用户，能够有效提高算法的效率，减轻设备的负担。所述预设数量可以根据实际需要来设置，例如可以为4。

具体地，若所述图像中的全部用户数量小于或等于预设数量，则将所述全部用户作为待分析的对象；若所述图像中的全部用户数量大于预设数量，则可以根据一定的条件对用户进行筛选。

在一个可选的实施方式中，可以选择靠近所述图像中心的预设数量的用户作为所述待分析的至少一个用户。

其中，所述图像中心可以是指图像的水平中线，也可以是指图像的竖直中线，或者，也可以是指图像的中心点。

在另一个可选的实施方式中，可以选择图像中最前景的预设数量的用户作为所述待分析的至少一个用户。其中，最前景的预设数量的用户可以是指与设备的距离最近的预设数量的用户。

例如，图像中检测出五个用户，其中四个与设备的距离大概在3米左右，另外一个的距离大概在10米左右，则可以选择前四个作为待分析的对象。距离的判断可以通过图像清晰度变化或者通过红外检测等方式实现。

通过在全部用户中选择满足一定条件的预设数量的用户，可以在提高效率的基础上避免图像中重要位置的用户被忽略，保证设备正常进入跟随模式。

步骤303、在所述每一帧图像中，针对所述待分析的至少一个用户中的每个用户，确定所述用户的关键点信息，并根据所述用户的关键点信息确定所述用户的姿态信息。

在确定待分析的至少一个用户后，可以检测其中每个用户的关键点信息，并根据关键点信息确定用户的姿态信息。

可选的，可以通过神经网络等深度学习算法来直接确定图像中的关键点信息。其中，所述用户的关键点信息可以包括所述用户的多个关键点的位置信息。所述位置信息可以具体为关键点所在的坐标。

可选的，所述多个关键点可以包括但不限于：鼻子、肩中部、右肩关节、右肘关节、右手、左肩关节、左肘关节、左手、右髋关节、右膝盖、右脚踝、左髋关节、左膝盖、左脚踝中的至少两项。

在确定用户的关键点信息后，可以根据所述用户的关键点信息确定所述用户的姿态信息。

在通过单手挥手进入跟随模式的场景下，若所述用户的任意一侧的肘关节高于同侧肩关节，且另一侧的肘关节低于同侧肩关节，则可以确定所述用户处于单手挥手姿态。通过两侧肩关节和肘关节的高度关系，可以快速、准确地确定用户是否处于单手挥手姿态。

图4为本发明实施例三提供的一种图像处理方法中单手挥手姿态的关键点位置示意图。如图4所示，黑色的圆点表示用户的关键点，其中，左侧的肘关节401高于同侧的肩关节402，并且，右侧的肘关节404低于同侧的肩关节403，因此可以判定用户处于单手挥手状态。

步骤304、根据所确定的至少一个用户的姿态信息，确定待跟随的目标，其中，所述待跟随的目标为姿态信息满足预设条件的用户。

步骤305、对所述目标进行跟随。

本实施例中，步骤304至步骤305的具体实现原理和过程可以参见前述实施例，此处不再赘述。

本实施例提供的图像处理方法，针对每一帧图像，可以根据所述图像确定待分析的至少一个用户，针对所述待分析的至少一个用户中的每个用户，确定所述用户的关键点信息，并根据所述用户的关键点信息确定所述用户的姿态信息，能够有效提高检测的效率，保证及时准确地启用相应的功能；并且，先确定关键点信息再确定对应的姿态信息，能够更全面地解析人体姿态，相比于根据神经网络直接输出姿态信息的方案来说，识别的准确性更高，更加灵活，并且，当需要更换需识别的动作类别时，无需对所有样本进行重新标注，节约了人工成本，减少需求变更时的开发量。

在上述实施例三提供的技术方案中，针对每一帧图像，在确定用户的关键点信息时，一种可选的实现方法是，可以直接根据整个图像，通过深度学习算法，确定所述图像中用户的关键点信息。另一种可选的实现方法是，可以先确定所述用户所在的感兴趣区域(Region Of Interest，ROI)图像，然后，根据神经网络确定所述ROI图像中的关键点信息。

图5为本发明实施例三提供的一种图像处理方法中确定用户关键点信息的流程示意图。针对图像中的每一个待分析的用户，都可以采用图5中的方法来确定其关键点信息。如图5所示，确定用户的关键点信息，可以包括：

步骤501、确定用户所在的ROI图像。

可选的，可以通过用户所在的边界框(bounding box)，对拍摄的图像进行裁剪，得到所述用户对应的ROI图像。

图6为本发明实施例三提供的一种图像处理方法中确定关键点信息的原理示意图。如图6所示，拍摄的图像可以为RGB图像，通过多目标跟踪算法或者其它算法，可以确定RGB图像中用户所在的bounding box，该bounding box的类别为人。bounding box的表现形式可以为边界框四个角的坐标信息，通过bounding box和RGB图像，可以确定用户对应的ROI图像。

如前所述，通过多目标跟踪算法等方法可以识别图像中的全部用户，并从中选择待分析的用户。具体地，通过多目标跟踪算法可以得到多个用户对应的bounding box，在bounding box的数量大于预设数量的时候，从中选择预设数量的bounding box，使用RGB图像以及所述预设数量的bounding box作为输入，可以得到相应的ROI图像。

例如，利用MOT算法，可以从RGB图像中确定5个用户的bounding box，从中可以选择4个用户的bounding box。根据所选择的4个bounding box，可以从GRB图像中裁剪出4个ROI图像，分别为4个用户对应的ROI图像。

步骤502、将所述ROI图像输入至神经网络，得到多个关键点对应的置信度特征图。

其中，任一关键点对应的置信度特征图包括各个像素点属于该关键点的概率。

在获取到每个用户的ROI图像后，可以将该用户的ROI图像输入到神经网络模型中，利用模型确定该用户对应的置信度特征图。本实施例中，所采用的模型可以为卷积神经网络(Convolutional Neural Networks,CNN)，具体可以为全卷积神经网络(Fully Convolutional Networks，FCN)。

本实施例中，针对神经网络的处理可以包括训练和检测两个阶段。训练阶段可以在检测阶段之前实现，或者，可以在任意两次检测之间对神经网络进行训练。在训练阶段，可以利用样本来训练神经网络，调整神经网络中的参数，使得输出结果与目标结果相近。在检测阶段，利用已经经过充分训练的神经网络参数，来对图像进行检测，输出置信度特征图。

下面先介绍神经网络模型的训练阶段。可选的，训练的过程可以包括：获取训练样本，所述训练样本包括样本图像及所述样本图像对应的置信度特征图；根据训练样本，对所述神经网络进行训练。通过将置信度特征图作为目标结果对神经网络进行训练，使得神经网络的输出结果接近目标结果，能够有效提高神经网络的抗干扰性，避免神经网络过拟合。

可选的，训练样本的获取过程可以包括：获取样本图像及所述样本图像中的关键点的位置信息；根据所述关键点的位置信息，确定所述样本图像对应的置信度特征图。其中，所述样本图像对应的置信度特征图中，距离所述关键点越近的像素点对应的概率越高。

所述样本图像可以为从数据库获取的任意图像中裁剪出的ROI图像，针对每个样本图像，利用人工标注的方法来确定该图像中的关键点的位置信息，根据关键点的位置信息，生成置信度特征图。

假设通过人工标注，确定图像中的肩关节所在的位置坐标为(50，50)，那么根据该位置信息可以生成肩关节对应的置信度特征图。生成置信度特征图的原理是，像素点越接近肩关节所在的真实位置，该像素点属于肩关节的概率越大，例如，坐标为(50，50)的像素点对应的概率最大，假设可以为0.8，坐标为(55，55)的像素点对应的概率应该大于坐标为(60，60)的像素点对应的概率，例如两者对应的概率可以分别为0.1和0.01，图像边缘的远离(50，50)的像素点属于肩关节的概率非常小，接近于0。

可选的，可以根据关键点的位置信息，通过二维高斯分布生成所述样本图像对应的置信度特征图。具体地，置信度特征图中，像素点的位置坐标，可以服从期望为关键点坐标、方差为D1的二维高斯分布；或者，像素点与标注的关键点之间的距离，可以服从期望为0、方差为D2的高斯分布。其中，方差D1、D2可以根据实际需要来设置。通过二维高斯分布确定样本图像对应的置信度特征图，能够有效模拟各个像素点属于关键点的概率，提高检测准确性。

可选的，置信度特征图也可以由高斯分布和零响应的背景组成。具体地，在关键点周围预设范围内，可以根据高斯分布确定各个像素点对应的概率，在预设范围之外，可以设置零响应的背景，简单来说，就是将预设范围之外的各个像素点对应的概率设置为0。

以所述关键点为肩关节为例，在肩关节所在位置的预设范围内，采用高斯分布生成各个像素点对应的概率，例如，所述预设范围可以为以肩关节为中心、半径为5的圆，当某一像素点与图像中肩关节所在的坐标点之间间隔5个像素点以上时，该像素点几乎不可能属于肩关节，对应的概率为0。

图7为本发明实施例三提供的一种图像处理方法中置信度特征图的高斯分布区域和零响应背景的位置示意图。如图7所示，置信度特征图中，中间的黑点表示人工标注的关键点，阴影部分表示高斯分布区域，该区域内每个像素点对应的概率通过高斯分布确定，阴影以外的区域为零响应背景区域，零响应背景区域内各个像素点对应的概率均为0。通过高斯分布和零响应背景组成置信度特征图，能够有效简化置信度特征图的生成过程，提高置信度特征图的生成效率和准确性。

除了高斯分布以外，也可以采用其它方法来根据标注的关键点的位置生成置信度特征图，只要满足像素点与关键点之间的距离越远，像素点属于该关键点的概率越低即可。

若所述样本图像中标注出了多个关键点，则可以针对每一个关键点生成一个置信度特征图。获取多个样本图像及对应的置信度特征图，对神经网络进行训练，神经网络被训练为根据图像确定其中的关键点对应的置信度特征图。

在训练完成后，可以根据训练得到的神经网络对实际拍摄的图像进行处理。如图6所示，将所述ROI图像输入至神经网络，可以得到多个关键点对应的置信度特征图。

步骤503、根据所述多个关键点对应的置信度特征图确定所述用户的关键点信息。

如图6所示，在确定多个关键点对应的置信度特征图后，可以根据置信度特征图确定多个关键点的位置信息。

例如，在确定目标的姿态信息时需要用到左右肩关节、左右肘关节共4个关键点，则将拍摄的图像输入神经网络，通过神经网络可以获取4个关键点对应的置信度特征图，根据4个置信度特征图可以分别确定4个关键点所在的位置。

可选的，本步骤中的根据所述多个关键点对应的置信度特征图确定所述用户的关键点信息，可以包括：在任一关键点对应的置信度特征图中，确定属于该关键点的概率最高的像素点；若所述概率最高的像素点对应的概率大于预设阈值，则所述用户的该关键点的位置信息为所述概率最高的像素点的位置信息。

例如，在肩关节对应的置信度特征图中，若概率最高的像素点的坐标位于(10，10)，其对应的概率为0.7，大于预设阈值，则该像素点属于肩关节的可信度足够高，那么可以认为肩关节的坐标为(10，10)。若概率最高的像素点对应的概率小于预设阈值，则说明全部像素点属于肩关节的概率都不够高，那么可以认为图中缺少肩关节。所述预设阈值可以根据实际需要来设置，例如可以为0.5。

在根据神经网络确定目标的关键点信息后，可以根据关键点信息确定对应的姿态信息。具体地，在获得关键点后，可以根据各个关键点之间形成的连接关系形成肢体，所形成的肢体可以作为姿态的判断依据。

图5提供的确定用户关键点信息的方法，可以通过置信度特征图确定关键点的位置，相比于直接以关键点坐标作为训练目标的方案来说，不容易发生过拟合，识别准确度较高，具有更强的抗干扰性，无需采集大量样本和标注相应数据，减少了人工标注的工作量；通过二维高斯分布，能够迅速、准确地确定所述样本图像对应的置信度特征图，使得训练过程更稳定，避免人工标注误差，具有抗干扰性，提高了关键点识别准确率。

在上述实施例提供的技术方案的基础上，可选的，所述神经网络输出的置信度特征图的像素点个数可以小于输入的ROI图像的像素点个数。

例如，ROI图像为h*w*3的RGB图像，h和w分别为输入的长和宽，神经网络输出h’*w’*k的置信度特征图，h’和w’分别为输出的长和宽，其中，h’＝0.25*h，w’＝0.25*w，k为关键点的类别数量，本实施例中，k＝4，分别为左右肩关节，左右肘关节。

假设输入的ROI图像有100*100个像素点，那么输出8个置信度特征图，每个置信度特征图包括25*25个像素点。在训练时，可以设置目标结果的尺寸为输入图像的1/4，就可以实现通过神经网络缩小图像的功能。

将输出的置信度特征图包含的像素点个数设置为小于输入的ROI图像的像素点个数，可以提高拍摄图像的处理效率，减少输出结果的占用空间，并且，由于人工标注关键点是存在一定误差的，通过减少输出图像的尺寸，可以在一定程度上避免误差，提高识别准确性。

实施例四

图8为本发明实施例四提供的一种图像处理装置的结构示意图。所述图像处理装置可以执行上述图1所对应的图像处理方法，参考附图8所示，所述图像处理装置可以包括：

存储器11，用于存储计算机程序；

处理器12，用于运行所述存储器中存储的计算机程序以实现：

获取拍摄的视频流；

启用与所述预设条件对应的功能。

可选的，该图像处理装置的结构中还可以包括通信接口13，用于与其他设备或通信网络通信。

在一个可实施的方式中，在启用与所述预设条件对应的功能时，所述处理器12具体用于：

对所述目标进行跟随。

在一个可实施的方式中，在根据所述视频流中的至少一帧图像，确定姿态信息满足预设条件的目标时，所述处理器12具体用于：

针对所述至少一帧图像中的每一帧图像，确定所述图像中的至少一个用户的姿态信息；

根据所确定的至少一个用户的姿态信息，确定待跟随的目标，其中，所述待跟随的目标为姿态信息满足预设条件的用户。

在一个可实施的方式中，在根据所述至少一个用户的姿态信息，确定待跟随的目标时，所述处理器12具体用于：

若有且仅有一个用户的姿态信息满足预设条件，则确定所述用户为待跟随的目标。

若有多个用户的姿态信息满足预设条件，则确定所述多个用户中最先被检测到满足预设条件的用户为待跟随的目标。

若有多个用户的姿态信息满足预设条件，则确定所述多个用户中距离拍摄画面中心最近的用户为待跟随的目标。

若有多个用户的姿态信息满足预设条件且所述多个用户中包括预设用户，则确定所述预设用户为待跟随的目标。

在一个可实施的方式中，在若有且仅有一个用户的姿态信息满足预设条件，则确定所述用户为待跟随的目标时，所述处理器12具体用于：

若有且仅有一个用户维持预设姿态超过预设时间，则确定所述用户为待跟随的目标。

在一个可实施的方式中，所述预设姿态为单手挥手姿态。

在一个可实施的方式中，在确定所述图像中的至少一个用户的姿态信息时，所述处理器12具体用于：

根据所述图像确定待分析的至少一个用户；

针对所述待分析的至少一个用户中的每个用户，确定所述用户的关键点信息，并根据所述用户的关键点信息确定所述用户的姿态信息，其中，所述用户的关键点信息包括所述用户的多个关键点的位置信息。

在一个可实施的方式中，在根据所述图像确定待分析的至少一个用户时，所述处理器12具体用于：

通过多目标跟踪算法识别所述图像中的全部用户；

从所述全部用户中选择预设数量的用户作为所述待分析的至少一个用户。

在一个可实施的方式中，在从所述全部用户中选择预设数量的用户作为所述待分析的至少一个用户时，所述处理器12具体用于：

若所述图像中的全部用户数量大于预设数量，则选择靠近所述图像中心的预设数量的用户作为所述待分析的至少一个用户。

在一个可实施的方式中，在确定所述用户的关键点信息时，所述处理器12具体用于：

确定所述用户所在的感兴趣区域ROI图像；

根据神经网络确定所述ROI图像中的关键点信息。

在一个可实施的方式中，在确定所述用户所在的感兴趣区域ROI图像时，所述处理器12具体用于：

通过根据多目标跟踪算法确定的所述用户所在的边界框，对拍摄的图像进行裁剪，得到所述用户对应的ROI图像。

在一个可实施的方式中，在根据神经网络确定所述ROI图像中的关键点信息时，所述处理器12具体用于：

将所述ROI图像输入至神经网络，得到多个关键点对应的置信度特征图，其中，任一关键点对应的置信度特征图包括各个像素点属于该关键点的概率；

根据所述多个关键点对应的置信度特征图确定所述用户的关键点信息。

在一个可实施的方式中，在根据所述多个关键点对应的置信度特征图确定所述用户的关键点信息时，所述处理器12具体用于：

在任一关键点对应的置信度特征图中，确定属于该关键点的概率最高的像素点；

若所述概率最高的像素点对应的概率大于预设阈值，则所述用户的该关键点的位置信息为所述概率最高的像素点的位置信息。

在一个可实施的方式中，在根据神经网络确定所述ROI图像中的关键点信息之前，所述处理器12还用于：

获取训练样本，所述训练样本包括样本图像及所述样本图像对应的置信度特征图；

根据训练样本，对所述神经网络进行训练。

在一个可实施的方式中，在获取训练样本时，所述处理器12具体用于：

获取样本图像及所述样本图像中的关键点的位置信息；

根据所述关键点的位置信息，确定所述样本图像对应的置信度特征图；

其中，所述样本图像对应的置信度特征图中，距离所述关键点越近的像素点对应的概率越高。

在一个可实施的方式中，在根据所述关键点的位置信息，确定所述样本图像对应的置信度特征图时，所述处理器12具体用于：

根据所述关键点的位置信息，通过二维高斯分布确定所述样本图像对应的置信度特征图。

在一个可实施的方式中，所述神经网络输出的置信度特征图的像素点个数小于所述ROI图像的像素点个数。

在一个可实施的方式中，在根据所述用户的关键点信息确定所述用户的姿态信息时，所述处理器12具体用于：

若所述用户的任意一侧的肘关节高于同侧肩关节，且另一侧的肘关节低于同侧肩关节，则确定所述用户处于单手挥手姿态。

图8所示图像处理装置可以执行图1-图7所示实施例的方法，本实施例未详细描述的部分，可参考对图1-图7所示实施例的相关说明。该技术方案的执行过程和技术效果参见图1-图7所示实施例中的描述，在此不再赘述。

本发明实施例还提供一种电子设备，包括上述任一实施例所述的图像处理装置。

可选的，所述电子设备为无人机或无人车。

可选的，所述电子设备还可以包括：

拍摄装置，用于将拍摄的视频流发送给所述处理器；

驱动装置，用于在所述处理器的控制下驱动所述电子设备对所述目标进行跟随。

所述驱动装置可以为电机等，通过驱动装置可以实现电子设备的移动，从而实现对目标的跟随。

本发明实施例提供的电子设备中各部件的结构、功能可以参见前述实施例，此处不再赘述。

另外，本发明实施例提供了一种存储介质，该存储介质为计算机可读存储介质，该计算机可读存储介质中存储有程序指令，程序指令用于实现上述图1-图7所示实施例中的图像处理方法。

以上各个实施例中的技术方案、技术特征在与本相冲突的情况下均可以单独，或者进行组合，只要未超出本领域技术人员的认知范围，均属于本申请保护范围内的等同实施例。

在本发明所提供的几个实施例中，应该理解到，所揭露的相关装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得计算机处理器(processor)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁盘或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

一种图像处理方法，其特征在于，包括：

获取拍摄的视频流；

根据所述视频流中的至少一帧图像，确定姿态信息满足预设条件的目标；

启用与所述预设条件对应的功能。
根据权利要求1所述的方法，其特征在于，启用与所述预设条件对应的功能，包括：

对所述目标进行跟随。
根据权利要求2所述的方法，其特征在于，根据所述视频流中的至少一帧图像，确定姿态信息满足预设条件的目标，包括：

针对所述至少一帧图像中的每一帧图像，确定所述图像中的至少一个用户的姿态信息；

根据所确定的至少一个用户的姿态信息，确定待跟随的目标，其中，所述待跟随的目标为姿态信息满足预设条件的用户。
根据权利要求3所述的方法，其特征在于，根据所述至少一个用户的姿态信息，确定待跟随的目标，包括：

若有且仅有一个用户的姿态信息满足预设条件，则确定所述用户为待跟随的目标。
根据权利要求3所述的方法，其特征在于，根据所述至少一个用户的姿态信息，确定待跟随的目标，包括：

若有多个用户的姿态信息满足预设条件，则确定所述多个用户中最先被检测到满足预设条件的用户为待跟随的目标。
根据权利要求3所述的方法，其特征在于，根据所述至少一个用户的姿态信息，确定待跟随的目标，包括：

若有多个用户的姿态信息满足预设条件，则确定所述多个用户中距离拍摄画面中心最近的用户为待跟随的目标。
根据权利要求3所述的方法，其特征在于，根据所述至少一个用户的姿态信息，确定待跟随的目标，包括：

若有多个用户的姿态信息满足预设条件且所述多个用户中包括预设用户，则确定所述预设用户为待跟随的目标。
根据权利要求4所述的方法，其特征在于，若有且仅有一个用户的姿态信息满足预设条件，则确定所述用户为待跟随的目标，包括：

若有且仅有一个用户维持预设姿态超过预设时间，则确定所述用户为待跟随的目标。
根据权利要求8所述的方法，其特征在于，所述预设姿态为单手挥手姿态。
根据权利要求3所述的方法，其特征在于，确定所述图像中的至少一个用户的姿态信息，包括：

根据所述图像确定待分析的至少一个用户；

针对所述待分析的至少一个用户中的每个用户，确定所述用户的关键点信息，并根据所述用户的关键点信息确定所述用户的姿态信息，其中，所述用户的关键点信息包括所述用户的多个关键点的位置信息。
根据权利要求10所述的方法，其特征在于，根据所述图像确定待分析的至少一个用户，包括：

通过多目标跟踪算法识别所述图像中的全部用户；

从所述全部用户中选择预设数量的用户作为所述待分析的至少一个用户。
根据权利要求11所述的方法，其特征在于，从所述全部用户中选择预设数量的用户作为所述待分析的至少一个用户，包括：

若所述图像中的全部用户数量大于预设数量，则选择靠近所述图像中心的预设数量的用户作为所述待分析的至少一个用户。
根据权利要求10所述的方法，其特征在于，确定所述用户的关键点信息，包括：

确定所述用户所在的感兴趣区域ROI图像；

根据神经网络确定所述ROI图像中的关键点信息。
根据权利要求13所述的方法，其特征在于，确定所述用户所在的感兴趣区域ROI图像，包括：

通过根据多目标跟踪算法确定的所述用户所在的边界框，对拍摄的图像进行裁剪，得到所述用户对应的ROI图像。
根据权利要求13所述的方法，其特征在于，根据神经网络确定所述ROI图像中的关键点信息，包括：

将所述ROI图像输入至神经网络，得到多个关键点对应的置信度特征图，其中，任一关键点对应的置信度特征图包括各个像素点属于该关键点的概率；

根据所述多个关键点对应的置信度特征图确定所述用户的关键点信息。
根据权利要求15所述的方法，其特征在于，根据所述多个关键点对应的置信度特征图确定所述用户的关键点信息，包括：

在任一关键点对应的置信度特征图中，确定属于该关键点的概率最高的像素点；

若所述概率最高的像素点对应的概率大于预设阈值，则所述用户的该关键点的位置信息为所述概率最高的像素点的位置信息。
根据权利要求13所述的方法，其特征在于，在根据神经网络确定所述ROI图像中的关键点信息之前，还包括：

获取训练样本，所述训练样本包括样本图像及所述样本图像对应的置信度特征图；

根据训练样本，对所述神经网络进行训练。
根据权利要求17所述的方法，其特征在于，获取训练样本，包括：

获取样本图像及所述样本图像中的关键点的位置信息；

根据所述关键点的位置信息，确定所述样本图像对应的置信度特征图；

其中，所述样本图像对应的置信度特征图中，距离所述关键点越近的像素点对应的概率越高。
根据权利要求18所述的方法，其特征在于，根据所述关键点的位置信息，确定所述样本图像对应的置信度特征图，包括：

根据所述关键点的位置信息，通过二维高斯分布确定所述样本图像对应的置信度特征图。
根据权利要求15所述的方法，其特征在于，所述神经网络输出的置信度特征图的像素点个数小于所述ROI图像的像素点个数。
根据权利要求10所述的方法，其特征在于，根据所述用户的关键点信息确定所述用户的姿态信息，包括：

若所述用户的任意一侧的肘关节高于同侧肩关节，且另一侧的肘关节低于同侧肩关节，则确定所述用户处于单手挥手姿态。
一种图像处理装置，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于运行所述存储器中存储的计算机程序以实现：

获取拍摄的视频流；

根据所述视频流中的至少一帧图像，确定姿态信息满足预设条件的目标；

启用与所述预设条件对应的功能。
根据权利要求22所述的装置，其特征在于，在启用与所述预设条件对应的功能时，所述处理器具体用于：

对所述目标进行跟随。
根据权利要求23所述的装置，其特征在于，在根据所述视频流中的至少一帧图像，确定姿态信息满足预设条件的目标时，所述处理器具体用于：

针对所述至少一帧图像中的每一帧图像，确定所述图像中的至少一个用户的姿态信息；

根据所确定的至少一个用户的姿态信息，确定待跟随的目标，其中，所述待跟随的目标为姿态信息满足预设条件的用户。
根据权利要求24所述的装置，其特征在于，在根据所述至少一个用户的姿态信息，确定待跟随的目标时，所述处理器具体用于：

若有且仅有一个用户的姿态信息满足预设条件，则确定所述用户为待跟随的目标。
根据权利要求24所述的装置，其特征在于，在根据所述至少一个用户的姿态信息，确定待跟随的目标时，所述处理器具体用于：

若有多个用户的姿态信息满足预设条件，则确定所述多个用户中最先被检测到满足预设条件的用户为待跟随的目标。
根据权利要求24所述的装置，其特征在于，在根据所述至少一个用户的姿态信息，确定待跟随的目标时，所述处理器具体用于：

若有多个用户的姿态信息满足预设条件，则确定所述多个用户中距离拍摄画面中心最近的用户为待跟随的目标。
根据权利要求24所述的装置，其特征在于，在根据所述至少一个用户的姿态信息，确定待跟随的目标时，所述处理器具体用于：

若有多个用户的姿态信息满足预设条件且所述多个用户中包括预设用户，则确定所述预设用户为待跟随的目标。
根据权利要求25所述的装置，其特征在于，在若有且仅有一个用户的姿态信息满足预设条件，则确定所述用户为待跟随的目标时，所述处理器具体用于：

若有且仅有一个用户维持预设姿态超过预设时间，则确定所述用户为待跟随的目标。
根据权利要求29所述的装置，其特征在于，所述预设姿态为单手挥手姿态。
根据权利要求24所述的装置，其特征在于，在确定所述图像中的至少一个用户的姿态信息时，所述处理器具体用于：

根据所述图像确定待分析的至少一个用户；

针对所述待分析的至少一个用户中的每个用户，确定所述用户的关键点信息，并根据所述用户的关键点信息确定所述用户的姿态信息，其中，所述用户的关键点信息包括所述用户的多个关键点的位置信息。
根据权利要求31所述的装置，其特征在于，在根据所述图像确定待分析的至少一个用户时，所述处理器具体用于：

通过多目标跟踪算法识别所述图像中的全部用户；

从所述全部用户中选择预设数量的用户作为所述待分析的至少一个用户。
根据权利要求32所述的装置，其特征在于，在从所述全部用户中选择预设数量的用户作为所述待分析的至少一个用户时，所述处理器具体用于：

若所述图像中的全部用户数量大于预设数量，则选择靠近所述图像中心的预设数量的用户作为所述待分析的至少一个用户。
根据权利要求31所述的装置，其特征在于，在确定所述用户的关键点信息时，所述处理器具体用于：

确定所述用户所在的感兴趣区域ROI图像；

根据神经网络确定所述ROI图像中的关键点信息。
根据权利要求34所述的装置，其特征在于，在确定所述用户所在的感兴趣区域ROI图像时，所述处理器具体用于：

通过根据多目标跟踪算法确定的所述用户所在的边界框，对拍摄的图像进行裁剪，得到所述用户对应的ROI图像。
根据权利要求34所述的装置，其特征在于，在根据神经网络确定所述ROI图像中的关键点信息时，所述处理器具体用于：

将所述ROI图像输入至神经网络，得到多个关键点对应的置信度特征图，其中，任一关键点对应的置信度特征图包括各个像素点属于该关键点的概率；

根据所述多个关键点对应的置信度特征图确定所述用户的关键点信息。
根据权利要求36所述的装置，其特征在于，在根据所述多个关键点对应的置信度特征图确定所述用户的关键点信息时，所述处理器具体用于：

在任一关键点对应的置信度特征图中，确定属于该关键点的概率最高的像素点；

若所述概率最高的像素点对应的概率大于预设阈值，则所述用户的该关键点的位置信息为所述概率最高的像素点的位置信息。
根据权利要求34所述的装置，其特征在于，在根据神经网络确定所述ROI图像中的关键点信息之前，所述处理器还用于：

获取训练样本，所述训练样本包括样本图像及所述样本图像对应的置信度特征图；

根据训练样本，对所述神经网络进行训练。
根据权利要求38所述的装置，其特征在于，在获取训练样本时，所述处理器具体用于：

获取样本图像及所述样本图像中的关键点的位置信息；

根据所述关键点的位置信息，确定所述样本图像对应的置信度特征图；

其中，所述样本图像对应的置信度特征图中，距离所述关键点越近的像素点对应的概率越高。
根据权利要求39所述的装置，其特征在于，在根据所述关键点的位置信息，确定所述样本图像对应的置信度特征图时，所述处理器具体用于：

根据所述关键点的位置信息，通过二维高斯分布确定所述样本图像对应的置信度特征图。
根据权利要求36所述的装置，其特征在于，所述神经网络输出的置信度特征图的像素点个数小于所述ROI图像的像素点个数。
根据权利要求31所述的装置，其特征在于，在根据所述用户的关键点信息确定所述用户的姿态信息时，所述处理器具体用于：

若所述用户的任意一侧的肘关节高于同侧肩关节，且另一侧的肘关节低于同侧肩关节，则确定所述用户处于单手挥手姿态。
一种电子设备，其特征在于，包括权利要求22-42任一项所述的图像处理装置。
根据权利要求43所述的设备，其特征在于，所述电子设备为无人机或无人车。
根据权利要求43所述的设备，其特征在于，所述电子设备还包括：

拍摄装置，用于将拍摄的视频流发送给所述处理器；

驱动装置，用于在所述处理器的控制下驱动所述电子设备对所述目标进行跟随。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有程序指令，所述程序指令用于实现权利要求1-21中任意一项所述的图像处理方法。