WO2022206680A1

WO2022206680A1 - 图像处理方法、装置、计算机设备和存储介质

Info

Publication number: WO2022206680A1
Application number: PCT/CN2022/083404
Authority: WO
Inventors: 张伟俊
Original assignee: 影石创新科技股份有限公司
Priority date: 2021-03-29
Filing date: 2022-03-28
Publication date: 2022-10-06
Also published as: CN113129229A

Abstract

本申请涉及一种图像处理方法、装置、计算机设备和存储介质，适用于计算机技术领域。所述方法包括：获取摄像模组对同一场景拍摄的多帧图像，利用目标检测模型对多帧图像进行目标检测，获得多帧图像中每一帧图像包括的目标物体；对每一帧图像包括的目标物体进行分类处理，确定每一帧图像包括的运动物体和静止物体；去除每一帧图像中的运动物体，获得每一帧图像对应的背景图像，对所有背景图像进行融合处理，生成目标背景图像；利用目标背景图像的目标区域覆盖多帧图像中一帧图像的目标区域，获得摄像模组的输出图像。采用本方法能够提高去除运动物体后的合成图像的图像质量。

Description

图像处理方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种图像处理方法、装置、计算机设备和存储介质。

背景技术

随着科学技术的不断发展，用于拍照的设备越来越多，诸如摄像机、照相机、智能手机、平板电脑等设备均可以用于拍照。然而，在用这些设备进行拍照时，通常会有一些行人、车辆、或者动物等其他物体进入拍摄的图像中，影响了图像的美观性。

为了解决上述问题，传统技术中，通常依靠不同帧图像中各个像素值的变化来识别运动物体，从而去除图像中的运动物体。

技术问题

然而，当运动物体运动不充分或者运动物体在单个地点停留时间过长时，物体在不同帧图像中的像素值不会有太大改变，从而使得识别出现误差。也就是说现有技术对运动物体的识别准确度不够，使得去除运动物体的合成图像中存在鬼影，图像质量不佳。

技术解决方案

基于此，有必要针对上述技术问题，提供一种图像处理方法、装置、计算机设备和存储介质，能够提高去除运动物体后的合成图像的图像质量。

第一方面，提供了一种图像处理方法，该方法包括：

获取摄像模组对同一场景拍摄的多帧图像，利用目标检测模型对多帧图像进行目标检测，获得多帧图像中每一帧图像包括的目标物体；对每一帧图像包括的目标物体进行分类处理，确定每一帧图像包括的运动物体和静止物体；去除每一帧图像中的运动物体，获得每一帧图像对应的背景图像，对所有背景图像进行融合处理，生成目标背景图像；利用目标背景图像的目标区域覆盖多帧图像中一帧图像的目标区域，获得摄像模组的输出图像；其中，目标区域为运动物体对应的区域。

在其中一个实施例中，利用目标背景图像的目标区域覆盖多帧图像中一帧图像的目标区域，获得摄像模组的输出图像，包括：确定每一帧图像中运动物体的像素数量；确定像素数量最少的一帧图像为参考图像；利用目标背景图像的目标区域覆盖参考图像的目标区域，获得摄像模组的输出图像。

在其中一个实施例中，对每一帧图像包括的目标物体进行分类处理，确定每一帧图像包括的运动物体和静止物体，包括：确定目标物体在每一帧图像中的位置；根据目标物体在每一帧图像中的位置，确定目标物体为运动物体或者静止物体。

在其中一个实施例中，根据目标物体在每一帧图像中的位置，确定目标物体为运动物体或者静止物体，包括：计算目标物体在多帧图像的任意两帧图像中位置偏差值，若最大的位置偏差值小于位置偏差阈值，则确定目标物体为静止物体，若目标物体在多帧图像的任意两帧图像中位置偏差值大于或等于位置偏差阈值，则确定目标物体为运动物体。

在其中一个实施例中，对每一帧图像包括的目标物体进行分类处理，确定每一帧图像包括的运动物体和静止物体，包括：确定每一帧图像在追踪位置的目标像素的数量，目标像素用于显示目标物体，追踪位置为多帧图像中任意一帧图像中目标物体的位置；根据每一帧图像在追踪位置的目标像素的数量，确定目标物体为运动物体或者静止物体。

在其中一个实施例中，根据每一帧图像在追踪位置的目标像素的数量，确定目标物体为运动物体或者静止物体，包括：计算多帧图像中任意两帧图像在追踪位置的目标像素的数量差；若最大的数量差小于像素数量阈值，则确定目标物体为静止物体；若任意两帧图像在追踪位置的目标像素的数量差大于或者等于像素数量阈值，则确定目标物体为运动物体。

在其中一个实施例中，去除每一帧图像中的运动物体，获得每一帧图像对应的背景图像，包括：将每一帧图像中的运动物体对应的像素标记为无效像素；根据每一帧图像中除无效像素外的其余像素生成每一帧图像对应的背景图像。

第二方面，提供了一种图像处理装置，上述图像处理装置包括：

获取模块，用于获取摄像模组对同一场景拍摄的多帧图像，利用目标检测模型对多帧图像进行目标检测，获得多帧图像中每一帧图像包括的目标物体；

确定模块，用于对每一帧图像包括的目标物体进行分类处理，确定每一帧图像包括的运动物体和静止物体；

去除模块，用于去除每一帧图像中的运动物体，获得每一帧图像对应的背景图像，对所有背景图像进行融合处理，生成目标背景图像；

覆盖模块，用于利用所述目标背景图像的目标区域覆盖所述多帧图像中一帧图像的目标区域，获得所述摄像模组的输出图像；其中，所述目标区域为所述运动物体对应的区域。

第三方面，提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面任一所述的方法。

第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述第一方面任一所述的方法。

技术效果

上述图像处理方法、装置、计算机设备和存储介质，获取摄像模组对同一场景拍摄的多帧图像，利用目标检测模型对多帧图像进行目标检测，获得多帧图像中每一帧图像包括的目标物体；对每一帧图像包括的目标物体进行分类处理，确定每一帧图像包括的运动物体和静止物体；去除每一帧图像中的运动物体，获得每一帧图像对应的背景图像，对所有背景图像进行融合处理，生成目标背景图像；利用目标背景图像的目标区域覆盖多帧图像中一帧图像的目标区域，获得摄像模组的输出图像。上述方法，通过目标检测模型可以准确识别出多帧图像中的前景物体(例如，可以是前文所述的目标物体)，提高了目标物体识别结果的准确性。通过对每一帧图像包括的目标物体进行分类处理，确定目标物体为运动物体还是静止物体，从而防止静止物体和运动物体识别错误。在保证查找到的运动物体的准确性的前提下，将多帧图像中的运动物体去除，生成背景图像。通过对多帧背景图像进行融合处理，生成目标背景图像，消除了目标背景图像中的鬼影，保证了目标背景图像的清晰度。最后，利用目标背景图像的目标区域覆盖多帧图像中一帧图像的目标区域，使得最终生成的输出图像中去除了运动物体，且输出图像中不存在鬼影，且保证了图像整体的清晰度，提高了图像质量。

附图说明

图1为一个实施例中图像处理方法的应用环境图；

图2为一个实施例中图像处理方法的流程示意图；

图3为一个实施例中图像处理方法中确定多帧图像中目标位置的示意图；

图4为一个实施例中图像处理方法利用目标背景图像的目标区域覆盖多帧图像中一帧图像的目标区域的示意图；

图5为一个实施例中图像处理步骤的流程示意图；

图6为另一个实施例中图像处理方法的流程示意图；

图7为另一个实施例中图像处理方法的流程示意图；

图8为一个实施例中图像处理方法中确定多帧图像中目标物体的示意图；

图9为另一个实施例中图像处理方法的流程示意图；

图10为另一个实施例中图像处理方法的流程示意图；

图11为另一个实施例中图像处理方法的流程示意图；

图12为另一个实施例中图像处理方法的流程示意图；

图13为一个实施例中图像处理装置的结构框图；

图14为一个实施例中图像处理装置的结构框图；

图15为一个实施例中图像处理装置的结构框图。

本发明的实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的图像处理方法，可以应用于如图1所示的计算机设备中。其中，该计算机设备可以是终端。其内部结构图可以如图1所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种图像处理方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图1中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在本申请一个实施例中，如图2所示，提供了一种图像处理方法，以该方法应用于图1中的终端为例进行说明，包括以下步骤：

步骤201，终端获取摄像模组对同一场景拍摄的多帧图像，利用目标检测模型对多帧图像进行目标检测，获得多帧图像中每一帧图像包括的目标物体。

具体地，用户可以将摄像模组所在设备放置在固定的位置，保持设备静止不动，使得摄像模组对同一场景拍摄多帧图像。其中，摄像模组对同一场景拍摄的多帧图像中的静止物体的相对位置不发生变化(例如，静止物体可以是建筑物、正在被拍照的人或者树木等)，运动物体的相对位置可以发生变化(例如，运动物体可以是突然闯入当前正在拍摄场景的人、动物或者车辆等)。应当理解，这里的同一场景，主要是针对静止物体而言的同一拍摄场景，即静止物体是最终想要得到的图像中的目标物体，而运动物体是误入这一拍摄场景中，是用户不想要的。上述通过固定摄像模组所在拍摄设备的方式可以得到同一场景的多帧图像，但拍摄得到同一场景多帧图像的方法并不仅限于此，本实施例对此不做具体限定。

可选的，终端或者拍摄设备在接收到用户输入的拍照指令后，可以控制摄像模组拍摄多帧连续图像。可选的，用户输入的拍照指令可以是用户按下快门按键，也可以是用户输入语音拍照口令，还可以是终端或者拍摄设备检测到用户的拍照手势，本申请实施例中对用户输入的拍照指令不做具体限定。

摄像模组对同一场景拍摄多帧图像以后，可以将多帧图像存储至存储设备中，终端可以从存储设备中获取到摄像模组对同一场景拍摄的多帧图像。终端可以将多帧图像输入至目标检测模型，利用目标检测模型对多帧图像中的特征进行提取，从而确定每一帧图像中的目标物体。其中，目标检测模型可以是基于手工特征的模型，例如DPM(Deformable Parts Model,可变形零件模型)，目标检测模型也可以是基于卷积神经网络的模型，例如YOLO(You Only Look Once，你只看一次)检测器、R-CNN，(Region-based Convolutional Neural Networks，基于区域的卷积神经网络)模型、SSD(Single Shot MultiBox，单发多框)检测器以及Mask R-CNN(Mask Region-based Convolutional Neural Networks，带掩码的基于区域的卷积神经网络)模型等。本申请实施例对于目标检测模型不做具体限定。

步骤202，终端对每一帧图像包括的目标物体进行分类处理，确定每一帧图像包括的运动物体和静止物体。

可选的，终端可以利用目标追踪算法对多帧图像中包括的同一个目标物体进行追踪，确定同一个目标物体在不同帧图像中的位置，判断同一个目标物体为运动物体还是静止物体，从而对每一帧图像中的运动物体和静止物体进行分类。

示例性的，在终端获取到的多帧图像中均包括目标物体A后，终端利用目标追踪算法分别识别出目标物体A在多帧图像中的位置，根据目标物体A在多帧图像中的位置，判断目标物体A为运动物体还是静止物体。

可选的，终端还可以利用目标追踪算法对多帧图像中的同一位置进行追踪，确定多帧图像中在这同一位置检测到目标物体的像素的数量，根据目标物体在多帧图像的同一位置显示的像素的数量判断目标物体为运动物体还是静止物体。

示例性的，如图3所示，终端根据目标追踪算法检测到目标物体B在第一帧图像中位置，将目标物体B在第一帧图像中的位置确定为目标位置。终端根据目标位置在第一帧图像中的位置，将其他多帧图像中的相同位置确定为目标位置。终端追踪在多帧图像的同一目标位置，目标物体B所占据的像素的数量，并根据目标物体B在多帧图像目标位置的像素的数量确定目标物体B为运动物体或静止物体。

步骤203，终端去除每一帧图像中的运动物体，获得每一帧图像对应的背景图像，对所有背景图像进行融合处理，生成目标背景图像。

具体地，终端在确定各个目标物体为静止物体或者运动物体之后，将每一帧图像中的运动物体所在目标矩形框内的像素标记为无效像素，获取到每一帧图像对应的背景图像，对所有背景图像进行融合处理，生成目标背景图像。

可选的，将每一帧图像中的运动物体所在目标矩形框内的像素标记为无效像素，获取到每一帧图像对应的背景图像之后，终端可以采用像素级图像融合方法对多帧背景图像进行融合处理，从而生成目标背景图像，其中，像素级图像融合方法可以是基于非多尺度变换的图像融合方法(例如：平均与加权平均法、逻辑滤波器法、数学形态法、图像代数法等)或者是基于多尺度变换的图像融合方法(例如：金字塔图像融合法、小波变换图像融合法、基于神经网络的图像融合法等)。在本申请实施例中，不对多帧背景图像的融合方法进行限定，采用像素级图像融合方法，可以保留更多的图像信息。

可选的，终端还可以利用背景建模的方法，对每一帧图像对应的背景图像进行融合处理。其中，背景建模的方法可以使用非递归背景建模方法，也可以使用递归背景建模方法，其中，非递归背景建模方法可以包括中值、均值模型，线性预测模型，非参数核密度估计等，递归背景建模方法可以包括近似中值滤波方法，单高斯模型方法，混合高斯模型方法等。

示例性的，本申请实施例以非递归背景建模方法中的中值模型建模方法为例进行详细介绍。假设有n帧图像。

以

表示图像集合，其中I ^k表示第k帧图像。

表示对图像集合中的每一帧图像中的各个像素进行标注后得到的掩码图集合，M ^k表示I ^k对应的掩码图。其中，掩码图集合中的每一帧掩码图中的运动物体对应的像素为无效像素，可以将无效像素标注为0，除运动物体以为的像素为有效像素，可以将各有效像素标注为1，从而生成对应的掩码图。可选的，M ^k中每一像素点的像素值的取值范围可以为{0，1}，其中，0代表无效像素，1代表有效像素。用p＝(x,y)表示图像中各个像素点的坐标位置，例如p＝(1,2)可以代表图像中第一行第二列的像素点的坐标位置。I ^k(p)和M ^k(p)分别表示I ^k和M ^k在坐标位置p对应像素点的像素值。用B和B(p)分别表示合成的目标背景图像和背景图像在坐标位置p对应像素点的像素值，则相应的计算公式为：

公式(1)中Median(*)表示对集合中的元素取中值操作。

利用计算出的每一帧背景图像中各个坐标位置p对应像素点的像素值B(p)以及根据p对应像素点的坐标位置，生成目标背景图像在坐标位置p对应像素点的像素值B，从而得到目标背景图像。

步骤204，终端利用目标背景图像的目标区域覆盖多帧图像中一帧图像的目标区域，获得摄像模组的输出图像。

其中，目标区域为运动物体对应的区域。

可选的，由于摄影模组在获取同一场景的多帧图像时，会存在人为误差或者设备误差，导致多帧图像中各个静止物体或者运动物体的位置存在些许偏差，从而使得经过融合处理后，生成的目标背景图像中的运动物体对应的边缘变得模糊，为了提高输出图像的清晰度。终端可以根据清晰度识别模型识别多帧图像的清晰度，从多帧图像中选择清晰度最高的一帧图像作为参考图像。终端识别参考图像中运动物体，并确定运动物体对应的区域。终端根据参考图像中运动物体对应的区域，确定在目标背景图像中运动物体对应的区域。终端提取目标背景图像中运动物体对应的区域，并将目标背景图像中运动物体对应的区域覆盖至参考图像中运动物体对应的区域，从而获得所述摄像模组的输出图像。

示例性的，如图4所示，图4中的图A为多帧图像中任选一帧的图像，图B为目标背景图像，图C为摄像模组的输出图像。终端识别图A中的运动物体(1)和(2)对应的区域，并根据图A中的运动物体(1)和(2)对应的区域确定在目标背景图像中运动物体(1)和(2)对应的区域。终端将目标背景图像中运动物体(1)和(2)对应的区域进行提取复制到图A中的运动物体(1)和(2)对应的区域，从而生成图C，即摄像模组的输出图像。

可选的，终端还可以识别多帧图像中的运动问题，并计算多帧图像中的每帧图像中的运动物体的数量，并包括的运动物体数量最少的一帧图像作为参考图像。终端根据参考图像中运动物体对应的区域，确定在目标背景图像中运动物体对应的区域。终端提取目标背景图像中运动物体对应的区域，并将目标背景图像中运动物体对应的区域覆盖至参考图像中运动物体对应的区域，从而获得所述摄像模组的输出图像。

上述图像处理方法中，获取摄像模组对同一场景拍摄的多帧图像，利用目标检测模型对多帧图像进行目标检测，获得多帧图像中每一帧图像包括的目标物体；对每一帧图像包括的目标物体进行分类处理，确定每一帧图像包括的运动物体和静止物体；去除每一帧图像中的运动物体，获得每一帧图像对应的背景图像，对所有背景图像进行融合处理，生成目标背景图像；利用目标背景图像的目标区域覆盖所述多帧图像中一帧图像的目标区域，获得所述摄像模组的输出图像。上述方法，通过目标检测模型可以准确识别出多帧图像中的目标物体，提高了目标物体识别结果的准确性。通过对每一帧图像包括的目标物体进行分类处理，确定目标物体为运动物体还是静止物体，从而防止静止物体和运动物体识别错误。在保证查找到的运动物体的准确性的前提下，将多帧图像中的运动物体去除，生成背景图像。通过对多帧背景图像进行融合处理，生成目标背景图像，消除了目标背景图像中的鬼影，保证了目标背景图像的清晰度。最后，利用目标背景图像的目标区域覆盖多帧图像中一帧图像的目标区域，使得最终生成的输出图像中去除了运动物体，且输出图像中不存在鬼影，且保证了输出图像的清晰度，提高了图像质量。

在本申请一种可选的实现方式中，如图5所示，上述步骤204中的“终端利用目标背景图像的目标区域覆盖多帧图像中一帧图像的目标区域，获得摄像模组的输出图像”，可以包括以下步骤：

步骤501，终端确定每一帧图像中运动物体的像素数量。

具体地，终端可以根据目标追踪算法确定多帧图像中的运动物体，并根据识别到的多帧图像中的运动物体，确定每一帧图像中运动物体在整个图像中占据的像素的数量。

步骤502，终端确定像素数量最少的一帧图像为参考图像。

具体地，终端在识别完多帧图像中的运动物体，并确定运动物体在每帧图像中占据的像素的数量以后，终端可以根据运动物体在每帧图像中占据的像素的数量对多帧图像进行排序，从中选择运动物体占据像素数量最少的一帧图像作为参考图像。

步骤503，终端利用目标背景图像的目标区域覆盖参考图像的目标区域，获得摄像模组的输出图像。

具体地，终端可以根据运动物体在参考图像中的位置确定参考图像中的目标区域，即运行物体对应的区域，并根据参考图像中的目标区域，将目标背景图像中对应的相同位置也确定为目标区域。终端可以将目标背景图像中的目标区域进行提取，将提取出的目标背景图像中的目标区域覆盖在参考图像中的目标区域，从而生成摄像模组的输出图像。

可选的，终端在将提取出的目标背景图像中的目标区域覆盖在参考图像中的目标区域时，可以采用泊松融合、多波段融合等经典技术，从而使得输出图像在目标区域的边界上过渡更加自然。

在本申请实施例中，终端识别多帧图像中的运动物体，并确定多帧图像中运动物体占像素数量最少的一帧图像为参考图像。终端利用目标背景图像的目标区域覆盖参考图像的目标区域，获得摄像模组的输出图像。从而可以保证参考图像中被覆盖的像素的数量最小，且输出图像整体更加清晰，提高了输出图像的图像质量。

在本申请一种可选的实现方式中，如图6所示，上述步骤202“对每一帧图像包括的目标物体进行分类处理，确定每一帧图像包括的运动物体和静止物体”，可以包括以下步骤：

步骤601，终端确定目标物体在每一帧图像中的位置。

具体地，终端根据目标检测模型识别结果，确定目标物体。针对多帧图像中的同一个目标物体，终端分别确定同一个目标物体在每一帧图像中的位置。

步骤602，终端根据目标物体在每一帧图像中的位置，确定目标物体为运动物体或者静止物体。

具体地，终端在每一帧图像中对同一个目标物体对应的位置进行标注。终端对比目标物体在每一帧图像中的位置是否发生变化，并对比检测结果判断目标物体为运动物体还是静止物体。

示例性的，终端根据目标检测模型识别结果，在每一帧图像中均识别出相同的目标物体C。终端根据识别结果，分别对每一帧图像中的目标物体C对应的位置进行标注，可选的，终端可以在每一帧图像中利用框图框出目标物体。终端对比每帧图像中针对目标物体C的位置标记是否发生变化，并根据对比结果判断目标物体为运动物体还是静止物体。

本申请实施例中，通过终端确定目标物体在每一帧图像中的位置，根据目标物体在每一帧图像中的位置，确定目标物体为运动物体或者静止物体。从而能够准确地确定目标物体为运动物体还是静止物体，避免了因为运动物体检测错误，造成输出图像的错误，从而保证了去除运动物体的输出图像的质量。

在本申请一种可选的实现方式中，如图7所示，上述步骤602“终端根据目标物体在每一帧图像中的位置，确定目标物体为运动物体或者静止物体”，可以包括以下步骤：

步骤701，终端计算目标物体在多帧图像的任意两帧图像中位置偏差值。若最大的位置偏差值小于位置偏差阈值，则执行步骤702；若目标物体在多帧图像的任意两帧图像中位置偏差值大于或等于位置偏差阈值，则执行步骤703。

步骤702，终端确定目标物体为静止物体。

步骤703，终端确定目标物体为运动物体。

具体地，终端在对每帧图像中的同一目标物体对应的像素位置进行标注之后，可以确定同一目标物体在每一帧图像中的位置。终端可以比较任意两帧图像中同一目标物体对应的位置，并对任意两帧图像中同一目标物体对应的位置进行求差计算，得到任意两帧图像中目标物体的位置偏差值。终端可以对任意两帧图像中目标物体的位置偏差值进行对比，从而确定最大的位置偏差值。

终端在确定了任意两帧图像中目标物体的最大的位置偏差值后，将最大的位置偏差值与位置偏差阈值进行对比，若最大的位置偏差值小于位置偏差阈值，则说明目标物体在多帧图像中的位置偏差较小，则终端确定目标物体为静止物体。若最大的位置偏差值大于或者等于位置偏差阈值，则说明目标物体在多帧图像中的位置偏差较大，则终端确定目标物体为运动物体。

示例性的，如图8所示，在每帧图像中针对目标物体D进行位置标注之后，终端计算任意两帧图像中目标位置D的对应的位置偏差。假设有5帧图像，则终端分别计算第一帧图像中目标物体D对应的位置与第二帧图像中目标物体D对应的位置之间的位置偏差，以及第一帧图像中目标物体D对应的位置与第三帧图像中目标物体D对应的位置之间的位置偏差，依次类推，分别计算任意两帧图像中目标物体D对应的位置偏差。终端对得到的多个位置偏差进行对比，从中确定出最大的位置偏差。若最大的位置偏差为5个像素距离，而位置偏差阈值为10个像素距离。终端对比最大的位置偏差与位置偏差阈值，对比结果为最大的位置偏差小于位置偏差阈值，终端确定目标物体为静止物体。若存在任意两帧图像中目标物体D的位置偏差为15个像素距离，而位置偏差阈值为10个像素距离。终端对比最大的位置偏差与位置偏差阈值，对比结果为最大的位置偏差大于位置偏差阈值，终端确定目标物体为运动物体。

在本申请实施例中，终端计算目标物体在多帧图像的任意两帧图像中位置偏差值。若最大的位置偏差值小于位置偏差阈值，则终端确定目标物体为静止物体；若最大的位置偏差值大于或等于位置偏差阈值，则终端确定目标物体为运动物体。上述方法，终端通过对比目标物体在多帧图像的任意两帧图像中最大的位置偏差值与位置偏差阈值的关系，从而可以准确有效地确定目标物体是运动物体还是静止物体，避免了因为运动物体检测错误，造成输出图像的错误，从而保证了去除运动物体的输出图像的质量。

在本申请一种可选的实现方式中，如图9所示，上述步骤202“终端根据目标物体在每一帧图像中的位置，确定目标物体为运动物体或者静止物体”，还可以包括以下步骤：

步骤901，终端确定每一帧图像在追踪位置的目标像素的数量。

其中，目标像素用于显示目标物体，追踪位置为多帧图像中任意一帧图像中目标物体的位置。

具体地，终端可以将目标物体在任意一帧图像中的位置确定为追踪位置，并根据当前帧中的追踪位置确定其他帧对应的相同位置也为追踪位置，从而保证多帧图像中的追踪位置相同，追踪位置可以或多或少的展示目标物体。

终端在确定了每一帧图像中的追踪位置之后，可以计算每一帧图像在追踪位置的目标像素的数量。其中，目标像素用于显示目标物体。也就是说，终端可以计算每一帧图像在追踪位置中显示目标物体的像素的数量。

步骤902，终端根据每一帧图像在追踪位置的目标像素的数量，确定目标物体为运动物体或者静止物体。

具体地，终端可以对比任意两帧图像在追踪位置的目标像素的数量，并根据对比的结果，确定目标物体为运动物体或者静止物体。

在本申请实施例中，终端确定每一帧图像在追踪位置的目标像素的数量，并根据每一帧图像在追踪位置的目标像素的数量，确定目标物体为运动物体或者静止物体。使用上述方法，终端能够准确地确定目标物体为运动物体还是静止物体，避免了因为运动物体检测错误，造成输出图像的错误，从而保证了去除运动物体的输出图像的质量。

在本申请一种可选的实现方式中，如图10所示，上述步骤902“终端根据每一帧图像在追踪位置的目标像素的数量，确定目标物体为运动物体或者静止物体”，可以包括以下步骤：

步骤1001，终端计算多帧图像中任意两帧图像在追踪位置的目标像素的数量差。

具体地，在确定每一帧图像在追踪位置的目标像素的数量之后，终端可以分别计算任意两帧图像在追踪位置的目标像素的数量差。

示例性的，假设有5帧图像，第一帧图像在追踪位置的目标像素的数量为108个；第二帧图像在追踪位置的目标像素的数量为111个；第三帧图像在追踪位置的目标像素的数量为100个；第四帧图像在追踪位置的目标像素的数量为104个；第五帧图像在追踪位置的目标像素的数量为113个。终端分别计算任意两帧图像在追踪位置的目标像素的数量差。

步骤1002，若最大的数量差小于像素数量阈值，则终端确定目标物体为静止物体。

具体地，终端在分别计算任意两帧图像在追踪位置的目标像素的数量差。对计算得到的多个目标像素的数量差进行排序，并从中选择出最大的数量差。终端将最大的数量差与像素数量阈值进行对比，若最大的数量差小于像素数量阈值，说明目标物体没有动，则终端确定目标物体为静止物体。

示例性的，最大的数量差为9，而像素数量阈值为15，终端对比最大的数量差和像素数量阈值之间的关系，确定最大的数量差小于像素数量阈值，终端确定目标物体为静止。

步骤1003，若任意两帧图像在追踪位置的目标像素的数量差大于或者等于像素数量阈值，则终端确定目标物体为运动物体。

具体地，终端每次计算完任意两帧图像在追踪位置的目标像素的数量差，均可以将最后一次计算得到的目标像素的数量差与像素数量阈值进行对比，在第一次发现目标像素的数量差大于或者等于像素数量阈值后，终端确定目标物体为运动物体，并且终端将不再计算剩余的任意两帧图像在追踪位置的目标像素的数量差。

示例性的，终端在计算完第一帧图像与第二帧图像在追踪位置的目标像素的数量差之后，确定第一帧图像与第二帧图像在追踪位置的目标像素的数量差为20，而像素数量阈值为15，第一帧图像与第二帧图像在追踪位置的目标像素的数量差大于像素数量阈值，终端确定目标物体为运动物体，并且终端将不再计算剩余的任意两帧图像在追踪位置的目标像素的数量差。

在本申请实施例中，终端计算多帧图像中任意两帧图像在追踪位置的目标像素的数量差，若最大的数量差小于像素数量阈值，则终端确定目标物体为静止物体；若任意两帧图像在追踪位置的目标像素的数量差大于或者等于像素数量阈值，则终端确定目标物体为运动物体。上述方法，终端通过对比多帧图像中任意两帧图像在追踪位置的目标像素的数量差与像素数量阈值之间的大小，从而可以准确有效地确定目标物体是运动物体还是静止物体，避免了因为运动物体检测错误，造成输出图像的错误，从而保证了去除运动物体的输出图像的质量。

在本申请一种可选的实现方式中，如图11所示，上述步骤203中的“去除每一帧图像中的运动物体，获得每一帧图像对应的背景图像”可以包括以下步骤：

步骤1101，终端将每一帧图像中的运动物体对应的像素标记为无效像素。

具体地，在确定各个目标物体为静止物体或者运动物体之后，终端可以使用目标分割算法对每一帧图像中的运动物体进行目标分割，从而得到多帧图像对应的更精确的掩码图像。终端可以将每一帧图像对应的掩码图像表示为二值图像。可选的，运动物体对应的像素位置可以是0，其他像素位置可以为1。其中，像素位置为1表示像素有效，像素位置为0，则表示像素无效，从而实现将每一帧图像中的运动物体对应的像素标记为无效像素。

步骤1102，终端根据每一帧图像中除无效像素外的其余像素生成每一帧图像对应的背景图像。

具体地，终端将每一帧图像中的运动物体标记为无效像素之后，可以确定根据无效像素以外的其他像素，生成每一帧图像对应的背景图像。

在本申请实施例中，终端将每一帧图像中的运动物体对应的像素标记为无效像素，并据每一帧图像中除无效像素外的其余像素生成每一帧图像对应的背景图像，从而可以消除确定每一帧图像中的背景图像，使得背景图像中没有运动物体。

为了更好的说明本申请实施例中介绍的图像处理方法，如图12所示，其示出了图像处理方法的一种可选的操作流程。

步骤1201，终端获取摄像模组对同一场景拍摄的多帧图像，利用目标检测模型对多帧图像进行目标检测，获得多帧图像中每一帧图像包括的目标物体，执行步骤1202或者步骤1206。

步骤1202，终端确定目标物体在每一帧图像中的位置。

步骤1203，终端计算目标物体在多帧图像的任意两帧图像中位置偏差值，若最大的位置偏差值小于位置偏差阈值，则执行步骤1204；若目标物体在多帧图像的任意两帧图像中位置偏差值大于或等于位置偏差阈值，则执行步骤1205。

步骤1204，终端确定目标物体为静止物体。

步骤1205，终端确定目标物体为运动物体，执行步骤1210。

步骤1206，终端确定每一帧图像在追踪位置的目标像素的数量。

步骤1207，终端计算多帧图像中任意两帧图像在追踪位置的目标像素的数量差。若最大的数量差小于像素数量阈值，执行步骤1208；若任意两帧图像在追踪位置的目标像素的数量差大于或者等于像素数量阈值，则执行步骤1209。

步骤1208，终端确定目标物体为静止物体。

步骤1209，终端确定目标物体为运动物体，执行步骤1210。

步骤1210，终端将每一帧图像中的运动物体对应的像素标记为无效像素。

步骤1211，终端根据每一帧图像中除无效像素外的其余像素生成每一帧图像对应的背景图像。

步骤1212，终端对所有背景图像进行融合处理，生成目标背景图像。

步骤1213，终端确定每一帧图像中所述运动物体的像素数量。

步骤1214，终端确定像素数量最少的一帧图像为参考图像。

步骤1215，终端利用目标背景图像的目标区域覆盖参考图像的目标区域，获得摄像模组的输出图像。

应该理解的是，虽然图2、图5-7以及图9-12的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，2、图5-7以及图9-12中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在本申请一个实施例中，如图13所示，提供了一种图像处理装置1300，包括：获取模块1310、确定模块1320、去除模块1330和覆盖模块1340，其中：

获取模块1310，用于获取摄像模组对同一场景拍摄的多帧图像，利用目标检测模型对多帧图像进行目标检测，获得多帧图像中每一帧图像包括的目标物体；

确定模块1320，用于对每一帧图像包括的目标物体进行分类处理，确定每一帧图像包括的运动物体和静止物体；

去除模块1330，用于去除每一帧图像中的运动物体，获得每一帧图像对应的背景图像，对所有背景图像进行融合处理，生成目标背景图像；

覆盖模块1340，用于利用目标背景图像的目标区域覆盖多帧图像中一帧图像的目标区域，获得摄像模组的输出图像；其中，目标区域为运动物体对应的区域。

在本申请一个实施例中，上述覆盖模块1340，具体用于确定每一帧图像中运动物体的像素数量；确定像素数量最少的一帧图像为参考图像；利用目标背景图像的目标区域覆盖参考图像的目标区域，获得摄像模组的输出图像。

在本申请一个实施例中，如图14所示，上述确定模块1320，包括：第一确定单元1321和第二确定单元1322，其中：

第一确定单元1321，用于确定目标物体在每一帧图像中的位置。

第二确定单元1322，用于根据目标物体在每一帧图像中的位置，确定目标物体为运动物体或者静止物体。

在本申请一个实施例中，上述第二确定单元1322，具体用于计算目标物体在多帧图像的任意两帧图像中位置偏差值，若最大的位置偏差值小于位置偏差阈值，则确定目标物体为静止物体，若目标物体在多帧图像的任意两帧图像中位置偏差值大于或等于位置偏差阈值，则确定目标物体为运动物体。

在本申请一个实施例中，如图15所示，上述确定模块1320，还包括：第三确定单元1323和第四确定单元1324，其中：

第三确定单元1323，用于确定每一帧图像在追踪位置的目标像素的数量，目标像素用于显示目标物体，追踪位置为多帧图像中任意一帧图像中目标物体的位置。

第四确定单元1324，用于根据每一帧图像在追踪位置的目标像素的数量，确定目标物体为运动物体或者静止物体。

在本申请一个实施例中，上述第四确定单元1324，具体用于计算多帧图像中任意两帧图像在追踪位置的目标像素的数量差；若最大的数量差小于像素数量阈值，则确定目标物体为静止物体；若任意两帧图像在追踪位置的目标像素的数量差大于或者等于像素数量阈值，则确定目标物体为运动物体。

在本申请一个实施例中，上述去除模块1330，具体用于将每一帧图像中的运动物体对应的像素标记为无效像素；根据每一帧图像中除无效像素外的其余像素生成每一帧图像对应的背景图像。

关于图像处理装置的具体限定可以参见上文中对于图像处理方法的限定，在此不再赘述。上述图像处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在本申请一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：获取摄像模组对同一场景拍摄的多帧图像，利用目标检测模型对多帧图像进行目标检测，获得多帧图像中每一帧图像包括的目标物体；对每一帧图像包括的目标物体进行分类处理，确定每一帧图像包括的运动物体和静止物体；去除每一帧图像中的运动物体，获得每一帧图像对应的背景图像，对所有背景图像进行融合处理，生成目标背景图像；利用目标背景图像的目标区域覆盖多帧图像中一帧图像的目标区域，获得摄像模组的输出图像；其中，目标区域为运动物体对应的区域。

在本申请一个实施例中，处理器执行计算机程序时还实现以下步骤：确定每一帧图像中运动物体的像素数量；确定像素数量最少的一帧图像为参考图像；利用目标背景图像的目标区域覆盖参考图像的目标区域，获得摄像模组的输出图像。

在本申请一个实施例中，处理器执行计算机程序时还实现以下步骤：确定目标物体在每一帧图像中的位置；根据目标物体在每一帧图像中的位置，确定目标物体为运动物体或者静止物体。

在本申请一个实施例中，处理器执行计算机程序时还实现以下步骤：计算目标物体在多帧图像的任意两帧图像中位置偏差值，若最大的位置偏差值小于位置偏差阈值，则确定目标物体为静止物体，若目标物体在多帧图像的任意两帧图像中位置偏差值大于或等于位置偏差阈值，则确定目标物体为运动物体。

在本申请一个实施例中，处理器执行计算机程序时还实现以下步骤：确定每一帧图像在追踪位置的目标像素的数量，目标像素用于显示目标物体，追踪位置为多帧图像中任意一帧图像中目标物体的位置；根据每一帧图像在追踪位置的目标像素的数量，确定目标物体为运动物体或者静止物体。

在本申请一个实施例中，处理器执行计算机程序时还实现以下步骤：计算多帧图像中任意两帧图像在追踪位置的目标像素的数量差；若最大的数量差小于像素数量阈值，则确定目标物体为静止物体；若任意两帧图像在追踪位置的目标像素的数量差大于或者等于像素数量阈值，则确定目标物体为运动物体。

在本申请一个实施例中，处理器执行计算机程序时还实现以下步骤：将每一帧图像中的运动物体对应的像素标记为无效像素；根据每一帧图像中除无效像素外的其余像素生成每一帧图像对应的背景图像。

在本申请一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：获取摄像模组对同一场景拍摄的多帧图像，利用目标检测模型对多帧图像进行目标检测，获得多帧图像中每一帧图像包括的目标物体；对每一帧图像包括的目标物体进行分类处理，确定每一帧图像包括的运动物体和静止物体；去除每一帧图像中的运动物体，获得每一帧图像对应的背景图像，对所有背景图像进行融合处理，生成目标背景图像；利用目标背景图像的目标区域覆盖多帧图像中一帧图像的目标区域，获得摄像模组的输出图像；其中，目标区域为运动物体对应的区域。

在本申请一个实施例中，计算机程序被处理器执行时还实现以下步骤：确定每一帧图像中运动物体的像素数量；确定像素数量最少的一帧图像为参考图像；利用目标背景图像的目标区域覆盖参考图像的目标区域，获得摄像模组的输出图像。

在本申请一个实施例中，计算机程序被处理器执行时还实现以下步骤：确定目标物体在每一帧图像中的位置；根据目标物体在每一帧图像中的位置，确定目标物体为运动物体或者静止物体。

在本申请一个实施例中，计算机程序被处理器执行时还实现以下步骤：计算目标物体在多帧图像的任意两帧图像中位置偏差值，若最大的位置偏差值小于位置偏差阈值，则确定目标物体为静止物体，若目标物体在多帧图像的任意两帧图像中位置偏差值大于或等于位置偏差阈值，则确定目标物体为运动物体。

在本申请一个实施例中，计算机程序被处理器执行时还实现以下步骤：确定每一帧图像在追踪位置的目标像素的数量，目标像素用于显示目标物体，追踪位置为多帧图像中任意一帧图像中目标物体的位置；根据每一帧图像在追踪位置的目标像素的数量，确定目标物体为运动物体或者静止物体。

在本申请一个实施例中，计算机程序被处理器执行时还实现以下步骤：计算多帧图像中任意两帧图像在追踪位置的目标像素的数量差；若最大的数量差小于像素数量阈值，则确定目标物体为静止物体；若任意两帧图像在追踪位置的目标像素的数量差大于或者等于像素数量阈值，则确定目标物体为运动物体。

在本申请一个实施例中，计算机程序被处理器执行时还实现以下步骤：将每一帧图像中的运动物体对应的像素标记为无效像素；根据每一帧图像中除无效像素外的其余像素生成每一帧图像对应的背景图像。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

一种图像处理方法，其特征在于，所述方法包括：

获取摄像模组对同一场景拍摄的多帧图像，利用目标检测模型对所述多帧图像进行目标检测，获得所述多帧图像中每一帧图像包括的目标物体；

对所述每一帧图像包括的所述目标物体进行分类处理，确定所述每一帧图像包括的运动物体和静止物体；

去除所述每一帧图像中的运动物体，获得所述每一帧图像对应的背景图像，对所有背景图像进行融合处理，生成目标背景图像；

利用所述目标背景图像的目标区域覆盖所述多帧图像中一帧图像的目标区域，获得所述摄像模组的输出图像；其中，所述目标区域为所述运动物体对应的区域。
根据权利要求1所述的方法，其特征在于，所述利用所述目标背景图像的目标区域覆盖所述多帧图像中一帧图像的目标区域，获得所述摄像模组的输出图像，包括：

确定所述每一帧图像中所述运动物体的像素数量；

确定所述像素数量最少的一帧图像为参考图像；

利用所述目标背景图像的目标区域覆盖所述参考图像的目标区域，获得所述摄像模组的输出图像。
根据权利要求1所述的方法，其特征在于，所述对所述每一帧图像包括的所述目标物体进行分类处理，确定所述每一帧图像包括的运动物体和静止物体，包括：

确定所述目标物体在所述每一帧图像中的位置；

根据所述目标物体在所述每一帧图像中的位置，确定所述目标物体为运动物体或者静止物体。
根据权利要求3所述的方法，其特征在于，所述根据所述目标物体在所述每一帧图像中的位置，确定所述目标物体为运动物体或者静止物体，包括：

计算所述目标物体在所述多帧图像的任意两帧图像中位置偏差值，若最大的位置偏差值小于位置偏差阈值，则确定所述目标物体为静止物体，若所述目标物体在所述多帧图像的任意两帧图像中位置偏差值大于或等于所述位置偏差阈值，则确定所述目标物体为运动物体。
根据权利要求1所述的方法，其特征在于，所述对所述每一帧图像包括的所述目标物体进行分类处理，确定所述每一帧图像包括的运动物体和静止物体，包括：

确定所述每一帧图像在追踪位置的目标像素的数量，所述目标像素用于显示所述目标物体，所述追踪位置为所述多帧图像中任意一帧图像中所述目标物体的位置；

根据所述每一帧图像在追踪位置的目标像素的数量，确定所述目标物体为运动物体或者静止物体。
根据权利要求5所述的方法，其特征在于，所述根据所述每一帧图像在追踪位置的目标像素的数量，确定所述目标物体为运动物体或者静止物体，包括：

计算所述多帧图像中任意两帧图像在所述追踪位置的目标像素的数量差；

若最大的数量差小于像素数量阈值，则确定所述目标物体为所述静止物体；

若任意两帧图像在所述追踪位置的目标像素的数量差大于或者等于像素数量阈值，则确定所述目标物体为所述运动物体。
根据权利要求1所述的方法，其特征在于，去除所述每一帧图像中的运动物体，获得所述每一帧图像对应的背景图像，包括：

将所述每一帧图像中的运动物体对应的像素标记为无效像素；

根据所述每一帧图像中除所述无效像素外的其余像素生成所述每一帧图像对应的背景图像。
一种图像处理装置，其特征在于，所述装置包括：

获取模块，用于获取摄像模组对同一场景拍摄的多帧图像，利用目标检测模型对所述多帧图像进行目标检测，获得所述多帧图像中每一帧图像包括的目标物体；

确定模块，用于对所述每一帧图像包括的所述目标物体进行分类处理，确定所述每一帧图像包括的运动物体和静止物体；

去除模块，用于去除所述每一帧图像中的运动物体，获得所述每一帧图像对应的背景图像，对所有背景图像进行融合处理，生成目标背景图像；

覆盖模块，用于利用所述目标背景图像的目标区域覆盖所述多帧图像中一帧图像的目标区域，获得所述摄像模组的输出图像；其中，所述目标区域为所述运动物体对应的区域。
一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。