WO2023124461A1

WO2023124461A1 - 面向机器视觉任务的视频编解码方法、装置、设备及介质

Info

Publication number: WO2023124461A1
Application number: PCT/CN2022/127208
Authority: WO
Inventors: 王慧芬; 张园; 杨明川; 王立传; 郭益民
Original assignee: 中国电信股份有限公司
Priority date: 2021-12-28
Filing date: 2022-10-25
Publication date: 2023-07-06
Also published as: CN116366852A

Abstract

本公开提供了一种面向机器视觉任务的视频编解码方法、装置、设备及介质，涉及机器视觉技术领域。该方法包括：获取待编码视频图像对应的视觉任务信息；根据待编码视频图像对应的视觉任务信息，判断待编码视频图像是否满足编码前图像预处理条件；若待编码视频图像满足编码前图像预处理条件，则对待编码视频图像执行预处理操作，并对执行预处理操作后的视频图像进行编码；若待编码视频图像不满足编码前图像预处理条件，则直接对待编码视频图像进行编码。本公开降低信源与下游视觉任务网络输入层之间因图像尺寸大小之差带来的冗余，并在降低冗余的同时，保留后续机器视觉任务的精度。

Description

面向机器视觉任务的视频编解码方法、装置、设备及介质

相关申请的交叉引用

本申请是以CN申请号为202111624129.6，申请日为2021年12月28日的申请为基础，并主张其优先权，该CN申请的公开内容在此作为整体引入本申请中。

技术领域

本公开涉及机器视觉技术领域，尤其涉及一种面向机器视觉任务的视频编解码方法、装置、设备及介质。

背景技术

随着机器学习应用的增长，车联网、视频监控、智慧城市等领域已经采用了许多智能平台，这些平台与大量传感器之间产生了海量的数据通信。数据量的增长直接导致先前面向人类视觉的编码方法效率降低，在延时和规模上也难以满足现实，面向智能机器的特征编码提上议程。

图像预处理一般包括：图像数字化、几何变换、归一化、平滑、复原、增强等。图像增强(Image Enhancement)是数字图像处理技术中最基本的内容之一，也是预处理方法之一。图像增强分为基于空间域的图像增强和基于频率域的图像增强。空间域是指图像平面本身，这类方法是以对图像的像素直接处理为基础的。频率域是以修改图像的傅立叶变换为基础的。空间域处理方法是在图像像素组成的二维空间里直接对每个像素的灰度值进行处理，它可以是在一幅图像内的像素点之间的运算处理，也可以是数幅图像间的像素点之间的运算处理，频率域处理方法是在图像的变换域对图像进行间接处理。具有代表性的空间域图像增强处理方法有均值滤波和中值滤波，二者可以去除或减弱噪声。基于频率域的图像增强技术，一般来说，图像的边缘和噪声对应傅立叶变换中的高频部分，所以低通滤波能够平滑图像，去除噪声，图像灰度发生聚变的部分与频谱的高频分量对应，所以采用高通滤波器衰减或抑制低频分量，能够对图像进行锐化处理。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开的一个方面，提供了一种面向机器视觉任务的视频编码方法，该方法包括：获取待编码视频图像对应的视觉任务信息；根据所述待编码视频图像对应的视觉任务信息，判断所述待编码视频图像是否满足编码前图像预处理条件；若所述待编码视频图像满足编码前图像预处理条件，则对待编码视频图像执行预处理操作，并对执行预处理操作后的视频图像进行编码；若所述待编码视频图像不满足编码前图像预处理条件，则直接对所述待编码视频图像进行编码。

在一些实施例中，所述获取待编码视频图像对应的视觉任务信息包括如下至少之一：在采集视频图像之前，向图像解码端请求所述待编码视频图像对应的视觉任务信息；在采集视频图像的过程中，向图像解码端请求所述待编码视频图像对应的视觉任务信息。

在一些实施例中，所述方法还包括：生成所述待编码视频图像的预处理标识，其中，所述预处理标识用于标识所述待编码视频图像是否已执行预处理操作。

在一些实施例中，所述方法还包括：根据所述待编码视频图像的编码结果、预处理标识和视觉任务信息生成二进制码流，发送到图像解码端，其中，所述图像解码端用于对接收到的二进制码流进行解码，并根据解码结果中的预处理标识和视觉任务信息，对解码后的视频图像执行相应的视觉任务。

在一些实施例中，所述图像预处理操作包括：对视频图像的尺寸信息进行调整，使得调整后的视频图像满足机器视觉任务模型所需的尺寸信息。

根据本公开的一个方面，还提供了一种面向机器视觉任务的视频解码方法，该方法包括：接收来自图像编码端的二进制码流，其中，所述二进制码流为图像编码端根据待编码视频图像的编码结果、预处理标识和视觉任务信息生成的，所述预处理标识用于标识所述待编码视频图像是否已执行预处理操作；对来自图像编码端的二进制码流进行解码，得到解码后的视频图像、预处理标识和视觉任务信息；根据解码得到的预处理标识和视觉任务信息，对解码后的视频图像执行相应的视觉任务。

在一些实施例中，所述根据解码得到的预处理标识和视觉任务信息，对解码后的视频图像执行相应的视觉任务包括：根据解码得到的视觉任务信息，判断待执行视觉任务是否为人眼视觉任务；若待执行视觉任务为人眼视觉任务，则将解码后的视频图像直接输入到人眼视觉任务模型中；若待执行视觉任务为机器视觉任务，则根据解码得到的预处理标识，判断解码后的视频图像是否已执行预处理操作；若解码后的视频图像已执行预处理操作，则直接根据解码得到的视觉任务信息，将解码后的视频图像输入到相应的机器视觉任务模型中；若解码后的视频图像未执行预处理操作，则根据解码得到的视觉任务信息，对解码后的视频图像执行预处理操作，并将执行预处理操作后的视频图像输入到相应的机器视觉任务模型中。

根据本公开的另一个方面，还提供了一种面向机器视觉任务的视频编码装置，包括：任务信息获取模块，用于获取待编码视频图像对应的视觉任务信息；图像预处理模块，用于根据所述待编码视频图像对应的视觉任务信息，判断所述待编码视频图像是否满足编码前图像预处理条件；第一图像编码模块，用于若所述待编码视频图像满足编码前图像预处理条件，则对待编码视频图像执行预处理操作，并对执行预处理操作后的视频图像进行编码；第二图像编码模块，用于若所述待编码视频图像不满足编码前图像预处理条件，则直接对所述待编码视频图像进行编码。

根据本公开的另一个方面，还提供了一种面向机器视觉任务的视频解码装置，包括：数据接收模块，用于接收来自图像编码端的二进制码流，其中，所述二进制码流为图像编码端根据待编码视频图像的编码结果、预处理标识和视觉任务信息生成的，所述预处理标识用于标识所述待编码视频图像是否已执行预处理操作；图像解码模块，用于对接收到的二进制码流进行解码，得到解码后的视频图像、预处理标识和视觉任务信息；任务执行模块，用于根据解码得到的预处理标识和视觉任务信息，对解码后的视频图像执行相应的视觉任务。

根据本公开的另一个方面，还提供了一种电子设备，该电子设备包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述面向机器视觉任务的视频编码方法。

根据本公开的另一个方面，还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一项所述的面向机器视觉任务的视频编码方法。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出相关技术中一种传统视频编解码系统架构示意图；

图2示出本公开实施例中一种面向机器视觉任务的视频编解码系统架构示意图；

图3示出本公开实施例中一种面向机器视觉任务的视频编码方法流程图；

图4示出本公开实施例中一种面向机器视觉任务的视频解码方法流程图；

图5示出本公开实施例中一种面向机器视觉任务的视频编码方法的具体实现流程图；

图6示出本公开实施例中一种面向机器视觉任务的视频编码装置示意图；

图7示出本公开实施例中一种面向机器视觉任务的视频解码装置示意图；

图8示出本公开实施例中一种电子设备的结构框图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

为便于理解，在介绍本公开实施例之前，首先对本公开实施例中涉及到的几个名词进行解释如下：

机器视觉：是人工智能正在快速发展的一个分支。简单说来，机器视觉就是用机器代替人眼来做测量和判断。机器视觉系统是通过机器视觉产品(即图像摄取装置，分CMOS(Complementary Metal Oxide Semiconductor，互补金属氧化物半导体) 和CCD(charge coupled device，电荷耦合器件)两种)将被摄取目标转换成图像信号，传送给专用的图像处理系统，得到被摄目标的形态信息，根据像素分布和亮度、颜色等信息，转变成数字化信号；图像系统对这些信号进行各种运算来抽取目标的特征，进而根据判别的结果来控制现场的设备动作。

下面结合附图，对本公开实施例进行详细说明。

不同的视觉任务对视频图像的要求不同，例如，人眼视觉任务可对任意尺寸大小的视频图像进行识别；但机器视觉任务往往要求输入固定尺寸大小的视频图像，因而，将采集的视频图像输入到机器视觉任务模型前，往往需要对视频图像执行图像预处理操作，包括但不限于对视频图像的尺寸信息进行修改。

图1示出相关技术中一种传统视频编解码系统架构示意图，如图1所示，为满足机器视觉任务需求，传统视频编码方案对图像的图像预处理操作是在解码端进行的。由于视频图像编码是为了降低视频图像传输时的数据量，在编码端对视频进行压缩；在解码端进行解压缩，以恢复出原始尺寸信息的视频图像。而为满足机器视觉任务需求，有时候也会涉及到通过图像预处理操作对视频图像进行缩小，以得到机器视觉任务模型所需的固定尺寸的视频图像，若在解码端执行图像预处理操作，可能会带来冗余问题。

相关技术在专注于编码器内部算法改进时，忽略了原始信源与下游智能任务网络输入层之间大小之差带来的冗余。网络模型输入层节点个数与原视频单帧像素个数之差就是现有压缩方案所带来的冗余。因而，如何消除冗余的同时，尽可能保留后续智能任务的精度，是目前亟待解决的问题。

基于此，本公开提供一种面向机器视觉任务的视频编解码方法、装置、设备及介质，至少在一定程度上克服传统视频编码方案存在数据传输量较大的技术问题。

图2示出本公开实施例中一种面向机器视觉任务的视频编解码系统架构示意图，如图2所示，本公开实施例中，将图像预处理操作前移到编码端进行，能够在对待编码视频图像进行编码之前，获取待编码视频图像待执行的视觉任务信息，能够根据待编码视频图像待执行的视觉任务信息，确定是否需要对待编码图像执行编码前图像预处理操作，对于需要执行编码前图像预处理操作的视频图像，先执行图像预处理后再进行编码压缩，使得解码端解码得到的视频图像为执行图像预处理操作后的视频图像，进行相应的视觉任务即可。通过这种方式，不仅能够避免冗余处理的问题，而且能够提高压缩比。由图2可以看出，对于人眼视觉需求和不满足编码前图像预处理条件的视频图像，采用的视频编解码方案与传统视频编码方案一致；对于机器视觉需求且满足编码前图像预处理条件的视频图像，先进行编码前图像预处理操作，再进入视频图像编码器，形成二进制码流；解码端对二进制码流解码后直接送入机器视觉任务模型。对于人眼视觉需求，可直接采用解码后的视频图像，也可进一步进行图像后处理/图像增强操作后进入人眼视觉任务模型。

为消除原始信源与下游智能任务网络输入层之间的冗余，尽可能保留后续机器视觉任务的精度，本公开实施例中提供了一种面向机器视觉任务的视频编码方法，该方法可以由任意具备计算处理能力的电子设备执行。包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机、可穿戴设备、增强现实设备、虚拟现实设备等。在一些实施例中，这些电子设备中安装的应用程序的客户端是相同的，或基于不同操作系统的同一类型应用程序的客户端。基于终端平台的不同，该应用程序的客户端的具体形态也可以不同，比如，该应用程序客户端可以是手机客户端、PC客户端等。

本公开的实施例所提供的面向机器视觉任务的视频编解码方法、装置、设备及介质，在编码端对视频图像进行编码之前，先获取视频图像的视觉任务信息，以便根据视频图像的视觉任务信息判断视频图像是否需要进行图像预处理，对于需要进行图像预处理的视频图像，在编码端对视频图像预处理，能够使得解码端解码后的视频图像是经过图像预处理的，可直接进行相应的视觉任务处理，从而降低信源与下游视觉任务网络输入层之间因图像尺寸大小之差带来的冗余，并在降低冗余的同时，保留后续机器视觉任务的精度。

图3示出本公开实施例中一种面向机器视觉任务的视频编码方法流程图，如图3所示，本公开实施例中提供的面向机器视觉任务的视频编码方法包括如下步骤：

S302，获取待编码视频图像对应的视觉任务信息。

需要说明的是，上述S302中获取的视觉任务信息包括但不限于：待编码视频图像待执行的视觉任务的任务类型、执行相应任务类型视觉任务所需执行的图像预处理操作。当本公开实施例中的视频图像是通过摄像机拍摄的情况下，视觉任务的任务类型可由摄像机的用户模式User确定，当用户模式User为M时，表明当前待执行的视觉任务是机器视觉任务；当用户模式User为P时，表明当前待执行的视觉任务是人眼视觉任务。对采集的视频图像，在编码之前可先进行用户模式判断：

1)对于人眼视觉需求，与传统视频编码技术一致。

2)对于机器视觉需求，且满足编码前图像预处理条件的视频图像，先进行图像预处理操作形成视频图像V1再进入视频编码器，形成二进制码流，解码端采用对应的视频解码器进行解码生成解码视频图像V1’。视频图像V1’直接进行机器视觉任务，对于人眼视觉需求，可直接采用视频图像V1’，也可进行图像后处理/图像增强操作后进入人眼视觉。

3)对于机器视觉需求，且不满足编码前图像预处理条件的视频图像，与传统视频编码技术一致。

在一些实施例中，上述S302在获取待编码视频图像对应的视觉任务信息的时候，可以在采集视频图像之前，向图像解码端请求待编码视频图像对应的视觉任务信息。通过这种方式，能够实现一次获取多次使用的目的，比较适用于机器视觉任务和人眼视觉任务按一定规律执行的场景。

在另外一些实施例中，上述S302在获取待编码视频图像对应的视觉任务信息的时候，还可以在采集视频图像的过程中，向图像解码端请求待编码视频图像对应的视觉任务信息。通过这种方式能够满足实时任务处理，尤其适用于机器视觉任务和人眼视觉任务交叉执行的场景。

S304，根据待编码视频图像对应的视觉任务信息，判断待编码视频图像是否满足编码前图像预处理条件。

需要说明的是，在获取到待编码视频图像的视觉任务信息后，可以根据待编码视频图像对应的视觉任务信息，判断待编码视频图像是否需要执行图像预处理操作，也即是否满足编码前图像预处理条件。

对于人眼视觉任务，大多数情况下不需要执行图像预处理，因而，若待编码视频图像待执行的视觉任务为人眼视觉任务，则表明待编码视频图像无需执行图像预处理操作，因而判断结果为待编码视频图像不满足编码前图像预处理条件。

对于机器视觉任务，往往要求输入固定尺寸信息的图像，在将图像输入到机器视觉任务模型之前，需要进行图像预处理(包括但不限于：图像高度和/或宽度的调整)，而图像编码过程往往也会涉及到图像大小的调整，因而，在根据机器视觉任务信息判断待编码视频图像是否满足编码前图像处理条件的时候，可以根据机器视觉任务所需的视频图像尺寸信息以及编码前视频图像的尺寸信息，确定待编码视频图像是否满足编码前图像预处理条件。

在一种场景下，假设某一视频图像的原始尺寸信息为第一尺寸信息，对应视觉任务所要求的图像尺寸信息为第二尺寸信息(第二尺寸信息小于第一尺寸信息)，按照现有的视频编解码方案，由编码端对第一尺寸信息的视频图像进行压缩编码，由解码端解码后，得到的仍然是第一尺寸信息的视频图像，需要在解码端执行图像预处理(第一尺寸缩小到第二尺寸)后送入机器视觉任务模型。而按照本公开实施例中提供的视频编解码方案，在编码端知道机器视觉任务所需的尺寸信息是第二尺寸信息，直接在编码端对视频图像进行图像预处理(第一尺寸缩小到第二尺寸)，则只需要对第二尺寸信息的视频图像进行编码和解码即可。

在另一种场景下，假设某一视频图像的原始尺寸信息为第三尺寸信息，对应视觉任务所要求的图像尺寸信息为第四尺寸信息(第四尺寸信息大于第一尺寸信息)，可以看出，机器视觉任务要求的图像预处理操作是要放大图像尺寸(第三尺寸放大到第四尺寸)，此时，按照本公开实施例中提供的视频编解码方案，认为待编码视频图像是不满足编码前图像预处理条件的，也即无需在编码端对视频图像进行图像预处理。

S306，若待编码视频图像满足编码前图像预处理条件，则对待编码视频图像执行预处理操作，并对执行预处理操作后的视频图像进行编码。

需要说明的是，在上述步骤中，对于满足图像处理条件的待编码视频图像，表明需要执行图像预处理操作，因而，需要先对视频图像执行图像预处理操作后，再送入编码器进行编码。本公开实施例中的图像预处理操作包括但不限于：对视频图像的尺寸信息进行调整，使得调整后的视频图像满足机器视觉任务模型所需的尺寸信息。

在一些实施例中，对于满足编码前图像预处理条件的待编码视频图像，本公开实施例中提供的面向机器视觉任务的视频编码方法还包括如下步骤：生成待编码视频图像的预处理标识，其中，预处理标识用于标识待编码视频图像是否已执行预处理操作。

进一步地，在一些实施例中，在生成待编码视频图像的预处理标识之后，本公开实施例中提供的面向机器视觉任务的视频编码方法还包括如下步骤：根据待编码视频图像的编码结果、预处理标识和视觉任务信息生成二进制码流，发送到图像解码端，其中，图像解码端用于对接收到的二进制码流进行解码，并根据解码结果中的预处理标识和视觉任务信息，对解码后的视频图像执行相应的视觉任务。

该实施例中，将视觉任务信息和编码后的视频图像一起发送给图像解码端，使得图像解码端可以根据解码结果中的视觉任务信息，确定解码后的视频图像待执行的机器视觉任务，进而调用相应的视觉任务模型对解码后的视频图像进行处理。

进一步地，将预处理标识和编码后的视频图像一起发送给图像解码端，使得图像解码端可以根据解码结果中的预处理标识，判断解码后的视频图像是否已经执行过图像预处理操作，以便将已经执行过图像预处理操作的视频图像直接送入机器视觉模型进行处理。

S308，若待编码视频图像不满足编码前图像预处理条件，则直接对待编码视频图像进行编码。

在上述步骤中，对于不满足图像处理条件的待编码视频图像，表明无需执行图像预处理操作，因而，可直接送入编码器进行编码。

由上可知，本公开的实施例所提供的面向机器视觉任务的视频编码方法，将图像预处理操作前移到编码端，能够降低信源与下游视觉任务网络输入层之间因图像尺寸大小之差带来的冗余，并在降低冗余的同时，保留后续机器视觉任务的精度。

基于同一发明构思，本公开实施例中还提供了一种面向机器视觉任务的视频解码方法，该方法可以由任意具备计算处理能力的电子设备执行。

图4示出本公开实施例中一种面向机器视觉任务的视频解码方法流程图，如图4所示，本公开实施例中提供的面向机器视觉任务的视频解码方法包括如下步骤：

S402，接收来自图像编码端的二进制码流，其中，二进制码流为图像编码端根据待编码视频图像的编码结果、预处理标识和视觉任务信息生成的，预处理标识用于标识待编码视频图像是否已执行预处理操作；

S404，对来自图像编码端的二进制码流进行解码，得到解码后的视频图像、预处理标识和视觉任务信息；

S406，根据解码得到的预处理标识和视觉任务信息，对解码后的视频图像执行相应的视觉任务。

需要说明的是，本公开实施例中的图像编码端和图像解码端可以部署于同一台设备，也可以部署于不同的设备。其中，图像编码端从图像解码端获取视频图像的视觉任务信息，根据视频图像的视觉任务信息，确定是否对视频图像执行图像预处理操作，对于需要执行图像预处理操作的编码视频图像，对视频图像执行预处理操作后进行编码；对于无需执行图像预处理操作的编码视频图像，直接对视频图像进行编码；最后将编码后的视频图像、预处理标识和视觉任务信息一起以二进制码流的形式传输到图像解码端，使得图像解码端对接收到的二进制码流进行解码，得到解码后的视频图像、预处理标识和视觉任务信息，进而根据解码得到的预处理标识和视觉任务信息，对解码后的视频图像执行相应的视觉任务。

在一些实施例中，根据解码得到的预处理标识和视觉任务信息，对解码后的视频图像执行相应的视觉任务包括：根据解码得到的视觉任务信息，判断待执行视觉任务是否为人眼视觉任务；若待执行视觉任务为人眼视觉任务，则将解码后的视频图像直接输入到人眼视觉任务模型中；若待执行视觉任务为机器视觉任务，则根据解码得到的预处理标识，判断解码后的视频图像是否已执行预处理操作；若解码后的视频图像已执行预处理操作，则直接根据解码得到的视觉任务信息，将解码后的视频图像输入到相应的机器视觉任务模型中；若解码后的视频图像未执行预处理操作，则根据解码得到的视觉任务信息，对解码后的视频图像执行预处理操作，并将执行预处理操作后的视频图像输入到相应的机器视觉任务模型中。

由上可知，本公开的实施例所提供的面向机器视觉任务的视频解码方法，将图像预处理操作前移到编码端，能够降低信源与下游视觉任务网络输入层之间因图像尺寸大小之差带来的冗余，并在降低冗余的同时，保留后续机器视觉任务的精度。

图5示出本公开实施例中一种面向机器视觉任务的视频编码方法的具体实现流程图，如图5所示，具体包括如下步骤：

编码端在正式开始图像采集前，向解码端请求用户模式User、图像预处理模式Mode配置；也可图像采集开始后，在线向解码端请求模式User、图像预处理模式Mode配置。

S502，对于采集的高度为h宽度为w的视频图像x，进行用户模式User判断：若用户模式为人眼视觉模式P，则设置预处理标志flag＝0，进入S506；若用户模式为机器视觉模式M，则进入S504。

S504，对图像进行预处理判断，若满足预处理条件，则设置预处理标志flag＝1，执行图像预处理操作，进入S506；若不满足预处理条件，则设置预处理标志flag＝0，进入S506。

在一些实施例中，图像预处理判断可有多种方法，可以包括但不限于如下方式：

方式1：判断图像高度h是否大于图像预处理后的高度H；

方式2：判断图像宽度w是否大于图像预处理后的宽度W；

方式3：判断图像高度h与图像宽度w的乘积(h×w)，是否大于图像预处理后高度W与图像预处理后宽度W的乘积(H×W)；

在一些实施例中，图像预处理操作也可以有多种方法，例如ResNet推理图像预处理方法、MobileNet推理图像预处理方法等。

S506，对进入编码器的图像进行编码，并将编码器输出的编码视频图像和(User，flag，h，w)形成二进制码流。

S508，解码端对接收到的二进制码流进行解码，形成解码视频图像x_hat和(User，flag，h，w)。

S510，对用户模式User进行判断：若用户模式为人眼视觉模式P，则直接进行人眼视觉处理，或经过图像后处理/图像增强等处理后进入人眼视觉模型；若用户模式为机器视觉模型M，则进入S512。

S512，对预处理标志flag进行判断，若预处理标志为1，则直接进入机器视觉模型处理，其中h和w用于获取目标位置信息时在原图中的定位；若预处理标志为0，则对解码视频图像x_hat先进行图像预处理操作，再进入机器视觉模型处理。

接下来，列举一个实际的例子：

以采集的传统2k分辨率视频图像用于目标检测任务为例，目标检测网络模型为Faster R-CNN X101FPN，具体实施如下：

编码端在正式开始图像采集前，向解码端请求用户模式User、图像预处理模式Mode配置，并设置用户模式User为M，图像预处理模式Mode为ResNetX101。

1)对于采集的传统2k分辨率视频图像x，进行模式User判断，模式User为机器视觉模式M，进入步骤2)；

2)对视频图像x进行预处理判断：图像高度h为1920，图像宽度为1080，ResNetX101图像预处理后图像高度H为1333，图像宽度W为750，图像高度h与图像宽度w的乘积大于图像预处理后高度W与图像预处理后宽度W的乘积，预处理标志flag＝1，进入编码器前的图像数据减少为原来的48.2％；

3)对进入编码器的图像1333x750进行编码，在此采用VTM8.2进行编码，也可以采用端到端神经网络的编码方式，并将编码器输出和(M，1，1920，1080)形成二进制码流；

4)解码端对接收到的二进制码流进行解码，形成解码视频图像x_hat、(M，1，1920，1080)；

5)对模式User进行判断，机器视觉模型M下，进入步骤6)；

6)预处理标志flag进行判断，预处理标志为1，直接进入机器视觉模型处理，其中h和w用于获取目标位置信息时在原图中的定位。

基于同一发明构思，本公开实施例中还提供了一种面向机器视觉任务的视频编码装置，如下面的实施例所述。由于该装置实施例解决问题的原理与上述方法实施例相似，因此该装置实施例的实施可以参见上述方法实施例的实施，重复之处不再赘述。

图6示出本公开实施例中一种面向机器视觉任务的视频编码装置示意图，如图6所示，该装置包括：任务信息获取模块61、图像预处理模块62、第一图像编码模块63和第二图像编码模块64。

其中，任务信息获取模块61，用于获取待编码视频图像对应的视觉任务信息；图像预处理模块62，用于根据待编码视频图像对应的视觉任务信息，判断待编码视频图像是否满足编码前图像预处理条件；第一图像编码模块63，用于若待编码视频图像满足编码前图像预处理条件，则对待编码视频图像执行预处理操作，并对执行预处理操作后的视频图像进行编码；第二图像编码模块64，用于若待编码视频图像不满足编码前图像预处理条件，则直接对待编码视频图像进行编码。

此处需要说明的是，上述任务信息获取模块61、图像预处理模块62、第一图像编码模块63和第二图像编码模块64对应于方法实施例中的S302～S308，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述方法实施例所公开的内容。需要说明的是，上述模块作为装置的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

由上可知，本公开的实施例所提供的面向机器视觉任务的视频编码装置，将图像预处理操作前移到编码端，能够降低信源与下游视觉任务网络输入层之间因图像尺寸大小之差带来的冗余，并在降低冗余的同时，保留后续机器视觉任务的精度。

在一些实施例中，获取待编码视频图像对应的视觉任务信息包括如下至少之一：在采集视频图像之前，向图像解码端请求待编码视频图像对应的视觉任务信息；在采集视频图像的过程中，向图像解码端请求待编码视频图像对应的视觉任务信息。

在一些实施例中，方法还包括：生成待编码视频图像的预处理标识，其中，预处理标识用于标识待编码视频图像是否已执行预处理操作。

在一些实施例中，方法还包括：根据待编码视频图像的编码结果、预处理标识和视觉任务信息生成二进制码流，发送到图像解码端，其中，图像解码端用于对接收到的二进制码流进行解码，并根据解码结果中的预处理标识和视觉任务信息，对解码后的视频图像执行相应的视觉任务。

在一些实施例中，图像预处理操作包括：对视频图像的尺寸信息进行调整，使得调整后的视频图像满足机器视觉任务模型所需的尺寸信息。

基于同一发明构思，本公开实施例中还提供了一种面向机器视觉任务的视频解码装置，如下面的实施例所述。由于该装置实施例解决问题的原理与上述方法实施例相似，因此该装置实施例的实施可以参见上述方法实施例的实施，重复之处不再赘述。

图7示出本公开实施例中一种面向机器视觉任务的视频解码装置示意图，如图7所示，该装置包括：数据接收模块71、图像解码模块72和任务执行模块73。

其中，数据接收模块71，用于接收来自图像编码端的二进制码流，其中，二进制码流为图像编码端根据待编码视频图像的编码结果、预处理标识和视觉任务信息生成的，预处理标识用于标识待编码视频图像是否已执行预处理操作；图像解码模块72，用于对接收到的二进制码流进行解码，得到解码后的视频图像、预处理标识和视觉任务信息；任务执行模块73，用于根据解码得到的预处理标识和视觉任务信息，对解码后的视频图像执行相应的视觉任务。

此处需要说明的是，上述数据接收模块71、图像解码模块72和任务执行模块73对应于方法实施例中的S402～S406，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述方法实施例所公开的内容。需要说明的是，上述模块作为装置的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

由上可知，本公开的实施例所提供的面向机器视觉任务的视频解码装置，将图像预处理操作前移到编码端，能够降低信源与下游视觉任务网络输入层之间因图像尺寸大小之差带来的冗余，并在降低冗余的同时，保留后续机器视觉任务的精度。

所属技术领域的技术人员能够理解，本公开的各个方面可以实现为系统、方法或程序产品。因此，本公开的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

下面参照图8来描述根据本公开的这种实施方式的电子设备800。图8显示的电子设备800仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图8所示，电子设备800以通用计算设备的形式表现。电子设备800的组件可以包括但不限于：上述至少一个处理单元810、上述至少一个存储单元820、连接不同系统组件(包括存储单元820和处理单元810)的总线830。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元810执行，使得所述处理单元810执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。例如，所述处理单元810可以执行上述方法实施例的如下步骤：获取待编码视频图像对应的视觉任务信息；根据待编码视频图像对应的视觉任务信息，判断待编码视频图像是否满足编码前图像预处理条件；若待编码视频图像满足编码前图像预处理条件，则对待编码视频图像执行预处理操作，并对执行预处理操作后的视频图像进行编码；若待编码视频图像不满足编码前图像预处理条件，则直接对待编码视频图像进行编码。

存储单元820可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)8201和/或高速缓存存储单元8202，还可以进一步包括只读存储单元(ROM)8203。

存储单元820还可以包括具有一组(至少一个)程序模块8205的程序/实用工具8204，这样的程序模块8205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线830可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备800也可以与一个或多个外部设备840(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备800交互的设备通信，和/或与使得该电子设备800能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口850进行。并且，电子设备800还可以通过网络适配器860与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器860通过总线830与电子设备800的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备800使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。

在本公开的示例性实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质可以是可读信号介质或者可读存储介质。其上存储有能够实现本公开上述方法的程序产品。在一些可能的实施方式中，本公开的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。

本公开中的计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

在本公开中，计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

在一些实施例中，计算机可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

在具体实施时，可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、 C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

此外，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

通过以上实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由所附的权利要求指出。

Claims

一种面向机器视觉任务的视频编码方法，包括：

获取待编码视频图像对应的视觉任务信息；

根据所述待编码视频图像对应的视觉任务信息，判断所述待编码视频图像是否满足编码前图像预处理条件；

若所述待编码视频图像满足编码前图像预处理条件，则对待编码视频图像执行预处理操作，并对执行预处理操作后的视频图像进行编码；

若所述待编码视频图像不满足编码前图像预处理条件，则直接对所述待编码视频图像进行编码。
根据权利要求1所述的面向机器视觉任务的视频编码方法，其中，所述获取待编码视频图像对应的视觉任务信息包括如下至少之一：

在采集视频图像之前，向图像解码端请求所述待编码视频图像对应的视觉任务信息；

在采集视频图像的过程中，向图像解码端请求所述待编码视频图像对应的视觉任务信息。
根据权利要求1所述的面向机器视觉任务的视频编码方法，还包括：

生成所述待编码视频图像的预处理标识，其中，所述预处理标识用于标识所述待编码视频图像是否已执行预处理操作。
根据权利要求3所述的面向机器视觉任务的视频编码方法，还包括：

根据所述待编码视频图像的编码结果、预处理标识和视觉任务信息生成二进制码流，发送到图像解码端，其中，所述图像解码端用于对接收到的二进制码流进行解码，并根据解码结果中的预处理标识和视觉任务信息，对解码后的视频图像执行相应的视觉任务。
根据权利要求1至4任一项所述的面向机器视觉任务的视频编码方法，其中，所述预处理操作包括：对视频图像的尺寸信息进行调整，使得调整后的视频图像满足机器视觉任务模型所需的尺寸信息。
根据权利要求1至4任一项所述的面向机器视觉任务的视频编码方法，其中，视觉任务信息包括待编码视频图像待执行的视觉任务的任务类型、执行相应任务类型视觉任务所需执行的图像预处理操作。
根据权利要求1至4任一项所述的面向机器视觉任务的视频编码方法，其中，在视频图像是通过摄像机拍摄的情况下，视觉任务的任务类型由摄像机的用户模式确定，其中，在用户模式为机器视觉模式M的情况下，待执行的视觉任务是机器视觉任务，在用户模式为人眼视觉模式P的情况下，待执行的视觉任务是人眼视觉任务。
一种面向机器视觉任务的视频解码方法，包括：

接收来自图像编码端的二进制码流，其中，所述二进制码流为图像编码端根据待编码视频图像的编码结果、预处理标识和视觉任务信息生成的，所述预处理标识用于标识所述待编码视频图像是否已执行预处理操作；

对来自图像编码端的二进制码流进行解码，得到解码后的视频图像、预处理标识和视觉任务信息；

根据解码得到的预处理标识和视觉任务信息，对解码后的视频图像执行相应的视觉任务。
根据权利要求8所述的面向机器视觉任务的视频解码方法，其中，所述根据解码得到的预处理标识和视觉任务信息，对解码后的视频图像执行相应的视觉任务包括：

根据解码得到的视觉任务信息，判断待执行视觉任务是否为人眼视觉任务；

若待执行视觉任务为人眼视觉任务，则将解码后的视频图像直接输入到人眼视觉任务模型中；

若待执行视觉任务为机器视觉任务，则根据解码得到的预处理标识，判断解码后的视频图像是否已执行预处理操作；

若解码后的视频图像已执行预处理操作，则直接根据解码得到的视觉任务信息，将解码后的视频图像输入到相应的机器视觉任务模型中；

若解码后的视频图像未执行预处理操作，则根据解码得到的视觉任务信息，对解码后的视频图像执行预处理操作，并将执行预处理操作后的视频图像输入到相应的机器视觉任务模型中。
根据权利要求8所述的面向机器视觉任务的视频解码方法，其中，视觉任务信息包括待编码视频图像待执行的视觉任务的任务类型、执行相应任务类型视觉任务所需执行的图像预处理操作。
根据权利要求8所述的面向机器视觉任务的视频解码方法，其中，在视频图像是通过摄像机拍摄的情况下，视觉任务的任务类型由摄像机的用户模式确定，其中，在用户模式为机器视觉模式M的情况下，待执行的视觉任务是机器视觉任务，在用户模式为人眼视觉模式P的情况下，待执行的视觉任务是人眼视觉任务。
一种面向机器视觉任务的视频编码装置，包括：

任务信息获取模块，用于获取待编码视频图像对应的视觉任务信息；

图像预处理模块，用于根据所述待编码视频图像对应的视觉任务信息，判断所述待编码视频图像是否满足编码前图像预处理条件；

第一图像编码模块，用于若所述待编码视频图像满足编码前图像预处理条件，则对待编码视频图像执行预处理操作，并对执行预处理操作后的视频图像进行编码；

第二图像编码模块，用于若所述待编码视频图像不满足编码前图像预处理条件，则直接对所述待编码视频图像进行编码。
一种面向机器视觉任务的视频解码装置，包括：

数据接收模块，用于接收来自图像编码端的二进制码流，其中，所述二进制码流为图像编码端根据待编码视频图像的编码结果、预处理标识和视觉任务信息生成的，所述预处理标识用于标识所述待编码视频图像是否已执行预处理操作；

图像解码模块，用于对接收到的二进制码流进行解码，得到解码后的视频图像、预处理标识和视觉任务信息；

任务执行模块，用于根据解码得到的预处理标识和视觉任务信息，对解码后的视频图像执行相应的视觉任务。
一种电子设备，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1～5中任意一项所述的面向机器视觉任务的视频编码方法，或权利要求6或7所述的面向机器视觉任务的视频解码方法。
一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现权利要求1～5中任意一项所述的面向机器视觉任务的视频编码方法，或权利要求6或7所述的面向机器视觉任务的视频解码方法。
一种计算机程序，包括：

指令，所述指令当由处理器执行时使所述处理器执行根据权利要求1～5中任意一项所述的面向机器视觉任务的视频编码方法，或权利要求6或7所述的面向机器视觉任务的视频解码方法。