WO2021139114A1

WO2021139114A1 - 一种基于反馈优化的人机视觉编码方法和装置

Info

Publication number: WO2021139114A1
Application number: PCT/CN2020/099511
Authority: WO
Inventors: 段凌宇; 刘家瑛; 杨文瀚; 白燕; 高文
Original assignee: 北京大学
Priority date: 2020-01-09
Filing date: 2020-06-30
Publication date: 2021-07-15
Also published as: CN111163318B; CN111163318A

Abstract

本申请公开了一种基于反馈优化的人机视觉编码方法，所述方法包括：编码端获取所述目标视频对应的像素特征后输入预设预测模型中生成语义特征；编码端基于所述语义特征生成视频流和特征流；解码端基于所述编码后的特征流和视频流生成解码视频；解码端当接收到针对客户端输入的参数调整指令时，生成码率参数发送至编码端；编码端获取当前码率；编码端基于所述码率参数对所述当前码率进行调整生成调整后的码率；编码端基于所述调整后的码率增强所述视频流和所述特征流，生成增强后的视频流和增强后的特征流；解码端基于所述增强后的视频流和增强后的特征流对编码端模型进行更新。因此，采用本申请实施例，可以提高视频特征抽取和压缩效率。

Description

一种基于反馈优化的人机视觉编码方法和装置

技术领域

本申请涉及图像处理技术领域，特别涉及一种基于反馈优化的人机视觉编码方法和装置。

背景技术

智慧城市背景下的大数据分析，对现有“先编码后理解”的传统编码分析体系带来挑战。在前端对视频进行编码，之后在后端进行解码分析。当需要处理的数据量非常大时，维持高质量的视频压缩和传输会造成延迟，消耗大量带宽和存储资源。

为了使得带宽和存储资源消耗减少，目前的方案是采用数字视网膜架构和相关方法利用数据、模型和特征三个流协同学习，实现前后端资源的联合分配，实现高效的视频编码、理解与分析。当对海量大数据进行分析时，该框架存在不足有：(1)特征视频流独立处理：数据流和特征流的传输与利用对同一组数据而言是分离的，因此存在冗余，造成资源浪费；(2)数据单向变换：尽管前后端之间存在交互，但信息流的本质是单向的，方向为像素特征流向语义特征，信息由多向少；(3)不可伸缩：基于视频数据优化视频压缩和特征压缩，不能灵活支持不同类型任务的编码分析切换。

发明内容

本申请实施例提供了一种基于反馈优化的人机视觉编码方法和装置。为了对披露的实施例的一些方面有一个基本的理解，下面给出了简单的概括。该概括部分不是泛泛评述，也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念，以此作为后面的详细说明的序言。

第一方面，本申请实施例提供了一种基于反馈优化的人机视觉编码方法，应用于编码端，所述方法包括：

通过摄像头采集图像帧生成目标视频；

获取所述目标视频对应的像素特征；

将所述像素特征输入预设预测模型中生成语义特征；

基于所述语义特征生成视频流；

将所述语义特征输入预设压缩模型中生成特征流；

将所述特征流进行编码生成编码后的特征流；

将所述编码后的特征流和所述视频流发送至解码端。

可选的，所述基于所述语义特征生成视频流，包括：

将所述语义特征输入预设生成模型中生成重建视频；

将所述目标视频和重建视频相减生成残差视频；

将所述残差视频进行编码后生成视频流。

第二方面，本申请实施例提供了一种基于反馈优化的人机视觉编码方法，应用于解码端，所述方法包括：

当接收到针对解码端发送的编码后的特征流和视频流时，获取编码后的特征流和视频流；

基于所述编码后的特征流和视频流生成解码视频；

当接收到针对客户端输入的参数调整指令时，生成码率参数发送至编码端。

可选的，所述基于所述编码后的特征流和视频流生成解码视频，包括：

将所述编码后的特征流进行解码生成解码后的特征流；

将所述解码后的特征流输入预设生成模型中得到重建视频；

将所述视频流进行复原后生成残差视频；

将所述残差视频和所述重建视频相加后生成解码视频。

第三方面，本申请实施例提供了一种基于反馈优化的人机视觉编码方法，所述方法包括：

编码端获取所述目标视频对应的像素特征；

编码端将所述像素特征输入预设预测模型中生成语义特征；

编码端基于所述语义特征生成视频流和特征流；

解码端基于所述编码后的特征流和视频流生成解码视频；

解码端当接收到针对客户端输入的参数调整指令时，生成码率参数发送至编码端；

编码端获取当前码率；

编码端基于所述码率参数对所述当前码率进行调整生成调整后的码率；

编码端基于所述调整后的码率增强所述视频流和所述特征流，生成增强后的视频流和增强后的特征流；

解码端基于所述增强后的视频流和增强后的特征流对编码端模型进行更新，所述编码端模型包括预测模型和生成模型。

可选的，所述编码端获取所述目标视频对应的像素特征之前，还包括：

编码端通过摄像头采集图像帧生成目标视频。

可选的，所述编码端基于所述语义特征生成视频流和特征流，包括：

编码端将所述语义特征输入预设生成模型中生成重建视频；

编码端将所述目标视频和重建视频相减生成残差视频；

编码端将所述残差视频进行编码后生成视频流；

编码端将所述语义特征输入预设压缩模型中生成特征流。

第四方面，本申请实施例提供一种基于反馈优化的人机视觉编码装置，所述装置包括：

像素特征获取模块，用于编码端获取所述目标视频对应的像素特征；

语义特征获取模块，用于编码端将所述像素特征输入预设预测模型中生成语义特征；

第一流生成模块，用于编码端基于所述语义特征生成视频流和特征流；

视频生成模块，用于解码端基于所述编码后的特征流和视频流生成解码视频；

第一码率生成模块，用于解码端当接收到针对客户端输入的参数调整指令时，生成码率参数发送至编码端；

码率获取模块，用于编码端获取当前码率；

第二码率生成模块，用于编码端基于所述码率参数对所述当前码率进行调整生成调整后的码率；

第二流生成模块，用于编码端基于所述调整后的码率增强所述视频流和所述特征流，生成增强后的视频流和增强后的特征流；

模型更新模块，用于解码端基于所述增强后的视频流和增强后的特征流对编码端模型进行更新，所述编码端模型包括预测模型和生成模型。

可选的，所述装置还包括：

视频采集模块，用于编码端通过摄像头采集图像帧生成目标视频。

可选的，所述第一流生成模块，包括：

第一视频生成单元，用于编码端将所述语义特征输入预设生成模型中生成重建视频；

第二视频生成单元，用于编码端将所述目标视频和重建视频相减生成残差视频；

视频流生成单元，用于编码端将所述残差视频进行编码后生成视频流；

特征流生成单元，用于编码端将所述语义特征输入预设压缩模型中生成特征流。

本申请实施例提供的技术方案可以包括以下有益效果：

在本申请实施例中，编码端获取所述目标视频对应的像素特征；编码端将所述像素特征输入预设预测模型中生成语义特征；编码端基于所述语义特征生成视频流和特征流；解码端基于所述编码后的特征流和视频流生成解码视频；解码端当接收到针对客户端输入的参数调整指令时，生成码率参数发送至编码端；编码端获取当前码率；编码端基于所述码率参数对所述当前码率进行调整生成调整后的码率；编码端基于所述调整后的码率增强所述视频流和所述特征流，生成增强后的视频流和增强后的特征流；解码端基于所述增强后的视频流和增强后的特征流对编码端模型进行更新，所述编码端模型包括预测模型和生成模型。由于本方案支持以较小码流直接压缩和传输特征，支持高效的视频理解分析，同时支持基于特征的码流重建，以较小代价同时支持视频重建。考虑到实际应用中的码率需求变化，本发明基于伸缩反馈实现了码率增量调整以支持理解分析和视频查看任务，同时还允许基于已有的分析数据与特征，进行前端的模型更新，提升模型的性能和效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1是本申请实施例提供的一种基于反馈优化的人机视觉编码方法的流程示意图；

图2是本申请实施例提供的一种像素特征和语义特征的协同反馈示意图；

图3是本申请实施例提供的一种前端和后端的伸缩反馈示意图；

图4是本申请实施例提供的一种基于反馈优化的人机视觉编码方法应用于编码端的流程示意图；

图5是本申请实施例提供的一种基于反馈优化的人机视觉编码方法应用于解码端的流程示意图；

图6是本申请实施例提供的一种基于反馈优化的人机视觉编码装置的结构示意图；

图7是本申请实施例提供的另一种基于反馈优化的人机视觉编码装置的结构示意图；

图8是本申请实施例提供的第一流生成模块示意图；

图9是本申请实施例提供的一种终端示意图。

具体实施方式

以下描述和附图充分地描述出本申请的具体实施方案，以使本领域的技术人员能够实践它们。

应当明确，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本申请中的具体含义。此外，在本申请的描述中，除非另有说明，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

到目前为止，在编码分析体系中，为了使得带宽和存储资源消耗减少，目前的方案是采用数字视网膜架构和相关方法利用数据、模型和特征三个流协同学习，实现前后端资源的联合分配，实现高效的视频编码、理解与分析。当对海量大数据进行分析时，该框架存在不足有：(1)特征视频流独立处理：数据流和特征流的传输与利用对同一组数据而言是分离的，因此存在冗余，造成资源浪费；(2)数据单向变换：尽管前后端之间存在交互，但信息流的本质是单向的，方向为像素特征流向语义特征，信息由多向少；(3)不可伸缩：基于视频数据优化视频压缩和特征压缩，不能灵活支持不同类型任务的编码分析切换。为此，本申请提供了一种基于反馈优化的人机视觉编码方法和装置，以解决上述相关技术问题中存在的问题。本申请提供的技术方案中，由于本方案支持以较小码流直接压缩和传输特征，支持高效的视频理解分析，同时支持基于特征的码流重建，以较小代价同时支持视频重建。考虑到实际应用中的码率需求变化，本发明基于伸缩反馈实现了码率增量调整以支持理解分析和视频查看任务，同时还允许基于已有的分析数据与特征，进行前端的模型更新，提升模型的性能和效率。

下面将结合附图1-附图5，对本申请实施例提供的基于反馈优化的人机视觉编码方法进行详细介绍。该方法可依赖于计算机程序实现，可运行于基于冯诺依曼体系的基于反馈优化的人机视觉编码装置上。

请参见图1，为本申请实施例提供了一种基于反馈优化的人机视觉编码方法的流程示意图。如图1所示，本申请实施例的所述方法可以包括以下步骤：

S101，编码端获取所述目标视频对应的像素特征；

在本申请实施例中，首先编码端通过摄像头采集不同时刻的图像帧，在一段时间内采集的图像帧集合生成目标视频，当目标视频形成后，根据预先保存的程序处理图像后获取目标视频的像素特征。

S102，编码端将所述像素特征输入预设预测模型中生成语义特征；

在一种可能的实现方式中，根据步骤S101可得到目标视频对应的像素特征，在得到像素特征后，将像素特征输入预先保存的预测模型中进行处理，处理后生成目标视频对应的语义特征。

例如，在前端(编码端)，将输入视频V经过预测模型P(·|θ _p)提取特征F＝{f _i}:

F＝P(V，λ|θ _p)，

其中，θ _p是待学习的参数。F是紧凑的特征，传输和存储仅需要较少的比特流，λ是码率控制参数。压缩模型C _F(·|θ _cf)将F压缩为特征流B _F:

B _F＝C _F(F|θ _cf),

其中，θ _cf是待学习的参数。

S103，编码端基于所述语义特征生成视频流和特征流；

在一种可能的实现方式中，根据步骤S102可得到目标视频对应的语义特征，在得到语义特征后，将语义特征输入预设生成模型中生成重建视频，再将目标视频和重建视频相减生成残差视频，然后将残差视频进行编码后生的视频流。将目标视频对应的语义特征输入预设的压缩模型中生成特征流，再将特征流进行编码后生成编码后的特征流。最后将编码后的特征流和视频流发送至解码端。

例如，在前端(编码端)，将提取的特征F＝{f _i}输入到生成模型中，生成得到重建视频

其中，θ _g是待学习的参数。生成的

与原视频V越一致，则可以以更小的代价直接根据传输的F提供高质量的重建视频，用于人工查看。

在前端(编码端)，将原视频V和重建的视频

相减，得到残差视频

编码为视频流B _v:

B _V＝C _V(R|θ _cv),

其中，C _V(·|θ _cv)是视频压缩模型，θ _cv是待学习的参数。

S104，解码端基于所述编码后的特征流和视频流生成解码视频；

在一种可能的实现方式中，首先当接收到针对解码端发送的编码后的特征流和视频流时，然后将编码后的特征流进行解码生成解码后的特征流，再将解码后的特征流输入预设生成模型中得到重建视频，再将视频流进行复原后生成残差视频，再将残差视频和重建视频相加后生成解码视频。最后当接收到针对客户端输入的参数调整指令时，生成码率参数发送至编码端。

例如，在后端(解码端)，将特征流B _F复原为特征

其中，D _F(·|θ _df)是特征解压模型，θ _df是待学习的参数。只需要较少计算，就可以用于后端的智能分析应用，支撑快速的理解分析应用。

在后端(解码端)，将特征

输入到生成模型中，生成得到重建视频

以在没有视频流传输的情况下，提供重建视频，用于快速查看：

在后端(解码端)，将视频流B _V复原为残差视频

，加上重建视频

，得到解码视频

:

其中，D _V(·|θ _dv)是视频解压模型，θ _dv是待学习的参数。解码视频用于人眼视频内容查看及机器视觉应用。

S105，解码端当接收到针对客户端输入的参数调整指令时，生成码率参数发送至编码端；

在一种可能的实现方式中，当已有特征或视频的质量并不能满足应用需求时，从后端向前端发起伸缩反馈。根据实际应用中的特征或视频的码率需求，增量增加码率，提升服务于人眼视觉和机器视觉应用的质量。

例如，现有特征和视频不能满足后端(解码端)的需求，生成一个新的码率参数

，发送到前端(编码端)，增强生成新的增量残差视频码流R ^U和特征码流ΔF。

S106，编码端获取当前码率；

S107，编码端基于所述码率参数对所述当前码率进行调整生成调整后的码率；

S108，编码端基于所述调整后的码率增强所述视频流和所述特征流，生成增强后的视频流和增强后的特征流；

S109，解码端基于所述增强后的视频流和增强后的特征流对编码端模型进行更新，所述编码端模型包括预测模型和生成模型。

在一种可能的实现方式中，基于存储的特征和视频，针对当前场景优化模型参数。并将模型参数传输或增强传输到前端，以进行更高效的视频特征抽取和压缩。

具体的，在前端(编码端)，给定已编码特征F和调整后的码率控制参数

，将输入视频V＝{v _i}经过预测模型Q(·|θ _q)进行增量特征提取:

其中，θ _q是待学习的参数。ΔF是增量特征，将Δf压缩为特征流B _DF:

B _DF＝C _DF(ΔF|θ _cdf),

其中，C _DF(·|θ _cdf)是特征压缩模型，θ _cdf是待学习的参数。

在前端(编码端)，将更新后的特征F ^U＝F+ΔF的两个部分F和ΔF输入到生成模型中，生成得到增量重建视频

:

其中，θ _h是待学习的参数。

与原视频V越一致，则可以以更小的代价直接根据传输的F和ΔF提供高质量的重建视频，用于人工查看。

在前端(编码端)，将原视频V，与重建的视频

和第一次传输的残差视频

相减，得到增量残差视频

，编码为视频流B _DV:

B _DV＝C _DV(R ^U|θ _cdr),

其中，C _DV(·|θ _cdr)是视频压缩模型，θ _cdr是待学习的参数。

在后端(解码端)，将特征流B _DF解码为增量特征

：

其中，D _DF(·|θ _ddf)是增量特征解压模型，θ _ddf是待学习的参数。

用于提升后端智能分析应用的准确性。

在后端(解码端)，将特征

和

输入到生成模型中，生成得到增量重建视频

。以在没有增量视频流传输的情况下，提供更高质量的重建视频，用于快速查看：

在后端(解码端)，将视频流B _DV复原为增量残差视频

，加上重建视频

、增量重建视频

和上一次传输的残差视频

，得到更新后的解码视频

:

其中，D _DV(·|θ _ddv)是视频解压模型，θ _ddv是待学习的参数。解码视频用于细粒度的视频内容查看。

在后端(解码端)，根据解码视频

和特征

，对前端模型进行调整，生成模型变化量ΔM：

在前端(编码端)，更新模型：

M′＝ΔM+M.

在本申请实施例中，例如图2和图3所示，利用两种反馈机制——像素特征与语义特征的协同反馈和后端与前端的伸缩反馈，突破性地实现了对数据/特征/模型流的联合优化。像素特征与语义特征的协同反馈通过预测和生成模型实现像素特征和语义特征之间的灵活转换，有效映射语义特征到像素特征，提高框架编码效率以及支撑应用的灵活性和伸缩性，同时高效服务于人眼视觉和机器视觉。后端与前端的伸缩反馈在编码重建准确率未能达到应用需求时，允许后端(解码端)发起伸缩反馈，使前端(编码端)增量提供码流，提升后端(解码端)解码特征/视频的质量，提升应用性能。

请参见图4，为本申请实施例提供了一种基于反馈优化的人机视觉编码方法应用于编码端的流程示意图。如图4所示，本申请实施例的所述方法可以包括以下步骤：

S201，通过摄像头采集图像帧生成目标视频；

S202，获取所述目标视频对应的像素特征；

S203，将所述像素特征输入预设预测模型中生成语义特征；

S204，将所述语义特征输入预设生成模型中生成重建视频；

S205，将所述目标视频和重建视频相减生成残差视频；

S206，将所述残差视频进行编码后生成视频流。

S207，将所述语义特征输入预设压缩模型中生成特征流；

S208，将所述特征流进行编码生成编码后的特征流；

S209，将所述编码后的特征流和所述视频流发送至解码端。

请参见图5，为本申请实施例提供了一种基于反馈优化的人机视觉编码方法应用于解码端的流程示意图。如图5所示，本申请实施例的所述方法可以包括以下步骤：

S301，当接收到针对解码端发送的编码后的特征流和视频流时，获取编码后的特征流和视频流；

S302，将所述编码后的特征流进行解码生成解码后的特征流；

S303，将所述解码后的特征流输入预设生成模型中得到重建视频；

S304，将所述视频流进行复原后生成残差视频；

S305，将所述残差视频和所述重建视频相加后生成解码视频。

S306，当接收到针对客户端输入的参数调整指令时，生成码率参数发送至编码端。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

请参见图6，其示出了本申请一个示例性实施例提供的基于反馈优化的人机视觉编码装置的结构示意图。该基于反馈优化的人机视觉编码方法装置可以通过软件、硬件或者两者的结合实现成为终端的全部或一部分。该装置1包括像素特征获取模块10、语义特征获取模块20、第一流生成模块30、视频生成模块40、第一码率生成模块50、码率获取模块60、第二码率生成模块70、第二流生成模块80、模型更新模块90。

像素特征获取模块10，用于编码端获取所述目标视频对应的像素特征；

语义特征获取模块20，用于编码端将所述像素特征输入预设预测模型中生成语义特征；

第一流生成模块30，用于编码端基于所述语义特征生成视频流和特征流；

视频生成模块40，用于解码端基于所述编码后的特征流和视频流生成解码视频；

第一码率生成模块50，用于解码端当接收到针对客户端输入的参数调整指令时，生成码率参数发送至编码端；

码率获取模块60，用于编码端获取当前码率；

第二码率生成模块70，用于编码端基于所述码率参数对所述当前码率进行调整生成调整后的码率；

第二流生成模块80，用于编码端基于所述调整后的码率增强所述视频流和所述特征流，生成增强后的视频流和增强后的特征流；

模型更新模块90，用于解码端基于所述增强后的视频流和增强后的特征流对编码端模型进行更新，所述编码端模型包括预测模型和生成模型。

可选的，如图7所示，所述装置1还包括：

视频采集模块100，用于编码端通过摄像头采集图像帧生成目标视频。

可选的，如图8所示，所述第一流生成模块30，包括：

第一视频生成单元310，用于编码端将所述语义特征输入预设生成模型中生成重建视频；

第二视频生成单元320，用于编码端将所述目标视频和重建视频相减生成残差视频；

视频流生成单元330，用于编码端将所述残差视频进行编码后生成视频流；

特征流生成单元340，用于编码端将所述语义特征输入预设压缩模型中生成特征流。

需要说明的是，上述实施例提供的基于反馈优化的人机视觉编码装置在基于反馈优化的人机视觉编码方法时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的基于反馈优化的人机视觉编码装置与基于反馈优化的人机视觉编码方法实施例属于同一构思，其体现实现过程详见方法实施例，这里不再赘述。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本申请还提供一种计算机可读介质，其上存储有程序指令，该程序指令被处理器执行时实现上述各个方法实施例提供的基于反馈优化的人机视觉编码方法。

本申请还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述各个方法实施例所述的基于反馈优化的人机视觉编码方法。

请参见图9，为本申请实施例提供了一种终端的结构示意图。如图9所示，所述终端1000可以包括：至少一个处理器1001，至少一个网络接口1004，用户接口1003，存储器1005，至少一个通信总线1002。

其中，通信总线1002用于实现这些组件之间的连接通信。

其中，用户接口1003可以包括显示屏(Display)、摄像头(Camera)，可选用户接口1003还可以包括标准的有线接口、无线接口。

其中，网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。

其中，处理器1001可以包括一个或者多个处理核心。处理器1001利用各种借口和线路连接整个电子设备1000内的各个部分，通过运行或执行存储在存储器1005内的指令、程序、代码集或指令集，以及调用存储在存储器1005内的数据，执行电子设备1000的各种功能和处理数据。可选的，处理器1001可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现。处理器1001可集成中央处理器(Central Processing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示屏所需要显示的内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器1001中，单独通过一块芯片进行实现。

其中，存储器1005可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。可选的，该存储器1005包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器1005可用于存储指令、程序、代码、代码集或指令集。存储器1005可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等；存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图9所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及基于反馈优化的人机视觉编码应用程序。

在图9所示的终端1000中，用户接口1003主要用于为用户提供输入的接口，获取用户输入的数据；而处理器1001可以用于调用存储器1005中存储的基于反馈优化的人机视觉编码应用程序，并具体执行以下操作：

编码端获取所述目标视频对应的像素特征；

编码端将所述像素特征输入预设预测模型中生成语义特征；

编码端基于所述语义特征生成视频流和特征流；

解码端基于所述编码后的特征流和视频流生成解码视频；

编码端获取当前码率；

在一个实施例中，所述处理器1001在执行所述编码端获取所述目标视频对应的像素特征之前时，还执行以下操作：

编码端通过摄像头采集图像帧生成目标视频。

在一个实施例中，所述处理器1001在执行所述编码端基于所述语义特征生成视频流和特征流时，具体执行以下操作：

编码端将所述语义特征输入预设生成模型中生成重建视频；

编码端将所述目标视频和重建视频相减生成残差视频；

编码端将所述残差视频进行编码后生成视频流；

编码端将所述语义特征输入预设压缩模型中生成特征流。

本领域技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。所属技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本文所披露的实施例中，应该理解到，所揭露的方法、产品(包括但不限于装置、设备等)，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

应当理解的是，附图中的流程图和框图显示了根据本申请的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。本申请并不局限于上面已经描述并在附图中示出的流程及结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

一种基于反馈优化的人机视觉编码方法，应用于编码端，其特征在于，所述方法包括：

通过摄像头采集图像帧生成目标视频；

获取所述目标视频对应的像素特征；

将所述像素特征输入预设预测模型中生成语义特征；

基于所述语义特征生成视频流；

将所述语义特征输入预设压缩模型中生成特征流；

将所述特征流进行编码生成编码后的特征流；

将所述编码后的特征流和所述视频流发送至解码端。
根据权利要求1所述的方法，其特征在于，所述基于所述语义特征生成视频流，包括：

将所述语义特征输入预设生成模型中生成重建视频；

将所述目标视频和重建视频相减生成残差视频；

将所述残差视频进行编码后生成视频流。
一种基于反馈优化的人机视觉编码方法，应用于解码端，其特征在于，所述方法包括：

当接收到针对解码端发送的编码后的特征流和视频流时，获取编码后的特征流和视频流；

基于所述编码后的特征流和视频流生成解码视频；

当接收到针对客户端输入的参数调整指令时，生成码率参数发送至编码端。
根据权利要求3所述的方法，其特征在于，所述基于所述编码后的特征流和视频流生成解码视频，包括：

将所述编码后的特征流进行解码生成解码后的特征流；

将所述解码后的特征流输入预设生成模型中得到重建视频；

将所述视频流进行复原后生成残差视频；

将所述残差视频和所述重建视频相加后生成解码视频。
一种基于反馈优化的人机视觉编码方法，其特征在于，所述方法包括：

编码端获取所述目标视频对应的像素特征；

编码端将所述像素特征输入预设预测模型中生成语义特征；

编码端基于所述语义特征生成视频流和特征流；

解码端基于所述编码后的特征流和视频流生成解码视频；

解码端当接收到针对客户端输入的参数调整指令时，生成码率参数发送至编码端；

编码端获取当前码率；

编码端基于所述码率参数对所述当前码率进行调整生成调整后的码率；

编码端基于所述调整后的码率增强所述视频流和所述特征流，生成增强后的视频流和增强后的特征流；

解码端基于所述增强后的视频流和增强后的特征流对编码端模型进行更新，所述编码端模型包括预测模型和生成模型。
根据权利要求5所述的方法，其特征在于，所述编码端获取所述目标视频对应的像素特征之前，还包括：

编码端通过摄像头采集图像帧生成目标视频。
根据权利要求5所述的方法，其特征在于，所述编码端基于所述语义特征生成视频流和特征流，包括：

编码端将所述语义特征输入预设生成模型中生成重建视频；

编码端将所述目标视频和重建视频相减生成残差视频；

编码端将所述残差视频进行编码后生成视频流；

编码端将所述语义特征输入预设压缩模型中生成特征流。
一种基于反馈优化的人机视觉编码装置，其特征在于，所述装置包括：

像素特征获取模块，用于编码端获取所述目标视频对应的像素特征；

语义特征获取模块，用于编码端将所述像素特征输入预设预测模型中生成语义特征；

第一流生成模块，用于编码端基于所述语义特征生成视频流和特征流；

视频生成模块，用于解码端基于所述编码后的特征流和视频流生成解码视频；

第一码率生成模块，用于解码端当接收到针对客户端输入的参数调整指令时，生成码率参数发送至编码端；

码率获取模块，用于编码端获取当前码率；

第二码率生成模块，用于编码端基于所述码率参数对所述当前码率进行调整生成调整后的码率；

第二流生成模块，用于编码端基于所述调整后的码率增强所述视频流和所述特征流，生成增强后的视频流和增强后的特征流；

模型更新模块，用于解码端基于所述增强后的视频流和增强后的特征流对编码端模型进行更新，所述编码端模型包括预测模型和生成模型。
根据权利要求8所述的装置，其特征在于，所述装置还包括：

视频采集模块，用于编码端通过摄像头采集图像帧生成目标视频。
根据权利要求8所述的装置，其特征在于，所述第一流生成模块，包括：

第一视频生成单元，用于编码端将所述语义特征输入预设生成模型中生成重建视频；

第二视频生成单元，用于编码端将所述目标视频和重建视频相减生成残差视频；

视频流生成单元，用于编码端将所述残差视频进行编码后生成视频流；

特征流生成单元，用于编码端将所述语义特征输入预设压缩模型中生成特征流。