WO2022078413A1

WO2022078413A1 - 基于深度学习的图像调色方法、装置、电子设备及计算机可读存储介质

Info

Publication number: WO2022078413A1
Application number: PCT/CN2021/123631
Authority: WO
Inventors: 符峥; 姜文杰
Original assignee: 影石创新科技股份有限公司
Priority date: 2020-10-13
Filing date: 2021-10-13
Publication date: 2022-04-21
Also published as: CN114359058A

Abstract

本发明提供了一种基于深度学习的图像调色方法，该方法包括：获取图像训练样本；构建图像调色神经网络模型；加速图像调色神经网络模型；将待调色图像输入图像调色神经网络模型进行调色；输出调色后的图像。与现有技术相比，本发明方案的基于深度学习的图像调色方法的模型构建速度快、实现成本低、调色速度快，且调色结果具有较高美学水平，能有效减少创作者的图像或视频的调色时间，提升了创造者的作品水平与调色体验。

Description

基于深度学习的图像调色方法、装置、电子设备及计算机可读存储介质

技术领域

本申请涉及视频处理技术领域，具体涉及一种基于深度学习的图像调色方法、装置、电子设备及计算机可读存储介质。

背景技术

图像调色增强是指通过算法来调整图片或视频帧的对比度、饱和度、色调等，以改变图片或视频帧的整体或局部色彩，包括对图片或视频帧的欠曝、过曝、饱和度低等进行处理，使得图片或视频帧看上去更加饱满生动。图像调色增强技术在影视制作、摄影摄像、医学成像、遥感成像等领域都有着广泛的应用。此外，图像调色增强算法还可以作为目标识别、目标跟踪、特征点匹配、图像融合、超分辨率重构等图像处理算法的预处理算法。

传统调色软件的工作原理是使用预设好的图像处理参数，或根据预调色生成的颜色查找表（常被称为“预设”或“滤镜”），将被调色图像/视频中像素的颜色转换成另一种颜色，最终实现调色效果。这种方案下每种预设仅适用于特定颜色范围的场景，如果图像中色彩丰富、光照条件复杂，或视频中场景变化较大，则会导致调色后画面色彩不统一、色偏、画面不符合用户美感等问题。当用户需要调整局部图像区域或视频片段颜色时，必须手动选择并精细调整，难以满足用户快速调色的需求。

技术问题

近年来，基于深度学习的图像增强技术得到了快速发展，这些算法通过有监督或半监督学习的方式，从大量的训练数据对中，让神经网络学习出图像增强前后的映射关系。现有的深度学习方法是先基于神经网络对图像进行分类，再加载对应类别的滤镜对图像调色。但该方法的分类无法涵盖所有类型拍摄景物与背景，且不能分别对图像中不同区域或视频中不同片段准确调色，容易引起颜色失真、噪声、伪影、恢复力度不够等问题；此外，还存在神经网络模型训练时间过长等问题。

本发明的目的在于提供一种基于深度学习的图像调色方法、装置、电子设备及计算机可读存储介质，旨在解决现有基于深度学习的图像调色存在的缺陷。

技术解决方案

第一方面，本发明提供了一种基于深度学习的图像调色方法，该方法包括：获取图像训练样本；构建图像调色神经网络模型；加速图像调色神经网络模型；将待调色图像输入图像调色神经网络模型进行调色；输出调色后的图像。

第二方面，本发明提供了一种基于深度学习的图像调色装置，该装置包括：获取模块，用于获取图像训练样本；构建模块，用于构建图像调色神经网络模型；加速模块，用于加速图像调色神经网络模块；输入模块，用于将待调色图像输入图像调色神经网络模型进行调色；输出模块，用于输出调色后的图像。

第三方面，本发明提供了一种电子设备，包括存储器，用于存储可执行指令；处理器，用于执行所述存储器中存储的可执行指令时实现上述的基于深度学习的图像调色方法。

第四方面，一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述的基于深度学习的图像调色方法。

有益效果

与现有技术相比，本发明方案的基于深度学习的图像调色方法的模型构建速度快、实现成本低、调色速度快，且调色结果具有较高美学水平，能有效减少创作者的图像或视频的调色时间，提升了创造者的作品水平与调色体验。

附图说明

图1是本发明实施例中的基于深度学习的图像调色方法的流程图。

图2是本发明实施例中的图像调色装置的结构框图。

图3是本发明实施例中的电子设备的结构框图。

本发明的实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。

实施例1

如图1所示，本实施例中的基于深度学习的图像调色方法包括以下步骤。

S1：获取图像训练样本。

在本实施例中，图像训练样本通过以下方式获得，将拍摄装置拍摄的原始图像作为输入样本，将输入样本经人工调色的图像作为目标样本。具体地，收集多张使用拍摄装置获取的未调色平面图像，由专业调色人员对未调色平面图像调色，再由其他具有专业审美水平的专家比较未调色图像与已调色图像，采用主观评分方式评价已调色图像，然后选择评分大于设定分数阈值的已调色图像及其对应的未调色前的原始图像分别作为目标样本和输入样本。本实施例中的拍摄装置为任意可获得数字图像的设备，包括但不限于单反相机、无反相机、带有拍照与摄像功能的手机、运动相机、全景相机等。若所述拍摄装置为全景相机，则将所述全景相机获得的全景视频投影或裁剪获得所述平面图像。

图像训练样本还可以通过以下方式获得：获取不存在调色缺陷的图像，再将该图像进行降质处理，然后将不存在调色缺陷的图像作为目标样本，将目标样本对应的已降质的图像作为输入样本。具体地，将具有美感且画质饱满的图像经过曝、欠曝、降低对比度、调低色彩饱和度、降低分辨率等至少一个操作后得到降质后的图像，然后将降质后的图像作为输入样本，将该美感且画质饱满的图像作为目标样本。由上可知，可通过对不存在调色缺陷的图像进行不同的降质操作而得到多个输入样本。

S2：构建图像调色神经网络模型。

本实施例中，首先构建带有双边引导上采样的深度神经网络模型，然后将S1中的图像训练样本输入深度神经网络模型进行训练以得到训练后的深度神经网络模型，然后输入存在调色缺陷的图像检测训练后的深度神经网络模型的调色效果，并根据调色效果对训练后的深度神经网络模型进行优化，以得到图像调色神经网络模型。

本实施例中带有双边引导上采样的深度神经网络模型构建为：对输入图像进行降采样，应用卷积神经网络提取图像特征得到双边网格并平滑，根据输入图像的引导图应用双边网格做上采样，最后输出已调色图像。该模型构建可参考论文：Gharbi M, Chen J, Barron J T, et al. Deep bilateral learning for real-time image enhancement[J]. ACM Transactions on Graphics (TOG), 2017, 36(4): 118。

本实施例中的图像调色神经网络模型的构建包括以下步骤：

S21：将图像训练样本输入深度神经网络模型进行训练直至模型损失函数收敛以得到训练后的深度神经网络模型。

具体地，将摄像装置的拍摄的原始图像或降质后的图像作为输入样本，将对应所述已调色图像或不存在调色缺陷的图像作为目标样本，输入带有双边引导上采样的深度神经网络模型进行训练。训练时使用均方误差损失函数（MSE Loss Function）评价深度神经网络模型输出图像与目标样本之间的误差。当损失函数值小于2×10 ^-4时，认为模型损失函数收敛，完成深度神经网络模型的训练。

S22：将图像训练样本外的一定数量的存在调色缺陷的图像输入训练后的深度神经网络模型得到调色后的图像。

具体地，将图像训练样本外的一定数量（如10张）的存在调色缺陷的图像输入训练后神经网络模型得到调色后的多张图像。

S23：判断调色后的图像的调色效果是否都达到了预定调色效果，如果否，则进入步骤S24；如果是，则进入步骤S25。

具体地，由具有专业审美水平的专家采用主观评分方式评价调色后的每张图像的调色效果，如果所有图像的评分都大于或等于设定分数阈值时，认为该图像调色神经网络模型的调色效果已具有较高美学水平，则进入步骤S24，即可以将该训练后神经网络模型作为图像调色神经网络模型；如果有至少一张图像的评分小于设定分数阈值时，则认为图像调色神经网络模型还需优化，此时进入步骤S25。

S24：将未达到预定调色效果的图像经人工调色处理以达到理想的调色效果的图像，再将该调色后的图像进行不同的降质处理以得到多张降质后的图像，然后将降质后的各图像及经人工调色的图像作为图像训练样本并返回步骤S21。

具体地，将未达到理想的调色效果的一张或多张图像通过专业调色人员使用调色软件进行调色并得到经专业审美水平认同的调色后的图像，再将该调色后的图像进行不同的降质处理（如过曝、欠曝、降低对比度、调低色彩饱和度、降低分辨率等），得到多张降质后的图像，然后将该多张降质后的图像作为输入样本，将调色后的图像作为目标样本并返回步骤S21，即将对深度神经网络模型进行的调色效果进行优化。

S25：将训练后的深度神经网络模型作为图像调色神经网络模型。

由于训练后的神经网络模型在对一定数量的图像进行调色后都达到了理想的调色效果，此时可以认为其调色效果已具有较高美学水平，可以不需再进行训练，可以作为图像调色神经网络模型。

通过上述具体步骤的描述可以知道，本实施例通过对深度神经网络模型有针对性的进行训练和持续优化，提高了图像调色神经网络模型的构建速度和调色效果。

S3：加速图像调色神经网络模型。

应用GPU（Graphic Processing Unit，即图像处理单元）对所述带有双边引导上采样的深度神经网络模型加速，实现模型实时运行。具体为：将所述已具有较高美学水平的深度神经网络模型参数导出为二进制文件；在调色程序中集成开源深度神经网络推理引擎，并导入二进制深度神经网络模型参数；根据开源神经网络推理引擎API对输入图像进行推理，得到双边网格与引导图；在可编程GPU上使用图形引擎API实现双边网格上采样加速过程，最后输出调色后图像。通过上述对图像调色神经网络模型进行加速，有利于提高图像调色神经网络模型的图像调色处理速度。

S4：将待调色图像输入图像调色神经网络模型进行调色。

将未调色平面图像或视频数据输入图像调色神经网络模型进行调色处理。其中，未调色平面图像或视频为拍摄装置获得的数字平面图像或视频。若所述拍摄装置为全景相机，则将全景相机获得的全景图片或视频经投影或裁剪获得所述平面图像与视频。调色处理过程中，若输入为平面图像，则经过所述模型调色后输出调色后图像；若输入为平面视频，则将平面视频拆分为平面视频帧，经所述模型后调色输出调色后视频帧，再拼接为调色后平面视频。

S5：输出调色后的图像。

通过电子设备（如相机或手机）的显示屏输出调色后的图像。

实施例2

如图2所示，本实施例揭示了一种基于深度学习的图像调色装置，包括：获取模块，用于获取图像训练样本；构建模块，用于构建图像调色神经网络模型；加速模块，用于加速图像调色神经网络模块；输入模块，用于将待调色图像输入图像调色神经网络模型进行调色；输出模块，用于输出调色后的图像。

实施例3

如图3所示，本实施例揭示了一种电子设备，包括存储器和处理器。存储器用于存储可执行指令；处理器，用于执行所述存储器中存储的可执行指令时实现实施例1中的基于深度学习的图像调色方法。

本实施例中的可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言（包括编译或解释语言，或者声明性或过程性语言）来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言（HTML，Hyper TextMarkup Language）文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件（例如，存储一个或多个模块、子程序或代码部分的文件）中。作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

实施例4

本实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现实施例1中的基于深度学习的图像调色方法。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，存储介质可以是计算机可读存储介质，例如，铁电存储器（FRAM，Ferromagnetic Random Access Memory）、只读存储器（ROM，Read Only Memory）、可编程只读存储器（PROM，Programmable Read Only Memory）、可擦除可编程只读存储器（EPROM，Erasable Programmable Read Only Memory）、带电可擦可编程只读存储器（EEPROM，Electrically Erasable Programmable Read Only Memory）、闪存、磁表面存储器、光盘、或光盘只读存储器（CD-ROM，Compact Disk-Read Only Memory）等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

一种基于深度学习的图像调色方法，其特征在于，包括：

S1：获取图像训练样本；

S2：构建图像调色神经网络模型；

S3：加速图像调色神经网络模型；

S4：将待调色图像输入图像调色神经网络模型进行调色；

S5：输出调色后的图像。
根据权利要求1所述的图像调色方法，其特征在于，所述步骤S1中的获取图像训练样本包括：先获取全景图像，再将全景图像转换为平面图像。
根据权利要求1所述的图像调色方法，其特征在于，所述步骤S1中的图像训练样本包括输入样本和目标样本；其中，输入样本为拍摄装置拍摄的原始图像，目标样本为经人工对输入样本进行调色后的图像。
根据权利要求1所述的图像调色方法，其特征在于，所述步骤S1中的图像训练样本包括输入样本和目标样本；其中，目标样本为不存在调色缺陷的图像，输入样本为将目标样本经降质处理后的图像。
根据权利要求1所述的图像调色方法，其特征在于，所述步骤S2中的构建图像调色神经网络模型包括：

S21：将图像训练样本输入深度神经网络模型进行训练直至模型损失函数收敛以得到训练后的深度神经网络模型；

S22：将图像训练样本外的一定数量的存在调色缺陷的图像输入训练后的深度神经网络模型得到调色后的图像；

S23：判断调色后的图像的调色效果是否都达到了预定调色效果，如果否，则进入步骤S24；如果是，则进入步骤S25;

S24：将未达到预定调色效果的图像经人工调色处理以达到理想的调色效果的图像，再将该调色后的图像进行不同的降质处理以得到多张降质后的图像，然后将降质后的各图像及经人工调色的图像作为图像训练样本并返回步骤S21；

S25：将训练后的深度神经网络模型作为图像调色神经网络模型。
根据权利要求1所述的图像调色方法，其特征在于，所述步骤S3中的加速图像调色神经网络模型为：将深度神经网络模型的参数导出为二进制文件；在调色程序中集成开源深度神经网络推理引擎，并导入二进制深度神经网络模型参数；根据开源神经网络推理引擎API对输入图像进行推理，得到双边网格与引导图；在可编程GPU上使用图形引擎API实现双边网格上采样加速过程，最后输出调色后图像。
根据权利要求1所述的图像调色方法，其特征在于，所述步骤S4中的将待调色图像输入图像调色神经网络模型进行调色为：对待调色图像进行降采样，应用卷积神经网络提取图像特征得到双边网格并平滑，再根据输入图像的引导图应用双边网格做上采样。
一种基于深度学习的图像调色装置，其特征在于，包括：

获取模块，用于获取图像训练样本；

构建模块，用于构建图像调色神经网络模型；

加速模块，用于加速图像调色神经网络模块；

输入模块，用于将待调色图像输入图像调色神经网络模型进行调色；

输出模块，用于输出调色后的图像。
一种电子设备，其特征在于，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时实现权利要求1至7任一项所述基于深度学习的图像调色方法。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1至7任一项所述基于深度学习的图像调色方法。