WO2023236565A1

WO2023236565A1 - 一种基于强化学习和美学评估的低光图像增强方法

Info

Publication number: WO2023236565A1
Application number: PCT/CN2023/074843
Authority: WO
Inventors: 梁栋; 李铃; 黄圣君; 陈松灿
Original assignee: 南京航空航天大学
Priority date: 2022-06-10
Filing date: 2023-02-07
Publication date: 2023-12-14
Also published as: CN114723643A; CN114723643B

Abstract

本发明公开了一种基于强化学习和美学评估的低光图像增强方法，首先生成不同光照场景下的非正常亮度图像，并基于图像构建强化学习系统的训练数据集；接着初始化强化学习系统中的训练数据集、策略网络和价值网络，基于无参考奖励值和美学评估奖励值更新策略网络和价值网络；完成训练后输出增强后的图像结果；本发明通过对强化学习中定义的动作空间范围扩大，输入的低光图像得到的增强操作就有了更大的动态范围，对于现实场景具有更高的灵活性，能更好的满足真实场景下的低光图像增强需求；此外通过引入美学质量评估的分数作为损失函数的一部分，可以使增强后的图像具有更好的视觉效果及用户主观评价得分。

Description

一种基于强化学习和美学评估的低光图像增强方法

技术领域

本发明涉及图像增强技术领域，主要涉及一种基于强化学习和美学评估的低光图像增强方法。

背景技术

在恶劣照明条件下拍摄的图片，由于数码相机传感器的入射光亮不足，会导致图像的动态范围低，同时还会受到噪声的严重干扰，难以获得高质量的图像，而低光图像增强在计算机视觉领域扮演着十分重要的角色。低光照拍摄的图片往往会有很多不良影响，例如拍出来的图像模糊导致图像主体不确定，人脸模糊导致识别不准确，细节模糊导致图像表达意思错误。这样的话不仅会影响人使用摄像设备的体验，降低了照片质量；有时候更是会导致传达错误的信息。低光图像增强使拍摄的图像亮度更亮、对比度更高、结构信息更明显，从而有利于后续的高层次工作，比如目标检测、人脸识别、图像分类等，具有很强的现实意义。

近年来，基于深度学习的方法通常以高质量的正常光图像作为指导，来学习如何改进和增强低光图像。LL-Net(Kin Gwn Lore,Adedotun Akintayo,and Soumik Sarkar.2017.LLNet:A deep autoencoder approach to natural low-light image enhancement.Pattern Recognition 61(2017),650–662.)提出了一种堆叠自动编码器，利用合成的低光/正常光图像对同时进行去噪和增强。然而，由于其与真实图像的差异，合成数据的分布不可避免地偏离真实世界的图像，因此在转移到真实情况时导致性能严重下降。随后，Wei等人(Chen Wei,Wenjing Wang,Wenhan Yang,and Jiaying Liu.2018.Deep retinex decomposition for low-light enhancement.arXiv preprint arXiv:1808.04560(2018).)收集了一个具有低光/正常光图像对的真实数据集，在此基础上，提出了视网膜网络以数据驱动的方式将图像分解为照明和反射率。在此之后，还有很多其他有监督的低光图像增强神经网络被提出(Wenhan Yang,Shiqi Wang,Yuming Fang,Yue Wang,and Jiaying Liu.2020.From Fidelity to Perceptual Quality:A Semi-Supervised Approach for Low-Light Image Enhancement.In IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).；Yonghua Zhang,Jiawan Zhang,and Xiaojie Guo.2019.Kindling the darkness:A practical low-light image enhancer.In Proceedings of the 27th ACM International Conference on Multimedia. 1632–1640.)。最近的方法侧重于无监督的低光图像增强，它可以直接使用没有任何配对训练数据的低光图像来对模型进行训练。最近的Zero-DCE(Chunle Guo,Chongyi Li,Jichang Guo,Chen Change Loy,Junhui Hou,Sam Kwong,and Runmin Cong.2020.Zero-Reference Deep Curve Estimation for Low-Light Image Enhancement.In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.1780–1789.)使用非参考损失来训练深度低光图像增强模型。然而，现有的深度学习方法往往只关注对亮度不足的低光图像的增强，但是在背光条件和光照不均匀场景下的低光图像中还会存在正常亮度或者过度曝光的现象。

另一方面，对于图像增强任务而言，最重要的评价标准就是用户的主观评价。但是在现有的方法中在模型的训练阶段往往都采用有参考/无参考的客观评价指标(损失函数)来指导模型的训练。其中有参考的损失函数主要包括L₁损失、L₂损失和SSIM损失，无参考的损失函数主要使用的是空间一致性损失(Spatial Consistency Loss)、曝光控制损失(Exposure Control Loss)、颜色恒常损失(Color Constancy Loss)和亮度平滑损失(Illumination Smoothness Loss)。以上所述的有参考/无参考损失函数关注的更多是低光图像和正常亮度图像之间的差距以及图像自身的特征，忽略了用户主观评价。

发明内容

发明目的：针对上述背景技术中存在的问题，本发明提供了一种基于强化学习和美学评估的低光图像增强方法，首先考虑到低光图像成像方式和场景的复杂性，将动作空间范围定义的更广，不仅包括将图像像素亮度提高的操作，还有将图像像素亮度降低的操作。增强操作可以多次进行，通过学习一个随机增强策略，对于现实场景具有更高的灵活性，其次在计算损失函数时，在使用更灵活的无参考损失的同时，引入了新的可以近似看作用户主观评价指标的美学质量评分作为损失函数的一部分。

技术方案：为实现上述目的，本发明采用的技术方案为：

一种基于强化学习和美学评估的低光图像增强方法，包括以下步骤：

步骤S1、生成不同光照场景下的非正常亮度图像，并基于所述图像构建强化学习系统的训练数据集；

步骤S2、初始化强化学习系统中的训练数据集、策略网络和价值网络；

步骤S3、基于无参考奖励值和美学评估奖励值更新策略网络和价值网络；

步骤S4、当所有样本训练完成，且完成所有训练迭代次数时，模型训练完毕；

步骤S5、输出对低光图像增强后的图像结果。

进一步地，所述步骤S2中初始化策略网络和价值网络具体方法包括：

使用当前状态s^(t)作为策略网络和价值网络的输入，s^(t)代表时间步长t时的状态；策略网络的输出是采取动作a^(t)的策略π(a^(t)|s^(t))；价值网络输出值为V(s^(t))，代表来自当前状态s^(t)的预期总奖励。

进一步地，所述步骤S3中更新策略网络和价值网络的具体步骤包括：

步骤S3.1、基于历史阶段图像对训练数据集进行训练，获得环境奖励值如下：
R^(t)＝r^(t)+γr^(t+1)+γ²r^(t+2)+...+γ^n-1r^(t+n-1)+γⁿV(s^(t+n))

其中γⁱ是折扣因子γ的第i次幂，r^(t)代表t时刻的环境奖励值；

步骤S3.2、基于历史阶段图像对训练数据集进行训练，获得价值网络输出值；

步骤S3.3、基于环境奖励值和价值网络输出值对价值网络进行更新：

其中θ_v代表价值网络参数；

步骤S3.4、基于环境奖励值和预测价值对策略网络进行更新：

所述策略网络的输出采用动作a^(t)∈A的策略π(a^(t)|s^(t))，其中π(a^(t)|s^(t))为通过softmax计算得到的概率；A代表动作空间；所述策略网络的输出维度为|A|；具体更新如下：
A(a^(t)，s^(t))＝R^(t)-V(s^(t))

其中θ_p代表策略网络参数。

进一步地，所述步骤S3.4中将动作空间A范围设置为A∈[-0.5，0.5]，步距为0.05，用于预先定义的输出表示，具体如下：
I_t(x)＝I_t-1(x)+A_t(x)I_t-1(x)(1-I_t-1(x))

其中I_t-1(x)代表在t-1步迭代时图像像素点x处的像素值，A_t(x)代表在t步迭代时图像像素点x处选择的动作，I_t(x)代表在t步迭代时图像像素点x处增强后的像素值。

进一步地，所述步骤S3.1中环境奖励值考虑以下影响因子：

(1)空间一致性损失

其中K代表局部区域大小；Ω(i)代表以区域i为中心的四个相邻区域；Y代表增强后的图像中局部区域的像素平均灰度值；I代表输入图像中局部区域的像素平均灰度值；

(2)曝光控制损失

其中E代表图像像素在RGB颜色空间中的灰度水平；M代表非重叠的若干局部区域；Y代表增强后的图像中一个局部区域的像素平均灰度值，局部区域的大小为{k；k∈[1，M]}；

(3)颜色恒常损失

其中J^p代表增强后的图像中p个通道的像素平均灰度值，(p，q)代表(R，G)，(R，B)，(G，B)中的任一通道；ε表示(R,G),(R,B),(G,B)的集合；

(4)亮度平滑损失

其中代表每个状态下的参数曲线映射，N代表强化学习中图像增强的迭代次数，和依次代表水平和垂直梯度运算；ξ表示图像中R，G，B三个通道的集合；

(5)美学质量损失

为了对增强后图像的美学质量进行评分，额外引入图像美学评分深度学习网络模型来对图像进行美学评分，进而计算美学质量损失；分别利用图像的颜色和亮度属性以及质量属性训练两个独立的美学评分模型，记为Model₁和Model₂；通过一个额外引入的美学评估模型进行评分；

美学质量损失表示如下：
L_eva＝αf₁+βf₂

其中f₁表示增强后的图像中颜色和亮度属性的评分，即将增强后的图像输入到Model₁后输出的分数；f₂表示增强后的图像质量属性的评分，即将增强后的图像输入到Model₂后输出的分数，评分越高表示图像的质量越好；α和β均为权重系数；

图像增强的目标是使奖励值r尽可能大；空间一致性损失、曝光控制损失、颜色恒常损失和亮度平滑损失越小表示图像质量越好，美学质量损失越大表示图像质量越好；因此，在t时刻的奖励值r^(t)表示如下：
r^(t)＝-L_spa-L_exp-L_col-L_tv+L_eva

t时刻的环境奖励值在引入影响因子的条件下表示如下：
R^(t)＝r^(t)+γr^(t+1)+γ²r^(t+2)+...+γ^n-1r^(t+n-1)+γⁿV(s^(t+n))。

进一步地，空间一致性损失中将局部区域大小K设置为4×4。

进一步地，曝光控制损失中将E设置为0.6，M代表大小为16×16的非重叠局部区域。

有益效果：

(1)本发明通过对强化学习中定义的动作空间范围扩大，输入的低光图像得到的增强操作就有了更大的动态范围，对于现实场景具有更高的灵活性。考虑到低光场景中的光照不均匀和背光等情况，不仅设置了将图像亮度增强的动作，而且动作空间中还包括将图像亮度变暗的行为，这样的定义方式能更好的满足真实场景下的低光图像增强需求。

(2)本发明通过引入美学质量评估的分数作为损失函数的一部分，可以使增强后的图像具有更好的视觉效果及用户主观评价得分。在现有的基于深度学习的低光增强方法中，大多数方法依赖于成对的训练数据集并采用有参考的损失函数，也有部分方法利用图像自身的信息设计了无参考的损失函数来指导增强网络的训练。但是上述损失均为客观评价指标，本发明引入美学评估分数作为模拟用户主观评价的指标，能够更好的指导低光图像增强网络生成用户满意的高质量图像。

附图说明

图1是本发明提供的基于强化学习和美学评估的低光图像增强方法流程图；

图2是本发明提供的基于强化学习和美学评估的低光图像增强方法的算法框架图；

具体实施方式

下面结合附图对本发明作更进一步的说明。显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供了一种基于强化学习和美学评估的低光图像增强方法，具体原理如图1所示，包括以下步骤：

步骤S1、生成不同光照场景下的非正常亮度图像，并基于图像构建强化学习系统的训练数据集。

步骤S2、初始化强化学习系统中的训练数据集、策略网络和价值网络。

具体地，参考图2，使用当前状态s^(t)作为策略网络和价值网络的输入，s^(t)代表时间步长t时的状态。策略网络的输出是采取动作a^(t)的策略π(a^(t)|s^(t))。价值网络输出值为V(s^(t))，代表来自当前状态s^(t)的预期总奖励，这显示了当前网络状态有多好。

步骤S3、基于无参考奖励值和美学评估奖励值更新策略网络和价值网络。具体地，

其中γⁱ是折扣因子γ的第i次幂。r^(t)代表t时刻的环境奖励值。计算环境奖励值时考虑以下影响因子：

(1)空间一致性损失

其中K代表局部区域大小。Ω(i)代表以区域i为中心的四个相邻区域。Y代表增强后的图像中局部区域的像素平均灰度值。I代表输入图像中局部区域的像素平均灰度值。本实施例中根据经验将局部区域大小K设置为4×4

(2)曝光控制损失

其中E代表图像像素在RGB颜色空间中的灰度水平。M代表非重叠的若干局部区域。Y代表增强后的图像中一个局部区域的像素平均灰度值，局部区域的大小为{k；k∈[1，M]}；本实施例中将E设置为0.6，M代表大小为16×16的非重叠局部区域。

(3)颜色恒常损失

其中J^p代表增强后的图像中p个通道的像素平均灰度值，(p，q)代表(R，G)，(R，B)，(G，B)中的任一通道，ε表示(R,G),(R,B),(G,B)的集合；

(4)亮度平滑损失

其中代表每个状态下的参数曲线映射，N代表强化学习中图像增强的迭代次数，和依次代表水平和垂直梯度运算，ξ表示图像中R，G，B三个通道的集合；。

(5)美学质量损失

目前美学图像分析在计算机视觉领域中引起了越来越多的关注。它与对视觉美学的高级感知有关。用于图像美学质量评估的机器学习模型具备广泛应用前景，如图像检索、照片管理、图像编辑和摄影等。对于人类来说，审美质量评价总是与图像的颜色和亮度、图像的质量、构图和深度以及语义内容相关联。很难将审美质量评价视为一项孤立的任务。为了对增强后图像的美学质量进行评分，本发明额外引入图像美学评分深度学习网络模型来对图像进行美学评分，进而计算美学质量损失。分别利用图像的颜色和亮度属性以及质量属性训练两个独立的美学评分模型，记为Model₁和Model₂。美学质量损失的表示如下：
L_eva＝αf₁+βf₂

其中f₁表示增强后的图像中颜色和亮度属性的评分，即将增强后的图像输入到Model₁后输出的分数。f₂表示增强后的图像质量属性的评分，即将增强后的图像输入到Model₂后输出的分数，评分越高表示图像的质量越好。α和β均为权重系数。

图像增强的目标是使奖励值r尽可能大。空间一致性损失、曝光控制损失、颜色恒常损失和亮度平滑损失越小表示图像质量越好，美学质量损失越大表示图像质量越好。因此，在t时刻的奖励值r^(t)表示如下：
r^(t)＝-L_spa-L_exp-L_col-L_tv+L_eva

步骤S3.2、基于历史阶段图像对训练数据集进行训练，获得价值网络输出值。

其中θ_v代表价值网络参数。

步骤S3.4、基于环境奖励值和价值网络输出值对策略网络进行更新：

策略网络的输出采用动作a^(t)∈A的策略π(a^(t)|s^(t))，其中π(a^(t)|s^(t))为通过softmax计算得到的概率。A代表动作空间。策略网络的输出维度为|A|。具体更新如下：
A(a^(t)，s^(t))＝R^(t)-V(s^(t))

其中θ_p代表策略网络参数。

在增强操作的每一步中，首先将该状态下的低光图像输入策略网络。策略网格根据当前输入的图像对图像中每个像素制定一个增强策略并输出。输入的图像根据策略网络制定的策略执行增强操作。该增强操作在预先制定的方案需要迭代多次。

动作空间A对于网络的性能而言至关重要，因为太小的范围会导致对低光图像的增强有限，而太大的范围会导致非常大的搜索空间，网络训练会变得非常困难。本实施例中，根据经验设置范围A∈[-0.5,0.5]，步距为0.05。这一设置作用在预先定义的输出表示，具体如下：
I_t(x)＝I_t-1(x)+A_t(x)I_t-1(x)(1-I_t-1(x))

类似照片编辑软件中使用的图像亮度曲线调整，这里预先定义的输出表示是一个二次曲线，表示为：
I_output(x)＝I_input(x)+δI_input(x)(1-I_input(x))

其中x表示像素坐标，δ是调整参数。I_input(x)表示输入图像x坐标处的像素值，像素值被归一化在[0,1]范围内，I_output(x)表示经过调整参数调整后输出的像素值。

上述设置可以确保：

a、每个像素都在[0,1]的归一化范围内。

b、降低了寻找合适增强策略的成本。对于不同的增强迭代次数选择，我们的增强曲线可以有效地覆盖该动作空间设置下的像素值空间。

步骤S4、当满足对所有样本训练完成，且完成所有训练迭代次数时，模型训练完成。

步骤S5、输出对低光图像增强后的图像结果。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

一种基于强化学习和美学评估的低光图像增强方法，其特征在于，包括以下步骤：

步骤S1、生成不同光照场景下的非正常亮度图像，并基于所述图像构建强化学习系统的训练数据集；

步骤S2、初始化强化学习系统中的训练数据集、策略网络和价值网络；

步骤S3、基于无参考奖励值和美学评估奖励值更新策略网络和价值网络；

步骤S4、当所有样本训练完成，且完成所有训练迭代次数时，模型训练完毕；

步骤S5、输出对低光图像增强后的图像结果。
根据权利要求1所述的一种基于强化学习和美学评估的低光图像增强方法，其特征在于，所述步骤S2中初始化策略网络和价值网络具体方法包括：

使用当前状态s^(t)作为策略网络和价值网络的输入，s^(t)代表时间步长t时的状态；策略网络的输出是采取动作a^(t)的策略π(a^(t)|s^(t))；价值网络输出值为V(s^(t))，代表来自当前状态s^(t)的预期总奖励。
根据权利要求2所述的一种基于强化学习和美学评估的低光图像增强方法，其特征在于，所述步骤S3中更新策略网络和价值网络的具体步骤包括：

步骤S3.1、基于历史阶段图像对训练数据集进行训练，获得环境奖励值如下：

R^(t)＝r^(t)+γr^(t+1)+γ²r^(t+2)+…γ^n-1r^(t+n-1)+γⁿV(s^(t+n))

其中γⁱ是折扣因子γ的第i次幂，r^(t)代表t时刻的环境奖励值；

步骤S3.2、基于历史阶段图像对训练数据集进行训练，获得价值网络输出值；

步骤S3.3、基于环境奖励值和价值网络输出值对价值网络进行更新：

其中θ_v代表价值网络参数；

步骤S3.4、基于环境奖励值和预测价值对策略网络进行更新：

所述策略网络的输出采用动作a^(t)∈A的策略π(a^(t)|s^(t))，其中π(a^(t)|s^(t))为通过softmax计算得到的概率；A代表动作空间；所述策略网络的输出维度为|A|；具体更新如下：

A(a^(t),s^(t))＝R^(t)-V(s^(t))

其中θ_p代表策略网络参数。
根据权利要求3所述的一种基于强化学习和美学评估的低光图像增强方法，其特征在于，所述步骤S3.4中将动作空间A范围设置为A∈[-0.5，0.5]，步距为0.05，用于预先定义的输出表示，具体如下：

I_t(x)＝I_t-1(x)+A_t(x)I_t-1(x)(1-I_t-1(x))

其中I_t-1(x)代表在t-1步迭代时图像像素点x处的像素值，I_t(x)代表在t步迭代时图像像素点x处选择的动作，I_t(x)代表在t步迭代时图像像素点x处增强后的像素值。
根据权利要求3所述的一种基于强化学习和美学评估的低光图像增强方法，其特征在于，所述步骤S3.1中环境奖励值考虑以下影响因子：

(1)空间一致性损失

其中K代表局部区域大小；Ω(i)代表以区域i为中心的四个相邻区域；Y代表增强后的图像中局部区域的像素平均灰度值；I代表输入图像中局部区域的像素平均灰度值；

(2)曝光控制损失

其中E代表图像像素在RGB颜色空间中的灰度水平；M代表非重叠的若干局部区域；Y代表增强后的图像中一个局部区域的像素平均灰度值，局部区域的大小为{k；k∈[1，M]}；

(3)颜色恒常损失

其中J^p代表增强后的图像中p个通道的像素平均灰度值，J^q代表增强后的图像中q个通道的像素平均灰度值；(p，q)代表(R，G)，(R，B)，(G，B)，中的任一通道，ε表示(R,G),(R,B),(G,B)的集合；

(4)亮度平滑损失

其中代表每个状态下的参数曲线映射，N代表强化学习中图像增强的迭代次数，和依次代表水平和垂直梯度运算；ξ表示图像中R，G，B三个通道的集合；

(5)美学质量损失

为了对增强后图像的美学质量进行评分，额外引入图像美学评分深度学习网络模型来对图像进行美学评分，进而计算美学质量损失；分别利用图像的颜色和亮度属性以及质量属性训练两个独立的美学评分模型，记为Model₁和Model₂；通过一个额外引入的美学评估模型进行评分；

美学质量损失表示如下：

L_eva＝αf₁+βf₂

其中f₁表示增强后的图像中颜色和亮度属性的评分，即将增强后的图像输入到Model₁后输出的分数；f₂表示增强后的图像质量属性的评分，即将增强后的图像输入到Model₂后输出的分数，评分越高表示图像的质量越好；α和β均为权重系数；

图像增强的目标是使奖励值r尽可能大；空间一致性损失、曝光控制损失、颜色恒常损失和亮度平滑损失越小表示图像质量越好，美学质量损失越大表示图像质量越好；因此，在t时刻的奖励值r^(t)表示如下：

r^(t)＝-L_spa-L_exp-L_col-L_tv+L_eva

t时刻的环境奖励值在引入影响因子的条件下表示如下：

R^(t)＝r^(t)+γr^(t+1)+γ²r^(t+2)+…+γ^n-1r^(t+n-1)+γⁿV(s^(t+n))。
根据权利要求5所述的一种基于强化学习和美学评估的低光图像增强方法，其特征在于，空间一致性损失中将局部区域大小K设置为4×4。
根据权利要求5所述的一种基于强化学习和美学评估的低光图像增强方法，其特征在于，曝光控制损失中将E设置为0.6，M代表大小为16×16的非重叠局部区域。