WO2023155460A1

WO2023155460A1 - 一种基于强化学习的情绪化图像描述方法及系统

Info

Publication number: WO2023155460A1
Application number: PCT/CN2022/126071
Authority: WO
Inventors: 卢官明; 陈晨; 卢峻禾
Original assignee: 南京邮电大学
Priority date: 2022-02-16
Filing date: 2022-10-19
Publication date: 2023-08-24
Also published as: CN114639139A

Abstract

本发明公开了一种基于强化学习的情绪化图像描述方法，涉及图像处理与模式识别技术领域，在大规模语料库基础上构建情绪词嵌入库；构建图像情绪识别模型；使用图像情绪分析数据集训练图像情绪识别模型；构建图像事实性描述模型；使用图像描述数据集训练图像事实性描述模型；构建情绪化图像描述初始化模块，利用情绪词嵌入库、图像情绪识别模型输出的图像情绪类别以及图像事实性描述模型输出的图像事实性描述，生成初始的情绪化图像描述；构建基于强化学习的微调模块，对初始的情绪化图像描述进行微调，生成最终的情绪化图像描述。本发明还公开了一种基于强化学习的情绪化图像描述系统，本发明可使得各类复杂场景的图像描述更加生动，富有情感。

Description

一种基于强化学习的情绪化图像描述方法及系统

技术领域

本发明涉及图像处理与模式识别技术领域，特别是一种基于强化学习的情绪化图像描述方法及系统。

背景技术

如今信息社会中充斥着图像数据，如日常生活照、医疗图像和遥感卫星图像，人们的信息交互方式已经从传统的语音、文字转化到多模态式信息交互，图像信息交互是未来“元宇宙”的重要核心，但对于视觉障碍以及认知不足者而言无法从图像中准确获取信息，包括图像语义信息、情感信息，严重影响这类群体在未来信息交互的通畅性和信息获取的便捷性。

信息交互中，情感是重要的一环，对于交互的双方而言，都需要进行情感上的互动以获取对方情绪进而完成更好的信息交流。对于视觉障碍以及认知不足者而言，通过一定程度的事实性的图像描述可以了解图像的描述对象。由于事实性描述只是单纯叙述图像所包含的对象，缺乏对图像中情绪与色彩的表达，使得人们无法获取图片所传递的情感。因此情绪化的图像描述成为图像描述中最具挑战性的一个难题。图像的色彩通过RGB得到的像素值输入到计算机以表示，但是人们对具体的数值不具有任何感受与联想，所以直接通过像素值大小的提取无法让视觉障碍以及认知不足者直观地感受图像所包含的各类信息，并且图像中所包含的色彩信息多种多样，并且存在一定的图像意境，同时图像所包含的情绪千变万化，包括愉悦(Amusement)、狂怒(Anger)、惊奇(Awe)、接受(Contentment)、憎恨(Disgust)、狂喜(Excitement)、恐惧(Fear)、悲痛(Sadness)8类情绪。因此，根据图像情绪识别模型的情绪分析结果与生成的图像事实性描述语义，从情绪词嵌入库中选择与图像情绪类别对应的情绪词，生成初始的情绪化图像描述；最后，构建基于强化学习的微调模块，该模块使用强化学习方法对生成的初始情绪化图像描述进行微调，生成最终的情绪化图像描述，使语义更加通顺丰富。

目前，对图像的描述研究多集中于单一性的事实性图像描述。虽然生成的图像描述句法简单，且模型的可解释性强，但由于图像特征于图像文本描述间非线性映射关系简单，导致其抽象性不高，表述能力有限，并且生成的描述较为生硬，不具有情感色彩，无法通过生成的文本更细致描述图像的内容；与此同时，单一性的事实性图像描述对于图像中物体及其交互关系的描述匮乏；再者，事实性图像描述缺乏对图像色彩所传递情绪的描述，无法完全描述出图像所表现出的色彩氛围信息。

中国专利申请“一种基于深度注意力机制的图像描述生成方法”(专利申请号201711073398.1，公开号CN108052512B)，构建深度长短期记忆网络模型，通过在长短期记忆网络模型的单元之间添加注意力机制函数，并利用卷积神经网络提取的训练图片特征和训练图片的描述信息对添加了注意力机制函数的长短期记忆网络进行训练，得到深度长短期记忆网络模型；图像描述生成步骤，将待生成描述的图像依次通过卷积神经网络模型和深度长短期记忆网络模型，生成与图像对应的描述。该方法存在的问题是使用长短期记忆网络模型直接对待生成描述的图像进行编码并解码处理得到图像描述，没有做到图像内部特征的充分提取，且无基于图像主题色特征的情绪提取，这可能会影响最后的图像情绪识别的语义丰富度，且无情感支撑。

发明内容

本发明所要解决的技术问题是克服现有技术的不足而提供一种基于强化学习的情绪化图像描述方法及系统，一方面提取训练集图像主题色彩特征先验，与训练集图像一并输入图像情绪识别模型，优化网络模型参数，并结合多特征信息融合的图像事实性描述模型，生成初始情绪化图像描述；另一方面通过强化学习微调初始情绪化图像描述，使得语句更加通顺，且富有情感色彩；进一步发挥图像情绪识别和图像语义描述间的互补作用，获得情绪化图像描述的同时，提升图像描述的准确性和鲁棒性。

本发明为解决上述技术问题采用以下技术方案：

根据本发明提出的一种基于强化学习的情绪化图像描述方法，包括以下步骤：

步骤一、在大规模语料库基础上构建情绪词嵌入库；

步骤二、构建图像情绪识别模型；

步骤三、使用图像情绪分析数据集训练图像情绪识别模型；

步骤四、构建一种用于生成图像事实性描述的基于注意力机制的图像事实性描述模型，图像事实性描述模型包括依次顺序连接的图像事实性描述预处理模块、图像特征编码器和特征-文本解码器；

步骤五、使用图像描述数据集训练图像事实性描述模型；

步骤六、构建情绪化图像描述初始化模块，情绪化图像描述初始化模块根据训练好的图像情绪识别模型输出的图像情绪类别，从情绪词嵌入库中选取与图像情绪类别对应的情绪词，并将之嵌入到由训练好的图像事实性描述模型输出的图像事实性描述中，生成初始的情绪化图像描述；

步骤七、构建基于强化学习的微调模块，微调模块用于对初始的情绪化图像描述进行微调，生成最终的情绪化图像描述。

作为本发明所述的一种基于强化学习的情绪化图像描述方法进一步优化方案，步骤七中，基于强化学习的微调模块包括语句重建生成器、语句存储单元、语句抽样单元、语句评估单元和选词评估单元；其中，语句重建生成器作为强化学习系统中的智能体，语句存储单元、语句抽样单元、语句评估单元和选词评估单元构成强化学习系统中的外部环境；语句重建生成器与外部环境进行不断地交互，获取外部环境的奖励信息，学习从环境状态到行为动作的映射，来优化调整行为动作，对初始的情绪化图像描述进行微调，生成最终的情绪化图像描述。

作为本发明所述的一种基于强化学习的情绪化图像描述方法进一步优化方案，步骤七中，基于强化学习的微调模块包括语句重建生成器、语句存储单元、语句抽样单元、语句评估单元和选词评估单元，微调模块用于对初始的情绪化图像描述进行微调的具体方法如下：

步骤701、语句重建生成器根据第t-1时刻的环境状态以及第t-1时刻的奖励，通过选词器从情绪词嵌入库中选择语义相近的单词，执行选词的动作，并将筛选出的单词加入第t-1时刻生成的语句S _t-1中，生成第t时刻的语句S _t；其中，第0时刻生成的语句S ₀为语句生成起始符，第t-1时刻的环境状态即为第t-1时刻生成的语句S _t-1，第t-1时刻的奖励R _t-1即为第t-1时刻所选单词得分，t为时刻；

步骤702、语句存储单元存储更新后的第t时刻的语句S _t；语句抽样单元基于采样搜索算法对更新后的第t时刻的语句S _t进行回滚，生成N个语句，N的取值为3、4或5；语句评估单元首先对语句抽样单元生成的N个语句分别使用情绪鉴别器、语法搭配鉴别器、语义鉴别器进行评估打分，得到N个情绪奖励得分、语法搭配奖励得分、语义奖励得分，然后采取加权平均的方法得到综合奖励得分，最后将综合奖励得分输入到选词评估单元；选词评估单元输出所选单词得分，作为外部环境向语句重建生成器反馈的奖励R _t；

步骤703、迭代步骤701至步骤702，语句重建生成器与外部环境不断地进行交互，直至取得语句重建的最大奖励，生成最终的情绪化图像描述。

作为本发明所述的一种基于强化学习的情绪化图像描述方法进一步优化方案，所述语句抽样单元的采样搜索算法采用多项式采样或蒙特卡洛抽样方法。

作为本发明所述的一种基于强化学习的情绪化图像描述方法进一步优化方案，步骤一中，构建情绪词嵌入库的具体方法如下：

步骤101、利用NLTK工具获取目标检测和图像描述数据集中的名词、动词，生成语义词库，并计算其中每个语义词的词向量；

步骤102、从大规模语料库LSCC中筛选出情绪词，生成情绪词库，并计算每个情绪词的情绪词向量；将语义词库中的每个语义词对应的情绪词分为IAPS定义的8个类别：愉悦、狂怒、惊奇、接受、憎恨、狂喜、恐惧、悲痛；

步骤103、从情绪词库中筛选出与语义词相对应的不同情绪类别的情绪词组，构建情绪词嵌入库。

作为本发明所述的一种基于强化学习的情绪化图像描述方法进一步优化方案，图像情绪识别模型包括图像情绪识别预处理模块、人脸情绪特征提取模块、图像主题色彩特征提取模块、图像情绪特征提取模块、特征融合层、全连接层以及分类层；所述图像情绪识别预处理模块包括人脸检测单元、人脸图像归一化处理单元和图像尺寸归一化处理单元；其中，

所述人脸检测单元，利用预先训练的人脸检测网络，检测出输入的图像中人脸区域，并对不同的人脸区域进行标号；

所述人脸图像归一化处理单元，用于对检测出的每个人脸区域进行裁剪、对齐和尺寸归一化；

所述图像尺寸归一化处理单元，用于对输入的图像进行尺寸归一化；

所述人脸情绪特征提取模块，用于提取裁剪、对齐和尺寸归一化后的人脸图像中每一个人的面部情绪特征；

所述图像主题色彩特征提取模块，用于提取输入的图像的主题色彩特征；

所述图像情绪特征提取模块，用于提取图像尺寸归一化处理单元输出的尺寸归一化后的图像的情绪特征；

所述特征融合层，用于分别对人脸情绪特征提取模块输出的面部情绪特征、图像主题色彩特征提取模块输出的主题色彩特征以及图像情绪特征提取模块输出的情绪特征进行融合，得到融合后的情绪特征向量；

所述全连接层，用于全连接特征融合层与分类层；

所述分类层，用于输出图像所属的情绪类别。

作为本发明所述的一种基于强化学习的情绪化图像描述方法进一步优化方案，步骤二中，使用图像主题色彩特征提取模块提取输入的图像的主题色彩特征的具体方法如下：

步骤1、使用微元法切割RGB空间，形成一个个独立的立体方块；

步骤2、将图像的RGB格式像素散点放入切割后的RGB空间中，将散点值作为立体方块的值，如果该立体方块中没有散点，则将该立体方块区域中心值作为该立体方块的值；

步骤3、通过滑动窗口加权的方式对整个滑动窗口区域内的立体方块的值进行加权求和得到滑动窗口大小立体方块的值，滑动窗口的大小取决于最终所要选择的图像主题色的种类数；

步骤4、通过步骤1至3，最终得到输入图像的图像主题色彩特征。

作为本发明所述的一种基于强化学习的情绪化图像描述方法进一步优化方案，使用微元法切割RGB空间，形成一个个独立的立体方块，立体方块为像素级大小的立方块。

作为本发明所述的一种基于强化学习的情绪化图像描述方法进一步优化方案，步骤四中构建一种图像事实性描述模型的具体方法如下：

步骤4.1、图像事实性描述预处理模块，利用在目标检测及目标关系检测数据集上预先训练好的网络模型对输入的图像进行预处理；具体方法如下：1)通过预先训练目标检测算法，检测图像中所出现的各类目标所在区域；利用预先训练目标关系检测算法，检测图像中所出现的各类目标交互所在区域；2)对输入的图像、各类目标所在区域图像以及各类目标交互所在区域图像进行裁剪与对齐，并进行归一化处理，得到输入的图像归一化后的图像、各类目标所在区域图像归一化后的图像、各类目标交互所在区域图像归一化后的图像；

步骤4.2、构建图像特征编码器，其包括图像全局特征编码支路、目标特征编码支路、目标间交互特征编码支路、注意力机制和特征融合层；所述图像全局特征编码支路包括多个卷积模块，图像全局特征编码支路的输入为输入的图像归一化后的图像，用于提取图像的全局特征，并将其转化为向量形式；所述目标特征编码支路包括多个卷积模块，目标特征编码支路的输入为各类目标所在区域图像归一化后的图像，用于提取局部的目标特征，并将其转化为向量形式；所述目标间交互特征编码支路包括多个卷积模块，目标间交互特征编码支路的输入为各类目标交互所在区域图像归一化后的图像，用于提取目标间动作交互区域特征，并将其转化为向量形式；所述卷积模块，包含一个或多个卷积层以及一个池化层；所述注意力机制，用于捕捉相对于全局特征，需要重点关注的目标特征及重点关注的目标间交互特征；所述特征融合层，用于分别对上述图像全局特征、重点关注的目标特征及重点关注的目标间交互特征进行归一化处理后，通过全连接层拼接输出一个图像特征向量；所述全连接层将特征融合层的输出全连接至本层的c个输出神经元，输出一个c维的特征向量；

步骤4.3、构建特征-文本解码器，所述特征-文本解码器的输入为图像特征编码器处理得到的图像特征向量；并利用至少包含2层长短期记忆LSTM网络的组合模块将图像特征向量解码为文本。

一种基于强化学习的情绪化图像描述系统，包括：

情绪词嵌入库，在大规模语料库基础上构建情绪词嵌入库，为最终的情绪化图像描述生成提供语料库支撑；

图像情绪识别模型，所述图像情绪识别模型构建模块包括图像情绪识别预处理模块、人脸情绪特征提取模块、图像主题色彩特征提取模块、图像情绪特征提取模块、特征融合层、全连接层以及分类层；所述图像情绪识别预处理模块包括人脸检测单元、人脸图像归一化处理单元、图像尺寸归一化处理单元；其中，所述人脸检测单元，利用预先训练的人脸检测网络，检测出输入的图像中人脸区域，并对不同的人脸区域进行标号；图像尺寸归一化处理单元，用于对输入的图像的像素大小归一化处理，得到统一的图像输入尺寸；所述人脸图像归一化处理单元，用于对检测出的每个人脸区域进行裁剪、对齐和尺寸归一化；所述人脸情绪特征提取模块，包括多个卷积模块；所述图像主题色彩特征提取模块，使用颜色聚类方法对图像情绪分析数据集中的训练集图像提取主题色彩特征；所述全连接层，用于全连接特征融合层与分类层；所述分类层，用于输出图像所属的情绪类别；最后使用图像情绪分析数据集训练图像情绪识别模型；

图像事实性描述模型，图像事实性描述模型包括图像事实性描述预处理模块、图像特征编码器和特征-文本解码器；所述图像事实性描述预处理模块，对输入的图像进行预处理；所述图像特征编码器包括图像全局特征编码支路、目标特征编码支路、目标间交互特征编码支路、注意力机制和特征融合层；所述图像全局特征编码支路，用于提取图像的全局特征，并将其转化为向量形式；所述目标特征编码支路，用于提取局部的目标特征，并将其转化为向量形式；所述目标间交互特征编码支路，用于提取目标间动作交互区域特征，并将其转化为向量形式；所述注意力机制，用于捕捉相对于全局特征，需要重点关注的目标特征及重点关注的目标间交互特征；所述特征融合层，用于分别对上述图像全局特征、重点关注的目标特征及重点关注的目标间交互特征进行归一化处理后，通过全连接层拼接输出一个图像特征向量；所述特征-文本解码器的输入为图像特征编码器处理得到的图像特征向量；并利用长短期记忆LSTM网络的组合模块将图像特征向量解码为文本；最后使用图像描述数据集训练图像事实性描述模型；

情绪化图像描述初始化模块，根据训练好的图像情绪识别模型输出的图像情绪，从情绪词嵌入库中选取与图像情绪类别对应的情绪词，并将之嵌入到由训练好的图像事实性描述模型输出的图像事实性描述中，生成初始的情绪化图像描述；

基于强化学习的微调模块，利用强化学习对生成初始的情绪化图像描述进行调整；所述强化学习的微调模块包括语句重建生成器、语句存储单元、语句抽样单元、语句评估单元和选词评估单元；其中，语句重建生成器作为强化学习系统中的智能体，语句存储单元、语句抽样单元、语句评估单元和选词评估单元构成强化学习系统中的外部环境；语句重建生成器与外部环境进行不断地交互，获取外部环境的奖励信息，学习从环境状态到行为动作的映射，来优化调整行为动作，对初始的情绪化图像描述进行微调，生成最终的情绪化图像描述。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

本发明通过将主题色彩特征先验引入到图像情绪识别之中，能有效地识别愉悦(Amusement)、狂怒(Anger)、惊奇(Awe)、接受(Contentment)、憎恨(Disgust)、狂喜(Excitement)、恐惧(Fear)、悲痛(Sadness)八种图像情绪，并从情绪词嵌入库中选取与图像情绪类别对应的情绪词，将之嵌入到图像事实性描述中，生成初始的情绪化图像描述，使用强化学习方法对生成的初始情绪化图像描述进行微调，使得生成的情绪化图像描述更加生动，富有情感；具体如下：

(1)目前已有的情绪分析方法主要将情绪分为正向情绪、负向情绪和中性情绪；本发明中在情绪类别的划分方面采用愉悦(Amusement)、狂怒(Anger)、惊奇(Awe)、接受(Contentment)、憎恨(Disgust)、狂喜(Excitement)、恐惧(Fear)、悲痛(Sadness)八种图像情绪，属于细粒度的图像情绪分析。

(2)本发明中的语料库设计来自于大型目标检测数据集、图像描述数据集以及情感分析数据集，且采用情绪词空间分类的方法，可避免语义近似但情感差距较大的缺陷，同时又能从大量已经标注的语料中学习词汇间搭配，因此可以取得较好的图像描述结果。

(3)与现有的图像情绪分析模型相比，本发明中的图像情绪识别模型通过颜色聚类方法给予图像主题色彩特征先验，同时采用基于人脸情绪特征提取模块和图像情绪特征提取模块的双支路网络模型，分别对输入图像裁剪、对齐和尺寸归一化后的人脸图像和图尺寸归一化处理单元输出的尺寸归一化后的全局图像进行特征提取；使得图像情绪识别模型在获得人脸面部情绪类别的同时还充分捕捉了图像的全局情绪信息，促进了人脸面部情绪以及图像整体氛围的情绪间的信息交互，具有更强的表征能力和泛化能力。

(4)本发明在进行图像事实性描述的过程中，通过对图像重点关注的目标区域特征、目标特征、目标关系特征的预处理，同时使用注意力机制判断重点关注的目标及其对应关系，使得输入图像事实性描述模型的特征更加丰富且与输入图像内容紧密联系，使得图像事实性描述更加合理。

(5)本发明在生成初始情绪化描述过程中，利用图像情绪识别结果确定图像情绪词，并结合生成的图像事实性描述语义，生成初始情绪化图像描述，这些特征的获取均通过图像本身的特征提取获得，因此获得的初始情绪化图像描述与原图像语义高度相关，具有更强的表征能力和泛化能力。

(6)本发明使用强化学习方法对生成的初始情绪化图像描述进行微调，在保持原语义的同时，解决语义匹配不合理、情绪词汇应用不准确的问题。

附图说明

图1是本发明的基于强化学习的情绪化图像描述方法步骤流程图。

图2是本发明的基于强化学习的情绪化图像描述系统结构图。

图3是本发明实施例中使用的图像情绪识别模型结构图。

图4是本发明实施例中图像主题色彩特征示例图；其中，(a)为求解得到的图像主题色彩特征，(b)为图像在RGB空间的散点映射。

图5是本发明实施例中使用的图像事实性描述模型结构图。

图6是本发明的基于强化学习的微调模块结构图。

图7是Ai Challenger Caption2017数据库中的图像示例。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图及具体实施例对本发明进行详细描述。

本发明针对图像描述网络分别使用编码器直接提取图像全局特征，并使用解码器直接映射文本，生成图像描述，文本描述语义匮乏且缺乏情绪性表达这个问题，本发明的目的是提供一种基于强化学习的情绪化图像描述方法及系统，解决现有技术不能准确、生动地进行图像描述的问题，为婴幼儿教育辅导以及视觉障碍人士提供更加生动以及符合人类情感需求的图像描述系统开辟一条新的途径与方法。情绪化的图像识别系统的开发，为视觉障碍人士以及婴幼儿辅助教育提供更加生动且富有情感的图像描述，对视觉障碍人士更加生动了解图像所表达的内容及其传递的情绪具有非常重要的意义和价值。

如图1所示，本发明实施例提供的基于强化学习的情绪化图像描述方法，该方法主要包括如下步骤：

步骤一、在大规模语料库基础上构建情绪词嵌入库；首先，利用NLTK(Natural Language Toolkit)工具获取目标检测和图像描述数据集中的名词、动词，生成语义词库；接着，从大规模语料库LSCC(Large Scale ChineseCorpus)中筛选出情绪词，生成情绪词库；最后，计算语义词库的每个语义词对应的情绪词，构建情绪词嵌入库；

本实施例中，利用NLTK工具获取目标检测数据集COCO以及图像描述数据集MSCOCO、flickr30k中的名词、动词，生成语义词库C-corpus＝{N,V}，其包括名词库N＝{N _i|i＝1,2…n ₁}，其中n ₁表示算法可以识别的物体种类数；动词库V＝{V _i|i＝1,2…n ₂}，其中n ₂代表关系检测可以检测到的动作类别数。并计算其中每个单词的词向量；

在大规模语料库-NRC情绪情感语料库中筛选出情绪词，生成情绪词库S-corpus＝{ADJ,ADV}，其包括形容词库ADJ＝{ADJ _i|i＝1,2…m ₁}，m ₁表示可选形容词数；副词ADJ＝{ADJ _i|i＝1,…m ₂}，m ₂表示可选副词数。并且将S-corpus分为3大类别(积极、消极、中立)的同时细分为IAPS(International Affective Picture System)定义的8个类别：愉悦(Amusement)、狂怒(Anger)、惊奇(Awe)、接受(Contentment)、憎恨(Disgust)、狂喜(Excitement)、恐惧(Fear)、悲痛(Sadness)；各个类别表示为c _i＝{c ₁,c ₂,…,c ₈}；分类具体方法如下，将每组中语义词向量与情绪词向量拼接后的情绪词嵌入向量与8种基准情绪词向量的距离之和作为目标函数，通过最小化目标函数，求解情绪词嵌入词向量的空间分类；设分类的目标函数为

其中u _i为c _i类的质心，x _ij为第i个语义词与第j个情绪词融合后的情绪词嵌入向量；

构建每个语义词对应情绪词的情绪化强弱关系，强弱关系由文本情感识别算法BERT检测出的情感分类概率决定。

最后构建的情绪词库如表1所示；

表1情绪词库样例

构建的情绪词嵌入库如表2所示；

表2情绪词嵌入库样例

步骤二、构建一种如图3所示的图像情绪识别模型，该模型包括图像情绪识别预处理模块、至少包含2个卷积模块的人脸情绪特征提取模块、图像主题色彩特征提取模块、至少包含2个卷积模块的图像情绪特征提取模块、特征融合层、全连接层以及分类层；所述卷积模块至少包括一个卷积层和一个池化层；

所述图像情绪识别预处理模块，包括人脸检测、人脸图像归一化处理、图像尺寸归一化处理；所述人脸检测，利用预先训练的人脸检测网络，检测出输入的图像中人脸区域，并对不同的人脸区域进行标号；所述人脸图像归一化处理，对检测出的每个人脸区域进行裁剪与对齐，将处理后的每个人脸图像进行归一化；图像尺寸归一化处理，用于对输入的图像进行归一化处理；图像尺寸归一化处理，用于对输入的图像进行归一化处理，得到统一的图像输入尺寸；

所述人脸情绪特征提取模块，包括多个卷积模块，该模块的输入为图像情绪识别预处理模块输出的人脸表情图像，用于提取人的面部情绪特征；

所述图像主题色彩特征提取模块，使用颜色聚类方法对图像情绪分析数据集中的训练集图像提取主题色彩特征，通过词嵌入方法将图像主题色彩特征编码成向量，作为图像情绪的先验知识；

所述图像情绪特征提取模块用于提取图像情绪特征，包括多个卷积模块，该模块的输入为图像情绪识别预处理模块中图像尺寸归一化处理单元输出的尺寸归一化后的图像；所述卷积模块，包含一个或多个卷积层以及一个池化层。

所述卷积模块，包含一个或多个卷积层以及一个池化层；

所述全连接层，用于全连接特征融合层与分类层；所述分类层，用于输出图像所属的情绪类别；

本实施例构建的一种图像情绪识别模型，如图3所示，具体实施如下：

(1)图像情绪识别预处理模块，包括人脸检测、人脸图像归一化处理、图像主题色彩特征提取模块、图像尺寸归一化处理；

人脸检测，首先使用预先训练的FaceNet网络检测出输入的图像图7(图像来源：Ai Challenger Caption 2017；Image Id:1059397860565088790)中人脸所在区域，接着切割出人脸所在区域，最后对图像中切割出的不同人脸区域进行编号；

人脸图像归一化处理，用于对上述人脸检测获得的不同的人脸区域进行归一化处理，得到56×56像素大小的图像；

图像尺寸归一化处理，用于将输入的图像归一化处理为224×224像素大小的图像；

(2)如图4中的(b)所示，图像主题色彩特征提取模块，首先将MSCOCO数据集中图像映射为RGB空间的散点，通过颜色聚类算法对图像进行主题色提取得到如图4中的(a)所示结果；之后，将颜色聚类后的结果转化为HSV(色调、饱和度、明度)格式，；最后通过词嵌入方法将图像主题色彩特征编码成向量，作为图像情绪的先验知识；本实施例中，基于传统RGB散点直接聚类的方法会造成散点色彩被中和掉，导致两类明显区别的色彩散点被聚类到与自身有明显区别的颜色类别中，故对色彩散点的聚类方法进行修正：

首先RGB空间使用微元法切割为像素级大小的立体方块；之后将图像的RGB空间的散点放入切割后的RGB空间中，将散点值作为立体方块的值，如果该立体方块中没有散点，则将该立体方块区域中心值作为该立体方块的值；

接着采用立体滑动窗口的方式将立体方块聚类为滑动窗口大小的立体方块，并通过滑动窗口加权的方式对整个滑动窗口区域内的立体方块值进行加权求和得到滑动窗口大小的立体方块的值，滑动窗口的大小取决于最终所要选择的图像主题色的种类数；其中窗口的权值为了更加合理平滑过渡色彩，采用旋转平移的方法处理，具体方法如下：(1)若原图RGB散点值在窗口区域分布较为均匀，则采用由窗口中心向四周依次减小的方法赋予权值；(2)若出现原图RGB散点值分布在窗口角落或边缘区域，则将由窗口中心向四周依次减小的权值窗口逐渐朝着窗口中散点较多的方向移动，尽可能使得窗口中心靠近该区域原图RGB散点聚集区域；(3)对于由于窗口中权值因为滑动超出该部分的权值，通过旋转作为窗口斜上方的权值，若窗口区域存在多个聚类点，则用该方法多次滑动并加权平均，权值大小取决于原图RGB散点聚集度，得到如表3所示图像主题色彩特征结果(RGB形式)：橙色(6.40％)、深绿(17.8％)、浅灰(18.6％)、橄榄(23.2％)、茶色(34.0％)；

表3图像情绪识别结果示例

最终将提取图像主题色彩转化为HSV形式。图像主题色彩转化为HSV(色调、饱和度、明度)格式，首先对求得的RGB结果进行预处理，预处理公式如下：

R'＝R/255；G'＝G/255；B'＝B/255；C _max＝max(R',G',B')

C _min＝min(R',G',B')；Δ＝C _max-C _min

其中饱和度S的转换公式如下：

明度V表示为V＝C _max；色调H的计算公式如下：

输出如表3中HSV特征：色调11.59、饱和度0.36、亮度0.63；并将所述HSV特征编码为1024维向量；

(3)人脸情绪特征提取模块包括顺序连接的三个个卷积模块以及一个特征融合层，具体实施如下：

卷积模块d1：包括2个卷积层和1个池化层，2个卷积层均选用128个3×3的卷积核对特征图进行卷积操作，卷积步长为1，补零加边长度为1，卷积后经过ReLU非线性映射，输出大小为56×56×128的特征图；池化层选用2×2的最大池化核，以步长2对特征图进行下采样操作，输出大小为28×28×128的特征图；

卷积模块d2：包括3个卷积层和1个池化层，3个卷积层均选用256个3×3的卷积核对特征图进行卷积操作，卷积步长为1，补零加边长度为1，卷积后经过ReLU非线性映射，输出大小为28×28×256的特征图；池化层选用2×2的最大池化核，以步长2对特征图进行下采样操作，输出大小为14×14×256的特征图；

卷积模块d3：包括3个卷积层和1个池化层，3个卷积层均选用512个3×3的卷积核对特征图进行卷积操作，卷积步长为1，补零加边长度为1，卷积后经过ReLU非线性映射，输出大小为14×14×512的特征图；池化层选用2×2的最大池化核，以步长2对特征图进行下采样操作，输出大小为7×7×512的特征图；

特征融合层c1，输入为人脸情绪特征提取模块中，不同人情绪特征支路输出的人脸情绪特征，大小均为7×7×512，分别对这两个特征图进行全局平均池化操作，得到两个512维的特征向量，并进行向量融合，最后输出512维的特征向量；

(4)图像情绪特征提取模块包括顺序连接的五个卷积模块，具体如下：

卷积模块d4：包括2个卷积层和1个池化层，2个卷积层均选用64个3×3的卷积核对特征图进行卷积操作，卷积步长为1，补零加边长度为1，卷积后经过ReLU非线性映射，输出大小为224×224×64的特征图；池化层选用2×2的最大池化核，以步长2对特征图进行下采样操作，输出大小为112×112×64的特征图；

卷积模块d5：包括2个卷积层和1个池化层，2个卷积层均选用128个3×3的卷积核对特征图进行卷积操作，卷积步长为1，补零加边长度为1，卷积后经过ReLU非线性映射，输出大小为112×112×128的特征图；池化层选用2×2的最大池化核，以步长2对特征图进行下采样操作，输出大小为56×56×128的特征图；

卷积模块d6：包括3个卷积层和1个池化层，3个卷积层均选用256个3×3的卷积核对特征图进行卷积操作，卷积步长为1，补零加边长度为1，卷积后经过ReLU非线性映射，输出大小为56×56×256的特征图；池化层选用2×2的最大池化核，以步长2对特征图进行下采样操作，输出大小为28×28×256的特征图；

卷积模块d7：包括3个卷积层和1个池化层，3个卷积层均选用512个3×3的卷积核对特征图进行卷积操作，卷积步长为1，补零加边长度为1，卷积后经过ReLU非线性映射，输出大小为28×28×512的特征图；池化层选用2×2的最大池化核，以步长2对特征图进行下采样操作，输出大小为14×14×512的特征图；

卷积模块d8：包括3个卷积层和1个池化层，3个卷积层均选用512个3×3的卷积核对特征图进行卷积操作，卷积步长为1，补零加边长度为1，卷积后经过ReLU非线性映射，输出大小为14×14×512的特征图；池化层选用2×2的最大池化核，以步长2对特征图进行下采样操作，输出大小为7×7×512的特征图；

(5)特征融合层c2，输入为图像情绪特征提取模块输出的大小为7×7×512图像情绪特征、特征融合层c1输出的512维的人脸情绪特征，对图像情绪特征进行全局平均池化操作，得到两个512维的特征向量，并与512维的人脸情绪特征融合，最后将融合后的这两个特征向量拼接，输出一个1024维的特征向量；将得到的1024维的特征向量与图像主题色彩特征提取模块输出的1024维度图像主题色彩特征进行融合得到新的1024维向量；

(6)全连接层b1，包含256个神经元，用于全连接特征融合层与分类层；

(7)分类层a1，采用Softmax分类器，包含8个神经元，输出图像所属的情绪类别；

步骤三、使用图像情绪分析数据集ArtPhoto训练图像情绪识别模型；

本实施例选用ArtPhoto图像情绪分析数据集。ArtPhoto图像情绪分析数据集使用了三个数据集:IAPS、ArtPhoto、Abstract Paintings中的图像，共包含1429个图像样本，每个样本对应一种表情类别，包括愉悦(Amusement)、狂怒(Anger)、惊奇(Awe)、接受(Contentment)、憎恨(Disgust)、狂喜(Excitement)、恐惧(Fear)、悲痛(Sadness)8类情绪类别。在实际中，也可以采用其他的图像情绪分析数据集，或自行采集图像情绪分析数据集，建立包含情绪类别标签的图像情绪分析数据集。

步骤四、构建一种如图5所示的基于注意力机制的图像事实性描述模型，该模型包括图像事实性描述预处理模块、图像特征编码器和特征-文本解码器；

所述图像事实性描述预处理模块，利用在目标检测及目标关系检测数据集上预先训练好的网络模型对输入的图像进行预处理；具体方法如下：1)通过预先训练目标检测算法，检测图像中所出现的各类目标所在区域，对各类目标所在区域进行裁剪与对齐，将处理后的各类目标所在区域图像进行归一化；2)利用预先训练目标关系检测算法，检测图像中所出现的各类目标交互所在区域，对各类目标交互所在区域进行裁剪与对齐，将处理后的各类目标交互所在区域图像进行归一化；3)对输入图像进行归一化处理；

所述图像特征编码器包括图像全局特征编码支路、目标特征编码支路、目标间交互特征编码支路、注意力机制和特征融合层；所述图像全局特征编码支路包括多个卷积模块，图像全局特征编码支路的输入为输入的图像归一化后的图像，用于提取图像的全局特征，并将其转化为向量形式；所述目标特征编码支路包括多个卷积模块，目标特征编码支路的输入为各类目标所在区域图像归一化后的图像，用于提取局部的目标特征，并将其转化为向量形式；所述目标间交互特征编码支路包括多个卷积模块，目标间交互特征编码支路的输入为各类目标交互所在区域图像归一化后的图像，用于提取目标间动作交互区域特征，并将其转化为向量形式；所述注意力机制，用于捕捉相对于全局特征，需要重点关注的目标特征及重点关注的目标间交互特征；所述特征融合层，用于将上述图像全局特征、重点关注的目标特征及重点关注的目标间交互特征归一化处理后，通过全连接层拼接输出一个图像特征向量；

所述特征-文本解码器输入为图像特征编码器处理得到的图像特征向量；并利用至少包含2层长短期记忆(LSTM)网络的组合模块将图像特征向量解码为文本；特征-文本解码器是指从图像特征到文本的解码器。

本实施例构建的一种基于注意力机制的图像事实性描述模型，如图5所示，具体实施如下：

(1)所述图像事实性描述预处理模块，首先对输入的图像进行预处理；接着利用预先训练的目标检测算法，检测图像中所出现的各类目标所在区域；再者，通过预先训练的目标关系检测算法，检测图像中所出现的各类目标交互所在区域；最后，对目标区域及目标间的交互关系区域的图像进行裁剪与对齐，归一化处理为56×56像素大小图像；具体实施如下：

首先，对输入的图像进行预处理，归一化处理为224×224像素图像；

接着，利用在COCO数据集上预先训练好的Faster-RCNN作为目标检测器提取图像中的目标所在区域F _O，并确定图像中所包含目标的类别；

之后，利用在Open Images数据集上预先训练好的Faster-RCNN为骨干网络并采用两个全连接头+SoftNMS方式的预先训练网络，提取图像中的目标间交互所在区域F _R

最后、对目标区域及目标间的交互关系区域的图像进行裁剪与对齐，归一化处理为56×56像素大小图像；

所述图像特征编码器包括图像全局特征编码支路、目标特征编码支路、目标间交互特征编码支路、注意力机制、特征融合层；

(2)所述图像全局特征编码支路，包括多个卷积模块，该支路的输入为输入的图像归一化后的图像，用于提取图像的全局特征，并将其转化为向量形式；

卷积模块d9：包括2个卷积层和1个池化层，2个卷积层均选用64个3×3的卷积核对特征图进行卷积操作，卷积步长为1，补零加边长度为1，卷积后经过ReLU非线性映射，输出大小为224×224×64的特征图；池化层选用2×2的最大池化核，以步长2对特征图进行下采样操作，输出大小为112×112×64的特征图；

卷积模块d10：包括2个卷积层和1个池化层，2个卷积层均选用128个3×3的卷积核对特征图进行卷积操作，卷积步长为1，补零加边长度为1，卷积后经过ReLU非线性映射，输出大小为112×112×128的特征图；池化层选用2×2的最大池化核，以步长2对特征图进行下采样操作，输出大小为56×56×128的特征图；

注意力模块1：利用空间注意力机制对卷积模块d10输出的14×14×256的图像全局特征进行处理，具体实施如下：

首先，通过全局最大池化和全局平均池化得到两个14×14×1的特征层；接着，将上述两个特征层进行堆叠，并将堆叠后14×14×2的特征层，利用1×1的卷积进行通道数的调整，得到14×14×1特征层；最后通过sigmoid输出14×14×1的全局空间注意力机制，将得到的全局空间注意力机制与原输入特征相乘，得到最后基于空间注意力机制的图像全局特征图，大小为14×14×256；

卷积模块d11：包括3个卷积层和1个池化层，3个卷积层均选用256个3×3的卷积核对特征图进行卷积操作，卷积步长为1，补零加边长度为1，卷积后经过ReLU非线性映射，输出大小为56×56×256的特征图；池化层选用2×2的最大池化核，以步长2对特征图进行下采样操作，输出大小为28×28×256的特征图；

卷积模块d12：包括3个卷积层和1个池化层，3个卷积层均选用512个3×3的卷积核对特征图进行卷积操作，卷积步长为1，补零加边长度为1，卷积后经过ReLU非线性映射，输出大小为28×28×512的特征图；池化层选用2×2的最大池化核，以步长2对特征图进行下采样操作，输出大小为14×14×512的特征图；

卷积模块d13：包括3个卷积层和1个池化层，3个卷积层均选用512个3×3的卷积核对特征图进行卷积操作，卷积步长为1，补零加边长度为1，卷积后经过ReLU非线性映射，输出大小为14×14×512的特征图；池化层选用2×2的最大池化核，以步长2对特征图进行下采样操作，输出大小为7×7×512的特征图；

(3)所述目标间交互特征编码支路，包括多个卷积模块以及注意力模块，该支路的输入为各类目标交互所在区域图像归一化后的图像，用于提取目标间交互特征，并将其转化为向量形式，具体如下：

卷积模块d14：包括2个卷积层和1个池化层，2个卷积层均选用128个3×3的卷积核对特征图进行卷积操作，卷积步长为1，补零加边长度为1，卷积后经过ReLU非线性映射，输出大小为56×56×128的特征图；池化层选用2×2的最大池化核，以步长2对特征图进行下采样操作，输出大小为28×28×128的特征图；

卷积模块d15：包括3个卷积层和1个池化层，3个卷积层均选用256个3×3的卷积核对特征图进行卷积操作，卷积步长为1，补零加边长度为1，卷积后经过ReLU非线性映射，输出大小为28×28×256的特征图；池化层选用2×2的最大池化核，以步长2对特征图进行下采样操作，输出大小为14×14×256的特征图；

注意力模块2：根据注意力模块1输出的基于空间注意力机制的全局特征去除非重要的目标间交互特征图，利用通道注意力机制对卷积模块d15输出大小为14×14×256的重点关注目标间交互特征图，具体实施如下：

首先，通过全局平均池化得到两个1×1×256的特征层；接着，将上述特征层进行两次全连接，第一次全连接的通道数较少，约为150大小，第二次全连接通道数大小为256，最后输出1×1×256的特征层；最后通过sigmoid输出1×1×256的目标间交互关系通道注意力机制，将得到的目标间交互关系的通道注意力机制与原输入特征相乘，得到最后基于通道注意力机制的目标间交互特征图，大小为14×14×256；

卷积模块d16：包括3个卷积层和1个池化层，3个卷积层均选用512个3×3的卷积核对重点关注的目标间交互特征图进行卷积操作，卷积步长为1，补零加边长度为1，卷积后经过ReLU非线性映射，输出大小为14×14×512的特征图；池化层选用2×2的最大池化核，以步长2对特征图进行下采样操作，输出大小为7×7×512的重点关注的目标间交互特征图；

(4)所述目标特征编码支路，包括多个卷积模块，该支路的输入为各类目标所在区域图像归一化后的图像，用于提取局部的目标特征，并将其转化为向量形式，具体实施如下：

卷积模块d17：包括2个卷积层和1个池化层，2个卷积层均选用128个3×3的卷积核对特征图进行卷积操作，卷积步长为1，补零加边长度为1，卷积后经过ReLU非线性映射，输出大小为56×56×128的特征图；池化层选用2×2的最大池化核，以步长2对特征图进行下采样操作，输出大小为28×28×128的特征图；

卷积模块d18：包括3个卷积层和1个池化层，3个卷积层均选用256个3×3的卷积核对特征图进行卷积操作，卷积步长为1，补零加边长度为1，卷积后经过ReLU非线性映射，输出大小为28×28×256的特征图；池化层选用2×2的最大池化核，以步长2对特征图进行下采样操作，输出大小为14×14×256的特征图；

注意力模块3：根据注意力模块1输出的基于空间注意力机制的全局特征去除非重要的目标特征图，利用通道注意力机制对卷积模块d18输出大小为14×14×256的重点关注目标特征图进行处理，具体实施如下：

首先，通过全局平均池化得到两个1×1×256的特征层；接着，将上述特征层进行两次全连接，第一次全连接的通道数较少，约为150大小，第二次全连接通道数大小为256，最后输出1×1×256的特征层；最后通过sigmoid输出1×1×256的目标通道注意力机制，将得到的目标通道注意力机制与原输入特征相乘，得到最后基于通道注意力机制的目标间特征图，大小为14×14×256；

卷积模块d19：包括3个卷积层和1个池化层，3个卷积层均选用512个3×3的卷积核对重点关注目标特征图进行卷积操作，卷积步长为1，补零加边长度为1，卷积后经过ReLU非线性映射，输出大小为14×14×512的特征图；池化层选用2×2的最大池化核，以步长2对特征图进行下采样操作，输出大小为7×7×512的重点关注目标特征图；

(5)所述特征融合模块包含多个特征融合层及池化层，具体实施如下：

所述特征融合层c3，输入为目标间交互特征编码支路输出的重点关注目标间交互特征图和图像全局特征编码支路输出的图像全局特征，大小均为7×7×512，分别对这两个特征图进行平均池化操作，大小均为4×4×512的特征图，并将池化后的图像全局特征和目标间交互特征图进行相加，得到特征融合后大小为4×4×512的特征图；同时输出池化后大小为4×4×512的重点关注目标间交互特征图；

所述特征融合层c4，输入为目标特征编码支路输出的重点关注目标特征图和图像全局特征编码支路输出的图像全局特征，大小均为7×7×512，分别对这两个特征图进行平均池化操作，大小均为4×4×512的特征图，并将池化后的图像全局特征和重点关注目标特征图进行相加，得到特征融合后大小为4×4×512的特征图；同时输出池化后大小为4×4×512的重点关注目标特征图；

所述上采样层e1，特征融合层c3输出的融合后大小为4×4×512的特征图，上采样为7×7×512大小的特征图；

所述上采样层e2，特征融合层c4输出的融合后大小为4×4×512的特征图，上采样为7×7×512大小的特征图；

所述特征融合层c5,首先，输入上采样层e1输出的7×7×512大小的特征图、卷积模块d13输出的大小为7×7×512大小的特征图、特征融合层c3输出的池化后大小为4×4×512的重点关注目标间交互特征图；接着，将输入的两个7×7×512大小的特征图进行堆叠，得到新的7×7×512大小的全局特征图；最后，分别对全局特征图及重点关注目标间交互特征图进行全局平均池化操作，得到两个512维的特征向量，将这两个特征向量拼接，输出一个1024维的特征向量；

所述特征融合层c6,首先，输入上采样层e2输出的7×7×512大小的特征图、卷积模块d13输出的大小为7×7×512大小的特征图、特征融合层c4输出的池化后大小为4×4×512的重点关注目标特征图；接着，将输入的两个7×7×512大小的特征图进行堆叠，得到新的7×7×512大小的全局特征图；最后，分别对全局特征图及重点关注目标特征图进行全局平均池化操作，得到两个512维的特征向量，将这两个特征向量拼接，输出一个1024维的特征向量；

所述特征融合层c7，将特征融合层c5及特征融合层c6输出的两个1024维向量进行拼接，得到2048维的特征向量；

所述特征-文本解码器输入为图像特征编码器处理得到的图像特征向量；并利用至少包含2层长短期记忆(LSTM)网络的组合模块将图像特征向量解码为文本；具体算法流程如下：

依据注意力机制给定特征F，解码器输出结果表示为如下公式：

E(·)为词嵌入函数，

为所有输出结果的总的状态，其注意力权重的计算方式可以设为：

则在具体位置生成步骤t时刻的特征注意力A(t)可以表示为如下公式：

在此基础上基于注意力机制的目标特征、目标间交互特征及全局特征可分别表示为

则基于注意力机制的标间交互关系特征

中第ε个关系特征

可表示为如下公式,其中W为权重矩阵；

最终输出事实性描述“一个女人抱着婴儿站在花园里”；

步骤五、使用图像描述数据集Ai-Challenger Caption训练图像事实性描述模型；

本实施例选用Ai-Challenger Caption图像描述数据集。Ai-Challenger Caption图像描述数据集对给定的每一张图片有五句话的中文描述。数据集包含30万张图片，150万句中文描述。训练集包含210,000张图像，验证集包含30,000张图像，测试集A包含30,000张图像，测试集B包含30,000张图像；在实际中，也可以采用其他的图像描述数据集，或自行采集图像描述数据集，建立中文描述标签的图像描述数据集。

步骤六、构建情绪化图像描述初始化模块，该模块根据训练好的图像情绪识别模型输出的图像情绪类别，从情绪词嵌入库中选取与图像情绪类别对应的情绪词，并将之嵌入到由训练好的图像事实性描述模型输出的图像事实性描述中，生成初始的情绪化图像描述；

本实施例中，利用文本情感检测器AYLIENAPI，对步骤四生成的语句S进行情感检测，并使用One-Hot向量J _T表示情绪词所在位置k，其所修饰的对象特征及其对应对象间交互特征为

J _T向量维度为S的长度 _L；

构建8类情绪的基向量J _S,同时检测情绪词与情绪的基向量的相似度，其相似度

k为S中待检测的情绪词汇个数，计算公式为：

利用

提取相似度最接近的情绪基向量，以比较是否与图像情绪识别模型输出的图像情绪相同。

若相同，其默认为初始情绪化描述结果；若不相同，则从情绪化词库S-corpus中依据动词名词的关联映射关系寻找与图像检测情绪相对应的情绪化词汇替换，替换结果作为初始情绪描述语句；

若步骤四生成结果检测不到情绪化词汇，则直接从情绪化词库S-corpus依据动词名词的关联映射关系寻找与图像检测情绪相对应的情绪化词汇加入到对应关系区域，最终生成初始情绪化图像描述语句X的长度为L'，初始情绪化图像描述语句“一个恬淡的女人抱着婴儿站在闲逸的花园里”。

步骤七、构建如图6所示的基于强化学习的微调模块包括语句重建生成器、语句存储单元、语句抽样单元、语句评估单元、选词评估单元；其中语句重建生成器作为强化学习系统中的智能体(Agent)，语句存储单元、语句抽样单元、语句评估单元和选词评估单元构成强化学习系统中的外部环境(Environment)；语句重建生成器与外部环境进行不断地交互，获取外部环境的奖励(Reward)信息，学习从环境状态(State)到行为动作(Action)的映射，来优化调整行为动作，对步骤六生成的初始的情绪化图像描述进行调整，生成最终的情绪化图像描述，具体步骤如下：

1)语句重建生成器根据第t-1时刻的环境状态(State)S _t-1，即第t-1时刻生成的语句S _t-1，以及第t-1时刻的奖励(Reward)R _t-1，即第t-1时刻所选单词得分R _t-1，通过选词器从情绪词嵌入库中选择语义相近的单词，执行选词的“动作(Action)”，并将筛选出的单词加入第t-1时刻生成的语句S _t-1中，生成第t时刻的语句S _t；其中，第0时刻生成的语句S ₀为语句生成起始符；选词器“动作(Action)”在已知目标语句语义基础上，根据记录的前一时刻语句及其评估结果选择语义相近的单词，其中语义相似程度采用语义词向量间距离表示；t时刻选词a _t表示为t时刻在已生成t-1个单词基础上，将y _t作为即将生成的第t个单词的操作；单词y _t取自于目标词汇库C ⁺＝(C-corpus)∪(S-corpus)。作为状态(State)反馈的t时刻更新后的语句s _t表示经过动作(Action)a _t实施后，将y _t加入t-1时刻的语句s _t-1后新生成的第t时刻的语句；所述作为奖励(Reward)的所选单词得分作为状态(State)反馈的t时刻更新后的语句s _t表示经过动作(Action)a _t实施后，将y _t加入t-1时刻的语句s _t-1后新生成的第t时刻的语句；具体表述为每一个单词y _t对应于状态S _t的得分，其由外部环境中的选词评估单元计算所得。

本实施例中，构建如图6所示作为智能体(Agent)的语句重建生成器用于对输入的初始情绪化图像描述语句进行重构；语句重建生成器网络结构采用结合注意力机制的双层循环神经网络；采用确定性策略，P _θ(y _t|S _t)表示状态S _t下给出单词y _t的概率；L”为语句总长度，μ为随着语句长度奖励减少的函数，则语句重建生成器训练过程中的总奖励

可表示为：

优化过程中的梯度为

θ为生成器的参数；

2)语句存储单元存储更新后的第t时刻的语句S _t；语句抽样单元基于采样搜索算法对更新后的第t时刻的语句S _t进行回滚(Rolling Out)，生成N个语句， N的取值为3、4或5；所述语句抽样单元的采样搜索算法可以采用多项式采样或蒙特卡洛抽样方法；语句评估单元首先对语句抽样单元生成的N个语句分别使用情绪鉴别器、语法搭配鉴别器、语义鉴别器进行评估打分，得到N个情绪奖励得分、语法搭配奖励得分、语义奖励得分，然后采取加权平均的方法得到综合奖励得分，最后将综合奖励得分输入到选词评估单元；选词评估单元输出所选单词得分，作为外部环境(Environment)向语句重建生成器反馈的奖励(Reward)R _t；

本实施例中采用基于蒙特卡洛的随机束搜索的方式进行语句生成，生成数量为N _sampling的采样完整语句，若t时刻采样开始，则表示为Y _1:t:

N _sampling的个数可设置为3-5，本发明实施例中采用N _sampling为3；所述语句评估单元，用于对已生成的N _sampling个完整的抽样语句，进行评估打分，得到N个抽样生成的语句的情绪奖励得分、语义奖励得分及语法搭配奖励得分，之后才去加权平均的方法，得到综合奖励得分；最终为对语句重建单元中的选词评估提供奖励依据；语义鉴别器D ₁采用词移距离WMD计算，具体公式如下：

L”表示为源输入长度为L'的初始情绪化图像描述语句经过G处理后生成的目标情绪化图像描述语句Y＝{y ₁,…,y _L”}的长度。情绪鉴别器D ₂利用对抗神经网络在sentiment140数据集上进行训练，以识别生成语句的情绪类别，训练过程中的损失函数可设为如下：

为生成器结果，

为标注真值，通过奖励评估模块可获得语句的情绪检测、语义奖励结果及语法搭配奖励结果：D ₁(Y)、D ₂(Y)及D ₃(Y)；

所述语法搭配鉴别器通过语法搭配语料库CCL(Centre for Chinese Linguistics)预先训练的双层循环神经网络构成；

若已生成的t-1个目标序列词汇状态记为S _t＝(X,Y _1:t-1)，则可得到状态S _t与t时刻选择单词的行为y _t的奖励计算公式：

由于情绪和语义都非常重要，因此α、β均可设置为大于0.5的值，η值可设为0.2-0.5中的值。

所述语句存储单元用于存储更新后的语句，存储单元大小为L”；

所述选词评估单元，利用当前t时刻语句评估单元输出的语句评估得分f(S _t,y _t)减去前一时刻t-1时语句评估单元输出的语句评估得分f(S _t-1,y _t-1)，得到当前时刻所选单词得分γ(S _t,y _t)，具体表示为：

γ(S _t,y _t)＝f(S _t,y _t)-f(S _t-1,y _t-1)

更新语句重建生成器G训练过程中的总奖励

为：

优化过程中的梯度更新为：

3)迭代步骤1)至步骤2)，语句重建生成器与外部环境不断地进行交互，直至取得语句重建的最大奖励，生成最终的情绪化图像描述。

本实施例构建的一种基于强化学习的微调模块，当t＝1、t＝2时刻基于强化学习的微调模块的运行流程如下：

语句重建生成器从t＝1时刻开始，首先，依据情绪化图像描述初始化模块输出的初始的情绪化图像描述“一个恬淡的女人抱着婴儿站在闲逸的花园里”，初始化语句状态以及选词，设t＝1时刻的选词器，依据初始的情绪化图像描述的第一个单词“一个”的基础上，从词库中选择与之相近的候选词，例如：“一个”、“单个”等并对每一个候选词进行迭代评估，以“一个”为例，设此时选词器选择了“一个”，选词初始设为第一个单词a ₁←y ₁＝“一个”，设t＝1时刻的语句S ₁为“一个”；之后，对语句S ₁“一个”，利用蒙特卡洛的随机束搜索的方式进行语句生成，生成以语句状态S ₁“一个”为基础的三个完整语句：(1)一个漂亮的女子在花园里……；(2)一个无聊的女人在花田里……；(3)一个美丽的女子在花田里……；接着，利用语句评估单元从语句情绪、语句语义及语句语法搭配角度分别对上述三个语句进行评分，语句奖励f(S ₁,y ₁)分别为0.8、0.2、0.8；采用取平均值的方式得到f(S ₁,y ₁)的综合得分0.6；最后，将结果反馈给语句重建单元中的选词评估单元并记录当前语句以及语句奖励f(S ₁,y ₁)的综合得分；当t＝2时刻，首先，提取记录的情绪化图像描述初始化模块输出的初始的情绪化图像描述“一个恬淡的女人抱着婴儿站在闲逸的花园里”以及语句S ₁“一个”；之后，选词器依据f(S ₁,y ₁)结果以及语句S ₁回滚产生的单词，从“漂亮的”、“美丽的”等与之相近的情绪词中，选择某一单词作为t＝2时刻的选词器行为，假设当前选择为a ₂←y ₂＝“美丽的”；接着，将“美丽的”与语句结合，生成更新后的语句S ₂“一个美丽的”，利用蒙特卡洛的随机束搜索的方式生成以语句S ₂“一个美丽的”为基础的三个完整语句：(1)一个美丽的女子在花园里……；(2)一个美丽的夫人在花田里……；(3)一个美丽的妇人在花田里……；最后，利用语句评估单元从语句情绪、语句语义及语句语法搭配角度分别对上述三个语句进行评分，语句奖励f(S ₂,y ₂)分别为0.9、0.9、0.9；采用取平均值的方式得到f(S ₁,y ₁)的综合得分0.9；将结果反馈给选词评估单元并记录当前语句状态以及语句奖励f(S ₂,y ₂)的综合得分0.9；得到单词y ₂对应于状态S ₂的得分γ(S ₂,y ₂)＝f(S ₂,y ₂)-f(S ₁,y ₁)＝0.3，则说明美丽的对于语句状态属于正向作用；同时语句重建生成器利用公式

更新行为奖励；以此类推不断从情绪词嵌入库中选择单词，直至总奖励的目标函数值最大化。最终通过强化学习微调生成最终情绪化图像描述“一个美丽的女人抱着婴儿站在繁花似锦的花园里”。

基于相同的发明构思，本发明实施例公开的基于强化学习的情绪化图像描述系统结构图如图2所示，则其包括至少一台计算设备，该计算设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，该计算机程序被加载至处理器时实现上述的一种基于强化学习的情绪化图像描述方法。

以上所述，仅为本发明中的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换或替换，都应涵盖在本发明的包含范围之内，因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

一种基于强化学习的情绪化图像描述方法，其特征在于，包括以下步骤：

步骤一、在大规模语料库基础上构建情绪词嵌入库；

步骤二、构建图像情绪识别模型；

步骤三、使用图像情绪分析数据集训练图像情绪识别模型；

步骤四、构建一种用于生成图像事实性描述的基于注意力机制的图像事实性描述模型，图像事实性描述模型包括依次顺序连接的图像事实性描述预处理模块、图像特征编码器和特征-文本解码器；

步骤五、使用图像描述数据集训练图像事实性描述模型；

步骤六、构建情绪化图像描述初始化模块，情绪化图像描述初始化模块根据训练好的图像情绪识别模型输出的图像情绪类别，从情绪词嵌入库中选取与图像情绪类别对应的情绪词，并将之嵌入到由训练好的图像事实性描述模型输出的图像事实性描述中，生成初始的情绪化图像描述；

步骤七、构建基于强化学习的微调模块，微调模块用于对初始的情绪化图像描述进行微调，生成最终的情绪化图像描述。
根据权利要求1所述的一种基于强化学习的情绪化图像描述方法，其特征在于，步骤七中，基于强化学习的微调模块包括语句重建生成器、语句存储单元、语句抽样单元、语句评估单元和选词评估单元；其中，语句重建生成器作为强化学习系统中的智能体，语句存储单元、语句抽样单元、语句评估单元和选词评估单元构成强化学习系统中的外部环境；语句重建生成器与外部环境进行不断地交互，获取外部环境的奖励信息，学习从环境状态到行为动作的映射，来优化调整行为动作，对初始的情绪化图像描述进行微调，生成最终的情绪化图像描述。
根据权利要求1所述的一种基于强化学习的情绪化图像描述方法，其特征在于，步骤七中，基于强化学习的微调模块包括语句重建生成器、语句存储单元、语句抽样单元、语句评估单元和选词评估单元，微调模块用于对初始的情绪化图像描述进行微调的具体方法如下：

步骤701、语句重建生成器根据第t-1时刻的环境状态以及第t-1时刻的奖励，通过选词器从情绪词嵌入库中选择语义相近的单词，执行选词的动作，并将筛选出的单词加入第t-1时刻生成的语句S _t-1中，生成第t时刻的语句S _t；其中，第0时刻生成的语句S ₀为语句生成起始符，第t-1时刻的环境状态即为第t-1时刻生成的语句S _t-1，第t-1时刻的奖励R _t-1即为第t-1时刻所选单词得分，t为时刻；

步骤702、语句存储单元存储更新后的第t时刻的语句S _t；语句抽样单元基于采样搜索算法对更新后的第t时刻的语句S _t进行回滚，生成N个语句，N的取值为3、4或5；语句评估单元首先对语句抽样单元生成的N个语句分别使用情绪鉴别器、语法搭配鉴别器、语义鉴别器进行评估打分，得到N个情绪奖励得分、语法搭配奖励得分、语义奖励得分，然后采取加权平均的方法得到综合奖励得分，最后将综合奖励得分输入到选词评估单元；选词评估单元输出所选单词得分，作为外部环境向语句重建生成器反馈的奖励R _t；

步骤703、迭代步骤701至步骤702，语句重建生成器与外部环境不断地进行交互，直至取得语句重建的最大奖励，生成最终的情绪化图像描述。
根据权利要求3所述的一种基于强化学习的情绪化图像描述方法，其特征在于，所述语句抽样单元的采样搜索算法采用多项式采样或蒙特卡洛抽样方法。
根据权利要求1所述的一种基于强化学习的情绪化图像描述方法，其特征在于，步骤一中，构建情绪词嵌入库的具体方法如下：

步骤101、利用NLTK工具获取目标检测和图像描述数据集中的名词、动词，生成语义词库，并计算其中每个语义词的词向量；

步骤102、从大规模语料库LSCC中筛选出情绪词，生成情绪词库，并计算每个情绪词的情绪词向量；将语义词库中的每个语义词对应的情绪词分为IAPS定义的8个类别：愉悦、狂怒、惊奇、接受、憎恨、狂喜、恐惧、悲痛；

步骤103、从情绪词库中筛选出与语义词相对应的不同情绪类别的情绪词组，构建情绪词嵌入库。
根据权利要求1所述的一种基于强化学习的情绪化图像描述方法，其特征在于，图像情绪识别模型包括图像情绪识别预处理模块、人脸情绪特征提取模块、图像主题色彩特征提取模块、图像情绪特征提取模块、特征融合层、全连接层以及分类层；所述图像情绪识别预处理模块包括人脸检测单元、人脸图像归一化处理单元和图像尺寸归一化处理单元；其中，

所述人脸检测单元，利用预先训练的人脸检测网络，检测出输入的图像中人脸区域，并对不同的人脸区域进行标号；

所述人脸图像归一化处理单元，用于对检测出的每个人脸区域进行裁剪、对齐和尺寸归一化；

所述图像尺寸归一化处理单元，用于对输入的图像进行尺寸归一化；

所述人脸情绪特征提取模块，用于提取裁剪、对齐和尺寸归一化后的人脸图像中每一个人的面部情绪特征；

所述图像主题色彩特征提取模块，用于提取输入的图像的主题色彩特征；

所述图像情绪特征提取模块，用于提取图像尺寸归一化处理单元输出的尺寸归一化后的图像的情绪特征；

所述特征融合层，用于分别对人脸情绪特征提取模块输出的面部情绪特征、图像主题色彩特征提取模块输出的主题色彩特征以及图像情绪特征提取模块输出的情绪特征进行融合，得到融合后的情绪特征向量；

所述全连接层，用于全连接特征融合层与分类层；

所述分类层，用于输出图像所属的情绪类别。
根据权利要求6所述的一种基于强化学习的情绪化图像描述方法，其特征在于，步骤二中，使用图像主题色彩特征提取模块提取输入的图像的主题色彩特征的具体方法如下：

步骤1、使用微元法切割RGB空间，形成一个个独立的立体方块；

步骤2、将图像的RGB格式像素散点放入切割后的RGB空间中，将散点值作为立体方块的值，如果该立体方块中没有散点，则将该立体方块区域中心值作为该立体方块的值；

步骤3、通过滑动窗口加权的方式对整个滑动窗口区域内的立体方块的值进行加权求和得到滑动窗口大小立体方块的值，滑动窗口的大小取决于最终所要选择的图像主题色的种类数；

步骤4、通过步骤1至3，最终得到输入图像的图像主题色彩特征。
根据权利要求7所述的一种基于强化学习的情绪化图像描述方法，其特征在于，使用微元法切割RGB空间，形成一个个独立的立体方块，立体方块为像素级大小的立方块。
根据权利要求1所述的一种基于强化学习的情绪化图像描述方法，其特征在于，步骤四中构建一种图像事实性描述模型的具体方法如下：

步骤4.1、图像事实性描述预处理模块，利用在目标检测及目标关系检测数据集上预先训练好的网络模型对输入的图像进行预处理；具体方法如下：1)通过预先训练目标检测算法，检测图像中所出现的各类目标所在区域；利用预先训练目标关系检测算法，检测图像中所出现的各类目标交互所在区域；2)对输入的图像、各类目标所在区域图像以及各类目标交互所在区域图像进行裁剪与对齐，并进行归一化处理，得到输入的图像归一化后的图像、各类目标所在区域图像归一化后的图像、各类目标交互所在区域图像归一化后的图像；

步骤4.2、构建图像特征编码器，其包括图像全局特征编码支路、目标特征编码支路、目标间交互特征编码支路、注意力机制和特征融合层；所述图像全局特征编码支路包括多个卷积模块，图像全局特征编码支路的输入为输入的图像归一化后的图像，用于提取图像的全局特征，并将其转化为向量形式；所述目标特征编码支路包括多个卷积模块，目标特征编码支路的输入为各类目标所在区域图像归一化后的图像，用于提取局部的目标特征，并将其转化为向量形式；所述目标间交互特征编码支路包括多个卷积模块，目标间交互特征编码支路的输入为各类目标交互所在区域图像归一化后的图像，用于提取目标间动作交互区域特征，并将其转化为向量形式；所述卷积模块，包含一个或多个卷积层以及一个池化层；所述注意力机制，用于捕捉相对于全局特征，需要重点关注的目标特征及重点关注的目标间交互特征；所述特征融合层，用于分别对上述图像全局特征、重点关注的目标特征及重点关注的目标间交互特征进行归一化处理后，通过全连接层拼接输出一个图像特征向量；所述全连接层将特征融合层的输出全连接至本层的c个输出神经元，输出一个c维的特征向量；

步骤4.3、构建特征-文本解码器，所述特征-文本解码器的输入为图像特征编码器处理得到的图像特征向量；并利用至少包含2层长短期记忆LSTM网络的组合模块将图像特征向量解码为文本。
一种基于强化学习的情绪化图像描述系统，其特征在于，包括：

情绪词嵌入库，在大规模语料库基础上构建情绪词嵌入库，为最终的情绪化图像描述生成提供语料库支撑；

图像情绪识别模型，所述图像情绪识别模型构建模块包括图像情绪识别预处理模块、人脸情绪特征提取模块、图像主题色彩特征提取模块、图像情绪特征提取模块、特征融合层、全连接层以及分类层；所述图像情绪识别预处理模块包括人脸检测单元、人脸图像归一化处理单元、图像尺寸归一化处理单元；其中，所述人脸检测单元，利用预先训练的人脸检测网络，检测出输入的图像中人脸区域，并对不同的人脸区域进行标号；图像尺寸归一化处理单元，用于对输入的图像的像素大小归一化处理，得到统一的图像输入尺寸；所述人脸图像归一化处理单元，用于对检测出的每个人脸区域进行裁剪、对齐和尺寸归一化；所述人脸情绪特征提取模块，包括多个卷积模块；所述图像主题色彩特征提取模块，使用颜色聚类方法对图像情绪分析数据集中的训练集图像提取主题色彩特征；所述全连接层，用于全连接特征融合层与分类层；所述分类层，用于输出图像所属的情绪类别；最后使用图像情绪分析数据集训练图像情绪识别模型；

图像事实性描述模型，图像事实性描述模型包括图像事实性描述预处理模块、图像特征编码器和特征-文本解码器；所述图像事实性描述预处理模块，对输入的图像进行预处理；所述图像特征编码器包括图像全局特征编码支路、目标特征编码支路、目标间交互特征编码支路、注意力机制和特征融合层；所述图像全局特征编码支路，用于提取图像的全局特征，并将其转化为向量形式；所述目标特征编码支路，用于提取局部的目标特征，并将其转化为向量形式；所述目标间交互特征编码支路，用于提取目标间动作交互区域特征，并将其转化为向量形式；所述注意力机制，用于捕捉相对于全局特征，需要重点关注的目标特征及重点关注的目标间交互特征；所述特征融合层，用于分别对上述图像全局特征、重点关注的目标特征及重点关注的目标间交互特征进行归一化处理后，通过全连接层拼接输出一个图像特征向量；所述特征-文本解码器的输入为图像特征编码器处理得到的图像特征向量；并利用长短期记忆LSTM网络的组合模块将图像特征向量解码为文本；最后使用图像描述数据集训练图像事实性描述模型；

情绪化图像描述初始化模块，根据训练好的图像情绪识别模型输出的图像情绪，从情绪词嵌入库中选取与图像情绪类别对应的情绪词，并将之嵌入到由训练好的图像事实性描述模型输出的图像事实性描述中，生成初始的情绪化图像描述；

基于强化学习的微调模块，利用强化学习对生成初始的情绪化图像描述进行调整；所述强化学习的微调模块包括语句重建生成器、语句存储单元、语句抽样单元、语句评估单元和选词评估单元；其中，语句重建生成器作为强化学习系统中的智能体，语句存储单元、语句抽样单元、语句评估单元和选词评估单元构成强化学习系统中的外部环境；语句重建生成器与外部环境进行不断地交互，获取外部环境的奖励信息，学习从环境状态到行为动作的映射，来优化调整行为动作，对初始的情绪化图像描述进行微调，生成最终的情绪化图像描述。