WO2021052358A1

WO2021052358A1 - 图像处理方法、装置及电子设备

Info

Publication number: WO2021052358A1
Application number: PCT/CN2020/115559
Authority: WO
Inventors: 柯磊; 裴文杰; 李睿宇; 沈小勇; 戴宇荣; 贾佳亚
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2019-09-16
Filing date: 2020-09-16
Publication date: 2021-03-25
Also published as: JP7164252B2; US11907637B2; JP2022530785A; EP3998552A1; US20220058332A1; EP3998552A4; CN110717498A

Abstract

本公开提供一种图像处理方法、装置及电子设备，涉及人工智能领域。该方法包括：获取输入图像，提取输入图像中各图像区域的区域特征，以获取第一图像特征；根据预设规则对第一图像特征中的像素进行处理，并根据处理后的像素确定第二图像特征；基于第二图像特征和针对所述输入图像已确定的至少一个词向量，确定与第一图像特征中各图像区域对应的区域特征对应的词向量，预测所述词向量在文本描述中的位置，并根据词向量和所述位置形成与输入图像对应的文本描述。

Description

图像处理方法、装置及电子设备

本申请要求于2019年09月16日提交中国专利局、申请号为201910872478.6、发明名称为“图像描述生成方法、装置及电子设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本公开涉及人工智能技术领域，具体而言，涉及一种图像处理方法、图像描述生成装置及电子设备。

发明背景

图像生成描述是为一张图片生成能表达其含义的自然语言描述的分析研究，具有广泛的应用前景。比如，通过对一张图片生成文本描述，可以帮助视障人士快速准确地理解图像内容；在幼教领域中对少儿图片生成直观准确地描述，可以给予幼儿更好的启蒙学习等等。

启发于神经网络在图像识别与机器翻译中的成功应用，许多现有方法都在神经网络模型的基础上去生成图像文本描述。目前，图像生成描述主要是使用卷积神经网络将图像编码用一个固定向量表达，然后直接使用循环神经网络将其解码成一个描述内容的句子。但是现有的解码模型较为简单，导致模型在句子较长或句式结构较为复杂时的效果明显下降。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的实施例提供了一种图像处理方法、图像处理装置及电子设备，进而至少在一定程度上可以准确有效地提取图像中包含的自然语言信息，并生成更为准确、流畅的文本描述。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开实施例的一个方面，提供了一种图像处理方法，包括：获取输入图像，对所述输入图像中各图像区域所包含的对象进行编码，以获取第一图像特征；根据预设规则对所述第一图像特征中的像素进行处理，并根据处理后的像素确定第二图像特征；基于所述第二图像特征和起始词向量，在不同时刻对所述第一图像特征中与各所述图像区域对应的区域特征进行解码，以获取与各所述图像区域对应的词向量，并根据所述词向量形成与所述输入图像对应的文本描述，其中所述起始词向量为所述文本描述的起始标记。

根据本公开实施例的一个方面，提供了一种图像处理装置，包括：特征提取模块，用于获取输入图像，对所述输入图像中各图像区域所包含的对象进行编码，以获取第一图像特征；特征转换模块，用于根据预设规则对所述第一图像特征中的像素进行处理，并根据处理后的像素确定第二图像特征；描述生成模块，用于基于所述第二图像特征和起始词向量，在不同时刻对所述第一图像特征中与各所述图像区域对应的区域特征进行解码，以获取与各所述图像区域对应的词向量，并根据所述词向量形成与所述输入图像对应的文本描述，其中所述起始词向量为所述文本描述的起始标记。

本公开的技术方案通过解码网络模型对输入图像对应的图像特征进行解码，一方面能够更准确有效地提取输入图像中包含的自然语言信息；另一方面能够使解码网络模型在句子较长或句式结构较复杂时也能适用，提高了文本描述的准确性和流畅度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图简要说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1为可以应用本公开实施例的技术方案的示例性系统架构的示意图；

图2为相关技术中图像处理方法的流程示意图；

图3为根据本公开的一个实施例的图像处理方法的流程示意图；

图4为根据本公开的一个实施例的反射解码网络模型的结构示意图；

图5为根据本公开的一个实施例的视觉注意力模块的结构示意图；

图6为根据本公开的一个实施例的视觉注意力模块的处理流程示意图；

图7为根据本公开的一个实施例的图像处理的流程示意图；

图8为根据本公开的一个实施例的反射式注意模块的处理流程示意图；

图9为根据本公开的一个实施例的反射式注意模块的结构示意图；

图10为根据本公开的一个实施例的反射位置模块确定位置感知损失的流程示意图；

图11为根据本公开的一个实施例的图像处理装置的框图；

图12为适于用来实现本公开实施例的图像处理装置的计算机系统的结构示意图。

实施本发明的方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本公开的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

图1示出了可以应用本公开实施例的技术方案的示例性系统架构的示意图。

如图1所示，系统架构100可以包括终端设备101、网络102和服务器103。网络102用以在终端设备101和服务器103之间提供通信链路的介质。网络102可以包括各种连接类型，例如有线通信链路、无线通信链路等等。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实际需要，可以具有任意数目的终端设备、网络和服务器。比如服务器103可以是多个服务器组成的服务器集群等。

在本公开的一个实施例中，终端设备101将图像通过网络102发送至服务器103，服务器103获取输入图像后，首先可以对输入图像进行划分形成多个图像区域，并通过编码网络模型对各图像区域中的对象进行特征提取，以获取与各图像区域对应的区域特征，进而根据与各图像区域对应的区域特征获得与输入图像对应的第一图像特征；接着根据预设规则对第一图像特征中的像素进行处理，并根据处理后的像素确定与输入图像对应的第二图像特征；然后将第一图像特征、第二图像特征及起始词向量输入反射解码网络模型，通过反射解码网络模型对第一图像特征进行解码，以获取与各图像区域对应的词向量，进而根据各图像区域对应的词向量形成与输入图像对应的文本描述。本公开实施例的技术方案能够保证模型在句子较长或句式结构较为复杂时的性能，进而能够更准确有效地提取图像中包含的自然语言信息，并生成更准确、流畅的文本描述。

需要说明的是，本公开实施例所提供的图像处理方法一般由服务器执行，相应地，图像处理装置一般设置于服务器中。但是，在本公开的其它实施例中，也可以由终端设备执行本公开实施例所提供的图像处理方法。

在本领域的相关技术中，主要通过编解码框架生成图像的文本描述，图2示出了相关技术中图像处理方法的流程示意图，如图2所示，将图像201输入至编码网络模型202，该编码网络模型202包括Faster R-CNN网络和ResNet-101网络，通过Faster R-CNN网络对输入图像提取特征能够获得输入图像中各对象对应的局部特征信息，通过ResNet-101网络对输入图像提取特征能够获取输入图像对应的全局特征信息；接着将局部特征信息和全局特征信息输入至解码网络模型203，该解码网络模型203包括多个重复的网络结构，该网络结构为基于注意力的循环神经网络，具体地，将该全局特征信息输入至第一层LSTM，通过第一层LSTM对全局特征信息进行特征提取，以输出第一隐藏状态；接着该第一隐藏状态和局部特征信息输入至注意力机制网络层，通过注意力机制网络层可以输出一混合特征；然后通过第二层LSTM对该混合特征和第一隐藏状态共同进行处理，以输出第二隐藏状态；最后对第二隐藏状态进行softmax处理，以获得预测的词向量。

虽然图2所示的图像描述生成算法可以取得较好的效果，但是仍然具有局限性。具体地，提升模型效果的方式只能通过提取更具有代表性的细粒度分隔到单个物体层面的图像特征，而忽略了对语言模型本身的关注。解码网络模型较为简单，导致模型在句子较长或句式结构较为复杂时的效果明显下降。

本公开实施例提供了一种图像处理方法，该图像处理方法涉及人工智能领域，人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision,CV)是一门研究如何使机器“看”的技术，更进一步的说，就是指用摄影机和电脑对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习(Learning from instruction)等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本公开实施例提供的方案涉及人工智能的图像语义理解技术，具体通过如下实施例进行说明：

本公开实施例首先提出了一种图像处理方法，该图像处理方法可以应用在如儿童早期教育、图像检索及盲人导航等领域，以下对本公开实施例的技术方案的实现细节进行详细阐述：

图3为根据本公开的一个实施例的图像处理方法的流程图。该图像处理方法可以由一个或多个计算设备来执行，该一个或多个计算设备可以是图1中所示的终端设备101和/或服务器103。参照图3所示，该图像处理方法至少包括步骤S310至步骤S330。

在步骤S310中，获取输入图像，对所述输入图像中各图像区域所包含的对象进行编码，以获取第一图像特征。

在本公开的一个实施例中，该输入图像可以是从网络上下载的图像，也可以是存储于终端设备101本地的图像，还可以是用户通过拍摄装置，如照相机、摄像机、智能手机等具有拍摄单元的终端，获取的图像，等等，在确定需要生成文本描述的图像后，可以通过终端设备101将其发送至服务器103。进一步地，该终端设备101可以是任意的具有显示屏幕的终端设备，如智能手机、笔记本电脑、台式机等等，本公开实施例对此不做具体限定。

在本公开的一个实施例中，接收到输入图像后，可以对该输入图像进行划分，以形成多个图像区域，其中划分输入图像的方法可以是根据像素数量进行划分，也可以是根据图像中的不同对象进行划分等等。在对输入图像划分形成多个图像区域后，可以对各图像区域中的对象进行编码，也就是特征提取，例如一幅图像所呈现的场景是一个小孩在院子里拍皮球，那么该图像中的对象就是小孩、皮球和草地，至于图像中如天空、小鸟等背景都可以忽略，不用针对背景进行特征提取。在对各图像区域中的对象进行编码时，可以采用诸如Faster R-CNN、ResNet、VGG等网络结构作为编码网络模型，通过该编码网络模型对各图像区域中的对象进行特征提取，以获取与各图像区域对应的区域特征，该区域特征实质为与图像区域对应的固定向量表达。进一步地，根据各图像区域对应的区域特征可以获取与输入图像对应的第一图像特征。

在步骤S320中，根据预设规则对所述第一图像特征中的像素进行处理，并根据处理后的像素确定第二图像特征。

在本公开的一个实施例中，在对输入图像中各图像区域进行特征提取获取第一图像特征后，可以根据第一图像特征中各像素的像素值确定第二图像特征中的像素值。具体地，可以计算第一图像特征中所有像素的像素均值，并将该像素均值作为第二图像特征中每个像素的像素值。该第二图像特征可以作为输入特征输入至反射解码网络模型中，以使反射解码网络模型根据第二图像特征和起始词向量对第一图像特征进行解码，预测与第一图像特征中各图像区域对应的词向量。值得说明的是，本公开实施例中的起始词向量可以是任意的不具有实质语义的字符，例如可以是一个起始标记符，如#，也可以是一个起始标记词，如BN，等等，本公开实施例对此不做具体限定。

在步骤S330中，基于所述第二图像特征和起始词向量，对所述第一图像特征中与各所述图像区域对应的区域特征进行解码，以获取与各所述图像区域对应的词向量，并根据所述词向量形成与所述输入图像对应的文本描述，其中所述起始词向量为所述文本描述的起始标记。

步骤S330中，可以在不同时刻对所述第一图像特征中与各所述图像区域对应的区域特征进行解码，并利用先前已解码的区域特征对当前的区域特征进行解码。

在本公开的一个实施例中，在获取第二图像特征后，将该第二图像特征作为输入特征输入至反射解码网络模型中，同时还可以将起始词向量输入至该反射解码网络模型中，以使其在不同时刻对第一图像特征中与各图像区域对应的区域特征进行解码，获取与各图像区域对应的词向量。

图4示出了反射解码网络模型的结构示意图，如图4所示，反射解码网络模型包括多个依次排列的反射解码子网络，其中各反射解码子网络在不同时刻分别对第一图像特征中与各图像区域对应的区域特征进行解码，以获取与各图像区域对应的词向量。对于第一反射解码子网络而言，可以将第二图像特征和起始词向量作为输入特征进行输入，通过第一反射解码子网络基于第二图像特征和起始词向量对第一图像特征中的目标区域特征进行解码，以获取与目标区域特征对应的词向量；对于第M+1反射解码子网络而言，可以将第二图像特征和第M反射解码子网络输出的词向量输入至第M+1反射解码子网络，通过第M+1反射解码子网络对第一图像特征中的目标区域特征进行解码，以获取与目标区域特征对应的词向量，其中M为正整数。

本公开的实施例的方法可以包括：

获取输入图像，提取所述输入图像中各图像区域的区域特征，以获取第一图像特征；

根据预设规则对所述第一图像特征中的像素进行处理，并根据处理后的像素确定第二图像特征；

基于所述第二图像特征和针对所述输入图像已确定的至少一个词向量，在不同时刻，确定与所述第一图像特征中各所述图像区域对应的区域特征对应的词向量，预测所述词向量在文本描述中的位置，并根据所述词向量和所述位置形成与所述输入图像对应的文本描述。

在本公开的一个实施例中，各反射解码子网络的结构相同，都包含视觉注意力模块、反射式注意模块RAM(Reflective Attention Module)和反射式位置模块RPM(Reflective Position Module)三部分。视觉注意力模块主要关注编码网络模型的视觉特征。反射式注意模块在视觉注意力模块的输出信息的基础上，利用文本注意力机制建模当前时刻和过去时刻该视觉注意力模块输出信息的匹配程度，得到上下文向量，以生成当前时刻的词语，从而能够捕捉到更多综合的历史词汇信息。反射式位置模块能够引入生成的文本描述中每个单词的相对位置信息，在反射解码网络模型预测词汇的同时，预测当前词汇在文本描述中的相对位置，从而帮助反射解码网络模型感知句子的句法结构。

图5示出了视觉注意力模块的结构示意图，如图5所示，视觉注意力模块500包括第一长短期记忆网络(LSTM-1)501、第二长短期记忆网络(LSTM-2)502和注意力机制网络(Attvis)503，其中第一长短期记忆网络501用于根据第二图像特征和前一时刻获得的词向量进行特征提取，第二长短期记忆网络502用于根据第一长短期记忆网络501的输出信息和注意力机制网络503的输出信息进行特征提取，注意力机制网络503用于根据第一图像特征和第一长短期记忆网络501的输出信息进行特征提取。

进一步地，图6示出了视觉注意力模块的处理流程示意图，为了便于理解，本公开实施例中以第t个反射解码子网络中的视觉注意力模块的处理流程为例进行说明，如图6所示，视觉注意力模块的处理流程至少包括步骤S601-S604，具体为：

在步骤S601中，将前一时刻反射解码子网络输出的词向量与第一权重矩阵相乘，以获取目标词向量。

在本公开的一个实施例中，图7示出了图像处理的流程示意图，如图7所示，对LSTM-1而言，根据第一图像特征确定的第二图像特征

和前一时刻反射解码子网络输出的词向量为LSTM-1的输入特征，为了保证输入的词向量的维度与LSTM-1处理的数据维度相同，可以对各反射解码子网络的输入词向量特征进行维度调整，具体可以将输入的词向量特征Ot(t＝1，…，T)与第一权重矩阵We相乘，以获取目标词向量，实现输入特征Ot维度的改变。值得注意的是，该第一权重矩阵We对每个输入特征Ot是共用的，因此在模型训练的时候针对第一权重矩阵We只需要训练一个参数即可。

在步骤S602中，通过第一长短期记忆网络对第二图像特征和目标词向量进行特征提取，以获取第一输出信息。

在本公开的一个实施例中，将第二图像特征和目标词向量输入至LSTM-1后，LSTM-1对目标词向量和第二图像特征进行处理，以输出第一输出信息，该第一输出信息实质上是LSTM-1输出的隐藏状态(Hidden state)，如图7中所示的

在步骤S603中，将第一输出信息和第一图像特征输入至注意力机制网络进行视觉匹配，以获取目标区域特征。

在本公开的一个实施例中，注意力机制类似于人类视觉，可以选择性地关注所有信息的一部分，同时忽略其它可见的信息。在采用反射解码网络模型进行解码之前，可以通过Faster R-CNN等卷积神经网络对输入图像进行特征提取，以获得第一图像特征{ri}(i＝1，…，k)，然后当获取LSTM-1输出的第一输出信息后，可以将第一输出信息和第一图像特征同时输入至注意力机制网络，通过注意力机制网络Attvis对第一输出信息和第一图像特征进行视觉匹配，以确定第一图像特征中各区域特征与第一输出信息之间的匹配度，最后将匹配度最高的区域特征作为目标区域特征从注意力机制网络输出，如图7所示的

在步骤S604中，通过第二长短期记忆网络对第一输出信息和目标区域特征进行特征提取，以获取第二输出信息。

在本公开的一个实施例中，获得目标区域特征后，该目标区域特征和第一输出信息将作为输入特征输入至LSTM-2，LSTM-2可以对第一输出信息和目标区域特征进行特征提取，以获取与目标区域特征对应的第二输出信息，该第二输出信息即为LSTM-2输出的隐藏状态，如图7中所示的

值得说明的是，还可以采用其它的循环神经网络替换本公开实施例中的LSTM，并且进一步地，可以采用不同类型的循环神经网络替换本公开实施例中的LSTM-1和LSTM-2，但是由于长短期记忆网络(LSTM，Long Short-Term Memory)，是一种时间递归神经网络，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件，因此为了更精准的预测词汇、形成连贯的文本描述，本公开实施例中的图像处理方法主要采用LSTM进行词汇预测。

之后，一些实施例可以通过所述第一隐藏状态和所述第二隐藏状态确定所述目标区域特征对应的词向量。

在本公开的一个实施例中，在句子较长或句式结构较为复杂时，为了提升解码效果，本公开实施例首先提出了采用反射式注意模块利用文本注意力机制对当前时刻的隐藏状态和过去时刻的隐藏状态进行匹配。如图7所示，对于第t个反射解码子网络中的反射式注意模块RAM而言，除了接收与其对应的LSTM-2输出的第二输出信息，还接收第1～(t-1)个反射解码子网络中的LSTM-2输出的第二输出信息及与其对应的LSTM-1输出的第一输出信息，以根据过去时刻的第二输出信息和当前时刻的第一输出信息及第二输出信息确定当前时刻与目标区域特征对应的第三输出信息。

图8示出了反射式注意模块的处理流程示意图，如图8所示，该处理流程至少包括步骤S801-S805，具体为：

在步骤S801中，根据所有过去时刻的第二输出信息和当前时刻的第二输出信息确定目标矩阵。

在本公开的一个实施例中，图9示出了反射式注意模块的结构示意图，如图9所示，左上角的柱体代表第二输出信息，根据过去时刻的第二输出信息

和当前时刻的第二输出信息

可以组成具有相应维度的目标矩阵，例如可以是1000×1的目标矩阵。

在步骤S802中，对目标矩阵进行降维处理，以获取第一特征信息，并对当前时刻的第一输出信息进行降维处理，以获取第二特征信息，其中第一特征信息和第二特征信息的维度相同。

在本公开的一个实施例中，为了提高计算效率，可以对目标矩阵和当前时刻的第一输出信息进行降维处理，以分别获取具有相同维度的第一特征信息和第二特征信息。如图9所示，目标矩阵、当前时刻的第一输出信息可以分别与一个512维的权重矩阵相乘，使得目标矩阵的维度和第一输出信息的维度均从1000维降低至512维，大大提高了处理效率。

在步骤S803中，基于注意力机制将第一特征信息和第二特征信息相加，以获取第三特征信息。

在本公开的一个实施例中，基于文本注意力机制，可以对第一特征信息和第二特征信息进行相应地处理，如图9所示的Attref，具体可以是将第一特征信息和第二特征信息相加，当然也可以上其它的具体处理方式，本公开实施例对此不做具体限定。在将第一特征信息和第二特征信息相加后，即可获得融合了过去时刻的隐藏状态及当前时刻的隐藏状态的第三特征信息。

在步骤S804中，对第三特征信息进行加权处理和归一化处理，以获取第二权重矩阵。

在本公开的一个实施例中，获取第三特征信息后，可以将该第三特征信息与反射注意力权重Wr相乘，以获取一特征矩阵，该特征矩阵所包含的信息的数量与目标矩阵中第二输出信息的数量相同，都为t个；接着可以对特征矩阵进行softmax处理，即归一化处理，计算每一个信息相对于所有信息的比值，根据与每个第二输出信息对应的比值可以确定第二权重矩阵。

在步骤S805中，将第一特征信息与第二权重矩阵相乘并求和，以获取第三输出信息。

在本公开的一个实施例中，获取包含与所有第二输出信息对应的第二权重矩阵后，可以将根据所有第二输出信息确定的第一特征信息与该第二权重矩阵相乘并求和，以获取第三输出信息，如图9中所示的右侧柱体

在本公开的一个实施例中，获取反射式注意模块输出的第三输出信息后，可以将第三输出信息与第三权重矩阵Ws相乘，以获取与目标区域特征

对应的词向量，如图7所示的St。值得说明的是，t时刻输出的词向量St为t+1时刻的输入向量Ot+1。

在本公开的一个实施例中，如图7所示，当反射式注意模块输出第三输出信息后，该第三输出信息同时可以输入至反射位置模块，该反射位置模块能够根据第三输出信息预测当前时刻输出的词向量在文本描述中的相对位置。具体地，反射位置模块中包含一全连接层和压缩层，第三输出信息输入至反射位置模块后，首先通过全连接层进行全连接，将512×1维的

转换为1×1维的向量，接着通过压缩层根据相应的压缩函数对全连接层输出的向量进行压缩，以获取一相对位置。该压缩层输出的结果为一个介于0和1之间的数字，其代表了词向量在文本描述中的位置，例如文本描述是一句包含10个单词的句子，压缩层输出的数字是0.6，那么第t个反射解码子网络输出的词向量St在该句子中的位置为第6位。

在本公开的一个实施例中，通过反射解码网络模型中多个依次排列的反射解码子网络对第一图像特征中与各图像区域对应的区域特征进行解码，当遇到句末标点后停止生成词向量，在获得与各图像区域对应的词向量{S1,S2,…,ST}后，可以将该些词向量依次串接，形成与输入图像对应的文本描述。

在本公开的一个实施例中，在使用反射解码网络模型对第一图像特征进行词汇预测以生成文本描述之前，还需要对反射解码网络模型进行训练。具体地，首先获取图像样本和与图像样本对应的文本描述样本，接着将图像样本输入至待训练的反射解码网络模型以生成相应地文本描述，根据生成的文本描述和对应的文本描述样本的匹配程度调节模型参数，直至待训练反射式解码网络模型的损失函数最小。在本公开实施例中，反射解码网络模型的损失函数包括交叉熵损失函数和位置感知损失函数两部分，其中交叉熵损失函数为待训练反射式解码网络生成的与图像样本对应的文本描述的正确概率；位置感知损失函数为当前时刻待训练反射式解码网络模型输出的词向量在文本描述样本中的真实位置和预测位置之间的距离。

在本公开的一个实施例中，要使反射解码网络模型的损失函数最小，必须保证交叉熵损失函数最大且位置感知损失函数最小，其中交叉熵损失函数可以根据公式 (1)确定，具体为：

其中，I是输入图像；θ是反射解码网络模型的参数，包括上述实施例中的We、Ws、Wr等权重矩阵；S是输入图像对应的正确的长度不固定的文本描述，可代表任何句子。

由于文本描述S中的任何一个词向量依赖与其相邻的前一词向量，因此可以应用链式法则对句子组成词向量S1，S2，…，ST上的联合概率分布做建模表示。进而基于公式(1)可以确定交叉熵损失函数Lxe如公式(2)所示：

其中，N是生成的文本描述所包含的词汇数，St表示t时刻生成的词向量。

在训练阶段，(S,I)是训练的图像语句对，可以通过随机梯度下降(SGD)的方法优化公式(2)中对数概率的和。

在本公开的一个实施例中，位置感知损失(Position-Perceptive Loss)可以由反射位置模块确定，图10示出了反射位置模块确定位置感知损失的流程示意图，如图10所示，通过全连接层对反射式注意模块输出的第三输出信息进行全连接，以生成全连接信息，该全连接信息可以是1×1的向量；然后根据压缩层对应的预设压缩函数对全连接信息进行压缩处理，以获取与第三输出信息对应的词向量的预测位置，即预测的词向量在文本描述中的相对位置

最后根据预测位置和与第三输出信息对应的词向量在文本描述样本中的真实位置确定位置感知损失，其中词汇在句子中的真实位置

可以根据文本描述样本中所包含的词汇数量和与目标区域特征对应的词汇在文本描述样本中的位置获得，进而根据真实位置

和相对位置

可以确定位置感知损失Lpos，具体的计算方式如公式(3)所示：

其中，

和

分别表示当前时刻词向量在句子中真实和预测的相对位置，通过最小化Lpos来缩小两者间的距离。

进一步地，在获取交叉熵损失和位置感知损失后，可以根据公式(4)确定反射解码网络模型对应的损失函数的大小，具体如下：

L＝L _xe+λL _pos (4)

其中参数λ用于平衡损失函数在整个反射解码网络模型优化过程中的作用，其可以根据实际需要进行设定，本公开实施例对此不做具体限定。

接下来，以盲人导航为例对本公开实施例的技术方案进行说明，视障人士可以佩戴一智能设备，该智能设备具体可以是智能眼镜、便携式智能相机等等，在视障人士运动的过程中，可以实时拍摄前方的道路图像，接着通过智能设备中搭载的图像描述装置对图像进行分析，以获取对应的文本描述，进一步地可以通过相应的语音输出设备将该文本描述输出，以使视障人士及时了解路况，躲避障碍物。例如，当视障人士行走至十字路口时，红灯亮起了，这时智能设备的图像采集单元能够获取包含信号灯、斑马线、车辆通行状况的图像，通过对该图像中的信号灯、斑马线、车辆进行编码，以获取第一图像特征；接着根据第一图像特征中所有像素的像素均值确定第二图像特征；然后将第一图像特征、第二图像特征和起始词向量输入至反射解码网络模型，通过反射解码网络模型中的反射解码子网络依次对图像中的信号灯、斑马线、车辆进行文本预测，比如根据信号灯能够输出文本“信号灯、红灯”、根据斑马线能够输出“斑马线、有车辆、无行人”等信息，最终根据与各图像区域对应的词向量可以生成文本描述“信号灯为红灯，斑马线上有车辆，行人无法通过”，该文本描述可以实时发送给视障人士，提醒其等待绿灯亮起再通行。

以儿童早期教育为例，幼儿在翻阅故事书的时候，会被形形色色的图案吸引，当幼儿观看一幅图画的时候，书本所携带的拍摄装置可以获取该幅图画，并将其输入至图像处理单元以获取对应的文本描述。除此之外，还可以提前将故事书中每页的图画存储起来，当幼儿观看某一页的图画时，该页的图画会被输入至图像处理单元以获取对应的文本描述。例如故事书中有一页图画是一只小羊在山坡上吃草，那么图像处理单元可以对该幅图画进行分割，对各图像区域中的对象进行编码，以获取第一图像特征；接着对第一图像特征中的所有像素求均值，并将所有像素的像素值替换为像素均值，以形成第二图像特征；然后将第一图像特征、第二图像特征和起始词向量输入至反射解码网络模型，通过反射解码网络模型根据上下文向量生成当前时刻的词语，并预测当前时刻的词语在句子中的相对位置，例如通过反射式注意模型能够依次生成词向量：一只、小绵羊、山坡、吃草，根据这些词向量能够获得最终的文本描述：一只小绵羊在山坡上吃草，在幼儿观看图画的时候，该文本描述可以通过语音输出单元播放，帮助幼儿理解图画内容，增加对事物的认知。

本公开中的图像处理方法通过反射解码网络模型对编码网络模型编码的第一图像特征进行解码，通过反射式注意模块对当前时刻的隐藏状态和过去时刻的隐藏状态进行匹配，得到上下文向量以生成当前时刻的词向量，并通过反射位置模块对当前时刻的词向量在文本描述中的相对位置进行预测，增强了句子前后的关联和时序逻辑，进一步提高了语言模型的解码能力，保证了在较长或复杂句子的情况下，模型性能的稳定性，从而能生成更加自然准确的图像文本描述。

值得说明的是，虽然本公开实施例中主要针对长短期时序模块的解码输入部分，通过引入反射式注意力模块和反射位置模块进行改进，但是对于其它增强学习、图卷积神经网络和生成对抗网络技术也可以采用本公开中的反射式注意力模块和反射位置模块进行改进，进一步提高图像描述的生成质量。

以下介绍本公开的装置实施例，可以用于执行本公开上述实施例中的图像处理方法。对于本公开装置实施例中未披露的细节，请参照本公开上述的图像处理方法的实施例。

图11为根据本公开的一个实施例的图像处理装置的框图。

参照图11所示，根据本公开的一个实施例的图像处理装置1100，包括：特征提取模块1101、特征转换模块1102和描述生成模块1103。

其中，特征提取模块1101，用于获取输入图像，对所述输入图像中各图像区域所包含的对象进行编码，以获取第一图像特征；特征转换模块1102，用于根据预设规则对所述第一图像特征中的像素进行处理，并根据处理后的像素确定第二图像特征；描述生成模块1103，用于基于所述第二图像特征和起始词向量，在不同时刻对所述第一图像特征中与各所述图像区域对应的区域特征进行解码，以获取与各所述图像区域对应的词向量，并根据所述词向量形成与所述输入图像对应的文本描述，其中所述起始词向量为所述文本描述的起始标记。

在本公开的一个实施例中，所述特征提取模块1101配置为：对所述输入图像进行划分，以形成多个所述图像区域；通过编码网络模型对所述图像区域中的对象进行特征提取，以获取与所述图像区域对应的区域特征；根据所述区域特征形成所述第一图像特征。

在本公开的一个实施例中，所述特征转换模块1102配置为：获取所述第一图像特征中所有像素的像素均值，并将所述像素均值作为各所述像素的像素值，以形成所述第二图像特征。

在本公开的一个实施例中，所述描述生成模块1103配置为：通过反射解码网络模型基于所述第二图像特征和起始词向量，在不同时刻对所述第一图像特征中与各所述图像区域对应的区域特征进行解码，以获取与各所述图像区域对应的词向量。

在本公开的一个实施例中，所述反射解码网络模型包括多个依次排列的反射解码子网络；所述描述生成模块1103配置为：将所述第二图像特征和第M反射解码子网络输出的词向量输入至第M+1反射解码子网络；通过所述第M+1反射解码子网络对所述第一图像特征中的目标区域特征进行解码，以获取与所述目标区域特征对应的词向量；其中，M为正整数。

在本公开的一个实施例中，所述描述生成模块1103配置为：将所述第二图像特征和所述起始词向量输入至第一反射解码子网络，通过所述第一反射解码子网络对所述第一图像特征中的目标区域特征进行解码，以获取与所述目标区域特征对应的词向量。

在本公开的一个实施例中，所述反射解码子网络包括视觉注意力模块、反射式注意模块和反射式位置模块，其中所述反射式位置模块用于预测当前时刻所述反射解码子网络输出的词向量在所述文本描述中的相对位置。

在本公开的一个实施例中，所述视觉注意力模块包括第一长短期记忆网络、第二长短期记忆网络和注意力机制网络；所述图像处理装置1100配置为：将前一时刻所述反射解码子网络输出的词向量与第一权重矩阵相乘，以获取目标词向量；通过所述第一长短期记忆网络对所述第二图像特征和所述目标词向量进行特征提取，以获取第一输出信息；将所述第一输出信息和所述第一图像特征输入至所述注意力机制网络进行视觉匹配，以获取目标区域特征；通过所述第二长短期记忆网络对所述第一输出信息和所述目标区域特征进行特征提取，以获取第二输出信息。

在本公开的一个实施例中，所述图像处理装置1100还包括：词向量生成模块，用于通过所述反射式注意模块根据过去时刻的所述第二输出信息和当前时刻的所述第一输出信息及所述第二输出信息确定当前时刻与目标区域特征对应的第三输出信息。

在本公开的一个实施例中，所述词向量生成模块配置为：根据所有所述过去时刻的第二输出信息和所述当前时刻的第二输出信息确定目标矩阵；对所述目标矩阵进行降维处理，以获取第一特征信息，并对所述当前时刻的第一输出信息进行降维处理，以获取第二特征信息，其中所述第一特征信息和所述第二特征信息的维度相同；基于注意力机制将所述第一特征信息和所述第二特征信息相加，以获取第三特征信息；对所述第三特征信息进行加权处理和归一化处理，以获取第二权重矩阵；将所述第一特征信息与所述第二权重矩阵相乘并求和，以获取所述第三输出信息。

在本公开的一个实施例中，所述描述生成模块1103配置为：将所述第三输出信息与第三权重矩阵相乘，以获取与所述目标区域特征对应的词向量。

在本公开的一个实施例中，所述图像处理装置1100还包括：样本获取模块，用于获取图像样本和与所述图像样本对应的文本描述样本；模型训练模块，用于根据所述图像样本和所述文本描述样本对待训练反射式解码网络模型进行训练，直至所述待训练反射式解码网络模型对应的损失函数最小；其中所述损失函数包括交叉熵损失函数和位置感知损失函数。

在本公开的一个实施例中，所述交叉熵损失函数为所述待训练反射式解码网络生成的与所述图像样本对应的文本描述的正确概率；所述位置感知损失函数为当前时刻所述待训练反射式解码网络输出的词向量在文本描述样本中的真实位置和预测位置之间的距离。

在本公开的一个实施例中，所述位置感知损失函数对应的位置感知损失由所述反射式位置模块确定；所述图像处理装置1100配置为：通过全连接层对所述反射式注意模块输出的特征进行全连接，以生成全连接信息；根据预设压缩函数对所述全连接信息进行压缩，以获取与所述反射式注意模块输出的特征所对应的词向量的预测位置信息；根据所述预测位置信息和与所述反射式注意模块输出的特征所对应的词向量在所述文本描述样本中的真实位置信息确定所述位置感知损失。

图12示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。

需要说明的是，图12示出的电子设备的计算机系统1200仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图12所示，计算机系统1200包括中央处理单元(Central Processing Unit，CPU)1201，其可以根据存储在只读存储器(Read-Only Memory，ROM)1202中的程序或者从存储部分1208加载到随机访问存储器(Random Access Memory，RAM)1203中的程序而执行各种适当的动作和处理，实现上述实施例中所述的图像处理方法。在RAM 1203中，还存储有系统操作所需的各种程序和数据。CPU 1201、ROM 1202以及RAM 1203通过总线1204彼此相连。输入/输出(Input/Output，I/O)接口1205也连接至总线1204。

以下部件连接至I/O接口1205：包括键盘、鼠标等的输入部分1206；包括诸如阴极射线管(Cathode Ray Tube，CRT)、液晶显示器(Liquid Crystal Display，LCD)等以及扬声器等的输出部分1207；包括硬盘等的存储部分1208；以及包括诸如LAN(Local Area Network，局域网)卡、调制解调器等的网络接口卡的通信部分1209。通信部分1209经由诸如因特网的网络执行通信处理。驱动器1210也根据需要连接至I/O接口1205。可拆卸介质1211，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1210上，以便于从其上读出的计算机程序根据需要被安装入存储部分1208。

特别地，根据本公开的实施例，下文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1209从网络上被下载和安装，和/或从可拆卸介质1211被安装。在该计算机程序被中央处理单元(CPU)1201执行时，执行本公开的系统中限定的各种功能。

需要说明的是，本公开实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面，本公开还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的图像处理装置中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现上述实施例中所述的方法。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本公开实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

一种图像处理方法，由一个或多个计算设备执行，包括：

获取输入图像，提取所述输入图像中各图像区域的区域特征，以获取第一图像特征；

根据预设规则对所述第一图像特征中的像素进行处理，并根据处理后的像素确定第二图像特征；

基于所述第二图像特征和针对所述输入图像已确定的至少一个词向量，确定与所述第一图像特征中各所述图像区域对应的区域特征对应的词向量，预测所述词向量在文本描述中的位置，并根据所述词向量和所述位置形成与所述输入图像对应的文本描述。
根据权利要求1所述的方法，其中，提取所述输入图像中各图像区域的区域特征，以获取第一图像特征，包括：

对所述输入图像进行划分，以形成多个所述图像区域；

通过编码网络模型对所述图像区域中的对象进行特征提取，以获取与所述图像区域中的对象对应的区域特征；

根据所述区域特征形成所述第一图像特征。
根据权利要求1所述的方法，其中，所述基于所述第二图像特征和针对所述输入图像已确定的至少一个词向量，在不同时刻，确定所述第一图像特征中各所述图像区域对应的区域特征对应的词向量，包括：

通过反射解码网络模型基于所述第二图像特征和针对所述输入图像已确定的至少一个词向量，在不同时刻，确定所述第一图像特征中各所述图像区域对应的区域特征对应的词向量。
根据权利要求3所述的方法，其中，所述反射解码网络模型包括多个依次排列的反射解码子网络；

所述通过反射解码网络模型基于所述第二图像特征和针对所述输入图像已确定的至少一个词向量，在不同时刻，确定所述第一图像特征中各所述图像区域对应的区域特征对应的词向量，包括：

将所述第二图像特征和第M反射解码子网络输出的词向量输入至第M+1反射解码子网络；

通过所述第M+1反射解码子网络确定所述第一图像特征中的目标区域特征对应的词向量；其中，M为正整数。
根据权利要求3所述的方法，其中，所述通过反射解码网络模型基于所述第二图像特征和针对所述输入图像已确定的至少一个词向量，在不同时刻，确定所述第一图像特征中各所述图像区域对应的区域特征对应的词向量，包括：

将所述第二图像特征和起始词向量输入至第一反射解码子网络，通过所述第一反射解码子网络基于所述第二图像特征和所述起始词向量确定所述第一图像特征中的目标区域特征对应的词向量，其中所述起始词向量为所述文本描述的起始标记。
根据权利要求4所述的方法，其中，所述反射解码子网络包括反射式位置模块，其中所述反射式位置模块用于预测当前时刻所述反射解码子网络输出的词向量在所述文本描述中的相对位置。
根据权利要求4所述的方法，其中，所述反射解码子网络进一步包括视觉注意力模块，所述视觉注意力模块包括第一长短期记忆网络、第二长短期记忆网络和注意力机制网络；

其中，通过所述第M+1反射解码子网络确定所述第一图像特征中的目标区域特征对应的词向量包括：

将前一时刻所述第M+1反射解码子网络输出的词向量与第一权重矩阵相乘，以获取目标词向量；

通过所述第一长短期记忆网络对所述第二图像特征和所述目标词向量进行特征提取，以确定所述第一长短期记忆网络的第一隐藏状态；

将所述第一隐藏状态和所述第一图像特征输入至所述注意力机制网络进行视觉匹配，以获取目标区域特征；

通过所述第二长短期记忆网络对所述第一隐藏状态和所述目标区域特征进行特征提取，以确定所述第二长短期记忆网络的第二隐藏状态；

通过所述第一隐藏状态和所述第二隐藏状态确定所述目标区域特征对应的词向量。
根据权利要求7所述的方法，其中，所述反射解码子网络进一步包括反射式注意模块；

其中，通过所述第一隐藏状态和所述第二隐藏状态确定所述目标区域特征对应的词向量包括：

通过所述反射式注意模块根据过去时刻的第二隐藏状态和当前时刻的所述第一隐藏状态及所述第二隐藏状态确定当前时刻与目标区域特征对应的第三输出信息；

将所述第三输出信息与第三权重矩阵相乘，以获取与所述目标区域特征对应的词向量。
根据权利要求8所述的方法，其中，确定当前时刻与目标区域特征对应的第三输出信息包括：

根据所有所述过去时刻的第二隐藏状态和所述当前时刻的第二隐藏状态确定目标矩阵；

对所述目标矩阵进行降维处理，以获取第一特征信息，并对所述当前时刻的第一隐藏状态进行降维处理，以获取第二特征信息，其中所述第一特征信息和所述第二特征信息的维度相同；

基于注意力机制将所述第一特征信息和所述第二特征信息相加，以获取第三特征信息；

对所述第三特征信息进行加权处理和归一化处理，以获取第二权重矩阵；

将所述第一特征信息与所述第二权重矩阵相乘并求和，以获取所述第三输出信息。
根据权利要求3所述的方法，其中，在获取输入图像之前，所述方法还包括：

获取图像样本和与所述图像样本对应的文本描述样本；

根据所述图像样本和所述文本描述样本对待训练反射解码网络模型进行训练，直至所述待训练反射解码网络模型对应的损失函数最小；

其中所述损失函数包括交叉熵损失函数和位置感知损失函数。
根据权利要求10所述的方法，其特征在于，所述交叉熵损失函数为所述待训练反射式解码网络生成的与所述图像样本对应的文本描述的正确概率；所述位置感知损失函数为当前时刻所述待训练反射式解码网络输出的词向量在文本描述样本中的真实位置和预测位置之间的距离。
根据权利要求11所述的方法，其中，所述位置感知损失函数对应的位置感知损失由所述反射式位置模块确定；

所述方法还包括：

通过全连接层对所述反射式注意模块输出的特征进行全连接，以生成全连接信息；

根据预设压缩函数对所述全连接信息进行压缩，以获取与所述反射式注意模块输出特征所对应的词向量的预测位置；

根据所述预测位置和与所述反射式注意模块输出特征所对应的词向量在所述文本描述样本中的真实位置确定所述位置感知损失。
一种图像处理装置，包括：

特征提取模块，用于获取输入图像，提取所述输入图像中各图像区域的区域特征，以获取第一图像特征；

特征转换模块，用于根据预设规则对所述第一图像特征中的像素进行处理，并根据处理后的像素确定第二图像特征；

描述生成模块，用于基于所述第二图像特征和针对所述输入图像已确定的至少一个词向量，确定所述第一图像特征中各所述图像区域对应的区域特征对应的词向量，预测所述词向量在文本描述中的位置，并根据所述词向量和所述位置形成与所述输入图像对应的文本描述。
一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至12中任一项所述的图像处理方法。
一种计算机可读存储介质，存储一个或多个计算机可读指令，其特征在于，包括：所述指令可由一个或多个处理器执行，用于实现如权利要求1至12中任一项所述的图像处理方法。