WO2023201963A1

WO2023201963A1 - 图像理解方法、装置、设备及介质

Info

Publication number: WO2023201963A1
Application number: PCT/CN2022/116913
Authority: WO
Inventors: 郭振华; 刘璐; 李仁刚; 赵雅倩; 闫瑞栋; 徐聪; 金良
Original assignee: 苏州浪潮智能科技有限公司
Priority date: 2022-04-18
Filing date: 2022-09-02
Publication date: 2023-10-26
Also published as: CN114511043B; CN114511043A

Abstract

本申请公开了一种图像理解方法、装置、设备及介质，涉及人工智能领域，包括：基于训练图像对应的原始文本数据构建与训练图像对应的第一文本数据，利用简单视觉语言模型得到第二文本数据；基于训练图像、第一文本数据和第二文本数据构建图像文本对集，初始化图像理解模型；从图像文本对集中选取用作训练数据的图像文本对，利用当前的图像理解模型计算训练数据对应的模型总体损失函数值，对图像理解模型中的参数进行更新；判断当前是否满足结束条件，若否则跳转至从图像文本对集中选取用作训练数据的图像文本对的步骤，直到满足结束条件，利用当前输出的图像理解模型获取与待检测图像对应的目标文本数据。

Description

图像理解方法、装置、设备及介质

相关申请的交叉引用

本申请要求于2022年04月18日提交中国专利局，申请号为202210401296.2，申请名称为“图像理解方法、装置、设备及介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能领域，特别涉及图像理解方法、装置、设备及介质。

背景技术

图像理解(Image Caption)通过计算机系统来解释图像，实现犹如人类视觉系统理解外部世界，其目的是在待检测图像中获取目标信息并利用该信息以得到目标文本数据。当前社交媒体通讯业发达，人们在国内社交软件抖音、微博，以及国外社交软件推特、Instagram等，无时无刻不在发表着个人言论。这些言论通常是以图文形式绑定出现，此时文字通常是用户设定的与图像相关的文本解释。然而，发明人意识到，由于语言具有隐晦的性质，即图像与文本之间的关系为弱相关关系，因此在这种实际情况下，现有技术中使用计算模型试图理解人们的社交语言存在着认知障碍，文本与图像之间的强相关假设与实际社交媒体数据存在差异，这是由于人类相较于计算模型拥有更丰富的背景知识所导致的。因此，普通的图像理解方法依然无法适用在面向社交媒体的场景中。

综上可见，如何实现更加贴近真实的应用场景并且能够面向社交媒体的图像理解是本领域有待解决的问题。

发明内容

第一方面，本申请公开了一种图像理解方法，包括：

基于训练图像对应的原始文本数据构建与训练图像对应的第一文本数据，并利用简单视觉语言模型对训练图像进行处理，以得到与训练图像对应的第二文本数据；

基于训练图像、第一文本数据和第二文本数据构建图像文本对，以得到相应的图像文本对集，并初始化图像理解模型；

从图像文本对集中选取用作训练数据的图像文本对，并利用当前的图像理解模型计算训练数据对应的模型总体损失函数值，然后基于模型总体损失函数值对图像理解模型中的参数进行更新；

在当前未满足预设迭代结束条件时，重新跳转至从图像文本对集中选取用作训练数据的图像文本对的步骤，直到满足预设迭代结束条件，并将当前输出的图像理解模型作为目标图像理解模型；和

利用目标图像理解模型获取与待检测图像对应的目标文本数据。

第二方面，本申请公开了一种图像理解装置，包括：

图文数据获取模块，用于基于训练图像对应的原始文本数据构建与训练图像对应的第一文本数据，并利用简单视觉语言模型对训练图像进行处理，以得到与训练图像对应的第二文本数据；

模型初始化模块，用于基于训练图像、第一文本数据和第二文本数据构建图像文本对，以得到相应的图像文本对集，并初始化图像理解模型；

模型参数更新模块，用于从图像文本对集中选取用作训练数据的图像文本对，并利用当前的图像理解模型计算训练数据对应的模型总体损失函数值，然后基于模型总体损失函数值对图像理解模型中的参数进行更新；

模型确定模块，用于在当前未满足预设迭代结束条件时，重新跳转至从图像文本对集中选取用作训练数据的图像文本对的步骤，直到满足预设迭代结束条件，并将当前输出的图像理解模型作为目标图像理解模型；和

图像理解模块，用于利用目标图像理解模型获取与待检测图像对应的目标文本数据。

第三方面，本申请公开了一种电子设备，包括：存储器及一个或多个处理器，存储器中储存有计算机可读指令，上述计算机可读指令被上述一个或多个处理器执行时，使得上述一个或多个处理器执行上述公开的图像理解方法的步骤。

第四方面，本申请公开了一个或多个存储有计算机可读指令的非易失性计算机可读存储介质，上述计算机可读指令被一个或多个处理器执行时，使得上述一个或多个处理器执行前述公开的图像理解方法的步骤。

本申请的一个或多个实施例的细节在下面的附图和描述中提出。本申请的其它特征和优点将从说明书、附图以及权利要求书变得明显。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请根据一个或多个实施例公开的一种图像理解方法流程图；

图2为本申请根据一个或多个实施例公开的一种具体的第一文本数据构建方法流程图；

图3为本申请根据一个或多个实施例公开的一种具体的图像理解方法流程图；

图4为本申请根据一个或多个实施例公开的一种具体的图像理解方法流程图；

图5为本申请根据一个或多个实施例公开的一种具体的图像理解方法流程图；

图6为本申请根据一个或多个实施例公开的一种图像理解装置结构示意图；

图7为本申请根据一个或多个实施例公开的一种电子设备结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

现有技术中使用计算模型试图理解人们的社交语言存在着认知障碍，文本与图像之间的强相关假设与实际社交媒体数据存在差异，这是由于人类相较于计算模型拥有更丰富的背景知识所导致的。因此，普通的图像理解方法依然无法适用在面向社交媒体的场景中。

为此本申请相应的提供了一种图像理解方案，实现了更加贴近真实的应用场景并且能够面向社交媒体的图像理解。

参见图1所示，本申请实施例公开了一种图像理解方法，该方法以应用于计算机设备为例进行说明，该方法包括：

步骤S11：基于训练图像对应的原始文本数据构建与训练图像对应的第一文本数据，并利用简单视觉语言模型对训练图像进行处理，以得到与训练图像对应的第二文本数据。

本实施例中，参见图2所示的第一文本数据构建方法流程图，首先爬取社交网站中以及公开发布的图像作为训练图像，以及与图像对应的原始文本数据，提取原始文本数据中的原始文本特征，即使用图像理解模型中的CLIP(Contrastive Language-Image Pre-training，即对比语言-图像预训练模型)获取原始文本数据的语义信息；利用图像理解模型中的图像编码器获取训练图像的全局特征和浅层特征，并基于原始文本特征、全局特征以及浅层特征计算出原文本数据和训练图像之间的关联向量，并且可以利用关联向量对基于CLIP的图像理解模型进行训练；计算关联向量与预设超参的乘积，并基于乘积与原始文本特征的和获取更新后文本特征，然后基于更新后文本特征得到第一文本数据，以便后续基于第一文本数据和第二文本数据对图像理解模型进行测试，其中预设超参可以根据实际情况进行设置，例如可以设置为0.05或0.1。可以理解的是，第一文本数据与训练图像之间为弱相关，因此构建了弱相关的监督数据集，后续能够在此基础上挖掘图像与文本之间的弱相关语义关系，获得丰富的语义层次监督。将训练图像送入简单视觉语言模型中，获取与训练图像为强相关的第二文本数据，并且在获取第二本文数据过程中，还利用目前SOTA(State-Of-The-Art，即最先进)的图像理解方法，对训练图像进行标注。

步骤S12：基于训练图像、第一文本数据和第二文本数据构建图像文本对，以得到相应的图像文本对集，并初始化图像理解模型。

本实施例中，基于训练图像{I ₁，I ₂，…I _n}、第一文本数据{t ₁ ^weak，t ₂ ^weak，…t _n ^weak}以及第二文本数据{t ₁ ^strong，t ₂ ^strong，…t _n ^strong}构建图像文本对{(I ₁，t ₁ ^weak，t ₁ ^strong)、(I ₂，t ₂ ^weak，t ₂ ^strong)、…(I _n，t _n ^weak，t _n ^strong)}，其中可以理解的是，训练图像(I ₁)与第一文本数据(t ₁ ^weak)相对应，训练图像(I ₁)与第二文本数据(t ₁ ^strong)相对应。

步骤S13：从图像文本对集中选取用作训练数据的图像文本对，并利用当前的图像理解模型计算训练数据对应的模型总体损失函数值，然后基于模型总体损失函数值对图像理解模型中的参数进行更新。

本实施例中，从图像文本对集{(I ₁，t ₁ ^weak，t ₁ ^strong)、(I ₂，t ₂ ^weak，t ₂ ^strong)、…(I _n，t _n ^weak，t _n ^strong)}中选取用作训练数据的图像文本对；利用当前的图像理解模型计算训练数据对应的像素文本匹配损失函数值(Pixe-Text Matching Loss)和文本距离损失函数值(Text Distance Loss)，并基于像素文本匹配损失函数值以及文本距离损失函数值确定模型总体损失函数值。

步骤S14：判断当前是否满足预设迭代结束条件，如果否则重新跳转至从图像文本对集中选取用作训练数据的图像文本对的步骤，直到满足预设迭代结束条件，并将当前输出的图像理解模型作为目标图像理解模型。

步骤S15：利用目标图像理解模型获取与待检测图像对应的目标文本数据。

本实施例中，判断当前是否满足预设迭代结束条件，可以为判断当前是否到达预设迭代次数，例如预设迭代次数为100万次，如果当前迭代次数未到达100万次则重新跳转至从图像文本对集中选取用作训练数据的图像文本对的步骤，若到达100万次，则停止训练。可以理解的是，在每一次迭代的过程中都会对当前的图像理解模型的参数进行更新，而最后一次迭代输出的模型即为目标图像理解模型，并利用目标图像理解模型输出待检测图像的目标文本数据。

可见，本申请首先基于训练图像对应的原始文本数据构建与训练图像对应的第一文本数据，并利用简单视觉语言模型对训练图像进行处理，以得到与训练图像对应的第二文本数据；基于训练图像、第一文本数据和第二文本数据构建图像文本对，以得到相应的图像文本对集，并初始化图像理解模型；从图像文本对集中选取用作训练数据的图像文本对，并利用当前的图像理解模型计算训练数据对应的模型总体损失函数值，然后基于模型总体损失函数值对图像理解模型中的参数进行更新；判断当前是否满足预设迭代结束条件，如果否则重新跳转至从图像文本对集中选取用作训练数据的图像文本对的步骤，直到满足预设迭代结束条件，并将当前输出的图像理解模型作为目标图像理解模型，以便利用目标图像理解模型获取与待检测图像对应的目标文本数据。

由此可见，本申请通过基于训练图像对应的原始文本数据构建与训练图像对应的弱相关的第一文本数据，以便后续图像理解模型能够挖掘训练图像和第一文本数据之间的弱相关语义关系，获得丰富的语义层次监督；通过简单视觉语言模型对训练图像进行处理，以得到与训练图像对应的强相关的第二文本数据，以便后续基于第一文本数据和第二文本数据计算模型总体损失函数值；基于模型总体损失函数值对图像理解模型中的参数进行更新，实现对图像理解模型进行优化，直至满足预设迭代结束条件，得到最优的目标图像理解模型，以便利用目标图像理解模型获取与待检测图像对应的目标文本数据，完成了更加贴近真实应用场景并可拓展至面向社交媒体的图像理解，又由于在得到目标图像理解模型过程中为端到端方法，所以更加容易落地实施。

参见图3所示，本申请实施例公开了一种具体的图像理解方法，包括：

步骤S21：基于训练图像与原始文本数据的关联向量以及原始文本数据的原始特征数据获取与训练图像对应的第一文本数据，并利用简单视觉语言模型对训练图像进行处理，以得到与训练图像对应的第二文本数据。

本实施例中，基于训练图像与原始文本数据的关联向量以及原始文本数据的原始特征数据获取与训练图像对应的第一文本数据，具体包括：获取训练图像以及与训练图像对应的原始文本数据；提取原始文本数据的原始文本特征，并计算训练图像和原始文本数据之间的关联向量；利用关联向量对原始文本特征进行更新，以得到第一文本数据。在图像理解模型中引入由两个编码器组成的CLIP，其中两个编码器包括图像编码器和文本编码器，图像编码器可以为ResNet或ViT(Vision Transformer，即视觉深度模型)，为了将CLIP中学习到的知识转移到下游的分类任务，一种简单而有效的方法是基于模板构造一组文本提示prompt，如“a photo of a[CLS]”，其中[CLS]可以被实际图片的类别替换。然后给定一幅图像，利用CLIP计算出该图像在嵌入空间中与文本提示符的相似度，以得分最高的类作为最终的预测。在预先构造第一文本数据的文本模板时，文本模板可以为K个类别，并且文本模板中包含文本提示(prompt)，例如“[V] ₁[V] ₂…[V] _M[CLS]”，需要注意的是，“[V] ₁[V] ₂…[V] _M”以及“[CLS]”均为不固定的词语，因此文本模板更加灵活，贴近实际应用场景；获取文本特征，可以利用图像理解模型中的文本编码器提取原始文本数据的文本特征

K表示类别个数，C表示通道数，

表示欧式空间，其中利用关联向量对原始文本特征进行更新所涉及的公式如下：

t←t _q+γv；

其中，t表示更新后的原始文本特征，t _q表示原始文本特征，γ表示超参数，v表示关联向量。

本实施例中，计算训练图像和原始文本数据之间的关联向量，具体包括：利用图像理解模型中的图像编码器计算出与训练图像对应的全局特征和浅层特征；基于全局特征和浅层特征，并利用图像理解模型中的深度模型的解码器计算出训练图像和原始文本数据之间的关联向量。

本实施例中，在获取全局特征和浅层特征过程中，需要利用图像编码器提取训练图像的特征向量，例如以ResNet编码器为例，总共有4个阶段，将特征图映射表示为

在图像理解模型中预加载CLIP，利用CLIP在ResNet(residual network，即残差网络)编码器中引入一个注意力池化层(Attention Pooling)，CLIP首先对

执行全局平均池，以获取训练图像的全局特性

其中x ₄表示第四阶段的特征图，

表示欧式空间，H ₄表示特征图的高度，W ₄表示特征图的宽度，C表示特征图通道数，并将包含特征图和全局特性的连接特征送入多头注意力层(multi head self attention，即MHSA)，其中涉及公式如下：

其中，

表示全局特征，z表示浅层特征，

表示第四阶段的全局特性，x ₄表示第四阶段的特征图。

本实施例中，基于全局特征、浅层特征以及原始文本特征，并利用深度模型的解码器获取关联向量，例如利用一种由注意力机制组成的深度模型(Transformer)，获取关联向量，涉及公式如下：

其中，v表示关联向量，t表示原始文本特征，

表示全局特征，z表示浅层特征。

本实施例中，获取到更新后文本特征、浅层特征，以便后续计算像素文本得分，其中涉及公式如下：

其中，s表示像素文本得分，

表示经过L ₂正则化后的浅层特征，

表示经过L ₂正则化后的更新后的原始文本特征，

表示欧式空间，H ₄表示特征图的高度，W ₄表示特征图的宽度，C表示特征图通道数。

步骤S22：基于训练图像、第一文本数据和第二文本数据构建图像文本对，以得到相应的图像文本对集，并初始化图像理解模型。

步骤S23：从图像文本对集中选取用作训练数据的图像文本对，并利用当前的图像理解模型计算训练数据对应的模型总体损失函数值，然后基于模型总体损失函数值对图像理解模型中的参数进行更新。

本实施例中，基于模型总体损失函数值对图像理解模型中的参数进行更新，具体包括：基于模型总体损失函数值和自适应矩估计优化器，并利用梯度下降优化算法对图像理解模型的参数进行更新。首先利用当前的图像理解模型计算图像文本对的像素文本匹配损失函数值和文本距离损失函数值，并基于像素文本匹配损失函数值以及文本距离损失函数值确定模型总体损失函数值；然后基于模型总体损失函数值和自适应矩估计优化器(Adam)，并利用梯度下降优化算法对图像理解模型的参数进行更新。

步骤S24：判断当前是否满足预设迭代结束条件，如果否则重新跳转至从图像文本对集中选取用作训练数据的图像文本对的步骤，直到满足预设迭代结束条件，并将当前输出的图像理解模型作为目标图像理解模型。

步骤S25：利用目标图像理解模型获取与待检测图像对应的目标文本数据。

由此可见，本申请根据与训练图像对应的原始文本数据及其原始文本特征构建与训练图像弱相关的第一文本数据，不仅仅以与训练图像强相关的第二文本数据为训练数据，第一方面避免了因第二文本数据与实际文本数据存在差异而导致训练数据的不准确，第二方面利用弱相关的第一文本数据能够丰富图像与文本之间的弱相关语义关系以及语义层次监督，更加灵活，更加符合实际。

参见图4所示，本申请实施例公开了一种具体的图像理解方法，包括：

步骤S31：基于训练图像对应的原始文本数据构建与训练图像对应的第一文本数据，并利用简单视觉语言模型对训练图像进行处理，以得到与训练图像对应的第二文本数据。

本实施例中，首先爬取社交网站中公开的图像以及与图像对应的文本，分别作为训练图像以及原始文本数据，例如，获取“圆蛋糕”图片作为训练图像，与之对应的原始文本数据“Happy birthday，Make a wish”，获取“狗和男人”图片作为训练图像，与之对应的原始文本数据“We are friends forever”。例如图5所示，将原始文本数据“We are friends forever”以及对应的训练图像输入至图像理解模型中，图像理解模型中的文本编码器会基于预设的K个类别文本模板以及文本模板中包含的文本提示获取与原始文本数据对应的第一文本数据“The man is sitting with his dog”，以便后续利用第一文本数据计算像素文本匹配损失函数值和文本距离损失函数值。

步骤S32：基于训练图像、第一文本数据和第二文本数据构建图像文本对，以得到相应的图像文本对集，并初始化图像理解模型。

步骤S33：从图像文本对集中选取用作训练数据的图像文本对，并利用当前的图像理解模型计算图像文本对的像素文本匹配损失函数值和文本距离损失函数值。

本实施例中，利用当前的图像理解模型计算图像文本对的像素文本匹配损失函数值和文本距离损失函数值，具体包括：通过当前的图像理解模型中的图像编码器计算与图像文本对中训练图像对应的浅层特征；基于浅层特征、图像文本对中第一文本数据的第一文本特征以及第二文本数据的第二文本特征，并利用图像理解模型计算图像文本对的像素文本匹配损失函数值和文本距离损失函数值。

本实施例中，基于浅层特征、图像文本对中第一文本数据的第一文本特征以及第二文本数据的第二文本特征，并利用图像理解模型计算图像文本对的像素文本匹配损失函数值和文本距离损失函数值，具体可以包括：利用图像理解模型确定经过正则化处理的第一文本特征以及经过正则化处理的第二文本特征；通过浅层特征、经过正则化处理的第一文本特征和经过正则化处理的第二文本特征计算出图像文本对的像素文本匹配损失函数值，并利用经过正则化处理的第一文本特征和经过正则化处理的第二文本特征计算出图像文本对的文本距离损失函数值。

其中，像素文本匹配损失函数(Pixe-Text Matching Loss)值计算公式如下：

其中，L _p&t表示像素文本匹配损失函数值，t ^strong表示第二文本数据的文本特征，t ^weak表示第一文本数据的文本特征，

表示经过L ₂正则化后的第二文本数据的文本特征，

表示经过L ₂正则化后的第一文本数据的文本特征，

表示经过L ₂正则化后的浅层特征，T表示转置。

其中，文本距离损失函数(Text Distance Loss)值计算公式如下：

其中，L _t表示文本距离损失函数值，

表示经过L ₂正则化后的第二文本数据的文本特征，

表示经过L ₂正则化后的第一文本数据的文本特征。

步骤S34：基于像素文本匹配损失函数值以及文本距离损失函数值确定模型总体损失函数值，并基于模型总体损失函数值对图像理解模型中的参数进行更新。

本实施例中，计算像素文本匹配损失函数值与文本距离损失函数值的和，并将像素文本匹配损失函数值与文本距离损失函数值的和作为模型总体损失函数值，其中计算公式如下：

L＝L _p&t+L _t；

其中，L表示模型总体损失函数值，L _p&t表示像素文本匹配损失函数值，L _t表示文本距离损失函数值。

步骤S35：判断当前是否满足预设迭代结束条件，如果否则重新跳转至从图像文本对集中选取用作训练数据的图像文本对的步骤，直到满足预设迭代结束条件，并将当前输出的图像理解模型作为目标图像理解模型。

步骤S36：利用目标图像理解模型获取与待检测图像对应的目标文本数据。

由此可见，本申请利用当前的图像理解模型计算图像文本对的像素文本匹配损失函数值和文本距离损失函数值，并基于像素文本匹配损失函数值以及文本距离损失函数值确定模型总体损失函数值，进而基于模型总体损失函数值对图像理解模型中的参数进行更新，实现对图像理解模型进行优化，直至满足预设迭代结束条件，得到最优的目标图像理解模型，以便利用目标图像理解模型获取与待检测图像对应的目标文本数据。

参见图6所示，本申请实施例公开了一种图像理解装置，包括：

图文数据获取模块11，用于基于训练图像对应的原始文本数据构建与训练图像对应的第一文本数据，并利用简单视觉语言模型对训练图像进行处理，以得到与训练图像对应的第二文本数据；

模型初始化模块12，用于基于训练图像、第一文本数据和第二文本数据构建图像文本对，以得到相应的图像文本对集，并初始化图像理解模型；

模型参数更新模块13，用于从图像文本对集中选取用作训练数据的图像文本对，并利用当前的图像理解模型计算训练数据对应的模型总体损失函数值，然后基于模型总体损失函数值对图像理解模型中的参数进行更新；

模型确定模块14，用于判断当前是否满足预设迭代结束条件，如果否则重新跳转至从图像文本对集中选取用作训练数据的图像文本对的步骤，直到满足预设迭代结束条件，并将当前输出的图像理解模型作为目标图像理解模型。

图像理解模块15，用于利用目标图像理解模型获取与待检测图像对应的目标文本数据。

可见，本申请首先基于训练图像对应的原始文本数据构建与训练图像对应的第一文本数据，并利用简单视觉语言模型对训练图像进行处理，以得到与训练图像对应的第二文本数据；基于训练图像、第一文本数据和第二文本数据构建图像文本对，以得到相应的图像文本对集，并初始化图像理解模型；从图像文本对集中选取用作训练数据的图像文本对，并利用当前的图像理解模型计算训练数据对应的模型总体损失函数值，然后基于模型总体损失函数值对图像理解模型中的参数进行更新；判断当前是否满足预设迭代结束条件，如果否则重新跳转至从图像文本对集中选取用作训练数据的图像文本对的步骤，直到满足预设迭代结束条件，并将当前输出的图像理解模型作为目标图像理解模型，以便利用目标图像理解模型获取与待检测图像对应的目标文本数据。由此可见，本申请通过基于训练图像对应的原始文本数据构建与训练图像对应的弱相关的第一文本数据，以便后续图像理解模型能够挖掘训练图像和第一文本数据之间的弱相关语义关系，获得丰富的语义层次监督；通过简单视觉语言模型对训练图像进行处理，以得到与训练图像对应的强相关的第二文本数据，以便后续基于第一文本数据和第二文本数据计算模型总体损失函数值；基于模型总体损失函数值对图像理解模型中的参数进行更新，实现对图像理解模型进行优化，直至满足预设迭代结束条件，得到最优的目标图像理解模型，以便利用目标图像理解模型获取与待检测图像对应的目标文本数据，完成了更加贴近真实应用场景并可拓展至面向社交媒体的图像理解，又由于在得到目标图像理解模型过程中为端到端方法，所以更加容易落地实施。

图7为本申请实施例提供的一种电子设备的结构示意图，该电子设备可以是计算机设备，计算机设备可以是终端或服务器。具体可以包括：至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中，存储器22用于存储计算机可读指令，计算机可读指令由处理器21加载并执行，以实现前述任一实施例公开的由计算机设备执行的图像理解方法中的相关步骤。

本实施例中，电源23用于为计算机设备20上的各硬件设备提供工作电压；通信接口24能够为计算机设备20创建与外界设备之间的数据传输通道，其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议，在此不对其进行具体限定；输入输出接口25，用于获取外界输入数据或向外界输出数据，其具体的接口类型可以根据具体应用需要进行选取，在此不进行具体限定。

其中，处理器21可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器21可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器21也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central Processing Unit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器21可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器21还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

另外，存储器22作为资源存储的载体，可以是只读存储器、随机存储器、磁盘或者光盘等，其上所存储的资源包括操作系统221、计算机可读指令222及数据223等，存储方式可以是短暂存储或者永久存储。

其中，操作系统221用于管理与控制计算机设备20上的各硬件设备以及计算机可读指令222，以实现处理器21对存储器22中海量数据223的运算与处理，其可以是Windows、Unix、Linux等。计算机可读指令222除了包括能够用于完成前述任一实施例公开的由计算机设备20执行的图像理解方法的计算机可读指令之外，还可以进一步包括能够用于完成其他特定工作的计算机可读指令。数据223除了可以包括计算机设备接收到的由外部设备传输进来的数据，也可以包括由自身输入输出接口25采集到的数据等。

进一步的，本申请实施例还公开了一种计算机可读存储介质，存储介质中存储有计算机可读指令，计算机可读指令被处理器加载并执行时，实现前述任一实施例公开的由图像理解过程中执行的方法步骤。

此外，本申请实施例还提供一种非易失性计算机可读存储介质，该非易失性计算机可读存储介质中存储有计算机可读指令，该计算机可读指令被一个或多个处理器执行时可实现上述任意一个实施例的公开的由图像理解过程中执行的方法步骤。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括上述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，上述的计算机可读指令可存储于一非易失性计算机可读取存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上上述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

一种图像理解方法，其特征在于，包括：

基于训练图像对应的原始文本数据构建与所述训练图像对应的第一文本数据，并利用简单视觉语言模型对所述训练图像进行处理，以得到与所述训练图像对应的第二文本数据；

基于所述训练图像、所述第一文本数据和所述第二文本数据构建图像文本对，以得到相应的图像文本对集，并初始化图像理解模型；

从所述图像文本对集中选取用作训练数据的所述图像文本对，并利用当前的所述图像理解模型计算所述训练数据对应的模型总体损失函数值，然后基于所述模型总体损失函数值对所述图像理解模型中的参数进行更新；

在当前未满足预设迭代结束条件时，重新跳转至所述从所述图像文本对集中选取用作训练数据的所述图像文本对的步骤，直到满足所述预设迭代结束条件，并将当前输出的所述图像理解模型作为目标图像理解模型；和

利用所述目标图像理解模型获取与待检测图像对应的目标文本数据。
根据权利要求1所述的图像理解方法，其特征在于，所述方法还包括：

在当前满足所述预设迭代结束条件时，将当前输出的所述图像理解模型作为目标图像理解模型。
根据权利要求1所述的图像理解方法，其特征在于，所述训练图像通过爬取社交网站中以及公开发布的图像得到。
根据权利要求1所述的图像理解方法，其特征在于，所述基于训练图像对应的原始文本数据构建与所述训练图像对应的第一文本数据，包括：

获取训练图像以及与所述训练图像对应的原始文本数据；

提取所述原始文本数据的原始文本特征，并计算所述训练图像和所述原始文本数据之间的关联向量；和

利用所述关联向量对所述原始文本特征进行更新，以得到所述第一文本数据。
根据权利要求4所述的图像理解方法，其特征在于，所述利用所述关联向量对所述原始文本特征进行更新，包括：

计算所述关联向量与预设超参的乘积，并基于乘积与原始文本特征的和获取更新后文本特征，然后基于更新后文本特征得到第一文本数据。
根据权利要求5所述的图像理解方法，其特征在于，所述计算所述关联向量与预设超参的乘积，并基于乘积与原始文本特征的和获取更新后文本特征，然后基于更新后文本特征得到第一文本数据所涉及的公式为：

t←t _q+γv

其中，t表示更新后的原始文本特征，t _q表示原始文本特征，γ表示预设超参数，v表示关联向量。
根据权利要求4所述的图像理解方法，其特征在于，所述计算所述训练图像和所述原始文本数据之间的关联向量，包括：

利用所述图像理解模型中的图像编码器计算出与所述训练图像对应的全局特征和浅层特征；和

基于所述全局特征和所述浅层特征，并利用所述图像理解模型中的深度模型的解码器计算出所述训练图像和所述原始文本数据之间的关联向量。
根据权利要求7所述的图像理解方法，其特征在于，所述图像编码器包括图像编码器和文本编码器。
根据权利要求7所述的图像理解方法，其特征在于，所述图像编码器ResNet或Vision Transformer视觉深度模型。
根据权利要求7所述的图像理解方法，其特征在于，所述基于所述全局特征和所述浅层特征，并利用所述图像理解模型中的深度模型的解码器计算出所述训练图像和所述原始文本数据之间的关联向量涉及的公式为：

其中，v表示关联向量，t表示原始文本数据，
表示全局特征，z表示浅层特征。
根据权利要求1所述的图像理解方法，其特征在于，所述利用当前的所述图像理解模型计算所述训练数据对应的模型总体损失函数值，包括：

利用当前的所述图像理解模型计算所述图像文本对的像素文本匹配损失函数值和文本距离损失函数值，并基于所述像素文本匹配损失函数值以及所述文本距离损失函数值确定模型总体损失函数值。
根据权利要求11所述的图像理解方法，其特征在于，所述利用当前的所述图像理解模型计算所述图像文本对的像素文本匹配损失函数值和文本距离损失函数值，包括：

通过当前的所述图像理解模型中的图像编码器计算与所述图像文本对中所述训练图像对应的浅层特征；和

基于所述浅层特征、所述图像文本对中所述第一文本数据的第一文本特征以及所述第二文本数据的第二文本特征，并利用所述图像理解模型计算所述图像文本对的所述像素文本匹配损失函数值和所述文本距离损失函数值。
根据权利要求12所述的图像理解方法，其特征在于，所述基于所述浅层特征、所述图像文本对中所述第一文本数据的第一文本特征以及所述第二文本数据的第二文本特征，并利用所述图像理解模型计算所述图像文本对的所述像素文本匹配损失函数值和所述文本距离损失函数值，包括：

利用所述图像理解模型确定经过正则化处理的所述第一文本特征以及经过正则化处理的所述第二文本特征；和

通过所述浅层特征、经过正则化处理的所述第一文本特征和经过正则化处理的所述第二文本特征计算出所述图像文本对的所述像素文本匹配损失函数值，并利用经过正则化处理的所述第一文本特征和经过正则化处理的所述第二文本特征计算出所述图像文本对的所述文本距离损失函数值。
根据权利要求13所述的图像理解方法，其特征在于，所述像素文本匹配损失函数值计算公式为：

其中，L _p&t表示像素文本匹配损失函数值，t ^strong表示第二文本数据的文本特征，t ^weak表示第一文本数据的文本特征，
表示经过L ₂正则化后的第二文本数据的文本特征，
表示经过L ₂正则化后的第一文本数据的文本特征，
表示经过L ₂正则化后的浅层特征，T表示转置。
根据权利要求13所述的图像理解方法，其特征在于，所述文本距离损失函数值计算公式为：

其中，L _t表示文本距离损失函数值，
表示经过L ₂正则化后的第二文本数据的文本特征，
表示经过L ₂正则化后的第一文本数据的文本特征。
根据权利要求1至15任一项所述的图像理解方法，其特征在于，所述基于所述模型总体损失函数值对所述图像理解模型中的参数进行更新，包括：

基于所述模型总体损失函数值和自适应矩估计优化器，并利用梯度下降优化算法对所述图像理解模型的参数进行更新。
根据权利要求1至15任一项所述的图像理解方法，其特征在于，所述基于所述模型总体损失函数值对所述图像理解模型中的参数进行更新，包括：

利用当前的图像理解模型计算图像文本对的像素文本匹配损失函数值和文本距离损失函数值，并基于像素文本匹配损失函数值以及文本距离损失函数值确定模型总体损失函数值；然后基于模型总体损失函数值和自适应矩估计优化器，并利用梯度下降优化算法对所述图像理解模型的参数进行更新。
一种图像理解装置，其特征在于，包括：

图文数据获取模块，用于基于训练图像对应的原始文本数据构建与所述训练图像对应的第一文本数据，并利用简单视觉语言模型对所述训练图像进行处理，以得到与所述训练图像对应的第二文本数据；

模型初始化模块，用于基于所述训练图像、所述第一文本数据和所述第二文本数据构建图像文本对，以得到相应的图像文本对集，并初始化图像理解模型；

模型参数更新模块，用于从所述图像文本对集中选取用作训练数据的所述图像文本对，并利用当前的所述图像理解模型计算所述训练数据对应的模型总体损失函数值，然后基于所述模型总体损失函数值对所述图像理解模型中的参数进行更新；

模型确定模块，用于在当前未满足预设迭代结束条件时，重新跳转至所述从所述图像文本对集中选取用作训练数据的所述图像文本对的步骤，直到满足所述预设迭代结束条件，并将当前输出的所述图像理解模型作为目标图像理解模型；和

图像理解模块，用于利用所述目标图像理解模型获取与待检测图像对应的目标文本数据。
一种电子设备，其特征在于，包括存储器及一个或多个处理器，所述存储器中储存有计算机可读指令，所述计算机可读指令被所述一个或多个处理器执行时，使得所述一个或多个处理器执行如权利要求1至17任一项所述的图像理解方法的步骤。
一个或多个存储有计算机可读指令的非易失性计算机可读存储介质，其特征在于，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行如权利要求1至17任一项所述的图像理解方法的步骤。