WO2023173617A1

WO2023173617A1 - 图像处理方法、装置、设备及存储介质

Info

Publication number: WO2023173617A1
Application number: PCT/CN2022/100221
Authority: WO
Inventors: 郭若愚; 杜宇宁; 李晨霞; 刘其文; 赖宝华; 于佃海; 马艳军
Original assignee: 北京百度网讯科技有限公司
Priority date: 2022-03-18
Filing date: 2022-06-21
Publication date: 2023-09-21
Also published as: CN116229175B; CN114612725A; CN114612725B; CN116229175A

Abstract

本公开提供一种图像处理方法、装置、设备及存储介质，涉及图像处理技术领域，尤其涉及计算机视觉、深度学习、自然语言处理技术领域。具体实现方案为：获取待处理的样本集，该样本集中的样本包括图像内容和标签内容，在样本集中，确定出用于联合处理的第一样本和至少一个第二样本，确定第一样本和至少一个第二样本是否满足联合处理退出条件，并在响应于第一样本和至少一个第二样本未满足联合处理退出条件，对第一样本和至少一个第二样本分别进行图像内容联合和标签内容联合处理，得到目标样本。该技术方案，通过对第一样本和至少一个第二样本进行联合，提高了样本集的多样性，提高了不同标签内容长度样本数量的均衡性。

Description

图像处理方法、装置、设备及存储介质

本公开要求于2022年03月18日提交中国专利局、申请号为202210268760.5、申请名称为“图像处理方法、装置、设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本公开中。

技术领域

本公开涉及图像处理中的计算机视觉、深度学习、自然语言处理技术领域，尤其涉及一种图像处理方法、装置、设备及存储介质。

背景技术

数据增广是深度学习中常用的数据预处理方法，主要用于增加数据集的样本，让数据集尽可能的多样化，使得训练的模型具有更强的泛化能力，提升模型精度。

为了更好的提高训练模型的精度，通常需要样本的文本长度均衡，若样本是图像，则需要提高图像背景的多样化。

发明内容

本公开提供了一种图像处理方法、装置、设备及存储介质。

根据本公开的第一方面，提供了一种图像处理方法，包括：

获取待处理的样本集，所述样本集中的样本包括图像内容和标签内容；

在所述样本集中，确定出用于联合处理的第一样本和至少一个第二样本；

确定所述第一样本和所述至少一个第二样本是否满足联合处理退出条件；

响应于所述第一样本和所述至少一个第二样本未满足联合处理退出条件，对所述第一样本和所述至少一个第二样本分别进行图像内容联合和标签内容联合处理，得到目标样本。

根据本公开的第二方面，提供了一种图像处理装置，包括：

获取单元，用于获取待处理的样本集，所述样本集中的样本包括图像内容和标签内容；

样本确定单元，用于在所述样本集中，确定出用于联合处理的第一样本和至少一个第二样本；

判定单元，用于确定所述第一样本和所述至少一个第二样本是否满足联合处理退出条件；

联合单元，用于响应于所述第一样本和所述至少一个第二样本未满足联合处理退出条件，对所述第一样本和所述至少一个第二样本分别进行图像内容联合和标签内容联合处理，得到目标样本。

根据本公开的第三方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行第一方面所述的方法。

根据本公开的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行第一方面所述的方法。

根据本公开的第五方面，提供了一种计算机程序产品，所述计算机程序产品包括：计算机程序，所述计算机程序存储在可读存储介质中，电子设备的至少一个处理器可以从所述可读存储介质读取所述计算机程序，所述至少一个处理器执行所述计算机程序使得电子设备执行第一方面所述的方法。

根据本公开的技术方案，提高了样本集的样本多样性，提高了不同标签内容长度的样本数量的均衡性。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是本公开实施例所适用的一种应用场景示意图；

图2是本公开第一实施例提供的图像处理方法的流程示意图；

图3是第一样本和第二样本的联合处理示意图；

图4是本公开第二实施例提供的图像处理方法的流程示意图；

图5是本公开第三实施例提供的图像处理方法的流程示意图；

图6是本公开实施例提供的一种图像处理装置的结构示意图；

图7是用来实施本公开的实施例的示例电子设备的示意性框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在介绍本公开的应用背景和技术方案之前，首先介绍一下本公开实施例中可能涉及的几个术语：

人工智能(Artificial Intelligence，AI)：是计算机科学的一个综合技术，通过研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，例如自然语言处理技术以及机器学习/深度学习等几大方向，随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

图像处理：是人工智能领域的重要应用之一，而且，随着深度学习方法在自然图像的分类方面表现出的卓越性能，采用训练得到的模型在图像中对目标特征进行提取和评估，从而实现对目标自动认证的应用越多越多。

机器学习(Machine Learning，ML)：机器学习是一种能够赋予机器学习的能力以此让它完成直接编程无法完成的功能的方法。从实践的意义上来说，机器学习是一种通过利用数据，训练出模型，然后使用模型预测的一种方法。

训练(training)或学习：训练是指一个处理过程，在该处理过程中，一个AI/ML模型学会来执行某项特定的任务(一般通过优化AI/ML模型中的加权值来学会来执行某项特定的任务)。

光学字符识别(Optical Character Recognition，OCR)是一项可以将图片信息转换为更易编辑和存储的文本信息的技术。目前被广泛应用于各种场景，如票据识别、银行卡信息识别、公式识别等，此外OCR也帮助了很多下游任务，比如字幕翻译、安全监控等；同时也有助于其他视觉任务，如视频搜索等。

卷积循环神经网络(Convolutional Recurrent Neural Network，CRNN)，主要用于端到端地对不定长的文本序列进行识别，不用先对单个文字进行切割，而是将文本识别转化为时序依赖的序列学习问题，就是基于图像的序列识别。CRNN主要包括卷积层、循环层和转录层，最终实现使用定长输入对不定长的序列的预测。

数据增广是一种常用的数据预处理方法，其是深度学习中常用的技巧之一，主要用于增加训练数据集，让数据集尽可能的多样化，使得训练的模型具有更强的泛化能力，提升模型精度。常用的数据增广方法主要包括：光照变换、抖动、模糊、随机裁剪、水平/垂直翻转、旋转、缩放、剪切、平移、对比度、噪声等。

目前，在图像处理技术领域中，数据增广方法一般是对单张图像进行增广，背景和变换处理相对比较单一，没有考虑到不同图像之间的上下文信息，无法使用不同图像融合后的背景信息，当训练的模型应用于复杂的背景时，模型的精度一般较低。而且，在训练的过程中，没有考虑到图像所标注的标签内容长度，较短的标签内容长度对应的样本一般较多，可能导致不同标签内容长度的样本数量非常不平衡，容易造成模型精度较差的问题。

可选的，训练时不同标签内容长度的样本数量不平衡，可以解释为：使用样本集训练模型时，90％的图像具有3个文字，在应用时，若使用文本识别模型对具有2个文字的图像进行文本识别，则可能无法达到理想的识别效果。

针对上述技术问题，本公开实施例的技术构思过程如下：针对相关技术中样本的背景、变换单一和不同标签内容长度的样本数量不平衡的问题，发明人发现如果将不同样本进行合并，在样本包括图像内容和标签内容时，将不同的图像内容进行合并以及将不同的标签内容进行合并，得到新的样本，这样训练模型时可以使用到不同样本之间的上下文信息以及不同样本的背景信息，同时可以调整样本集中不同标签内容长度的样本数量，为提高训练模型的精度奠定了基础。

基于上述技术构思过程，本公开实施例提供了一种图像处理方法，通过获取待处理的样本集，该样本集中的样本包括图像内容和标签内容，在样本集中，确定出用于联合处理的第一样本和至少一个第二样本，确定第一样本和至少一个第二样本是否满足联合处理退出条件，并在响应于第一样本和至少一个第二样本未满足联合处理退出条件，对第一样本和至少一个第二样本分别进行图像内容联合和标签内容联合处理，得到目标样本。该技术方案，通过对第一样本和至少一个第二样本进行联合，提高了样本集的多样性，提高了不同标签内容长度样本数量的均衡性。

可理解，本公开的实施例主要以应用于文字识别的场景进行解释说明，在训练文字识别模型时，提出了一种基于图像合并的数据增广方法，将不同样本的图像内容、标签内容分别合并在一起，作为一个新的样本，而且，在合并的过程中，考虑合并之后标签内容的长度，用于平衡不同标签内容长度之间的样本数量，从而提升文本识别模型的精度和泛化性能。

本公开提供一种图像处理方法、装置、设备及存储介质，应用于图像处理中的计算机视觉、深度学习、自然语言处理技术领域，以提高样本集的多样性，提高不同标签内容长度的样本数量的均衡性。

需要说明的是，本实施例中的样本集并不是针对某一特定对象的样本集，并不能反映出某一特定对象的信息。可理解，本实施例中的样本集来自于公开数据集。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

示例性的，图1是本公开实施例所适用的一种应用场景示意图。如图1所示，该应用场景示意图可以包括：终端设备11、网络12、服务器13和处理设备14。

可选的，终端设备11可以通过网络12与服务器13进行通信，使得服务器13可以获取到用户的图像处理命令，从而基于该图像处理命令获取待处理的样本集，并将其传输至处理设备14。相应的，处理设备14可以从服务器13中获取待处理的样本集，并执行本公开实施例的技术方案。

可选的，处理设备14还可以直接接收操作人员通过终端设备11发送的图像处理指令，基于该图像处理指令从自身的数据库或者其他设备中获取待处理的样本集，进而执行本公开实施例的技术方案。

可理解，本公开的实施例并不限定处理设备14获取待处理的样本集的具体方式，其可以根据实际场景确定，此处不作赘述。

在本实施例中，处理设备14可以基于获取到的待处理的样本集，执行本申请提供的图像处理方法的程序代码，以得到目标样本。

可选的，图1所示的应用场景还可以包括数据存储设备15，该数据存储设备15既可以与服务器13连接，也可以与处理设备14连接，用于存储服务器13输出的数据和/或处理设备14输出的目标样本。

需要说明的是，附图1仅是本公开实施例提供的一种应用场景的示意图，本公开实施例不对图1中包括的设备进行限定，也不对图1中设备之间的位置关系进行限定，例如，在图1中，数据存储设备15相对服务器13或处理设备14可以是外部存储器，在其它情况下，也可以将数据存储设备15置于服务器13或处理设备14中，处理设备14既可以是独立于服务器13单独存在的设备，也可以是集成于服务器13的一个组件，本申请实施例并不对其进行限定。

还需要说明的是，本公开实施例中处理设备14可以是终端设备，也可以是服务器或者虚拟机等，还可以是一个或多个服务器和/或计算机等组成的分布式计算机系统等。其中，该终端设备包括但不限于智能手机、笔记本电脑、台式电脑、平台电脑、车载设备、智能穿戴设备等，本公开实施例不作限定。服务器可以为普通服务器或者云服务器，云服务器又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

值得说明的是，本公开的产品实现形态是包含在平台软件中，并部署在处理设备(也可以是计算云或移动终端等具有计算能力的硬件)上的程序代码。在图1所示的系统结构图中，本公开的程序代码可以存储在图像处理设备内部。运行时，程序代码运行于处理设备的主机内存和/或GPU内存。

本公开实施例中，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

下面，结合上述图1所示的应用场景，通过具体实施例对本公开的技术方案进行详细说明。需要说明的是，下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。

示例性的，图2是本公开第一实施例提供的图像处理方法的流程示意图。该方法以图1中的处理设备作为执行主体进行解释说明。如图2所示，该图像处理方法可以包括如下步骤：

S201、获取待处理的样本集，该样本集中的样本包括图像内容和标签内容。

在本公开的实施例中，处理设备可以从其他设备接收待处理的样本集，也可以从自身存储的数据库中读取待处理的样本集(此时，处理设备中部署有数据库)。本公开实施例并不限定待处理的样本集的获取过程，其可以根据实际场景确定。

可理解，在本公开的实施例中，处理设备获取到的样本集可以是经过预处理后的样本集合，也可以是未经处理的样本集合，本实施例不对其进行限定。

可选的，本实施例以文本识别场景中的样本处理进行解释说明，因此，在本实施例中，样本集实际上为图像集，相应的，该样本集的每个样本包括图像内容和标签内容。其中，图像内容可以理解为图像本身，标签内容可以理解为图像中的字符，因而，标签内容长度是指图像中字符个数，若图像中没有字符，则标签内容的长度为0。

S202、在样本集中，确定出用于联合处理的第一样本和至少一个第二样本。

可选的，在本实施例中，可以针对样本集中的至少一个样本进行联合处理判断，例如，假设第一样本是样本集中的一个样本，至少一个第二样本是从样本集中随机或基于某种规则选出的样本。

示例性的，至少一个第二样本可以是按照类别选择的样本或者按照一定的顺序选择的样本，本实施例不限定从样本集中选择第二样本的具体方式，也不限定第二样本的具体数量，其可以根据实际设置确定，此处不作赘述。

S203、确定第一样本和至少一个第二样本是否满足联合处理退出条件。

可选的，处理设备中预置有联合处理退出条件，即，针对样本集中的第一样本，在从样本集中确定出至少一个第二样本后，可以首先判断该第一样本和至少一个第二样本是否满足联合处理退出条件；若是，则输出第一样本；若否，则对第一样本和至少一个第二样本进行S204的操作，得到目标样本，随后再针对该目标样本和上述至少一个第二样本执行该步骤S203和S204，得到处理后的目标样本。

可理解，联合处理退出条件是退出联合处理的约束条件，在第一样本或处理后的第一样本满足该联合处理退出条件时，退出本实施例的样本联合处理操作，在第一样本或处理后的第一样本不满足该联合处理退出条件时，则循环执行S203和S204，直到满足该联合处理退出条件为止。

S204、响应于第一样本和至少一个第二样本未满足联合处理退出条件，对第一样本和至少一个第二样本分别进行图像内容联合和标签内容联合处理，得到目标样本。

在本公开的一种可能实现中，第一样本和至少一个第二样本未满足联合处理退出条件，此时可以执行样本之间的联合处理过程。

示例性的，针对第一样本和各个第二样本包括的图像内容和标签内容，则可以将第一样本的图像内容和所有第二样本的图像内容进行拼接，将第一样本的标签内容和所有第二样本的标签内容进行拼接，得到目标样本。相应的，该目标样本的图像内容包括第一样本的图像内容和第二样本的图像内容，目标样本的标签内容包括第一样本和至少一个第二样本的标签内容，而且，目标样本的标签内容长度为第一样本的标签内容长度和所有第二样本的标签内容长度之和。

示例性的，图3是第一样本和第二样本的联合处理示意图。如图3所示，假设第一样本为图像Sa，图像Sa的图像内容为Ia，图像Sa的标签内容为La(母婴百货)，第二样本为图像Sb，图像Sb的图像内容为Ib，图像Sb的标签内容为Lb(转让)。

参照图3所示，将图像Sa与图像Sb进行联合，得到图像Sab，且图像Sab的图像内容Iab＝np.concat([Ia,Ib],axis＝1)，图像Sab的标签内容Lab＝La+Lb(母婴百货转让)。其中，np.concatenate()是对两个常量数组进行拼接的函数式，且轴心为1。

可理解，图像Sa的图像内容和图像Sb的图像内容、图像Sa的标签内容和图像Sb的标签内容的拼接方式可以基于设置确定，例如，图像Sa与图像Sb进行联合还可以得到图像Sba，此时，图像Sba的图像内容Iba＝np.concat([Ib,Ia],axis＝1)，图像Sba的标签内容Lba＝Lb+La(转让母婴百货)。

可选的，按照不同的顺序联合处理得到的目标样本可以认为是不同的样本，这样可以增加样本的多样性。

可选的，针对样本集中所有样本执行本公开实施例的技术方案后，可以对返回的所有目标样本进行归一化等预处理，组Batch，然后送入待训练的模型进行训练，得到最终的模型。其中，Batch是批处理的意思，即能够对样本集中的样本进行批量处理。

在本公开的实施例中，通过获取待处理的样本集，该样本集中的样本包括图像内容和标签内容，在样本集中，确定出用于联合处理的第一样本和至少一个第二样本，确定第一样本和至少一个第二样本是否满足联合处理退出条件，并在响应于第一样本和至少一个第二样本未满足联合处理退出条件，对第一样本和至少一个第二样本分别进行图像内容联合和标签内容联合处理，得到目标样本。该技术方案，通过对第一样本和至少一个第二样本进行联合，提高了样本集的多样性，提高了不同长度样本数量的均衡性。

为使读者更深刻地理解本公开的实现原理，现结合以下图4和图5对图2所示的实施例进行进一步细化。

示例性的，在本公开的实施例中，上述联合处理退出条件包括如下至少一项：

随机数与第一样本的概率缩放因子之积大于或等于联合概率阈值；

第一样本的图像内容宽度和至少一个第二样本的图像内容宽度之和大于或等于图像宽度阈值；

第一样本的标签内容长度和至少一个第二样本的标签内容长度之和大于或等于标签内容长度阈值。

示例性的，在本实施例中，为了实现联合处理过程的收敛，可以在处理设备中预设标签内容长度阈值Lmax(即，最大标签内容长度)、图像宽度阈值Tw和图像高度阈值Th以及联合概率阈值pc。示例性的，图像高度阈值Th一般为32，标签内容长度阈值可以为25个字。

可理解，本实施例并不限定标签内容长度阈值、图像宽度阈值Tw、图像高度阈值Th以及联合概率阈值pc的具体取值，其可以根据实际需求设定，此处不作赘述。

可选的，在实际应用中，在获取到样本集后可以在样本保持高宽比相同的情况下，将样本的图像高度缩放到图像高度阈值Th，也即，通过将所有样本的图像高度缩放到统一的大小，能够方便后续的联合处理。

在本公开的实施例中，判断第一样本和至少一个第二样本是否退出联合处理过程，可以从如下三个角度进行判定：

第一，基于概率缩放因子来确定是否需要平衡不同标签内容长度的样本数量。

可选的，首先采用随机均匀函数随机生成一个随机数，例如，在[0,1]区间内均匀生成一个随机数p，然后，计算随机数p*ps与pc的大小关系，其中，ps是第一样本的概率缩放因子，pc是联合概率阈值。

作为一种示例，若p*ps≥pc，表明第一样本对应标签内容长度的样本数量在样本集中的概率已满足概率阈值要求，此时可以退出联合处理过程。作为另一种示例，若p*ps＜pc，表明第一样本对应标签内容长度的样本数量在样本集中的概率还不能满足概率阈值要求，此时需要结合其他的判断条件确定是否需要退出联合处理过程。

第二，通过图像内容宽度来确定是否需要继续执行联合处理过程。

示例性的，首先计算第一样本的图像内容宽度Ia与上述至少一个第二样本的图像内容宽度Ib之和tw，然后比较该tw与图像宽度阈值Tw的大小关系。若tw≥Tw，则表示第一样本和上述至少一个第二样本组合在一起后的图像内容宽度已达到设定的图像宽度阈值，此时可以退出联合处理过程。若tw＜Tw，则表示第一样本和上述至少一个第二样本组合在一起后的图像内容宽度还未达到设定的图像宽度阈值，此时需要结合其他的判断条件确定是否需要退出联合处理过程。

第三，通过标签内容长度来确定是否需要继续执行联合处理过程。

示例性的，首先计算第一样本的标签内容长度La与上述至少一个第二样本的标签内容长度Lb之和L，然后比较该L与标签内容长度阈值Lmax的大小关系。若L≥Lmax，则表示第一样本和上述至少一个第二样本组合在一起后的标签内容长度已达到设定的标签内容长度阈值，此时可以退出联合处理过程。若L＜Lmax，则表示第一样本和上述至少一个第二样本组合在一起后的标签内容长度还未达到设定的标签内容长度阈值，此时需要结合其他的判断条件确定是否需要退出联合处理过程。

本实施例中，通过设定联合处理退出条件，既可以保证联合处理过程的自动执行，又可以在第一样本满足联合处理退出条件时，自动退出联合处理过程，提高了联合处理的自动化程度。

可选的，图4是本公开第二实施例提供的图像处理方法的流程示意图。如图4所示，在本公开的实施例中，在上述S202之前，该图像处理方法还可以包括如下步骤：

S401、基于样本集中每个样本的标签内容长度，确定该样本集对应的标签内容长度子集列表。

可选的，在本实施例中，针对获取到的样本集，为了确定具有不同标签内容长度的样本数量，可以对样本集中具有相同标签内容长度的样本数量进行统计，确定出不同标签内容长度对应的标签内容长度子集，然后按照各标签内容长度子集包括的样本数量进行排序，得到样本集对应的标签内容长度子集列表。

示例性的，在本公开的实施例中，该步骤S401具体可以通过如下步骤实现：

A1、确定样本集中每个样本的标签内容长度；

A2、根据每个样本的标签内容长度，对样本集进行样本数量统计，确定出至少一个标签内容长度子集和每个标签内容长度子集内的样本数量；

A3、基于每个标签内容长度子集内的样本数量对上述至少一个标签内容长度子集进行排序，确定样本集对应的标签内容长度子集列表。

在本实施例中，样本集中的每个样本携带有标注信息，该标注信息可以包括但不局限于包括图像内容、图像内容的背景、标签内容、标签内容长度等信息，标注信息包括的具体内容可以根据实际需求确定，此处不作限定。

示例性的，处理设备首先基于各样本具有的标注信息，确定出各样本的标签内容长度，然后将相同标签内容长度的样本划分为一个子集，并统计各个子集包括的样本数量，得到至少一个标签内容长度子集和每个标签内容长度子集内的样本数量，最后基于每个标签内容长度子集内的样本数量，按照预设排序规则对至少一个标签内容长度子集进行排序，得到样本集对应的标签内容长度子集列表。

示例性的，标签内容长度是指样本中标签内容包括的字符个数，若样本中标签内容不包括字符，则该样本的标签内容长度为0，由于设定的标签内容长度阈值为Lmax，则样本中标签内容包括的字符个数最多为Lmax。

可选的，在本实施例中，预设排序规则可以是降序排列，这时，可以按照样本数量由多到少的顺序，对确定的至少一个标签内容长度子集进行排序，得到标签内容长度子集列表。

示例性的，标签内容长度子集列表可以用ks表示，且ks:[k0,k1,k2,k3,…,kLmax]。其中，标签内容长度为k0的样本数量最多，标签长度为kLmax的样本数量最少。例如，不包括字符的样本数量有3个，包括1个字符的样本数量有10个，包括2个字符的样本数量有5个，则k0＝1，表示标签内容长度1的图像数量最多，同理，k1＝2，k2＝0。也即，在本实施例中，kLmax表示标签内容长度子集在标签内容长度列表中的排序，并不反映具体的标签内容长度，也不反映标签内容长度子集包括的样本数量。

可理解，在本实施例中，预设排序规则还可以是升序排列，因而，确定样本集对应的标签内容长度子集列表的方式类似，区别在于排序越靠前的标签内容长度子集，其样本数量越少，而且，针对升序排列和降序排序得到的标签内容长度子集列表，确定各标签内容长度子集对应概率缩放因子的过程相反。

S402、针对标签内容长度子集列表中的各标签内容长度子集，确定各标签内容长度子集的概率缩放因子。

示例性的，在确定出由各标签内容长度子集形成的标签内容长度子集列表时，可以基于预设的概率缩放因子公式，计算各个标签内容长度子集的概率缩放因子。

可选的，在本实施例中，该步骤S402可以通过如下步骤实现：

B1、针对标签内容长度子集列表中的每个标签内容长度子集，确定各标签内容长度子集在该标签内容长度子集列表中的索引编号。

B2、根据各标签内容长度子集在标签内容长度子集列表中的索引编号、标签内容长度阈值、预置概率缩放因子最大值和预置概率缩放因子最小值，确定各标签内容长度子集的概率缩放因子。

在本实施例中，处理设备中预置有标签内容长度阈值Lmax、预置概率缩放因子最大值psmax和预置概率缩放因子最小值psmin，因而，可以基于预设的概率缩放因子公式计算标签内容长度子集列表中每个标签内容长度子集的概率缩放因子。

示例性的，对于一个标签内容长度为k的标签内容长度子集，预设的概率缩放因子公式为：ps＝find_index(k,ks)/Lmax*(psmax-psmin)+psmin。其中，find_index(k,ks)表示标签内容长度为k的标签内容长度子集在标签内容长度子集列表ks中的索引编号，find_index(k0,ks)＝0，find_index(kLmax,ks)＝Lmax，如果k不在ks中，则find_index(k,ks)＝0。由此可知，概率缩放因子用于指示需要进行扩充样本数量的概率，例如，find_index(kLmax,ks)＝Lmax时，ps＝psmax，表示标签内容长度为Lmax的样本需要扩充数量的概率最大。

可理解，在实际应用中，ks中的标签内容长度子集也可以按照标签内容长度进行升序排列，此时，概率缩放因子的公式如下：ps＝find_index(k,ks)/Lmax*(psmin-psmax)+psmax。

可理解，在本公开的实施例中，对于第一样本和至少一个第二样本可以按照联合后的标签内容长度更新采样概率，从而平衡不同标签内容长度对应的样本数量，提升模型的鲁棒性。

在本公开的实施例中，基于样本集中每个样本的标签内容长度，确定样本集对应的标签内容长度子集列表，并针对标签内容长度子集列表中的各标签内容长度子集，确定各标签内容长度子集的概率缩放因子。该技术方案，可以有效的平衡样本集中不同标签内容长度的样本数量，为提升模型的精度和泛化能力奠定了基础。

可选的，图5是本公开第三实施例提供的图像处理方法的流程示意图。如图5所示，在本公开的实施例中，该图像处理方法还可以包括如下步骤：

S501、确定第一样本的标签内容长度。

示例性的，对于选定的第一样本，可以基于该第一样本具有的标注信息，确定出第一样本的标签内容长度，即第一样本中标签内容的长度。

例如，参照上述图3所示的示意图，第一样本的标签内容长度为4。

S502、根据第一样本的标签内容长度，确定第一样本所属的目标标签内容长度子集。

示例性的，由于标签内容长度子集是基于各样本的标签内容长度划分得到的，每个标签内容长度子集中各样本的标签内容长度相同，所以，可以根据第一样本的标签内容长度，在标签内容长度子集列表中，确定出第一样本所属的目标标签内容长度子集。

S503、根据目标标签内容长度子集的概率缩放因子，确定第一样本的概率缩放因子。

可选的，本实施例可以在上述图4所示实施例的基础上实现，例如，在确定出标签内容子集列表中各标签内容长度子集的概率缩放因子时，便可以基于目标标签内容长度子集的标签内容长度，确定出目标标签内容长度子集的概率缩放因子，因而，将其确定为第一样本的概率缩放因子。

在本公开的实施例中，通过确定第一样本的标签内容长度，根据第一样本的标签内容长度，确定第一样本所属的目标标签内容长度子集，进而根据目标标签内容长度子集的概率缩放因子，确定第一样本的概率缩放因子。该技术方案中，确定了第一样本的概率缩放因子，为后续是否满足联合处理退出条件奠定了基础。

可选的，在本公开实施例的一种实现中，在上述S203(确定第一样本和至少一个第二样本是否满足联合处理退出条件)之前，该图像处理方法还可以包括如下步骤：

对第一样本和至少一个第二样本分别进行数据增广处理，得到增广处理之后的第一样本和增广处理之后的至少一个第二样本。

在本实施例中，对于待处理的第一样本，在样本集中随机挑选出至少一个第二样本时，可以对第一样本和至少一个第二样本分别进行数据增广处理，提升了样本的多样性，为后续提升模型的精度和泛化性能提供了基础。

可选的，在本公开实施例的一种实现中，在上述S202(在样本集中，确定出用于联合处理的第一样本和至少一个第二样本)之前，该图像处理方法还可以包括如下步骤：

对样本集中的样本分别进行数据增广处理，得到增广处理之后的样本集。

示例性的，在获取到待处理的样本集时，可以首先对样本集中的样本分别进行数据增广处理，得到增广处理之后的样本集，这样可以能够有效的利用样本集中的样本，为提升后续训练模型的精度奠定了基础。

可选的，在本公开实施例的各种实现中，数据增广处理方法可以是通用的数据增广方法，例如，光照变换、抖动、模糊、随机裁剪，且不同的样本可以采用不同的数据增广方法，这样可以充分考虑到不同单个样本之间的区别，并且针对联合处理的不同样本施加不同的数据增广方法，增加了图像内容的背景复杂度，有效防止了图像变换的单一，保证了联合之后的样本的多样性，提升了模型的泛化性能。

可理解，本公开实施例的技术方案以文本识别领域中对用于模型训练的样本处理进行举例说明，在实际应用中，其还可以较好地扩展到其他的视觉任务中，此处不作赘述。

综合上述各实施例可知，本公开实施例提出一种图像处理中的数据增广方法，能够对至少两幅融合的图像施加不同的数据增广，在提升图像背景复杂度的同时，增加了图像的变换多样性，从而提升了模型的精度与泛化性能。

图6是本公开实施例提供的一种图像处理装置的结构示意图。本实施例提供的图像处理装置可以为一种电子设备或者为电子设备中的装置。如图6所示，本公开实施例提供的图像处理装置600可以包括：

获取单元601，用于获取待处理的样本集，所述样本集中的样本包括图像内容和标签内容；

样本确定单元602，用于在所述样本集中，确定出用于联合处理的第一样本和至少一个第二样本；

判定单元603，用于确定所述第一样本和所述至少一个第二样本是否满足联合处理退出条件；

联合单元604，用于响应于所述第一样本和所述至少一个第二样本未满足联合处理退出条件，对所述第一样本和所述至少一个第二样本分别进行图像内容联合和标签内容联合处理，得到目标样本。

在本公开实施例的一种可能实现中，所述联合处理退出条件包括如下至少一项：

随机数与所述第一样本的概率缩放因子之积大于或等于联合概率阈值；

所述第一样本的图像内容宽度和所述至少一个第二样本的图像内容宽度之和大于或等于图像宽度阈值；

所述第一样本的标签内容长度和所述至少一个第二样本的标签内容长度之和大于或等于标签内容长度阈值。

在本公开实施例的一种可能实现中，该图像处理装置还包括：

列表确定单元(未示出)，用于基于所述样本集中每个样本的标签内容长度，确定所述样本集对应的标签内容长度子集列表；

子集缩放因子确定单元(未示出)，用于针对所述标签内容长度子集列表中的各标签内容长度子集，确定各标签内容长度子集的概率缩放因子。

其中，所述列表确定单元，包括：

第一确定模块，用于确定所述样本集中每个样本的标签内容长度；

第二确定模块，用于根据每个样本的标签内容长度，对所述样本集进行样本数量统计，确定出至少一个标签内容长度子集和每个标签内容长度子集内的样本数量；

第三确定模块，用于基于每个标签内容长度子集内的样本数量对所述至少一个标签内容长度子集进行排序，确定所述样本集对应的标签内容长度子集列表。

其中，所述缩放因子确定单元，包括：

第四确定模块，用于针对所述标签内容长度子集列表中的每个标签内容长度子集，确定各标签内容长度子集在所述标签内容长度子集列表中的索引编号；

第五确定模块，用于根据各标签内容长度子集在所述标签内容长度子集列表中的索引编号、标签内容长度阈值、预置概率缩放因子最大值和预置概率缩放因子最小值，确定各标签内容长度子集的概率缩放因子。

长度确定单元(未示出)，用于确定所述第一样本的标签内容长度；

子集确定单元(未示出)，用于根据所述第一样本的标签内容长度，确定所述第一样本所属的目标标签内容长度子集；

样本缩放因子确定单元(未示出)，用于根据所述目标标签内容长度子集的概率缩放因子，确定所述第一样本的概率缩放因子。

第一处理单元(未示出)，用于对所述第一样本和所述至少一个第二样本分别进行数据增广处理，得到增广处理之后的第一样本和增广处理之后的至少一个第二样本。

第二处理单元(未示出)，用于对所述样本集中的样本分别进行数据增广处理，得到增广处理之后的样本集。

本实施例提供的图像处理装置，可用于执行上述任意方法实施例中的图像处理方法，其实现原理和技术效果类似，此处不做作赘述。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

根据本公开的实施例，本公开还提供了一种计算机程序产品，计算机程序产品包括：计算机程序，计算机程序存储在可读存储介质中，电子设备的至少一个处理器可以从可读存储介质读取计算机程序，至少一个处理器执行计算机程序使得电子设备执行上述任一实施例提供的方案。

图7是用来实施本公开的实施例的示例电子设备的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图7所示，设备700包括计算单元701，其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序，来执行各种适当的动作和处理。在RAM 703中，还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

设备700中的多个部件连接至I/O接口705，包括：输入单元706，例如键盘、鼠标等；输出单元707，例如各种类型的显示器、扬声器等；存储单元708，例如磁盘、光盘等；以及通信单元709，例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理，例如，图像处理方法。例如，在一些实施例中，图像处理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由计算单元701执行时，可以执行上文描述的图像处理方法的一个或多个步骤。备选地，在其他实施例中，计算单元701可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行图像处理方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

一种图像处理方法，其特征在于，包括：

获取待处理的样本集，所述样本集中的样本包括图像内容和标签内容；

在所述样本集中，确定出用于联合处理的第一样本和至少一个第二样本；

确定所述第一样本和所述至少一个第二样本是否满足联合处理退出条件；

响应于所述第一样本和所述至少一个第二样本未满足联合处理退出条件，对所述第一样本和所述至少一个第二样本分别进行图像内容联合和标签内容联合处理，得到目标样本。
根据权利要求1所述的方法，其特征在于，所述联合处理退出条件包括如下至少一项：

随机数与所述第一样本的概率缩放因子之积大于或等于联合概率阈值；

所述第一样本的图像内容宽度和所述至少一个第二样本的图像内容宽度之和大于或等于图像宽度阈值；

所述第一样本的标签内容长度和所述至少一个第二样本的标签内容长度之和大于或等于标签内容长度阈值。
根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

基于所述样本集中每个样本的标签内容长度，确定所述样本集对应的标签内容长度子集列表；

针对所述标签内容长度子集列表中的各标签内容长度子集，确定各标签内容长度子集的概率缩放因子。
根据权利要求3所述的方法，其特征在于，所述基于所述样本集中每个样本的标签内容长度，确定所述样本集对应的标签内容长度子集列表，包括：

确定所述样本集中每个样本的标签内容长度；

根据每个样本的标签内容长度，对所述样本集进行样本数量统计，确定出至少一个标签内容长度子集和每个标签内容长度子集内的样本数量；

基于每个标签内容长度子集内的样本数量对所述至少一个标签内容长度子集进行排序，确定所述样本集对应的标签内容长度子集列表。
根据权利要求3或4所述的方法，其特征在于，所述针对所述标签内容长度子集列表中的各标签内容长度子集，确定各标签内容长度子集的概率缩放因子，包括：

针对所述标签内容长度子集列表中的每个标签内容长度子集，确定各标签内容长度子集在所述标签内容长度子集列表中的索引编号；

根据各标签内容长度子集在所述标签内容长度子集列表中的索引编号、标签内容长度阈值、预置概率缩放因子最大值和预置概率缩放因子最小值，确定各标签内容长度子集的概率缩放因子。
根据权利要求2至5任一项所述的方法，其特征在于，所述方法还包括：

确定所述第一样本的标签内容长度；

根据所述第一样本的标签内容长度，确定所述第一样本所属的目标标签内容长度子集；

根据所述目标标签内容长度子集的概率缩放因子，确定所述第一样本的概率缩放因子。
根据权利要求1至6任一项所述的方法，其特征在于，所述方法还包括：

对所述第一样本和所述至少一个第二样本分别进行数据增广处理，得到增广处理之后的第一样本和增广处理之后的至少一个第二样本。
根据权利要求1至7任一项所述的方法，其特征在于，所述方法还包括：

对所述样本集中的样本分别进行数据增广处理，得到增广处理之后的样本集。
一种图像处理装置，其特征在于，包括：

获取单元，用于获取待处理的样本集，所述样本集中的样本包括图像内容和标签内容；

样本确定单元，用于在所述样本集中，确定出用于联合处理的第一样本和至少一个第二样本；

判定单元，用于确定所述第一样本和所述至少一个第二样本是否满足联合处理退出条件；

联合单元，用于响应于所述第一样本和所述至少一个第二样本未满足联合处理退出条件，对所述第一样本和所述至少一个第二样本分别进行图像内容联合和标签内容联合处理，得到目标样本。
根据权利要求9所述的装置，其特征在于，所述联合处理退出条件包括如下至少一项：

随机数与所述第一样本的概率缩放因子之积大于或等于联合概率阈值；

所述第一样本的图像内容宽度和所述至少一个第二样本的图像内容宽度之和大于或等于图像宽度阈值；

所述第一样本的标签内容长度和所述至少一个第二样本的标签内容长度之和大于或等于标签内容长度阈值。
根据权利要求9或10所述的装置，其特征在于，所述装置还包括：

列表确定单元，用于基于所述样本集中每个样本的标签内容长度，确定所述样本集对应的标签内容长度子集列表；

子集缩放因子确定单元，用于针对所述标签内容长度子集列表中的各标签内容长度子集，确定各标签内容长度子集的概率缩放因子。
根据权利要求11所述的装置，其特征在于，所述列表确定单元，包括：

第一确定模块，用于确定所述样本集中每个样本的标签内容长度；

第二确定模块，用于根据每个样本的标签内容长度，对所述样本集进行样本数量统计，确定出至少一个标签内容长度子集和每个标签内容长度子集内的样本数量；

第三确定模块，用于基于每个标签内容长度子集内的样本数量对所述至少一个标签内容长度子集进行排序，确定所述样本集对应的标签内容长度子集列表。
根据权利要求11或12所述的装置，其特征在于，所述缩放因子确定单元，包括：

第四确定模块，用于针对所述标签内容长度子集列表中的每个标签内容长度子集，确定各标签内容长度子集在所述标签内容长度子集列表中的索引编号；

第五确定模块，用于根据各标签内容长度子集在所述标签内容长度子集列表中的索引编号、标签内容长度阈值、预置概率缩放因子最大值和预置概率缩放因子最小值，确定各标签内容长度子集的概率缩放因子。
根据权利要求10至13任一项所述的装置，其特征在于，所述装置还包括：

长度确定单元，用于确定所述第一样本的标签内容长度；

子集确定单元，用于根据所述第一样本的标签内容长度，确定所述第一样本所属的目标标签内容长度子集；

样本缩放因子确定单元，用于根据所述目标标签内容长度子集的概率缩放因子，确定所述第一样本的概率缩放因子。
根据权利要求9至14任一项所述的装置，其特征在于，所述装置还包括：

第一处理单元，用于对所述第一样本和所述至少一个第二样本分别进行数据增广处理，得到增广处理之后的第一样本和增广处理之后的至少一个第二样本。
根据权利要求9至15任一项所述的装置，其特征在于，所述装置还包括：

第二处理单元，用于对所述样本集中的样本分别进行数据增广处理，得到增广处理之后的样本集。
一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至8中任一项所述的方法。
一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行根据权利要求1至8中任一项所述的方法。
一种计算机程序产品，其特征在于，包括计算机程序，该计算机程序被处理器执行时实现权利要求1至8中任一项所述方法的步骤。