WO2023173617A1 - 图像处理方法、装置、设备及存储介质 - Google Patents

图像处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
WO2023173617A1
WO2023173617A1 PCT/CN2022/100221 CN2022100221W WO2023173617A1 WO 2023173617 A1 WO2023173617 A1 WO 2023173617A1 CN 2022100221 W CN2022100221 W CN 2022100221W WO 2023173617 A1 WO2023173617 A1 WO 2023173617A1
Authority
WO
WIPO (PCT)
Prior art keywords
sample
content length
tag content
subset
tag
Prior art date
Application number
PCT/CN2022/100221
Other languages
English (en)
French (fr)
Inventor
郭若愚
杜宇宁
李晨霞
刘其文
赖宝华
于佃海
马艳军
Original Assignee
北京百度网讯科技有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 北京百度网讯科技有限公司 filed Critical 北京百度网讯科技有限公司
Publication of WO2023173617A1 publication Critical patent/WO2023173617A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting

Definitions

  • the present disclosure relates to the technical fields of computer vision, deep learning, and natural language processing in image processing, and in particular, to an image processing method, device, equipment, and storage medium.
  • Data augmentation is a commonly used data preprocessing method in deep learning. It is mainly used to increase the samples of the data set and make the data set as diverse as possible, so that the trained model has stronger generalization ability and improves the model accuracy.
  • the text length of the sample usually needs to be balanced. If the sample is an image, the diversity of the image background needs to be improved.
  • the present disclosure provides an image processing method, device, equipment and storage medium.
  • an image processing method including:
  • sample set to be processed, where the samples in the sample set include image content and label content;
  • image content joint processing and label content joint processing are performed on the first sample and the at least one second sample, respectively, to obtain target sample.
  • a sample determination unit configured to determine a first sample and at least one second sample for joint processing in the sample set
  • Figure 4 is a schematic flowchart of an image processing method provided by a second embodiment of the present disclosure.
  • Artificial Intelligence It is a comprehensive technology of computer science. By studying the design principles and implementation methods of various intelligent machines, the machines have the functions of perception, reasoning and decision-making. Artificial intelligence technology is a comprehensive subject that involves a wide range of fields, such as natural language processing technology and machine learning/deep learning. With the development of technology, artificial intelligence technology will be applied in more fields and play a greater role. increasingly important value.
  • Convolutional Recurrent Neural Network is mainly used to recognize text sequences of variable length end-to-end. It does not need to cut individual words first, but transforms text recognition into timing-dependent sequence learning. The problem is image-based sequence recognition.
  • CRNN mainly includes convolution layer, loop layer and transcription layer, and finally realizes the prediction of variable-length sequences using fixed-length input.
  • the technical conception process of the embodiments of the present disclosure is as follows: In view of the background of samples in related technologies, the problem of imbalance in the number of samples with single transformation and different label content lengths, the inventor found that if different samples are merged, in the sample When including image content and label content, different image content and different label content are merged to obtain new samples. In this way, the contextual information between different samples and the background information of different samples can be used when training the model. At the same time, the number of samples with different label content lengths in the sample set can be adjusted, laying the foundation for improving the accuracy of the training model.
  • sample set in this embodiment is not a sample set for a specific object and cannot reflect the information of a specific object. It can be understood that the sample set in this embodiment comes from a public data set.
  • the collection, storage, use, processing, transmission, provision and disclosure of user personal information are in compliance with relevant laws and regulations and do not violate public order and good customs.
  • the processing device 14 can also directly receive image processing instructions sent by the operator through the terminal device 11, obtain the sample set to be processed from its own database or other devices based on the image processing instructions, and then perform the embodiments of the present disclosure.
  • image processing instructions sent by the operator through the terminal device 11 obtain the sample set to be processed from its own database or other devices based on the image processing instructions, and then perform the embodiments of the present disclosure.
  • the processing device 14 can execute the program code of the image processing method provided in this application based on the acquired sample set to be processed to obtain the target sample.
  • each sample of the sample set includes image content and label. content.
  • the image content can be understood as the image itself, and the label content can be understood as the characters in the image. Therefore, the label content length refers to the number of characters in the image. If there are no characters in the image, the label content length is 0.
  • joint processing judgment can be performed on at least one sample in the sample set.
  • the first sample is a sample in the sample set
  • at least one second sample is randomly selected from the sample set or based on a certain sample. Samples selected according to these rules.
  • At least one second sample may be a sample selected according to a category or a sample selected according to a certain order.
  • This embodiment does not limit the specific method of selecting the second sample from the sample set, nor does it limit the specific number of the second sample. , which can be determined according to the actual settings and will not be described here.
  • the joint processing exit condition is a constraint condition for exiting joint processing.
  • the sample joint processing operation of this embodiment is exited.
  • S203 and S204 are executed in a loop until the joint processing exit condition is satisfied.
  • image Sa and image Sb are combined to obtain image Sab
  • np.concatenate() is a functional expression for splicing two constant arrays, and the axis is 1.
  • the splicing method of the image content of the image Sa and the image content of the image Sb, and the tag content of the image Sa and the tag content of the image Sb can be determined based on the settings. For example, by combining the image Sa and the image Sb, the image Sba can also be obtained.
  • the target samples obtained by joint processing in different orders can be considered as different samples, which can increase the diversity of the samples.
  • all returned target samples can be preprocessed such as normalization, grouped into batches, and then sent to the model to be trained for training to obtain the final Model.
  • Batch means batch processing, which means that the samples in the sample set can be processed in batches.
  • the samples in the sample set include image content and label content
  • a first sample and at least one second sample for joint processing are determined, Determining whether the first sample and the at least one second sample satisfy the joint processing exit condition, and in response to the first sample and the at least one second sample not satisfying the joint processing exit condition, providing the first sample and the at least one second sample with The image content and label content are jointly processed respectively to obtain the target sample.
  • the above joint processing exit conditions include at least one of the following:
  • the product of the random number and the probability scaling factor of the first sample is greater than or equal to the joint probability threshold
  • the sum of the image content width of the first sample and the image content width of the at least one second sample is greater than or equal to the image width threshold
  • the sum of the tag content length of the first sample and the tag content length of the at least one second sample is greater than or equal to the tag content length threshold.
  • a random uniform function to randomly generate a random number, for example, generate a random number p uniformly in the interval [0,1], and then calculate the size relationship between the random number p*ps and pc, where ps is The probability scaling factor of the first sample, pc is the joint probability threshold.
  • the tag content length is used to determine whether the joint processing needs to continue.
  • FIG. 4 is a schematic flowchart of an image processing method provided by the second embodiment of the present disclosure. As shown in Figure 4, in the embodiment of the present disclosure, before the above-mentioned S202, the image processing method may also include the following steps:
  • the number of samples with the same tag content length in the sample set can be counted, and the corresponding tag content lengths of different tags can be determined.
  • the label content length subsets are then sorted according to the number of samples included in each label content length subset to obtain a list of label content length subsets corresponding to the sample set.
  • step S401 can be implemented through the following steps:
  • A2 According to the label content length of each sample, perform sample number statistics on the sample set to determine at least one label content length subset and the number of samples in each label content length subset;
  • each sample in the sample set carries annotation information.
  • the annotation information may include but is not limited to image content, background of the image content, label content, label content length and other information.
  • the annotation information includes specific content. It can be determined according to actual needs and is not limited here.
  • the processing device first determines the label content length of each sample based on the label information of each sample, then divides samples with the same label content length into a subset, and counts the number of samples included in each subset to obtain at least A label content length subset and the number of samples in each label content length subset. Finally, based on the number of samples in each label content length subset, at least one label content length subset is sorted according to the preset sorting rules, and we get List of label content length subsets corresponding to the sample set.
  • the label content length refers to the number of characters included in the label content in the sample. If the label content in the sample does not include characters, the label content length of the sample is 0. Since the set label content length threshold is Lmax, then The maximum number of characters included in the label content in the sample is Lmax.
  • the preset sorting rule may be descending order.
  • the determined at least one tag content length subset can be sorted in order from the largest to the smallest number of samples to obtain the tag content length. List of subsets.
  • the tag content length subset list can be represented by ks, and ks:[k0,k1,k2,k3,...,kLmax].
  • the number of samples with label content length k0 is the largest, and the number of samples with label length kLmax is the smallest.
  • k0 1, which means that the number of images with label content length 1 is the largest.
  • the preset sorting rule can also be arranged in ascending order. Therefore, the method of determining the list of tag content length subsets corresponding to the sample set is similar. The difference is that the tag content length subsets that are sorted earlier are the same. The smaller the number of samples, and for the list of tag content length subsets obtained by sorting in ascending order and descending order, the process of determining the probability scaling factor corresponding to each tag content length subset is reversed.
  • the probability scaling factor of each tag content length subset can be calculated based on a preset probability scaling factor formula.
  • step S402 can be implemented through the following steps:
  • the tag content length threshold Lmax, the preset probability scaling factor maximum value psmax, and the preset probability scaling factor minimum value psmin are preset in the processing device. Therefore, the tag content can be calculated based on the preset probability scaling factor formula. Probabilistic scaling factor for each tag content length subset in the length subset list.
  • the subset of tag content lengths in ks can also be arranged in ascending order according to the tag content length.
  • the sampling probability for the first sample and at least one second sample can be updated according to the combined label content length, thereby balancing the number of samples corresponding to different label content lengths and improving the robustness of the model. sex.
  • a tag content length subset list corresponding to the sample set is determined, and for each tag content length subset in the tag content length subset list, each tag content length subset is determined. Probabilistic scaling factor for a subset of tag content lengths.
  • FIG. 5 is a schematic flowchart of an image processing method provided by the third embodiment of the present disclosure. As shown in Figure 5, in the embodiment of the present disclosure, the image processing method may also include the following steps:
  • the target tag content length subset to which the first sample belongs is determined.
  • this embodiment can be implemented based on the above embodiment shown in Figure 4.
  • the probability scaling factor of each tag content length subset in the tag content subset list it can be based on the target tag content
  • the label content length of the length subset determines the probability scaling factor of the target label content length subset, and therefore, it is determined as the probability scaling factor of the first sample.
  • the target tag content length subset to which the first sample belongs is determined based on the tag content length of the first sample, and then based on the target tag content length subset
  • the probability scaling factor of the set determines the probability scaling factor of the first sample.
  • the probability scaling factor of the first sample is determined, which lays the foundation for subsequent joint processing exit conditions to be met.
  • the image processing method may also include the following steps:
  • the first sample to be processed when at least one second sample is randomly selected from the sample set, data augmentation processing can be performed on the first sample and the at least one second sample respectively, thereby improving the sample quality.
  • the diversity provides the basis for subsequent improvements in the accuracy and generalization performance of the model.
  • the image processing method may also include follow these steps:
  • the data augmentation processing method can be a general data augmentation method, such as illumination transformation, dithering, blurring, and random cropping, and different samples can use different data.
  • the augmentation method can fully take into account the differences between different individual samples, and apply different data augmentation methods to different jointly processed samples, which increases the background complexity of the image content, effectively prevents the single image transformation, and ensures This increases the diversity of the combined samples and improves the generalization performance of the model.
  • the embodiment of the present disclosure proposes a data augmentation method in image processing, which can apply different data augmentation to at least two fused images, which not only improves the complexity of the image background, but also increases the complexity of the image.
  • the transformation diversity improves the accuracy and generalization performance of the model.
  • FIG. 6 is a schematic structural diagram of an image processing device provided by an embodiment of the present disclosure.
  • the image processing device provided in this embodiment may be an electronic device or a device in an electronic device.
  • the image processing device 600 provided by the embodiment of the present disclosure may include:
  • a sample determination unit 602 configured to determine a first sample and at least one second sample for joint processing in the sample set
  • Determining unit 603, configured to determine whether the first sample and the at least one second sample satisfy joint processing exit conditions
  • the union unit 604 is configured to perform image content union and summation on the first sample and the at least one second sample respectively in response to the first sample and the at least one second sample not meeting the joint processing exit condition.
  • the tag content is jointly processed to obtain the target sample.
  • the joint processing exit condition includes at least one of the following:
  • the product of the random number and the probability scaling factor of the first sample is greater than or equal to the joint probability threshold
  • the sum of the image content width of the first sample and the image content width of the at least one second sample is greater than or equal to an image width threshold
  • the sum of the tag content length of the first sample and the tag content length of the at least one second sample is greater than or equal to a tag content length threshold.
  • the image processing device further includes:
  • a list determination unit (not shown), configured to determine a label content length subset list corresponding to the sample set based on the label content length of each sample in the sample set;
  • a subset scaling factor determination unit (not shown), configured to determine a probability scaling factor for each tag content length subset in the tag content length subset list.
  • the list determination unit includes:
  • the first determination module is used to determine the label content length of each sample in the sample set
  • the second determination module is configured to perform sample number statistics on the sample set according to the tag content length of each sample, and determine at least one tag content length subset and the number of samples in each tag content length subset;
  • the third determination module is configured to sort the at least one tag content length subset based on the number of samples in each tag content length subset, and determine a list of tag content length subsets corresponding to the sample set.
  • the scaling factor determination unit includes:
  • a fourth determination module configured to determine, for each tag content length subset in the tag content length subset list, the index number of each tag content length subset in the tag content length subset list;
  • the fifth determination module is used to determine based on the index number of each tag content length subset in the tag content length subset list, the tag content length threshold, the maximum value of the preset probability scaling factor, and the minimum value of the preset probability scaling factor. Probabilistic scaling factor for each subset of tag content lengths.
  • the image processing device further includes:
  • a length determination unit (not shown), configured to determine the tag content length of the first sample
  • a subset determination unit (not shown), configured to determine the target tag content length subset to which the first sample belongs based on the tag content length of the first sample;
  • a sample scaling factor determination unit (not shown), configured to determine the probability scaling factor of the first sample according to the probability scaling factor of the target tag content length subset.
  • the image processing device further includes:
  • a first processing unit (not shown), configured to perform data augmentation processing on the first sample and the at least one second sample respectively, to obtain the first sample after the augmentation processing and the first sample after the augmentation processing. At least one second sample.
  • the second processing unit (not shown) is used to perform data augmentation processing on the samples in the sample set to obtain a sample set after augmentation processing.
  • the image processing device provided in this embodiment can be used to execute the image processing method in any of the above method embodiments. Its implementation principles and technical effects are similar and will not be described again here.
  • the present disclosure also provides an electronic device, a readable storage medium, and a computer program product.
  • the present disclosure also provides a computer program product.
  • the computer program product includes: a computer program.
  • the computer program is stored in a readable storage medium.
  • At least one processor of the electronic device can read from the readable storage medium.
  • Taking a computer program at least one processor executes the computer program so that the electronic device executes the solution provided by any of the above embodiments.
  • Electronic devices are intended to refer to various forms of digital computers, such as laptop computers, desktop computers, workstations, personal digital assistants, servers, blade servers, mainframe computers, and other suitable computers. Electronic devices may also represent various forms of mobile devices, such as personal digital assistants, cellular phones, smart phones, wearable devices, and other similar computing devices.
  • the components shown herein, their connections and relationships, and their functions are examples only and are not intended to limit implementations of the disclosure described and/or claimed herein.
  • Computing unit 701 may be a variety of general and/or special purpose processing components having processing and computing capabilities. Some examples of the computing unit 701 include, but are not limited to, a central processing unit (CPU), a graphics processing unit (GPU), various dedicated artificial intelligence (AI) computing chips, various computing units running machine learning model algorithms, digital signal processing processor (DSP), and any appropriate processor, controller, microcontroller, etc.
  • the computing unit 701 performs various methods and processes described above, for example, image processing methods.
  • the image processing method may be implemented as a computer software program that is tangibly embodied in a machine-readable medium, such as storage unit 708.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Processing Or Creating Images (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本公开提供一种图像处理方法、装置、设备及存储介质,涉及图像处理技术领域,尤其涉及计算机视觉、深度学习、自然语言处理技术领域。具体实现方案为:获取待处理的样本集,该样本集中的样本包括图像内容和标签内容,在样本集中,确定出用于联合处理的第一样本和至少一个第二样本,确定第一样本和至少一个第二样本是否满足联合处理退出条件,并在响应于第一样本和至少一个第二样本未满足联合处理退出条件,对第一样本和至少一个第二样本分别进行图像内容联合和标签内容联合处理,得到目标样本。该技术方案,通过对第一样本和至少一个第二样本进行联合,提高了样本集的多样性,提高了不同标签内容长度样本数量的均衡性。

Description

图像处理方法、装置、设备及存储介质
本公开要求于2022年03月18日提交中国专利局、申请号为202210268760.5、申请名称为“图像处理方法、装置、设备及存储介质”的中国专利申请的优先权,其全部内容通过引用结合在本公开中。
技术领域
本公开涉及图像处理中的计算机视觉、深度学习、自然语言处理技术领域,尤其涉及一种图像处理方法、装置、设备及存储介质。
背景技术
数据增广是深度学习中常用的数据预处理方法,主要用于增加数据集的样本,让数据集尽可能的多样化,使得训练的模型具有更强的泛化能力,提升模型精度。
为了更好的提高训练模型的精度,通常需要样本的文本长度均衡,若样本是图像,则需要提高图像背景的多样化。
发明内容
本公开提供了一种图像处理方法、装置、设备及存储介质。
根据本公开的第一方面,提供了一种图像处理方法,包括:
获取待处理的样本集,所述样本集中的样本包括图像内容和标签内容;
在所述样本集中,确定出用于联合处理的第一样本和至少一个第二样本;
确定所述第一样本和所述至少一个第二样本是否满足联合处理退出条件;
响应于所述第一样本和所述至少一个第二样本未满足联合处理退出条件,对所述第一样本和所述至少一个第二样本分别进行图像内容联合和标签内容联合处理,得到目标样本。
根据本公开的第二方面,提供了一种图像处理装置,包括:
获取单元,用于获取待处理的样本集,所述样本集中的样本包括图像内容和标签内容;
样本确定单元,用于在所述样本集中,确定出用于联合处理的第一样本和至少一个第二样本;
判定单元,用于确定所述第一样本和所述至少一个第二样本是否满足联合处理退出条件;
联合单元,用于响应于所述第一样本和所述至少一个第二样本未满足联合处理退出条件,对所述第一样本和所述至少一个第二样本分别进行图像内容联合和标签内容联合处理,得到目标样本。
根据本公开的第三方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面所述的方法。
根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行第一方面所述的方法。
根据本公开的第五方面,提供了一种计算机程序产品,所述计算机程序产品包括:计算机程序,所述计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从所述可读存储介质读取所述计算机程序,所述至少一个处理器执行所述计算机程序使得电子设备执行第一方面所述的方法。
根据本公开的技术方案,提高了样本集的样本多样性,提高了不同标签内容长度的样本数量的均衡性。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是本公开实施例所适用的一种应用场景示意图;
图2是本公开第一实施例提供的图像处理方法的流程示意图;
图3是第一样本和第二样本的联合处理示意图;
图4是本公开第二实施例提供的图像处理方法的流程示意图;
图5是本公开第三实施例提供的图像处理方法的流程示意图;
图6是本公开实施例提供的一种图像处理装置的结构示意图;
图7是用来实施本公开的实施例的示例电子设备的示意性框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
在介绍本公开的应用背景和技术方案之前,首先介绍一下本公开实施例中可能涉及的几个术语:
人工智能(Artificial Intelligence,AI):是计算机科学的一个综合技术,通过研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,例如自然语言处理技术以及机器学习/深度学习等几大方向,随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
图像处理:是人工智能领域的重要应用之一,而且,随着深度学习方法在自然图像的分类方面表现出的卓越性能,采用训练得到的模型在图像中对目标特征进行提取和评估,从而实现对目标自动认证的应用越多越多。
机器学习(Machine Learning,ML):机器学习是一种能够赋予机器学习的能力以此让它完成直接编程无法完成的功能的方法。从实践的意义上来说,机器学习是一种通过利用数据,训练出模型,然后使用模型预测的一种方法。
训练(training)或学习:训练是指一个处理过程,在该处理过程中,一个AI/ML模型学会来执行某项特定的任务(一般通过优化AI/ML模型中的加权值来学会来执行某项特定的任务)。
光学字符识别(Optical Character Recognition,OCR)是一项可以将图片信息转换为更易编辑和存储的文本信息的技术。目前被广泛应用于各种场景,如票据识别、银行卡信息识别、公式识别等,此外OCR也帮助了很多下游任务,比如字幕翻译、安全监控等;同时也有助于其他视觉任务,如视频搜索等。
卷积循环神经网络(Convolutional Recurrent Neural Network,CRNN),主要用于端到端地对不定长的文本序列进行识别,不用先对单个文字进行切割,而是将文本识别转化为时序依赖的序列学习问题,就是基于图像的序列识别。CRNN主要包括卷积层、循环层和转录层,最终实现使用定长输入对不定长的序列的预测。
数据增广是一种常用的数据预处理方法,其是深度学习中常用的技巧之一,主要用于增加训练数据集,让数据集尽可能的多样化,使得训练的模型具有更强的泛化能 力,提升模型精度。常用的数据增广方法主要包括:光照变换、抖动、模糊、随机裁剪、水平/垂直翻转、旋转、缩放、剪切、平移、对比度、噪声等。
目前,在图像处理技术领域中,数据增广方法一般是对单张图像进行增广,背景和变换处理相对比较单一,没有考虑到不同图像之间的上下文信息,无法使用不同图像融合后的背景信息,当训练的模型应用于复杂的背景时,模型的精度一般较低。而且,在训练的过程中,没有考虑到图像所标注的标签内容长度,较短的标签内容长度对应的样本一般较多,可能导致不同标签内容长度的样本数量非常不平衡,容易造成模型精度较差的问题。
可选的,训练时不同标签内容长度的样本数量不平衡,可以解释为:使用样本集训练模型时,90%的图像具有3个文字,在应用时,若使用文本识别模型对具有2个文字的图像进行文本识别,则可能无法达到理想的识别效果。
针对上述技术问题,本公开实施例的技术构思过程如下:针对相关技术中样本的背景、变换单一和不同标签内容长度的样本数量不平衡的问题,发明人发现如果将不同样本进行合并,在样本包括图像内容和标签内容时,将不同的图像内容进行合并以及将不同的标签内容进行合并,得到新的样本,这样训练模型时可以使用到不同样本之间的上下文信息以及不同样本的背景信息,同时可以调整样本集中不同标签内容长度的样本数量,为提高训练模型的精度奠定了基础。
基于上述技术构思过程,本公开实施例提供了一种图像处理方法,通过获取待处理的样本集,该样本集中的样本包括图像内容和标签内容,在样本集中,确定出用于联合处理的第一样本和至少一个第二样本,确定第一样本和至少一个第二样本是否满足联合处理退出条件,并在响应于第一样本和至少一个第二样本未满足联合处理退出条件,对第一样本和至少一个第二样本分别进行图像内容联合和标签内容联合处理,得到目标样本。该技术方案,通过对第一样本和至少一个第二样本进行联合,提高了样本集的多样性,提高了不同标签内容长度样本数量的均衡性。
可理解,本公开的实施例主要以应用于文字识别的场景进行解释说明,在训练文字识别模型时,提出了一种基于图像合并的数据增广方法,将不同样本的图像内容、标签内容分别合并在一起,作为一个新的样本,而且,在合并的过程中,考虑合并之后标签内容的长度,用于平衡不同标签内容长度之间的样本数量,从而提升文本识别模型的精度和泛化性能。
本公开提供一种图像处理方法、装置、设备及存储介质,应用于图像处理中的计算机视觉、深度学习、自然语言处理技术领域,以提高样本集的多样性,提高不同标 签内容长度的样本数量的均衡性。
需要说明的是,本实施例中的样本集并不是针对某一特定对象的样本集,并不能反映出某一特定对象的信息。可理解,本实施例中的样本集来自于公开数据集。
本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
示例性的,图1是本公开实施例所适用的一种应用场景示意图。如图1所示,该应用场景示意图可以包括:终端设备11、网络12、服务器13和处理设备14。
可选的,终端设备11可以通过网络12与服务器13进行通信,使得服务器13可以获取到用户的图像处理命令,从而基于该图像处理命令获取待处理的样本集,并将其传输至处理设备14。相应的,处理设备14可以从服务器13中获取待处理的样本集,并执行本公开实施例的技术方案。
可选的,处理设备14还可以直接接收操作人员通过终端设备11发送的图像处理指令,基于该图像处理指令从自身的数据库或者其他设备中获取待处理的样本集,进而执行本公开实施例的技术方案。
可理解,本公开的实施例并不限定处理设备14获取待处理的样本集的具体方式,其可以根据实际场景确定,此处不作赘述。
在本实施例中,处理设备14可以基于获取到的待处理的样本集,执行本申请提供的图像处理方法的程序代码,以得到目标样本。
可选的,图1所示的应用场景还可以包括数据存储设备15,该数据存储设备15既可以与服务器13连接,也可以与处理设备14连接,用于存储服务器13输出的数据和/或处理设备14输出的目标样本。
需要说明的是,附图1仅是本公开实施例提供的一种应用场景的示意图,本公开实施例不对图1中包括的设备进行限定,也不对图1中设备之间的位置关系进行限定,例如,在图1中,数据存储设备15相对服务器13或处理设备14可以是外部存储器,在其它情况下,也可以将数据存储设备15置于服务器13或处理设备14中,处理设备14既可以是独立于服务器13单独存在的设备,也可以是集成于服务器13的一个组件,本申请实施例并不对其进行限定。
还需要说明的是,本公开实施例中处理设备14可以是终端设备,也可以是服务器或者虚拟机等,还可以是一个或多个服务器和/或计算机等组成的分布式计算机系统等。其中,该终端设备包括但不限于智能手机、笔记本电脑、台式电脑、平台电脑、车载设备、智能穿戴设备等,本公开实施例不作限定。服务器可以为普通服务器或者云服 务器,云服务器又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
值得说明的是,本公开的产品实现形态是包含在平台软件中,并部署在处理设备(也可以是计算云或移动终端等具有计算能力的硬件)上的程序代码。在图1所示的系统结构图中,本公开的程序代码可以存储在图像处理设备内部。运行时,程序代码运行于处理设备的主机内存和/或GPU内存。
本公开实施例中,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
下面,结合上述图1所示的应用场景,通过具体实施例对本公开的技术方案进行详细说明。需要说明的是,下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。
示例性的,图2是本公开第一实施例提供的图像处理方法的流程示意图。该方法以图1中的处理设备作为执行主体进行解释说明。如图2所示,该图像处理方法可以包括如下步骤:
S201、获取待处理的样本集,该样本集中的样本包括图像内容和标签内容。
在本公开的实施例中,处理设备可以从其他设备接收待处理的样本集,也可以从自身存储的数据库中读取待处理的样本集(此时,处理设备中部署有数据库)。本公开实施例并不限定待处理的样本集的获取过程,其可以根据实际场景确定。
可理解,在本公开的实施例中,处理设备获取到的样本集可以是经过预处理后的样本集合,也可以是未经处理的样本集合,本实施例不对其进行限定。
可选的,本实施例以文本识别场景中的样本处理进行解释说明,因此,在本实施例中,样本集实际上为图像集,相应的,该样本集的每个样本包括图像内容和标签内容。其中,图像内容可以理解为图像本身,标签内容可以理解为图像中的字符,因而,标签内容长度是指图像中字符个数,若图像中没有字符,则标签内容的长度为0。
S202、在样本集中,确定出用于联合处理的第一样本和至少一个第二样本。
可选的,在本实施例中,可以针对样本集中的至少一个样本进行联合处理判断,例如,假设第一样本是样本集中的一个样本,至少一个第二样本是从样本集中随机或基于某种规则选出的样本。
示例性的,至少一个第二样本可以是按照类别选择的样本或者按照一定的顺序选择的样本,本实施例不限定从样本集中选择第二样本的具体方式,也不限定第二样本 的具体数量,其可以根据实际设置确定,此处不作赘述。
S203、确定第一样本和至少一个第二样本是否满足联合处理退出条件。
可选的,处理设备中预置有联合处理退出条件,即,针对样本集中的第一样本,在从样本集中确定出至少一个第二样本后,可以首先判断该第一样本和至少一个第二样本是否满足联合处理退出条件;若是,则输出第一样本;若否,则对第一样本和至少一个第二样本进行S204的操作,得到目标样本,随后再针对该目标样本和上述至少一个第二样本执行该步骤S203和S204,得到处理后的目标样本。
可理解,联合处理退出条件是退出联合处理的约束条件,在第一样本或处理后的第一样本满足该联合处理退出条件时,退出本实施例的样本联合处理操作,在第一样本或处理后的第一样本不满足该联合处理退出条件时,则循环执行S203和S204,直到满足该联合处理退出条件为止。
S204、响应于第一样本和至少一个第二样本未满足联合处理退出条件,对第一样本和至少一个第二样本分别进行图像内容联合和标签内容联合处理,得到目标样本。
在本公开的一种可能实现中,第一样本和至少一个第二样本未满足联合处理退出条件,此时可以执行样本之间的联合处理过程。
示例性的,针对第一样本和各个第二样本包括的图像内容和标签内容,则可以将第一样本的图像内容和所有第二样本的图像内容进行拼接,将第一样本的标签内容和所有第二样本的标签内容进行拼接,得到目标样本。相应的,该目标样本的图像内容包括第一样本的图像内容和第二样本的图像内容,目标样本的标签内容包括第一样本和至少一个第二样本的标签内容,而且,目标样本的标签内容长度为第一样本的标签内容长度和所有第二样本的标签内容长度之和。
示例性的,图3是第一样本和第二样本的联合处理示意图。如图3所示,假设第一样本为图像Sa,图像Sa的图像内容为Ia,图像Sa的标签内容为La(母婴百货),第二样本为图像Sb,图像Sb的图像内容为Ib,图像Sb的标签内容为Lb(转让)。
参照图3所示,将图像Sa与图像Sb进行联合,得到图像Sab,且图像Sab的图像内容Iab=np.concat([Ia,Ib],axis=1),图像Sab的标签内容Lab=La+Lb(母婴百货转让)。其中,np.concatenate()是对两个常量数组进行拼接的函数式,且轴心为1。
可理解,图像Sa的图像内容和图像Sb的图像内容、图像Sa的标签内容和图像Sb的标签内容的拼接方式可以基于设置确定,例如,图像Sa与图像Sb进行联合还可以得到图像Sba,此时,图像Sba的图像内容Iba=np.concat([Ib,Ia],axis=1),图像Sba的标签内容Lba=Lb+La(转让母婴百货)。
可选的,按照不同的顺序联合处理得到的目标样本可以认为是不同的样本,这样可以增加样本的多样性。
可选的,针对样本集中所有样本执行本公开实施例的技术方案后,可以对返回的所有目标样本进行归一化等预处理,组Batch,然后送入待训练的模型进行训练,得到最终的模型。其中,Batch是批处理的意思,即能够对样本集中的样本进行批量处理。
在本公开的实施例中,通过获取待处理的样本集,该样本集中的样本包括图像内容和标签内容,在样本集中,确定出用于联合处理的第一样本和至少一个第二样本,确定第一样本和至少一个第二样本是否满足联合处理退出条件,并在响应于第一样本和至少一个第二样本未满足联合处理退出条件,对第一样本和至少一个第二样本分别进行图像内容联合和标签内容联合处理,得到目标样本。该技术方案,通过对第一样本和至少一个第二样本进行联合,提高了样本集的多样性,提高了不同长度样本数量的均衡性。
为使读者更深刻地理解本公开的实现原理,现结合以下图4和图5对图2所示的实施例进行进一步细化。
示例性的,在本公开的实施例中,上述联合处理退出条件包括如下至少一项:
随机数与第一样本的概率缩放因子之积大于或等于联合概率阈值;
第一样本的图像内容宽度和至少一个第二样本的图像内容宽度之和大于或等于图像宽度阈值;
第一样本的标签内容长度和至少一个第二样本的标签内容长度之和大于或等于标签内容长度阈值。
示例性的,在本实施例中,为了实现联合处理过程的收敛,可以在处理设备中预设标签内容长度阈值Lmax(即,最大标签内容长度)、图像宽度阈值Tw和图像高度阈值Th以及联合概率阈值pc。示例性的,图像高度阈值Th一般为32,标签内容长度阈值可以为25个字。
可理解,本实施例并不限定标签内容长度阈值、图像宽度阈值Tw、图像高度阈值Th以及联合概率阈值pc的具体取值,其可以根据实际需求设定,此处不作赘述。
可选的,在实际应用中,在获取到样本集后可以在样本保持高宽比相同的情况下,将样本的图像高度缩放到图像高度阈值Th,也即,通过将所有样本的图像高度缩放到统一的大小,能够方便后续的联合处理。
在本公开的实施例中,判断第一样本和至少一个第二样本是否退出联合处理过程,可以从如下三个角度进行判定:
第一,基于概率缩放因子来确定是否需要平衡不同标签内容长度的样本数量。
可选的,首先采用随机均匀函数随机生成一个随机数,例如,在[0,1]区间内均匀生成一个随机数p,然后,计算随机数p*ps与pc的大小关系,其中,ps是第一样本的概率缩放因子,pc是联合概率阈值。
作为一种示例,若p*ps≥pc,表明第一样本对应标签内容长度的样本数量在样本集中的概率已满足概率阈值要求,此时可以退出联合处理过程。作为另一种示例,若p*ps<pc,表明第一样本对应标签内容长度的样本数量在样本集中的概率还不能满足概率阈值要求,此时需要结合其他的判断条件确定是否需要退出联合处理过程。
第二,通过图像内容宽度来确定是否需要继续执行联合处理过程。
示例性的,首先计算第一样本的图像内容宽度Ia与上述至少一个第二样本的图像内容宽度Ib之和tw,然后比较该tw与图像宽度阈值Tw的大小关系。若tw≥Tw,则表示第一样本和上述至少一个第二样本组合在一起后的图像内容宽度已达到设定的图像宽度阈值,此时可以退出联合处理过程。若tw<Tw,则表示第一样本和上述至少一个第二样本组合在一起后的图像内容宽度还未达到设定的图像宽度阈值,此时需要结合其他的判断条件确定是否需要退出联合处理过程。
第三,通过标签内容长度来确定是否需要继续执行联合处理过程。
示例性的,首先计算第一样本的标签内容长度La与上述至少一个第二样本的标签内容长度Lb之和L,然后比较该L与标签内容长度阈值Lmax的大小关系。若L≥Lmax,则表示第一样本和上述至少一个第二样本组合在一起后的标签内容长度已达到设定的标签内容长度阈值,此时可以退出联合处理过程。若L<Lmax,则表示第一样本和上述至少一个第二样本组合在一起后的标签内容长度还未达到设定的标签内容长度阈值,此时需要结合其他的判断条件确定是否需要退出联合处理过程。
本实施例中,通过设定联合处理退出条件,既可以保证联合处理过程的自动执行,又可以在第一样本满足联合处理退出条件时,自动退出联合处理过程,提高了联合处理的自动化程度。
可选的,图4是本公开第二实施例提供的图像处理方法的流程示意图。如图4所示,在本公开的实施例中,在上述S202之前,该图像处理方法还可以包括如下步骤:
S401、基于样本集中每个样本的标签内容长度,确定该样本集对应的标签内容长度子集列表。
可选的,在本实施例中,针对获取到的样本集,为了确定具有不同标签内容长度的样本数量,可以对样本集中具有相同标签内容长度的样本数量进行统计,确定出不 同标签内容长度对应的标签内容长度子集,然后按照各标签内容长度子集包括的样本数量进行排序,得到样本集对应的标签内容长度子集列表。
示例性的,在本公开的实施例中,该步骤S401具体可以通过如下步骤实现:
A1、确定样本集中每个样本的标签内容长度;
A2、根据每个样本的标签内容长度,对样本集进行样本数量统计,确定出至少一个标签内容长度子集和每个标签内容长度子集内的样本数量;
A3、基于每个标签内容长度子集内的样本数量对上述至少一个标签内容长度子集进行排序,确定样本集对应的标签内容长度子集列表。
在本实施例中,样本集中的每个样本携带有标注信息,该标注信息可以包括但不局限于包括图像内容、图像内容的背景、标签内容、标签内容长度等信息,标注信息包括的具体内容可以根据实际需求确定,此处不作限定。
示例性的,处理设备首先基于各样本具有的标注信息,确定出各样本的标签内容长度,然后将相同标签内容长度的样本划分为一个子集,并统计各个子集包括的样本数量,得到至少一个标签内容长度子集和每个标签内容长度子集内的样本数量,最后基于每个标签内容长度子集内的样本数量,按照预设排序规则对至少一个标签内容长度子集进行排序,得到样本集对应的标签内容长度子集列表。
示例性的,标签内容长度是指样本中标签内容包括的字符个数,若样本中标签内容不包括字符,则该样本的标签内容长度为0,由于设定的标签内容长度阈值为Lmax,则样本中标签内容包括的字符个数最多为Lmax。
可选的,在本实施例中,预设排序规则可以是降序排列,这时,可以按照样本数量由多到少的顺序,对确定的至少一个标签内容长度子集进行排序,得到标签内容长度子集列表。
示例性的,标签内容长度子集列表可以用ks表示,且ks:[k0,k1,k2,k3,…,kLmax]。其中,标签内容长度为k0的样本数量最多,标签长度为kLmax的样本数量最少。例如,不包括字符的样本数量有3个,包括1个字符的样本数量有10个,包括2个字符的样本数量有5个,则k0=1,表示标签内容长度1的图像数量最多,同理,k1=2,k2=0。也即,在本实施例中,kLmax表示标签内容长度子集在标签内容长度列表中的排序,并不反映具体的标签内容长度,也不反映标签内容长度子集包括的样本数量。
可理解,在本实施例中,预设排序规则还可以是升序排列,因而,确定样本集对应的标签内容长度子集列表的方式类似,区别在于排序越靠前的标签内容长度子集,其样本数量越少,而且,针对升序排列和降序排序得到的标签内容长度子集列表,确 定各标签内容长度子集对应概率缩放因子的过程相反。
S402、针对标签内容长度子集列表中的各标签内容长度子集,确定各标签内容长度子集的概率缩放因子。
示例性的,在确定出由各标签内容长度子集形成的标签内容长度子集列表时,可以基于预设的概率缩放因子公式,计算各个标签内容长度子集的概率缩放因子。
可选的,在本实施例中,该步骤S402可以通过如下步骤实现:
B1、针对标签内容长度子集列表中的每个标签内容长度子集,确定各标签内容长度子集在该标签内容长度子集列表中的索引编号。
B2、根据各标签内容长度子集在标签内容长度子集列表中的索引编号、标签内容长度阈值、预置概率缩放因子最大值和预置概率缩放因子最小值,确定各标签内容长度子集的概率缩放因子。
在本实施例中,处理设备中预置有标签内容长度阈值Lmax、预置概率缩放因子最大值psmax和预置概率缩放因子最小值psmin,因而,可以基于预设的概率缩放因子公式计算标签内容长度子集列表中每个标签内容长度子集的概率缩放因子。
示例性的,对于一个标签内容长度为k的标签内容长度子集,预设的概率缩放因子公式为:ps=find_index(k,ks)/Lmax*(psmax-psmin)+psmin。其中,find_index(k,ks)表示标签内容长度为k的标签内容长度子集在标签内容长度子集列表ks中的索引编号,find_index(k0,ks)=0,find_index(kLmax,ks)=Lmax,如果k不在ks中,则find_index(k,ks)=0。由此可知,概率缩放因子用于指示需要进行扩充样本数量的概率,例如,find_index(kLmax,ks)=Lmax时,ps=psmax,表示标签内容长度为Lmax的样本需要扩充数量的概率最大。
可理解,在实际应用中,ks中的标签内容长度子集也可以按照标签内容长度进行升序排列,此时,概率缩放因子的公式如下:ps=find_index(k,ks)/Lmax*(psmin-psmax)+psmax。
可理解,在本公开的实施例中,对于第一样本和至少一个第二样本可以按照联合后的标签内容长度更新采样概率,从而平衡不同标签内容长度对应的样本数量,提升模型的鲁棒性。
在本公开的实施例中,基于样本集中每个样本的标签内容长度,确定样本集对应的标签内容长度子集列表,并针对标签内容长度子集列表中的各标签内容长度子集,确定各标签内容长度子集的概率缩放因子。该技术方案,可以有效的平衡样本集中不同标签内容长度的样本数量,为提升模型的精度和泛化能力奠定了基础。
可选的,图5是本公开第三实施例提供的图像处理方法的流程示意图。如图5所示,在本公开的实施例中,该图像处理方法还可以包括如下步骤:
S501、确定第一样本的标签内容长度。
示例性的,对于选定的第一样本,可以基于该第一样本具有的标注信息,确定出第一样本的标签内容长度,即第一样本中标签内容的长度。
例如,参照上述图3所示的示意图,第一样本的标签内容长度为4。
S502、根据第一样本的标签内容长度,确定第一样本所属的目标标签内容长度子集。
示例性的,由于标签内容长度子集是基于各样本的标签内容长度划分得到的,每个标签内容长度子集中各样本的标签内容长度相同,所以,可以根据第一样本的标签内容长度,在标签内容长度子集列表中,确定出第一样本所属的目标标签内容长度子集。
S503、根据目标标签内容长度子集的概率缩放因子,确定第一样本的概率缩放因子。
可选的,本实施例可以在上述图4所示实施例的基础上实现,例如,在确定出标签内容子集列表中各标签内容长度子集的概率缩放因子时,便可以基于目标标签内容长度子集的标签内容长度,确定出目标标签内容长度子集的概率缩放因子,因而,将其确定为第一样本的概率缩放因子。
在本公开的实施例中,通过确定第一样本的标签内容长度,根据第一样本的标签内容长度,确定第一样本所属的目标标签内容长度子集,进而根据目标标签内容长度子集的概率缩放因子,确定第一样本的概率缩放因子。该技术方案中,确定了第一样本的概率缩放因子,为后续是否满足联合处理退出条件奠定了基础。
可选的,在本公开实施例的一种实现中,在上述S203(确定第一样本和至少一个第二样本是否满足联合处理退出条件)之前,该图像处理方法还可以包括如下步骤:
对第一样本和至少一个第二样本分别进行数据增广处理,得到增广处理之后的第一样本和增广处理之后的至少一个第二样本。
在本实施例中,对于待处理的第一样本,在样本集中随机挑选出至少一个第二样本时,可以对第一样本和至少一个第二样本分别进行数据增广处理,提升了样本的多样性,为后续提升模型的精度和泛化性能提供了基础。
可选的,在本公开实施例的一种实现中,在上述S202(在样本集中,确定出用于联合处理的第一样本和至少一个第二样本)之前,该图像处理方法还可以包括如下步 骤:
对样本集中的样本分别进行数据增广处理,得到增广处理之后的样本集。
示例性的,在获取到待处理的样本集时,可以首先对样本集中的样本分别进行数据增广处理,得到增广处理之后的样本集,这样可以能够有效的利用样本集中的样本,为提升后续训练模型的精度奠定了基础。
可选的,在本公开实施例的各种实现中,数据增广处理方法可以是通用的数据增广方法,例如,光照变换、抖动、模糊、随机裁剪,且不同的样本可以采用不同的数据增广方法,这样可以充分考虑到不同单个样本之间的区别,并且针对联合处理的不同样本施加不同的数据增广方法,增加了图像内容的背景复杂度,有效防止了图像变换的单一,保证了联合之后的样本的多样性,提升了模型的泛化性能。
可理解,本公开实施例的技术方案以文本识别领域中对用于模型训练的样本处理进行举例说明,在实际应用中,其还可以较好地扩展到其他的视觉任务中,此处不作赘述。
综合上述各实施例可知,本公开实施例提出一种图像处理中的数据增广方法,能够对至少两幅融合的图像施加不同的数据增广,在提升图像背景复杂度的同时,增加了图像的变换多样性,从而提升了模型的精度与泛化性能。
图6是本公开实施例提供的一种图像处理装置的结构示意图。本实施例提供的图像处理装置可以为一种电子设备或者为电子设备中的装置。如图6所示,本公开实施例提供的图像处理装置600可以包括:
获取单元601,用于获取待处理的样本集,所述样本集中的样本包括图像内容和标签内容;
样本确定单元602,用于在所述样本集中,确定出用于联合处理的第一样本和至少一个第二样本;
判定单元603,用于确定所述第一样本和所述至少一个第二样本是否满足联合处理退出条件;
联合单元604,用于响应于所述第一样本和所述至少一个第二样本未满足联合处理退出条件,对所述第一样本和所述至少一个第二样本分别进行图像内容联合和标签内容联合处理,得到目标样本。
在本公开实施例的一种可能实现中,所述联合处理退出条件包括如下至少一项:
随机数与所述第一样本的概率缩放因子之积大于或等于联合概率阈值;
所述第一样本的图像内容宽度和所述至少一个第二样本的图像内容宽度之和大于 或等于图像宽度阈值;
所述第一样本的标签内容长度和所述至少一个第二样本的标签内容长度之和大于或等于标签内容长度阈值。
在本公开实施例的一种可能实现中,该图像处理装置还包括:
列表确定单元(未示出),用于基于所述样本集中每个样本的标签内容长度,确定所述样本集对应的标签内容长度子集列表;
子集缩放因子确定单元(未示出),用于针对所述标签内容长度子集列表中的各标签内容长度子集,确定各标签内容长度子集的概率缩放因子。
其中,所述列表确定单元,包括:
第一确定模块,用于确定所述样本集中每个样本的标签内容长度;
第二确定模块,用于根据每个样本的标签内容长度,对所述样本集进行样本数量统计,确定出至少一个标签内容长度子集和每个标签内容长度子集内的样本数量;
第三确定模块,用于基于每个标签内容长度子集内的样本数量对所述至少一个标签内容长度子集进行排序,确定所述样本集对应的标签内容长度子集列表。
其中,所述缩放因子确定单元,包括:
第四确定模块,用于针对所述标签内容长度子集列表中的每个标签内容长度子集,确定各标签内容长度子集在所述标签内容长度子集列表中的索引编号;
第五确定模块,用于根据各标签内容长度子集在所述标签内容长度子集列表中的索引编号、标签内容长度阈值、预置概率缩放因子最大值和预置概率缩放因子最小值,确定各标签内容长度子集的概率缩放因子。
在本公开实施例的一种可能实现中,该图像处理装置还包括:
长度确定单元(未示出),用于确定所述第一样本的标签内容长度;
子集确定单元(未示出),用于根据所述第一样本的标签内容长度,确定所述第一样本所属的目标标签内容长度子集;
样本缩放因子确定单元(未示出),用于根据所述目标标签内容长度子集的概率缩放因子,确定所述第一样本的概率缩放因子。
在本公开实施例的一种可能实现中,该图像处理装置还包括:
第一处理单元(未示出),用于对所述第一样本和所述至少一个第二样本分别进行数据增广处理,得到增广处理之后的第一样本和增广处理之后的至少一个第二样本。
在本公开实施例的一种可能实现中,该图像处理装置还包括:
第二处理单元(未示出),用于对所述样本集中的样本分别进行数据增广处理, 得到增广处理之后的样本集。
本实施例提供的图像处理装置,可用于执行上述任意方法实施例中的图像处理方法,其实现原理和技术效果类似,此处不做作赘述。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
根据本公开的实施例,本公开还提供了一种计算机程序产品,计算机程序产品包括:计算机程序,计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从可读存储介质读取计算机程序,至少一个处理器执行计算机程序使得电子设备执行上述任一实施例提供的方案。
图7是用来实施本公开的实施例的示例电子设备的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图7所示,设备700包括计算单元701,其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序,来执行各种适当的动作和处理。在RAM 703中,还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
设备700中的多个部件连接至I/O接口705,包括:输入单元706,例如键盘、鼠标等;输出单元707,例如各种类型的显示器、扬声器等;存储单元708,例如磁盘、光盘等;以及通信单元709,例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理,例如,图像处理方法。例如,在一些实施例中,图像处理方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储 单元708。在一些实施例中,计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由计算单元701执行时,可以执行上文描述的图像处理方法的一个或多个步骤。备选地,在其他实施例中,计算单元701可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行图像处理方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户 的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务("Virtual Private Server",或简称"VPS")中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (19)

  1. 一种图像处理方法,其特征在于,包括:
    获取待处理的样本集,所述样本集中的样本包括图像内容和标签内容;
    在所述样本集中,确定出用于联合处理的第一样本和至少一个第二样本;
    确定所述第一样本和所述至少一个第二样本是否满足联合处理退出条件;
    响应于所述第一样本和所述至少一个第二样本未满足联合处理退出条件,对所述第一样本和所述至少一个第二样本分别进行图像内容联合和标签内容联合处理,得到目标样本。
  2. 根据权利要求1所述的方法,其特征在于,所述联合处理退出条件包括如下至少一项:
    随机数与所述第一样本的概率缩放因子之积大于或等于联合概率阈值;
    所述第一样本的图像内容宽度和所述至少一个第二样本的图像内容宽度之和大于或等于图像宽度阈值;
    所述第一样本的标签内容长度和所述至少一个第二样本的标签内容长度之和大于或等于标签内容长度阈值。
  3. 根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
    基于所述样本集中每个样本的标签内容长度,确定所述样本集对应的标签内容长度子集列表;
    针对所述标签内容长度子集列表中的各标签内容长度子集,确定各标签内容长度子集的概率缩放因子。
  4. 根据权利要求3所述的方法,其特征在于,所述基于所述样本集中每个样本的标签内容长度,确定所述样本集对应的标签内容长度子集列表,包括:
    确定所述样本集中每个样本的标签内容长度;
    根据每个样本的标签内容长度,对所述样本集进行样本数量统计,确定出至少一个标签内容长度子集和每个标签内容长度子集内的样本数量;
    基于每个标签内容长度子集内的样本数量对所述至少一个标签内容长度子集进行排序,确定所述样本集对应的标签内容长度子集列表。
  5. 根据权利要求3或4所述的方法,其特征在于,所述针对所述标签内容长度子集列表中的各标签内容长度子集,确定各标签内容长度子集的概率缩放因子,包括:
    针对所述标签内容长度子集列表中的每个标签内容长度子集,确定各标签内容长 度子集在所述标签内容长度子集列表中的索引编号;
    根据各标签内容长度子集在所述标签内容长度子集列表中的索引编号、标签内容长度阈值、预置概率缩放因子最大值和预置概率缩放因子最小值,确定各标签内容长度子集的概率缩放因子。
  6. 根据权利要求2至5任一项所述的方法,其特征在于,所述方法还包括:
    确定所述第一样本的标签内容长度;
    根据所述第一样本的标签内容长度,确定所述第一样本所属的目标标签内容长度子集;
    根据所述目标标签内容长度子集的概率缩放因子,确定所述第一样本的概率缩放因子。
  7. 根据权利要求1至6任一项所述的方法,其特征在于,所述方法还包括:
    对所述第一样本和所述至少一个第二样本分别进行数据增广处理,得到增广处理之后的第一样本和增广处理之后的至少一个第二样本。
  8. 根据权利要求1至7任一项所述的方法,其特征在于,所述方法还包括:
    对所述样本集中的样本分别进行数据增广处理,得到增广处理之后的样本集。
  9. 一种图像处理装置,其特征在于,包括:
    获取单元,用于获取待处理的样本集,所述样本集中的样本包括图像内容和标签内容;
    样本确定单元,用于在所述样本集中,确定出用于联合处理的第一样本和至少一个第二样本;
    判定单元,用于确定所述第一样本和所述至少一个第二样本是否满足联合处理退出条件;
    联合单元,用于响应于所述第一样本和所述至少一个第二样本未满足联合处理退出条件,对所述第一样本和所述至少一个第二样本分别进行图像内容联合和标签内容联合处理,得到目标样本。
  10. 根据权利要求9所述的装置,其特征在于,所述联合处理退出条件包括如下至少一项:
    随机数与所述第一样本的概率缩放因子之积大于或等于联合概率阈值;
    所述第一样本的图像内容宽度和所述至少一个第二样本的图像内容宽度之和大于或等于图像宽度阈值;
    所述第一样本的标签内容长度和所述至少一个第二样本的标签内容长度之和大于 或等于标签内容长度阈值。
  11. 根据权利要求9或10所述的装置,其特征在于,所述装置还包括:
    列表确定单元,用于基于所述样本集中每个样本的标签内容长度,确定所述样本集对应的标签内容长度子集列表;
    子集缩放因子确定单元,用于针对所述标签内容长度子集列表中的各标签内容长度子集,确定各标签内容长度子集的概率缩放因子。
  12. 根据权利要求11所述的装置,其特征在于,所述列表确定单元,包括:
    第一确定模块,用于确定所述样本集中每个样本的标签内容长度;
    第二确定模块,用于根据每个样本的标签内容长度,对所述样本集进行样本数量统计,确定出至少一个标签内容长度子集和每个标签内容长度子集内的样本数量;
    第三确定模块,用于基于每个标签内容长度子集内的样本数量对所述至少一个标签内容长度子集进行排序,确定所述样本集对应的标签内容长度子集列表。
  13. 根据权利要求11或12所述的装置,其特征在于,所述缩放因子确定单元,包括:
    第四确定模块,用于针对所述标签内容长度子集列表中的每个标签内容长度子集,确定各标签内容长度子集在所述标签内容长度子集列表中的索引编号;
    第五确定模块,用于根据各标签内容长度子集在所述标签内容长度子集列表中的索引编号、标签内容长度阈值、预置概率缩放因子最大值和预置概率缩放因子最小值,确定各标签内容长度子集的概率缩放因子。
  14. 根据权利要求10至13任一项所述的装置,其特征在于,所述装置还包括:
    长度确定单元,用于确定所述第一样本的标签内容长度;
    子集确定单元,用于根据所述第一样本的标签内容长度,确定所述第一样本所属的目标标签内容长度子集;
    样本缩放因子确定单元,用于根据所述目标标签内容长度子集的概率缩放因子,确定所述第一样本的概率缩放因子。
  15. 根据权利要求9至14任一项所述的装置,其特征在于,所述装置还包括:
    第一处理单元,用于对所述第一样本和所述至少一个第二样本分别进行数据增广处理,得到增广处理之后的第一样本和增广处理之后的至少一个第二样本。
  16. 根据权利要求9至15任一项所述的装置,其特征在于,所述装置还包括:
    第二处理单元,用于对所述样本集中的样本分别进行数据增广处理,得到增广处理之后的样本集。
  17. 一种电子设备,其特征在于,包括:
    至少一个处理器;以及
    与所述至少一个处理器通信连接的存储器;其中,
    所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至8中任一项所述的方法。
  18. 一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行根据权利要求1至8中任一项所述的方法。
  19. 一种计算机程序产品,其特征在于,包括计算机程序,该计算机程序被处理器执行时实现权利要求1至8中任一项所述方法的步骤。
PCT/CN2022/100221 2022-03-18 2022-06-21 图像处理方法、装置、设备及存储介质 WO2023173617A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202210268760.5A CN114612725B (zh) 2022-03-18 2022-03-18 图像处理方法、装置、设备及存储介质
CN202210268760.5 2022-03-18

Publications (1)

Publication Number Publication Date
WO2023173617A1 true WO2023173617A1 (zh) 2023-09-21

Family

ID=81864992

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2022/100221 WO2023173617A1 (zh) 2022-03-18 2022-06-21 图像处理方法、装置、设备及存储介质

Country Status (2)

Country Link
CN (2) CN116229175B (zh)
WO (1) WO2023173617A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116229175B (zh) * 2022-03-18 2023-12-26 北京百度网讯科技有限公司 图像处理方法、装置、设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110852379A (zh) * 2019-11-11 2020-02-28 北京百度网讯科技有限公司 训练样本生成方法、装置以及电子设备
CN111639527A (zh) * 2020-04-23 2020-09-08 平安国际智慧城市科技股份有限公司 英文手写文本识别方法、装置、电子设备及存储介质
US20200380394A1 (en) * 2019-05-30 2020-12-03 International Business Machines Corporation Contextual hashtag generator
CN112365423A (zh) * 2020-11-23 2021-02-12 腾讯科技(深圳)有限公司 一种图像数据增强方法、装置、介质及设备
CN112668586A (zh) * 2020-12-18 2021-04-16 北京百度网讯科技有限公司 模型训练、图片处理方法及设备、存储介质、程序产品
CN113780330A (zh) * 2021-04-13 2021-12-10 北京沃东天骏信息技术有限公司 图像校正方法及装置、计算机存储介质、电子设备
CN114612725A (zh) * 2022-03-18 2022-06-10 北京百度网讯科技有限公司 图像处理方法、装置、设备及存储介质

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6471934B2 (ja) * 2014-06-12 2019-02-20 パナソニックIpマネジメント株式会社 画像認識方法、カメラシステム
CN106874478A (zh) * 2017-02-17 2017-06-20 重庆邮电大学 基于Spark的并行化随机标签子集多标签文本分类方法
CN107679525B (zh) * 2017-11-01 2022-11-29 腾讯科技(深圳)有限公司 图像分类方法、装置及计算机可读存储介质
KR102052624B1 (ko) * 2018-11-09 2019-12-05 주식회사 루닛 기계 학습 방법 및 장치
CN111382758B (zh) * 2018-12-28 2023-12-26 杭州海康威视数字技术股份有限公司 训练图像分类模型、图像分类方法、装置、设备及介质
CN110032650B (zh) * 2019-04-18 2022-12-13 腾讯科技(深圳)有限公司 一种训练样本数据的生成方法、装置及电子设备
CN111461168A (zh) * 2020-03-02 2020-07-28 平安科技(深圳)有限公司 训练样本扩充方法、装置、电子设备及存储介质
CN111476284B (zh) * 2020-04-01 2023-12-26 杭州网易智企科技有限公司 图像识别模型训练及图像识别方法、装置、电子设备
CN111651668B (zh) * 2020-05-06 2023-06-09 上海晶赞融宣科技有限公司 用户画像的标签生成方法及装置、存储介质、终端
CN111723856B (zh) * 2020-06-11 2023-06-09 广东浪潮大数据研究有限公司 一种图像数据处理方法、装置、设备及可读存储介质
CN111931061B (zh) * 2020-08-26 2023-03-24 腾讯科技(深圳)有限公司 标签映射方法、装置、计算机设备及存储介质
CN112560987A (zh) * 2020-12-25 2021-03-26 北京百度网讯科技有限公司 图像样本处理方法、装置、设备、存储介质和程序产品
CN112613569B (zh) * 2020-12-29 2024-04-09 北京百度网讯科技有限公司 图像识别方法、图像分类模型的训练方法及装置
CN112364252B (zh) * 2021-01-12 2021-04-23 北京世纪好未来教育科技有限公司 内容推荐方法、装置、电子设备及存储介质
CN112784905A (zh) * 2021-01-26 2021-05-11 北京嘀嘀无限科技发展有限公司 数据样本扩充的方法、装置和电子设备
CN112633419B (zh) * 2021-03-09 2021-07-06 浙江宇视科技有限公司 小样本学习方法、装置、电子设备和存储介质
CN113033537B (zh) * 2021-03-25 2022-07-01 北京百度网讯科技有限公司 用于训练模型的方法、装置、设备、介质和程序产品
CN113762037A (zh) * 2021-04-23 2021-12-07 腾讯科技(深圳)有限公司 图像识别方法、装置、设备以及存储介质
CN113326764B (zh) * 2021-05-27 2022-06-07 北京百度网讯科技有限公司 训练图像识别模型和图像识别的方法和装置
CN113642635B (zh) * 2021-08-12 2023-09-15 百度在线网络技术(北京)有限公司 模型训练方法及装置、电子设备和介质
CN113869449A (zh) * 2021-10-11 2021-12-31 北京百度网讯科技有限公司 一种模型训练、图像处理方法、装置、设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200380394A1 (en) * 2019-05-30 2020-12-03 International Business Machines Corporation Contextual hashtag generator
CN110852379A (zh) * 2019-11-11 2020-02-28 北京百度网讯科技有限公司 训练样本生成方法、装置以及电子设备
CN111639527A (zh) * 2020-04-23 2020-09-08 平安国际智慧城市科技股份有限公司 英文手写文本识别方法、装置、电子设备及存储介质
CN112365423A (zh) * 2020-11-23 2021-02-12 腾讯科技(深圳)有限公司 一种图像数据增强方法、装置、介质及设备
CN112668586A (zh) * 2020-12-18 2021-04-16 北京百度网讯科技有限公司 模型训练、图片处理方法及设备、存储介质、程序产品
CN113780330A (zh) * 2021-04-13 2021-12-10 北京沃东天骏信息技术有限公司 图像校正方法及装置、计算机存储介质、电子设备
CN114612725A (zh) * 2022-03-18 2022-06-10 北京百度网讯科技有限公司 图像处理方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN116229175B (zh) 2023-12-26
CN114612725A (zh) 2022-06-10
CN114612725B (zh) 2023-04-25
CN116229175A (zh) 2023-06-06

Similar Documents

Publication Publication Date Title
CN113326764B (zh) 训练图像识别模型和图像识别的方法和装置
EP3832541A2 (en) Method and apparatus for recognizing text
CN113255694B (zh) 训练图像特征提取模型和提取图像特征的方法、装置
US11804069B2 (en) Image clustering method and apparatus, and storage medium
CN112966522A (zh) 一种图像分类方法、装置、电子设备及存储介质
EP3913542A2 (en) Method and apparatus of training model, device, medium, and program product
US20230196716A1 (en) Training multi-target image-text matching model and image-text retrieval
WO2024098533A1 (zh) 图文双向搜索方法、装置、设备及非易失性可读存储介质
CN112509690B (zh) 用于控制质量的方法、装置、设备和存储介质
CN112507090B (zh) 用于输出信息的方法、装置、设备和存储介质
US20220004928A1 (en) Method and apparatus for incrementally training model
CN113657395B (zh) 文本识别方法、视觉特征提取模型的训练方法及装置
CN115438214B (zh) 处理文本图像的方法及装置、神经网络的训练方法
WO2023050738A1 (zh) 基于知识蒸馏的模型训练方法、装置、电子设备
WO2024098623A1 (zh) 跨媒体检索及模型训练方法、装置、设备、菜谱检索系统
CN114494784A (zh) 深度学习模型的训练方法、图像处理方法和对象识别方法
WO2023207028A1 (zh) 图像检索方法、装置及计算机程序产品
US20230196805A1 (en) Character detection method and apparatus , model training method and apparatus, device and storage medium
WO2023093014A1 (zh) 一种票据识别方法、装置、设备以及存储介质
WO2023173617A1 (zh) 图像处理方法、装置、设备及存储介质
CN113360700A (zh) 图文检索模型的训练和图文检索方法、装置、设备和介质
WO2022227759A1 (zh) 图像类别的识别方法、装置和电子设备
CN113360683A (zh) 训练跨模态检索模型的方法以及跨模态检索方法和装置
CN115457329B (zh) 图像分类模型的训练方法、图像分类方法和装置
WO2023159819A1 (zh) 视觉处理及模型训练方法、设备、存储介质及程序产品

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22931640

Country of ref document: EP

Kind code of ref document: A1