WO2023087597A1 - 一种图像处理方法、系统、设备以及介质 - Google Patents

一种图像处理方法、系统、设备以及介质 Download PDF

Info

Publication number
WO2023087597A1
WO2023087597A1 PCT/CN2022/083740 CN2022083740W WO2023087597A1 WO 2023087597 A1 WO2023087597 A1 WO 2023087597A1 CN 2022083740 W CN2022083740 W CN 2022083740W WO 2023087597 A1 WO2023087597 A1 WO 2023087597A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
data set
network
training
processed
Prior art date
Application number
PCT/CN2022/083740
Other languages
English (en)
French (fr)
Inventor
李峰
周镇镇
张潇澜
Original Assignee
苏州浪潮智能科技有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 苏州浪潮智能科技有限公司 filed Critical 苏州浪潮智能科技有限公司
Priority to US18/564,457 priority Critical patent/US12118771B2/en
Publication of WO2023087597A1 publication Critical patent/WO2023087597A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting

Definitions

  • the present application relates to the field of image processing, and in particular to an image processing method, system, device and storage medium.
  • Deep learning is a complex machine learning algorithm that learns the inherent laws and representation levels of data. It can deeply analyze the hidden information of image data, text data, and voice signals. It also means that it has a higher calculation load, so the calculation load is too large and the calculation time is lengthy when processing ultra-large-scale data, such as medical data that requires ultra-high resolution images, satellite remote sensing data, 3D cloud images, urban road maps, etc.
  • Another solution is to use data enhancement methods to copy small targets or targets with fewer categories, and to use techniques such as rotation and scaling to violently increase the number and types of unbalanced targets.
  • the existing solution based on algorithm optimization can improve the recognition effect of small targets, but it also requires a high amount of calculation.
  • Past practice has proved that this step often becomes the calculation bottleneck of the entire algorithm.
  • the premise of using the data enhancement method is that the size of the data and the size of the network can match the computing power of the training platform. When encountering ultra-large-scale data, it cannot be used, and even causes greater computing pressure.
  • an embodiment of the present application proposes an image processing method, including the following steps:
  • the inference network is obtained after removing the last loss function layer of the trained image segmentation neural network
  • the image to be processed is inferred by using the inference network and the trained verification network to obtain a mask of the image to be processed.
  • the images in the initial data set are preprocessed to obtain the training data set, further comprising:
  • Segment each image in the initial data set to obtain multiple sub-images corresponding to each image, and use the multiple sub-images of each image after segmentation to construct a first data set, wherein one of the first data sets
  • the elements are a plurality of sub-images of an image in the initial data set
  • the label of each image in the initial dataset is reduced to obtain the reduced label.
  • each image in the initial data set is segmented to obtain a plurality of sub-images corresponding to each image, further comprising:
  • the image is equally divided using the division scale.
  • the verification network is trained according to the logic vector, the initial data set, and the mask of each image in the initial data set, further comprising:
  • N is the number of classification categories, i is the i-th category, and the value range is 1, 2, ..., N; M is the total number of samples, and c is the c-th sample, and the value range is 1, 2, ..., M ;y ic is the true probability that the cth sample is actually the i-th category, where if the c-th sample is actually the i-th category, the probability is 1, otherwise it is 0; P ic is the c-th sample is predicted to be the i-th probability of a category.
  • using the reasoning network and the trained verification network to perform reasoning on the image to be processed to obtain a mask of the image to be processed further comprising:
  • the logic vector corresponding to the preprocessed image to be processed is input to the trained verification network for inference to obtain the mask of the image to be processed.
  • an embodiment of the present application also provides an image processing system, including:
  • a preprocessing module configured to preprocess images in the initial data set to obtain a training data set
  • the first training module is configured to use the training data set to train the image segmentation neural network
  • the segmentation module is configured to obtain an inference network after removing the last layer of loss function layer of the trained image segmentation neural network
  • an input module configured to input the training data set into the reasoning network to obtain a plurality of logical vectors
  • the second training module is configured to train the verification network according to the plurality of logic vectors, the initial data set, and the mask of each image in the initial data set;
  • the inference module is configured to use the inference network and the trained verification network to infer the image to be processed to obtain the mask of the image to be processed.
  • an embodiment of the present application also provides a computer device, including:
  • a memory where the memory stores computer-readable instructions operable on the processor, and the processor executes the steps of the image processing method provided by any one of the above-mentioned embodiments when executing the computer-readable instructions.
  • the embodiments of the present application further provide one or more non-volatile computer-readable storage media storing computer-readable instructions, the computer-readable instructions being controlled by a When one or more processors are executed, the one or more processors are made to execute the steps of the image processing method provided in any one of the above embodiments.
  • FIG. 1 is a schematic flowchart of an image processing method provided by one or more embodiments of the present application
  • FIG. 2 is a schematic structural diagram of an image segmentation neural network based on neural network architecture search provided by one or more embodiments of the present application;
  • FIG. 3 is a schematic structural diagram of a multi-layer perceptron provided by one or more embodiments of the present application.
  • FIG. 4 is a schematic structural diagram of an image processing system provided by one or more embodiments of the present application.
  • FIG. 5 is a schematic structural diagram of a computer device provided by one or more embodiments of the present application.
  • Fig. 6 is a schematic structural diagram of a non-volatile computer-readable storage medium provided by one or more embodiments of the present application.
  • an embodiment of the present application proposes an image processing method, as shown in FIG. 1 , which may include steps:
  • This application proposes a solution to the memory overflow of high-resolution images during large-scale image segmentation network training.
  • it can reduce the video memory required for network training while ensuring the accuracy of image segmentation.
  • post-correction does not depend on the weights and parameters of the segmentation network, and post-correction can be directly performed on any pre-trained verification network to realize the processing of high-resolution images by any verification network without the need for verification network.
  • Retraining greatly reduces development costs and improves the adaptability of different verification networks to high-resolution images.
  • S1 preprocessing the images in the initial data set to obtain the training data set further includes:
  • Segment each image in the initial data set to obtain multiple sub-images corresponding to each image, and use the multiple sub-images of each image after segmentation to construct a first data set, wherein one of the first data sets
  • the elements are a plurality of sub-images of an image in the initial data set
  • the label of each image in the initial dataset is reduced to obtain the reduced label.
  • each image in the initial data set is segmented to obtain a plurality of sub-images corresponding to each image, further comprising:
  • the image is equally divided using the division scale.
  • the label images corresponding to the images are processed in the same way to ensure that the label files (M 1 , M 2 , M 3 , M 4 ) and image data are one by one
  • the data set after all images are segmented is called the first data set (Dataset1); then the image I 0 is reduced, and the reduced size is consistent with the size of the segmented image, and the image is recorded as I 5 , the same method to obtain the label file M 5 , the
  • the corresponding elements in the training data set are (I 1 , I 2 , I 3 , I 4 , I 5 ), and the corresponding The labels are (M 1 , M 2 , M 3 , M 4 , M 5 ).
  • the training data set is used to train the image segmentation neural network.
  • the training process of the image segmentation neural network uses the preprocessed data set to carry out the normal training process.
  • the training stops and the weights of the trained hypernetwork are obtained.
  • the image segmentation neural network can use a variety of neural network structures, such as manually designed neural networks such as Mask RCNN and DeepLab series algorithms, and can also use neural network architecture search methods to obtain neural networks.
  • neural network structures such as manually designed neural networks such as Mask RCNN and DeepLab series algorithms, and can also use neural network architecture search methods to obtain neural networks.
  • the structure of a neural network for image segmentation based on neural network architecture search may be as shown in FIG. 2 .
  • the i-th block of the l-th layer cell can be defined as (Input1, Input2, O 1 , O 2 , C).
  • Input1, Input2 ⁇ I i l is the input vector selected by the block; O 1 , O 2 ⁇ ⁇ is the type of the layer selected by the block to operate on the input vector; C ⁇ C is the combination of two independent branches Output the operations required to build the block's output vector H i l .
  • the output H l of the current cell is formed by concatenating the output vectors ⁇ H 1 l ,..., H B l ⁇ of each block.
  • the set of input vectors I i l includes the output H l-1 of the previous layer of cells, the output H l-2 of the first two times, and the output of the previous block in the same cell ⁇ H 1 l ,...,H i l ⁇ .
  • C uses a simple pixel addition method.
  • the neural network obtained by the neural network architecture search method shown in Figure 2 consists of 2 fixed feature extraction layers and subsequent 12 layers of cells. Each of the two fixed layers reduces the spatial resolution by 2 (that is, downsampling by 2 times), and the subsequent L-layer cells have an unknown spatial resolution, the highest is downsampled by 4 times, and the lowest is downsampled by 32 times. Because the difference in spatial resolution of each layer is 2 times, the first cell can downsample the original input image by 4 times and 8 times, and the second cell can downsample the original input image by 4, 8, and 16 times For sampling, the 3rd to 12th cells can downsample the original input image by 4, 8, 16, and 32 times.
  • Figure 2 shows the search space of the neural network structure search supernetwork at the network architecture level.
  • ABP Atrous Spatial Pyramid Pooling
  • the upsampling method may also select bilinear quadratic interpolation, cubic curve interpolation, minimum curvature interpolation, radial basis function method, and the like.
  • the inference network is obtained after removing the last loss function layer of the trained image segmentation neural network, specifically, the image segmentation neural network needs to remove the last layer of the classifier part of the segmentation network
  • the network output changes from the segmented pixels of different categories to the logit values (logic values) of different categories for the pixels.
  • the feature extraction network is the architecture search part in FIG. 1 .
  • other segmentation network architectures can also be used.
  • the forward inference network uses the weights trained in S2, pops up the weights of the last layer, and outputs the vector T after the Concat layer.
  • step S4 the training data set is input into the reasoning network to obtain a plurality of logical vectors, specifically, Dataset1 and Dataset2 can be used as input data, and the previous step is performed in the image segmentation network.
  • the input image ⁇ I 1 , I 2 , I 3 , I 4 , I 5 >
  • the output vector T is ⁇ T 1 , T 2 , T 3 , T 4 , T 5 >.
  • the verification network is trained according to the logic vector, the initial data set, and the mask of each image in the initial data set, further comprising:
  • M 0 f(T 1 , T 2 , T 3 , T 4 , T 5 )
  • mapping relationship f can be obtained after the verification network is trained by using the logic vector, the initial data set and the mask of each image in the initial data set, so as to perform inference on the image to be processed.
  • the structure of the multilayer perceptron of construction can be as shown in Figure 3, multilayer perceptron (MLP, Multilayer Perceptron) is a kind of feed-forward artificial neural network model, and it maps the multiple data sets of input onto a single output dataset. As a post-verification network, train continuously until the network converges. The condition for evaluating convergence can be that the loss does not decrease after 5 training iterations.
  • MLP Multilayer Perceptron
  • N is the number of classification categories, i is the i-th category, and the value range is 1, 2, ..., N; M is the total number of samples, and c is the c-th sample, and the value range is 1, 2, ..., M ;y ic is the true probability that the cth sample is actually the i-th category, where if the c-th sample is actually the i-th category, the probability is 1, otherwise it is 0; P ic is the c-th sample is predicted to be the i-th probability of a class.
  • using the reasoning network and the trained verification network to perform reasoning on the image to be processed to obtain a mask of the image to be processed further comprising:
  • the logic vector corresponding to the preprocessed image to be processed is input to the trained verification network for inference to obtain the mask of the image to be processed.
  • the high-resolution image can be preprocessed (same as S1) to obtain Dataset1 and Dataset2, and then use Dataset1 and Dataset2 as input Data, the output vector T is obtained in the forward inference network. Finally, use the trained multi-layer perceptron to input the vector T to obtain the final prediction mask of the image segmentation.
  • This application proposes a solution to the memory overflow of high-resolution images during large-scale image segmentation network training.
  • it can reduce the video memory required for network training while ensuring the accuracy of image segmentation.
  • post-correction does not depend on the weights and parameters of the segmentation network, and post-correction can be directly performed on any pre-trained verification network to realize the processing of high-resolution images by any verification network without the need for verification network.
  • Retraining greatly reduces development costs and improves the adaptability of different verification networks to high-resolution images.
  • an embodiment of the present application also provides an image processing system 400, as shown in FIG. 4 , including:
  • the preprocessing module 401 is configured to preprocess the images in the initial data set to obtain the training data set;
  • the first training module 402 is configured to use the training data set to train the image segmentation neural network
  • the segmentation module 403 is configured to obtain an inference network after removing the last loss function layer of the trained image segmentation neural network
  • the input module 404 is configured to input the training data set into the reasoning network to obtain a plurality of logical vectors
  • the second training module 405 is configured to train the verification network according to the plurality of logic vectors, the initial data set, and the mask of each image in the initial data set;
  • the inference module 406 is configured to use the inference network and the trained verification network to perform inference on the image to be processed to obtain a mask of the image to be processed.
  • the images in the initial data set are preprocessed to obtain the training data set, further comprising:
  • Segment each image in the initial data set to obtain multiple sub-images corresponding to each image, and use the multiple sub-images of each image after segmentation to construct a first data set, wherein one of the first data sets
  • the elements are a plurality of sub-images of an image in the initial data set
  • the label of each image in the initial dataset is reduced to obtain the reduced label.
  • each image in the initial data set is segmented to obtain a plurality of sub-images corresponding to each image, further comprising:
  • the image is equally divided using the division scale.
  • the verification network is trained according to the logic vector, the initial data set, and the mask of each image in the initial data set, further comprising:
  • N is the number of classification categories, i is the i-th category, and the value range is 1, 2, ..., N; M is the total number of samples, and c is the c-th sample, and the value range is 1, 2, ..., M ;y ic is the true probability that the cth sample is actually the i-th category, where if the c-th sample is actually the i-th category, the probability is 1, otherwise it is 0; P ic is the c-th sample is predicted to be the i-th probability of a category.
  • using the reasoning network and the trained verification network to perform reasoning on the image to be processed to obtain a mask of the image to be processed further comprising:
  • the logic vector corresponding to the preprocessed image to be processed is input to the trained verification network for inference to obtain the mask of the image to be processed.
  • This application proposes a solution to the memory overflow of high-resolution images during large-scale image segmentation network training.
  • it can reduce the video memory required for network training while ensuring the accuracy of image segmentation.
  • post-correction does not depend on the weights and parameters of the segmentation network, and post-correction can be directly performed on any pre-trained verification network to realize the processing of high-resolution images by any verification network without the need for verification network.
  • Retraining greatly reduces development costs and improves the adaptability of different verification networks to high-resolution images.
  • an embodiment of the present application also provides a computer device 501, including:
  • a memory 510 stores computer-readable instructions 511 that can run on the processor.
  • the processor 520 executes the computer-readable instructions 511, it executes the steps of the image processing method provided in any one of the above embodiments.
  • the embodiment of the present application also provides one or more non-volatile computer-readable storage media 601 storing computer-readable instructions 610, When the computer-readable instructions 610 are executed by one or more processors, the one or more processors execute the steps of the image processing method provided in any one of the above embodiments.
  • the storage medium may be a read-only memory, a magnetic disk or an optical disk, and the like.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Image Analysis (AREA)

Abstract

一种图像处理方法、系统、计算机设备以及可读存储介质,所述方法包括以下步骤:对初始数据集中的图像进行预处理以得到训练数据集(S1);利用训练数据集对图像分割神经网络进行训练(S2);将训练后的图像分割神经网络的最后一层损失函数层去除后得到推理网络(S3);将训练数据集输入到推理网络中以得到多个逻辑向量(S4);根据多个逻辑向量、初始数据集以及初始数据集中的每一个图像的掩膜对校验网络进行训练(S5);利用推理网络和训练好的校验网络对待处理图像进行推理以得到待处理图像的掩膜(S6)。该方法针对高分辨率图像在大规模图像分割网络训练时内存溢出的情况提出了一种解决方案,保障图像分割精度的同时,降低网络训练所需显存。

Description

一种图像处理方法、系统、设备以及介质
相关申请的交叉引用
本申请要求于2021年11月19日提交中国专利局,申请号为202111383898.1,申请名称为“一种图像处理方法、系统、设备以及介质”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及图像处理领域,具体涉及一种图像处理方法、系统、设备以及存储介质。
背景技术
目前人工智能技术正在如火如荼的发展中,被广泛应用于智能交通、智慧医疗、自动驾驶、看图识物、推荐系统、语音识别、机器翻译等多种技术领域中,带来了新一轮的社会变革。人工智能技术的最新研究方向正是深度学习技术,深度学习是学习数据的内在规律和表示层次的一种复杂的机器学习算法,能够深度剖析图像数据、文本数据、语音信号的隐含信息,这也意味着其对计算量更高,因而在处理超大规模数据时的计算量过于庞大、计算时间冗长,例如需要超高分辨率图像的医疗数据、卫星遥感数据、3D云图、城市道路图等等,直接应用于深度学习算法必然面对着显存飙升甚至溢出的结局。为了解决这个困局,以往的深度学习技术往往对图像进行压缩后,再使用深度学习算法进行后续训练与推理过程,这就导致了神经网络对密集图像在分割任务上的识别不准,不同类别边缘部分界定困难。
针对计算机视觉领域的不同任务,从首次提出对多尺度特征信息进行融合的FPN(feature pyramid networks,特征金字塔网络)开始,到后来的ASPP(atrous spatial pyramid pooling,空洞空间卷积池化金字塔)对所给定的输入以不同采样率的空洞卷积并行采样,对物体进行多层特征信息的融合就成为一种主流的解决办法,这种方案可以有效的提升目标检测和实例分割的评价指标。
另外一种解决思路是,通过数据增强方法,复制小目标或类别较少的目标,加之旋转、缩放等技术,对非均衡目标的数量和种类进行暴力提升。
但是,现有的基于算法优化的解决办法能提升小目标识别效果,但它对计算量的要求也很高,以往的实践证明,这一步骤往往会成为整个算法的计算瓶颈。而采用数据增强方法的前提是数据的大小和网络的大小能够与训练平台的计算能力相匹配,当遇到超 大规模数据就无法使用,甚至造成更大的计算压力。
发明内容
有鉴于此,为了克服上述问题的至少一个方面,本申请实施例提出一种图像处理方法,包括以下步骤:
对初始数据集中的图像进行预处理以得到训练数据集;
利用所述训练数据集对图像分割神经网络进行训练;
将训练后的图像分割神经网络的最后一层损失函数层去除后得到推理网络;
将所述训练数据集输入到所述推理网络中以得到多个逻辑向量;
根据所述多个逻辑向量、所述初始数据集以及所述初始数据集中的每一个图像的掩膜对校验网络进行训练;
利用所述推理网络和训练好的校验网络对待处理图像进行推理以得到待处理图像的掩膜。
在一些实施例中,对初始数据集中的图像进行预处理以得到训练数据集,进一步包括:
将初始数据集中的每一个图像进行切分以得到每一个图像对应的多个子图像,并利用切分后的每一个图像的多个子图像构建第一数据集,其中所述第一数据集中的一个元素为所述初始数据集中一个图像的多个子图像;
将初始数据集中的每一个图像进行缩小以得到缩小后的图像,并利用缩小后的图像构建第二数据集,其中所述缩小后的图像的尺寸与所述子图像的尺寸相同;
将所述第一数据集中每一个元素与所述第二数据集中的对应的元素组合得到训练数据集中的每一个元素。
在一些实施例中,还包括:
将初始数据集中的每一个图像的标签切分以得到每一个图像的标签对应的多个子标签,其中每一个子标签均与相应的子图像对应;
将初始数据集中的每一个图像的标签进行缩小以得到缩小后的标签。
在一些实施例中,将初始数据集中的每一个图像进行切分以得到每一个图像对应的多个子图像,进一步包括:
获取设置的切分尺度并判断切分尺度是否可整除;
响应于不可整除,将切分尺度向上取模并将图像的边缘处进行补齐;
响应于可整除,利用切分尺度对图像进行均等切分。
在一些实施例中,根据所述逻辑向量、所述初始数据集以及所述初始数据集中的每一个图像的掩膜对校验网络进行训练,进一步包括:
构建多层感知机;
利用所述逻辑向量、所述初始数据集以及所述初始数据集中的每一个图像的掩膜对所述多层感知机进行训练;
响应于所述多层感知机在预设数量的训练迭代后损失值不降低,确定对所述多层感知机训练至收敛。
在一些实施例中,还包括:
利用损失函数
Figure PCTCN2022083740-appb-000001
对所述多层感知机进行训练;
其中,N为分类类别数量,i为其中第i个类别,取值范围1,2,…,N;M为样本总数,c为其中第c个样本,取值范围1,2,…,M;y ic是第c个样本实际为第i个类别的真实概率,其中如果第c个样本实际类别为i,则概率为1,否则为0;P ic是第c个样本被预测为第i个类别的概率。
在一些实施例中,利用所述推理网络和训练好的校验网络对待处理图像进行推理以得到待处理图像的掩膜,进一步包括:
对所述待处理图像进行所述预处理;
将预处理后的待处理图像输入到所述推理网络中以得到预处理后的待处理图像对应的逻辑向量;
将预处理后的待处理图像对应的逻辑向量输入到训练好的校验网络进行推理以得到待处理图像的掩膜。
基于同一发明构思,根据本申请的另一个方面,本申请的实施例还提供了一种图像处理系统,包括:
预处理模块,配置为对初始数据集中的图像进行预处理以得到训练数据集;
第一训练模块,配置为利用所述训练数据集对图像分割神经网络进行训练;
分割模块,配置为将训练后的图像分割神经网络的最后一层损失函数层去除后得到推理网络;
输入模块,配置为将所述训练数据集输入到所述推理网络中以得到多个逻辑向量;
第二训练模块,配置为根据所述多个逻辑向量、所述初始数据集以及所述初始数据集中的每一个图像的掩膜对校验网络进行训练;
推理模块,配置为利用所述推理网络和训练好的校验网络对待处理图像进行推理以 得到待处理图像的掩膜。
基于同一发明构思,根据本申请的另一个方面,本申请的实施例还提供了一种计算机设备,包括:
至少一个处理器;以及
存储器,所述存储器存储有可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时执行如上所述的任一实施例提供的图像处理方法的步骤。
基于同一发明构思,根据本申请的另一个方面,本申请的实施例还提供了一个或多个存储有计算机可读指令的非易失性计算机可读存储介质,所述计算机可读指令被一个或多个处理器执行时,使得所述一个或多个处理器执行如上所述的任一实施例提供的图像处理方法的步骤。
本申请的一个或多个实施例的细节在下面的附图和描述中提出。本申请的其它特征和优点将从说明书、附图以及权利要求书变得明显。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。
图1为本申请的一个或多个实施例提供的图像处理方法的流程示意图;
图2为本申请的一个或多个实施例提供的基于神经网络架构搜索的图像分割神经网络的结构示意图;
图3为本申请的一个或多个实施例提供的多层感知机的结构示意图;
图4为本申请的一个或多个实施例提供的图像处理系统的结构示意图;
图5为本申请的一个或多个实施例提供的计算机设备的结构示意图;
图6为本申请的一个或多个实施例提供的非易失性计算机可读存储介质的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本申请实施例进一步详细说明。
需要说明的是,本申请实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解 为对本申请实施例的限定,后续实施例对此不再一一说明。
根据本申请的一个方面,本申请的实施例提出一种图像处理方法,如图1所示,其可以包括步骤:
S1,对初始数据集中的图像进行预处理以得到训练数据集;
S2,利用所述训练数据集对图像分割神经网络进行训练;
S3,将训练后的图像分割神经网络的最后一层损失函数层去除后得到推理网络;
S4,将所述训练数据集输入到所述推理网络中以得到多个逻辑向量;
S5,根据所述多个逻辑向量、所述初始数据集以及所述初始数据集中的每一个图像的掩膜对校验网络进行训练;
S6,利用所述推理网络和训练好的校验网络对待处理图像进行推理以得到待处理图像的掩膜。
本申请针对高分辨率图像在大规模图像分割网络训练时内存溢出的情况提出了一种解决方案,在计算力受限情况下,保障图像分割精度的同时,降低网络训练所需显存。此外,后校正不依赖于分割网络的权重和参数,可以直接对预训练好的任意校验网络进行后校正,实现任意校验网络对高分辨率图像的处理,而不需要对校验网络进行重训练,大幅降低了开发成本,提升了不同校验网络对高分辨率图像的适应性。
在一些实施例中,S1,对初始数据集中的图像进行预处理以得到训练数据集,进一步包括:
将初始数据集中的每一个图像进行切分以得到每一个图像对应的多个子图像,并利用切分后的每一个图像的多个子图像构建第一数据集,其中所述第一数据集中的一个元素为所述初始数据集中一个图像的多个子图像;
将初始数据集中的每一个图像进行缩小以得到缩小后的图像,并利用缩小后的图像构建第二数据集,其中所述缩小后的图像的尺寸与所述子图像的尺寸相同;
将所述第一数据集中每一个元素与所述第二数据集中的对应的元素组合得到训练数据集中的每一个元素。
在一些实施例中,还包括:
将初始数据集中的每一个图像的标签切分以得到每一个图像的标签对应的多个子标签,其中每一个子标签均与相应的子图像对应;
将初始数据集中的每一个图像的标签进行缩小以得到缩小后的标签。
在一些实施例中,将初始数据集中的每一个图像进行切分以得到每一个图像对应的多个子图像,进一步包括:
获取设置的切分尺度并判断切分尺度是否可整除;
响应于不可整除,将切分尺度向上取模并将图像的边缘处进行补齐;
响应于可整除,利用切分尺度对图像进行均等切分。
具体的,对初始数据集Dataset0中的任意一张M*N个像素点的高分辨率图像I 0,首先将图像I 0进行切分,具体的切分比例可根据图像分割网络的规模不同有所区别,例如可以使用1:2的比例进行均等切分,即对长宽方向都在中间处截断,1张高分辨率图像就切分成2*2=4张M/2*N/2的低分辨率图像(I 1,I 2,I 3,I 4),该图像对应的标签图像做同样的处理,保障标签文件(M 1,M 2,M 3,M 4)与图像数据一一对应,对所有图像进行切分后的该数据集称为第一数据集(Dataset1);接着将图像I 0进行缩小,缩小后的尺寸与切分图像的尺寸保持一致,该图像记做I 5,同样的方法获得标签文件M 5,对所有图像进行缩小后的该数据集称为第二数据集(Dataset2);混合第一数据集和第二数据集作为训练数据集,即训练数据集中的每一个元素为第一数据集的元素和第二数据集的元素,例如对于图像I 0,训练数据集中对应的元素为(I 1,I 2,I 3,I 4,I 5),对应的标签为(M 1,M 2,M 3,M 4,M 5)。
在一些实施例中,步骤S2中,利用所述训练数据集对图像分割神经网络进行训练,具体的,图像分割神经网络训练过程,使用预处理后的数据集进行正常训练流程,在满足一定精度要求或者训练次数时,训练停止,获取训练完毕的超网络权重。
在一些实施例中,图像分割神经网络可使用多种神经网络结构,例如Mask RCNN、DeepLab系列算法等手工设计的神经网络,也可使用神经网络架构搜索方法得到神经网络。
在一些实施例中,一种基于神经网络架构搜索的图像分割神经网络的结构可以如图2所示。其中,可以定义神经网络架构搜索的超网络含有L=12个cell,每个cell为含有B个block的有向无环图,每个block含有两个分支结构,从2个输入向量映射到1个输出向量。第l层cell的第i个block可以被定义为(Input1,Input2,O 1,O 2,C)。其中Input1,Input2∈I i l,为该block选中的输入向量;O 1,O 2∈Ο为该block选中的对输入向量进行运算的层的类型;C∈C,为组合两个独立分支的输出来构建该block的输出向量H i l所需的操作。当前cell的输出H l为各个block的输出向量{H 1 l,…,H B l}拼接而成。输入向量的集合I i l包含前一层cell的输出H l-1,前两次的输出H l-2,以及同一个cell中前面的block的输出{H 1 l,…,H i l}。
其中,每个cell所使用的搜索空间Ο包含以下八种操作:3*3的深度分离卷积;5*5的深度分离卷积;3*3的孔洞卷积rate=2;5*5的孔洞卷积rate=2;3*3的平均池化;3*3的最大池化;跳跃连接;零操作。C使用简单的像素点相加方法。
图2所示的神经网络架构搜索方法得到的神经网络,其由2层固定的特征提取层及后续12层cell组成。两层固定layer每个将空间分辨率降低2(也就是下采样2倍),其后的L层cell具有未知的空间分辨率,最高的为下采样4倍,最低的为下采样32倍。因为每一层的空间分辨率差异多大为2倍,所以第1个cell可对原输入图像进行4倍和8倍降采样,第2个cell可对原输入图像进行4、8、16倍降采样,第3-12个cell可对原输入图像进行4、8、16、32倍降采样,图2为神经网络结构搜索超网络在网络架构级别的搜索空间。
在第L层cell后对每一空间分辨率特征添加Atrous Spatial Pyramid Pooling(ASPP)模块,对其输出采用双线性插值的方法进行上采样,恢复到输入图像的分辨率,再对结果相加获取预测结果。
本申请中的其他实施例中,上采样方法也可选取双线性二次插值、三次曲线插值、最小曲率插值、径向基函数法等。
在一些实施例中,步骤S3中,将训练后的图像分割神经网络的最后一层损失函数层去除后得到推理网络,具体的,图像分割神经网络需要去掉分割网络的分类器部分的最后一层损失函数层,网络输出从分割的不同类别值的像素点变更为该像素点取不同类别的logit值(逻辑值)。例如,特征提取网络即图1的架构搜索部分,在其他实施例中,也可以采用其他分割网络架构。前向推理网络使用S2中训练好的权重,并弹出最后一层的权重,在Concat层后输出向量T。
在一些实施例中,步骤S4中,将所述训练数据集输入到所述推理网络中以得到多个逻辑向量,具体的,可以将使用Dataset1和Dataset2作为输入数据,在图像分割网络中进行前向推理,输入图像<I 1,I 2,I 3,I 4,I 5>输出向量T为<T 1,T 2,T 3,T 4,T 5>。
在一些实施例中,根据所述逻辑向量、所述初始数据集以及所述初始数据集中的每一个图像的掩膜对校验网络进行训练,进一步包括:
构建多层感知机;
利用所述逻辑向量、所述初始数据集以及所述初始数据集中的每一个图像的掩膜对所述多层感知机进行训练;
响应于所述多层感知机在预设数量的训练迭代后损失值不降低,确定对所述多层感知机训练至收敛。
具体的,使用前向推理向量作为输入数据,Dataset0的mask(掩膜)作为标签,对于Dataset0中的一张图像I 0,其mask为M 0,在<T 1,T 2,T 3,T 4,T 5>和I 0之间存在一定的映射关系f,使得:
M 0=f(T 1,T 2,T 3,T 4,T 5)
这样,利用逻辑向量、所述初始数据集以及所述初始数据集中的每一个图像的掩膜对校验网络进行训练后即可得到映射关系f,从而对待处理图像进行推理。
在一些实施例中,构建的多层感知机的结构可以如图3所示,多层感知机(MLP,Multilayer Perceptron)是一种前馈人工神经网络模型,其将输入的多个数据集映射到单一的输出的数据集上。作为后校验网络,不断训练直至网络收敛,评价收敛的条件可为在5个训练迭代后loss不下降。
在一些实施例中,还包括:
利用损失函数
Figure PCTCN2022083740-appb-000002
对所述多层感知机进行训练;
其中,N为分类类别数量,i为其中第i个类别,取值范围1,2,…,N;M为样本总数,c为其中第c个样本,取值范围1,2,…,M;y ic是第c个样本实际为第i个类别的真实概率,其中如果第c个样本实际类别为i,则概率为1,否则为0;P ic是第c个样本被预测为第i个类别的概率。
在一些实施例中,利用所述推理网络和训练好的校验网络对待处理图像进行推理以得到待处理图像的掩膜,进一步包括:
对所述待处理图像进行所述预处理;
将预处理后的待处理图像输入到所述推理网络中以得到预处理后的待处理图像对应的逻辑向量;
将预处理后的待处理图像对应的逻辑向量输入到训练好的校验网络进行推理以得到待处理图像的掩膜。
具体的,在利用所述推理网络和训练好的校验网络对待处理图像进行推理时,可以首先将高分辨率图像进行预处理过程(同S1)得到Dataset1和Dataset2,接着使用Dataset1和Dataset2作为输入数据,在前向推理网络获取输出向量T。最后使用训练好的多层感知机,输入向量T,获取图像分割最终的预测mask。
本申请针对高分辨率图像在大规模图像分割网络训练时内存溢出的情况提出了一种解决方案,在计算力受限情况下,保障图像分割精度的同时,降低网络训练所需显存。此外,后校正不依赖于分割网络的权重和参数,可以直接对预训练好的任意校验网络进行后校正,实现任意校验网络对高分辨率图像的处理,而不需要对校验网络进行重训练,大幅降低了开发成本,提升了不同校验网络对高分辨率图像的适应性。
基于同一发明构思,根据本申请的另一个方面,本申请的实施例还提供了一种图像处理系统400,如图4所示,包括:
预处理模块401,配置为对初始数据集中的图像进行预处理以得到训练数据集;
第一训练模块402,配置为利用所述训练数据集对图像分割神经网络进行训练;
分割模块403,配置为将训练后的图像分割神经网络的最后一层损失函数层去除后得到推理网络;
输入模块404,配置为将所述训练数据集输入到所述推理网络中以得到多个逻辑向量;
第二训练模块405,配置为根据所述多个逻辑向量、所述初始数据集以及所述初始数据集中的每一个图像的掩膜对校验网络进行训练;
推理模块406,配置为利用所述推理网络和训练好的校验网络对待处理图像进行推理以得到待处理图像的掩膜。
在一些实施例中,对初始数据集中的图像进行预处理以得到训练数据集,进一步包括:
将初始数据集中的每一个图像进行切分以得到每一个图像对应的多个子图像,并利用切分后的每一个图像的多个子图像构建第一数据集,其中所述第一数据集中的一个元素为所述初始数据集中一个图像的多个子图像;
将初始数据集中的每一个图像进行缩小以得到缩小后的图像,并利用缩小后的图像构建第二数据集,其中所述缩小后的图像的尺寸与所述子图像的尺寸相同;
将所述第一数据集中每一个元素与所述第二数据集中的对应的元素组合得到训练数据集中的每一个元素。
在一些实施例中,还包括:
将初始数据集中的每一个图像的标签切分以得到每一个图像的标签对应的多个子标签,其中每一个子标签均与相应的子图像对应;
将初始数据集中的每一个图像的标签进行缩小以得到缩小后的标签。
在一些实施例中,将初始数据集中的每一个图像进行切分以得到每一个图像对应的多个子图像,进一步包括:
获取设置的切分尺度并判断切分尺度是否可整除;
响应于不可整除,将切分尺度向上取模并将图像的边缘处进行补齐;
响应于可整除,利用切分尺度对图像进行均等切分。
在一些实施例中,根据所述逻辑向量、所述初始数据集以及所述初始数据集中的每一个图像的掩膜对校验网络进行训练,进一步包括:
构建多层感知机;
利用所述逻辑向量、所述初始数据集以及所述初始数据集中的每一个图像的掩膜对 所述多层感知机进行训练;
响应于所述多层感知机在预设数量的训练迭代后损失值不降低,确定对所述多层感知机训练至收敛。
在一些实施例中,还包括:
利用损失函数
Figure PCTCN2022083740-appb-000003
对所述多层感知机进行训练;
其中,N为分类类别数量,i为其中第i个类别,取值范围1,2,…,N;M为样本总数,c为其中第c个样本,取值范围1,2,…,M;y ic是第c个样本实际为第i个类别的真实概率,其中如果第c个样本实际类别为i,则概率为1,否则为0;P ic是第c个样本被预测为第i个类别的概率。
在一些实施例中,利用所述推理网络和训练好的校验网络对待处理图像进行推理以得到待处理图像的掩膜,进一步包括:
对所述待处理图像进行所述预处理;
将预处理后的待处理图像输入到所述推理网络中以得到预处理后的待处理图像对应的逻辑向量;
将预处理后的待处理图像对应的逻辑向量输入到训练好的校验网络进行推理以得到待处理图像的掩膜。
本申请针对高分辨率图像在大规模图像分割网络训练时内存溢出的情况提出了一种解决方案,在计算力受限情况下,保障图像分割精度的同时,降低网络训练所需显存。此外,后校正不依赖于分割网络的权重和参数,可以直接对预训练好的任意校验网络进行后校正,实现任意校验网络对高分辨率图像的处理,而不需要对校验网络进行重训练,大幅降低了开发成本,提升了不同校验网络对高分辨率图像的适应性。
基于同一发明构思,根据本申请的另一个方面,如图5所示,本申请的实施例还提供了一种计算机设备501,包括:
至少一个处理器520;以及
存储器510,存储器510存储有可在处理器上运行的计算机可读指令511,处理器520执行计算机可读指令511时执行如上任一实施例提供的图像处理方法的步骤。
基于同一发明构思,根据本申请的另一个方面,如图6所示,本申请的实施例还提供了一个或多个存储有计算机可读指令610的非易失性计算机可读存储介质601,所述计算机可读指令610被一个或多个处理器执行时,使得所述一个或多个处理器执行如上的任一实施例提供的图像处理方法的步骤。
最后需要说明的是,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过计算机可读指令来指令相关硬件来完成,计算机可读指令可存储于一非易失性计算机可读存储介质中,该计算机可读指令在执行时,可包括如上述各方法的实施例的流程。
本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性,已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现的功能,但是这种实现决定不应被解释为导致脱离本申请实施例公开的范围。
以上是本申请公开的示例性实施例,但是应当注意,在不背离权利要求限定的本申请实施例公开的范围的前提下,可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外,尽管本申请实施例公开的元素可以以个体形式描述或要求,但除非明确限制为单数,也可以理解为多个。
应当理解的是,在本文中使用的,除非上下文清楚地支持例外情况,单数形式“一个”旨在也包括复数形式。还应当理解的是,在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。
上述本申请实施例公开实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本申请实施例公开的范围(包括权利要求)被限于这些例子;在本申请实施例的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,并存在如上的本申请实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。因此,凡在本申请实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本申请实施例的保护范围之内。

Claims (10)

  1. 一种图像处理方法,其特征在于,包括以下步骤:
    对初始数据集中的图像进行预处理以得到训练数据集;
    利用所述训练数据集对图像分割神经网络进行训练;
    将训练后的图像分割神经网络的最后一层损失函数层去除后得到推理网络;
    将所述训练数据集输入到所述推理网络中以得到多个逻辑向量;
    根据所述多个逻辑向量、所述初始数据集以及所述初始数据集中的每一个图像的掩膜对校验网络进行训练;及
    利用所述推理网络和训练好的校验网络对待处理图像进行推理以得到待处理图像的掩膜。
  2. 如权利要求1所述的方法,其特征在于,对初始数据集中的图像进行预处理以得到训练数据集,进一步包括:
    将初始数据集中的每一个图像进行切分以得到每一个图像对应的多个子图像,并利用切分后的每一个图像的多个子图像构建第一数据集,其中所述第一数据集中的一个元素为所述初始数据集中一个图像的多个子图像;
    将初始数据集中的每一个图像进行缩小以得到缩小后的图像,并利用缩小后的图像构建第二数据集,其中所述缩小后的图像的尺寸与所述子图像的尺寸相同;及
    将所述第一数据集中每一个元素与所述第二数据集中的对应的元素组合得到训练数据集中的每一个元素。
  3. 如权利要求2所述的方法,其特征在于,还包括:
    将初始数据集中的每一个图像的标签切分以得到每一个图像的标签对应的多个子标签,其中每一个子标签均与相应的子图像对应;及
    将初始数据集中的每一个图像的标签进行缩小以得到缩小后的标签。
  4. 如权利要求2所述的方法,其特征在于,将初始数据集中的每一个图像进行切分以得到每一个图像对应的多个子图像,进一步包括:
    获取设置的切分尺度并判断切分尺度是否可整除;及
    响应于不可整除,将切分尺度向上取模并将图像的边缘处进行补齐;或,响应于可整除,利用切分尺度对图像进行均等切分。
  5. 如权利要求1所述的方法,其特征在于,根据所述逻辑向量、所述初始数据集以及所述初始数据集中的每一个图像的掩膜对校验网络进行训练,进一步包括:
    构建多层感知机;
    利用所述逻辑向量、所述初始数据集以及所述初始数据集中的每一个图像的掩膜对所述多层感知机进行训练;及
    响应于所述多层感知机在预设数量的训练迭代后损失值不降低,确定对所述多层感知机训练至收敛。
  6. 如权利要求5所述的方法,其特征在于,还包括:
    利用损失函数
    Figure PCTCN2022083740-appb-100001
    对所述多层感知机进行训练;
    其中,N为分类类别数量,i为其中第i个类别,取值范围1,2,…,N;M为样本总数,c为其中第c个样本,取值范围1,2,…,M;y ic是第c个样本实际为第i个类别的真实概率,其中如果第c个样本实际类别为i,则概率为1,否则为0;P ic是第c个样本被预测为第i个类别的概率。
  7. 如权利要求1所述的方法,其特征在于,利用所述推理网络和训练好的校验网络对待处理图像进行推理以得到待处理图像的掩膜,进一步包括:
    对所述待处理图像进行所述预处理;
    将预处理后的待处理图像输入到所述推理网络中以得到预处理后的待处理图像对应的逻辑向量;及
    将预处理后的待处理图像对应的逻辑向量输入到训练好的校验网络进行推理以得到待处理图像的掩膜。
  8. 一种图像处理系统,其特征在于,包括:
    预处理模块,配置为对初始数据集中的图像进行预处理以得到训练数据集;
    第一训练模块,配置为利用所述训练数据集对图像分割神经网络进行训练;
    分割模块,配置为将训练后的图像分割神经网络的最后一层损失函数层去除后得到推理网络;
    输入模块,配置为将所述训练数据集输入到所述推理网络中以得到多个逻辑向量;
    第二训练模块,配置为根据所述多个逻辑向量、所述初始数据集以及所述初始数据集中的每一个图像的掩膜对校验网络进行训练;
    推理模块,配置为利用所述推理网络和训练好的校验网络对待处理图像进行推理以得到待处理图像的掩膜。
  9. 一种计算机设备,包括:
    至少一个处理器;以及
    存储器,所述存储器存储有可在所述处理器上运行的计算机可读指令,其特征在于,所述处理器执行所述计算机可读指令时执行如权利要求1-7任意一项所述的方法的步骤。
  10. 一个或多个存储有计算机可读指令的非易失性计算机可读存储介质,所述计算机可读指令被一个或多个处理器执行时,使得所述一个或多个处理器执行如权利要求1-7任意一项所述的方法的步骤。
PCT/CN2022/083740 2021-11-19 2022-03-29 一种图像处理方法、系统、设备以及介质 WO2023087597A1 (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US18/564,457 US12118771B2 (en) 2021-11-19 2022-03-29 Method and system for processing image, device and medium

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202111383898.1A CN113822287B (zh) 2021-11-19 2021-11-19 一种图像处理方法、系统、设备以及介质
CN202111383898.1 2021-11-19

Publications (1)

Publication Number Publication Date
WO2023087597A1 true WO2023087597A1 (zh) 2023-05-25

Family

ID=78918034

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2022/083740 WO2023087597A1 (zh) 2021-11-19 2022-03-29 一种图像处理方法、系统、设备以及介质

Country Status (3)

Country Link
US (1) US12118771B2 (zh)
CN (1) CN113822287B (zh)
WO (1) WO2023087597A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117475038A (zh) * 2023-12-28 2024-01-30 浪潮电子信息产业股份有限公司 一种图像生成方法、装置、设备及计算机可读存储介质
CN118178099A (zh) * 2024-05-16 2024-06-14 湖州爱尔眼科医院有限公司 一种玻璃体切割手术系统及其控制方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113822287B (zh) * 2021-11-19 2022-02-22 苏州浪潮智能科技有限公司 一种图像处理方法、系统、设备以及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110660066A (zh) * 2019-09-29 2020-01-07 Oppo广东移动通信有限公司 网络的训练方法、图像处理方法、网络、终端设备及介质
US20200065968A1 (en) * 2018-08-24 2020-02-27 Ordnance Survey Limited Joint Deep Learning for Land Cover and Land Use Classification
CN111259905A (zh) * 2020-01-17 2020-06-09 山西大学 一种基于下采样的特征融合遥感图像语义分割方法
CN112288074A (zh) * 2020-08-07 2021-01-29 京东安联财产保险有限公司 图像识别网络生成方法及装置、存储介质及电子设备
CN113361373A (zh) * 2021-06-02 2021-09-07 武汉理工大学 一种农业场景下的航拍图像实时语义分割方法
CN113822287A (zh) * 2021-11-19 2021-12-21 苏州浪潮智能科技有限公司 一种图像处理方法、系统、设备以及介质

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150262116A1 (en) * 2014-03-16 2015-09-17 International Business Machines Corporation Machine vision technology for shelf inventory management
US20190236738A1 (en) * 2018-02-01 2019-08-01 Fst21 Ltd System and method for detection of identity fraud
JPWO2020080045A1 (ja) * 2018-10-15 2021-09-09 パナソニックIpマネジメント株式会社 物体認識方法、車両制御方法、情報表示方法、および物体認識装置
US20220309653A1 (en) * 2019-04-30 2022-09-29 The Trustees Of Dartmouth College System and method for attention-based classification of high-resolution microscopy images
US11361470B2 (en) * 2019-05-09 2022-06-14 Sri International Semantically-aware image-based visual localization
CN110188817B (zh) * 2019-05-28 2021-02-26 厦门大学 一种基于深度学习的实时高性能街景图像语义分割方法
US20210049473A1 (en) * 2019-08-14 2021-02-18 The Board Of Trustees Of The Leland Stanford Junior University Systems and Methods for Robust Federated Training of Neural Networks
CN111028244B (zh) * 2019-12-04 2022-10-14 电子科技大学 基于超像素的已知样本不均衡情况下的遥感图像语义分割的方法
CN112001401B (zh) * 2020-07-29 2022-12-09 苏州浪潮智能科技有限公司 用于实例分割的模型及训练方法,实例分割网络
CN112001932B (zh) * 2020-09-01 2023-10-31 腾讯科技(深圳)有限公司 人脸识别方法、装置、计算机设备和存储介质
CN112580647A (zh) * 2020-12-11 2021-03-30 湖北工业大学 一种面向堆叠物体的识别方法及系统
US11982725B2 (en) * 2021-04-30 2024-05-14 Regents Of The University Of Minnesota Parallel transmission magnetic resonance imaging with a single transmission channel RF coil using deep learning
US11983627B2 (en) * 2021-05-06 2024-05-14 Black Sesame Technologies Inc. Deep learning based visual simultaneous localization and mapping
US20230041290A1 (en) * 2021-08-06 2023-02-09 Yaim Cooper Training and generalization of a neural network

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200065968A1 (en) * 2018-08-24 2020-02-27 Ordnance Survey Limited Joint Deep Learning for Land Cover and Land Use Classification
CN110660066A (zh) * 2019-09-29 2020-01-07 Oppo广东移动通信有限公司 网络的训练方法、图像处理方法、网络、终端设备及介质
CN111259905A (zh) * 2020-01-17 2020-06-09 山西大学 一种基于下采样的特征融合遥感图像语义分割方法
CN112288074A (zh) * 2020-08-07 2021-01-29 京东安联财产保险有限公司 图像识别网络生成方法及装置、存储介质及电子设备
CN113361373A (zh) * 2021-06-02 2021-09-07 武汉理工大学 一种农业场景下的航拍图像实时语义分割方法
CN113822287A (zh) * 2021-11-19 2021-12-21 苏州浪潮智能科技有限公司 一种图像处理方法、系统、设备以及介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHEN, TIANHUA ET AL.: "Remote Sensing Image Segmentation Based on Improved Deep Lab Network", MEASUREMENT & CONTROL TECHNOLOGY, vol. 37, no. 11, 30 November 2018 (2018-11-30), XP009546394, ISSN: 1000-8829 *
WEN, PEIZHI ET AL.: "Improved Image Automatic Segmentation Method Based on Convolution Neural Network", APPLICATION RESEARCH OF COMPUTERS, vol. 35, no. 9, 30 September 2017 (2017-09-30), XP009545643, ISSN: 1001-3695 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117475038A (zh) * 2023-12-28 2024-01-30 浪潮电子信息产业股份有限公司 一种图像生成方法、装置、设备及计算机可读存储介质
CN117475038B (zh) * 2023-12-28 2024-04-19 浪潮电子信息产业股份有限公司 一种图像生成方法、装置、设备及计算机可读存储介质
CN118178099A (zh) * 2024-05-16 2024-06-14 湖州爱尔眼科医院有限公司 一种玻璃体切割手术系统及其控制方法

Also Published As

Publication number Publication date
CN113822287A (zh) 2021-12-21
US20240249508A1 (en) 2024-07-25
US12118771B2 (en) 2024-10-15
CN113822287B (zh) 2022-02-22

Similar Documents

Publication Publication Date Title
WO2023087597A1 (zh) 一种图像处理方法、系统、设备以及介质
CN110232394B (zh) 一种多尺度图像语义分割方法
WO2020056791A1 (zh) 一种多尺度空洞卷积神经网络超分辨率重构方法及装置
US11922671B2 (en) Apparatus and method for processing image data
US20220215227A1 (en) Neural Architecture Search Method, Image Processing Method And Apparatus, And Storage Medium
WO2019183202A1 (en) Accelerated quantized multiply-and-add operations
Zeng et al. Single image super-resolution using a polymorphic parallel CNN
CN109784183B (zh) 基于级联卷积网络和光流的视频显著性目标检测方法
US11030750B2 (en) Multi-level convolutional LSTM model for the segmentation of MR images
CN112396645A (zh) 一种基于卷积残差学习的单目图像深度估计方法和系统
CN109389667B (zh) 一种基于深度学习的高效全局光照明绘制方法
CN113505792A (zh) 面向非均衡遥感图像的多尺度语义分割方法及模型
US20230019972A1 (en) Systems and methods of contrastive point completion with fine-to-coarse refinement
CN113052834A (zh) 一种基于卷积神经网络多尺度特征的管道缺陷检测方法
CN113841162A (zh) 深度神经网络中的深度优先卷积
CN114581434A (zh) 基于深度学习分割模型的病理图像处理方法、电子设备
CN114359631A (zh) 基于编码-译码弱监督网络模型的目标分类与定位方法
CN116863194A (zh) 一种足溃疡图像分类方法、系统、设备及介质
CN110633706B (zh) 一种基于金字塔网络的语义分割方法
CN112837320A (zh) 一种基于并行空洞卷积的遥感影像语义分割方法
CN113066018A (zh) 一种图像增强方法及相关装置
WO2024199249A1 (zh) 基于终身学习的遥感影像解译方法
CN116258990A (zh) 一种基于跨模态亲和力的小样本参考视频目标分割方法
CN118172318A (zh) 基于改进的YOLOv5模型的电子元件缺陷检测方法
WO2024160275A1 (zh) 语义分割模型训练方法、语义分割方法和装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22894143

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 18564457

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE