WO2021238826A1 - 一种实例分割模型的训练方法、装置、实例分割方法 - Google Patents

一种实例分割模型的训练方法、装置、实例分割方法 Download PDF

Info

Publication number
WO2021238826A1
WO2021238826A1 PCT/CN2021/095363 CN2021095363W WO2021238826A1 WO 2021238826 A1 WO2021238826 A1 WO 2021238826A1 CN 2021095363 W CN2021095363 W CN 2021095363W WO 2021238826 A1 WO2021238826 A1 WO 2021238826A1
Authority
WO
WIPO (PCT)
Prior art keywords
instance segmentation
model
training
training set
detection frame
Prior art date
Application number
PCT/CN2021/095363
Other languages
English (en)
French (fr)
Inventor
荆伟
卢运西
徐兆坤
黄银君
Original Assignee
苏宁易购集团股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 苏宁易购集团股份有限公司 filed Critical 苏宁易购集团股份有限公司
Publication of WO2021238826A1 publication Critical patent/WO2021238826A1/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image

Definitions

  • the present invention belongs to the field of target detection, and particularly relates to a training method, device, and instance segmentation method of an instance segmentation model.
  • the present invention proposes a training method, device, and instance segmentation method for an instance segmentation model.
  • This application prunes the network structure of the existing instance segmentation model to make the entire model more lightweight.
  • the training speed of the model and the prediction speed of the model are improved.
  • a depth map is added, the number of channels is expanded, and the training accuracy and prediction accuracy of the model are improved.
  • the first aspect discloses a method for training an instance segmentation model, and the method includes:
  • the training set being a collection of RGBD images with target objects in a scene collected by different depth cameras, the RGBD images including a depth map and a color map;
  • the method further includes: preprocessing the training set before labeling, which specifically includes:
  • the color map in the training set is normalized.
  • labeling the training set specifically includes:
  • using the labeled training set to train the pruned deep learning model to obtain the instance segmentation model specifically includes:
  • the total loss value is judged, and when the total loss value is less than the second preset value, the training of the deep learning model is stopped and the corresponding deep learning when the total loss value is less than the second preset value
  • the model is determined to be the instance segmentation model.
  • performing regression processing on the characteristic region specifically includes:
  • the method also includes:
  • each generated detection frame is subjected to maximum pooling processing and the detection frame after the maximum pooling processing that meets the first preset condition is stored.
  • using the labeled training set to train the pruned deep learning model specifically includes:
  • pruning the pre-built deep learning model specifically includes:
  • the network layer corresponding to the impact factor is pruned.
  • an instance segmentation method is disclosed, and the method includes:
  • the pre-trained instance segmentation model is obtained by training based on the method described in the first aspect.
  • the method before inputting the image to be detected into a pre-trained instance segmentation model for recognition, the method further includes:
  • Said inputting the picture to be detected into a pre-trained instance segmentation model for recognition, and outputting the detection frame and instance segmentation result of the picture to be detected specifically includes:
  • the method also includes:
  • a training device for an instance segmentation model includes:
  • the pruning module is used to prun the pre-built deep learning model
  • An acquisition module for acquiring a training set is a collection of RGBD images with target objects in a scene collected by different depth cameras, the RGBD images including a depth map and a color map;
  • the training module is used to train the pruned deep learning model using the labeled training set to obtain an instance segmentation model.
  • the present invention makes the network structure lighter by pruning the deep learning model, and the training of the model and the prediction using the model are fast. At the same time, the depth map is added when training the deep learning network, thus expanding the number of channels , To improve the training accuracy, thereby also improving the prediction accuracy;
  • the present invention performs truncation processing and normalization on the depth map in the training data, and normalizes the color map in the training data, which improves the accuracy of the training data, thereby Improve the training accuracy of the model;
  • the present invention uses a special labeling strategy to label the training data, and eliminates data with low integrity, which improves the effectiveness of training data labeling and also improves the training accuracy of the model;
  • the instance segmentation model of the present invention uses the anchor free method to predict the center point of the target object, and then regresses to obtain the width and height, thereby obtaining the detection frame, and performing the maximum pooling process on the detection frame to achieve deduplication, which improves the density of personnel Robustness of the detection under the situation, effectively avoiding the loss of the detection frame under the crowded situation;
  • the present invention realizes parallel processing by splicing the input data and splitting the output result at the same time, which improves the execution efficiency, improves the efficient use of computing resources, and is more in line with video surveillance related Application scenarios.
  • FIG. 1 is a flowchart of a method for training an instance segmentation model provided in Embodiment 1 of the present application;
  • FIG. 2 is a structural diagram of an instance segmentation model provided by Embodiment 1 of the present application.
  • FIG. 3 is a flowchart of an example segmentation method provided in Embodiment 2 of the present application.
  • FIG. 4 is a schematic structural diagram of a training device for an example segmentation model provided in Embodiment 3 of the present application.
  • a training method of an instance segmentation model includes the following steps:
  • This application constructs a basic network structure based on the YOLACT model and constructs a deep learning model.
  • the deep learning model includes: convolutional layer, activation layer, pooling layer, fully connected layer, etc.
  • the specific structure of the model is shown in Figure 2, including the resent18 network, the FPN network, and the two network branches connected to the FPN network (protonet and Pred_heads), crop network, etc.
  • the resent18 network is used to extract features
  • the FPN network is used to fuse the features
  • the protonet network branch is used to segment the feature map to obtain the segmentation results including the foreground and background
  • Pred_heads is used to predict the feature map to get about The detection frame, category, confidence of the target object, and the instance segmentation score associated with the prediction result of the protonet network branch.
  • the network layer is pruned through a coarse-grained method, and the specific steps are as follows:
  • the impact factor is the scaling factor obtained after the normalization calculation of the network layer to be pruned;
  • the aforementioned network layer to be pruned is a convolutional layer.
  • the network layer corresponding to the impact factor is pruned.
  • the normalization layer performs normalization calculations on each convolutional layer.
  • the calculation formula of the normalization layer includes a parameter ⁇ , which is a scaling factor.
  • is less than a preset value, the corresponding channel is not important, so the network layer can be pruned.
  • a regular term about ⁇ can be added to the calculation formula, so that automatic pruning can be realized during the training process of the model.
  • the training set is a collection of RGBD images with target objects in a scene collected by different depth cameras.
  • the RGBD images include a depth map and a color map;
  • the purpose of labeling is to preprocess the RGBD image, so that the target object detection frame and label can be obtained.
  • the above-mentioned preset value may be 1/2. Therefore, when the integrity of the target object is greater than 1/2, the target object in the RGBD image with the target object is labeled and the corresponding label is generated.
  • the effectiveness of training data can be improved, and thus the accuracy of subsequent model training and prediction can also be improved.
  • the training set can be further processed, including:
  • a three-dimensional model including the target object and a three-dimensional model not including any target object are constructed.
  • the cutoff distance corresponding to each depth camera determines the cutoff distance corresponding to each depth camera, and the cutoff distance is the active distance from the target object to the depth camera;
  • the cutoff distance can be a dynamic range.
  • Using the cutoff distance to cut off the depth map can filter some noise in the depth map.
  • the accuracy of the training data is improved, thereby improving the training accuracy of the model.
  • Step S14 specifically includes:
  • S141 Perform feature extraction on the annotated training set, and fuse the extracted features to obtain a feature region;
  • the annotated training set is input into the resent18 network.
  • the resent18 network includes several convolutional layers for extracting features of the training set to obtain features of multiple dimensions. After the feature extraction is completed, the features of multiple dimensions are input to the FPN network to obtain the feature area.
  • the FPN network is a feature pyramid network, which can fuse two types of features, solve multi-scale problems, and improve target detection performance.
  • the protonet network branch is used to segment the characteristic area to obtain the segmentation result including the foreground and background.
  • Pred_heads is used To predict the feature area, get the detection frame, category, confidence of the target object and the instance score associated with the segmentation result.
  • S145 Calculate a total loss value according to the error between the truncated instance segmentation result and the corresponding label, and the error between the detection frame and the corresponding target object detection frame;
  • the total loss value is the sum of the error between the truncated instance segmentation result and the corresponding label, and the error between the detection frame and the corresponding target object detection frame.
  • the total loss value is less than a preset value, it indicates that the entire model has converged, and training can be stopped at this time.
  • the gradient descent algorithm is used to optimize the training of the deep learning model.
  • the corresponding learning rate can be set for the loss value of different stages.
  • the deep learning model is trained according to the learning rate corresponding to the current loss value.
  • the model After the model is trained, the model can be verified to ensure the prediction accuracy of the model. Specifically, the following implementation steps can be included:
  • the verification set is a collection of RGBD images with target objects collected by different depth cameras.
  • the RGBD images include depth maps and color maps;
  • the output result can be output in fixed rounds, for example, when the model is iterated every 5 times, the result will be output once, so as to ensure the reasonableness and efficiency of the model verification process.
  • an embodiment of the present invention also provides an instance segmentation method. As shown in FIG. 3, the method includes:
  • the recognition process of the picture to be detected can refer to the training process of the model in Embodiment 1 for details.
  • the confidence level needs to be compared with the preset value. Refer to Figure 2 for details. After the Crop module compares the confidence level with the preset value, the output is higher than the preset value. The detection frame corresponding to the confidence level of the value and the corresponding instance segmentation result.
  • the pre-trained instance segmentation model is obtained by training based on the method described in Embodiment 1.
  • this solution also includes:
  • S43 Input the spliced image to be detected into the instance segmentation model for recognition, and output the detection frame and instance segmentation result of all the images to be detected;
  • the pictures to be detected are spliced before prediction, and the prediction result is split after prediction
  • many pictures can be predicted at the same time, which greatly improves the parallelization ability of model prediction and improves the efficiency of computing resources. Utilization, more in line with the application scenarios related to video surveillance.
  • the embodiment of the present invention also provides a training device for an instance segmentation model. As shown in FIG. 4, the device includes:
  • the pruning module 41 is used for pruning the pre-built deep learning model
  • the acquiring module 42 is used to acquire a training set;
  • the training set is a collection of RGBD images with target objects in a scene collected by different depth cameras, and the RGBD images include a depth map and a color map;
  • the preprocessing module 43 is used to label the training set
  • the training module 44 is used to train the pruned deep learning model using the labeled training set to obtain an instance segmentation model.
  • the preprocessing module 43 is also used to preprocess the training set before labeling, which specifically includes:
  • the cutoff distance corresponding to each depth camera determines the cutoff distance corresponding to each depth camera, and the cutoff distance is the active distance from the target object to the depth camera;
  • the depth map in the training set is truncated, and the truncated depth map is normalized;
  • preprocessing module 43 is specifically used for:
  • training module 44 specifically includes:
  • the feature extraction and fusion module 441 is used to perform feature extraction on the labeled training set, and fuse the extracted features to obtain a feature region;
  • the prediction module 442 is used to perform segmentation processing on the feature area to obtain the segmentation result of the feature area, and perform regression and classification processing on the feature area at the same time, to obtain the detection frame of the feature area, the classification result corresponding to the detection frame, and the correlation with the segmentation result The instance score of the association;
  • the processing module 443 is configured to multiply the segmentation result and the corresponding instance score to obtain the instance segmentation result;
  • the processing module 443 is further configured to use the corresponding target object detection frame to perform truncation processing on the instance segmentation result;
  • the calculation module 444 is used to calculate the error between the instance segmentation result after the truncation process and the corresponding label, and at the same time calculate the error between the detection frame and the corresponding target object detection frame;
  • the calculation module 444 is further configured to calculate the total loss value according to the error between the truncated instance segmentation result and the corresponding label, and the error between the detection frame and the corresponding target object detection frame;
  • the judgment module 445 is used to judge the total loss value. When the total loss value is less than the second preset value, stop training the deep learning model and determine the corresponding deep learning model when the total loss value is less than the second preset value Split the model for the instance.
  • the aforementioned prediction module 442 is specifically configured to:
  • the above prediction module 442 is also used to:
  • each generated detection frame is subjected to maximum pooling processing and the detection frame after the maximum pooling processing that meets the first preset condition is stored.
  • the above-mentioned training module 44 is also used to train the deep learning model according to the learning rate corresponding to the current total loss value.
  • pruning module 41 is specifically used for:
  • the influence factor corresponding to the network layer to be pruned in the deep learning model is the scaling factor obtained after the normalization calculation of the network layer to be pruned;
  • the network layer corresponding to the impact factor is pruned.
  • the training device of the instance segmentation model provided in this embodiment only the division of the above functional modules is used as an example. In practical applications, the above function allocation can be completed by different functional modules as needed, i.e. The internal structure of the device is divided into different functional modules to complete all or part of the functions described above.
  • the training device of the instance segmentation model of this embodiment belongs to the same concept as the training method embodiment of the instance segmentation model in the above-mentioned embodiment 1. For its specific implementation process and beneficial effects, please refer to the text recognition model training method embodiment. Repeat it again.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本申请实施例公开一种实例分割模型的训练方法、装置、实例分割方法,方法包括:对预先构建的深度学习模型进行剪枝;获取训练集并进行标注,训练集为不同的深度相机采集的一场景下的带有目标对象的RGBD图像的集合,RGBD图像包括深度图和彩色图;利用标注后的训练集对剪枝后的深度学习模型进行训练以得到实例分割模型。本申请对现有的实例分割模型的网络结构进行了剪枝,使得整个模型更轻量化,提高了模型的训练速度及模型的预测速度,同时为了防止由于网络层的减少导致的模型预测精度下降,加入了深度图,扩充了通道数,提高了模型的训练精度和预测精度。

Description

一种实例分割模型的训练方法、装置、实例分割方法 技术领域
本发明属于目标检测领域,尤其涉及一种实例分割模型的训练方法、装置、实例分割方法。
背景技术
随着科技水平的不断提高,人工智能领域的技术不断成熟和应用落地,极大改善了人们生活的质量。如今,很多场景下都有大量的图像视频采集系统,将现有人工智能领域先进技术运行到图像视频系统中,可以大大提高系统对图像视频内容的理解能力,为线下无人商店、安防系统、公共场所等场景,提供智能监控技术能力。。
技术问题
现有的实例分割模型,在提取图像特征时由于网络层数多,因此当数据量大时整个训练过程较为缓慢,并且现有的实例分割模型一般采用彩色图来进行训练,而在线下无人商店、安防系统、公共场所等场景下,仅仅使用彩色图训练得到的实例分割模型的预测精度往往不高。因此迫切需要一种高效、快速深度学习分割算法提供相关技术能力。
技术解决方案
为了解决现有技术的问题,本发明提出一种实例分割模型的训练方法、装置、实例分割方法,本申请对现有的实例分割模型的网络结构进行了剪枝,使得整个模型更轻量化,提高了模型的训练速度及模型的预测速度,同时为了防止由于网络层的减少导致的模型预测精度下降,加入了深度图,扩充了通道数,提高了模型的训练精度和预测精度。
本发明实施例提供的具体技术方案如下:
第一方面公开了一种实例分割模型的训练方法,所述方法包括:
对预先构建的深度学习模型进行剪枝;
获取训练集并进行标注,所述训练集为不同的深度相机采集的一场景下的带有目标对象的RGBD图像的集合,所述RGBD图像包括深度图和彩色图;
利用标注后的训练集对剪枝后的深度学习模型进行训练以得到实例分割模型。
优选的,所述方法还包括:在标注前对所述训练集进行预处理,具体包括:
根据获取到的所述训练集中的深度图进行三维重建,得到第一建模结果,同时根据获取到的不同的深度相机采集的与所述训练集相对应场景下的不带有任一目标对象的RGBD图像中的深度图进行三维重建,得到第二建模结果;
根据所述第二建模结果,对所述第一建模结果进行去背景处理,得到包含目标对象的前景图像;
根据所述包含目标对象的前景图像,确定与每一深度相机相对应的截断距离,所述截断距离为目标对象至深度相机的活动距离;
通过与每一深度相机相对应的截断距离,对每所述训练集中的深度图进行截断处理,并对截断处理后的深度图进行归一化处理;
对所述训练集中的彩色图进行归一化处理。
优选的,对所述训练集进行标注具体包括:
计算所述带有目标对象的RGBD图像中每一目标对象的完整度;
当所有目标对象的完整度大于第一预设值时,对所述带有目标对象的RGBD图像中的目标对象进行标注,得到目标对象检测框,并生成对应的标签。
优选的,利用标注后的训练集对剪枝后的深度学习模型进行训练以得到实例分割模型具体包括:
对标注后的训练集进行特征提取,并将提取后得到的特征进行融合,得到特征区域;
对所述特征区域进行分割处理,得到关于所述特征区域分割结果,同时对所述特征区域进行回归及分类处理,得到关于所述特征区域的检测框、与所述检测框对应的分类结果以及与所述分割结果相关联的实例得分;
将所述分割结果以及对应的实例得分相乘,得到实例分割结果;
利用对应的所述目标对象检测框对所述实例分割结果进行截断处理,计算截断处理后的实例分割结果与对应的所述标签之间的误差,同时计算所述检测框与对应的所述目标对象检测框之间的误差;
根据所述截断处理后的实例分割结果与对应的所述标签之间的误差、所述检测框与对应的所述目标对象检测框之间的误差,计算总损失值;
对所述总损失值进行判断,当所述总损失值小于第二预设值时,停止对所述深度学习模型的训练并将所述总损失值小于第二预设值时对应的深度学习模型确定为所述实例分割模型。
优选的,对所述特征区域进行回归处理具体包括:
预测所述特征区域的中心点,根据所述中心点计算所述特征区域的宽度和高度以生成所述检测框;
所述方法还包括:
当生成的检测框的数量大于一个时,将生成的每一个检测框进行最大池化处理并保存满足第一预设条件的最大池化处理后的检测框。
优选的,利用标注后的训练集对剪枝后的深度学习模型进行训练具体还包括:
按照当前的总损失值所对应的学习率对所述深度学习模型进行训练。
优选的,对预先构建的深度学习模型进行剪枝具体包括:
获取所述深度学习模型中待剪枝的网络层对应的影响因子,所述影响因子为对待剪枝的网络层进行归一化计算后得到的缩放因子;
当影响因子小于第三预设值时,将所述影响因子对应的网络层进行剪枝。
第二方面,公开了一种实例分割方法,所述方法包括:
获取待检测的图片;
将所述待检测的图片输入至预先训练好的实例分割模型进行识别,并输出待检测的图片的检测框和实例分割结果;
其中,所述预先训练好的实例分割模型基于如第一方面所述的方法训练得到。
优选的,将所述待检测的图片输入至预先训练好的实例分割模型进行识别之前,所述方法还包括:
获取所述待检测的图片的数量;
当所述待检测的图片的数量大于一张时,对所述待检测的图片进行拼接处理;
所述将所述待检测的图片输入至预先训练好的实例分割模型进行识别,并输出待检测的图片的检测框和实例分割结果具体包括:
将拼接处理后的待检测的图片输入至所述实例分割模型进行识别,并输出所有待检测的图片的检测框和实例分割结果;
所述方法还包括:
对所述所有待检测的图片的检测框和实例分割结果进行拆分处理,得到与每一张待检测的图片相对应的检测框和实例分割结果。
第三方面,公开了一种实例分割模型的训练装置,所述装置包括:
剪枝模块,用于对预先构建的深度学习模型进行剪枝;
获取模块,用于获取训练集;所述训练集为不同的深度相机采集的一场景下的带有目标对象的RGBD图像的集合,所述RGBD图像包括深度图和彩色图;
预处理模块,用于对所述训练集进行标注;
训练模块,用于利用标注后的训练集对剪枝后的深度学习模型进行训练以得到实例分割模型。
有益效果
本发明实施例具有如下有益效果:
1、本发明通过对深度学习模型进行剪枝使得网络结构更轻量化,对模型进行训练以及利用模型进行预测时速度快,同时,在训练深度学习网络时加入了深度图,因而扩充了通道数,提高了训练精度,从而也提高了预测精度;
2、本发明在对深度学习模型训练时,对训练数据中的深度图进行截断处理和归一化,对训练数据中的彩色图进行了归一化处理,提高了训练数据的准确性,从而提高了模型的训练精度;
3、本发明利用了特殊的标注策略对训练数据进行标注,对完整性度不高的数据进行剔除,提高了训练数据标注的有效性,同样也提高了模型的训练精度;
4、本发明的实例分割模型,利用anchor free方法来预测目标对象的中心点、然后回归得到宽度和高度,从而得到检测框,并且对检测框进行最大池化处理实现去重,提高了人员密集情况下检测的鲁棒性,有效避免了人员密集情况下检测框的丢失;
5、本发明在利用模型进行预测时,通过对输入数据进行拼接处理,同时对输出结果进行拆分处理实现了并行处理,提高了执行效率,提高了计算资源的高效利用,更加符合视频监控相关的应用场景。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例1提供的一种实例分割模型的训练方法的流程图;
图2是本申请实施例1提供的实例分割模型的结构图;
图3是本申请实施例2提供的一种实例分割方法的流程图;
图4是本申请实施例3提供的一种实例分割模型的训练装置的结构示意图。
本发明的实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如背景技术所述,现有的实力分割网络算法复杂的高、算法实时性难以保证,因此,为了更好的区分视频、图像中不同个体,获取人体更丰富的肢体信息,需要一种更高效、快速的分割算法,从而可以对线下无人商店、安防系统、公共场所等场景下实现更好的目标对象的识别。基于此,本申请提出了一种实例分割模型的训练方法,可以得到一个更加轻量化,在训练和预测时速度更快、精度更高的模型。
实施例1
如图1所示,一种实例分割模型的训练方法包括如下步骤:
S11、构建一深度学习模型;
本申请构建基于YOLACT模型的基本网络结构,构建了一深度学习模型。深度学习模型包括:卷积层、激活层、池化层、全连接层等,模型具体结构如图2所示,包括resent18网络、FPN网络、与FPN网络连接的两个网络支路(protonet和Pred_heads)、crop网络等。其中,resent18网络用于提取特征,FPN网络用于对特征进行融合,protonet网络支路用于对特性图进行分割,得到包括前景和背景的分割结果,Pred_heads用于对特征图进行预测,得到关于目标对象的检测框、类别、置信度以及与protonet网络支路的预测结果相关联的实例分割得分。
S12、对深度学习模型进行剪枝;
为了使得网络变更轻量化,在训练网络及利用网络进行预测时速度快,选择对网络层进行剪枝。
本申请中,通过粗粒度方法来对网络层进行剪枝,具体步骤如下:
1、获取深度学习模型中待剪枝的网络层对应的影响因子,影响因子为对待剪枝的网络层进行归一化计算后得到的缩放因子;
其中,上述待剪枝的网络层为卷积层。
2、当影响因子小于一预设值时,将影响因子对应的网络层进行剪枝。
具体的,在每一个卷积层(即,resent18网络的每一层)之后增加一个batch normalization层,对每一个卷积层进行归一化计算。其中batch normalization层的计算公式中包括一参数γ,γ为缩放因子,当γ小于一预设值时,其对应的通道就不太重要,因此可以对该网络层进行剪枝。此外,还可以在计算公式中增加一个关于γ的正则项,如此可以实现在对模型的训练过程中自动剪枝。
S13、获取训练集并进行标注,训练集为不同的深度相机采集的一场景下的带有目标对象的RGBD图像的集合,RGBD图像包括深度图和彩色图;
标注的目的在于对RGBD图像进行预处理,从而可以得到目标对象检测框和标签。
上述对训练集的标注过程具体包括:
S131、计算带有目标对象的RGBD图像中每一目标对象的完整度;
S132、当所有目标对象的完整度大于一预设值时,对带有目标对象的RGBD图像中的目标对象进行标注,得到目标对象检测框,并生成对应的标签。
如,上述预设值可为1/2,因此当目标对象的完整度大于1/2时,则对带有目标对象的RGBD图像中的目标对象进行标注并生成对应的标签。通过上述特殊的标注策略,能提高训练数据的有效性,从而也能提高后续模型训练和预测的精度。
为了进一步提高模型训练及预测的精度,还可对训练集进行进一步处理,具体包括:
1、根据获取到训练集中的深度图进行三维重建,得到第一建模结果,同时根据获取到的不同的深度相机采集的与训练集相对应场景下的不带有任一目标对象的RGBD图像中的深度图进行三维重建,得到第二建模结果 ;
具体的,通过对不同的深度相机采集到的深度图进行联合标定,从而构建包括目标对象的三维模型和不包括任一目标对象的三维模型。
2、根据第二建模结果,对第一建模结果进行去背景处理,得到包含目标对象的前景图像;
3、根据包含目标对象的前景图像,确定与每一深度相机相对应的截断距离,截断距离为目标对象至深度相机的活动距离;
由于每一深度相机下目标对象的活动范围不固定,因此截断距离可为一动态的范围。
4、通过与每一深度相机相对应的截断距离,对每训练集中的深度图进行截断处理,并对截断处理后的深度图进行归一化处理;
利用截断距离对深度图进行截断处理,可以对深度图中的一些噪声进行过滤。
5、对训练集中的彩色图进行归一化处理。
通过上述处理过程,提高了训练数据的准确性,从而提高了模型的训练精度。
S14、利用标注后的训练集对剪枝后的深度学习模型进行训练以得到实例分割模型。
步骤S14具体包括:
S141、对标注后的训练集进行特征提取,并将提取后得到的特征进行融合,得到特征区域;
具体的,将标注后的训练集输入至resent18网络中,resent18网络包括若干卷积层,用于提取训练集的特征,得到多个维度的特征。当特征提取完成后,将多个维度的特征输入至FPN网络,得到特征区域。
经过resent18网络输出的特征有两种,一种为低层特征、另一种为高层特征,低层特征的语义信息比较少,但是目标位置准确,高层特征的语义信息丰富,但是目标位置比较粗略。FPN网络为特征金字塔网络,可以使得两种类型的特征进行融合,解决多尺度问题,提高了目标检测性能。
S142、对特征区域进行分割处理,得到关于特征区域分割结果,同时对特征区域进行回归及分类处理,得到关于特征区域的检测框、与检测框对应的分类结果和置信度以及与分割结果相关联的实例得分;
连接FPN网络的有两个支路,将特征区域分别输入至两个网络支路(protonet和Pred_heads),protonet网络支路用于对特性区域进行分割,得到包括前景和背景的分割结果,Pred_heads用于对特征区域进行预测,得到关于目标对象的检测框、类别、置信度以及与分割结果相关联的实例得分。
S143、将分割结果以及对应的实例得分相乘,得到实例分割结果;
S144、利用对应的目标对象检测框对实例分割结果进行截断处理,计算截断处理后的实例分割结果与对应的标签之间的误差,同时计算检测框与对应的目标对象检测框之间的误差;
S145、根据截断处理后的实例分割结果与对应的标签之间的误差、检测框与对应的目标对象检测框之间的误差,计算总损失值;
本方案中,总损失值为截断处理后的实例分割结果与对应的标签之间的误差、检测框与对应的目标对象检测框之间的误差两者之和。
S146、对总损失值进行判断,当总损失值小于第二预设值时,停止对深度学习模型的训练并将总损失值小于第二预设值时对应的深度学习模型确定为实例分割模型。
当总损失值小于一预设值时,表明整个模型收敛,此时则可以停止训练。
此外,在对模型训练过程中,使用梯度下降算法对深度学习模型进行优化训练,为了提高模型的收敛速度,可以对不同阶段的损失值设置相对应的学习率,具体实现步骤如下:
按照当前的损失值所对应的学习率对深度学习模型进行训练。
当模型训练完毕之后,可以对模型进行验证,保证模型的预测精度,具体的,可以包括如下实现步骤:
1、获取验证集并进行标注,验证集为不同的深度相机采集的带有目标对象的RGBD图像的集合,RGBD图像包括深度图和彩色图;
2、将标注后的验证集输入至实例分割模型中,得到输出结果;
其中,输出结果可以定轮输出,如,当模型每迭代5次就输出一次结果,从而可以保证模型验证过程的合理和高效性。
3、将输出结果与真实结果进行对比以对实例分割模型进行验证。
实施例2
基于上述实施例1训练得到的实例分割模型,本发明实施例还提供一种实例分割方法,如图3所示,方法包括:
S31、获取待检测的图片;
S32、将待检测的图片输入至预先训练好的实例分割模型进行识别,并输出待检测的图片的检测框和实例分割结果。
其中,对待检测的图片的识别过程具体可以参考实施例1中模型的训练过程。在输出待检测的图片的检测框和实例分割结果之前,需要将置信度与预设值进行比较,具体参考图2,Crop模块在对置信度与预设值进行比较后,输出高于预设值时的置信度所对应的检测框以及相应的实例分割结果。
其中,预先训练好的实例分割模型基于实施例1所述的方法训练得到。
为了提高对不同图片预测速度,本方案还包括:
S41、将待检测的图片输入至预先训练好的实例分割模型进行识别之前, 获取待检测的图片的数量;
S42、当待检测的图片的数量大于一张时,对待检测的图片进行拼接处理;
S43、将拼接处理后的待检测图片输入至实例分割模型进行识别,并输出所有待检测的图片的检测框和实例分割结果;
S44、对所有待检测的图片的检测框和实例分割结果进行拆分处理,得到与每一张待检测的图片相对应的检测框和实例分割结果。
基于上述处理过程(在预测前对待检测的图片进行拼接处理,在预测后对预测结果进行拆分处理)可以同时对很多张图片进行预测,大大提高模型预测并行化能力,提高了计算资源的高效利用,更加符合视频监控相关的应用场景。
实施例3
基于上述实施例1,本发明实施例还提供一种实例分割模型的训练装置,如图4所示,装置包括:
剪枝模块41,用于对预先构建的深度学习模型进行剪枝;
获取模块42,用于获取训练集;训练集为不同的深度相机采集的一场景下的带有目标对象的RGBD图像的集合,RGBD图像包括深度图和彩色图;
预处理模块43,用于对训练集进行标注;
训练模块44,用于利用标注后的训练集对剪枝后的深度学习模型进行训练以得到实例分割模型。
进一步地,预处理模块43还用于在标注前对训练集进行预处理,具体包括:
根据获取到的训练集中的深度图进行三维重建,得到第一建模结果,同时根据获取到的不同的深度相机采集的与训练集相对应场景下的不带有任一目标对象的RGBD图像中的深度图进行三维重建,得到第二建模结果 ;
根据第二建模结果 ,对第一建模结果进行去背景处理,得到包含目标对象的前景图像;
根据包含目标对象的前景图像,确定与每一深度相机相对应的截断距离,截断距离为目标对象至深度相机的活动距离;
通过与每一深度相机相对应的截断距离,对训练集中的深度图进行截断处理,并对截断处理后的深度图进行归一化处理;
对训练集中的彩色图进行归一化处理。
进一步地,预处理模块43具体用于:
计算带有目标对象的RGBD图像中每一目标对象的完整度;
当所有目标对象的完整度大于第一预设值时,对带有目标对象的RGBD图像中的目标对象进行标注,得到目标对象检测框,并生成对应的标签。
进一步地,训练模块44具体包括:
特征提取及融合模块441,用于对标注后的训练集进行特征提取,并将提取后得到的特征进行融合,得到特征区域;
预测模块442,用于对特征区域进行分割处理,得到关于特征区域分割结果,同时对特征区域进行回归及分类处理,得到关于特征区域的检测框、与检测框对应的分类结果以及与分割结果相关联的实例得分;
处理模块443,用于将分割结果以及对应的实例得分相乘,得到实例分割结果;
处理模块443还用于利用对应的目标对象检测框对实例分割结果进行截断处理;
计算模块444,用于计算截断处理后的实例分割结果与对应的标签之间的误差,同时计算检测框与对应的目标对象检测框之间的误差;
计算模块444还用于根据截断处理后的实例分割结果与对应的标签之间的误差、检测框与对应的目标对象检测框之间的误差,计算总损失值;
判断模块445,用于对总损失值进行判断,当总损失值小于第二预设值时,停止对深度学习模型的训练并将总损失值小于第二预设值时对应的深度学习模型确定为实例分割模型。
进一步地,上述预测模块442具体用于:
预测特征区域的中心点,根据中心点计算特征区域的宽度和高度以生成检测框;
上述预测模块442还用于:
当生成的检测框的数量大于一个时,将生成的每一个检测框进行最大池化处理并保存满足第一预设条件的最大池化处理后的检测框。
进一步地,上述训练模块44还用于:按照当前的总损失值所对应的学习率对深度学习模型进行训练。
进一步地,上述剪枝模块41具体用于:
获取深度学习模型中待剪枝的网络层对应的影响因子,影响因子为对待剪枝的网络层进行归一化计算后得到的缩放因子;
当影响因子小于第三预设值时,将影响因子对应的网络层进行剪枝。
需要说明的是:本实施例提供的实例分割模型的训练装置中,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,本实施例的实例分割模型的训练装置与上述实施例1中的实例分割模型的训练方法实施例属于同一构思,其具体实现过程和有益效果详见文本识别模型训练方法实施例,这里不再赘述。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

  1. 一种实例分割模型的训练方法,其特征在于,所述方法包括:
    对预先构建的深度学习模型进行剪枝;
    获取训练集并进行标注,所述训练集为不同的深度相机采集的一场景下的带有目标对象的RGBD图像的集合,所述RGBD图像包括深度图和彩色图;
    利用标注后的训练集对剪枝后的深度学习模型进行训练以得到实例分割模型。
  2. 根据权利要求1所述的方法,其特征在于,所述方法还包括:在标注前对所述训练集进行预处理,具体包括:
    根据获取到的所述训练集中的深度图进行三维重建,得到第一建模结果,同时根据获取到的不同的深度相机采集的与所述训练集相对应场景下的不带有任一目标对象的RGBD图像中的深度图进行三维重建,得到第二建模结果;
    根据所述第二建模结果,对所述第一建模结果进行去背景处理,得到包含目标对象的前景图像;
    根据所述包含目标对象的前景图像,确定与每一深度相机相对应的截断距离,所述截断距离为目标对象至深度相机的活动距离;
    通过与每一深度相机相对应的截断距离,对所述训练集中的深度图进行截断处理,并对截断处理后的深度图进行归一化处理;
    对所述训练集中的彩色图进行归一化处理。
  3. 根据权利要求1所述的方法,其特征在于,对所述训练集进行标注具体包括:
    计算所述带有目标对象的RGBD图像中每一目标对象的完整度;
    当所有目标对象的完整度大于第一预设值时,对所述带有目标对象的RGBD图像中的目标对象进行标注,得到目标对象检测框,并生成对应的标签。
  4. 根据权利要求3所述的方法,其特征在于,利用标注后的训练集对剪枝后的深度学习模型进行训练以得到实例分割模型具体包括:
    对标注后的训练集进行特征提取,并将提取后得到的特征进行融合,得到特征区域;
    对所述特征区域进行分割处理,得到关于所述特征区域分割结果,同时对所述特征区域进行回归及分类处理,得到关于所述特征区域的检测框、与所述检测框对应的分类结果以及与所述分割结果相关联的实例得分;
    将所述分割结果以及对应的实例得分相乘,得到实例分割结果;
    利用对应的所述目标对象检测框对所述实例分割结果进行截断处理,计算截断处理后的实例分割结果与对应的所述标签之间的误差,同时计算所述检测框与对应的所述目标对象检测框之间的误差;
    根据所述截断处理后的实例分割结果与对应的所述标签之间的误差、所述检测框与对应的所述目标对象检测框之间的误差,计算总损失值;
    对所述总损失值进行判断,当所述总损失值小于第二预设值时,停止对所述深度学习模型的训练并将所述总损失值小于第二预设值时对应的深度学习模型确定为所述实例分割模型。
  5. 根据权利要求4所述的方法,其特征在于,对所述特征区域进行回归处理具体包括:
    预测所述特征区域的中心点,根据所述中心点计算所述特征区域的宽度和高度以生成所述检测框;
    所述方法还包括:
    当生成的检测框的数量大于一个时,将生成的每一个检测框进行最大池化处理并保存满足第一预设条件的最大池化处理后的检测框。
  6. 根据权利要求4所述的方法,其特征在于,利用标注后的训练集对剪枝后的深度学习模型进行训练具体还包括:
    按照当前的总损失值所对应的学习率对所述深度学习模型进行训练。
  7. 根据权利要求1~6任意一项所述的方法,其特征在于,对预先构建的深度学习模型进行剪枝具体包括:
    获取所述深度学习模型中待剪枝的网络层对应的影响因子,所述影响因子为对待剪枝的网络层进行归一化计算后得到的缩放因子;
    当影响因子小于第三预设值时,将所述影响因子对应的网络层进行剪枝。
  8. 一种实例分割方法,其特征在于,所述方法包括:
    获取待检测的图片;
    将所述待检测的图片输入至预先训练好的实例分割模型进行识别,并输出待检测的图片的检测框和实例分割结果;
    其中,所述预先训练好的实例分割模型基于如权利要求1~7任意一项所述的方法训练得到。
  9. 根据权利要求8所述的方法,其特征在于,将所述待检测的图片输入至预先训练好的实例分割模型进行识别之前,所述方法还包括:
    获取所述待检测的图片的数量;
    当所述待检测的图片的数量大于一张时,对所述待检测的图片进行拼接处理;
    所述将所述待检测的图片输入至预先训练好的实例分割模型进行识别,并输出待检测的图片的检测框和实例分割结果具体包括:
    将拼接处理后的待检测的图片输入至所述实例分割模型进行识别,并输出所有待检测的图片的检测框和实例分割结果;
    所述方法还包括:
    对所述所有待检测的图片的检测框和实例分割结果进行拆分处理,得到与每一张待检测的图片相对应的检测框和实例分割结果。
  10. 一种实例分割模型的训练装置,其特征在于,所述装置包括:
    剪枝模块,用于对预先构建的深度学习模型进行剪枝;
    获取模块,用于获取训练集;所述训练集为不同的深度相机采集的一场景下的带有目标对象的RGBD图像的集合,所述RGBD图像包括深度图和彩色图;
    预处理模块,用于对所述训练集进行标注;
    训练模块,用于利用标注后的训练集对剪枝后的深度学习模型进行训练以得到实例分割模型。
PCT/CN2021/095363 2020-05-26 2021-05-24 一种实例分割模型的训练方法、装置、实例分割方法 WO2021238826A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010454014.6 2020-05-26
CN202010454014.6A CN111798456A (zh) 2020-05-26 2020-05-26 一种实例分割模型的训练方法、装置、实例分割方法

Publications (1)

Publication Number Publication Date
WO2021238826A1 true WO2021238826A1 (zh) 2021-12-02

Family

ID=72806274

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2021/095363 WO2021238826A1 (zh) 2020-05-26 2021-05-24 一种实例分割模型的训练方法、装置、实例分割方法

Country Status (2)

Country Link
CN (1) CN111798456A (zh)
WO (1) WO2021238826A1 (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114155427A (zh) * 2021-12-17 2022-03-08 成都交大光芒科技股份有限公司 接触网开关可视化监控自适应分合状态识别方法及系统
CN114612825A (zh) * 2022-03-09 2022-06-10 云南大学 基于边缘设备的目标检测方法
CN115052154A (zh) * 2022-05-30 2022-09-13 北京百度网讯科技有限公司 一种模型训练和视频编码方法、装置、设备及存储介质
CN115100579A (zh) * 2022-08-09 2022-09-23 郑州大学 一种基于优化深度学习的管道中视频损害智能分割系统
CN115760748A (zh) * 2022-11-14 2023-03-07 江苏科技大学 一种基于深度学习的冰体环向裂纹尺寸测量方法
CN115993365A (zh) * 2023-03-23 2023-04-21 山东省科学院激光研究所 一种基于深度学习的皮带缺陷检测方法及系统
CN116433747A (zh) * 2023-06-13 2023-07-14 福建帝视科技集团有限公司 一种竹筒壁厚的检测模型构建方法及检测装置
WO2023155581A1 (zh) * 2022-02-21 2023-08-24 京东鲲鹏(江苏)科技有限公司 一种图像检测方法和装置

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111798456A (zh) * 2020-05-26 2020-10-20 苏宁云计算有限公司 一种实例分割模型的训练方法、装置、实例分割方法
CN112330709A (zh) * 2020-10-29 2021-02-05 奥比中光科技集团股份有限公司 一种前景图像提取方法、装置、可读存储介质及终端设备
CN113139983A (zh) * 2021-05-17 2021-07-20 北京华捷艾米科技有限公司 一种基于rgbd的人像分割方法及装置
CN113781500B (zh) * 2021-09-10 2024-04-05 中国科学院自动化研究所 舱段图像实例分割的方法、装置、电子设备及存储介质
CN116721342A (zh) * 2023-06-05 2023-09-08 淮阴工学院 一种基于深度学习的杂交稻种质量识别装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107403430A (zh) * 2017-06-15 2017-11-28 中山大学 一种rgbd图像语义分割方法
CN109598340A (zh) * 2018-11-15 2019-04-09 北京知道创宇信息技术有限公司 卷积神经网络的裁剪方法、装置及存储介质
CN109949316A (zh) * 2019-03-01 2019-06-28 东南大学 一种基于rgb-t融合的电网设备图像弱监督实例分割方法
CN110378345A (zh) * 2019-06-04 2019-10-25 广东工业大学 基于yolact实例分割模型的动态场景slam方法
CN110782467A (zh) * 2019-10-24 2020-02-11 新疆农业大学 基于深度学习和图像处理的马体尺测量方法
CN111798456A (zh) * 2020-05-26 2020-10-20 苏宁云计算有限公司 一种实例分割模型的训练方法、装置、实例分割方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11055854B2 (en) * 2018-08-23 2021-07-06 Seoul National University R&Db Foundation Method and system for real-time target tracking based on deep learning

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107403430A (zh) * 2017-06-15 2017-11-28 中山大学 一种rgbd图像语义分割方法
CN109598340A (zh) * 2018-11-15 2019-04-09 北京知道创宇信息技术有限公司 卷积神经网络的裁剪方法、装置及存储介质
CN109949316A (zh) * 2019-03-01 2019-06-28 东南大学 一种基于rgb-t融合的电网设备图像弱监督实例分割方法
CN110378345A (zh) * 2019-06-04 2019-10-25 广东工业大学 基于yolact实例分割模型的动态场景slam方法
CN110782467A (zh) * 2019-10-24 2020-02-11 新疆农业大学 基于深度学习和图像处理的马体尺测量方法
CN111798456A (zh) * 2020-05-26 2020-10-20 苏宁云计算有限公司 一种实例分割模型的训练方法、装置、实例分割方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DANIEL BOLYA; CHONG ZHOU; FANYI XIAO; YONG JAE LEE: "YOLACT: Real-time Instance Segmentation", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 4 April 2019 (2019-04-04), 201 Olin Library Cornell University Ithaca, NY 14853 , XP081165130 *
ZHUANG LIU; JIANGUO LI; ZHIQIANG SHEN; GAO HUANG; SHOUMENG YAN; CHANGSHUI ZHANG: "Learning Efficient Convolutional Networks through Network Slimming", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 22 August 2017 (2017-08-22), 201 Olin Library Cornell University Ithaca, NY 14853 , XP080953930 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114155427A (zh) * 2021-12-17 2022-03-08 成都交大光芒科技股份有限公司 接触网开关可视化监控自适应分合状态识别方法及系统
WO2023155581A1 (zh) * 2022-02-21 2023-08-24 京东鲲鹏(江苏)科技有限公司 一种图像检测方法和装置
CN114612825A (zh) * 2022-03-09 2022-06-10 云南大学 基于边缘设备的目标检测方法
CN114612825B (zh) * 2022-03-09 2024-03-19 云南大学 基于边缘设备的目标检测方法
CN115052154A (zh) * 2022-05-30 2022-09-13 北京百度网讯科技有限公司 一种模型训练和视频编码方法、装置、设备及存储介质
CN115100579A (zh) * 2022-08-09 2022-09-23 郑州大学 一种基于优化深度学习的管道中视频损害智能分割系统
CN115100579B (zh) * 2022-08-09 2024-03-01 郑州大学 一种基于优化深度学习的管道中视频损害智能分割系统
CN115760748A (zh) * 2022-11-14 2023-03-07 江苏科技大学 一种基于深度学习的冰体环向裂纹尺寸测量方法
CN115993365A (zh) * 2023-03-23 2023-04-21 山东省科学院激光研究所 一种基于深度学习的皮带缺陷检测方法及系统
CN115993365B (zh) * 2023-03-23 2023-06-13 山东省科学院激光研究所 一种基于深度学习的皮带缺陷检测方法及系统
CN116433747A (zh) * 2023-06-13 2023-07-14 福建帝视科技集团有限公司 一种竹筒壁厚的检测模型构建方法及检测装置
CN116433747B (zh) * 2023-06-13 2023-08-18 福建帝视科技集团有限公司 一种竹筒壁厚的检测模型构建方法及检测装置

Also Published As

Publication number Publication date
CN111798456A (zh) 2020-10-20

Similar Documents

Publication Publication Date Title
WO2021238826A1 (zh) 一种实例分割模型的训练方法、装置、实例分割方法
Chen et al. Driver fatigue detection based on facial key points and LSTM
CN112287827A (zh) 基于智慧灯杆的复杂环境行人口罩佩戴检测方法及系统
CN112037142B (zh) 一种图像去噪方法、装置、计算机及可读存储介质
CN111415338A (zh) 目标检测模型的构建方法及系统
CN113570689B (zh) 人像卡通化方法、装置、介质和计算设备
WO2024001123A1 (zh) 基于神经网络模型的图像识别方法、装置及终端设备
WO2023040146A1 (zh) 基于图像融合的行为识别方法、装置、电子设备及介质
CN111428664A (zh) 一种基于人工智能深度学习技术的计算机视觉的实时多人姿态估计方法
CN107948586A (zh) 基于视频拼接的跨区域运动目标检测方法和装置
WO2023279799A1 (zh) 对象识别方法、装置和电子系统
CN111126411B (zh) 一种异常行为识别方法及装置
CN114333062B (zh) 基于异构双网络和特征一致性的行人重识别模型训练方法
CN108985221A (zh) 视频片段检测方法、装置、设备和存储介质
CN113825012B (zh) 视频数据处理方法和计算机设备
CN112907138B (zh) 一种从局部到整体感知的电网场景预警分类方法及系统
CN114359618A (zh) 神经网络模型的训练方法、电子设备及计算机程序产品
CN114519863A (zh) 人体重识别方法、人体重识别装置、计算机设备及介质
WO2022228325A1 (zh) 行为检测方法、电子设备以及计算机可读存储介质
CN115131826A (zh) 物品检测识别方法、网络模型的训练方法和装置
CN115187906A (zh) 一种行人检测与重识别方法、装置和系统
CN112396126B (zh) 一种基于检测主干与局部特征优化的目标检测方法及系统
CN114694080A (zh) 一种监控暴力行为检测方法、系统、装置及可读存储介质
CN116453033A (zh) 一种视频监控场景下高精度低算量的人群密度估计方法
CN113824989A (zh) 一种视频处理方法、装置和计算机可读存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21814130

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21814130

Country of ref document: EP

Kind code of ref document: A1

122 Ep: pct application non-entry in european phase

Ref document number: 21814130

Country of ref document: EP

Kind code of ref document: A1