WO2023137921A1 - 基于人工智能的实例分割模型训练方法、装置、存储介质 - Google Patents

基于人工智能的实例分割模型训练方法、装置、存储介质 Download PDF

Info

Publication number
WO2023137921A1
WO2023137921A1 PCT/CN2022/090748 CN2022090748W WO2023137921A1 WO 2023137921 A1 WO2023137921 A1 WO 2023137921A1 CN 2022090748 W CN2022090748 W CN 2022090748W WO 2023137921 A1 WO2023137921 A1 WO 2023137921A1
Authority
WO
WIPO (PCT)
Prior art keywords
size
sample
target
image
position information
Prior art date
Application number
PCT/CN2022/090748
Other languages
English (en)
French (fr)
Inventor
郑喜民
陈振宏
舒畅
陈又新
Original Assignee
平安科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 平安科技(深圳)有限公司 filed Critical 平安科技(深圳)有限公司
Publication of WO2023137921A1 publication Critical patent/WO2023137921A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras

Definitions

  • the present application relates to the technical field of artificial intelligence, in particular to an artificial intelligence-based instance segmentation model training method, device, and storage medium.
  • Instance segmentation of street view image datasets is the main supporting technology for driverless cars.
  • the instance segmentation model in the driverless car system recognizes the surrounding roads, vehicles and obstacle information based on the street view image data, and makes decisions based on the surrounding roads, vehicles and obstacle information, thereby controlling the direction and speed of the vehicle. Therefore, the performance of the instance segmentation model is directly related to the safety, stability and comfort of driverless cars.
  • the acquired street view image data set that is, the training data set used to train the instance segmentation model
  • the long-tail distribution that is, a small number of training data accounts for the vast majority of occurrences, while most of the training data appear less frequently, resulting in an unbalanced distribution of training data categories, resulting in a lower accuracy of the instance segmentation model.
  • the training data set used to train the instance segmentation model often obeys the long-tail distribution, resulting in an unbalanced distribution of training data categories, resulting in a lower accuracy of the instance segmentation model.
  • an artificial intelligence-based instance segmentation model training method including:
  • first size is the image size of the target tail category image
  • second size is the image size of the second sample
  • a preset instance segmentation model is obtained, and the instance segmentation model is trained according to the training data and the preset loss function to obtain a target instance segmentation model.
  • an instance segmentation model training device including:
  • the first acquisition module the first acquisition module is used to acquire the long-tail distribution image data set
  • a second acquisition module is used to acquire a first sample and a second sample from the long-tail distribution image data set, the first sample includes a tail category image, and the second sample is different from the first sample;
  • a target tail category image determination module the target tail category image determination module is used to determine the first position information of the tail category image in the first sample, and cut the first sample according to the first position information to obtain the target tail category image;
  • a third acquisition module is used to acquire a first size and a second size, wherein the first size is the image size of the target tail category image, and the second size is the image size of the second sample;
  • a target application location information determining module configured to determine the target application location information of the target tail category image in the second sample according to the first location information, the first size, and the second size;
  • a training data determination module configured to apply the target tail category image to the second sample according to the target application location information to obtain training data
  • a model training module the model training module is used to obtain a preset instance segmentation model, and train the instance segmentation model according to the training data and a preset loss function to obtain a target instance segmentation model.
  • an embodiment of the present application provides an instance segmentation model training device, including: a memory, a processor, and a computer program stored in the memory and operable on the processor, wherein the processor implements an artificial intelligence-based instance segmentation model training method when executing the computer program, wherein the artificial intelligence-based instance segmentation model training method includes:
  • Obtain a long-tail distribution image data set obtain a first sample and a second sample from the long-tail distribution image data set, the first sample includes a tail category image, and the second sample is different from the first sample; determine the first position information of the tail category image in the first sample, cut the first sample according to the first position information, and obtain a target tail category image; obtain a first size and a second size, wherein the first size is the image size of the target tail category image, and the second size is the image size of the second sample; according to the first position information, the first size and the The second size determines the target application position information of the target tail category image in the second sample; applies the target tail category image to the second sample according to the target application position information to obtain training data; obtains a preset instance segmentation model, trains the instance segmentation model according to the training data and a preset loss function, and obtains a target instance segmentation model.
  • the embodiment of the present application further provides a computer-readable storage medium, which stores computer-executable instructions, and the computer-executable instructions are used to execute an artificial intelligence-based instance segmentation model training method, wherein the artificial intelligence-based instance segmentation model training method includes: obtaining a long-tail distribution image data set; obtaining a first sample and a second sample from the long-tail distribution image data set, the first sample includes a tail category image, and the second sample is different from the first sample; Cropping to obtain the target tail category image; obtaining a first size and a second size, wherein the first size is the image size of the target tail category image, and the second size is the image size of the second sample; determining the target application position information of the target tail category image in the second sample according to the first position information, the first size and the second size; applying the target tail category image to the second sample according to the target application position information to obtain training data; obtaining a preset instance segmentation model, and training the instance segmentation model according to the training data and a
  • Embodiments of the present invention include an artificial intelligence-based instance segmentation model training method, device, and storage medium, wherein the artificial intelligence-based instance segmentation model training method includes: obtaining a long-tail distribution image data set; obtaining a first sample and a second sample from the long-tail distribution image data set, the first sample includes a tail category image, and the second sample is different from the first sample; determining first position information of the tail category image in the first sample, and cutting the first sample according to the first position information to obtain a target tail category image; The image size of the target tail category image, the second size being the image size of the second sample; determining the target application position information of the target tail category image in the second sample according to the first position information, the first size and the second size; applying the target tail category image to the second sample according to the target application position information to obtain training data; obtaining a preset instance segmentation model, and training the instance segmentation model according to the training data and a preset loss function to obtain a target instance segmentation model.
  • Fig. 1 is the flow chart of the steps of the artificial intelligence-based instance segmentation model training method provided by one embodiment of the present application;
  • FIG. 2 is a flow chart of steps for performing data enhancement on target tail category images provided by another embodiment of the present application.
  • FIG. 3 is a flow chart of steps for adjusting the size of the target tail category image provided by another embodiment of the present application.
  • FIG. 4 is a flow chart of steps for obtaining location information of a target application provided by another embodiment of the present application.
  • FIG. 5 is a flow chart of steps for obtaining scaling factors provided by another embodiment of the present application.
  • Fig. 6 is a block diagram of an instance segmentation model training device provided by another embodiment of the present application.
  • Fig. 7 is a structural diagram of an instance segmentation model training device provided by another embodiment of the present application.
  • the present application provides an artificial intelligence-based instance segmentation model training method, device, and storage medium, wherein the artificial intelligence-based instance segmentation model training method includes: obtaining a long-tail distribution image dataset; obtaining a first sample and a second sample from the long-tail distribution image dataset, the first sample includes a tail category image, and the second sample is different from the first sample; determining the first position information of the tail category image in the first sample, and cutting the first sample according to the first position information to obtain a target tail category image; The image size of the target tail category image, the second size being the image size of the second sample; determining the target application position information of the target tail category image in the second sample according to the first position information, the first size and the second size; applying the target tail category image to the second sample according to the target application position information to obtain training data; obtaining a preset instance segmentation model, and training the instance segmentation model according to the training data and a preset loss function to obtain a target instance segmentation model.
  • the data category distribution image dataset includes: obtaining
  • AI artificial intelligence
  • the embodiments of the present application may acquire and process relevant data based on artificial intelligence technology.
  • artificial intelligence is the theory, method, technology and application device that uses digital computers or machines controlled by digital computers to simulate, extend and expand human intelligence, perceive the environment, acquire knowledge and use knowledge to obtain the best results.
  • Artificial intelligence basic technologies generally include technologies such as sensors, dedicated artificial intelligence chips, cloud computing, distributed storage, big data processing technology, operation/interaction devices, and mechatronics.
  • Artificial intelligence software technology mainly includes computer vision technology, robotics technology, biometrics technology, speech processing technology, natural language processing technology, and machine learning/deep learning.
  • the terminals mentioned in the embodiments of the present application may be smartphones, tablet computers, notebook computers, desktop computers, vehicle-mounted computers, smart homes, wearable electronic devices, VR (Virtual Reality, virtual reality)/AR (Augmented Reality, augmented reality) devices, etc.;
  • the server may be an independent physical server, or a server cluster or distributed system composed of multiple physical servers, or provide cloud services, cloud databases, cloud computing, cloud functions, cloud storage, network services, cloud communications, middleware services, domain name services, security services, Content delivery network (Content Delivery Network, CDN), and cloud servers for basic cloud computing services such as big data and artificial intelligence platforms, etc.
  • VR Virtual Reality, virtual reality
  • AR Augmented Reality, augmented reality
  • the server may be an independent physical server, or a server cluster or distributed system composed of multiple physical servers, or provide cloud services, cloud databases, cloud computing, cloud functions, cloud storage, network services, cloud communications, middleware services, domain name services, security services, Content delivery network (Content Delivery Network, CDN), and cloud servers for basic cloud computing services such
  • the data in this embodiment of the application can be stored in a server, and the server can be an independent server, or a cloud server that provides basic cloud computing services such as cloud services, cloud databases, cloud computing, cloud functions, cloud storage, network services, cloud communications, middleware services, domain name services, security services, content delivery network (Content Delivery Network, CDN), and big data and artificial intelligence platforms.
  • server can be an independent server, or a cloud server that provides basic cloud computing services such as cloud services, cloud databases, cloud computing, cloud functions, cloud storage, network services, cloud communications, middleware services, domain name services, security services, content delivery network (Content Delivery Network, CDN), and big data and artificial intelligence platforms.
  • CDN Content Delivery Network
  • Figure 1 is a flow chart of the steps of an artificial intelligence-based instance segmentation model training method provided by an embodiment of the present application.
  • the instance segmentation model training method includes but is not limited to the following steps:
  • Step S110 obtaining a long-tail distribution image data set
  • Step S120 obtaining a first sample and a second sample from the long-tail distribution image data set, the first sample includes a tail category image, and the second sample is different from the first sample;
  • Step S130 determining the first position information of the tail category image in the first sample, and clipping the first sample according to the first position information to obtain the target tail category image;
  • Step S140 obtaining a first size and a second size, wherein the first size is the image size of the target tail category image, and the second size is the image size of the second sample;
  • Step S150 determining the target application position information of the target tail category image in the second sample according to the first position information, the first size and the second size;
  • Step S160 applying the target tail category image to the second sample according to the target application location information to obtain training data
  • step S170 a preset instance segmentation model is obtained, and the instance segmentation model is trained according to the training data and the preset loss function to obtain a target instance segmentation model.
  • the embodiment of the present application does not limit the scene type and acquisition method of the long-tail distribution image data set.
  • the application scene of the instance segmentation model training method in the embodiment of the present application can be an unmanned driving application scene
  • the long-tail distribution image data set can be street view image data obtained from an existing public data set, such as the cityscape data set, or the first image set can be obtained from the camera of an unmanned car, and tail data or head data can be marked on the first image set, so as to provide a data basis for training the instance segmentation model .
  • the first sample is an image including the tail category image
  • the second sample is different from the first sample, that is, the second sample does not include an image of the tail category image.
  • Obtaining the first sample and the second sample can provide an effective data basis for obtaining training data.
  • the embodiment of the present application does not limit the specific method of obtaining the first sample and the second sample.
  • the first sample can be obtained from the long-tail distribution image dataset according to the tail category label
  • the second sample can be obtained from the long-tail distribution image dataset according to the head category label.
  • the specific content of the tag or the head category tag can be adjusted by those skilled in the art according to the actual situation.
  • the first position information of the tail category image in the first sample can be determined by the tail category label of the first sample, and the first sample is cropped according to the first position information to obtain the target tail category image, which can provide an effective data basis for obtaining training data.
  • the acquisition of the image size of the target tail category image, that is, the first size, and the acquisition of the image size of the second sample, that is, the second size can provide an effective data basis for the application of the target tail category image to the second sample.
  • the specific methods for obtaining the first size and the second size are well known to those skilled in the art, and the embodiments of the present application will not repeat them here.
  • determining the target application position information of the target tail category image in the second sample according to the first position information, the first size and the second size can effectively ensure that the target tail category image will not exceed the range of the second sample when the target tail category image is applied to the second sample, and, compared with the cutting and pasting enhancement method that uses the model to mine semantic information from the image to determine the pasting position, the technical solution of the embodiment of the present application requires less calculation, less time-consuming, and does not need to introduce additional supervision information.
  • the embodiment of the present application does not involve the improvement of the instance segmentation model, and those skilled in the art can select a specific instance segmentation model according to the actual situation, which can be the Mask-RCNN model, Faster-RCNN model, etc.
  • the long-tail distribution is a special asymmetric distribution.
  • One part of the category contains a very large amount of data, which is called the head category, while the corresponding other part of the category contains very little data, called the tail category.
  • the first sample and the second sample are obtained from the long-tail distribution image data set.
  • the first sample is cropped to obtain the target tail category image; the first size and the second size are obtained, wherein the first size is the image size of the target tail category image, and the second size is the image size of the second sample; the target application position information of the target tail category image in the second sample is determined according to the first position information, the first size and the second size; the target tail category image is applied to the second sample according to the target application position information to obtain training data, so that the tail category data and head category data in the training data can be distributed evenly, thereby improving the accuracy of the instance segmentation model.
  • step S130 in the embodiment shown in FIG. 1 it also includes but is not limited to the following steps:
  • Step S210 performing data enhancement on the target tail category image to obtain a new target tail category image.
  • the embodiment of the present application does not limit the specific method of data enhancement, which may be through geometric transformation methods, such as flipping, rotating, cropping, scaling, translation, or dithering processing on image data, or through pixel transformation methods, such as adjusting image brightness and white balance.
  • step S160 in the embodiment shown in FIG. 1 it also includes but is not limited to the following steps:
  • Step S310 obtaining the scaling factor according to the first size and the second size
  • Step S320 adjusting the size of the target tail category image according to the scaling factor.
  • obtaining the scaling factor according to the first size and the second size, and adjusting the size of the target tail category image according to the scaling factor can make the target tail category image applied to the second sample without exceeding the frame range of the second sample.
  • the first size includes a first width and a first height
  • the second size includes a second width and a second height
  • the first position information includes first abscissa information and first ordinate information.
  • Step S410 acquiring second abscissa information, which is obtained by multiplying the first abscissa information by the ratio of the second height to the first height;
  • Step S420 acquiring second ordinate information, which is obtained by multiplying the first ordinate information by the ratio of the second width to the first width;
  • Step S430 determining the second abscissa information and the second ordinate information as target application location information.
  • the embodiment of the present application can be applied to unmanned driving scenarios, and the long-tail distribution image data set can be street view image data including vehicle instances of tail categories, such as trains, trucks, buses, and motorcycles. ⁇ , ⁇ , ⁇ , ⁇ , ⁇ w 1 , ⁇ , ⁇ h 1 , ⁇ , ⁇ , ⁇ w 2 , ⁇ , ⁇ , ⁇ h 2 , ⁇ (x 1 ,y 1 ),x 1 ⁇ ,y 1 ⁇ , ⁇ , ⁇ (x 2 ,y 2 ) ⁇ :
  • the target tail category image is applied to the second sample according to the target application location information to obtain the training data, obtain the preset instance segmentation model, train the instance segmentation model according to the training data and the preset loss function, and obtain the target instance segmentation model, so that the data category distribution of the long-tail distribution image data can be effectively balanced, and the accuracy of the instance segmentation model can be improved.
  • step S310 in the embodiment shown in FIG. 3 includes but is not limited to the following steps:
  • Step S510 obtaining a first intermediate value, which is obtained by multiplying the first width by the first height
  • Step S520 acquiring a second intermediate value, which is obtained by multiplying the second width by the second height
  • step S530 a numerical value obtained by dividing the second intermediate value by the first intermediate value is determined as the scaling factor.
  • s is the scaling factor, and the specific interpretations of w 1 , h 1 , w 2 , h 2 , x 1 , x 2 and y 2 have been described in detail in the above embodiments, and will not be repeated here.
  • the embodiment of the present application also provides a constraint method on the scaling factor s, which can effectively enhance the diversity of data, thereby enhancing the robustness of the model.
  • the specific constraint formula is as follows:
  • the application scenario of the instance segmentation model is the field of unmanned driving technology
  • the training data is street view image data. Since the instance size differences in the street view image data are not unique, they can be quite different, such as trains and traffic lights. Classifiers often tend to give high prediction scores to more categories that appear.
  • L cls (z) is the classification loss value
  • z is the preset activation function
  • y i is the real value of the sample
  • i is the first category label
  • N i is the number of samples of different categories
  • j is the second category label
  • ⁇ i is determined according to the following formula:
  • z can be obtained according to the following formula:
  • the embodiment of the present application adjusts the weight of each category penalty according to the constraints S ij . While taking different penalties for classes with more samples and fewer classes, the loss function provided in this embodiment does not explicitly distinguish the head and tail classes, and the entire loss calculation process maintains fluency. In addition, it is precisely because the loss function can automatically learn the relative proportions of different categories of samples to adjust the weight of the penalty for each category, without the need to calculate the category distribution in advance or rely on specially designed data sampling methods.
  • p m is the segmentation prediction result of category m
  • S bbox is the area of the predicted bounding box
  • S mask is the area of the segmentation mask.
  • the cross-entropy weight is set by judging the area ratio of the bounding box and the segmentation mask, and a larger penalty is made for predictions with a large difference in the area ratio between the two, thereby reducing the loss of feature information and improving the generalization ability of the instance segmentation model.
  • FIG. 6 is a block diagram of an instance segmentation model training device 600 provided by another embodiment of the present application.
  • An embodiment of the present application also provides an instance segmentation model training device 600.
  • the instance segmentation model training device 600 includes a first acquisition module 610, a second acquisition module 620, a target tail category image determination module 630, a third acquisition module 640, a target application location information determination module 650, a training data determination module 660, and a model training module 670, wherein the first acquisition module 610 For obtaining the long-tail distribution image data set; the second acquisition module 620 is used to obtain the first sample and the second sample from the long-tail distribution image data set, the first sample includes the tail category image, and the second sample is different from the first sample; the target tail category image determination module 630 is used to determine the first position information of the tail category image in the first sample, and cut the first sample according to the first position information to obtain the target tail category image; the third acquisition module 640 is used to acquire the first size and the second size
  • FIG. 7 is a structural diagram of an instance segmentation model training device 700 provided by another embodiment of the present application.
  • An embodiment of the present application also provides an instance segmentation model training device 700.
  • the instance segmentation model training device 700 includes: a memory 710, a processor 720, and a computer program stored in the memory 710 and operable on the processor 720.
  • the processor 720 and the memory 710 may be connected through a bus or in other ways.
  • the non-transient software programs and instructions required to implement the artificial intelligence-based instance segmentation model training method of the above-mentioned embodiment are stored in the memory 710.
  • the artificial intelligence-based instance segmentation model training method in the above-mentioned embodiment is executed, wherein the artificial intelligence-based instance segmentation model training method includes: obtaining a long-tail distribution image data set; obtaining a first sample and a second sample from the long-tail distribution image data set.
  • the first sample includes a tail category image, and the second sample is different from the first sample; clipping the first sample to obtain the target tail category image; obtaining the first size and the second size, wherein the first size is the image size of the target tail category image, and the second size is the image size of the second sample; determining the target application position information of the target tail category image in the second sample according to the first position information, the first size and the second size; applying the target tail category image to the second sample according to the target application position information to obtain training data; obtaining a preset instance segmentation model, and training the instance segmentation model according to the training data and the preset loss function to obtain the target instance segmentation model.
  • the device embodiments described above are only illustrative, and the units described as separate components may or may not be physically separated, that is, they may be located in one place, or may be distributed to multiple network units. Part or all of the modules can be selected according to actual needs to achieve the purpose of the solution of this embodiment.
  • an embodiment of the present application also provides a computer-readable storage medium.
  • the computer-readable storage medium may be non-volatile or volatile.
  • the computer-readable storage medium stores computer-executable instructions.
  • the computer-executable instructions are executed by a processor 720 or a controller.
  • Computer storage media includes, but is not limited to, RAM, ROM, EEPROM, flash memory or other memory technology, CD-ROM, digital versatile disk (DVD) or other optical disk storage, magnetic cartridges, magnetic tape, magnetic disk storage or other magnetic storage devices, or any other medium that can be used to store desired information and that can be accessed by a computer.
  • communication media typically embody computer readable instructions, data structures, program modules or other data in a modulated data signal such as a carrier wave or other transport mechanism, and can include any information delivery media, as is known to those of ordinary skill in the art.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本申请属于人工智能技术领域,提供了一种基于人工智能的实例分割模型训练方法、装置、存储介质,方法包括:获取长尾分布图像数据集;从长尾分布图像数据集中获取第一样本和第二样本;根据第一位置信息对第一样本进行裁剪,得到目标尾部类别图像;获取第一尺寸和第二尺寸;根据第一位置信息、第一尺寸和第二尺寸确定目标尾部类别图像在第二样本的目标应用位置信息;根据目标应用位置信息将目标尾部类别图像应用于第二样本,得到训练数据;获取预设的实例分割模型,根据训练数据和预置的损失函数对实例分割模型进行训练,得到目标实例分割模型。根据本申请的技术方案,能够有效均衡长尾分布图像数据的数据类别分布,提高实例分割模型的准确率。

Description

基于人工智能的实例分割模型训练方法、装置、存储介质
本申请要求于2022年1月21日提交中国专利局、申请号为2022100740922,发明名称为“基于人工智能的实例分割模型训练方法、装置、存储介质”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及人工智能技术领域,尤其涉及一种基于人工智能的实例分割模型训练方法、装置、存储介质。
背景技术
对街景图像数据集进行实例分割是无人驾驶汽车的主要支撑技术,无人驾驶汽车系统中的实例分割模型根据街景图像数据识别出周围道路、车辆和障碍物信息,并根据周围道路、车辆和障碍物信息进行决策,从而控制车辆的方向和速度大小。因此,实例分割模型的表现直接关系到了无人驾驶汽车的安全性、稳定性和舒适性。
在实际应用中,获取到的街景图像数据集,即用于训练实例分割模型的训练数据集,往往服从长尾分布,即少数训练数据占据了绝大多数的出现次数,而大多数训练数据则出现频率较低,造成训练数据类别分布的不均衡,从而导致实例分割模型的准确率较低。
技术问题
以下是发明人意识到的现有技术的技术问题:用于训练实例分割模型的训练数据集,往往服从长尾分布,造成训练数据类别分布的不均衡,从而导致实例分割模型的准确率较低。
技术解决方案
第一方面,本申请实施例提供了一种基于人工智能的实例分割模型训练方法,包括:
获取长尾分布图像数据集;
从所述长尾分布图像数据集中获取第一样本和第二样本,所述第一样本包括尾部类别图像,所述第二样本与所述第一样本互不相同;
确定所述第一样本中尾部类别图像的第一位置信息,根据所述第一位置信息对所述第一样本进行裁剪,得到目标尾部类别图像;
获取第一尺寸和第二尺寸,其中,所述第一尺寸为所述目标尾部类别图像的图像尺寸,所述第二尺寸为所述第二样本的图像尺寸;
根据所述第一位置信息、第一尺寸和所述第二尺寸确定所述目标尾部类别图像在所述第二样本的目标应用位置信息;
根据所述目标应用位置信息将所述目标尾部类别图像应用于所述第二样本,得到训练数据;
获取预设的实例分割模型,根据所述训练数据和预置的损失函数对所述实例分割模型进行训练,得到目标实例分割模型。
第二方面,本申请实施例提供了一种实例分割模型训练装置,包括:
第一获取模块,所述第一获取模块用于获取长尾分布图像数据集;
第二获取模块,所述第二获取模块用于从所述长尾分布图像数据集中获取第一样本和第二样本,所述第一样本包括尾部类别图像,所述第二样本与所述第一样本互不相同;
目标尾部类别图像确定模块,所述目标尾部类别图像确定模块用于确定所述第一样本中尾部类别图像的第一位置信息,并根据所述第一位置信息对所述第一样本进行裁剪,得到目标尾部类别图像;
第三获取模块,所述第三获取模块用于获取第一尺寸和第二尺寸,其中,所述第一尺寸为所述目标尾部类别图像的图像尺寸,所述第二尺寸为所述第二样本的图像尺寸;
目标应用位置信息确定模块,所述目标应用位置信息确定模块用于根据所述第一位置信息、第一尺寸和所述第二尺寸确定所述目标尾部类别图像在所述第二样本的目标应用位置信息;
训练数据确定模块,所述训练数据确定模块用于根据所述目标应用位置信息将所述目标尾部类别图像应用于所述第二样本,得到训练数据;
模型训练模块,所述模型训练模块用于获取预设的实例分割模型,根据所述训练数据和预置的损失函数对所述实例分割模型进行训练,得到目标实例分割模型。
第三方面,本申请实施例提供了一种实例分割模型训练装置,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现一种基于人工智能的实例分割模型训练方法,其中,所述基于人工智能的实例分割模型训练方法包括:
获取长尾分布图像数据集;从所述长尾分布图像数据集中获取第一样本和第二样本,所述第一样本包括尾部类别图像,所述第二样本与所述第一样本互不相同;确定所述第一样本中尾部类别图像的第一位置信息,根据所述第一位置信息对所述第一样本进行裁剪,得到目标尾部类别图像;获取第一尺寸和第二尺寸,其中,所述第一尺寸为所述目标尾部类别图像的图像尺寸,所述第二尺寸为所述第二样本的图像尺寸;根据所述第一位置信息、第一尺寸和所述第二尺寸确定所述目标尾部类别图像在所述第二样本的目标应用位置信息;根据所述目标应用位置信息将所述目标尾部类别图像应用于所述第二样本,得到训练数据;获取预设的实例分割模型,根据所述训练数据和预置的损失函数对所述实例分割模型进行训练,得到目标实例分割模型。
第四方面,本申请实施例还提供了一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行一种基于人工智能的实例分割模型训练方法,其中,所述基于人工智能的实例分割模型训练方法包括:获取长尾分布图像数据集;从所述长尾分布图像数据集中获取第一样本和第二样本,所述第一样本包括尾部类别图像,所述第二样本与所述第一样本互不相同;确定所述第一样本中尾部类别图像的第一位置信息,根据所述第一位置信息对所述第一样本进行裁剪,得到目标尾部类别图像;获取第一尺寸和第二尺寸,其中,所述第一尺寸为所述目标尾部类别图像的图像尺寸,所述第二尺寸为所述第二样本的图像尺寸;根据所述第一位置信息、第一尺寸和所述第二尺寸确定所述目标尾部类别图像在所述第二样本的目标应用位置信息;根据所述目标应用位置信息将所述目标尾部类别图像应用于所述第二样本,得到训练数据;获取预设的实例分割模型,根据所述训练数据和预置的损失函数对所述实例分割模型进行训练,得到目标实例分割模型。
有益效果
本发明实施例包括一种基于人工智能的实例分割模型训练方法、装置、存储介质,其中,基于人工智能的实例分割模型训练方法包括:获取长尾分布图像数据集;从所述长尾分布图像数据集中获取第一样本和第二样本,所述第一样本包括尾部类别图像,所述第二样本与所述第一样本互不相同;确定所述第一样本中尾部类别图像的第一位置信息,根据所述第一位置信息对所述第一样本进行裁剪,得到目标尾部类别图像;获取第一尺寸和第二尺寸,其中,所述第一尺寸为所述目标尾部类别图像的图像尺寸,所述第二尺寸为所述第二样本的图像尺寸;根据所述第一位置信息、第一尺寸和所述第二尺寸确定所述目标尾部类别图像在所述第二样本的目标应用位置信息;根据所述目标应用位置信息将所述目标尾部类别图像应用于所述第二样本,得到训练数据;获取预设的实例分割模型,根据所述训练数据和预置的损失函数对所述实例分割模型进行训练,得到目标实例分割模型。根据本申请的技术方案,能够有效均衡长尾分布图像数据的数据类别分布,提高实例分割模型的准确率。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本申请技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请的技术方案,并不构成对本申请技术方案的限制。
图1是本申请一个实施例提供的基于人工智能的实例分割模型训练方法的步骤流程图;
图2是本申请另一个实施例提供的对目标尾部类别图像进行数据增强的步骤流程图;
图3是本申请另一个实施例提供的对目标尾部类别图像进行尺寸调整的步骤流程图;
图4是本申请另一个实施例提供的获得目标应用位置信息的步骤流程图;
图5是本申请另一个实施例提供的获得缩放因子的步骤流程图;
图6是本申请另一个实施例提供的实例分割模型训练装置的模块示意图;
图7是本申请另一个实施例提供的实例分割模型训练装置的结构图。
本发明的实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
需要说明的是,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。说明书、权利要求书或上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
本申请提供了一种基于人工智能的实例分割模型训练方法、装置、存储介质,其中,基于人工智能的实例分割模型训练方法包括:获取长尾分布图像数据集;从所述长尾分布图像数据集中获取第一样本和第二样本,所述第一样本包括尾部类别图像,所述第二样本与所述第一样本互不相同;确定所述第一样本中尾部类别图像的第一位置信息,根据所述第一位置信息对所述第一样本进行裁剪,得到目标尾部类别图像;获取第一尺寸和第二尺寸,其中,所述第一尺寸为所述目标尾部类别图像的图像尺寸,所述第二尺寸为所述第二样本的图像尺寸;根据所述第一位置信息、第一尺寸和所述第二尺寸确定所述目标尾部类别图像在所述第二样本的目标应用位置信息;根据所述目标应用位置信息将所述目标尾部类别图像应用于所述第二样本,得到训练数据;获取预设的实例分割模型,根据所述训练数据和预置的损失函数对所述实例分割模型进行训练,得到目标实例分割模型。根据本申请的技术方案,能够有效均衡长尾分布图像数据的数据类别分布,提高实例分割模型的准确率。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用装置。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互装置、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本申请实施例所提及的终端可以是智能手机、平板电脑、笔记本电脑、台式电脑、车载计算机、智能家居、可穿戴电子设备、VR(Virtual Reality,虚拟现实)/AR(Augmented Reality,增强现实)设备等等;服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网 络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器,等等。
需要说明的是,本申请实施例的数据可以保存在服务器中,服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
下面结合附图,对本申请实施例作进一步阐述。
如图1所示,图1是本申请一个实施例提供的基于人工智能的实例分割模型训练方法的步骤流程图,该实例分割模型训练方法包括但不限于有以下步骤:
步骤S110,获取长尾分布图像数据集;
步骤S120,从长尾分布图像数据集中获取第一样本和第二样本,第一样本包括尾部类别图像,第二样本与第一样本互不相同;
步骤S130,确定第一样本中尾部类别图像的第一位置信息,根据第一位置信息对第一样本进行裁剪,得到目标尾部类别图像;
步骤S140,获取第一尺寸和第二尺寸,其中,第一尺寸为目标尾部类别图像的图像尺寸,第二尺寸为第二样本的图像尺寸;
步骤S150,根据第一位置信息、第一尺寸和第二尺寸确定目标尾部类别图像在第二样本的目标应用位置信息;
步骤S160,根据目标应用位置信息将目标尾部类别图像应用于第二样本,得到训练数据;
步骤S170,获取预设的实例分割模型,根据训练数据和预置的损失函数对实例分割模型进行训练,得到目标实例分割模型。
需要说明的是,本申请实施例并不限制长尾分布图像数据集的场景类型,以及获取方法,可以理解的是,本申请实施例的实例分割模型训练方法的应用场景可以是无人驾驶应用场景,长尾分布图像数据集可以是街景图像数据,从现有公开的数据集,如cityscape数据集中获取,还可以是通过无人驾驶汽车的摄像头中获取第一图像集,并对第一图像集进行尾部数据或头部数据的标注,从而实现为训练实例分割模型提供数据基础。
可以理解的是,第一样本为包括尾部类别图像的图像,第二样本与第一样本互不相同,即第二样本中不包括尾部类别图像的图像,获取第一样本和第二样本能够为获取训练数据提供有效的数据基础。
需要说明的是,本申请实施例并不对获取第一样本和第二样本的具体方式做限制,当长尾分布图像数据集中的每个图像都携带有尾部类别标签或头部类别标签,可以根据尾部类别标签从长尾分布图像数据集获取第一样本,根据头部类别标签从长尾分布图像数据集获取第二样本,尾部类别标签或头部类别标签的获取方式为本领域技术人员所熟知,可以根据长尾分布图像数据集的标注信息得到,同时,本申请实施例也不限制尾部类别标签或头部类别标签的具体内容,本领域技术人员根据实际情况进行调整即可。
可以理解的是,可以通过第一样本的尾部类别标签确定第一样本中尾部类别图像的第一位置信息,根据第一位置信息对第一样本进行裁剪,得到目标尾部类别图像,能够为获取训练数据提供有效的数据基础。
可以理解的是,获取目标尾部类别图像的图像尺寸,即第一尺寸,以及获取第二样本的图像尺寸,即第二尺寸,能够为目标尾部类别图像应用于第二样本提供有效的数据基础,需要说明的是,获取第一尺寸和第二尺寸的具体方式为本领域技术人员所熟知,本申请实施例在此不多做赘述。
可以理解的是,根据第一位置信息、第一尺寸和第二尺寸确定目标尾部类别图像在第二样本的目标应用位置信息,能够有效保障目标尾部类别图像应用于第二样本的状态下,目标尾部类别图像不会超出第二样本的图幅范围,并且,相较于从图像中用模型挖掘语义信息以确定粘贴位置的剪切与粘贴增强方法,本申请实施例的技术方案计算量小,耗时少,不需要 引入额外的监督信息。
需要说明的是,本申请实施例并不涉及实例分割模型的改进,本领域技术人员可以根据实际情况选择具体的实例分割模型,可以是Mask-RCNN模型、Faster-RCNN模型等。
可以理解的是,实际应用中用于模型训练的数据集大多呈现长尾分布,长尾分布是一种特殊的非对称分布,其中一部分类别包含的数据量非常多,称为头部类别,而相对应的另一部分类别所包含的数据量非常少,称为尾部类别,根据本申请的技术方案,从长尾分布图像数据集中获取第一样本和第二样本,第一样本包括尾部类别图像,第二样本与第一样本互不相同,确定第一样本中尾部类别图像的第一位置信息,根据第一位置信息对第一样本进行裁剪,得到目标尾部类别图像;获取第一尺寸和第二尺寸,其中,第一尺寸为目标尾部类别图像的图像尺寸,第二尺寸为第二样本的图像尺寸;根据第一位置信息、第一尺寸和第二尺寸确定目标尾部类别图像在第二样本的目标应用位置信息;根据目标应用位置信息将目标尾部类别图像应用于第二样本,得到训练数据,使得训练数据中的尾部类别数据和头部类别数据能够分布均衡,从而提高实例分割模型的准确率。
另外,参照图2,在一实施例中,在图1所示实施例中的步骤S130之后,还包括但不限于有以下步骤:
步骤S210,对目标尾部类别图像进行数据增强,得到新的目标尾部类别图像。
可以理解的是,为了提高实例分割模型的鲁棒性和泛化能力,往往需要利用大规模的数据对实例分割模型进行训练。在现实情况中,经常会存在训练数据不足的情况,此时,数据增强技术就显得尤为重要。因此,对目标尾部类别图像进行数据增强,能够增大训练数据的数量并且提高训练数据的多样性。
需要说明的是,本申请实施例并不限制数据增强的具体方式,可以是通过几何变换方法,例如对图像数据进行翻转,旋转,裁剪,缩放,平移,或抖动处理,还可以是通过像素变换方法,通过调节图像亮度、调节白平衡等。
另外,参照图3,在一实施例中,在图1所示实施例中的步骤S160之前,还包括但不限于有以下步骤:
步骤S310,根据第一尺寸、第二尺寸得到缩放因子;
步骤S320,根据缩放因子对目标尾部类别图像进行尺寸调整。
可以理解的是,根据第一尺寸、第二尺寸得到缩放因子,并根据缩放因子对目标尾部类别图像进行尺寸调整,能够使得目标尾部类别图像应用于第二样本时,不会超出第二样本的图幅范围。
另外,参考图4,在一实施例中,第一尺寸包括第一宽度和第一高度,第二尺寸包括第二宽度和第二高度,第一位置信息包括第一横坐标信息和第一纵坐标信息,图1所示实施例中的步骤S150包括但不限于有以下步骤:
步骤S410,获取第二横坐标信息,第二横坐标信息由第一横坐标信息乘以第二高度与第一高度的比值得到;
步骤S420,获取第二纵坐标信息,第二纵坐标信息由第一纵坐标信息乘以第二宽度与第一宽度的比值得到;
步骤S430,将第二横坐标信息和第二纵坐标信息确定为目标应用位置信息。
需要说明的是,本申请实施例可以应用于无人驾驶场景,长尾分布图像数据集可以是包括尾部类别的交通工具实例的街景图像数据,如火车、货车、巴士和摩托车等。作为交通工具,它们均与道路表面接触,本方案在确定目标尾部类别图像在第二样本的目标应用位置信息时考虑了这一点,将包围目标尾部类别图像中道路标签的最小外接矩形宽,即第一宽度标记为w 1,将包围目标尾部类别图像中道路标签的最小外接矩形高,即第一高度标记为h 1,将被粘贴的不含长尾类别的图像,即第二样本中道路标签的最小外接矩形宽,即第二宽度标 记为w 2,和将被粘贴的不含长尾类别的图像,即第二样本中道路标签的最小外接矩形高,及第二高度标记为h 2,目标尾部类别图像在第一样本中的位置信息为(x 1,y 1),x 1为第一位置信息中的第一横坐标信息,y 1为第一位置信息中的第一纵坐标信息,目标尾部类别图像在第二样本的目标应用位置信息,即第二横坐标信息和第二纵坐标信息(x 2,y 2)的具体获取方式根据以下公式实现:
Figure PCTCN2022090748-appb-000001
Figure PCTCN2022090748-appb-000002
可以理解的是,根据目标应用位置信息将目标尾部类别图像应用于第二样本,得到训练数据,获取预设的实例分割模型,根据训练数据和预置的损失函数对实例分割模型进行训练,得到目标实例分割模型,从而能够有效均衡长尾分布图像数据的数据类别分布,提高实例分割模型的准确率。
另外,参考图5,在一实施例中,图3所示实施例中的步骤S310包括但不限于有以下步骤:
步骤S510,获取第一中间值,第一中间值由第一宽度乘以第一高度得到;
步骤S520,获取第二中间值,第二中间值由第二宽度乘以第二高度得到;
步骤S530,将第二中间值除以第一中间值得到的数值确定为缩放因子。
需要说明的是,缩放因子的具体获得方式可以根据以下公式实现:
Figure PCTCN2022090748-appb-000003
其中,s为所述缩放因子,w 1、h 1、w 2、h 2、x 1、x 2和y 2的具体释义在上述实施例已详细说明,在此不多做赘述。
需要说明的是,本申请实施例还提供了对缩放因子s的约束方法,能够有效增强数据的多样性,从而增强模型的鲁棒性,具体约束公式如下:
Figure PCTCN2022090748-appb-000004
在本申请的一实施例中,实例分割模型的应用场景为无人驾驶技术领域,训练数据为街景图像数据,由于街景图像数据中的实例大小差异不唯一,可以差异较大,比如火车和交通信号灯,如果实例分割模型较多的使用大的边框(bounding box)和小的掩膜(mask),将不利于实例分割模型对特征的挖掘,为了引导实例分割模型能够预测出面积不会差距过大的边框和掩膜,同时,为了避免在长尾分布的数据集,分类器往往倾向于对更多出现的类别给予高的预测分值,根据本申请的技术方案,在根据街景图像数据对实例分割模型进行训练的情况下,提出通过分类损失函数以及分割损失函数对实例分割模型进行训练。
其中,分类损失函数的具体公式如下:
Figure PCTCN2022090748-appb-000005
其中,L cls(z)为分类损失值,z为预设的激活函数,y i为样本的真实值,i为第一类别标记,N i为不同类别的样本数量,j为第二类别标记,σ i根据以下公式确定:
Figure PCTCN2022090748-appb-000006
S ij根据以下公式确定:
Figure PCTCN2022090748-appb-000007
需要说明的是,本申请实施例并不限制激活函数z的选择,本领域技术人员可以根据实际情况选用激活函数,在本申请实施例中,z可以根据以下公式得到:
z=W Tx+b。
可以理解的是,分类损失函数随不同类别样本相对比例动态变化,具体是通过类别样本相对比例,本申请实施例根据约束S ij对各类别惩罚的权重进行调整。在对样本较多和较少类别采取不同惩罚的同时,本实施例提供的损失函数并不会显式地区分头部和尾部类别,整个损失计算过程保持了流畅性。此外,正是由于损失函数能够自动学习不同类别样本相对比例,以调整对各类别惩罚的权重,不需要提前计算类别分布或是依赖特别设计的数据采样方式。
其中,分割损失函数的具体公式如下:
Figure PCTCN2022090748-appb-000008
其中,
Figure PCTCN2022090748-appb-000009
根据以下公式确定:
Figure PCTCN2022090748-appb-000010
其中,p m为类别m的分割预测结果,S bbox为预测边框的面积,S mask为分割掩膜的面积。
可以理解的是,通过判断边框和分割掩膜面积比例设置交叉熵的权重,对两者面积比例差距大的预测做出更大的惩罚,从而减少特征信息的损失,从而提高实例分割模型的泛化能力。
另外,参照图6,图6是本申请另一个实施例提供的实例分割模型训练装置600的模块示意图,本申请的一个实施例还提供了一种实例分割模型训练装置600,该实例分割模型训练装置600包括第一获取模块610、第二获取模块620、目标尾部类别图像确定模块630、第三获取模块640、目标应用位置信息确定模块650、训练数据确定模块660和模型训练模块670,其中,第一获取模块610用于获取长尾分布图像数据集;第二获取模块620用于从长尾分布图像数据集中获取第一样本和第二样本,第一样本包括尾部类别图像,第二样本与第一样本互不相同;目标尾部类别图像确定模块630用于确定第一样本中尾部类别图像的第一位置信息,并根据第一位置信息对第一样本进行裁剪,得到目标尾部类别图像;第三获取模块640用于获取第一尺寸和第二尺寸,其中,第一尺寸为目标尾部类别图像的图像尺寸,第二尺寸为第二样本的图像尺寸;目标应用位置信息确定模块650用于根据第一位置信息、第一尺寸和第二尺寸确定目标尾部类别图像在第二样本的目标应用位置信息;训练数据确定模块660用于根据目标应用位置信息将目标尾部类别图像应用于第二样本,得到训练数据;模型训练模块670用于获取预设的实例分割模型,根据训练数据和预置的损失函数对实例分割模型进行训练,得到目标实例分割模型。
另外,参考图7,图7是本申请另一个实施例提供的实例分割模型训练装置700的结构图,本申请的一个实施例还提供了一种实例分割模型训练装置700,该实例分割模型训练装置700包括:存储器710、处理器720及存储在存储器710上并可在处理器720上运行的计算机程序。
处理器720和存储器710可以通过总线或者其他方式连接。
实现上述实施例的基于人工智能的实例分割模型训练方法所需的非暂态软件程序以及指令存储在存储器710中,当被处理器720执行时,执行上述实施例中的基于人工智能的实例分割模型训练方法,其中,基于人工智能的实例分割模型训练方法包括:获取长尾分布图像数据集;从长尾分布图像数据集中获取第一样本和第二样本,第一样本包括尾部类别图像,第二样本与第一样本互不相同;确定第一样本中尾部类别图像的第一位置信息,根据第一位置信息对第一样本进行裁剪,得到目标尾部类别图像;获取第一尺寸和第二尺寸,其中,第一尺寸为目标尾部类别图像的图像尺寸,第二尺寸为第二样本的图像尺寸;根据第一位置信息、第一尺寸和第二尺寸确定目标尾部类别图像在第二样本的目标应用位置信息;根据目标应用位置信息将目标尾部类别图像应用于第二样本,得到训练数据;获取预设的实例分割模型,根据训练数据和预置的损失函数对实例分割模型进行训练,得到目标实例分割模型。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
此外,本申请的一个实施例还提供了一种计算机可读存储介质,该计算机可读存储介质可以是非易失性,也可以是易失性,该计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令被一个处理器720或控制器执行,例如,被上述实例分割模型训练装置700实施例中的一个处理器720执行,可使得上述处理器720执行上述实施例中的基于人工智能的实例分割模型训练方法,其中,基于人工智能的实例分割模型训练方法包括:获取长尾分布图像数据集;从长尾分布图像数据集中获取第一样本和第二样本,第一样本包括尾部类别图像,第二样本与第一样本互不相同;确定第一样本中尾部类别图像的第一位置信息,根据第一位置信息对第一样本进行裁剪,得到目标尾部类别图像;获取第一尺寸和第二尺寸,其中,第一尺寸为目标尾部类别图像的图像尺寸,第二尺寸为第二样本的图像尺寸;根据第一位置信息、第一尺寸和第二尺寸确定目标尾部类别图像在第二样本的目标应用位置信息;根据目标应用位置信息将目标尾部类别图像应用于第二样本,得到训练数据;获取预设的实例分割模型,根据训练数据和预置的损失函数对实例分割模型进行训练,得到目标实例分割模型。本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理 器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
以上是对本申请的较佳实施进行了具体说明,但本申请并不局限于上述实施方式,熟悉本领域的技术人员在不违背本申请精神的前提下还可作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (20)

  1. 一种基于人工智能的实例分割模型训练方法,其中,包括:
    获取长尾分布图像数据集;
    从所述长尾分布图像数据集中获取第一样本和第二样本,所述第一样本包括尾部类别图像,所述第二样本与所述第一样本互不相同;
    确定所述第一样本中尾部类别图像的第一位置信息,根据所述第一位置信息对所述第一样本进行裁剪,得到目标尾部类别图像;
    获取第一尺寸和第二尺寸,其中,所述第一尺寸为所述目标尾部类别图像的图像尺寸,所述第二尺寸为所述第二样本的图像尺寸;
    根据所述第一位置信息、第一尺寸和所述第二尺寸确定所述目标尾部类别图像在所述第二样本的目标应用位置信息;
    根据所述目标应用位置信息将所述目标尾部类别图像应用于所述第二样本,得到训练数据;
    获取预设的实例分割模型,根据所述训练数据和预置的损失函数对所述实例分割模型进行训练,得到目标实例分割模型。
  2. 根据权利要求1所述的方法,其中,在根据所述第一位置信息对所述第一样本进行裁剪,得到目标尾部类别图像之后,还包括:
    对所述目标尾部类别图像进行数据增强,得到新的目标尾部类别图像。
  3. 根据权利要求1所述的方法,其中,在所述根据目标应用位置信息将目标尾部类别图像应用于第二样本之前,还包括:
    根据所述第一尺寸、所述第二尺寸得到缩放因子;
    根据所述缩放因子对所述目标尾部类别图像进行尺寸调整。
  4. 根据权利要求3所述的方法,其中,所述第一尺寸包括第一宽度和第一高度,所述第二尺寸包括第二宽度和第二高度,所述第一位置信息包括第一横坐标信息和第一纵坐标信息,所述根据所述第一位置信息、第一尺寸和所述第二尺寸确定所述目标尾部类别图像在所述第二样本的目标应用位置信息,包括:
    获取第二横坐标信息,所述第二横坐标信息由所述第一横坐标信息乘以所述第二高度与所述第一高度的比值得到;
    获取第二纵坐标信息,所述第二纵坐标信息由所述第一纵坐标信息乘以所述第二宽度与所述第一宽度的比值得到;
    将所述第二横坐标信息和所述第二纵坐标信息确定为所述目标应用位置信息。
  5. 根据权利要求4所述的方法,其中,所述根据所述第一尺寸、所述第二尺寸得到缩放因子,包括:
    获取第一中间值,所述第一中间值由所述第一宽度乘以所述第一高度得到;
    获取第二中间值,所述第二中间值由所述第二宽度乘以所述第二高度得到;
    将所述第二中间值除以所述第一中间值得到的数值确定为所述缩放因子。
  6. 根据权利要求1所述的方法,其中,所述损失函数包括分类损失函数,所述分类损失函数的具体公式如下:
    Figure PCTCN2022090748-appb-100001
    其中,L cls(z)为分类损失值,z为预设的激活函数,y i为样本的真实值,i为第一类别标记,N i为不同类别的样本数量,j为第二类别标记,σ i根据以下公式确定:
    Figure PCTCN2022090748-appb-100002
    S ij根据以下公式确定:
    Figure PCTCN2022090748-appb-100003
  7. 根据权利要求1所述的方法,其中,所述损失函数包括分割损失函数,所述分割损失函数的具体公式如下:
    Figure PCTCN2022090748-appb-100004
    其中,
    Figure PCTCN2022090748-appb-100005
    根据以下公式确定:
    Figure PCTCN2022090748-appb-100006
    其中,p m为类别m的分割预测结果,S bbox为预测边框的面积,S mask为分割掩膜的面积。
  8. 一种实例分割模型训练装置,其中,包括:
    第一获取模块,所述第一获取模块用于获取长尾分布图像数据集;
    第二获取模块,所述第二获取模块用于从所述长尾分布图像数据集中获取第一样本和第二样本,所述第一样本包括尾部类别图像,所述第二样本与所述第一样本互不相同;
    目标尾部类别图像确定模块,所述目标尾部类别图像确定模块用于确定所述第一样本中尾部类别图像的第一位置信息,并根据所述第一位置信息对所述第一样本进行裁剪,得到目标尾部类别图像;
    第三获取模块,所述第三获取模块用于获取第一尺寸和第二尺寸,其中,所述第一尺寸为所述目标尾部类别图像的图像尺寸,所述第二尺寸为所述第二样本的图像尺寸;
    目标应用位置信息确定模块,所述目标应用位置信息确定模块用于根据所述第一位置信息、第一尺寸和所述第二尺寸确定所述目标尾部类别图像在所述第二样本的目标应用位置信息;
    训练数据确定模块,所述训练数据确定模块用于根据所述目标应用位置信息将所述目标尾部类别图像应用于所述第二样本,得到训练数据;
    模型训练模块,所述模型训练模块用于获取预设的实例分割模型,根据所述训练数据和预置的损失函数对所述实例分割模型进行训练,得到目标实例分割模型。
  9. 一种实例分割模型训练装置,其中,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现基于人工智能的实例分割模型训练方法;
    其中,所述基于人工智能的实例分割模型训练方法包括:
    获取长尾分布图像数据集;
    从所述长尾分布图像数据集中获取第一样本和第二样本,所述第一样本包括尾部类别图像,所述第二样本与所述第一样本互不相同;
    确定所述第一样本中尾部类别图像的第一位置信息,根据所述第一位置信息对所述第一样本进行裁剪,得到目标尾部类别图像;
    获取第一尺寸和第二尺寸,其中,所述第一尺寸为所述目标尾部类别图像的图像尺寸,所述第二尺寸为所述第二样本的图像尺寸;
    根据所述第一位置信息、第一尺寸和所述第二尺寸确定所述目标尾部类别图像在所述第二样本的目标应用位置信息;
    根据所述目标应用位置信息将所述目标尾部类别图像应用于所述第二样本,得到训练数据;
    获取预设的实例分割模型,根据所述训练数据和预置的损失函数对所述实例分割模型进行训练,得到目标实例分割模型。
  10. 根据权利要求9所述的一种实例分割模型训练装置,其中,在所述根据所述第一位置信息对所述第一样本进行裁剪,得到目标尾部类别图像之后,所述方法还包括:
    对所述目标尾部类别图像进行数据增强,得到新的目标尾部类别图像。
  11. 根据权利要求9所述的一种实例分割模型训练装置,其中,在所述根据目标应用位置信息将目标尾部类别图像应用于第二样本之前,还包括:
    根据所述第一尺寸、所述第二尺寸得到缩放因子;
    根据所述缩放因子对所述目标尾部类别图像进行尺寸调整。
  12. 根据权利要求11所述的一种实例分割模型训练装置,其中,所述第一尺寸包括第一宽度和第一高度,所述第二尺寸包括第二宽度和第二高度,所述第一位置信息包括第一横坐标信息和第一纵坐标信息,所述根据所述第一位置信息、第一尺寸和所述第二尺寸确定所述目标尾部类别图像在所述第二样本的目标应用位置信息,包括:
    获取第二横坐标信息,所述第二横坐标信息由所述第一横坐标信息乘以所述第二高度与所述第一高度的比值得到;
    获取第二纵坐标信息,所述第二纵坐标信息由所述第一纵坐标信息乘以所述第二宽度与所述第一宽度的比值得到;
    将所述第二横坐标信息和所述第二纵坐标信息确定为所述目标应用位置信息。
  13. 根据权利要求12所述的一种实例分割模型训练装置,其中,所述根据所述第一尺寸、所述第二尺寸得到缩放因子,包括:
    获取第一中间值,所述第一中间值由所述第一宽度乘以所述第一高度得到;
    获取第二中间值,所述第二中间值由所述第二宽度乘以所述第二高度得到;
    将所述第二中间值除以所述第一中间值得到的数值确定为所述缩放因子。
  14. 根据权利要求9所述的一种实例分割模型训练装置,其中,所述损失函数包括分类损失函数,所述分类损失函数的具体公式如下:
    Figure PCTCN2022090748-appb-100007
    其中,L cls(z)为分类损失值,z为预设的激活函数,y i为样本的真实值,i为第一类别标记,N i为不同类别的样本数量,j为第二类别标记,σ i根据以下公式确定:
    Figure PCTCN2022090748-appb-100008
    S ij根据以下公式确定:
    Figure PCTCN2022090748-appb-100009
  15. 一种计算机可读存储介质,存储有计算机可执行指令,其中,所述计算机可执行指令用于执行基于人工智能的实例分割模型训练方法;
    其中,所述基于人工智能的实例分割模型训练方法包括:
    获取长尾分布图像数据集;
    从所述长尾分布图像数据集中获取第一样本和第二样本,所述第一样本包括尾部类别图像,所述第二样本与所述第一样本互不相同;
    确定所述第一样本中尾部类别图像的第一位置信息,根据所述第一位置信息对所述第一样本进行裁剪,得到目标尾部类别图像;
    获取第一尺寸和第二尺寸,其中,所述第一尺寸为所述目标尾部类别图像的图像尺寸,所述第二尺寸为所述第二样本的图像尺寸;
    根据所述第一位置信息、第一尺寸和所述第二尺寸确定所述目标尾部类别图像在所述第二样本的目标应用位置信息;
    根据所述目标应用位置信息将所述目标尾部类别图像应用于所述第二样本,得到训练数据;
    获取预设的实例分割模型,根据所述训练数据和预置的损失函数对所述实例分割模型进行训练,得到目标实例分割模型。
  16. 根据权利要求15所述的一种计算机可读存储介质,其中,所述根据所述第一位置信息对所述第一样本进行裁剪,得到目标尾部类别图像之后,所述方法还包括:
    对所述目标尾部类别图像进行数据增强,得到新的目标尾部类别图像。
  17. 根据权利要求15所述的一种计算机可读存储介质,其中,所述根据目标应用位置信息将目标尾部类别图像应用于第二样本之前,所述方法还包括:
    根据所述第一尺寸、所述第二尺寸得到缩放因子;
    根据所述缩放因子对所述目标尾部类别图像进行尺寸调整。
  18. 根据权利要求17所述的一种计算机可读存储介质,其中,所述第一尺寸包括第一宽度和第一高度,所述第二尺寸包括第二宽度和第二高度,所述第一位置信息包括第一横坐标信息和第一纵坐标信息,所述根据所述第一位置信息、第一尺寸和所述第二尺寸确定所述目标尾部类别图像在所述第二样本的目标应用位置信息,包括:
    获取第二横坐标信息,所述第二横坐标信息由所述第一横坐标信息乘以所述第二高度与所述第一高度的比值得到;
    获取第二纵坐标信息,所述第二纵坐标信息由所述第一纵坐标信息乘以所述第二宽度与所述第一宽度的比值得到;
    将所述第二横坐标信息和所述第二纵坐标信息确定为所述目标应用位置信息。
  19. 根据权利要求18所述的一种计算机可读存储介质,其中,所述根据所述第一尺寸、 所述第二尺寸得到缩放因子,包括:
    获取第一中间值,所述第一中间值由所述第一宽度乘以所述第一高度得到;
    获取第二中间值,所述第二中间值由所述第二宽度乘以所述第二高度得到;
    将所述第二中间值除以所述第一中间值得到的数值确定为所述缩放因子。
  20. 根据权利要求18所述的一种计算机可读存储介质,其中,所述损失函数包括分类损失函数,所述分类损失函数的具体公式如下:
    Figure PCTCN2022090748-appb-100010
    其中,L cls(z)为分类损失值,z为预设的激活函数,y i为样本的真实值,i为第一类别标记,N i为不同类别的样本数量,j为第二类别标记,σ i根据以下公式确定:
    Figure PCTCN2022090748-appb-100011
    S ij根据以下公式确定:
    Figure PCTCN2022090748-appb-100012
PCT/CN2022/090748 2022-01-21 2022-04-29 基于人工智能的实例分割模型训练方法、装置、存储介质 WO2023137921A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202210074092.2A CN114399512B (zh) 2022-01-21 2022-01-21 基于人工智能的实例分割模型训练方法、装置、存储介质
CN202210074092.2 2022-01-21

Publications (1)

Publication Number Publication Date
WO2023137921A1 true WO2023137921A1 (zh) 2023-07-27

Family

ID=81233124

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2022/090748 WO2023137921A1 (zh) 2022-01-21 2022-04-29 基于人工智能的实例分割模型训练方法、装置、存储介质

Country Status (2)

Country Link
CN (1) CN114399512B (zh)
WO (1) WO2023137921A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117058564A (zh) * 2023-10-11 2023-11-14 光轮智能(北京)科技有限公司 一种虚拟感知数据获取方法及长尾场景数据挖掘方法

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114399512B (zh) * 2022-01-21 2024-07-12 平安科技(深圳)有限公司 基于人工智能的实例分割模型训练方法、装置、存储介质
CN115170800A (zh) * 2022-07-15 2022-10-11 浙江大学 一种基于社交媒体与深度学习的城市内涝积水深度识别方法
CN115131552A (zh) * 2022-07-20 2022-09-30 上海联影智能医疗科技有限公司 目标检测方法、计算机设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150206315A1 (en) * 2014-01-21 2015-07-23 Adobe Systems Incorporated Labeling Objects in Image Scenes
CN111832406A (zh) * 2020-06-05 2020-10-27 中国科学院计算技术研究所 一种长尾目标检测方法与系统
CN112101544A (zh) * 2020-08-21 2020-12-18 清华大学 适用于长尾分布数据集的神经网络的训练方法和装置
CN113689436A (zh) * 2021-09-29 2021-11-23 平安科技(深圳)有限公司 图像语义分割方法、装置、设备及存储介质
CN114399512A (zh) * 2022-01-21 2022-04-26 平安科技(深圳)有限公司 基于人工智能的实例分割模型训练方法、装置、存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109949316B (zh) * 2019-03-01 2020-10-27 东南大学 一种基于rgb-t融合的电网设备图像弱监督实例分割方法
CN110264468B (zh) * 2019-08-14 2019-11-19 长沙智能驾驶研究院有限公司 点云数据标注、分割模型确定、目标检测方法及相关设备
CN114424253B (zh) * 2019-11-08 2024-10-15 深圳市欢太科技有限公司 模型训练方法、装置、存储介质及电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150206315A1 (en) * 2014-01-21 2015-07-23 Adobe Systems Incorporated Labeling Objects in Image Scenes
CN111832406A (zh) * 2020-06-05 2020-10-27 中国科学院计算技术研究所 一种长尾目标检测方法与系统
CN112101544A (zh) * 2020-08-21 2020-12-18 清华大学 适用于长尾分布数据集的神经网络的训练方法和装置
CN113689436A (zh) * 2021-09-29 2021-11-23 平安科技(深圳)有限公司 图像语义分割方法、装置、设备及存储介质
CN114399512A (zh) * 2022-01-21 2022-04-26 平安科技(深圳)有限公司 基于人工智能的实例分割模型训练方法、装置、存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
GUO HAO; WANG SONG: "Long-Tailed Multi-Label Visual Recognition by Collaborative Training on Uniform and Re-balanced Samplings", 2021 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR), IEEE, 20 June 2021 (2021-06-20), pages 15084 - 15093, XP034008145, DOI: 10.1109/CVPR46437.2021.01484 *
JADON SHRUTI: "A survey of loss functions for semantic segmentation", 2020 IEEE CONFERENCE ON COMPUTATIONAL INTELLIGENCE IN BIOINFORMATICS AND COMPUTATIONAL BIOLOGY (CIBCB), IEEE, 27 October 2020 (2020-10-27) - 29 October 2020 (2020-10-29), pages 1 - 7, XP093079998, ISBN: 978-1-7281-9468-4, DOI: 10.1109/CIBCB48159.2020.9277638 *
WANG JIAQI; ZHANG WENWEI; ZANG YUHANG; CAO YUHANG; PANG JIANGMIAO; GONG TAO; CHEN KAI; LIU ZIWEI; LOY CHEN CHANGE; LIN DAHUA: "Seesaw Loss for Long-Tailed Instance Segmentation", 2021 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR), IEEE, 20 June 2021 (2021-06-20), pages 9690 - 9699, XP034007014, DOI: 10.1109/CVPR46437.2021.00957 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117058564A (zh) * 2023-10-11 2023-11-14 光轮智能(北京)科技有限公司 一种虚拟感知数据获取方法及长尾场景数据挖掘方法
CN117058564B (zh) * 2023-10-11 2023-12-22 光轮智能(北京)科技有限公司 一种虚拟感知数据获取方法及长尾场景数据挖掘方法

Also Published As

Publication number Publication date
CN114399512A (zh) 2022-04-26
CN114399512B (zh) 2024-07-12

Similar Documents

Publication Publication Date Title
WO2023137921A1 (zh) 基于人工智能的实例分割模型训练方法、装置、存储介质
CN109747638B (zh) 一种车辆行驶意图识别方法及装置
JP7024115B2 (ja) 区画線に基づくインテリジェントドライブ制御方法および装置、ならびに電子機器
US10726304B2 (en) Refining synthetic data with a generative adversarial network using auxiliary inputs
WO2019232830A1 (zh) 机场异物检测方法、装置、计算机设备及存储介质
JP2022521448A (ja) 交通画像認識方法、装置、コンピュータデバイスおよび媒体
US20210117704A1 (en) Obstacle detection method, intelligent driving control method, electronic device, and non-transitory computer-readable storage medium
CN106326858A (zh) 一种基于深度学习的公路交通标志自动识别与管理系统
CN111914698A (zh) 图像中人体的分割方法、分割系统、电子设备及存储介质
Chen et al. An effective approach of vehicle detection using deep learning
CN110570434A (zh) 一种图像分割标注方法和装置
CN111091038A (zh) 训练方法、计算机可读介质和检测消失点的方法及装置
WO2023050651A1 (zh) 图像语义分割方法、装置、设备及存储介质
CN111191611A (zh) 基于深度学习的交通标志标号识别方法
CN113011144A (zh) 表单信息的获取方法、装置和服务器
CN112613434B (zh) 道路目标检测方法、装置及存储介质
WO2024055530A1 (zh) 一种图像的目标检测方法、系统、设备及存储介质
CN115273032A (zh) 交通标志识别方法、装置、设备及介质
CN116433903A (zh) 实例分割模型构建方法、系统、电子设备及存储介质
Alam et al. Faster RCNN based robust vehicle detection algorithm for identifying and classifying vehicles
US20200010016A1 (en) Lateral image processing apparatus and method of mirrorless car
CN118015595A (zh) 基于注意力机制和动态卷积的车辆目标检测和识别方法
CN113887481A (zh) 一种图像处理方法、装置、电子设备及介质
Moussaoui et al. Enhancing automated vehicle identification by integrating YOLO v8 and OCR techniques for high-precision license plate detection and recognition
CN109635719A (zh) 一种图像识别方法、装置和计算机可读存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22921352

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE