WO2022057306A1 - 医疗影像数据扩增方法、装置、计算机设备和介质 - Google Patents

医疗影像数据扩增方法、装置、计算机设备和介质 Download PDF

Info

Publication number
WO2022057306A1
WO2022057306A1 PCT/CN2021/096213 CN2021096213W WO2022057306A1 WO 2022057306 A1 WO2022057306 A1 WO 2022057306A1 CN 2021096213 W CN2021096213 W CN 2021096213W WO 2022057306 A1 WO2022057306 A1 WO 2022057306A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
medical image
sample data
image sample
strategy
Prior art date
Application number
PCT/CN2021/096213
Other languages
English (en)
French (fr)
Inventor
徐欣星
Original Assignee
平安国际智慧城市科技股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 平安国际智慧城市科技股份有限公司 filed Critical 平安国际智慧城市科技股份有限公司
Publication of WO2022057306A1 publication Critical patent/WO2022057306A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Definitions

  • the present application relates to the technical field of artificial intelligence, and in particular, to a medical image data augmentation method, apparatus, computer equipment and computer-readable storage medium.
  • machine learning models such as deep learning models are widely used.
  • the inventors realized that the training of these machine learning models requires a large amount of data. Due to factors such as patient privacy, medical imaging data is often difficult to obtain, especially since the number of patients with actual lesions is small, which further increases medical imaging data. In particular, due to the scarcity of abnormal medical image data, how to obtain sufficient medical image data to train the model has become an urgent problem to be solved in the industry.
  • the purpose of this application is to provide a medical image data amplification method, device, computer equipment and computer-readable storage medium.
  • a medical image data augmentation method including:
  • the basic medical image recognition model is trained by using the normal medical image sample data and abnormal medical image sample data in the sample data set to obtain a first medical image recognition model, wherein the number of normal medical image sample data in the sample data set is larger than the abnormal medical image sample data The amount of medical imaging sample data;
  • the centralized abnormal medical image sample data is amplified to generate a set of amplified medical image sample data;
  • the first medical image recognition model is trained by using the medical image sample data amplified by each group to obtain a post-training medical image recognition model corresponding to each candidate data amplification strategy;
  • At least one candidate data augmentation strategy is determined as the target data augmentation strategy from among the candidate data augmentation strategies corresponding to each of the post-training medical image recognition models;
  • a medical image data augmentation device including:
  • the first training module is configured to use the normal medical image sample data and abnormal medical image sample data in the sample data set to train the basic medical image recognition model to obtain the first medical image recognition model, wherein the normal medical image recognition model in the sample data set is The quantity of medical image sample data is greater than the quantity of abnormal medical image sample data;
  • the first amplification module is configured to select an unselected data amplification strategy from the preset data amplification strategy set each time, use the data amplification strategy as a candidate data amplification strategy, and use the candidate data
  • the amplification strategy at least amplifies abnormal medical image sample data in the sample data set to generate a set of amplified medical image sample data
  • the second training module is configured to separately train the first medical image recognition model by using the medical image sample data amplified by each group to obtain a post-training medical image recognition model corresponding to each candidate data amplification strategy;
  • a performance index determination module configured to determine the performance index of each of the post-training medical image recognition models based on a preset test data set, where the preset test data set includes a plurality of abnormal medical image sample data;
  • a strategy determination module configured to determine at least one candidate data augmentation strategy as a target among the candidate data augmentation strategies corresponding to each post-training medical image recognition model according to the performance index of each post-training medical image recognition model data augmentation strategy;
  • the second augmentation module is configured to augment at least abnormal medical image sample data in the sample data set by using the target data augmentation strategy.
  • a computer device comprising a memory and a processor, the memory being used to store a program for augmenting medical image data by the processor, the processor being configured to perform augmentation of the medical image data by executing the medical image data augmentation program.
  • An additional program is added to perform the following processing: using the normal medical image sample data and abnormal medical image sample data in the sample data set to train the basic medical image recognition model to obtain a first medical image recognition model, wherein the normal medical image recognition model in the sample data set is The quantity of medical image sample data is greater than the quantity of abnormal medical image sample data; each time an unselected data augmentation strategy is selected from the preset data augmentation strategy set, and the data augmentation strategy is used as a candidate data augmentation strategy.
  • the candidate data amplification strategy to at least amplify the abnormal medical image sample data in the sample data set to generate a set of amplified medical image sample data; use the amplified medical image sample data of each group to separately
  • the first medical image recognition model is trained to obtain a post-training medical image recognition model corresponding to each candidate data augmentation strategy; the performance index of each post-training medical image recognition model is determined based on a preset test data set, and the The preset test data set includes a plurality of abnormal medical image sample data; according to the performance index of each post-training medical image recognition model, at least one of the candidate data augmentation strategies corresponding to each post-training medical image recognition model is determined.
  • a candidate data augmentation strategy is used as a target data augmentation strategy; at least abnormal medical image sample data in the sample data set is augmented by using the target data augmentation strategy.
  • a computer-readable storage medium storing computer-readable instructions
  • a program for augmenting medical image data is stored thereon, and when the program for augmenting medical image data is executed by a processor, the following processes are implemented : Use the normal medical image sample data and abnormal medical image sample data in the sample data set to train the basic medical image recognition model to obtain a first medical image recognition model, wherein the number of normal medical image sample data in the sample data set is greater than The number of abnormal medical image sample data; each time a data augmentation strategy that has not been selected is selected from the preset data augmentation strategy set, the data augmentation strategy is used as a candidate data augmentation strategy, and the candidate data augmentation strategy is used to expand
  • the augmentation strategy at least amplifies the abnormal medical image sample data in the sample data set to generate a set of amplified medical image sample data; and uses the amplified medical image sample data from each set of medical image sample data to respectively analyze the first medical image.
  • the recognition model is trained to obtain a post-training medical image recognition model corresponding to each candidate data augmentation strategy; the performance index of each of the post-training medical image recognition models is determined based on a preset test data set, and the preset test data set includes A plurality of abnormal medical image sample data; according to the performance index of each post-training medical image recognition model, at least one candidate data augmentation strategy is determined from the candidate data augmentation strategies corresponding to each post-training medical image recognition model as A target data augmentation strategy; at least the abnormal medical image sample data in the sample data set is augmented by using the target data augmentation strategy.
  • the above-mentioned medical image data augmentation method, device, computer equipment and computer-readable storage medium can select a target data augmentation strategy to at least augment abnormal medical image sample data, thereby improving the acquisition of medical image data, especially abnormal medical images.
  • the convenience of data since the target data augmentation strategy is selected from the candidate data augmentation strategies according to the performance indicators of the post-training medical image recognition model, and the post-training medical image recognition model is based on the use of the candidate data augmentation strategy
  • the amplified medical image sample data is trained, so the quality of the amplified medical image data can be improved.
  • This solution belongs to the field of smart medical care, and the construction of a smart city can be promoted through this solution. It is to be understood that the foregoing general description and the following detailed description are exemplary only and do not limit the application.
  • FIG. 1 is a schematic diagram of a system architecture of a medical image data augmentation method according to an exemplary embodiment.
  • Fig. 2 is a flow chart of a method for augmenting medical image data according to an exemplary embodiment.
  • FIG. 3 is a flowchart showing details of step 260 of an embodiment according to the corresponding embodiment of FIG. 2 .
  • Fig. 4 is a block diagram of a medical image data augmentation apparatus according to an exemplary embodiment.
  • FIG. 5 is an exemplary block diagram of a computer device for implementing the above medical image data augmentation method according to an exemplary embodiment.
  • FIG. 6 is a computer-readable storage medium for implementing the above medical image data augmentation method according to an exemplary embodiment.
  • the present application first provides a medical image data augmentation method.
  • the medical image data can be various types of image data in the medical field, such as lung image data of pulmonary nodules, or bone image data used to measure bone age.
  • large amounts of data are required to train models.
  • the data used to train the model is completely inadequate.
  • the medical image data augmentation method provided in the present application can increase the quantity of medical image data, thereby meeting the needs of training artificial intelligence models in the medical field. This solution can be applied in the field of smart medical care, thereby promoting the construction of smart cities.
  • the implementation terminal of this application can be any device with computing, processing and communication functions, which can be connected to an external device for receiving or sending data, and specifically can be a portable mobile device, such as a smart phone, tablet computer, notebook computer, PDA (Personal Digital Assistant), etc., can also be fixed devices, such as computer equipment, field terminals, desktop computers, servers, workstations, etc., or a collection of multiple devices, such as cloud computing physical infrastructure or server clusters .
  • a portable mobile device such as a smart phone, tablet computer, notebook computer, PDA (Personal Digital Assistant), etc.
  • PDA Personal Digital Assistant
  • the implementation terminal of the present application may be a server or a physical infrastructure of cloud computing.
  • FIG. 1 is a schematic diagram of a system architecture of a medical image data augmentation method according to an exemplary embodiment.
  • the system architecture includes a server 110, a medical image sample database 120 and a data augmentation strategy database 130, wherein the medical image sample database 120 and the data augmentation strategy database 130 are respectively connected to the server 110 through a communication link, Can be used to send or receive data.
  • the server 110 is an implementation terminal in this embodiment and is deployed with a basic medical image recognition model.
  • the data augmentation strategy database 130 stores a plurality of data augmentation strategies, which constitute a preset data augmentation strategy set.
  • the medical image sample database 120 A sample data set and a preset test data set are stored on the .
  • a process may be as follows: the server 110 obtains a sample data set from the medical image sample database 120 and uses the sample data Then, the server 110 selects a data augmentation strategy from the data augmentation strategy database 130 each time to augment the sample data in the sample data set , and generate a set of amplified sample data; next, the server 110 uses the generated sample data to continue training the first medical image recognition model to obtain a plurality of post-training medical image recognition models; The medical image sample database 120 obtains a preset test data set, and uses the preset test data set to test the post-training medical image recognition model to obtain corresponding performance indicators; finally, the server 110 augments the selected data according to the performance indicators
  • the target data augmentation strategy is determined in the strategy, and the sample data set is augmented by the target data augmentation strategy. In this way, the amplification of the medical image data is realized, and the quality of the amplified medical image data is guaranteed.
  • FIG. 1 is only one embodiment of the present application.
  • the implementation terminal in this embodiment is a server, in other embodiments, the implementation terminal may be various terminals or devices as described above; although in this embodiment, the sample data set and the preset test data set .
  • the sample data set and the preset test data set are located on the same database, and the preset data amplification strategy set is located separately on another database, and both are located outside the implementation terminal, but in other embodiments
  • the sample data set, the preset test data set, and the preset data amplification strategy set may be located on different terminals, or may be located on the same terminal, or may be located on a terminal other than the implementation terminal. , can also be stored locally in the implementation terminal.
  • This application does not make any limitation on this, and the protection scope of this application should not be limited in any way.
  • Fig. 2 is a flow chart of a method for augmenting medical image data according to an exemplary embodiment.
  • the medical image data augmentation method provided in this embodiment can be executed by a server, as shown in FIG. 2 , and includes the following steps:
  • Step 210 using the normal medical image sample data and the abnormal medical image sample data in the sample data set to train the basic medical image recognition model to obtain a first medical image recognition model.
  • the quantity of normal medical image sample data in the sample data set is greater than the quantity of abnormal medical image sample data.
  • Basic medical image recognition models can be implemented based on various algorithms or models, such as machine learning models, or deep learning models such as convolutional neural network models, reinforcement learning models, and generative adversarial network models.
  • the basic medical image recognition model can be an untrained model that only includes basic parts such as the model's architecture and hyperparameters, or a trained model that can include more parameters.
  • the medical image data may be various types of image data in the medical field, for example, it may be the image data of the region where pulmonary nodules can occur.
  • the normal medical image sample data is the image sample data showing no disease in the corresponding area
  • the abnormal medical image sample data is the image sample data showing that the corresponding area is diseased or has lesions.
  • the normal medical image sample data and the abnormal medical image sample data in the sample data set can be distinguished by means of labels.
  • step 220 each time a data augmentation strategy that has not been selected is selected from the preset data augmentation strategy set, the data augmentation strategy is used as a candidate data augmentation strategy, and the candidate data augmentation strategy is used for at least all data augmentation strategies.
  • the abnormal medical image sample data in the sample data set is amplified, and a set of amplified medical image sample data is generated.
  • the preset data augmentation strategy set may include multiple data augmentation strategies, and the data augmentation strategy is a specific means or manner for augmenting data, which may specifically include: flipping, scaling, rotating, cropping, deformation, color transformation, noise , padding, etc.
  • Flip is the operation of rotating on the axis of the image
  • scaling is the operation of transforming the resolution of the image
  • rotation is the operation of rotating with the point located in the image as the center of the circle
  • cropping is the operation of randomly cutting out a part of the image
  • deformation It is the operation of deforming the image according to certain rules
  • the color transformation is the operation of changing certain types of pixel values in the image
  • the noise is the operation of turning some pixel areas in the image into black or white
  • the filling is the operation of changing some pixel areas in the image according to specific rules.
  • the method further includes:
  • the total data value is the sum of the data volume of the medical image sample data in the sample data set and the data volume of a set of amplified medical image sample data to be generated;
  • the amplification is determined according to the total data volume of medical image sample data in the sample data set, the data volume of normal medical image sample data in the sample data set, the data volume of abnormal medical image sample data, and the value of the total data volume.
  • a data indicator wherein the augmented data indicator includes at least one data type to be augmented and a data volume corresponding to the data type, and the data type to be augmented is abnormal medical image sample data and normal medical image sample One item of data; selecting an unselected data augmentation strategy from the preset data augmentation strategy set each time, using the data augmentation strategy as a candidate data augmentation strategy, and using the candidate data augmentation strategy
  • the augmentation strategy at least augments the abnormal medical image sample data in the sample data set, and generates a set of amplified medical image sample data, including:
  • the strategy at least amplifies abnormal medical image sample data in the sample data set to generate a set of amplified medical image sample data.
  • the total data value can be obtained from an external terminal, for example, by accessing an external database, or obtained from a user terminal. Specifically, the user can use the user terminal to provide the total data value through a form; The quantity value can also be obtained locally from the terminal, for example, the total data value can be obtained by reading a configuration file.
  • the amplification data indicators are first determined, and finally the data amplification is carried out in a targeted manner based on the amplification data indicators, so that each candidate data amplification strategy is used to perform the amplification. data augmentation is more effective.
  • the data volume of medical image sample data in the sample data set, the data volume of normal medical image sample data in the sample data set, the data volume of abnormal medical image sample data, and the The total value of the data, to determine the amplification data indicators including:
  • the data type to be amplified in the amplified data indicator is abnormal medical image sample data
  • the data type to be amplified is determined to be abnormal medical image sample data.
  • the data amount corresponding to the added data type is the difference between the data total amount value and the data total amount of the medical image sample data in the sample data set;
  • the data types to be augmented in the augmented data indicator are abnormal medical image sample data and normal medical image sample data Data
  • the data volume corresponding to the data type of the abnormal medical image sample data is the difference between half of the total data value and the data volume of the abnormal medical image sample data
  • the data volume corresponding to the data type of the normal medical image sample data is the difference between half of the total data value and the data amount of the normal medical image sample data.
  • the normal medical image sample data and the abnormal medical image sample data are amplified respectively, thereby This makes the amount of data in the amplified sample data set more and different types of data more balanced, so that the training effect of each candidate data amplification strategy can be more fully reflected, and then the selected target data amplification can be improved. accuracy of the strategy.
  • the total data value is 50
  • the data volume of normal medical image sample data in the sample data set is 18, and the data volume of abnormal medical image sample data is 5, then the data volume of normal medical image sample data in the sample data set is 50%. Twice is 36. Therefore, the total data value is greater than twice the data volume of normal medical image sample data in the sample data set.
  • the total data value is greater than twice the data amount of the normal medical image sample data in the sample data set
  • other methods of amplifying the data indicators can also be used, for example, it can be amplified according to a certain proportion.
  • the ratio of the data volume of normal medical image sample data to the data volume of abnormal medical image sample data in the sample data set is M:N
  • the data types to be amplified are abnormal medical image sample data and normal medical image sample data , where the ratio of the data volume of the normal medical image sample data to be amplified and the abnormal medical image sample data is N:M.
  • the difference value of can determine the amount of data corresponding to each data type.
  • the data volume of normal medical image sample data and the data volume of abnormal medical image sample data in the sample data set are 20 and 2 respectively, and the total data volume of medical image sample data in the sample data set is 22, then both The ratio is 10:1, and the ratio of the data volume of the normal medical image sample data to be amplified to the abnormal medical image sample data is 1:10. If the total data value is 66, then the total data value and the sample data set The difference between the total data of the medical image sample data is 44, and finally it can be calculated that the data volume of the normal medical image sample data to be amplified is 4, and the data volume of the abnormal medical image sample data to be amplified is 40.
  • Step 230 Train the first medical image recognition model by using the medical image sample data amplified by each group to obtain a post-training medical image recognition model corresponding to each candidate data augmentation strategy.
  • each group of amplified medical image sample data generated by each candidate data augmentation strategy has the same amount of data.
  • the first medical image is identified by using the medical image sample data amplified by each group.
  • the training intensity is the same, which makes it more fair to test the performance indicators of the trained medical image recognition model.
  • the amplified medical image sample data is amplified abnormal medical image sample data
  • the amplified abnormal medical image sample data is composed of abnormal medical image sample data in the sample data set Amplified, the sum of the data volume of any group of amplified abnormal medical image sample data and the data volume of abnormal medical image sample data in the sample data set is equal to the data volume of normal medical image sample data in the sample data set .
  • the data volume of abnormal medical image sample data amplified by each group is the same. .
  • the abnormal medical image sample data is amplified, and the sum of the data volume of the abnormal medical image sample data amplified by each group and the data volume of the abnormal medical image sample data in the sample data set is equal to
  • the data volume of the normal medical image sample data in the sample data set can make the positive and negative sample distribution of the medical image sample data used for training the first medical image recognition model more balanced, thereby improving the training effect and further improving the training efficiency. Evaluation of the Accuracy of Performance Metrics for Post-Medical Image Recognition Models.
  • Step 240 Determine the performance index of each of the post-training medical image recognition models based on a preset test data set, where the preset test data set includes a plurality of abnormal medical image sample data.
  • Performance indicators can be various indicators that can be used to measure the performance or capability of the model in a quantitative way, such as single indicators such as recall, precision, and accuracy, or a comprehensive indicator based on multiple single indicators. For example, it can be the average or weighted average of multiple single indicators.
  • the preset test data set may include not only abnormal medical image sample data, but also normal medical image sample data.
  • Step 250 according to the performance indicators of each of the post-training medical image recognition models, determine at least one candidate data augmentation strategy from among the candidate data augmentation strategies corresponding to each of the post-training medical image recognition models as the target data augmentation strategy .
  • step 250 may include:
  • step 250 may include:
  • the candidate data augmentation strategy corresponding to the medical image recognition model after the target training is used as the target data augmentation strategy.
  • multiple target data augmentation strategies are selected at the same time, which increases the diversity of data augmentation.
  • the performance indicators are all greater than the predetermined performance indicator threshold, thus ensuring the quality of the selected target data augmentation strategy.
  • the The method before the first medical image recognition model is trained by using the medical image sample data amplified by each group, and the trained medical image recognition model corresponding to each candidate data augmentation strategy is obtained, the The method also includes:
  • each post-training data augmentation model use the post-training data augmentation model to generate a set of abnormal medical image sample data;
  • a plurality of candidate data augmentation strategies are determined as candidate target data augmentation strategies in the candidate data augmentation strategies corresponding to each post-training basic medical image recognition model ;
  • the first medical image recognition model is trained by using the medical image sample data amplified by each group to obtain a post-training medical image recognition model corresponding to each candidate data amplification strategy, including:
  • the first medical image recognition model is trained by using the medical image sample data amplified by each group corresponding to each candidate target data augmentation strategy, and a post-training medical image recognition model corresponding to each candidate target data augmentation strategy is obtained. ;
  • determining at least one candidate data augmentation strategy as the target data augmentation strategy from among the candidate data augmentation strategies corresponding to each of the post-training medical image recognition models according to the performance indicators of each of the post-training medical image recognition models include:
  • At least one candidate target data augmentation strategy is determined as the target data augmentation strategy from among the candidate target data augmentation strategies corresponding to each post-training medical image recognition model.
  • the preset data augmentation model can be established based on various algorithms or models, such as a generative adversarial network model. Since the amount of medical image sample data amplified by the candidate data augmentation strategy is often limited, the performance indicators of the model trained solely on the amplified medical image sample data often cannot fully and completely reflect Whether a candidate data augmentation strategy is the best for medical image data augmentation, in this embodiment, before using the augmented medical image sample data to train the first medical image recognition model, first use the augmented The medical image sample data is used to train the preset data augmentation model, and then use the post-training data augmentation model to generate abnormal medical image sample data. The candidate target data amplification strategy is selected, and the final target data amplification strategy is selected from the candidate target data amplification strategy. Therefore, this can improve the accuracy of the selected target data amplification strategy to a certain extent. sex.
  • Step 260 at least amplify abnormal medical image sample data in the sample data set by using the target data augmentation strategy.
  • the data volume of the medical image sample data amplified by the target data amplification strategy is larger than the data volume of the medical image sample data amplified by the candidate data amplification strategy.
  • Fig. 3 is a flowchart showing the details of step 260 of an embodiment according to the corresponding embodiment of Fig. 2, as shown in Fig. 3, including the following steps:
  • Step 261 using multiple target data augmentation strategies to randomly generate a strategy combination.
  • the strategy combination includes at least one target data augmentation strategy, and when the strategy combination includes multiple target data augmentation strategies, the strategy combination further includes the sequence of each target data augmentation strategy.
  • multiple target data augmentation strategies include cropping, deformation, color transformation, noise, and color.
  • Any single target data augmentation strategy may be a combination of strategies.
  • any two The above target data augmentation strategy can also be a strategy combination.
  • the order of the target data augmentation strategy in the strategy combination is the execution order of the target data augmentation strategy.
  • the order of a target data augmentation strategy can be cut first and then deformed. .
  • Step 262 at least amplify the abnormal medical image sample data in the sample data set by using the strategy combination.
  • the same combination of strategies can be applied to the same medical image sample data, as long as the specific strategies are different, for example, the colors of the transformation are different.
  • a target data augmentation strategy can be selected to at least augment abnormal medical image sample data, which improves the acquisition of medical image data, especially abnormal medical images.
  • the convenience of data since the target data augmentation strategy is selected from the candidate data augmentation strategies according to the performance indicators of the post-training medical image recognition model, and the post-training medical image recognition model is based on the use of the candidate data augmentation strategy
  • the amplified medical image sample data is trained, so the quality of the amplified medical image data can be improved.
  • This solution belongs to the field of smart medical care, and the construction of a smart city can be promoted through this solution.
  • the present application also provides a medical image data augmentation device, and the following is an embodiment of the device of the present application.
  • Fig. 4 is a block diagram of a medical image data augmentation apparatus according to an exemplary embodiment. As shown in FIG. 4, the apparatus 400 includes:
  • the first training module 410 is configured to use the normal medical image sample data and abnormal medical image sample data in the sample data set to train the basic medical image recognition model to obtain a first medical image recognition model, wherein the The quantity of normal medical image sample data is greater than the quantity of abnormal medical image sample data;
  • the first augmentation module 420 is configured to select an unselected data augmentation strategy from the preset data augmentation strategy set each time, use the data augmentation strategy as a candidate data augmentation strategy, and use the candidate data augmentation strategy
  • the data augmentation strategy at least augments abnormal medical image sample data in the sample data set to generate a set of amplified medical image sample data;
  • the second training module 430 is configured to separately train the first medical image recognition model by using the medical image sample data amplified by each group to obtain a post-training medical image recognition model corresponding to each candidate data augmentation strategy;
  • the performance index determination module 440 is configured to determine the performance index of each of the post-training medical image recognition models based on a preset test data set, where the preset test data set includes a plurality of abnormal medical image sample data;
  • the strategy determination module 450 is configured to determine at least one candidate data augmentation strategy from among the candidate data augmentation strategies corresponding to each of the post-training medical image recognition models according to the performance indicators of each of the post-training medical image recognition models. target data augmentation strategy;
  • the second augmentation module 460 is configured to augment at least the abnormal medical image sample data in the sample data set by using the target data augmentation strategy.
  • each group of amplified medical image sample data generated by each candidate data augmentation strategy has the same amount of data.
  • the amplified medical image sample data is amplified abnormal medical image sample data
  • the amplified abnormal medical image sample data is composed of abnormal medical image sample data in the sample data set Amplified, the sum of the data volume of any group of amplified abnormal medical image sample data and the data volume of abnormal medical image sample data in the sample data set is equal to the data volume of normal medical image sample data in the sample data set .
  • the strategy at least amplifies abnormal medical image sample data in the sample data set, and before generating a set of amplified medical image sample data, the first amplification module is further configured to:
  • the total data value is the sum of the data volume of the medical image sample data in the sample data set and the data volume of a set of amplified medical image sample data to be generated;
  • the amplification is determined according to the total data volume of medical image sample data in the sample data set, the data volume of normal medical image sample data in the sample data set, the data volume of abnormal medical image sample data, and the value of the total data volume.
  • a data indicator wherein the augmented data indicator includes at least one data type to be augmented and a data volume corresponding to the data type, and the data type to be augmented is abnormal medical image sample data and normal medical image sample an item of data; the first amplification module is further configured to:
  • the data augmentation strategy is used as a candidate data augmentation strategy, and the candidate data augmentation is performed according to the augmentation data index and the candidate data
  • the strategy at least amplifies abnormal medical image sample data in the sample data set to generate a set of amplified medical image sample data.
  • the first amplification module is further configured to:
  • the data type to be amplified in the amplified data indicator is abnormal medical image sample data
  • the data type to be amplified is determined to be abnormal medical image sample data.
  • the data amount corresponding to the added data type is the difference between the data total amount value and the data total amount of the medical image sample data in the sample data set;
  • the data types to be augmented in the augmented data indicator are abnormal medical image sample data and normal medical image sample data data
  • the data volume corresponding to the data type of the abnormal medical image sample data is the difference between half of the total data value and the data volume of the abnormal medical image sample data
  • the data volume corresponding to the data type of the normal medical image sample data is the difference between half of the total data value and the data amount of the normal medical image sample data.
  • the policy determination module is further configured to:
  • the candidate data augmentation strategy corresponding to the medical image recognition model after the target training is used as the target data augmentation strategy.
  • the second amplification module is further configured to:
  • a strategy combination is randomly generated by using multiple target data augmentation strategies, wherein the strategy combination includes at least one target data augmentation strategy, and when the strategy combination includes multiple target data augmentation strategies, the strategy combination also Include the sequence of each target data augmentation strategy;
  • At least the abnormal medical image sample data in the sample data set is augmented by using the combination of strategies.
  • a computer device which executes all or part of the steps of any of the medical image data augmentation methods shown above.
  • the computer equipment includes:
  • the memory stores instructions executable by the at least one processor, the instructions being executed by the at least one processor to enable the at least one processor to execute as illustrated in any of the above-described exemplary embodiments Medical imaging data augmentation method.
  • aspects of the present application may be implemented as a system, method or program product. Therefore, various aspects of the present application can be embodied in the following forms, namely: a complete hardware implementation, a complete software implementation (including firmware, microcode, etc.), or a combination of hardware and software aspects, which may be collectively referred to herein as implementations "circuit", “module” or "system”.
  • a computer device 500 according to this embodiment of the present application is described below with reference to FIG. 5 .
  • the computer device 500 shown in FIG. 5 is only an example, and should not impose any limitations on the functions and scope of use of the embodiments of the present application.
  • computer device 500 takes the form of a general-purpose computing device.
  • Components of the computer device 500 may include, but are not limited to, the above-mentioned at least one processing unit 510 , the above-mentioned at least one storage unit 520 , and a bus 530 connecting different system components (including the storage unit 520 and the processing unit 510 ).
  • the storage unit stores program codes, and the program codes can be executed by the processing unit 510, so that the processing unit 510 executes various exemplary methods according to the present application described in the above-mentioned “Methods of Embodiments” of this specification. Implementation steps.
  • the storage unit 520 may include a readable medium in the form of a volatile storage unit, such as a random access storage unit (RAM) 521 and/or a cache storage unit 522 , and may further include a read only storage unit (ROM) 523 .
  • RAM random access storage unit
  • ROM read only storage unit
  • the storage unit 520 may also include a program/utility 524 having a set (at least one) of program modules 525 including, but not limited to, an operating system, one or more application programs, other program modules, and program data, An implementation of a network environment may be included in each or some combination of these examples.
  • the bus 530 may be representative of one or more of several types of bus structures, including a memory cell bus or memory cell controller, a peripheral bus, a graphics acceleration port, a processing unit, or a local area using any of a variety of bus structures. bus.
  • Computer device 500 may also communicate with one or more external devices 700 (eg, keyboards, pointing devices, Bluetooth devices, etc.), may also communicate with one or more devices that enable a user to interact with the computer device 500, and/or communicate with Any device (eg, router, modem, etc.) that enables the computer device 500 to communicate with one or more other computer devices. Such communication may occur through an input/output (I/O) interface 550 , such as with display unit 540 . Also, the computer device 500 may communicate with one or more networks (eg, a local area network (LAN), a wide area network (WAN), and/or a public network such as the Internet) through a network adapter 560 .
  • networks eg, a local area network (LAN), a wide area network (WAN), and/or a public network such as the Internet
  • network adapter 560 communicates with other modules of computer device 500 via bus 530 .
  • other hardware and/or software modules may be used in conjunction with computer device 500, including but not limited to: microcode, device drivers, redundant processing units, external disk drive arrays, RAID systems, tape drives and data backup storage systems. From the description of the above embodiments, those skilled in the art can easily understand that the exemplary embodiments described herein may be implemented by software, or may be implemented by software combined with necessary hardware.
  • the technical solutions according to the embodiments of the present application may be embodied in the form of software products, and the software products may be stored in a non-volatile storage medium (which may be CD-ROM, U disk, mobile hard disk, etc.) or on the network , including several instructions to cause a computer device (which may be a personal computer, a server, a terminal device, or a network device, etc.) to execute the method according to the embodiment of the present application.
  • a computer device which may be a personal computer, a server, a terminal device, or a network device, etc.
  • a computer-readable storage medium on which a program product capable of implementing the above-mentioned method of the present specification is stored, and the computer-readable storage medium may be non-volatile or easily accessible. loss of sex.
  • various aspects of the present application can also be implemented in the form of a program product, which includes program code, which is used to cause the program product to run on a terminal device when the program product is executed.
  • the terminal device performs the steps according to various exemplary embodiments of the present application described in the above-mentioned "Example Method" section of this specification.
  • a program product 600 for implementing the above method according to an embodiment of the present application is described, which can adopt a portable compact disk read only memory (CD-ROM) and include program codes, and can be used in a terminal device, For example running on a personal computer.
  • CD-ROM portable compact disk read only memory
  • the program product of the present application is not limited thereto, and in this document, a computer-readable storage medium may be any tangible medium that contains or stores a program that can be used by or in conjunction with an instruction execution system, apparatus, or device.
  • the program product may employ any combination of one or more readable media.
  • the readable medium may be a readable signal medium or a readable storage medium.
  • the readable storage medium may be, for example, but not limited to, an electrical, magnetic, optical, electromagnetic, infrared, or semiconductor system, apparatus or device, or a combination of any of the above. More specific examples (non-exhaustive list) of readable storage media include: electrical connections with one or more wires, portable disks, hard disks, random access memory (RAM), read only memory (ROM), erasable programmable read only memory (EPROM or flash memory), optical fiber, portable compact disk read only memory (CD-ROM), optical storage devices, magnetic storage devices, or any suitable combination of the foregoing.
  • a computer readable signal medium may include a propagated data signal in baseband or as part of a carrier wave with readable program code embodied thereon. Such propagated data signals may take a variety of forms, including but not limited to electromagnetic signals, optical signals, or any suitable combination of the foregoing.
  • a readable signal medium can also be any readable medium, other than a readable storage medium, that can transmit, propagate, or transport the program for use by or in connection with the instruction execution system, apparatus, or device.
  • Program code embodied on a readable medium may be transmitted using any suitable medium, including but not limited to wireless, wireline, optical fiber cable, RF, etc., or any suitable combination of the foregoing.
  • Program code for carrying out the operations of the present application may be written in any combination of one or more programming languages, including object-oriented programming languages—such as Java, C++, etc., as well as conventional procedural Programming Language - such as the "C" language or similar programming language.
  • the program code may execute entirely on the user's computer device, partly on the user's computer device, as a stand-alone software package, partly on the user's computer device and partly on a remote computer device, or entirely on the remote computer device or execute on the server.
  • the remote computer equipment may be connected to the user computer equipment via any kind of network, including a local area network (LAN) or wide area network (WAN), or may be connected to external computer equipment (eg, using an Internet service provider business via an Internet connection).
  • LAN local area network
  • WAN wide area network

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • Quality & Reliability (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本申请涉及人工智能领域,应用智慧医疗领域,揭示了一种医疗影像数据扩增方法、装置、介质及电子设备。该方法包括:利用样本数据集中的正常医疗影像样本数据和异常医疗影像样本数据对基础模型进行训练,得到第一模型;从数据扩增策略集合中选取数据扩增策略作为候选数据扩增策略,并利用候选数据扩增策略至少对样本数据集扩增,生成一组样本数据;利用各组样本数据对第一模型进行训练,得到各训练后识别模型;确定各训练后识别模型的性能指标;根据性能指标,在候选数据扩增策略中确定出目标数据扩增策略;利用目标数据扩增策略对样本数据集进行扩增。此方法实现了医疗影像数据的扩增并提高了扩增得到的医疗影像数据的质量。

Description

医疗影像数据扩增方法、装置、计算机设备和介质
本申请要求于2020年09月15日提交中国专利局、申请号为CN 202010964587.3,发明名称为“医疗影像数据扩增方法、装置、介质及电子设备”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及人工智能技术领域,特别是涉及一种医疗影像数据扩增方法、装置、计算机设备和计算机可读存储介质。
背景技术
在医疗领域,深度学习模型等机器学习模型应用广泛。然而,发明人意识到,这些机器学习模型的训练需要大量的数据,由于患者隐私等因素,医疗影像数据常常难以获得,尤其是真正发生了病灶的患者数量较少,这更增加了医疗影像数据特别是异常医疗影像数据的稀缺性,因此,如何获取充足的医疗影像数据来训练模型已经成为业内亟需解决的难题。
技术解决方案
在人工智能技术领域,应用智慧医疗领域,为了解决上述技术问题,本申请的目的在于提供一种医疗影像数据扩增方法、装置、计算机设备和计算机可读存储介质。
第一方面,提供了一种医疗影像数据扩增方法,包括:
利用样本数据集中的正常医疗影像样本数据和异常医疗影像样本数据对基础医疗影像识别模型进行训练,得到第一医疗影像识别模型,其中,所述样本数据集中的正常医疗影像样本数据的数量大于异常医疗影像样本数据的数量;
每次从预设数据扩增策略集合中选取一个尚未选取过的数据扩增策略,将该数据扩增策略作为候选数据扩增策略,并利用所述候选数据扩增策略至少对所述样本数据集中的异常医疗影像样本数据进行扩增,生成一组扩增得到的医疗影像样本数据;
利用各组扩增得到的医疗影像样本数据分别对所述第一医疗影像识别模型进行训练,得到与各候选数据扩增策略对应的训练后医疗影像识别模型;
基于预设测试数据集确定各所述训练后医疗影像识别模型的性能指标,所述预设测试数据集包括多个异常医疗影像样本数据;
根据各所述训练后医疗影像识别模型的性能指标,在各所述训练后医疗影像识别模型对应的候选数据扩增策略中确定出至少一个候选数据扩增策略作为目标数据扩增策略;
利用所述目标数据扩增策略至少对所述样本数据集中的异常医疗影像样本数据进行扩增。第二方面,提供了一种医疗影像数据扩增装置,包括:
第一训练模块,被配置为利用样本数据集中的正常医疗影像样本数据和异常医疗影像样本数据对基础医疗影像识别模型进行训练,得到第一医疗影像识别模型,其中,所述样本数据集中的正常医疗影像样本数据的数量大于异常医疗影像样本数据的数量;
第一扩增模块,被配置为每次从预设数据扩增策略集合中选取一个尚未选取过的数据扩增策略,将该数据扩增策略作为候选数据扩增策略,并利用所述候选数据扩增策略至少对所述样本数据集中的异常医疗影像样本数据进行扩增,生成一组扩增得到的医疗影像样本数据;
第二训练模块,被配置为利用各组扩增得到的医疗影像样本数据分别对所述第一医疗影像识别模型进行训练,得到与各候选数据扩增策略对应的训练后医疗影像识别模型;
性能指标确定模块,被配置为基于预设测试数据集确定各所述训练后医疗影像识别模型的性能指标,所述预设测试数据集包括多个异常医疗影像样本数据;
策略确定模块,被配置为根据各所述训练后医疗影像识别模型的性能指标,在各所述训练后医疗影像识别模型对应的候选数据扩增策略中确定出至少一个候选数据扩增策略作为 目标数据扩增策略;
第二扩增模块,被配置为利用所述目标数据扩增策略至少对所述样本数据集中的异常医疗影像样本数据进行扩增。
第三方面,提供了一种计算机设备,包括存储器和处理器,所述存储器用于存储所述处理器的医疗影像数据扩增的程序,所述处理器配置为经由执行所述医疗影像数据扩增的程序来执行以下处理:利用样本数据集中的正常医疗影像样本数据和异常医疗影像样本数据对基础医疗影像识别模型进行训练,得到第一医疗影像识别模型,其中,所述样本数据集中的正常医疗影像样本数据的数量大于异常医疗影像样本数据的数量;每次从预设数据扩增策略集合中选取一个尚未选取过的数据扩增策略,将该数据扩增策略作为候选数据扩增策略,并利用所述候选数据扩增策略至少对所述样本数据集中的异常医疗影像样本数据进行扩增,生成一组扩增得到的医疗影像样本数据;利用各组扩增得到的医疗影像样本数据分别对所述第一医疗影像识别模型进行训练,得到与各候选数据扩增策略对应的训练后医疗影像识别模型;基于预设测试数据集确定各所述训练后医疗影像识别模型的性能指标,所述预设测试数据集包括多个异常医疗影像样本数据;根据各所述训练后医疗影像识别模型的性能指标,在各所述训练后医疗影像识别模型对应的候选数据扩增策略中确定出至少一个候选数据扩增策略作为目标数据扩增策略;利用所述目标数据扩增策略至少对所述样本数据集中的异常医疗影像样本数据进行扩增。
第四方面,提供了一种存储有计算机可读指令的计算机可读存储介质,其上存储有医疗影像数据扩增的程序,所述医疗影像数据扩增的程序被处理器执行时实现以下处理:利用样本数据集中的正常医疗影像样本数据和异常医疗影像样本数据对基础医疗影像识别模型进行训练,得到第一医疗影像识别模型,其中,所述样本数据集中的正常医疗影像样本数据的数量大于异常医疗影像样本数据的数量;每次从预设数据扩增策略集合中选取一个尚未选取过的数据扩增策略,将该数据扩增策略作为候选数据扩增策略,并利用所述候选数据扩增策略至少对所述样本数据集中的异常医疗影像样本数据进行扩增,生成一组扩增得到的医疗影像样本数据;利用各组扩增得到的医疗影像样本数据分别对所述第一医疗影像识别模型进行训练,得到与各候选数据扩增策略对应的训练后医疗影像识别模型;基于预设测试数据集确定各所述训练后医疗影像识别模型的性能指标,所述预设测试数据集包括多个异常医疗影像样本数据;根据各所述训练后医疗影像识别模型的性能指标,在各所述训练后医疗影像识别模型对应的候选数据扩增策略中确定出至少一个候选数据扩增策略作为目标数据扩增策略;利用所述目标数据扩增策略至少对所述样本数据集中的异常医疗影像样本数据进行扩增。
上述医疗影像数据扩增方法、装置、计算机设备和计算机可读存储介质,能够选择出目标数据扩增策略来至少对异常医疗影像样本数据进行扩增,提高了获得医疗影像数据特别是异常医疗影像数据的便捷性,此外,由于目标数据扩增策略是根据训练后医疗影像识别模型的性能指标从候选数据扩增策略中选择出来的,而训练后医疗影像识别模型是通过利用候选数据扩增策略扩增得到的医疗影像样本数据训练出来的,因此可以提高扩增得到的医疗影像数据的质量,本方案属于智慧医疗领域,通过本方案能够推动智慧城市的建设。应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本申请。
附图说明
图1是根据一示例性实施例示出的一种医疗影像数据扩增方法的系统架构示意图。
图2是根据一示例性实施例示出的一种医疗影像数据扩增方法的流程图。
图3是根据图2对应实施例示出的一实施例的步骤260的细节的流程图。
图4是根据一示例性实施例示出的一种医疗影像数据扩增装置的框图。
图5是根据一示例性实施例示出的一种实现上述医疗影像数据扩增方法的计算机设备的示例框图。
图6是根据一示例性实施例示出的一种实现上述医疗影像数据扩增方法的计算机可读存储介质。
本发明的实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
此外,附图仅为本申请的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
此外,附图仅为本申请的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。
本申请首先提供了一种医疗影像数据扩增方法。医疗影像数据可以是医疗领域内各种类型的图像数据,比如可以是肺结节的肺部影像数据,也可以是用于测量骨龄的骨骼图像数据。在机器学习和人工智能领域,需要大量的数据训练模型。很多情况下,用于训练模型的数据完全不能满足需要。本申请提供的医疗影像数据扩增方法就可以增加医疗影像数据的数量,从而满足训练医疗领域的人工智能模型的需要。本方案可应用于智慧医疗领域中,从而推动智慧城市的建设。
本申请的实施终端可以是任何具有运算、处理以及通信功能的设备,该设备可以与外部设备相连,用于接收或者发送数据,具体可以是便携移动设备,例如智能手机、平板电脑、笔记本电脑、PDA(Personal Digital Assistant)等,也可以是固定式设备,例如,计算机设备、现场终端、台式电脑、服务器、工作站等,还可以是多个设备的集合,比如云计算的物理基础设施或者服务器集群。
可选地,本申请的实施终端可以为服务器或者云计算的物理基础设施。
图1是根据一示例性实施例示出的一种医疗影像数据扩增方法的系统架构示意图。如图1所示,该系统架构包括服务器110、医疗影像样本数据库120及数据扩增策略数据库130,其中,医疗影像样本数据库120及数据扩增策略数据库130分别通过通信链路与服务器110相连,可以用于发送或接收数据。服务器110为本实施例中的实施终端并部署有基础医疗影像识别模型,数据扩增策略数据库130中存储有多个数据扩增策略,构成了预设数据扩增策略集合,医疗影像样本数据库120上存储有样本数据集和预设测试数据集。当本申请提供的一种医疗影像数据扩增方法应用于图1所示的系统架构中时,一个过程可以是这样的:服务器110从医疗影像样本数据库120获取样本数据集,并利用该样本数据集对已部署的基础医疗影像识别模型进行训练,得到第一医疗影像识别模型;接着,服务器110从数据扩增策略数据库130每次选取一个数据扩增策略对样本数据集中的样本数据进行扩增,生成一组扩增得到的样本数据;接下来,服务器110利用生成的各组样本数据分别对第一医疗影像识别模型继续进行训练,得到多个训练后医疗影像识别模型;然后,服务器110从医疗影像样本数据库120获取预设测试数据集,利用该预设测试数据集对训练后医疗影像识别模型进行测试,得到对应的性能指标;最后,服务器110根据各性能指标,在选取的数据扩增策略中确定出目标数据扩增策略,并利用该目标数据扩增策略对样本数据集进 行扩增。如此,便实现了对医疗影像数据的扩增,并使得扩增得到的医疗影像数据的质量得到了保证。
值得一提的是,图1仅为本申请的一个实施例。虽然在本实施例中的实施终端为服务器,但在其他实施例中,实施终端可以为如前所述的各种终端或设备;虽然在本实施例中,样本数据集、预设测试数据集、预设数据扩增策略集合中,样本数据集和预设测试数据集位于同一数据库上,预设数据扩增策略集合单独位于另一个数据库上,并且均位于实施终端外,但在其他实施例或者具体应用中,样本数据集、预设测试数据集、预设数据扩增策略集合这三者可以分别位于不同的终端上,也可以位于同一终端上,既可以位于实施终端之外的终端上,也可以存储在实施终端本地。本申请对此不作任何限定,本申请的保护范围也不应因此而受到任何限制。
图2是根据一示例性实施例示出的一种医疗影像数据扩增方法的流程图。本实施例提供的医疗影像数据扩增方法可以由服务器执行,如图2所示,包括以下步骤:
步骤210,利用样本数据集中的正常医疗影像样本数据和异常医疗影像样本数据对基础医疗影像识别模型进行训练,得到第一医疗影像识别模型。
其中,所述样本数据集中的正常医疗影像样本数据的数量大于异常医疗影像样本数据的数量。
基础医疗影像识别模型可以是基于各种算法或模型而实现的,比如可以是机器学习模型,也可以是卷积神经网络模型、强化学习模型、生成式对抗网络模型等深度学习模型。基础医疗影像识别模型可以是未曾训练过的模型,仅包括模型的架构和超参数等基本部分,还可以是训练过的模型,可以包括更多的参数。
如前所述,医疗影像数据可以是医疗领域的各种类型的图像数据,比如可以是能够发生肺结节区域的影像数据。正常医疗影像样本数据是显示相应区域未发病的影像样本数据,而异常医疗影像样本数据是显示相应区域患病或发生了病灶的影像样本数据。样本数据集中的正常医疗影像样本数据和异常医疗影像样本数据可以通过标签的方式进行区分。
步骤220,每次从预设数据扩增策略集合中选取一个尚未选取过的数据扩增策略,将该数据扩增策略作为候选数据扩增策略,并利用所述候选数据扩增策略至少对所述样本数据集中的异常医疗影像样本数据进行扩增,生成一组扩增得到的医疗影像样本数据。
预设数据扩增策略集合可以包括多个数据扩增策略,数据扩增策略是对数据进行扩增的具体手段或方式,具体可以包括:翻转,缩放,旋转,裁剪,变形,颜色变换,噪声,填充等。翻转是以位于图像的轴进行转动的操作,缩放是对图像的分辨率进行变换的操作,旋转以位于图像的点为圆心进行转动的操作,裁剪是随机剪裁出图像中的一部分的操作,变形是按照一定规则对图像进行形变的操作,颜色变换是对图像的某类像素值进行改变的操作,噪声是将图像中一些像素点区域变为黑色或白色的操作,填充是对按照特定规律的一组像素值对图像中的一些像素值进行替换的操作。
在一个实施例中,在每次从预设数据扩增策略集合中选取一个尚未选取过的数据扩增策略,将该数据扩增策略作为候选数据扩增策略,并利用所述候选数据扩增策略至少对所述样本数据集中的异常医疗影像样本数据进行扩增,生成一组扩增得到的医疗影像样本数据之前,所述方法还包括:
分别确定所述样本数据集中的医疗影像样本数据的数据总量、所述样本数据集中的正常医疗影像样本数据的数据量及异常医疗影像样本数据的数据量;
获取数据总量值,其中,所述数据总量值为所述样本数据集中的医疗影像样本数据的数据量与要生成的一组扩增得到的医疗影像样本数据的数据量之和;
根据所述样本数据集中的医疗影像样本数据的数据总量、所述样本数据集中的正常医疗影像样本数据的数据量、异常医疗影像样本数据的数据量和所述数据总量值,确定扩增数据指标,其中,所述扩增数据指标包括至少一项要扩增的数据类型及所述数据类型对应的数 据量,所述要扩增的数据类型为异常医疗影像样本数据和正常医疗影像样本数据中的一项;所述每次从预设数据扩增策略集合中选取一个尚未选取过的数据扩增策略,将该数据扩增策略作为候选数据扩增策略,并利用所述候选数据扩增策略至少对所述样本数据集中的异常医疗影像样本数据进行扩增,生成一组扩增得到的医疗影像样本数据,包括:
每次从预设数据扩增策略集合中选取一个尚未选取过的数据扩增策略,将该数据扩增策略作为候选数据扩增策略,按照所述扩增数据指标并利用所述候选数据扩增策略至少对所述样本数据集中的异常医疗影像样本数据进行扩增,生成一组扩增得到的医疗影像样本数据。数据总量值可以是从外部终端获得的,比如可以通过访问外部数据库的方式获得,也可以从用户终端获得,具体来说,用户可以使用用户终端通过表单的方式提供数据总量值;数据总量值还可以是从终端本地获得的,比如可以通过读取配置文件的方式获得数据总量值。在本实施例中,通过在对医疗影像样本数据进行扩增之前,先确定扩增数据指标,最后基于扩增数据指标有针对性地进行数据扩增,使得利用各候选数据扩增策略所进行的数据扩增更加有效。
在一个实施例中,所述根据所述样本数据集中的医疗影像样本数据的数据总量、所述样本数据集中的正常医疗影像样本数据的数据量、异常医疗影像样本数据的数据量和所述数据总量值,确定扩增数据指标,包括:
若所述数据总量值小于或等于所述样本数据集中的正常医疗影像样本数据的数据量的二倍,则确定扩增数据指标中要扩增的数据类型为异常医疗影像样本数据,要扩增的数据类型对应的数据量为所述数据总量值与所述样本数据集中的医疗影像样本数据的数据总量的差值;
若所述数据总量值大于所述样本数据集中的正常医疗影像样本数据的数据量的二倍,则确定扩增数据指标中要扩增的数据类型为异常医疗影像样本数据和正常医疗影像样本数据,异常医疗影像样本数据的数据类型对应的数据量为所述数据总量值的一半与所述异常医疗影像样本数据的数据量的差值,正常医疗影像样本数据的数据类型对应的数据量为所述数据总量值的一半与所述正常医疗影像样本数据的数据量的差值。
在本实施例中,通过在数据总量值大于所述样本数据集中的正常医疗影像样本数据的数据量的二倍时,对正常医疗影像样本数据和异常医疗影像样本数据分别进行扩增,从而使得扩增后样本数据集中的数据量更多且不同类型的数据更为均衡,从而使得各候选数据扩增策略进行训练的效果能够更加充分地体现出来,进而能够提高选出的目标数据扩增策略的准确性。
比如,数据总量值为50,样本数据集中的正常医疗影像样本数据的数据量为18,而异常医疗影像样本数据的数据量为5,那么样本数据集中的正常医疗影像样本数据的数据量的二倍即为36,因此,数据总量值大于样本数据集中的正常医疗影像样本数据的数据量的二倍,那么,异常医疗影像样本数据的数据类型对应的数据量为0.5*50-5=20,正常医疗影像样本数据的数据类型对应的数据量为0.5*50-18=7,最后,各类数据量的总和即为20+7+18+5=50。
当然,在数据总量值大于样本数据集中的正常医疗影像样本数据的数据量的二倍时,还可以采用其他的扩增数据指标的方式,比如可以是按照一定比例扩增。例如,样本数据集中的正常医疗影像样本数据的数据量和异常医疗影像样本数据的数据量的比例为M:N,那么,要扩增的数据类型为异常医疗影像样本数据和正常医疗影像样本数据,其中,要扩增的正常医疗影像样本数据和异常医疗影像样本数据的数据量的比例为N:M,最后,根据数据总量值和样本数据集中的医疗影像样本数据的数据总量之间的差值,即可确定各数据类型对应的数据量。
具体来说,假如样本数据集中的正常医疗影像样本数据的数据量和异常医疗影像样本数据的数据量分别为20和2,样本数据集中的医疗影像样本数据的数据总量为22,那么两者 的比值为10:1,要扩增的正常医疗影像样本数据和异常医疗影像样本数据的数据量的比例为1:10,假如数据总量值为66,那么数据总量值和样本数据集中的医疗影像样本数据的数据总量之间的差值便为44,最终可以计算出要扩增的正常医疗影像样本数据的数据量为4,而要扩增的异常医疗影像样本数据的数据量为40。
步骤230,利用各组扩增得到的医疗影像样本数据分别对所述第一医疗影像识别模型进行训练,得到与各候选数据扩增策略对应的训练后医疗影像识别模型。
在一个实施例中,利用各候选数据扩增策略生成的各组扩增得到的医疗影像样本数据的数据量相同。
在本实施例中,由于利用各候选数据扩增策略所扩增的医疗影像样本数据的数据量是相同的,因此,在利用各组扩增得到的医疗影像样本数据分别对第一医疗影像识别模型进行训练时,所进行的训练强度是相同的,从而使得对训练后医疗影像识别模型的性能指标的测试更加公平。
在一个实施例中,所述扩增得到的医疗影像样本数据为扩增得到的异常医疗影像样本数据,所述扩增得到的异常医疗影像样本数据由所述样本数据集中的异常医疗影像样本数据扩增而来,任意一组扩增得到的异常医疗影像样本数据的数据量与所述样本数据集中异常医疗影像样本数据的数据量之和等于所述样本数据集中正常医疗影像样本数据的数据量。
由于任意一组扩增得到的异常医疗影像样本数据的数据量与所述样本数据集中异常医疗影像样本数据的数据量之和等于所述样本数据集中正常医疗影像样本数据的数据量,而所述样本数据集中异常医疗影像样本数据的数据量以及所述样本数据集中正常医疗影像样本数据的数据量都是固定的,因此,各组扩增得到的异常医疗影像样本数据的数据量均是相同的。
在本实施例中,通过对异常医疗影像样本数据进行扩增,并使各组扩增得到的异常医疗影像样本数据的数据量与所述样本数据集中异常医疗影像样本数据的数据量之和等于所述样本数据集中正常医疗影像样本数据的数据量,这样就能够使用于对第一医疗影像识别模型进行训练的医疗影像样本数据的正负样本分布更加平衡,从而提高训练效果,进而提高对训练后医疗影像识别模型的性能指标的评估的准确性。
步骤240,基于预设测试数据集确定各所述训练后医疗影像识别模型的性能指标,所述预设测试数据集包括多个异常医疗影像样本数据。
性能指标可以是各种能够用量化的方式来衡量模型的性能或能力的指标,比如可以是查全率、查准率、准确率等单一指标,也可以是基于多种单一指标的综合指标,比如可以是多种单一指标的平均值或加权平均值。
预设测试数据集中可以不仅包括异常医疗影像样本数据,还可以包括正常医疗影像样本数据。
步骤250,根据各所述训练后医疗影像识别模型的性能指标,在各所述训练后医疗影像识别模型对应的候选数据扩增策略中确定出至少一个候选数据扩增策略作为目标数据扩增策略。
在一个实施例中,步骤250可以包括:
确定对应的性能指标最高的训练后医疗影像识别模型,作为目标训练后医疗影像识别模型;将所述目标训练后医疗影像识别模型对应的候选数据扩增策略作为目标数据扩增策略。
在一个实施例中,步骤250可以包括:
判断性能指标大于预定性能指标阈值的训练后医疗影像识别模型的数目是否大于第一预定数目;
如果是,则在性能指标大于预定性能指标阈值的训练后医疗影像识别模型中任意选取第二预定数目个训练后医疗影像识别模型,作为目标训练后医疗影像识别模型,其中,所述第二预定数目小于所述第一预定数目;
如果否,则将性能指标大于预定性能指标阈值的训练后医疗影像识别模型作为目标训练后医疗影像识别模型;
将所述目标训练后医疗影像识别模型对应的候选数据扩增策略作为目标数据扩增策略。在本实施例中,实现了同时选出多个目标数据扩增策略,增加了数据扩增的多样性,同时由于选出的多个目标数据扩增策略所对应的训练后医疗影像识别模型的性能指标均大于预定性能指标阈值,因此保证了选出的目标数据扩增策略的质量。
在一个实施例中,在利用各组扩增得到的医疗影像样本数据分别对所述第一医疗影像识别模型进行训练,得到与各候选数据扩增策略对应的训练后医疗影像识别模型之前,所述方法还包括:
利用各组扩增得到的医疗影像样本数据分别对预设数据扩增模型进行训练,得到与各候选数据扩增策略对应的训练后数据扩增模型;
针对每一训练后数据扩增模型,利用该训练后数据扩增模型生成一组异常医疗影像样本数据;
利用生成的各组异常医疗影像样本数据分别对所述基础医疗影像识别模型进行训练,得到与各组异常医疗影像样本数据分别对应的训练后基础医疗影像识别模型;
基于预设测试数据集确定各所述训练后基础医疗影像识别模型的性能指标,所述预设测试数据集包括多个异常医疗影像样本数据;
根据各所述训练后基础医疗影像识别模型的性能指标,在各所述训练后基础医疗影像识别模型对应的候选数据扩增策略中确定出多个候选数据扩增策略作为候选目标数据扩增策略;
所述利用各组扩增得到的医疗影像样本数据分别对所述第一医疗影像识别模型进行训练,得到与各候选数据扩增策略对应的训练后医疗影像识别模型,包括:
利用各候选目标数据扩增策略对应的各组扩增得到的医疗影像样本数据分别对所述第一医疗影像识别模型进行训练,得到与各候选目标数据扩增策略对应的训练后医疗影像识别模型;
所述根据各所述训练后医疗影像识别模型的性能指标,在各所述训练后医疗影像识别模型对应的候选数据扩增策略中确定出至少一个候选数据扩增策略作为目标数据扩增策略,包括:
根据各所述训练后医疗影像识别模型的性能指标,在各所述训练后医疗影像识别模型对应的候选目标数据扩增策略中确定出至少一个候选目标数据扩增策略作为目标数据扩增策略。
预设数据扩增模型可以基于各种算法或模型而设立的,比如可以是生成式对抗网络模型。由于利用候选数据扩增策略扩增得到的医疗影像样本数据的数量往往是有限的,因此,单纯基于利用扩增得到的医疗影像样本数据训练得到的模型的性能指标往往不能充分而完全地反映出一个候选数据扩增策略对于医疗影像数据扩增是否是最好的,在本实施例中,通过在利用扩增得到的医疗影像样本数据训练第一医疗影像识别模型之前,先利用扩增得到的医疗影像样本数据分别对预设数据扩增模型进行训练,再利用训练后数据扩增模型生成异常医疗影像样本数据,最后利用生成的异常医疗影像样本数据训练模型并根据对模型的评估指标来预先选择出候选目标数据扩增策略,而最终确定出的目标数据扩增策略是从候选目标数据扩增策略选出的,因此,这样可以在一定程度上提高选出的目标数据扩增策略的准确性。
步骤260,利用所述目标数据扩增策略至少对所述样本数据集中的异常医疗影像样本数据进行扩增。
通常情况下,利用目标数据扩增策略扩增得到的医疗影像样本数据的数据量大于利用候选数据扩增策略扩增得到的医疗影像样本数据的数据量。
在一个实施例中,所述目标数据扩增策略为多个,步骤260的具体步骤可以如图3所示。图3是根据图2对应实施例示出的一实施例的步骤260的细节的流程图,如图3所示,包括以下步骤:
步骤261,利用多个目标数据扩增策略随机生成策略组合。
其中,所述策略组合包括至少一个目标数据扩增策略,在所述策略组合包括多个目标数据扩增策略的情况下,所述策略组合还包括各目标数据扩增策略的顺序。
比如,多个目标数据扩增策略包括裁剪,变形,颜色变换,噪声,颜色,其中,任意一个单独的目标数据扩增策略可以为一个策略组合,这些目标数据扩增策略之中,任意两个或以上的目标数据扩增策略也可以为一个策略组合,策略组合中目标数据扩增策略的顺序是目标数据扩增策略的执行顺序,比如一个目标数据扩增策略的顺序可以是先裁剪再变形。
步骤262,利用所述策略组合至少对所述样本数据集中的异常医疗影像样本数据进行扩增。对同一医疗影像样本数据可以施加同一策略组合,只要具体策略不同即可,例如变换的颜色不同。
综上所述,根据图2实施例提供的医疗影像数据扩增方法,能够选择出目标数据扩增策略来至少对异常医疗影像样本数据进行扩增,提高了获得医疗影像数据特别是异常医疗影像数据的便捷性,此外,由于目标数据扩增策略是根据训练后医疗影像识别模型的性能指标从候选数据扩增策略中选择出来的,而训练后医疗影像识别模型是通过利用候选数据扩增策略扩增得到的医疗影像样本数据训练出来的,因此可以提高扩增得到的医疗影像数据的质量,本方案属于智慧医疗领域,通过本方案能够推动智慧城市的建设。
本申请还提供了一种医疗影像数据扩增装置,以下是本申请的装置实施例。
图4是根据一示例性实施例示出的一种医疗影像数据扩增装置的框图。如图4所示,装置400包括:
第一训练模块410,被配置为利用样本数据集中的正常医疗影像样本数据和异常医疗影像样本数据对基础医疗影像识别模型进行训练,得到第一医疗影像识别模型,其中,所述样本数据集中的正常医疗影像样本数据的数量大于异常医疗影像样本数据的数量;
第一扩增模块420,被配置为每次从预设数据扩增策略集合中选取一个尚未选取过的数据扩增策略,将该数据扩增策略作为候选数据扩增策略,并利用所述候选数据扩增策略至少对所述样本数据集中的异常医疗影像样本数据进行扩增,生成一组扩增得到的医疗影像样本数据;
第二训练模块430,被配置为利用各组扩增得到的医疗影像样本数据分别对所述第一医疗影像识别模型进行训练,得到与各候选数据扩增策略对应的训练后医疗影像识别模型;
性能指标确定模块440,被配置为基于预设测试数据集确定各所述训练后医疗影像识别模型的性能指标,所述预设测试数据集包括多个异常医疗影像样本数据;
策略确定模块450,被配置为根据各所述训练后医疗影像识别模型的性能指标,在各所述训练后医疗影像识别模型对应的候选数据扩增策略中确定出至少一个候选数据扩增策略作为目标数据扩增策略;
第二扩增模块460,被配置为利用所述目标数据扩增策略至少对所述样本数据集中的异常医疗影像样本数据进行扩增。
在一个实施例中,利用各候选数据扩增策略生成的各组扩增得到的医疗影像样本数据的数据量相同。
在一个实施例中,所述扩增得到的医疗影像样本数据为扩增得到的异常医疗影像样本数据,所述扩增得到的异常医疗影像样本数据由所述样本数据集中的异常医疗影像样本数据扩增而来,任意一组扩增得到的异常医疗影像样本数据的数据量与所述样本数据集中异常医疗影像样本数据的数据量之和等于所述样本数据集中正常医疗影像样本数据的数据量。
在一个实施例中,在每次从预设数据扩增策略集合中选取一个尚未选取过的数据扩增策略, 将该数据扩增策略作为候选数据扩增策略,并利用所述候选数据扩增策略至少对所述样本数据集中的异常医疗影像样本数据进行扩增,生成一组扩增得到的医疗影像样本数据之前,所述第一扩增模块还被配置为:
分别确定所述样本数据集中的医疗影像样本数据的数据总量、所述样本数据集中的正常医疗影像样本数据的数据量及异常医疗影像样本数据的数据量;
获取数据总量值,其中,所述数据总量值为所述样本数据集中的医疗影像样本数据的数据量与要生成的一组扩增得到的医疗影像样本数据的数据量之和;
根据所述样本数据集中的医疗影像样本数据的数据总量、所述样本数据集中的正常医疗影像样本数据的数据量、异常医疗影像样本数据的数据量和所述数据总量值,确定扩增数据指标,其中,所述扩增数据指标包括至少一项要扩增的数据类型及所述数据类型对应的数据量,所述要扩增的数据类型为异常医疗影像样本数据和正常医疗影像样本数据中的一项;所述第一扩增模块被进一步配置为:
每次从预设数据扩增策略集合中选取一个尚未选取过的数据扩增策略,将该数据扩增策略作为候选数据扩增策略,按照所述扩增数据指标并利用所述候选数据扩增策略至少对所述样本数据集中的异常医疗影像样本数据进行扩增,生成一组扩增得到的医疗影像样本数据。在一个实施例中,所述第一扩增模块被进一步配置为:
若所述数据总量值小于或等于所述样本数据集中的正常医疗影像样本数据的数据量的二倍,则确定扩增数据指标中要扩增的数据类型为异常医疗影像样本数据,要扩增的数据类型对应的数据量为所述数据总量值与所述样本数据集中的医疗影像样本数据的数据总量的差值;
若所述数据总量值大于所述样本数据集中的正常医疗影像样本数据的数据量的二倍,则确定扩增数据指标中要扩增的数据类型为异常医疗影像样本数据和正常医疗影像样本数据,异常医疗影像样本数据的数据类型对应的数据量为所述数据总量值的一半与所述异常医疗影像样本数据的数据量的差值,正常医疗影像样本数据的数据类型对应的数据量为所述数据总量值的一半与所述正常医疗影像样本数据的数据量的差值。
在一个实施例中,所述策略确定模块被进一步配置为:
判断性能指标大于预定性能指标阈值的训练后医疗影像识别模型的数目是否大于第一预定数目;
如果是,则在性能指标大于预定性能指标阈值的训练后医疗影像识别模型中任意选取第二预定数目个训练后医疗影像识别模型,作为目标训练后医疗影像识别模型,其中,所述第二预定数目小于所述第一预定数目;
如果否,则将性能指标大于预定性能指标阈值的训练后医疗影像识别模型作为目标训练后医疗影像识别模型;
将所述目标训练后医疗影像识别模型对应的候选数据扩增策略作为目标数据扩增策略。
在一个实施例中,所述第二扩增模块被进一步配置为:
利用多个目标数据扩增策略随机生成策略组合,其中,所述策略组合包括至少一个目标数据扩增策略,在所述策略组合包括多个目标数据扩增策略的情况下,所述策略组合还包括各目标数据扩增策略的顺序;
利用所述策略组合至少对所述样本数据集中的异常医疗影像样本数据进行扩增。
根据本申请的第三方面,还提供了一种计算机设备,执行上述任一所示的医疗影像数据扩增方法的全部或者部分步骤。该计算机设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上述任一个示例性实施例所示出的医疗影像数 据扩增方法。
所属技术领域的技术人员能够理解,本申请的各个方面可以实现为系统、方法或程序产品。因此,本申请的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
下面参照图5来描述根据本申请的这种实施方式的计算机设备500。图5显示的计算机设备500仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图5所示,计算机设备500以通用计算设备的形式表现。计算机设备500的组件可以包括但不限于:上述至少一个处理单元510、上述至少一个存储单元520、连接不同系统组件(包括存储单元520和处理单元510)的总线530。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元510执行,使得所述处理单元510执行本说明书上述“实施例方法”部分中描述的根据本申请各种示例性实施方式的步骤。
存储单元520可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)521和/或高速缓存存储单元522,还可以进一步包括只读存储单元(ROM)523。
存储单元520还可以包括具有一组(至少一个)程序模块525的程序/实用工具524,这样的程序模块525包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线530可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
计算机设备500也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该计算机设备500交互的设备通信,和/或与使得该计算机设备500能与一个或多个其它计算机设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口550进行,比如与显示单元540通信。并且,计算机设备500还可以通过网络适配器560与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器560通过总线530与计算机设备500的其它模块通信。应当明白,尽管图中未示出,可以结合计算机设备500使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本申请实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算机设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本申请实施方式的方法。
根据本申请的第四方面,还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品,所述计算机可读存储介质可以是非易失性,也可以是易失性。在一些可能的实施方式中,本申请的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本申请各种示例性实施方式的步骤。
参考图6所示,描述了根据本申请的实施方式的用于实现上述方法的程序产品600,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本申请的程序产品不限于此,在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者 与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机设备上执行、部分地在用户计算机设备上执行、作为一个独立的软件包执行、部分在用户计算机设备上部分在远程计算机设备上执行、或者完全在远程计算机设备或服务器上执行。在涉及远程计算机设备的情形中,远程计算机设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算机设备,或者,可以连接到外部计算机设备(例如利用因特网服务提供商来通过因特网连接)。
此外,上述附图仅是根据本申请示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围执行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims (20)

  1. 一种医疗影像数据扩增方法,包括:
    利用样本数据集中的正常医疗影像样本数据和异常医疗影像样本数据对基础医疗影像识别模型进行训练,得到第一医疗影像识别模型,其中,所述样本数据集中的正常医疗影像样本数据的数量大于异常医疗影像样本数据的数量;
    每次从预设数据扩增策略集合中选取一个尚未选取过的数据扩增策略,将该数据扩增策略作为候选数据扩增策略,并利用所述候选数据扩增策略至少对所述样本数据集中的异常医疗影像样本数据进行扩增,生成一组扩增得到的医疗影像样本数据;
    利用各组扩增得到的医疗影像样本数据分别对所述第一医疗影像识别模型进行训练,得到与各候选数据扩增策略对应的训练后医疗影像识别模型;
    基于预设测试数据集确定各所述训练后医疗影像识别模型的性能指标,所述预设测试数据集包括多个异常医疗影像样本数据;
    根据各所述训练后医疗影像识别模型的性能指标,在各所述训练后医疗影像识别模型对应的候选数据扩增策略中确定出至少一个候选数据扩增策略作为目标数据扩增策略;
    利用所述目标数据扩增策略至少对所述样本数据集中的异常医疗影像样本数据进行扩增。
  2. 根据权利要求1所述的方法,其中,利用各候选数据扩增策略生成的各组扩增得到的医疗影像样本数据的数据量相同。
  3. 根据权利要求2所述的方法,其中,所述扩增得到的医疗影像样本数据为扩增得到的异常医疗影像样本数据,所述扩增得到的异常医疗影像样本数据由所述样本数据集中的异常医疗影像样本数据扩增而来,任意一组扩增得到的异常医疗影像样本数据的数据量与所述样本数据集中异常医疗影像样本数据的数据量之和等于所述样本数据集中正常医疗影像样本数据的数据量。
  4. 根据权利要求2所述的方法,其中,在每次从预设数据扩增策略集合中选取一个尚未选取过的数据扩增策略,将该数据扩增策略作为候选数据扩增策略,并利用所述候选数据扩增策略至少对所述样本数据集中的异常医疗影像样本数据进行扩增,生成一组扩增得到的医疗影像样本数据之前,所述方法还包括:
    分别确定所述样本数据集中的医疗影像样本数据的数据总量、所述样本数据集中的正常医疗影像样本数据的数据量及异常医疗影像样本数据的数据量;
    获取数据总量值,其中,所述数据总量值为所述样本数据集中的医疗影像样本数据的数据量与要生成的一组扩增得到的医疗影像样本数据的数据量之和;
    根据所述样本数据集中的医疗影像样本数据的数据总量、所述样本数据集中的正常医疗影像样本数据的数据量、异常医疗影像样本数据的数据量和所述数据总量值,确定扩增数据指标,其中,所述扩增数据指标包括至少一项要扩增的数据类型及所述数据类型对应的数据量,所述要扩增的数据类型为异常医疗影像样本数据和正常医疗影像样本数据中的一项;所述每次从预设数据扩增策略集合中选取一个尚未选取过的数据扩增策略,将该数据扩增策略作为候选数据扩增策略,并利用所述候选数据扩增策略至少对所述样本数据集中的异常医疗影像样本数据进行扩增,生成一组扩增得到的医疗影像样本数据,包括:
    每次从预设数据扩增策略集合中选取一个尚未选取过的数据扩增策略,将该数据扩增策略作为候选数据扩增策略,按照所述扩增数据指标并利用所述候选数据扩增策略至少对所述样本数据集中的异常医疗影像样本数据进行扩增,生成一组扩增得到的医疗影像样本数据。
  5. 根据权利要求4所述的方法,其中,所述根据所述样本数据集中的医疗影像样本数据的数据总量、所述样本数据集中的正常医疗影像样本数据的数据量、异常医疗影像样本数据的数据量和所述数据总量值,确定扩增数据指标,包括:
    若所述数据总量值小于或等于所述样本数据集中的正常医疗影像样本数据的数据量的二 倍,则确定扩增数据指标中要扩增的数据类型为异常医疗影像样本数据,要扩增的数据类型对应的数据量为所述数据总量值与所述样本数据集中的医疗影像样本数据的数据总量的差值;
    若所述数据总量值大于所述样本数据集中的正常医疗影像样本数据的数据量的二倍,则确定扩增数据指标中要扩增的数据类型为异常医疗影像样本数据和正常医疗影像样本数据,异常医疗影像样本数据的数据类型对应的数据量为所述数据总量值的一半与所述异常医疗影像样本数据的数据量的差值,正常医疗影像样本数据的数据类型对应的数据量为所述数据总量值的一半与所述正常医疗影像样本数据的数据量的差值。
  6. 根据权利要求1-5任意一项所述的方法,其中,所述根据各所述训练后医疗影像识别模型的性能指标,在各所述训练后医疗影像识别模型对应的候选数据扩增策略中确定出至少一个候选数据扩增策略作为目标数据扩增策略,包括:
    判断性能指标大于预定性能指标阈值的训练后医疗影像识别模型的数目是否大于第一预定数目;
    如果是,则在性能指标大于预定性能指标阈值的训练后医疗影像识别模型中任意选取第二预定数目个训练后医疗影像识别模型,作为目标训练后医疗影像识别模型,其中,所述第二预定数目小于所述第一预定数目;
    如果否,则将性能指标大于预定性能指标阈值的训练后医疗影像识别模型作为目标训练后医疗影像识别模型;
    将所述目标训练后医疗影像识别模型对应的候选数据扩增策略作为目标数据扩增策略。
  7. 根据权利要求1-5任意一项所述的方法,其中,所述目标数据扩增策略为多个,所述利用所述目标数据扩增策略至少对所述样本数据集中的异常医疗影像样本数据进行扩增,包括:
    利用多个目标数据扩增策略随机生成策略组合,其中,所述策略组合包括至少一个目标数据扩增策略,在所述策略组合包括多个目标数据扩增策略的情况下,所述策略组合还包括各目标数据扩增策略的顺序;
    利用所述策略组合至少对所述样本数据集中的异常医疗影像样本数据进行扩增。
  8. 一种医疗影像数据扩增装置,包括:
    第一训练模块,被配置为利用样本数据集中的正常医疗影像样本数据和异常医疗影像样本数据对基础医疗影像识别模型进行训练,得到第一医疗影像识别模型,其中,所述样本数据集中的正常医疗影像样本数据的数量大于异常医疗影像样本数据的数量;
    第一扩增模块,被配置为每次从预设数据扩增策略集合中选取一个尚未选取过的数据扩增策略,将该数据扩增策略作为候选数据扩增策略,并利用所述候选数据扩增策略至少对所述样本数据集中的异常医疗影像样本数据进行扩增,生成一组扩增得到的医疗影像样本数据;
    第二训练模块,被配置为利用各组扩增得到的医疗影像样本数据分别对所述第一医疗影像识别模型进行训练,得到与各候选数据扩增策略对应的训练后医疗影像识别模型;
    性能指标确定模块,被配置为基于预设测试数据集确定各所述训练后医疗影像识别模型的性能指标,所述预设测试数据集包括多个异常医疗影像样本数据;
    策略确定模块,被配置为根据各所述训练后医疗影像识别模型的性能指标,在各所述训练后医疗影像识别模型对应的候选数据扩增策略中确定出至少一个候选数据扩增策略作为目标数据扩增策略;
    第二扩增模块,被配置为利用所述目标数据扩增策略至少对所述样本数据集中的异常医疗影像样本数据进行扩增。
  9. 一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行:
    利用样本数据集中的正常医疗影像样本数据和异常医疗影像样本数据对基础医疗影像识别模型进行训练,得到第一医疗影像识别模型,其中,所述样本数据集中的正常医疗影像样本数据的数量大于异常医疗影像样本数据的数量;
    每次从预设数据扩增策略集合中选取一个尚未选取过的数据扩增策略,将该数据扩增策略作为候选数据扩增策略,并利用所述候选数据扩增策略至少对所述样本数据集中的异常医疗影像样本数据进行扩增,生成一组扩增得到的医疗影像样本数据;
    利用各组扩增得到的医疗影像样本数据分别对所述第一医疗影像识别模型进行训练,得到与各候选数据扩增策略对应的训练后医疗影像识别模型;
    基于预设测试数据集确定各所述训练后医疗影像识别模型的性能指标,所述预设测试数据集包括多个异常医疗影像样本数据;
    根据各所述训练后医疗影像识别模型的性能指标,在各所述训练后医疗影像识别模型对应的候选数据扩增策略中确定出至少一个候选数据扩增策略作为目标数据扩增策略;
    利用所述目标数据扩增策略至少对所述样本数据集中的异常医疗影像样本数据进行扩增。
  10. 根据权利要求9所述的计算机设备,其中,利用各候选数据扩增策略生成的各组扩增得到的医疗影像样本数据的数据量相同。
  11. 根据权利要求10所述的计算机设备,其中,所述扩增得到的医疗影像样本数据为扩增得到的异常医疗影像样本数据,所述扩增得到的异常医疗影像样本数据由所述样本数据集中的异常医疗影像样本数据扩增而来,任意一组扩增得到的异常医疗影像样本数据的数据量与所述样本数据集中异常医疗影像样本数据的数据量之和等于所述样本数据集中正常医疗影像样本数据的数据量。
  12. 根据权利要求10所述的计算机设备,其中,在每次从预设数据扩增策略集合中选取一个尚未选取过的数据扩增策略,将该数据扩增策略作为候选数据扩增策略,并利用所述候选数据扩增策略至少对所述样本数据集中的异常医疗影像样本数据进行扩增,生成一组扩增得到的医疗影像样本数据之前,所述计算机可读指令被所述处理器执行时,使得所述处理器还执行:
    分别确定所述样本数据集中的医疗影像样本数据的数据总量、所述样本数据集中的正常医疗影像样本数据的数据量及异常医疗影像样本数据的数据量;
    获取数据总量值,其中,所述数据总量值为所述样本数据集中的医疗影像样本数据的数据量与要生成的一组扩增得到的医疗影像样本数据的数据量之和;
    根据所述样本数据集中的医疗影像样本数据的数据总量、所述样本数据集中的正常医疗影像样本数据的数据量、异常医疗影像样本数据的数据量和所述数据总量值,确定扩增数据指标,其中,所述扩增数据指标包括至少一项要扩增的数据类型及所述数据类型对应的数据量,所述要扩增的数据类型为异常医疗影像样本数据和正常医疗影像样本数据中的一项;
    所述每次从预设数据扩增策略集合中选取一个尚未选取过的数据扩增策略,将该数据扩增策略作为候选数据扩增策略,并利用所述候选数据扩增策略至少对所述样本数据集中的异常医疗影像样本数据进行扩增,生成一组扩增得到的医疗影像样本数据,包括:
    每次从预设数据扩增策略集合中选取一个尚未选取过的数据扩增策略,将该数据扩增策略作为候选数据扩增策略,按照所述扩增数据指标并利用所述候选数据扩增策略至少对所述样本数据集中的异常医疗影像样本数据进行扩增,生成一组扩增得到的医疗影像样本数据。
  13. 根据权利要求12所述的计算机设备,其中,所述根据所述样本数据集中的医疗影像样本数据的数据总量、所述样本数据集中的正常医疗影像样本数据的数据量、异常医疗影像样本数据的数据量和所述数据总量值,确定扩增数据指标,包括:
    若所述数据总量值小于或等于所述样本数据集中的正常医疗影像样本数据的数据量的二倍,则确定扩增数据指标中要扩增的数据类型为异常医疗影像样本数据,要扩增的数据类型对应的数据量为所述数据总量值与所述样本数据集中的医疗影像样本数据的数据总量 的差值;
    若所述数据总量值大于所述样本数据集中的正常医疗影像样本数据的数据量的二倍,则确定扩增数据指标中要扩增的数据类型为异常医疗影像样本数据和正常医疗影像样本数据,异常医疗影像样本数据的数据类型对应的数据量为所述数据总量值的一半与所述异常医疗影像样本数据的数据量的差值,正常医疗影像样本数据的数据类型对应的数据量为所述数据总量值的一半与所述正常医疗影像样本数据的数据量的差值。
  14. 根据权利要求9-13任意一项所述的计算机设备,其中,所述根据各所述训练后医疗影像识别模型的性能指标,在各所述训练后医疗影像识别模型对应的候选数据扩增策略中确定出至少一个候选数据扩增策略作为目标数据扩增策略,包括:
    判断性能指标大于预定性能指标阈值的训练后医疗影像识别模型的数目是否大于第一预定数目;
    如果是,则在性能指标大于预定性能指标阈值的训练后医疗影像识别模型中任意选取第二预定数目个训练后医疗影像识别模型,作为目标训练后医疗影像识别模型,其中,所述第二预定数目小于所述第一预定数目;
    如果否,则将性能指标大于预定性能指标阈值的训练后医疗影像识别模型作为目标训练后医疗影像识别模型;
    将所述目标训练后医疗影像识别模型对应的候选数据扩增策略作为目标数据扩增策略。
  15. 根据权利要求9-13任意一项所述的计算机设备,其中,所述目标数据扩增策略为多个,所述利用所述目标数据扩增策略至少对所述样本数据集中的异常医疗影像样本数据进行扩增,包括:
    利用多个目标数据扩增策略随机生成策略组合,其中,所述策略组合包括至少一个目标数据扩增策略,在所述策略组合包括多个目标数据扩增策略的情况下,所述策略组合还包括各目标数据扩增策略的顺序;
    利用所述策略组合至少对所述样本数据集中的异常医疗影像样本数据进行扩增。
  16. 一种存储有计算机可读指令的计算机可读存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行:
    利用样本数据集中的正常医疗影像样本数据和异常医疗影像样本数据对基础医疗影像识别模型进行训练,得到第一医疗影像识别模型,其中,所述样本数据集中的正常医疗影像样本数据的数量大于异常医疗影像样本数据的数量;
    每次从预设数据扩增策略集合中选取一个尚未选取过的数据扩增策略,将该数据扩增策略作为候选数据扩增策略,并利用所述候选数据扩增策略至少对所述样本数据集中的异常医疗影像样本数据进行扩增,生成一组扩增得到的医疗影像样本数据;
    利用各组扩增得到的医疗影像样本数据分别对所述第一医疗影像识别模型进行训练,得到与各候选数据扩增策略对应的训练后医疗影像识别模型;
    基于预设测试数据集确定各所述训练后医疗影像识别模型的性能指标,所述预设测试数据集包括多个异常医疗影像样本数据;
    根据各所述训练后医疗影像识别模型的性能指标,在各所述训练后医疗影像识别模型对应的候选数据扩增策略中确定出至少一个候选数据扩增策略作为目标数据扩增策略;
    利用所述目标数据扩增策略至少对所述样本数据集中的异常医疗影像样本数据进行扩增。
  17. 根据权利要求16所述的计算机可读存储介质,其中,利用各候选数据扩增策略生成的各组扩增得到的医疗影像样本数据的数据量相同。
  18. 根据权利要求17所述的计算机可读存储介质,其中,所述扩增得到的医疗影像样本数据为扩增得到的异常医疗影像样本数据,所述扩增得到的异常医疗影像样本数据由所述样本数据集中的异常医疗影像样本数据扩增而来,任意一组扩增得到的异常医疗影像样本数据的数据量与所述样本数据集中异常医疗影像样本数据的数据量之和等于所述样本数 据集中正常医疗影像样本数据的数据量。
  19. 根据权利要求17所述的计算机可读存储介质,其中,在每次从预设数据扩增策略集合中选取一个尚未选取过的数据扩增策略,将该数据扩增策略作为候选数据扩增策略,并利用所述候选数据扩增策略至少对所述样本数据集中的异常医疗影像样本数据进行扩增,生成一组扩增得到的医疗影像样本数据之前,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器还执行:
    分别确定所述样本数据集中的医疗影像样本数据的数据总量、所述样本数据集中的正常医疗影像样本数据的数据量及异常医疗影像样本数据的数据量;
    获取数据总量值,其中,所述数据总量值为所述样本数据集中的医疗影像样本数据的数据量与要生成的一组扩增得到的医疗影像样本数据的数据量之和;
    根据所述样本数据集中的医疗影像样本数据的数据总量、所述样本数据集中的正常医疗影像样本数据的数据量、异常医疗影像样本数据的数据量和所述数据总量值,确定扩增数据指标,其中,所述扩增数据指标包括至少一项要扩增的数据类型及所述数据类型对应的数据量,所述要扩增的数据类型为异常医疗影像样本数据和正常医疗影像样本数据中的一项;
    所述每次从预设数据扩增策略集合中选取一个尚未选取过的数据扩增策略,将该数据扩增策略作为候选数据扩增策略,并利用所述候选数据扩增策略至少对所述样本数据集中的异常医疗影像样本数据进行扩增,生成一组扩增得到的医疗影像样本数据,包括:
    每次从预设数据扩增策略集合中选取一个尚未选取过的数据扩增策略,将该数据扩增策略作为候选数据扩增策略,按照所述扩增数据指标并利用所述候选数据扩增策略至少对所述样本数据集中的异常医疗影像样本数据进行扩增,生成一组扩增得到的医疗影像样本数据。
  20. 根据权利要求19所述的计算机可读存储介质,其中,所述根据所述样本数据集中的医疗影像样本数据的数据总量、所述样本数据集中的正常医疗影像样本数据的数据量、异常医疗影像样本数据的数据量和所述数据总量值,确定扩增数据指标,包括:
    若所述数据总量值小于或等于所述样本数据集中的正常医疗影像样本数据的数据量的二倍,则确定扩增数据指标中要扩增的数据类型为异常医疗影像样本数据,要扩增的数据类型对应的数据量为所述数据总量值与所述样本数据集中的医疗影像样本数据的数据总量的差值;
    若所述数据总量值大于所述样本数据集中的正常医疗影像样本数据的数据量的二倍,则确定扩增数据指标中要扩增的数据类型为异常医疗影像样本数据和正常医疗影像样本数据,异常医疗影像样本数据的数据类型对应的数据量为所述数据总量值的一半与所述异常医疗影像样本数据的数据量的差值,正常医疗影像样本数据的数据类型对应的数据量为所述数据总量值的一半与所述正常医疗影像样本数据的数据量的差值。
PCT/CN2021/096213 2020-09-15 2021-05-27 医疗影像数据扩增方法、装置、计算机设备和介质 WO2022057306A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010964587.3A CN111832666B (zh) 2020-09-15 2020-09-15 医疗影像数据扩增方法、装置、介质及电子设备
CN202010964587.3 2020-09-15

Publications (1)

Publication Number Publication Date
WO2022057306A1 true WO2022057306A1 (zh) 2022-03-24

Family

ID=72919007

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2021/096213 WO2022057306A1 (zh) 2020-09-15 2021-05-27 医疗影像数据扩增方法、装置、计算机设备和介质

Country Status (2)

Country Link
CN (1) CN111832666B (zh)
WO (1) WO2022057306A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115295134A (zh) * 2022-09-30 2022-11-04 北方健康医疗大数据科技有限公司 医学模型评价方法、装置和电子设备

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111832666B (zh) * 2020-09-15 2020-12-25 平安国际智慧城市科技股份有限公司 医疗影像数据扩增方法、装置、介质及电子设备
CN113223000A (zh) * 2021-04-14 2021-08-06 江苏省基础地理信息中心 一种提高小目标分割精度的综合方法
CN113220883B (zh) * 2021-05-17 2023-12-26 华南师范大学 一种文本分类方法、装置及存储介质
CN113378991A (zh) * 2021-07-07 2021-09-10 上海联影医疗科技股份有限公司 医疗数据生成方法、装置、电子设备及存储介质
CN114386479B (zh) * 2021-12-09 2023-02-03 首都医科大学附属北京友谊医院 医学数据处理方法、装置、存储介质及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108830294A (zh) * 2018-05-09 2018-11-16 四川斐讯信息技术有限公司 一种图像数据的增广方法
US20190354817A1 (en) * 2018-05-18 2019-11-21 Google Llc Learning Data Augmentation Strategies for Object Detection
CN110807109A (zh) * 2019-11-08 2020-02-18 北京金山云网络技术有限公司 数据增强策略的生成方法、数据增强方法和装置
CN111144494A (zh) * 2019-12-27 2020-05-12 睿魔智能科技(深圳)有限公司 物体检测模型训练方法、检测方法、装置、设备及介质
CN111275129A (zh) * 2020-02-17 2020-06-12 平安科技(深圳)有限公司 一种图像数据的增广策略选取方法及系统
CN111832666A (zh) * 2020-09-15 2020-10-27 平安国际智慧城市科技股份有限公司 医疗影像数据扩增方法、装置、介质及电子设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107316004A (zh) * 2017-06-06 2017-11-03 西北工业大学 基于深度学习的空间目标识别方法
CN108563548B (zh) * 2018-03-19 2020-10-16 创新先进技术有限公司 异常检测方法及装置
US11138471B2 (en) * 2018-05-18 2021-10-05 Google Llc Augmentation of audiographic images for improved machine learning
CN110070124A (zh) * 2019-04-15 2019-07-30 广州小鹏汽车科技有限公司 一种基于生成式对抗网络的图像扩增方法及系统
CN111582375A (zh) * 2020-05-09 2020-08-25 北京百度网讯科技有限公司 数据增强策略搜索方法、装置、设备以及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108830294A (zh) * 2018-05-09 2018-11-16 四川斐讯信息技术有限公司 一种图像数据的增广方法
US20190354817A1 (en) * 2018-05-18 2019-11-21 Google Llc Learning Data Augmentation Strategies for Object Detection
CN110807109A (zh) * 2019-11-08 2020-02-18 北京金山云网络技术有限公司 数据增强策略的生成方法、数据增强方法和装置
CN111144494A (zh) * 2019-12-27 2020-05-12 睿魔智能科技(深圳)有限公司 物体检测模型训练方法、检测方法、装置、设备及介质
CN111275129A (zh) * 2020-02-17 2020-06-12 平安科技(深圳)有限公司 一种图像数据的增广策略选取方法及系统
CN111832666A (zh) * 2020-09-15 2020-10-27 平安国际智慧城市科技股份有限公司 医疗影像数据扩增方法、装置、介质及电子设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115295134A (zh) * 2022-09-30 2022-11-04 北方健康医疗大数据科技有限公司 医学模型评价方法、装置和电子设备

Also Published As

Publication number Publication date
CN111832666A (zh) 2020-10-27
CN111832666B (zh) 2020-12-25

Similar Documents

Publication Publication Date Title
WO2022057306A1 (zh) 医疗影像数据扩增方法、装置、计算机设备和介质
JP7331171B2 (ja) 画像認識モデルをトレーニングするための方法および装置、画像を認識するための方法および装置、電子機器、記憶媒体、並びにコンピュータプログラム
US10922206B2 (en) Systems and methods for determining performance metrics of remote relational databases
WO2021217867A1 (zh) 基于XGBoost的数据分类方法、装置、计算机设备及存储介质
CN110097193B (zh) 训练模型的方法及系统和预测序列数据的方法及系统
CN111881991B (zh) 一种识别欺诈的方法、装置及电子设备
CN111047602A (zh) 图像分割方法、装置及终端设备
WO2021068513A1 (zh) 异常对象识别方法、装置、介质及电子设备
US20200364245A1 (en) Generating and visualizing bias scores representing bias in digital segments within segment-generation-user interfaces
JP2019534487A (ja) 最適ストラテジーを決定するためのシステムおよび方法
CN111028237A (zh) 图像分割方法、装置及终端设备
US10915586B2 (en) Search engine for identifying analogies
CN107392259B (zh) 构建不均衡样本分类模型的方法和装置
US20220284807A1 (en) Method of predicting traffic volume, electronic device, and medium
KR20230007268A (ko) 임무 처리 방법, 임무 처리 장치, 전자 기기, 저장 매체 및 컴퓨터 프로그램
WO2023273017A1 (zh) 测井图像清晰度的识别方法、装置、介质及电子设备
WO2024051655A1 (zh) 全视野组织学图像的处理方法、装置、介质和电子设备
WO2021189949A1 (zh) 信息推荐方法、装置、电子设备及介质
CN111046085B (zh) 数据的溯源处理方法及装置、介质和设备
WO2021039797A1 (ja) クリック率予測モデル構築装置
WO2021051562A1 (zh) 人脸特征点定位方法、装置、计算设备和存储介质
US10430831B2 (en) Prioritizing companies for people search
WO2022134338A1 (zh) 领域适应方法、装置、电子设备及存储介质
CN115100723A (zh) 面色分类方法、装置、计算机可读程序介质及电子设备
CN113934894A (zh) 基于指标树的数据显示方法、终端设备

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21868144

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21868144

Country of ref document: EP

Kind code of ref document: A1