WO2020199593A1 - 图像分割模型训练方法、图像分割方法、装置、设备及介质 - Google Patents
图像分割模型训练方法、图像分割方法、装置、设备及介质 Download PDFInfo
- Publication number
- WO2020199593A1 WO2020199593A1 PCT/CN2019/117256 CN2019117256W WO2020199593A1 WO 2020199593 A1 WO2020199593 A1 WO 2020199593A1 CN 2019117256 W CN2019117256 W CN 2019117256W WO 2020199593 A1 WO2020199593 A1 WO 2020199593A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- interest
- region
- error
- fundus image
- segmentation
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10072—Tomographic images
- G06T2207/10101—Optical tomography; Optical coherence tomography [OCT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30041—Eye; Retina; Ophthalmic
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Definitions
- This application relates to the field of image technology, and in particular to an image segmentation model training method, image segmentation method, device, device, and medium.
- the fundus is a collective term for the tissue structures located at the back of the inner eye, mainly including the retina, optic papilla, macula, and cardiovascular structures in the retina.
- the macula is located at the posterior pole of the eyeball, outside of the optic disc, which is the central area of the retina and the projection point of the vision axis.
- the macular area is dark red or reddish brown because it is rich in lutein. It is the darkest area at the back of the fundus, and is generally oval or approximately circular.
- Coherence optical tomography is a new non-contact, non-invasive imaging method for cross-sectional scanning of the retina, which can visually display the internal structure of the retina and obtain similar ocular tissue diseases in vivo.
- Physiological imaging can objectively and quantitatively measure and analyze the structure of the retina, and provide clinical guidance for the development of eye diseases after laser treatment.
- manual segmentation of the retinal layer of the fundus image of optical coherence tomography still dominates in ophthalmology clinical practice. This process is time-consuming and laborious, subjective, and poorly reproducible, which seriously affects the efficiency and accuracy of clinical diagnosis.
- the application of image segmentation technology to automatically segment the typical lesions in the fundus macular area in OCT images can provide quantitative imaging indicators for clinical treatment.
- traditional image segmentation methods such as level sets, etc.
- deep learning-based image segmentation technology has many advantages.
- the currently commonly used deep learning segmentation network is U-Net. However, since the U-Net network calculates pixel by pixel on the entire image, it is easy to segment the false positive lesion area in some areas where there is no lesion.
- This application provides an image segmentation model training method, image segmentation method, device, equipment, and medium, which can detect positioning first and then finely segment, thereby improving the accuracy of segmentation.
- the present application provides an image segmentation model training method, and the image segmentation model training method includes:
- the present application also provides an image segmentation method, the image segmentation method including:
- the fundus image segmentation model adopts the fundus image segmentation model training method described in the first aspect The trained fundus image segmentation model.
- this application also provides an image segmentation model training device, and the image segmentation model training device includes:
- a down-sampling module configured to down-sample the fundus image to obtain feature maps of different scales
- An input module which inputs the feature maps of different scales to a region generation network to obtain the regions of interest of different scales and the classification of the regions of interest;
- An up-sampling module for up-sampling the regions of interest of different scales
- a segmentation module configured to perform multi-scale fusion segmentation between the region of interest and the up-sampled region of interest
- a calculation module configured to obtain the bounding box regression error of the region of interest of different scales, the classification error of the classification, and the segmentation error of the multi-scale fusion segmentation to calculate a loss function according to the region generation network;
- the adjustment module is configured to adjust the parameters of the down-sampling, region generation network, and up-sampling according to the value of the loss function until the value of the loss function is within a preset error range to obtain the fundus image segmentation model.
- this application also provides an image segmentation device, which includes:
- a preprocessing unit configured to preprocess the fundus image to be segmented
- the image segmentation unit is configured to input the preprocessed fundus image to be segmented into the fundus image segmentation model to segment the preprocessed fundus image to be segmented;
- the fundus image segmentation model is the fundus described in the first aspect Fundus image segmentation model trained by image segmentation model training method.
- the present application also provides a computer device, the computer device including a memory and a processor;
- the memory is used to store computer programs
- the processor is configured to execute the computer program and implement the image segmentation model training method of the first aspect or the image segmentation method of the second aspect when the computer program is executed.
- the present application also provides a computer-readable storage medium, the computer-readable storage medium stores a computer program, and when the computer program is executed by a processor, the processor realizes the process described in the first aspect Image segmentation model training method, or the image segmentation method of the second aspect.
- the application discloses an image segmentation model training method, image segmentation method, device, equipment and medium.
- This method obtains feature maps of different scales by down-sampling the acquired fundus images; input the feature maps of different scales to the region generation network to obtain the regions of interest of different scales and the regions of interest.
- FIG. 1 is a schematic flowchart of steps of an image segmentation model training method provided by an embodiment of this application;
- FIG. 2 is a schematic structural block diagram of training of an image segmentation model training method provided by an embodiment of the application
- FIG. 3 is a schematic flowchart of steps of an image segmentation method provided by an embodiment of the application.
- FIG. 4 is a schematic block diagram of the structure of an image segmentation model training device provided by an embodiment of the application.
- FIG. 5 is a schematic block diagram of the structure of an image segmentation device provided by an embodiment of the application.
- FIG. 6 is a schematic block diagram of the structure of a computer device according to an embodiment of the application.
- the embodiments of the application provide an image segmentation model training method, image segmentation method, device, equipment, and medium.
- the image segmentation model training method, image segmentation method, device, equipment, and medium can be used in hospitals, social health, physical examination institutions, research departments and other institutions to segment fundus images.
- FIG. 1 is a schematic flowchart of an image segmentation model training method provided by an embodiment of the application
- FIG. 2 is a schematic structural block diagram for training an image segmentation model training method provided by an embodiment of the application, please refer to FIG. 1 and FIG. 2.
- the image segmentation model training method includes the following steps:
- Step S101 Obtain a fundus image.
- the fundus image is a fundus OCT image in a fundus OCT image sample.
- a fundus OCT image sample is obtained from a sample database, and the fundus OCT image sample includes a positive sample and a negative sample. At the same time, it can contain OCT images of the fundus at different ages.
- preprocessing operations such as noise reduction and image enhancement may be performed on the acquired fundus OCT image samples.
- Step S102 Down-sampling the fundus image to obtain feature maps of different scales.
- the down-sampling of the fundus image to obtain feature maps of different scales includes: inputting the fundus image to a residual hopping network, and the residual hopping network includes multiple volumes. Multilayer, multiple pooling layers, and multiple jump-connect structures, each time the fundus image passes through a convolutional layer and a pooling layer, a feature map of one scale is obtained, thereby obtaining multiple feature maps of different scales.
- the convolutional layer uses a 3*3 feature kernel for convolution, and after each convolution, the ReLU operation is performed.
- ReLU is Rectified Linear Units, which is a non-linear operation.
- ReLU is an element-wise operation (applied to each pixel) and replaces all negative pixel values in the feature map with zero.
- the purpose of ReLU is to introduce non-linear factors into the convolutional neural network, because convolution is a linear operation (matrix multiplication and addition per element), and in practice most of the data that you want to learn with the neural network is non-linear , Solve nonlinear problems by introducing nonlinear functions such as ReLU. After convolution and nonlinear processing, a 2x2 window is used for maximum pooling.
- a residual jump connection structure is added on the basis of the convolutional layer and the pooling layer, and a residual jump connection network is formed.
- Step S103 Input the feature maps of different scales into a region generation network to obtain the regions of interest of different scales and the classification of the regions of interest.
- the feature map input region generated network (Region Propsal Network, RPN) obtained after each downsampling in step S102, that is, after each convolutional pooling, is generated.
- RPN is a small network of a convolutional layer (256 dimensions) and two left and right layers (classification layer clc layer and segmentation layer reg layer). Applied to the sliding window area, all sliding windows share this RPN. This convolutional layer is compared with the ordinary convolutional layer.
- the anchor mechanism is to further generate k possible areas of different sizes on the aforementioned n*n sliding window.
- the sliding window plus anchor mechanism basically covers all areas where the target may appear.
- the output of the RPN convolutional layer is 1*1*256
- all classification layers cls layer use 1x1 convolution kernels for further feature extraction.
- the input is a 1*1 picture, it is equivalent to the function of full connection, which is equivalent to flattening 1*1*256 into 256,
- the fully connected layer uses activation functions such as the softmax activation function to classify images. In this way, the lesions in the macular area of the fundus can be classified, such as intraretinal fluid, subretinal fluid, or pigment epithelial detachment.
- Step S104 Up-sampling the regions of interest of different scales.
- the multiple feature maps of the region of interest marked in step S103 are up-sampled, which can be specifically implemented by deconvolution.
- the up-sampling passes through 2*2 deconvolution, and after each deconvolution up-sampling, it passes through a 3*3 convolution and ReLU nonlinear unit.
- the step size of deconvolution is consistent with the step size of pooling in step S102. Increase the number of channels for each upsampling.
- the number of upsampling is maintained once with the number of downsampling in step S102. For example, the number of downsampling in step S102 is 4 times, then the number of upsampling in this step is also 4 times, and a 1*1 convolutional layer is used in the last layer.
- Step S105 Perform multi-scale fusion segmentation on the region of interest and the up-sampled region of interest.
- the multi-scale fusion segmentation of the region of interest and the up-sampled region of interest includes: splicing the region of interest with the up-sampled region of interest of the same scale, At the same time, the spliced region of interest is used as the input of the next level of upsampling.
- each up-sampling that is, every deconvolution
- the result is spliced with the region of interest corresponding to the down-sampling part, that is, with the step S103
- the region of interest of the same scale is fused and segmented, and the result after stitching is subjected to 3*3 convolution and nonlinear processing, and the processed result will be used as the input of the next level of upsampling.
- the input of each layer of deconvolution is combined with the output of the downsampling of the corresponding position in the network. This operation is called skip connection.
- the low-level features extracted in the previous encoding stage can be merged with the high-level features extracted in the decoding stage to form a richer description of the features.
- the corresponding regions of interest are feature extraction at different scales through the residual convolutional network, the corresponding regions of interest for upsampling and downsampling can be directly connected without additional calculations.
- segmentation accuracy is improved. In this way, a variety of lesions in the macular area of the fundus can be divided very finely.
- Step S106 Obtain the bounding box regression error of the region of interest of different scales, the classification error of the classification, and the segmentation error of the multi-scale fusion segmentation to calculate a loss function according to the region generation network.
- the calculation of the loss function of the bounding box regression error of the region of interest, the classification error of the classification, and the segmentation error of the multi-scale fusion segmentation obtained by the region generation network includes:
- ⁇ 1 , ⁇ 2 , and ⁇ 3 are trade-off parameters, which can be adjusted and optimized according to actual conditions.
- L represents the loss function
- L 1 represents the classification error
- L 2 represents the bounding box regression error
- L 3 represents the segmentation error
- N c represents the number of categories
- i represents the subscript of the region of interest
- p i represents the i-th interest
- t i represents the positive sample from the region of interest to the predicted region
- R() is the smooth function, namely It represents the desired output value y i, a i represents the actual output value, N denotes the number of regions of interest, ⁇ factor was weighed.
- Step S107 Adjust the parameters of the down-sampling, the region generation network, and the up-sampling according to the value of the loss function until the value of the loss function is within a preset error range to obtain the fundus image segmentation model.
- the acquired fundus images are down-sampled to obtain feature maps of different scales; the feature maps of different scales are input to the region generation network to obtain the different scales of interest
- the classification of the region and the region of interest in this way, the target region of interest can be detected first, and then the region of interest of different scales can be up-sampled for the target region; the region of interest can be compared with the up-sampling feeling Multi-scale fusion segmentation of the region of interest improves segmentation accuracy.
- FIG. 3 is a schematic flowchart of a fundus image segmentation method provided by an embodiment of the application. Please refer to FIG. 3.
- the fundus image segmentation method includes the following steps:
- Step S201 Obtain a fundus image to be segmented.
- the image processing device may directly receive the divided ocular fundus OCT image sent by the OCT inspection device. Or you can directly send an acquisition command to the OCT image database server.
- the acquisition command includes patient information, examination time, etc.
- the OCT image database server retrieves the corresponding segmented OCT according to the patient information and examination time. And send the retrieved OCT image to be segmented to the image processing device.
- Step S202 preprocessing the fundus image to be segmented.
- preprocessing the acquired fundus OCT image includes image denoising and image enhancement.
- the structure of the fundus image is complex and changeable, and due to uneven illumination, weak contrast and noise interference, the clarity of the fundus image is often not high, the visibility of the optic disc and the macular area is weakened and the edges are not obvious.
- OCT is a real-time imaging of the human eyeball.
- tissue scattering, non-linearity of photoelectric detection, and unstable light source which cause noise during image collection, making subsequent identification and segmentation difficult. Therefore, it is first necessary to preprocess the fundus image to eliminate noise, enhance target and background contrast, etc., to improve image recognition, and to improve the results of image processing and analysis.
- linear filters such as mean filtering and non-linear filters such as median filtering suitable for impulse noise can be used for denoising processing, or local adaptive filtering methods can be used for denoising.
- local adaptive filtering methods can be used for denoising.
- Step S203 Input the preprocessed fundus image to be segmented into the fundus image segmentation model, so as to segment the preprocessed fundus image to be segmented.
- the fundus image segmentation model is a fundus image segmentation model trained using the fundus image segmentation model training method provided in the foregoing embodiment.
- FIG. 4 is a schematic structural block diagram of an image segmentation model training device provided by an embodiment of this application. Please refer to FIG. 4, the image segmentation model training device includes:
- the first image acquisition module 41 is used to acquire fundus images
- the down-sampling module 42 is configured to down-sample the fundus image to obtain feature maps of different scales
- the input module 43 inputs the feature maps of different scales into a region generation network to obtain the regions of interest of different scales and the classification of the regions of interest;
- the up-sampling module 44 performs up-sampling on the regions of interest of different scales
- the segmentation module 45 is configured to perform multi-scale fusion segmentation of the region of interest and the up-sampled region of interest;
- the calculation module 46 is configured to obtain the bounding box regression error of the region of interest of different scales, the classification error of the classification, and the segmentation error of the multi-scale fusion segmentation to calculate a loss function according to the region generation network;
- the adjustment module 47 is configured to adjust the parameters of the down-sampling, region generation network, and up-sampling according to the value of the loss function until the value of the loss function is within a preset error range to obtain the fundus image segmentation model .
- calculation module 46 is also specifically configured to:
- ⁇ 1 , ⁇ 2 , ⁇ 3 are trade-off parameters
- L represents the loss function
- L 1 represents the classification error
- L 2 represents the bounding box regression error
- L 3 represents the segmentation error
- N c represents the number of categories
- i represents the feeling The subscript of the region of interest
- p i represents the probability that the i-th region of interest is predicted to be a positive sample.
- p i * When the region of interest is a positive sample, p i * is 1; when the region of interest is a negative sample, p i * is 0; t i represents the four translation scaling parameters from the positive sample area of interest to the prediction area, t i * represents the four translation scaling parameters from the positive sample area of interest to the true label, R() is the smooth function, namely It represents the desired output value y i, a i represents the actual output value, N denotes the number of regions of interest, ⁇ factor was weighed.
- the down-sampling module 42 is also specifically configured to:
- the fundus image is input to a residual jump connection network, which includes multiple convolutional layers, multiple pooling layers, and multiple jump connection structures.
- the fundus image passes through a layer of convolutional layer each time And the pooling layer obtains a feature map of one scale, thereby obtaining multiple feature maps of different scales.
- the up-sampling module 44 is also specifically configured to:
- the regions of interest of different scales are deconvolved to achieve upsampling.
- the segmentation module 45 is also specifically used for:
- the region of interest and the region of interest corresponding to the same scale after the upsampling are spliced, and the spliced region of interest is used as the input of the next level of upsampling.
- FIG. 5 is a schematic structural block diagram of an image segmentation device provided by an embodiment of this application, and the image segmentation device includes:
- the second image acquisition module 51 is used to acquire the fundus image to be segmented.
- the preprocessing module 52 is used to preprocess the fundus image to be segmented.
- the image segmentation module 53 is configured to input the preprocessed fundus image to be segmented into the fundus image segmentation model, so as to segment the preprocessed fundus image to be segmented; the fundus image segmentation model is provided by using the foregoing embodiment The fundus image segmentation model trained by the fundus image segmentation model training method.
- the above-mentioned apparatus can be implemented in the form of a computer program, and the computer program can be run on the computer device as shown in FIG. 6.
- FIG. 6 is a schematic block diagram of the structure of a computer device according to an embodiment of the present application.
- the computer equipment can be a server or a terminal.
- the server can be an independent server or a server cluster.
- the terminal can be an electronic device such as a mobile phone, a tablet computer, a notebook computer, a desktop computer, a personal digital assistant, and a wearable device.
- the computer device includes a processor, a memory, and a network interface connected through a system bus, where the memory may include a non-volatile storage medium and an internal memory.
- the non-volatile storage medium can store an operating system and a computer program.
- the computer program includes program instructions.
- the processor can execute any fundus image segmentation model training method or fundus image segmentation method.
- the processor is used to provide computing and control capabilities and support the operation of the entire computer equipment.
- the internal memory provides an environment for the operation of the computer program in the non-volatile storage medium.
- the processor can execute any image segmentation model training method or image segmentation method.
- the network interface is used for network communication, such as sending assigned tasks.
- the network interface is used for network communication, such as sending assigned tasks.
- FIG. 6 is only a block diagram of part of the structure related to the solution of the present application, and does not constitute a limitation on the computer device to which the solution of the present application is applied.
- the specific computer device may Including more or fewer parts than shown in the figure, or combining some parts, or having a different arrangement of parts.
- the processor may be a central processing unit (Central Processing Unit, CPU), the processor may also be other general-purpose processors, digital signal processors (Digital Signal Processor, DSP), and application specific integrated circuits (Application Specific Integrated Circuits). Circuit, ASIC), Field-Programmable Gate Array (FPGA) or other programmable logic devices, discrete gates or transistor logic devices, discrete hardware components, etc.
- the general-purpose processor may be a microprocessor or the processor may also be any conventional processor.
- the processor is used to run a computer program stored in the memory to implement the following steps:
- the processor executes the calculation of the loss function based on the bounding box regression error of the region of interest obtained by the region generation network, the classification error of the classification, and the segmentation error of the multi-scale fusion segmentation To achieve:
- ⁇ 1 , ⁇ 2 , ⁇ 3 are trade-off parameters
- L represents the loss function
- L 1 represents the classification error
- L 2 represents the bounding box regression error
- L 3 represents the segmentation error
- N c represents the number of categories
- i represents the feeling The subscript of the region of interest
- p i represents the probability that the i-th region of interest is predicted to be a positive sample.
- p i * When the region of interest is a positive sample, p i * is 1; when the region of interest is a negative sample, p i * is 0; t i represents the four translation scaling parameters from the positive sample area of interest to the prediction area, t i * represents the four translation scaling parameters from the positive sample area of interest to the true label, R() is the smooth function, namely It represents the desired output value y i, a i represents the actual output value, N denotes the number of regions of interest, ⁇ factor was weighed.
- the processor when performing the down-sampling of the fundus image to obtain feature maps of different scales, the processor is configured to implement:
- the fundus image is input to a residual jump connection network, which includes multiple convolutional layers, multiple pooling layers, and multiple jump connection structures.
- the fundus image passes through a layer of convolutional layer each time And the pooling layer obtains a feature map of one scale, thereby obtaining multiple feature maps of different scales.
- the processor when performing the upsampling of the regions of interest of different scales, the processor is configured to implement:
- the regions of interest of different scales are deconvolved to achieve upsampling.
- the processor when the processor performs the multi-scale fusion segmentation of the region of interest and the up-sampled region of interest, the processor is configured to implement:
- the region of interest and the region of interest corresponding to the same scale after the upsampling are spliced, and the spliced region of interest is used as the input of the next level of upsampling.
- the processor is used to run a computer program stored in the memory to implement the following steps:
- the preprocessed fundus image to be segmented is input into the fundus image segmentation model to segment the preprocessed fundus image to be segmented; the fundus image segmentation model adopts the fundus image segmentation model training method described in the foregoing embodiment The trained fundus image segmentation model.
- the embodiments of the present application also provide a computer-readable storage medium, the computer-readable storage medium stores a computer program, the computer program includes program instructions, and the processor executes the program instructions to implement the present application Any of the image segmentation model training methods or image segmentation methods provided in the embodiments.
- the computer-readable storage medium may be the internal storage unit of the computer device described in the foregoing embodiment, such as the hard disk or memory of the computer device.
- the computer-readable storage medium may also be an external storage device of the computer device, such as a plug-in hard disk, a smart memory card (SMC), or a secure digital (Secure Digital, SD) equipped on the computer device. ) Card, Flash Card, etc.
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Eye Examination Apparatus (AREA)
- Image Analysis (AREA)
Abstract
一种图像分割模型训练方法、图像分割方法、装置、设备及介质。通过对眼底图像进行下采样,并将下采样结果输入至区域生成网络,以获得不同尺度的感兴趣区域和分类;将感兴趣区域与上采样后的感兴趣区域进行多尺度融合分割;根据损失函数的值调整下采样、区域生成网络以及上采样的参数,直到损失函数的值在预设误差范围内。
Description
本申请要求于2019年4月4日提交中国专利局、申请号为201910268948.8、发明名称为“图像分割模型训练方法、图像分割方法、装置、设备及介质”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
本申请涉及图像技术领域,尤其涉及一种图像分割模型训练方法、图像分割方法、装置、设备及介质。
眼底是位于内眼后部组织结构的统称,主要包括视网膜、视乳头、黄斑和视网膜中心血管等结构。黄斑位于眼球后极部,视盘外侧,是视网膜的中心区域,是视力轴的投影点。黄斑区由于富含叶黄素,故呈暗红或红褐色,是眼底后部色调最暗区域,一般呈椭圆或近似圆形。黄斑的中央也存在一小凹陷,称为中央凹,为视觉最敏锐处。
相干光断层扫描(optical coherence tomography,OCT)作为一种新型的非接触式、非侵入式对视网膜进行横截面扫描的影像学检查方法,能直观显示视网膜内部结构,在活体上获得类似眼组织病理学的影像,可以客观定量地对视网膜结构进行测量和分析,对眼睛疾病激光治疗后的病程发展能提供临床指导。目前,人工手动分割光学相干断层扫描眼底图像的视网膜层在眼科临床实践中仍占主导地位,该过程费时费力,而且主观性强、重复性差,严重影响临床诊断的效率和准确性。
应用图像分割技术对OCT图像中眼底黄斑区典型病灶进行自动分割,能为临床治疗提供定量化影像学指标。相对于传统图像分割方法(如水平集等),深度学习为主的图像分割技术具有很多优势,目前常用的深度学习分割网络为U-Net。但由于U-Net网络是在整张图像上逐个像素分别进行计算,在一些并不存在病灶的区域,很容易分割得到假阳性病灶区域。
发明内容
本申请提供了一种图像分割模型训练方法、图像分割方法、装置、设备及介质,能先检测定位然后再精细分割,提高了分割的精度。
第一方面,本申请提供了一种图像分割模型训练方法,所述图像分割模型训练方法包括:
获取眼底图像;
对所述眼底图像进行下采样以获得不同尺度的特征映射;
将所述不同尺度的特征映射输入至区域生成网络,以获得所述不同尺度的感兴趣区域以及所述感兴趣区域的分类;
对所述不同尺度的感兴趣区域进行上采样;
将所述感兴趣区域与上采样后的感兴趣区域进行多尺度融合分割;
根据所述区域生成网络获得所述不同尺度的感兴趣区域的边界框回归误差、所述分类的分类误差以及所述多尺度融合分割的分割误差计算损失函数;
根据所述损失函数的值调整所述下采样、区域生成网络以及上采样的参数,直到所述损失函数的值在预设误差范围内,以获得所述眼底图像分割模型。
第二方面,本申请还提供了一种图像分割方法,所述图像分割方法包括:
获取待分割的眼底图像;
对所述待分割的眼底图像进行预处理;
将预处理后的待分割的眼底图像输入眼底图像分割模型,以对预处理后的待分割的眼底图像进行分割;所述眼底图像分割模型为采用第一方面所述的眼底图像分割模型训练方法训练得到的眼底图像分割模型。
第三方面,本申请还提供了一种图像分割模型训练装置,所述图像分割模型训练装置包括:
获取模块,用于获取眼底图像;
下采样模块,用于对所述眼底图像进行下采样以获得不同尺度的特征映射;
输入模块,将所述不同尺度的特征映射输入至区域生成网络,以获得所述不同尺度的感兴趣区域以及所述感兴趣区域的分类;
上采样模块,对所述不同尺度的感兴趣区域进行上采样;
分割模块,用于将所述感兴趣区域与上采样后的感兴趣区域进行多尺度融合分割;
计算模块,用于根据所述区域生成网络获得所述不同尺度的感兴趣区域的边界框回归误差、所述分类的分类误差以及所述多尺度融合分割的分割误差计算损失函数;
调整模块,用于根据所述损失函数的值调整所述下采样、区域生成网络以及上采样的参数,直到所述损失函数的值在预设误差范围内,以获得所述眼底图像分割模型。
第四方面,本申请还提供了一种图像分割装置,所述图像分割装置包括:
获取单元,用于获取待分割的眼底图像;
预处理单元,用于对所述待分割的眼底图像进行预处理;
图像分割单元,用于将预处理后的待分割的眼底图像输入眼底图像分割模型,以对预处理后的待分割的眼底图像进行分割;所述眼底图像分割模型为第 一方面所述的眼底图像分割模型训练方法训练得到的眼底图像分割模型。
第五方面,本申请还提供了一种计算机设备,所述计算机设备包括存储器和处理器;
所述存储器用于存储计算机程序;
所述处理器,用于执行所述计算机程序并在执行所述计算机程序时实现第一方面所述的图像分割模型训练方法,或者第二方面的所述图像分割方法。
第六方面,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现第一方面所述的图像分割模型训练方法,或者第二方面的所述图像分割方法。
本申请公开了一种图像分割模型训练方法、图像分割方法、装置、设备及介质。该方法通过对获取的眼底图像进行下采样以获得不同尺度的特征映射;将所述不同尺度的特征映射输入至区域生成网络,以获得所述不同尺度的感兴趣区域以及所述感兴趣区域的分类;对所述不同尺度的感兴趣区域进行上采样;将所述感兴趣区域与上采样后的感兴趣区域进行多尺度融合分割;根据所述区域生成网络获得所述不同尺度的感兴趣区域的边界框回归误差、所述分类的分类误差以及所述多尺度融合分割的分割误差计算损失函数;根据所述损失函数的值调整所述下采样、区域生成网络以及上采样的参数,直到所述损失函数的值在预设误差范围内,以获得所述眼底图像分割模型。该方法先进行多尺度的特征提取,然后提取感兴趣区域,然后再进行多尺度融合的精细分割,提高了分割精度。
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种图像分割模型训练方法步骤示意流程图;
图2为本申请实施例提供的一种图像分割模型训练方法的训练示意性结构框图;
图3为本申请实施例提供的一种图像分割方法步骤示意流程图;
图4为本申请实施例提供的图像分割模型训练装置结构示意性框图;
图5为本申请实施例提供的图像分割装置结构示意性框图;
图6为本申请实施例提供的一种计算机设备结构示意性框图。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清 楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
本申请实施例提供了一种图像分割模型训练方法、图像分割方法、装置、设备及介质。该图像分割模型训练方法、图像分割方法、装置、设备及介质可用于医院、社康、体检机构、研究部门等其他机构对眼底图像进行分割。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
图1为本申请实施例提供的一种图像分割模型训练方法的示意流程图,图2为本申请实施例提供的一种图像分割模型训练方法的训练示意性结构框图,请参考图1及图2,所述图像分割模型训练方法包括以下步骤:
步骤S101、获取眼底图像。
具体的,眼底图像为眼底OCT图像样本中的眼底OCT图像,本申请实施例中,从样本数据库中获取眼底OCT图像样本,眼底OCT图像样本包括正样本和负样本。同时可以包含不同年龄阶段眼底OCT图像。
可选的,如样本数据库中获取的眼底OCT图像样本未进行预处理,为了提高后续处理的精度,可以对获取的眼底OCT图像样本进行降噪以及图像增强等预处理操作。
步骤S102、对所述眼底图像进行下采样以获得不同尺度的特征映射。
本申请实施例中,所述对所述眼底图像进行下采样以获得不同尺度的特征映射,包括:将所述眼底图像输入至残差跳连网络,所述残差跳连网络包括多个卷积层、多个池化层以及多个跳连结构,所述眼底图像每经过一层卷积层以及池化层就得到一个尺度的特征映射,从而得到多个不同尺度的特征映射。具体的,可以参加图2中下采样部分的结构框图,将获取眼底OCT图像进行下采样,输入至多个卷积层和池化层,通过卷积核与眼底OCT图像进行卷积然后再进行池化,每经过一个卷积层和池化层就得到对应尺度的特征映射,这样可以得到多个尺度的特征映射(feature map)。每经过一个池化层就一个尺度,卷积层与池化层的数量根据实际需求进行设置,比如,卷积层与池化层数量为4,这样包括原图尺度一共有5个尺度。本实施例中,卷积层采用3*3的特征核进行卷积,每次卷积之后,都进行了ReLU的操作。ReLU为修正线性单元(Rectified Linear Units),是一种非线性操作。ReLU是一个针对元素的操作(应用于每个像素),并将特征映射中的所有负像素值替换为零。ReLU的目的是在卷积神经网络中引入非线性因素,因为卷积是一个线性运算(按元素进行矩阵乘法 和加法),而在实际中想要用神经网络学习的数据大多数都是非线性的,通过引入ReLU这样的非线性函数来解决非线性问题。卷积以及非线性处理后采用2x2的窗口进行最大池化。每次池化下采样一次后加倍通道数。同时为进一步提高特征提取的精度,可选的,在卷积层、池化层基础上加入残差跳连结构,及形成残差跳连网络。
步骤S103、将所述不同尺度的特征映射输入至区域生成网络,以获得所述不同尺度的感兴趣区域以及所述感兴趣区域的分类。
具体的,将步骤S102得到的每次下采样后也即每次卷积池化后的特征映射输入区域生成网络(Region Propsal Network,RPN),例如卷积层与池化层数量为4,将这4次每次得到的特征映射都输入至RPN网络。RPN是一个卷积层(256维)和左右两个层的(分类层clc layer和分割层reg layer)的小网络。应用在滑动窗口区域上的,所有的滑动窗口共享这个RPN。这个卷积层对比普通的卷积层,它是一个将n*n*channels的输入通过256个n*n大小的卷积核生成1*1*256的特征映射,即最后是256维的特征(假设前面得到的特征映射是w*h*channels,那么n*n*channels的输入是在这个w*h*channels的特征映射上的用滑动窗口框出的区域);该卷积层的输入就是滑动窗口n*n对应的特征映射区域,经过它卷积后特征映射变成1*1了。本申请中,可以对特征映射中每一位置进行不同尺寸的区域选取,通过调整候选窗口anchor区域的宽度和高度的比例,并且进行不同尺寸大小的变化,从而获取同一位置的多个不同大小的候选区域。anchor机制就是在前述n*n的滑动窗口上,进一步生成k种不同大小的可能区域。滑动窗口加anchor机制基本把目标可能出现的区域都涵盖了。最后将获取的特征映射feature map的anchor与原图的分割信息进行比较,通过非极大抑制等相关方法剔除掉严重超出边界的anchor,得到步骤S102每次进行下采样后的特征映射的最后的感兴趣区域即RoI区域(Region of Interests)。
同时由于RPN卷积层输出的是1*1*256,所有分类层cls layer是用1 x 1的卷积核进行进一步的特征提取。通过1*1卷积核卷积时,对各个通道都有不同的参数,因为输入又是1*1的图片,所以相当于全连接的功能,相当于把1*1*256展平成256,然后进行全连接,即在分类层cls layer,通过1*1卷积核卷积后输入至全连接层,输出分类。全连接层采用激活函数比如softmax激活函数对图像进行分类。这样可以将眼底黄斑区的病灶进行分类,比如是视网膜内积液、还是视网膜下积液或者色素上皮脱离等等。
步骤S104、对所述不同尺度的感兴趣区域进行上采样。
本步骤中,将步骤S103标记了感兴趣区域的多个特征映射,也即RPN网络分割层reg layer确定出来的方框区域的图像进行上采样,具体可以通过反卷积实现。本实施例中上采样通过2*2反卷积,每反卷积上采样一次后再通过3*3的卷积和ReLU非线性单元。反卷积的步长与步骤S102中池化的步长保持一致。 每上采样一次都增加通道数。同时上采样的次数与步骤S102中下采样次数保持一次,比如步骤S102中下采样4次,那么该步骤中上采样的次数也为4次,在最后一层用1*1卷积层。
步骤S105、将所述感兴趣区域与上采样后的感兴趣区域进行多尺度融合分割。
本实施例中,所述将所述感兴趣区域与上采样后的感兴趣区域进行多尺度融合分割,包括:将所述感兴趣区域与上采样后的对应相同尺度的感兴趣区域进行拼接,同时将拼接后的感兴趣区域作为下一级上采样的输入。
具体的,参见图2中上采样部分,上采样中,每上采样一次,也就是每反卷积一次就将其结果与下采样部分对应的感兴趣区域进行拼接,也即与步骤S103中的相同尺度的感兴趣区域进行融合分割,对拼接之后的结果再进行3*3的卷积以及非线性处理,并且处理后的结果会作为下一级上采样的输入。这样,每一层反卷积的输入都合并了网络中对应位置的下采样的输出,该操作称为跳跃连接。通过跳跃连接,前期编码阶段提取的底层特征就可以在与解码阶段提取的高层特征相融合,形成了对特征更丰富的描述。且由于对应的感兴趣区域是通过残差卷积网络在不同尺度上进行了特征提取,因此上采样与下采样的对应的感兴趣区域直接连接即可,不需要额外计算。同时由于进行多个尺度融合分割,提高了分割精度。这样就很精细的将眼底黄斑区的多种病灶分割出来。
步骤S106、根据所述区域生成网络获得所述不同尺度的感兴趣区域的边界框回归误差、所述分类的分类误差以及所述多尺度融合分割的分割误差计算损失函数。
具体地,所述根据所述区域生成网络获得感兴趣区域的边界框回归误差、所述分类的分类误差以及所述多尺度融合分割的分割误差计算损失函数,包括:
所述根据所述区域生成网络获得感兴趣区域的边界框回归误差、所述分类的分类误差以及所述多尺度融合分割的分割误差关联的计算公式计算损失函数;
所述计算公式为:
L=λ
1L
1+λ
2L
2+λ
3L
3
其中,λ
1、λ
2、λ
3为权衡参数,可以根据实际情况进行调整和优化。L表示损失函数,L
1表示分类误差,L
2表示边界框回归误差,L
3表示分割误差,N
c表示类别数,i表示所述感兴趣区域的下标,p
i表示第i个感兴趣区域预测为正样本的概率,当感兴趣区域为正样本时,p
i
*为1;当感兴趣区域为负样本时,p
i
*为 0;t
i表示正样本感兴趣区域到预测区域的四个平移缩放参数,t
i
*表示正样本感兴趣区域到真实标签的四个平移缩放参数,R()是smooth函数,即
y
i表示期望输出值、a
i表示实际输出值,N表示感兴趣区域个数,α为权衡因子。
步骤S107、根据所述损失函数的值调整所述下采样、区域生成网络以及上采样的参数,直到所述损失函数的值在预设误差范围内,以获得所述眼底图像分割模型。
根据计算得到的损失函数的值调整和优化网络模型参数,包括调整卷积核特征值和权值等,直到训练误差在预设范围内,模型收敛,整个深度学习模型就完成。
本实施例的图像分割模型训练方法,通过对获取的眼底图像进行下采样以获得不同尺度的特征映射;将所述不同尺度的特征映射输入至区域生成网络,以获得所述不同尺度的感兴趣区域以及所述感兴趣区域的分类;这样可以先检测出感兴趣的目标区域,然后针对目标区域对所述不同尺度的感兴趣区域进行上采样;将所述感兴趣区域与上采样后的感兴趣区域进行多尺度融合分割,提高了分割精度。同时根据所述区域生成网络获得所述不同尺度的感兴趣区域的边界框回归误差、所述分类的分类误差以及所述多尺度融合分割的分割误差计算损失函数;根据所述损失函数的值调整和优化所述下采样、区域生成网络以及上采样的参数,直到所述损失函数的值在预设误差范围内,以获得眼底图像分割模型。
本申请还提供了一种图像分割方法,图3为本申请一实施例提供的一种眼底图像分割方法的示意流程图,请参见图3,所述眼底图像分割方法包括以下步骤:
步骤S201、获取待分割的眼底图像。
具体的,本申请实施例中,图像处理设备可以直接接收OCT检查设备发送过的第分割的眼底OCT图像。或者也可以直接发送获取命令给OCT图像数据库服务器,所述获取命令包括病人信息、检查时间等,OCT图像数据库服务器接收到获取命令之后,根据病人信息以及检查时间等检索得到对应的带分割的OCT图像,并将检索到的待分割的OCT图像发送给图像处理设备。
步骤S202、对所述待分割的眼底图像进行预处理。
具体的,将获取的眼底OCT图像进行预处理包括图像去噪以及图像增强等。
眼底图像结构复杂多变,且由于光照不均、对比度弱及噪音干扰问题,眼底图像清晰度往往不高,视盘以及黄斑区的可见性被削弱同时边缘不明显。加上OCT是对人体眼球活体实时成像,存在组织的散射性、光电检测的非线性和光源不稳等因素,导致图像采集时存在噪声,使得后续的识别分割较为困难。 因此首先需要对眼底图像进行预处理以消除噪音、增强目标和背景对比度等,提高图像辨识度,改善图像处理与分析的结果。
本申请中,可以使用均值滤波等线性滤波器和适合于脉冲噪声的中值滤波等非线性滤波器进行去噪处理,或者采用局部自适应滤波方法进行去噪。考虑到眼底图像清晰度往往不高,视盘以及黄斑区的可见性被削弱,可以对获取的眼底OCT图像进行增强。
步骤S203、将预处理后的待分割的眼底图像输入眼底图像分割模型,以对预处理后的待分割的眼底图像进行分割。
本实施例中,所述眼底图像分割模型为采用前述实施例提供的眼底图像分割模型训练方法训练得到的眼底图像分割模型。
本实施例中,通过将预处理后的待分割的眼底图像输入至分割精细的眼底图像分割模型,提高了眼底图像分割的精度。
本申请还提供了一种眼底图像分割模型训练装置,图4为本申请实施例提供的一种图像分割模型训练装置的示意结构框图,请参阅图4,所述图像分割模型训练装置包括:
第一图像获取模块41,用于获取眼底图像;
下采样模块42,用于对所述眼底图像进行下采样以获得不同尺度的特征映射;
输入模块43,将所述不同尺度的特征映射输入至区域生成网络,以获得所述不同尺度的感兴趣区域以及所述感兴趣区域的分类;
上采样模块44,对所述不同尺度的感兴趣区域进行上采样;
分割模块45,用于将所述感兴趣区域与上采样后的感兴趣区域进行多尺度融合分割;
计算模块46,用于根据所述区域生成网络获得所述不同尺度的感兴趣区域的边界框回归误差、所述分类的分类误差以及所述多尺度融合分割的分割误差计算损失函数;
调整模块47,用于根据所述损失函数的值调整所述下采样、区域生成网络以及上采样的参数,直到所述损失函数的值在预设误差范围内,以获得所述眼底图像分割模型。
可选的,所述计算模块46还具体用于:
所述根据所述区域生成网络获得感兴趣区域的边界框回归误差、所述分类的分类误差以及所述多尺度融合分割的分割误差关联的计算公式计算损失函数;
所述计算公式为:
L=λ
1L
1+λ
2L
2+λ
3L
3
其中,λ
1、λ
2、λ
3为权衡参数,L表示损失函数,L
1表示分类误差,L
2表示边界框回归误差,L
3表示分割误差,N
c表示类别数,i表示所述感兴趣区域的下标,p
i表示第i个感兴趣区域预测为正样本的概率,当感兴趣区域为正样本时,p
i
*为1;当感兴趣区域为负样本时,p
i
*为0;t
i表示正样本感兴趣区域到预测区域的四个平移缩放参数,t
i
*表示正样本感兴趣区域到真实标签的四个平移缩放参数,R()是smooth函数,即
y
i表示期望输出值、a
i表示实际输出值,N表示感兴趣区域个数,α为权衡因子。
可选的,所述下采样模块42还具体用于:
将所述眼底图像输入至残差跳连网络,所述残差跳连网络包括多个卷积层、多个池化层以及多个跳连结构,所述眼底图像每经过一层卷积层以及池化层就得到一个尺度的特征映射,从而得到多个不同尺度的特征映射。
可选的,所述上采样模块44,还具体用于:
将所述不同尺度的感兴趣区域进行反卷积从而实现上采样。
所述分割模块45,还具体用于:
将所述感兴趣区域与上采样后的对应相同尺度的感兴趣区域进行拼接,同时将拼接后的感兴趣区域作为下一级上采样的输入。
本申请还提供了一种图像分割装置,图5为本申请实施例提供的一种图像分割装置的示意结构框图,所述图像分割装置包括:
第二图像获取模块51,用于获取待分割的眼底图像。
预处理模块52,用于对所述待分割的眼底图像进行预处理。
图像分割模块53,用于将预处理后的待分割的眼底图像输入眼底图像分割模型,以对预处理后的待分割的眼底图像进行分割;所述眼底图像分割模型为采用前述实施例提供的眼底图像分割模型训练方法训练得到的眼底图像分割模型。
需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置和各模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
上述的装置可以实现为一种计算机程序的形式,该计算机程序可以在如图6所示的计算机设备上运行。
请参阅图6,图6是本申请实施例提供的一种计算机设备的结构示意性框图。该计算机设备可以是服务器或终端。
其中,服务器可以为独立的服务器,也可以为服务器集群。该终端可以是手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等电子设备。
参阅图6,该计算机设备包括通过系统总线连接的处理器、存储器和网络接口,其中,存储器可以包括非易失性存储介质和内存储器。
非易失性存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令,该程序指令被执行时,可使得处理器执行任意一种眼底图像分割模型训练方法或眼底图像分割方法。
处理器用于提供计算和控制能力,支撑整个计算机设备的运行。
内存储器为非易失性存储介质中的计算机程序的运行提供环境,该计算机程序被处理器执行时,可使得处理器执行任意一种图像分割模型训练方法或图像分割方法。
该网络接口用于进行网络通信,如发送分配的任务等。本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
应当理解的是,处理器可以是中央处理单元(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
其中,所述处理器用于运行存储在存储器中的计算机程序,以实现如下步骤:
获取眼底图像;
对所述眼底图像进行下采样以获得不同尺度的特征映射;
将所述不同尺度的特征映射输入至区域生成网络,以获得所述不同尺度的感兴趣区域以及所述感兴趣区域的分类;
对所述不同尺度的感兴趣区域进行上采样;
将所述感兴趣区域与上采样后的感兴趣区域进行多尺度融合分割;
根据所述区域生成网络获得所述不同尺度的感兴趣区域的边界框回归误差、所述分类的分类误差以及所述多尺度融合分割的分割误差计算损失函数;
根据所述损失函数的值调整所述下采样、区域生成网络以及上采样的参数,直到所述损失函数的值在预设误差范围内,以获得所述眼底图像分割模型。
在一实施例中,所述处理器在执行所述根据所述区域生成网络获得感兴趣 区域的边界框回归误差、所述分类的分类误差以及所述多尺度融合分割的分割误差计算损失函数时,用于实现:
所述根据所述区域生成网络获得感兴趣区域的边界框回归误差、所述分类的分类误差以及所述多尺度融合分割的分割误差关联的计算公式计算损失函数;
所述计算公式为:
L=λ
1L
1+λ
2L
2+λ
3L
3
其中,λ
1、λ
2、λ
3为权衡参数,L表示损失函数,L
1表示分类误差,L
2表示边界框回归误差,L
3表示分割误差,N
c表示类别数,i表示所述感兴趣区域的下标,p
i表示第i个感兴趣区域预测为正样本的概率,当感兴趣区域为正样本时,p
i
*为1;当感兴趣区域为负样本时,p
i
*为0;t
i表示正样本感兴趣区域到预测区域的四个平移缩放参数,t
i
*表示正样本感兴趣区域到真实标签的四个平移缩放参数,R()是smooth函数,即
y
i表示期望输出值、a
i表示实际输出值,N表示感兴趣区域个数,α为权衡因子。
在一实施例中,所述处理器在执行所述对所述眼底图像进行下采样以获得不同尺度的特征映射时,用于实现:
将所述眼底图像输入至残差跳连网络,所述残差跳连网络包括多个卷积层、多个池化层以及多个跳连结构,所述眼底图像每经过一层卷积层以及池化层就得到一个尺度的特征映射,从而得到多个不同尺度的特征映射。
在一实施例中,所述处理器在执行所述对所述不同尺度的感兴趣区域进行上采样时,用于实现:
将所述不同尺度的感兴趣区域进行反卷积从而实现上采样。
在一实施例中,所述处理器在执行所述将所述感兴趣区域与上采样后的感兴趣区域进行多尺度融合分割时,用于实现:
将所述感兴趣区域与上采样后的对应相同尺度的感兴趣区域进行拼接,同时将拼接后的感兴趣区域作为下一级上采样的输入。
其中,在另一实施例中,所述处理器用于运行存储在存储器中的计算机程序,以实现如下步骤:
获取待分割的眼底图像;
对所述待分割的眼底图像进行预处理;
将预处理后的待分割的眼底图像输入眼底图像分割模型,以对预处理后的 待分割的眼底图像进行分割;所述眼底图像分割模型为采用前述实施例所述的眼底图像分割模型训练方法训练得到的眼底图像分割模型。
本申请的实施例中还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序中包括程序指令,所述处理器执行所述程序指令,实现本申请实施例提供的任一项图像分割模型训练方法或图像分割方法。
其中,所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元,例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备,例如所述计算机设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (20)
- 一种图像分割模型训练方法,其中,所述图像分割模型训练方法包括:获取眼底图像;对所述眼底图像进行下采样以获得不同尺度的特征映射;将所述不同尺度的特征映射输入至区域生成网络,以获得所述不同尺度的感兴趣区域以及所述感兴趣区域的分类;对所述不同尺度的感兴趣区域进行上采样;将所述感兴趣区域与上采样后的感兴趣区域进行多尺度融合分割;根据所述区域生成网络获得所述不同尺度的感兴趣区域的边界框回归误差、所述分类的分类误差以及所述多尺度融合分割的分割误差计算损失函数;根据所述损失函数的值调整所述下采样、区域生成网络以及上采样的参数,直到所述损失函数的值在预设误差范围内,以获得所述眼底图像分割模型。
- 根据权利要求1所述的图像分割模型训练方法,其中,所述根据所述区域生成网络获得感兴趣区域的边界框回归误差、所述分类的分类误差以及所述多尺度融合分割的分割误差计算损失函数,包括:根据所述区域生成网络获得感兴趣区域的边界框回归误差、所述分类的分类误差以及所述多尺度融合分割的分割误差关联的计算公式计算损失函数;所述计算公式为:L=λ 1L 1+λ 2L 2+λ 3L 3
- 根据权利要求1所述的图像分割模型训练方法,其中,所述对所述眼底图像进行下采样以获得不同尺度的特征映射,包括:将所述眼底图像输入至残差跳连网络,所述残差跳连网络包括多个卷积层、多个池化层以及多个跳连结构,所述眼底图像每经过一层卷积层以及池化层就得到一个尺度的特征映射,从而得到多个不同尺度的特征映射。
- 根据权利要求1所述的图像分割模型训练方法,其中,所述对所述不同尺度的感兴趣区域进行上采样,包括:将所述不同尺度的感兴趣区域进行反卷积从而实现上采样。
- 根据权利要求1所述的图像分割模型训练方法,其中,所述将所述感兴趣区域与上采样后的感兴趣区域进行多尺度融合分割,包括:将所述感兴趣区域与上采样后的对应相同尺度的感兴趣区域进行拼接,同时将拼接后的感兴趣区域作为下一级上采样的输入。
- 一种图像分割方法,其中,所述图像分割方法包括:获取待分割的眼底图像;对所述待分割的眼底图像进行预处理;将预处理后的待分割的眼底图像输入眼底图像分割模型,以对预处理后的待分割的眼底图像进行分割;所述眼底图像分割模型为采用权利要求1-5任一项所述的眼底图像分割模型训练方法训练得到的眼底图像分割模型。
- 一种图像分割模型训练装置,其中,所述图像分割模型训练装置包括:第一图像获取模块,用于获取眼底图像;下采样模块,用于对所述眼底图像进行下采样以获得不同尺度的特征映射;输入模块,将所述不同尺度的特征映射输入至区域生成网络,以获得所述不同尺度的感兴趣区域以及所述感兴趣区域的分类;上采样模块,对所述不同尺度的感兴趣区域进行上采样;分割模块,用于将所述感兴趣区域与上采样后的感兴趣区域进行多尺度融合分割;计算模块,用于根据所述区域生成网络获得所述不同尺度的感兴趣区域的边界框回归误差、所述分类的分类误差以及所述多尺度融合分割的分割误差计算损失函数;调整模块,用于根据所述损失函数的值调整所述下采样、区域生成网络以及上采样的参数,直到所述损失函数的值在预设误差范围内,以获得所述眼底图像分割模型。
- 一种图像分割装置,其中,所述图像分割装置包括:第二图像获取模块,用于获取待分割的眼底图像;预处理模块,用于对所述待分割的眼底图像进行预处理;图像分割模块,用于将预处理后的待分割的眼底图像输入图像分割模型,以对预处理后的待分割的眼底图像进行分割;所述图像分割模型为采用权利要求1-5任一项所述的图像分割模型训练方法训练得到的图像分割模型。
- 一种计算机设备,其中,所述计算机设备包括存储器和处理器;所述存储器用于存储计算机程序;所述处理器,用于执行所述计算机程序并在执行所述计算机程序时实现如下步骤:获取眼底图像;对所述眼底图像进行下采样以获得不同尺度的特征映射;将所述不同尺度的特征映射输入至区域生成网络,以获得所述不同尺度的感兴趣区域以及所述感兴趣区域的分类;对所述不同尺度的感兴趣区域进行上采样;将所述感兴趣区域与上采样后的感兴趣区域进行多尺度融合分割;根据所述区域生成网络获得所述不同尺度的感兴趣区域的边界框回归误差、所述分类的分类误差以及所述多尺度融合分割的分割误差计算损失函数;根据所述损失函数的值调整所述下采样、区域生成网络以及上采样的参数,直到所述损失函数的值在预设误差范围内,以获得所述眼底图像分割模型。
- 根据权利要求9所述的计算机设备,其中,所述处理器实现根据所述区域生成网络获得感兴趣区域的边界框回归误差、所述分类的分类误差以及所述多尺度融合分割的分割误差计算损失函数时,用于实现:根据所述区域生成网络获得感兴趣区域的边界框回归误差、所述分类的分类误差以及所述多尺度融合分割的分割误差关联的计算公式计算损失函数;所述计算公式为:L=λ 1L 1+λ 2L 2+λ 3L 3
- 根据权利要求9所述的计算机设备,其中,所述处理器实现对所述眼底图像进行下采样以获得不同尺度的特征映射时,用于实现:将所述眼底图像输入至残差跳连网络,所述残差跳连网络包括多个卷积层、多个池化层以及多个跳连结构,所述眼底图像每经过一层卷积层以及池化层就得到一个尺度的特征映射,从而得到多个不同尺度的特征映射。
- 根据权利要求9所述的计算机设备,其中,所述处理器实现对所述不同尺度的感兴趣区域进行上采样时,用于实现:将所述不同尺度的感兴趣区域进行反卷积从而实现上采样。
- 根据权利要求9所述的计算机设备,其中,所述处理器实现将所述感兴趣区域与上采样后的感兴趣区域进行多尺度融合分割时,用于实现:将所述感兴趣区域与上采样后的对应相同尺度的感兴趣区域进行拼接,同时将拼接后的感兴趣区域作为下一级上采样的输入。
- 一种计算机设备,其中,所述计算机设备包括存储器和处理器;所述存储器用于存储计算机程序;所述处理器,用于执行所述计算机程序并在执行所述计算机程序时实现如下步骤:获取待分割的眼底图像;对所述待分割的眼底图像进行预处理;将预处理后的待分割的眼底图像输入眼底图像分割模型,以对预处理后的待分割的眼底图像进行分割;所述眼底图像分割模型为采用权利要求1-5任一项所述的眼底图像分割模型训练方法训练得到的眼底图像分割模型。
- 一种计算机可读存储介质,其中,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如下步骤:获取眼底图像;对所述眼底图像进行下采样以获得不同尺度的特征映射;将所述不同尺度的特征映射输入至区域生成网络,以获得所述不同尺度的感兴趣区域以及所述感兴趣区域的分类;对所述不同尺度的感兴趣区域进行上采样;将所述感兴趣区域与上采样后的感兴趣区域进行多尺度融合分割;根据所述区域生成网络获得所述不同尺度的感兴趣区域的边界框回归误差、所述分类的分类误差以及所述多尺度融合分割的分割误差计算损失函数;根据所述损失函数的值调整所述下采样、区域生成网络以及上采样的参数,直到所述损失函数的值在预设误差范围内,以获得所述眼底图像分割模型。
- 根据权利要求15所述的计算机可读存储介质,其中,所述处理器实现根据所述区域生成网络获得感兴趣区域的边界框回归误差、所述分类的分类误差以及所述多尺度融合分割的分割误差计算损失函数时,用于实现:根据所述区域生成网络获得感兴趣区域的边界框回归误差、所述分类的分类误差以及所述多尺度融合分割的分割误差关联的计算公式计算损失函数;所述计算公式为:L=λ 1L 1+λ 2L 2+λ 3L 3
- 根据权利要求15所述的计算机可读存储介质,其中,所述处理器实现对所述眼底图像进行下采样以获得不同尺度的特征映射时,用于实现:将所述眼底图像输入至残差跳连网络,所述残差跳连网络包括多个卷积层、多个池化层以及多个跳连结构,所述眼底图像每经过一层卷积层以及池化层就得到一个尺度的特征映射,从而得到多个不同尺度的特征映射。
- 根据权利要求15所述的计算机可读存储介质,其中,所述处理器实现对所述不同尺度的感兴趣区域进行上采样时,用于实现:将所述不同尺度的感兴趣区域进行反卷积从而实现上采样。
- 根据权利要求15所述的计算机可读存储介质,其中,所述处理器实现将所述感兴趣区域与上采样后的感兴趣区域进行多尺度融合分割时,用于实现:将所述感兴趣区域与上采样后的对应相同尺度的感兴趣区域进行拼接,同时将拼接后的感兴趣区域作为下一级上采样的输入。
- 一种计算机可读存储介质,其中,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如下步骤:获取待分割的眼底图像;对所述待分割的眼底图像进行预处理;将预处理后的待分割的眼底图像输入眼底图像分割模型,以对预处理后的待分割的眼底图像进行分割;所述眼底图像分割模型为采用权利要求1-5任一项所述的眼底图像分割模型训练方法训练得到的眼底图像分割模型。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910268948.8 | 2019-04-04 | ||
CN201910268948.8A CN110120047B (zh) | 2019-04-04 | 2019-04-04 | 图像分割模型训练方法、图像分割方法、装置、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2020199593A1 true WO2020199593A1 (zh) | 2020-10-08 |
Family
ID=67520708
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/CN2019/117256 WO2020199593A1 (zh) | 2019-04-04 | 2019-11-11 | 图像分割模型训练方法、图像分割方法、装置、设备及介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110120047B (zh) |
WO (1) | WO2020199593A1 (zh) |
Cited By (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112381811A (zh) * | 2020-11-20 | 2021-02-19 | 沈阳东软智能医疗科技研究院有限公司 | 一种实现医学影像数据标注的方法、装置及设备 |
CN112419292A (zh) * | 2020-11-30 | 2021-02-26 | 深圳云天励飞技术股份有限公司 | 病理图像的处理方法、装置、电子设备及存储介质 |
CN112488104A (zh) * | 2020-11-30 | 2021-03-12 | 华为技术有限公司 | 深度及置信度估计系统 |
CN112508974A (zh) * | 2020-12-14 | 2021-03-16 | 北京达佳互联信息技术有限公司 | 图像分割模型的训练方法、装置、电子设备和存储介质 |
CN112529863A (zh) * | 2020-12-04 | 2021-03-19 | 推想医疗科技股份有限公司 | 测量骨密度的方法及装置 |
CN112560864A (zh) * | 2020-12-22 | 2021-03-26 | 苏州超云生命智能产业研究院有限公司 | 图像语义分割方法、装置及图像语义分割模型的训练方法 |
CN112561910A (zh) * | 2020-12-28 | 2021-03-26 | 中山大学 | 一种基于多尺度特征融合的工业表面缺陷检测方法 |
CN112614143A (zh) * | 2020-12-30 | 2021-04-06 | 深圳市联影高端医疗装备创新研究院 | 一种图像分割方法、装置、电子设备及存储介质 |
CN112669342A (zh) * | 2020-12-25 | 2021-04-16 | 北京达佳互联信息技术有限公司 | 图像分割网络的训练方法及装置、图像分割方法及装置 |
CN112700460A (zh) * | 2021-01-14 | 2021-04-23 | 北京工业大学 | 图像分割方法及系统 |
CN112712526A (zh) * | 2020-12-31 | 2021-04-27 | 杭州电子科技大学 | 基于非对称卷积神经网络双通道的视网膜血管分割方法 |
CN112785575A (zh) * | 2021-01-25 | 2021-05-11 | 清华大学 | 一种图像处理的方法、装置和存储介质 |
CN112819748A (zh) * | 2020-12-16 | 2021-05-18 | 机科发展科技股份有限公司 | 一种带钢表面缺陷识别模型的训练方法及装置 |
CN112884702A (zh) * | 2020-12-29 | 2021-06-01 | 香港中文大学深圳研究院 | 一种基于内窥镜图像的息肉识别系统和方法 |
CN112907548A (zh) * | 2021-02-26 | 2021-06-04 | 依未科技(北京)有限公司 | 图像评估方法及装置、计算机可读存储介质及电子设备 |
CN112902981A (zh) * | 2021-01-26 | 2021-06-04 | 中国科学技术大学 | 机器人导航方法和装置 |
CN112950553A (zh) * | 2021-02-05 | 2021-06-11 | 慧影医疗科技(北京)有限公司 | 一种多尺度肺叶分割方法、系统、存储介质及电子设备 |
CN112990327A (zh) * | 2021-03-25 | 2021-06-18 | 北京百度网讯科技有限公司 | 特征融合方法、装置、设备、存储介质以及程序产品 |
CN113066027A (zh) * | 2021-03-31 | 2021-07-02 | 天津大学 | 面向Raw域的屏摄图像摩尔纹去除方法 |
CN113065521A (zh) * | 2021-04-26 | 2021-07-02 | 北京航空航天大学杭州创新研究院 | 物体识别方法、装置、设备及介质 |
CN113158821A (zh) * | 2021-03-29 | 2021-07-23 | 中国科学院深圳先进技术研究院 | 基于多模态的眼部检测数据的处理方法、装置及终端设备 |
CN113158774A (zh) * | 2021-03-05 | 2021-07-23 | 北京华捷艾米科技有限公司 | 一种手部分割方法、装置、存储介质和设备 |
CN113223008A (zh) * | 2021-04-16 | 2021-08-06 | 山东师范大学 | 基于多尺度引导注意网络的眼底图像分割方法及系统 |
CN113284088A (zh) * | 2021-04-02 | 2021-08-20 | 中国科学院深圳先进技术研究院 | 一种csm图像分割方法、装置、终端设备及存储介质 |
CN113570625A (zh) * | 2021-08-27 | 2021-10-29 | 上海联影医疗科技股份有限公司 | 图像分割方法、图像分割模型及其训练方法 |
CN113768461A (zh) * | 2021-09-14 | 2021-12-10 | 北京鹰瞳科技发展股份有限公司 | 一种眼底图像分析方法、系统和电子设备 |
CN113808146A (zh) * | 2021-10-18 | 2021-12-17 | 山东大学 | 一种医学图像多器官分割方法及系统 |
CN113850284A (zh) * | 2021-07-04 | 2021-12-28 | 天津大学 | 一种基于多尺度特征融合和多分支预测的多操作检测方法 |
CN114202805A (zh) * | 2021-11-24 | 2022-03-18 | 北京百度网讯科技有限公司 | 活体检测方法、装置、电子设备及存储介质 |
CN114529489A (zh) * | 2022-03-01 | 2022-05-24 | 中国科学院深圳先进技术研究院 | 多源遥感图像融合方法、装置、设备及存储介质 |
CN114913187A (zh) * | 2022-05-25 | 2022-08-16 | 北京百度网讯科技有限公司 | 图像分割方法、训练方法、装置、电子设备以及存储介质 |
CN115272330A (zh) * | 2022-09-28 | 2022-11-01 | 深圳先进技术研究院 | 基于电池表面图像的缺陷检测方法、系统及相关设备 |
CN115578564A (zh) * | 2022-10-25 | 2023-01-06 | 北京医准智能科技有限公司 | 实例分割模型的训练方法、装置、电子设备及存储介质 |
WO2023040628A1 (zh) * | 2021-09-14 | 2023-03-23 | 之江实验室 | 一种pet三维图像左心室自动转向及分割的方法 |
WO2023207741A1 (zh) * | 2022-04-24 | 2023-11-02 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种元宇宙场景素材的建模方法及相关装置 |
CN117690180A (zh) * | 2023-06-29 | 2024-03-12 | 荣耀终端有限公司 | 眼球注视识别方法和电子设备 |
CN118505731A (zh) * | 2024-07-17 | 2024-08-16 | 中南大学 | 一种医学图像分割方法、系统、电子设备及存储介质 |
Families Citing this family (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110120047B (zh) * | 2019-04-04 | 2023-08-08 | 平安科技(深圳)有限公司 | 图像分割模型训练方法、图像分割方法、装置、设备及介质 |
CN112528705A (zh) * | 2019-09-17 | 2021-03-19 | 同方威视技术股份有限公司 | 基于语义的图像识别系统及其方法 |
CN110599492B (zh) * | 2019-09-19 | 2024-02-06 | 腾讯科技(深圳)有限公司 | 图像分割模型的训练方法、装置、电子设备及存储介质 |
CN110889826B (zh) * | 2019-10-30 | 2024-04-19 | 平安科技(深圳)有限公司 | 眼部oct图像病灶区域的分割方法、装置及终端设备 |
CN111062964B (zh) * | 2019-11-28 | 2023-07-14 | 深圳市华尊科技股份有限公司 | 图像分割方法及相关装置 |
CN111080655A (zh) * | 2019-12-04 | 2020-04-28 | 腾讯科技(深圳)有限公司 | 图像分割及其模型训练方法、装置、介质及电子设备 |
CN111161279B (zh) * | 2019-12-12 | 2023-05-26 | 中国科学院深圳先进技术研究院 | 医学图像分割方法、装置及服务器 |
CN111311565A (zh) * | 2020-02-11 | 2020-06-19 | 平安科技(深圳)有限公司 | 基于眼部oct图像的视杯和视盘定位点检测方法及装置 |
CN113553877B (zh) * | 2020-04-07 | 2023-05-30 | 舜宇光学(浙江)研究院有限公司 | 深度手势识别方法及其系统和电子设备 |
CN111563910B (zh) * | 2020-05-13 | 2023-06-06 | 上海鹰瞳医疗科技有限公司 | 眼底图像分割方法及设备 |
CN111696084B (zh) * | 2020-05-20 | 2024-05-31 | 平安科技(深圳)有限公司 | 细胞图像分割方法、装置、电子设备及可读存储介质 |
CN111652296A (zh) * | 2020-05-21 | 2020-09-11 | 哈尔滨市科佳通用机电股份有限公司 | 一种基于深度学习的铁路货车下拉杆折断故障检测方法 |
CN112070658B (zh) * | 2020-08-25 | 2024-04-16 | 西安理工大学 | 一种基于深度学习的汉字字体风格迁移方法 |
CN112233128B (zh) * | 2020-10-15 | 2021-11-02 | 推想医疗科技股份有限公司 | 图像分割方法及模型的训练方法、装置、介质、电子设备 |
CN112233038B (zh) * | 2020-10-23 | 2021-06-01 | 广东启迪图卫科技股份有限公司 | 基于多尺度融合及边缘增强的真实图像去噪方法 |
CN112274926B (zh) * | 2020-11-13 | 2024-07-16 | 网易(杭州)网络有限公司 | 一种虚拟角色的换装方法和装置 |
CN112364831B (zh) * | 2020-11-30 | 2022-02-25 | 北京智慧荣升科技有限公司 | 人脸识别方法及在线教育系统 |
CN112528647A (zh) * | 2020-12-07 | 2021-03-19 | 中国平安人寿保险股份有限公司 | 相似文本生成方法、装置、电子设备及可读存储介质 |
CN112489031A (zh) * | 2020-12-10 | 2021-03-12 | 哈尔滨市科佳通用机电股份有限公司 | 基于mask-rcnn的抗蛇形减震器漏油检测方法 |
CN113592876B (zh) * | 2021-01-14 | 2024-09-06 | 腾讯科技(深圳)有限公司 | 分割网络的训练方法、装置、计算机设备和存储介质 |
CN113066066A (zh) * | 2021-03-30 | 2021-07-02 | 北京鹰瞳科技发展股份有限公司 | 视网膜异常分析方法及设备 |
CN114063858B (zh) * | 2021-11-26 | 2023-03-17 | 北京百度网讯科技有限公司 | 图像处理方法、装置、电子设备及存储介质 |
CN114241583B (zh) * | 2022-01-19 | 2024-09-17 | 中国平安人寿保险股份有限公司 | 人脸识别方法、装置、电子设备及存储介质 |
CN114119640B (zh) * | 2022-01-27 | 2022-04-22 | 广东皓行科技有限公司 | 模型训练方法、图像分割方法以及图像分割系统 |
CN114638841A (zh) * | 2022-02-25 | 2022-06-17 | 河南中原动力智能制造有限公司 | 一种图像分割方法、装置、移动终端及存储介质 |
CN114266769B (zh) * | 2022-03-01 | 2022-06-21 | 北京鹰瞳科技发展股份有限公司 | 一种基于神经网络模型进行眼部疾病识别的系统及其方法 |
WO2023181072A1 (en) * | 2022-03-24 | 2023-09-28 | Mahathma Centre Of Moving Images Private Limited | Digital system and 3d tool for training and medical counselling in ophthalmology |
US20240046527A1 (en) * | 2022-08-02 | 2024-02-08 | Alibaba Singapore Holding Private Limited | End-to-end optimization of adaptive spatial resampling towards machine vision |
CN115829980B (zh) * | 2022-12-13 | 2023-07-25 | 深圳核韬科技有限公司 | 一种眼底照片的图像识别方法、装置、设备及存储介质 |
CN117132777B (zh) * | 2023-10-26 | 2024-03-22 | 腾讯科技(深圳)有限公司 | 图像分割方法、装置、电子设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106250812A (zh) * | 2016-07-15 | 2016-12-21 | 汤平 | 一种基于快速r‑cnn深度神经网络的车型识别方法 |
CN106920227A (zh) * | 2016-12-27 | 2017-07-04 | 北京工业大学 | 基于深度学习与传统方法相结合的视网膜血管分割方法 |
CN107451602A (zh) * | 2017-07-06 | 2017-12-08 | 浙江工业大学 | 一种基于深度学习的果蔬检测方法 |
CN108734660A (zh) * | 2018-05-25 | 2018-11-02 | 上海通途半导体科技有限公司 | 一种基于深度学习的图像超分辨率重建方法及装置 |
CN109272010A (zh) * | 2018-07-27 | 2019-01-25 | 吉林大学 | 基于卷积神经网络的多尺度遥感图像融合方法 |
CN110120047A (zh) * | 2019-04-04 | 2019-08-13 | 平安科技(深圳)有限公司 | 图像分割模型训练方法、图像分割方法、装置、设备及介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10229493B2 (en) * | 2016-03-16 | 2019-03-12 | International Business Machines Corporation | Joint segmentation and characteristics estimation in medical images |
CN106295646B (zh) * | 2016-08-10 | 2019-08-23 | 东方网力科技股份有限公司 | 一种基于深度学习的车牌字符分割方法和装置 |
CN106408562B (zh) * | 2016-09-22 | 2019-04-09 | 华南理工大学 | 基于深度学习的眼底图像视网膜血管分割方法及系统 |
EP3432263B1 (en) * | 2017-07-17 | 2020-09-16 | Siemens Healthcare GmbH | Semantic segmentation for cancer detection in digital breast tomosynthesis |
CN108564097B (zh) * | 2017-12-05 | 2020-09-22 | 华南理工大学 | 一种基于深度卷积神经网络的多尺度目标检测方法 |
CN109086683B (zh) * | 2018-07-11 | 2020-09-15 | 清华大学 | 一种基于点云语义增强的人手姿态回归方法和系统 |
-
2019
- 2019-04-04 CN CN201910268948.8A patent/CN110120047B/zh active Active
- 2019-11-11 WO PCT/CN2019/117256 patent/WO2020199593A1/zh active Application Filing
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106250812A (zh) * | 2016-07-15 | 2016-12-21 | 汤平 | 一种基于快速r‑cnn深度神经网络的车型识别方法 |
CN106920227A (zh) * | 2016-12-27 | 2017-07-04 | 北京工业大学 | 基于深度学习与传统方法相结合的视网膜血管分割方法 |
CN107451602A (zh) * | 2017-07-06 | 2017-12-08 | 浙江工业大学 | 一种基于深度学习的果蔬检测方法 |
CN108734660A (zh) * | 2018-05-25 | 2018-11-02 | 上海通途半导体科技有限公司 | 一种基于深度学习的图像超分辨率重建方法及装置 |
CN109272010A (zh) * | 2018-07-27 | 2019-01-25 | 吉林大学 | 基于卷积神经网络的多尺度遥感图像融合方法 |
CN110120047A (zh) * | 2019-04-04 | 2019-08-13 | 平安科技(深圳)有限公司 | 图像分割模型训练方法、图像分割方法、装置、设备及介质 |
Cited By (58)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112381811A (zh) * | 2020-11-20 | 2021-02-19 | 沈阳东软智能医疗科技研究院有限公司 | 一种实现医学影像数据标注的方法、装置及设备 |
CN112381811B (zh) * | 2020-11-20 | 2024-05-28 | 沈阳东软智能医疗科技研究院有限公司 | 一种实现医学影像数据标注的方法、装置及设备 |
CN112419292A (zh) * | 2020-11-30 | 2021-02-26 | 深圳云天励飞技术股份有限公司 | 病理图像的处理方法、装置、电子设备及存储介质 |
CN112488104A (zh) * | 2020-11-30 | 2021-03-12 | 华为技术有限公司 | 深度及置信度估计系统 |
CN112488104B (zh) * | 2020-11-30 | 2024-04-09 | 华为技术有限公司 | 深度及置信度估计系统 |
CN112419292B (zh) * | 2020-11-30 | 2024-03-26 | 深圳云天励飞技术股份有限公司 | 病理图像的处理方法、装置、电子设备及存储介质 |
CN112529863A (zh) * | 2020-12-04 | 2021-03-19 | 推想医疗科技股份有限公司 | 测量骨密度的方法及装置 |
CN112529863B (zh) * | 2020-12-04 | 2024-01-23 | 推想医疗科技股份有限公司 | 测量骨密度的方法及装置 |
CN112508974A (zh) * | 2020-12-14 | 2021-03-16 | 北京达佳互联信息技术有限公司 | 图像分割模型的训练方法、装置、电子设备和存储介质 |
CN112508974B (zh) * | 2020-12-14 | 2024-06-11 | 北京达佳互联信息技术有限公司 | 图像分割模型的训练方法、装置、电子设备和存储介质 |
CN112819748A (zh) * | 2020-12-16 | 2021-05-18 | 机科发展科技股份有限公司 | 一种带钢表面缺陷识别模型的训练方法及装置 |
CN112819748B (zh) * | 2020-12-16 | 2023-09-19 | 机科发展科技股份有限公司 | 一种带钢表面缺陷识别模型的训练方法及装置 |
CN112560864A (zh) * | 2020-12-22 | 2021-03-26 | 苏州超云生命智能产业研究院有限公司 | 图像语义分割方法、装置及图像语义分割模型的训练方法 |
CN112669342B (zh) * | 2020-12-25 | 2024-05-10 | 北京达佳互联信息技术有限公司 | 图像分割网络的训练方法及装置、图像分割方法及装置 |
CN112669342A (zh) * | 2020-12-25 | 2021-04-16 | 北京达佳互联信息技术有限公司 | 图像分割网络的训练方法及装置、图像分割方法及装置 |
CN112561910B (zh) * | 2020-12-28 | 2023-10-20 | 中山大学 | 一种基于多尺度特征融合的工业表面缺陷检测方法 |
CN112561910A (zh) * | 2020-12-28 | 2021-03-26 | 中山大学 | 一种基于多尺度特征融合的工业表面缺陷检测方法 |
CN112884702A (zh) * | 2020-12-29 | 2021-06-01 | 香港中文大学深圳研究院 | 一种基于内窥镜图像的息肉识别系统和方法 |
CN112884702B (zh) * | 2020-12-29 | 2023-07-28 | 香港中文大学深圳研究院 | 一种基于内窥镜图像的息肉识别系统和方法 |
CN112614143A (zh) * | 2020-12-30 | 2021-04-06 | 深圳市联影高端医疗装备创新研究院 | 一种图像分割方法、装置、电子设备及存储介质 |
CN112712526B (zh) * | 2020-12-31 | 2024-02-27 | 杭州电子科技大学 | 基于非对称卷积神经网络双通道的视网膜血管分割方法 |
CN112712526A (zh) * | 2020-12-31 | 2021-04-27 | 杭州电子科技大学 | 基于非对称卷积神经网络双通道的视网膜血管分割方法 |
CN112700460B (zh) * | 2021-01-14 | 2024-05-24 | 北京工业大学 | 图像分割方法及系统 |
CN112700460A (zh) * | 2021-01-14 | 2021-04-23 | 北京工业大学 | 图像分割方法及系统 |
CN112785575A (zh) * | 2021-01-25 | 2021-05-11 | 清华大学 | 一种图像处理的方法、装置和存储介质 |
CN112785575B (zh) * | 2021-01-25 | 2022-11-18 | 清华大学 | 一种图像处理的方法、装置和存储介质 |
CN112902981A (zh) * | 2021-01-26 | 2021-06-04 | 中国科学技术大学 | 机器人导航方法和装置 |
CN112902981B (zh) * | 2021-01-26 | 2024-01-09 | 中国科学技术大学 | 机器人导航方法和装置 |
CN112950553A (zh) * | 2021-02-05 | 2021-06-11 | 慧影医疗科技(北京)有限公司 | 一种多尺度肺叶分割方法、系统、存储介质及电子设备 |
CN112907548A (zh) * | 2021-02-26 | 2021-06-04 | 依未科技(北京)有限公司 | 图像评估方法及装置、计算机可读存储介质及电子设备 |
CN113158774B (zh) * | 2021-03-05 | 2023-12-29 | 北京华捷艾米科技有限公司 | 一种手部分割方法、装置、存储介质和设备 |
CN113158774A (zh) * | 2021-03-05 | 2021-07-23 | 北京华捷艾米科技有限公司 | 一种手部分割方法、装置、存储介质和设备 |
CN112990327A (zh) * | 2021-03-25 | 2021-06-18 | 北京百度网讯科技有限公司 | 特征融合方法、装置、设备、存储介质以及程序产品 |
CN113158821A (zh) * | 2021-03-29 | 2021-07-23 | 中国科学院深圳先进技术研究院 | 基于多模态的眼部检测数据的处理方法、装置及终端设备 |
CN113158821B (zh) * | 2021-03-29 | 2024-04-12 | 中国科学院深圳先进技术研究院 | 基于多模态的眼部检测数据的处理方法、装置及终端设备 |
CN113066027A (zh) * | 2021-03-31 | 2021-07-02 | 天津大学 | 面向Raw域的屏摄图像摩尔纹去除方法 |
CN113284088B (zh) * | 2021-04-02 | 2024-03-29 | 中国科学院深圳先进技术研究院 | 一种csm图像分割方法、装置、终端设备及存储介质 |
CN113284088A (zh) * | 2021-04-02 | 2021-08-20 | 中国科学院深圳先进技术研究院 | 一种csm图像分割方法、装置、终端设备及存储介质 |
CN113223008A (zh) * | 2021-04-16 | 2021-08-06 | 山东师范大学 | 基于多尺度引导注意网络的眼底图像分割方法及系统 |
CN113065521A (zh) * | 2021-04-26 | 2021-07-02 | 北京航空航天大学杭州创新研究院 | 物体识别方法、装置、设备及介质 |
CN113065521B (zh) * | 2021-04-26 | 2024-01-26 | 北京航空航天大学杭州创新研究院 | 物体识别方法、装置、设备及介质 |
CN113850284A (zh) * | 2021-07-04 | 2021-12-28 | 天津大学 | 一种基于多尺度特征融合和多分支预测的多操作检测方法 |
CN113850284B (zh) * | 2021-07-04 | 2023-06-23 | 天津大学 | 一种基于多尺度特征融合和多分支预测的多操作检测方法 |
CN113570625A (zh) * | 2021-08-27 | 2021-10-29 | 上海联影医疗科技股份有限公司 | 图像分割方法、图像分割模型及其训练方法 |
CN113768461A (zh) * | 2021-09-14 | 2021-12-10 | 北京鹰瞳科技发展股份有限公司 | 一种眼底图像分析方法、系统和电子设备 |
WO2023040628A1 (zh) * | 2021-09-14 | 2023-03-23 | 之江实验室 | 一种pet三维图像左心室自动转向及分割的方法 |
CN113808146B (zh) * | 2021-10-18 | 2023-08-18 | 山东大学 | 一种医学图像多器官分割方法及系统 |
CN113808146A (zh) * | 2021-10-18 | 2021-12-17 | 山东大学 | 一种医学图像多器官分割方法及系统 |
CN114202805A (zh) * | 2021-11-24 | 2022-03-18 | 北京百度网讯科技有限公司 | 活体检测方法、装置、电子设备及存储介质 |
CN114529489A (zh) * | 2022-03-01 | 2022-05-24 | 中国科学院深圳先进技术研究院 | 多源遥感图像融合方法、装置、设备及存储介质 |
WO2023207741A1 (zh) * | 2022-04-24 | 2023-11-02 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种元宇宙场景素材的建模方法及相关装置 |
CN114913187B (zh) * | 2022-05-25 | 2023-04-07 | 北京百度网讯科技有限公司 | 图像分割方法、训练方法、装置、电子设备以及存储介质 |
CN114913187A (zh) * | 2022-05-25 | 2022-08-16 | 北京百度网讯科技有限公司 | 图像分割方法、训练方法、装置、电子设备以及存储介质 |
WO2024066035A1 (zh) * | 2022-09-28 | 2024-04-04 | 深圳先进技术研究院 | 基于电池表面图像的缺陷检测方法、系统及相关设备 |
CN115272330A (zh) * | 2022-09-28 | 2022-11-01 | 深圳先进技术研究院 | 基于电池表面图像的缺陷检测方法、系统及相关设备 |
CN115578564A (zh) * | 2022-10-25 | 2023-01-06 | 北京医准智能科技有限公司 | 实例分割模型的训练方法、装置、电子设备及存储介质 |
CN117690180A (zh) * | 2023-06-29 | 2024-03-12 | 荣耀终端有限公司 | 眼球注视识别方法和电子设备 |
CN118505731A (zh) * | 2024-07-17 | 2024-08-16 | 中南大学 | 一种医学图像分割方法、系统、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110120047B (zh) | 2023-08-08 |
CN110120047A (zh) | 2019-08-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020199593A1 (zh) | 图像分割模型训练方法、图像分割方法、装置、设备及介质 | |
Kugelman et al. | Automatic choroidal segmentation in OCT images using supervised deep learning methods | |
Hassan et al. | Deep learning based joint segmentation and characterization of multi-class retinal fluid lesions on OCT scans for clinical use in anti-VEGF therapy | |
WO2021082691A1 (zh) | 眼部oct图像病灶区域的分割方法、装置及终端设备 | |
Lu et al. | AI-model for identifying pathologic myopia based on deep learning algorithms of myopic maculopathy classification and “plus” lesion detection in fundus images | |
Xiao et al. | Automatic non-proliferative diabetic retinopathy screening system based on color fundus image | |
Karthiyayini et al. | Retinal image analysis for ocular disease prediction using rule mining algorithms | |
Lu et al. | Automatic classification of retinal diseases with transfer learning-based lightweight convolutional neural network | |
Ilesanmi et al. | A systematic review of retinal fundus image segmentation and classification methods using convolutional neural networks | |
Anoop et al. | Stack generalized deep ensemble learning for retinal layer segmentation in optical coherence tomography images | |
CN113397475A (zh) | 基于oct图像的阿尔茨海默症风险的预测方法、系统及介质 | |
Pham et al. | Generating future fundus images for early age-related macular degeneration based on generative adversarial networks | |
Uribe-Valencia et al. | Automated Optic Disc region location from fundus images: Using local multi-level thresholding, best channel selection, and an Intensity Profile Model | |
Güven | Automatic detection of age-related macular degeneration pathologies in retinal fundus images | |
Lopez et al. | Automatic classification of pterygium-non pterygium images using deep learning | |
Shoaib et al. | Deep learning innovations in diagnosing diabetic retinopathy: The potential of transfer learning and the DiaCNN model | |
Breger et al. | Blood vessel segmentation in en-face OCTA images: a frequency based method | |
Qu et al. | Automatic diabetic retinopathy diagnosis using adjustable ophthalmoscope and multi-scale line operator | |
Daanouni et al. | Automated end-to-end Architecture for Retinal Layers and Fluids Segmentation on OCT B-scans | |
US20240020830A1 (en) | System and methods of predicting parkinson's disease based on retinal images using machine learning | |
US20230284903A1 (en) | System and method for acquisition and quantification of images with ocular staining | |
Shabbir et al. | A comparison and evaluation of computerized methods for blood vessel enhancement and segmentation in retinal images | |
Mani et al. | An automated hybrid decoupled convolutional network for laceration segmentation and grading of retinal diseases using optical coherence tomography (OCT) images | |
Datta et al. | Detection of eye ailments using segmentation of blood vessels from eye fundus image | |
CN112734701A (zh) | 眼底病灶检测方法、检测装置及终端设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 19923683 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 19923683 Country of ref document: EP Kind code of ref document: A1 |