WO2020059446A1 - 学習装置及び学習方法 - Google Patents

学習装置及び学習方法 Download PDF

Info

Publication number
WO2020059446A1
WO2020059446A1 PCT/JP2019/033599 JP2019033599W WO2020059446A1 WO 2020059446 A1 WO2020059446 A1 WO 2020059446A1 JP 2019033599 W JP2019033599 W JP 2019033599W WO 2020059446 A1 WO2020059446 A1 WO 2020059446A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
mask data
area
loss value
learning
Prior art date
Application number
PCT/JP2019/033599
Other languages
English (en)
French (fr)
Inventor
正明 大酒
Original Assignee
富士フイルム株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 富士フイルム株式会社 filed Critical 富士フイルム株式会社
Priority to JP2020548221A priority Critical patent/JP7083037B2/ja
Publication of WO2020059446A1 publication Critical patent/WO2020059446A1/ja
Priority to US17/197,060 priority patent/US20210216823A1/en

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B1/00Instruments for performing medical examinations of the interior of cavities or tubes of the body by visual or photographical inspection, e.g. endoscopes; Illuminating arrangements therefor
    • A61B1/00002Operational features of endoscopes
    • A61B1/00004Operational features of endoscopes characterised by electronic signal processing
    • A61B1/00009Operational features of endoscopes characterised by electronic signal processing of image signals during a use of endoscope
    • A61B1/000094Operational features of endoscopes characterised by electronic signal processing of image signals during a use of endoscope extracting biological structures
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B1/00Instruments for performing medical examinations of the interior of cavities or tubes of the body by visual or photographical inspection, e.g. endoscopes; Illuminating arrangements therefor
    • A61B1/00002Operational features of endoscopes
    • A61B1/00004Operational features of endoscopes characterised by electronic signal processing
    • A61B1/00009Operational features of endoscopes characterised by electronic signal processing of image signals during a use of endoscope
    • A61B1/000096Operational features of endoscopes characterised by electronic signal processing of image signals during a use of endoscope using artificial intelligence
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/05Detecting, measuring or recording for diagnosis by means of electric currents or magnetic fields; Measuring using microwaves or radio waves 
    • A61B5/055Detecting, measuring or recording for diagnosis by means of electric currents or magnetic fields; Measuring using microwaves or radio waves  involving electronic [EMR] or nuclear [NMR] magnetic resonance, e.g. magnetic resonance imaging
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B6/00Apparatus for radiation diagnosis, e.g. combined with radiation therapy equipment
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B6/00Apparatus for radiation diagnosis, e.g. combined with radiation therapy equipment
    • A61B6/02Devices for diagnosis sequentially in different planes; Stereoscopic radiation diagnosis
    • A61B6/03Computerised tomographs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/758Involving statistics of pixels or of feature values, e.g. histogram matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06V10/7747Organisation of the process, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images
    • G16H30/20ICT specially adapted for the handling or processing of medical images for handling medical images, e.g. DICOM, HL7 or PACS
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images
    • G16H30/40ICT specially adapted for the handling or processing of medical images for processing medical images, e.g. editing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10068Endoscopic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30096Tumor; Lesion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/03Recognition of patterns in medical or anatomical images

Definitions

  • the present invention relates to a learning device and a learning method, and more particularly to a technique for identifying a desired region of interest from an input image.
  • Non-Patent Document 1 Non-Patent Document 1
  • Non-Patent Document 2 a method of separating an area on a pixel-by-pixel basis using a CNN is known.
  • a CNN in order to perform area classification (segmentation) on a pixel-by-pixel basis in an input image or on a unit of several pixels, a CNN may be used. It is necessary to create mask data annotated in units of pixels, and to provide this to the CNN as teacher data.
  • Over-learning refers to a state in which learning has been performed on teacher data but has failed to conform to unknown data as a result of being too matched with teacher data (a state in which generalization has not been performed).
  • Patent Documents 1 and 2 Conventionally, apparatuses for generating teacher data have been proposed (Patent Documents 1 and 2).
  • Patent Literature 1 visually determines the type of an object for which teacher data is to be generated and, instead of performing manual labeling, uses a recognition processing unit to determine the type of the object from an input image. Is automatically recognized, and the recognition result is added to the input image to generate teacher data.
  • the teacher data generation device described in Patent Document 2 stores a database that stores at least one or more image specific components of the shape of an object extracted from an input image and other appearance factors, and stores the database in this database.
  • a changing unit for changing one or more types of different image specific components to generate a reconstructed image corresponding at least partially to the input image using the other image specific components.
  • a reconstruction unit applied to machine learning.
  • JP 2018-96834 A Japanese Patent No. 6330092
  • Patent Literature 1 can automate the labeling of an object and can reduce the labor for preparing a large amount of teacher data. It does not generate learning teacher data for performing area classification (segmentation) on a per-unit basis.
  • Patent Document 2 is to generate teacher data of various variations from one input image, and is not to generate learning teacher data for performing segmentation as in Patent Document 1. Absent.
  • the present invention has been made in view of such circumstances, and an object of the present invention is to provide a learning apparatus and a learning method that can easily create teacher data and can prevent over-learning.
  • a learning device provides a learning apparatus, wherein a first image for learning and coordinate information for specifying an area larger than an attention area included in the first image are associated with each other.
  • a storage unit for storing an image set, a second image for learning, and a second image set in which a second mask data specifying a region of interest included in the second image is associated; and outputting a feature map from the input image.
  • the first image for learning when creating the first image set, is associated with coordinate information that specifies an area larger than the attention area included in the first image.
  • the input of coordinate information for specifying a region wider than the region of interest is simpler than when manually inputting the second mask data for specifying the region of interest (for example, a task of painting the region of interest in pixels). That is, by using the first image set and the second image set as the learning data, the labor for preparing the learning data (especially, the teacher data) is significantly increased as compared with the case where only the second image set is used as the learning data. Can be reduced.
  • the first mask data created based on the coordinate information for specifying an area wider than the attention area does not accurately indicate the attention area unlike the second mask data
  • learning using the first mask data is performed. Accordingly, over-learning can be prevented even with a small set of images, and furthermore, learning using the second mask data can be performed to accurately recognize a region of interest from an input image.
  • the learning device includes a mask data creating unit that creates first mask data based on coordinate information associated with the first image, wherein the mask data creating unit converts the first image into a neural network. Before inputting to the network, it is preferable to create first mask data corresponding to the first image.
  • the coordinate information is information for specifying a rectangular area including the attention area
  • the first mask data is mask data for masking the rectangular area.
  • an area smaller than the square area is set in the square area, and the first loss value calculating unit calculates the loss value in the square area and outside the area smaller than the square area. It is preferable not to include it in the calculation. This is because a region inside the rectangular region and outside the region smaller than the rectangular region (particularly, a region at a corner of the rectangular region) is often a background image (region that is not a region of interest).
  • an area smaller than the square area is set in the square area, and the first loss value calculator does not include the area smaller than the square area in the calculation of the loss value. Is preferred.
  • the coordinate information is information for specifying an elliptical area including the attention area
  • the first mask data is mask data for masking the elliptical area.
  • an area smaller than the elliptical area is set in the elliptical area, and the first loss value calculation unit calculates a loss value in the elliptical area and outside the area smaller than the elliptical area. It is preferable not to include it in the calculation.
  • an area smaller than the elliptical area is set in the elliptical area, and the first loss value calculator does not include the area smaller than the elliptical area in the calculation of the loss value. Is preferred.
  • the first loss value calculation unit compares the first feature map having a smaller size than the first image with the first mask data having a smaller size than the second image.
  • the first loss value is calculated
  • the second loss value calculation unit compares the second feature map having a smaller size than the second image with the second mask data having a smaller size than the second image.
  • the value is calculated.
  • a learning device includes a first image set in which a first image for learning and first mask data that specifies an area wider than an attention area included in the first image are associated with each other;
  • a storage unit that stores a second image for learning and a second image set in which a second mask data specifying a region of interest included in the second image is associated;
  • a neural network that outputs a feature map from the input image; Inputting a first image as an input image, comparing a first feature map output from the neural network with first mask data associated with the first image, and calculating a first loss value.
  • a calculating unit that inputs a second image as an input image, compares a second feature map output from the neural network with second mask data associated with the second image, The comprises a second loss value calculation unit for calculating a parameter control unit for updating the parameters of the neural network based on the first loss value and the second loss value.
  • the first mask data and the second mask data are mask data that has been pooled at least once. This is for matching the sizes of the first mask data and the second mask data with the sizes of the first feature map and the second feature map.
  • the neural network has at least one pooling layer, and the first mask data and the second mask data are mask data subjected to pooling processing corresponding to the pooling layer.
  • the first mask data and the second mask data are mask data subjected to pooling processing corresponding to the pooling layer.
  • the first image set includes a first image including blur or blur.
  • the first image including blur or blur By using the first image including blur or blur, over-learning can be further prevented.
  • each of the first image forming the first image set and the second image forming the second image set is a medical image.
  • the medical image includes an endoscope image, an X-ray image, a CT (Computed @ Tomography) image, an MRI (Magnetic @ Resonance @ Imaging) image, and the like.
  • the first images forming the first image set are images extracted from a moving image. This is because a large number of first images can be obtained, and moving images include images having blurring or blurring.
  • the first image forming the first image set and the second image forming the second image set are images captured by the endoscope device.
  • the second mask data is mask data obtained by masking a lesion area included in the second image.
  • a learning method includes a first image set in which a first image for learning and coordinate information specifying an area larger than a region of interest included in the first image are associated with each other.
  • a learning method includes a first image set in which a first image for learning and first mask data that specifies an area larger than an attention area included in the first image are associated with each other; Preparing a second image set in which a second image for learning and second mask data for specifying a region of interest included in the second image are associated; and inputting the first image as an input image of the neural network Comparing a first feature map output from the neural network with first mask data associated with the first image to calculate a first loss value; and converting the second image as an input image of the neural network.
  • the attention area of the second image and the other area are pixel units or several pixels in a lump.
  • FIG. 1 is a block diagram showing an example of a hardware configuration of a learning device according to the present invention.
  • FIG. 2 is a diagram illustrating an example of the first image set stored in the first database 14.
  • FIG. 3 is a diagram illustrating an image (first image) captured by the endoscope apparatus and a square area B.
  • FIG. 4 is a diagram used to explain the first mask data created from the coordinate information shown in FIG.
  • FIG. 5 is a diagram illustrating an example of the second image set stored in the second database 16.
  • FIG. 6 is a block diagram showing an embodiment of the learning device 10 according to the present invention.
  • FIG. 7 is a diagram illustrating an image (first image) captured by the endoscope apparatus and an elliptical region E.
  • FIG. 8 is a diagram used to describe another embodiment of the first mask data.
  • FIG. 9 is a diagram used to explain still another embodiment of the first mask data.
  • FIG. 10 is a schematic diagram illustrating a state in which the size of the feature map gradually decreases with respect to the size of the input image every time the pooling process is performed in the CNN.
  • FIG. 11 is a flowchart showing an embodiment of the image learning method according to the present invention.
  • FIG. 1 is a block diagram showing an example of a hardware configuration of a learning device according to the present invention.
  • the learning device 10 shown in FIG. 1 performs learning for functioning as a recognizer for classifying (segmenting) a region of interest in an input image in pixel units or in units of several pixels. Yes, it can be constituted by a personal computer or a workstation.
  • the learning device 10 of the present embodiment mainly includes a communication unit 12, a large-capacity storage or a first database 14, a second database 16, an operation unit 18, a CPU (Central Processing Unit) 20, and a RAM (Random Access Memory). 22, a ROM (Read Only Memory) 24, and a display unit 26.
  • a communication unit 12 a large-capacity storage or a first database 14, a second database 16, an operation unit 18, a CPU (Central Processing Unit) 20, and a RAM (Random Access Memory). 22, a ROM (Read Only Memory) 24, and a display unit 26.
  • the communication unit 12 is a unit that performs communication processing with an external device by wire or wirelessly and exchanges information with the external device.
  • the first database 14 and the second database 16 functioning as a storage unit store a first image set and a second image set for learning, respectively.
  • the first image set is a set of learning data in which a first image for learning and coordinate information that specifies an area larger than the attention area included in the first image are associated with each other.
  • This is a set of learning data in which the second learning image and the second mask data that specifies the attention area included in the second image are associated with each other.
  • FIG. 2 is a diagram illustrating an example of a first image set stored in the first database 14, wherein a first image (medical image) captured by an endoscope device is used as an input image of the learning device 10. The case is shown.
  • the first image set includes a first image (the image shown in the upper part of FIG. 2) which is an input image at the time of learning by the learning device 10 and a mask data functioning as teacher data for the first image.
  • This is a set of learning data stored in pairs with coordinate information (coordinate information shown in the lower part of FIG. 2) used for creation.
  • the coordinate information is coordinate information that specifies a rectangular area B such as a lesion area included in the first image that is wider than the attention area A as shown in FIG.
  • the coordinate information associated with the first image is used to create mask data (first mask data) shown in the lower part of FIG.
  • the first mask data is mask data obtained by masking a rectangular area including a target area in pixel units or in units of several pixels. For example, “1” is assigned to pixels in the rectangular area. By assigning “0” to pixels in the background area (area other than the square area), binary image data can be obtained.
  • the input of coordinate information specifying an area larger than the attention area A included in the first image is performed, for example, by displaying the first image on the display unit 26 and operating the operation unit 18 (pointing device such as a mouse) by the user. Then, a rectangular frame (see FIG. 3) surrounding the area of interest A is displayed on the display unit 26, and the position and size of the rectangular frame are determined.
  • FIG. 5 is a diagram illustrating an example of a second image set stored in the second database 16, wherein a second image (medical image) captured by an endoscope device is used as an input image of the learning device 10. The case is shown.
  • the second image set includes a second image (the image shown in the upper part of FIG. 5) which is an input image at the time of learning by the learning device 10, and mask data (images serving as teacher data for the second image).
  • the second mask data shown in the lower part of FIG. 5) is a set of learning data stored in pairs.
  • the second mask data is mask data obtained by masking a region of interest (for example, a lesion region) included in the second image in units of pixels or in units of a group of several pixels.
  • a region of interest for example, a lesion region
  • the generation of the second mask data specifying the attention area A included in the second image is performed, for example, by displaying the second image on the display unit 26 and operating the operation unit 18 (a pointing device such as a mouse) by the user.
  • the operation unit 18 a pointing device such as a mouse
  • the input of coordinate information by the user is simpler than the creation of the second mask data. Therefore, the first image set stored in the first database 14 can be created more easily than the second image set stored in the second database 16, which makes it possible to prepare a large amount of the second image set. In comparison, the labor of the user can be significantly reduced.
  • the first image set preferably includes a first image including blur or blur.
  • the first image set may include the first image including blur or blur
  • the first image set may be, for example, an image extracted from a moving image captured while the endoscope is moving. By extracting the first image from the moving image, the first image can be collected more than the second image.
  • the first database 14 and the second database 16 are provided in the learning device 10, but may be provided externally.
  • the first image set and the second image set for learning can be acquired from an external database via the communication unit 12.
  • the operation unit 18 uses a keyboard, a mouse, and the like that are connected to the computer by wire or wirelessly, and receives various operation inputs in machine learning.
  • the CPU 20 reads various programs (including a learning program used for machine learning) stored in the ROM 24 or a hard disk device (not shown) and executes various processes.
  • the RAM 22 is used as a work area of the CPU 20, and is used as a storage unit for temporarily storing read programs and various data.
  • the display unit 26 includes various monitors such as a liquid crystal monitor that can be connected to a computer, and is used together with the operation unit 18 as a part of a user interface.
  • the CPU 20 reads a learning program stored in the ROM 24, a hard disk device, or the like in response to an instruction input from the operation unit 18 and executes the learning program. Function.
  • FIG. 6 is a block diagram showing an embodiment of the learning device 10 according to the present invention, and is a functional block diagram showing main functions of the learning device 10 shown in FIG.
  • the learning device 10 illustrated in FIG. 6 performs learning using the first image set stored in the first database 14 and the second image set stored in the second database 16, so that a learning area of an attention area is obtained from an input image.
  • a convolutional neural network (CNN: Convolution Neural Network), which is one of the learning models, is constructed.
  • the learning device 10 shown in FIG. 6 mainly includes a CNN 32, a loss value calculation unit 34, a parameter control unit 36, and a mask data creation unit 38.
  • the CNN 32 is a portion corresponding to a recognizer that recognizes a region of interest such as a lesion region in the input image. It has a plurality of layer structures and holds a plurality of weight parameters.
  • the weight parameter is, for example, a filter coefficient of a filter called a kernel used for a convolution operation in the convolution layer.
  • the CNN 32 may change from an unlearned model to a learned model by updating the weight parameter from an initial value to an optimal value.
  • the CNN 32 includes an input layer 32A, an intermediate layer 32B having a plurality of sets including a convolution layer and a pooling layer, and an output layer 32C.
  • Each layer has a structure in which a plurality of “nodes” are connected by “edges”. Has become.
  • the input image 31 to be learned is input to the input layer 32A.
  • the intermediate layer 32B has a plurality of sets each including a convolution layer and a pooling layer, and is a portion for extracting a feature from an image input from the input layer 32A.
  • the convolution layer performs filtering on a nearby node in the previous layer (performs a convolution operation using a filter) to obtain a “feature map”.
  • the pooling layer reduces the feature map output from the convolutional layer to a new feature map.
  • the “convolution layer” plays a role of feature extraction such as edge extraction from an image, and the “pooling layer” plays a role of providing robustness so that the extracted features are not affected by translation or the like.
  • the intermediate layer 32B is not limited to the case where the convolutional layer and the pooling layer are set as one set, but may include a case where the convolutional layer is continuous, an activation process using an activation function, and a normalization layer.
  • the output layer 32C is a part that outputs a feature map indicating the features extracted by the intermediate layer 32B.
  • the output layer 32C also uses the learned CNN 32 to classify a recognition result obtained by performing area classification (segmentation), for example, on a pixel-by-pixel basis or in a unit of several pixels in a target region such as a lesion region in an input image. Output.
  • Arbitrary initial values are set as coefficients and offset values of filters applied to each convolutional layer of the CNN 32 before learning.
  • the loss value calculator 34 functioning as the first loss value calculator and the second loss value calculator includes a feature map output from the output layer 32C of the CNN 32, and teacher data for the input image (the first image or the second image). Is compared with the mask data (the first mask data or the second mask data), and an error between the two (a loss value which is a value of a loss function) is calculated.
  • a loss value which is a value of a loss function
  • softmax cross entropy, sigmoid, or the like can be considered.
  • the parameter control unit 36 adjusts the weight parameter of the CNN 30 by the error back propagation method based on the loss values (first loss value and second loss value) calculated by the loss value calculation unit 34.
  • the parameter adjustment process is repeatedly performed, and learning is repeatedly performed until the difference between the output of the CNN 32 and the mask data as the teacher data is reduced.
  • the mask data creation unit 38 acquires one or a plurality of (one batch) of learning data used for learning from the first image set stored in the first database 14 and performs learning using the acquired learning data. In this case, before the first image forming the learning data is input to the CNN 32, the first mask data is created based on the coordinate information 37 associated with the first image input to the CNN 32.
  • the coordinate information 37 in this example is coordinate information indicating four sides (left side, upper side, right side, lower side) of the square area including the attention area A as shown in FIG.
  • First mask data in which a rectangular area is masked based on the side coordinate information (the rectangular area and the background area are classified) is created.
  • This first mask data is teacher data for the first image that is the input image.
  • the coordinate information for specifying the square region is not limited to the coordinate information indicating the four sides of the square region, and may be, for example, coordinates indicating two vertexes of a diagonal of the square region.
  • the learning device 10 having the above configuration performs learning using the first image set stored in the first database 14 and the second image set stored in the second database 16, but is included in the first image set. Learning using the learning data included in the second image set and the learning data included in the second image set alternately or in an appropriate mixture, or using the learning data included in the first image set first. Learning may be performed, and then learning is performed using learning data included in the second image set.
  • the mask data creating unit 38 when the CNN 32 performs learning based on the learning data included in the first image set stored in the first database 14, the mask data creating unit 38 generates the learning data acquired from the first database 14 Before inputting one image as the input image 31 to the CNN 32 (input layer 32A), first mask data is created based on the coordinate information 37 associated with the first image, and this is set as mask data 35.
  • the first image is input to the CNN 32, and the feature map, which is the output from the output layer 32C of the CNN 32, is added to the loss value calculation unit 34.
  • the first mask data created by the mask data creation unit 38 is added to the loss value calculation unit 34, and the loss value calculation unit 34 that functions as the first loss value calculation unit receives the input feature map (first The feature value is compared with the first mask data, and a loss value (first loss value) is calculated.
  • the parameter control unit 36 adjusts the weight parameter of the CNN 30 by the error back propagation method based on the first loss value calculated by the loss value calculation unit 34.
  • the error is back-propagated from the last layer in order, a stochastic gradient descent method is performed in each layer, and the parameter update is repeated until the error converges.
  • the CNN 32 when the CNN 32 performs learning based on the learning data included in the second image set stored in the second database 16, the CNN 32 converts the second image constituting the learning data acquired from the second database 16 into the input image. 31 is input to the CNN 32 (input layer 32A). Then, the feature map, which is an output from the output layer 32C of the CNN 32, is added to the loss value calculation unit 34.
  • the second mask data associated with the second image input to the CNN 32 is added to the loss value calculation unit 34, and the loss value calculation unit 34 functioning as the second loss value calculation unit receives the input feature map.
  • a loss value (second loss value) is calculated based on the (second feature map) and the second mask data.
  • the parameter control unit 36 adjusts the weight parameter of the CNN 30 by the error back propagation method based on the second loss value calculated by the loss value calculation unit 34.
  • the learning device 10 repeats the learning using the learning data of the first image set and the learning using the learning data of the second image set, so that the CNN 32 becomes a learned model, and Then, a recognition result is output in which the region of interest is classified into units of pixels or several pixels are grouped together.
  • the learning device 10 by using not only the second image set but also the first image set as learning data, overlearning does not occur without using a large amount of the second image set. It is possible to generate a learning model that outputs a recognition result equivalent to the case where a large amount of the second image set is used.
  • the learning data of the first image set can be created by specifying coordinate information specifying an area larger than the attention area included in the first image, and mask data specifying the attention area included in the image can be created. It is necessary to create (second mask data) as teacher data, which can be easily created as compared with the learning data of the second image set.
  • the learning device 10 receives the first image data and the set of coordinate information (first image set), but may be configured to receive the first image data and the set of mask data (first mask data).
  • the learning data of the first image set illustrated in FIG. 2 includes coordinate information for specifying a rectangular area larger than the attention area A included in the first image in association with the first image, but is not limited thereto. Coordinate information for specifying an elliptical area wider than the attention area may be used.
  • FIG. 7 is a diagram showing an image (first image) captured by the endoscope apparatus and an elliptical region E.
  • the elliptical area E is an area including the attention area A included in the first image, and is wider than the attention area A.
  • the direction of the elliptical region E be determined so that its long axis direction matches the longest direction of the region of interest A.
  • coordinate information for specifying the elliptical region E coordinate information at both ends (a, b) of the long axis and coordinate information at both ends (c, d) of the short axis can be considered as shown in FIG. .
  • the first mask data shown in FIG. 4 is mask data obtained by masking a square area specified by the coordinate information shown in FIG. 2, but an area smaller than the square area is set in the square area, and An area outside the area smaller than the rectangular area can be mask data that is not included in the calculation of the loss value by the loss value calculation unit 34 that functions as the first loss value calculation unit.
  • an area C smaller than the square area B is set in the square area B including the attention area A.
  • This area C is also an area including the attention area A.
  • the area D (the four corner areas of the square area B in FIG. 8) inside the square area B and outside the area C smaller than the square area B is included in the loss value calculation by the loss value calculation unit 34. I do.
  • ternary image data can be obtained.
  • the loss value calculation unit 34 does not include the pixels in the area D to which “ ⁇ 1” is assigned in the calculation of the loss value.
  • the coordinate information specifying the area C is information indicating the circular area or the elliptical area.
  • the information may be information indicating an octagonal area.
  • ternary image data can be obtained.
  • the loss value calculation unit 34 does not include pixels in the area G to which “ ⁇ 1” is assigned in the calculation of the loss value.
  • the coordinate information for specifying the region G is expressed by another elliptical region or a circular region.
  • the information may indicate the area.
  • the first mask data described with reference to FIG. 8 includes an area C smaller than the square area B, an area outside the square area B, and an area inside the square area B and outside the area C smaller than the square area B.
  • D is the mask data for classifying the regions D and D.
  • a region C smaller than the square region B is set in the square region B, and the region C smaller than the square region B is set to the loss value calculator 34.
  • the area to which “ ⁇ 1” of the first mask data described with reference to FIG. 8 is inverted from the area to which “1” is allocated.
  • the first mask data described with reference to FIG. 9 includes a region F smaller than the elliptical region E, a region outside the elliptical region E (background region), and a region inside the elliptical region E and smaller than the elliptical region E.
  • the mask data is used to classify the area G outside the area F, the area F smaller than the elliptical area E is set as the first mask data in the elliptical area E.
  • Mask data that is not included in the calculation of the loss value by the loss value calculation unit 34 can be used.
  • the learning device 10 performs deconvolution processing and enlargement processing so that the output of the CNN 32 becomes the size of the input image.
  • the feature map smaller than the size of the input image due to the pooling process is output as it is.
  • FIG. 10 is a schematic diagram showing a state where the size of the feature map gradually decreases with respect to the size of the input image every time the pooling process is performed in the CNN.
  • first mask data and second mask data having the same size as a feature map output from the output layer of the CNN (a feature map not enlarged so as to have the size of the input image) are created. .
  • the data is output from the output layer of the CNN.
  • the first mask data or the second mask data having the same size as the feature map can be used.
  • the loss value calculator 34 calculates a loss value based on the feature map output from the CNN that has not been enlarged and the first mask data or the second mask reduced by at least one pooling process. Can be.
  • FIG. 11 is a flowchart showing an embodiment of the image learning method according to the present invention, and shows a processing procedure of each unit of the learning device 10 shown in FIG.
  • the first database 14 and the second database 16 store a first image set and a second image set for learning, respectively (step S10 of preparing an image set).
  • step S12 If the learning is performed using the learning data of the first image set, the process proceeds to step S12. If the learning is performed using the learning data of the second image set, the process proceeds to step S22. It should be noted that whether to use the learning data of the first image set or the learning data of the second image set is determined in advance by a program.
  • step S12 one or one batch of learning data is obtained from the first image set.
  • the learning data acquired from the first image set includes a first image serving as an input image during learning and coordinate information for creating first mask data serving as teacher data (see FIG. 2).
  • the mask data creation unit 38 of the learning device 10 shown in FIG. 6 creates first mask data based on the coordinate information acquired in step S12 (step S13).
  • step S12 the first image obtained in step S12 is input as the input image 31 of the CNN 32, and a feature map output from the CNN 32 is obtained (step S14).
  • the loss value calculator 34 compares the feature map acquired in step S14 with the first mask data created in step S13, and calculates a loss value (first loss value) (step S16).
  • the parameter control unit 36 adjusts (updates) the weight parameter of the CNN 30 by the error back propagation method based on the first loss value calculated by the loss value calculation unit 34 (Step S18).
  • the processes from step S14 to step S18 are executed until the error converges, and the parameter update is repeated.
  • step S20 it is determined whether or not desired learning using the first image set and the second image set has been completed. If it is determined that the learning has not been completed ("No"), the process proceeds to step S20. The process proceeds to S12 or S22.
  • step S22 If the learning is performed using the learning data of the second image set, the process proceeds to step S22.
  • step S22 one or one batch of learning data is obtained from the second image set.
  • the learning data acquired from the second image set includes a second image serving as an input image during learning and second mask data serving as teacher data (see FIG. 5).
  • step S22 the second image obtained in step S22 is input as the input image 31 of the CNN 32, and a feature map output from the CNN 32 is obtained (step S24).
  • the loss value calculator 34 compares the feature map obtained in step S24 with the second mask data obtained in step S22, and calculates a loss value (second loss value) (step S26).
  • the parameter control unit 36 adjusts (updates) the weight parameter of the CNN 30 by the error back propagation method based on the second loss value calculated by the loss value calculation unit 34 (Step S28).
  • the processing from step S24 to step S28 is executed until the error converges, and the updating of the parameters is repeated.
  • step S20 when it is determined that the desired learning using the first image set and the second image set has been completed (in the case of “Yes”), the processing by the present learning method ends.
  • the hardware structure for executing various controls of the learning device 10 of the present embodiment includes various processors as described below.
  • the circuit configuration can be changed after the production of CPUs (Central Processing Units) and FPGAs (Field Programmable Gate Arrays), which are general-purpose processors that execute software (programs) and function as various control units.
  • Logic devices Programmable Logic Devices: PLDs
  • ASICs Application Specific Integrated Circuits
  • dedicated electrical circuits which are processors having a circuit configuration specifically designed to execute specific processing. It is.
  • One processing unit may be configured by one of these various processors, or configured by two or more processors of the same or different types (for example, a plurality of FPGAs or a combination of a CPU and an FPGA). You may. Further, a plurality of control units may be configured by one processor. As an example in which a plurality of control units are configured by one processor, first, as represented by a computer such as a client or a server, one processor is configured by a combination of one or more CPUs and software. There is a form in which a processor functions as a plurality of control units.
  • SoC System-on-Chip
  • IC integrated circuit
  • the hardware structure of these various processors is, more specifically, an electric circuit (circuitry) in which circuit elements such as semiconductor elements are combined.

Abstract

教師データの作成が容易であり、かつ過学習を防止することができる学習装置及び学習方法を提供する。学習装置(10)は、学習用の第1画像と第1画像に含まれる注目領域よりも広い領域を特定する座標情報とが関連付けられた第1画像セットと、学習用の第2画像と第2画像に含まれる注目領域を特定する第2マスクデータとが関連付けられた第2画像セットとを記憶する第1データベース及び第2データベースを備える。第1画像セットを使用してCNN(32)のパラメータを更新する場合(学習を行う場合)、マスクデータ作成部(38)は、注目領域よりも広い領域を特定する座標情報を元に第1マスクデータを作成する。そして、CNN(32)の入力画像として第1画像及び第2画像を使用し、教師データとして第1マスクデータ及び第2マスクデータを使用してCNN(32)のパラメータを更新する。

Description

学習装置及び学習方法
 本発明は学習装置及び学習方法に係り、特に入力画像から所望の注目領域を識別するための技術に関する。
 近年、機械学習の分野では、多層ニューラルネットワークを利用する深層学習が注目を集めている。深層学習によれば、ニューラルネットワークは多様な特徴表現を半自動的に獲得できるので、設計者は特徴量の抽出法を考案する必要が無い。特に画像の認識においては、畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)が注目されている(非特許文献1)。
 また、CNNを利用してピクセル単位で領域を分離する手法も知られている(非特許文献2)。
 CNNにおいて、入力画像内の注目領域をピクセル単位、もしくはいくつかのピクセルを一塊にした単位で領域分類(セグメンテーション)するためには、入力画像の注目領域とそれ以外でピクセル単位、もしくはいくつかのピクセルを一塊にした単位でアノテーションを行ったマスクデータを作成し、これをCNNに教師データとして与える必要がある。
 しかし、ピクセル単位、もしくはいくつかのピクセルを一塊にした単位で分類を行う学習は、学習時のパラメータ変動が大きく、過学習に陥りやすい。
 過学習とは、教師データに対しては学習されているが、教師データに合わせすぎる結果、未知データに対しては適合できていない状態(汎化できていない状態)をいう。
 この過学習の防止のためには大量の教師データが必要であるが、入力画像の注目領域とそれ以外でピクセル単位、もしくはいくつかのピクセルを一塊にした単位でアノテーションを行ったマスクデータを大量に作成する必要がある。
 従来、教師データを生成する装置が提案されている(特許文献1、2)。
 特許文献1に記載のデータ処理装置は、教師データを生成する対象となる物体の種別が何であるかを目視により判断し、手動でラベリングを行う代わりに、認識処理部により入力画像から物体の種別を自動的に認識し、その認識結果を入力画像に付加することで、教師データを生成している。
 また、特許文献2に記載の教師データ生成装置は、入力画像から抽出されたオブジェクトの形状及びその他の外観要因の少なくともいずれか1つ以上の画像固有成分を記憶するデータベースと,このデータベースに記憶されている画像固有成分を変更して一又は複数種類の別の画像固有成分を生成する変更部と,この別の画像固有成分を用いて少なくとも部分的に入力画像に対応する再構成画像を生成し機械学習に適用する再構成部と、を備えている。
特開2018-96834号公報 特許第6330092号公報
A. Krizhevsky, I. Sutskever, and G. Hinton. ImageNet classification with deep convolutional neural networks. In NIPS, 2012 Long J, Shelhamer E, Darrell T. Fully convolutional networks for semantic segmentation. Computer Vision and Pattern Recognition. IEEE, 2015:34-3440.
 特許文献1に記載の発明は、物体のラベリングを自動化することができ、大量の教師データを用意するための労力を軽減することができるが、入力画像からピクセル単位、もしくはいくつかのピクセルを一塊にした単位で領域分類(セグメンテーション)を行うための学習用の教師データを生成するものではない。
 また、特許文献2に記載の発明は、一の入力画像から様々なバリエーションの教師データを生成するものであり、特許文献1と同様にセグメンテーションを行うための学習用の教師データを生成するものではない。
 本発明はこのような事情に鑑みてなされたもので、教師データの作成が容易であり、かつ過学習を防止することができる学習装置及び学習方法を提供することを目的とする。
 上記目的を達成するために本発明の一の態様に係る学習装置は、学習用の第1画像と第1画像に含まれる注目領域よりも広い領域を特定する座標情報とが関連付けられた第1画像セットと、学習用の第2画像と第2画像に含まれる注目領域を特定する第2マスクデータとが関連付けられた第2画像セットとを記憶する記憶部と、入力画像から特徴マップを出力するニューラルネットワークと、入力画像として、第1画像を入力し、ニューラルネットワークから出力される第1特徴マップと第1画像に関連付けられた座標情報を元に作成した第1マスクデータとを比較し、第1損失値を計算する第1損失値算出部と、入力画像として、第2画像を入力し、ニューラルネットワークから出力される第2特徴マップと第2画像に関連付けられた第2マスクデータとを比較し、第2損失値を計算する第2損失値算出部と、第1損失値及び第2損失値に基づいてニューラルネットワークのパラメータを更新させるパラメータ制御部と、を備える。
 本発明の一の態様によれば、第1画像セットの作成に当り、学習用の第1画像と第1画像に含まれる注目領域よりも広い領域を特定する座標情報との関連付けを行うが、注目領域よりも広い領域を特定する座標情報の入力は、注目領域を特定する第2マスクデータを手動で入力する場合(例えば、注目領域をピクセル単位で塗りつぶす作業)に比べて簡単である。即ち、第1画像セットと第2画像セットとを学習データとすることで、第2画像セットのみを学習データとする場合に比べて、学習データ(特に教師データ)を準備するための労力を大幅に軽減することができる。また、注目領域よりも広い領域を特定する座標情報を元に作成した第1マスクデータは、第2マスクデータのように注目領域を正確に示すものではないため、第1マスクデータを使用した学習により、少ない画像セットであっても過学習を防止することができ、更に第2マスクデータを使用した学習により、入力画像から注目領域を正確に認識できる学習が可能である。
 本発明の他の態様に係る学習装置において、第1画像に関連付けられた座標情報を元に第1マスクデータを作成するマスクデータ作成部を有し、マスクデータ作成部は、第1画像をニューラルネットワークに入力する前に、第1画像に対応する第1マスクデータを作成することが好ましい。
 本発明の更に他の態様に係る学習装置において、座標情報は、注目領域を含む四角領域を特定する情報であり、第1マスクデータは、四角領域をマスクしたマスクデータである。
 本発明の更に他の態様に係る学習装置において、四角領域内に四角領域よりも小さい領域を設定し、第1損失値算出部は、四角領域内かつ四角領域よりも小さい領域外は損失値の計算に含めないことが好ましい。四角領域内かつ四角領域よりも小さい領域外(特に四角領域の隅の領域)は、背景画像(注目領域ではない領域)である場合が多いからである。
 本発明の更に他の態様に係る学習装置において、四角領域内に四角領域よりも小さい領域を設定し、第1損失値算出部は、四角領域よりも小さい領域内は損失値の計算に含めないことが好ましい。
 本発明の更に他の態様に係る学習装置において、座標情報は、注目領域を含む楕円領域を特定する情報であり、第1マスクデータは、楕円領域をマスクしたマスクデータである。
 本発明の更に他の態様に係る学習装置において、楕円領域内に楕円領域よりも小さい領域を設定し、第1損失値算出部は、楕円領域内かつ楕円領域よりも小さい領域外は損失値の計算に含めないことが好ましい。
 本発明の更に他の態様に係る学習装置において、楕円領域内に楕円領域よりも小さい領域を設定し、第1損失値算出部は、楕円領域よりも小さい領域内は損失値の計算に含めないことが好ましい。
 本発明の更に他の態様に係る学習装置において、第1損失値算出部は、第1画像よりもサイズが小さい第1特徴マップと第2画像よりもサイズが小さい第1マスクデータとを比較し、第1損失値を計算し、第2損失値算出部は、第2画像よりもサイズが小さい第2特徴マップと第2画像よりもサイズが小さい第2マスクデータとを比較し、第2損失値を計算することが好ましい。第1特徴マップ及び第2特徴マップのサイズは、プーリング処理等により元の第1画像及び第2画像のサイズよりも小さくなるが、第1画像及び第2画像と同じサイズに戻さなくても損失値の計算はできるからである。
 本発明の更に他の態様に係る学習装置は、学習用の第1画像と第1画像に含まれる注目領域よりも広い領域を特定する第1マスクデータとが関連付けられた第1画像セットと、学習用の第2画像と第2画像に含まれる注目領域を特定する第2マスクデータとが関連付けられた第2画像セットとを記憶する記憶部と、入力画像から特徴マップを出力するニューラルネットワークと、入力画像として、第1画像を入力し、ニューラルネットワークから出力される第1特徴マップと第1画像に関連付けられた第1マスクデータとを比較し、第1損失値を計算する第1損失値算出部と、入力画像として、第2画像を入力し、ニューラルネットワークから出力される第2特徴マップと第2画像に関連付けられた第2マスクデータとを比較し、第2損失値を計算する第2損失値算出部と、第1損失値及び第2損失値に基づいてニューラルネットワークのパラメータを更新させるパラメータ制御部と、を備える。
 本発明の更に他の態様に係る学習装置において、第1マスクデータ及び第2マスクデータは、少なくとも1回はプーリング処理されたマスクデータであることが好ましい。第1マスクデータ及び第2マスクデータのサイズを、第1特徴マップ及び第2特徴マップのサイズと合わせるためである。
 本発明の更に他の態様に係る学習装置において、ニューラルネットワークは、少なくとも1つのプーリング層を有し、第1マスクデータ及び第2マスクデータは、プーリング層に対応するプーリング処理がされたマスクデータであることが好ましい。
 本発明の更に他の態様に係る学習装置において、第1画像セットには、ボケ又はブレを含む第1画像が存在することが好ましい。ボケ又はブレを含む第1画像を使用することで、更に過学習を防止可能にする。
 本発明の更に他の態様に係る学習装置において、第1画像セットを構成する第1画像及び第2画像セットを構成する第2画像は、それぞれ医用画像であることが好ましい。医用画像には、内視鏡画像、X線画像、CT(Computed Tomography)画像、MRI(Magnetic Resonance Imaging)画像などが含まれる。
 本発明の更に他の態様に係る学習装置において、第1画像セットを構成する第1画像は、動画から抽出した画像であることが好ましい。第1画像を多数取得することができ、また、動画にはボケ又はブレを有する画像が含まれるからである。
 本発明の更に他の態様に係る学習装置において、第1画像セットを構成する第1画像及び第2画像セットを構成する第2画像は、それぞれ内視鏡装置で撮像された画像である。
 本発明の更に他の態様に係る学習装置において、第2マスクデータは、第2画像に含まれる病変領域をマスクしたマスクデータであることが好ましい。
 本発明の更に他の態様に係る学習方法は、学習用の第1画像と第1画像に含まれる注目領域よりも広い領域を特定する座標情報とが関連付けられた第1画像セットと、学習用の第2画像と第2画像に含まれる注目領域を特定する第2マスクデータとが関連付けられた第2画像セットとを準備するステップと、ニューラルネットワークの入力画像として、第1画像を入力し、ニューラルネットワークから出力される第1特徴マップと第1画像に関連付けられた座標情報を元に作成した第1マスクデータとを比較し、第1損失値を計算するステップと、ニューラルネットワークの入力画像として、第2画像を入力し、ニューラルネットワークから出力される第2特徴マップと第2画像に関連付けられた第2マスクデータとを比較し、第2損失値を計算するステップと、第1損失値及び第2損失値に基づいてニューラルネットワークのパラメータを更新させるステップと、を含む。
 本発明の更に他の態様に係る学習方法は、学習用の第1画像と第1画像に含まれる注目領域よりも広い領域を特定する第1マスクデータとが関連付けられた第1画像セットと、学習用の第2画像と第2画像に含まれる注目領域を特定する第2マスクデータとが関連付けられた第2画像セットとを準備するステップと、ニューラルネットワークの入力画像として、第1画像を入力し、ニューラルネットワークから出力される第1特徴マップと第1画像に関連付けられた第1マスクデータとを比較し、第1損失値を計算するステップと、ニューラルネットワークの入力画像として、第2画像を入力し、ニューラルネットワークから出力される第2特徴マップと第2画像に関連付けられた第2マスクデータとを比較し、第2損失値を計算するステップと、第1損失値及び第2損失値に基づいてニューラルネットワークのパラメータを更新させるステップと、を含む。
 本発明によれば、第1画像セット及び第2画像セットを学習データとすることで、第2画像の注目領域とそれ以外の領域とでピクセル単位、もしくはいくつかのピクセルを一塊にした単位でアノテーションを行ったマスクデータが付帯する第2画像セットを大量に作成する必要がなく、第2画像セットのみを学習データとする場合に比べて、学習データを準備するための労力を大幅に軽減することができ、かつ過学習を防止することができる。
図1は、本発明に係る学習装置のハードウエア構成の一例を示すブロック図である。 図2は、第1データベース14に記憶される第1画像セットの一例を示す図である。 図3は、内視鏡装置により撮像された画像(第1画像)及び四角領域Bを示す図である。 図4は、図2に示した座標情報から作成される第1マスクデータを説明するために用いた図である。 図5は、第2データベース16に記憶される第2画像セットの一例を示す図である。 図6は、本発明に係る学習装置10の実施形態を示すブロック図である。 図7は、内視鏡装置により撮像された画像(第1画像)及び楕円領域Eを示す図である。 図8は、第1マスクデータの他の実施形態を説明するために用いた図である。 図9は、第1マスクデータの更に他の実施形態を説明するために用いた図である。 図10は、CNNでのプーリング処理を経る毎に入力画像のサイズに対して特徴マップのサイズが徐々に小さくなる様子を示す模式図である。 図11は、本発明に係る画像学習方法の実施形態を示すフローチャートである。
 以下、添付図面に従って本発明に係る学習装置及び方法の好ましい実施形態について説明する。
 [学習装置のハードウエア構成]
 図1は、本発明に係る学習装置のハードウエア構成の一例を示すブロック図である。
 図1に示す学習装置10は、入力画像内の注目領域をピクセル単位、もしくはいくつかのピクセルを一塊にした単位で領域分類(セグメンテーション)するための認識器として機能するための学習を行うものであり、パーソナルコンピュータ又はワークステーションにより構成することができる。
 本例の学習装置10は、主として通信部12と、大容量のストレージもしくは第1データベース14、第2データベース16と、操作部18と、CPU(Central Processing Unit)20と、RAM(Random Access Memory)22と、ROM(Read Only Memory)24と、表示部26とから構成されている。
 通信部12は、有線又は無線により外部装置との通信処理を行い、外部装置との間で情報のやり取りを行う部分である。
 記憶部として機能する第1データベース14及び第2データベース16は、それぞれ学習用の第1画像セット及び第2画像セットを記憶している。
 第1画像セットは、学習用の第1画像と第1画像に含まれる注目領域よりも広い領域を特定する座標情報とが関連付けられた学習データの集合であり、また、第2画像セットは、学習用の第2画像と第2画像に含まれる注目領域を特定する第2マスクデータとが関連付けられた学習データの集合である。
 図2は、第1データベース14に記憶される第1画像セットの一例を示す図であり、学習装置10の入力画像として、内視鏡装置で撮像された第1画像(医用画像)を使用する場合に関して示している。
 図2に示すように第1画像セットは、学習装置10の学習時における入力画像である第1画像(図2の上段に示した画像)と、第1画像に対する教師データとして機能するマスクデータの作成に使用する座標情報(図2の下段に示した座標情報)とが対となって記憶された学習データの集合である。
 ここで、座標情報は、図3に示すように第1画像に含まれる病変領域等の注目領域Aよりも広い四角領域Bを特定する座標情報である。本例の座標情報は、注目領域Aを含む四角領域Bの左辺を示す座標(left=w)、上辺を示す座標(top=x)、右辺を示す座標(right=y)、及び下辺を示す座標(bottom=z)を有している。
 第1画像に関連付けられた座標情報は、図4の下段に示すマスクデータ(第1マスクデータ)を作成するために使用される。第1マスクデータは、注目領域を含む四角領域を、ピクセル単位、もしくはいくつかのピクセルを一塊にした単位でマスクしたマスクデータであり、例えば、四角領域内のピクセルには、「1」を割り当て、背景領域(四角領域以外の領域)のピクセルには、「0」を割り当てることで2値の画像データとすることができる。
 第1画像に含まれる注目領域Aよりも広い領域を特定する座標情報の入力は、例えば、第1画像を表示部26に表示させ、ユーザが、操作部18(マウス等のポインティングデバイス)を操作して、注目領域Aを囲む矩形枠(図3参照)を表示部26に表示させ、その矩形枠の位置及びサイズを確定させることで行うことできる。
 図5は、第2データベース16に記憶される第2画像セットの一例を示す図であり、学習装置10の入力画像として、内視鏡装置で撮像された第2画像(医用画像)を使用する場合に関して示している。
 図5に示すように第2画像セットは、学習装置10の学習時における入力画像である第2画像(図5の上段に示した画像)と、第2画像に対する教師データとして機能するマスクデータ(図5の下段に示した第2マスクデータ)とが対となって記憶された学習データの集合である。
 第2マスクデータは、第2画像に含まれる注目領域(例えば、病変領域)をピクセル単位、もしくはいくつかのピクセルを一塊にした単位でマスクしたマスクデータである。
 第2画像に含まれる注目領域Aを特定する第2マスクデータの作成は、例えば、第2画像を表示部26に表示させ、ユーザが、操作部18(マウス等のポインティングデバイス)を操作して、注目領域Aの輪郭を、ピクセル単位、もしくはいくつかのピクセルを一塊にした単位で描画し、又は注目領域Aをピクセル単位、もしくはいくつかのピクセルを一塊にした単位で塗り潰すことで行うことができる。
 ユーザによる座標情報の入力は、第2マスクデータの作成に比べて簡単である。したがって、第1データベース14に記憶させる第1画像セットは、第2データベース16に記憶させる第2画像セットに比べて容易に作成することができ、これにより大量の第2画像セットを準備する場合に比べてユーザの労力を大幅に軽減することができる。
 また、座標情報により作成される第1マスクデータは、注目領域をピクセル単位で正確に特定するものではないため、第1画像セットを使用する学習は、過学習に陥り難い利点がある。更に、過学習を防止するために、第1画像セットには、ボケ又はブレを含む第1画像が存在することが好ましい。
 更にまた、第1画像セットには、ボケ又はブレを含む第1画像が存在してもよいため、例えば、内視鏡スコープが移動中に撮像される動画から抽出した画像であってもよい。動画から第1画像を抽出することで、第1画像は、第2画像に比べて多く集めることができる。
 尚、本例では、第1データベース14及び第2データベース16は、学習装置10が備えているが、外部に設けられたものでもよい。この場合、通信部12を介して外部のデータベースから学習用の第1画像セット及び第2画像セットを取得することができる。
 操作部18は、コンピュータに有線接続又は無線接続されるキーボード及びマウス等が用いられ、機械学習に当たって各種の操作入力を受け付ける。
 CPU20は、ROM24又は図示しないハードディスク装置等に記憶された各種のプログラム(機械学習に使用する学習用プログラムを含む)を読み出し、各種の処理を実行する。RAM22は、CPU20の作業領域として使用され、読み出されたプログラムや各種のデータを一時的に記憶する記憶部として用いられる。
 表示部26は、コンピュータに接続可能な液晶モニタ等の各種モニタが用いられ、操作部18とともに、ユーザインターフェースの一部として使用される。
 上記構成の学習装置10は、操作部18により指示入力によりCPU20が、ROM24やハードディスク装置等に記憶されている学習用プログラムを読み出し、学習用プログラムを実行することにより、後述するように学習装置として機能する。
 [学習装置の実施形態]
 図6は、本発明に係る学習装置10の実施形態を示すブロック図であり、図1に示した学習装置10の主要な機能を示す機能ブロック図である。
 図6に示す学習装置10は、第1データベース14に保存された第1画像セットと、第2データベース16に保存された第2画像セットとを用いて学習することにより、入力画像から注目領域の領域分類(セグメンテーション)を行う学習モデルを生成する。本例では、学習モデルの一つである畳み込みニューラルネットワーク(CNN:Convolution Neural Network)を構築する。
 図6に示す学習装置10は、主としてCNN32と、損失値算出部34と、パラメータ制御部36と、マスクデータ作成部38とから構成される。
 CNN32は、例えば、内視鏡装置で撮像された画像(医用画像)を入力画像とするとき、その入力画像に写っている病変領域等の注目領域を認識する認識器に対応する部分であり、複数のレイヤ構造を有し、複数の重みパラメータを保持している。重みパラメータは、畳み込み層での畳み込み演算に使用されるカーネルと呼ばれるフィルタのフィルタ係数などである。
 CNN32は、重みパラメータが初期値から最適値に更新されることで、未学習モデルから学習済みモデルに変化しうる。
 このCNN32は、入力層32Aと、畳み込み層とプーリング層から構成された複数セットを有する中間層32Bと、出力層32Cとを備え、各層は複数の「ノード」が「エッジ」で結ばれる構造となっている。
 入力層32Aには、学習対象である入力画像31が入力される。
 中間層32Bは、畳み込み層とプーリング層とを1セットとする複数セットを有し、入力層32Aから入力した画像から特徴を抽出する部分である。畳み込み層は、前の層で近くにあるノードにフィルタ処理し(フィルタを使用した畳み込み演算を行い)、「特徴マップ」を取得する。プーリング層は、畳み込み層から出力された特徴マップを縮小して新たな特徴マップとする。「畳み込み層」は、画像からのエッジ抽出等の特徴抽出の役割を担い、「プーリング層」は抽出された特徴が、平行移動などによる影響を受けないようにロバスト性を与える役割を担う。
 尚、中間層32Bには、畳み込み層とプーリング層とを1セットとする場合に限らず、畳み込み層が連続する場合や活性化関数による活性化プロセス、正規化層も含まれ得る。
 出力層32Cは、中間層32Bにより抽出された特徴を示す特徴マップを出力する部分である。また、出力層32Cは、学習済みCNN32では、例えば、入力画像に写っている病変領域等の注目領域をピクセル単位、もしくはいくつかのピクセルを一塊にした単位で領域分類(セグメンテーション)した認識結果を出力する。
 学習前のCNN32の各畳み込み層に適用されるフィルタの係数やオフセット値は、任意の初期値がセットされる。
 第1損失値算出部及び第2損失値算出部として機能する損失値算出部34は、CNN32の出力層32Cから出力される特徴マップと、入力画像(第1画像又は第2画像)に対する教師データであるマスクデータ(第1マスクデータ又は第2マスクデータ)とを比較し、両者間の誤差(損失関数の値である損失値)を計算する。損失値の計算方法は、例えばソフトマックスクロスエントロピー、シグモイドなどが考えられる。
 パラメータ制御部36は、損失値算出部34により算出された損失値(第1損失値、第2損失値)を元に、誤差逆伝播法によりCNN30の重みパラメータを調整する。
 このパラメータの調整処理を繰り返し行い、CNN32の出力と教師データであるマスクデータとの差が小さくなるまで繰り返し学習を行う。
 マスクデータ作成部38は、第1データベース14に保存された第1画像セットの中から学習に使用する1又は複数(1バッチ)の学習データを取得し、取得した学習データを用いて学習を行う場合、学習データを構成する第1画像をCNN32に入力する前に、CNN32に入力する第1画像に関連付けられた座標情報37を元に第1マスクデータを作成する。
 本例の座標情報37は、図3に示すように注目領域Aを含む四角領域の4辺(左辺、上辺、右辺、下辺)を示す座標情報であり、マスクデータ作成部38は、これらの4辺の座標情報に基づいて四角領域をマスクした(四角領域と背景領域とを領域分類した)第1マスクデータを作成する。この第1マスクデータは、入力画像である第1画像に対する教師データである。尚、四角領域を特定するための座標情報は、四角領域の4辺を示す座標情報に限らず、例えば、四角領域の対角の2つの頂点を示す座標でもよい。
 上記構成の学習装置10は、第1データベース14に記憶された第1画像セットと、第2データベース16に記憶された第2画像セットとを使用して学習を行うが、第1画像セットに含まれる学習データと、第2画像セットに含まれる学習データとを交互に使用し、又は適当に混在させて使用して学習する場合、あるいは最初に第1画像セットに含まれる学習データを使用して学習し、その後、第2画像セットに含まれる学習データを使用して学習する場合が考えられる。
 いま、CNN32が、第1データベース14に記憶された第1画像セットに含まれる学習データに基づいて学習を行う場合、マスクデータ作成部38は、第1データベース14から取得した学習データを構成する第1画像を、入力画像31としてCNN32(入力層32A)に入力する前に、その第1画像に関連付けられた座標情報37を元に第1マスクデータを作成し、これをマスクデータ35とする。
 その後、第1画像をCNN32に入力し、CNN32の出力層32Cからの出力である特徴マップが、損失値算出部34に加えられる。
 損失値算出部34には、マスクデータ作成部38により作成された第1マスクデータが加えられており、第1損失値算出部として機能する損失値算出部34は、入力する特徴マップ(第1特徴マップ)と第1マスクデータとを比較し、損失値(第1損失値)を計算する。
 パラメータ制御部36は、損失値算出部34により算出された第1損失値を元に、誤差逆伝播法によりCNN30の重みパラメータを調整する。誤差逆伝播法では、誤差を最終レイヤから順に逆伝播させ、各レイヤにおいて確率的勾配降下法を行い、誤差が収束するまでパラメータの更新を繰り返す。
 次に、CNN32が、第2データベース16に記憶された第2画像セットに含まれる学習データに基づいて学習を行う場合、第2データベース16から取得した学習データを構成する第2画像を、入力画像31としてCNN32(入力層32A)に入力する。そして、CNN32の出力層32Cからの出力である特徴マップが、損失値算出部34に加えられる。
 損失値算出部34には、CNN32に入力された第2画像に関連付けられた第2マスクデータが加えられており、第2損失値算出部として機能する損失値算出部34は、入力する特徴マップ(第2特徴マップ)と第2マスクデータとに基づいて損失値(第2損失値)を算出する。
 パラメータ制御部36は、損失値算出部34により算出された第2損失値を元に、誤差逆伝播法によりCNN30の重みパラメータを調整する。
 学習装置10は、以上の第1画像セットの学習データを使用した学習と、第2画像セットの学習データを使用した学習とを繰り返すことで、CNN32が学習済みモデルとなり、未知の入力画像に対して注目領域をピクセル単位、もしくはいくつかのピクセルを一塊にした単位で領域分類する認識結果を出力する。
 この学習装置10によれば、学習データとして、第2画像セットだけでなく、第1画像セットを使用することで、大量の第2画像セットを使用しなくても過学習に陥ることがなく、大量の第2画像セットを使用する場合と同等の認識結果を出力する学習モデルを生成することができる。
 また、第1画像セットの学習データは、第1画像に含まれる注目領域よりも広い領域を特定する座標情報を指定することで作成することができ、画像に含まれる注目領域を特定するマスクデータ(第2マスクデータ)を教師データとして作成する必要がある、第2画像セットの学習データに比べて簡単に作成することができる。
 また、この学習装置10は、第1画像データと座標情報のセット(第1画像セット)を受け取るが、第1画像データとマスクデータ(第1マスクデータ)のセットを受け取る構成としても良い。
 [第1画像セットの他の実施形態]
 図2に示した第1画像セットの学習データは、第1画像に関連付けて、第1画像に含まれる注目領域Aよりも広い四角領域を特定する座標情報を有するが、これに限らず、例えば注目領域よりも広い楕円領域を特定する座標情報でもよい。
 図7は、内視鏡装置により撮像された画像(第1画像)及び楕円領域Eを示す図である。楕円領域Eは、第1画像に含まれる注目領域Aを含む領域であり、注目領域Aよりも広い。
 楕円領域Eは、その長軸方向と注目領域Aの最も長い方向と一致するように方向を決定することが好ましい。
 楕円領域Eを特定する座標情報としては、図7に示すように楕円領域Eの長軸の両端(a,b)の座標情報、及び短軸の両端(c,d)の座標情報が考えられる。
 [第1マスクデータの他の実施形態]
 図4に示した第1マスクデータは、図2に示した座標情報により特定される四角領域をマスクしたマスクデータであるが、四角領域内に四角領域よりも小さい領域を設定し、四角領域内かつ四角領域よりも小さい領域外の領域は、第1損失値算出部として機能する損失値算出部34での損失値の計算に含めないマスクデータとすることができる。
 図8に示すように注目領域Aを含む四角領域B内に、四角領域Bよりも小さい領域Cを設定する。この領域Cも注目領域Aを含む領域である。
 そして、四角領域B内かつ四角領域Bよりも小さい領域C外の領域D(図8上で、四角領域Bの四隅の領域)は、損失値算出部34での損失値の計算に含めようにする。
 例えば、四角領域Bよりも小さい領域C内のピクセルには、「1」を割り当て、背景領域(四角領域Bの外側の領域)のピクセルには、「0」を割り当て、四角領域B内かつ四角領域Bよりも小さい領域C外の領域Dのピクセルには、「-1」を割り当てることで、3値の画像データとすることができる。
 損失値算出部34は、「-1」が割り当てられた領域D内のピクセルについては、損失値の計算に含めないようにする。
 尚、四角領域B内かつ四角領域Bよりも小さい領域Cを、注目領域Aを含む円領域又は楕円領域とする場合には、領域Cを特定する座標情報は、円領域又は楕円領域を示す情報とすることができ、また、四角領域Bの四隅をカットした八角形の領域とする場合には、八角形の領域を示す情報とすることができる。
 また、第1マスクデータとして、楕円領域Eをマスクするマスクデータの場合(図7)、図9に示すように楕円領域E内に楕円領域Eよりも小さい領域Fを設定する。そして、楕円領域E内かつ楕円領域Eよりも小さい領域F外は、第1損失値算出部として機能する損失値算出部34での損失値の計算に含めないマスクデータとすることができる。
 例えば、楕円領域Eよりも小さい領域F内のピクセルには、「1」を割り当て、背景領域(楕円領域Eの外側の領域)のピクセルには、「0」を割り当て、楕円領域E内かつ楕円領域Eよりも小さい領域F外の領域Gのピクセルには、「-1」を割り当てることで、3値の画像データとすることができる。
 損失値算出部34は、「-1」が割り当てられた領域G内のピクセルについては、損失値の計算に含めないようにする。
 尚、楕円領域E内かつ楕円領域Eよりも小さい領域Fを、注目領域Aを含む他の楕円領域又は円領域とする場合には、領域Gを特定する座標情報は、他の楕円領域又は円領域を示す情報とすることができる。
 更に、図8を用いて説明した第1マスクデータは、四角領域Bよりも小さい領域Cと、四角領域Bの外側の領域と、四角領域B内かつ四角領域Bよりも小さい領域C外の領域Dとを領域分類するマスクデータであるが、第1マスクデータとして、四角領域B内に四角領域Bよりも小さい領域Cを設定し、四角領域Bよりも小さい領域Cは、損失値算出部34での損失値の計算に含めないマスクデータとすることができる。この場合、図8を用いて説明した第1マスクデータの「-1」が割り当てられた領域と、「1」が割り当てられた領域とが逆転することになる。
 同様に、図9を用いて説明した第1マスクデータは、楕円領域Eよりも小さい領域Fと、楕円領域Eの外側の領域(背景領域)と、楕円領域E内かつ楕円領域Eよりも小さい領域F外の領域Gとを領域分類するマスクデータであるが、第1マスクデータとして、楕円領域E内に楕円領域Eよりも小さい領域Fを設定し、楕円領域Eよりも小さい領域Fは、損失値算出部34での損失値の計算に含めないマスクデータとすることができる。
 [学習装置の変形例]
 本実施形態の学習装置10は、CNN32の出力が、入力画像のサイズになるようにデコンボリューション処理や拡大処理を行うが、学習装置の変形例では、拡大処理等を行わず、1回以上のプーリング処理により入力画像のサイズよりも小さくなった特徴マップをそのまま出力する。
 図10は、CNNでのプーリング処理を経る毎に入力画像のサイズに対して特徴マップのサイズが徐々に小さくなる様子を示す模式図である。
 学習装置の変形例では、CNNの出力層から出力される特徴マップ(入力画像のサイズになるように拡大処理されていない特徴マップ)と同じサイズの第1マスクデータ及び第2マスクデータを作成する。
 この場合、入力画像と同じサイズの第1マスクデータ、又は第2マスクデータに対して、CNNのプーリング処理と同じ処理(少なくとも1回のプーリング処理)を施すことで、CNNの出力層から出力される特徴マップと同じサイズの第1マスクデータ、又は第2マスクデータにすることができる。
 損失値算出部34は、CNNから出力される拡大処理されていない特徴マップと、少なくとも1回のプーリング処理により縮小された第1マスクデータ、又は第2マスクとに基づいて損失値を算出することができる。
 [学習方法]
 図11は、本発明に係る画像学習方法の実施形態を示すフローチャートであり、図6に示した学習装置10の各部の処理手順に関して示している。
 第1データベース14及び第2データベース16には、それぞれ学習用の第1画像セット及び第2画像セットが格納される(画像セットを準備するステップS10)。
 第1画像セットの学習データを使用して学習する場合には、ステップS12に遷移し、第2画像セットの学習データを使用して学習する場合には、ステップS22に遷移する。尚、第1画像セットの学習データを使用するか、又は第2画像セットの学習データを使用するかは、予めプログラムにより決定されているものとする。
 ステップS12では、第1画像セットから1又は1バッチの学習データを取得する。第1画像セットから取得した学習データには、学習時の入力画像となる第1画像と、教師データとなる第1マスクデータを作成するための座標情報とを含む(図2参照)。
 図6に示した学習装置10のマスクデータ作成部38は、ステップS12で取得した座標情報を元に第1マスクデータを作成する(ステップS13)。
 続いて、ステップS12で取得した第1画像を、CNN32の入力画像31として入力し、CNN32から出力される特徴マップを取得する(ステップS14)。
 損失値算出部34は、ステップS14で取得した特徴マップとステップS13で作成した第1マスクデータとを比較し、損失値(第1損失値)を計算する(ステップS16)。
 パラメータ制御部36は、損失値算出部34により算出された第1損失値を元に、誤差逆伝播法によりCNN30の重みパラメータを調整(更新)する(ステップS18)。ステップS14からステップS18の処理は、誤差が収束するまで実行し、パラメータの更新を繰り返す。
 続いて、第1画像セット及び第2画像セットを使用した所望の学習が終了したか否かを判別し(ステップS20)、終了していないと判別されると(「No」の場合)、ステップS12又はステップS22に遷移する。
 そして、第2画像セットの学習データを使用して学習する場合には、ステップS22に進む。
 ステップS22では、第2画像セットから1又は1バッチの学習データを取得する。第2画像セットから取得した学習データには、学習時の入力画像となる第2画像と、教師データとなる第2マスクデータとを含む(図5参照)。
 次に、ステップS22で取得した第2画像を、CNN32の入力画像31として入力し、CNN32から出力される特徴マップを取得する(ステップS24)。
 損失値算出部34は、ステップS24で取得した特徴マップとステップS22で取得した第2マスクデータとを比較し、損失値(第2損失値)を計算する(ステップS26)。
 パラメータ制御部36は、損失値算出部34により算出された第2損失値を元に、誤差逆伝播法によりCNN30の重みパラメータを調整(更新)する(ステップS28)。ステップS24からステップS28の処理は、誤差が収束するまで実行し、パラメータの更新を繰り返す。
 その後、ステップS20において、第1画像セット及び第2画像セットを使用した所望の学習が終了したと判別されると(「Yes」の場合)、本学習方法による処理が終了する。
 [その他]
 本実施形態の学習装置10の各種制御を実行するハードウエア的な構造は、次に示すような各種のプロセッサ(processor)である。各種のプロセッサには、ソフトウェア(プログラム)を実行して各種の制御部として機能する汎用的なプロセッサであるCPU(Central Processing Unit)、FPGA(Field Programmable Gate Array)などの製造後に回路構成を変更可能なプロセッサであるプログラマブルロジックデバイス(Programmable Logic Device:PLD)、ASIC(Application Specific Integrated Circuit)などの特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路などが含まれる。
 1つの処理部は、これら各種のプロセッサのうちの1つで構成されていてもよいし、同種又は異種の2つ以上のプロセッサ(例えば、複数のFPGA、あるいはCPUとFPGAの組み合わせ)で構成されてもよい。また、複数の制御部を1つのプロセッサで構成してもよい。複数の制御部を1つのプロセッサで構成する例としては、第1に、クライアントやサーバなどのコンピュータに代表されるように、1つ以上のCPUとソフトウェアの組合せで1つのプロセッサを構成し、このプロセッサが複数の制御部として機能する形態がある。第2に、システムオンチップ(System On Chip:SoC)などに代表されるように、複数の制御部を含むシステム全体の機能を1つのIC(Integrated Circuit)チップで実現するプロセッサを使用する形態がある。このように、各種の制御部は、ハードウエア的な構造として、上記各種のプロセッサを1つ以上用いて構成される。
 また、これらの各種のプロセッサのハードウエア的な構造は、より具体的には、半導体素子などの回路素子を組み合わせた電気回路(circuitry)である。
 また、本発明は上述した実施形態に限定されず、本発明の精神を逸脱しない範囲で種々の変形が可能であることは言うまでもない。
10 学習装置
12 通信部
14 第1データベース
16 第2データベース
18 操作部
20 CPU
22 RAM
24 ROM
26 表示部
31 入力画像
32A 入力層
32B 中間層
32C 出力層
34 損失値算出部
35 マスクデータ
36 パラメータ制御部
37 座標情報
38 マスクデータ作成部
S10~S28 ステップ

Claims (19)

  1.  学習用の第1画像と前記第1画像に含まれる注目領域よりも広い領域を特定する座標情報とが関連付けられた第1画像セットと、学習用の第2画像と前記第2画像に含まれる注目領域を特定する第2マスクデータとが関連付けられた第2画像セットとを記憶する記憶部と、
     入力画像から特徴マップを出力するニューラルネットワークと、
     前記入力画像として、前記第1画像を入力し、前記ニューラルネットワークから出力される第1特徴マップと前記第1画像に関連付けられた前記座標情報を元に作成した第1マスクデータとを比較し、第1損失値を計算する第1損失値算出部と、
     前記入力画像として、前記第2画像を入力し、前記ニューラルネットワークから出力される第2特徴マップと前記第2画像に関連付けられた前記第2マスクデータとを比較し、第2損失値を計算する第2損失値算出部と、
     前記第1損失値及び前記第2損失値に基づいて前記ニューラルネットワークのパラメータを更新させるパラメータ制御部と、
     を備えた学習装置。
  2.  前記第1画像に関連付けられた前記座標情報を元に前記第1マスクデータを作成するマスクデータ作成部を有し、
     前記マスクデータ作成部は、前記第1画像を前記ニューラルネットワークに入力する前に、当該第1画像に対応する前記第1マスクデータを作成する請求項1に記載の学習装置。
  3.  前記座標情報は、前記注目領域を含む四角領域を特定する情報であり、前記第1マスクデータは、前記四角領域をマスクしたマスクデータである請求項1又は2に記載の学習装置。
  4.  前記四角領域内に前記四角領域よりも小さい領域を設定し、
     前記第1損失値算出部は、前記四角領域内かつ前記四角領域よりも小さい領域外は損失値の計算に含めない請求項3に記載の学習装置。
  5.  前記四角領域内に前記四角領域よりも小さい領域を設定し、
     前記第1損失値算出部は、前記四角領域よりも小さい領域内は損失値の計算に含めない請求項3に記載の学習装置。
  6.  前記座標情報は、前記注目領域を含む楕円領域を特定する情報であり、前記第1マスクデータは、前記楕円領域をマスクしたマスクデータである請求項1又は2に記載の学習装置。
  7.  前記楕円領域内に前記楕円領域よりも小さい領域を設定し、
     前記第1損失値算出部は、前記楕円領域内かつ前記楕円領域よりも小さい領域外は損失値の計算に含めない請求項6に記載の学習装置。
  8.  前記楕円領域内に前記楕円領域よりも小さい領域を設定し、
     前記第1損失値算出部は、前記楕円領域よりも小さい領域内は損失値の計算に含めない請求項6に記載の学習装置。
  9.  前記第1損失値算出部は、前記第1画像よりもサイズが小さい前記第1特徴マップと前記第2画像よりもサイズが小さい前記第1マスクデータとを比較し、前記第1損失値を計算し、
     前記第2損失値算出部は、前記第2画像よりもサイズが小さい前記第2特徴マップと前記第2画像よりもサイズが小さい前記第2マスクデータとを比較し、前記第2損失値を計算する請求項1から8のいずれか1項に記載の学習装置。
  10.  学習用の第1画像と前記第1画像に含まれる注目領域よりも広い領域を特定する第1マスクデータとが関連付けられた第1画像セットと、学習用の第2画像と前記第2画像に含まれる注目領域を特定する第2マスクデータとが関連付けられた第2画像セットとを記憶する記憶部と、
     入力画像から特徴マップを出力するニューラルネットワークと、
     前記入力画像として、前記第1画像を入力し、前記ニューラルネットワークから出力される第1特徴マップと前記第1画像に関連付けられた前記第1マスクデータとを比較し、第1損失値を計算する第1損失値算出部と、
     前記入力画像として、前記第2画像を入力し、前記ニューラルネットワークから出力される第2特徴マップと前記第2画像に関連付けられた前記第2マスクデータとを比較し、第2損失値を計算する第2損失値算出部と、
     前記第1損失値及び前記第2損失値に基づいて前記ニューラルネットワークのパラメータを更新させるパラメータ制御部と、
     を備えた学習装置。
  11.  前記第1マスクデータ及び前記第2マスクデータは、少なくとも1回はプーリング処理されたマスクデータである請求項1から10のいずれか1項に記載の学習装置。
  12.  前記ニューラルネットワークは、少なくとも1つのプーリング層を有し、
     前記第1マスクデータ及び前記第2マスクデータは、前記プーリング層に対応するプーリング処理がされたマスクデータである請求項11に記載の学習装置。
  13.  前記第1画像セットには、ボケ又はブレを含む前記第1画像が存在する請求項1から11のいずれか1項に記載の学習装置。
  14.  前記第1画像セットを構成する前記第1画像及び前記第2画像セットを構成する前記第2画像は、それぞれ医用画像である請求項1から12のいずれか1項に記載の学習装置。
  15.  前記第1画像セットを構成する前記第1画像は、動画から抽出した画像である請求項1から13のいずれか1項に記載の学習装置。
  16.  前記第1画像セットを構成する前記第1画像及び前記第2画像セットを構成する前記第2画像は、それぞれ内視鏡装置で撮像された画像である請求項1から15のいずれか1項に記載の学習装置。
  17.  前記第2マスクデータは、前記第2画像に含まれる病変領域をマスクしたマスクデータである請求項1から16のいずれか1項に記載の学習装置。
  18.  学習用の第1画像と前記第1画像に含まれる注目領域よりも広い領域を特定する座標情報とが関連付けられた第1画像セットと、学習用の第2画像と前記第2画像に含まれる注目領域を特定する第2マスクデータとが関連付けられた第2画像セットとを準備するステップと、
     ニューラルネットワークの入力画像として、前記第1画像を入力し、前記ニューラルネットワークから出力される第1特徴マップと前記第1画像に関連付けられた前記座標情報を元に作成した第1マスクデータとを比較し、第1損失値を計算するステップと、
     前記ニューラルネットワークの入力画像として、前記第2画像を入力し、前記ニューラルネットワークから出力される第2特徴マップと前記第2画像に関連付けられた前記第2マスクデータとを比較し、第2損失値を計算するステップと、
     前記第1損失値及び前記第2損失値に基づいて前記ニューラルネットワークのパラメータを更新させるステップと、
     を含む学習方法。
  19.  学習用の第1画像と前記第1画像に含まれる注目領域よりも広い領域を特定する第1マスクデータとが関連付けられた第1画像セットと、学習用の第2画像と前記第2画像に含まれる注目領域を特定する第2マスクデータとが関連付けられた第2画像セットとを準備するステップと、
     ニューラルネットワークの入力画像として、前記第1画像を入力し、前記ニューラルネットワークから出力される第1特徴マップと前記第1画像に関連付けられた前記第1マスクデータとを比較し、第1損失値を計算するステップと、
     前記ニューラルネットワークの入力画像として、前記第2画像を入力し、前記ニューラルネットワークから出力される第2特徴マップと前記第2画像に関連付けられた前記第2マスクデータとを比較し、第2損失値を計算するステップと、
     前記第1損失値及び前記第2損失値に基づいて前記ニューラルネットワークのパラメータを更新させるステップと、
     を含む学習方法。
PCT/JP2019/033599 2018-09-20 2019-08-28 学習装置及び学習方法 WO2020059446A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2020548221A JP7083037B2 (ja) 2018-09-20 2019-08-28 学習装置及び学習方法
US17/197,060 US20210216823A1 (en) 2018-09-20 2021-03-10 Learning apparatus and learning method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018-176317 2018-09-20
JP2018176317 2018-09-20

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US17/197,060 Continuation US20210216823A1 (en) 2018-09-20 2021-03-10 Learning apparatus and learning method

Publications (1)

Publication Number Publication Date
WO2020059446A1 true WO2020059446A1 (ja) 2020-03-26

Family

ID=69888750

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/033599 WO2020059446A1 (ja) 2018-09-20 2019-08-28 学習装置及び学習方法

Country Status (3)

Country Link
US (1) US20210216823A1 (ja)
JP (1) JP7083037B2 (ja)
WO (1) WO2020059446A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112288097A (zh) * 2020-10-29 2021-01-29 平安科技(深圳)有限公司 联邦学习数据处理方法、装置、计算机设备及存储介质
CN113255700A (zh) * 2021-06-10 2021-08-13 展讯通信(上海)有限公司 图像的特征图的处理方法及装置、存储介质、终端
WO2021232613A1 (zh) * 2020-05-22 2021-11-25 五邑大学 酒瓶表面缺陷检测方法、电子装置及存储介质
WO2022172817A1 (ja) * 2021-02-10 2022-08-18 富士フイルム株式会社 学習装置、学習方法、学習済みモデル、及びプログラム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11334987B2 (en) * 2019-10-09 2022-05-17 Siemens Medical Solutions Usa, Inc. Physics-constrained network and training thereof

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170109881A1 (en) * 2015-10-14 2017-04-20 The Regents Of The University Of California Automated segmentation of organ chambers using deep learning methods from medical imaging
WO2017106645A1 (en) * 2015-12-18 2017-06-22 The Regents Of The University Of California Interpretation and quantification of emergency features on head computed tomography

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7970203B2 (en) * 2007-03-19 2011-06-28 General Electric Company Purpose-driven data representation and usage for medical images
EP2654015A1 (en) * 2012-04-21 2013-10-23 General Electric Company Method, system and computer readable medium for processing a medical video image
JP2015087167A (ja) * 2013-10-29 2015-05-07 キヤノン株式会社 画像処理方法、画像処理システム
US10380447B1 (en) * 2014-11-26 2019-08-13 Google Llc Providing regions of interest in an image
CA2995748A1 (en) * 2015-09-02 2017-03-09 Ventana Medical Systems, Inc. Image processing systems and methods for displaying multiple images of a biological specimen
WO2017068905A1 (ja) * 2015-10-19 2017-04-27 オリンパス株式会社 医療情報記録装置
US9801601B2 (en) * 2015-12-29 2017-10-31 Laboratoires Bodycad Inc. Method and system for performing multi-bone segmentation in imaging data
CN106295678B (zh) * 2016-07-27 2020-03-06 北京旷视科技有限公司 神经网络训练与构建方法和装置以及目标检测方法和装置
US10223788B2 (en) * 2016-08-31 2019-03-05 International Business Machines Corporation Skin lesion segmentation using deep convolution networks guided by local unsupervised learning
US10147171B2 (en) * 2016-09-21 2018-12-04 General Electric Company Systems and methods for generating subtracted images
US10540535B2 (en) * 2017-03-13 2020-01-21 Carl Zeiss Microscopy Gmbh Automatically identifying regions of interest on images of biological cells
EP3381371A1 (en) * 2017-03-29 2018-10-03 Koninklijke Philips N.V. Angiography panning during x-ray roadmap
JP6957197B2 (ja) * 2017-05-17 2021-11-02 キヤノン株式会社 画像処理装置および画像処理方法
WO2018227105A1 (en) * 2017-06-08 2018-12-13 The United States Of America, As Represented By The Secretary, Department Of Health And Human Services Progressive and multi-path holistically nested networks for segmentation
US20200279389A1 (en) * 2017-11-17 2020-09-03 C 3 Limited Object measurement system
CN110633745B (zh) * 2017-12-12 2022-11-29 腾讯科技(深圳)有限公司 一种基于人工智能的图像分类训练方法、装置及存储介质
US10860888B2 (en) * 2018-01-05 2020-12-08 Whirlpool Corporation Detecting objects in images
CN109754402B (zh) * 2018-03-15 2021-11-19 京东方科技集团股份有限公司 图像处理方法、图像处理装置以及存储介质
CN110580487A (zh) * 2018-06-08 2019-12-17 Oppo广东移动通信有限公司 神经网络的训练方法、构建方法、图像处理方法和装置
CN116133983A (zh) * 2020-07-14 2023-05-16 斯伦贝谢技术有限公司 发光金刚石

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170109881A1 (en) * 2015-10-14 2017-04-20 The Regents Of The University Of California Automated segmentation of organ chambers using deep learning methods from medical imaging
WO2017106645A1 (en) * 2015-12-18 2017-06-22 The Regents Of The University Of California Interpretation and quantification of emergency features on head computed tomography

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021232613A1 (zh) * 2020-05-22 2021-11-25 五邑大学 酒瓶表面缺陷检测方法、电子装置及存储介质
CN112288097A (zh) * 2020-10-29 2021-01-29 平安科技(深圳)有限公司 联邦学习数据处理方法、装置、计算机设备及存储介质
CN112288097B (zh) * 2020-10-29 2024-04-02 平安科技(深圳)有限公司 联邦学习数据处理方法、装置、计算机设备及存储介质
WO2022172817A1 (ja) * 2021-02-10 2022-08-18 富士フイルム株式会社 学習装置、学習方法、学習済みモデル、及びプログラム
CN113255700A (zh) * 2021-06-10 2021-08-13 展讯通信(上海)有限公司 图像的特征图的处理方法及装置、存储介质、终端
CN113255700B (zh) * 2021-06-10 2021-11-02 展讯通信(上海)有限公司 图像的特征图的处理方法及装置、存储介质、终端

Also Published As

Publication number Publication date
US20210216823A1 (en) 2021-07-15
JP7083037B2 (ja) 2022-06-09
JPWO2020059446A1 (ja) 2021-09-09

Similar Documents

Publication Publication Date Title
WO2020059446A1 (ja) 学習装置及び学習方法
CN110414394B (zh) 一种面部遮挡人脸图像重建方法以及用于人脸遮挡检测的模型
JP6505124B2 (ja) 適応性放射線治療における自動輪郭抽出システム及び方法
JP6236731B1 (ja) 超解像度処理装置、超解像度処理方法およびコンピュータプログラム
JP6192271B2 (ja) 画像処理装置、画像処理方法及びプログラム
CN113728335A (zh) 用于3d图像的分类和可视化的方法和系统
CN112602099A (zh) 基于深度学习的配准
JP7019815B2 (ja) 学習装置
US11594056B2 (en) Learning apparatus, operation program of learning apparatus, and operation method of learning apparatus
US9984311B2 (en) Method and system for image segmentation using a directed graph
JP7171087B2 (ja) グラフ畳み込みネットワークに基づくメッシュ雑音除去方法
CN111105421A (zh) 一种脑白质高信号分割方法、装置、设备及存储介质
JP6049272B2 (ja) メッシュ生成装置、方法およびプログラム
CN110335254B (zh) 眼底图像区域化深度学习方法、装置和设备及存储介质
CN117058554A (zh) 电力设备目标检测方法、模型训练方法和装置
CN111918611B (zh) 胸部x线图像的异常显示控制方法、记录介质及装置
CN111951268A (zh) 颅脑超声图像并行分割方法及装置
CN113343987B (zh) 文本检测处理方法、装置、电子设备及存储介质
CN113158970B (zh) 一种基于快慢双流图卷积神经网络的动作识别方法与系统
JP2004062505A (ja) 画像処理装置
Bardosi et al. Metacarpal bones localization in x-ray imagery using particle filter segmentation
JP7335204B2 (ja) 画像処理装置、画像処理方法及び画像処理プログラム
JP7462188B2 (ja) 医用画像処理装置、医用画像処理方法、およびプログラム
Serra et al. Parameter estimation in spike and slab variational inference for blind image deconvolution
US11721022B2 (en) Apparatus and method for automated analyses of ultrasound images

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19861332

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2020548221

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19861332

Country of ref document: EP

Kind code of ref document: A1