WO2022059315A1 - 画像符号化装置、方法およびプログラム、画像復号化装置、方法およびプログラム、画像処理装置、学習装置、方法およびプログラム、並びに類似画像検索装置、方法およびプログラム - Google Patents

画像符号化装置、方法およびプログラム、画像復号化装置、方法およびプログラム、画像処理装置、学習装置、方法およびプログラム、並びに類似画像検索装置、方法およびプログラム Download PDF

Info

Publication number
WO2022059315A1
WO2022059315A1 PCT/JP2021/026147 JP2021026147W WO2022059315A1 WO 2022059315 A1 WO2022059315 A1 WO 2022059315A1 JP 2021026147 W JP2021026147 W JP 2021026147W WO 2022059315 A1 WO2022059315 A1 WO 2022059315A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
learning
feature amount
region
interest
Prior art date
Application number
PCT/JP2021/026147
Other languages
English (en)
French (fr)
Inventor
和馬 小林
基隆 三宅
隆二 浜本
潤 桝本
Original Assignee
国立研究開発法人国立がん研究センター
富士フイルム株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 国立研究開発法人国立がん研究センター, 富士フイルム株式会社 filed Critical 国立研究開発法人国立がん研究センター
Priority to DE112021004926.7T priority Critical patent/DE112021004926T5/de
Priority to JP2022550372A priority patent/JP7444382B2/ja
Publication of WO2022059315A1 publication Critical patent/WO2022059315A1/ja
Priority to US18/177,733 priority patent/US20230206447A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • G06T7/0014Biomedical image inspection using an image reference approach
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2200/00Indexing scheme for image data processing or generation, in general
    • G06T2200/04Indexing scheme for image data processing or generation, in general involving 3D image data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20021Dividing image into blocks, subimages or windows
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20076Probabilistic image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30016Brain
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/03Recognition of patterns in medical or anatomical images
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images
    • G16H30/40ICT specially adapted for the handling or processing of medical images for processing medical images, e.g. editing

Definitions

  • the present disclosure relates to an image coding device, a method and a program, an image decoding device, a method and a program, an image processing device, a learning device, a method and a program, and a similar image search device, a method and a program.
  • Japanese Patent Application Laid-Open No. 2020-62355 describes the first data relating to the image of the first region, which is the region inside the lesion, and the second region, which is the region around the lesion, from the medical image data for training.
  • the second data related to the image of the above and the third data related to the image of the third region, which is the region outside the lesion, are extracted, and the learning model learned from the extracted data is used for medical use to be extracted.
  • a method for extracting a lesion area from an image has been proposed.
  • the learning model described in Japanese Patent Application Laid-Open No. 2020-62355 the lesion region is extracted from the target medical image by using the feature amount of the lesion region and the feature amount of the region around the lesion.
  • the diagnosis can be made efficiently by referring to the past medical images similar to the cases for the region of interest included in the medical images. Therefore, a method for searching past medical images similar to the target medical image has been proposed (see, for example, Japanese Patent Application Laid-Open No. 2004-05364).
  • the method described in JP-A-2004-05364 first derives the feature amount of the region of interest contained in the medical image to be diagnosed. Then, the similarity is derived based on the difference between the feature amount derived in advance for the medical image stored in the database and the feature amount derived from the target medical image, and the similarity is derived based on the similarity in the past. Search for medical images.
  • the image features of the region of interest such as lesions in medical images are a combination of the pathological changes caused by the disease and the normal anatomical features that originally exist there. Because the normal anatomical features of the human body are common, clinicians deduct the normal anatomical features that would have been behind the area of interest when focusing on the area of interest. The area of interest is evaluated by recalling the image features that purely reflect the anatomy.
  • the method described in Japanese Patent Application Laid-Open No. 2020-62355 only detects the region of interest from the medical image. Further, the method described in Japanese Patent Application Laid-Open No. 2004-05364 only searches for medical images having similar regions of interest in the images. Therefore, even if the methods described in JP-A-2020-062355 and JP-A-2004-05364 are used, it is assumed that the image features of the region of interest included in the medical image and the region of interest are normal regions. Cannot be treated separately from the image features of.
  • the present disclosure has been made in view of the above circumstances, and for a target image including an abnormal region as a region of interest, an image feature regarding the abnormality of the region of interest and an image when the region of interest is assumed to be a normal region.
  • the purpose is to be able to handle the image features of the image separately.
  • the image coding apparatus comprises at least one processor.
  • the processor is By encoding the target image, at least one first feature quantity representing the image feature regarding the abnormality of the region of interest contained in the target image is derived.
  • By encoding the target image it is configured to derive at least one second feature amount representing the image feature of the image when the region of interest in the target image is a normal region.
  • the region of interest may be extracted in the image coding apparatus according to the present disclosure while deriving at least one of the first feature amount and the second feature amount.
  • the region of interest may have already been extracted in the target image. Further, the region of interest may be extracted from the target image by inputting the operator to the displayed target image.
  • the image feature regarding the "abnormality" of the region of interest is included in the actual target image based on the image feature of the image when the region of interest in the target image is assumed to be a normal region. It may be expressed as a difference in image features, which is how much the image features for the region of interest deviate from the standard.
  • the combination of the first feature amount and the second feature amount may represent an image feature of the target image.
  • At least one first feature vector representing a typical image feature regarding the abnormality of the region of interest, and an image when the region of interest is a normal region Equipped with storage to store a second feature vector representing a typical image feature of
  • the processor replaces the feature vector representing the image feature for the anomaly of the region of interest with the first feature vector of the first feature vector that minimizes the difference from the image feature for the anomaly of the region of interest. By doing this, it is quantized to derive the first feature quantity.
  • the feature vector representing the image feature of the image when the region of interest is a normal region is the image feature of the second feature vector of the image when the region of interest is a normal region. It may be configured to derive the second feature quantity by quantifying it by substituting it with the second feature vector that minimizes the difference between the two.
  • the processor uses a coding learning model trained so as to derive a first feature amount and a second feature amount when a target image is input.
  • the first feature amount and the second feature amount may be derived.
  • the image decoder comprises at least one processor.
  • the processor is configured by the image coding apparatus according to the present disclosure to extract a region according to the type of anomaly of the region of interest in the target image based on the first feature quantity derived from the target image.
  • the processor reconstructs the image features of the image when the region of interest in the target image is a normal region based on the second feature quantity. Derived the reconstructed image of It may be configured to derive a second reconstructed image in which the image features of the target image are reconstructed based on the first feature amount and the second feature amount.
  • the processor derives a label image according to the type of abnormality of the region of interest in the target image based on the first feature amount, and uses it as the second feature amount. Based on this, a first reconstructed image is derived by reconstructing the image features of the image when the region of interest in the target image is a normal region, and based on the first feature amount and the second feature amount.
  • a decoding learning model trained to derive a second reconstructed image that reconstructs the image features of the target image, derivation of label images according to the type of anomaly in the region of interest, It may be configured to derive the first reconstructed image and the second reconstructed image.
  • the image processing device includes an image coding device according to the present disclosure and an image decoding device according to the present disclosure.
  • the learning device uses teacher data consisting of a teacher image including a region of interest and a teacher label image according to the type of abnormality of the region of interest in the teacher image, and coding learning in the image coding apparatus according to the present disclosure.
  • a learning label image corresponding to the type of abnormality of the region of interest contained in the teacher image is derived based on the first learning feature amount, and the second learning feature amount is used.
  • a first learning reconstructed image is derived by reconstructing the image features of the image when the region of interest in the teacher image is a normal region, and the first learning feature amount and the second learning feature amount are derived.
  • a second learning reconstructed image obtained by reconstructing the image features of the teacher image is derived.
  • the first loss which is the difference between the first learning feature amount and the predetermined probability distribution of the first feature amount, and the second learning feature amount and the predetermined second feature amount probability distribution.
  • a second loss based on the difference between the teacher image and the teacher image contained in the teacher data as a semantic segmentation, a first loss reconstructed image and the teacher.
  • the coding learning model and the decoding learning model are set so that at least one of the sixth losses based on the difference between the corresponding regions inside and outside the region of interest with the reconstructed image for training satisfies a predetermined condition. Constructed to learn.
  • the "difference as semantic segmentation" with respect to the third loss is a region corresponding to the type of abnormality represented by the teacher label image and a region corresponding to the type of abnormality represented by the learning label image. It is an index determined based on the overlap of.
  • the "outside the region of interest" with respect to the fourth loss means all regions other than the region of interest in the teacher image. If the teacher image contains a background that does not contain any structure, the area including the background is also included outside the area of interest. On the other hand, the area outside the area of interest may include only the area that does not include the background.
  • the "region corresponding to the inside and outside of the region of interest" with respect to the sixth loss is a region corresponding to the region of interest between the first learning reconstructed image and the second reconstructed image for learning, and does not correspond to the region of interest. Means both areas.
  • the region not corresponding to the region of interest means all regions other than the region corresponding to the region of interest of the first learning reconstructed image and the second learning reconstructed image.
  • the region that does not correspond to the region of interest includes the region including the background.
  • the region that does not correspond to the region of interest may include only the region that does not include the background.
  • Similar image retrieval devices include at least one processor and It is equipped with an image coding device according to the present disclosure.
  • the processor is The first feature amount and the second feature amount for the query image are derived by the image coding device, and the first feature amount and the second feature amount are derived.
  • the first feature amount and the second feature amount for each of the plurality of reference images are derived from the query image by referring to the image database registered in association with each of the plurality of reference images.
  • the similarity between the query image and each of the plurality of reference images is derived, and the similarity is derived.
  • a reference image similar to the query image is configured to be extracted from the image database as a similar image.
  • the image coding method derives at least one first feature amount representing an image feature regarding an abnormality of a region of interest contained in the target image by encoding the target image.
  • at least one second feature amount representing the image feature of the image when the region of interest included in the target image is a normal region is derived.
  • the image coding apparatus extracts a region according to the type of abnormality of the region of interest in the target image based on the first feature quantity derived from the target image. ..
  • the learning method uses teacher data consisting of a teacher image including a region of interest and a teacher label image according to the type of abnormality of the region of interest in the teacher image, and coding learning in the image coding apparatus according to the present disclosure. It is a learning method for learning a model and a decoding learning model in the image decoding apparatus according to the present disclosure.
  • the coded learning model uses the coded learning model to extract the first learning feature amount and the second learning feature amount corresponding to the first feature amount and the second feature amount.
  • a learning label image corresponding to the type of abnormality of the region of interest contained in the teacher image is derived based on the first learning feature amount, and the second learning feature amount is used.
  • a first learning reconstructed image is derived by reconstructing the image features of the image when the region of interest in the teacher image is a normal region, and the first learning feature amount and the second learning feature amount are derived.
  • a second learning reconstructed image obtained by reconstructing the image features of the teacher image is derived.
  • the first loss which is the difference between the first learning feature amount and the predetermined probability distribution of the first feature amount, and the second learning feature amount and the predetermined second feature amount probability distribution.
  • a second loss based on the difference between the teacher image and the teacher image contained in the teacher data as a semantic segmentation, a first loss reconstructed image and the teacher.
  • the coding learning model and the decoding learning model are set so that at least one of the sixth losses based on the difference between the corresponding regions inside and outside the region of interest with the reconstructed image for training satisfies a predetermined condition. learn.
  • the first feature amount and the second feature amount for the query image are derived by the image coding apparatus according to the present disclosure.
  • the first feature amount and the second feature amount for each of the plurality of reference images are derived from the query image by referring to the image database registered in association with each of the plurality of reference images.
  • the similarity between the query image and each of the plurality of reference images is derived, and the similarity is derived.
  • a reference image similar to the query image is extracted from the image database as a similar image.
  • the image coding method, the image decoding method, the learning method and the similar image search method according to the present disclosure may be provided as a program for causing the computer to execute.
  • a target image including an abnormal region as a region of interest an image feature regarding an abnormality in the region of interest and an image feature regarding an image when the region of interest is a normal region are separated. Can be handled.
  • FIG. 1 shows the schematic structure of the medical information system to which the image coding apparatus, the image decoding apparatus, the learning apparatus and the similar image search apparatus are applied according to the embodiment of this disclosure.
  • FIG. 1 shows the schematic structure of the image processing system by this embodiment.
  • Functional configuration diagram of the image processing system according to this embodiment Conceptual diagram of processing performed by the image coding apparatus and the image decoding apparatus according to the present embodiment.
  • the figure for demonstrating the substitution to the 1st feature vector Diagram showing an example of teacher data used for learning Diagram showing the search result list The figure which shows the display screen of the search result by the 1st search condition
  • the figure which shows the display screen of the search result by the 2nd search condition The figure which shows the display screen of the search result by the 3rd search condition
  • FIG. 1 is a diagram showing a schematic configuration of a medical information system.
  • a computer 1, an imaging device 2, and an image storage server 3 including an image processing device, a learning device, and a similar image search device according to the present embodiment can communicate with each other via a network 4. It is connected in the state.
  • the computer 1 includes an image processing device, a learning device, and a similar image search device according to the present embodiment, and the image coding program, the image decoding program, the learning program, and the similar image search program of the present embodiment are installed. ing.
  • the computer 1 may be a workstation or a personal computer directly operated by a doctor performing diagnosis, or may be a server computer connected to them via a network.
  • the image encoding program, the image decoding program, the learning program, and the similar image search program are stored in the storage device of the server computer connected to the network or the network storage in a state of being accessible from the outside, and the doctor requests. Is downloaded and installed on the computer 1 used by. Alternatively, it is recorded and distributed on a recording medium such as a DVD (Digital Versatile Disc) or a CD-ROM (Compact Disc Read Only Memory), and is installed on the computer 1 from the recording medium.
  • a recording medium such as a DVD (Digital Versatile Disc) or a CD-ROM (Compact
  • the imaging device 2 is a device that generates a three-dimensional image representing the site by photographing the site to be diagnosed of the subject, and specifically, a CT (Computed Tomography) device and an MRI (Magnetic Resonance Imaging). ) Equipment, PET (Positron Emission Tomography) equipment, etc.
  • a three-dimensional image composed of a plurality of sliced images generated by the photographing device 2 is transmitted to and stored in the image storage server 3.
  • the diagnosis target site of the patient as the subject is the brain
  • the imaging device 2 is the MRI device
  • an MRI image of the head including the brain of the subject is generated as a three-dimensional image.
  • the image storage server 3 is a computer that stores and manages various data, and is equipped with a large-capacity external storage device and database management software.
  • the image storage server 3 communicates with other devices via a wired or wireless network 4 to send and receive image data and the like.
  • various data including image data of a three-dimensional image generated by the photographing device 2 are acquired via a network and stored in a recording medium such as a large-capacity external storage device for management.
  • the storage format of the image data and the communication between the devices via the network 4 are based on a protocol such as DICOM (Digital Imaging and Communication in Medicine).
  • DICOM Digital Imaging and Communication in Medicine
  • the image storage server 3 also stores teacher data, which will be described later.
  • the image database DB is stored in the image storage server 3.
  • the image database DB a plurality of images including various diseases such as cerebral hemorrhage and cerebral infarction are registered as reference images.
  • the image database DB will be described later.
  • the reference image is also a three-dimensional image composed of a plurality of slice images.
  • FIG. 2 describes a hardware configuration of an image processing system including an image coding device, an image decoding device, a learning device, and a similar image retrieval device according to the present embodiment.
  • the image processing system 20 includes a CPU (Central Processing Unit) 11, a non-volatile storage 13, and a memory 16 as a temporary storage area.
  • the image processing system 20 includes a display 14 such as a liquid crystal display, an input device 15 such as a keyboard and a mouse, and a network I / F (InterFace) 17 connected to the network 4.
  • the CPU 11, the storage 13, the display 14, the input device 15, the memory 16, and the network I / F 17 are connected to the bus 18.
  • the CPU 11 is an example of the processor in the present disclosure.
  • the storage 13 is realized by an HDD (Hard Disk Drive), an SSD (Solid State Drive), a flash memory, or the like.
  • the storage 13 as a storage medium stores an image coding program 12A, an image decoding program 12B, a learning program 12C, and a similar image retrieval program 12D.
  • the CPU 11 reads the image coding program 12A, the image decoding program 12B, the learning program 12C, and the similar image search program 12D from the storage 13, expands them into the memory 16, and expands the expanded image coding program 12A and image decoding program 12B. ,
  • the learning program 12C and the similar image search program 12D are executed.
  • FIG. 3 is a diagram showing a functional configuration of an image processing system according to the present embodiment.
  • the image processing system 20 includes an information acquisition unit 21, an image coding device 22, an image decoding device 23, a learning device 24, a similar image search device 25, and a display control unit 26.
  • the image coding device 22 includes a first feature amount derivation unit 22A and a second feature amount derivation unit 22B.
  • the image decoding device 23 includes a segmentation unit 23A, a first reconstruction unit 23B, and a second reconstruction unit 23C.
  • the learning device 24 includes a learning unit 24A.
  • the similar image search device 25 includes a similarity derivation unit 25A and an extraction unit 25B.
  • the image coding device 22 may include an information acquisition unit 21. Further, the similar image search device 25 may include a display control unit 26.
  • the CPU 11 executes the image coding program 12A, the image decoding program 12B, the learning program 12C, and the similar image search program 12D, so that the CPU 11 has the information acquisition unit 21, the first feature quantity derivation unit 22A, and the first. It functions as a feature amount derivation unit 22B, a segmentation unit 23A, a first reconstruction unit 23B, a second reconstruction unit 23C, a learning unit 24A, a similarity derivation unit 25A, an extraction unit 25B, and a display control unit 26.
  • the information acquisition unit 21 acquires a query image to be searched later as a target image from the image storage server 3 according to an instruction from the input device 15 by the operator.
  • the image input to the image coding device 22 is referred to as a target image.
  • the image input to the image coding device 22 when the learning device 24 performs learning is a teacher image.
  • the similar image search device 25 is described, the image input to the image coding device 22 is referred to as a query image.
  • the information acquisition unit 21 may acquire the target image from the storage 13. Further, the information acquisition unit 21 acquires a plurality of teacher data from the image storage server 3 for learning the coding learning model and the decoding learning model described later.
  • the first feature amount derivation unit 22A constituting the image coding device 22 encodes the target image, and at least one first feature representing an image feature regarding the abnormality of the region of interest included in the target image. Derive the quantity.
  • the region of interest is extracted while deriving the first feature amount.
  • the region of interest may be extracted in advance from the target image before deriving the first feature amount.
  • the image coding device 22 may be provided with a function of detecting the region of interest from the target image, and the region of interest may be extracted from the target image before the image coding device 22 derives the first feature amount.
  • the target image stored in the image storage server 3 may have an area of interest already extracted. Further, the target image may be displayed on the display 14, and the region of interest may be extracted from the target image by inputting the operator to the displayed target image.
  • the second feature amount derivation unit 22B constituting the image coding device 22 encodes the target image to obtain image features of the image when the region of interest included in the target image is a normal region. At least one second feature quantity to be represented is derived.
  • the first feature amount deriving unit 22A and the second feature amount deriving unit 22B are learned to derive the first feature amount and the second feature amount when the target image is input. It has an encoder and a latent model (Latent model) as a coding learning model. Further, in the present embodiment, it is assumed that the first feature quantity derivation unit 22A and the second feature quantity derivation unit 22B have a common coding learning model. The encoder as a coding learning model and the latent model will be described later.
  • the target image includes the brain, and the region of interest is a region defined according to the type of brain disease such as cerebral infarction or cerebral hemorrhage.
  • the second feature amount represents the image feature of the image when the region of interest in the target image is a normal region. Therefore, the second feature amount represents the region of interest in the target image, that is, the region where the disease is assumed to be absent, particularly the image feature interpolated by the image features of the normal tissue of the brain. It becomes a thing. Therefore, the second image feature represents the image feature of the image in the state where the brain in the target image is all normal tissue.
  • the combination of the first feature amount and the second feature amount may represent the image feature of the target image, particularly the image feature of the brain including the region determined according to the type of the disease.
  • the first feature amount represents the image feature regarding the abnormality of the region of interest included in the target image, but the difference from the image feature when the region of interest included in the target image is a normal region. It represents an image feature that expresses.
  • the first feature amount since the region of interest is a brain disease, the first feature amount represents an image feature that expresses a difference from the image feature of the image in the state where the brain is all normal tissue in the target image. It becomes a thing.
  • the image feature of the area determined according to the type of disease and the image feature of the image in the state where the brain is all normal tissue Can be obtained separately.
  • the segmentation unit 23A of the image decoding device 23 creates a region of interest label image according to the type of abnormality of the region of interest in the target image based on the first feature quantity derived by the first feature quantity derivation unit 22A. Derived.
  • the region of interest in the target image is a normal region.
  • a first reconstructed image in which the image features of the image are reconstructed is derived.
  • the second reconstruction unit 23C of the image decoding device 23 is based on the first feature amount derived by the first feature amount derivation unit 22A and the second feature amount derived by the second feature amount derivation unit 22B. Therefore, a second reconstructed image in which the image features of the target image are reconstructed is derived.
  • the image feature of the reconstructed target image is an image feature including a background other than the brain included in the target image.
  • the segmentation unit 23A, the first reconstruction unit 23B, and the second reconstruction unit 23C are of the type regarding the abnormality of the region of interest when the first feature amount and the second feature amount are input. It has a decoder as a decoding learning model, which is trained to derive a region of interest label image according to the above and to derive a first reconstructed image and a second reconstructed image.
  • FIG. 4 is a conceptual diagram of the processing performed by the image coding device and the image decoding device in the present embodiment.
  • the image coding device 22 has an encoder 31 which is a coding learning model and a latent model 31A.
  • the encoder 31 and the latent model 31A have functions as a first feature amount derivation unit 22A and a second feature amount derivation unit 22B according to the present embodiment.
  • the image decoding device 23 has decoders 32A to 32C which are decoding learning models.
  • the decoders 32A to 32C have functions as a segmentation unit 23A, a first reconstruction unit 23B, and a second reconstruction unit 23C, respectively.
  • the encoder 31 and the latent model 31A as the coding learning model, and the decoders 32A to 32C as the decoding learning model are determined according to the type of brain disease in the teacher image and the teacher image with the brain including the region of interest as the subject. It is constructed by performing machine learning using a combination of teacher label images according to the designated area as teacher data.
  • the encoder 31 and the decoders 32A to 32C are, for example, composed of a convolutional neural network (CNN), which is one of a multi-layer neural network in which a plurality of processing layers are hierarchically connected.
  • the latent model 31A is learned by using the method of VQ-VAE (Vector Quantised-Variational AutoEncoder).
  • VQ-VAE is a method proposed in "Neural Discrete Representation Learning, Aaron van den Oord et al., Advances in Neural Information Processing Systems 30 (NIPS), 6306-6315, 2017", and is a feature extractor (that is, an encoder). It receives a latent variable that represents the characteristics of the input data encoded by, quantizes the received latent variable, passes the quantized latent variable to a feature decoder (ie, a decoder), and the original input data is correctly reconstructed. It is a method to learn the process of quantization of latent variables depending on whether or not it is. Learning will be described later.
  • the latent model 31A uses an arbitrary method such as a self-encoder (AutoEncoder), VAE (VariationalAutoEncoder), GAN (GenerativeAdversarialNetworks), and BiGAN (BidirectionalGAN) method instead of VQ-VAE. It is possible to learn.
  • AutoEncoder AutoEncoder
  • VAE Vehicle AutoEncoder
  • GAN GenerativeAdversarialNetworks
  • BiGAN BidirectionalGAN
  • the convolutional neural network constituting the encoder 31 is composed of a plurality of processing layers.
  • Each processing layer is a convolution processing layer, and while downsampling the image input from the processing layer in the previous stage, convolution processing using various kernels is performed.
  • the kernel has a predetermined pixel size (eg, 3x3), and each element is weighted. Specifically, a weight like a differential filter that emphasizes the edge of the input image in the previous stage is set.
  • Each processing layer applies the kernel to the entire input image or the feature amount output from the processing layer in the previous stage while shifting the attention pixel of the kernel, and outputs it as a feature map. Further, in the processing layer of the encoder 31, the resolution of the feature map becomes smaller in the later stage.
  • the encoder 31 encodes the feature of the input target image G0 by compressing (that is, dimensionally compressing) the feature map so that the resolution becomes smaller, and the encoder 31 encodes the two latent variables, that is, the first latent variable.
  • the first latent variable z1 represents an image feature regarding the abnormality of the region of interest in the target image G0
  • the second latent variable z2 is an image when the region of interest in the target image G0 is a normal region. Represents the image features of.
  • the first and second latent variables z1 and z2 each consist of n ⁇ n D-dimensional vectors.
  • n 4
  • the first and second latent variables z1 and z2 can be represented as an n ⁇ n map in which each position consists of a D-dimensional vector.
  • the number of dimensions of the vector and the number of vectors may be different between the first latent variable z1 and the second latent variable z2.
  • the first latent variable z1 corresponds to a feature vector representing an image feature with respect to the anomaly of the region of interest.
  • the second latent variable z2 corresponds to a feature vector representing an image feature of the image when the region of interest included in the target image G0 is a normal region.
  • K first D-dimensional feature vectors representing anomalies in the region of interest with respect to the first latent variable z1. e1k is prepared in advance. Further, in the latent model 31A, for the second latent variable z2, K second D-dimensional feature vectors representing typical image features of the image when the region of interest is a normal region. e2k is prepared in advance. The first feature vector e1k and the second feature vector e2k are stored in the storage 13. Further, the number of the first feature vector e1k to be prepared and the number of the second feature vector e2k may be different from each other.
  • the image coding device 22 replaces each of the n ⁇ n D-dimensional vectors included in the first latent variable z1 with the first feature vector e1k in the latent model 31A. At this time, the n ⁇ n D-dimensional vectors included in the first latent variable z1 are each replaced with the first feature vector e1k having the minimum difference in the D-dimensional vector space.
  • FIG. 5 is a diagram for explaining the substitution with the first feature vector. In FIG. 5, the vector of the latent variable is shown in two dimensions for ease of explanation. Further, in FIG. 5, it is assumed that four first feature vectors e11 to e14 are prepared. As shown in FIG.
  • the vector z1-1 of one latent variable included in the first latent variable z1 has the minimum difference from the first feature vector e12 in the vector space. Therefore, the vector z1-1 is replaced with the first feature vector e12. Further, with respect to the first latent variable z2, as with the first latent variable z1, each of n ⁇ n D-dimensional vectors is replaced by any of the second feature vectors e2k.
  • the first latent variable z1 has n ⁇ n. It is represented by a combination of up to K latent variables with predetermined values. Therefore, the first latent variable zd1 is quantized and distributed in the D-dimensional latent space.
  • the second latent variable z2 is predetermined by n ⁇ n. It is represented by a combination of up to K latent variables with the given values. Therefore, the second latent variable zd2 is quantized and distributed in the D-dimensional latent space.
  • Reference codes zd1 and zd2 are used as the quantized first and second latent variables.
  • the quantized first and second latent variables zd1 and zd2 can also be represented as an n ⁇ n map in which each position is a D-dimensional vector.
  • the quantized first and second latent variables zd1 and zd2 correspond to the first feature amount and the second feature amount, respectively.
  • the convolutional neural network constituting the decoders 32A to 32C is composed of a plurality of processing layers.
  • Each processing layer is a convolution processing layer, and when the first and second latent variables zd1 and zd2 are input as the first and second feature amounts, the feature amount input from the previous processing layer is upsampled.
  • convolution processing is performed using various kernels.
  • Each processing layer applies the kernel to the entire feature map consisting of the features output from the processing layer in the previous stage while shifting the attention pixel of the kernel. Further, in the processing layers of the decoders 32A to 32C, the resolution of the feature map becomes larger in the later stages.
  • the decoders 32A to 32C do not perform processing. However, here, since it is necessary for the learning process described later, the decoders 32A to 32C use the first and second latent variables zd1 and zd2 derived from the target image G0 by the image coding device 22. The processing to be performed will be described.
  • the first latent variable zd1 is input to the decoder 32A.
  • the decoder 32A derives the region of interest label image V0 according to the type of abnormality of the region of interest of the target image G0 input to the encoder 31 based on the first latent variable zd1.
  • the second latent variable zd2 is input to the decoder 32B.
  • the decoder 32B reconstructs the image features of the image when the region of interest included in the target image G0 input to the encoder 31 is a normal region based on the second latent variable zd2.
  • the reconstructed image V1 is derived. Therefore, even if the target image G0 contains the region of interest, the first reconstructed image V1 does not include the region of interest, and as a result, the brain contained in the first reconstructed image V1 is only from normal tissue. Will be.
  • the second latent variable zd2 is input to the decoder 32C.
  • a region of interest label image V0 having a size corresponding to the resolution of each processing layer is input to each processing layer of the decoder 32C as a side-by-side.
  • a feature map of the region of interest label image V0 having a size corresponding to the resolution of each processing layer is input side-by-side.
  • the feature map that is input side-by-side is such that the feature map output from the processing layer immediately before deriving the region of interest label image V0 in the decoder 32A is sized according to the resolution of each processing layer of the decoder 32C. It may be derived by reducing the size so as to become.
  • a feature map having a size corresponding to the resolution of each processing layer derived in the process of deriving the region of interest label image V0 by the decoder 32A may be input to each processing layer of the decoder 32C.
  • the feature map output from the processing layer immediately before deriving the region of interest label image V0 is reduced to a size corresponding to the resolution of each processing layer of the decoder 32C, thereby reducing the size of the decoder 32C. It shall be input to each processing layer as a side subordinate.
  • the region of interest label image V0 and the feature map are derived based on the first latent variable zd1. Therefore, the decoder 32C derives the second reconstructed image V2 in which the input image features of the target image G0 are reconstructed based on the first and second latent variables zd1 and zd2. As a result, the second reconstructed image V2 is based on the second latent variable zd2, and has a first latent variable with respect to an image feature of the brain containing only normal tissues contained in the first reconstructed image V1. Based on zd1, the image feature about the abnormality of the region determined according to the type of the disease is added. Therefore, the second reconstructed image V2 is a reconstructed image feature of the input target image G0.
  • FIG. 6 is a diagram showing an example of teacher data used for learning.
  • the teacher data 35 has a teacher image 36 of the brain including the region of interest 37 such as infarction or bleeding, and a teacher label image 38 according to the type of abnormality of the region of interest in the teacher image 36. ..
  • the learning unit 24A inputs the teacher image 36 to the encoder 31 and outputs the first latent variable z1 and the second latent variable z2 for the teacher image 36.
  • z1 and z2 are also used as reference codes for the first latent variable and the second latent variable for the teacher image 36.
  • the learning unit 24A is quantized by substituting the vectors of the latent variables contained in the first latent variable z1 and the second latent variable z2 with the first and second feature vectors in the latent model 31A, respectively.
  • the first latent variable zd1 and the second latent variable zd2 are acquired.
  • zd1 and zd2 are also used as reference codes for the quantized first latent variable and the second latent variable for the teacher image 36.
  • the quantized first latent variable zd1 and the second latent variable zd2 correspond to the first learning feature amount and the second learning feature amount, respectively.
  • the learning unit 24A inputs the first latent variable zd1 to the decoder 32A to derive the learning interest region label image VT0 according to the type of the abnormality of the interest region 37 included in the teacher image 36. Further, the learning unit 24A inputs the second latent variable zd2 to the decoder 32B to reconstruct the image features of the image when the region of interest 37 included in the teacher image 36 is a normal region. The reconstructed image VT1 for learning of 1 is derived.
  • the learning unit 24A inputs the second latent variable zd2 to the decoder 32C, and in each processing layer of the decoder 32C, a learning area label image VT0 having a size corresponding to the resolution of each processing layer, specifically, a learning area label image VT0.
  • a feature map of the learning area label image VT0 is input side-by-side to derive a second learning reconstructed image VT2 in which the image features of the teacher image 36 are reconstructed.
  • the feature map output from the processing layer immediately before deriving the learning interest area label image VT0 is sized according to the resolution of each processing layer of the decoder 32C. By reducing the size so as to be, it may be input to each processing layer of the decoder 32C as a side-subordinate.
  • the learning unit 24A derives the difference between the first latent variable zd1 which is the first learning feature amount and the predetermined probability distribution of the first feature amount as the first loss L1.
  • the predetermined probability distribution of the first feature amount is the probability distribution that the first latent variable zd1 should follow.
  • the codeword loss and the commitment loss are derived as the first loss L1.
  • the codeword loss is a value that should be taken by a codeword, which is a typical local feature in the probability distribution of the first feature quantity.
  • the commitment loss is the distance between the first latent variable zd1 and the codeword closest to the first latent variable zd1.
  • the encoder 31 and the latent model 31A are trained so that the first loss L1 acquires the first latent variable zd1 according to a predetermined probability distribution of the first feature amount.
  • the learning unit 24A derives the difference between the second latent variable zd2, which is the second learning feature amount, and the probability distribution of the second predetermined feature amount as the second loss L2.
  • the predetermined probability distribution of the second feature amount is the probability distribution that the second latent variable zd2 should follow.
  • the codeword loss and the commitment loss are derived as the second loss L2, similar to the first loss L1.
  • the codeword loss with respect to the second latent variable zd2 is a value to be taken by a codeword which is a typical local feature in the probability distribution of the second feature quantity.
  • the commitment loss for the second latent variable zd2 is the distance between the second latent variable zd2 and the codeword closest to the second latent variable zd2.
  • the encoder 31 and the latent model 31A are trained so that the second latent variable zd2 according to the predetermined probability distribution of the second feature amount is acquired by the second loss L2.
  • the learning unit 24A makes a difference as a semantic segmentation between the teacher label image 38 according to the type of abnormality of the interest region 37 included in the teacher image 36 and the teacher image for learning interest region label image VT0. It is derived as the loss L3 of 3.
  • the "difference as semantic segmentation" is the overlap between the region corresponding to the type of abnormality represented by the teacher label image 38 and the region corresponding to the type of abnormality represented by the learning interest region label image VT0. It is an index determined based on. Specifically, the value of the number of elements common to the teacher label image 38 and the learning area label image VT0 x 2 with respect to the sum of the number of elements of the teacher label image 38 and the number of elements of the learning area label image VT0. Can be used as the difference as semantic segmentation, i.e. the third loss L3.
  • the learning unit 24A derives the difference between the region outside the region of interest 37 included in the teacher image 36 and the first learning reconstructed image VT1 as the fourth loss L4. Specifically, the learning unit 24A derives the difference between the region in which the region of interest 37 is removed from the teacher image 36 and the first learning reconstructed image VT1 as the fourth loss L4.
  • the learning unit 24A derives the difference between the teacher image 36 and the second learning reconstructed image VT2 as the fifth loss L5.
  • the learning unit 24A derives a sixth loss L6 based on the difference between the corresponding regions inside and outside the region of interest between the first learning reconstructed image VT1 and the second learning reconstructed image VT2. ..
  • the first learning reconstructed image VT1 is an image when the region of interest 37 in the teacher image 36 is a normal region, and is derived so as not to include the region of interest.
  • the second learning reconstructed image VT2 is derived so as to include the region of interest. Therefore, when the difference value for the corresponding pixel between the first learning reconstructed image VT1 and the second learning reconstructed image VT2 is derived, the difference value exists only in the region corresponding to the region of interest, and the difference value is of interest. There should be no difference value in the area that does not correspond to the area.
  • the difference value may not exist in the region corresponding to the region of interest because the accuracy of coding and decoding is low.
  • the sixth loss L6 based on the difference between the first learning reconstructed image VT1 and the second learning reconstructed image VT2 between the corresponding regions inside and outside the region of interest is the first learning reconstructed image VT1.
  • the difference value for the corresponding pixel of the image VT1 and the second learning reconstructed image VT2 is derived, the difference value exists in the region corresponding to the region of interest and the difference value is present in the region not corresponding to the region of interest. Is an indicator that does not exist.
  • the latent model 31A makes it possible to obtain a more preferable quantized first latent variable zd1.
  • the latent model 31A makes it possible to obtain a more preferable quantized second latent variable zd2.
  • the learning interest region label image VT0 output from the decoder 32A is derived based on the first latent variable zd1, it does not completely match the teacher label image 38. Further, the area of interest label image VT0 for learning does not completely match the area of interest 37 included in the teacher image 36. However, the smaller the difference in semantic segmentation between the learning interest region label image VT0 and the teacher label image 38 with respect to the teacher image 36, the more preferable first latent variable from the encoder 31 when the target image G0 is input. It is possible to output z1. That is, it is possible to output the first latent variable z1 that potentially includes information indicating where the region of interest is in the target image G0 and image features regarding the abnormality of the region of interest.
  • the latent model 31A makes it possible to obtain a more preferable quantized first latent variable zd1. Therefore, while the encoder 31 extracts the region of interest from the target image G0, the first latent variable zd1 representing the image feature regarding the abnormality of the region of interest is derived. Further, the decoder 32A can output the region of interest label image V0 according to the type of abnormality of the region of interest with respect to the region corresponding to the region of interest included in the target image.
  • the first learning reconstructed image VT1 output from the decoder 32B is derived based on the second latent variable zd2, it is assumed that the region of interest 37 included in the teacher image 36 is a normal region. It does not exactly match the image features for the image in the case. However, the smaller the difference between the first learning reconstructed image VT1 and the region of the teacher image 36 that is not the region of interest 37, the more preferable the second latent variable z2 from the encoder 31 when the target image G0 is input. Can be output.
  • the latent model 31A makes it possible to obtain a more preferable quantized second latent variable zd2.
  • the decoder 32B can output the first reconstructed image V1 that is closer to the image of the image when the region of interest included in the target image G0 is a normal region.
  • the second learning reconstructed image VT2 output from the decoder 32C is derived based on the first latent variable zd1 and the second latent variable zd2, and therefore does not completely match the teacher image 36. ..
  • the smaller the difference between the second learning reconstructed image VT2 and the teacher image 36 the more preferable the first latent variable z1 and the second latent variable from the encoder 31 when the target image G0 is input. It is possible to output z2.
  • the latent model 31A makes it possible to obtain a more preferable quantized first latent variable zd1 and a quantized second latent variable zd2.
  • the decoder 32C can output a second reconstructed image V2 that is closer to the target image G0.
  • the difference value between the first reconstructed image for learning VT1 and the second reconstructed image for learning VT2 is guaranteed to be a certain value or more, and the region does not correspond to the region of interest.
  • the smaller the absolute value of the difference between the first learning reconstructed image VT1 and the second learning reconstructed image VT2 the more preferable the first from the encoder 31 when the target image G0 is input.
  • the latent model 31A makes it possible to obtain a more preferable quantized first latent variable zd1 and a quantized second latent variable zd2.
  • the decoder 32B can output the first reconstructed image V1 that is closer to the image when the region of interest included in the target image G0 is a normal region.
  • the decoder 32C can output a second reconstructed image V2 that is closer to the target image G0.
  • the learning unit 24A learns the encoder 31, the latent model 31A, and the decoders 32A to 32C based on at least one of the first to sixth losses L1 to L6 derived as described above.
  • the learning unit 24A learns the encoder 31, the latent model 31A, and the decoders 32A to 32C so that all of the losses L1 to L6 satisfy predetermined conditions. That is, the number of processing layers and the number of pooling layers constituting the encoder 31 and the decoders 32A to 32C so that the first to fifth losses L1 to L5 become smaller and the sixth loss L6 becomes an appropriate value.
  • the encoder 31 and the decoders 32A to 32C are learned by deriving the kernel coefficient in the processing layer, the kernel size, the weight of the coupling between the layers, and the like. Further, the learning unit 24A has the first feature vector e1k and the second feature vector e1k so that the first to fifth losses L1 to L5 become smaller and the sixth loss L6 becomes an appropriate value for the latent model 31A. The feature vector e2k of is updated.
  • the first loss L1 is equal to or less than the predetermined threshold value Th1
  • the second loss L2 is equal to or less than the predetermined threshold value Th2.
  • the loss L3 is equal to or less than the predetermined threshold Th3
  • the fourth loss L4 is equal to or less than the predetermined threshold Th4
  • the fifth loss L5 is equal to or less than the predetermined threshold Th5.
  • Encoder 31, latent model 31A and decoders 32A-32C are learned.
  • the absolute value of the difference between the first learning reconstructed image VT1 and the second learning reconstructed image VT2 is predetermined in the region corresponding to the region of interest for the sixth loss L6.
  • the difference value between the first learning reconstructed image VT1 and the second learning reconstructed image VT2 is equal to or less than the predetermined threshold Th7.
  • the encoder 31, the latent model 31A, and the decoders 32A to 32C are learned so as to be. Instead of learning using the threshold value, learning may be performed a predetermined number of times, or learning may be performed so that each loss L1 to L6 becomes the minimum or the maximum.
  • the learning unit 24A learns the encoder 31, the latent model 31A, and the decoders 32A to 32C, so that the encoder 31 can obtain the image feature of the abnormality of the region of interest of the brain included in the input target image G0.
  • the first latent variable z1 that is appropriately represented is output.
  • the encoder 31 outputs a second latent variable z2 that more appropriately represents the image characteristics of the brain when the region of interest is a normal region in the brain included in the input target image G0.
  • the latent model 31A will acquire the first quantized latent variable zd1 that more appropriately represents the image feature representing the abnormality of the region of interest of the brain included in the input target image G0.
  • the latent model 31A is a quantized second latent variable zd2 that more appropriately represents the image characteristics of the brain when the region of interest is a normal region in the brain included in the input target image G0. Will be acquired.
  • the region of interest label image V0 more accurately represents the semantic segmentation according to the type of abnormality of the region of interest included in the target image G0. Will be output.
  • the decoder 32B reconstructs the image feature of the brain in the target image G0 when the region of interest is a normal region when the quantized second latent variable zd2 is input. The reconstructed image V1 is output.
  • the decoder 32C is based on the second latent variable zd2 when the quantized second latent variable zd2 is input and the region of interest label image V0 is input side-by-side to each processing layer.
  • the image feature of the brain consisting only of normal tissue contained in the reconstructed image V1
  • the image feature of the region determined according to the type of disease based on the first latent variable zd1 is It is added, and as a result, a second reconstructed image V2 in which the image features of the brain including the region of interest are reconstructed is output.
  • the similarity derivation unit 25A of the similar image search device 25 is similar to the query image (that is, the target image G0) to be diagnosed among the reference images registered in the image database DB stored in the image storage server 3.
  • the similarity between the query image and all the reference images registered in the image database DB is derived.
  • the same reference code G0 as the target image will be used as the query image.
  • a plurality of reference images for various cases of the brain are registered in the image database DB.
  • the quantized first and second latent variables are derived in advance by the image coding device 22 including the trained encoder 31, and the reference image is associated with the image. It is registered in the database DB.
  • the first and second latent variables associated with the reference image and registered in the image database DB are referred to as first and second reference latent variables.
  • the derivation of the similarity in the similarity derivation unit 25A will be described.
  • the query image G0 includes a region of interest which is a brain disease.
  • the similarity derivation unit 25A derives the similarity between the query image G0 and the reference image based on the search condition.
  • the image coding device 22 derives a first latent variable representing an image feature regarding the abnormality of the region of interest included in the query image G0. Further, the image coding device 22 derives a second latent variable representing an image feature of the image when the region of interest in the query image G0 is a normal region. Therefore, in the present embodiment, as the search condition, only the first search condition for searching the reference image similar to the query image G0 including the region of interest, and the abnormality of the region of interest included in the query image G0 are similar. The second search condition for searching the reference image and the third search condition for searching the reference image similar to the image when the region of interest included in the query image G0 is a normal region can be selected. There is. The selection can be input to the image processing system 20 using the input device 15. Then, the similarity derivation unit 25A derives the similarity between the query image G0 and the reference image according to the input search condition.
  • the similarity deriving unit 25A determines the difference between the first latent variable zd1 derived for the query image G0 and the first reference latent variable corresponding to the reference image, and the query image. The similarity is derived based on the difference between the second latent variable zd2 derived for G0 and the second reference latent variable corresponding to the reference image.
  • the similarity derivation unit 25A has a corresponding position in the map of the first latent variable zd1 and the first reference latent variable in the vector space of the latent variable, as shown in the following equation (1).
  • Euclidean distance ⁇ ⁇ (Vt1 (i, j) -Vr1 (i, j) ⁇ 2 of the vector of ) ⁇ 2 ] is derived.
  • the similarity derivation unit 25A derives the Euclidean distance ⁇ ⁇ (Vt2 (i, j) of the vector of the corresponding position in the map of the second latent variable zd2 and the second reference latent variable.
  • Part 25A derives the sum of the two sums as the degree of similarity.
  • S1 is the similarity based on the first search condition
  • Vt1 (i, j) is the vector at the position (i, j) of the map in the first latent variable zd1
  • Vr1 (i, j) Is a vector at the map position (i, j) in the first reference latent variable
  • Vt2 (i, j) is a vector at the map position (i, j) in the second latent variable zd2
  • Vr2 (i, j) represents a vector at the position (i, j) of the map in the second reference latent variable, respectively.
  • the similarity S1 may be derived by the following formula (1a).
  • concat (a, b) is an operation for connecting the vector a and the vector b.
  • S1 ⁇ [ ⁇ ⁇ (Vt12 (i, j) -Vr12 (i, j) ⁇ 2 ] (1a)
  • Vt12 (i, j) concat (Vt1 (i, j), Vt2 (i, j))
  • Vr12 (i, j) concat (Vr2 (i, j), Vr2 (i, j))
  • the similarity deriving unit 25A is based on the difference between the first latent variable zd1 derived for the query image G0 and the first reference latent variable corresponding to the reference image. To derive the similarity. Specifically, the similarity derivation unit 25A has a corresponding position in the map of the first latent variable zd1 and the first reference latent variable in the vector space of the latent variable, as shown in the following equation (2). Euclidean distance ⁇ ⁇ (Vt1 (i, j) -Vr1 (i, j) ⁇ 2 of the vector of ) ⁇ 2 ] is calculated as the similarity S2.
  • the similarity deriving unit 25A is based on the difference between the second latent variable zd2 derived for the query image G0 and the second reference latent variable corresponding to the reference image. To derive the similarity. Specifically, the similarity derivation unit 25A has a corresponding position in the map of the second latent variable zd2 and the second reference latent variable in the vector space of the latent variable, as shown in the following equation (3). Euclidean distance ⁇ ⁇ (Vt2 (i, j) -Vr2 (i, j) ⁇ 2 of the vector of ) ⁇ 2 ] is calculated as the similarity S3.
  • the derivation of the similarity degrees S1 to S3 is not limited to the above method. Instead of Euclidean distance, Manhattan distance, vector dot product, cosine similarity, etc. may be used.
  • the extraction unit 25B of the similar image search device 25 extracts a reference similar image similar to the query image G0 from the image database DB based on the similarity degrees S1 to S3 according to the input search conditions.
  • the extraction unit 25B extracts a reference image similar to the target image G0 as a similar reference image based on the similarity S1 to S3 between the query image G0 and all the reference images registered in the image database DB.
  • the extraction unit 25B sorts the reference images in descending order of similarity S1 to S3 to create a search result list.
  • FIG. 7 is a diagram showing a search result list. As shown in FIG. 7, in the search result list 50, the reference images registered in the image database DB are sorted in descending order of similarity S1 to S3. Then, the extraction unit 25B extracts a predetermined number of reference images having a higher sort order in the search result list 50 from the image database DB as similar reference images.
  • the display control unit 26 displays the extraction result by the extraction unit 25B on the display 14.
  • 8 to 10 are diagrams showing display screens of extraction results based on the first to third search conditions, respectively.
  • the detection result display screen 40 includes a first area 41 for displaying the query image G0 and a second display area 42 for displaying the search result.
  • the display screen 40 includes a pull-down menu 43 for selecting a search condition and a search execution button 44 for executing a search.
  • "interest area + normal area” representing the first search condition, "only the area of interest” representing the second search condition, and "only the normal area” representing the third search condition are selected. It is possible.
  • the process of the present embodiment is executed and the search result display screen 40 is displayed on the display 14. .. It was
  • the second display area 42 of the search result display screen 40 based on the first search condition includes four areas similar to the query image G0, including the area of interest included in the query image G0. Similar reference images R11 to R14 are displayed. Further, as shown in FIG. 9, in the second display area 42 of the display screen based on the second search condition, four similar reference images R21 to which only the abnormality of the region of interest included in the query image G0 is similar. R24 is displayed. Further, as shown in FIG. 10, it is assumed that the region of interest in the brain included in the query image G0 is a normal region in the second display region 42 of the search result display screen 40 based on the third search condition. Four similar reference images R31 to R34 with similar images of the case are displayed.
  • FIG. 11 is a flowchart showing the learning process performed in the present embodiment. It is assumed that the plurality of teacher data are acquired from the image storage server 3 and stored in the storage 13. First, the learning unit 24A of the learning device 24 acquires one teacher data 35 including the teacher image 36 and the teacher label image 38 from the storage 13 (step ST1), and the teacher image 36 included in the teacher data 35 is image coded. Input to the encoder 31 of the computer 22. The encoder 31 derives the first latent variable z1 and the second latent variable z2 as the first learning feature amount and the second learning feature amount, respectively (learning feature amount derivation; step ST2).
  • the learning unit 24A derives the quantized first latent variable zd1 and the quantized second latent variable zd2 from the first latent variable z1 and the second latent variable z2 (quantization; Step ST3). Then, the learning unit 24A inputs the quantized first latent variable zd1 to the decoder 32A of the image decoding device 23. As a result, the decoder 32A derives the learning area label image VT0 according to the type of the abnormality of the area of interest 37 from the teacher image 36. Further, the learning unit 24A inputs the quantized second latent variable zd2 to the decoder 32B of the image decoding device 23.
  • the decoder 32B derives the first learning reconstructed image VT1 that reconstructs the image when the region of interest included in the teacher image 36 is a normal region. Further, the learning unit 24A inputs the second latent variable zd2 to the decoder 32C, and further causes the learning area label image VT0 having a size corresponding to the resolution of each processing layer of the decoder 32C to each processing layer of the decoder 32C. Enter as a secondary input. As a result, the decoder 32C derives the second learning reconstructed image VT2 in which the image features of the teacher image 36 are reconstructed (learning image derivation; step ST4).
  • the learning unit 24A derives the first to sixth losses L1 to L6 as described above (step ST5).
  • the learning unit 24A determines whether or not the first to sixth losses L1 to L6 satisfy the predetermined conditions (condition determination; step ST6).
  • condition determination condition determination; step ST6
  • the learning unit 24A acquires new teacher data from the storage 13 (step ST7), returns to the process of step ST2, and repeats the processes of steps ST2 to ST6 using the new teacher data. ..
  • step ST6 is affirmed, the learning unit 24A ends the learning process.
  • the encoder 31 of the image coding device 22 and the decoders 32A to 32C of the image decoding device 23 are constructed.
  • FIG. 12 is a flowchart of the similar image search process performed in the present embodiment.
  • the information acquisition unit 21 acquires the query image G0 to be searched (step ST11), and the display control unit 26 displays the query image G0 on the display 14 (step ST12).
  • the image encoding device 22 determines the quantum of the query image G0.
  • the first latent variable zd1 and the quantized second latent variable zd2 are derived as the first feature amount and the second feature amount (feature amount derivation; step ST14).
  • the similarity deriving unit 25A derives the similarity between the target image G0 and the reference image registered in the image database DB of the image storage server 3 based on the first and second feature quantities (step ST15). ..
  • the extraction unit 25B extracts a predetermined number of reference images having a higher similarity degree as similar reference images according to the search conditions (step ST16). Further, the display control unit 26 displays the similar reference image in the second display area 42 of the display screen 40 (search result display; step ST17), and ends the process.
  • the encoder 31 of the image coding apparatus 22 encodes the target image G0 to represent at least one image feature regarding the abnormality of the region of interest included in the target image G0.
  • the first feature quantity is derived.
  • the image feature regarding the abnormality of the region of interest included in the target image G0 and the image feature regarding the image when the region of interest is a normal region can be obtained. It is possible to handle them separately.
  • the image feature of the region determined according to the type of the disease included in the region of interest included in the target image G0 is used as a difference from the image feature of the image when the region of interest is a normal region.
  • search for a reference image similar to the target image G0 by using only the first feature amount representing the image feature regarding the abnormality of the region of interest included in the target image G0.
  • a reference image similar to the target image G0 is searched by using only the second feature amount representing the image feature of the image when the region of interest included in the target image G0 is a normal region. Can be done.
  • the trained decoder 32A of the image decoding device 23 depending on the type of the abnormality of the region of interest included in the input target image G0 from the first feature amount.
  • the region of interest label image V0 can be derived.
  • a region defined according to the type of disease included in the target image G0 can be acquired as a label image.
  • the region of interest included in the input target image G0 is tentatively a normal region from the second feature amount. It is possible to derive a first reconstructed image V1 in which the image features of the image of the case are reconstructed. As a result, it is possible to acquire an image consisting only of normal tissue in which the region of interest is removed from the input image.
  • the trained decoder 32C of the image decoding device 23 it is possible to derive a second reconstructed image V2 in which the image features of the target image G0 are reconstructed. Thereby, the target image G0 can be reproduced.
  • the first feature amount becomes an invalid value.
  • the second feature amount or the combination of the first feature amount and the second feature amount, may represent an image feature of the target image.
  • the image of the brain is used as the target image, but the target image is not limited to the brain.
  • an image including any part of the human body such as lungs, heart, liver, kidneys, and limbs can be used as a target image.
  • the encoder 31 and the decoders 32A to 32C may be learned using the teacher image and the teacher label image including the disease such as a tumor, infarction, cancer, and bone fracture appearing at the site as a region of interest.
  • the first feature amount representing the image feature regarding the abnormality of the region of interest according to the portion included in the target image G0, and the region in which the region of interest included in the target image G0 is normal. If this is the case, it is possible to derive a second feature amount representing the image feature of the image.
  • a separate coding learning model is used for each of the first feature quantity deriving unit 22A and the second feature quantity deriving unit 22B, and the first coding learning model is used.
  • the feature amount and the second feature amount may be derived respectively.
  • the hardware structure of the processing unit (Processing Unit) that executes various processes such as 23C, learning unit 24A, similarity derivation unit 25A, extraction unit 25B, and display control unit 26 includes various processors (Processors) shown below. ) Can be used.
  • processors processors
  • various processors in addition to the CPU, which is a general-purpose processor that executes software (program) and functions as various processing units, circuits after manufacturing FPGA (Field Programmable Gate Array) and the like are used.
  • Dedicated electricity which is a processor with a circuit configuration specially designed to execute specific processing such as programmable logic device (PLD), ASIC (Application Specific Integrated Circuit), which is a processor whose configuration can be changed. Circuits etc. are included.
  • One processing unit may be composed of one of these various processors, or a combination of two or more processors of the same type or different types (for example, a combination of a plurality of FPGAs or a combination of a CPU and an FPGA). ) May be configured. Further, a plurality of processing units may be configured by one processor.
  • one processor is configured by a combination of one or more CPUs and software. There is a form in which this processor functions as a plurality of processing units.
  • SoC System On Chip
  • the various processing units are configured by using one or more of the above-mentioned various processors as a hardware-like structure.
  • circuitry in which circuit elements such as semiconductor elements are combined can be used.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)

Abstract

プロセッサは、対象画像を符号化することにより、対象画像に含まれる関心領域の異常さについての画像特徴を表す少なくとも1つの第1の特徴量を導出する。また、プロセッサは、対象画像を符号化することにより、対象画像に含まれる関心領域が正常な領域であったとした場合の画像についての画像特徴を表す少なくとも1つの第2の特徴量を導出する。

Description

画像符号化装置、方法およびプログラム、画像復号化装置、方法およびプログラム、画像処理装置、学習装置、方法およびプログラム、並びに類似画像検索装置、方法およびプログラム
 本開示は、画像符号化装置、方法およびプログラム、画像復号化装置、方法およびプログラム、画像処理装置、学習装置、方法およびプログラム、並びに類似画像検索装置、方法およびプログラムに関するものである。
 近年、CT(Computed Tomography)装置およびMRI(Magnetic Resonance Imaging)装置等の医療機器により取得された医用画像から関心領域を検出するための各種手法が提案されている。例えば、特開2020-062355号公報には、訓練用の医用画像データから、病変内部の領域である第1の領域の画像に係る第1のデータと、病変周囲の領域である第2の領域の画像に係る第2のデータと、病変外部の領域である第3の領域の画像に係る第3のデータとを抽出し、抽出したデータを学習した学習モデルを用いて、抽出対象となる医用画像から病変領域を抽出する手法が提案されている。特開2020-062355号公報に記載された学習モデルにおいては、対象となる医用画像について、病変領域の特徴量および病変周囲の領域の特徴量を用いて、病変の領域が抽出される。
 一方、医用画像に含まれる関心領域についての症例と類似する過去の医用画像を参照することにより、診断を効率よく行うことができる。このため、対象となる医用画像に類似する過去の医用画像を検索する手法が提案されている(例えば特開2004-05364号公報参照)。特開2004-05364号公報に記載された手法は、まず診断対象となる医用画像に含まれる関心領域の特徴量を導出する。そして、データベースに保存された医用画像について予め導出された特徴量と、対象となる医用画像から導出した特徴量との差に基づいて類似度を導出し、類似度に基づいて、類似する過去の医用画像を検索する。
 ところで、医用画像における病変のような関心領域の画像特徴は、疾患により引き起こされる病的な変化と、そこに元々存在している正常な解剖学的特徴とが組み合わさったものであると言える。人体の正常な解剖学的特徴は共通しているため、臨床医は、関心領域に注目した際に、関心領域の背後に存在していたであろう正常な解剖学的特徴を差し引いて、異常さのみを純粋に反映する画像特徴を想起して、関心領域を評価している。
 このため、同一患者について疾患が発症した前後の医用画像について疾患の領域を比較読影すること、および類似した病変を有する異なる患者間の医用画像を比較読影することが、画像診断において非常に重要となる。このような医用画像に対する臨床医の認識過程をコンピュータにより再現するためには、関心領域の画像特徴を、そこに本来存在しているであろう正常な解剖学的特徴からの差分として表現する必要がある。また、これと同時に、関心領域が仮に正常な領域であったとした場合の正常な解剖学的特徴を再現できるようにする必要もある。
 しかしながら、特開2020-062355号公報に記載された手法は、医用画像から関心領域を検出するのみである。また、特開2004-05364号公報に記載された手法は、画像における関心領域が類似する医用画像が検索されるのみである。このため、特開2020-062355号公報および特開2004-05364号公報に記載の手法を用いても、医用画像に含まれる関心領域の画像特徴と、関心領域が正常な領域であったとした場合の画像特徴とを分離的に扱うことができない。
 本開示は上記事情に鑑みなされたものであり、異常な領域を関心領域として含む対象画像に関して、関心領域の異常さについての画像特徴と、関心領域が仮に正常な領域であったとした場合の画像についての画像特徴とを分離して扱うことができるようにすることを目的とする。
 本開示による画像符号化装置は、少なくとも1つのプロセッサを備え、
 プロセッサは、
 対象画像を符号化することにより、対象画像に含まれる関心領域の異常さについての画像特徴を表す少なくとも1つの第1の特徴量を導出し、
 対象画像を符号化することにより、対象画像における関心領域が正常な領域であったとした場合の画像についての画像特徴を表す少なくとも1つの第2の特徴量を導出するように構成される。
 なお、関心領域は、本開示による画像符号化装置において、第1の特徴量および第2の特徴量の少なくとも一方を導出しつつ、抽出されるものであってもよい。あるいは、対象画像においてすでに関心領域が抽出されたものであってもよい。また、表示された対象画像に対する操作者の入力により、対象画像から関心領域を抽出してもよい。
 本開示において、関心領域の「異常さ」についての画像特徴とは、対象画像における関心領域が仮に正常な領域であったとした場合の画像についての画像特徴を基準として、実際の対象画像に含まれる関心領域についての画像特徴が、その基準からどれだけ逸脱しているかという画像特徴の差分として表されてもよい。
 なお、本開示による画像符号化装置においては、第1の特徴量および第2の特徴量の組み合わせは、対象画像についての画像特徴を表すものであってもよい。
 また、本開示による画像符号化装置においては、関心領域の異常さについての代表的な画像特徴を表す少なくとも1つの第1の特徴ベクトル、および関心領域が正常な領域であったとした場合の画像についての代表的な画像特徴を表す第2の特徴ベクトルを記憶するストレージを備え、
 プロセッサは、関心領域の異常さについての画像特徴を表す特徴ベクトルを、第1の特徴ベクトルのうちの、関心領域の異常さについての画像特徴との差分が最小となる第1の特徴ベクトルに置換することにより量子化して、第1の特徴量を導出し、
 関心領域が正常な領域であったとした場合の画像についての画像特徴を表す特徴ベクトルを、第2の特徴ベクトルのうちの、関心領域が正常な領域であったとした場合の画像についての画像特徴との差分が最小となる第2の特徴ベクトルに置換することにより量子化して、第2の特徴量を導出するように構成されるものであってもよい。
 また、本開示による画像符号化装置においては、プロセッサは、対象画像が入力されると、第1の特徴量および第2の特徴量を導出するように学習がなされた符号化学習モデルを用いて、第1の特徴量および第2の特徴量を導出するように構成されるものであってもよい。
 本開示による画像復号化装置は、少なくとも1つのプロセッサを備え、
 プロセッサは、本開示による画像符号化装置によって、対象画像から導出した第1の特徴量に基づいて、対象画像における関心領域の異常さについての種類に応じた領域を抽出するように構成される。
 なお、本開示による画像復号化装置においては、プロセッサは、第2の特徴量に基づいて、対象画像における関心領域が正常な領域であったとした場合の画像についての画像特徴を再構成した第1の再構成画像を導出し、
 第1の特徴量および第2の特徴量に基づいて、対象画像についての画像特徴を再構成した第2の再構成画像を導出するように構成されるものであってもよい。
 また、本開示による画像復号化装置においては、プロセッサは、第1の特徴量に基づいて、対象画像における関心領域の異常さについての種類に応じたラベル画像を導出し、第2の特徴量に基づいて、対象画像における関心領域が正常な領域であったとした場合の画像についての画像特徴を再構成した第1の再構成画像を導出し、第1の特徴量および第2の特徴量に基づいて、対象画像の画像特徴を再構成した第2の再構成画像を導出するように学習がなされた復号化学習モデルを用いて、関心領域の異常さについての種類に応じたラベル画像の導出、第1の再構成画像の導出および第2の再構成画像の導出を行うように構成されるものであってもよい。
 本開示による画像処理装置は、本開示による画像符号化装置と、本開示による画像復号化装置とを備える。
 本開示による学習装置は、関心領域を含む教師画像および教師画像における関心領域の異常さについての種類に応じた教師ラベル画像からなる教師データを用いて、本開示による画像符号化装置における符号化学習モデルと、本開示による画像復号化装置における復号化学習モデルとを学習する学習装置であって、
 少なくとも1つのプロセッサを備え、
 プロセッサは、符号化学習モデルを用いて、教師画像から第1の特徴量および第2の特徴量にそれぞれ対応する第1の学習用特徴量および第2の学習用特徴量を導出し、
 復号化学習モデルを用いて、第1の学習用特徴量に基づいて教師画像に含まれる関心領域の異常さについての種類に応じた学習用ラベル画像を導出し、第2の学習用特徴量に基づいて、教師画像における関心領域が正常な領域であったとした場合の画像についての画像特徴を再構成した第1の学習用再構成画像を導出し、第1の学習用特徴量および第2の学習用特徴量に基づいて、教師画像の画像特徴を再構成した第2の学習用再構成画像を導出し、
 第1の学習用特徴量と予め定められた第1の特徴量の確率分布との差である第1の損失、第2の学習用特徴量と予め定められた第2の特徴量の確率分布との差である第2の損失、教師データに含まれる教師ラベル画像と学習用ラベル画像との教師画像に対するセマンティックセグメンテーションとしての差に基づく第3の損失、第1の学習用再構成画像と教師画像における関心領域外の画像との差に基づく第4の損失、第2の学習用再構成画像と教師画像との差に基づく第5の損失、および第1の学習用再構成画像と第2の学習用再構成画像との関心領域内外にそれぞれ対応する領域間の差に基づく第6の損失の少なくとも1つが予め定められた条件を満足するように、符号化学習モデルおよび復号化学習モデルを学習するように構成される。
 第3の損失に関しての「セマンティックセグメンテーションとしての差」とは、教師ラベル画像により表される異常さの種類に応じた領域と、学習用ラベル画像により表される異常さの種類に応じた領域との重なりに基づいて定められる指標である。
 第4の損失に関しての「関心領域外」とは、教師画像における関心領域以外のすべての領域を意味する。なお、教師画像に何ら構造物が含まれない背景が含まれる場合、関心領域外には背景も含めた領域も含む。一方、関心領域外には背景を含めない領域のみを含むものであってもよい。
 第6の損失に関しての「関心領域内外に対応する領域」とは、第1の学習用再構成画像と第2の学習用再構成画像との関心領域に対応する領域および、関心領域に対応しない領域の双方を意味する。関心領域に対応しない領域とは、第1の学習用再構成画像と第2の学習用再構成画像との関心領域に対応する領域以外のすべての領域を意味する。なお、第1および第2の学習用再構成画像に何ら構造物が含まれない背景が含まれる場合、関心領域に対応しない領域には背景も含めた領域も含む。一方、関心領域に対応しない領域には背景を含まない領域のみを含むものであってもよい。
 本開示による類似画像検索装置は、少なくとも1つのプロセッサと、
 本開示による画像符号化装置とを備え、
 プロセッサは、
 画像符号化装置により、クエリ画像についての第1の特徴量および第2の特徴量を導出し、
 複数の参照画像のそれぞれについての第1の特徴量および第2の特徴量が、複数の参照画像のそれぞれと対応づけられて登録された画像データベースを参照して、クエリ画像から導出された第1の特徴量および第2の特徴量の少なくとも一方に基づいて、クエリ画像と複数の参照画像のそれぞれとの類似度を導出し、
 類似度に基づいて、クエリ画像に類似する参照画像を類似画像として画像データベースから抽出するように構成される。
 本開示による画像符号化方法は、対象画像を符号化することにより、対象画像に含まれる関心領域の異常さについての画像特徴を表す少なくとも1つの第1の特徴量を導出し、
 対象画像を符号化することにより、対象画像に含まれる関心領域が正常な領域であったとした場合の画像についての画像特徴を表す少なくとも1つの第2の特徴量を導出する。
 本開示による画像復号化方法は、本開示による画像符号化装置によって、対象画像から導出した第1の特徴量に基づいて、対象画像における関心領域の異常さについての種類に応じた領域を抽出する。
 本開示による学習方法は、関心領域を含む教師画像および教師画像における関心領域の異常さについての種類に応じた教師ラベル画像からなる教師データを用いて、本開示による画像符号化装置における符号化学習モデルと、本開示による画像復号化装置における復号化学習モデルとを学習する学習方法であって、
 符号化学習モデルを用いて、教師画像から第1の特徴量および第2の特徴量にそれぞれ対応する第1の学習用特徴量および第2の学習用特徴量を導出し、
 復号化学習モデルを用いて、第1の学習用特徴量に基づいて教師画像に含まれる関心領域の異常さについての種類に応じた学習用ラベル画像を導出し、第2の学習用特徴量に基づいて、教師画像における関心領域が正常な領域であったとした場合の画像についての画像特徴を再構成した第1の学習用再構成画像を導出し、第1の学習用特徴量および第2の学習用特徴量に基づいて、教師画像の画像特徴を再構成した第2の学習用再構成画像を導出し、
 第1の学習用特徴量と予め定められた第1の特徴量の確率分布との差である第1の損失、第2の学習用特徴量と予め定められた第2の特徴量の確率分布との差である第2の損失、教師データに含まれる教師ラベル画像と学習用ラベル画像との教師画像に対するセマンティックセグメンテーションとしての差に基づく第3の損失、第1の学習用再構成画像と教師画像における関心領域外の画像との差に基づく第4の損失、第2の学習用再構成画像と教師画像との差に基づく第5の損失、および第1の学習用再構成画像と第2の学習用再構成画像との関心領域内外にそれぞれ対応する領域間の差に基づく第6の損失の少なくとも1つが予め定められた条件を満足するように、符号化学習モデルおよび復号化学習モデルを学習する。
 本開示による類似画像検索方法は、本開示による画像符号化装置により、クエリ画像についての第1の特徴量および第2の特徴量を導出し、
 複数の参照画像のそれぞれについての第1の特徴量および第2の特徴量が、複数の参照画像のそれぞれと対応づけられて登録された画像データベースを参照して、クエリ画像から導出された第1の特徴量および第2の特徴量の少なくとも一方に基づいて、クエリ画像と複数の参照画像のそれぞれとの類似度を導出し、
 類似度に基づいて、クエリ画像に類似する参照画像を類似画像として画像データベースから抽出する。
 なお、本開示による画像符号化方法、画像復号化方法、学習方法および類似画像検索方法をコンピュータに実行させるためのプログラムとして提供してもよい。
 本開示によれば、異常な領域を関心領域として含む対象画像に関して、関心領域の異常さについての画像特徴と、関心領域が仮に正常な領域であった場合の画像についての画像特徴とを分離して扱うことができる。
本開示の実施形態による画像符号化装置、画像復号化装置、学習装置および類似画像検索装置を適用した医療情報システムの概略構成を示す図 本実施形態による画像処理システムの概略構成を示す図 本実施形態による画像処理システムの機能構成図 本実施形態による画像符号化装置および画像復号化装置が行う処理の概念図 第1の特徴ベクトルへの置換を説明するための図 学習に使用する教師データの例を示す図 検索結果リストを示す図 第1の検索条件による検索結果の表示画面を示す図 第2の検索条件による検索結果の表示画面を示す図 第3の検索条件による検索結果の表示画面を示す図 本実施形態において行われる学習処理を示すフローチャート 本実施形態において行われる類似画像検索処理を示すフローチャート
 以下、図面を参照して本開示の実施形態について説明する。まず、本実施形態による画像符号化装置、画像復号化装置、学習装置および類似画像検索装置を適用した医療情報システムの構成について説明する。なお、以降の説明において、画像処理装置には、本開示の画像符号化装置および画像復号化装置を含む。図1は、医療情報システムの概略構成を示す図である。図1に示す医療情報システムは、本実施形態による画像処理装置、学習装置および類似画像検索装置を内包するコンピュータ1、撮影装置2、および画像保管サーバ3が、ネットワーク4を経由して通信可能な状態で接続されている。
 コンピュータ1は、本実施形態による画像処理装置、学習装置および類似画像検索装置を内包するものであり、本実施形態の画像符号化プログラム、画像復号化プログラム、学習プログラムおよび類似画像検索プログラムがインストールされている。コンピュータ1は、診断を行う医師が直接操作するワークステーションあるいはパーソナルコンピュータでもよいし、それらとネットワークを介して接続されたサーバコンピュータでもよい。画像符号化プログラム、画像復号化プログラム、学習プログラムおよび類似画像検索プログラムは、ネットワークに接続されたサーバコンピュータの記憶装置、あるいはネットワークストレージに、外部からアクセス可能な状態で記憶され、要求に応じて医師が使用するコンピュータ1にダウンロードされ、インストールされる。または、DVD(Digital Versatile Disc)あるいはCD-ROM(Compact Disc Read Only Memory)等の記録媒体に記録されて配布され、その記録媒体からコンピュータ1にインストールされる。
 撮影装置2は、被検体の診断対象となる部位を撮影することにより、その部位を表す3次元画像を生成する装置であり、具体的には、CT(Computed Tomography)装置、MRI(Magnetic Resonance Imaging)装置、およびPET(Positron Emission Tomography)装置等である。撮影装置2により生成された、複数のスライス画像からなる3次元画像は画像保管サーバ3に送信され、保存される。なお、本実施形態においては、被検体である患者の診断対象部位は脳であり、撮影装置2はMRI装置であり、被検体の脳を含む頭部のMRI画像を3次元画像として生成する。
 画像保管サーバ3は、各種データを保存して管理するコンピュータであり、大容量外部記憶装置およびデータベース管理用ソフトウェアを備えている。画像保管サーバ3は、有線あるいは無線のネットワーク4を介して他の装置と通信を行い、画像データ等を送受信する。具体的には撮影装置2で生成された3次元画像の画像データを含む各種データをネットワーク経由で取得し、大容量外部記憶装置等の記録媒体に保存して管理する。なお、画像データの格納形式およびネットワーク4経由での各装置間の通信は、DICOM(Digital Imaging and Communication in Medicine)等のプロトコルに基づいている。また、画像保管サーバ3には、後述する教師データも記憶されている。
 なお、本実施形態においては、画像保管サーバ3には、画像データベースDBが保存されている。画像データベースDBには、脳出血および脳梗塞等の各種疾患を含む複数の画像が参照画像として登録されている。画像データベースDBについては後述する。また、本実施形態においては、参照画像も複数のスライス画像からなる3次元画像である。
 次いで、本実施形態による画像符号化装置、画像復号化装置、学習装置および類似画像検索装置について説明する。図2は、本実施形態による画像符号化装置、画像復号化装置、学習装置および類似画像検索装置を含む画像処理システムのハードウェア構成を説明する。図2に示すように、本実施形態による画像処理システム20は、CPU(Central Processing Unit)11、不揮発性のストレージ13、および一時記憶領域としてのメモリ16を含む。また、画像処理システム20は、液晶ディスプレイ等のディスプレイ14、キーボードとマウス等の入力デバイス15、およびネットワーク4に接続されるネットワークI/F(InterFace)17を含む。CPU11、ストレージ13、ディスプレイ14、入力デバイス15、メモリ16およびネットワークI/F17は、バス18に接続される。なお、CPU11は、本開示におけるプロセッサの一例である。
 ストレージ13は、HDD(Hard Disk Drive)、SSD(Solid State Drive)、およびフラッシュメモリ等によって実現される。記憶媒体としてのストレージ13には、画像符号化プログラム12A、画像復号化プログラム12B、学習プログラム12Cおよび類似画像検索プログラム12Dが記憶される。CPU11は、ストレージ13から画像符号化プログラム12A、画像復号化プログラム12B、学習プログラム12Cおよび類似画像検索プログラム12Dを読み出してからメモリ16に展開し、展開した画像符号化プログラム12A、画像復号化プログラム12B、学習プログラム12Cおよび類似画像検索プログラム12Dを実行する。
 次いで、本実施形態による画像処理システムの機能的な構成を説明する。図3は、本実施形態による画像処理システムの機能的な構成を示す図である。図3に示すように本実施形態による画像処理システム20は、情報取得部21、画像符号化装置22、画像復号化装置23、学習装置24、類似画像検索装置25および表示制御部26を備える。画像符号化装置22は、第1の特徴量導出部22Aおよび第2の特徴量導出部22Bを備える。画像復号化装置23は、セグメンテーション部23A、第1の再構成部23Bおよび第2の再構成部23Cを備える。学習装置24は、学習部24Aを備える。類似画像検索装置25は、類似度導出部25Aおよび抽出部25Bを備える。なお、画像符号化装置22が情報取得部21を備えるものであってもよい。また、類似画像検索装置25が表示制御部26を備えるものであってもよい。
 そして、CPU11が、画像符号化プログラム12A、画像復号化プログラム12B、学習プログラム12Cおよび類似画像検索プログラム12Dを実行することにより、CPU11は、情報取得部21、第1の特徴量導出部22A、第2の特徴量導出部22B、セグメンテーション部23A、第1の再構成部23B、第2の再構成部23C、学習部24A、類似度導出部25A、抽出部25Bおよび表示制御部26として機能する。
 情報取得部21は、操作者による入力デバイス15からの指示により、画像保管サーバ3から、後述する検索の対象となるクエリ画像を対象画像として取得する。ここで、以降の説明において、画像符号化装置22および画像復号化装置23について説明する場合には、画像符号化装置22に入力される画像を対象画像と称する。一方、学習装置24が学習を行う際に画像符号化装置22に入力される画像は、教師画像となる。また、類似画像検索装置25について説明する場合には、画像符号化装置22に入力される画像をクエリ画像と称する。
 なお、対象画像が既にストレージ13に保存されている場合には、情報取得部21は、ストレージ13から対象画像を取得するようにしてもよい。また、情報取得部21は、後述する符号化学習モデルおよび復号化学習モデルの学習のために、画像保管サーバ3から複数の教師データを取得する。
 画像符号化装置22を構成する第1の特徴量導出部22Aは、対象画像を符号化することにより、対象画像に含まれる関心領域の異常さについての画像特徴を表す少なくとも1つの第1の特徴量を導出する。なお、本実施形態においては、関心領域は、第1の特徴量を導出しつつ抽出されることとなる。なお、関心領域は第1の特徴量を導出する前に、対象画像から予め抽出されていてもよい。例えば、対象画像から関心領域を検出する機能を画像符号化装置22に設け、画像符号化装置22において第1の特徴量を導出する前に対象画像から関心領域を抽出するようにしてもよい。あるいは、画像保管サーバ3に保管された対象画像において、すでに関心領域が抽出されたものであってもよい。また、対象画像をディスプレイ14に表示し、表示された対象画像に対する操作者の入力により、対象画像から関心領域を抽出してもよい。
 画像符号化装置22を構成する第2の特徴量導出部22Bは、対象画像を符号化することにより、対象画像に含まれる関心領域が正常な領域であったとした場合の画像についての画像特徴を表す少なくとも1つの第2の特徴量を導出する。
 このために、第1の特徴量導出部22Aおよび第2の特徴量導出部22Bは、対象画像が入力されると、第1の特徴量および第2の特徴量を導出するように学習がなされた符号化学習モデルとしてのエンコーダおよび潜在モデル(Latent model)を有する。また、本実施形態においては、第1の特徴量導出部22Aと第2の特徴量導出部22Bとで共通の符号化学習モデルを有するものとする。符号化学習モデルとしてのエンコーダおよび潜在モデルについては後述する。
 なお、本実施形態においては、対象画像は脳を含み、関心領域は、脳梗塞または脳出血等の脳の疾患の種類に応じて定められた領域とする。
 ここで、第2の特徴量は、対象画像における関心領域が正常な領域であったとした場合の画像についての画像特徴を表す。このため、第2の特徴量は、対象画像における関心領域、すなわち疾患の領域が、疾患が仮に存在しなかったとした場合の領域、とくに脳の正常組織の画像特徴により補間された画像特徴を表すものとなる。したがって、第2の画像特徴は、対象画像における脳がすべて正常組織となった状態における画像の画像特徴を表すものとなる。
 また、第1の特徴量および第2の特徴量の組み合わせは、対象画像の画像特徴、とくに疾患の種類に応じて定められた領域を含む脳の画像特徴を表すものであってもよい。この場合、第1の特徴量は、対象画像に含まれる関心領域の異常さについての画像特徴を表すが、対象画像に含まれる関心領域が正常な領域であったとした場合の画像特徴との差分を表現する画像特徴を表すものとなる。本実施形態においては、関心領域は脳の疾患であるため、第1の特徴量は、対象画像における脳がすべて正常組織となった状態における画像の画像特徴との差分を表現する画像特徴を表すものとなる。これにより、異常な領域を関心領域として含む脳の画像から、疾患の種類に応じて定められた領域の異常さについての画像特徴と、脳がすべて正常組織となった状態における画像の画像特徴とを、分離して獲得することができる。
 画像復号化装置23のセグメンテーション部23Aは、第1の特徴量導出部22Aが導出した第1の特徴量に基づいて、対象画像における関心領域の異常さについての種類に応じた関心領域ラベル画像を導出する。
 画像復号化装置23の第1の再構成部23Bは、第2の特徴量導出部22Bが導出した第2の特徴量に基づいて、対象画像における関心領域が正常な領域であったとした場合の画像についての画像特徴を再構成した第1の再構成画像を導出する。
 画像復号化装置23の第2の再構成部23Cは、第1の特徴量導出部22Aが導出した第1の特徴量および第2の特徴量導出部22Bが導出した第2の特徴量に基づいて、対象画像の画像特徴を再構成した第2の再構成画像を導出する。なお、再構成される対象画像の画像特徴とは、対象画像に含まれる脳以外の背景も含む画像特徴である。
 このために、セグメンテーション部23A、第1の再構成部23Bおよび第2の再構成部23Cは、第1の特徴量および第2の特徴量が入力されると、関心領域の異常さについての種類に応じた関心領域ラベル画像を導出し、第1の再構成画像および第2の再構成画像を導出するように学習がなされた、復号化学習モデルとしてのデコーダを有する。
 図4は、本実施形態における画像符号化装置および画像復号化装置が行う処理の概念図である。図4に示すように、画像符号化装置22は、符号化学習モデルであるエンコーダ31および潜在モデル31Aを有する。エンコーダ31および潜在モデル31Aは、本実施形態による第1の特徴量導出部22Aおよび第2の特徴量導出部22Bとしての機能を有する。また、画像復号化装置23は、復号化学習モデルであるデコーダ32A~32Cを有する。デコーダ32A~32Cは、それぞれセグメンテーション部23A、第1の再構成部23Bおよび第2の再構成部23Cとしての機能を有する。
 符号化学習モデルとしてのエンコーダ31および潜在モデル31A、並びに復号化学習モデルとしてのデコーダ32A~32Cは、関心領域を含む脳を被写体とした教師画像および教師画像における脳の疾患の種類に応じて定められた領域に応じた教師ラベル画像の組み合わせを教師データとして使用して、機械学習を行うことにより構築される。エンコーダ31およびデコーダ32A~32Cは、例えば、複数の処理層が階層的に接続された多層ニューラルネットワークの1つである、畳み込みニューラルネットワーク(CNN(Convolutional Neural Network))からなる。また、潜在モデル31Aは、VQ-VAE(Vector Quantised-Variational AutoEncoder)の手法を用いて学習される。
 VQ-VAEは、「Neural Discrete Representation Learning、Aaron van den Oordら、Advances in Neural Information Processing Systems 30 (NIPS)、6306-6315、2017」において提案された手法であり、特徴量抽出器(すなわちエンコーダ)によりエンコードされた入力データの特徴を表す潜在変数を受け取り、受け取った潜在変数を量子化し、量子化された潜在変数を特徴量復号器(すなわちデコーダ)に渡し、元の入力データが正しく再構成されたか否かによって、潜在変数の量子化の過程を学習する手法である。学習については後述する。
 なお、潜在モデル31Aは、VQ-VAEに代えて、自己符号化器(AutoEncoder)、VAE(Variational AutoEncoder)、GAN(Generative Adversarial Networks)、およびBiGAN(Bidirectional GAN)の手法等、任意の手法を用いて学習することが可能である。
 エンコーダ31を構成する畳み込みニューラルネットワークは、複数の処理層からなる。各処理層は畳み込み処理層であり、前段の処理層から入力される画像をダウンサンプリングしつつ、各種カーネルを用いた畳み込み処理を行う。カーネルは、予め定められた画素サイズ(例えば3×3)を有し、各要素に重みが設定されている。具体的には前段の入力された画像のエッジを強調する微分フィルタのような重みが設定されている。各処理層は、カーネルの注目画素をずらしながら、入力された画像または前段の処理層から出力された特徴量の全体にカーネルを適用し、特徴マップとして出力する。また、エンコーダ31の処理層は後段ほど特徴マップの解像度が小さくなっている。これにより、エンコーダ31は、入力される対象画像G0の特徴を、特徴マップの解像度が小さくなるように圧縮(すなわち次元圧縮)することにより符号化して、2つの潜在変数、すなわち第1の潜在変数z1および第2の潜在変数z2を出力する。第1の潜在変数z1は、対象画像G0における関心領域の異常さについての画像特徴を表し、第2の潜在変数z2は、対象画像G0における関心領域が正常な領域であったとした場合の画像についての画像特徴を表す。
 第1および第2の潜在変数z1,z2は、それぞれn×n個のD次元のベクトルからなる。図4においては、例えばn=4であり、第1および第2の潜在変数z1,z2は、各位置がD次元のベクトルからなるn×nのマップとして表すことができる。なお、第1の潜在変数z1と第2の潜在変数z2とで、ベクトルの次元数およびベクトルの数を異なるものとしてもよい。ここで、第1の潜在変数z1が、関心領域の異常さについての画像特徴を表す特徴ベクトルに対応する。また、第2の潜在変数z2が、対象画像G0に含まれる関心領域が正常な領域であったとした場合の画像についての画像特徴を表す特徴ベクトルに対応する。
 ここで、本実施形態においては、潜在モデル31Aにおいて、第1の潜在変数z1に対して、関心領域の異常さついての代表的な画像特徴を表す、K個のD次元の第1の特徴ベクトルe1kが予め用意されている。また、潜在モデル31Aにおいて、第2の潜在変数z2に対して、関心領域が正常な領域であった場合の画像についての代表的な画像特徴を表す、K個のD次元の第2の特徴ベクトルe2kが予め用意されている。なお、第1の特徴ベクトルe1kおよび第2の特徴ベクトルe2kは、ストレージ13に記憶される。また、用意する第1の特徴ベクトルe1kの数と第2の特徴ベクトルe2kの数とを異なるものとしてもよい。
 画像符号化装置22は、潜在モデル31Aにおいて、第1の潜在変数z1に含まれるn×n個のD次元のベクトルのそれぞれを、第1の特徴ベクトルe1kにより置換する。この際、第1の潜在変数z1に含まれるn×n個のD次元のベクトルは、それぞれD次元のベクトル空間において、差が最小となる第1の特徴ベクトルe1kに置換される。図5は、第1の特徴ベクトルへの置換を説明するための図である。なお、図5においては、説明を容易なものとするために、潜在変数のベクトルを2次元で示している。また、図5においては、4つの第1の特徴ベクトルe11~e14が用意されているものとする。図5に示すように、第1の潜在変数z1に含まれる1つの潜在変数のベクトルz1-1は、ベクトル空間において、第1の特徴ベクトルe12との差が最小となる。このため、ベクトルz1-1は、第1の特徴ベクトルe12と置換される。また、第1の潜在変数z2についても、第1の潜在変数z1と同様に、n×n個のD次元のベクトルのそれぞれが第2の特徴ベクトルe2kのいずれかにより置換される。
 このように、第1の潜在変数z1に含まれるn×n個のD次元のベクトルのそれぞれを第1の特徴ベクトルe1kと置換することにより、第1の潜在変数z1は、n×n個の予め定められた値を持つ最大K個の潜在変数の組み合わせにより表されるものとなる。したがって、第1の潜在変数zd1は、D次元の潜在空間において量子化されて分布することとなる。
 また、第2の潜在変数z2に含まれるn×n個のD次元のベクトルのそれぞれを第2の特徴ベクトルe2kと置換することにより、第2の潜在変数z2は、n×n個の予め定められた値を持つ最大K個の潜在変数の組み合わせにより表されるものとなる。したがって、第2の潜在変数zd2は、D次元の潜在空間において量子化されて分布することとなる。
 量子化された第1および第2の潜在変数として参照符号zd1,zd2を用いる。なお、量子化された第1および第2の潜在変数zd1,zd2も、各位置がD次元のベクトルからなるn×nのマップとして表すことができる。量子化された第1および第2の潜在変数zd1,zd2が、それぞれ第1の特徴量および第2の特徴量に対応する。
 デコーダ32A~32Cを構成する畳み込みニューラルネットワークは、複数の処理層からなる。各処理層は畳み込み処理層であり、第1および第2の潜在変数zd1,zd2が第1および第2の特徴量として入力されると、前段の処理層から入力される特徴量をアップサンプリングしつつ、各種カーネルを用いた畳み込み処理を行う。各処理層は、カーネルの注目画素をずらしながら、前段の処理層から出力された特徴量からなる特徴マップの全体にカーネルを適用する。また、デコーダ32A~32Cの処理層は後段ほど特徴マップの解像度が大きくなっている。なお、後述するように類似画像検索装置が類似画像を検索する際には、デコーダ32A~32Cにおいて処理は行われない。しかしながら、ここでは、後述する学習の処理に必要であることから、画像符号化装置22により対象画像G0から導出された第1および第2の潜在変数zd1,zd2を用いて、デコーダ32A~32Cにおいて行われる処理を説明する。
 本実施形態においては、デコーダ32Aには、第1の潜在変数zd1が入力される。デコーダ32Aは、第1の潜在変数zd1に基づいて、エンコーダ31に入力された対象画像G0の関心領域の異常さの種類に応じた関心領域ラベル画像V0を導出する。
 デコーダ32Bには、第2の潜在変数zd2が入力される。デコーダ32Bは、第2の潜在変数zd2に基づいて、エンコーダ31に入力された対象画像G0に含まれる関心領域が正常な領域であったとした場合の画像についての画像特徴を再構成した第1の再構成画像V1を導出する。このため、対象画像G0に関心領域が含まれていても、第1の再構成画像V1には関心領域が含まれず、その結果、第1の再構成画像V1に含まれる脳は正常組織のみからなるものとなる。
 デコーダ32Cには、第2の潜在変数zd2が入力される。また、デコーダ32Cの各処理層には、各処理層の解像度に応じたサイズの関心領域ラベル画像V0が側副的に入力される。具体的には、各処理層の解像度に応じたサイズの関心領域ラベル画像V0の特徴マップが側副的に入力される。なお、側副的に入力される特徴マップは、デコーダ32Aにおいて、関心領域ラベル画像V0を導出する直前の処理層から出力される特徴マップを、デコーダ32Cの各処理層の解像度に応じたサイズとなるように縮小することにより導出してもよい。あるいは、デコーダ32Aが関心領域ラベル画像V0を導出する過程において導出した、各処理層の解像度に応じたサイズの特徴マップを、デコーダ32Cの各処理層に入力してもよい。以降の説明においては、関心領域ラベル画像V0を導出する直前の処理層から出力される特徴マップを、デコーダ32Cの各処理層の解像度に応じたサイズとなるように縮小することにより、デコーダ32Cの各処理層に側副的に入力するものとする。
 ここで、関心領域ラベル画像V0および特徴マップは、第1の潜在変数zd1に基づいて導出されるものである。このため、デコーダ32Cは、第1および第2の潜在変数zd1,zd2に基づいて、入力された対象画像G0の画像特徴を再構成した第2の再構成画像V2を導出することとなる。これにより、第2の再構成画像V2は、第2の潜在変数zd2に基づく、第1の再構成画像V1に含まれる正常組織のみからなる脳についての画像特徴に対して、第1の潜在変数zd1に基づく、疾患の種類に応じて定められた領域の異常さについての画像特徴が付加されたものとなる。したがって、第2の再構成画像V2は、入力された対象画像G0の画像特徴を再構成したものとなる。
 学習装置24の学習部24Aは、画像符号化装置22のエンコーダ31および潜在モデル31A、並びに画像復号化装置23のデコーダ32A~32Cの学習を行う。図6は学習に使用する教師データの例を示す図である。図6に示すように、教師データ35は、梗塞あるいは出血等の関心領域37を含む脳の教師画像36と、教師画像36における関心領域の異常さの種類に応じた教師ラベル画像38とを有する。
 学習部24Aは、エンコーダ31に教師画像36を入力し、教師画像36についての第1の潜在変数z1および第2の潜在変数z2を出力させる。なお、以降の説明においては、教師画像36についての第1の潜在変数および第2の潜在変数についても、参照符号としてz1,z2を用いるものとする。
 次いで、学習部24Aは、第1の潜在変数z1および第2の潜在変数z2に含まれる潜在変数のベクトルを、潜在モデル31Aにおいて第1および第2の特徴ベクトルによりそれぞれ置換することにより、量子化された第1の潜在変数zd1および第2の潜在変数zd2を取得する。なお、以降の説明においては、教師画像36についての量子化された第1の潜在変数および第2の潜在変数についても、参照符号としてzd1,zd2を用いるものとする。教師画像36についての、量子化された第1の潜在変数zd1および第2の潜在変数zd2が、第1の学習用特徴量および第2の学習用特徴量にそれぞれ対応する。
 そして、学習部24Aは、第1の潜在変数zd1をデコーダ32Aに入力して、教師画像36に含まれる関心領域37の異常さについての種類に応じた学習用関心領域ラベル画像VT0を導出させる。また、学習部24Aは、第2の潜在変数zd2をデコーダ32Bに入力して、教師画像36に含まれる関心領域37が正常な領域であったとした場合の画像についての画像特徴を再構成した第1の学習用再構成画像VT1を導出させる。さらに、学習部24Aは、第2の潜在変数zd2をデコーダ32Cに入力し、デコーダ32Cの各処理層に、各処理層の解像度に応じたサイズの学習用関心領域ラベル画像VT0、具体的には学習用関心領域ラベル画像VT0の特徴マップを側副的に入力して、教師画像36についての画像特徴を再構成した第2の学習用再構成画像VT2を導出させる。なお、第2の学習用再構成画像VT2の導出に際し、学習用関心領域ラベル画像VT0を導出する直前の処理層から出力される特徴マップを、デコーダ32Cの各処理層の解像度に応じたサイズとなるように縮小することにより、デコーダ32Cの各処理層に側副的に入力すればよい。
 学習部24Aは、第1の学習用特徴量である第1の潜在変数zd1と予め定められた第1の特徴量の確率分布との差を第1の損失L1として導出する。ここで、予め定められた第1の特徴量の確率分布とは、第1の潜在変数zd1が従うべき確率分布である。VQ-VAEの手法を用いた場合、コードワード損失およびコミットメント損失が、第1の損失L1として導出される。コードワード損失とは、第1の特徴量の確率分布における代表的な局所特徴であるコードワードが取るべき値である。コミットメント損失とは、第1の潜在変数zd1と、第1の潜在変数zd1に最も近いコードワードとの距離である。第1の損失L1によって、予め定められた第1の特徴量の確率分布にしたがった第1の潜在変数zd1が取得されるように、エンコーダ31および潜在モデル31Aが学習される。
 また、学習部24Aは、第2の学習用特徴量である第2の潜在変数zd2と予め定められた第2の特徴量の確率分布との差を第2の損失L2として導出する。ここで、予め定められた第2の特徴量の確率分布とは、第2の潜在変数zd2が従うべき確率分布である。VQ-VAEの手法を用いた場合、第1の損失L1と同様に、コードワード損失およびコミットメント損失が、第2の損失L2として導出される。第2の潜在変数zd2に関するコードワード損失とは、第2の特徴量の確率分布における代表的な局所特徴であるコードワードが取るべき値である。第2の潜在変数zd2に関するコミットメント損失とは、第2の潜在変数zd2と、第2の潜在変数zd2に最も近いコードワードとの距離である。第2の損失L2によって、予め定められた第2の特徴量の確率分布にしたがった第2の潜在変数zd2が取得されるように、エンコーダ31および潜在モデル31Aが学習される。
 また、学習部24Aは、教師画像36に含まれる関心領域37の異常さについての種類に応じた教師ラベル画像38と、学習用関心領域ラベル画像VT0との教師画像に対するセマンティックセグメンテーションとしての差を第3の損失L3として導出する。
 「セマンティックセグメンテーションとしての差」とは、教師ラベル画像38により表される異常さの種類に応じた領域と、学習用関心領域ラベル画像VT0により表される異常さの種類に応じた領域との重なりに基づいて定められる指標である。具体的には、教師ラベル画像38の要素数と学習用関心領域ラベル画像VT0の要素数との和に対する、教師ラベル画像38と学習用関心領域ラベル画像VT0との共通の要素数×2の値をセマンティックセグメンテーションとしての差、すなわち第3の損失L3として用いることができる。
 また、学習部24Aは、教師画像36に含まれる関心領域37外の領域と第1の学習用再構成画像VT1との差を、第4の損失L4として導出する。具体的には、学習部24Aは、教師画像36から関心領域37を除去した領域と、第1の学習用再構成画像VT1との差を第4の損失L4として導出する。
 また、学習部24Aは、教師画像36と第2の学習用再構成画像VT2との差を、第5の損失L5として導出する。
 さらに、学習部24Aは、第1の学習用再構成画像VT1と第2の学習用再構成画像VT2との、関心領域内外にそれぞれ対応する領域間の差に基づく第6の損失L6を導出する。
 第6の損失L6に関し、第1の学習用再構成画像VT1は、教師画像36における関心領域37が正常な領域であったとした場合の画像であり、関心領域を含まないように導出される。一方、第2の学習用再構成画像VT2は関心領域を含むように導出される。このため、第1の学習用再構成画像VT1と第2の学習用再構成画像VT2との対応する画素についての差分値を導出すると、関心領域に対応する領域においてのみ差分値が存在し、関心領域に対応しない領域においては、差分値は存在しないはずである。しかしながら、学習が終了していない段階においては、符号化および復号化の精度が低いことから、関心領域に対応する領域において差分値が存在しない場合がある。また、関心領域に対応しない領域において差分値が存在する場合もある。第1の学習用再構成画像VT1と第2の学習用再構成画像VT2との、関心領域内外にそれぞれ対応する領域間の差に基づく第6の損失L6とは、第1の学習用再構成画像VT1と第2の学習用再構成画像VT2との対応する画素についての差分値を導出した際に、関心領域に対応する領域において差分値が存在し、かつ関心領域に対応しない領域において差分値が存在しないことを表す指標となる。
 ここで、エンコーダ31および潜在モデル31Aにより取得された第1の潜在変数zd1が、予め定められた第1の特徴量の確率分布に従うほど、エンコーダ31からは教師画像36に含まれる関心領域37の異常さを忠実に再現可能な好ましい第1の潜在変数z1を出力することが可能となる。また、潜在モデル31Aによってより好ましい量子化された第1の潜在変数zd1を取得することが可能となる。
 また、エンコーダ31および潜在モデル31Aにより取得された第2の潜在変数zd2が、予め定められた第2の特徴量の確率分布に従うほど、エンコーダ31からは、教師画像36に含まれる関心領域37が正常な領域であったとした場合の画像を忠実に再現可能な好ましい第2の潜在変数z2を出力することが可能となる。また、潜在モデル31Aによってより好ましい量子化された第2の潜在変数zd2を取得することが可能となる。
 また、デコーダ32Aから出力される学習用関心領域ラベル画像VT0は、第1の潜在変数zd1に基づいて導出されるため、教師ラベル画像38とは完全には一致しない。また、学習用関心領域ラベル画像VT0は、教師画像36に含まれる関心領域37と完全には一致しない。しかしながら、学習用関心領域ラベル画像VT0と教師ラベル画像38との教師画像36に対するセマンティックセグメンテーションとしての差が小さいほど、対象画像G0が入力された場合に、エンコーダ31からはより好ましい第1の潜在変数z1を出力することが可能となる。すなわち、対象画像G0におけるどこが関心領域であるかを表す情報および関心領域の異常さについての画像特徴を潜在的に含む第1の潜在変数z1を出力することが可能となる。また、潜在モデル31Aによってより好ましい量子化された第1の潜在変数zd1を取得することが可能となる。したがって、エンコーダ31により対象画像G0から関心領域を抽出しつつ、関心領域の異常さについての画像特徴を表す第1の潜在変数zd1が導出されることとなる。また、デコーダ32Aからは対象画像に含まれる関心領域に対応する領域に関して、関心領域の異常さについての種類に応じた関心領域ラベル画像V0を出力することが可能となる。
 また、デコーダ32Bから出力される第1の学習用再構成画像VT1は、第2の潜在変数zd2に基づいて導出されるため、教師画像36に含まれる関心領域37が正常な領域であったとした場合の画像についての画像特徴とは完全には一致しない。しかしながら、第1の学習用再構成画像VT1と教師画像36における関心領域37でない領域との差が小さいほど、対象画像G0が入力された場合に、エンコーダ31からはより好ましい第2の潜在変数z2を出力することが可能となる。また、潜在モデル31Aによってより好ましい量子化された第2の潜在変数zd2を取得することが可能となる。また、デコーダ32Bからは対象画像G0に含まれる関心領域が正常な領域であったとした場合の画像についての画像により近い第1の再構成画像V1を出力することが可能となる。
 また、デコーダ32Cから出力される第2の学習用再構成画像VT2は、第1の潜在変数zd1および第2の潜在変数zd2に基づいて導出されるため、教師画像36とは完全には一致しない。しかしながら、第2の学習用再構成画像VT2と教師画像36との差が小さいほど、対象画像G0が入力された場合に、エンコーダ31からはより好ましい第1の潜在変数z1および第2の潜在変数z2を出力することが可能となる。また、潜在モデル31Aによってより好ましい量子化された第1の潜在変数zd1および量子化された第2の潜在変数zd2を取得することが可能となる。また、デコーダ32Cからは対象画像G0により近い第2の再構成画像V2を出力することが可能となる。
 また、デコーダ32Bから出力される第1の学習用再構成画像VT1とデコーダ32Cから出力される第2の学習用再構成画像VT2とは、関心領域の存在の有無に差異がある。このため、関心領域に対応する領域においては第1の学習用再構成画像VT1と第2の学習用再構成画像VT2との差分値が一定値以上担保されているほど、かつ関心領域に対応しない領域においては第1の学習用再構成画像VT1と第2の学習用再構成画像VT2との差の絶対値が小さいほど、対象画像G0が入力された場合に、エンコーダ31からはより好ましい第1の潜在変数z1および第2の潜在変数z2を出力することが可能となる。また、潜在モデル31Aによってより好ましい量子化された第1の潜在変数zd1および量子化された第2の潜在変数zd2を取得することが可能となる。また、デコーダ32Bからは対象画像G0に含まれる関心領域が正常な領域であったとした場合の画像により近い第1の再構成画像V1を出力することが可能となる。さらに、デコーダ32Cからは対象画像G0により近い第2の再構成画像V2を出力することが可能となる。
 このため、学習部24Aは、上述したように導出した第1から第6の損失L1~L6のうちの少なくとも1つに基づいて、エンコーダ31、潜在モデル31Aおよびデコーダ32A~32Cの学習を行う。本実施形態においては、学習部24Aは、損失L1~L6のすべてが、予め定められた条件を満足するように、エンコーダ31、潜在モデル31Aおよびデコーダ32A~32Cを学習する。すなわち、第1から第5の損失L1~L5が小さくなり、第6の損失L6が適切な値となるように、エンコーダ31およびデコーダ32A~32Cを構成する処理層の数、プーリング層の数、処理層におけるカーネルの係数、カーネルの大きさおよび各層間の結合の重み等を導出することにより、エンコーダ31およびデコーダ32A~32Cを学習する。また、学習部24Aは、潜在モデル31Aについては、第1から第5の損失L1~L5が小さくなり、第6の損失L6が適切な値となるように、第1の特徴ベクトルe1kおよび第2の特徴ベクトルe2kを更新する。
 なお、本実施形態においては、学習部24Aは、第1の損失L1が予め定められたしきい値Th1以下となり、第2の損失L2が予め定められたしきい値Th2以下となり、第3の損失L3が予め定められたしきい値Th3以下となり、第4の損失L4が予め定められたしきい値Th4以下となり、第5の損失L5が予め定められたしきい値Th5以下となるように、エンコーダ31、潜在モデル31Aおよびデコーダ32A~32Cを学習する。また、学習部24Aは、第6の損失L6について、関心領域に対応する領域においては第1の学習用再構成画像VT1と第2の学習用再構成画像VT2との差の絶対値が予め定められたしきい値Th6以上となり、関心領域に対応しない領域においては第1の学習用再構成画像VT1と第2の学習用再構成画像VT2との差分値が予め定められたしきい値Th7以下となるように、エンコーダ31、潜在モデル31Aおよびデコーダ32A~32Cを学習する。なお、しきい値を使用する学習に代えて,予め定められた回数の学習を行うようにしてもよく、各損失L1~L6が最小あるいは最大になるように学習を行うようにしてもよい。
 このように学習部24Aがエンコーダ31、潜在モデル31Aおよびデコーダ32A~32Cの学習を行うことにより、エンコーダ31は、入力される対象画像G0に含まれる脳の関心領域の異常さの画像特徴をより適切に表す第1の潜在変数z1を出力するようになる。また、エンコーダ31は、入力される対象画像G0に含まれる脳において、関心領域が正常な領域であったとした場合の脳の画像特徴をより適切に表す第2の潜在変数z2を出力するようになる。また、潜在モデル31Aは、入力される対象画像G0に含まれる脳の関心領域の異常さを表す画像特徴をより適切に表す量子化された第1の潜在変数zd1を取得するようになる。また、潜在モデル31Aは、入力される対象画像G0に含まれる脳において、関心領域が正常な領域であったとした場合の脳の画像特徴をより適切に表す量子化された第2の潜在変数zd2を取得するようになる。
 また、デコーダ32Aは、量子化された第1の潜在変数zd1が入力されると、対象画像G0に含まれる関心領域の異常さの種類に応じたセマンティックセグメンテーションをより正確に表す関心領域ラベル画像V0を出力するようになる。また、デコーダ32Bは、量子化された第2の潜在変数zd2が入力されると、対象画像G0における、関心領域が仮に正常な領域であった場合の脳の画像特徴を再構成した第1の再構成画像V1を出力するようになる。また、デコーダ32Cは、量子化された第2の潜在変数zd2が入力され、かつ各処理層に関心領域ラベル画像V0が側副的に入力されると、第2の潜在変数zd2に基づく、第1の再構成画像V1に含まれる正常組織のみからなる脳についての画像特徴に対して、第1の潜在変数zd1に基づく、疾患の種類に応じて定められた領域の異常さについての画像特徴が付加され、その結果、関心領域を含む脳の画像特徴を再構成した第2の再構成画像V2を出力するようになる。
 類似画像検索装置25の類似度導出部25Aは、画像保管サーバ3に保管された画像データベースDBに登録された参照画像のうち、診断の対象となるクエリ画像(すなわち対象画像G0)と類似する類似参照画像を検索すべく、クエリ画像と画像データベースDBに登録されたすべての参照画像との類似度を導出する。なお、以降の説明においては、クエリ画像として対象画像と同一の参照符号G0を用いるものとする。ここで、画像データベースDBには、脳の各種症例についての複数の参照画像が登録されている。本実施形態においては、参照画像について、学習済みのエンコーダ31を含む画像符号化装置22により、量子化された第1および第2の潜在変数が予め導出されて、参照画像と対応づけられて画像データベースDBに登録されている。参照画像と対応づけられて画像データベースDBに登録された第1および第2の潜在変数を、第1および第2の参照潜在変数と称する。
 以下、類似度導出部25Aにおける類似度の導出について説明する。本実施形態においては、クエリ画像G0には脳の疾患である関心領域が含まれているものとする。類似度導出部25Aは、検索条件に基づいて、クエリ画像G0と参照画像との類似度を導出する。
 ここで、本実施形態においては、画像符号化装置22により、クエリ画像G0に含まれる関心領域の異常さについての画像特徴を表す第1の潜在変数が導出される。また、画像符号化装置22により、クエリ画像G0における関心領域が正常な領域であったとした場合の画像についての画像特徴を表す第2の潜在変数が導出される。このため、本実施形態においては、検索条件として、関心領域も含めてクエリ画像G0と類似する参照画像を検索する第1の検索条件、クエリ画像G0に含まれる関心領域の異常さのみが類似する参照画像を検索する第2の検索条件、およびクエリ画像G0に含まれる関心領域が正常な領域であったとした場合の画像が類似する参照画像を検索する第3の検索条件が選択可能となっている。選択は、入力デバイス15を用いて画像処理システム20に入力することができる。そして、類似度導出部25Aは、入力された検索条件にしたがって、クエリ画像G0と参照画像との類似度を導出する。
 第1の検索条件が入力された場合、類似度導出部25Aは、クエリ画像G0について導出された第1の潜在変数zd1と参照画像に対応する第1の参照潜在変数との差、およびクエリ画像G0について導出された第2の潜在変数zd2と参照画像に対応する第2の参照潜在変数との差に基づいて、類似度を導出する。
 具体的には、類似度導出部25Aは、下記の式(1)に示すように、潜在変数のベクトル空間において、第1の潜在変数zd1と第1の参照潜在変数とのマップにおける対応する位置のベクトルのユークリッド距離√{(Vt1(i,j)-Vr1(i,j)}2を導出し、導出したユークリッド距離の総和Σ[√{(Vt1(i,j)-Vr1(i,j)}2]を導出する。また、類似度導出部25Aは、第2の潜在変数zd2と第2の参照潜在変数とのマップにおける対応する位置のベクトルのユークリッド距離√{(Vt2(i,j)-Vr2(i,j)}2を導出し,導出したユークリッド距離の総和Σ[√{(Vt2(i,j)-Vr2(i,j)}2]を導出する。そして、類似度導出部25Aは、2つの総和の和を類似度として導出する。
 式(1)において、S1は第1の検索条件に基づく類似度、Vt1(i,j)は、第1の潜在変数zd1におけるマップの位置(i,j)におけるベクトル、Vr1(i,j)は、第1の参照潜在変数におけるマップの位置(i,j)におけるベクトル、Vt2(i,j)は、第2の潜在変数zd2におけるマップの位置(i,j)におけるベクトル、Vr2(i,j)は、第2の参照潜在変数におけるマップの位置(i,j)におけるベクトルをそれぞれ表す。
 S1=Σ[√{(Vt1(i,j)-Vr1(i,j)}2]+Σ[√{(Vt2(i,j)-Vr2(i,j)}2] (1)
 なお、上記式(1)に代えて、下記の式(1a)により、類似度S1を導出してもよい。ここで、concat(a,b)とはベクトルaとベクトルbとを連結する演算である。
 S1 = Σ[√{(Vt12(i,j)-Vr12(i,j)}2]  (1a)
 但し、
 Vt12(i,j) = concat(Vt1(i,j),Vt2(i,j)) 
 Vr12(i,j) = concat(Vr2(i,j),Vr2(i,j))
 一方、第2の検索条件が入力された場合、類似度導出部25Aは、クエリ画像G0について導出された第1の潜在変数zd1と参照画像に対応する第1の参照潜在変数との差に基づいて、類似度を導出する。具体的には、類似度導出部25Aは、潜在変数のベクトル空間において、下記の式(2)に示すように、第1の潜在変数zd1と第1の参照潜在変数とのマップにおける対応する位置のベクトルのユークリッド距離√{(Vt1(i,j)-Vr1(i,j)}2を導出し、導出したユークリッド距離の総和Σ[√{(Vt1(i,j)-Vr1(i,j)}2]を類似度S2として算出する。
 S2=Σ[√{(Vt1(i,j)-Vr1(i,j)}2] (2)
 さらに、第3の検索条件が入力された場合、類似度導出部25Aは、クエリ画像G0について導出された第2の潜在変数zd2と参照画像に対応する第2の参照潜在変数との差に基づいて、類似度を導出する。具体的には、類似度導出部25Aは、潜在変数のベクトル空間において、下記の式(3)に示すように、第2の潜在変数zd2と第2の参照潜在変数とのマップにおける対応する位置のベクトルのユークリッド距離√{(Vt2(i,j)-Vr2(i,j)}2を導出し、導出したユークリッド距離の総和Σ[√{(Vt2(i,j)-Vr2(i,j)}2]を類似度S3として算出する。
 S3=[√{(Vt2(i,j)-Vr2(i,j)}2] (3)
 なお、類似度S1~S3の導出は、上記手法に限定されるものではない。ユークリッド距離に代えて、マンハッタン距離、ベクトル内積あるいはコサイン類似度等を用いてもよい。
 類似画像検索装置25の抽出部25Bは、画像データベースDBから、入力された検索条件に応じた類似度S1~S3に基づいて、クエリ画像G0に類似する参照類似画像を抽出する。抽出部25Bは、クエリ画像G0と画像データベースDBに登録されたすべての参照画像との類似度S1~S3に基づいて、対象画像G0に類似する参照画像を類似参照画像として抽出する。具体的には、抽出部25Bは、類似度S1~S3が大きい順に参照画像をソートして検索結果リストを作成する。図7は検索結果リストを示す図である。図7に示すように、検索結果リスト50には、画像データベースDBに登録された参照画像が、類似度S1~S3が大きい順にソートされている。そして、抽出部25Bは、検索結果リスト50におけるソート順が上位所定数の参照画像を、画像データベースDBから類似参照画像として抽出する。
 表示制御部26は、抽出部25Bによる抽出結果をディスプレイ14に表示する。図8~図10はそれぞれ第1から第3の検索条件に基づく抽出結果の表示画面を示す図である。図8~10に示すように、検出結果の表示画面40は、クエリ画像をG0表示する第1の領域41および検索結果を表示する第2の表示領域42を含む。また、表示画面40は、検索条件を選択するためのプルダウンメニュー43および検索を実行するための検索実行ボタン44を含む。なお、プルダウンメニュー43は、第1の検索条件を表す「関心領域+正常領域」、第2の検索条件を表す「関心領域のみ」、および第3の検索条件を表す「正常領域のみ」を選択可能となっている。操作者が、プルダウンメニュー43において所望とする検索条件を選択し、検索実行ボタン44を選択することにより、本実施形態の処理が実行されて、検索結果の表示画面40がディスプレイ14に表示される。 
 図8に示すように、第1の検索条件に基づく検索結果の表示画面40の第2の表示領域42には、クエリ画像G0に含まれる関心領域も含めて、クエリ画像G0と類似する4つの類似参照画像R11~R14が表示されている。また、図9に示すように、第2の検索条件に基づく表示画面の第2の表示領域42には、クエリ画像G0に含まれる関心領域の異常さのみが類似する4つの類似参照画像R21~R24が表示されている。また、図10に示すように、第3の検索条件に基づく検索結果の表示画面40の第2の表示領域42には、クエリ画像G0に含まれる脳において関心領域が正常な領域であったとした場合の画像が類似する4つの類似参照画像R31~R34が表示されている。
 次いで、本実施形態において行われる処理について説明する。図11は本実施形態において行われる学習処理を示すフローチャートである。なお、複数の教師データは画像保管サーバ3から取得されてストレージ13に保存されているものとする。まず、学習装置24の学習部24Aは、教師画像36および教師ラベル画像38を含む1つの教師データ35をストレージ13から取得し(ステップST1)、教師データ35に含まれる、教師画像36を画像符号化装置22のエンコーダ31に入力する。エンコーダ31は、第1の潜在変数z1および第2の潜在変数z2を、それぞれ第1の学習用特徴量および第2の学習用特徴量として導出する(学習用特徴量導出;ステップST2)。
 次いで、学習部24Aは、第1の潜在変数z1および第2の潜在変数z2から、量子化された第1の潜在変数zd1および量子化された第2の潜在変数zd2を導出する(量子化;ステップST3)。そして学習部24Aは、量子化された第1の潜在変数zd1を画像復号化装置23のデコーダ32Aに入力する。これにより、デコーダ32Aは、教師画像36から関心領域37の異常さについての種類に応じた学習用関心領域ラベル画像VT0を導出する。また、学習部24Aは、量子化された第2の潜在変数zd2を画像復号化装置23のデコーダ32Bに入力する。これにより、デコーダ32Bは、教師画像36に含まれる関心領域が正常な領域な領域であったとした場合の画像を再構成した第1の学習用再構成画像VT1を導出する。さらに、学習部24Aは、第2の潜在変数zd2をデコーダ32Cに入力し、さらにデコーダ32Cの各処理層の解像度に応じたサイズの学習用関心領域ラベル画像VT0を、デコーダ32Cの各処理層に側副的に入力する。これにより、デコーダ32Cは教師画像36の画像特徴を再構成した第2の学習用再構成画像VT2を導出する(学習用画像導出;ステップST4)。
 続いて、学習部24Aは、上述したように第1から第6の損失L1~L6を導出する(ステップST5)。
 そして、学習部24Aは、第1から第6の損失L1~L6が、予め定められた条件を満足するか否かを判定する(条件判定;ステップST6)。ステップST6が否定されると、学習部24Aは新たな教師データをストレージ13から取得し(ステップST7)、ステップST2の処理に戻り、新たな教師データを用いてステップST2~ステップST6の処理を繰り返す。ステップST6が肯定されると、学習部24Aは学習処理を終了する。これにより、画像符号化装置22のエンコーダ31および画像復号化装置23のデコーダ32A~32Cが構築される。
 次いで、本実施形態において行われる類似画像検索処理について説明する。図12は、本実施形態において行われる類似画像検索処理のフローチャートである。まず、情報取得部21が、検索の対象となるクエリ画像G0を取得し(ステップST11)、表示制御部26が、クエリ画像G0をディスプレイ14に表示する(ステップST12)。そして、プルダウンメニュー43において検索条件が指定されて、検索実行ボタン44が選択されることにより検索実行が指示されると(ステップST13;YES)、画像符号化装置22が、クエリ画像G0についての量子化された第1の潜在変数zd1および量子化された第2の潜在変数zd2を第1の特徴量および第2の特徴量として導出する(特徴量導出;ステップST14)。そして、類似度導出部25Aが、第1および第2の特徴量に基づいて、対象画像G0と画像保管サーバ3の画像データベースDBに登録された参照画像との類似度を導出する(ステップST15)。次いで、抽出部25Bが、検索条件に応じて、類似度が上位所定数の参照画像を類似参照画像として抽出する(ステップST16)。さらに、表示制御部26が、類似参照画像を表示画面40の第2の表示領域42に表示し(検索結果表示;ステップST17)、処理を終了する。
 このように、本実施形態においては、画像符号化装置22のエンコーダ31において、対象画像G0を符号化することにより、対象画像G0に含まれる関心領域の異常さについての画像特徴を表す少なくとも1つの第1の特徴量を導出するようにした。また、エンコーダ31において、対象画像G0を符号化することにより、対象画像G0に含まれる関心領域が正常な領域な領域であったとした場合の画像についての画像特徴を表す少なくとも1つの第2の特徴量を導出するようにした。これにより、対象画像G0を符号化することによって、対象画像G0に含まれる関心領域の異常さについての画像特徴と、関心領域が正常な領域であったとした場合の画像についての画像特徴とを、分離して扱うことが可能となる。
 また、対象画像G0に含まれる関心領域に含まれる疾患の種類に応じて定められた領域についての画像特徴を、関心領域が正常な領域であったとした場合の画像についての画像特徴からの差分として扱うことにより、対象画像G0に含まれる関心領域の異常さについての画像特徴を表す第1の特徴量のみを用いた、対象画像G0に類似する参照画像の検索を行うことができる。また、対象画像G0に含まれる関心領域が正常な領域であったとした場合についての画像の画像特徴を表す第2の特徴量のみを用いた、対象画像G0に類似する参照画像の検索を行うことができる。また、第1および第2の特徴量の双方を用いた、対象画像G0に類似する参照画像の検索を行うことができる。したがって、所望とする検索条件に応じた類似画像の検索を行うことができる。
 また、本実施形態においては、画像復号化装置23の学習済みのデコーダ32Aを用いることにより、第1の特徴量から、入力された対象画像G0に含まれる関心領域の異常さについての種類に応じた関心領域ラベル画像V0を導出することができる。これにより、対象画像G0に含まれる疾患の種類に応じて定められた領域をラベル画像として取得することができる。
 また、本実施形態においては、画像復号化装置23の学習済みのデコーダ32Bを用いることにより、第2の特徴量から、入力された対象画像G0に含まれる関心領域が仮に正常な領域であった場合の画像についての画像特徴を再構成した第1の再構成画像V1を導出することができる。これにより、入力された画像から関心領域を除去した正常組織のみからなる画像を取得することができる。
 また、本実施形態においては、画像復号化装置23の学習済みのデコーダ32Cを用いることにより、対象画像G0についての画像特徴を再構成した第2の再構成画像V2を導出することができる。これにより、対象画像G0を再現することができる。
 なお、本実施形態による画像符号化装置においては、対象画像が異常な領域を関心領域として含まない場合、第1の特徴量が無効な値となる。この場合、第2の特徴量、あるいは第1の特徴量および第2の特徴量の組み合わせは、対象画像についての画像特徴を表すものであってもよい。
 なお、上記実施形態においては、脳の画像を対象画像として用いているが、対象画像は脳に限定されるものではない。脳の他に、肺、心臓、肝臓、腎臓、および四肢等の人体の任意の部位を含む画像を対象画像とすることができる。この場合、部位に現れる腫瘤、梗塞、癌および骨折等の疾患を関心領域として含む教師画像および教師ラベル画像を用いて、エンコーダ31およびデコーダ32A~32Cの学習を行えばよい。これにより、対象画像G0から、対象画像G0に含まれる部位に応じた関心領域の異常さについての画像特徴を表す第1の特徴量および、対象画像G0に含まれる関心領域が正常な領域な領域であったとした場合の画像についての画像特徴を表す第2の特徴量を導出することが可能となる。
 また、上記実施形態においては、第1の特徴量導出部22Aおよび第2の特徴量導出部22Bのそれぞれについて、別々の符号化学習モデルを使用し、別々の符号化学習モデルにより、第1の特徴量および第2の特徴量をそれぞれ導出するようにしてもよい。
 また、上記実施形態において、例えば、情報取得部21、第1の特徴量導出部22A、第2の特徴量導出部22B、セグメンテーション部23A、第1の再構成部23B、第2の再構成部23C、学習部24A、類似度導出部25A、抽出部25Bおよび表示制御部26といった各種の処理を実行する処理部(Processing Unit)のハードウェア的な構造としては、次に示す各種のプロセッサ(Processor)を用いることができる。上記各種のプロセッサには、上述したように、ソフトウェア(プログラム)を実行して各種の処理部として機能する汎用的なプロセッサであるCPUに加えて、FPGA(Field Programmable Gate Array)等の製造後に回路構成を変更可能なプロセッサであるプログラマブルロジックデバイス(Programmable Logic Device :PLD)、ASIC(Application Specific Integrated Circuit)等の特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が含まれる。
 1つの処理部は、これらの各種のプロセッサのうちの1つで構成されてもよいし、同種または異種の2つ以上のプロセッサの組み合わせ(例えば、複数のFPGAの組み合わせまたはCPUとFPGAとの組み合わせ)で構成されてもよい。また、複数の処理部を1つのプロセッサで構成してもよい。
 複数の処理部を1つのプロセッサで構成する例としては、第1に、クライアントおよびサーバ等のコンピュータに代表されるように、1つ以上のCPUとソフトウェアとの組み合わせで1つのプロセッサを構成し、このプロセッサが複数の処理部として機能する形態がある。第2に、システムオンチップ(System On Chip:SoC)等に代表されるように、複数の処理部を含むシステム全体の機能を1つのIC(Integrated Circuit)チップで実現するプロセッサを使用する形態がある。このように、各種の処理部は、ハードウェア的な構造として、上記各種のプロセッサの1つ以上を用いて構成される。
 さらに、これらの各種のプロセッサのハードウェア的な構造としては、より具体的には、半導体素子等の回路素子を組み合わせた電気回路(Circuitry)を用いることができる。
   1  コンピュータ
   2  撮影装置
   3  画像保管サーバ
   4  ネットワーク
   11  CPU
   12A  画像符号化プログラム
   12B  画像復号化プログラム
   12C  学習プログラム
   12D  類似画像検索プログラム
   13  ストレージ
   14  ディスプレイ
   15  入力デバイス
   16  メモリ
   17  ネットワークI/F
   18  バス
   20  画像処理システム
   21  情報取得部
   22  画像符号化装置
   22A  第1の特徴量導出部
   22B  第2の特徴量導出部
   23  画像復号化装置
   23A  セグメンテーション部
   23B  第1の再構成部
   23C  第2の再構成部
   24  学習装置
   24A  学習部
   25  類似画像検索装置
   25A  類似度導出部
   25B  抽出部
   26  表示制御部
   31  エンコーダ
   31A  潜在モデル
   32A~32C  デコーダ
   35  教師データ
   36  教師画像
   37  関心領域
   38  教師ラベル画像
   40  表示画面
   41  第1の表示領域
   42  第2の表示領域
   43  プルダウンメニュー
   44  検索実行ボタン
   G0  対象画像
   50  検索結果リスト
   R11~R14、R21~R24、R31~R34  類似参照画像
   V0  関心領域ラベル画像
   V1  第1の再構成画像
   V2  第2の再構成画像
   VT0  学習用関心領域ラベル画像
   VT1  学習用第1の再構成画像
   VT2  学習用第2の再構成画像
   z1  第1の潜在変数
   z2  第2の潜在変数
   zd1  量子化された第1の潜在変数
   zd2  量子化された第2の潜在変数

Claims (18)

  1.  少なくとも1つのプロセッサを備え、
     前記プロセッサは、
     対象画像を符号化することにより、前記対象画像に含まれる関心領域の異常さについての画像特徴を表す少なくとも1つの第1の特徴量を導出し、
     前記対象画像を符号化することにより、前記対象画像に含まれる前記関心領域が正常な領域であったとした場合の画像についての画像特徴を表す少なくとも1つの第2の特徴量を導出するように構成される画像符号化装置。
  2.  前記第1の特徴量および前記第2の特徴量の組み合わせは、前記対象画像についての画像特徴を表す請求項1に記載の画像符号化装置。
  3.  前記関心領域の異常さについての代表的な画像特徴を表す少なくとも1つの第1の特徴ベクトル、および前記関心領域が正常な領域であったとした場合の画像についての代表的な画像特徴を表す第2の特徴ベクトルを記憶するストレージを備え、
     前記プロセッサは、前記関心領域の異常さについての画像特徴を表す特徴ベクトルを、前記第1の特徴ベクトルのうちの、前記関心領域の異常さについての画像特徴との差分が最小となる第1の特徴ベクトルに置換することにより量子化して、前記第1の特徴量を導出し、
     前記関心領域が正常な領域であったとした場合の画像についての画像特徴を表す特徴ベクトルを、前記第2の特徴ベクトルのうちの、前記関心領域が正常な領域であったとした場合の画像についての画像特徴との差分が最小となる第2の特徴ベクトルに置換することにより量子化して、前記第2の特徴量を導出するように構成される請求項1または2に記載の画像符号化装置。
  4.  前記プロセッサは、前記対象画像が入力されると、前記第1の特徴量および前記第2の特徴量を導出するように学習がなされた符号化学習モデルを用いて、前記第1の特徴量および前記第2の特徴量を導出するように構成される請求項1から3のいずれか1項に記載の画像符号化装置。
  5.  少なくとも1つのプロセッサを備え、
     前記プロセッサは、請求項1から4のいずれか1項に記載の画像符号化装置によって、前記対象画像から導出した前記第1の特徴量に基づいて、前記対象画像における前記関心領域の異常さについての種類に応じた領域を抽出するように構成される画像復号化装置。
  6.  前記プロセッサは、前記第2の特徴量に基づいて、前記対象画像における前記関心領域が正常な領域であったとした場合の画像についての画像特徴を再構成した第1の再構成画像を導出し、
     前記第1の特徴量および前記第2の特徴量に基づいて、前記対象画像についての画像特徴を再構成した第2の再構成画像を導出するように構成される請求項5に記載の画像復号化装置。
  7.  前記プロセッサは、前記第1の特徴量に基づいて、前記対象画像における前記関心領域の異常さについての種類に応じたラベル画像を導出し、前記第2の特徴量に基づいて、前記対象画像における前記関心領域が正常な領域であったとした場合の画像についての画像特徴を再構成した第1の再構成画像を導出し、前記第1の特徴量および前記第2の特徴量に基づいて、前記対象画像の画像特徴を再構成した第2の再構成画像を導出するように学習がなされた復号化学習モデルを用いて、前記関心領域の異常さについての種類に応じたラベル画像の導出、前記第1の再構成画像の導出および前記第2の再構成画像の導出を行うように構成される請求項6に記載の画像復号化装置。
  8.  請求項1から4のいずれか1項に記載の画像符号化装置と、請求項5から7のいずれか1項に記載の画像復号化装置とを備えた画像処理装置。
  9.  関心領域を含む教師画像および該教師画像における該関心領域の異常さについての種類に応じた教師ラベル画像からなる教師データを用いて、請求項4に記載の画像符号化装置における符号化学習モデルと、請求項7に記載の画像復号化装置における復号化学習モデルとを学習する学習装置であって、
     少なくとも1つのプロセッサを備え、
     前記プロセッサは、前記符号化学習モデルを用いて、前記教師画像から前記第1の特徴量および前記第2の特徴量にそれぞれ対応する第1の学習用特徴量および第2の学習用特徴量を導出し、
     前記復号化学習モデルを用いて、前記第1の学習用特徴量に基づいて前記教師画像に含まれる関心領域の異常さについての種類に応じた学習用ラベル画像を導出し、前記第2の学習用特徴量に基づいて、前記教師画像における前記関心領域が正常な領域であったとした場合の画像についての画像特徴を再構成した第1の学習用再構成画像を導出し、前記第1の学習用特徴量および前記第2の学習用特徴量に基づいて、前記教師画像の画像特徴を再構成した第2の学習用再構成画像を導出し、
     前記第1の学習用特徴量と予め定められた第1の特徴量の確率分布との差である第1の損失、前記第2の学習用特徴量と予め定められた第2の特徴量の確率分布との差である第2の損失、前記教師データに含まれる前記教師ラベル画像と前記学習用ラベル画像との前記教師画像に対するセマンティックセグメンテーションとしての差に基づく第3の損失、前記第1の学習用再構成画像と前記教師画像における前記関心領域外の画像との差に基づく第4の損失、前記第2の学習用再構成画像と前記教師画像との差に基づく第5の損失、および前記第1の学習用再構成画像と前記第2の学習用再構成画像との前記関心領域内外にそれぞれ対応する領域間の差に基づく第6の損失の少なくとも1つが予め定められた条件を満足するように、前記符号化学習モデルおよび前記復号化学習モデルを学習するように構成される学習装置。
  10.  少なくとも1つのプロセッサと、
     請求項1から4のいずれか1項記載の画像符号化装置とを備え、
     前記プロセッサは、
     前記画像符号化装置により、クエリ画像についての第1の特徴量および第2の特徴量を導出し、
     複数の参照画像のそれぞれについての第1の特徴量および第2の特徴量が、前記複数の参照画像のそれぞれと対応づけられて登録された画像データベースを参照して、前記クエリ画像から導出された前記第1の特徴量および前記第2の特徴量の少なくとも一方に基づいて、前記クエリ画像と前記複数の参照画像のそれぞれとの類似度を導出し、
     前記類似度に基づいて、前記クエリ画像に類似する参照画像を類似画像として前記画像データベースから抽出するように構成される類似画像検索装置。
  11.  対象画像を符号化することにより、前記対象画像に含まれる関心領域の異常さについての画像特徴を表す少なくとも1つの第1の特徴量を導出し、
     前記対象画像を符号化することにより、前記対象画像に含まれる前記関心領域が正常な領域であったとした場合の画像についての画像特徴を表す少なくとも1つの第2の特徴量を導出する画像符号化方法。
  12.  請求項1から4のいずれか1項に記載の画像符号化装置によって、前記対象画像から導出した前記第1の特徴量に基づいて、前記対象画像における前記関心領域の異常さについての種類に応じた領域を抽出する画像復号化方法。
  13.  関心領域を含む教師画像および該教師画像における該関心領域の異常さについての種類に応じた教師ラベル画像からなる教師データを用いて、請求項4に記載の画像符号化装置における符号化学習モデルと、請求項7に記載の画像復号化装置における復号化学習モデルとを学習する学習方法であって、
     前記符号化学習モデルを用いて、前記教師画像から前記第1の特徴量および前記第2の特徴量にそれぞれ対応する第1の学習用特徴量および第2の学習用特徴量を導出し、
     前記復号化学習モデルを用いて、前記第1の学習用特徴量に基づいて前記教師画像に含まれる関心領域の異常さについての種類に応じた学習用ラベル画像を導出し、前記第2の学習用特徴量に基づいて、前記教師画像における前記関心領域が正常な領域であったとした場合の画像についての画像特徴を再構成した第1の学習用再構成画像を導出し、前記第1の学習用特徴量および前記第2の学習用特徴量に基づいて、前記教師画像の画像特徴を再構成した第2の学習用再構成画像を導出し、
     前記第1の学習用特徴量と予め定められた第1の特徴量の確率分布との差である第1の損失、前記第2の学習用特徴量と予め定められた第2の特徴量の確率分布との差である第2の損失、前記教師データに含まれる前記教師ラベル画像と前記学習用ラベル画像との前記教師画像に対するセマンティックセグメンテーションとしての差に基づく第3の損失、前記第1の学習用再構成画像と前記教師画像における前記関心領域外の画像との差に基づく第4の損失、前記第2の学習用再構成画像と前記教師画像との差に基づく第5の損失、および前記第1の学習用再構成画像と前記第2の学習用再構成画像との前記関心領域内外にそれぞれ対応する領域間の差に基づく第6の損失の少なくとも1つが予め定められた条件を満足するように、前記符号化学習モデルおよび前記復号化学習モデルを学習する学習方法。
  14.  請求項1から4のいずれか1項記載の画像符号化装置により、クエリ画像についての第1の特徴量および第2の特徴量を導出し、
     複数の参照画像のそれぞれについての第1の特徴量および第2の特徴量が、前記複数の参照画像のそれぞれと対応づけられて登録された画像データベースを参照して、前記クエリ画像から導出された前記第1の特徴量および前記第2の特徴量の少なくとも一方に基づいて、前記クエリ画像と前記複数の参照画像のそれぞれとの類似度を導出し、
     前記類似度に基づいて、前記クエリ画像に類似する参照画像を類似画像として前記画像データベースから抽出する類似画像検索方法。
  15.  対象画像を符号化することにより、前記対象画像に含まれる関心領域の異常さについての画像特徴を表す少なくとも1つの第1の特徴量を導出する手順と、
     前記対象画像を符号化することにより、前記対象画像に含まれる前記関心領域が正常な領域であったとした場合の画像についての画像特徴を表す少なくとも1つの第2の特徴量を導出する手順とをコンピュータに実行させる画像符号化プログラム。
  16.  請求項1から4のいずれか1項に記載の画像符号化装置によって、前記対象画像から導出した前記第1の特徴量に基づいて、前記対象画像における前記関心領域の異常さの種類に応じた領域を抽出する手順をコンピュータに実行させる画像復号化プログラム。
  17.  関心領域を含む教師画像および該教師画像における該関心領域の異常さについての種類に応じた教師ラベル画像からなる教師データを用いて、請求項4に記載の画像符号化装置における符号化学習モデルと、請求項7に記載の画像復号化装置における復号化学習モデルとを学習する手順をコンピュータに実行させる学習プログラムであって、
     前記符号化学習モデルを用いて、前記教師画像から前記第1の特徴量および前記第2の特徴量にそれぞれ対応する第1の学習用特徴量および第2の学習用特徴量を導出する手順と、
     前記復号化学習モデルを用いて、前記第1の学習用特徴量に基づいて前記教師画像に含まれる関心領域の異常さについての種類に応じた学習用ラベル画像を導出し、前記第2の学習用特徴量に基づいて、前記教師画像における前記関心領域が正常な領域であったとした場合の画像についての画像特徴を再構成した第1の学習用再構成画像を導出し、前記第1の学習用特徴量および前記第2の学習用特徴量に基づいて、前記教師画像の画像特徴を再構成した第2の学習用再構成画像を導出する手順と、
     前記第1の学習用特徴量と予め定められた第1の特徴量の確率分布との差である第1の損失、前記第2の学習用特徴量と予め定められた第2の特徴量の確率分布との差である第2の損失、前記教師データに含まれる前記教師ラベル画像と前記学習用ラベル画像との前記教師画像に対するセマンティックセグメンテーションとしての差に基づく第3の損失、前記第1の学習用再構成画像と前記教師画像における前記関心領域外の画像との差に基づく第4の損失、前記第2の学習用再構成画像と前記教師画像との差に基づく第5の損失、および前記第1の学習用再構成画像と前記第2の学習用再構成画像との前記関心領域内外にそれぞれ対応する領域間の差に基づく第6の損失の少なくとも1つが予め定められた条件を満足するように、前記符号化学習モデルおよび前記復号化学習モデルを学習する手順とをコンピュータに実行させる学習プログラム。
  18.  請求項1から4のいずれか1項記載の画像符号化装置により、クエリ画像についての第1の特徴量および第2の特徴量を導出する手順と、
     複数の参照画像のそれぞれについての第1の特徴量および第2の特徴量が、前記複数の参照画像のそれぞれと対応づけられて登録された画像データベースを参照して、前記クエリ画像から導出された前記第1の特徴量および前記第2の特徴量の少なくとも一方に基づいて、前記クエリ画像と前記複数の参照画像のそれぞれとの類似度を導出する手順と、
     前記類似度に基づいて、前記クエリ画像に類似する参照画像を類似画像として前記画像データベースから抽出する手順とをコンピュータに実行させる類似画像検索プログラム。
PCT/JP2021/026147 2020-09-15 2021-07-12 画像符号化装置、方法およびプログラム、画像復号化装置、方法およびプログラム、画像処理装置、学習装置、方法およびプログラム、並びに類似画像検索装置、方法およびプログラム WO2022059315A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
DE112021004926.7T DE112021004926T5 (de) 2020-09-15 2021-07-12 Bildkodiervorrichtung, bildkodierverfahren, bildkodierprogramm,bilddekodiervorrichtung, bilddekodierverfahren, bilddekodierprogramm,bildverarbeitungsvorrichtung, lernvorrichtung, lernverfahren, lernprogramm, suchvorrichtung für ähnliche bilder, suchverfahren für ähnliche bilder, und suchprogramm für ähnliche bilder
JP2022550372A JP7444382B2 (ja) 2020-09-15 2021-07-12 画像符号化装置、方法およびプログラム、画像復号化装置、方法およびプログラム、画像処理装置、学習装置、方法およびプログラム、並びに類似画像検索装置、方法およびプログラム
US18/177,733 US20230206447A1 (en) 2020-09-15 2023-03-02 Image encoding device, image encoding method, image encoding program, image decoding device, image decoding method, image decoding program, image processing device, learning device, learning method, learning program, similar image search device, similar image search method, and similar image search program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020154532 2020-09-15
JP2020-154532 2020-09-15

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US18/177,733 Continuation US20230206447A1 (en) 2020-09-15 2023-03-02 Image encoding device, image encoding method, image encoding program, image decoding device, image decoding method, image decoding program, image processing device, learning device, learning method, learning program, similar image search device, similar image search method, and similar image search program

Publications (1)

Publication Number Publication Date
WO2022059315A1 true WO2022059315A1 (ja) 2022-03-24

Family

ID=80775777

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/026147 WO2022059315A1 (ja) 2020-09-15 2021-07-12 画像符号化装置、方法およびプログラム、画像復号化装置、方法およびプログラム、画像処理装置、学習装置、方法およびプログラム、並びに類似画像検索装置、方法およびプログラム

Country Status (4)

Country Link
US (1) US20230206447A1 (ja)
JP (1) JP7444382B2 (ja)
DE (1) DE112021004926T5 (ja)
WO (1) WO2022059315A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023248788A1 (ja) * 2022-06-21 2023-12-28 株式会社日立ハイテク 識別器生成装置および画像診断支援装置

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11941043B2 (en) * 2022-07-25 2024-03-26 Dell Products L.P. System and method for managing use of images using landmarks or areas of interest

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07123268A (ja) * 1993-10-22 1995-05-12 Fujitsu Ltd 画像符号化復元方法および装置
JP2008229161A (ja) * 2007-03-22 2008-10-02 Fujifilm Corp 画像成分分離装置、方法、およびプログラム、ならびに、正常画像生成装置、方法、およびプログラム
JP2013165765A (ja) * 2012-02-14 2013-08-29 Toshiba Corp 画像診断支援装置及び画像診断支援方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004005364A (ja) 2002-04-03 2004-01-08 Fuji Photo Film Co Ltd 類似画像検索システム
JP7140630B2 (ja) 2018-10-19 2022-09-21 キヤノンメディカルシステムズ株式会社 画像処理装置、データ生成装置及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07123268A (ja) * 1993-10-22 1995-05-12 Fujitsu Ltd 画像符号化復元方法および装置
JP2008229161A (ja) * 2007-03-22 2008-10-02 Fujifilm Corp 画像成分分離装置、方法、およびプログラム、ならびに、正常画像生成装置、方法、およびプログラム
JP2013165765A (ja) * 2012-02-14 2013-08-29 Toshiba Corp 画像診断支援装置及び画像診断支援方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023248788A1 (ja) * 2022-06-21 2023-12-28 株式会社日立ハイテク 識別器生成装置および画像診断支援装置

Also Published As

Publication number Publication date
JP7444382B2 (ja) 2024-03-06
US20230206447A1 (en) 2023-06-29
DE112021004926T5 (de) 2023-07-13
JPWO2022059315A1 (ja) 2022-03-24

Similar Documents

Publication Publication Date Title
Khan et al. Intelligent pneumonia identification from chest x-rays: A systematic literature review
WO2019182875A1 (en) Surgical video retrieval based on preoperative images
US20230206447A1 (en) Image encoding device, image encoding method, image encoding program, image decoding device, image decoding method, image decoding program, image processing device, learning device, learning method, learning program, similar image search device, similar image search method, and similar image search program
CN113506310B (zh) 医学图像的处理方法、装置、电子设备和存储介质
US11756292B2 (en) Similarity determination apparatus, similarity determination method, and similarity determination program
JP2021140769A (ja) 医用情報処理装置、医用情報処理方法及び医用情報処理プログラム
Mamdouh et al. Converting 2D-medical image files “DICOM” into 3D-models, based on image processing, and analysing their results with python programming
Le Van et al. Detecting lumbar implant and diagnosing scoliosis from vietnamese X-ray imaging using the pre-trained api models and transfer learning
CN117423423B (zh) 一种基于卷积神经网络的健康档案整合方法、设备及介质
CN113920243A (zh) 极端环境下脑结构的三维重建方法、装置及可读存储介质
CN114882048A (zh) 基于小波散射学习网络的图像分割方法和系统
JPWO2020110775A1 (ja) 画像処理装置、画像処理方法、及びプログラム
JPWO2020044735A1 (ja) 類似度決定装置、方法およびプログラム
Sha et al. A robust segmentation method based on improved U-Net
WO2023276432A1 (ja) 画像検索装置、方法およびプログラム
US11989880B2 (en) Similarity determination apparatus, similarity determination method, and similarity determination program
CN115294023A (zh) 肝脏肿瘤自动分割方法及装置
JP2010504796A (ja) 解剖学的形状情報を用いた医学画像データベースへのアクセス
US20240037927A1 (en) Learning device, learning method, and learning program
CN115239688B (zh) 基于磁共振对比增强3d-t1wi图像的脑转移瘤识别方法与系统
Sarkar Deep Learning in Medical Imaging
Nguyen et al. Machine Learning-Based Approaches for Internal Organs Detection on Medical Images
CN112884759B (zh) 一种乳腺癌腋窝淋巴结转移状态的检测方法及相关装置
US20230224471A1 (en) Medical data processing apparatus and medical data processing method
EP4310854A1 (en) Document creation device, method, and program

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21869002

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022550372

Country of ref document: JP

Kind code of ref document: A

122 Ep: pct application non-entry in european phase

Ref document number: 21869002

Country of ref document: EP

Kind code of ref document: A1