WO2022163401A1 - 学習装置、学習方法、学習済みモデル、及びプログラム - Google Patents

学習装置、学習方法、学習済みモデル、及びプログラム Download PDF

Info

Publication number
WO2022163401A1
WO2022163401A1 PCT/JP2022/001350 JP2022001350W WO2022163401A1 WO 2022163401 A1 WO2022163401 A1 WO 2022163401A1 JP 2022001350 W JP2022001350 W JP 2022001350W WO 2022163401 A1 WO2022163401 A1 WO 2022163401A1
Authority
WO
WIPO (PCT)
Prior art keywords
interpretation report
ray
learning
pseudo
image
Prior art date
Application number
PCT/JP2022/001350
Other languages
English (en)
French (fr)
Inventor
祐太 日朝
Original Assignee
富士フイルム株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 富士フイルム株式会社 filed Critical 富士フイルム株式会社
Priority to JP2022578243A priority Critical patent/JPWO2022163401A1/ja
Publication of WO2022163401A1 publication Critical patent/WO2022163401A1/ja
Priority to US18/357,143 priority patent/US20230368880A1/en

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H15/00ICT specially adapted for medical reports, e.g. generation or transmission thereof
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B6/00Apparatus or devices for radiation diagnosis; Apparatus or devices for radiation diagnosis combined with radiation therapy equipment
    • A61B6/02Arrangements for diagnosis sequentially in different planes; Stereoscopic radiation diagnosis
    • A61B6/03Computed tomography [CT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images
    • G16H30/40ICT specially adapted for the handling or processing of medical images for processing medical images, e.g. editing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10072Tomographic images
    • G06T2207/10081Computed x-ray tomography [CT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30061Lung
    • G06T2207/30064Lung nodule
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30096Tumor; Lesion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/03Recognition of patterns in medical or anatomical images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/03Recognition of patterns in medical or anatomical images
    • G06V2201/031Recognition of patterns in medical or anatomical images of internal organs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/12Acquisition of 3D measurements of objects

Definitions

  • the present invention relates to a learning device, a learning method, a learned model, and a program, and more particularly to a learning device, a learning method, a learned model, and a program that perform learning regarding the output of an interpretation report.
  • a simple X-ray image is a two-dimensional image obtained by irradiating X-rays and projecting the shadow on a plane.
  • Non-Patent Document 1 and Non-Patent Document 2 describe a technique related to machine learning that inputs a chest X-ray image (simple X-ray image) and outputs an interpretation report.
  • Non-Patent Document 1 and Non-Patent Document 2 simple X-ray images having two-dimensional information and interpretation reports thereof are used as learning data. As described above, it is not easy even for a doctor or the like to create an interpretation report of a simple X-ray image, and the accuracy of the interpretation report may be low.
  • One of the reasons for this is that, in plain X-ray images, organs that originally have a three-dimensional shape are shown as two-dimensional images, so the organs may overlap each other, or the original shape of the organs may be lost. It may be difficult to grasp. A trained model trained using such a low-accuracy interpretation report may not be able to output a high-accuracy interpretation report.
  • the present invention has been made in view of such circumstances, and its object is to provide a learning device and a learning device that generate a trained model that outputs a highly accurate interpretation report using highly accurate and high quality learning data. It is to provide a method, a program, and a trained model trained by the learning method.
  • a learning device for achieving the above object stores a processor, an X-ray CT image having three-dimensional information, and a learning data set of a first interpretation report for the X-ray CT image.
  • a learning device comprising a memory and a learning model for generating an interpretation report from a simple X-ray image having two-dimensional information, wherein the processor projects an X-ray CT image to generate a pseudo simple X-ray image, A process of inputting a pseudo simple X-ray image into a learning model, a process of converting a first interpretation report to generate a second interpretation report for the pseudo simple X-ray image, and a pseudo simple X-ray image input with the learning model. A process of acquiring an error between an estimation report for a pseudo-simple X-ray image output based on a simple X-ray image and a second interpretation report, and a process of learning a learning model using the error. .
  • the pseudo-simple X-ray image and the second interpretation report for the pseudo-simple X-ray are generated from the X-ray CT image having three-dimensional information and the learning data set of the first interpretation report for the X-ray CT image. Then, learning is performed using this pseudo plain X-ray image and the second interpretation report.
  • learning is performed using an X-ray CT image with a large amount of information, a pseudo X-ray image based on the first interpretation report, and the second interpretation report, an interpretation report with high accuracy is output. can learn.
  • the process of generating the second interpretation report converts the organ label included in the first interpretation report into the organ label of the second interpretation report, thereby converting the first interpretation report into the second interpretation report.
  • the process of generating the second interpretation report converts the disease label included in the first interpretation report into the disease label of the second interpretation report, thereby converting the first interpretation report into the second interpretation report.
  • the process of generating the second interpretation report includes transforming a first knowledge graph corresponding to the first interpretation report into a second knowledge graph corresponding to the second interpretation report, and based on the transformation , to generate a second review report.
  • the memory stores an X-ray CT image of the subject in the first posture
  • the learning model generates an interpretation report from simple X-ray images of the subject in the second posture.
  • the process of inputting a pseudo simple X-ray image generates a pseudo simple X-ray image in a second posture from an X-ray CT image in a first posture, and inputs the pseudo simple X-ray image in the second posture to the learning model. Enter an image.
  • the process of inputting the pseudo-plain X-ray image generates a pseudo-plain X-ray image projected in a first direction and a pseudo-plain X-ray image projected in a second direction from the X-ray CT image, A pseudo plain X-ray image projected in a first direction and a pseudo plain X-ray image projected in a second direction are input to the learning model.
  • the memory stores an additional learning data set of simple X-ray images and disease labels of simple X-ray images, and the process of obtaining the error is a pseudo data output by the learning model with reference to the disease labels. Obtain the error between the estimated report for the plain X-ray image and the second reading report.
  • the memory stores an additional learning data set of plain X-ray images and third interpretation reports for plain X-ray images, and the process of obtaining the error is performed on the pseudo simple X-ray images to which the learning model is input.
  • a learning method in which a processor uses a learning data set of an X-ray CT image having three-dimensional information stored in a memory and a first interpretation report for the X-ray CT image to perform 2
  • the step of generating the second interpretation report converts an organ label included in the first interpretation report into an organ label of the second interpretation report, thereby converting the first interpretation report into the second interpretation report.
  • the step of generating the second interpretation report converts the disease label included in the first interpretation report into the disease label of the second interpretation report, thereby converting the first interpretation report into the second interpretation report. Generate reports.
  • the step of generating the second interpretation report includes transforming a first knowledge graph corresponding to the first interpretation report into a second knowledge graph corresponding to the second interpretation report, and based on the transformation , to generate a second review report.
  • a learning program which is another aspect of the present invention, causes a processor to execute the processing of each step in the learning method described above.
  • a trained model which is another aspect of the present invention, is trained by the above-described learning method.
  • a pseudo-simple X-ray image and a second interpretation report for pseudo-simple X-ray are generated from an X-ray CT image having three-dimensional information and a learning data set of the first interpretation report for the X-ray CT image.
  • learning is performed using this pseudo simple X-ray image and the second interpretation report, the X-ray CT image with a large amount of information, the pseudo X-ray image based on the first interpretation report, and the second interpretation report Learning is performed by the report, and learning can be performed so as to output an interpretation report with high accuracy.
  • FIG. 1 is a block diagram showing an embodiment of the hardware configuration of a learning device.
  • FIG. 2 is a block diagram illustrating the main functions of the learning device.
  • FIG. 3 is a diagram illustrating an X-ray CT image and a first interpretation report, which are examples of a learning data set.
  • FIG. 4 is a diagram for explaining a pseudo image generator.
  • FIG. 5 is a diagram for explaining the report generator.
  • FIG. 6 is a diagram showing an example of an organ label conversion list provided in the report generation unit.
  • FIG. 7 is a diagram for explaining the correspondence relationship between the three-dimensional organ label and the two-dimensional organ label.
  • FIG. 8 is a diagram explaining a disease label conversion list.
  • FIG. 9 is a diagram for explaining the conversion of the first report to the second report by the report generator.
  • FIG. 9 is a diagram for explaining the conversion of the first report to the second report by the report generator.
  • FIG. 10 is a functional block diagram illustrating a learning model, an error obtaining section, and a learning control section.
  • FIG. 11 is a diagram for explaining a learning method using a learning device and each step executed by a processor according to a program.
  • 12A and 12B are diagrams for explaining a body posture conversion unit that converts a supine X-ray CT image into an upright X-ray CT image.
  • 13A and 13B are diagrams for explaining that the pseudo image generation unit generates pseudo X-ray images in two directions.
  • FIG. 14 is a diagram illustrating an example of conversion of an anatomical knowledge graph included in the report generation unit.
  • FIG. 15 is a diagram conceptually showing an anatomical knowledge graph in an X-ray CT image.
  • FIG. 16 is a diagram conceptually showing an anatomical knowledge graph in an X-ray CT image.
  • FIG. 17 is a diagram conceptually showing an anatomical knowledge graph in a plain X-ray image.
  • FIG. 18 is a diagram showing an example of conversion of a disease knowledge graph provided in the report generation unit.
  • FIG. 19 is a diagram for explaining the conversion from the first report to the second report of the report generator including the anatomy knowledge graph and the disease knowledge graph.
  • FIG. 20 is a diagram illustrating additional learning data sets.
  • FIG. 21 is a diagram for explaining learning of a learning model.
  • FIG. 22 is a diagram illustrating additional learning data sets.
  • FIG. 23 is a diagram for explaining learning of a learning model.
  • FIG. 1 is a block diagram showing an embodiment of the hardware configuration of the learning device.
  • the learning device 100 shown in FIG. 1 is composed of a computer.
  • the computer may be a personal computer, a workstation, or a server computer.
  • the learning device 100 includes a communication unit 112, a memory (storage unit) 114, a learning model 126, an operation unit 116, a CPU (Central Processing Unit) 118, a GPU (Graphics Processing Unit) 119, a RAM (Random Access Memory) 120, a ROM ( Read Only Memory) 122 and a display section 124 .
  • the CPU 118 and the GPU 119 constitute a processor 129 .
  • the GPU 119 may be omitted from the processor 129 .
  • the communication unit 112 is an interface that performs wired or wireless communication processing with an external device and exchanges information with the external device.
  • the memory 114 includes, for example, a hard disk device, an optical disk, a magneto-optical disk, or a semiconductor memory, or a storage device configured using an appropriate combination thereof.
  • the memory 114 stores various programs and data necessary for image processing such as learning processing and/or image generation processing.
  • a program stored in the memory 114 is loaded into the RAM 120 and executed by the processor 129, whereby the computer functions as means for performing various processes defined by the program.
  • the memory also stores a learning data set described below.
  • the operation unit 116 is an input interface that receives various operational inputs to the learning device 100 .
  • the operation unit 116 may be, for example, a keyboard, mouse, touch panel, operation buttons, voice input device, or an appropriate combination thereof.
  • the processor 129 reads various programs stored in the ROM 122, memory 114, etc., and executes various processes.
  • RAM 120 is used as a work area for processor 129 . Also, the RAM 120 is used as a storage unit that temporarily stores read programs and various data.
  • the display unit 124 is an output interface that displays various information.
  • the display unit 124 may be, for example, a liquid crystal display, an organic electro-luminescence (OEL) display, a projector, or an appropriate combination thereof.
  • OEL organic electro-luminescence
  • the learning model 126 is composed of a CNN (Convolutional Neural Network).
  • the learning model 126 is input with a pseudo simple X-ray image generated from an X-ray CT image as described later, and an interpretation report is generated based on the input pseudo simple X-ray image.
  • the learning model 126 in the learning device 100 is unlearned, and the learning device 100 according to the present invention performs machine learning on the learning model 126 .
  • FIG. 2 is a block diagram explaining the main functions of the learning device 100 of this embodiment.
  • the learning device 100 is mainly composed of a memory 114, a processor 129, and a learning model 126 (see FIG. 1).
  • the processor 129 implements the functions of a learning data acquisition unit 130 , a pseudo image generation unit 132 , a report generation unit 134 , an error acquisition unit 136 and a learning control unit 138 .
  • the learning data acquisition unit 130 acquires a learning data set used for learning stored in the memory 114.
  • the learning data set is composed of X-ray CT images of the patient's chest and first interpretation reports for the X-ray images.
  • the first interpretation report is a report created by a doctor or the like by interpreting an X-ray CT image.
  • FIG. 3 is a diagram for explaining the X-ray CT image and the first interpretation report 206, which are examples of the learning data set.
  • a learning data set 200 consists of a set of X-ray CT images 202 and a first interpretation report 206 .
  • Memory 114 stores a plurality of training data sets 200, and training of learning model 126 is performed using these plurality of training data sets 200.
  • the X-ray CT image 202 is obtained by actually imaging a patient who is an object.
  • the X-ray CT image 202 has three-dimensional information (three-dimensional spatial information). Therefore, when generating an interpretation report (first interpretation report 206) based on the X-ray CT image 202, the doctor can observe organs and the like using three-dimensional information. Therefore, the doctor prepares an interpretation report based on the X-ray CT image 202 with three-dimensional information in more detail and accuracy than when creating an interpretation report based on a simple X-ray image with two-dimensional information. A high interpretation report can be created.
  • cross sections 600S, 600C, and 600A are cross sections in the sagittal, coronal, and axial directions, respectively.
  • the illustrated X-ray CT image 202 of the chest is an example of an X-ray CT image, and X-ray CT images of other parts are also used in this embodiment.
  • a first interpretation report 206 has information interpreted from the X-ray CT image 202 .
  • a first interpretation report 206 has anatomical information that can be interpreted from the X-ray CT image 202 . Since the X-ray CT image 202 has three-dimensional information, the doctor can make a finer segmented view of the lungs, for example. Therefore, the first interpretation report 206 states, "Irregular solid masses are found in the right segments S4 and S5.” The first interpretation report 206 also has disease labels that can be interpreted from the X-ray CT image 202 . Since the X-ray CT image 202 has three-dimensional information, the doctor can make a more detailed observation, for example with respect to the shape of the margin. Therefore, the first interpretation report 206 states, "The margin is serrated with spicules, and a pleural invagination image is also recognized.”
  • the learning data acquisition unit 130 acquires the learning data set 200 from the memory 114, sends the X-ray CT image 202 to the pseudo image generation unit 132, and sends the first interpretation report 206 to the report generation unit 134.
  • FIG. 4 is a diagram for explaining the pseudo image generator 132.
  • FIG. 4 is a diagram for explaining the pseudo image generator 132.
  • the pseudo-image generating unit 132 generates a pseudo simple X-ray image 204 having two-dimensional information from the input X-ray CT image 202 having three-dimensional information.
  • the pseudo-image generating unit 132 can generate the pseudo simple X-ray image 204 from the X-ray CT image 202 by various methods.
  • the pseudo-image generating unit 132 may be used in a document (A method to produce and validate a digitally reconstructed radiograph-based computer simulation for optimization of chest radiographs acquired with a computed radiography imaging system, C S MOORE, The British Journal of Radiology, 84 (2011 ), 890-902), a pseudo simple X-ray image 204 is generated from the X-ray CT image 202 by a DRR (post-digitally reconstructed radiograph) technique.
  • a document A method to produce and validate a digitally reconstructed radiograph-based computer simulation for optimization of chest radiographs acquired with a computed radiography imaging system, C S MOORE, The British Journal of Radiology, 84 (2011 ), 890-902
  • a pseudo simple X-ray image 204 is generated from the X-ray CT image 202 by a DRR (post-digitally reconstructed radiograph) technique.
  • FIG. 5 is a diagram explaining the report generation unit 134.
  • FIG. 5 is a diagram explaining the report generation unit 134.
  • the report generation unit 134 generates a second interpretation report 208 based on the input first interpretation report 206 .
  • the report generator 134 can generate the second interpretation report 208 from the first interpretation report 206 by various methods.
  • the report generation unit 134 has a conversion list, and converts the words written in the first interpretation report 206 based on the conversion list to generate the second interpretation report 208 .
  • the report generation unit 134 has an organ label conversion list 205A (FIG. 6), and converts the organ labels used in the first interpretation report 206 to the organ labels of the second interpretation report 208. generates a second interpretation report from the first interpretation report.
  • the report generation unit 134 also includes a disease label conversion list 205B (FIG.
  • a second interpretation report is generated from the first interpretation report 206 .
  • the organ label conversion list 205A and the disease label conversion list 205B are specific examples, and the report generation unit 134 has other conversion lists, and generates the second interpretation report 208 from the first interpretation report 206 using the conversion lists. You may
  • FIG. 6 is a diagram showing an example of the organ label conversion list 205A included in the report generation unit 134.
  • FIG. 6 shows the organ label conversion list for the right lung and omits the illustration of the organ label conversion list for the left lung.
  • each 3D organ label in the right lung is converted to a 2D organ label.
  • the areas S1 to S3 of the right lung in the three-dimensional organ label are the upper right lung T1 in the two-dimensional organ label.
  • the right segment S4 to right segment S6 are the right lower lung T3 in the two-dimensional organ label.
  • the sections S7 to S10 are T2 in the right lung in the two-dimensional organ label.
  • the 3D organ labels are relatively finely segmented based on an X-ray CT image 202 with 3D information.
  • Two-dimensional organ labels correspond to plain X-ray images with two-dimensional information and are relatively roughly segmented. The correspondence relationship between the three-dimensional organ label and the two-dimensional organ label will be described below.
  • FIG. 7 is a diagram explaining the correspondence relationship between the 3D organ label and the 2D organ label.
  • An organ label 220 is attached by the anatomical structure information obtained from the X-ray CT image 202 . Since the X-ray CT image 202 has three-dimensional information of organs, ten segments (segment S1 to segment S10) for each of the left and right lungs are labeled as shown. Since the X-ray CT image 202 has three-dimensional information of the lung, it is possible to observe the front side and the back side of the lung, so that the lung can be divided into fine sections and labeled.
  • FIG. 8 is a diagram explaining the disease label conversion list 205B provided in the report generation unit 134.
  • FIG. 8 is a diagram explaining the disease label conversion list 205B provided in the report generation unit 134.
  • each 3D disease label is converted into a 2D disease label. Specifically, spicules, serrations, and lobes in three-dimensional disease labels are converted to irregular shapes in two-dimensional disease labels. Also, the calcification in the three-dimensional disease label is converted to " ⁇ " in the two-dimensional disease label. Also, a cavity in the three-dimensional disease label is converted to "xx" in the two-dimensional disease label.
  • relatively detailed disease labels are attached based on the X-ray CT image 202 having three-dimensional information.
  • a two-dimensional disease label corresponds to a simple X-ray image with two-dimensional information and is given a relatively rough disease label.
  • the lung disease labels in the X-ray CT image 202 and simple X-ray image described above are merely examples, and lung disease labels may be given in other forms.
  • the report generation unit 134 generates the second interpretation report 208 from the first interpretation report 206 by using the disease label conversion list 205B.
  • FIG. 9 is a diagram explaining the conversion from the first report to the second report of the report generation unit 134 having the above-described organ label conversion list 205A and disease label conversion list 205B.
  • the report generation unit 134 converts “right segments S4 and S5” of the first interpretation report 206 to “right lower lung” based on the organ label conversion list 205A, and generates a second interpretation report. 208 is generated.
  • the report generation unit 134 generates a second interpretation report 208 by converting "serrated and spicular" in the first interpretation report 206 to "irregular" based on the disease label conversion list 205B. .
  • the report generation unit 134 has a conversion list, and generates the first interpretation report 206 to the second interpretation report 208 based on the conversion list.
  • the report generation unit 134 may be configured with a trained model and generate the second interpretation report 208 from the first interpretation report 206 .
  • FIG. 10 is a functional block diagram explaining the learning model 126, the error acquisition unit 136, and the learning control unit 138.
  • the learning model 126 is composed of a convolutional neural network (CNN), which is one of deep learning models.
  • CNN convolutional neural network
  • the learning model 126 has a multiple layer structure and holds multiple weight parameters.
  • the learning model 126 can change from an unlearned model to a learned model by updating the weight parameter from the initial value to the optimum value.
  • the initial value of the weight parameter of the learning model 126 may be an arbitrary value, or, for example, the weight parameter of a trained model that outputs a known interpretation report may be applied.
  • This learning model 126 comprises an input layer 126A, an intermediate layer 126B having multiple sets of convolutional layers and pooling layers, and an output layer 126C, each layer having a plurality of "nodes” connected by "edges”. It has a structure.
  • the pseudo simple X-ray image 204 of the learning data set 200 is input to the input layer 126A.
  • the intermediate layer 126B has a convolution layer, a pooling layer, and the like, and is a part that extracts features from the image input from the input layer 126A.
  • the convolutional layer filters (convolves with filters) the nodes that are nearby in the previous layer to get a "feature map”.
  • the pooling layer reduces the feature map output from the convolution layer to a new feature map.
  • the “convolution layer” plays a role of extracting features such as edge extraction from an image, and the “pooling layer” plays a role of providing robustness so that the extracted features are not affected by translation or the like.
  • the intermediate layer 126B is not limited to the case where the convolutional layers and the pooling layers are alternately arranged, but also includes the case where the convolutional layers are continuous and the normalization layer. Also, the convolution layer conv at the final stage is a portion that outputs a feature map indicating events interpreted from the pseudo-simple X-ray image 204 .
  • the output layer 126C is a part that outputs the output result (estimation report 210) of the learning model 126.
  • the error acquisition unit 136 acquires the output result (estimation report 210) output from the output layer 126C of the learning model 126 and the second interpretation report 208 corresponding to the pseudo simple X-ray image 204, and calculates the error between them. Calculate As a method of calculating the error, for example, a Jaccard coefficient or a Dice coefficient may be used.
  • the learning control unit 138 Based on the error calculated by the error acquisition unit 136, the learning control unit 138 minimizes the distance in the feature amount space between the second interpretation report 208 and the output of the learning model 126 by error backpropagation, Alternatively, the weight parameter of the learning model 126 is adjusted to maximize the similarity.
  • This parameter adjustment process is repeated, and learning is repeated until the error calculated by the error acquisition unit 136 converges.
  • FIG. 11 is a diagram explaining each step executed by the processor according to the learning method using the learning device 100 and the learning program.
  • the learning data acquisition unit 130 acquires the learning data set (the X-ray CT image 202 and the first interpretation report 206) 200 stored in the memory 114 (step S10).
  • the X-ray CT image 202 is sent to the pseudo-image generator 132, and the pseudo-image generator 132 generates a pseudo simple X-ray image 204 based on the X-ray CT image 202 (step S11).
  • the report generator 134 converts the organ label 220 of the first interpretation report 206 based on the organ label conversion list 205A (step S12). Also, the report generator 134 converts the disease label of the first interpretation report 206 based on the disease label conversion list (step S13).
  • the report generator 134 With this label conversion, the report generator 134 generates the second interpretation report 208 .
  • the learning model 126 outputs an estimation report 210 based on the input pseudo-simple X-ray image 204 (step S14).
  • the error acquisition unit 136 acquires the error between the estimation report 210 and the second interpretation report 208 (step S15), and the learning control unit 138 causes the learning model 126 to learn based on the acquired error (step S16).
  • the pseudo simple X-ray image 204 and a second interpretation report 208 for the pseudo simple X-ray image 204 are performed using the pseudo simple X-ray image 204 and the second interpretation report 208 .
  • this mode can perform learning so as to output an interpretation report with high accuracy.
  • a simple X-ray image is input, and a highly accurate interpretation report of the input simple X-ray image can be output.
  • FIG. 12 is a diagram for explaining the posture conversion unit 150 that converts a supine X-ray CT image into an upright X-ray CT image.
  • the posture conversion unit 150 is provided in the learning data acquisition unit 130, for example.
  • the body position conversion unit 150 converts the supine X-ray CT image 202A stored in the memory 114 into an upright X-ray CT image.
  • the body posture conversion unit 150 can convert the lying X-ray CT image 202A into the standing X-ray CT image 202B by various methods.
  • the posture transforming unit 150 may be composed of a machine-learned model, and may output an upright X-ray CT image 202B from an input lying-down X-ray CT image 202A.
  • the supine X-ray CT image 202A is converted into the standing X-ray CT image 202B.
  • the pseudo simple X-ray image 204 is generated by the pseudo image generating unit 132 from the converted upright X-ray CT image 202B. Therefore, even an X-ray CT image taken in the supine position can be appropriately used in this embodiment.
  • a pseudo-simple X-ray image 204 of AP (Anterior to Posterior) image or PA (Posterior to Anterior) image Based on this, an example of generating an estimation report 210 has been described. However, in the present embodiment, a pseudo X-ray image taken from an image in another direction, such as a lateral view, is generated, and the estimation report 210 is generated based on the pseudo X-ray image.
  • FIG. 13 is a diagram explaining that the pseudo-image generating unit 132 generates pseudo-X-ray images in two directions.
  • the pseudo-image generator 132 Based on the X-ray CT image 202, the pseudo-image generator 132 generates a pseudo-simple X-ray image 204a projected in the AP direction (first direction) and a pseudo-simple X-ray image 204a projected in the LAT (Lateral) direction (second direction). An X-ray image 204b is generated.
  • the pseudo-image generation unit 132 can generate a pseudo simple X-ray image 204a in the AP direction and a pseudo simple X-ray image b in the LAT direction using a known technique. For example, the pseudo-image generating unit 132 generates a pseudo simple X-ray image 204a in the AP direction and a pseudo simple X-ray image 204b in the LAT direction by the above-described DRR method.
  • a pseudo simple X-ray image 204a projected in the AP direction and a pseudo simple X-ray image 204b projected in the LT direction are generated. Since the pseudo simple X-ray image 204a projected in the AP direction and the pseudo simple X-ray image 204b projected in the LAT direction are input to the learning model 126, learning is performed so as to output a more accurate interpretation report. .
  • the report generation unit 134 transforms the knowledge graph and generates the first interpretation report 206 to the second interpretation report 208 based on the transformation. Specifically, the report generation unit 134 converts the first knowledge graph corresponding to the first interpretation report 206 into a second knowledge graph corresponding to the second interpretation report 208, and based on the conversion, Generate an estimation report 210 .
  • the report generation unit 134 includes an X-ray CT image anatomical knowledge graph (first knowledge graph) and an X-ray CT image disease knowledge graph (first knowledge graph). anatomical knowledge graph (second knowledge graph) for simple X-ray images and disease knowledge graph for simple X-ray images (second knowledge graph). Then, the report generator 134 generates a second interpretation report based on the conversion.
  • FIG. 14 is a diagram explaining an example of conversion of the anatomical knowledge graph included in the report generation unit 134.
  • FIG. 14 is a diagram explaining an example of conversion of the anatomical knowledge graph included in the report generation unit 134.
  • reference numeral 250 denotes an X-ray CT image anatomical knowledge graph. Since the X-ray CT image 202 has three-dimensional information, it is possible to divide the lung into finer segments.
  • FIG. 15 and 16 are diagrams conceptually showing the anatomical knowledge graph in the X-ray CT image 202.
  • FIG. FIG. 15 is a view of the area when viewed from the inside of the lung
  • FIG. 16 is a view of the area when viewed from the outside of the lung.
  • the right lung segment is shown.
  • the right lung is divided into 10 segments S1-S10. Note that the S4 zone is shown in FIG. 16 since it cannot be viewed from the medial side.
  • the left lung segment is shown.
  • the left lung is divided into segments S1 to S10 like the right lung, but since S1 and S2 are the same segment (denoted as S1+2), it is divided into 9 segments.
  • each of the right lung and the left lung can be divided into S1 to S10 areas as described above.
  • the anatomical knowledge graphs indicated by reference numerals 252 and 254 are those of simple X-ray images (AP images and lateral images).
  • AP images divide each of the right and left lungs into three segments
  • Lateral images divide the lungs into two segments.
  • FIG. 17 is a diagram conceptually showing an anatomical knowledge graph in a plain X-ray image.
  • the right lung of the simple X-ray image 268a of the AP image is provided with a right lung upper part U1, a right middle lung part U2, and a right lung lower part U3.
  • a U6 section is provided.
  • the lungs of the simple X-ray image 268b of the lateral image are provided with upper U7 and lower U8 sections.
  • the lung branches into a right lung and a left lung, and the left lung branches into an upper left lobe and a left lower lobe.
  • the upper left lobe branches into left S1+S2 area, left S3 area, left S4 area and left S5 area.
  • the left lower lobe branches into the left S6, left S8, left S9, and left S10 segments.
  • the right lung branches into the right upper lobe, the right middle lobe, and the lower right lobe.
  • the right upper lobe branches into right S1, right S2, and right S3 segments.
  • the right middle lobe branches into the right S4 and right S5 segments.
  • the right lower lobe branches into right S6, right S8, right S9, and right S10 segments.
  • an anatomical knowledge graph of a simple X-ray image 268a of an AP image and an anatomical knowledge graph of a simple X-ray image 268b of a lateral image are shown.
  • the lung is bifurcated into the left lung and the right lung.
  • the left lung is divided into upper left, middle left, and lower left.
  • the right lung is also divided into the upper right, middle right, and lower right.
  • the anatomical knowledge graph of a simple X-ray image in the lateral direction is branched into upper and lower parts.
  • the report generator 134 converts the X-ray CT image anatomical knowledge graph 250 into simple X-ray image anatomical knowledge graphs 252 and 254 as indicated by the arrows in FIG.
  • a second interpretation report 208 is generated from the interpretation report 206 .
  • FIG. 18 is a diagram showing an example of conversion of a disease knowledge graph provided by the report generation unit 134.
  • FIG. 18 is a diagram showing an example of conversion of a disease knowledge graph provided by the report generation unit 134.
  • the disease knowledge graph shown in FIG. 18 is an example of a disease knowledge graph related to nodules. Note that FIG. 18 is shown as a table because it would be complicated to represent it in a knowledge graph.
  • the categories are branched into absorption value, boundary, shape, marginal property, internal property, and relationship with surrounding tissue.
  • Classification targets (classes) of absorption values are classified into solid, partially solid, and frosted glass types. Boundaries are classified as clear and indistinct. Shapes are classified into irregular and near-circular types. Marginal features are classified as irregular, smooth, serrated, spicular, lobed, and linear. Internal features are classified into bronchial lucency, calcification, cavities, and fat. The relationship with the surrounding tissue is classified into pleural invagination and pleural contact.
  • the absorption value is classified only as solid because it is not easy to visually recognize due to the absorption coefficient similar to that of lung tissue. Boundaries are classified into clear and unclear, similar to the disease knowledge graph 270 for X-ray CT images. Similar to the disease knowledge graph 270 for X-ray CT images, the shape is also classified into irregular and circular. Since only the general shape is visible on plain X-ray images, marginal features are not described. Internal features become visible due to absorption coefficients similar to bone, and calcifications are classified. The relationship with the surrounding tissue is classified into pleural indentation and pleural contact depending on the imaging direction. Then, the report generator 134 converts the X-ray CT image disease knowledge graph 270 into a simple X-ray image disease knowledge graph 272 as indicated by the arrow in FIG. A second interpretation report 208 is generated from 206 .
  • FIG. 19 is a diagram explaining the conversion from the first report to the second report of the report generator 134 having the above-described anatomical knowledge graph and disease knowledge graph.
  • the report generation unit 134 generates a second interpretation report 282 by converting "right segments S4 and S5" of the first interpretation report 280 into "right lower lung” based on the conversion of the anatomical knowledge graph. In addition, the report generation unit 134 generates a second interpretation report 282 by deleting "the margin is serrated and has spicules" in the first interpretation report 280 based on the conversion of the disease knowledge graph. do.
  • the report generator 134 converts the anatomical knowledge graph and the disease knowledge graph from those for X-ray CT images to those for simple X-ray images, and based on the conversion, generates the first
  • a second interpretation report 282 is generated from the interpretation report 280 .
  • FIG. 20 is a diagram explaining additional learning data sets used in this example.
  • An additional learning data set 300 consists of real plain X-ray images 302 and disease labels 304 .
  • the real plain X-ray image 302 is an X-ray image of the chest actually taken in the AP direction, for example.
  • the disease label 304 is a label assigned by the doctor's interpretation of the real simple X-ray image 302, and is a label indicating the presence or absence of a nodule, for example. Additional learning datasets are specifically obtained from NIH (National Institutes of Health) Chest X-ray Dataset and the like.
  • FIG. 21 is a diagram explaining the learning of the learning model 126 in this example.
  • a pseudo simple X-ray image 204 and a real simple X-ray image 302 are input to the learning model 126 .
  • the pseudo simple X-ray image 204 and the real simple X-ray image 302 are alternately input to the learning model 126 .
  • the learning model 126 then outputs an estimation report 210 .
  • the pseudo simple X-ray image 204 and the real simple X-ray image 302 are images of the same subject, but they may be of different subjects.
  • the learning model 126 is composed of a DenseNet (Densely connected convolutional networks) 127A and a knowledge graph 127B.
  • DenseNet 127A includes multiple dense blocks and multiple transition layers before and after the dense blocks, and has a network structure that exhibits high performance in class classification (e.g., disease detection) tasks. .
  • class classification e.g., disease detection
  • Convolution layers and/or pooling layers are provided as transition layers.
  • As a method of outputting an interpretation report from the knowledge graph 127B for example, Li, Christy Y., et al. "Knowledge-driven encode, retrieve, paraphrase for medical image report generation.”, AAAI, 2019. The techniques described are used.
  • Knowledge graph 127B outputs estimation report 210 based on the output from DenseNet 127A.
  • the knowledge graph 127B is composed of an anatomy knowledge graph 306 and a disease knowledge graph 308, for example.
  • learning of conversion from a pseudo X-ray image to a disease knowledge graph is assisted using an actual X-ray image and a disease label.
  • the disease label presence or absence of a nodule
  • the learning model 126 outputs the estimation report 210 with reference to the disease label 304, and learning is performed so as to output a more accurate interpretation report.
  • FIG. 22 is a diagram explaining additional learning data sets used in this example.
  • An additional learning data set 320 is composed of a real plain X-ray image 302 and an interpretation report (third interpretation report) 322 .
  • the interpretation report 322 is, for example, an interpretation report created by actually interpreting the real simple X-ray image 302 by a doctor.
  • FIG. 23 is a diagram explaining the learning of the learning model 126 in this example.
  • symbol is attached
  • a pseudo simple X-ray image 204 and a real simple X-ray image 302 are input to the learning model 126 .
  • the pseudo simple X-ray image 204 and the real simple X-ray image 302 are alternately input to the learning model 126 .
  • the learning model 126 then outputs an estimation report 210 for the pseudo plain x-ray image 204 and an estimation report 324 for the real plain x-ray image 302 .
  • the pseudo simple X-ray image 204 and the real simple X-ray image 302 are trained using the same DenseNet 127A and knowledge graph 127B.
  • the estimation report 210 is output as described above, and the error between the estimation report 210 and the second interpretation report causes the learning of the learning model 126 to proceed. done.
  • an estimation report 324 is output similarly via the DenseNet 127A and the knowledge graph 127B. Then, the error acquisition unit 136 acquires the error between the output estimation report 324 and the part of the interpretation report 322 of the additional learning data set 320, and the learning control unit 138 learns the learning model 126 based on the error. to do
  • the learning model 126 is trained using the real simple X-ray image 302 in addition to the learning using the pseudo simple X-ray image 204 . Through such learning, it is possible to generate a trained model that outputs an interpretation report with higher accuracy.
  • the hardware structure of the processing unit that executes various processes is various processors as shown below.
  • the circuit configuration can be changed after manufacturing such as CPU (Central Processing Unit), which is a general-purpose processor that functions as various processing units by executing software (program), and FPGA (Field Programmable Gate Array).
  • Programmable Logic Device PLD
  • ASIC Application Specific Integrated Circuit
  • One processing unit may be composed of one of these various processors, or composed of two or more processors of the same type or different types (for example, a plurality of FPGAs, or a combination of a CPU and an FPGA).
  • a plurality of processing units may be configured by one processor.
  • a processor functions as multiple processing units.
  • SoC System On Chip
  • SoC System On Chip
  • the hardware structure of these various processors is, more specifically, an electrical circuit that combines circuit elements such as semiconductor elements.
  • Each configuration and function described above can be appropriately realized by arbitrary hardware, software, or a combination of both.
  • a program that causes a computer to execute the above-described processing steps (procedures), a computer-readable recording medium (non-temporary recording medium) recording such a program, or a computer capable of installing such a program can be applied.

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Public Health (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Primary Health Care (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Pathology (AREA)
  • Optics & Photonics (AREA)
  • High Energy & Nuclear Physics (AREA)
  • Biophysics (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Molecular Biology (AREA)
  • Surgery (AREA)
  • Animal Behavior & Ethology (AREA)
  • Veterinary Medicine (AREA)
  • Data Mining & Analysis (AREA)
  • Apparatus For Radiation Diagnosis (AREA)
  • Image Analysis (AREA)

Abstract

精度の高い高品質な学習データを使用して、精度の高い読影レポートを出力する学習済みモデルを生成する学習装置、学習方法、プログラム、及びその学習方法で学習が行われた学習済みモデルを提供する。学習装置は、プロセッサ(129)と、メモリ(114)と、学習モデル(130)と、を備える。プロセッサ(129)は、X線CT画像(202)を投影して疑似単純X線画像(204)を生成し、学習モデル(126)に疑似単純X線画像(204)を入力する処理と、第1の読影レポート(206)を変換して疑似単純X線画像(204)に対しての第2の読影レポート(208)を生成する処理と、学習モデル(126)が入力された疑似単純X線画像(204)に基づいて出力した、疑似単純X線画像(204)に対する推定レポート(210)と、第2の読影レポート(208)との誤差を取得する処理と、誤差を使用して、学習モデル(126)を学習させる処理と、を行う。

Description

学習装置、学習方法、学習済みモデル、及びプログラム
 本発明は、学習装置、学習方法、学習済みモデル、及びプログラムに関し、特に、読影レポートの出力に関して学習を行う学習装置、学習方法、学習済みモデル、及びプログラムに関する。
 従来、医師等により単純X線画像から疾患などが読影され、その読影結果が読影レポートにまとめられてきた。しかし、単純X線画像の読影は、医師によっても容易ではなく、読影レポートの精度が低くなってしまうことがある。ここで、単純X線画像とは、X線を照射しその陰影を平面に写して得られた2次元画像である。
 近年では、機械学習の技術を利用して、入力された単純X線画像に対して読影レポートを出力するように学習が行われた学習済みモデルの提案が行われている。
 例えば、非特許文献1及び非特許文献2には、胸部X線画像(単純X線画像)を入力し、読影レポートを出力する機械学習に関する技術が記載されている。
 ここで、非特許文献1及び非特許文献2に記載された技術では、学習データとして2次元情報を有する単純X線画像及びその読影レポートが使用されている。上述したように、単純X線画像の読影レポートの作成は医師等によっても容易ではなく、読影レポートの精度が低い場合がある。この理由の1つとして、単純X線画像では、本来3次元的な形状を有する臓器等が2次元画像として写し出されているために、臓器同士が重なって写し出されたり、本来の臓器の形状の把握が困難であったりする場合がある。そして、このような精度の低い読影レポートを使用して学習が行われた学習済みモデルは、精度の高い読影レポートを出力することができない可能性がある。
 本発明はこのような事情に鑑みてなされたもので、その目的は、精度の高い高品質な学習データを使用して、精度の高い読影レポートを出力する学習済みモデルを生成する学習装置、学習方法、プログラム、及びその学習方法で学習が行われた学習済みモデルを提供することである。
 上記目的を達成するための、本発明の一の態様である学習装置は、プロセッサと、3次元情報を有するX線CT画像及びX線CT画像に対する第1の読影レポートの学習データセットを記憶するメモリと、2次元情報を有する単純X線画像から読影レポートを生成する学習モデルと、を備える学習装置であって、プロセッサは、X線CT画像を投影して疑似単純X線画像を生成し、学習モデルに疑似単純X線画像を入力する処理と、第1の読影レポートを変換して疑似単純X線画像に対しての第2の読影レポートを生成する処理と、学習モデルが入力された疑似単純X線画像に基づいて出力した、疑似単純X線画像に対する推定レポートと、第2の読影レポートとの誤差を取得する処理と、誤差を使用して、学習モデルを学習させる処理と、を行う。
 本態様によれば、3次元情報を有するX線CT画像及びX線CT画像に対する第1の読影レポートの学習データセットから、疑似単純X線画像と疑似単純X線に対する第2の読影レポートを生成し、この疑似単純X線画像と第2の読影レポートとを使用して学習が行われる。これにより、本態様は、情報量の多いX線CT画像と第1の読影レポートに基づく疑似X線画像と第2の読影レポートにより学習が行われるので、精度の高い読影レポートを出力するように学習を行うことができる。
 好ましくは、第2の読影レポートを生成する処理は、第1の読影レポートに含まれる臓器ラベルを、第2の読影レポートの臓器ラベルに変換することにより、第1の読影レポートから第2の読影レポートを生成する。
 好ましくは、第2の読影レポートを生成する処理は、第1の読影レポートに含まれる疾患ラベルを、第2の読影レポートの疾患ラベルに変換することにより、第1の読影レポートから第2の読影レポートを生成する。
 好ましくは、第2の読影レポートを生成する処理は、第1の読影レポートに対応する第1の知識グラフを、第2の読影レポートに対応する第2の知識グラフに変換し、変換に基づいて、第2の読影レポートを生成する。
 好ましくは、メモリは、第1の姿勢の被検体を撮影したX線CT画像を記憶し、学習モデルは、第2の姿勢の被検体を撮影した単純X線画像から読影レポートを生成する場合には、疑似単純X線画像を入力する処理は、第1の姿勢のX線CT画像から第2の姿勢の疑似単純X線画像を生成して、学習モデルに第2の姿勢の疑似単純X線画像を入力する。
 好ましくは、疑似単純X線画像を入力する処理は、X線CT画像から第1の方向に投影した疑似単純X線画像と、第2の方向に投影した疑似単純X線画像とを生成し、学習モデルに第1の方向に投影した疑似単純X線画像と、第2の方向に投影した疑似単純X線画像とを入力する。
 好ましくは、メモリは、単純X線画像と単純X線画像の疾患ラベルとの追加の学習データセットを記憶し、誤差を取得する処理は、学習モデルが、疾患ラベルを参照して出力した、疑似単純X線画像に対する推定レポートと、第2の読影レポートとの誤差を取得する。
 好ましくは、メモリは、単純X線画像と単純X線画像に対する第3の読影レポートとの追加の学習データセットを記憶し、誤差を取得する処理は、学習モデルが入力された疑似単純X線画像に基づいて出力した、疑似単純X線画像に対する推定レポートと第2の読影レポートとの誤差、及び、学習モデルが入力された単純X線画像に基づいて出力した、単純X線画像に対する推定レポートと第3の読影レポートとの誤差を取得する。
 本発明の他の態様である学習方法は、プロセッサが、メモリに記憶された3次元情報を有するX線CT画像及びX線CT画像に対する第1の読影レポートの学習データセットを使用して、2次元情報を有する単純X線画像から読影レポートを生成する学習モデルを学習させる学習方法であって、X線CT画像を投影して疑似単純X線画像を生成し、学習モデルに疑似単純X線画像を入力するステップと、第1の読影レポートを変換して疑似単純X線画像に対しての第2の読影レポートを生成するステップと、学習モデルが入力された疑似単純X線画像に基づいて出力した、疑似単純X線画像に対する推定レポートと、第2の読影レポートとの誤差を取得するステップと、誤差を使用して、学習モデルを学習させるステップと、を含む。
 好ましくは、第2の読影レポートを生成するステップは、第1の読影レポートに含まれる臓器ラベルを、第2の読影レポートの臓器ラベルに変換することにより、第1の読影レポートから第2の読影レポートを生成する。
 好ましくは、第2の読影レポートを生成するステップは、第1の読影レポートに含まれる疾患ラベルを、第2の読影レポートの疾患ラベルに変換することにより、第1の読影レポートから第2の読影レポートを生成する。
 好ましくは、第2の読影レポートを生成するステップは、第1の読影レポートに対応する第1の知識グラフを、第2の読影レポートに対応する第2の知識グラフに変換し、変換に基づいて、第2の読影レポートを生成する。
 本発明の他の態様である学習プログラムは、上述の学習方法における各ステップの処理を、プロセッサに実行させる。
 本発明の他の態様である学習済みモデルは、上述の学習方法により学習が行われる。
 本発明によれば、3次元情報を有するX線CT画像及びX線CT画像に対する第1の読影レポートの学習データセットから、疑似単純X線画像と疑似単純X線に対する第2の読影レポートを生成し、この疑似単純X線画像と第2の読影レポートとを使用して学習が行われるので、情報量の多いX線CT画像と第1の読影レポートに基づく疑似X線画像と第2の読影レポートにより学習が行われ、精度の高い読影レポートを出力するように学習を行うことができる。
図1は、学習装置のハードウェア構成の実施形態を示すブロック図である。 図2は、学習装置の主な機能を説明するブロック図である。 図3は、学習データセットの一例であるX線CT画像と第1の読影レポートとを説明する図である。 図4は、疑似画像生成部を説明する図である。 図5は、レポート生成部を説明する図である。 図6は、レポート生成部が備える臓器ラベル変換リストの例を示す図である。 図7は、3次元臓器ラベルと2次元臓器ラベルとの対応関係に関して説明する図である。 図8は、疾患ラベル変換リストを説明する図である。 図9は、レポート生成部の第1のレポートから第2のレポートの変換に関して説明する図である。 図10は、学習モデル、誤差取得部、及び学習制御部を説明する機能ブロック図である。 図11は、学習装置を使用した学習方法、及びプログラムによりプロセッサが実行する各ステップを説明する図である。 図12は、臥位のX線CT画像を立位のX線CT画像に変換する体位変換部に関して説明する図である。 図13は、疑似画像生成部が2つの方向の疑似X線画像を生成することを説明する図である。 図14は、レポート生成部が備える解剖知識グラフの変換の例に関して説明する図である。 図15は、X線CT画像における解剖知識グラフを概念的に示す図である。 図16は、X線CT画像における解剖知識グラフを概念的に示す図である。 図17は、単純X線画像における解剖知識グラフを概念的に示す図である。 図18は、レポート生成部が備える疾患知識グラフの変換の例に関して示した図である。 図19は、解剖知識グラフ及び疾患知識グラフを備えるレポート生成部の第1のレポートから第2のレポートの変換に関して説明する図である。 図20は、追加の学習データセットを説明する図である。 図21は、学習モデルの学習に関して説明を行う図である。 図22は、追加の学習データセットを説明する図である。 図23は、学習モデルの学習に関して説明を行う図である。
 以下、添付図面にしたがって本発明に係る学習装置、学習方法、学習済みモデル、及びプログラムの好ましい実施の形態について説明する。
 図1は、学習装置のハードウェア構成の実施形態を示すブロック図である。
 図1に示す学習装置100はコンピュータで構成される。コンピュータは、パーソナルコンピュータであってもよいし、ワークステーションであってもよく、また、サーバコンピュータであってもよい。学習装置100は、通信部112、メモリ(記憶部)114、学習モデル126、操作部116、CPU(Central Processing Unit)118、GPU(Graphics Processing Unit)119、RAM(Random Access Memory)120、ROM(Read Only Memory)122、及び表示部124を備える。なお、CPU118及びGPU119はプロセッサ129を構成する。また、プロセッサ129においてGPU119は省略されてもよい。
 通信部112は、有線又は無線により外部装置との通信処理を行い、外部装置との間で情報のやり取りを行うインターフェースである。
 メモリ114は、例えば、ハードディスク装置、光ディスク、光磁気ディスク、若しくは半導体メモリ、又はこれらの適宜の組み合わせを用いて構成される記憶装置を含んで構成される。メモリ114には、学習処理及び/又は画像生成処理等の画像処理に必要な各種プログラムやデータ等が記憶される。メモリ114に記憶されているプログラムがRAM120にロードされ、これをプロセッサ129が実行することにより、コンピュータは、プログラムで規定される各種の処理を行う手段として機能する。なおメモリには、以下に説明する学習データセットも記憶される。
 操作部116は、学習装置100に対する各種の操作入力を受け付ける入力インターフェースである。操作部116は、例えば、キーボード、マウス、タッチパネル、操作ボタン、若しくは、音声入力装置、又はこれらの適宜の組み合わせであってよい。
 プロセッサ129は、ROM122又はメモリ114等に記憶された各種のプログラムを読み出し、各種の処理を実行する。RAM120は、プロセッサ129の作業領域として使用される。また、RAM120は、読み出されたプログラム及び各種のデータを一時的に記憶する記憶部として用いられる。
 表示部124は、各種の情報が表示される出力インターフェースである。表示部124は、例えば、液晶ディスプレイ、有機EL(organic electro-luminescence:OEL)ディスプレイ、若しくは、プロジェクタ、又はこれらの適宜の組み合わせであってよい。
 学習モデル126は、CNN(Convolutional Neural Network)で構成される。学習モデル126は、後で説明するようにX線CT画像から生成された疑似単純X線画像が入力され、入力された疑似単純X線画像に基づいて読影レポートが生成される。学習装置100における学習モデル126は、未学習のものであり、本発明に係る学習装置100は、学習モデル126を機械学習させるものである。
 <第1の実施形態>
 第1の実施形態に関して説明する。なお、以下の説明では、胸部を撮影した3次元情報を有するX線CT画像から疑似単純X線画像を生成し、疑似単純X線画像の読影レポートを出力する学習モデルの学習に関して説明する。
 図2は、本実施形態の学習装置100の主な機能を説明するブロック図である。
 学習装置100は主に、メモリ114、プロセッサ129、及び学習モデル126で構成される(図1参照)。プロセッサ129は、学習データ取得部130、疑似画像生成部132、レポート生成部134、誤差取得部136、及び学習制御部138の機能を実現する。
 学習データ取得部130は、メモリ114に記憶されている学習に使用する学習データセットを取得する。例えば学習データセットは、患者の胸部を撮影したX線CT画像とそのX線画像に対する第1の読影レポートで構成される。なお、第1の読影レポートは、医師等によりX線CT画像を読影することにより作成されたレポートである。
 図3は、学習データセットの一例であるX線CT画像と第1の読影レポート206とを説明する図である。
 学習データセット200は、一組のX線CT画像202と第1の読影レポート206とで構成されている。メモリ114は複数の学習データセット200を記憶しており、これらの複数の学習データセット200を使用して学習モデル126の学習が行われる。
 X線CT画像202は、実際に被検体である患者を撮影して得られる。X線CT画像202は、3次元情報(3次元の空間情報)を有する。したがって、X線CT画像202に基づいて読影レポート(第1の読影レポート206)を生成する場合には、医師は3次元情報により臓器等を観察することができる。したがって、医師は、2次元情報を有する単純X線画像に基づいて読影レポートを作成する場合に比べて、3次元情報を有するX線CT画像202に基づく場合の方が、より詳細に且つ精度の高い読影レポートを作成することができる。なお、X線CT画像202において、断面600S,600C,600Aはそれぞれサジタル方向、コロナル方向、アキシャル方向の断面である。また、図示した胸部を撮影したX線CT画像202はX線CT画像の一例であり、他の部位を撮影したX線CT画像も本実施形態に用いられる。
 第1の読影レポート206は、X線CT画像202から読影された情報を有する。第1の読影レポート206は、X線CT画像202から読影することが可能な解剖学的構造情報を有する。X線CT画像202は3次元情報を有するので、医師は例えば肺に関してより細かい区域に分けて観察を行うことができる。したがって、第1の読影レポート206には、「右区域S4及びS5に不整形な充実性腫瘤を認めます。」と記載されている。また、第1の読影レポート206は、X線CT画像202から読影することが可能な疾患ラベルを有する。X線CT画像202は3次元情報を有するので、医師は例えば辺縁の形状に関してより詳細な観察を行うことができる。したがって、第1の読影レポート206には、「辺縁は鋸歯状でスピキュラを伴い、胸膜陥入像も認めます。」と記載されている。
 学習データ取得部130は、学習データセット200をメモリ114から取得し、X線CT画像202を疑似画像生成部132に送り、第1の読影レポート206をレポート生成部134に送る。
 図4は、疑似画像生成部132を説明する図である。
 疑似画像生成部132は、入力された3次元情報を有するX線CT画像202から2次元情報を有する疑似単純X線画像204を生成する。疑似画像生成部132は、様々な手法により、X線CT画像202から疑似単純X線画像204を生成することができる。例えば疑似画像生成部132は、文献(A method to produce and validate a digitally reconstructed radiograph-based computer simulation for optimisation of chest radiographs acquired with a computed radiography imaging system, C S MOORE, The British Journal of Radiology, 84 (2011), 890-902)に記載されているDRR(post-digitally reconstructed radiograph)手法によって、X線CT画像202から疑似単純X線画像204の生成を行う。
 図5は、レポート生成部134を説明する図である。
 レポート生成部134は、入力された第1の読影レポート206に基づいて第2の読影レポート208を生成する。レポート生成部134は、様々な手法により第1の読影レポート206から第2の読影レポート208を生成することができる。例えばレポート生成部134は、変換リストを備え、変換リストに基づいて第1の読影レポート206に記載された文言を変換して第2の読影レポート208を生成する。具体的にはレポート生成部134は、臓器ラベル変換リスト205A(図6)を備え、第1の読影レポート206で使用されている臓器ラベルを、第2の読影レポート208の臓器ラベルに変換することにより、第1の読影レポートから第2の読影レポートを生成する。また、レポート生成部134は、疾患ラベル変換リスト205B(図8)を備え、第1の読影レポート206で使用されている疾患ラベルを、第2の読影レポート208の疾患ラベルに変換することにより、第1の読影レポート206から第2の読影レポートを生成する。なお、臓器ラベル変換リスト205A及び疾患ラベル変換リスト205Bは具体例であり、レポート生成部134は他の変換リストを備え、その変換リストにより第1の読影レポート206から第2の読影レポート208を生成してもよい。
 図6は、レポート生成部134が備える臓器ラベル変換リスト205Aの例を示す図である。なお、図6では、右肺の臓器ラベル変換リストを示し、左肺の臓器ラベル変換リストの図示は省略されている。
 臓器ラベル変換リスト205Aに示すように、右肺における3次元臓器ラベルの各々は、2次元臓器ラベルに変換される。具体的には、3次元臓器ラベルの右肺の区域S1~区域S3は、2次元臓器ラベルでは右肺上T1となる。また、右区域S4~右区域S6は、2次元臓器ラベルでは右肺下T3となる。また、区域S7~区域S10は、2次元臓器ラベルでは右肺中T2となる。ここで3次元臓器ラベルは、3次元情報を有するX線CT画像202に基づいて比較的細かく区域が分けられている。一方、2次元臓器ラベルは、2次元情報を有する単純X線画像に対応し、比較的大まかに区域が分けられている。以下に3次元臓器ラベルと2次元臓器ラベルとの対応関係に関して説明する。
 図7は、3次元臓器ラベルと2次元臓器ラベルとの対応関係に関して説明する図である。
 X線CT画像202から得られる解剖学的構造情報により、臓器ラベル220が付される。X線CT画像202は、臓器の3次元情報を有するので、図示するように左右の各々の肺を10個の区域(区域S1~区域S10)にラベルが付与される。X線CT画像202では肺の3次元情報を有するので、肺の表側と裏側を観察することができるので、肺を細かな区域に分けてラベルを付与することができる。
 一方、単純X線画像は2次元情報を有するので、臓器ラベル222が付される。単純X線画像は、図示するように左右の各々の肺を3個の区域(肺上T1、肺中T2、肺下T3)にラベルが付与される。単純X線画像では、肺の3次元情報が無いので、肺の表側と裏側を観察することができないので、肺を3個の区域に分けてラベルを付与することができる。なお、上述したX線CT画像202及び単純X線画像における肺の区域の設け方は、一例であり、他の形態で肺の区域を設けてもよい。このように、レポート生成部134は、臓器ラベル変換リスト205Aを用いることにより、第1の読影レポート206から第2の読影レポート208を生成する。
 図8は、レポート生成部134が備える疾患ラベル変換リスト205Bを説明する図である。
 図示した疾患ラベル変換リスト205Bに示すように、3次元疾患ラベルの各々は、2次元疾患ラベルに変換される。具体的には、3次元疾患ラベルのスピキュラ、鋸歯状、分葉状は、2次元疾患ラベルでは不整形と変換される。また、3次元疾患ラベルの石灰化は、2次元疾患ラベルでは「○○」と変換される。また、3次元疾患ラベルの空洞は、2次元疾患ラベルでは「××」と変換される。ここで、3次元疾患ラベルは、3次元情報を有するX線CT画像202に基づいて比較的詳細な疾患ラベルが付される。一方、2次元疾患ラベルは、2次元情報を有する単純X線画像に対応し、比較大まかな疾患ラベルが付与される。なお、上述したX線CT画像202及び単純X線画像における肺の疾患ラベルは、一例であり、他の形態で肺の疾患ラベルを付与してもよい。このように、レポート生成部134は、疾患ラベル変換リスト205Bを用いることにより、第1の読影レポート206から第2の読影レポート208を生成する。
 図9は、上述した臓器ラベル変換リスト205A及び疾患ラベル変換リスト205Bを備えるレポート生成部134の第1のレポートから第2のレポートの変換に関して説明する図である。
 図示するように、レポート生成部134は、臓器ラベル変換リスト205Aに基づいて、第1の読影レポート206の「右区域S4及びS5」を「右肺下」に変換して、第2の読影レポート208を生成する。また、レポート生成部134は、疾患ラベル変換リスト205Bに基づいて、第1の読影レポート206の「鋸歯状でスピキュラ」を「不整形」に変換することにより、第2の読影レポート208を生成する。
 以上で説明したように、レポート生成部134は、変換リストを備え、その変換リストに基づいて第1の読影レポート206から第2の読影レポート208を生成する。なお上記では、レポート生成部134が変換リストを用いて第1の読影レポート206から第2の読影レポート208を生成する例について説明したが、本態様はこれに限定されるものではない。例えば、レポート生成部134は、学習済みモデルで構成され、第1の読影レポート206から第2の読影レポート208を生成してもよい。
 図10は、学習モデル126、誤差取得部136、及び学習制御部138を説明する機能ブロック図である。
 学習モデル126は、深層学習(ディープラーニング)モデルの一つである畳み込みニューラルネットワーク(CNN)で構成される。
 学習モデル126は、複数のレイヤー構造を有し、複数の重みパラメータを保持している。学習モデル126は、重みパラメータが初期値から最適値に更新されることで、未学習モデルから学習済みモデルに変化しうる。学習モデル126の重みパラメータの初期値は、任意の値でもよいし、例えば、公知の読影レポートを出力する学習済みモデルの重みパラメータを適用してもよい。
 この学習モデル126は、入力層126Aと、畳み込み層とプーリング層から構成された複数セットを有する中間層126Bと、出力層126Cとを備え、各層は複数の「ノード」が「エッジ」で結ばれる構造となっている。
 入力層126Aには、学習データセット200のうちの疑似単純X線画像204が入力される。
 中間層126Bは、畳み込み層やプーリング層などを有し、入力層126Aから入力した画像から特徴を抽出する部分である。畳み込み層は、前の層で近くにあるノードにフィルタ処理し(フィルタを使用した畳み込み演算を行い)、「特徴マップ」を取得する。プーリング層は、畳み込み層から出力された特徴マップを縮小して新たな特徴マップとする。「畳み込み層」は、画像からのエッジ抽出等の特徴抽出の役割を担い、「プーリング層」は抽出された特徴が、平行移動などによる影響を受けないようにロバスト性を与える役割を担う。なお、中間層126Bには、畳み込み層とプーリング層とが交互に配置される場合に限らず、畳み込み層が連続する場合や正規化層も含まれる。また、最終段の畳み込み層convは、疑似単純X線画像204から読影される事象を示す特徴マップを出力する部分である。
 出力層126Cは、学習モデル126の出力結果(推定レポート210)を出力する部分である。
 誤差取得部136は、学習モデル126の出力層126Cから出力される出力結果(推定レポート210)と、疑似単純X線画像204に対応する第2の読影レポート208とを取得し、両者間の誤差を算出する。誤差の算出方法は、例えば、ジャッカード係数やダイス係数を用いることが考えられる。
 学習制御部138は、誤差取得部136により算出された誤差を元に、誤差逆伝播法により、第2の読影レポート208と学習モデル126の出力との特徴量空間での距離を最小化させ、又は類似度を最大化させるべく、学習モデル126の重みパラメータを調整する。
 このパラメータの調整処理を繰り返し行い、誤差取得部136により算出される誤差が収束するまで繰り返し学習を行う。
 このようにして学習用データセットを使用し、重みパラメータが最適化された学習済みの学習モデル126を作成する。
 次に、学習装置100を使用した学習方法に関して説明する。
 図11は、学習装置100を使用した学習方法、及び学習プログラムによりプロセッサが実行する各ステップを説明する図である。
 先ず、学習データ取得部130は、メモリ114に記憶されている学習データセット(X線CT画像202及び第1の読影レポート206)200を取得する(ステップS10)。その後、X線CT画像202は疑似画像生成部132に送られ、疑似画像生成部132はX線CT画像202に基づいて疑似単純X線画像204を生成する(ステップS11)。次に、レポート生成部134は、臓器ラベル変換リスト205Aに基づいて第1の読影レポート206の臓器ラベル220を変換する(ステップS12)。また、レポート生成部134は、疾患ラベル変換リストに基づいて第1の読影レポート206の疾患ラベルを変換する(ステップS13)。このラベルの変換により、レポート生成部134は第2の読影レポート208を生成する。次に、学習モデル126は、入力された疑似単純X線画像204に基づいて推定レポート210を出力する(ステップS14)。その後、誤差取得部136は、推定レポート210と第2の読影レポート208との誤差を取得し(ステップS15)、学習制御部138は、取得された誤差に基づいて学習モデル126を学習させる(ステップS16)。
 以上で説明したように、本実施形態によれば、3次元情報を有するX線CT画像202及びX線CT画像202に対する第1の読影レポート206の学習データセット200から、疑似単純X線画像204と疑似単純X線画像204に対する第2の読影レポート208を生成し、この疑似単純X線画像204と第2の読影レポート208とを使用して学習が行われる。これにより、本態様は精度の高い読影レポートを出力するように学習を行うことができる。また、本実施形態の学習方法で学習が行われた学習済みモデルによれば、単純X線画像が入力されて、入力された単純X線画像の精度の高い読影レポートを出力することができる。
 <第2の実施形態>
 以上で説明した例では、立位のX線CT画像202から立位の疑似単純X線画像204が生成される例に関して説明した。しかしながら、本実施形態では、臥位(第1の姿勢)のX線CT画像202がメモリ114に記憶されている場合でも、立位(第2の姿勢)の疑似単純X線画像204を生成して学習モデル126に入力することができる。
 図12は、臥位のX線CT画像を立位のX線CT画像に変換する体位変換部150に関して説明する図である。なお、体位変換部150は、例えば学習データ取得部130に備えられる。
 体位変換部150は、メモリ114に記憶された臥位のX線CT画像202Aを立位のX線CT画像に変換する。体位変換部150は、様々な手法により臥位のX線CT画像202Aを立位のX線CT画像202Bに変換することができる。例えば体位変換部150は、機械学習が行われた学習済みモデルで構成され、入力された臥位のX線CT画像202Aから立位のX線CT画像202Bを出力してもよい。
 このように、本実施形態では、臥位のX線CT画像202Aを立位のX線CT画像202Bに変換する。そして、疑似画像生成部132により、変換された立位のX線CT画像202Bから疑似単純X線画像204が生成される。したがって、臥位で撮影されたX線CT画像でも適切に本実施形態に用いることができる。
 <第3の実施形態>
 以上で説明した例では、X線CT画像202に基づいてAP(Anterior(前)からPosterior(後ろ))像又はPA(Posterior(後ろ)からAnterior(前))像の疑似単純X線画像204に基づいて、推定レポート210を生成する例について説明した。しかしながら、本実施形態では、他の方向の像、例えば側方像(Lateral)から、撮影した疑似X線画像を生成して、その疑似X線画像に基づいて推定レポート210を生成する。
 図13は、疑似画像生成部132が2つの方向の疑似X線画像を生成することを説明する図である。
 疑似画像生成部132は、X線CT画像202に基づいて、AP方向(第1の方向)に投影した疑似単純X線画像204aとLAT(Lateral)方向(第2の方向)に投影した疑似単純X線画像204bとを生成する。疑似画像生成部132は、公知の技術により、AP方向の疑似単純X線画像204a及びLAT方向の疑似単純X線画像bを生成することができる。例えば疑似画像生成部132は、上述したDRR手法により、AP方向の疑似単純X線画像204aと、LAT方向の疑似単純X線画像204bとを生成する。
 このように、本実施形態では、X線CT画像202に基づいて、AP方向に投影した疑似単純X線画像204aとLT方向に投影した疑似単純X線画像204bとを生成する。そして、AP方向に投影した疑似単純X線画像204aとLAT方向に投影した疑似単純X線画像204bとが学習モデル126に入力されるので、より精度高い読影レポートを出力するように学習が行われる。
 <第4の実施形態>
 以上で説明した例では、レポート生成部134は、臓器ラベル変換リスト205A及び疾患ラベル変換リスト205Bを備える例に関して説明を行った。本実施形態では、レポート生成部134は知識グラフを変換し、その変換に基づいて、第1の読影レポート206から第2の読影レポート208を生成する。具体的には、レポート生成部134は、第1の読影レポート206に対応する第1の知識グラフを、第2の読影レポート208に対応する第2の知識グラフに変換し、その変換に基づいて推定レポート210を生成する。例えばレポート生成部134は、X線CT画像用解剖知識グラフ(第1の知識グラフ)及びX線CT画像用疾患知識グラフ(第1の知識グラフ)を備え、それぞれの知識グラフを単純X線画像用解剖知識グラフ(第2の知識グラフ)及び単純X線画像用疾患知識グラフ(第2の知識グラフ)に変換を行う。そして、レポート生成部134は、その変換に基づいて第2の読影レポートを生成する。
 図14は、レポート生成部134が備える解剖知識グラフの変換の例に関して説明する図である。
 図14において、符号250では、X線CT画像用解剖知識グラフが示されている。X線CT画像202は、3次元情報を有しているので、肺の区域をより細かく分けることができる。
 図15及び図16は、X線CT画像202における解剖知識グラフを概念的に示す図である。図15は肺の内側面から見た場合の区域を示す図であり、図16は肺の外側面から見た場合の区域を示す図である。
 図15における符号260及び図16における符号264では、右肺の区域が示されている。右肺はS1~S10の10個の区域に分けられている。なお、S4区域は、内側面から観察することができないので図16において図示されている。一方、図15における符号262及び図16における符号266では、左肺の区域が示されている。左肺は、右肺と同様にS1~S10の区域に分けられているが、S1とS2とは同じ区域(S1+2と表記)であるので、9個の区域に分けられている。このように、X線CT画像202では、3次元情報を有しているので、上述したように右肺及び左肺の各々をS1区域からS10区域に分けることができる。
 図14において、符号252及び符号254で示した解剖知識グラフは、単純X線画像(AP像及びLateral像)のものである。単純X線画像では、AP像では右肺及び左肺の各々を3つの区域に、Lateral像では肺を2つの区域に分けている。
 図17は、単純X線画像における解剖知識グラフを概念的に示す図である。
 AP像の単純X線画像268aの右肺は、右肺上部U1、右肺中部U2、右肺下部U3の区域が設けられ、左肺は、左肺上部U4、左肺中部U5、左肺下部U6の区域が設けられる。また、Lateral像の単純X線画像268bの肺は、上部U7、及び下部U8の区域が設けられている。
 図14で示した、X線CT画像用解剖知識グラフ250では、肺は右肺と左肺とに分岐し、左肺は左上葉と左下葉に分岐する。左上葉は、左S1+S2区域、左S3区域、左S4区域左S5区域に分岐する。左下葉は、左S6区域、左S8区域、左S9区域、及び左S10区域に分岐する。右肺は、右上葉、右中葉、及び右下葉に分岐する。右上葉は右S1区域、右S2区域、及び右S3区域に分岐する。右中葉は右S4区域、及び右S5区域に分岐する。右下葉は右S6区域、右S8区域、右S9区域、及び右S10区域に分岐する。
 図14で示した、単純X線画像用解剖知識グラフでは、AP像の単純X線画像268aの解剖知識グラフと、Lateral像の単純X線画像268bの解剖知識グラフとが示されている。AP像の単純X線画像の解剖知識グラフでは肺は左肺と右肺に分岐される。左肺は、左上部、左中部、及び左下部に分岐される。また、右肺は、右上部、右中部、及び右下部に分岐される。また、Lateral方向の単純X線画像の解剖知識グラフでは上部と下部とに分岐される。そして、レポート生成部134は、図14の矢印で示すようにX線CT画像用解剖知識グラフ250から、単純X線画像用解剖知識グラフ252及び254に変換し、この変換に基づいて第1の読影レポート206から第2の読影レポート208を生成する。
 図18は、レポート生成部134が備える疾患知識グラフの変換の例に関して示した図である。
 図18に示した疾患知識グラフは、結節に関する疾患知識グラフでの例である。なお、図18では知識グラフで表記すると煩雑になるので、テーブルとして記載している。
 X線CT画像用疾患知識グラフ270は、カテゴリが吸収値、境界、形状、辺縁性状、内部性状、周辺組織との関係に分岐される。吸収値の分類対象(クラス)は、充実性、部分充実側、すりガラス型に分類される。境界は、明瞭と不明瞭とに分類される。形状は、不整形と類円型とに分類される。辺縁性状は、不整、平滑、鋸歯状、スピキュラ、分葉状、直線状に分類される。内部性状は、気管支透亮像、石灰化、空洞、脂肪に分類される。周辺組織との関係は、胸膜陥入と胸膜接触とに分類される。
 一方、単純X線画像用疾患知識グラフ272では、吸収値は、肺組織と同様の吸収係数のため視認が容易でないので、充実性にのみ分類される。境界は、X線CT画像用疾患知識グラフ270と同様に、明瞭、不明瞭に分類される。形状も、X線CT画像用疾患知識グラフ270と同様に、不整形、類円型に分類される。単純X線画像では全体的な形状しか視認できないので、辺縁性状の記載はされない。内部性状は、骨と同等の吸収係数のため視認可能となり、石灰化が分類される。周辺組織との関係は、撮影方向によっては胸膜陥入と胸膜接触とに分類される。そして、レポート生成部134は、図18の矢印で示すようにX線CT画像用疾患知識グラフ270から、単純X線画像用疾患知識グラフ272に変換し、この変換に基づいて第1の読影レポート206から第2の読影レポート208を生成する。
 図19は、上述した解剖知識グラフ及び疾患知識グラフを備えるレポート生成部134の第1のレポートから第2のレポートの変換に関して説明する図である。
 レポート生成部134は、解剖知識グラフの変換に基づいて、第1の読影レポート280の「右区域S4及びS5」を「右肺下」に変換して、第2の読影レポート282を生成する。また、レポート生成部134は、疾患知識グラフの変換に基づいて、第1の読影レポート280の「辺縁は鋸歯状でスピキュラを伴い、」を削除することにより、第2の読影レポート282を生成する。
 以上で説明したように、本実施形態では、レポート生成部134は、解剖知識グラフ及び疾患知識グラフをX線CT画像用から単純X線画像用に変換し、その変換に基づいて、第1の読影レポート280から第2の読影レポート282を生成する。
 <第5の実施形態>
 <第1の例>
 次に、学習モデル126の学習の他の実施形態(第1の例)に関して説明する。上述した実施形態では、学習モデル126に疑似単純X線画像204を入力して、学習モデル126から出力される推定レポートと第2の読影レポートとの誤差を最小にするように、学習が行われる例について説明を行った。本例では、前述の学習に加えて追加の学習データセットである実X線画像及び実X線画像の疾患ラベルを利用して学習モデル126の学習が行われる。
 図20は、本例で使用される追加の学習データセットを説明する図である。
 追加の学習データセット300は、実単純X線画像302及び疾患ラベル304で構成される。ここで、実単純X線画像302は、胸部を例えばAP方向で実際に撮影を行ったX線画像である。また、疾患ラベル304は、実単純X線画像302を医師が読影することにより付与されたラベルであり、例えば結節の有無を示すラベルである。追加の学習データセットは、具体的には、NIH(National institutes of health) Chest X-ray Dataset等で取得される。
 図21は、本例における学習モデル126の学習に関して説明を行う図である。
 本例では、学習モデル126に疑似単純X線画像204と実単純X線画像302とが入力される。なお、学習モデル126には、例えば疑似単純X線画像204と実単純X線画像302とが交互に入力される。そして、学習モデル126は推定レポート210を出力する。ここで、疑似単純X線画像204と実単純X線画像302とは、同じ被検体に関しての画像としているが、異なる被写体であってもよい。
 学習モデル126は、DenseNet(Densely connected convolutional networks)127Aと知識グラフ127Bとで構成されている。ここでDenseNet127Aは、複数の密ブロック(Dense Block)と、密ブロックの前後の複数の遷移層(Transition Layer)とを含み、クラス分類(例えば疾患検出)のタスクで高い性能を示すネットワーク構造を有する。密ブロック内では、スキップ接続を全ての層に課すことで、勾配消失の削減を行う。遷移層としては、畳み込み層及び/又はプーリング層が設けられている。また、知識グラフ127Bから読影レポートを出力する手法としては例えば、文献(Li, Christy Y., et al. "Knowledge-driven encode, retrieve, paraphrase for medical image report generation.", AAAI, 2019.)に記載された技術が使用される。知識グラフ127Bは、DenseNet127Aからの出力に基づいて推定レポート210を出力する。知識グラフ127Bは例えば、解剖知識グラフ306及び疾患知識グラフ308で構成される。ここで、疑似X線画像から疾患知識グラフへの変換の学習において、実X線画像と疾患ラベルとを用いて補助を行う。具体的には、学習モデル126の知識グラフ127Bの部分空間に疾患ラベル(結節の有無)を加えて、実X線画像に結節の有無のラベルを誤差に加える。これにより、学習モデル126は、疾患ラベル304を参照して推定レポート210を出力することになり、より精度の高い読影レポートを出力するように学習が行われる。
 <第2の例>
 次に、学習モデル126の学習の他の実施形態(第2の例)に関して説明する。本例では、前述の学習に加えて追加の学習データセットである実X線画像及び実X線画像の疾患ラベルを利用して学習モデル126の学習が行われる。
 図22は、本例で使用される追加の学習データセットを説明する図である。
 追加の学習データセット320は、実単純X線画像302及び読影レポート(第3の読影レポート)322で構成される。ここで、読影レポート322は、例えば医師が実単純X線画像302を実際に読影し作成した読影レポートである。
 図23は、本例における学習モデル126の学習に関して説明を行う図である。なお、既に説明を行った箇所は同じ符号を付し説明は省略する。
 本例では、学習モデル126に疑似単純X線画像204と実単純X線画像302とが入力される。なお、学習モデル126には、例えば疑似単純X線画像204と実単純X線画像302とが交互に入力される。そして、学習モデル126は、疑似単純X線画像204に対する推定レポート210と、実単純X線画像302に対する推定レポート324とを出力する。ここで、疑似単純X線画像204と実単純X線画像302とで同一のDenseNet127Aと知識グラフ127Bとを使用して学習が行われる。具体的には、疑似単純X線画像204が入力された場合には、前述したように推定レポート210を出力し、推定レポート210と第2の読影レポートとの誤差により、学習モデル126の学習が行われる。一方、実単純X線画像302が入力された場合には、同じくDenseNet127Aと知識グラフ127Bとを介して、推定レポート324が出力される。そして、誤差取得部136は、出力された推定レポート324と追加の学習データセット320の一部の読影レポート322との誤差を取得し、学習制御部138はその誤差に基づいて学習モデル126の学習を行わせる。
 以上で説明したように、学習モデル126は、疑似単純X線画像204を使用した学習に加えて実単純X線画像302を使用した学習が行われる。このような学習により、より精度の高い読影レポートを出力する学習済みモデルを生成することができる。
 <その他>
 上記実施形態において、各種の処理を実行する処理部(processing unit)のハードウェア的な構造は、次に示すような各種のプロセッサ(processor)である。各種のプロセッサには、ソフトウェア(プログラム)を実行して各種の処理部として機能する汎用的なプロセッサであるCPU(Central Processing Unit)、FPGA(Field Programmable Gate Array)などの製造後に回路構成を変更可能なプロセッサであるプログラマブルロジックデバイス(Programmable Logic Device:PLD)、ASIC(Application Specific Integrated Circuit)などの特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路などが含まれる。
 1つの処理部は、これら各種のプロセッサのうちの1つで構成されていてもよいし、同種又は異種の2つ以上のプロセッサ(例えば、複数のFPGA、あるいはCPUとFPGAの組み合わせ)で構成されてもよい。また、複数の処理部を1つのプロセッサで構成してもよい。複数の処理部を1つのプロセッサで構成する例としては、第1に、クライアントやサーバなどのコンピュータに代表されるように、1つ以上のCPUとソフトウェアの組合せで1つのプロセッサを構成し、このプロセッサが複数の処理部として機能する形態がある。第2に、システムオンチップ(System On Chip:SoC)などに代表されるように、複数の処理部を含むシステム全体の機能を1つのIC(Integrated Circuit)チップで実現するプロセッサを使用する形態がある。このように、各種の処理部は、ハードウェア的な構造として、上記各種のプロセッサを1つ以上用いて構成される。
 さらに、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子などの回路素子を組み合わせた電気回路(circuitry)である。
 上述の各構成及び機能は、任意のハードウェア、ソフトウェア、或いは両者の組み合わせによって適宜実現可能である。例えば、上述の処理ステップ(処理手順)をコンピュータに実行させるプログラム、そのようなプログラムを記録したコンピュータ読み取り可能な記録媒体(非一時的記録媒体)、或いはそのようなプログラムをインストール可能なコンピュータに対しても本発明を適用することが可能である。
 以上で本発明の例に関して説明してきたが、本発明は上述した実施の形態に限定されず、本発明の趣旨を逸脱しない範囲で種々の変形が可能であることは言うまでもない。
100  :学習装置
112  :通信部
114  :メモリ
116  :操作部
118  :CPU
120  :RAM
122  :ROM
124  :表示部
126  :学習モデル
129  :プロセッサ
130  :学習データ取得部
132  :疑似画像生成部
134  :レポート生成部
136  :誤差取得部
138  :学習制御部
200  :学習データセット
202  :X線CT画像
204  :疑似単純X線画像
205A :臓器ラベル変換リスト
205B :疾患ラベル変換リスト
206  :第1の読影レポート
208  :第2の読影レポート
210  :推定レポート

Claims (15)

  1.  プロセッサと、3次元情報を有するX線CT画像及び前記X線CT画像に対する第1の読影レポートの学習データセットを記憶するメモリと、2次元情報を有する単純X線画像から読影レポートを生成する学習モデルと、を備える学習装置であって、
     前記プロセッサは、
     前記X線CT画像を投影して疑似単純X線画像を生成し、前記学習モデルに前記疑似単純X線画像を入力する処理と、
     前記第1の読影レポートを変換して前記疑似単純X線画像に対しての第2の読影レポートを生成する処理と、
     前記学習モデルが入力された前記疑似単純X線画像に基づいて出力した、前記疑似単純X線画像に対する推定レポートと、前記第2の読影レポートとの誤差を取得する処理と、
     前記誤差を使用して、前記学習モデルを学習させる処理と、
     を行う学習装置。
  2.  前記第2の読影レポートを生成する処理は、前記第1の読影レポートに含まれる臓器ラベルを、前記第2の読影レポートの臓器ラベルに変換することにより、前記第1の読影レポートから前記第2の読影レポートを生成する請求項1に記載の学習装置。
  3.  前記第2の読影レポートを生成する処理は、前記第1の読影レポートに含まれる疾患ラベルを、前記第2の読影レポートの疾患ラベルに変換することにより、前記第1の読影レポートから前記第2の読影レポートを生成する請求項1又は2に記載の学習装置。
  4.  前記第2の読影レポートを生成する処理は、
     前記第1の読影レポートに対応する第1の知識グラフを、前記第2の読影レポートに対応する第2の知識グラフに変換し、前記変換に基づいて、前記第2の読影レポートを生成する請求項1に記載の学習装置。
  5.  前記メモリは、第1の姿勢の被検体を撮影した前記X線CT画像を記憶し、前記学習モデルは、第2の姿勢の被検体を撮影した前記単純X線画像から読影レポートを生成する場合には、
     前記疑似単純X線画像を入力する処理は、前記第1の姿勢の前記X線CT画像から前記第2の姿勢の前記疑似単純X線画像を生成して、前記学習モデルに前記第2の姿勢の前記疑似単純X線画像を入力する請求項1から4のいずれか1項に記載の学習装置。
  6.  前記疑似単純X線画像を入力する処理は、前記X線CT画像から第1の方向に投影した前記疑似単純X線画像と、第2の方向に投影した前記疑似単純X線画像とを生成し、前記学習モデルに前記第1の方向に投影した前記疑似単純X線画像と、前記第2の方向に投影した前記疑似単純X線画像とを入力する請求項1から5のいずれか1項に記載の学習装置。
  7.  前記メモリは、前記単純X線画像と前記単純X線画像の疾患ラベルとの追加の学習データセットを記憶し、
     前記誤差を取得する処理は、前記学習モデルが、前記疾患ラベルを参照して出力した、前記疑似単純X線画像に対する前記推定レポートと、前記第2の読影レポートとの誤差を取得する請求項1から6のいずれか1項に記載の学習装置。
  8.  前記メモリは、前記単純X線画像と前記単純X線画像に対する第3の読影レポートとの追加の学習データセットを記憶し、
     前記誤差を取得する処理は、前記学習モデルが入力された前記疑似単純X線画像に基づいて出力した、前記疑似単純X線画像に対する推定レポートと前記第2の読影レポートとの誤差、及び、前記学習モデルが入力された前記単純X線画像に基づいて出力した、前記単純X線画像に対する推定レポートと前記第3の読影レポートとの誤差を取得する請求項1から6のいずれか1項に記載の学習装置。
  9.  プロセッサが、メモリに記憶された3次元情報を有するX線CT画像及び前記X線CT画像に対する第1の読影レポートの学習データセットを使用して、2次元情報を有する単純X線画像から読影レポートを生成する学習モデルを学習させる学習方法であって、
     前記X線CT画像を投影して疑似単純X線画像を生成し、前記学習モデルに前記疑似単純X線画像を入力するステップと、
     前記第1の読影レポートを変換して前記疑似単純X線画像に対しての第2の読影レポートを生成するステップと、
     前記学習モデルが入力された前記疑似単純X線画像に基づいて出力した、前記疑似単純X線画像に対する推定レポートと、前記第2の読影レポートとの誤差を取得するステップと、
     前記誤差を使用して、前記学習モデルを学習させるステップと、
     を含む学習方法。
  10.  前記第2の読影レポートを生成するステップは、前記第1の読影レポートに含まれる臓器ラベルを、前記第2の読影レポートの臓器ラベルに変換することにより、前記第1の読影レポートから前記第2の読影レポートを生成する請求項9に記載の学習方法。
  11.  前記第2の読影レポートを生成するステップは、前記第1の読影レポートに含まれる疾患ラベルを、前記第2の読影レポートの疾患ラベルに変換することにより、前記第1の読影レポートから前記第2の読影レポートを生成する請求項9又は10に記載の学習方法。
  12.  前記第2の読影レポートを生成するステップは、
     前記第1の読影レポートに対応する第1の知識グラフを、前記第2の読影レポートに対応する第2の知識グラフに変換し、前記変換に基づいて、前記第2の読影レポートを生成する請求項9に記載の学習方法。
  13.  請求項9から12のいずれか1項に記載の学習方法における各ステップの処理を、前記プロセッサに実行させる学習プログラム。
  14.  非一時的かつコンピュータ読取可能な記録媒体であって、請求項13に記載のプログラムが記録された記録媒体。
  15.  請求項9から12のいずれか1項に記載の学習方法により学習が行われた学習済みモデル。
PCT/JP2022/001350 2021-01-26 2022-01-17 学習装置、学習方法、学習済みモデル、及びプログラム WO2022163401A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2022578243A JPWO2022163401A1 (ja) 2021-01-26 2022-01-17
US18/357,143 US20230368880A1 (en) 2021-01-26 2023-07-23 Learning apparatus, learning method, trained model, and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021010381 2021-01-26
JP2021-010381 2021-01-26

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US18/357,143 Continuation US20230368880A1 (en) 2021-01-26 2023-07-23 Learning apparatus, learning method, trained model, and program

Publications (1)

Publication Number Publication Date
WO2022163401A1 true WO2022163401A1 (ja) 2022-08-04

Family

ID=82654654

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/001350 WO2022163401A1 (ja) 2021-01-26 2022-01-17 学習装置、学習方法、学習済みモデル、及びプログラム

Country Status (3)

Country Link
US (1) US20230368880A1 (ja)
JP (1) JPWO2022163401A1 (ja)
WO (1) WO2022163401A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019153250A (ja) * 2018-03-06 2019-09-12 富士フイルム株式会社 医療文書作成支援装置、方法およびプログラム
CN111223085A (zh) * 2020-01-09 2020-06-02 北京安德医智科技有限公司 一种基于神经网络的头部医疗影像辅助判读报告生成方法
US20200321101A1 (en) * 2019-04-08 2020-10-08 International Business Machines Corporation Rule out accuracy for detecting findings of interest in images
CN112215845A (zh) * 2020-12-03 2021-01-12 虎丘影像(苏州)有限公司 基于多神经网络的医学影像信息识别方法、装置、系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019153250A (ja) * 2018-03-06 2019-09-12 富士フイルム株式会社 医療文書作成支援装置、方法およびプログラム
US20200321101A1 (en) * 2019-04-08 2020-10-08 International Business Machines Corporation Rule out accuracy for detecting findings of interest in images
CN111223085A (zh) * 2020-01-09 2020-06-02 北京安德医智科技有限公司 一种基于神经网络的头部医疗影像辅助判读报告生成方法
CN112215845A (zh) * 2020-12-03 2021-01-12 虎丘影像(苏州)有限公司 基于多神经网络的医学影像信息识别方法、装置、系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
NISHINO, TORU: "Using deep reinforcement learning with disproportionate characteristics to generate imaging reports", PROCEEDINGS OF THE 26TH ANNUAL MEETING OF THE ASSOCIATION FOR NATURAL LANGUAGE PROCESSING, vol. 26, 9 March 2020 (2020-03-09), pages 201 - 204, XP009538746 *
OHKUMA, TOMOKO: "The Fujifilm Group's thinking on the future of "imaging report systems"", INNERVISION, MAGUBUROSU SHUPPAN, TOKYO, JP, vol. 35, no. 3, 25 February 2020 (2020-02-25), JP , pages 60 - 61, XP009538660, ISSN: 0913-8919 *

Also Published As

Publication number Publication date
US20230368880A1 (en) 2023-11-16
JPWO2022163401A1 (ja) 2022-08-04

Similar Documents

Publication Publication Date Title
WO2022037696A1 (zh) 基于深度学习的骨骼分割方法和系统
Yau et al. Tooth model reconstruction based upon data fusion for orthodontic treatment simulation
CN110009669B (zh) 一种基于深度强化学习的3d/2d医学图像配准方法
US11941812B2 (en) Diagnosis support apparatus and X-ray CT apparatus
CN111815766B (zh) 基于2d-dsa图像重建血管三维模型处理方法及系统
Egger et al. Fully convolutional mandible segmentation on a valid ground-truth dataset
CN112967379B (zh) 一种基于感知一致生成对抗网络的三维医学图像重建方法
Wu et al. Reconstructing 3D lung shape from a single 2D image during the deaeration deformation process using model-based data augmentation
JPWO2020054503A1 (ja) 機械学習装置、推定装置、プログラム及び学習済みモデル
CN106327479A (zh) 血管造影中介下先心病术中血管辨识的装置及方法
Goswami et al. 3D modeling of X-ray images: a review
Belikova et al. Deep negative volume segmentation
Badano et al. The stochastic digital human is now enrolling for in silico imaging trials—methods and tools for generating digital cohorts
Zakirov et al. Dental pathology detection in 3D cone-beam CT
WO2022163401A1 (ja) 学習装置、学習方法、学習済みモデル、及びプログラム
US20240185509A1 (en) 3d reconstruction of anatomical images
CN117475250A (zh) 基于解剖结构数据模拟病理图像
WO2022163513A1 (ja) 学習済みモデルの生成方法、機械学習システム、プログラムおよび医療画像処理装置
Yu et al. A benchmark dual-modality dental imaging dataset and a novel cognitively inspired pipeline for high-resolution dental point cloud synthesis
JP5943267B2 (ja) 個人モデルデータの生成方法、生成プログラム、および生成システム
Amara et al. Augmented reality for medical practice: a comparative study of deep learning models for ct-scan segmentation
Wang et al. Shape Reconstruction for Abdominal Organs based on a Graph Convolutional Network
WO2021205990A1 (ja) 画像処理装置、方法およびプログラム、学習装置、方法およびプログラム、並びに導出モデル
Zhang et al. 3D reconstruction of patient-specific femurs using Coherent Point Drift
US20240312603A1 (en) Whole-Body Anatomical Digital Twin from Partial Medical Images

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22745624

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022578243

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 22745624

Country of ref document: EP

Kind code of ref document: A1