WO2021085057A1 - 物体検出装置、物体検出方法およびプログラム - Google Patents

物体検出装置、物体検出方法およびプログラム Download PDF

Info

Publication number
WO2021085057A1
WO2021085057A1 PCT/JP2020/037903 JP2020037903W WO2021085057A1 WO 2021085057 A1 WO2021085057 A1 WO 2021085057A1 JP 2020037903 W JP2020037903 W JP 2020037903W WO 2021085057 A1 WO2021085057 A1 WO 2021085057A1
Authority
WO
WIPO (PCT)
Prior art keywords
candidate
input image
candidate region
unit
displacement field
Prior art date
Application number
PCT/JP2020/037903
Other languages
English (en)
French (fr)
Inventor
研一郎 金子
Original Assignee
富士フイルム株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 富士フイルム株式会社 filed Critical 富士フイルム株式会社
Priority to JP2021554245A priority Critical patent/JP7252366B2/ja
Publication of WO2021085057A1 publication Critical patent/WO2021085057A1/ja
Priority to US17/728,984 priority patent/US20220351494A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/759Region-based matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B6/00Apparatus or devices for radiation diagnosis; Apparatus or devices for radiation diagnosis combined with radiation therapy equipment
    • A61B6/52Devices using data or image processing specially adapted for radiation diagnosis
    • A61B6/5211Devices using data or image processing specially adapted for radiation diagnosis involving processing of medical diagnostic data
    • A61B6/5217Devices using data or image processing specially adapted for radiation diagnosis involving processing of medical diagnostic data extracting a diagnostic or physiological parameter from medical diagnostic data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • G06V10/7515Shifting the patterns to accommodate for positional errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/753Transform-based matching, e.g. Hough transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B6/00Apparatus or devices for radiation diagnosis; Apparatus or devices for radiation diagnosis combined with radiation therapy equipment
    • A61B6/02Arrangements for diagnosis sequentially in different planes; Stereoscopic radiation diagnosis
    • A61B6/03Computed tomography [CT]
    • A61B6/032Transmission computed tomography [CT]
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B6/00Apparatus or devices for radiation diagnosis; Apparatus or devices for radiation diagnosis combined with radiation therapy equipment
    • A61B6/02Arrangements for diagnosis sequentially in different planes; Stereoscopic radiation diagnosis
    • A61B6/03Computed tomography [CT]
    • A61B6/037Emission tomography
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B6/00Apparatus or devices for radiation diagnosis; Apparatus or devices for radiation diagnosis combined with radiation therapy equipment
    • A61B6/50Apparatus or devices for radiation diagnosis; Apparatus or devices for radiation diagnosis combined with radiation therapy equipment specially adapted for specific body parts; specially adapted for specific clinical applications
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/03Recognition of patterns in medical or anatomical images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/03Recognition of patterns in medical or anatomical images
    • G06V2201/032Recognition of patterns in medical or anatomical images of protuberances, polyps nodules, etc.

Definitions

  • the present disclosure relates to an object detection device, an object detection method and a program.
  • CT Computer Tomography
  • MRI Magnetic Resonance Imaging
  • Faster-RCNN (Regions with CNN features) is known as a convolutional neural network (CNN) used in deep learning (see, for example, US Pat. No. 9,858,496).
  • the large intestine CT examination is known as a new large intestine examination that does not use an endoscope.
  • a polyp of colorectal cancer that can be observed as a lesion, for example, a convex portion in the large intestine lumen, is detected.
  • the patient as a subject is photographed in two positions, supine (supine position) and prone (prone position). The reason for taking pictures in two positions is that there is a risk that water droplets or the like may be erroneously detected as a polyp in one position.
  • Japanese Patent Application Laid-Open No. 2017-127623 and Japanese Patent Application Laid-Open No. 2017-80157 describe that diagnosis is performed using two images taken in different positions, but detection of a lesion region is performed individually for each image. It is done in. Therefore, in the conventional technique, the detection accuracy of the lesion area largely depends on the experience and ability of the doctor, and erroneous detection may occur.
  • the object of the present disclosure is to provide an object detection device, an object detection method, and a program with less false detection than the conventional ones.
  • the object detection device of the present disclosure is an object detection device that detects a specific object included in the input image, and is a first input image obtained by photographing the subject in the first position.
  • the object candidate is included from the first candidate area specifying part that specifies the first candidate area including the object candidate from, and the second input image obtained by photographing the subject in the second position different from the first position.
  • the second candidate is based on the second candidate area specifying part that specifies the second candidate area, the deformed displacement field generating part that generates the deformed displacement field between the first input image and the second input image, and the deformed displacement field.
  • a coordinate conversion unit that converts the coordinates of the area to the coordinates of the first position, an association unit that associates the first candidate area with the converted second candidate area that is close to the first candidate area, and an association unit are associated with each other.
  • An object detection device including an same object determination unit that determines that the object candidates included in each candidate region are the same object and are specific objects.
  • the first object determination unit determines that the object candidate included in the first candidate region is a specific object
  • the second object determination unit determines that the object candidate included in the second candidate region is a specific object. It is preferable to determine that.
  • the same object determination unit generates a main score indicating the certainty that the object candidates included in each candidate area are the same object and are specific objects, and the first object determination unit is the first.
  • the first sub-score indicating the certainty that the object candidate included in the candidate area is a specific object is generated, and the second object determination unit confirms that the object candidate included in the second candidate area is a specific object. It is preferable to generate a second subscore that represents the peculiarity.
  • an object candidate having a primary score equal to or higher than the first threshold, an object candidate having a first subscore larger than the first threshold and having a first subscore equal to or higher than the first threshold, and an object candidate having a second subscore equal to or higher than the second threshold are selected.
  • the first object determination unit modifies the first candidate region and the second object determination unit modifies the second candidate region.
  • a first convolutional neural network that generates a first convolutional feature map from a first input image and a second convolutional neural network that generates a second convolutional feature map from a second input image are further provided, and a first candidate area identification unit is provided. Specifies the first candidate area based on the first convolutional feature map, and the second candidate area specifying unit preferably specifies the second candidate area based on the second convolutional feature map.
  • the deformation displacement field generation unit is preferably a convolutional neural network that generates a deformation displacement field from the first convolutional feature map and the second convolutional feature map.
  • one of the supine and prone positions is in the first position and the other is in the second position.
  • the specific product is preferably a polyp.
  • the object detection method of the present disclosure is an object detection method for detecting a specific object included in an input image, and is a first method in which an object candidate is included from a first input image obtained by photographing a subject in the first position.
  • the first candidate area identification step for specifying the candidate area and the second candidate area for which the object candidate is included are specified from the second input image obtained by photographing the subject in the second position different from the first position.
  • the deformation displacement field generation step of generating the deformation displacement field between the first input image and the second input image, and the deformation displacement field, the coordinates of the second candidate area are set to the first position.
  • a coordinate conversion step for converting to coordinates, an association step for associating the first candidate area with the converted second candidate area close to the first candidate area, and an object candidate included in each candidate area associated with the association step. Includes the same object determination step for determining that is the same object and is a specific object.
  • the program of the present disclosure is a program that operates a computer as an object detection device that detects a specific object included in an input image, and an object candidate is obtained from a first input image obtained by photographing a subject in the first position.
  • the coordinates of the second candidate region are set based on the second candidate region specifying unit that specifies the deformed displacement field, the deformed displacement field generating unit that generates the deformed displacement field between the first input image and the second input image, and the deformed displacement field.
  • the coordinate conversion unit that converts to the coordinates of the first position, the association unit that associates the first candidate area with the converted second candidate area that is close to the first candidate area, and each candidate area that is associated by the association unit.
  • the computer is operated as the same object determination unit for determining that the included object candidates are the same object and are specific objects.
  • FIG. 1 is a hardware configuration diagram showing an outline of a diagnostic support system 100 to which the object detection device 1 according to the embodiment of the present disclosure is applied.
  • the diagnosis support system 100 includes an object detection device 1, a three-dimensional image capturing device 2, and an image storage server 3.
  • the object detection device 1, the three-dimensional image capturing device 2, and the image storage server 3 are connected to each other via the network 4 in a communicable state.
  • the three-dimensional image capturing device 2 is a device that generates a three-dimensional image representing the site by photographing the site to be diagnosed of the subject, and specifically, a CT device, an MRI device, and a PET (PET). Positron Emission Tomography) equipment, etc.
  • the three-dimensional image generated by the three-dimensional image capturing device 2 is transmitted to the image storage server 3 and stored.
  • the three-dimensional imaging device 2 is, for example, a CT device, and generates a CT image including a site to be diagnosed (for example, the abdomen of the human body) as a three-dimensional image.
  • the three-dimensional image is composed of a plurality of tomographic images.
  • the image storage server 3 is a computer that stores and manages various data, and has a large-capacity external storage device and database management software.
  • the image storage server 3 communicates with another device via a wired or wireless network 4 to send and receive image data and the like. Specifically, the image storage server 3 acquires various data including image data of the three-dimensional image generated by the three-dimensional image capturing device 2 via the network 4 and stores the data in a recording medium such as a large-capacity external storage device. And manage it.
  • the storage format of the image data and the communication between the devices via the network 4 are based on a protocol such as DICOM (Digital Imaging and Communication in Medicine).
  • the object detection device 1 has an operation program installed on one computer.
  • the computer may be a workstation or personal computer operated directly by the diagnosing doctor, or it may be a server computer connected to them via a network.
  • the operation program is recorded and distributed on a recording medium such as a DVD (Digital Versatile Disc) or a CD-ROM (Compact Disc Read Only Memory), and is installed in the computer from the recording medium.
  • a recording medium such as a DVD (Digital Versatile Disc) or a CD-ROM (Compact Disc Read Only Memory)
  • it is stored in the storage device of the server computer connected to the network or in the network storage in a state where it can be accessed from the outside.
  • the operating program is downloaded and installed on the computer used by the physician upon request.
  • FIG. 2 is a diagram showing a schematic configuration of an object detection device 1 realized by installing an operation program on a computer.
  • the object detection device 1 includes a CPU (Central Processing Unit) 11, a memory 12, and a storage 13 as a standard workstation configuration. Further, the object detection device 1 is connected to a display unit 14 such as a liquid crystal display and an input unit 15 such as a keyboard and a mouse.
  • a display unit 14 such as a liquid crystal display
  • an input unit 15 such as a keyboard and a mouse.
  • the storage 13 is composed of a hard disk drive or the like, and stores various information including an input image acquired from the image storage server 3 via the network 4 and information necessary for processing.
  • the operation program is stored in the memory 12.
  • the operation program displays an image acquisition process for acquiring an input image to be detected as an object, an object detection process for detecting an object included in the input image, and an input image together with an object detection result.
  • the input image may be a three-dimensional image or a two-dimensional image.
  • the CPU 11 When the CPU 11 executes these processes according to the operation program, the CPU 11 functions as an image acquisition unit 21, an object detection unit 22, and a display control unit 23.
  • the image acquisition unit 21 is an interface for acquiring an input image from the image storage server 3. If the input image is already stored in the storage 13, the image acquisition unit 21 may acquire the input image from the storage 13.
  • the image acquisition unit 21 acquires two input images obtained by photographing the same subject under different imaging conditions. Specifically, the image acquisition unit 21 acquires two three-dimensional images obtained by photographing the subject in different positions by the three-dimensional image capturing device 2 as the first input image S1 and the second input image S2.
  • the first input image S1 is a supine image obtained by taking a picture with the subject lying on the bed (supine position)
  • the second input image S2 is the subject lying prone on the bed. It is a prone image obtained by taking a picture in the (prone position) state.
  • the supine position is an example of the first position
  • the prone position is an example of the second position.
  • the first and second positions are not limited to the supine and prone positions, and may be two different positions such as the right lateral position and the left lateral position.
  • the tomographic images representing one tomographic surface constituting the three-dimensional image acquired by the CT apparatus are used as the first input image S1 and the second input image S2.
  • 3 and 4 illustrate the first input image S1 and the second input image S2 obtained by photographing the same subject, respectively.
  • the Z-axis direction is the body axis direction of the subject.
  • the first input image S1 and the second input image S2 are tomographic images representing tomographic planes of the XY plane orthogonal to the Z-axis direction, respectively.
  • the first input image S1 and the second input image S2 shown in FIGS. 3 and 4 are a supine image and a prone image of a region including the large intestine, and include a polyp P of colorectal cancer as a lesion.
  • the object detection unit 22 detects a specific object (polyp P in the present embodiment) included in the first input image S1 and the second input image S2 based on the first input image S1 and the second input image S2.
  • the display control unit 23 displays the first input image S1 and the second input image S2 on the display unit 14 so that the user can recognize the detection area of a specific object in each image.
  • FIG. 5 is a block diagram showing a functional configuration of the object detection unit 22.
  • the object detection unit 22 includes a first object identification unit 30A, a second object identification unit 30B, a deformation displacement field generation unit 40, a coordinate conversion unit 41, an association unit 42, and the same object determination unit 43.
  • the first object identification unit 30A performs the object identification process based on the first input image S1.
  • the second object identification unit 30B performs the object identification process based on the first input image S1.
  • the first object identification unit 30A and the second object identification unit 30B are networks composed of Faster-RCNN, respectively.
  • the Faster-RCNN is characterized by including a region proposal network (RPN: Region Proposal Network) that estimates a candidate region of an object from a feature map generated by the CNN.
  • RPN Region Proposal Network
  • the first object identification unit 30A has a first CNN 31A, a first candidate region identification unit 32A, and a first object determination unit 33A.
  • the second object identification unit 30B has the same configuration as the first object identification unit 30A, and has a second CNN 31B, a second candidate region identification unit 32B, and a second object determination unit 33B.
  • the first CNN31A and the second CNN31B each have a plurality of layers such as a convolutional layer, a pooling layer, and a deconvolutional layer.
  • the convolution layer generates a feature map by performing a convolution operation that applies a filter (also called a kernel) to each pixel of the input image.
  • the pooling layer reduces the size of the feature map by performing a process of calculating the local statistics of the feature map. As the statistic, an average value, a maximum value, an intermediate value, or the like is used.
  • the first CNN31A When the first input image S1 is input, the first CNN31A outputs a convolution feature map (hereinafter, referred to as the first convolution feature map M1) to which the features of the first input image S1 are mapped.
  • the second CNN 31B outputs a convolution feature map (hereinafter, referred to as a second convolution feature map M2) to which the features of the second input image S2 are mapped.
  • the size of the first convolution feature map M1 is smaller than that of the first input image S1.
  • the size of the first convolution feature map M1 is 1/4 of the size of the first input image S1.
  • the size of the first convolution feature map M1 is 1/16 of the size of the first input image S1. The same applies to the relationship between the second convolution feature map M2 and the second input image S2.
  • the first CNN31A and the second CNN31B do not have to have a pooling layer.
  • the sizes of the first convolution feature map M1 and the second convolution feature map M2 are the same as the sizes of the first input image S1 and the second input image S2, respectively.
  • the CNN a known model such as "Zeiler and Fergus model” or “Simonyan and Zisserman model” can be used.
  • the first candidate area specifying unit 32A identifies a candidate area (hereinafter, referred to as the first candidate area R1) including some object from the first convolution feature map M1.
  • the second candidate area specifying unit 32B identifies a candidate area (hereinafter, referred to as a second candidate area R2) including some object from the second convolution feature map M2.
  • the first candidate area specifying unit 32A and the second candidate area specifying unit 32B are each composed of RPN.
  • RPN has a function of estimating a candidate region of an object included in a convolution feature map. Specifically, RPN outputs one or more candidate regions to which a score representing object-likeness is given for each local region of the convolution feature map. Having this RPN is a feature of Faster-RCNN.
  • FIG. 6 is a diagram showing the configuration of the first candidate area specifying unit 32A. Since the first candidate area specifying unit 32A and the second candidate area specifying unit 32B have the same configuration, only the configuration of the first candidate area specifying unit 32A will be described below.
  • the first candidate region identification unit 32A is composed of a neural network including an intermediate layer 50, a classification layer 51, and a regression layer 52.
  • the first candidate area identification unit 32A selects and slides the local area of the first convolution feature map M1 with the sliding window SW. Then, the first candidate area identification unit 32A creates k anchor boxes AB with the center of each sliding window SW as an anchor.
  • the intermediate layer 50 calculates the feature vector in each anchor box AB.
  • This feature vector is composed of, for example, an average value, a maximum value, an intermediate value, or the like.
  • the classification layer 51 and the regression layer 52 make predictions based on the features calculated by the intermediate layer 50.
  • the classification layer 51 outputs a score indicating the presence or absence of an object for each anchor box AB.
  • the regression layer 52 outputs an offset value (deviation amount) of the position (X coordinate and Y coordinate of the center) and the size (height and width) for each anchor box AB. Assuming that k anchor boxes AB are set for one sliding window SW, the classification layer 51 outputs a 2k-dimensional vector, and the regression layer 52 outputs a 4k-dimensional vector.
  • the first candidate area identification unit 32A performs learning by minimizing the multitasking loss, which is the sum of the loss related to the classification of the presence or absence of an object and the loss related to the position and size of the bounding box, based on the teacher input image.
  • the learned first candidate area identification unit 32A specifies the anchor box AB with the highest accuracy for each object candidate as the first candidate area R1 based on the first convolution feature map M1. Specifically, in order to generate the first candidate region R1, unnecessary anchor box AB is deleted by suppressing the non-maximum value from the scored anchor box AB.
  • the first object determination unit 33A is an object candidate included in each first candidate area R1 based on the first candidate area R1 specified by the first convolution feature map M1 and the first candidate area identification unit 32A. Is a specific object (polyp P) or not.
  • the second object determination unit 33B identifies the object candidates included in each second candidate area R2 based on the second candidate area R2 specified by the second convolution feature map M2 and the second candidate area identification unit 32B. It is determined whether or not it is an object (polyp P).
  • FIG. 7 is a diagram showing the configuration of the first object determination unit 33A. Since the first object determination unit 33A and the second object determination unit 33B have the same configuration, only the configuration of the first object determination unit 33A will be described below.
  • the first object determination unit 33A is composed of a neural network including an ROI (Region of Interest) pooling layer 60, a fully connected layer 61, a classification layer 62, and a regression layer 63.
  • the first object determination unit 33A outputs a score indicating the certainty that the object candidate is a specific object for each of the plurality of first candidate regions R1 specified by the first candidate region identification unit 32A.
  • the plurality of first candidate regions R1 specified by the first candidate region specifying unit 32A have different aspect ratios and various numbers of dimensions. For this reason, the ROI pooling layer 60 performs a process of converting a feature map having a different number of dimensions into a vector having a constant size for each first candidate region R1. Specifically, the feature map in each first candidate region R1 is cut out from the first convolution feature map M1 and input to the ROI pooling layer 60. The ROI pooling layer 60 converts the input feature map and outputs the converted feature map as the first ROI feature map RM1.
  • the fully connected layer 61 calculates the feature amount of the first ROI feature map RM1.
  • the classification layer 62 and the regression layer 63 make predictions based on the features calculated by the fully connected layer 61.
  • the classification layer 62 outputs a score (hereinafter, referred to as a first sub-score SC1) indicating the certainty that the object candidate is a specific object by class recognition for each first ROI feature map RM1.
  • the first sub-score SC1 is represented by a numerical value of 0 or more and 1 or less. The closer the first sub-score SC1 is to 1, the higher the probability that the object candidate included in the first candidate region R1 is a specific object.
  • the regression layer 63 outputs an offset value (deviation amount) of the position (X coordinate and Y coordinate of the center) and the size (height and width) for each first candidate region R1.
  • the first object determination unit 33A uses the first candidate area R1 identified by the learned first candidate area identification unit 32A based on the teacher input image, and uses the loss related to the first sub-score SC1 and the first candidate area. Learning is performed by minimizing the multitasking loss, which is the sum of the loss related to the position and size of R1.
  • the learned first candidate region specifying unit 32A identifies the first candidate region R1 having the highest probability of being a specific object for each object candidate. In this way, the first object determination unit 33A outputs the first candidate region R1 to which the position and size are corrected by regression and the first sub-score SC1 is attached.
  • the second object determination unit 33B generates the second ROI feature map RM2 for each second candidate region R2.
  • the second object determination unit 33B outputs a score (hereinafter referred to as the second sub-score SC2) indicating the certainty that the object candidate is a specific object for each second ROI feature map RM2, and outputs the second candidate region R2.
  • the offset value (deviation amount) of the position (X coordinate and Y coordinate of the center) and the size (height and width) is output for each. In this way, the second object determination unit 33B outputs the second candidate region R2 to which the position and size are corrected by regression and the second sub-score SC2 is attached.
  • the first convolution feature map M1 generated by the first CNN31A and the second convolution feature map M2 generated by the second CNN31B are input to the deformation displacement field generation unit 40.
  • the deformation displacement field generation unit 40 is composed of a CNN, and receives the first convolution feature map M1 and the second convolution feature map M2 as inputs, and the second input image S2 (prone image) to the first input image S1 (supine image).
  • Transform alignment ie, non-rigid alignment
  • the final output of the alignment is a feature map having the same or scaled size as the first input image S1 and moves to each point of the corresponding first input image S1 with respect to each point of the second input image S2. Corresponds to the amount. As shown in FIG.
  • the trained deformation displacement field generation unit 40 receives the first convolution feature map M1 and the second convolution feature map M2 as inputs, and the first input image corresponding to each point of the second input image S2.
  • a deformation displacement field DF representing the amount of movement of S1 to each point is generated.
  • the deformation displacement field generation unit 40 learns the generation of the optimum deformation displacement field DF based on the error of the anatomically corresponding feature points between the first convolution feature map M1 and the second convolution feature map M2. Specifically, the deformation displacement field generation unit 40 minimizes the loss by using the error in the position of the corresponding feature point between the first convolution feature map M1 and the second convolution feature map M2 as a loss. Do learning.
  • the deformation displacement field generation unit 40 has an error in the position of the corresponding region (for example, a region including the polyp P) between the first convolution feature map M1 and the second convolution feature map M2, and the shape of the region. Learning may be performed with the error as a loss. In the present embodiment, since the polyp in the large intestine is targeted for detection, the deformation displacement field generation unit 40 can generate a highly accurate deformation displacement field DF by learning the alignment of the large intestine region.
  • the coordinate conversion unit 41 performs coordinate conversion of the second candidate area R2 specified by the second candidate area identification unit 32B based on the deformation displacement field DF generated by the deformation displacement field generation unit 40.
  • FIG. 9 is a diagram schematically showing the coordinate conversion process performed by the coordinate conversion unit 41.
  • the coordinate conversion unit 41 converts the second coordinate system (prone coordinate system) representing the second input image S2 into the first coordinate system (supine coordinate system) representing the first input image S1 based on the deformation displacement field DF. To do. As a result, the coordinates of the second candidate region R2 are converted into the first coordinate system.
  • the coordinate conversion unit 41 generates the second candidate region R2c after the coordinate conversion.
  • the association unit 42 compares the position of the first candidate area R1 with the position of the second candidate area R2c after the coordinate conversion by the coordinate conversion unit 41 in the first coordinate system, so that the first candidate area R1 is close to the first candidate area R1. And the second candidate region R2c are associated with each other as a candidate pair.
  • FIG. 10 is a diagram schematically showing a candidate pair associated with the association unit 42.
  • the association unit 42 associates, for example, a pair in which the distance between the center position of the first candidate region R1 and the center position of the second candidate region R2c after coordinate conversion is a certain value or less.
  • the association unit 42 may associate a candidate pair in which the overlap ratio of the first candidate region R1 and the second candidate region R2c after coordinate conversion is a certain value or more.
  • association unit 42 uses the first ROI feature map RM1 and the second ROI feature map RM2 corresponding to the associated first candidate region R1 and the second candidate region R2c after coordinate conversion as the first object determination unit 33A and the second object. Obtained from the determination unit 33B and associated with the determination unit 33B.
  • the same object determination unit 43 has the same object candidates included in the first candidate region R1 and the second candidate region R2c after coordinate conversion based on the associated first ROI feature map RM1 and second ROI feature map RM2. And determine whether it is a specific object.
  • FIG. 11 is a diagram showing the configuration of the same object determination unit 43.
  • the same object determination unit 43 is composed of a neural network including a fully connected layer 70 and a classification layer 71.
  • the fully connected layer 70 calculates the features of the first ROI feature map RM1 and the second ROI feature map RM2 associated as candidate pairs.
  • the classification layer 71 is an object having the same object candidates included in the first candidate region R1 and the second candidate region R2c after coordinate conversion by performing class recognition based on the feature amount calculated by the fully connected layer 70. It outputs a score (hereinafter referred to as the main score SC0) that indicates the certainty that the object is a specific object.
  • This main score SC0 is represented by a numerical value of 0 or more and 1 or less. The closer the main score SC0 is to 1, the higher the certainty that the object candidates included in the first candidate region R1 and the second candidate region R2c after coordinate conversion are the same object and are specific objects.
  • the object detection unit 22 detects a specific object based on the scores output from the same object determination unit 43, the first object determination unit 33A, and the second object determination unit 33B.
  • Part 80 is included.
  • the detection unit 80 records the area information of the object candidate detected as a specific object in the storage 13 as detection data.
  • the display control unit 23 causes the display unit 14 to display the detection data, the image, and the like stored in the storage 13 based on the input operation signal from the input unit 15.
  • detection is performed based on the first sub-score SC1 and the second sub-score SC2 in addition to the main score SC0, thereby reducing the detection omission while maintaining high detection accuracy.
  • the detection unit 80 acquires a determination result (same object determination result) including the main score SC0 from the same object determination unit 43 (step S10).
  • the detection unit 80 compares the acquired main score SC0 with the first threshold value ⁇ (step S11).
  • the detection unit 80 records the area information of the object candidate having the main score SC0 in the storage 13 as the main detection data D0 (step S11: YES).
  • the detection unit 80 advances the process to step S13 without performing the recording process. If there are a plurality of candidate pairs, the detection unit 80 repeats the processes of steps S10 to S12.
  • the detection unit 80 acquires a determination result (first object determination result) including the first sub-score SC1 from the first object determination unit 33A (step S13).
  • the detection unit 80 compares the acquired first sub-score SC1 with the second threshold value ⁇ (step S14).
  • the second threshold value ⁇ is a value larger than the first threshold value ⁇ (that is, ⁇ > ⁇ ). Since the first sub-score SC1 output from the first object determination unit 33A is considered to be less accurate than the main score SC0 output from the same object determination unit 43, the detection conditions are stricter than the first threshold value ⁇ . Detection is performed using a certain second threshold value ⁇ .
  • the detection unit 80 uses the region information of the object candidate having the first sub-score SC1 as the first sub-detection data D1. Recording is performed in the storage 13 (step S15). On the other hand, when the first sub-score SC1 is less than the second threshold value ⁇ (step S14: NO), the detection unit 80 proceeds to step S16 without performing the recording process. When a plurality of first candidate regions R1 exist, the detection unit 80 repeats the processes of steps S13 to S15.
  • the detection unit 80 acquires a determination result (second object determination result) including the second sub-score SC2 from the second object determination unit 33B (step S16).
  • the detection unit 80 compares the acquired second sub-score SC2 with the second threshold value ⁇ (step S17).
  • the detection unit 80 uses the region information of the object candidate having the second sub-score SC2 as the second sub-detection data D2. Recording is performed in the storage 13 (step S18).
  • the detection unit 80 proceeds to step S19 without performing the recording process.
  • the detection unit 80 repeats the processes of steps S16 to S18.
  • step S19 the detection unit 80 eliminates duplication of the main detection data D0, the first sub-detection data D1, and the second sub-detection data D2 recorded in the storage 13, and integrates them as union data. Generate Dt.
  • the order of the three determination processes by the detection unit 80 for the main score SC0, the first subscore SC1, and the second subscore SC2 is not limited to the above order, and can be arbitrarily changed. It is also possible to perform these three determination processes in parallel.
  • FIG. 14 is a diagram illustrating the display screen 14A of the display unit 14. As shown in FIG. 14, on the display screen 14A, the first input image S1 as a supine image and the second input image S2 as a prone image are displayed in a state of being contralaterally adjacent to each other. In FIG. 14, the coordinate system of the second input image S2 is rotated by 180 degrees.
  • the display screen 14A is specified based on any of the four types of detection data (main detection data D0, first sub-detection data D1, second sub-detection data D2, and integrated detection data Dt) recorded in the storage 13.
  • detection data main detection data D0, first sub-detection data D1, second sub-detection data D2, and integrated detection data Dt
  • Candidate areas (lesion areas) with high accuracy including objects are displayed.
  • the display control unit 23 displays the user interface on the display screen 14A so that the user can select which of the four types of detection data to display the candidate area.
  • a selection button 14B that enables selection of four types of detection data with a mouse or the like as an input unit 15
  • a display button 14C that executes display
  • an end button 14D that terminates the display are displayed. Will be done.
  • the user can display the candidate area corresponding to the desired detection data by performing the selection operation of the selection button 14B and clicking the display button 14C.
  • FIG. 14 is a display example when the main detection data D0 is selected.
  • the first candidate region R1 and the second candidate region R2 including the same specific object detected based on the main score SC0 are displayed on the display screen 14A in a state of being associated with each other.
  • the integrated detection data Dt when the integrated detection data Dt is selected, all the candidate areas detected by the detection unit 80 are displayed.
  • the first sub-detection data D1 is selected, the first candidate region R1 detected based on the first sub-score SC1 is displayed.
  • the second sub-detection data D2 is selected, the second candidate region R2 detected based on the second sub-score SC2 is displayed.
  • the object candidates included in the first candidate region R1 associated as the candidate pair and the second candidate region R2c after the coordinate conversion are the same object and are specific objects. Therefore, it is possible to reduce erroneous detection of a specific object (polyp) as compared with the conventional case.
  • the water droplets when water droplets are attached to the large intestine lumen, the water droplets may appear in the image as a convex portion of the large intestine lumen and may be erroneously detected as a polyp. Since such water droplets are detached or deformed by changing the body position of the subject, they do not appear in the corresponding regions in the two input images.
  • the determination is made based on the two candidate regions associated with each other in the two input images obtained by photographing the subject in different positions, the risk of erroneous detection of water droplets or the like as a specific object is reduced.
  • a specific object can be detected with high accuracy.
  • polyps may be hidden by residues such as stool.
  • the residue may be detached and a polyp may appear.
  • the determination is made based on the two candidate regions as described above, there is a possibility that the polyp will not be detected because the same object does not exist in the two candidate regions.
  • the determination based on the candidate region in each input image obtained in each position is also performed, it is possible to suppress the omission of detection of the polyp due to the residue. As described above, according to the above embodiment, detection omission can be reduced while maintaining high detection accuracy.
  • the object detection unit 22 detects a specific object and aligns the deformation between the two input images in a partially common network, so that learning can be performed by one algorithm and the detection can be performed. It is possible to save time. Further, the object detection unit 22 can perform learning using only the correct answer data regarding the position of the specific object and the pair of the specific object in the two input images.
  • the first object identification unit 30A and the second object identification unit 30B in the object detection unit 22 are composed of the Faster-RCNN, but are not limited to the Faster-RCNN, and are not limited to the Fast-RCNN, but are formed by the Fast-RCNN or RCNN. It may be configured. Further, the object detection unit 22 is not limited to the neural network, and may be configured by, for example, a support vector machine or a supervised learning algorithm such as a decision tree.
  • the object detection unit 22 includes the first CNN31A and the second CNN31B, but may not include the first CNN31A and the second CNN31B.
  • the first candidate area specifying unit 32A and the second candidate area specifying unit 32B specify the first candidate area R1 and the second candidate area R2 from the first input image S1 and the second input image S2, respectively.
  • the first object determination unit 33A and the second object determination unit 33B cut out the first candidate region R1 and the second candidate region R2 from the first input image S1 and the second input image S2, respectively, to classify the objects. Should be determined.
  • the deformation displacement field generation unit 40 may generate the deformation displacement field DF by using the first input image S1 and the second input image S2 as inputs.
  • the same object determination unit 43 determines the category of the object based on the first ROI feature map RM1 and the second ROI feature map RM2.
  • the same object determination unit 43 has a second candidate region R1 cut out from the first input image S1 and a second coordinate conversion unit 41 cut out from the second input image S2 and subjected to coordinate conversion.
  • the category of the object may be determined based on the candidate region R2c.
  • the main score SC0 is set to a value of 0 or more and 1 or less
  • the first sub-score SC1 and the second sub-score SC2 are set to values of 0 or more and 1 or less, respectively, but the upper and lower limits of each score are the same. It does not have to be.
  • the second threshold value ⁇ may be a detection condition stricter than the first threshold value ⁇ . That is, the fact that the second threshold value ⁇ is larger than the first threshold value ⁇ means that the second threshold value ⁇ is larger than the first threshold value ⁇ when the upper and lower limits of each score are expressed on the same scale. means.
  • the object detection is performed based on the two input images obtained by photographing the subject in two different postures, but by photographing the subject in three or more different postures. It is also possible to perform object detection based on the obtained three or more input images.
  • FIG. 15 is a diagram showing the configuration of the object detection unit 22A according to the modified example.
  • the object detection unit 22A detects an object based on three or more input images obtained by photographing the same subject in three or more different postures.
  • the object detection unit 22A includes as many object identification units as the number of input images.
  • the object detection unit 22A has the first object identification unit 30A and the second object identification unit 30A of the above embodiment.
  • a third object identification unit 30C is provided.
  • the third object identification unit 30C has the same configuration as the second object identification unit 30B.
  • the third object identification unit 30C generates a third convolution feature map M3, a third candidate region R3, a second object, and a third ROI feature map RM3 in the process of object identification based on the third input image S3.
  • the deformation displacement field generation unit 40 has a third deformation displacement field DF1 in addition to the first deformation displacement field DF1 representing the amount of movement of the first input image S1 corresponding to each point of the second input image S2 to each point.
  • a second deformation displacement field DF2 representing the amount of movement of the first input image S1 to each point corresponding to each point of the input image S3 is generated.
  • the coordinate conversion unit 41 performs coordinate conversion of the second candidate region R2 based on the first deformation displacement field DF1, and in addition, the coordinate conversion unit 41 of the third candidate region R3 based on the second deformation displacement field DF2. Perform coordinate transformation. That is, the coordinate conversion unit 41 generates the third candidate area R3c after the coordinate conversion in addition to the second candidate area R2c after the coordinate conversion.
  • the association unit 42 first determines the position of the first candidate region R1, the position of the second candidate region R2c after the coordinate conversion, and the position of the third candidate region R3c after the coordinate conversion. Compare in the coordinate system. Then, the association unit 42 associates the adjacent first candidate region R1, the second candidate region R2c, and the third candidate region R3c as a candidate group. Further, the association unit 42 associates the first ROI feature map RM1, the second ROI feature map RM2, and the third ROI feature map RM3 corresponding to the associated one candidate region R1, the second candidate region R2c, and the third candidate region R3c.
  • the same object determination unit 43 is based on the associated first ROI feature map RM1, second ROI feature map RM2, and third ROI feature map RM3, and the object candidates included in each candidate region are the same object. And it is determined whether or not it is a specific object.
  • the third object identification unit 30C outputs a score (hereinafter, referred to as a third sub-score SC3) indicating the certainty that the object candidate is a specific object.
  • the detection unit 80 performs detection based on the third sub-score SC3 in addition to the above-mentioned main score SC0, first sub-score SC1, and second sub-score SC2, and generates third sub-detection data D3.
  • the configuration of the object detection unit can be similarly modified when the object is detected based on four or more input images.
  • the various processors include a CPU, which is a general-purpose processor that executes software (operation program) and functions as various processing units, and after manufacturing an FPGA (Field Programmable Gate Array) or the like.
  • PLD Programmable Logic Device
  • ASIC Application Specific Integrated Circuit
  • One processing unit may be composed of one of these various processors, or a combination of two or more processors of the same type or different types (for example, a combination of a plurality of FPGAs or a combination of a CPU and an FPGA). ) May be configured. Further, a plurality of processing units may be configured by one processor.
  • one processor is configured by combining one or more CPUs and software. There is a form in which this processor functions as a plurality of processing units.
  • this processor functions as a plurality of processing units.
  • a processor that realizes the functions of the entire system including a plurality of processing units with one IC (Integrated Circuit) chip is used.
  • the various processing units are configured by using one or more of the above-mentioned various processors as a hardware structure.
  • circuitry in which circuit elements such as semiconductor elements are combined can be used.
  • An object detection device that detects a specific object contained in an input image.
  • a first candidate area identification processor that identifies a first candidate area including an object candidate from a first input image obtained by photographing a subject in the first position
  • a second candidate area specifying processor that identifies a second candidate area including an object candidate from a second input image obtained by photographing the subject in a second position different from the first position.
  • a deformation displacement field generating processor that generates a deformation displacement field between the first input image and the second input image
  • a coordinate conversion processor that converts the coordinates of the second candidate region into the coordinates of the first position based on the deformation displacement field.
  • An association processor that associates the first candidate region with the converted second candidate region that is close to the first candidate region.
  • the same object determination processor that determines that the object candidates included in each candidate area associated by the association processor are the same object and that they are the specific objects, and the same object determination processor.
  • An object detection device comprising. [Appendix 2] A first object determination processor that determines that the object candidate included in the first candidate region is the specific object, A second object determination processor that determines that the object candidate included in the second candidate region is the specific object, The object detection device according to Appendix 1, further comprising. [Appendix 3] The first object determination processor determines that the object candidate included in the first candidate region is the specific object, and determines that the object candidate is the specific object. The object detection device according to Appendix 2, wherein the second object determination processor determines that the object candidate included in the second candidate region is the specific object.
  • the same object determination processor generates a main score indicating the certainty that the object candidates included in the candidate regions are the same object and are the specific objects.
  • the first object determination processor generates a first subscore indicating the certainty that the object candidate included in the first candidate region is the specific object.
  • the object detection device according to Appendix 3, wherein the second object determination processor generates a second sub-score indicating the certainty that the object candidate included in the second candidate region is the specific object.
  • An object candidate having the main score of the first threshold value or more, an object candidate having the first sub-score of the second threshold value or more larger than the first threshold value, and an object having the second sub-score of the second threshold value or more.
  • the object detection device according to Appendix 4, further comprising a detection processor that detects the candidate as the specific object.
  • the technique of the present disclosure can be appropriately combined with the above-described embodiment and various modified examples. Further, it is needless to say that various configurations can be adopted without deviating from the gist, not limited to the above-described embodiment and modification. Further, the technique of the present disclosure extends to a storage medium for storing the program non-temporarily in addition to the program.

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Pathology (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Biophysics (AREA)
  • High Energy & Nuclear Physics (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Optics & Photonics (AREA)
  • Veterinary Medicine (AREA)
  • Radiology & Medical Imaging (AREA)
  • Biomedical Technology (AREA)
  • Public Health (AREA)
  • Molecular Biology (AREA)
  • Surgery (AREA)
  • Animal Behavior & Ethology (AREA)
  • Physiology (AREA)
  • Dentistry (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)
  • Apparatus For Radiation Diagnosis (AREA)

Abstract

物体検出装置は、入力画像に含まれる特定物を検出する物体検出装置であって、被検体を第1体位で撮影して得られた第1入力画像から物体候補が含まれる第1候補領域を特定する第1候補領域特定部と、被検体を第1体位とは異なる第2体位で撮影して得られた第2入力画像から物体候補が含まれる第2候補領域を特定する第2候補領域特定部と、第1入力画像と第2入力画像との間の変形変位場を生成する変形変位場生成部と、変形変位場に基づき、第2候補領域の座標を第1体位の座標に変換する座標変換部と、第1候補領域と、第1候補領域に近接した変換後の第2候補領域とを関連付ける関連付け部と、関連付けられた各候補領域に含まれる物体候補が同一の物体であって、かつ特定物であることを判定する同一物体判定部とを備える。

Description

物体検出装置、物体検出方法およびプログラム
 本開示は、物体検出装置、物体検出方法およびプログラムに関する。
 近年、CT(Computed Tomography)装置およびMRI(Magnetic Resonance Imaging)装置等の医療機器の進歩により、高解像度の3次元画像を用いた画像診断が実現されている。このような画像に含まれる臓器および病変等を含む領域を自動で抽出することも行われている(例えば、特開2017-127623号公報および特開2017-80157号公報参照)。
 また、このような画像から領域を抽出する手法として、ディープラーニング等の機械学習により学習がなされた識別器を用いる手法が提案されている。特に、ディープラーニングで用いられる畳み込みニューラルネットワーク(CNN:Convolution Neural Network)としてFaster-RCNN(Regions with CNN features)が知られている(例えば、米国特許第9858496号明細書参照)。
 CT検査の1つとして、内視鏡を使わない新しい大腸検査として大腸CT検査が知られている。この大腸CT検査では、病変として、例えば、大腸内腔において凸部として観察され得る大腸癌のポリープの検出が行われる。このような大腸CT検査では、被検体としての患者は、仰向け(仰臥位)およびうつ伏せ(伏臥位)の2体位で撮影が行われる。2体位の撮影を行うことの理由は、1体位では水滴等をポリープと誤検出してしまう恐れがあるからである。
 特開2017-127623号公報および特開2017-80157号公報には、異なる体位で撮影された2つの画像を用いて診断を行うことが記載されているが、病変領域の検出は各画像で個別に行われている。したがって、従来の技術では、病変領域の検出精度は医師の経験および能力等への依存性が大きく、誤検出が生じる可能性がある。
 本開示の技術は、従来と比べて誤検出の少ない物体検出装置、物体検出方法およびプログラムを提供することを目的とする。
 上記目的を達成するために、本開示の物体検出装置は、入力画像に含まれる特定物を検出する物体検出装置であって、被検体を第1体位で撮影して得られた第1入力画像から物体候補が含まれる第1候補領域を特定する第1候補領域特定部と、被検体を第1体位とは異なる第2体位で撮影して得られた第2入力画像から物体候補が含まれる第2候補領域を特定する第2候補領域特定部と、第1入力画像と第2入力画像との間の変形変位場を生成する変形変位場生成部と、変形変位場に基づき、第2候補領域の座標を第1体位の座標に変換する座標変換部と、第1候補領域と、第1候補領域に近接した変換後の第2候補領域とを関連付ける関連付け部と、関連付け部により関連付けられた各候補領域に含まれる物体候補が同一の物体であって、かつ特定物であることを判定する同一物体判定部と、を備える物体検出装置。
 第1候補領域に含まれる物体候補が特定物であることを判定する第1物体判定部と、第2候補領域に含まれる物体候補が特定物であることを判定する第2物体判定部と、をさらに備えることが好ましい。
 この場合、第1物体判定部は、第1候補領域に含まれる物体候補が特定物であることを判定し、第2物体判定部は、第2候補領域に含まれる物体候補が特定物であることを判定することが好ましい。
 また、同一物体判定部は、各候補領域に含まれる物体候補が同一の物体であって、かつ特定物であることの確からしさを表す主スコアを生成し、第1物体判定部は、第1候補領域に含まれる物体候補が特定物であることの確からしさを表す第1副スコアを生成し、第2物体判定部は、第2候補領域に含まれる物体候補が特定物であることの確からしさを表す第2副スコアを生成することが好ましい。
 また、第1閾値以上の主スコアを持つ物体候補と、第1閾値より大きい第2閾値以上の第1副スコアを持つ物体候補と、第2閾値以上の第2副スコアを持つ物体候補とを、特定物として検出する検出部をさらに備えることが好ましい。
 第1物体判定部は、第1候補領域を修正し、第2物体判定部は、第2候補領域を修正することが好ましい。
 第1入力画像から第1畳み込み特徴マップを生成する第1畳み込みニューラルネットワークと、第2入力画像から第2畳み込み特徴マップを生成する第2畳み込みニューラルネットワークと、をさらに備え、第1候補領域特定部は、第1畳み込み特徴マップに基づいて第1候補領域を特定し、第2候補領域特定部は、第2畳み込み特徴マップに基づいて第2候補領域を特定することが好ましい。
 変形変位場生成部は、第1畳み込み特徴マップおよび第2畳み込み特徴マップから変形変位場を生成する畳み込みニューラルネットワークであることが好ましい。
 仰臥位と伏臥位とのうちの一方が第1体位であり、他方が第2体位であることが好ましい。特定物はポリープであることが好ましい。
 本開示の物体検出方法は、入力画像に含まれる特定物を検出する物体検出方法であって、被検体を第1体位で撮影して得られた第1入力画像から物体候補が含まれる第1候補領域を特定する第1候補領域特定ステップと、被検体を第1体位とは異なる第2体位で撮影して得られた第2入力画像から物体候補が含まれる第2候補領域を特定する第2候補領域特定ステップと、第1入力画像と第2入力画像との間の変形変位場を生成する変形変位場生成ステップと、変形変位場に基づき、第2候補領域の座標を第1体位の座標に変換する座標変換ステップと、第1候補領域と、第1候補領域に近接した変換後の第2候補領域とを関連付ける関連付けステップと、関連付けステップにより関連付けられた各候補領域に含まれる物体候補が同一の物体であって、かつ特定物であることを判定する同一物体判定ステップと、を備える。
 本開示のプログラムは、入力画像に含まれる特定物を検出する物体検出装置としてコンピュータを作動させるプログラムであって、被検体を第1体位で撮影して得られた第1入力画像から物体候補が含まれる第1候補領域を特定する第1候補領域特定部と、被検体を第1体位とは異なる第2体位で撮影して得られた第2入力画像から物体候補が含まれる第2候補領域を特定する第2候補領域特定部と、第1入力画像と第2入力画像との間の変形変位場を生成する変形変位場生成部と、変形変位場に基づき、第2候補領域の座標を第1体位の座標に変換する座標変換部と、第1候補領域と、第1候補領域に近接した変換後の第2候補領域とを関連付ける関連付け部と、関連付け部により関連付けられた各候補領域に含まれる物体候補が同一の物体であって、かつ特定物であることを判定する同一物体判定部として、コンピュータを作動させる。
 本開示の技術によれば、従来と比べて誤検出を低減することができる。
診断支援システムの概要を示すハードウェア構成図である。 物体検出装置の概略構成を示す図である。 第1入力画像の一例を示す図である。 第2入力画像の一例を示す図である。 物体検出部の機能的な構成を示すブロック図である。 第1候補領域特定部の構成を示す図である。 第1物体判定部の構成を示す図である。 変形変位場生成部が生成する変形変位場を模式的に示す図である。 座標変換部により行われる座標変換処理を概略的に示す図である。 関連付け部により関連付けられた候補ペアを概略的に示す図である。 同一物体判定部の構成を示す図である。 検出部の構成を示す図である。 検出部による検出処理を示すフローチャートである。 表示部の表示画面を例示する図である。 変形例に係る物体検出部の構成を示す図である。
 以下、図面を参照して本開示の実施形態について説明する。図1は、本開示の実施形態による物体検出装置1を適用した診断支援システム100の概要を示すハードウェア構成図である。図1に示すように、診断支援システム100は、物体検出装置1と、3次元画像撮影装置2と、画像保管サーバ3とを有する。物体検出装置1と、3次元画像撮影装置2と、画像保管サーバ3とは、ネットワーク4を経由して互いに通信可能な状態で接続されている。
 3次元画像撮影装置2は、被検体の診断対象となる部位を撮影することにより、その部位を表す3次元画像を生成する装置であり、具体的には、CT装置、MRI装置、およびPET(Positron Emission Tomography)装置等である。3次元画像撮影装置2により生成された3次元画像は、画像保管サーバ3に送信されて保存される。なお、本実施形態においては、3次元画像撮影装置2は、例えばCT装置であり、被検体の診断対象となる部位(例えば、人体腹部)を含むCT画像を3次元画像として生成する。なお、3次元画像は複数の断層画像により構成される。
 画像保管サーバ3は、各種データを保存して管理するコンピュータであり、大容量外部記憶装置およびデータベース管理用ソフトウェアを有する。画像保管サーバ3は、有線あるいは無線のネットワーク4を介して他の装置と通信を行い、画像データ等を送受信する。具体的には、画像保管サーバ3は、3次元画像撮影装置2で生成された3次元画像の画像データを含む各種データをネットワーク4経由で取得し、大容量外部記憶装置等の記録媒体に保存して管理する。なお、画像データの格納形式、およびネットワーク4を経由した各装置間の通信は、例えば、DICOM(Digital Imaging and Communication in Medicine)等のプロトコルに基づいている。
 物体検出装置1は、1台のコンピュータに作動プログラムをインストールしたものである。コンピュータは、診断を行う医師が直接操作するワークステーションまたはパーソナルコンピュータでもよいし、それらとネットワークを介して接続されたサーバコンピュータでもよい。作動プログラムは、DVD(Digital Versatile Disc)あるいはCD-ROM(Compact Disc Read Only Memory)等の記録媒体に記録されて配布され、その記録媒体からコンピュータにインストールされる。または、ネットワークに接続されたサーバコンピュータの記憶装置、もしくはネットワークストレージに、外部からアクセス可能な状態で記憶される。この場合、作動プログラムは、要求に応じて医師が使用するコンピュータにダウンロードされてインストールされる。
 図2は、コンピュータに作動プログラムをインストールすることにより実現される物体検出装置1の概略構成を示す図である。図2に示すように、物体検出装置1は、標準的なワークステーションの構成として、CPU(Central Processing Unit)11、メモリ12およびストレージ13を備えている。また、物体検出装置1には、液晶ディスプレイ等の表示部14、並びにキーボードおよびマウス等の入力部15が接続されている。
 ストレージ13は、ハードディスクドライブ等で構成され、ネットワーク4を経由して画像保管サーバ3から取得した入力画像および処理に必要な情報を含む各種情報を記憶している。
 また、メモリ12には、作動プログラムが記憶されている。作動プログラムは、CPU11に実行させる処理として、物体検出の対象となる入力画像を取得する画像取得処理、入力画像に含まれる物体を検出する物体検出処理、および入力画像を物体の検出結果とともに表示する表示制御処理を規定する。なお、入力画像は3次元の画像であってもよいし、2次元の画像であってもよい。
 CPU11が作動プログラムに従ってこれらの処理を実行することで、CPU11は、画像取得部21、物体検出部22、および表示制御部23として機能する。
 画像取得部21は、入力画像を画像保管サーバ3から取得するインターフェースである。なお、入力画像が既にストレージ13に記憶されている場合には、画像取得部21は、ストレージ13から入力画像を取得してもよい。
 本実施形態では、画像取得部21は、同一の被検体を異なる撮影条件で撮影することにより得られた2つの入力画像を取得する。具体的には、画像取得部21は、3次元画像撮影装置2により被検体を異なる体位で撮影した2つの3次元画像を、第1入力画像S1および第2入力画像S2として取得する。例えば、第1入力画像S1は、被検体を寝台上に仰向け(仰臥位)にした状態で撮影することにより得られた仰臥画像であり、第2入力画像S2は、被検体を寝台上にうつ伏せ(伏臥位)にした状態で撮影することにより得られた伏臥画像である。
 仰臥位は第1体位の一例であり、伏臥位は第2体位の一例である。なお、第1体位および第2体位は、仰臥位および伏臥位に限定されず、右側臥位および左側臥位等、異なる2つの体位であればよい。
 本実施形態においては、説明のために、例えばCT装置により取得された3次元画像を構成する1つの断層面を表す断層画像は、第1入力画像S1および第2入力画像S2として用いられるものとするが、これに限定されるものではない。図3および図4は、それぞれ同一の被検体を撮影することにより得られた第1入力画像S1および第2入力画像S2を例示している。図3および図4において、Z軸方向は、被検体の体軸方向である。第1入力画像S1および第2入力画像S2は、それぞれZ軸方向に直交するXY面の断層面を表す断層画像である。
 図3および図4に示す第1入力画像S1および第2入力画像S2は、大腸を含む領域の仰臥画像および伏臥画像であり、病変として大腸癌のポリープPを含んでいる。
 物体検出部22は、第1入力画像S1および第2入力画像S2に基づいて、第1入力画像S1および第2入力画像S2に含まれる特定物(本実施形態では、ポリープP)を検出する。表示制御部23は、第1入力画像S1および第2入力画像S2を、各画像中における特定物の検出領域をユーザが認識可能に表示部14に表示する。
 図5は、物体検出部22の機能的な構成を示すブロック図である。物体検出部22は、第1物体識別部30Aと、第2物体識別部30Bと、変形変位場生成部40と、座標変換部41と、関連付け部42と、同一物体判定部43とを有する。
 第1物体識別部30Aは、第1入力画像S1に基づく物体識別処理を行う。第2物体識別部30Bは、第1入力画像S1に基づく物体識別処理を行う。第1物体識別部30Aおよび第2物体識別部30Bは、それぞれFaster-RCNNにより構成されたネットワークである。Faster-RCNNは、CNNにより生成される特徴マップから物体の候補領域を推定する領域提案ネットワーク(RPN:Region Proposal Network)を備えることを特徴としている。第1物体識別部30Aおよび第2物体識別部30Bは、教師入力画像を用いて予め学習が行われている。
 第1物体識別部30Aは、第1CNN31Aと、第1候補領域特定部32Aと、第1物体判定部33Aとを有する。第2物体識別部30Bは、第1物体識別部30Aと同様の構成であって、第2CNN31Bと、第2候補領域特定部32Bと、第2物体判定部33Bとを有する。
 第1CNN31Aおよび第2CNN31Bは、それぞれ畳み込み層(Convolutional Layer)、プーリング層(Pooling Layer)、および逆畳み込み層(Deconvolutional Layer)等の複数の層を有する。畳み込み層は、入力画像の各画素にフィルタ(カーネルとも称される。)を適用する畳み込み演算を行うことにより特徴マップを生成する。プーリング層は、特徴マップの局所統計量を算出する処理を行うことにより特徴マップのサイズを縮小する。統計量としては、平均値、最大値、または中間値等が用いられる。
 第1CNN31Aは、第1入力画像S1が入力されると、第1入力画像S1の特徴がマッピングされた畳み込み特徴マップ(以下、第1畳み込み特徴マップM1という。)を出力する。同様に、第2CNN31Bは、第2入力画像S2が入力されると、第2入力画像S2の特徴がマッピングされた畳み込み特徴マップ(以下、第2畳み込み特徴マップM2という。)を出力する。
 本実施形態における第1CNN31Aおよび第2CNN31Bは、それぞれ畳み込み層およびプーリング層を有し、プーリングが行われるので、第1畳み込み特徴マップM1は、第1入力画像S1よりもサイズが小さくなる。例えば、プーリング層で4画素を1画素に圧縮する場合には、第1畳み込み特徴マップM1のサイズは、第1入力画像S1のサイズに対して1/4となる。プーリング層が2つの場合には、第1畳み込み特徴マップM1のサイズは、第1入力画像S1のサイズに対して1/16となる。第2畳み込み特徴マップM2と第2入力画像S2との関係についても同様である。
 なお、第1CNN31Aおよび第2CNN31Bは、プーリング層を有していなくてもよい。この場合、第1畳み込み特徴マップM1および第2畳み込み特徴マップM2のサイズは、それぞれ第1入力画像S1および第2入力画像S2のサイズと同一となる。ここで、CNNとしては、「ZeilerとFergusのモデル」または「SimonyanとZissermanのモデル」等、公知のモデルを用いることができる。
 第1候補領域特定部32Aは、第1畳み込み特徴マップM1から何らかの物体を含む候補領域(以下、第1候補領域R1という。)を特定する。同様に、第2候補領域特定部32Bは、第2畳み込み特徴マップM2から何らかの物体を含む候補領域(以下、第2候補領域R2という。)を特定する。
 第1候補領域特定部32Aおよび第2候補領域特定部32Bは、それぞれRPNにより構成されている。RPNは、畳み込み特徴マップに含まれる物体の候補領域を推定する機能を有する。具体的には、RPNは、畳み込み特徴マップの局所領域ごとに、物体らしさを表すスコアが付与された1以上の候補領域を出力する。このRPNを備えることが、Faster-RCNNの特徴である。
 図6は、第1候補領域特定部32Aの構成を示す図である。第1候補領域特定部32Aと第2候補領域特定部32Bとは同一の構成であるので、以下、第1候補領域特定部32Aの構成のみについて説明する。
 第1候補領域特定部32Aは、中間層50、分類層51、および回帰層52を含むニューラルネットワークで構成されている。
 図6に示すように、第1候補領域特定部32Aは、第1畳み込み特徴マップM1の局所領域をスライディングウィンドウSWで選択してスライドさせる。そして、第1候補領域特定部32Aは、各スライディングウィンドウSWの中央をアンカーとして、k個のアンカーボックスABを作成する。アンカーボックスABは、各種アスペクト比および各種サイズを有する矩形の領域である。例えば、3種のアスペクト比(1:1,1:2,および2:1)と、3種のサイズ(128×128,256×256,および512×512)とからなる合計k=9のアンカーボックスABが作成される。これらのk個のアンカーボックスABは、中間層50を介して、分類層51と回帰層52とに入力される。
 中間層50は、各アンカーボックスAB内の特徴ベクトルを算出する。この特徴ベクトルは、例えば、平均値、最大値、または中間値等により構成される。
 分類層51と回帰層52とは、中間層50により計算される特徴量に基づいて予測を行う。分類層51は、アンカーボックスABごとに、物体の有無を表すスコアを出力する。回帰層52は、アンカーボックスABごとに、位置(中心のX座標およびY座標)およびサイズ(高さおよび幅)のオフセット値(ずれ量)を出力する。1つのスライディングウィンドウSWに対してk個のアンカーボックスABが設定されるとすると、分類層51は2k次元のベクトルを出力し、回帰層52は4k次元のベクトルを出力する。
 第1候補領域特定部32Aは、教師入力画像に基づき、物体の有無の分類に関する損失と、バウンディングボックスの位置とサイズに関する損失を合わせたマルチタスク損失を最小化することにより学習を行う。学習済みの第1候補領域特定部32Aは、第1畳み込み特徴マップM1に基づき、1つの物体候補ごとに最も確度の高いアンカーボックスABを、第1候補領域R1として特定する。具体的には、第1候補領域R1を生成するために、スコアリングされたアンカーボックスABから非最大値の抑制を行うことにより不要なアンカーボックスABを削除する。
 図5に戻り、第1物体判定部33Aは、第1畳み込み特徴マップM1および第1候補領域特定部32Aが特定した第1候補領域R1に基づいて、各第1候補領域R1に含まれる物体候補が特定物(ポリープP)であるか否かを判定する。同様に、第2物体判定部33Bは、第2畳み込み特徴マップM2および第2候補領域特定部32Bが特定した第2候補領域R2に基づいて、各第2候補領域R2に含まれる物体候補が特定物(ポリープP)であるか否かを判定する。
 図7は、第1物体判定部33Aの構成を示す図である。第1物体判定部33Aと第2物体判定部33Bとは同一の構成であるので、以下、第1物体判定部33Aの構成のみについて説明する。
 図7に示すように、第1物体判定部33Aは、ROI(Region of Interest)プーリング層60、全結合層61、分類層62、および回帰層63を含むニューラルネットワークで構成されている。第1物体判定部33Aは、第1候補領域特定部32Aにより特定される複数の第1候補領域R1のそれぞれに対して物体候補が特定物であることの確からしさを表すスコアを出力する。
 第1候補領域特定部32Aにより特定される複数の第1候補領域R1は、それぞれアスペクト比が異なり、次元数が様々である。このことから、ROIプーリング層60は、各第1候補領域R1について次元数の異なる特徴マップを一定のサイズのベクトルに変換する処理を行う。具体的には、ROIプーリング層60には、第1畳み込み特徴マップM1から各第1候補領域R1内の特徴マップが切り出されて入力される。ROIプーリング層60は、入力された特徴マップを変換し、変換後の特徴マップを、第1ROI特徴マップRM1として出力する。
 全結合層61は、第1ROI特徴マップRM1の特徴量を算出する。分類層62と回帰層63とは、全結合層61により計算される特徴量に基づいて予測を行う。分類層62は、各第1ROI特徴マップRM1について、クラス認識により、物体候補が特定物であることの確からしさを表すスコア(以下、第1副スコアSC1という。)を出力する。この第1副スコアSC1は、0以上1以下の数値で表される。第1副スコアSC1が1に近いほど第1候補領域R1に含まれる物体候補が特定物であることの確度が高いことを表す。回帰層63は、第1候補領域R1ごとに、位置(中心のX座標およびY座標)およびサイズ(高さおよび幅)のオフセット値(ずれ量)を出力する。
 第1物体判定部33Aは、教師入力画像に基づき、学習済みの第1候補領域特定部32Aにより特定された第1候補領域R1を用いて、第1副スコアSC1に関する損失と、第1候補領域R1の位置とサイズに関する損失を合わせたマルチタスク損失を最小化することによって学習を行う。学習済みの第1候補領域特定部32Aは、1つの物体候補ごとに特定物であることの確度が最も高い第1候補領域R1を特定する。このように、第1物体判定部33Aからは、回帰により位置およびサイズが修正され、第1副スコアSC1が付された第1候補領域R1が出力される。
 同様に、第2物体判定部33Bは、第2候補領域R2ごとに第2ROI特徴マップRM2を生成する。第2物体判定部33Bは、各第2ROI特徴マップRM2について、物体候補が特定物であることの確からしさを表すスコア(以下、第2副スコアSC2という。)を出力し、第2候補領域R2ごとに位置(中心のX座標およびY座標)およびサイズ(高さおよび幅)のオフセット値(ずれ量)を出力する。このように、第2物体判定部33Bからは、回帰により位置およびサイズが修正され、第2副スコアSC2が付された第2候補領域R2が出力される。
 図5に戻り、変形変位場生成部40には、第1CNN31Aにより生成された第1畳み込み特徴マップM1と、第2CNN31Bにより生成された第2畳み込み特徴マップM2とが入力される。
 変形変位場生成部40は、CNNにより構成されており、第1畳み込み特徴マップM1と第2畳み込み特徴マップM2を入力として、第2入力画像S2(伏臥画像)から第1入力画像S1(仰臥画像)への変形位置合わせ(すなわち、非剛体位置合わせ)処理を学習する。例えば、位置合わせの最終出力は、第1入力画像S1と同じあるいは拡縮された大きさの特徴マップであり、第2入力画像S2の各点に関して対応する第1入力画像S1の各点への移動量に相当する。図8に示すように、学習済みの変形変位場生成部40は、第1畳み込み特徴マップM1と第2畳み込み特徴マップM2を入力として、第2入力画像S2の各点に対応する第1入力画像S1の各点への移動量を表す変形変位場DFを生成する。
 変形変位場生成部40は、第1畳み込み特徴マップM1と第2畳み込み特徴マップM2との間の解剖学的に対応する特徴点の誤差に基づいて最適な変形変位場DFの生成を学習する。具体的には、変形変位場生成部40は、第1畳み込み特徴マップM1と第2畳み込み特徴マップM2との間で、対応する特徴点の位置の誤差を損失として、損失を最小化することにより学習を行う。なお、変形変位場生成部40は、第1畳み込み特徴マップM1と第2畳み込み特徴マップM2との間で、対応する領域(例えば、ポリープPを含む領域)の位置の誤差と、領域の形状の誤差とを損失として学習を行ってもよい。本実施形態では、大腸内のポリープを検出対象としているため、変形変位場生成部40が大腸領域の位置合わせを学習することで、高精度な変形変位場DFを生成することができる。
 座標変換部41は、変形変位場生成部40により生成された変形変位場DFに基づき、第2候補領域特定部32Bにより特定された第2候補領域R2の座標変換を行う。図9は、座標変換部41により行われる座標変換処理を概略的に示す図である。座標変換部41は、変形変位場DFに基づき、第2入力画像S2を表す第2座標系(伏臥座標系)を、第1入力画像S1を表す第1座標系(仰臥座標系)に座標変換する。これにより、第2候補領域R2の座標が第1座標系に変換される。座標変換部41は、座標変換後の第2候補領域R2cを生成する。
 関連付け部42は、第1候補領域R1の位置と、座標変換部41による座標変換後の第2候補領域R2cの位置とを、第1座標系において比較することで、近接した第1候補領域R1と第2候補領域R2cとを候補ペアとして関連付ける。図10は、関連付け部42により関連付けられた候補ペアを概略的に示す図である。関連付け部42は、例えば、第1候補領域R1の中心位置と、座標変換後の第2候補領域R2cの中心位置との距離が一定値以下のものを候補ペアとして関連付ける。なお、関連付け部42は、第1候補領域R1と、座標変換後の第2候補領域R2cとの重なりの割合が一定値以上であるものを候補ペアとして関連付けてもよい。
 また、関連付け部42は、関連付けた第1候補領域R1および座標変換後の第2候補領域R2cに対応する第1ROI特徴マップRM1および第2ROI特徴マップRM2を、第1物体判定部33Aおよび第2物体判定部33Bから取得して関連付ける。
 同一物体判定部43は、関連付けられた第1ROI特徴マップRM1および第2ROI特徴マップRM2に基づき、第1候補領域R1および座標変換後の第2候補領域R2cに含まれる物体候補が同一の物体であって、かつ特定物であるか否かを判定する。
 図11は、同一物体判定部43の構成を示す図である。同一物体判定部43は、全結合層70および分類層71を含むニューラルネットワークで構成されている。全結合層70は、候補ペアとして関連付けられた第1ROI特徴マップRM1および第2ROI特徴マップRM2の特徴量を算出する。
 分類層71は、全結合層70により算出された特徴量に基づき、クラス認識を行うことにより、第1候補領域R1および座標変換後の第2候補領域R2cに含まれる物体候補が同一の物体であって、かつ特定物であることの確からしさを表すスコア(以下、主スコアSC0という。)を出力する。この主スコアSC0は、0以上1以下の数値で表される。主スコアSC0が1に近いほど第1候補領域R1および座標変換後の第2候補領域R2cに含まれる物体候補が同一の物体であって、かつ特定物であることの確度が高いことを表す。
 図12に示すように、物体検出部22には、同一物体判定部43、第1物体判定部33A、および第2物体判定部33Bから出力される各スコアに基づいて、特定物を検出する検出部80が含まれる。検出部80は、特定物であると検出した物体候補の領域情報を検出データとしてストレージ13に記録する。表示制御部23は、入力部15からの入力操作信号に基づいて、ストレージ13により格納された検出データおよび画像等を、表示部14へ表示させる。
 次に、図13に示すフローチャートを参照しながら、検出部80による病変領域の検出処理について説明する。以下の検出処理では、主スコアSC0に加えて、第1副スコアSC1および第2副スコアSC2に基づく検出を行うことにより、高い検出精度を保ちつつ、検出漏れを低減する。
 まず、検出部80は、同一物体判定部43から主スコアSC0を含む判定結果(同一物体判定結果)を取得する(ステップS10)。検出部80は、取得した主スコアSC0を第1閾値αと比較する(ステップS11)。検出部80は、主スコアSC0が第1閾値α以上である場合には(ステップS11:YES)、当該主スコアSC0を有する物体候補の領域情報を、主検出データD0としてストレージ13に記録する(ステップS12)。一方、検出部80は、主スコアSC0が第1閾値α未満である場合には(ステップS11:NO)、記録処理は行わずに処理をステップS13に進める。なお、検出部80は、候補ペアが複数存在する場合には、ステップS10~S12の処理を繰り返し行う。
 次に、検出部80は、第1物体判定部33Aから第1副スコアSC1を含む判定結果(第1物体判定結果)を取得する(ステップS13)。検出部80は、取得した第1副スコアSC1を第2閾値βと比較する(ステップS14)。ここで、第2閾値βは、第1閾値αより大きい値(すなわち、β>α)である。第1物体判定部33Aから出力される第1副スコアSC1は、同一物体判定部43から出力される主スコアSC0よりも精度が低いと考えられることから、第1閾値αよりも厳しい検出条件である第2閾値βを用いて検出を行う。
 検出部80は、第1副スコアSC1が第2閾値β以上である場合には(ステップS14:YES)、当該第1副スコアSC1を有する物体候補の領域情報を、第1副検出データD1としてストレージ13に記録する(ステップS15)。一方、検出部80は、第1副スコアSC1が第2閾値β未満である場合には(ステップS14:NO)、記録処理は行わずに処理をステップS16に進める。なお、検出部80は、第1候補領域R1が複数存在する場合には、ステップS13~S15の処理を繰り返し行う。
 次に、検出部80は、第2物体判定部33Bから第2副スコアSC2を含む判定結果(第2物体判定結果)取得する(ステップS16)。検出部80は、取得した第2副スコアSC2を第2閾値βと比較する(ステップS17)。検出部80は、第2副スコアSC2が第2閾値β以上である場合には(ステップS17:YES)、当該第2副スコアSC2を有する物体候補の領域情報を、第2副検出データD2としてストレージ13に記録する(ステップS18)。一方、検出部80は、第2副スコアSC2が第2閾値β未満である場合には(ステップS17:NO)、記録処理は行わずに処理をステップS19に進める。なお、検出部80は、第2候補領域R2が複数存在する場合には、ステップS16~S18の処理を繰り返し行う。
 そして、ステップS19では、検出部80は、ストレージ13に記録した主検出データD0、第1副検出データD1、および第2副検出データD2の重複を排除し、和集合データとして統合した統合検出データDtを生成する。
 なお、検出部80による主スコアSC0、第1副スコアSC1、および第2副スコアSC2による3つの判定処理の順番は、上記の順番に限られず、任意に変更可能である。また、これらの3つの判定処理を並列に行うことも可能である。
 図14は、表示部14の表示画面14Aを例示する図である。図14に示すように、表示画面14Aには、仰臥画像としての第1入力画像S1と伏臥画像としての第2入力画像S2とが対比可能に隣接した状態で表示される。なお、図14では、第2入力画像S2の座標系を180度回転させている。
 表示画面14Aには、ストレージ13に記録された4種の検出データ(主検出データD0、第1副検出データD1、第2副検出データD2、および統合検出データDt)のいずれかに基づき、特定物を含む確度の高い候補領域(病変領域)が表示される。
 また、表示制御部23は、4種の検出データのいずれに基づいて候補領域を表示するかをユーザが選択可能とするように、表示画面14A上にユーザインターフェイス表示を行う。表示画面14Aには、例えば、4種の検出データを入力部15としてのマウス等で選択可能とする選択ボタン14Bと、表示を実行させる表示ボタン14Cと、表示を終了させる終了ボタン14Dとが表示される。ユーザは、選択ボタン14Bの選択操作を行い、表示ボタン14Cをクリックすることにより、所望の検出データに対応する候補領域を表示させることができる。
 図14は、主検出データD0が選択された場合における表示例である。この場合、表示画面14Aには、主スコアSC0に基づいて検出された同一の特定物を含む第1候補領域R1と第2候補領域R2とが、相互に関連付けられた状態で表示される。
 また、統合検出データDtが選択された場合には、検出部80により検出されたすべての候補領域が表示される。また、第1副検出データD1が選択された場合には、第1副スコアSC1に基づいて検出された第1候補領域R1が表示される。第2副検出データD2が選択された場合には、第2副スコアSC2に基づいて検出された第2候補領域R2が表示される。
 上記実施形態によれば、候補ペアとして関連付けられた第1候補領域R1および座標変換後の第2候補領域R2cに含まれる物体候補が、同一の物体であって、かつ特定物であること判定するので、従来と比べて特定物(ポリープ)の誤検出を低減することができる。
 例えば、従来の技術では、大腸内腔に水滴が付着している場合には、水滴が大腸内腔の凸部として画像中に現れ、ポリープとして誤検出される恐れがある。このような水滴は、被検体の体位を変えることで離脱または変形するため、2つの入力画像中の対応領域に現れることはない。上記実施形態では、被検体を異なる体位で撮影することにより得られた2つの入力画像において関連付けられた2つの候補領域に基づいて判定を行うので、水滴等を特定物として誤検出するおそれが低減し、特定物を高精度に検出することができる。
 また、大腸内腔においては、便等の残渣によりポリープが隠れている場合がある。この場合には、被検体の体位を変えることにより、残渣が離脱してポリープが現れることがある。このような場合には、上記のように2つの候補領域に基づいて判定を行うと、2つの候補領域に同一の物体が存在しないとして、ポリープが検出されない可能性がる。これに対して、上記実施形態では、各体位で得られた各入力画像中の候補領域に基づく判定も行っているため、残渣によるポリープの検出漏れを抑制することができる。このように、上記実施形態によれば、高い検出精度を保ちつつ、検出漏れを低減することができる。
 また、上記実施形態では、物体検出部22は、特定物の検出と2つの入力画像間の変形位置合わせを、部分共通化したネットワークで行うため、1つのアルゴリズムで学習が可能であるとともに、検出時間を短縮することが可能である。さらに、物体検出部22は、2つの入力画像における特定物の位置と特定物のペアに関する正解データのみを用いて学習を行うことができる。
 <変形例>
 以下、上記実施形態の変形例について説明する。上記実施形態においては、物体検出部22中の第1物体識別部30Aおよび第2物体識別部30Bを、Faster-RCNNにより構成しているが、Faster-RCNNに限られず、Fast-RCNNまたはRCNNにより構成してもよい。また、物体検出部22は、ニューラルネットワークに限られず、例えばサポートベクタマシン(Support Vector Machine)、または決定木等の教師あり学習アルゴリズムで構成されていてもよい。
 また、上記実施形態においては、物体検出部22は、第1CNN31Aおよび第2CNN31Bを備えているが、第1CNN31Aおよび第2CNN31Bを備えていなくてもよい。この場合には、第1候補領域特定部32Aおよび第2候補領域特定部32Bは、それぞれ第1入力画像S1および第2入力画像S2から第1候補領域R1および第2候補領域R2を特定すればよい。また、この場合、第1物体判定部33Aおよび第2物体判定部33Bは、それぞれ第1入力画像S1および第2入力画像S2から第1候補領域R1および第2候補領域R2を切り出して物体のカテゴリを判定すればよい。さらに、この場合、変形変位場生成部40は、第1入力画像S1および第2入力画像S2を入力として変形変位場DFを生成すればよい。
 また、上記実施形態においては、同一物体判定部43は、第1ROI特徴マップRM1および第2ROI特徴マップRM2に基づいて物体のカテゴリを判定している。これに代えて、同一物体判定部43は、第1入力画像S1から切り出された第1候補領域R1と、第2入力画像S2から切り出されて座標変換部41により座標変換が行われた第2候補領域R2cとに基づいて物体のカテゴリを判定してもよい。
 また、上記実施形態では、主スコアSC0を0以上1以下の値とし、第1副スコアSC1および第2副スコアSC2をそれぞれ0以上1以下の値としているが、各スコアの上限および下限は同一でなくてもよい。この場合、第2閾値βは、第1閾値αよりも厳しい検出条件であればよい。すなわち、第2閾値βが第1閾値αより大きいとは、各スコアの上限および下限を同一として同一のスケールで表現した場合に、第2閾値βが第1閾値αより大きい値となることを意味する。
 また、上記実施形態では、被検体を異なる2つの体位で撮影することにより得られた2つの入力画像に基づいて物体検出を行っているが、被検体を異なる3以上の体位で撮影することにより得られた3以上の入力画像に基づいて物体検出を行うことも可能である。
 図15は、変形例に係る物体検出部22Aの構成を示す図である。物体検出部22Aは、同一の被検体を異なる3以上の体位で撮影することにより得られた3以上の入力画像に基づいて物体検出を行う。物体検出部22Aは、入力画像の数に対応した数だけ物体識別部を備える。
 例えば、物体検出部22Aは、第1入力画像S1、第2入力画像S2、および第3入力画像S3が入力される場合には、上記実施形態の第1物体識別部30Aおよび第2物体識別部30Bに加えて、第3物体識別部30Cを備える。第3物体識別部30Cは、第2物体識別部30Bと同様の構成である。第3物体識別部30Cは、第3入力画像S3に基づく物体識別の過程において、第3畳み込み特徴マップM3、第3候補領域R3、第2物体および第3ROI特徴マップRM3を生成する。
 本変形例では、変形変位場生成部40は、第2入力画像S2の各点に対応する第1入力画像S1の各点への移動量を表す第1変形変位場DF1に加えて、第3入力画像S3の各点に対応する第1入力画像S1の各点への移動量を表す第2変形変位場DF2を生成する。また、本変形例では、座標変換部41は、第1変形変位場DF1に基づき第2候補領域R2の座標変換を行うことに加えて、第2変形変位場DF2に基づき第3候補領域R3の座標変換を行う。すなわち、座標変換部41は、座標変換後の第2候補領域R2cに加えて、座標変換後の第3候補領域R3cを生成する。
 また、本変形例では、関連付け部42は、第1候補領域R1の位置と、座標変換後の第2候補領域R2cの位置と、座標変換後の第3候補領域R3cの位置とを、第1座標系において比較する。そして、関連付け部42は、近接した第1候補領域R1、第2候補領域R2c、および第3候補領域R3cを、候補グループとして関連付ける。また、関連付け部42は、関連付けた1候補領域R1、第2候補領域R2c、および第3候補領域R3cに対応する第1ROI特徴マップRM1、第2ROI特徴マップRM2、および第3ROI特徴マップRM3を関連付ける。
 そして、同一物体判定部43は、関連付けられた第1ROI特徴マップRM1、第2ROI特徴マップRM2、および第3ROI特徴マップRM3に基づいて、各候補領域に含まれる物体候補が同一の物体であって、かつ特定物であるか否かを判定する。
 また、本変形例では、第3物体識別部30Cは、物体候補が特定物であることの確からしさを表すスコア(以下、第3副スコアSC3という。)を出力する。検出部80は、上述の主スコアSC0、第1副スコアSC1、および第2副スコアSC2に加えて、第3副スコアSC3に基づく検出を行い、第3副検出データD3を生成する。
 4以上の入力画像に基づいて物体検出を行う場合についても物体検出部の構成を同様に変形することができる。
 なお、上記各変形例の構成は、矛盾が生じない限り、適宜組み合わせることが可能である。
 また、上記実施形態および変形例において、例えば、画像取得部21、物体検出部22,22A、および表示制御部23といった各種の処理を実行する処理部(Processing Unit)のハードウェア的な構造としては、次に示す各種のプロセッサ(Processor)を用いることができる。上記各種のプロセッサには、上述したように、ソフトウェア(作動プログラム)を実行して各種の処理部として機能する汎用的なプロセッサであるCPUに加えて、FPGA(Field Programmable Gate Array)等の製造後に回路構成を変更可能なプロセッサであるPLD(Programmable Logic Device)、およびASIC(Application Specific Integrated Circuit)等の特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が含まれる。
 1つの処理部は、これらの各種のプロセッサのうちの1つで構成されてもよいし、同種または異種の2つ以上のプロセッサの組み合わせ(例えば、複数のFPGAの組み合わせまたはCPUとFPGAとの組み合わせ)で構成されてもよい。また、複数の処理部を1つのプロセッサで構成してもよい。
 複数の処理部を1つのプロセッサで構成する例としては、第1に、クライアントおよびサーバ等のコンピュータに代表されるように、1つ以上のCPUとソフトウェアとの組み合わせで1つのプロセッサを構成し、このプロセッサが複数の処理部として機能する形態がある。第2に、システムオンチップ(System on Chip)等に代表されるように、複数の処理部を含むシステム全体の機能を1つのIC(Integrated Circuit)チップで実現するプロセッサを使用する形態がある。このように、各種の処理部は、ハードウェア的な構造として、上記各種のプロセッサの1つ以上を用いて構成される。
 さらに、これらの各種のプロセッサのハードウェア的な構造としては、より具体的には、半導体素子等の回路素子を組み合わせた電気回路(Circuitry)を用いることができる。
 以上の記載から、以下の付記項1~5に記載の発明を把握することができる。
 [付記項1]
 入力画像に含まれる特定物を検出する物体検出装置であって、
 被検体を第1体位で撮影して得られた第1入力画像から物体候補が含まれる第1候補領域を特定する第1候補領域特定プロセッサと、
 前記被検体を前記第1体位とは異なる第2体位で撮影して得られた第2入力画像から物体候補が含まれる第2候補領域を特定する第2候補領域特定プロセッサと、
 前記第1入力画像と前記第2入力画像との間の変形変位場を生成する変形変位場生成プロセッサと、
 前記変形変位場に基づき、前記第2候補領域の座標を前記第1体位の座標に変換する座標変換プロセッサと、
 前記第1候補領域と、前記第1候補領域に近接した変換後の前記第2候補領域とを関連付ける関連付けプロセッサと、
 前記関連付けプロセッサにより関連付けられた各候補領域に含まれる物体候補が同一の物体であって、かつ前記特定物であることを判定する同一物体判定プロセッサと、
 を備える物体検出装置。
 [付記項2]
 前記第1候補領域に含まれる物体候補が前記特定物であることを判定する第1物体判定プロセッサと、
 前記第2候補領域に含まれる物体候補が前記特定物であることを判定する第2物体判定プロセッサと、
 をさらに備える付記項1に記載の物体検出装置。
 [付記項3]
 前記第1物体判定プロセッサは、前記第1候補領域に含まれる物体候補が前記特定物であることを判定し、
 前記第2物体判定プロセッサは、前記第2候補領域に含まれる物体候補が前記特定物であることを判定する
 付記項2に記載の物体検出装置。
 [付記項4]
 前記同一物体判定プロセッサは、前記各候補領域に含まれる物体候補が同一の物体であって、かつ前記特定物であることの確からしさを表す主スコアを生成し、
 前記第1物体判定プロセッサは、前記第1候補領域に含まれる物体候補が前記特定物であることの確からしさを表す第1副スコアを生成し、
 前記第2物体判定プロセッサは、前記第2候補領域に含まれる物体候補が前記特定物であることの確からしさを表す第2副スコアを生成する
 付記項3に記載の物体検出装置。
 [付記項5]
 第1閾値以上の前記主スコアを持つ物体候補と、前記第1閾値より大きい第2閾値以上の前記第1副スコアを持つ物体候補と、前記第2閾値以上の前記第2副スコアを持つ物体候補とを、前記特定物として検出する検出プロセッサ
 をさらに備える付記項4に記載の物体検出装置。
 本開示の技術は、上述の実施形態と種々の変形例を適宜組み合わせることも可能である。また、上記実施形態及び変形例に限らず、要旨を逸脱しない限り種々の構成を採用し得ることはもちろんである。さらに、本開示の技術は、プログラムに加えて、プログラムを非一時的に記憶する記憶媒体にもおよぶ。
 以上に示した記載内容及び図示内容は、本開示の技術に係る部分についての詳細な説明であり、本開示の技術の一例に過ぎない。例えば、上記の構成、機能、作用、及び効果に関する説明は、本開示の技術に係る部分の構成、機能、作用、及び効果の一例に関する説明である。よって、本開示の技術の主旨を逸脱しない範囲内において、以上に示した記載内容及び図示内容に対して、不要な部分を削除したり、新たな要素を追加したり、置き換えたりしてもよいことはいうまでもない。また、錯綜を回避し、本開示の技術に係る部分の理解を容易にするために、以上に示した記載内容及び図示内容では、本開示の技術の実施を可能にする上で特に説明を要しない技術常識等に関する説明は省略されている。
 本明細書に記載された全ての文献、特許出願及び技術規格は、個々の文献、特許出願及び技術規格が参照により取り込まれることが具体的かつ個々に記された場合と同程度に、本明細書中に参照により取り込まれる。

Claims (12)

  1.  入力画像に含まれる特定物を検出する物体検出装置であって、
     被検体を第1体位で撮影して得られた第1入力画像から物体候補が含まれる第1候補領域を特定する第1候補領域特定部と、
     前記被検体を前記第1体位とは異なる第2体位で撮影して得られた第2入力画像から物体候補が含まれる第2候補領域を特定する第2候補領域特定部と、
     前記第1入力画像と前記第2入力画像との間の変形変位場を生成する変形変位場生成部と、
     前記変形変位場に基づき、前記第2候補領域の座標を前記第1体位の座標に変換する座標変換部と、
     前記第1候補領域と、前記第1候補領域に近接した変換後の前記第2候補領域とを関連付ける関連付け部と、
     前記関連付け部により関連付けられた各候補領域に含まれる物体候補が同一の物体であって、かつ前記特定物であることを判定する同一物体判定部と、
     を備える物体検出装置。
  2.  前記第1候補領域に含まれる物体候補が前記特定物であることを判定する第1物体判定部と、
     前記第2候補領域に含まれる物体候補が前記特定物であることを判定する第2物体判定部と、
     をさらに備える請求項1に記載の物体検出装置。
  3.  前記第1物体判定部は、前記第1候補領域に含まれる物体候補が前記特定物であることを判定し、
     前記第2物体判定部は、前記第2候補領域に含まれる物体候補が前記特定物であることを判定する
     請求項2に記載の物体検出装置。
  4.  前記同一物体判定部は、前記各候補領域に含まれる物体候補が同一の物体であって、かつ前記特定物であることの確からしさを表す主スコアを生成し、
     前記第1物体判定部は、前記第1候補領域に含まれる物体候補が前記特定物であることの確からしさを表す第1副スコアを生成し、
     前記第2物体判定部は、前記第2候補領域に含まれる物体候補が前記特定物であることの確からしさを表す第2副スコアを生成する
     請求項3に記載の物体検出装置。
  5.  第1閾値以上の前記主スコアを持つ物体候補と、前記第1閾値より大きい第2閾値以上の前記第1副スコアを持つ物体候補と、前記第2閾値以上の前記第2副スコアを持つ物体候補とを、前記特定物として検出する検出部
     をさらに備える請求項4に記載の物体検出装置。
  6.  前記第1物体判定部は、前記第1候補領域を修正し、前記第2物体判定部は、前記第2候補領域を修正する請求項2から請求項5のうちいずれか1項に記載の物体検出装置。
  7.  前記第1入力画像から第1畳み込み特徴マップを生成する第1畳み込みニューラルネットワークと、
     前記第2入力画像から第2畳み込み特徴マップを生成する第2畳み込みニューラルネットワークと、
     をさらに備え、
     前記第1候補領域特定部は、前記第1畳み込み特徴マップに基づいて前記第1候補領域を特定し、
     前記第2候補領域特定部は、前記第2畳み込み特徴マップに基づいて前記第2候補領域を特定する
     請求項1から請求項6のうちいずれか1項に記載の物体検出装置。
  8.  前記変形変位場生成部は、前記第1畳み込み特徴マップおよび前記第2畳み込み特徴マップから前記変形変位場を生成する畳み込みニューラルネットワークである請求項7に記載の物体検出装置。
  9.  仰臥位と伏臥位とのうちの一方が前記第1体位であり、他方が前記第2体位である請求項1から請求項8のうちいずれか1項に記載の物体検出装置。
  10.  前記特定物はポリープである請求項1から請求項9のうちいずれか1項に記載の物体検出装置。
  11.  入力画像に含まれる特定物を検出する物体検出方法であって、
     被検体を第1体位で撮影して得られた第1入力画像から物体候補が含まれる第1候補領域を特定する第1候補領域特定ステップと、
     前記被検体を前記第1体位とは異なる第2体位で撮影して得られた第2入力画像から物体候補が含まれる第2候補領域を特定する第2候補領域特定ステップと、
     前記第1入力画像と前記第2入力画像との間の変形変位場を生成する変形変位場生成ステップと、
     前記変形変位場に基づき、前記第2候補領域の座標を前記第1体位の座標に変換する座標変換ステップと、
     前記第1候補領域と、前記第1候補領域に近接した変換後の前記第2候補領域とを関連付ける関連付けステップと、
     前記関連付けステップにより関連付けられた各候補領域に含まれる物体候補が同一の物体であって、かつ前記特定物であることを判定する同一物体判定ステップと、
     を備える物体検出方法。
  12.  入力画像に含まれる特定物を検出する物体検出装置としてコンピュータを作動させるプログラムであって、
     被検体を第1体位で撮影して得られた第1入力画像から物体候補が含まれる第1候補領域を特定する第1候補領域特定部と、
     前記被検体を前記第1体位とは異なる第2体位で撮影して得られた第2入力画像から物体候補が含まれる第2候補領域を特定する第2候補領域特定部と、
     前記第1入力画像と前記第2入力画像との間の変形変位場を生成する変形変位場生成部と、
     前記変形変位場に基づき、前記第2候補領域の座標を前記第1体位の座標に変換する座標変換部と、
     前記第1候補領域と、前記第1候補領域に近接した変換後の前記第2候補領域とを関連付ける関連付け部と、
     前記関連付け部により関連付けられた各候補領域に含まれる物体候補が同一の物体であって、かつ前記特定物であることを判定する同一物体判定部として、
     コンピュータを作動させるプログラム。
PCT/JP2020/037903 2019-10-30 2020-10-06 物体検出装置、物体検出方法およびプログラム WO2021085057A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2021554245A JP7252366B2 (ja) 2019-10-30 2020-10-06 物体検出装置、物体検出方法およびプログラム
US17/728,984 US20220351494A1 (en) 2019-10-30 2022-04-26 Object detection device, object detection method, and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019197614 2019-10-30
JP2019-197614 2019-10-30

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US17/728,984 Continuation US20220351494A1 (en) 2019-10-30 2022-04-26 Object detection device, object detection method, and program

Publications (1)

Publication Number Publication Date
WO2021085057A1 true WO2021085057A1 (ja) 2021-05-06

Family

ID=75715230

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/037903 WO2021085057A1 (ja) 2019-10-30 2020-10-06 物体検出装置、物体検出方法およびプログラム

Country Status (3)

Country Link
US (1) US20220351494A1 (ja)
JP (1) JP7252366B2 (ja)
WO (1) WO2021085057A1 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011123682A (ja) * 2009-12-10 2011-06-23 Canon Inc 情報処理装置、情報処理方法、及びプログラム
JP2011206297A (ja) * 2010-03-30 2011-10-20 Fujifilm Corp 仮想内視鏡画像処理装置、方法、及びプログラム
JP2012187161A (ja) * 2011-03-09 2012-10-04 Fujifilm Corp 画像処理装置、方法、及びプログラム
JP2015100619A (ja) * 2013-11-27 2015-06-04 株式会社Aze 医用診断支援装置、方法およびプログラム
JP2015130973A (ja) * 2014-01-10 2015-07-23 キヤノン株式会社 処理装置、処理方法、およびプログラム
JP2016143194A (ja) * 2015-01-30 2016-08-08 ザイオソフト株式会社 医用画像処理装置、医用画像処理方法、及び医用画像処理プログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9164372B2 (en) * 2009-08-26 2015-10-20 D2S, Inc. Method and system for forming non-manhattan patterns using variable shaped beam lithography
JP6614611B2 (ja) * 2016-02-29 2019-12-04 Kddi株式会社 画像間類似度を考慮して物体を追跡する装置、プログラム及び方法
KR102287364B1 (ko) * 2018-12-07 2021-08-06 주식회사 포인바이오닉스 인공신경망을 이용하여 캡슐형 내시경 영상에서 병변을 감지하는 시스템 및 방법
CN109767448B (zh) * 2019-01-17 2021-06-01 上海长征医院 分割模型训练方法及装置
CN110232410A (zh) * 2019-05-30 2019-09-13 清华大学 多层级的器官组织病理图像分析方法及分析装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011123682A (ja) * 2009-12-10 2011-06-23 Canon Inc 情報処理装置、情報処理方法、及びプログラム
JP2011206297A (ja) * 2010-03-30 2011-10-20 Fujifilm Corp 仮想内視鏡画像処理装置、方法、及びプログラム
JP2012187161A (ja) * 2011-03-09 2012-10-04 Fujifilm Corp 画像処理装置、方法、及びプログラム
JP2015100619A (ja) * 2013-11-27 2015-06-04 株式会社Aze 医用診断支援装置、方法およびプログラム
JP2015130973A (ja) * 2014-01-10 2015-07-23 キヤノン株式会社 処理装置、処理方法、およびプログラム
JP2016143194A (ja) * 2015-01-30 2016-08-08 ザイオソフト株式会社 医用画像処理装置、医用画像処理方法、及び医用画像処理プログラム

Also Published As

Publication number Publication date
US20220351494A1 (en) 2022-11-03
JPWO2021085057A1 (ja) 2021-05-06
JP7252366B2 (ja) 2023-04-04

Similar Documents

Publication Publication Date Title
JP7118606B2 (ja) 医用画像処理装置及び医用画像処理プログラム
US9280815B2 (en) Comparison workflow automation by registration
US20220254023A1 (en) System and Method for Interpretation of Multiple Medical Images Using Deep Learning
JP2009502230A (ja) 医用画像における傷病部位の検知
US11969265B2 (en) Neural network classification of osteolysis and synovitis near metal implants
US11244455B2 (en) Apparatus, method, and program for training discriminator discriminating disease region, discriminator discriminating disease region, disease region discrimination apparatus, and disease region discrimination program
US11983879B2 (en) Image processing apparatus, image processing method, and program
US20210271914A1 (en) Image processing apparatus, image processing method, and program
US11854190B2 (en) Similarity determination apparatus, similarity determination method, and similarity determination program
Wang et al. Automatic segmentation of lumbar spine MRI images based on improved attention U‐net
Sha et al. The improved faster-RCNN for spinal fracture lesions detection
WO2021085057A1 (ja) 物体検出装置、物体検出方法およびプログラム
US20210319210A1 (en) Region specification apparatus, region specification method, and region specification program
US20200060657A1 (en) System and method for assessing obstetric wellbeing
US20220148294A1 (en) Learning image generation device, learning image generation method, learning image generation program, learning method, learning device, and learning program
JP7130107B2 (ja) 領域特定装置、方法およびプログラム、学習装置、方法およびプログラム、並びに識別器
Hachaj et al. Nowadays and future computer application in medicine
US11657909B2 (en) Medical image processing apparatus and medical image processing method
US11983870B2 (en) Structure separating apparatus, structure separating method, and structure separating program, learning device, learning method, and learning program, and learned model
Mithila et al. U-net Based Autonomous Fetal Segmentation From 2D and 3D Ultrasound Images
US11341643B1 (en) Method and apparatus of utilizing artificial intelligence in the scrolling process
US20240037738A1 (en) Image processing apparatus, image processing method, and image processing program
US20230022549A1 (en) Image processing apparatus, method and program, learning apparatus, method and program, and derivation model
US20240054643A1 (en) Image processing apparatus, image processing method, and recording medium
WO2022264757A1 (ja) 医用画像診断システム、医用画像診断方法及びプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20882146

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021554245

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20882146

Country of ref document: EP

Kind code of ref document: A1