WO2022249572A1 - 画像処理装置、画像処理方法及び記録媒体 - Google Patents

画像処理装置、画像処理方法及び記録媒体 Download PDF

Info

Publication number
WO2022249572A1
WO2022249572A1 PCT/JP2022/005246 JP2022005246W WO2022249572A1 WO 2022249572 A1 WO2022249572 A1 WO 2022249572A1 JP 2022005246 W JP2022005246 W JP 2022005246W WO 2022249572 A1 WO2022249572 A1 WO 2022249572A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
importance
image processing
processing apparatus
input
Prior art date
Application number
PCT/JP2022/005246
Other languages
English (en)
French (fr)
Inventor
翔 稲吉
創太 正満
悟士 尾崎
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Publication of WO2022249572A1 publication Critical patent/WO2022249572A1/ja

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B1/00Instruments for performing medical examinations of the interior of cavities or tubes of the body by visual or photographical inspection, e.g. endoscopes; Illuminating arrangements therefor
    • A61B1/04Instruments for performing medical examinations of the interior of cavities or tubes of the body by visual or photographical inspection, e.g. endoscopes; Illuminating arrangements therefor combined with photographic or television appliances
    • A61B1/045Control thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis

Definitions

  • the present disclosure relates to an image processing device, an image processing method, and a recording medium.
  • the importance of data (images) cannot be obtained in real time, and it is difficult to efficiently obtain data that contributes to improving recognition performance.
  • the above-described technique assumes that the output of the learning model is reliable and requires additional labeling, making it difficult to efficiently obtain data that contributes to improving recognition performance.
  • the present disclosure proposes an image processing device, an image processing method, and a recording medium that can efficiently obtain data that contributes to improving recognition performance.
  • An image processing apparatus includes a feature amount extraction unit that extracts an intermediate feature amount related to machine learning from an input image that is an image of the inside of the body, and an image importance degree of the input image based on the intermediate feature amount. and an image storage unit that stores the input image based on the image importance.
  • An image processing method extracts an intermediate feature amount related to machine learning from an input image, which is an image of the inside of a body, and calculates the image importance of the input image based on the intermediate feature amount. and storing the input image based on the image importance.
  • a recording medium allows a computer to extract an intermediate feature amount related to machine learning from an input image, which is an image of the inside of the body, and calculate the image importance of the input image based on the intermediate feature amount. and storing the input image based on the image importance.
  • FIG. 1 is a diagram showing an example of a schematic configuration of an image processing system according to an embodiment; FIG. It is a figure for demonstrating an example of the pre-learning process which concerns on embodiment.
  • FIG. 5 is a diagram for explaining an example of inference processing according to the embodiment; 6 is a flowchart showing an example of the flow of learning processing according to the embodiment; 6 is a flowchart showing an example of the flow of inference processing according to the embodiment;
  • FIG. 10 is a diagram for explaining an example of comparison of individual intermediate feature amounts of learned data and an input image according to the embodiment;
  • FIG. 4 is a diagram for explaining an example of image display according to the embodiment;
  • FIG. 10 is a first diagram for explaining an example of learning model application processing according to the embodiment;
  • FIG. 9 is a second diagram for explaining an example of learning model application processing according to the embodiment; It is a figure which shows an example of schematic structure of a computer. It is a figure which shows an example of a schematic structure of an endoscope system. 12 is a block diagram showing an example of the functional configuration of the camera and CCU shown in FIG. 11; FIG. It is a figure which shows an example of a schematic structure of a microsurgery system.
  • Embodiment 1-1 Configuration example of image processing system 1-2.
  • Example of learning process 1-3 Example of Inference Processing 1-4.
  • Image display example 1-6 Example of learning model application processing 1-7.
  • Other Embodiments Configuration example of computer 4 .
  • Application example 5 Supplementary note
  • FIG. 1 is a diagram showing an example of a schematic configuration of an image processing system 10 according to this embodiment.
  • FIG. 2 is a diagram for explaining an example of pre-learning processing according to the present embodiment.
  • FIG. 3 is a diagram for explaining an example of inference processing according to this embodiment.
  • the image processing system 10 includes an endoscope 20, a learning device 30, an image processing device 40, a storage device 50, and a display device 60.
  • This image processing system 10 is a system for processing an image of a subject A such as a patient (for example, an image inside the body).
  • the endoscope 20 has an RGB camera 21 .
  • the RGB camera 21 mainly includes, for example, a plurality of pixels arranged in a matrix and a peripheral circuit section that outputs an image based on light incident on each of the plurality of pixels as a pixel signal (both not shown).
  • the RGB camera 21 functions as an image pickup unit that photographs the object inside the body of the subject A in the form of a moving image or a still image.
  • the RGB camera 21 can obtain an image of the intra-abdominal environment of the subject A (for example, a surgical field image including various intra-abdominal surgical tools and organs).
  • the RGB camera 21 transmits captured images (for example, pixel signals corresponding to the images) to the image processing device 40 .
  • the RGB camera 21 is an image sensor capable of color photography, for example, an image sensor having a Bayer array capable of detecting blue light, green light and red light. Also, the RGB camera 21 is preferably an image sensor capable of capturing high-resolution images of 4K or higher, for example. By using such an image sensor, a high-resolution image of the operative site can be obtained, so that the operator such as a surgeon can grasp the state of the operative site in more detail, and the operation can proceed smoothly. can do.
  • the endoscope 20 may be, for example, a squinting scope, a forward viewing scope with a wide-angle/cutout function, an endoscope with a tip bending function, or an endoscope with a multi-direction simultaneous imaging function. It may be a flexible scope or a rigid scope, and is not particularly limited.
  • the RGB camera 21 may be composed of a pair of image sensors for respectively acquiring right-eye and left-eye images corresponding to 3D display (stereo system). When performing 3D display, an operator such as a surgeon can more accurately grasp the depth of the living tissue (organ) in the surgical site and the distance to the living tissue.
  • the learning device 30 includes an input/output unit 31 , a learning unit 32 and a control unit 33 .
  • the input/output unit 31 receives labeled data (image data) for pre-learning and data (image data) in the storage device 50 and inputs them to the learning unit 32 .
  • the input/output unit 31 also outputs various data related to learning by the learning unit 32 to the storage device 50 .
  • the learning unit 32 performs pre-learning by machine learning such as DNN (Deep Neural Network) using labeled data for pre-learning, builds a trained model, and stores it together with the intermediate feature values and the like via the input/output unit 31 to the storage device. Save to 50.
  • machine learning such as DNN (Deep Neural Network)
  • the learning unit 32 inputs labeled data (image data) in environment A to the DNN, obtains inference results and intermediate feature amounts, and obtains inference results and intermediate feature amounts. Store the quantity in the storage device 50 .
  • obtaining the inference result for example, learning is performed by backpropagating the error with the correct label.
  • the intermediate feature amount for each data is saved after the learning is completed.
  • an average or a variance for example, an average vector
  • Problem settings for inference include, for example, detection of surgical instruments in images, segmentation of organs, and the like.
  • the learning unit 32 has a feature extraction unit 32a and an updating unit 32b.
  • the feature amount extraction unit 32a extracts intermediate feature amounts of image data such as labeled data and unlabeled data.
  • the update unit 32b updates the learned model and the intermediate feature quantity stored in the storage device 50 according to the difference in image acquisition environment (for example, environment A, environment B, etc.). Differences in environment include, for example, differences in hospitals and operating rooms. For example, lighting conditions, surgical instruments, and the like are different for each hospital or operating room.
  • the control unit 33 controls each unit of the learning device 30 (for example, the input/output unit 31, the learning unit 32, etc.).
  • the control unit 33 is configured by a computer such as a CPU (Central Processing Unit) or MPU (Micro Processing Unit), and can comprehensively control the operation of each unit of the learning device 30 .
  • the image processing device 40 includes an input/output unit 41 , a recognition unit 42 and a control unit 43 .
  • the input/output unit 41 receives image data (pixel signals) from the endoscope 20 and inputs them to the recognition unit 42 , outputs various data related to recognition by the recognition unit 42 to the storage device 50 , and displays images on the display device 60 . Output data, etc.
  • the recognition unit 42 performs learning using unlabeled data (image data) by machine learning such as DNN, obtains estimation results and intermediate feature values, and stores them in the storage device 50 via the input/output unit 41 . These estimation results and intermediate feature values are used for additional learning such as domain adaptive learning.
  • the recognition unit 42 inputs unlabeled data (image data) in environment B to the DNN, obtains estimation results and intermediate feature amounts, and stores the obtained estimation results and intermediate feature amounts in the storage device. Save to 50. Further, the recognition unit 42 calculates the difference between the obtained intermediate feature amount of the unlabeled data in the environment B and the intermediate feature amount of the labeled data in the environment A, and converts the difference between the intermediate feature amounts into a predetermined conversion formula to obtain the image importance.
  • Various functions such as this function can be applied as conversion formulas. It should be noted that the method of obtaining the inference result, the method of obtaining the intermediate feature amount, the problem setting for inference, and the like are the same as those of the learning unit 32 of the learning device 30 described above.
  • the recognition unit 42 has a feature extraction unit 42a, an importance calculation unit 42b, and an image storage unit 42c.
  • the feature amount extraction unit 42a extracts intermediate feature amounts from image data such as unlabeled data (for example, an input image that is an image of the inside of the body).
  • the importance calculator 42b calculates the image importance of an image (for example, an RGB image) based on the intermediate feature amount of the image data.
  • the image storage unit 42c stores the images in the storage device 50 based on the image importance. For example, the image accumulation unit 42c saves and accumulates images with high image importance.
  • the control unit 43 controls each unit in the image processing device 40 (for example, the input/output unit 41, the recognition unit 42, etc.).
  • the control unit 43 is configured by a computer such as a CPU or MPU, and can centrally control the operation of each unit of the image processing device 40 .
  • the control unit 43 controls the endoscope 20, the display device 60, and the like.
  • the control unit 43 can transmit control signals to the endoscope 20 and the display device 60 to control their driving.
  • the control signal for the endoscope 20 may include information regarding imaging conditions such as magnification and focal length.
  • the storage device 50 stores various data such as images captured by the RGB camera 21 (eg, RGB images), trained models, intermediate feature values for each image, and the like.
  • the storage device 50 is realized by a storage device such as an HDD (Hard Disk Drive) or an SDD (Solid State Drive).
  • the display device 60 displays various images such as images obtained by the RGB camera 21 .
  • the display device 60 is realized by a display including, for example, a liquid crystal display (LCD) or an organic EL (Organic Electro-Luminescence) display.
  • the display device 60 may be a device integrated with the image processing device 40, or may be a separate device connected to the image processing device 40 by wire or wirelessly so as to be communicable.
  • FIG. 4 is a flowchart showing an example of the flow of learning processing according to this embodiment.
  • the learning process is executed by the learning device 30 .
  • the learning unit 32 executes learning processing.
  • step S11 pre-learning is performed with labeled data in environment A.
  • step S12 unlabeled data in environment B is collected. This unlabeled data is stored in the storage device 50 by inference processing (see FIG. 5), which will be described later, and is read from the storage device 50 and used.
  • step S13 domain adaptive learning is performed on labeled data in environment A and unlabeled data in environment B.
  • step S14 the trained model and the intermediate features are updated according to the domain adaptive learning.
  • step S15 it is determined whether or not the recognition performance is sufficient. If it is determined that the recognition performance is not sufficient (No in step S15), the process returns to step S12, and steps S12 to S15 are repeated. On the other hand, if it is determined that the recognition performance is sufficient (Yes in step S15), the process ends. Whether or not the recognition performance is sufficient may be determined by the user, or may be determined automatically by the learning device 30, for example. In addition, in the determination by the user, for example, the user operates an input unit such as a keyboard, a mouse, or a touch panel, and inputs that the recognition performance is sufficient or insufficient. In the determination by the learning device 30, for example, the recognition performance is quantified, and it is determined whether the recognition performance is sufficient or insufficient depending on whether or not the numerical value is greater than a threshold.
  • FIG. 5 is a flowchart showing an example of the flow of inference processing according to this embodiment. Inference processing is executed by the image processing device 40 .
  • the recognition unit 42 executes inference processing.
  • an RGB image (input image) is input to the recognition unit 42 in step S21.
  • step S22 the image importance of the current scene (input image) is calculated.
  • step S23 it is determined whether or not the image importance is higher than a predetermined threshold.
  • the RGB image is stored in the storage device 50 in step S24, and the RGB image and the image importance are superimposed on the display device 60 in step S25. be done.
  • the display device 60 superimposes the RGB image and the image importance in step S25.
  • step S24 for example, the RGB image and the image importance may be associated and stored in the storage device 50.
  • step S26 it is determined whether or not the shooting has ended. If it is determined that the shooting has not ended (No in step S26), the process returns to step S21, and steps S21 to S26 are repeated. On the other hand, if it is determined that the shooting has ended (Yes in step S26), the process ends. For example, the user determines whether or not the shooting is finished. In this determination by the user, as in the case described above, for example, the user operates an input unit such as a keyboard, a mouse, or a touch panel to input that imaging has ended or has not ended.
  • an input unit such as a keyboard, a mouse, or a touch panel to input that imaging has ended or has not ended.
  • FIG. 6 is a diagram for explaining an example of comparison of individual intermediate feature amounts of learned data and an input image according to this embodiment.
  • the intermediate feature amount of the learned data As shown in FIG. 6, by comparing the intermediate feature amount of the learned data and the intermediate feature amount of the input image, it is possible to determine whether or not the image currently being captured is data required for additional learning. It is possible. That is, when the intermediate feature amount of the input image is close to the intermediate feature amount distribution of the trained data (see the dotted line area in FIG. 6), the image importance of the input image is determined to be low. In the example of FIG. 6, the intermediate feature amount of the input image with low image importance is located within the dotted line area. On the other hand, when the intermediate feature amount of the input image is far from the distribution of the intermediate feature amount of the trained data (see the dotted line area in FIG. 6), the image importance of the input image is judged to be high.
  • image importance is a normalized value calculated from the difference between intermediate feature values of the learned data and the input image. The closer the image importance is to 0, the lower the importance, and the closer to 1, the higher the importance.
  • the image importance value will decrease each time the learning model is updated.
  • the intermediate feature amount of the learned data increases each time the learning model is updated, and the distribution area of the intermediate feature amount of the learned data (see the dotted line area in FIG. 6) widens.
  • the intermediate feature amount of the input image tends to approach the distribution of the intermediate feature amount of the learned data, and the image importance value tends to decrease (the image importance tends to decrease). Since the image importance value is expected to decrease each time the learning model is updated in this way, it is desirable to update the threshold value (see step S23 in FIG. 5) each time the learning model is updated.
  • This image importance threshold is changeable, and may be changed by the user, or may be automatically changed by the image processing device 40, for example.
  • the user operates an input unit such as a keyboard, a mouse, or a touch panel to change the threshold, as described above.
  • the threshold may be changed periodically, or the threshold may be changed according to the update timing and the number of updates of the learning model. For example, when the number of updates reaches a predetermined number, the threshold is changed.
  • This change processing is executed by, for example, the image storage unit 42c.
  • FIG. 7 is a diagram for explaining an example of image display according to the present embodiment.
  • the RGB image (input image) being captured and the image importance are superimposed and displayed by the display device 60 (superimposed display).
  • the image importance of the RGB image is 0.73 (importance: 0.73).
  • the color of the outer frame of the RGB image (see the thick black frame in FIG. 7) is changed. This allows the user to recognize that the image importance is higher than the threshold. For example, if the image importance is less than or equal to the threshold, the color of the outer frame is blue, and if the image importance is higher than the threshold, the color of the outer frame is changed to red. Thus, the display mode of the image showing the outer frame is changed according to the image importance.
  • the colors (combination of colors) of the outer frame are not limited to blue and red, and other colors may be used.
  • the outer frame may be blinked, or the thickness (line width) or size of the outer frame may be changed. You can change it. That is, the color, line width, and size of the image indicating that the image importance level is higher than the threshold may be changed, or the image may be blinked. Further, as the image indicating that the image importance level is higher than the threshold, an image showing characters, symbols, figures, etc. may be used instead of using an outer frame. Also, both or one of the image indicating that the image importance is higher than the threshold and the image importance may or may not be superimposed on the RGB image.
  • a user such as an operator or an assistant can grasp the image importance of the image data being captured, thereby efficiently improving the recognition performance.
  • Image data that contributes to improvement can be captured.
  • a user such as an operator or an assistant may preferentially image a scene when the image data being imaged has a high image importance, and may image a different scene when the image data being imaged has a low image importance. do. In this way, it is possible to supplement imaging at the discretion of the user and have the user continue imaging.
  • FIG. 8 and 9 are diagrams for explaining an example of the learning model application process according to this embodiment.
  • the learning unit 32 of the learning device 30 inputs the CG data set to the DNN, obtains the inference results and intermediate feature values, and stores the obtained inference results and intermediate feature values in the storage device 50 .
  • a learning model is constructed by this pre-learning.
  • a CG data set is used as labeled data for pre-learning.
  • This CG data set is a data set including a plurality of images (images during surgery) generated by CG (computer graphics).
  • the recognition unit 42 of the image processing device 40 inputs the captured image (captured image) group (image data) to the DNN, obtains the estimation result and the intermediate feature amount, and stores the obtained estimation result and the intermediate feature amount. Store in device 50 .
  • the recognition unit 42 also calculates the difference between the intermediate feature amount of the captured image and the intermediate feature amount of the images included in the CG data set (for example, the average value or representative value of each data) for each captured image. , and the difference between the intermediate feature amounts is converted by a conversion formula to obtain the image importance.
  • the recognition unit 42 superimposes the obtained image importance on the photographed image to generate a photographed image including the image importance, and transmits the photographed image to the display device 60 as a display image.
  • the display device 60 displays the display image transmitted from the recognition unit 42.
  • the image importance of the upper display image is 0.12 (importance: 0.12), and the image importance is less than the threshold (for example, 0.50). It is blue.
  • the image importance of the lower display image is 0.87 (importance: 0.87), and since the image importance is higher than the threshold (for example, 0.50), the color of the outer frame is red. Note that the image importance is not superimposed on the photographed image, but is shown above the photographed image (in FIG. 8) while avoiding the photographed image.
  • a user such as an operator or an assistant can visually recognize the display image displayed by the display device 60 and grasp the importance of the image.
  • the user looks at the image importance and takes measures such as focusing on shooting the current scene, or stopping shooting the current scene and moving on to shooting a different scene.
  • the user can grasp the image importance of image data being captured, and can efficiently capture image data with high image importance.
  • the image data contributing to the improvement of the recognition performance are sequentially captured and accumulated, so that the image data contributing to the improvement of the recognition performance can be efficiently obtained.
  • by changing the color of the outer frame of the image according to whether the image importance is higher or lower than the threshold it is possible to make it easier for the user to understand whether the image importance is high or low. For example, if the importance of the image is high, the outline of the image is colored red to indicate an alert, and if the importance of the image is low, the outline of the image is colored blue. This allows the user to easily grasp the degree of importance of the image.
  • the learning unit 32 of the learning device 30 inputs a CG data set and an image group with image importance higher than a threshold to the DNN, obtains the inference result, the intermediate feature value, and the domain of the input image, and performs the obtained inference.
  • the intermediate feature amount and the domain of the input image are stored in the storage device 50 .
  • the learning unit 32 updates the learned model (learned DNN model) and the stored intermediate feature amount.
  • the intermediate feature amount for each data is stored.
  • domain adaptive learning is repeated until sufficient recognition performance is obtained. Note that domain adaptive learning is performed when images whose image importance exceeds a threshold are accumulated and labeling is not performed, but the present invention is not limited to this. may be performed.
  • a CG dataset is used in the pre-learning. This enables automatic labeling and provides a large amount of labeled data at low cost.
  • this learning model By adapting this learning model to the environment of each hospital through domain adaptive learning using image importance, it is possible to obtain a learning model with high recognition performance in each hospital environment without expensive labeling. can. Normally, it is necessary to photograph and label a large amount of data for each environment (hospital) where the learning model is introduced, which is unrealistic considering the cost, but according to the processing of 1 to 3, A learning model with high recognition performance can be obtained at a low cost in the environment of each hospital.
  • the data captured in a certain environment is labeled, the DNN is pre-learned, and the intermediate feature amount, which is the intermediate output of the DNN for each image, is saved.
  • An intermediate feature amount is calculated using DNN when data is captured in the installation environment, a difference from the stored intermediate feature amount is calculated, the difference is calculated as the image importance of the data, and fed back to the data photographer.
  • the present embodiment does not assume additional labeling, so it is different from the learning model that assumes additional labeling.
  • the data required for additional learning is collected by focusing on the intermediate feature amount instead of the output of the DNN learning model.
  • the feature amount extracting unit 42a extracts an intermediate feature amount related to machine learning from an input image that is an image of the inside of the body, and the image importance of the input image is calculated based on the intermediate feature amount. and an image storage unit 42c for storing the input image based on the image importance.
  • the input image can be saved according to the image importance of the input image, and it is possible to reliably save the input image that contributes to the improvement of the recognition performance, thereby efficiently contributing to the improvement of the recognition performance. It is possible to obtain an input image (data) that
  • the importance calculation unit 42b calculates the intermediate feature amount of the image inside the body in the first environment (for example, hospital A) and the intermediate feature amount of the input image in a second environment (for example, hospital B) different from the first environment.
  • the image importance may be calculated based on the difference from the feature amount. This makes it possible to reliably calculate the image importance regarding the environment.
  • the importance calculation unit 42b may calculate the image importance by converting the difference using a predetermined conversion formula. This makes it possible to reliably calculate the image importance level regarding the environment with simple processing.
  • the first environment may be a first hospital
  • the second environment may be a second hospital different from the first hospital. This makes it possible to calculate the image importance level of the hospital as an environment.
  • the image accumulation unit 42c may accumulate the input image when the image importance exceeds a predetermined threshold. As a result, the input image can be reliably stored by simple processing according to the image importance.
  • the image storage unit 42c may change the predetermined threshold at the update timing of the learned model. As a result, the threshold is changed at an appropriate timing when the trained model is updated, so even if the trained model is repeatedly updated, the input image can be saved according to the image importance.
  • the image storage unit 42c may change the predetermined threshold according to the number of updates of the learned model. As a result, the threshold is changed according to the number of times the trained model is updated, so even if the trained model is repeatedly updated, the input image can be saved according to the image importance.
  • the image storage unit 42c may reduce the predetermined threshold at the timing when the number of updates reaches a predetermined number. As a result, when the number of times the learned model is updated reaches the predetermined number, the threshold value is changed to a smaller value. Therefore, even if the learned model is repeatedly updated, the input image can be saved according to the image importance.
  • the image storage unit 42c may store the input image and the image importance in association with each other. As a result, the input image and the image importance can be read out and used, so that the convenience of these data can be improved.
  • a display device 60 for displaying the image importance is also provided. As a result, the user can grasp the image importance of input images, efficiently capture images with high image importance, and save input images that contribute to the improvement of recognition performance. An input image (data) that contributes to performance improvement can be obtained.
  • the display device 60 may display the input image and the image importance. As a result, the user can visually recognize the input image and the image importance, so that the user can easily grasp the image importance corresponding to the input image.
  • the display device 60 may display the input image with the image importance superimposed thereon. This makes it easier for the user to visually recognize the image importance while visually recognizing the input image, so that the user can reliably grasp the image importance corresponding to the input image.
  • the display device 60 may display an image indicating that the image importance exceeds a predetermined threshold (for example, an image indicating an outer frame, characters, symbols, graphics, or the like).
  • a predetermined threshold for example, an image indicating an outer frame, characters, symbols, graphics, or the like.
  • the display device 60 may change the display mode of the image indicating that the image importance exceeds a predetermined threshold, depending on the image importance. This allows the user to easily and reliably recognize that the image importance has changed.
  • the display device 60 may display an image indicating that the image importance exceeds a predetermined threshold so as to be superimposed on the input image. This makes it easier for the user to visually recognize the image indicating that the image importance exceeds the predetermined threshold while visually recognizing the input image. can be grasped.
  • the display device 60 may display the input image, the image importance, and an image indicating that the image importance exceeds a predetermined threshold.
  • the user can visually recognize the input image, the image importance, and the image indicating that the image importance exceeds the predetermined threshold. It is possible to easily grasp that the image importance exceeds a predetermined threshold.
  • the display device 60 may display the image importance level and an image indicating that the image importance level exceeds a predetermined threshold over the input image.
  • the user can easily visually recognize the image importance level and the image indicating that the image importance level exceeds the predetermined threshold. It is possible to reliably grasp the degree of importance and whether the degree of image importance exceeds a predetermined threshold.
  • each component of each device illustrated is functionally conceptual and does not necessarily need to be physically configured as illustrated.
  • the specific form of distribution and integration of each device is not limited to the one shown in the figure, and all or part of them can be functionally or physically distributed and integrated in arbitrary units according to various loads and usage conditions. Can be integrated and configured.
  • the system means a set of a plurality of components (devices, modules (parts), etc.), and whether or not all components are in the same housing. does not matter. Therefore, a plurality of devices housed in separate housings and connected via a network, and a single device housing a plurality of modules in one housing, are both systems. .
  • a cloud computing configuration can be adopted in which one function is shared and jointly processed by a plurality of devices via a network.
  • each step described in the flow of processing described above can be executed by a single device, or can be shared by a plurality of devices and executed.
  • the plurality of processes included in the one step can be executed by one device or shared by a plurality of devices.
  • the endoscope 20 may be a stereo endoscope capable of distance measurement.
  • the endoscope 20 may have a depth sensor (ranging device) separately from the RGB camera 21 .
  • the depth sensor is, for example, a ToF (Time of Flight) method that measures the distance using the return time of the pulsed light reflected from the subject, or measures the distance based on the distortion of the pattern by irradiating a grid pattern of light. It is a sensor that performs distance measurement using the structured light method.
  • ToF Time of Flight
  • Computer configuration example> The series of processes described above can be executed by hardware or by software.
  • a program that constitutes the software is installed in the computer.
  • the computer includes, for example, a computer built into dedicated hardware and a general-purpose personal computer capable of executing various functions by installing various programs.
  • FIG. 10 is a diagram showing an example of a schematic configuration of a computer 500 that executes the series of processes described above by a program.
  • the computer 500 has a CPU (Central Processing Unit) 510, a ROM (Read Only Memory) 520, and a RAM (Random Access Memory) 530.
  • CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • the CPU 510 , ROM 520 and RAM 530 are interconnected by a bus 540 .
  • An input/output interface 550 is also connected to the bus 540 .
  • An input unit 560 , an output unit 570 , a recording unit 580 , a communication unit 590 and a drive 600 are connected to the input/output interface 550 .
  • the input unit 560 is composed of a keyboard, mouse, microphone, imaging device, and the like.
  • the output unit 570 is configured with a display, a speaker, and the like.
  • the recording unit 580 is composed of a hard disk, a nonvolatile memory, or the like.
  • the communication unit 590 is configured by a network interface or the like.
  • a drive 600 drives a removable recording medium 610 such as a magnetic disk, optical disk, magneto-optical disk, or semiconductor memory.
  • the CPU 510 loads, for example, a program recorded in the recording unit 580 into the RAM 530 via the input/output interface 550 and the bus 540, and executes it. A series of processes are performed.
  • a program executed by the computer 500 that is, the CPU 510 can be provided by being recorded on a removable recording medium 610 such as a package medium, for example. Also, the program can be provided via a wired or wireless transmission medium such as a local area network, the Internet, or digital satellite broadcasting.
  • the program can be installed in the recording unit 580 via the input/output interface 550 by loading the removable recording medium 610 into the drive 600 . Also, the program can be received by the communication unit 590 and installed in the recording unit 580 via a wired or wireless transmission medium. In addition, the program can be installed in the ROM 520 or the recording unit 580 in advance.
  • the program executed by the computer 500 may be a program in which processing is performed in chronological order according to the order described in this specification, or in parallel or at a necessary timing such as when a call is made. It may be a program in which processing is performed in
  • a medical imaging system is a medical system using imaging technology, such as an endoscope system or a microscope system.
  • the image processing system 10 according to the present disclosure the endoscope 20 is applied to the endoscope 5001 and the microscope device 5301, the learning device 30 and the image processing device 40 are applied to the CCU 5039, and the storage device 50 is applied to the recording device 5053.
  • the display device 60 can be applied to the display device 5041 .
  • FIG. 11 is a diagram showing an example of a schematic configuration of an endoscope system 5000 to which technology according to the present disclosure can be applied.
  • FIG. 12 is a diagram showing an example of the configuration of an endoscope 5001 and a CCU (Camera Control Unit) 5039.
  • FIG. 11 illustrates a state in which an operator (for example, a doctor) 5067 who is a surgical participant is performing surgery on a patient 5071 on a patient bed 5069 using an endoscope system 5000 .
  • FIG. 11 illustrates a state in which an operator (for example, a doctor) 5067 who is a surgical participant is performing surgery on a patient 5071 on a patient bed 5069 using an endoscope system 5000 .
  • the endoscope system 5000 supports an endoscope 5001 as a medical imaging device, a CCU 5039, a light source device 5043, a recording device 5053, an output device 5055, and an endoscope 5001. and a support device 5027 .
  • an insertion aid called a trocar 5025 is punctured into a patient 5071. Then, the scope 5003 and surgical instrument 5021 connected to the endoscope 5001 are inserted into the body of the patient 5071 via the trocar 5025 .
  • the surgical instrument 5021 is, for example, an energy device such as an electric scalpel, forceps, or the like.
  • a surgical image which is a medical image of the inside of the patient's 5071 photographed by the endoscope 5001, is displayed on the display device 5041.
  • the operator 5067 uses the surgical instrument 5021 to treat the surgical target while viewing the surgical image displayed on the display device 5041 .
  • the medical images are not limited to surgical images, and may be diagnostic images captured during diagnosis.
  • the endoscope 5001 is an imaging unit for imaging the inside of the body of a patient 5071.
  • a camera 5005 includes a zoom optical system 50052 that enables optical zoom, a focus optical system 50053 that enables focus adjustment by changing the focal length of an imaging unit, and a light receiving element 50054 .
  • the endoscope 5001 converges light on the light receiving element 50054 through the connected scope 5003 to generate pixel signals, and outputs the pixel signals to the CCU 5039 through the transmission system.
  • the scope 5003 is an insertion portion that has an objective lens at its tip and guides light from the connected light source device 5043 into the body of the patient 5071 .
  • the scope 5003 is, for example, a rigid scope for rigid scopes and a flexible scope for flexible scopes.
  • the scope 5003 may be a direct scope or a perspective scope.
  • the pixel signal may be a signal based on a signal output from a pixel, such as a RAW signal or an image signal.
  • a memory may be installed in the transmission system connecting the endoscope 5001 and the CCU 5039, and the parameters relating to the endoscope 5001 and the CCU 5039 may be stored in the memory.
  • the memory may be arranged, for example, on the connection part of the transmission system or on the cable.
  • the parameters of the endoscope 5001 at the time of shipment and the parameters changed when the power is supplied may be stored in the memory of the transmission system, and the operation of the endoscope may be changed based on the parameters read from the memory.
  • an endoscope and a transmission system may be collectively referred to as an endoscope.
  • the light receiving element 50054 is a sensor that converts received light into pixel signals, and is, for example, a CMOS (Complementary Metal Oxide Semiconductor) type imaging element.
  • the light-receiving element 50054 is preferably an imaging element having a Bayer array and capable of color imaging.
  • the light receiving element 50054 is, for example, 4K (horizontal pixel number 3840 ⁇ vertical pixel number 2160), 8K (horizontal pixel number 7680 ⁇ vertical pixel number 4320) or square 4K (horizontal pixel number 3840 or more ⁇ vertical pixel number 3840 or more). It is preferable that the image sensor has a number of pixels corresponding to the resolution.
  • the light receiving element 50054 may be a single sensor chip or a plurality of sensor chips.
  • a prism may be provided to separate the incident light into predetermined wavelength bands, and each wavelength band may be imaged by a different light-receiving element.
  • a plurality of light receiving elements may be provided for stereoscopic viewing.
  • the light receiving element 50054 may be a sensor including an arithmetic processing circuit for image processing in a chip structure, or may be a ToF (Time of Flight) sensor.
  • the transmission system is, for example, an optical fiber cable or wireless transmission. The wireless transmission is sufficient as long as the pixel signals generated by the endoscope 5001 can be transmitted.
  • Mirror 5001 and CCU 5039 may be connected.
  • the endoscope 5001 may transmit not only the pixel signal but also information related to the pixel signal (for example, processing priority of the pixel signal, synchronization signal, etc.) at the same time.
  • the endoscope may be configured by integrating a scope and a camera, or by providing a light-receiving element at the tip of the scope.
  • the CCU 5039 is a control device that comprehensively controls the connected endoscope 5001 and light source device 5043. For example, as shown in FIG. processing equipment. Also, the CCU 5039 may centrally control the connected display device 5041 , recording device 5053 and output device 5055 . For example, the CCU 5039 controls the irradiation timing and irradiation intensity of the light source device 5043 and the type of irradiation light source.
  • the CCU 5039 performs image processing such as development processing (for example, demosaicing processing) and correction processing on the pixel signals output from the endoscope 5001, and outputs the processed pixel signals (for example, image processing) to an external device such as the display device 5041. ). Also, the CCU 5039 transmits a control signal to the endoscope 5001 to control driving of the endoscope 5001 .
  • the control signal is, for example, information about imaging conditions such as magnification and focal length of the imaging unit.
  • the CCU 5039 may have an image down-conversion function, and may be configured to output a high-resolution (eg, 4K) image to the display device 5041 and a low-resolution (eg, HD) image to the recording device 5053 at the same time.
  • a high-resolution (eg, 4K) image to the display device 5041
  • a low-resolution (eg, HD) image to the recording device 5053 at the same time.
  • the CCU 5039 is connected to external devices (eg, recording device, display device, output device, support device) via an IP converter that converts signals into a predetermined communication protocol (eg, IP (Internet Protocol)).
  • IP Internet Protocol
  • the connection between the IP converter and the external device may be configured by a wired network, or part or all of the network may be configured by a wireless network.
  • the IP converter on the CCU5039 side has a wireless communication function, and the received video is sent to an IP switcher or output via a wireless communication network such as the 5th generation mobile communication system (5G) or the 6th generation mobile communication system (6G). It may be sent to the side IP converter.
  • 5G 5th generation mobile communication system
  • 6G 6th generation mobile communication system
  • the light source device 5043 is a device capable of emitting light in a predetermined wavelength band, and includes, for example, a plurality of light sources and a light source optical system that guides light from the plurality of light sources.
  • the light source is, for example, a xenon lamp, an LED light source, or an LD light source.
  • the light source device 5043 has, for example, LED light sources corresponding to the three primary colors R, G, and B, and emits white light by controlling the output intensity and output timing of each light source. Further, the light source device 5043 may have a light source capable of irradiating special light used for special light observation separately from the light source for irradiating normal light used for normal light observation.
  • Special light is light in a predetermined wavelength band different from normal light that is light for normal light observation.
  • Normal light is, for example, white light or green light.
  • narrow-band light observation which is a type of special light observation, by alternately irradiating blue light and green light, the wavelength dependence of light absorption in body tissues can be used to detect specific tissues such as blood vessels on the surface of the mucous membrane. can be shot with high contrast.
  • fluorescence observation which is a type of special light observation, excitation light that excites the drug injected into the body tissue is irradiated, and fluorescence emitted by the body tissue or the drug as a marker is received to obtain a fluorescence image.
  • a drug such as indocyanine green (ICG) injected into the body tissue is irradiated with infrared light having an excitation wavelength band, and the fluorescence of the drug is received to detect the body tissue. structure and the affected area can be easily visualized.
  • an agent for example, 5-ALA
  • the light source device 5043 sets the type of irradiation light under the control of the CCU 5039 .
  • the CCU 5039 may have a mode in which normal light observation and special light observation are alternately performed by controlling the light source device 5043 and the endoscope 5001 .
  • information based on pixel signals obtained by special light observation is preferably superimposed on pixel signals obtained by normal light observation.
  • the special light observation may be infrared light observation in which infrared light is irradiated to look deeper than the surface of the organ, or multispectral observation utilizing hyperspectral spectroscopy. Additionally, photodynamic therapy may be combined.
  • a recording device 5053 is a device for recording pixel signals (for example, an image) obtained from the CCU 5039, and is, for example, a recorder.
  • a recording device 5053 records the image acquired from the CCU 5039 on an HDD, an SDD, or an optical disc.
  • the recording device 5053 may be connected to a hospital network and accessible from equipment outside the operating room. Also, the recording device 5053 may have an image down-conversion function or an image up-conversion function.
  • the display device 5041 is a device capable of displaying an image, such as a display monitor.
  • a display device 5041 displays a display image based on pixel signals obtained from the CCU 5039 .
  • the display device 5041 may function as an input device that enables line-of-sight recognition, voice recognition, and gesture-based instruction input by being equipped with a camera and a microphone.
  • the output device 5055 is a device for outputting information acquired from the CCU 5039, such as a printer.
  • the output device 5055 prints on paper a print image based on the pixel signals acquired from the CCU 5039, for example.
  • the support device 5027 is an articulated arm including a base portion 5029 having an arm control device 5045 , an arm portion 5031 extending from the base portion 5029 , and a holding portion 5032 attached to the tip of the arm portion 5031 .
  • the arm control device 5045 is configured by a processor such as a CPU, and operates according to a predetermined program to control driving of the arm section 5031 .
  • the support device 5027 controls parameters such as the length of each link 5035 constituting the arm portion 5031 and the rotation angle and torque of each joint 5033 by means of the arm control device 5045 .
  • the support device 5027 functions as an endoscope support arm that supports the endoscope 5001 during surgery. Thereby, the support device 5027 can take the place of the scopist who is an assistant holding the endoscope 5001 .
  • the support device 5027 may be a device that supports a microscope device 5301, which will be described later, and can also be called a medical support arm.
  • the control of the support device 5027 may be an autonomous control method by the arm control device 5045, or may be a control method in which the arm control device 5045 controls based on the user's input.
  • control method is a master/slave method in which the support device 5027 as a slave device (replica device), which is a patient cart, is controlled based on the movement of the master device (primary device), which is the operator console at hand of the user. It's okay. Also, the control of the support device 5027 may be remotely controlled from outside the operating room.
  • slave device replica device
  • master device primary device
  • control of the support device 5027 may be remotely controlled from outside the operating room.
  • FIG. 13 is a diagram illustrating an example of a schematic configuration of a microsurgery system to which technology according to the present disclosure can be applied;
  • the same reference numerals are given to the same configurations as those of the endoscope system 5000, and duplicate descriptions thereof will be omitted.
  • FIG. 13 schematically shows an operator 5067 performing an operation on a patient 5071 on a patient bed 5069 using a microsurgery system 5300 .
  • FIG. 13 omits illustration of the cart 5037 in the configuration of the microsurgery system 5300, and also shows a simplified microscope device 5301 instead of the endoscope 5001.
  • the microscope device 5301 in this description may refer to the microscope section 5303 provided at the tip of the link 5035 or may refer to the entire configuration including the microscope section 5303 and the support device 5027 .
  • an image of the operative site captured by a microscope device 5301 is enlarged and displayed on a display device 5041 installed in the operating room.
  • the display device 5041 is installed at a position facing the operator 5067, and the operator 5067 observes the state of the operation site by the image displayed on the display device 5041, for example, resection of the affected area.
  • Various measures are taken against Microsurgery systems are used, for example, in ophthalmic and brain surgery.
  • the support device 5027 can support other observation devices or other surgical tools instead of the endoscope 5001 or the microscope section 5303 at its distal end.
  • the other observation device for example, forceps, forceps, a pneumoperitoneum tube for pneumoperitoneum, or an energy treatment instrument for incising tissue or sealing a blood vessel by cauterization can be applied.
  • the technology according to the present disclosure may be applied to a support device that supports components other than such a microscope section.
  • the technology according to the present disclosure can be suitably applied to the endoscope 5001, the microscope device 5301, the CCU 5039, the display device 5041, the light source device 5043, etc. among the configurations described above.
  • the endoscope system 5000, the microsurgery system 5300, etc. it is possible to execute the operations and processes according to each embodiment.
  • the technology according to the present disclosure to the endoscope system 5000, the microsurgery system 5300, and the like, it is possible to efficiently obtain data that contributes to improvement of recognition performance.
  • a feature quantity extraction unit that extracts intermediate feature quantities related to machine learning from an input image that is an image of the inside of the body; an importance calculation unit that calculates the image importance of the input image based on the intermediate feature amount; an image storage unit that stores the input image based on the image importance;
  • An image processing device comprising: (2) The importance calculation unit calculates the above-mentioned calculate image importance, The image processing apparatus according to (1) above. (3) The importance calculation unit converts the difference using a predetermined conversion formula to calculate the image importance. The image processing apparatus according to (2) above. (4) the first environment is a first hospital; wherein the second environment is a second hospital different from the first hospital; The image processing apparatus according to (2) or (3) above.
  • the image storage unit stores the input image when the image importance exceeds a predetermined threshold;
  • the image processing apparatus according to any one of (1) to (4) above. (6) wherein the image storage unit changes the predetermined threshold at the timing of updating the learned model;
  • the image processing apparatus according to (5) above. wherein the image storage unit changes the predetermined threshold according to the number of updates of the learned model;
  • the image processing apparatus according to (5) above. (8) The image storage unit reduces the predetermined threshold at a timing when the number of updates reaches a predetermined number of times.
  • the image processing apparatus according to (7) above. (9)
  • the image storage unit associates and stores the input image and the image importance.
  • the image processing apparatus according to any one of (1) to (8) above.
  • (10) further comprising a display device that displays the image importance level;
  • the image processing apparatus according to any one of (1) to (9) above.
  • the display device displays the input image and the image importance;
  • the display device displays the input image with the image importance superimposed thereon.
  • the display device displays an image indicating that the image importance exceeds a predetermined threshold.
  • the display device changes a display mode of the image according to the importance of the image.
  • the display device displays the image superimposed on the input image.
  • the display device displays the input image, the image importance, and an image indicating that the image importance exceeds a predetermined threshold;
  • the display device changes a display mode of the image according to the importance of the image.
  • the display device displays the image importance level and the image superimposed on the input image.
  • An image processing method including (20) to the computer, Extracting an intermediate feature amount related to machine learning from an input image that is an image of the inside of the body; calculating the image importance of the input image based on the intermediate feature amount; storing the input image based on the image importance;
  • a computer-readable recording medium recording a program for executing (21) An image processing method for performing image processing using the image processing apparatus according to any one of (1) to (18) above. (22) A computer-readable recording medium recording a program for causing a computer to execute the steps included in the image processing method described in (21) above. (23) An image processing system comprising the image processing apparatus according to any one of (1) to (18) above.

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Surgery (AREA)
  • Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Radiology & Medical Imaging (AREA)
  • Optics & Photonics (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Biophysics (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Veterinary Medicine (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本開示に係る一形態の画像処理装置(40)は、体内の画像である入力画像から機械学習に関する中間特徴量を抽出する特徴量抽出部(42a)と、前記中間特徴量に基づいて前記入力画像の画像重要度を算出する重要度算出部(42b)と、前記画像重要度に基づいて前記入力画像を保存する画像蓄積部(42c)と、を備える。

Description

画像処理装置、画像処理方法及び記録媒体
 本開示は、画像処理装置、画像処理方法及び記録媒体に関する。
 腹腔鏡下内視鏡等の手術環境において、機械学習によって学習された、術具等を認識する認識器が手術の補助をする状況が想定される。一般に、機械学習によって学習された認識器は、照明条件や使用している術具の違いといった、学習環境と推論環境との差異によって認識性能が低下する傾向がある。推論環境下では、現在撮影中の画像が認識器の学習にとって有用なデータなのか否か(重要度)を判断することはできない。このため、認識性能の向上に寄与するデータを効率的に得ることは難しい。一方で、機械学習においては、ラベルなしデータの学習に対する有用性を利用し、能動学習を行う際のラベリングの優先順位付けをする技術が提案されている(例えば、特許文献1参照)。
特開2020-154602号公報
 しかしながら、前述の技術では、リアルタイムでデータ(画像)の重要度を得ることができず、認識性能の向上に寄与するデータを効率的に得ることは難しい。例えば、前述の技術では、学習モデルの出力が信頼できることが前提とされ、追加のラベル付けが必要になるため、認識性能の向上に寄与するデータを効率的に得ることは困難である。
 そこで、本開示では、認識性能の向上に寄与するデータを効率的に得ることが可能な画像処理装置、画像処理方法及び記録媒体を提案する。
 本開示の実施形態に係る画像処理装置は、体内の画像である入力画像から機械学習に関する中間特徴量を抽出する特徴量抽出部と、前記中間特徴量に基づいて前記入力画像の画像重要度を算出する重要度算出部と、前記画像重要度に基づいて前記入力画像を保存する画像蓄積部と、を備える。
 本開示の実施形態に係る画像処理方法は、体内の画像である入力画像から機械学習に関する中間特徴量を抽出することと、前記中間特徴量に基づいて前記入力画像の画像重要度を算出することと、前記画像重要度に基づいて前記入力画像を保存することと、を含む。
 本開示の実施形態に係る記録媒体は、コンピュータに、体内の画像である入力画像から機械学習に関する中間特徴量を抽出することと、前記中間特徴量に基づいて前記入力画像の画像重要度を算出することと、前記画像重要度に基づいて前記入力画像を保存することと、を実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体である。
実施形態に係る画像処理システムの概略構成の一例を示す図である。 実施形態に係る事前学習処理の一例を説明するための図である。 実施形態に係る推論処理の一例を説明するための図である。 実施形態に係る学習処理の流れの一例を示すフローチャートである。 実施形態に係る推論処理の流れの一例を示すフローチャートである。 実施形態に係る学習済データ及び入力画像の個々の中間特徴量の比較の一例を説明するための図である。 実施形態に係る画像の表示の一例を説明するための図である。 実施形態に係る学習モデル適用処理の一例を説明するための第1の図である。 実施形態に係る学習モデル適用処理の一例を説明するための第2の図である。 コンピュータの概略構成の一例を示す図である。 内視鏡システムの概略的な構成の一例を示す図である。 図11に示すカメラ及びCCUの機能構成の一例を示すブロック図である。 顕微鏡手術システムの概略的な構成の一例を示す図である。
 以下に、本開示の実施形態について図面に基づいて詳細に説明する。なお、この実施形態により本開示に係る装置やシステム、方法、記録媒体等が限定されるものではない。また、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、基本的に同一の符号を付することにより重複説明を省略する。
 以下に説明される1又は複数の実施形態(実施例、変形例を含む)は、各々が独立に実施されることが可能である。一方で、以下に説明される複数の実施形態は少なくとも一部が他の実施形態の少なくとも一部と適宜組み合わせて実施されてもよい。これら複数の実施形態は、互いに異なる新規な特徴を含み得る。したがって、これら複数の実施形態は、互いに異なる目的又は課題を解決することに寄与し得、互いに異なる効果を奏し得る。
 以下に示す項目順序に従って本開示を説明する。
 1.実施形態
 1-1.画像処理システムの構成例
 1-2.学習処理の一例
 1-3.推論処理の一例
 1-4.学習済データ及び入力画像の個々の中間特徴量の比較例
 1-5.画像の表示例
 1-6.学習モデル適用処理の一例
 1-7.作用・効果
 2.他の実施形態
 3.コンピュータの構成例
 4.応用例
 5.付記
 <1.実施形態>
 <1-1.画像処理システムの構成例>
 本実施形態に係る画像処理システム10の構成例について図1から図3を参照して説明する。図1は、本実施形態に係る画像処理システム10の概略構成の一例を示す図である。図2は、本実施形態に係る事前学習処理の一例を説明するための図である。図3は、本実施形態に係る推論処理の一例を説明するための図である。
 図1に示すように、画像処理システム10は、内視鏡20と、学習装置30と、画像処理装置40と、ストレージ装置50と、表示装置60とを備える。この画像処理システム10は、患者等の被写体Aの画像(例えば、体内の画像)を処理するシステムである。
 (内視鏡)
 内視鏡20は、RGBカメラ21を有する。RGBカメラ21は、例えば、マトリクス状に配列する複数の画素と、複数の画素のそれぞれへ入射した光に基づく像を画素信号として出力する周辺回路部とを主に有する(いずれも図示省略)。このRGBカメラ21は、被写体Aの体内の撮影対象を動画や静止画の形式で撮影する撮像部として機能する。例えば、RGBカメラ21は、被写体Aの腹腔内環境の画像(一例として、腹腔内の各種の術具や臓器を含む術野画像)を得ることができる。また、RGBカメラ21は、撮像した画像(例えば、画像に対応する画素信号)を画像処理装置40に送信する。
 詳細には、RGBカメラ21は、カラー撮影可能なイメージセンサであり、例えば、青色光、緑色光及び赤色光を検出することが可能なBayer配列を有するイメージセンサである。また、RGBカメラ21は、例えば、4K以上の高解像度の画像の撮影に対応可能なイメージセンサであることが好ましい。このようなイメージセンサを用いることで、術部の画像が高解像度で得られるので、執刀医等の術者は、その術部の様子をより詳細に把握することができ、手術を円滑に進行することができる。
 なお、内視鏡20は、例えば、斜視鏡、広角/切り出し機能付きの前方直視鏡、先端湾曲機能付きの内視鏡、他方向同時撮影機能付きの内視鏡であってもよく、また、軟性鏡や硬性鏡であってもよく、特に限定されるものではない。また、RGBカメラ21は、3D表示に対応する右目用及び左目用の画像をそれぞれ取得するための1対のイメージセンサから構成されてもよい(ステレオ方式)。3D表示を行う場合、執刀医等の術者は術部における生体組織(臓器)の奥行きをより正確に把握することや、生体組織までの距離を把握することが可能になる。
 (学習装置)
 学習装置30は、入出力部31と、学習部32と、制御部33とを備える。
 入出力部31は、事前学習用のラベル付きデータ(画像データ)やストレージ装置50内のデータ(画像データ)を受けて学習部32に入力する。また、入出力部31は、学習部32による学習に関する各種データをストレージ装置50に対して出力する。
 学習部32は、事前学習用のラベル付きデータでDNN(ディープニューラルネットワーク)等の機械学習により事前学習を行い、学習済モデルを構築して中間特徴量等と共に入出力部31を介してストレージ装置50に保存する。
 例えば、図2に示すように、学習部32は、事前学習時、環境Aにおけるラベル付きデータ(画像データ)をDNNに入力し、推論結果及び中間特徴量を求め、求めた推論結果及び中間特徴量をストレージ装置50に保存する。推論結果の取得では、例えば、正解ラベルとの誤差を逆伝播して学習を行う。中間特徴量の取得では、例えば、学習完了後、各データに対する中間特徴量(画像毎の中間特徴量)を保存する。なお、各データにおいて、中間特徴量の平均や分散(例えば、平均ベクトル)、あるいは、代表値等が保存されてもよい。また、推論を行う問題設定としては、例えば、画像内の術具検出や臓器のセグメンテーション等がある。
 図1に戻り、学習部32は、特徴量抽出部32aと、更新部32bとを有する。特徴量抽出部32aは、ラベル付きデータやラベルなしデータ等の画像データの中間特徴量を抽出する。更新部32bは、画像取得の環境(例えば、環境Aや環境B等)の違いに応じて、ストレージ装置50に保存された学習済モデル及び中間特徴量を更新する。環境の違いとしては、例えば、病院の違いや手術室の違い等がある。例えば、病院又は手術室毎に照明条件や術具等が異なる。
 制御部33は、学習装置30の各部(例えば、入出力部31や学習部32等)を制御する。例えば、制御部33は、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等のコンピュータによって構成され、学習装置30の各部の動作を統括的に制御することが可能である。
 (画像処理装置)
 画像処理装置40は、入出力部41と、認識部42と、制御部43とを備える。
 入出力部41は、内視鏡20から画像データ(画素信号)を受けて認識部42に入力し、認識部42による認識に関する各種データをストレージ装置50に出力し、また、表示装置60に画像データ等を出力する。
 認識部42は、ラベルなしデータ(画像データ)でDNN等の機械学習により学習を行い、推定結果及び中間特徴量を求め、入出力部41を介してストレージ装置50に保存する。これらの推定結果や中間特徴量等は、ドメイン適応学習等の追加学習に用いられる。
 例えば、図3に示すように、認識部42は、環境Bにおけるラベルなしデータ(画像データ)をDNNに入力し、推定結果及び中間特徴量を求め、求めた推定結果及び中間特徴量をストレージ装置50に保存する。また、認識部42は、求めた環境Bにおけるラベルなしデータの中間特徴量と、環境Aにおけるラベル付けデータの中間特徴量との差分を計算し、その中間特徴量同士の差分を所定の変換式により変換して画像重要度を求める。変換式は、例えば、画像重要度=差分/定数である。この関数のような各種関数を変換式として適用することが可能である。なお、推論結果の取得や中間特徴量の取得の方法、推論を行う問題設定等は、前述の学習装置30の学習部32と同じである。
 図1に戻り、認識部42は、特徴量抽出部42aと、重要度算出部42bと、画像蓄積部42cとを有する。特徴量抽出部42aは、ラベルなしデータ等の画像データ(例えば、体内の画像である入力画像)から中間特徴量を抽出する。重要度算出部42bは、画像データの中間特徴量に基づいて画像(例えば、RGB画像)の画像重要度を算出する。画像蓄積部42cは、画像重要度に基づいて画像をストレージ装置50に保存する。例えば、画像蓄積部42cは、画像重要度が高い画像を保存して蓄積する。
 制御部43は、画像処理装置40内の各部(例えば、入出力部41や認識部42等)を制御する。例えば、制御部43は、CPUやMPU等のコンピュータによって構成され、画像処理装置40の各部の動作を統括的に制御することが可能である。また、制御部43は、内視鏡20や表示装置60等を制御する。例えば、制御部43は、内視鏡20や表示装置60に対してそれぞれ制御信号を送信し、それらの駆動を制御することが可能である。内視鏡20に対する制御信号は、倍率や焦点距離等、撮像条件に関する情報を含んでもよい。
 (ストレージ装置)
 ストレージ装置50は、各種データ、例えば、RGBカメラ21によって撮像された画像(例えば、RGB画像等)、学習済モデル、画像毎の中間特徴量等を保存する。このストレージ装置50は、例えば、HDD(ハードディスクドライブ)やSDD(ソリッドステートドライブ)等の記憶装置により実現される。
 (表示装置)
 表示装置60は、各種画像、例えば、RGBカメラ21によって得られた画像を表示する。この表示装置60は、例えば、液晶ディスプレイ(LCD:Liquid Crystal Display)又は有機EL(Organic Electro-Luminescence)ディスプレイ等を含むディスプレイにより実現される。なお、表示装置60は、画像処理装置40と一体の装置であってもよく、もしくは、画像処理装置40と有線又は無線で通信可能に接続された別体の装置であってもよい。
 <1-2.学習処理の一例>
 本実施形態に係る学習処理の一例について図4を参照して説明する。図4は、本実施形態に係る学習処理の流れの一例を示すフローチャートである。学習処理は学習装置30により実行される。例えば、学習部32が学習処理を実行する。
 図4に示すように、ステップS11において、環境Aにおけるラベル付きデータで事前学習が実行される。ステップS12において、環境Bにおけるラベルなしデータが収集される。このラベルなしデータは、後述する推論処理(図5参照)によりストレージ装置50に保存されており、ストレージ装置50から読み出されて用いられる。ステップS13において、環境Aにおけるラベル付きデータと環境Bにおけるラベルなしデータでドメイン適応学習が実行される。ステップS14において、ドメイン適応学習に応じ、学習済モデル及び中間特徴量が更新される。
 その後、ステップS15において、認識性能が十分であるか否かが判断される。認識性能が十分でないと判断されると(ステップS15のNo)、処理がステップS12に戻り、ステップS12からS15が繰り返される。一方、認識性能が十分であると判断されると(ステップS15のYes)、処理が終了する。認識性能が十分であるか否かは、例えば、ユーザにより判断されてもよく、また、学習装置30により自動的に判断されてもよい。なお、ユーザによる判断では、例えば、キーボードやマウス、タッチパネル等の入力部がユーザにより操作され、認識性能が十分又は不十分であることが入力される。学習装置30による判断では、例えば、認識性能が数値化され、その数値が閾値より大きいか否かにより認識性能が十分又は不十分であることが判断される。
 <1-3.推論処理の一例>
 本実施形態に係る推論処理の一例について図5を参照して説明する。図5は、本実施形態に係る推論処理の流れの一例を示すフローチャートである。推論処理は画像処理装置40により実行される。例えば、認識部42が推論処理を実行する。
 図5に示すように、ステップS21において、RGB画像(入力画像)が認識部42に入力される。ステップS22において、現在シーン(入力画像)の画像重要度が計算される。ステップS23において、画像重要度が所定の閾値より高いか否かが判断される。画像重要度が閾値より高いと判断されると(ステップS23のYes)、ステップS24において、RGB画像がストレージ装置50に記憶され、ステップS25において、RGB画像と画像重要度が表示装置60により重畳表示される。一方、画像重要度が閾値より高くないと判断されると(ステップS23のNo)、そのままステップS25において、RGB画像と画像重要度が表示装置60により重畳表示される。なお、ステップS24では、例えば、RGB画像及び画像重要度が関連付けられてストレージ装置50に保存されてもよい。
 その後、ステップS26において、撮影が終了であるか否かが判断される。撮影が終了でないと判断されると(ステップS26のNo)、処理がステップS21に戻り、ステップS21からS26が繰り返される。一方、撮影が終了であると判断されると(ステップS26のYes)、処理が終了する。撮影が終了であるか否かは、例えば、ユーザにより判断される。このユーザによる判断では、前述と同様、例えば、キーボードやマウス、タッチパネル等の入力部がユーザにより操作され、撮影が終了又は未終了であることが入力される。
 <1-4.学習済データ及び入力画像の個々の中間特徴量の比較例>
 本実施形態に係る学習済データ及び入力画像の個々の中間特徴量の比較例について図6を参照して説明する。図6は、本実施形態に係る学習済データ及び入力画像の個々の中間特徴量の比較の一例を説明するための図である。
 図6に示すように、学習済データの中間特徴量と入力画像の中間特徴量とを比較することによって、現在撮影中の画像が追加学習に必要なデータであるか否かを判別することが可能である。つまり、入力画像の中間特徴量が学習済データの中間特徴量の分布(図6中の点線領域参照)から近い場合、入力画像の画像重要度は低いと判断される。図6の例では、画像重要度が低い入力画像の中間特徴量は点線領域内に位置する。一方、入力画像の中間特徴量が学習済データの中間特徴量の分布(図6中の点線領域参照)から遠い場合、入力画像の画像重要度は高いと判断される。
 このような画像重要度は、具体的には、学習済データ及び入力画像の中間特徴量同士の差分から算出される正規化された値である。この画像重要度は、0に近いほど重要度が低く、1に近いほど重要度が高いものである。
 ただし、画像重要度の値は、学習モデルの更新を繰り返すごとに小さくなることが想定される。例えば、図6の例では、学習モデルの更新を繰り返すごとに学習済データの中間特徴量が増加し、学習済データの中間特徴量の分布領域(図6中の点線領域参照)が広くなるため、入力画像の中間特徴量が学習済データの中間特徴量の分布に近づき、画像重要度の値が小さくなる傾向(画像重要度が低くなる傾向)がある。このように学習モデルの更新を繰り返すごとに画像重要度の値は小さくなることが想定されるため、例えば、学習モデルの更新ごとに閾値(図5のステップS23参照)を更新することが望ましい。
 この画像重要度の閾値は、変更可能であり、例えば、ユーザにより変更されてもよく、また、画像処理装置40により自動的に変更されてもよい。ユーザによる変更では、前述と同様、例えば、キーボードやマウス、タッチパネル等の入力部がユーザにより操作され、閾値が変更される。画像処理装置40による変更では、定期的に閾値が変更されもよく、また、学習モデルの更新タイミングや更新回数に応じて閾値が変更されてもよい。例えば、更新回数が所定回数となると、閾値が変更される。この変更処理は、例えば、画像蓄積部42cにより実行される。
 <1-5.画像の表示例>
 本実施形態に係る画像の表示例について図7を参照して説明する。図7は、本実施形態に係る画像の表示の一例を説明するための図である。
 図7に示すように、撮像中のRGB画像(入力画像)と画像重要度が重畳されて表示装置60により表示される(重畳表示)。画像重要度は、前述のように、0に近いほど重要度が低く、1に近いほど重要度が高いものである。図7の例では、RGB画像の画像重要度は0.73である(importance:0.73)。この画像重要度が表示されることで、ユーザは画像重要度を把握することが可能となる。
 また、画像重要度が閾値より高い場合には、RGB画像の外枠(図7中の太い黒枠参照)の色が変えられる。これにより、ユーザは画像重要度が閾値より高いことを把握することが可能となる。例えば、画像重要度が閾値以下である場合、外枠の色は青色であり、画像重要度が閾値より高い場合、外枠の色は赤色に変えられる。このように、外枠を示す画像の表示態様は画像重要度に応じて変更される。ただし、外枠の色(色の組み合わせ)は、青色と赤色に限定されるものではなく、他の色が用いられてもよい。
 なお、外枠を示す画像の表示態様の変更としては、外枠の色を変える以外にも、例えば、外枠を点滅させてもよく、また、外枠の太さ(線幅)やサイズを変更してもよい。すなわち、画像重要度が閾値より高いことを示す画像の色や線幅、サイズを変更したり、その画像を点滅させたりしてもよい。また、画像重要度が閾値より高いことを示す画像としては、外枠を用いる以外にも、文字や記号、図形等を示す画像が用いられてもよい。また、画像重要度が閾値より高いことを示す画像及び画像重要度の両方又は一方は、RGB画像に重ねされていてもよく、また、重ねられなくてもよい。
 前述のように、撮像中の画像データの画像重要度を表示することにより、術者や助手等のユーザ(撮影者)は撮像中の画像データの画像重要度を把握し、効率的に認識性能向上に寄与する画像データを撮影することができる。例えば、術者や助手等のユーザは、撮像中の画像データの画像重要度が高い場合、そのシーンを重点的に撮像し、撮像中の画像データの画像重要度が低い場合、違うシーンを撮像する。このようにして、ユーザの裁量に任される撮像を補足し、ユーザに撮像を続けてもらうことが可能である。
 <1-6.学習モデル適用処理の一例>
 本実施形態に係る環境に対する学習モデル適用処理の一例について図8及び図9を参照して説明する。図8及び図9は、それぞれ本実施形態に係る学習モデル適用処理の一例を説明するための図である。
 図8に示すように、1.事前学習では、学習装置30の学習部32は、CGデータセットをDNNに入力し、推論結果及び中間特徴量を求め、求めた推論結果及び中間特徴量をストレージ装置50に保存する。この事前学習により、学習モデルが構築される。図8の例では、CGデータセットが事前学習用のラベル付きデータとして用いられる。このCGデータセットは、CG(コンピュータグラフィックス)により生成された複数の画像(手術中の画像)を含むデータセットである。
 2.データ撮影では、画像処理装置40の認識部42は、撮影画像(撮像画像)群(画像データ)をDNNに入力し、推定結果及び中間特徴量を求め、求めた推定結果及び中間特徴量をストレージ装置50に保存する。また、認識部42は、撮影画像ごとに、撮影画像の中間特徴量と、CGデータセットに含まれる画像の中間特徴量(例えば、各データの平均値や代表値等)との差分を計算し、その中間特徴量同士の差分を変換式により変換して画像重要度を求める。認識部42は、求めた画像重要度を撮影画像に重ねて、画像重要度を含む撮影画像を生成し、表示画像として表示装置60に送信する。
 表示装置60は、認識部42から送信された表示画像を表示する。図8の例では、上方の表示画像の画像重要度は0.12であり(importance:0.12)、画像重要度が閾値(例えば、0.50)以下であるため、外枠の色は青色である。また、下方の表示画像の画像重要度は0.87であり(importance:0.87)、画像重要度が閾値(例えば、0.50)より高いため、外枠の色は赤色である。なお、画像重要度は撮影画像に重ねられず、撮影画像を避けてその撮影画像の上方(図8中)に示されている。
 術者や助手等のユーザ(撮影者)は、表示装置60により表示された表示画像を視認し、画像重要度を把握することができる。ユーザは、画像重要度を見て、現在のシーンを重点的に撮影したり、もしくは、現在のシーンの撮影をやめて異なるシーンの撮影に移ったりするという対応を取る。このように、ユーザは撮像中の画像データの画像重要度を把握し、画像重要度が高い画像データを効率的に撮影することが可能となる。これにより、認識性能向上に寄与する画像データが順次撮像されて蓄積されるので、効率的に認識性能向上に寄与する画像データを得ることができる。また、画像重要度が閾値よりも高いか低いかに応じて、画像の外枠の色を変えることによって、画像重要度が高いのか低いのかをユーザに分かりやすくすることができる。例えば、画像重要度が高い場合には、画像の外枠を赤色にしてアラートを示し、画像重要度が低い場合には、画像の外枠を青色にする。これにより、ユーザは画像重要度の高低を容易に把握することができる。
 図9に示すように、3.ドメイン適応学習では、学習装置30の学習部32は、CGデータセット及び画像重要度が閾値より高い画像群をDNNに入力し、推論結果、中間特徴量及び入力画像のドメインを求め、求めた推論結果、中間特徴量及び入力画像のドメインをストレージ装置50に保存する。具体例として、学習部32は、学習済モデル(学習済DNNモデル)と保存済の中間特徴量を更新する。
 なお、推論結果の取得では、例えば、ラベル付きデータのみ、正解ラベルとの誤差を逆伝播し学習を行う。また、入力画像のドメインの判断では、DNNが入力画像のドメインの判断を誤るように学習(敵対的学習)を行う。中間特徴量の取得では、例えば、学習完了後、各データに対する中間特徴量を保存する。
 このような2.データ撮影及び3.ドメイン適応学習は、十分な認識性能が得られるまで繰り返される。なお、画像重要度が閾値を超えた画像を蓄積し、ラベル付けを行わない場合にドメイン適応学習を行っているが、これに限るものではなく、例えば、ラベル付け(ラベリング)を行い教師あり学習を行ってもよい。
 また、1.事前学習では、CGデータセットが用いられる。これにより、自動でラベリング可能で、低コストで大量のラベル付きデータが得られる。この学習モデルを、画像重要度を用いたドメイン適応学習により各病院の環境に適応させることで、高コストなラベル付けを行うことなく、各病院の環境において認識性能の高い学習モデルを得ることができる。なお、通常、学習モデルを導入する環境(病院)ごとに大量のデータを撮影し、ラベル付けをする必要があり、コストを考えると非現実的であるが、1~3の処理によれば、各病院の環境において認識性能の高い学習モデルを低コストで得ることができる。
 このような学習モデル適用処理において、ある環境で撮影したデータにラベル付けを行い、DNNを事前学習しておき、各画像に対するDNNの中間出力である中間特徴量を保存する。導入環境でデータを撮影時にDNNを用いて中間特徴量を計算し、保存済みの中間特徴量との差分を計算し、その差分をデータの画像重要度として算出し、データ撮影者にフィードバックする。なお、本実施形態では、追加のラベル付けを前提としていないため、追加のラベル付けを前提とする学習モデルと異なる。また、本実施形態では、DNN学習モデルの出力ではなく、中間特徴量に注目することで、追加学習に必要なデータ収集を行う。
 このように、撮影中にリアルタイムに現在撮影中の画像の画像重要度をフィードバックすることで、データ撮影時においても効率的にデータ収集を行うことができる。例えば、推論環境下で、現在撮影中のシーン(画像)が認識部42の学習にとって有用なデータなのか否か(画像重要度)をリアルタイムで出力する。これにより、画像重要度が高いデータを効率的に撮像し、認識部42の認識性能向上に寄与するデータを順次保存することが可能になるので、効率的に認識性能向上に寄与するデータを得ることができる。実施例として、前述のように、ラベル付きデータと画像重要度の高いラベルなしデータを用いてドメイン適応学習を行うことにより、高コストなラベル付けを行うことなく認識部42の認識性能を向上させることができる。
 <1-7.作用・効果>
 以上説明したように、実施形態によれば、体内の画像である入力画像から機械学習に関する中間特徴量を抽出する特徴量抽出部42aと、中間特徴量に基づいて入力画像の画像重要度を算出する重要度算出部42bと、画像重要度に基づいて入力画像を保存する画像蓄積部42cとが設けられる。これにより、入力画像の画像重要度に応じてその入力画像を保存することができ、認識性能向上に寄与する入力画像を確実に保存することが可能になるので、効率的に認識性能向上に寄与する入力画像(データ)を得ることができる。
 また、重要度算出部42bは、第1の環境(例えば、病院A)における体内の画像の中間特徴量と、第1の環境と異なる第2の環境(例えば、病院B)における入力画像の中間特徴量との差分に基づいて、画像重要度を算出してもよい。これにより、環境に関する画像重要度を確実に算出することができる。
 また、重要度算出部42bは、上記差分を所定の変換式により変換して画像重要度を算出してもよい。これにより、環境に関する画像重要度を容易な処理で確実に算出することができる。
 また、第1の環境は第1の病院であり、第2の環境は、第1の病院と異なる第2の病院であってもよい。これにより、環境としての病院に関する画像重要度を算出することができる。
 また、画像蓄積部42cは、画像重要度が所定の閾値を超える場合、入力画像を蓄積してもよい。これにより、画像重要度に応じて入力画像を容易な処理で確実に保存することができる。
 また、画像蓄積部42cは、学習済モデルの更新タイミングで所定の閾値を変更してもよい。これにより、学習済モデルが更新される適切なタイミングで閾値が変更されるので、学習済モデルが繰り返し更新されても、画像重要度に応じて入力画像を保存することができる。
 また、画像蓄積部42cは、学習済モデルの更新回数に応じて所定の閾値を変更してもよい。これにより、学習済モデルが更新される回数に応じて閾値が変更されるので、学習済モデルが繰り返し更新されても、画像重要度に応じて入力画像を保存することができる。
 また、画像蓄積部42cは、更新回数が所定回数となったタイミングで所定の閾値を小さくしてもよい。これにより、学習済モデルが更新される回数が所定回数となると閾値が小さく変更されるので、学習済モデルが繰り返し更新されても、画像重要度に応じて入力画像を保存することができる。
 また、画像蓄積部42cは、入力画像及び画像重要度を関連付けて保存してもよい。これにより、入力画像及び画像重要度を読み出して用いることが可能となるので、それらのデータとしての利便性を向上させることができる。
 また、画像重要度を表示する表示装置60が設けられる。これにより、ユーザは入力画像の画像重要度を把握して画像重要度が高い画像を効率的に撮影し、認識性能向上に寄与する入力画像を保存することが可能となるので、効率的に認識性能向上に寄与する入力画像(データ)を得ることができる。
 また、表示装置60は、入力画像及び画像重要度を表示してもよい。これにより、ユーザは、入力画像及び画像重要度を視認することが可能になるので、その入力画像に対応する画像重要度を容易に把握することができる。
 また、表示装置60は、入力画像に画像重要度を重ねて表示してもよい。これにより、ユーザは、入力画像を視認しつつ、画像重要度を視認することが容易になるので、その入力画像に対応する画像重要度を確実に把握することができる。
 また、表示装置60は、画像重要度が所定の閾値を超えたことを示す画像(例えば、外枠、文字、記号又は図形等を示す画像)を表示してもよい。これにより、ユーザは、画像重要度が所定の閾値を超えたことを示す画像を視認することが可能になるので、画像重要度が所定の閾値を超えたことを容易に把握することができる。
 また、表示装置60は、画像重要度に応じて、画像重要度が所定の閾値を超えたことを示す画像の表示態様を変えてもよい。これにより、ユーザは、画像重要度が変化したことを容易及び確実に把握することができる。
 また、表示装置60は、入力画像に、画像重要度が所定の閾値を超えたことを示す画像を重ねて表示してもよい。これにより、ユーザは、入力画像を視認しつつ、画像重要度が所定の閾値を超えたことを示す画像を視認することが容易になるので、画像重要度が所定の閾値を超えたことを確実に把握することができる。
 また、表示装置60は、入力画像、画像重要度、及び、画像重要度が所定の閾値を超えたことを示す画像を表示してもよい。これにより、ユーザは、入力画像及び画像重要度と、画像重要度が所定の閾値を超えたことを示す画像とを視認することが可能になるので、その入力画像に対応する画像重要度と、画像重要度が所定の閾値を超えたこととを容易に把握することができる。
 また、表示装置60は、入力画像に、画像重要度、及び、画像重要度が所定の閾値を超えたことを示す画像を重ねて表示してもよい。これにより、ユーザは、入力画像を視認しつつ、画像重要度と、画像重要度が所定の閾値を超えたことを示す画像とを視認することが容易になるので、その入力画像に対応する画像重要度と、画像重要度が所定の閾値を超えたこととを確実に把握することができる。
 <2.他の実施形態>
 上述した実施形態(又は変形例)に係る処理は、上記実施形態以外にも種々の異なる形態(変形例)にて実施されてよい。例えば、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
 また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
 また、上述した実施形態(又は変形例)は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。また、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、他の効果があってもよい。
 また、上述した実施形態(又は変形例)において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれも、システムである。
 また、実施形態(又は変形例)において、1つの機能を、ネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。また、上述の処理の流れ(例えば、フローチャート)で説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
 また、内視鏡20は、測距することが可能なステレオ方式の内視鏡であってもよい。もしくは、内視鏡20は、RGBカメラ21とは別個に、depthセンサ(測距装置)を有してもよい。depthセンサは、例えば、被写体からのパルス光の反射の戻り時間を用いて測距を行うToF(Time of Flight)方式や、格子状のパターン光を照射して、パターンの歪みにより測距を行うストラクチャードライト方式を用いて測距を行うセンサである。
 <3.コンピュータの構成例>
 上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータ等が含まれる。
 図10は、上述した一連の処理をプログラムにより実行するコンピュータ500の概略構成の一例を示す図である。
 図10に示すように、コンピュータ500は、CPU(Central Processing Unit)510と、ROM(Read Only Memory)520と、RAM(Random Access Memory)530とを有している。
 CPU510、ROM520及びRAM530は、バス540により相互に接続されている。このバス540には、さらに、入出力インターフェース550が接続されている。この入出力インターフェース550には、入力部560、出力部570、記録部580、通信部590及びドライブ600が接続されている。
 入力部560は、キーボードやマウス、マイクロフォン、撮像素子等により構成されている。出力部570は、ディスプレイやスピーカ等により構成されている。記録部580は、ハードディスクや不揮発性のメモリ等により構成されている。通信部590は、ネットワークインターフェース等により構成されている。ドライブ600は、磁気ディスクや光ディスク、光磁気ディスク又は半導体メモリ等のリムーバブル記録媒体610を駆動する。
 以上のように構成されるコンピュータ500では、CPU510が、例えば、記録部580に記録されているプログラムを、入出力インターフェース550及びバス540を介して、RAM530にロードして実行することにより、上述した一連の処理が行われる。
 コンピュータ500、すなわちCPU510が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体610に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
 コンピュータ500では、プログラムは、リムーバブル記録媒体610をドライブ600に装着することにより、入出力インターフェース550を介して、記録部580にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部590で受信し、記録部580にインストールすることができる。その他、プログラムは、ROM520や記録部580に、あらかじめインストールしておくことができる。
 なお、コンピュータ500が実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
 <4.応用例>
 本開示に係る技術は、医療イメージングシステムに適用することができる。医療イメージングシステムは、イメージング技術を用いた医療システムであり、例えば、内視鏡システムや顕微鏡システムである。本開示に係る画像処理システム10において、内視鏡20を内視鏡5001や顕微鏡装置5301に適用し、学習装置30や画像処理装置40等をCCU5039に適用し、ストレージ装置50を記録装置5053に適用し、表示装置60を表示装置5041に適用することができる。
 [内視鏡システム]
 内視鏡システムの例を図11、図12を用いて説明する。図11は、本開示に係る技術が適用可能な内視鏡システム5000の概略的な構成の一例を示す図である。図12は、内視鏡5001およびCCU(Camera Control Unit)5039の構成の一例を示す図である。図11では、手術参加者である術者(例えば、医師)5067が、内視鏡システム5000を用いて、患者ベッド5069上の患者5071に手術を行っている様子が図示されている。図11に示すように、内視鏡システム5000は、医療イメージング装置である内視鏡5001と、CCU5039と、光源装置5043と、記録装置5053と、出力装置5055と、内視鏡5001を支持する支持装置5027と、から構成される。
 内視鏡手術では、トロッカ5025と呼ばれる挿入補助具が患者5071に穿刺される。そして、トロッカ5025を介して、内視鏡5001に接続されたスコープ5003や術具5021が患者5071の体内に挿入される。術具5021は例えば、電気メス等のエネルギーデバイスや、鉗子などである。
 内視鏡5001によって撮影された患者5071の体内を映した医療画像である手術画像が、表示装置5041に表示される。術者5067は、表示装置5041に表示された手術画像を見ながら術具5021を用いて手術対象に処置を行う。なお、医療画像は手術画像に限らず、診断中に撮像された診断画像であってもよい。
 [内視鏡]
 内視鏡5001は、患者5071の体内を撮像する撮像部であり、例えば、図12に示すように、入射した光を集光する集光光学系50051と、撮像部の焦点距離を変更して光学ズームを可能とするズーム光学系50052と、撮像部の焦点距離を変更してフォーカス調整を可能とするフォーカス光学系50053と、受光素子50054と、を含むカメラ5005である。内視鏡5001は、接続されたスコープ5003を介して光を受光素子50054に集光することで画素信号を生成し、CCU5039に伝送系を通じて画素信号を出力する。なお、スコープ5003は、対物レンズを先端に有し、接続された光源装置5043からの光を患者5071の体内に導光する挿入部である。スコープ5003は、例えば硬性鏡では硬性スコープ、軟性鏡では軟性スコープである。スコープ5003は直視鏡や斜視鏡であってもよい。また、画素信号は画素から出力された信号に基づいた信号であればよく、例えば、RAW信号や画像信号である。また、内視鏡5001とCCU5039とを接続する伝送系にメモリを搭載し、メモリに内視鏡5001やCCU5039に関するパラメータを記憶する構成にしてもよい。メモリは、例えば、伝送系の接続部分やケーブル上に配置されてもよい。例えば、内視鏡5001の出荷時のパラメータや通電時に変化したパラメータを伝送系のメモリに記憶し、メモリから読みだしたパラメータに基づいて内視鏡の動作を変更してもよい。また、内視鏡と伝送系をセットにして内視鏡と称してもよい。受光素子50054は、受光した光を画素信号に変換するセンサであり、例えばCMOS(Complementary Metal Oxide Semiconductor)タイプの撮像素子である。受光素子50054は、Bayer配列を有するカラー撮影可能な撮像素子であることが好ましい。また、受光素子50054は、例えば4K(水平画素数3840×垂直画素数2160)、8K(水平画素数7680×垂直画素数4320)または正方形4K(水平画素数3840以上×垂直画素数3840以上)の解像度に対応した画素数を有する撮像素子であることが好ましい。受光素子50054は、1枚のセンサチップであってもよいし、複数のセンサチップでもよい。例えば、入射光を所定の波長帯域ごとに分離するプリズムを設けて、各波長帯域を異なる受光素子で撮像する構成であってもよい。また、立体視のために受光素子を複数設けてもよい。また、受光素子50054は、チップ構造の中に画像処理用の演算処理回路を含んでいるセンサであってもよいし、ToF(Time of Flight)用センサであってもよい。なお、伝送系は例えば光ファイバケーブルや無線伝送である。無線伝送は、内視鏡5001で生成された画素信号が伝送可能であればよく、例えば、内視鏡5001とCCU5039が無線接続されてもよいし、手術室内の基地局を経由して内視鏡5001とCCU5039が接続されてもよい。このとき、内視鏡5001は画素信号だけでなく、画素信号に関連する情報(例えば、画素信号の処理優先度や同期信号等)を同時に送信してもよい。なお、内視鏡はスコープとカメラを一体化してもよく、スコープの先端部に受光素子を設ける構成としてもよい。
 [CCU(Camera Control Unit)]
 CCU5039は、接続された内視鏡5001や光源装置5043を統括的に制御する制御装置であり、例えば、図12に示すように、FPGA50391、CPU50392、RAM50393、ROM50394、GPU50395、I/F50396を有する情報処理装置である。また、CCU5039は、接続された表示装置5041や記録装置5053、出力装置5055を統括的に制御してもよい。例えば、CCU5039は、光源装置5043の照射タイミングや照射強度、照射光源の種類を制御する。また、CCU5039は、内視鏡5001から出力された画素信号に対して現像処理(例えばデモザイク処理)や補正処理といった画像処理を行い、表示装置5041等の外部装置に処理後の画素信号(例えば画像)を出力する。また、CCU5039は、内視鏡5001に対して制御信号を送信し、内視鏡5001の駆動を制御する。制御信号は、例えば、撮像部の倍率や焦点距離などの撮像条件に関する情報である。なお、CCU5039は画像のダウンコンバート機能を有し、表示装置5041に高解像度(例えば4K)の画像を、記録装置5053に低解像度(例えばHD)の画像を同時に出力可能な構成としてもよい。
 また、CCU5039は、信号を所定の通信プロトコル(例えば、IP(Internet Protocol))に変換するIPコンバータを経由して外部機器(例えば、記録装置や表示装置、出力装置、支持装置)と接続されてもよい。IPコンバータと外部機器との接続は、有線ネットワークで構成されてもよいし、一部または全てのネットワークが無線ネットワークで構築されてもよい。例えば、CCU5039側のIPコンバータは無線通信機能を有し、受信した映像を第5世代移動通信システム(5G)、第6世代移動通信システム(6G)等の無線通信ネットワークを介してIPスイッチャーや出力側IPコンバータに送信してもよい。
 [光源装置]
 光源装置5043は、所定の波長帯域の光を照射可能な装置であり、例えば、複数の光源と、複数の光源の光を導光する光源光学系と、を備える。光源は、例えばキセノンランプ、LED光源やLD光源である。光源装置5043は、例えば三原色R、G、Bのそれぞれに対応するLED光源を有し、各光源の出力強度や出力タイミングを制御することで白色光を出射する。また、光源装置5043は、通常光観察に用いられる通常光を照射する光源とは別に、特殊光観察に用いられる特殊光を照射可能な光源を有していてもよい。特殊光は、通常光観察用の光である通常光とは異なる所定の波長帯域の光であり、例えば、近赤外光(波長が760nm以上の光)や赤外光、青色光、紫外光である。通常光は、例えば白色光や緑色光である。特殊光観察の一種である狭帯域光観察では、青色光と緑色光を交互に照射することにより、体組織における光の吸収の波長依存性を利用して、粘膜表層の血管等の所定の組織を高コントラストで撮影することができる。また、特殊光観察の一種である蛍光観察では、体組織に注入された薬剤を励起する励起光を照射し、体組織または標識である薬剤が発する蛍光を受光して蛍光画像を得ることで、通常光では術者が視認しづらい体組織等を、術者が視認しやすくすることができる。例えば、赤外光を用いる蛍光観察では、体組織に注入されたインドシアニングリーン(ICG)等の薬剤に励起波長帯域を有する赤外光を照射し、薬剤の蛍光を受光することで、体組織の構造や患部を視認しやすくすることができる。また、蛍光観察では、青色波長帯域の特殊光で励起され、赤色波長帯域の蛍光を発する薬剤(例えば5-ALA)を用いてもよい。なお、光源装置5043は、CCU5039の制御により照射光の種類を設定される。CCU5039は、光源装置5043と内視鏡5001を制御することにより、通常光観察と特殊光観察が交互に行われるモードを有してもよい。このとき、通常光観察で得られた画素信号に特殊光観察で得られた画素信号に基づく情報を重畳されることが好ましい。また、特殊光観察は、赤外光を照射して臓器表面より奥を見る赤外光観察や、ハイパースペクトル分光を活用したマルチスペクトル観察であってもよい。さらに、光線力学療法を組み合わせてもよい。
 [記録装置]
 記録装置5053は、CCU5039から取得した画素信号(例えば画像)を記録する装置であり、例えばレコーダーである。記録装置5053は、CCU5039から取得した画像をHDDやSDD、光ディスクに記録する。記録装置5053は、病院内のネットワークに接続され、手術室外の機器からアクセス可能にしてもよい。また、記録装置5053は画像のダウンコンバート機能またはアップコンバート機能を有していてもよい。
 [表示装置]
 表示装置5041は、画像を表示可能な装置であり、例えば表示モニタである。表示装置5041は、CCU5039から取得した画素信号に基づく表示画像を表示する。なお、表示装置5041はカメラやマイクを備えることで、視線認識や音声認識、ジェスチャによる指示入力を可能にする入力デバイスとしても機能してよい。
 [出力装置]
 出力装置5055は、CCU5039から取得した情報を出力する装置であり、例えばプリンタである。出力装置5055は、例えば、CCU5039から取得した画素信号に基づく印刷画像を紙に印刷する。
 [支持装置]
 支持装置5027は、アーム制御装置5045を有するベース部5029と、ベース部5029から延伸するアーム部5031と、アーム部5031の先端に取り付けられた保持部5032とを備える多関節アームである。アーム制御装置5045は、CPU等のプロセッサによって構成され、所定のプログラムに従って動作することにより、アーム部5031の駆動を制御する。支持装置5027は、アーム制御装置5045によってアーム部5031を構成する各リンク5035の長さや各関節5033の回転角やトルク等のパラメータを制御することで、例えば保持部5032が保持する内視鏡5001の位置や姿勢を制御する。これにより、内視鏡5001を所望の位置または姿勢に変更し、スコープ5003を患者5071に挿入でき、また、体内での観察領域を変更できる。支持装置5027は、術中に内視鏡5001を支持する内視鏡支持アームとして機能する。これにより、支持装置5027は、内視鏡5001を持つ助手であるスコピストの代わりを担うことができる。また、支持装置5027は、後述する顕微鏡装置5301を支持する装置であってもよく、医療用支持アームと呼ぶこともできる。なお、支持装置5027の制御は、アーム制御装置5045による自律制御方式であってもよいし、ユーザの入力に基づいてアーム制御装置5045が制御する制御方式であってもよい。例えば、制御方式は、ユーザの手元の術者コンソールであるマスター装置(プライマリ装置)の動きに基づいて、患者カートであるスレイブ装置(レプリカ装置)としての支持装置5027が制御されるマスタ・スレイブ方式でもよい。また、支持装置5027の制御は、手術室の外から遠隔制御が可能であってもよい。
 以上、本開示に係る技術が適用され得る内視鏡システム5000の一例について説明した。例えば、本開示に係る技術は、顕微鏡システムに適用されてもよい。
 [顕微鏡システム]
 図13は、本開示に係る技術が適用され得る顕微鏡手術システムの概略的な構成の一例を示す図である。なお、以下の説明において、内視鏡システム5000と同様の構成については、同一の符号を付し、その重複する説明を省略する。
 図13では、術者5067が、顕微鏡手術システム5300を用いて、患者ベッド5069上の患者5071に対して手術を行っている様子を概略的に示している。なお、図13では、簡単のため、顕微鏡手術システム5300の構成のうちカート5037の図示を省略するとともに、内視鏡5001に代わる顕微鏡装置5301を簡略化して図示している。ただし、本説明における顕微鏡装置5301は、リンク5035の先端に設けられた顕微鏡部5303を指していてもよいし、顕微鏡部5303及び支持装置5027を含む構成全体を指していてもよい。
 図13に示すように、手術時には、顕微鏡手術システム5300を用いて、顕微鏡装置5301によって撮影された術部の画像が、手術室に設置される表示装置5041に拡大表示される。表示装置5041は、術者5067と対向する位置に設置されており、術者5067は、表示装置5041に映し出された映像によって術部の様子を観察しながら、例えば患部の切除等、当該術部に対して各種の処置を行う。顕微鏡手術システムは、例えば眼科手術や脳外科手術に使用される。
 以上、本開示に係る技術が適用され得る内視鏡システム5000及び顕微鏡手術システム5300の例についてそれぞれ説明した。なお、本開示に係る技術が適用され得るシステムはかかる例に限定されない。例えば、支持装置5027は、その先端に内視鏡5001又は顕微鏡部5303に代えて他の観察装置や他の術具を支持し得る。当該他の観察装置としては、例えば、鉗子、攝子、気腹のための気腹チューブ、又は焼灼によって組織の切開や血管の封止を行うエネルギー処置具等が適用され得る。これらの観察装置や術具を支持装置によって支持することにより、医療スタッフが人手で支持する場合に比べて、より安定的に位置を固定することが可能となるとともに、医療スタッフの負担を軽減することが可能となる。本開示に係る技術は、このような顕微鏡部以外の構成を支持する支持装置に適用されてもよい。
 本開示に係る技術は、以上説明した構成のうち、内視鏡5001や顕微鏡装置5301、CCU5039、表示装置5041、光源装置5043等に好適に適用され得る。具体的には、内視鏡システム5000及び顕微鏡手術システム5300等において、各実施形態に係る動作や処理を実行することが可能になっている。内視鏡システム5000及び顕微鏡手術システム5300等に本開示に係る技術を適用することにより、認識性能の向上に寄与するデータを効率的に得ることができる。
 <5.付記>
 なお、本技術は以下のような構成も取ることができる。
(1)
 体内の画像である入力画像から機械学習に関する中間特徴量を抽出する特徴量抽出部と、
 前記中間特徴量に基づいて前記入力画像の画像重要度を算出する重要度算出部と、
 前記画像重要度に基づいて前記入力画像を保存する画像蓄積部と、
を備える画像処理装置。
(2)
 前記重要度算出部は、第1の環境における体内の画像の前記中間特徴量と、前記第1の環境と異なる第2の環境における前記入力画像の前記中間特徴量との差分に基づいて、前記画像重要度を算出する、
 上記(1)に記載の画像処理装置。
(3)
 前記重要度算出部は、前記差分を所定の変換式により変換して前記画像重要度を算出する、
 上記(2)に記載の画像処理装置。
(4)
 前記第1の環境は、第1の病院であり、
 前記第2の環境は、前記第1の病院と異なる第2の病院である、
 上記(2)又は(3)に記載の画像処理装置。
(5)
 前記画像蓄積部は、前記画像重要度が所定の閾値を超える場合、前記入力画像を保存する、
 上記(1)から(4)のいずれか一つに記載の画像処理装置。
(6)
 前記画像蓄積部は、学習済モデルの更新タイミングで前記所定の閾値を変更する、
 上記(5)に記載の画像処理装置。
(7)
 前記画像蓄積部は、学習済モデルの更新回数に応じて前記所定の閾値を変更する、
 上記(5)に記載の画像処理装置。
(8)
 前記画像蓄積部は、前記更新回数が所定回数となったタイミングで前記所定の閾値を小さくする、
 上記(7)に記載の画像処理装置。
(9)
 前記画像蓄積部は、前記入力画像及び前記画像重要度を関連付けて保存する、
 上記(1)から(8)のいずれか一つに記載の画像処理装置。
(10)
 前記画像重要度を表示する表示装置をさらに備える、
 上記(1)から(9)のいずれか一つに記載の画像処理装置。
(11)
 前記表示装置は、前記入力画像及び前記画像重要度を表示する、
 上記(10)に記載の画像処理装置。
(12)
 前記表示装置は、前記入力画像に前記画像重要度を重ねて表示する、
 上記(11)に記載の画像処理装置。
(13)
 前記表示装置は、前記画像重要度が所定の閾値を超えたことを示す画像を表示する、
 上記(10)から(12)のいずれか一つに記載の画像処理装置。
(14)
 前記表示装置は、前記画像重要度に応じて前記画像の表示態様を変える、
 上記(13)に記載の画像処理装置。
(15)
 前記表示装置は、前記入力画像に前記画像を重ねて表示する、
 上記(13)又は(14)に記載の画像処理装置。
(16)
 前記表示装置は、前記入力画像、前記画像重要度、及び、前記画像重要度が所定の閾値を超えたことを示す画像を表示する、
 上記(10)に記載の画像処理装置。
(17)
 前記表示装置は、前記画像重要度に応じて前記画像の表示態様を変える、
 上記(16)に記載の画像処理装置。
(18)
 前記表示装置は、前記入力画像に、前記画像重要度及び前記画像を重ねて表示する、
 上記(16)又は(17)に記載の画像処理装置。
(19)
 体内の画像である入力画像から機械学習に関する中間特徴量を抽出することと、
 前記中間特徴量に基づいて前記入力画像の画像重要度を算出することと、
 前記画像重要度に基づいて前記入力画像を保存することと、
を含む画像処理方法。
(20)
 コンピュータに、
 体内の画像である入力画像から機械学習に関する中間特徴量を抽出することと、
 前記中間特徴量に基づいて前記入力画像の画像重要度を算出することと、
 前記画像重要度に基づいて前記入力画像を保存することと、
を実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
(21)
 上記(1)から(18)のいずれか一つに記載の画像処理装置により画像処理を行う画像処理方法。
(22)
 上記(21)に記載の画像処理方法に含まれるステップをコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
(23)
 上記(1)から(18)のいずれか一つに記載の画像処理装置を備える画像処理システム。
 10  画像処理システム
 20  内視鏡
 21  RGBカメラ
 30  学習装置
 31  入出力部
 32  学習部
 32a 特徴量抽出部
 32b 更新部
 33  制御部
 40  画像処理装置
 41  入出力部
 42  認識部
 42a 特徴量抽出部
 42b 重要度算出部
 42c 画像蓄積部
 43  制御部
 50  ストレージ装置
 60  表示装置

Claims (20)

  1.  体内の画像である入力画像から機械学習に関する中間特徴量を抽出する特徴量抽出部と、
     前記中間特徴量に基づいて前記入力画像の画像重要度を算出する重要度算出部と、
     前記画像重要度に基づいて前記入力画像を保存する画像蓄積部と、
    を備える画像処理装置。
  2.  前記重要度算出部は、第1の環境における体内の画像の前記中間特徴量と、前記第1の環境と異なる第2の環境における前記入力画像の前記中間特徴量との差分に基づいて、前記画像重要度を算出する、
     請求項1に記載の画像処理装置。
  3.  前記重要度算出部は、前記差分を所定の変換式により変換して前記画像重要度を算出する、
     請求項2に記載の画像処理装置。
  4.  前記第1の環境は、第1の病院であり、
     前記第2の環境は、前記第1の病院と異なる第2の病院である、
     請求項2に記載の画像処理装置。
  5.  前記画像蓄積部は、前記画像重要度が所定の閾値を超える場合、前記入力画像を保存する、
     請求項1に記載の画像処理装置。
  6.  前記画像蓄積部は、学習済モデルの更新タイミングで前記所定の閾値を変更する、
     請求項5に記載の画像処理装置。
  7.  前記画像蓄積部は、学習済モデルの更新回数に応じて前記所定の閾値を変更する、
     請求項5に記載の画像処理装置。
  8.  前記画像蓄積部は、前記更新回数が所定回数となったタイミングで前記所定の閾値を小さくする、
     請求項7に記載の画像処理装置。
  9.  前記画像蓄積部は、前記入力画像及び前記画像重要度を関連付けて保存する、
     請求項1に記載の画像処理装置。
  10.  前記画像重要度を表示する表示装置をさらに備える、
     請求項1に記載の画像処理装置。
  11.  前記表示装置は、前記入力画像及び前記画像重要度を表示する、
     請求項10に記載の画像処理装置。
  12.  前記表示装置は、前記入力画像に前記画像重要度を重ねて表示する、
     請求項11に記載の画像処理装置。
  13.  前記表示装置は、前記画像重要度が所定の閾値を超えたことを示す画像を表示する、
     請求項10に記載の画像処理装置。
  14.  前記表示装置は、前記画像重要度に応じて前記画像の表示態様を変える、
     請求項13に記載の画像処理装置。
  15.  前記表示装置は、前記入力画像に前記画像を重ねて表示する、
     請求項13に記載の画像処理装置。
  16.  前記表示装置は、前記入力画像、前記画像重要度、及び、前記画像重要度が所定の閾値を超えたことを示す画像を表示する、
     請求項10に記載の画像処理装置。
  17.  前記表示装置は、前記画像重要度に応じて前記画像の表示態様を変える、
     請求項16に記載の画像処理装置。
  18.  前記表示装置は、前記入力画像に、前記画像重要度及び前記画像を重ねて表示する、
     請求項16に記載の画像処理装置。
  19.  体内の画像である入力画像から機械学習に関する中間特徴量を抽出することと、
     前記中間特徴量に基づいて前記入力画像の画像重要度を算出することと、
     前記画像重要度に基づいて前記入力画像を保存することと、
    を含む画像処理方法。
  20.  コンピュータに、
     体内の画像である入力画像から機械学習に関する中間特徴量を抽出することと、
     前記中間特徴量に基づいて前記入力画像の画像重要度を算出することと、
     前記画像重要度に基づいて前記入力画像を保存することと、
    を実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
PCT/JP2022/005246 2021-05-26 2022-02-10 画像処理装置、画像処理方法及び記録媒体 WO2022249572A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021-088335 2021-05-26
JP2021088335 2021-05-26

Publications (1)

Publication Number Publication Date
WO2022249572A1 true WO2022249572A1 (ja) 2022-12-01

Family

ID=84229777

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/005246 WO2022249572A1 (ja) 2021-05-26 2022-02-10 画像処理装置、画像処理方法及び記録媒体

Country Status (1)

Country Link
WO (1) WO2022249572A1 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017167834A (ja) * 2016-03-16 2017-09-21 セコム株式会社 学習データ選択装置
JP2019159499A (ja) * 2018-03-08 2019-09-19 株式会社Jvcケンウッド 学習用データ作成装置、学習用モデル作成システム、学習用データ作成方法、及びプログラム
WO2020012872A1 (ja) * 2018-07-09 2020-01-16 富士フイルム株式会社 医用画像処理装置、医用画像処理システム、医用画像処理方法、及びプログラム
WO2020022027A1 (ja) * 2018-07-26 2020-01-30 富士フイルム株式会社 学習装置及び学習方法
WO2020031851A1 (ja) * 2018-08-08 2020-02-13 富士フイルム株式会社 画像処理方法及び画像処理装置
JP2021029979A (ja) * 2019-08-29 2021-03-01 国立研究開発法人国立がん研究センター 教師データ生成装置、教師データ生成プログラム及び教師データ生成方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017167834A (ja) * 2016-03-16 2017-09-21 セコム株式会社 学習データ選択装置
JP2019159499A (ja) * 2018-03-08 2019-09-19 株式会社Jvcケンウッド 学習用データ作成装置、学習用モデル作成システム、学習用データ作成方法、及びプログラム
WO2020012872A1 (ja) * 2018-07-09 2020-01-16 富士フイルム株式会社 医用画像処理装置、医用画像処理システム、医用画像処理方法、及びプログラム
WO2020022027A1 (ja) * 2018-07-26 2020-01-30 富士フイルム株式会社 学習装置及び学習方法
WO2020031851A1 (ja) * 2018-08-08 2020-02-13 富士フイルム株式会社 画像処理方法及び画像処理装置
JP2021029979A (ja) * 2019-08-29 2021-03-01 国立研究開発法人国立がん研究センター 教師データ生成装置、教師データ生成プログラム及び教師データ生成方法

Similar Documents

Publication Publication Date Title
US11123150B2 (en) Information processing apparatus, assistance system, and information processing method
US11503201B2 (en) Focus detection device and method
US11004197B2 (en) Medical image processing apparatus, medical image processing method, and program
WO2020045015A1 (ja) 医療システム、情報処理装置及び情報処理方法
CN110913744B (zh) 手术系统、控制方法、手术装置和程序
US11653824B2 (en) Medical observation system and medical observation device
US20230308628A1 (en) Medical imaging system, medical imaging device, and operation method
US11394942B2 (en) Video signal processing apparatus, video signal processing method, and image-capturing apparatus
US11699215B2 (en) Imaging device, method and program for producing images of a scene having an extended depth of field with good contrast
JP7063321B2 (ja) 撮像装置、映像信号処理装置および映像信号処理方法
WO2018173605A1 (ja) 手術用制御装置、制御方法、手術システム、およびプログラム
WO2022249572A1 (ja) 画像処理装置、画像処理方法及び記録媒体
US20230047294A1 (en) Medical image generation apparatus, medical image generation method, and medical image generation program
US11676242B2 (en) Image processing apparatus and image processing method
JP7140113B2 (ja) 内視鏡
US20210235968A1 (en) Medical system, information processing apparatus, and information processing method
US20220022728A1 (en) Medical system, information processing device, and information processing method
WO2018179875A1 (ja) 撮像装置とフォーカス制御方法およびフォーカス判定方法
US20230397801A1 (en) Medical imaging system, medical imaging device, and operation method
US20230248231A1 (en) Medical system, information processing apparatus, and information processing method
WO2022239339A1 (ja) 医療用情報処理装置、医療用観察システム及び医療用情報処理方法
US20240016364A1 (en) Surgery system, surgery control device, control method, and program
US20210304419A1 (en) Medical system, information processing apparatus, and information processing method
CN114650763A (zh) 信息处理装置、生成方法和生成程序
JP2020525055A (ja) 医療撮影システム、方法及びコンピュータプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22810856

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 18559415

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 22810856

Country of ref document: EP

Kind code of ref document: A1