WO2022024559A1 - 医療支援システム及び医療支援方法、並びにコンピュータプログラム - Google Patents

医療支援システム及び医療支援方法、並びにコンピュータプログラム Download PDF

Info

Publication number
WO2022024559A1
WO2022024559A1 PCT/JP2021/022041 JP2021022041W WO2022024559A1 WO 2022024559 A1 WO2022024559 A1 WO 2022024559A1 JP 2021022041 W JP2021022041 W JP 2021022041W WO 2022024559 A1 WO2022024559 A1 WO 2022024559A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
information
unit
medical
support system
Prior art date
Application number
PCT/JP2021/022041
Other languages
English (en)
French (fr)
Inventor
健二 鈴木
容平 黒田
大輔 長尾
加奈 松浦
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Priority to US18/005,661 priority Critical patent/US20230282345A1/en
Priority to EP21851465.1A priority patent/EP4191606A4/en
Publication of WO2022024559A1 publication Critical patent/WO2022024559A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H40/00ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
    • G16H40/60ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the operation of medical equipment or devices
    • G16H40/63ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the operation of medical equipment or devices for local operation
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B34/00Computer-aided surgery; Manipulators or robots specially adapted for use in surgery
    • A61B34/30Surgical robots
    • A61B34/32Surgical robots operating autonomously
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B90/00Instruments, implements or accessories specially adapted for surgery or diagnosis and not covered by any of the groups A61B1/00 - A61B50/00, e.g. for luxation treatment or for protecting wound edges
    • A61B90/36Image-producing devices or illumination devices not otherwise provided for
    • A61B90/361Image-producing devices, e.g. surgical cameras
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/40ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to mechanical, radiation or invasive therapies, e.g. surgery, laser therapy, dialysis or acupuncture
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images
    • G16H30/20ICT specially adapted for the handling or processing of medical images for handling medical images, e.g. DICOM, HL7 or PACS
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images
    • G16H30/40ICT specially adapted for the handling or processing of medical images for processing medical images, e.g. editing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H40/00ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
    • G16H40/60ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the operation of medical equipment or devices
    • G16H40/67ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the operation of medical equipment or devices for remote operation
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B17/00Surgical instruments, devices or methods, e.g. tourniquets
    • A61B2017/00017Electrical control of surgical instruments
    • A61B2017/00216Electrical control of surgical instruments with eye tracking or head position tracking control
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B34/00Computer-aided surgery; Manipulators or robots specially adapted for use in surgery
    • A61B34/20Surgical navigation systems; Devices for tracking or guiding surgical instruments, e.g. for frameless stereotaxis
    • A61B2034/2046Tracking techniques
    • A61B2034/2048Tracking techniques using an accelerometer or inertia sensor
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B34/00Computer-aided surgery; Manipulators or robots specially adapted for use in surgery
    • A61B34/20Surgical navigation systems; Devices for tracking or guiding surgical instruments, e.g. for frameless stereotaxis
    • A61B2034/2046Tracking techniques
    • A61B2034/2059Mechanical position encoders
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B34/00Computer-aided surgery; Manipulators or robots specially adapted for use in surgery
    • A61B34/20Surgical navigation systems; Devices for tracking or guiding surgical instruments, e.g. for frameless stereotaxis
    • A61B2034/2046Tracking techniques
    • A61B2034/2065Tracking using image or pattern recognition
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B90/00Instruments, implements or accessories specially adapted for surgery or diagnosis and not covered by any of the groups A61B1/00 - A61B50/00, e.g. for luxation treatment or for protecting wound edges
    • A61B90/36Image-producing devices or illumination devices not otherwise provided for
    • A61B2090/364Correlation of different images or relation of image positions in respect to the body
    • A61B2090/365Correlation of different images or relation of image positions in respect to the body augmented reality, i.e. correlating a live optical image with another image

Definitions

  • this disclosure relates to a medical support system and a medical support method for supporting medical practice by a doctor, and a computer program.
  • Deep learning is also highly expected in the medical field.
  • an acquisition unit for acquiring medical information, a learning unit for learning a function in a medical information processing device using medical information, and a correct answer by executing a function for evaluating the learning result by the learning unit are known.
  • the evaluation data holding unit that holds the evaluation data of, the evaluation unit that evaluates the learning result acquired by learning based on the evaluation data, and the instruction for applying the learning result of the learning unit to the function are accepted.
  • a proposal has been made for a medical information processing apparatus having a receiving unit and determining whether or not a user can apply a learning result based on a verification result of learning validity (see Patent Document 1).
  • An object of the present disclosure is to provide a medical support system and a medical support method for controlling the movement of an arm supporting a medical device such as an endoscope based on an estimation result by deep learning, and a computer program. ..
  • the first aspect of this disclosure is in the medical support system.
  • Control unit and A recognition unit that recognizes the surgical field environment, A machine learning model that estimates the operation performed by the medical support system based on the recognition result of the recognition unit, and Equipped with
  • the control unit is a medical support system that outputs the judgment basis information regarding the operation estimated by the machine learning model to the information presentation unit.
  • the control unit further includes a calculation unit for calculating the reliability of the estimation result of the machine learning model, and outputs the reliability to the information presentation unit.
  • the arithmetic unit calculates reliability using Bayesian deep learning.
  • the machine learning model estimates a target command for an arm that supports a medical device. Then, the control unit outputs the judgment basis information regarding the target command estimated by the machine learning model to the information presentation unit. The control unit outputs information about the gaze area and / or the recognized target unit that was gazed at when estimating the target command. The control unit outputs a heat map image showing a gaze area and / or a recognized target part that was gazed at when estimating the target command. The control unit outputs the heat map image generated based on the Grad-Cam algorithm.
  • the second aspect of this disclosure is the medical support method in the medical support system.
  • a recognition step that recognizes the surgical field environment,
  • An estimation step in which the machine learning model estimates the operation performed by the medical support system based on the recognition result in the recognition step, and an estimation step.
  • a third aspect of the present disclosure is a computer program described in a computer-readable format for executing medical support processing in a medical support system on a computer, wherein the computer program refers to the computer.
  • Recognition unit that recognizes the surgical field environment
  • An estimation unit that estimates the operation performed by the medical support system based on the recognition result in the recognition step by a machine learning model.
  • An output unit that outputs the judgment basis information regarding the operation estimated by the machine learning model to the information presentation unit, It is a computer program that functions as.
  • the computer program according to the third aspect of the present disclosure defines a computer program described in a computer-readable format so as to realize a predetermined process on the computer.
  • a collaborative action is exerted on the computer, and the same action as the medical support system according to the first aspect of the present disclosure. The effect can be obtained.
  • FIG. 1 is a diagram showing a configuration example of an endoscopic surgery system 100 to which a medical robot device can be applied.
  • FIG. 2 is a diagram showing a configuration example of a control system 200 that controls the operation of the medical robot device 120.
  • FIG. 3 is a diagram showing a functional configuration example of the camera head 112.
  • FIG. 4 is a diagram showing a functional configuration example of the medical robot device 120.
  • FIG. 5 is a diagram showing a configuration example of a control system 200 using a neural network model.
  • FIG. 6 is a diagram showing another configuration example of the control system 200 using the neural network model.
  • FIG. 7 is a diagram showing a configuration example of a control system 700 that presents a judgment basis for motion prediction.
  • FIG. 1 is a diagram showing a configuration example of an endoscopic surgery system 100 to which a medical robot device can be applied.
  • FIG. 2 is a diagram showing a configuration example of a control system 200 that controls the operation of the medical robot device 120.
  • FIG. 3 is
  • FIG. 8 is a diagram showing an example of a monitor image of the surgical field.
  • FIG. 9 is a diagram showing a heat map image presented with respect to the monitor image shown in FIG.
  • FIG. 10 is a diagram showing an example of an image presenting information related to a target command.
  • FIG. 11 is a diagram showing an example of an image that presents an explanation of reliability.
  • FIG. 12 is a diagram showing another example of an image that presents an explanation of reliability.
  • FIG. 13 is a flowchart showing a processing procedure for presenting a judgment basis for motion prediction in the control system 700.
  • FIG. 14 is a diagram showing a configuration example of a control system 1400 that presents a judgment basis for motion prediction.
  • FIG. 15 is a flowchart showing a processing procedure for presenting a judgment basis for motion prediction in the control system 1400.
  • FIG. 16 is a diagram showing a display mode in which the surgical field image by the endoscope 110 and the presentation image of the judgment basis are simultaneously displayed.
  • FIG. 17 is an enlarged view of the heat map image 1611 in FIG.
  • FIG. 18 is an enlarged view of the heat map image 1612 in FIG.
  • FIG. 19 is a diagram showing a procedure when performing surgery using the endoscopic surgery system 1000.
  • FIG. 20 is a flowchart showing an operation procedure in the endoscopic surgery system 1000 at the time of surgery.
  • FIG. 21 is a diagram showing a procedure for re-learning the learner.
  • FIG. 22 is a flowchart showing an operation procedure for re-learning the learner.
  • FIG. 23 is a diagram showing a procedure for performing autonomous learning of the learner.
  • FIG. 24 is a flowchart showing an operation procedure for performing autonomous learning of the learner.
  • the image area related to the judgment basis can be displayed as a heat map on the image captured by the endoscope, for example, by Grad-Cam, which is one of the algorithms of XAI (Explainable AI).
  • the deep-learned neural network model inputs input images to the medical robot device (or images captured by the endoscope), motion information of the medical robot device (including the self-position of the camera), operation information, and sensor information.
  • the information related to the target command value to the medical robot device is calculated.
  • Grad-Cam can explicitly indicate which part of the input image the neural network model focused on to output the target command-related information, for example, by displaying a heat map of the underlying image area. ..
  • the judgment basis also includes, for example, the data set used for training the machine learning model or the analytical information necessary for improving the machine learning model and debugging the performance.
  • the basis for judgment may also be a prediction and a score indicating how much a factor affects the final result.
  • the judgment basis may be, for example, information for analyzing the cause for a certain result.
  • the latter uncertainty in deep learning can be divided into uncertainty caused mainly by noise and uncertainty caused by lack of data.
  • Basian deep learning it is possible to evaluate the uncertainty of the estimation result by the neural network, that is, how well the medical robot device is likely to move and process based on the target command related information output by the neural network model. can.
  • doctors perform endoscopic surgery while confirming whether the medical robot device is controlled without any difference from their own judgment by presenting the judgment basis of the medical robot device and its uncertainty and reliability. It can be carried out.
  • FIG. 1 schematically shows a configuration example of the endoscopic surgery system 100 to which the medical robot device according to the present disclosure can be applied.
  • FIG. 1 shows a surgeon (doctor) 101 performing surgery on a patient 103 on a surgical bed 102 using an endoscopic surgery system 100.
  • the endoscopic surgery system 100 includes an endoscope 110, a medical robot device 120 that supports the endoscope 110, a group of medical instruments 130 other than the endoscope 110, and various devices for endoscopic surgery. It is equipped with a cart 140 to be mounted.
  • the medical robot device 120 is basically a multi-link structure in which a plurality of links are connected by joint axes.
  • the medical robot device 120 supports the endoscope 110 at its tip.
  • the medical robot device 120 can control the posture of the endoscope 110 with, for example, four degrees of freedom or more, secures a sufficient operating range of the endoscope during surgery, supports various handicrafts, and is an operator. It has a degree of freedom structure that can avoid interference with 101.
  • the devices mounted on the cart 140 include a CCU (Camera Control Unit) 141, a light source device 142, a robot arm control device 143, an input device 144, a treatment tool control device 145, a vapor membrane device 146, a recorder 147, a printer 148, and a display device. 149 and the like can be mentioned.
  • the type of device mounted on the cart 140 can be appropriately changed according to the type of medical instrument used for endoscopic surgery.
  • the image of the surgical site in the body cavity of the patient 103 taken by the endoscope 110 is displayed on the display device 149.
  • the surgeon 101 performs a procedure such as excising the surgical site using medical instruments 131, 132, ... While viewing the image of the surgical site displayed on the display device 149 in real time.
  • some of the medical instruments 131, 132, ... may be supported by an assistant (not shown) instead of the surgeon.
  • the endoscope 110 is composed of a lens barrel 111 inserted into the body cavity of the patient 103 at the tip and a camera head 112 connected to the base end of the lens barrel 111.
  • the lens barrel 111 is assumed to be a rigid mirror having a structure, but may be a flexible mirror made of a flexible lens barrel.
  • An optical system and an image sensor are arranged in the camera head 112.
  • the reflected light (observation light) from the observation target such as the surgical site is imaged on the image sensor by the optical system.
  • the image pickup device photoelectrically converts the observation light, generates an image signal corresponding to the observation image, and transmits the image signal to the CCU 141.
  • the camera head 112 is equipped with a function of driving an optical system to adjust the magnification and the focal length. Further, a plurality of image pickup elements may be arranged on the camera head 112 for stereoscopic viewing (3D display). In this case, a plurality of relay optical systems for guiding the observation light to each of the plurality of image pickup elements are arranged inside the lens barrel 111.
  • the CCU 141 is composed of a CPU (Central Processing Unit), a GPU (Graphics Processing Unit), etc., controls the camera head 112 of the endoscope 110, processes the captured image in the abdominal cavity taken by the endoscope 110, and performs the processing.
  • the camera head 112 is controlled to perform signal processing on the acquired pixel signal, and the screen display of the captured image of the endoscope 110 by the display device 149 is controlled. ..
  • the CCU 141 performs development processing such as demosaic processing and various image processing for displaying an image on the image signal received from the camera head 112, and outputs the image signal to the display device 141.
  • the CCU 141 includes an image recognizer composed of a neural network model trained by deep learning, and recognizes and recognizes an object or environment in the field of view of the endoscope 110 from an image processed image. Information is output. Further, the CCU 141 transmits a control signal regarding the adjustment of the magnification and the focal length and the imaging conditions to the camera head 112.
  • the display device 149 displays the captured image of the endoscope 110 whose image processing has been performed by the CCU 141. It is preferable to use a display device 149 having an appropriate resolution and screen size according to the application.
  • the endoscope 110 supports high-resolution shooting such as 4K (horizontal pixel number 3840 x vertical pixel number 2160) or 8K (horizontal pixel number 7680 x vertical pixel number 4320), or supports 3D display.
  • a display device 149 corresponding to a high resolution of 4K or 8K for example, having a screen size of 55 inches or more, it is possible to give an observer such as an operator 101 a more immersive feeling.
  • the light source device 142 is composed of a light source such as an LED (Light Emitting Diode) or a laser, and supplies illumination light for photographing the surgical site to the endoscope 110.
  • a light source such as an LED (Light Emitting Diode) or a laser
  • the robot arm control device 143 is composed of, for example, a processor such as a CPU and its local memory, and controls the operation of the camera head 112 and the medical robot device 120.
  • the robot arm control device 143 controls the drive of the robot arm of the medical robot device 120 according to a predetermined control method such as position control or force control.
  • the medical robot device 120 has a multi-link structure in which a plurality of links are connected by each joint axis and an endoscope 110 is mounted at the tip thereof, and at least a part of the joint axes is an active axis driven by an actuator.
  • the robot arm control device 143 supplies a drive signal to the actuator for driving each joint.
  • the robot arm control device 143 includes a motion predictor composed of a neural network model learned by deep learning, and is a camera to be controlled based on the recognition information recognized by the image recognizer (described above).
  • the target command value for the head 112 and the medical robot device 120 is predicted and output.
  • the target command value is a value indicating a control amount for a controlled object.
  • the camera work of the endoscope 110 (camera target position, posture, speed, acceleration, gaze point, line-of-sight vector (object position, object position,) Distance, vector posture)), predicted image captured by the endoscope 110 (including the electronic cutting position of the captured image), predicted movement of the robot arm of the medical robot device 120 (target position, posture of the device supported by the robot arm, Contains information about speed, acceleration, operating force, etc.).
  • the image recognition and motion prediction are integrated to End to End (E2E).
  • E2E End to End
  • the input device 144 is an input interface for the endoscopic surgery system 100.
  • a user for example, an operator, a doctor, an assistant, etc.
  • the user inputs various information related to the surgery, such as physical information of the patient and information about the surgery, via the input device 144.
  • the user for example, an operator, a doctor, an assistant, etc.
  • the imaging conditions type of irradiation light, magnification, focal length, etc.
  • Settings drive instructions for energy treatment tools, etc. are entered.
  • the judgment basis, uncertainty or reliability of the neural network model for estimating the operation of the robot arm of the medical robot device 120 is presented, but the user uses the input device 144 according to the presented contents. Instructions to the medical robot device 120 can be input via the device.
  • the type of input device 144 is not limited.
  • the input device 144 may be, for example, a mouse, a keyboard, a touch panel, a switch, a lever (none of which is shown), a foot switch 144a, or the like.
  • the touch panel is superimposed on the screen of the display device 149, for example, and the user can perform an input operation on the captured image of the endoscope 110 displayed on the screen, for example.
  • a head-mounted display or various types of wearable devices may be used to input information according to the user's line of sight or gesture.
  • the input device 144 may include a master device of the medical robot device 120.
  • the input device 144 may include a microphone that picks up the voice of the user, and may input a voice command from the user.
  • a device capable of inputting information in a non-contact manner to the input device 144 a user in a clean area in the operating room can operate the device placed in the unclean area in a non-contact manner, and the user possesses it. Information can be input without taking your hands off the medical instruments 131, 132, ....
  • the treatment tool control device 145 controls the drive of the energy treatment tool for cauterization of tissue, incision, sealing of blood vessels, and the like.
  • the vapor membrane device 146 sends gas into the body cavity of the patient 103 through the undulating tube to inflate the body cavity for the purpose of securing the field of view by the endoscope 110 and securing the work space of the operator.
  • the recorder 147 is composed of a large-capacity recording device such as an SSD (Solid State Drive) or an HDD (Hard Disk Drive), and is used for recording various information related to surgery.
  • the printer 148 is a device for printing data such as characters, images, and figures on paper, and is used for printing information related to surgery.
  • the treatment tool control device 145 and the pneumoperitoneum device 146 operate based on instructions from the operator 101 or the assistant via the input device 144, for example, but operate based on the control signal from the robot arm control device 143. You may.
  • FIG. 2 schematically shows a configuration example of a control system 200 that controls the operation of the medical robot device 120 in the endoscopic surgery system 100.
  • Image processing includes signal processing such as development processing, high image quality processing (band coordination processing, super-resolution processing, NR (Noise Reduction) processing, image stabilization processing, etc.), and enlargement processing (electronic zoom processing). .. Further, the image processing unit 212 performs detection processing on the image signal for performing AE (Auto Exposure), AF (Auto Focus), and AWB (Auto White Balance).
  • AE Auto Exposure
  • AF Auto Focus
  • AWB Auto White Balance
  • the CCU 141 is composed of, for example, a processor such as a CPU or GPU and its local memory, and executes the above-mentioned image processing and detection processing by executing a predetermined program loaded into the local memory by the processor. Further, when the image processing unit 212 is composed of a plurality of GPUs, the information regarding the image signal may be appropriately divided and the image processing may be performed in parallel by the plurality of GPUs.
  • the CCU 141 receives the captured image of the surgical site by the endoscope 110 from the camera head 112, and also receives the motion information of the robot arm and the sensor information of the robot arm from the medical robot device 120 to receive the motion information of the robot arm and the sensor information of the robot arm of the endoscope 110.
  • the medical device included in the captured image and the environment in the field of view of the endoscope 110 are image-recognized, and the device recognition information and the environment recognition information are output.
  • the instrument recognition information includes the type of medical instrument recognized in the field of view of the endoscope 110 (for example, forceps, pneumoperitoneum tube, energy treatment instrument, sword, retractor, etc.), the position and posture of each instrument, and the operating state (for example).
  • the environmental recognition information includes depth information, environmental map information, spatial arrangement information of organs and instruments, materials of each object (organ or metal, etc.), and information indicating the environment of the surgical field. It should be noted that the CCU 141 does not necessarily have to output two types of recognition information, the instrument recognition information and the environment recognition information, as the image recognition result, and may be divided into three or more types of recognition information and output, or all recognition. The results may be collectively output as one recognition information.
  • the robot arm control device 143 supplies information related to the target control command to the CCU 141 and the medical robot device 120.
  • Multiple types of target command values, such as the joint angle and joint angular velocity of each joint of the robot arm that supports the above, are collectively referred to as target command-related information.
  • the robot arm control device 143 receives target commands such as the joint angle and joint angle speed of each joint of the robot arm based on the instrument recognition information and the environment recognition information obtained by image recognition of the image captured by the endoscope 110 by the CCU 141.
  • the target command related information including the value is calculated, and the control signal is output to the medical robot device 120. Further, the robot arm control device 143 controls the drive of the camera head 112 by calculating target command related information including target command values such as magnification and focus of the captured image based on the device recognition information and the environment recognition information. Is generated and output to CCU 141. When a user (for example, a surgeon, a doctor, an assistant, etc.) inputs an imaging condition via the input device 144, the robot arm control device 143 may use the medical robot device 120 or the camera head based on the user input. Generate a control signal to 112.
  • the robot arm control device 143 When the endoscope 110 is equipped with an AE function, an AF function, and an AWB function, the robot arm control device 143 has an optimum exposure value, focal length, and white balance based on the result of detection processing by the CCU 141. Is calculated, and the control signals for AE, AF, and AWB for the camera head 112 are output to the CCU 141.
  • the medical robot device 120 operates the robot arm based on the control signal from the robot arm control device 143, and also obtains motion information of the robot arm and sensor information detected by a sensor mounted on the medical robot device 120. Output to the arm control device 143. Further, the camera head 112 receives the control signal from the robot arm control device 143 via the CCU 141, and outputs the captured image of the surgical site taken by the endoscope 110 to the CCU 141.
  • the CCU 141 displays the captured image of the endoscope 110 on the display device 149. Further, the control unit 213 generates surgical support information based on the image recognition result as described above, and superimposes the surgical support information when displaying the image of the surgical unit captured by the endoscope 110 on the display device 149. It may be displayed. The surgeon 101 can proceed with the surgery more safely and surely based on the surgery support information presented together with the image of the surgical site. According to the present disclosure, as the surgical support information, the judgment basis when the medical robot device 120 is automatically operated and the information regarding the uncertainty or reliability of the data used for the automatic operation are presented, and the details of this point are presented. Will be given later.
  • FIG. 3 shows an example of the internal configuration of the camera head 112.
  • the camera head 112 includes a lens unit 301, an image pickup unit 302, a drive unit 303, and a camera head control unit 305.
  • the lens unit 301 is an optical system arranged at a connection portion with the lens barrel 111.
  • the observation light taken in from the tip of the lens barrel 111 is guided to the camera head 112 and incident on the lens unit 301.
  • the lens unit 301 is configured by combining a plurality of optical lenses including a zoom lens and a focus lens.
  • the optical characteristics of the lens unit 301 are adjusted so that the incident light is imaged on the light receiving surface of the image pickup element of the image pickup unit 302. Further, the position of the zoom lens and the focus lens on the optical axis can be moved in order to adjust the magnification and the focus of the captured image.
  • the image pickup unit 302 has a light receiving element and is arranged after the lens unit 301.
  • the light receiving element may be, for example, an image pickup device such as a CMOS (Complementary Metal Oxide Semiconductor), a sensor for ToF (Time Of Flight), or the like.
  • the image pickup unit 302 may be arranged immediately after the objective lens inside the lens barrel 111 instead of inside the camera head 112.
  • the image pickup unit 302 photoelectrically converts the observation light imaged on the light receiving surface of the learning element by the lens unit 301, generates a pixel signal corresponding to the observation image, and outputs the pixel signal to the communication unit 303.
  • the light receiving element has a resolution of, for example, 4K (horizontal number of pixels 3840 x vertical pixel number 2160), 8K (horizontal pixel number 7680 x vertical pixel number 4320), or square 4K (horizontal pixel number 3840 or more x vertical pixel number 3840 or more).
  • An image pickup element having a corresponding number of pixels may be used.
  • the surgeon 101 can see the state of the surgical site in high definition on the screen of the display device 149. It can be grasped by the image, and the operation can proceed more smoothly.
  • the image pickup unit 302 may be configured by a pair of image pickup elements so as to correspond to 3D display. By performing the 3D display, the surgeon 101 can more accurately grasp the depth of the biological tissue in the surgical site, and the surgery can proceed more smoothly.
  • the drive unit 303 is composed of an actuator, and under the control of the camera head control unit 305, the zoom lens and focus lens of the lens unit 301 are moved by a predetermined distance in the optical axis direction, and the magnification of the image captured by the image pickup unit 302 is obtained. And adjust the focus.
  • the communication unit 304 is composed of a communication device that transmits and receives various information between the CCU 141 and the robot arm control device 143.
  • the communication unit 304 is used to transmit the image signal obtained from the image pickup unit 302 to the CCU 141 via the transmission cable 311.
  • the communication unit 304 performs optical communication.
  • the communication unit 304 includes an optical conversion module, converts an electric signal into an optical signal, and transmits the electric signal to the CCU 141 via a transmission cable (optical fiber) 311.
  • the communication unit 304 receives a control signal for controlling the drive of the camera head 112 from the robot arm control device 143 side via the transmission cable 312, and supplies the control signal to the camera head control unit 305.
  • the control signal includes information on the frame rate of the captured image, information on the exposure at the time of imaging, and information on the magnification and focus of the captured image.
  • the functions of AE, AF, and AWB may be mounted on the endoscope 110. In this case, imaging conditions such as frame rate, exposure value, magnification, and focus may be automatically set by the robot arm control device 143 via CCU 141.
  • the camera head control unit 305 controls the drive of the camera head 112 based on the control signal received from the CCU 141 via the communication unit 304. For example, the camera head control unit 305 controls the drive of the image sensor of the image pickup unit 302 based on a control signal that specifies a frame rate and an exposure value. Further, the camera head control unit 305 adjusts the positions of the zoom lens and the focus lens of the lens unit 301 in the optical axis direction via the drive unit 303 based on the control signal that specifies the magnification and the focus of the captured image. Further, the camera head control unit 305 may have a function of storing information for identifying the lens barrel 111 and the camera head 112.
  • the transmission cable 311 connecting the camera head 112 and the CCU 141 may be an electric signal cable compatible with electric signal communication, an optical fiber compatible with optical communication, or a composite cable thereof.
  • the camera head 112 and the CCU 141 may be connected wirelessly instead of using a wired cable.
  • FIG. 4 schematically shows an example of a functional configuration of the medical robot device 120.
  • the medical robot device 120 is, for example, a robot arm composed of a multi-link structure having 6 or more degrees of freedom.
  • This robot arm has a structure that supports the endoscope 110 at the tip end portion.
  • the tip of the robot arm may be provided with, for example, a structure in which orthogonal rotation axes having three degrees of freedom that determine the posture of the endoscope 110 are centrally arranged.
  • the functions of the medical robot device 120 are abstracted, and the joints connecting the links are classified into two types, an active joint portion 410 and a passive joint portion 420, and are composed of a sensor portion 440. ..
  • the active joint portion 410 includes an actuator 411 such as a rotary motor that drives the joint, a torque sensor 412 that detects the torque acting on the joint, and an encoder 413 that measures the rotation angle of the joint. Further, the passive joint portion 420 includes an encoder 421 that measures the joint angle.
  • the sensor unit 430 includes various sensors arranged other than the joint portion, such as an IMU (Inertial Measurement Unit) and a contact sensor that detects a contact force acting on a medical device attached to the tip of a robot arm.
  • IMU Inertial Measurement Unit
  • the robot arm control device 143 generates a target motion of the medical robot device 120 based on the recognition information output from the CCU 141 and the user's instruction input via the input device 144, and determines predetermined movements such as position control and force control.
  • the drive of the medical robot device 120 is controlled according to the control method of. Specifically, the robot arm control device 143 calculates the control amount of the actuator 411 of the active joint portion 410 according to a predetermined control method, and supplies the drive signal.
  • the robot arm control device 143 is composed of, for example, a processor such as a CPU and its local memory, and executes a predetermined program loaded by the processor into the local memory.
  • the robot arm control device 143 and the medical robot device 120 may be an electric signal cable corresponding to electric signal communication, an optical fiber corresponding to optical communication, or a composite cable thereof. Further, it may be included in the transmission cable 311 described above. Further, the robot arm control device 143 and the medical robot device 120 may be wirelessly connected instead of a wired cable.
  • FIG. 5 shows a configuration example of a control system 200 using a neural network model.
  • CCU 141 uses an image recognizer 501 made of a neural network model trained by deep learning to perform image recognition of an image captured by the surgical site by the endoscope 110.
  • the image recognizer 501 also receives the motion information of the robot arm and the sensor information of the robot arm from the medical robot device 120 as input data at the time of image recognition.
  • the motion information of the robot arm input to the image recognizer 501 includes the position, speed, acceleration, and the posture of each joint of the robot arm (the position, speed, acceleration, and posture of each joint of the robot arm such as the endoscope 110 supported by the robot arm at the tip. Contains information on the joint angle) measured by an encoder installed on the axis of rotation of the joint.
  • the sensor information of the robot arm input to the image recognizer includes information such as acceleration measured by the IMU mounted on the medical robot device 120, torque information acting on each joint, and support by the tip of the robot arm. It contains information such as the external force acting on the medical device to be used.
  • the image recognizer 501 image-recognizes the medical device included in the captured image of the endoscope 110 and the environment in the field of view of the endoscope 110, and outputs the device recognition information and the environment recognition information. ..
  • the image recognizer 501 uses the type of medical device recognized in the field of view of the endoscope 110 (for example, forceps, abdominal tube, energy treatment tool, sword, retractor, etc.), the position of each device, and the position of each device as device recognition information. It recognizes the posture and operation state (for example, the open / closed state for forceps and the energy output state for energy treatment tools).
  • the image recognizer 501 provides environment recognition information such as depth information (including the shape of the organ or instrument) of an organ or medical instrument included in the captured image in the field of view of the endoscope 110, and the environment in the surgical site. It recognizes a map (for example, creating an environmental map using SLAM (Simultaneus Localization and Mapping) technology), the type of organ, the type of medical equipment, the material of each object contained in the captured image, and the like. Further, the image recognizer 501 recognizes, for example, each object such as an organ or a medical instrument included in the image of the surgical site, a material thereof, depth information of each object, and an environmental map as environment recognition information.
  • environment recognition information such as depth information (including the shape of the organ or instrument) of an organ or medical instrument included in the captured image in the field of view of the endoscope 110, and the environment in the surgical site. It recognizes a map (for example, creating an environmental map using SLAM (Simultaneus Localization and Mapping) technology), the
  • the image recognizer 501 does not necessarily have to output two types of recognition information, that is, device recognition information and environment recognition information, as an image recognition result, and may output the recognition information by dividing it into three or more types of recognition information. All recognition results may be collectively output as one recognition information.
  • the robot arm control device 143 uses a motion predictor 502 composed of a neural network model learned by deep learning, and is based on the recognition information of the instrument recognition information and the environment recognition information output from the CCU 141.
  • the target command related information for the medical robot device 120 is predicted and output.
  • the motion predictor 502 uses, for example, the camera target position, posture, velocity, acceleration, gaze point, line-of-sight vector (object position, distance, vector posture) of the endoscope 110, and the electronic cutting position of the captured image as information related to the target command. , Predict various target command values such as distance.
  • the motion predictor 502 When the medical robot device 120 supports a medical device other than the endoscope 110 at the tip, the motion predictor 502 provides the target position, posture, speed, acceleration, and operating force of the device as target command-related information. Predict.
  • the robot arm control device 143 calculates the inverse kinematics based on the information of the target position, posture, speed, and acceleration of the medical device supported by the tip of the robot arm such as the endoscope 110 predicted by the motion predictor 502. Calculates the target joint angle, joint angular velocity, and joint angular acceleration of each joint of the robot arm, and outputs a command value for the medical robot device 120.
  • the E2E neural network integrates image recognition and motion prediction as shown in FIG. It may be configured as a predictor 601 composed of a network model.
  • FIG. 7 shows a configuration example of a control system 700 in which the image recognizer 501 and the motion predictor 502 are each configured by an individual neural network model, and the basis for determining the motion prediction by the neural network model is presented.
  • the image recognizer 501 and the motion predictor 502 may be collectively referred to as a "learner".
  • the control system 700 incorporates an attention information presentation unit 701 and a reliability presentation unit 702.
  • the attention information presentation unit 701 presents, for example, information about an object of interest when the neural network model estimates target command-related information.
  • the attention information presentation unit 701 presents information on a medical device of interest such as a gripper (Grasper) or scissors (Scissors) used for surgery. Further, the reliability presentation unit 702 determines the reliability of how likely the medical robot device 120 is likely to move based on the target command-related information output by the neural network model, and determines the accuracy of the determination result and the solution. A statistical score showing the certainty (accuracy) of the variance showing the variation is presented.
  • the attention information presentation unit 701 and the reliability presentation unit 702 will be described.
  • the attention information presentation unit 701 presents the information of interest when the motion predictor 502 determines the target command related information among the images input to the control system 700.
  • the image input to the control system 700 is, specifically, a surgical field image taken with an endoscope.
  • the attention information presentation unit 701 uses a Grad-Cam (Gradient-weighted Class Activation Mapping) that visualizes the basis of judgment in an image classification problem, and a LIMIT algorithm (Local Interpretable Model-agnosticEx) that interprets a machine learning model. Therefore, the image recognizer 501 presents the information of interest when estimating the device recognition information and the environment recognition information.
  • Grad-Cam Grad-Cam
  • LIMIT algorithm Lical Interpretable Model-agnosticEx
  • Grad-Cam is known as a technology that visualizes and displays a heat map of the information that is the basis for the judgment of a deep-learned neural network model.
  • the attention information presentation unit 701 to which Grad-Cam is applied focuses on which part of the image or which object in the image from the input image, the robot motion information, and the robot sensor information, and the target command related information. Is output or estimated, and the heat map is displayed.
  • the principle of operation of Grad-Cam is to visualize the information that is the basis of judgment by displaying the place where the input gradient is large with respect to the final layer of the target convolutional neural network (CNN) (in this case, motion predictor 502). ..
  • the flow of Grad-Cam processing is to read the input data, read the model, predict the input image class, calculate the loss of the prediction class, calculate the back propagation to the final convolution layer, and calculate the weight of each channel in the final convolution layer. It consists of (calculating the gradient for each channel by Global Average Polling, which is an average process).
  • the gradient y c of the class c is the feature map activation A k
  • the weight ⁇ c k of the importance of the neuron is given by the following equation (1).
  • the output of the forward propagation of the final convolution layer is multiplied by the weight for each channel, and the Grad-Cam is calculated as shown in the following equation (2) through the activation function ReLU.
  • FIG. 8 illustrates a monitor image of the surgical field.
  • the monitor image of the surgical field is an image electronically cut out from the image captured by the endoscope 110.
  • the entire monitor image or the captured image of the endoscope 110 becomes an input image to the control system 700.
  • FIG. 9 illustrates an image showing a heat map of a portion of interest when the control system 700 outputs target command-related information, which is presented by the attention information presentation unit 701 to which Grad-Cam is applied. ..
  • the monitor image shown in FIG. 8 is an image captured by the endoscope 110 or a surgical field image displayed on the display device 149.
  • FIG. 9 is an image having a wider angle of view than the surgical field image of FIG.
  • the wide angle of view image may be an image taken by zooming out in the same line-of-sight direction as the surgical field image of FIG. 8 with the endoscope 110, but it is an environmental image recognized by the image recognizer 501 using SLAM technology or the like. You may.
  • the doctor can observe the surgical site in detail from the surgical field image shown in FIG. 8, and can grasp the basis of the target command for the medical robot device 120 by the control system 700 from the wide angle of view image shown in FIG. 9 from a bird's-eye view. Can be done.
  • the gazing point that the motion predictor 502 gazed at when outputting the target command, and medical instruments such as the gripping tool "Grasper” and the scissors “Scissors” recognized by the image recognizer 501. Is displayed on the heat map.
  • the meta information of each object of interest is displayed in characters, or emphasized by using the size and color of the characters to present the attention information.
  • the presentation image of the attention information as shown in FIG. 9 is displayed on the display device 149 together with the captured image of the endoscope 110 shown in FIG.
  • the display form is arbitrary.
  • a region for displaying the presented image of the attention image is provided in a format such as PinP (Picture-in-Picture), and the image of the endoscope 110 is captured.
  • the image and the presentation image of the attention information may be displayed at the same time.
  • the captured image of the endoscope 110 and the presented image of the attention information may be switched and alternately displayed on the screen.
  • a sub-display that displays the presentation image of the attention information may be added.
  • the surgeon or the doctor visually observes (that is,) which information the control system 700 focuses on to output the target command-related information for the medical robot device 120 based on the wide angle image shown in FIG.
  • the operation can be smoothly performed while confirming that the operation of the medical robot device 120 is not different from the judgment of oneself.
  • the attention information presentation unit 701 may present the information of interest when the control system 700 determines the target command-related information by using a technique other than the Grad-Cam, such as LIME. Further, the attention information presentation unit 701 may present the attention information in a display format other than the heat map, or may present the long information in combination with other output formats such as the heat map display and voice guidance. good.
  • the reliability presentation unit 702 presents information explaining the reliability such as how correctly the medical robot device 120 is likely to move based on the target command-related information output by the motion predictor 702. Specifically, the reliability presentation unit 702 indicates the lack of data, the degree of influence, the unknown environment / condition, and the accuracy of the prediction result when the motion predictor 502 outputs the target command-related information for the medical robot device 120. Numerical values indicating the certainty (accuracy) such as the dispersion indicating the variation of the solution and the numerical value indicating the certainty (accuracy) are presented as data explaining the uncertainty or reliability of the information related to the target command. The reliability presentation unit 702 estimates the uncertainty or reliability of the target command-related information using, for example, Bayesian DNN (Deep Neural Network), and the details of this point will be described later.
  • Bayesian DNN Deep Neural Network
  • FIG. 10 illustrates an image that presents information related to a target command to the medical robot device 120, which is presented by the reliability presentation unit 702.
  • FIG. 10 is an image having a wider angle of view than the surgical field image of FIG.
  • the wide angle of view image may be an image taken by zooming out in the same line-of-sight direction as the surgical field image of FIG. 8 with the endoscope 110, but it is an environmental image recognized by the image recognizer 501 using SLAM technology or the like. You may.
  • the current display position of the endoscope image indicated by reference numeral 1001 image taken by the endoscope 110 supported by the current position of the arm of the robot device 120).
  • the electronic cut-out position of the image or the captured image) and the next display position indicated by the reference number 1002 are displayed at the same time.
  • the next display position 1002 is an image captured by the endoscope 110 at a position where the arm of the medical robot device 120 is operated based on the target command-related information.
  • the doctor can observe the surgical site in detail from the surgical field image shown in FIG. 8, and the medical robot device according to the target command related information output from the control system 700 based on the presented image of the target command related information shown in FIG.
  • the operation can be smoothly performed while confirming that the surgical site image displayed when the 120 is operated is not different from the judgment of oneself.
  • FIG. 11 shows another example of an image presented by the reliability presentation unit 702 that presents an explanation of the uncertainty or reliability of the target command-related information to the medical robot device 120.
  • FIG. 11 is an image having a wider angle of view than the surgical field image of FIG. 8 (same as above).
  • the arm of the medical robot device 120 is operated based on each candidate.
  • the captured images 1101, 1102, 1103 of the endoscope 110 are displayed together with the accuracy (50%, 40%, 10%) of each candidate.
  • the heat map as shown in FIG. 9 may be superimposed and displayed. The doctor can observe the surgical site in detail from the surgical field image shown in FIG.
  • the operation can be smoothly performed while confirming that the surgical site image displayed when the medical robot device 120 is operated according to any candidate is not different from the judgment of oneself.
  • the doctor may check an image that presents an explanation of uncertainty or reliability as shown in FIG. 11 so that one of the candidates can be selected or corrected by a voice command.
  • an image presenting an explanation of uncertainty or reliability as shown in FIG. 11 may be displayed on the touch panel so that the doctor can select or correct any candidate by touching the screen. ..
  • FIG. 12 shows still another example of an image presented by the reliability presentation unit 702 that presents an explanation of the uncertainty or reliability of the target command-related information to the medical robot device 120.
  • the motion predictor 502 outputs three patterns of target command-related information candidates, but the probability of judgment and the data of each candidate shown by reference numbers 1201 to 1203.
  • the degree of influence is plotted on the graph.
  • the total of the judgment probabilities of each candidate 1201 to 1203 is 1.
  • the first candidate 1201 has the maximum judgment probability of 0.5, but the degree of influence of the data is large, in other words, the variation due to lack of data is large.
  • the second candidate 1202 has a judgment probability of 0.4, which is lower than that of the first candidate 1201, but the degree of influence of the data is small, in other words, the variation in the data due to lack of data is small.
  • the third candidate 1203 has the lowest judgment probability of 0.1 and has a large influence of data.
  • the attention information presentation unit 701 may estimate the information that the motion predictor 502 pays attention to when determining the target command-related information by using the trained neural network model. Further, the reliability presentation unit 702 may estimate the uncertainty or reliability of the target command-related information output by the motion predictor 702 using a trained neural network model.
  • the neural network used by the attention information presentation unit 701 and the reliability presentation unit 702 may be a neural network independent of the image recognizer 501 and the motion predictor 502, or the image recognizer 501 and the motion predictor 502. It may be a neural network incorporating at least some neurons.
  • FIG. 7 a configuration example of the control system 700 in which the attention information presentation unit 701 and the reliability presentation unit 702 are configured as individual functional modules is shown, but the attention information presentation unit 701 and the reliability presentation unit 702 are combined. It can also be configured as one functional module.
  • the attention information presentation unit 701 and the reliability presentation unit 702 can be configured as a neural network model of E2E.
  • the former accidental uncertainty is due to noise due to the observing environment, etc., not due to lack of data.
  • a hidden and invisible image corresponds to accidental uncertainty.
  • the mouth of the masked person's face is hidden by the mask in the first place, so it cannot be observed as data.
  • Speaking of surgical field images it is not possible to observe a part of the organ hidden by the surgical tool as data.
  • the uncertainty in the latter recognition represents the uncertainty due to lack of data. Given that there is sufficient data, the uncertainty in recognition can be improved.
  • Bayesian deep learning consists of a combination of Bayesian inference and deep learning. By using Bayesian inference, it is possible to evaluate uncertainty because it is possible to understand how the estimation results vary.
  • Bayesian deep learning is a method of estimating from the results of variance obtained in inference using dropouts in deep learning learning.
  • Dropout is a technique used to reduce overfitting by randomly reducing the number of neurons in each layer.
  • the loss function in Bayesian deep learning is given by Eq. (3) below.
  • Non-Patent Document 2 For the detailed mathematical theory of the above formula, refer to, for example, Non-Patent Document 2.
  • the values obtained by training are not deterministic and can be calculated by combining the posterior distribution of weights with dropouts. With multiple dropout coefficients, the variance of the posterior distribution can be estimated from the variability that generated multiple outputs.
  • Bayesian deep learning uses dropouts not only during learning but also during inference to sample from the weight distribution (Montecult dropout). By repeating the inference many times for the same input, the uncertainty of the inference result can be obtained.
  • the network learned using the dropout has a structure in which some neurons are missing.
  • the input data for learning in the control system 700 shown in FIG. 7 is input images, robot motion information, and robot sensor information.
  • Bayesian deep learning can show the uncertainty or reliability of the inference result by the above calculation.
  • a large output variance means that the model has high uncertainty (or low reliability) due to lack of data or prediction limits.
  • FIG. 13 shows a processing procedure in the form of a flowchart for presenting a judgment basis for motion prediction by a neural network model to a doctor or the like in the control system 700 shown in FIG. 7.
  • the captured image of the endoscope 110, the motion information of the robot, and the sensor information of the robot are input to the control system 700 (step S1301).
  • the image recognizer 501 recognizes an image based on the data input in step S1301 using the trained neural network model, and outputs the instrument recognition information and the environment recognition information (step S1302).
  • the attention information presentation unit 701 visualizes the basis of the judgment when the neural network model used in the image recognizer 501 estimates the instrument recognition information and the environment recognition information by the Grad-Cam algorithm, and displays the heat map. (Step S1303).
  • the motion predictor 502 relates to a target command to the medical robot device 120 based on the recognition information of the instrument recognition information and the environment recognition information output from the image recognizer 501 by using the trained neural network model. Information is predicted and output (step S1304).
  • the reliability presentation unit 702 provides information explaining how the medical robot device 120 is likely to move correctly based on the target command-related information output by the neural network model used in the motion predictor 502 by the Bayesian DNN. Present (step S1305).
  • the reliability presentation unit 702 displays numerical values indicating data shortage, unknown environment / conditions, dispersion and accuracy of prediction results, etc. when the motion predictor 502 outputs target command related information to the medical robot device 120. , Present as data explaining the uncertainty or reliability of the target command related information.
  • step S1306 the operation of the arm of the medical robot device 120 is controlled (step S1306).
  • the arm of the medical robot device 120 is driven by the control signal based on the target command-related information output by the motion predictor 502.
  • the medical robot device 120 is based on the instruction. Operate the arm of.
  • FIG. 14 shows a configuration example of a control system 1400 that integrates image recognition and motion prediction, uses an E2E predictor composed of an E2E neural network model, and presents the basis for determining motion prediction by the neural network model. ..
  • the E2E predictor may be referred to as a learner.
  • the control system 1400 incorporates an attention information presentation unit 1401 and a reliability presentation unit 1402.
  • the attention information presentation unit 1401 presents the information that the E2E predictor 601 pays attention to when determining the target command related information.
  • the image input to the control system 700 is, specifically, a surgical field image taken with an endoscope.
  • the attention information presentation unit 701 presents the information of interest when the image recognizer 501 estimates the instrument recognition information and the environment recognition information by using an algorithm such as Grad-Cam that visualizes the judgment basis in the image classification problem.
  • the Grad-Cam is as described above.
  • the attention information presentation unit 1401 presents attention information in the form shown in FIG. 9 for the input image as shown in FIG. 8, for example. Therefore, based on the wide-angle image shown in FIG. 9, the doctor visually observes which information the control system 700 focuses on to output the target command-related information for the medical robot device 120 (that is, the control system 700). (By collaborative work with), the operation can be smoothly performed while confirming that the operation of the medical robot device 120 is not different from the judgment of oneself.
  • the reliability presentation unit 1402 is a numerical value indicating a lack of data when the E2E predictor 601 outputs target command related information to the medical robot device 120, unknown environment / conditions, variance and accuracy of prediction results, and the like. Is estimated using, for example, Basian DNN.
  • the Bayesian DNN has already been described.
  • the reliability presentation unit 1402 presents an explanation of the uncertainty or reliability of the target command-related information to the medical robot device 120 in the form shown in any one of FIGS. 10 to 12.
  • the doctor can observe the surgical site in detail from the surgical field image shown in FIG. 8, and the target command output from the control system 700 based on the explanatory presentation image of the uncertainty or reliability shown in FIGS. 11 and 12.
  • the operation can be smoothly performed while confirming that the surgical site image displayed when the medical robot device 120 is operated according to the related information is not different from the judgment of oneself.
  • FIG. 15 shows a processing procedure in the form of a flowchart for presenting a judgment basis for motion prediction by a neural network model to a doctor or the like in the control system 1400 shown in FIG.
  • the captured image of the endoscope 110, the motion information of the robot, and the sensor information of the robot are input to the control system 1400 (step S1501).
  • the E2E predictor 601 predicts and outputs information related to the target command to the medical robot device 120 based on the data input in step S1501 using the trained neural network model (step S1502).
  • the attention information presentation unit 1401 visualizes the basis of the judgment when the neural network model used in the E2E predictor 601 estimates the target command related information by the Grad-Cam algorithm, and displays the heat map (step S1503).
  • the reliability presentation unit 1402 explains how the medical robot device 120 is likely to move correctly based on the target command-related information output by the neural network model used in the E2E predictor 601 by the Bayesian DNN. Is presented (step S1504).
  • the reliability presentation unit 702 displays numerical values indicating data shortage, unknown environment / conditions, dispersion and accuracy of prediction results, etc. when the motion predictor 502 outputs target command related information to the medical robot device 120. , Present as data explaining the uncertainty or reliability of the target command related information.
  • step S1505 the operation of the arm of the medical robot device 120 is controlled (step S1505).
  • step S1505 the arm of the medical robot device 120 is driven by the control signal based on the target command-related information output by the motion predictor 502.
  • the medical robot device 120 is based on the instruction. Operate the arm of.
  • E-4 Example of presentation of judgment basis
  • the doctor sees the surgical field image taken by the endoscope 110 and the image showing the judgment basis of the target command related information of the medical robot device 120 output by the control system 700 (or 1400).
  • the operation can be smoothly performed while confirming that the operation of the medical robot device 120 is not different from the judgment of oneself.
  • the form of presenting the basis for judgment is arbitrary. However, it is preferable that the doctor can confirm the surgical field image and the judgment basis at the same time during the operation.
  • an area for displaying the presentation image of the judgment basis is provided in a format such as PinP, and the surgical field image by the endoscope 110 is provided.
  • the presentation image of the judgment basis may be displayed at the same time.
  • one screen may be used to switch between the surgical field image by the endoscope 110 and the presentation image of the judgment basis and display them alternately.
  • a sub-display that displays the presentation image of the attention information may be added.
  • FIG. 16 shows an example of a display form in which the surgical field image by the endoscope 110 and the presentation image of the judgment basis are simultaneously displayed using one screen.
  • the main surgery image display unit 1601 that displays the surgical field image by the endoscope 110 and the information presentation unit that presents information on the basis for determining the target command-related information to the medical robot device 120 in the screen 1600. 1602 is provided.
  • the surgical field image electronically cut out from the image taken by the endoscope 110 at the current position is displayed on the main surgical image display unit 1601.
  • the information presentation unit 1602 has an uncertainty in motion prediction generated by the heat map image generated by the attention information presentation unit 701 (or 1401), the reliability presentation unit 702 (or 1402), and the reliability presentation unit 702.
  • An image showing the nature (lack of data, unknown environment / conditions, dispersion and accuracy of prediction results, etc.) or reliability is displayed.
  • the attention information presentation unit 701 may generate a plurality of types of heat map images showing the attention information. Further, the reliability presentation unit 702 may generate a plurality of types of presentation images showing lack of data in motion prediction, unknown environment / conditions, variance and accuracy of prediction results, and the like. Then, a plurality of types of heat map images and an uncertainty or reliability presentation image may be presented to the information presentation unit 1602 at the same time.
  • a heat map image 1611 showing a heat map of an instrument (Grasper, Scissors) and an environment (organs (Liver), etc.) recognized by the image recognizer 501, and a plurality of gaze points to be watched at the time of motion prediction are displayed.
  • FIGS. 17 and 18 show enlarged heat map images 1611 and heat map images 1612, respectively. Further, for the explanatory presentation image 1621 of uncertainty or reliability, refer to FIG. 12 and the above description.
  • the doctor can accurately check whether the operation of the medical robot device 120 is different from his / her judgment in a short time.
  • the surgery can be performed smoothly while confirming.
  • FIG. 19 schematically shows a procedure when a doctor performs endoscopic surgery using the endoscopic surgery system 100 to which the present disclosure is applied. Further, FIG. 20 shows an operation procedure in the endoscopic surgery system 100 at the time of surgery in the form of a flowchart.
  • the surgical field image obtained by the endoscope 110 is displayed on the main surgical image display monitor 1901, and information on the basis for determining the target command-related information to the medical robot device 120 is presented on the information presentation monitor 1902. did.
  • the information presentation monitor 1902 includes cases handled by the learning device (image recognizer 501 and motion predictor 502, or E2E predictor 601) in the control system 700 (or 1400). The number and the number of training data may also be displayed.
  • the doctor sees the surgical field image displayed on the main surgery image display monitor 1901 and the judgment basis displayed on the information presentation monitor 1902 (step S2001), and the control system 700 (or 1400) uses the neural network model. It is confirmed whether or not the predicted operation of the medical robot device 120 is different from the judgment of oneself (step S2002).
  • the motion predictor 502 (or E2E predictor 601) is used.
  • the operation of the medical robot device 120 based on the output target command-related information is suitable for the doctor's intention. Therefore, without receiving correction instructions from a doctor.
  • the operation of the arm of the medical robot device 120 is controlled as it is (step S2004).
  • step S2002 when the doctor confirms that the judgment basis presented on the information presentation monitor 1902 is different from his / her judgment (No in step S2002), the doctor uses the input device 144 to use the information presentation monitor 1902.
  • the judgment basis displayed in is corrected (step S2003).
  • the doctor manually (for example, via the UI) instructs the heat map image displayed on the information presentation monitor 1902 as a basis for judgment to change the position of the heat map of the image-recognized device, environment, and gaze point. do.
  • the doctor can instruct the correction of the judgment basis by using the input device 144, for example, by touch operation or voice on the screen of the information presentation monitor 1902. Further, the doctor may use the master device of the medical robot device 120 to directly correct the operation of the arm of the medical robot device 120.
  • the motion predictor 502 (or E2E predictor 601) corrects and outputs the target command-related information based on the judgment basis instructed by the doctor, and the medical robot device.
  • the operation of the arm of 120 is controlled (step S2004).
  • control system 700 When the doctor gives an instruction to correct the judgment basis, the control system 700 (or 1400) follows the correction instruction from the doctor and uses the learning device (image recognizer 501 and motion predictor 502, or E2E predictor 602). Reinforcement learning may be performed. Alternatively, the control system 700 (or 1400) may modify the target command on a rule basis in response to the modification instruction from the doctor.
  • learning device image recognizer 501 and motion predictor 502, or E2E predictor 602
  • Reinforcement learning may be performed.
  • the control system 700 (or 1400) may modify the target command on a rule basis in response to the modification instruction from the doctor.
  • the line-of-sight direction and the field of view of the endoscope 110 supported by the tip thereof are changed, and the position where the surgical field image is electronically cut out from the image captured by the endoscope 110 moves. Then, the surgical field image after the angle of view is moved is displayed on the main surgical image display monitor 1901 (step S2005).
  • the doctor observes a new surgical field image displayed on the main surgery video display monitor 1901. Further, the control system 700 (or 1400) predicts the movement of the arm of the medical robot device 120 based on the captured image of the endoscope 110 after the movement and the motion information and the sensor information output from the medical robot device 120. And, the presentation of the judgment basis of the prediction to the information presentation monitor 1902 is repeatedly executed.
  • the doctor confirms that the operation of the medical robot device 120 is not different from his / her own judgment, and when it is different from his / her own judgment, he / she manually instructs the correction to perform the operation smoothly. It can be carried out.
  • the judgment basis of the learner (image recognizer 501 and motion predictor 502 or E2E predictor 601) used by the control system 700 (or 1400) is different from the judgment of the doctor.
  • FIG. 21 schematically shows a procedure for re-learning the learner in the control system 700 (or 1400).
  • FIG. 22 shows an operation procedure for re-learning the learner in the control system 700 (or 1400) in the form of a flowchart.
  • step S2201 when a doctor performs endoscopic surgery using the endoscopic surgery system 100 to which the present disclosure is applied, the operation data of the medical robot device 120 is sequentially accumulated (step S2201).
  • the operation data referred to here consists of a combination of input data and output data to the learner and the judgment of the doctor.
  • the input data to the learner includes an image captured by the endoscope 110, robot motion information, and robot sensor information.
  • the output data from the learning device is information related to the target command of the medical robot device 120 predicted by the learning device.
  • the doctor's judgment includes information on the doctor's instruction (whether or not there is a correction instruction, the content of the correction of the judgment basis) for presenting the judgment basis of the learning device.
  • step S2202 when the trigger for re-learning of the learner occurs (Yes in step S2202), the learner is updated by re-learning using the accumulated operation data (step S2203).
  • the trigger for re-learning is an arbitrary event. For example, when the accumulated motion data reaches a certain amount, or when an operator such as a doctor instructs relearning, the relearning may be triggered.
  • control system 700 (or 1400) is operated by the learner updated by re-learning (step S2204), and the operation of the endoscopic surgery system 100 is continued.
  • the operation of the medical robot device 120 that does not differ from the doctor's judgment is realized in the process of performing the operation while the doctor confirms the difference between the operation of the medical robot device 120 and his / her own judgment.
  • the learning device can be relearned as it does.
  • FIG. 23 schematically shows a procedure in the case of performing autonomous learning of the learner in the control system 700 (or 1400). Further, FIG. 24 shows an operation procedure for performing autonomous learning of the learner in the control system 700 (or 1400) in the form of a flowchart.
  • operation data or operation data of the medical robot device 120 is sequentially accumulated (step). S2401).
  • the operation data referred to here consists of a combination of input data and output data to the learner and the judgment of the doctor.
  • the input data to the learner includes an image captured by the endoscope 110, robot motion information, and robot sensor information.
  • the output data from the learning device is information related to the target command of the medical robot device 120 predicted by the learning device.
  • the doctor's judgment includes information on the doctor's instruction (whether or not there is a correction instruction, the content of the correction of the judgment basis) for presenting the judgment basis of the learning device.
  • the Bayesian DNN verifies whether the data of the learner is insufficient (step S2402).
  • the Bayesian DNN recognizes the data shortage of the learner (Yes in step S2403), data is added from the database to make up for the data shortage (step S2404), and the learner is relearned.
  • Update the learner step S2405). That is, in this operation procedure, the estimation result by the Bayesian DNN triggers the re-learning.
  • the database may be an external database.
  • control system 700 (or 1400) is operated by the learner updated by re-learning (step S2406), and the operation of the endoscopic surgery system 100 is continued.
  • the operation of the medical robot device 120 that does not differ from the doctor's judgment is realized.
  • the learning device can learn autonomously.
  • the medical robot device 120 may perform motion prediction or learning of motion and operation prediction by reinforcement learning.
  • the present specification has mainly described embodiments in which the present disclosure is applied to a medical robot device that supports an endoscope, the gist of the present disclosure is not limited to this.
  • Medical robot devices that support medical instruments other than endoscopes, such as forceps, abdominal tubes, energy treatment tools, squirrels, and retractors, and information presentation and operation instructions that do not use support tools.
  • the present disclosure can be applied to the robot device to be performed, and the judgment basis, uncertainty or reliability of the estimation result by deep learning can be presented.
  • Control unit and A recognition unit that recognizes the surgical field environment A machine learning model that estimates the operation performed by the medical support system based on the recognition result of the recognition unit, and Equipped with The control unit is a medical support system that outputs the judgment basis information regarding the operation estimated by the machine learning model to the information presentation unit.
  • the control unit further includes a calculation unit for calculating the reliability of the estimation result of the machine learning model, and outputs the reliability to the information presentation unit.
  • the machine learning model estimates a target command for an arm supporting a medical device and estimates the target command.
  • the control unit outputs the judgment basis information regarding the target command estimated by the machine learning model to the information presentation unit.
  • the calculation unit calculates the reliability using Bayesian deep learning.
  • the control unit outputs information about the gaze area and / or the recognized target unit that was gazed at when estimating the target command.
  • the control unit relearns the machine learning model based on the response data of the user.
  • the control unit outputs a heat map image showing a gaze area and / or a recognized target part that was gazed at when estimating the target command.
  • the medical device is an endoscope.
  • the control unit outputs the heat map image having a wider angle of view than the monitor image of the endoscope.
  • the control unit outputs the heat map image generated based on the Grad-Cam algorithm.
  • the medical support system according to any one of (7) and (8) above.
  • the control unit relies on a numerical value indicating at least one of data shortage, unknown environment or condition, variance or accuracy of prediction result when the machine learning model estimates the operation of the medical support system. Calculated as a degree, The medical support system according to any one of (2) and (4) above.
  • the control unit calculates each reliability for a plurality of candidates for the operation of the medical support system estimated by the machine learning model.
  • the medical support system according to any one of (2) and (4) above.
  • the medical device is an endoscope.
  • the information presenting unit presents the judgment basis information in the screen displaying the surgical field image taken by the endoscope.
  • an input unit for receiving an instruction from the user for the judgment basis information presented by the information presentation unit is provided.
  • the control unit controls the machine learning model to estimate the operation of the medical support system based on the judgment basis information corrected via the input unit.
  • the medical support system according to any one of (1) to (12) above.
  • a recognition step that recognizes the surgical field environment An estimation step in which the machine learning model estimates the operation performed by the medical support system based on the recognition result in the recognition step, and an estimation step.
  • the computer program In a computer program described in a computer-readable format so that medical support processing in a medical support system is executed on a computer, the computer program refers to the computer.
  • Recognition unit that recognizes the surgical field environment
  • An estimation unit that estimates the operation performed by the medical support system based on the recognition result in the recognition step by a machine learning model.
  • An output unit that outputs the judgment basis information regarding the operation estimated by the machine learning model to the information presentation unit,
  • a computer program that functions as.
  • Communication unit 310 ... Passive joint unit, 311 ... Encoder, 320 ... Active joint part 321 ... Actuator, 322 ... Torque sensor, 323 ... Encoder 330 ... Passive slide mechanism, 331 ... Sensor, 340 ... Sensor part 410 ... Active joint part, 411 ... Actuator, 412 ... Torque sensor 413 ... Encoder, 420 ... Passive joint, 421 ... Encoder 501 ... Image recognizer, 502 ... Motion predictor, 601 ... E2E predictor 700 ... Control system, 701 ... Attention information presentation unit 702 ... Reliability presentation unit 1400 ... Control system, 1401 ... Attention Information presentation unit 1402 ... Reliability presentation unit

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Surgery (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Radiology & Medical Imaging (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Molecular Biology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Veterinary Medicine (AREA)
  • Urology & Nephrology (AREA)
  • Robotics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Pathology (AREA)
  • Endoscopes (AREA)
  • Manipulator (AREA)

Abstract

医師による医療行為を支援する医療支援システムを提供する。 医療支援システムは、制御部と、術野環境を認識する認識部と、 前記認識部の認識結果に基づいて前記医療支援システムが行う動作を推定する機械学習モデルを具備する。前記制御部は、前記機械学習モデルが推定した前記動作に関する判断根拠情報を情報提示部に出力する。前記制御部は、さらに、前記機械学習モデルの推定結果に関する信頼度を算出する演算部をさらに備え、前記情報提示部に前記信頼度を出力する。

Description

医療支援システム及び医療支援方法、並びにコンピュータプログラム
 本明細書で開示する技術(以下、「本開示」とする)は、医師による医療行為を支援する医療支援システム及び医療支援方法、並びにコンピュータプログラムに関する。
 ディープラーニングの進化により、人間を超える高精度の推論が実現されている。医療分野でもディープラーニングは非常に期待されている。例えば、医用情報を取得する取得部と、医用情報を用いて医用情報処理装置内の機能に対し学習を行う学習部と、学習部による学習結果を評価するための、機能の実行による正解が既知の評価用データを保持する評価用データ保持部と、評価用データに基づいて、学習により取得された学習結果を評価する評価部と、学習部の学習結果を機能に適用するための指示を受け付ける受け付け部を備え、学習の妥当性の検証結果に基づいてユーザが学習結果の適用の可否を判断する医用情報処理装置について提案がなされている(特許文献1を参照のこと)。
 本開示の目的は、例えば内視鏡などの医療用器具を支持するアームの動作を、ディープラーニングによる推定結果に基づいて制御する医療支援システム及び医療支援方法、並びにコンピュータプログラムを提供することにある。
 本開示の第1の側面は、医療支援システムにおいて、
 制御部と、
 術野環境を認識する認識部と、
 前記認識部の認識結果に基づいて前記医療支援システムが行う動作を推定する機械学習モデルと、
を具備し、
 前記制御部は、前記機械学習モデルが推定した前記動作に関する判断根拠情報を情報提示部に出力する、医療支援システムである。
 前記制御部は、さらに、前記機械学習モデルの推定結果に関する信頼度を算出する演算部をさらに備え、前記情報提示部に前記信頼度を出力する。前記演算部は、ベイジアンディープラーニングを用いて信頼度を算出する。
 前記機械学習モデルは、医療用器具を支持するアームに対する目標指令を推定する。そして、前記制御部は、前記機械学習モデルが推定した前記目標指令に関する判断根拠情報を情報提示部に出力する。前記制御部は、前記目標指令を推定する際に注視した注視領域、及び/又は、認識した対象部に関する情報を出力する。前記制御部は、前記目標指令を推定する際に注視した注視領域、及び/又は、認識した対象部を示すヒートマップ画像を出力する。前記制御部は、Grad-Camアルゴリズムに基づいて生成した前記ヒートマップ画像を出力する。
 また、本開示の第2の側面は、医療支援システムにおける医療支援方法おいて、
 術野環境を認識する認識ステップと、
 前記認識ステップにおける認識結果に基づいて前記医療支援システムが行う動作を機械学習モデルが推定する推定ステップと、
 前記機械学習モデルが推定した前記動作に関する判断根拠情報を情報提示部に出力するステップと、
を有する医療支援方法である。
 また、本開示の第3の側面は、医療支援システムにおける医療支援の処理をコンピュータ上で実行するようにコンピュータ可読形式で記述されたコンピュータプログラムにおいて、前記コンピュータプログラムは前記コンピュータを、
 術野環境を認識する認識部、
 前記認識ステップにおける認識結果に基づいて前記医療支援システムが行う動作を機械学習モデルにより推定する推定部、
 前記機械学習モデルが推定した前記動作に関する判断根拠情報を情報提示部に出力する出力部、
として機能させる、コンピュータプログラムである。
 本開示の第3の側面に係るコンピュータプログラムは、コンピュータ上で所定の処理を実現するようにコンピュータ可読形式で記述されたコンピュータプログラムを定義したものである。換言すれば、本開示の第3の側面に係るコンピュータプログラムをコンピュータにインストールすることによって、コンピュータ上では協働的作用が発揮され、本開示の第1の側面に係る医療支援システムと同様の作用効果を得ることができる。
 本開示によれば、例えば内視鏡などの医療用器具を支持するアームの動作を推定する機械学習モデルの判断根拠情報や信頼度を提示する医療するアームの動作を提供することができる。
 なお、本明細書に記載された効果は、あくまでも例示であり、本開示によりもたらされる効果はこれに限定されるものではない。また、本開示が、上記の効果以外に、さらに付加的な効果を奏する場合もある。
 本開示のさらに他の目的、特徴や利点は、後述する実施形態や添付する図面に基づくより詳細な説明によって明らかになるであろう。
図1は、医療ロボット装置が適用され得る内視鏡手術システム100の構成例を示した図である。 図2は、医療ロボット装置120の動作を制御する制御システム200の構成例を示した図である。 図3は、カメラヘッド112の機能的構成例を示した図である。 図4は、医療ロボット装置120の機能的構成例を示した図である。 図5は、ニューラルネットワークモデルを利用した制御システム200の構成例を示した図である。 図6は、ニューラルネットワークモデルを利用した制御システム200の他の構成例を示した図である。 図7は、運動予測の判断根拠を提示する制御システム700の構成例を示した図である。 図8は、術野のモニタ画像の一例を示した図である。 図9は、図8に示したモニタ画像に対して提示されるヒートマップ画像を示した図である。 図10は、目標指令関連情報を提示する画像の例を示した図である。 図11は、信頼度の説明を提示する画像の例を示した図である。 図12は、信頼度の説明を提示する画像の他の例を示した図である。 図13は、制御システム700において運動予測の判断根拠を提示するための処理手順を示したフローチャートである。 図14は、運動予測の判断根拠を提示する制御システム1400の構成例を示した図である。 図15は、制御システム1400において運動予測の判断根拠を提示するための処理手順を示したフローチャートである。 図16は、内視鏡110による術野画像と判断根拠の提示画像を同時に表示する表示形態を示した図である。 図17は、図16中のヒートマップ画像1611を拡大して示した図である。 図18は、図16中のヒートマップ画像1612を拡大して示した図である。 図19は、内視鏡手術システム1000を利用して手術を行う場合の手順を示した図である。 図20は、手術時の内視鏡手術システム1000における動作手順を示したフローチャートである。 図21は、学習器の再学習を行う手順を示した図である。 図22は、学習器の再学習を行う動作手順を示したフローチャートである。 図23は、学習器の自律学習を行う手順を示した図である。 図24は、学習器の自律学習を行う動作手順を示したフローチャートである。
 以下、図面を参照しながら本開示に係る技術について、以下の順に従って説明する。
A.概要
B.内視鏡手術システムの構成
C.医療ロボット装置の制御システム
D.ニューラルネットワークモデルを利用した制御システム
E.判断根拠を提示する制御システム
F.医師の判断の反映
G.学習器の再学習
H.学習器の自律学習
A.概要
 例えば、内視鏡手術において、内視鏡の位置や画角などの調整は手術の出来栄えを左右するが、オペレータ(スコピスト)毎にコントロール技術が一定でない。内視鏡を支持する医療ロボット装置に、ディープラーニングによる推論に基づくロボットの動作制御を導入することによって、オペレータの人件費などのコスト削減と、内視鏡のコントロール技術の高精度化、安全性の向上が期待される。一方、ディープラーニングを利用するとき、判断した根拠の正当性を明確にする必要がある。医療ロボット装置の判断の根拠を明らかにすることで、判断の妥当性や医師の判断と相違がないことを確認することができるからである。
 近年では、説明可能な人工知能の研究が盛んになり、判断の根拠を可視化するアルゴリズムや、データの不確実性を明らかにするアルゴリズムが提案されている。本開示によれば、ディープラーニングによる推論に基づいて医療ロボット装置を制御する際に、ディープラーニングによる推論の結果だけでなくその判断の根拠も提示される。また、本開示によれば、ディープラーニングによる推論に基づく医療ロボット装置の制御の不確実性も提示する。ノイズによってディープラーニングによる判断ができないものかを明確にすることができる。
 前者の判断根拠の明示に関しては、XAI(Explainable AI)のアルゴリズムの1つであるGrad-Camによって、例えば内視鏡の撮像画像上で、判断根拠に関する画像領域をヒートマップ表示することができる。ディープラーニングされたニューラルネットワークモデルは、医療ロボット装置への入力画像(又は、内視鏡の撮像画像)、医療ロボット装置のモーション情報(カメラの自己位置を含む)、操作情報やセンサ情報を入力データとして、医療ロボット装置への目標指令値関連情報を計算する。Grad-Camは、ニューラルネットワークモデルが入力画像のどの部分に着目して目標指令関連情報を出力したのかを、例えば根拠となった画像領域をヒートマップ表示するという方法により明示的に示すことができる。ここで、判断根拠とは、例えば、機械学習モデルの学習に用いられたデータセットまたは機械学習モデルを改善してパフォーマンスをデバッグするために必要な分析情報も含む。また、判断根拠は、ある要因が最終結果にどの程度影響するかを示す予測とスコアなであってもよい。判断根拠は、例えば、ある結果に対する原因を分析するための情報であればよい。
 後者のディープラーニングにおける不確実性には、主に、ノイズに起因する不確実性とデータ不足に起因する不確実性に分けることできる。例えばベイジアンディープラーニングによって、ニューラルネットワークによる推定結果の不確実性、すなわちニューラルネットワークモデルが出力した目標指令関連情報に基づいて医療ロボット装置がどれだけ正しく動きそうか、処理できそうかを評価することができる。
 したがって、医師は、医療ロボット装置の判断根拠とその不確実性や信頼度が提示されることにより、自分の判断と相違なく医療ロボット装置が制御されているかどうかを確認しながら内視鏡手術を行うことができる。
B.内視鏡手術システムの構成
 図1には、本開示に係る医療ロボット装置が適用され得る内視鏡手術システム100の構成例を模式的に示している。図1では、術者(医師)101が、内視鏡手術システム100を用いて、手術ベッド102上の患者103に手術を行っている様子を示している。内視鏡手術システム100は、内視鏡110と、内視鏡110を支持する医療ロボット装置120と、内視鏡110以外の医療用器具群130と、内視鏡手術のための各種装置が搭載されるカート140を備えている。
 医療ロボット装置120は、基本的には複数のリンクを関節軸で接続した多リンク構造体である。医療ロボット装置120は、先端部で内視鏡110を支持している。医療ロボット装置120は、内視鏡110の姿勢を例えば4自由度以上で制御可能で、手術中の内視鏡の十分な操作範囲を確保し、多様な手業に対応し、且つ、術者101との干渉を回避することができる自由度構造を備えている。
 カート140に搭載される装置として、CCU(Camera Control Unit)141、光源装置142、ロボットアーム制御装置143、入力装置144、処置具制御装置145、気膜装置146、レコーダ147、プリンタ148、表示装置149などが挙げられる。但し、内視鏡手術に使用される医療用器具の種類に応じてカート140に搭載される装置の種類は適宜変更可能である。
 内視鏡手術では、患者103の腹壁を切って開腹する代わりに、腹壁に穿刺された複数のトロッカー151、152、…を介して、内視鏡110の鏡筒やその他の医療用器具131、132、…が患者103の体腔内に挿入されている。医療用器具131、132、…は、例えば鉗子や気腹チューブ、エネルギー処置具、攝子、レトラクタなどであるが、図1では簡素化して描いている。
 内視鏡110で撮影した患者103の体腔内の術部の画像は、表示装置149に表示される。術者101は、表示装置149に表示された術部の画像をリアルタイムで見ながら、医療用器具131、132、…を用いて術部を切除するなどの処置を行う。また、医療用器具131、132、…のうち一部(例えば、鉗子や気腹チューブ、エネルギー処置具)は、術者ではなく助手(図示しない)が支持する場合もある。
 内視鏡110は、先端の患者103の体腔内に挿入される鏡筒111と、鏡筒111の基端に接続されるカメラヘッド112で構成される。鏡筒111は、構成の鏡筒からなる硬性鏡を想定しているが、軟性の鏡筒からなる軟性鏡であってもよい。カメラヘッド112内には光学系及び撮像素子(いずれも図示しない)が配設されている。術部などの観察対象からの反射光(観察光)は、光学系によって撮像素子に結像される。撮像素子は、観察光を光電変換して、観察像に対応する画像信号を生成して、CCU141に送信する。なお、カメラヘッド112は、光学系を駆動して、倍率及び焦点距離を調整する機能が搭載されている。また、立体視(3D表示)のために、カメラヘッド112に複数の撮像素子が配設されていてもよい。この場合、鏡筒111の内部には、複数の撮像素子にそれぞれ観察光を導光するためのリレー光学系が複数配設される。
 CCU141は、CPU(Central Processing Unit)やGPU(Graphics Processing Unit)などで構成され、内視鏡110のカメラヘッド112の制御と、内視鏡110で撮影された腹腔内の撮像画像の処理と、カメラヘッド112を制御して取得した画素信号に対する信号処理を行い、表示装置149による内視鏡110の撮像画像の画面表示を制御する。。具体的には、CCU141は、カメラヘッド112から受け取った画像信号に対してデモザイクなどの現像処理や画像を表示するための各種の画像処理を実施して、表示装置141に出力する。本実施形態では、CCU141は、ディープラーニングによる学習済みのニューラルネットワークモデルからなる画像認識器を備え、画像処理した撮像画像から、内視鏡110の視野内の物体や環境などを認識して、認識情報を出力するようになっている。また、CCU141は、カメラヘッド112に対して、倍率や焦点距離の調整や撮像条件に関する制御信号を送信する。
 表示装置149は、CCU141によって画像処理が実施された内視鏡110の撮像画像を表示する。用途に応じて適当な解像度や画面サイズからなる表示装置149を用いることが好ましい。例えば、内視鏡110が4K(水平画素数3840×垂直画素数2160)又は8K(水平画素数7680×垂直画素数4320)などの高解像度の撮影に対応し、又は3D表示に対応したものである場合には、表示装置149も高解像度又は3D表示が可能なものを用いることが好ましい。4K又は8Kの高解像度に対応した表示装置149として、例えば55インチ以上の画面サイズを持つものを用いることで、術者101などの観察者に一層の没入感を与えることができる。
 光源装置142は、例えばLED(Light Emitting Diode)やレーザなどの光源で構成され、術部を撮影する際の照明光を内視鏡110に供給する。
 ロボットアーム制御装置143は、例えばCPUなどのプロセッサ及びそのローカルメモリなどで構成され、カメラヘッド112及び医療ロボット装置120の動作を制御する。ロボットアーム制御装置143は、例えば位置制御や力制御などの所定の制御方式に従って医療ロボット装置120のロボットアームの駆動を制御する。医療ロボット装置120は複数のリンクを各関節軸で接続し、先端部に内視鏡110を搭載した多リンク構造であり、関節軸の少なくとも一部はアクチュエータで駆動する能動軸である。ロボットアーム制御装置143は、各関節駆動用のアクチュエータに駆動信号を供給する。
 本実施形態では、ロボットアーム制御装置143は、ディープラーニングによる学習済みのニューラルネットワークモデルからなる運動予測器を備え、画像認識器(前述)により認識された認識情報に基づいて、制御対象であるカメラヘッド112及び医療ロボット装置120に対する目標指令値を予測して出力するようになっている。目標指令値は、制御対象に対する制御量を示す値であるが、具体的には、内視鏡110のカメラワーク(カメラ目標位置、姿勢、速度、加速度、注視点、視線ベクトル(対象物位置、距離、ベクトル姿勢))や内視鏡110が撮像する予測画像(撮像画像の電子切り出し位置を含む)、医療ロボット装置120のロボットアームの予測動作(ロボットアームが支持する器具の目標位置、姿勢、速度、加速度、操作力など)に関する情報を含む。なお、CCU141内の画像認識器のニューラルネットワークモデルとロボットアーム制御装置143内の運動予測器のニューラルネットワークモデルを個別に配置するのではなく、画像認識と運動予測を統合してEnd to End(E2E)のニューラルネットワークモデルとして構成してもよい。また、本開示では、ニューラルネットワークモデルによる判断根拠や不確実性又は信頼度を提示するようになっているが、詳細については後述に譲る。
 入力装置144は、内視鏡手術システム100に対する入力インターフェースである。ユーザ(例えば術者、医師、助手など)は、入力装置144を介して内視鏡システム100に対して各種の情報や指示の入力を行うことができる。例えば、ユーザは、入力装置144を介して、患者の身体情報や手術についての情報など、手術に関する各種の情報を入力する。また、ユーザ(例えば術者、医師、助手など)は、入力装置144を介して、医療ロボット装置120を駆動させる指示や、内視鏡110による撮像条件(照射光の種類、倍率及び焦点距離など)の設定、エネルギー処置具の駆動指示などを入力する。本開示では、医療ロボット装置120のロボットアームの動作を推定するニューラルネットワークモデルの判断根拠や不確実性又は信頼度が提示されるが、ユーザは、提示された内容に応じて、入力装置144を介して医療ロボット装置120に対する指示を入力することができる。
 入力装置144の種類は限定されない。入力装置144は、例えばマウス、キーボード、タッチパネル、スイッチ、レバー(いずれも図示しない)、フットスイッチ144aなどでよい。タッチパネルは、例えば表示装置149の画面に重畳され、ユーザは例えば画面に表示されている内視鏡110の撮像画像に対して入力操作を行うことができる。また、入力装置144として、ヘッドマウントディスプレイやさまざまなタイプのウェアラブルデバイスで、ユーザの視線やジェスチャに応じた情報の入力を行うようにしてもよい。また、入力装置144は、医療ロボット装置120のマスタ装置を備えていてもよい。また、入力装置144は、ユーザの音声を収音するマイクロフォンを備え、ユーザからの音声コマンドを入力するようにしてもよい。入力装置144に非接触で情報入力が可能なデバイスを用いることで、手術室内の清潔域にいるユーザが不潔域に配置された機器を非接触で操作することが可能となり、また、ユーザは所持している医療用器具131、132、…から手を離すことなく情報入力を行うことができる。
 処置具制御装置145は、組織の焼灼、切開、血管の封止などのためのエネルギー処置具の駆動を制御する。気膜装置146は、内視鏡110による視野の確保及び術者の作業空間の確保の目的で、起伏チューブを介して患者103の体腔内にガスを送り込んで体腔を膨らませる。レコーダ147は、例えばSSD(Solid State Drive)やHDD(Hard Disc Drive)などの大容量記録装置からなり、手術に関する各種の情報の記録などに使用される。プリンタ148は、文字や画像、図形などのデータを紙に印刷する装置であり、手術に関する情報を印刷するために使用される。処置具制御装置145及び気腹装置146は、例えば入力装置144を介した術者101や助手からの指示に基づいて動作するが、ロボットアーム制御装置143からの制御信号に基づいて動作するようにしてもよい。
C.医療ロボット装置の制御システム
 図2には、内視鏡手術システム100において、医療ロボット装置120の動作を制御する制御システム200の構成例を模式的に示している。
 CCU141は、カメラヘッド112から送信された画像信号に対して画像処理を施す。画像処理には、例えば現像処理、高画質化処理(帯域協調処理、超解像処理、NR(Noise Reduction)処理、手振れ補正処理など)、拡大処理(電子ズーム処理)などの信号処理が含まれる。また、画像処理部212は、AE(Auto Exposure)、AF(Auto Focus)、AWB(Auto White Balance)を行うための、画像信号に対する検波処理を行う。
 CCU141は、例えばCPUやGPUなどのプロセッサ及びそのローカルメモリなどで構成され、プロセッサがローカルメモリにロードした所定のプログラムを実行することで、上述した画像処理や検波処理を実行する。また、画像処理部212が複数のGPUで構成される場合には、画像信号に関する情報を適宜分割して、複数のGPUによって並列的に画像処理を行うようにしてもよい。
 また、CCU141は、内視鏡110による術部の撮像画像をカメラヘッド112から受信するとともに、医療ロボット装置120からロボットアームのモーション情報とロボットアームのセンサ情報を受信して、内視鏡110の撮像画像に含まれている医療用器具や、内視鏡110の視野内の環境を画像認識して、器具認識情報及び環境認識情報を出力する。器具認識情報は、内視鏡110の視野内で認識された医療用器具の種類(例えば鉗子や気腹チューブ、エネルギー処置具、攝子、レトラクタなど)と各器具の位置及び姿勢、操作状態(例えば鉗子であれば開閉状態、エネルギー処置具であればエネルギー出力状態)などである。また、環境認識情報は、デプス情報や環境地図情報、臓器や器具の空間上の配置情報、各物体の材料(臓器か金属かなど)など、術野の環境を示す情報などである。なお、CCU141は、画像認識結果として必ずしも器具認識情報と環境認識情報の2種類の認識情報を出力する必要はなく、3種類以上の認識情報に分けて出力してもよいし、あるいはすべての認識結果をまとめて1つの認識情報として出力してもよい。
 ロボットアーム制御装置143は、CCU141や医療ロボット装置120に対して目標制御指令関連情報を供給する。なお、本明細書では、例えば内視鏡のカメラ目標位置、姿勢、速度、加速度、注視点、視線ベクトル(対象物位置、距離、ベクトル姿勢)、撮像画像の電子切り出し位置、距離、内視鏡を支持するロボットアームの各関節の関節角度や関節角速度といった、複数の種類の目標指令値をまとめて目標指令関連情報と呼ぶことにする。ロボットアーム制御装置143は、CCU141が内視鏡110の撮像画像を画像認識して得られた器具認識情報及び環境認識情報に基づいて、ロボットアームの各関節の関節角度や関節角速度などの目標指令値を含む目標指令関連情報を計算して、医療ロボット装置120に制御信号を出力する。また、ロボットアーム制御装置143は、器具認識情報及び環境認識情報に基づいて、撮像画像の倍率や焦点などの目標指令値を含む目標指令関連情報を計算して、カメラヘッド112の駆動を制御するための制御信号を生成してCCU141に出力する。ユーザ(例えば術者、医師、助手など)が入力装置144を介して撮像条件を入力している場合には、ロボットアーム制御装置143は、そのユーザ入力に基づいて、医療ロボット装置120やカメラヘッド112への制御信号を生成する。また、内視鏡110にAE機能、AF機能、AWB機能が搭載されている場合には、ロボットアーム制御装置143は、CCU141による検波処理の結果に基づいて最適な露出値、焦点距離及びホワイトバランスを計算して、カメラヘッド112に対するAE、AF、AWBのための制御信号をCCU141に出力する。
 医療ロボット装置120は、ロボットアーム制御装置143からの制御信号に基づいてロボットアームを動作させるとともに、ロボットアームのモーション情報や、医療ロボット装置120に搭載されたセンサによって検出されたセンサ情報を、ロボットアーム制御装置143に出力する。また、カメラヘッド112は、ロボットアーム制御装置143からの制御信号をCCU141経由で受信して、内視鏡110で撮影した術部の撮像画像を、CCU141に出力する。
 CCU141は、内視鏡110の撮像画像を表示装置149に表示させる。また、制御部213は、上記のような画像認識結果に基づく手術支援情報を生成して、内視鏡110で撮像した術部の画像を表示装置149に表示させる際に、手術支援情報を重畳表示するようにしてもよい。術者101は、術部の画像に併せて提示される手術支援情報に基づいて、より安全且つ確実に手術を進めることが可能になる。本開示によれば、手術支援情報として、医療ロボット装置120を自動操作する際の判断根拠と、自動操作に使用したデータの不確実性又は信頼度に関する情報が提示されるが、この点の詳細については後述に譲る。
 図3にはカメラヘッド112の内部構成例を示している。カメラヘッド112は、レンズユニット301と、撮像部302と、駆動部303と、カメラヘッド制御部305を備えている。
 レンズユニット301は、鏡筒111との接続部に配設された光学系である。鏡筒111の先端から取り込まれた観察光は、カメラヘッド112まで導光され、レンズユニット301に入射する。レンズユニット301は、ズームレンズ及びフォーカスレンズを含む複数の光学レンズを組み合わせて構成される。レンズユニット301は、入射光を撮像部302の撮像素子の受光面に結像させるように、光学特性が調整されている。また、ズームレンズ及びフォーカスレンズは、撮像画像の倍率及び焦点の調整のために、その光軸上の位置が移動可能となっている。
 撮像部302は、受光素子を有し、レンズユニット301の後段に配置される。受光素子は、例えばCMOS(Complementary Metal Oxide Semiconductor)などの撮像素子やToF(Time Of Flight)用センサなどであってもよい。撮像部302は、カメラヘッド112内ではなく、鏡筒111の内部に対物レンズの直後に配設されてもよい。撮像部302は、レンズユニット301によって受講素子の受光面に結像された観察光を光電変換し、観察像に対応した画素信号を生成して、通信部303に出力する。
 受光素子は、例えば4K(水平画素数3840×垂直画素数2160)、8K(水平画素数7680×垂直画素数4320)、又は正方形4K(水平画素数3840以上×垂直画素数3840以上)の解像度に対応した画素数を有する撮像素子であってもよい。このような高解像度の画像の撮影に対応可能な撮像素子を用いて、術部の高解像度の画像が得られると、術者101は、表示装置149の画面で術部の様子を高精細な画像で把握することができ、手術をより円滑に進行することが可能となる。また、3D表示に対応するように、撮像部302を1対の撮像素子で構成してもよい。3D表示が行われることにより、術者101は術部のおける生体組織の奥行きをより正確に把握することができ、手術をより円滑に進行することが可能となる。
 駆動部303は、アクチュエータによって構成され、カメラヘッド制御部305からの制御により、レンズユニット301のズームレンズ及びフォーカスレンズを光軸方向に所定の距離だけ移動させて、撮像部302による撮像画像の倍率及び焦点を調整する。
 通信部304は、CCU141及びロボットアーム制御装置143との間で各種の情報を送受信する通信装置で構成される。通信部304は、撮像部302から得た画像信号を、伝送ケーブル311を介してCCU141に送信するために使用される。術者101が術部の撮像画像を観察しながらより安全で確実に手術を行なうには、術部の動画像をリアルタイムに表示する必要がある。したがって撮像部302から得た画像信号を低レイテンシで送信するためには、通信部304は光通信を行うことが好ましい。光通信を行う場合、通信部304は、電光変換モジュールを備え、電気信号を光信号に変換して、伝送ケーブル(光ファイバ)311を介してCCU141に送信する。
 また、通信部304は、ロボットアーム制御装置143側から、伝送ケーブル312を介してカメラヘッド112の駆動を制御するための制御信号を受信して、カメラヘッド制御部305に供給する。制御信号には、撮像画像のフレームレートに関する情報、撮像時の露出に関する情報、撮像画像の倍率及び焦点に関する情報が含まれる。AE、AF、AWBの機能が内視鏡110に搭載されていてもよい。この場合、フレームレートや露出値、倍率、焦点などの撮像条件も、CCU141経由でロボットアーム制御装置143によって自動的に設定されるようにしてもよい
 カメラヘッド制御部305は、通信部304を介してCCU141から受信した制御信号に基づいて、カメラヘッド112の駆動を制御する。例えば、カメラヘッド制御部305は、フレームレートや露出値を指定する制御信号に基づいて、撮像部302の撮像素子の駆動を制御する。また、カメラヘッド制御部305は、撮像画像の倍率及び焦点を指定する制御信号に基づいて、駆動部303を介してレンズユニット301のズームレンズ及びフォーカスレンズの光軸方向の位置を調整する。また、カメラヘッド制御部305は、鏡筒111やカメラヘッド112を識別するための情報を記憶する機能を備えていてもよい。
 カメラヘッド112とCCU141を接続する伝送ケーブル311は、電気信号の通信に対応した電気信号ケーブル、光通信に対応した光ファイバ、又はこれらの複合ケーブルであってもよい。あるいは、カメラヘッド112とCCU141間は有線ケーブルではなく無線で接続されていてもよい。カメラヘッド112とCCU141間を無線通信で接続する場合、伝送ケーブル220を手術室内に敷設するする必要がなくなり、術者101や助手などの医療スタッフの移動が伝送ケーブル311で妨げられなくなる。
 なお、レンズユニット301や撮像部302などカメラヘッド112の一部を機密性及び防水性の高い密閉構造内に配置することで、オートクレーブ滅菌処理に対する耐性を持たせることができる。
 図4には、医療ロボット装置120の機能的構成例を模式的に示している。
 医療ロボット装置120は、例えば6以上の自由度を有する多リンク構造体からなるロボットアームである。このロボットアームは、先端部で内視鏡110を支持する構造を備えている。ロボットアームの先端部は、例えば内視鏡110の姿勢を決める3自由度の直交する回転軸を集中的に配置する構造を備えていてもよい。図4では、医療ロボット装置120の機能を抽象化して、リンク間を接続する関節を能動関節部410と受動関節部420の2種類に分類し、且つ、センサ部440で構成されるものとする。
 能動関節部410は、関節を駆動させる回転モータなどのアクチュエータ411と、関節に作用するトルクを検出するトルクセンサ412と、関節の回転角を計測するエンコーダ413を備えている。また、受動関節部420は、関節角度を計測するエンコーダ421を備えている。センサ部430は、IMU(Inertial Measurement Unit)や、ロボットアームの先端に取り付けられた医療用器具に作用する接触力を検出する接触センサなど、関節部以外に配置される各種センサを含んでいる。
 ロボットアーム制御装置143は、CCU141から出力される認識情報や入力装置144を介して入力されるユーザの指示に基づいて医療ロボット装置120の目標動作を生成して、位置制御や力制御などの所定の制御方式に従って医療ロボット装置120の駆動を制御する。具体的には、ロボットアーム制御装置143は、所定の制御方式に従って能動関節部410のアクチュエータ411の制御量を計算して駆動信号を供給する。ロボットアーム制御装置143は、例えばCPUなどのプロセッサ及びそのローカルメモリなどで構成され、プロセッサがローカルメモリにロードした所定のプログラムを実行する。
 ロボットアーム制御装置143と医療ロボット装置120間は、電気信号の通信に対応した電気信号ケーブル、光通信に対応した光ファイバ、又はこれらの複合ケーブルであってもよい。また、上述した伝送ケーブル311内に含まれていてもよい。また、ロボットアーム制御装置143と医療ロボット装置120間は有線ケーブルでなく無線で接続されていてもよい。
D.ニューラルネットワークモデルを利用した制御システム
 図5には、ニューラルネットワークモデルを利用した制御システム200の構成例を示している。
 図5において、CCU141は、ディープラーニングによる学習済みのニューラルネットワークモデルからなる画像認識器501を用いて、内視鏡110による術部の撮像画像の画像認識を行う。この画像認識器501は、画像認識の際に、医療ロボット装置120からロボットアームのモーション情報とロボットアームのセンサ情報も入力データとする。
 ここで、画像認識器501に入力されるロボットアームのモーション情報には、ロボットアームが先端で支持する内視鏡110などの医療用器具の位置、速度、加速度、ロボットアームの各関節の姿勢(関節の回転軸に設置されたエンコーダによって計測される関節角)の情報を含む。また、画像認識器に入力されるロボットアームのセンサ情報には、医療ロボット装置120に搭載されたIMUで計測される加速度などの情報や、各関節に作用するトルク情報、ロボットアームの先端で支持される医療用器具に作用する外力などの情報が含まれる。
 そして、画像認識器501は、内視鏡110の撮像画像に含まれている医療用器具や、内視鏡110の視野内の環境を画像認識して、器具認識情報及び環境認識情報を出力する。画像認識器501は、器具認識情報として、内視鏡110の視野内で認識された医療用器具の種類(例えば鉗子や気腹チューブ、エネルギー処置具、攝子、レトラクタなど)と各器具の位置及び姿勢、操作状態(例えば鉗子であれば開閉状態、エネルギー処置具であればエネルギー出力状態)を認識する。また、画像認識器501は、環境認識情報として、内視鏡110の視野内の撮像画像に含まれている臓器や医療用器具のデプス情報(臓器や器具の形状を含む)、術部における環境地図(例えば、SLAM(Simultaneous Localization and Mapping)技術を利用した環境地図作成)、臓器の種類、医療用器具の種類、撮像画像に含まれている各物体の材料などを認識する。また、画像認識器501は、環境認識情報として、例えば、術部の画像に含まれている臓器や医療用器具などの各物体及びその材料、各物体のデプス情報、環境地図を認識する。なお、画像認識器501は、画像認識結果として必ずしも器具認識情報と環境認識情報の2種類の認識情報を出力する必要はなく、3種類以上の認識情報に分けて出力してもよいし、あるいはすべての認識結果をまとめて1つの認識情報として出力してもよい。
 また、図5において、ロボットアーム制御装置143は、ディープラーニングによる学習済みのニューラルネットワークモデルからなる運動予測器502を用いて、CCU141から出力される器具認識情報及び環境認識情報の認識情報に基づいて、医療ロボット装置120に対する目標指令関連情報を予測して出力する。運動予測器502は、目標指令関連情報として、例えば内視鏡110のカメラ目標位置、姿勢、速度、加速度、注視点、視線ベクトル(対象物位置、距離、ベクトル姿勢)、撮像画像の電子切り出し位置、距離といったさまざまな目標指令値を予測する。医療ロボット装置120が内視鏡110以外の医療用器具を先端で支持する場合には、運動予測器502は、目標指令関連情報として、その器具の目標位置、姿勢、速度、加速度、操作力を予測する。ロボットアーム制御装置143は、運動予測器502が予測した、内視鏡110などのロボットアームの先端で支持する医療用器具の目標位置、姿勢、速度、加速度の情報に基づいて、逆キネマティクス演算によりロボットアームの各関節の目標関節角度、関節角速度、関節角加速度を計算して、医療ロボット装置120に対する指令値を出力する。
 また、図5に示すように画像認識器501と運動予測器502をそれぞれ個別のニューラルネットワークモデルで構成するのではなく、図6に示すように、画像認識と運動予測を統合してE2Eのニューラルネットワークモデルからなる予測器601として構成してもよい。
 図5及び図6に示すように、例えば、ディープラーニングによる学習済みのニューラルネットワークモデルを用いてロボットアームの運動予測を行うことにより、様々な入力パラメータを考慮して、医療ロボット装置120のリアルタイム制御を実現することができる。したがって、内視鏡手術において内視鏡を支持する医療ロボット装置120を導入し、ディープラーニングによる推論に基づいてロボットの動作や処理を制御することによって、オペレータの人件費などのコスト削減と、内視鏡のコントロール技術の高精度化、安全性の向上を図ることができる。
E.判断根拠を提示する制御システム
 上記D項で説明したように医療ロボット装置120の動作制御にディープラーニングを利用するとき、判断した根拠の正当性を明確にする必要がある。一般に、ディープラーニングは判断の根拠が分かり難いことから、ブラックボックスにたとえられる。そこで、本開示では、ディープラーニングを利用した医療ロボット装置120の動作予測における判断の根拠を明らかにするようにしている。したがって、医師は、医療ロボット装置120の動作が自分の判断と相違がないことや動作予測の判断根拠を確認しながら、円滑に手術を行うことができる。
E-1.判断根拠を提示する制御システム(1)
 図7には、画像認識器501と運動予測器502をそれぞれ個別のニューラルネットワークモデルで構成し、ニューラルネットワークモデルによる運動予測の判断根拠を提示する制御システム700の構成例を示している。なお、画像認識器501と運動予測器502を併せて「学習器」と呼ぶこともある。制御システム700は、図5に示したシステム構成において、注目情報提示部701と、信頼度提示部702が組み込まれている。注目情報提示部701は、例えば、ニューラルネットワークモデルが目標指令関連情報を推定する際に注目した対象物に関する情報を提示する。注目情報提示部701は、例えば、手術に用いられる把持具(Grasper)やハサミ(Scissors)などの注目した医療用器具の情報を提示する。また、信頼度提示部702は、ニューラルネットワークモデルが出力した目標指令関連情報に基づいて医療ロボット装置120がどれだけ正しく動きそうであるかという信頼度を、判断結果の精度を示す確率や解のばらつきを示す分散などの確かさ(確度)を表す統計スコアなどを提示する。以下、注目情報提示部701と信頼度提示部702についてそれぞれ説明する。
 注目情報提示部701は、制御システム700に入力された画像のうち、運動予測器502が目標指令関連情報を判断する際に注目した情報を提示する。制御システム700に入力された画像とは、具体的には、内視鏡で撮影した術野画像である。注目情報提示部701は、画像分類問題において判断根拠を可視化するGrad-Cam(Gradient-weighted Class Activation Mapping)や、機械学習モデルの解釈を行うLIME(Local Interpretable Model-agnostic Explainations)などのアルゴリズムを用いて、画像認識器501が器具認識情報や環境認識情報を推定する際に注目した情報を提示する。
 Grad-Camは、ディープラーニングしたニューラルネットワークモデルの判断の根拠となった情報を可視化してヒートマップ表示する技術として知られている。Grad-Camを適用した注目情報提示部701は、入力画像、ロボットのモーション情報、及びロボットのセンサ情報から、どの部分の画像、あるいは、画像中のどの対象物などに着目して目標指令関連情報を出力又は推定したのかをヒートマップ表示する。
 Grad-Camは、対象とする畳み込みニューラルネットワーク(CNN)(この場合は、運動予測器502)の最終層に対する入力勾配の大きな場所の表示によって判断根拠となる情報を可視化することを動作原理とする。Grad-Camの処理の流れは、入力データの読み込み、モデルの読み込み、入力画像の予測クラス、その予測クラスの損失計算、最終畳み込み層への逆伝搬の計算、最終畳み込み層における各チャネルの重み計算(チャネル毎の勾配を平均的な処理であるGlobal Average Poolingにより計算)からなる。ここで、クラスcの勾配ycを特徴マップアクティベーションAkとすると、ニューロンの重要度の重みαc kは下式(1)のように与えられる。
Figure JPOXMLDOC01-appb-M000001
 最終畳み込み層の順伝搬の出力にチャネル毎の重みを掛け足し合わせて、活性化関数ReLUを通して、Grad-Camを下式(2)のように計算する。
Figure JPOXMLDOC01-appb-M000002
 図8には術野のモニタ画像を例示している。術野のモニタ画像は、内視鏡110の撮像画像から電子的に切り出した画像である。モニタ画像又は内視鏡110の撮像画像全体が、制御システム700への入力画像となる。また、図9には、Grad-Camを適用した注目情報提示部701により提示される、制御システム700が目標指令関連情報を出力する際に着目した部分をヒートマップ表示した画像を例示している。図8に示すモニタ画像は、内視鏡110の撮像画像、又は表示装置149に表示される術野画像である。一方、図9は、図8の術野画像よりも視野が広い広画角の画像である。広画角画像は、内視鏡110で図8の術野画像と同じ視線方向でズームアウトして撮影した画像でもよいが、SLAM技術などを使って画像認識器501が認識した環境画像であってもよい。医師は、図8に示す術野画像から術部を詳細に観察できるとともに、図9に示す広画角画像から、制御システム700による医療ロボット装置120に対するもの目標指令の根拠を俯瞰的に捉えることができる。
 図9に示す広画角画像内では、運動予測器502が目標指令を出力する際に注視した注視点や、画像認識器501が認識した把持具「Grasper」やハサミ「Scissors」などの医療器具がヒートマップ表示されている。図9に示す画像において、ヒートマップ表示に加えて、注目した各物体のメタ情報を文字で表示したり、文字の大きさや色を使って強調したりして、注目情報を提示する。
 図9に示すような注目情報の提示画像は、図8に示す内視鏡110の撮像画像とともに、表示装置149に表示される。表示形態は任意である。例えば、内視鏡110の撮像画像を主映像として表示する画面内に、注目画像の提示画像を表示する領域をPinP(Picture-in-Picture)などの形式で設けて、内視鏡110の撮像画像と注目情報の提示画像を同時に表示するようにしてもよい。内視鏡110の撮像画像と注目情報の提示画像を切り替えて交互に画面表示するようにしてもよい。あるいは、内視鏡110の撮像画像を表示するメインディスプレイの他に、注目情報の提示画像を表示するサブディスプレイを追加してもよい。
 したがって、術者又は医師は、図9に示す広画角画像に基づいて、制御システム700がどの情報に着目して医療ロボット装置120に対する目標指令関連情報を出力したのかを目視して(すなわち、制御システム700との協働作業により)、医療ロボット装置120の動作が自分の判断と相違がないことを確認しながら、円滑に手術を行うことができる。
 なお、注目情報提示部701は、例えばLIMEなど、Grad-Cam以外の技術を用いて、制御システム700が目標指令関連情報を判断する際に注目した情報を提示するようにしてもよい。また、注目情報提示部701は、ヒートマップ以外の表示形式で注目情報を提示してもよいし、ヒートマップ表示と音声ガイダンスなど他の出力形式と組み合わせて長目情報を提示するようにしてもよい。
 続いて、信頼度提示部702について説明する。信頼度提示部702は、運動予測器702が出力した目標指令関連情報に基づいて医療ロボット装置120がどれだけ正しく動きそうであるかといった信頼度を説明する情報を提示する。具体的には、信頼度提示部702は、運動予測器502が医療ロボット装置120に対する目標指令関連情報を出力する際のデータの不足や影響度、未知環境・条件、予測結果の精度を示す確率や解のばらつきを示す分散などの確かさ(確度)を表す統計スコアなどを示す数値を、目標指令関連情報の不確実性又は信頼度を説明するデータとして提示する。信頼度提示部702は、例えばベイジアンDNN(Deep Neural Network)を用いて目標指令関連情報の不確実性又は信頼度の推定を行うが、この点の詳細については後述に譲る。
 図10には、信頼度提示部702により提示される、医療ロボット装置120への目標指令関連情報を提示する画像を例示している。図10は、図8の術野画像よりも視野が広い広画角の画像である。広画角画像は、内視鏡110で図8の術野画像と同じ視線方向でズームアウトして撮影した画像でもよいが、SLAM技術などを使って画像認識器501が認識した環境画像であってもよい。図10に示す例では、広画角画像内に、参照番号1001で示す内視鏡画像の現在の表示位置(ロボット装置120のアームの現在の位置で支持されている内視鏡110によって撮像される画像、又は、撮像画像の電子的切り出し位置)と、参照番号1002で示す次の表示位置が同時に表示されている。ここで、次の表示位置1002は、目標指令関連情報に基づいて医療ロボット装置120のアームを動作させた位置での内視鏡110の撮像画像である。医師は、図8に示す術野画像から術部を詳細に観察できるとともに、図10に示す目標指令関連情報の提示画像に基づいて、制御システム700から出力される目標指令関連情報に従って医療ロボット装置120を動作させたときに表示される術部画像が自分の判断と相違がないことを確認しながら、円滑に手術を行うことができる。
 また、図11には、信頼度提示部702により提示される、医療ロボット装置120への目標指令関連情報の不確実性又は信頼度の説明を提示する画像の他の例を示している。図11は、図8の術野画像よりも視野が広い広画角の画像である(同上)。図11に示す例では、運動予測器502からは3パターンの目標指令関連情報の候補が出力されることを想定しており、各候補に基づいて医療ロボット装置120のアームを動作させた位置での内視鏡110の撮像画像1101、1102、1103を、各候補の確度(50%、40%、10%)とともに表示している。図11では図示を省略したが、図9に示したようなヒートマップを重畳表示してもよい。医師は、図8に示す術野画像から術部を詳細に観察できるとともに、図11に示す不確実性又は信頼度の説明提示画像に基づいて、制御システム700から出力される目標指令関連情報のいずれの候補に従って医療ロボット装置120を動作させたときに表示される術部画像が自分の判断と相違がないかを確認しながら、円滑に手術を行うことができる。例えば図11に示すような不確実性又は信頼度の説明を提示する画像を医師が確認して、音声コマンドによっていずれかの候補を選択又は修正できるようにしてもよい。また、図11に示すような不確実性又は信頼度の説明を提示する画像をタッチパネル上で表示して、医師がいずれかの候補を画面でタッチすることによって選択又は修正できるようにしてもよい。
 また、図12には、信頼度提示部702により提示される、医療ロボット装置120への目標指令関連情報の不確実性又は信頼度の説明を提示する画像のさらに他の例を示している。図12に示す例でも、運動予測器502からは3パターンの目標指令関連情報の候補が出力されることを想定しているが、参照番号1201~1203で示す各候補の判断の確率とデータの影響度をグラフにプロットして示している。但し、図12では、各候補1201~1203の判断の確率の合計が1になるように正規化している。第1の候補1201は、判断の確率が0.5で最大であるが、データの影響度が大きく、言い換えればデータ不足によるばらつきが大きい。これに対し、第2の候補1202は、判断の確率が0.4で第1の候補1201よりも低いが、データの影響度が小さく、言い換えればデータ不足によるデータのばらつきが小さい。また、第3の候補1203は、判断の確率が0.1で最も低く、且つ、データの影響度も大きい。医師は、図12に示すような画像に基づいて不確実性又は信頼度の説明が提示されると、単純に各候補1201~1203の判断の確率を比較するだけでなく、データ不足による不確実性も考慮して、どの候補の目標指令に基づいて医療ロボット装置120を動作させるべきかを判断することができる。また、候補1201のようにデータの不確実性の大きい候補に関しては、データ不足による不確実性を補うデータを制御システム700が自律的に探索して、不確実性を小さくし又は信頼度を向上するようにしてもよい。
 なお、注目情報提示部701は、運動予測器502が目標指令関連情報を判断する際に注目した情報を、学習済みのニューラルネットワークモデルを用いて推定するようにしてもよい。また、信頼度提示部702は、運動予測器702が出力した目標指令関連情報の不確実性又は信頼度を、学習済みのニューラルネットワークモデルを用いて推定するようにしてもよい。注目情報提示部701と信頼度提示部702が使用するニューラルネットワークは、画像認識器501及び運動予測器502とは独立したニューラルネットワークであってもよいし、画像認識器501及び運動予測器502の少なくとも一部のニューロンを組み込んだニューラルネットワークであってもよい。
 また、図7では、注目情報提示部701と信頼度提示部702を個別の機能モジュールとして構成した制御システム700の構成例を示したが、注目情報提示部701と信頼度提示部702を併せて1つの機能モジュールとして構成することもできる。例えば注目情報提示部701と信頼度提示部702をE2Eのニューラルネットワークモデルとして構成することもできる。
E-2.ベイジアンDNNについて
 続いて、信頼度提示部703が目標指令関連情報の不確実性又は信頼度の推定に利用するベイジアンDNNについて説明する。ディープラーニングしたニューラルネットワークモデルにおける判断結果の不確実性は、偶発的な不確実性(Aleatoric uncertainty)と、認識における不確実性(Epistemic uncertainty)の2つのタイプに分けることができる。
 前者の偶発的な不確実性は、観測している環境などによるノイズに起因するものであり、データ不足によるものではない。例えば、隠れて見えない画像(オクルージョン)などが偶発的な不確実性に該当する。マスクをした人の顔の口元は、そもそもマスクで隠れいてるので、データとして観測することができない。術野画像で言えば、術具によって隠れている臓器の一部をデータとして観測することができない。一方、後者の認識における不確実性は、データ不足に起因する不確実性を表す。データが十分に存在するとしたならば、認識における不確実性を改善することができる。
 画像分野で認識における不確実性を明らかにすることは困難であったが、ベイジアンディープラーニングの提案によって、不確実性を明らかにすることが可能になってきた(例えば、非特許文献1を参照のこと)。ベイジアンディープラーニングは、ベイズ推定とディープラーニングを結び付けて構成される。ベイズ推論を使うことで、推定結果がどのようにばらつくのかがわかるので不確実性を評価することができる。
 ベイジアンディープラーニングは、ディープラーニングの学習においてドロップアウトを用いて、推論において得られる分散の結果から推定する手法である。ドロップアウトは、各層のニューロンの数をランダムに減らすことで、オーバーフィッティングを削減するために用いられている技術である。ドロップアウトの果たす役割によって、ベイジアンディープラーニングにおける損失関数は下式(3)のように与えられる。
Figure JPOXMLDOC01-appb-M000003
 上式の詳細な数学的な理論については、例えば非特許文献2を参照されたい。結論から言うと、ディープラーニングにおいてドロップアウトを用いることは、ベイズ学習をしていることである。学習によって得られる値は確定的ではなく、重みの事後分布をドロップアウトと組み合わせることによって計算ができる。複数のドロップアウト係数にて、複数の出力を生成したばらつきから、事後分布の分散を推定することができる。ベイジアンディープラーニングは、学習時のみならず、推論時にもドロップアウトを利用することで、重みの分布からサンプリングをする(モンテカルトドロップアウト)。同じ入力に対して、何回も推論を繰り返すことで、推論結果の不確実性を求めることがきる。ドロップアウトを用いて学習したネットワークは、一部のニューロンが欠損した構造になっている。そこで、入力画像を入れて推論すると、ドロップアウトによって欠損したニューロンを通り、その重みによって特徴付けられた出力を得ることができる。さらに、同じ画像を入力すると、ネットワーク内の異なる経路を通り出力するので、その重みづけられた出力はそれぞれ異なる。つまり、ドロップアウトによるネットワークは、同じ入力画像に対して、推論時の異なる出力の分布を得ることができる。出力の分散が大きいということは、モデルの不確実性が大きいということを意味する。複数回の推論による分布の平均は最終的な予測値を意味し、分散は予測値の不確実性を意味する。ベイジアンディープラーニングは、この推論時の出力の分散から不確定性を表す。
 図7に示す制御システム700における学習への入力データは、入力画像、ロボットのモーション情報、ロボットのセンサ情報である。ベイジアンディープラーニングは、上記の演算によって推論結果の不確実性又は信頼度を示すことができる。これによって、出力の分散が大きいということは、データの不足や予測限界によってモデルの不確実性が大きい(又は、信頼度が低い)ということを意味する。
E-4.動作手順
 図13には、図7に示した制御システム700において、医師などにニューラルネットワークモデルによる運動予測の判断根拠を提示するための処理手順をフローチャートの形式で示している。
 まず、制御システム700には、内視鏡110の撮像画像、ロボットのモーション情報、ロボットのセンサ情報が入力される(ステップS1301)。
 画像認識器501は、学習済みのニューラルネットワークモデルを用いて、ステップS1301で入力したデータに基づいて画像認識して、器具認識情報及び環境認識情報を出力する(ステップS1302)。
 そして、注目情報提示部701は、Grad-Camアルゴリズムにより、画像認識器501で用いられるニューラルネットワークモデルが器具認識情報及び環境認識情報を推定する際の判断の根拠を可視化して、ヒートマップ表示する(ステップS1303)。
 次いで、運動予測器502は、学習済みのニューラルネットワークモデルを用いて、画像認識器501から出力される器具認識情報及び環境認識情報の認識情報に基づいて、医療ロボット装置120に対する目標指令に関連する情報を予測して出力する(ステップS1304)。
 信頼度提示部702は、ベイジアンDNNにより、運動予測器502で用いられるニューラルネットワークモデルが出力した目標指令関連情報に基づいて医療ロボット装置120がどれだけ正しく動きそうであるかなどを説明する情報を提示する(ステップS1305)。ステップS1305では、信頼度提示部702は、運動予測器502が医療ロボット装置120に対する目標指令関連情報を出力する際のデータの不足、未知環境・条件、予測結果の分散や確度などを示す数値を、目標指令関連情報の不確実性又は信頼度を説明するデータとして提示する。
 そして、ステップS1303で運動予測器502が出力した目標指令関連情報に基づいて、医療ロボット装置120のアームの動作を制御する(ステップS1306)。ステップS1306では、運動予測器502が出力した目標指令関連情報に基づく制御信号によって、医療ロボット装置120のアームを駆動する。但し、医師などのオペレータが、ステップS1304で提示された不確実性又は信頼度を説明する情報に基づいて、アームの動作の修正を指示した場合には、その指示に基づいて、医療ロボット装置120のアームを動作させる。
E-5.判断根拠を提示する制御システム(2)
 図14には、画像認識と運動予測を統合してE2EのニューラルネットワークモデルからなるE2E予測器を利用し、ニューラルネットワークモデルによる運動予測の判断根拠を提示する制御システム1400の構成例を示している。なお、E2E予測器のことを学習器と呼ぶ場合もある。制御システム1400は、図6に示したシステム構成において、注目情報提示部1401と、信頼度提示部1402が組み込まれている。
 注目情報提示部1401は、E2E予測器601が目標指令関連情報を判断する際に注目した情報を提示する。制御システム700に入力された画像とは、具体的には、内視鏡で撮影した術野画像である。注目情報提示部701は、画像分類問題において判断根拠を可視化するGrad-Camなどのアルゴリズムを用いて、画像認識器501が器具認識情報や環境認識情報を推定する際に注目した情報を提示する。Grad-Camについては既に説明した通りである。
 注目情報提示部1401は、例えば図8に示したような入力画像に対して、図9に示したような形態で、注目情報を提示する。したがって、医師は、図9に示す広画角画像に基づいて、制御システム700がどの情報に着目して医療ロボット装置120に対する目標指令関連情報を出力したのかを目視して(すなわち、制御システム700との協働作業により)、医療ロボット装置120の動作が自分の判断と相違がないことを確認しながら、円滑に手術を行うことができる。
 また、E2E予測器601が出力した目標指令関連情報に基づいて医療ロボット装置120がどれだけ正しく動きそうであるかを説明する情報を提示する。具体的には、信頼度提示部1402は、E2E予測器601が医療ロボット装置120に対する目標指令関連情報を出力する際のデータの不足、未知環境・条件、予測結果の分散や確度などを示す数値を、例えばベイジアンDNNを用いて推定する。ベイジアンDNNについては既に説明した通りである。
 信頼度提示部1402は、図10~図12のいずれかに示すような形態で、医療ロボット装置120への目標指令関連情報の不確実性又は信頼度の説明を提示する。医師は、図8に示す術野画像から術部を詳細に観察できるとともに、図11や図12に示す不確実性又は信頼度の説明提示画像に基づいて、制御システム700から出力される目標指令関連情報に従って医療ロボット装置120を動作させたときに表示される術部画像が自分の判断と相違がないことを確認しながら、円滑に手術を行うことができる。
E-6.動作手順
 図15には、図14に示した制御システム1400において、医師などにニューラルネットワークモデルによる運動予測の判断根拠を提示するための処理手順をフローチャートの形式で示している。
 まず、制御システム1400には、内視鏡110の撮像画像、ロボットのモーション情報、ロボットのセンサ情報が入力される(ステップS1501)。
 E2E予測器601は、学習済みのニューラルネットワークモデルを用いて、ステップS1501で入力したデータに基づいて、医療ロボット装置120に対する目標指令に関連する情報を予測して出力する(ステップS1502)。
 注目情報提示部1401は、Grad-Camアルゴリズムにより、E2E予測器601で用いられるニューラルネットワークモデルが目標指令関連情報を推定する際の判断の根拠を可視化して、ヒートマップ表示する(ステップS1503)。
 また、信頼度提示部1402は、ベイジアンDNNにより、E2E予測器601で用いられるニューラルネットワークモデルが出力した目標指令関連情報に基づいて医療ロボット装置120がどれだけ正しく動きそうであるかを説明する情報を提示する(ステップS1504)。ステップS1504では、信頼度提示部702は、運動予測器502が医療ロボット装置120に対する目標指令関連情報を出力する際のデータの不足、未知環境・条件、予測結果の分散や確度などを示す数値を、目標指令関連情報の不確実性又は信頼度を説明するデータとして提示する。
 そして、ステップS1502で運動予測器502が出力した目標指令関連情報に基づいて、医療ロボット装置120のアームの動作を制御する(ステップS1505)。ステップS1505では、運動予測器502が出力した目標指令関連情報に基づく制御信号によって、医療ロボット装置120のアームを駆動する。但し、医師などのオペレータが、ステップS1503で提示された不確実性又は信頼度を説明する情報に基づいて、アームの動作の修正を指示した場合には、その指示に基づいて、医療ロボット装置120のアームを動作させる。
E-4.判断根拠の提示例
 医師は、内視鏡110で撮影した術野画像とともに、制御システム700(又は1400)が出力する医療ロボット装置120の目標指令関連情報の判断根拠を提示する画像を見ることによって、医療ロボット装置120の動作が自分の判断と相違がないことを確認しながら、円滑に手術を行うことができる。
 判断根拠を提示する形態は任意である。但し、医師は、手術中に術野画像と判断根拠を同時に確認できることが好ましい。例えば、表示装置149で内視鏡110による術野画像を主映像として表示する画面内に、判断根拠の提示画像を表示する領域をPinPなどの形式で設けて、内視鏡110による術野画像と判断根拠の提示画像を同時に表示するようにしてもよい。また、1つの画面を使って、内視鏡110による術野画像と判断根拠の提示画像を切り替えて交互に表示するようにしてもよい。あるいは、内視鏡110による画像を表示するメインディスプレイの他に、注目情報の提示画像を表示するサブディスプレイを追加してもよい。
 図16には、1つの画面を使って内視鏡110による術野画像と判断根拠の提示画像を同時に表示する表示形態の一例を示している。図示の例では、画面1600内に、内視鏡110による術野画像を表示する主手術映像表示部1601と、医療ロボット装置120への目標指令関連情報の判断根拠に関する情報を提示する情報提示部1602が設けられている。
 主手術映像表示部1601には、内視鏡110が現在位置で撮影した画像から電子的に切り出した術野画像が表示される。一方、情報提示部1602には、注目情報提示部701(又は1401)が生成するヒートマップ画像や、信頼度提示部702(又は1402)、信頼性提示部702が生成する、運動予測における不確実性(データの不足、未知環境・条件、予測結果の分散や確度など)又は信頼度を提示する画像が表示される。
 注目情報提示部701は、注目情報を示す複数種類のヒートマップ画像を生成してもよい。また、信頼度提示部702は、運動予測におけるデータの不足、未知環境・条件、予測結果の分散や確度などを示す複数種類の提示画像を生成してもよい。そして、情報提示部1602に、複数種類のヒートマップ画像と不確実性又は信頼度の提示画像を同時に提示してもよい。図16に示す例では、画像認識器501が認識した器具(Grasper、Scissors)や環境(臓器(Liver)など)をヒートマップ表示したヒートマップ画像1611や、運動予測時に注視した複数の注視点をヒートマップ表示したヒートマップ画像1612、並びに目標指令関連情報の不確実性又は信頼度の説明を提示する画像1621が、情報提示部1602に同時に表示されている。参考のため、図17及び図18には、それぞれヒートマップ画像1611及びヒートマップ画像1612を拡大して示している。また、不確実性又は信頼度の説明提示画像1621に関しては、図12及び上記の説明を参照されたい。
 このように情報提示部1602を使ってニューラルネットワークモデルによる判断根拠を複数の形態で提示することによって、医師は、医療ロボット装置120の動作が自分の判断と相違がないかどうかを短時間で正確に確認しながら、円滑に手術を行うことができる。
F.医師の判断の反映
 図19には、本開示を適用した内視鏡手術システム100を利用して医師が内視鏡手術を行う場合の手順を模式的に示している。また、図20には、手術時の内視鏡手術システム100における動作手順をフローチャートの形式で示している。
 図19では便宜上、内視鏡110による術野画像を主手術映像表示モニタ1901に表示するとともに、医療ロボット装置120への目標指令関連情報の判断根拠に関する情報を情報提示モニタ1902に提示するものとした。なお、情報提示モニタ1902には、判断根拠の他に、制御システム700(又は1400)内の学習器(画像認識器501と運動予測器502、又はE2E予測器601)がこれまでに扱った症例数や学習データ数も表示するようにしてもよい。
 医師は、主手術映像表示モニタ1901に表示された術野画像と、情報提示モニタ1902に表示された判断根拠を見て(ステップS2001)、制御システム700(又は1400)がニューラルネットワークモデルを用いて予測した医療ロボット装置120の動作が自分の判断と相違がないかどうかを確認する(ステップS2002)。
 ここで、医師が、情報提示モニタ1902に提示された判断根拠が自分の判断と相違ないと確認できた場合には(ステップS2002のYes)、運動予測器502(又は、E2E予測器601)が出力した目標指令関連情報に基づく医療ロボット装置120の動作は医師の意図に適うものである。したがって、医師による修正指示を受けることなく。運動予測器502(又は、E2E予測器601)が出力した目標指令関連情報に基づいて、そのまま医療ロボット装置120のアームの動作を制御する(ステップS2004)。
 一方、医師は、情報提示モニタ1902に提示された判断根拠が自分の判断と相違することを確認した場合には(ステップS2002のNo)、医師は、入力装置144を使って、情報提示モニタ1902に表示されている判断根拠の修正を行う(ステップS2003)。医師は、例えば判断根拠として情報提示モニタ1902に表示されたヒートマップ画像に対し、画像認識された器具や環境、注視点のヒートマップの位置の変更を手動で(例えば、UIを介して)指示する。
 なお、医師は、入力装置144を使って、例えば情報提示モニタ1902の画面のタッチ操作や音声により、判断根拠の修正を指示することができる。また、医師は、医療ロボット装置120のマスタ装置を使って医療ロボット装置120のアームの動作を直接修正するようにしてもよい。
 医師による判断根拠の修正指示が行われると、運動予測器502(又は、E2E予測器601)は、医師により修正指示された判断根拠に基づいて目標指令関連情報を修正出力して、医療ロボット装置120のアームの動作を制御する(ステップS2004)。
 なお、医師による判断根拠の修正指示が行われた場合、制御システム700(又は1400)は、医師からの修正指示に従って、学習器(画像認識器501と運動予測器502、又はE2E予測器602)の強化学習を行うようにしてもよい。あるいは、制御システム700(又は1400)は、医師からの修正指示に対して、ルールベースで目標指令を修正するようにしてもよい。
 医療ロボット装置120のアームが動作すると、その先端で支持される内視鏡110の視線方向や視野が変更され、内視鏡110の撮像画像から術野画像を電子的に切り出す位置が移動する。そして、画角が移動した後の術野画像が主手術映像表示モニタ1901に表示される(ステップS2005)。
 医師は、主手術映像表示モニタ1901に表示された新たな術野画像を観察する。また、制御システム700(又は1400)は、移動した後の内視鏡110の撮像画像や、医療ロボット装置120から出力されるモーション情報及びセンサ情報に基づいて、医療ロボット装置120のアームの運動予測と、その予測の判断根拠の情報提示モニタ1902への提示を繰り返し実行する。
 図20に示す動作手順に従えば、医師は医療ロボット装置120の動作が自分の判断と相違がないことを確認し、自分の判断と相違するときには手動により修正を指示しながら、円滑に手術を行うことができる。
G.学習器の再学習
 上記F項では、制御システム700(又は1400)が利用する学習器(画像認識器501と運動予測器502、又はE2E予測器601)の判断根拠が医師の判断と相違する場合には、学習器の強化学習や、ルールベースでの目標指令の修正を行う必要があることを説明した。
 この項では、学習器の判断根拠が医師の判断と相違しなくなるように(又は、学習器の判断根拠と医師の判断の差異が小さくなる又はゼロになるように)、再学習を行う処理について説明する。図21には、制御システム700(又は1400)において学習器の再学習を行う場合の手順を模式的に示している。また、図22には、制御システム700(又は1400)において学習器の再学習を行うための動作手順をフローチャートの形式で示している。
 図19に示したように本開示を適用した内視鏡手術システム100を利用して医師が内視鏡手術を行うとき、医療ロボット装置120の動作データを逐次蓄積していく(ステップS2201)。
 ここで言う動作データは、学習器への入力データと出力データと医師の判断の組み合わせからなる。学習器への入力データは、具体的には、内視鏡110の撮像画像と、ロボットのモーション情報、ロボットのセンサ情報からなる。また、学習器からの出力データは、学習器が予測する医療ロボット装置120の目標指令関連情報である。また、医師の判断は、学習器の判断根拠の提示に対する医師の指示(修正指示の有無、判断根拠を修正した内容)に関する情報を含む。
 ここで、学習器の再学習のトリガが発生すると(ステップS2202のYes)、蓄積した動作データを用いた再学習により、学習器を更新する(ステップS2203)。
 なお、再学習のトリガは任意の事象である。例えば、蓄積した動作データがある量に達したときや、医師などのオペレータが再学習を指示したことを再学習のトリガとしてもよい。
 そして、再学習により更新した学習器により制御システム700(又は1400)を動作させて(ステップS2204)、内視鏡手術システム100の運用を継続する。
 図22に示す動作手順に従えば、医師が医療ロボット装置120の動作と自分の判断との相違を確認しながら手術を行う過程で、医師の判断と相違がない医療ロボット装置120の動作を実現するように、学習器の再学習することができる。
H.学習器の自律学習
 上記F項では、制御システム700(又は1400)が利用する学習器(画像認識器501と運動予測器502、又はE2E予測器601)の判断根拠が医師の判断と相違する場合には、学習器の強化学習や、ルールベースでの目標指令の修正を行う必要があることを説明した。
 この項では、学習器の判断根拠が医師の判断と相違しなくなるように、自律学習を行う処理について説明する。図23には、制御システム700(又は1400)において学習器の自律学習を行う場合の手順を模式的に示している。また、図24には、制御システム700(又は1400)において学習器の自律学習を行うための動作手順をフローチャートの形式で示している。
 図19に示したように本開示を適用した内視鏡手術システム100を利用して医師が内視鏡手術を行うとき、医療ロボット装置120の動作データ又は操作データを逐次蓄積していく(ステップS2401)。
 ここで言う動作データは、学習器への入力データと出力データと医師の判断の組み合わせからなる。学習器への入力データは、具体的には、内視鏡110の撮像画像と、ロボットのモーション情報、ロボットのセンサ情報からなる。また、学習器からの出力データは、学習器が予測する医療ロボット装置120の目標指令関連情報である。また、医師の判断は、学習器の判断根拠の提示に対する医師の指示(修正指示の有無、判断根拠を修正した内容)に関する情報を含む。
 そして、ベイジアンDNNにより、学習器のデータ不足かどうかを検証する(ステップS2402)。ここで、ベイジアンDNNにより学習器のデータ不足が認識された場合には(ステップS2403のYes)、データベースからデータを追加してデータ不足を補って(ステップS2404)、学習器の再学習を行って、学習器を更新する(ステップS2405)。すなわち、この動作手順では、ベイジアンDNNによる推定結果が再学習のトリガとなる。データベースは外部データベースであってもよい。
 そして、再学習により更新した学習器により制御システム700(又は1400)を動作させて(ステップS2406)、内視鏡手術システム100の運用を継続する。
 図24に示す動作手順に従えば、医師が医療ロボット装置120の動作と自分の判断との相違を確認しながら手術を行う過程で、医師の判断と相違がない医療ロボット装置120の動作を実現するように、学習器の自律学習することができる。また、医療ロボット装置120は、強化学習により運動予測、又は動作や操作予測の学習を行うようにしてもよい。
 以上、特定の実施形態を参照しながら、本開示について詳細に説明してきた。しかしながら、本開示の要旨を逸脱しない範囲で当業者が該実施形態の修正や代用を成し得ることは自明である。
 本明細書では、本開示を内視鏡を支持する医療ロボット装置に適用した実施形態を中心に説明してきたが、本開示の要旨はこれに限定されるものではない。内視鏡以外の、例えば鉗子や気腹チューブ、エネルギー処置具、攝子、レトラクタなどの医療用器具を先端で支持する医療ロボット装置、さらには、支持具などを用いない情報提示や操作指示などを行うロボット装置に対しても同様に本開示を適用して、ディープラーニングによる推定結果の判断根拠や不確実性又は信頼度を提示することができる。
 要するに、例示という形態により本開示について説明してきたのであり、本明細書の記載内容を限定的に解釈するべきではない。本開示の要旨を判断するためには、特許請求の範囲を参酌すべきである。
 なお、本開示は、以下のような構成をとることも可能である。
(1)医療支援システムにおいて、
 制御部と、
 術野環境を認識する認識部と、
 前記認識部の認識結果に基づいて前記医療支援システムが行う動作を推定する機械学習モデルと、
を具備し、
 前記制御部は、前記機械学習モデルが推定した前記動作に関する判断根拠情報を情報提示部に出力する、医療支援システム。
(2)前記制御部は、さらに、前記機械学習モデルの推定結果に関する信頼度を算出する演算部をさらに備え、前記情報提示部に前記信頼度を出力する、
上記(1)に記載の医療支援システム。
(3)前記機械学習モデルは、医療用器具を支持するアームに対する目標指令を推定し、
 前記制御部は、前記機械学習モデルが推定した前記目標指令に関する判断根拠情報を情報提示部に出力する、
上記(1)又は(2)のいずれかに記載の医療支援システム。
(4)前記演算部は、ベイジアンディープラーニングを用いて信頼度を算出する、
上記(2)に記載の医療支援システム。
(5)前記制御部は、前記目標指令を推定する際に注視した注視領域、及び/又は、認識した対象部に関する情報を出力する、
上記(3)に記載の医療支援システム。
(6)さらに、前記情報提示部に出力された前記判断根拠情報に対するユーザの応答データを記録し、
 前記制御部は、前記ユーザの応答データに基づいて前記機械学習モデルの再学習を行う、
上記(1)乃至(5)のいずれかに記載の医療支援システム。
(7)前記制御部は、前記目標指令を推定する際に注視した注視領域、及び/又は、認識した対象部を示すヒートマップ画像を出力する、
上記(5)に記載の医療支援システム。
(8)前記医療用器具は内視鏡であり、
 前記制御部は、前記内視鏡のモニタ画像よりも広画角の前記ヒートマップ画像を出力する、
上記(7)に記載の医療支援システム。
(9)前記制御部は、Grad-Camアルゴリズムに基づいて生成した前記ヒートマップ画像を出力する、
上記(7)又は(8)のいずれかに記載の医療支援システム。
(10)前記制御部は、前記機械学習モデルが前記医療支援システムの動作を推定する際のデータの不足、未知環境又は条件、予測結果の分散又は確度のうち少なくとも1つを示す数値を前記信頼度として算出する、
上記(2)又は(4)のいずれかに記載の医療支援システム。
(11)前記制御部は、前記機械学習モデルが推定する前記医療支援システムの動作の複数の候補に関する各信頼度を算出する、
上記(2)又は(4)のいずれかに記載の医療支援システム。
(12)前記医療用器具は内視鏡であり、
 前記情報提示部は、前記内視鏡で撮影した術野画像を表示する画面内で前記判断根拠情報を提示する、
上記(3)に記載の医療支援システム。
(13)前記情報提示部が提示した判断根拠情報に対するユーザからの指示を受け付ける入力部をさらに備え、
 前記制御部は、前記入力部を介して修正した判断根拠情報に基づいて前記機械学習モデルが前記医療支援システムの動作を推定するように制御する、
上記(1)乃至(12)のいずれかに記載の医療支援システム。
(14)前記演算部が算出した信頼度に基づいて、前記医療支援システムが行う動作と前記機械学習モデルが推定した前記動作に関する判断根拠情報と前記判断根拠情報に対するユーザの指示からなる動作データを用いた前記機械学習モデルの自律学習を行う、
上記(2)に記載の医療ロボット装置。
(15)医療支援システムにおける医療支援方法おいて、
 術野環境を認識する認識ステップと、
 前記認識ステップにおける認識結果に基づいて前記医療支援システムが行う動作を機械学習モデルが推定する推定ステップと、
 前記機械学習モデルが推定した前記動作に関する判断根拠情報を情報提示部に出力するステップと、
を有する医療支援方法。
(16)医療支援システムにおける医療支援の処理をコンピュータ上で実行するようにコンピュータ可読形式で記述されたコンピュータプログラムにおいて、前記コンピュータプログラムは前記コンピュータを、
 術野環境を認識する認識部、
 前記認識ステップにおける認識結果に基づいて前記医療支援システムが行う動作を機械学習モデルにより推定する推定部、
 前記機械学習モデルが推定した前記動作に関する判断根拠情報を情報提示部に出力する出力部、
として機能させる、コンピュータプログラム。
 100…内視鏡システム、101…術者、102…手術ベッド
 103…患者、110…内視鏡、111…鏡筒、112…カメラヘッド
 120…医療ロボット装置、130…医療用器具群
 131、132、…医療用器具
 140…カート、141…CCU、142…光源装置
 143…ロボットアーム制御装置、144…入力装置
 145…処置具制御装置、146…気膜装置、147…レコーダ
 148…プリンタ、149…表示装置、151、152、…トロッカー
 301…レンズユニット、302…撮像部、303…駆動部
 304…通信部、305…カメラヘッド制御部、311…通信部
 310…受動関節部、311…エンコーダ、320…能動関節部
 321…アクチュエータ、322…トルクセンサ、323…エンコーダ
 330…受動スライド機構、331…センサ、340…センサ部
 410…能動関節部、411…アクチュエータ、412…トルクセンサ
 413…エンコーダ、420…受動関節部、421…エンコーダ
 501…画像認識器、502…運動予測器、601…E2Eの予測器
 700…制御システム、701…注目情報提示部
 702…信頼度提示部
 1400…制御システム、1401…注目情報提示部
 1402…信頼度提示部

Claims (16)

  1.  医療支援システムにおいて、
     制御部と、
     術野環境を認識する認識部と、
     前記認識部の認識結果に基づいて前記医療支援システムが行う動作を推定する機械学習モデルと、
    を具備し、
     前記制御部は、前記機械学習モデルが推定した前記動作に関する判断根拠情報を情報提示部に出力する、医療支援システム。
  2.  前記制御部は、さらに、前記機械学習モデルの推定結果に関する信頼度を算出する演算部をさらに備え、前記情報提示部に前記信頼度を出力する、
    請求項1に記載の医療支援システム。
  3.  前記機械学習モデルは、医療用器具を支持するアームに対する目標指令を推定し、
     前記制御部は、前記機械学習モデルが推定した前記目標指令に関する判断根拠情報を情報提示部に出力する、
    請求項1に記載の医療支援システム。
  4.  前記演算部は、ベイジアンディープラーニングを用いて信頼度を算出する、
    請求項2に記載の医療支援システム。
  5.  前記制御部は、前記目標指令を推定する際に注視した注視領域、及び/又は、認識した対象部に関する情報を出力する、
    請求項3に記載の医療支援システム。
  6.  さらに、前記情報提示部に出力された前記判断根拠情報に対するユーザの応答データを記録し、
     前記制御部は、前記ユーザの応答データに基づいて前記機械学習モデルの再学習を行う、
    請求項1に記載の医療支援システム。
  7.  前記制御部は、前記目標指令を推定する際に注視した注視領域、及び/又は、認識した対象部を示すヒートマップ画像を出力する、
    請求項5に記載の医療支援システム。
  8.  前記医療用器具は内視鏡であり、
     前記制御部は、前記内視鏡のモニタ画像よりも広画角の前記ヒートマップ画像を出力する、
    請求項7に記載の医療支援システム。
  9.  前記制御部は、Grad-Camアルゴリズムに基づいて生成した前記ヒートマップ画像を出力する、
    請求項7に記載の医療支援システム。
  10.  前記制御部は、前記機械学習モデルが前記医療支援システムの動作を推定する際のデータの不足、未知環境又は条件、予測結果の分散又は確度のうち少なくとも1つを示す数値を前記信頼度として算出する、
    請求項2に記載の医療支援システム。
  11.  前記制御部は、前記機械学習モデルが推定する前記医療支援システムの動作の複数の候補に関する各信頼度を算出する、
    請求項2に記載の医療支援システム。
  12.  前記医療用器具は内視鏡であり、
     前記情報提示部は、前記内視鏡で撮影した術野画像を表示する画面内で前記判断根拠情報を提示する、
    請求項3に記載の医療支援システム。
  13.  前記情報提示部が提示した判断根拠情報に対するユーザからの指示を受け付ける入力部をさらに備え、
     前記制御部は、前記入力部を介して修正した判断根拠情報に基づいて前記機械学習モデルが前記医療支援システムの動作を推定するように制御する、
    請求項1に記載の医療支援システム。
  14.  前記演算部が算出した信頼度に基づいて、前記医療支援システムが行う動作と前記機械学習モデルが推定した前記動作に関する判断根拠情報と前記判断根拠情報に対するユーザの指示からなる動作データを用いた前記機械学習モデルの自律学習を行う、
    請求項2に記載の医療ロボット装置。
  15.  医療支援システムにおける医療支援方法おいて、
     術野環境を認識する認識ステップと、
     前記認識ステップにおける認識結果に基づいて前記医療支援システムが行う動作を機械学習モデルが推定する推定ステップと、
     前記機械学習モデルが推定した前記動作に関する判断根拠情報を情報提示部に出力するステップと、
    を有する医療支援方法。
  16.  医療支援システムにおける医療支援の処理をコンピュータ上で実行するようにコンピュータ可読形式で記述されたコンピュータプログラムにおいて、前記コンピュータプログラムは前記コンピュータを、
     術野環境を認識する認識部、
     前記認識ステップにおける認識結果に基づいて前記医療支援システムが行う動作を機械学習モデルにより推定する推定部、
     前記機械学習モデルが推定した前記動作に関する判断根拠情報を情報提示部に出力する出力部、
    として機能させる、コンピュータプログラム。
PCT/JP2021/022041 2020-07-31 2021-06-10 医療支援システム及び医療支援方法、並びにコンピュータプログラム WO2022024559A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US18/005,661 US20230282345A1 (en) 2020-07-31 2021-06-10 Medical support system, medical support method, and computer program
EP21851465.1A EP4191606A4 (en) 2020-07-31 2021-06-10 MEDICAL ASSISTANCE SYSTEM, MEDICAL ASSISTANCE METHOD, AND COMPUTER PROGRAM

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020-131216 2020-07-31
JP2020131216 2020-07-31

Publications (1)

Publication Number Publication Date
WO2022024559A1 true WO2022024559A1 (ja) 2022-02-03

Family

ID=80035420

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/022041 WO2022024559A1 (ja) 2020-07-31 2021-06-10 医療支援システム及び医療支援方法、並びにコンピュータプログラム

Country Status (3)

Country Link
US (1) US20230282345A1 (ja)
EP (1) EP4191606A4 (ja)
WO (1) WO2022024559A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022230501A1 (ja) * 2021-04-28 2022-11-03 オムロン株式会社 動作解析装置、動作解析方法、動作解析プログラム及び動作解析システム
WO2023162479A1 (ja) * 2022-02-24 2023-08-31 ソニーグループ株式会社 情報処理装置、情報処理方法、及びプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180296281A1 (en) * 2017-04-12 2018-10-18 Bio-Medical Engineering (HK) Limited Automated steering systems and methods for a robotic endoscope
JP2020027507A (ja) 2018-08-14 2020-02-20 キヤノン株式会社 医用情報処理装置及び医用情報処理方法、プログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101997566B1 (ko) * 2012-08-07 2019-07-08 삼성전자주식회사 수술 로봇 시스템 및 그 제어방법
KR20150128049A (ko) * 2014-05-08 2015-11-18 삼성전자주식회사 수술 로봇 및 그 제어방법
US10806532B2 (en) * 2017-05-24 2020-10-20 KindHeart, Inc. Surgical simulation system using force sensing and optical tracking and robotic surgery system
US10383694B1 (en) * 2018-09-12 2019-08-20 Johnson & Johnson Innovation—Jjdc, Inc. Machine-learning-based visual-haptic feedback system for robotic surgical platforms

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180296281A1 (en) * 2017-04-12 2018-10-18 Bio-Medical Engineering (HK) Limited Automated steering systems and methods for a robotic endoscope
JP2020027507A (ja) 2018-08-14 2020-02-20 キヤノン株式会社 医用情報処理装置及び医用情報処理方法、プログラム

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ALEX KENDALLYARIN GAL: "What Uncertainties Do We Need in Bayesian Deep Learning for Computer Vison", NIPS, 2017
See also references of EP4191606A4
YARIN GALZOUBIN GHAHRAMANI: "Dropout as Bayesian Approximation: Representing Model Uncertainty in Deep Learning", ICML, 2016

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022230501A1 (ja) * 2021-04-28 2022-11-03 オムロン株式会社 動作解析装置、動作解析方法、動作解析プログラム及び動作解析システム
WO2023162479A1 (ja) * 2022-02-24 2023-08-31 ソニーグループ株式会社 情報処理装置、情報処理方法、及びプログラム

Also Published As

Publication number Publication date
EP4191606A1 (en) 2023-06-07
EP4191606A4 (en) 2024-01-24
US20230282345A1 (en) 2023-09-07

Similar Documents

Publication Publication Date Title
JP7003985B2 (ja) 医療用支持アームシステムおよび制御装置
US11026754B2 (en) Motion execution of a robotic system
US20220168047A1 (en) Medical arm system, control device, and control method
WO2022024559A1 (ja) 医療支援システム及び医療支援方法、並びにコンピュータプログラム
US20220192777A1 (en) Medical observation system, control device, and control method
WO2021124716A1 (en) Method, apparatus and system for controlling an image capture device during surgery
WO2018159336A1 (ja) 医療用支持アームシステムおよび制御装置
US20230172438A1 (en) Medical arm control system, medical arm control method, medical arm simulator, medical arm learning model, and associated programs
US20220218427A1 (en) Medical tool control system, controller, and non-transitory computer readable storage
US20220383531A1 (en) System and method for determining depth perception in vivo in a surgical robotic system
JPWO2020080209A1 (ja) 医療用観察システム、医療用観察装置及び医療用観察方法
US20230142404A1 (en) Medical imaging apparatus, learning model generation method, and learning model generation program
US20220096164A1 (en) Systems and methods for facilitating optimization of an imaging device viewpoint during an operating session of a computer-assisted operation system
JP2023507063A (ja) 手術中に画像取込装置を制御するための方法、装置、およびシステム
WO2022054498A1 (ja) 医療用アーム制御システム、医療用アーム装置、医療用アームの制御方法及びプログラム
WO2022030142A1 (ja) 情報処理装置、プログラム、学習モデル及び学習モデルの生成方法
WO2022172733A1 (ja) 医療用観察装置、観察装置、観察方法及びアダプタ

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21851465

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2021851465

Country of ref document: EP

ENP Entry into the national phase

Ref document number: 2021851465

Country of ref document: EP

Effective date: 20230228

NENP Non-entry into the national phase

Ref country code: DE

NENP Non-entry into the national phase

Ref country code: JP