WO2023053333A1 - 処理システム及び情報処理方法 - Google Patents

処理システム及び情報処理方法 Download PDF

Info

Publication number
WO2023053333A1
WO2023053333A1 PCT/JP2021/036107 JP2021036107W WO2023053333A1 WO 2023053333 A1 WO2023053333 A1 WO 2023053333A1 JP 2021036107 W JP2021036107 W JP 2021036107W WO 2023053333 A1 WO2023053333 A1 WO 2023053333A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
operation input
processing unit
input data
output data
Prior art date
Application number
PCT/JP2021/036107
Other languages
English (en)
French (fr)
Inventor
晋平 宮原
紘介 甕
哲寛 山田
晃佑 野川
咲 石澤
一郎 小田
哲 野中
Original Assignee
オリンパスメディカルシステムズ株式会社
国立研究開発法人国立がん研究センター
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by オリンパスメディカルシステムズ株式会社, 国立研究開発法人国立がん研究センター filed Critical オリンパスメディカルシステムズ株式会社
Priority to JP2023550900A priority Critical patent/JPWO2023053333A1/ja
Priority to PCT/JP2021/036107 priority patent/WO2023053333A1/ja
Publication of WO2023053333A1 publication Critical patent/WO2023053333A1/ja

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B1/00Instruments for performing medical examinations of the interior of cavities or tubes of the body by visual or photographical inspection, e.g. endoscopes; Illuminating arrangements therefor

Definitions

  • the present invention relates to a processing system, an information processing method, and the like.
  • Patent Literature 1 discloses a method of evaluating a doctor's skill using motion data of a medical robot.
  • One aspect of the present disclosure acquires operation input data representing an operation performed by a user on an endoscope, and operation output data representing at least one of the position and orientation of an insertion section when the operation is performed.
  • a processing unit that evaluates the skill of the user who operates the endoscope based on the operation input data and the operation output data; and an output that outputs skill evaluation information as a result of the skill evaluation.
  • a processing unit wherein the relationship between the operation input data and the operation output data relates to a processing system that changes according to the state of the insertion unit.
  • Another aspect of the present disclosure includes operation input data representing an operation performed by a user on an endoscope, and operation output data representing at least one of the position and orientation of the insertion section when the operation was performed.
  • skill evaluation of the user operating the endoscope based on the operation input data and the operation output data; outputting skill evaluation information as a result of the skill evaluation;
  • the relation of the operation output data relates to an information processing method that changes according to the state of the insertion section.
  • FIG. 1A and 1B are diagrams for explaining differences in operability according to situations.
  • Configuration example of processing system Appearance example of an endoscope system.
  • a configuration example of an endoscope system Configuration example of a system including a processing system.
  • a detailed configuration example of the insertion section Another configuration example of the scope unit of the endoscope system.
  • FIG. 5 is a diagram for explaining temporal changes in transfer characteristic data; Explanatory drawing of a neural network. An example of neural network input and output.
  • 4 is a flowchart for explaining learning processing; 4 is a flowchart for explaining skill evaluation processing, which is inference processing;
  • An example of clustering results in an n-dimensional feature space.
  • An example of neural network input and output An example of neural network input and output.
  • endoscopes include flexible endoscopes having flexible portions as described above. Therefore, in treatment using a flexible endoscope, it is important to consider how to position the tip of the endoscope against the lesion in the lumen after the endoscope reaches the lesion, and how to operate the surgical field, including air supply and suction. The place to support the endoscope changes depending on how it is made. As a result, operability is likely to change during procedures using flexible endoscopes. The operability also changes when the target tissue moves.
  • the operability here represents the relationship between operation output and operation input.
  • the operation input represents a specific operation performed at hand by the operator to move the distal end portion 11 of the insertion portion 310b.
  • the flexible endoscope can perform a bending operation for bending the bending section 12 vertically and horizontally, a rotating operation for rotating the insertion section 310b around its axis, and an advancing and retracting operation for inserting and removing the insertion section 310b.
  • the operation output is information indicating how the insertion portion 310b has moved, more specifically, how the distal end portion 11 of the insertion portion 310b has moved in response to the operation input.
  • the operation amount when the operator operates the predetermined operation device corresponds to the actual movement of the distal end portion 11 with some degree of accuracy.
  • the predetermined operation device is a device that displaces or rotates the distal end portion 11.
  • it is an angle knob that directly controls the guide wire. It may be a lever, switch, slider, or the like.
  • a predetermined operation device has a clear correspondence relationship such that, for example, if the angle knob is rotated this much, the distal end portion 11 is bent upward by ⁇ . In other words, it is possible to clearly define the bending operation for bending the distal end portion 11 by ⁇ . The same is true for the rotation operation and the forward/backward operation.
  • the insertion portion 310b should be rotated about the axis by ⁇ . It suffices to push in the axial direction by x. That is, in an ideal state, there is a one-to-one correspondence between operation input and operation output, and operability is stable.
  • an angle knob is used as an example of a predetermined operating device, but this does not preclude the application of operations using other operating devices.
  • FIGS. 1(A) and 1(B) are diagrams explaining how the operability of a flexible endoscope changes depending on the situation.
  • the examples shown in FIGS. 1A and 1B both show a state in which the insertion portion 310b is inserted to the vicinity of the lesion in order to treat the lesion present in the greater curvature of the stomach. ing.
  • OBs shown in FIGS. 1A and 1B represent lesions.
  • the insertion section 310b is in contact with the cardia at the position indicated by A1, and is not in contact with the living body on the distal side of A1.
  • the distal end portion 11 reacts sensitively to the operator's operation. For example, when the operator uses the operation unit 310a to perform an operation that would cause the distal end portion 11 to bend by ⁇ in the ideal state, the distal end portion 11 bends by ⁇ 1, which is an angle close to ⁇ . do.
  • ⁇ 1 which is an angle close to ⁇ .
  • the insertion portion 310b is in contact with the surface of the stomach at A2, which is closer to the lesion to be treated OB than the cardia.
  • the movement of the tip portion 11 is restricted compared to the state of FIG. 1(A).
  • the distal end portion 11 is bent only by ⁇ 2 where ⁇ 2 ⁇ 1. In this case, although the movement of the distal end portion 11 is small, it is easily stabilized, so it is suitable for precise treatment.
  • a skilled doctor can perform treatment while constantly correcting changes in operability. Specifically, even with a flexible endoscope, a skilled doctor can control the insertion section 310b so that the relationship between operation input and operation output is as constant as possible. For example, as shown in FIG. 1B, a skilled doctor performs treatment in a stable state by bringing the insertion portion 310b into contact with the living body at an appropriate position and degree. Expert doctors are also good at preparing the surgical field by supplying air and suctioning as needed.
  • Patent Document 1 do not consider the relationship between the operation input and the operation output, and are not sufficient for collecting and evaluating the operation skill of the flexible endoscope.
  • FIG. 2 is a diagram showing the configuration of the processing system 100 according to this embodiment.
  • the processing system 100 includes an acquisition unit 110 , a processing unit 120 and an output processing unit 130 .
  • the processing system 100 is not limited to the configuration of FIG. 2, and various modifications such as omitting some of these components or adding other components are possible.
  • the acquisition unit 110 acquires operation input data and operation output data from the endoscope system 300 . Details of the endoscope system 300 will be described later with reference to FIGS. 3 and 4.
  • FIG. Operation input data is information specifying a user operation performed to change at least one of the position and posture of the insertion section 310b of the endoscope system 300 .
  • the operation output data is information representing how the position and orientation of the insertion section 310b are changed when the user's operation is performed.
  • the operation input data is acquired based on control information in the endoscope system 300, for example.
  • the operation output data is acquired based on, for example, a sensor or the like provided in the endoscope system 300 .
  • the acquisition unit 110 can be implemented by, for example, a communication chip for information acquisition, a processor or control circuit that controls the communication chip, or the like.
  • the processing unit 120 evaluates the skill of the user who has operated the endoscope system 300 based on the operation input data and the operation output data.
  • the process executed by the processing unit 120 may be, for example, a process of determining variations in transfer characteristic data, or may be a classification process such as clustering. Specific processing will be described later.
  • the processing system 100 When processing using a trained model is performed, the processing system 100 includes a storage unit (not shown) that stores a trained model generated by machine learning.
  • the storage unit here serves as a work area for the processing unit 120 and the like, and its function can be realized by a semiconductor memory, a register, a magnetic storage device, or the like.
  • the processing unit 120 reads a learned model from the storage unit and operates according to instructions from the learned model, thereby performing an inference process of outputting a user's skill evaluation result.
  • the processing unit 120 is configured with the following hardware.
  • the hardware may include circuitry for processing digital signals and/or circuitry for processing analog signals.
  • the hardware can consist of one or more circuit devices or one or more circuit elements mounted on a circuit board.
  • the one or more circuit devices are, for example, ICs (Integrated Circuits), FPGAs (field-programmable gate arrays), or the like.
  • the one or more circuit elements are, for example, resistors, capacitors, and the like.
  • Processing unit 120 may be realized by the following processors.
  • Processing system 100 includes a memory that stores information and a processor that operates on the information stored in the memory.
  • the memory here may be the storage unit described above, or may be a different memory.
  • the information is, for example, programs and various data.
  • a processor includes hardware.
  • Various processors such as a CPU (Central Processing Unit), a GPU (Graphics Processing Unit), and a DSP (Digital Signal Processor) can be used as the processor.
  • the memory may be a semiconductor memory such as SRAM (Static Random Access Memory) or DRAM (Dynamic Random Access Memory), a register, or a magnetic storage device such as HDD (Hard Disk Drive).
  • it may be an optical storage device such as an optical disc device.
  • the memory stores computer-readable instructions, and the instructions are executed by the processor to implement the functions of the processing unit 120 as processes.
  • the instruction here may be an instruction set that constitutes a program, or an instruction that instructs a hardware circuit of a processor to perform an operation.
  • all or part of each part of the processing unit 120 can be realized by cloud computing, and each process described later can be performed on cloud computing.
  • processing unit 120 of this embodiment may be implemented as a module of a program that runs on a processor.
  • the processing unit 120 is implemented as a processing module that performs skill evaluation based on operation input data and operation output data.
  • the program that implements the processing performed by the processing unit 120 of this embodiment can be stored, for example, in an information storage device that is a computer-readable medium.
  • the information storage device can be implemented by, for example, an optical disc, memory card, HDD, semiconductor memory, or the like.
  • a semiconductor memory is, for example, a ROM.
  • the processing unit 120 performs various processes of this embodiment based on programs stored in the information storage device. That is, the information storage device stores a program for causing the computer to function as the processing unit 120 .
  • a computer is a device that includes an input device, a processing unit, a storage unit, and an output unit.
  • the program according to the present embodiment is a program for causing a computer to execute each step described later with reference to FIG. 12 and the like.
  • the output processing unit 130 performs processing for outputting skill evaluation information that is the result of skill evaluation by the processing unit 120 .
  • the processing system 100 may include a display unit (not shown), and the output processing unit 130 may perform processing for displaying skill evaluation information on the display unit.
  • the processing system 100 may be connected to the endoscope system 300 via a network.
  • the output processing unit 130 may be a communication device or a communication chip that transmits skill evaluation information via a network.
  • the device that outputs the skill evaluation information is not limited to the endoscope system 300, and may be a PC (Personal Computer) capable of communicating with the processing system 100, or a mobile terminal device such as a smart phone or a tablet terminal. may
  • PC Personal Computer
  • the user's skill evaluation is performed based on both the operation output data and the operation output data. becomes possible to do. Since skill evaluation is possible from the viewpoint of whether or not the operator is appropriately controlling the operability, it is possible to improve the evaluation accuracy.
  • the endoscope according to the present embodiment is provided between an operation section 310a and an insertion section 310b, and has a flexible section 13 that passively moves. It's a speculum.
  • the presence of the flexible section 13 changes the relationship between the operation input data and the operation output data according to the state of the insertion section 310b. Therefore, the method of the present embodiment is suitable for skill evaluation for flexible endoscopes.
  • the processing performed by the processing system 100 of this embodiment may be implemented as an information processing method.
  • the information processing method when the relationship between the operation input data and the operation output data changes according to the state of the insertion portion 310b, the operation input data representing the operation performed by the user on the endoscope and the operation output data representing at least one of the position and posture of the insertion portion 310b at the time of operation, and skill evaluation of the user who operates the endoscope is performed based on the operation input data and the operation output data.
  • Output skill evaluation information that is the result.
  • FIG. 3 is a diagram showing the configuration of the endoscope system 300.
  • the endoscope system 300 includes a scope section 310 , a processing device 330 , a display section 340 and a light source device 350 .
  • An operator uses the endoscope system 300 to perform an endoscopy on a patient.
  • the configuration of the endoscope system 300 is not limited to that shown in FIG. 3, and various modifications such as omitting some components or adding other components are possible.
  • FIG. 3 shows an example in which the processing device 330 is one device connected to the scope section 310 via the connector 310d, but it is not limited to this.
  • part or all of the configuration of the processing device 330 may be constructed by other information processing devices such as a PC or a server system that can be connected via a network.
  • processing unit 330 may be implemented by cloud computing.
  • the scope section 310 has an operation section 310a, a flexible insertion section 310b, and a universal cable 310c including signal lines and the like.
  • the scope section 310 is a tubular insertion device that inserts a tubular insertion section 310b into a body cavity.
  • a connector 310d is provided at the tip of the universal cable 310c.
  • the scope unit 310 is detachably connected to the light source device 350 and the processing device 330 by a connector 310d. Furthermore, as will be described later with reference to FIG. 4, a light guide 315 is inserted through the universal cable 310c. emitted from the tip.
  • the insertion portion 310b has a distal end portion 11, a bendable bending portion 12, and a flexible portion 13 from the distal end to the proximal end of the insertion portion 310b.
  • the insertion portion 310b is inserted into the subject.
  • the distal end portion 11 of the insertion portion 310b is the distal end portion of the scope portion 310 and is a hard distal end rigid portion.
  • An objective optical system 311 and an imaging element 312, which will be described later, are provided at the distal end portion 11, for example.
  • the bending portion 12 can be bent in a desired direction according to the operation of the bending operation member provided on the operation portion 310a.
  • the bending operation member includes, for example, a horizontal bending operation knob 14a and a vertical bending operation knob 14b.
  • the operation portion 310a may be provided with various operation buttons such as a release button and an air/water supply button.
  • the processing device 330 is a video processor that performs predetermined image processing on the received imaging signal and generates a captured image.
  • a video signal of the generated captured image is output from the processing device 330 to the display unit 340 , and the live captured image is displayed on the display unit 340 .
  • the configuration of the processing device 330 will be described later.
  • the display unit 340 is, for example, a liquid crystal display or an EL (Electro-Luminescence) display.
  • the light source device 350 is a light source device capable of emitting white light for normal observation mode.
  • the light source device 350 may be capable of selectively emitting white light for normal observation mode and special light such as narrow band light.
  • FIG. 4 is a diagram for explaining the configuration of each part of the endoscope system 300. As shown in FIG. Note that in FIG. 4, a part of the configuration of the scope unit 310 is omitted and simplified.
  • the light source device 350 includes a light source 352 that emits illumination light.
  • the light source 352 may be a xenon light source, an LED (light emitting diode), or a laser light source. Also, the light source 352 may be another light source, and the light emission method is not limited.
  • the insertion section 310 b includes an objective optical system 311 , an imaging device 312 , an illumination lens 314 and a light guide 315 .
  • the light guide 315 guides illumination light from the light source 352 to the distal end of the insertion portion 310b.
  • the illumination lens 314 irradiates the subject with the illumination light guided by the light guide 315 .
  • the objective optical system 311 forms a subject image by reflecting light reflected from the subject.
  • the imaging element 312 receives light from the subject via the objective optical system 311 .
  • the imaging device 312 may be a monochrome sensor or a device with color filters.
  • the color filter may be a well-known Bayer filter, a complementary color filter, or other filters.
  • Complementary color filters are filters that include cyan, magenta, and yellow color filters.
  • the processing device 330 performs image processing and control of the entire system.
  • the processing device 330 includes a pre-processing section 331 , a control section 332 , a storage section 333 , a detection processing section 335 and a post-processing section 336 .
  • the preprocessing unit 331 performs A/D conversion that converts analog signals sequentially output from the imaging element 312 into digital images, and various correction processes for image data after A/D conversion. Note that an A/D conversion circuit may be provided in the image sensor 312 and the A/D conversion in the preprocessing section 331 may be omitted.
  • the correction processing here includes, for example, color matrix correction processing, structure enhancement processing, noise reduction processing, AGC (automatic gain control), and the like.
  • the preprocessing unit 331 may also perform other correction processing such as white balance processing.
  • the preprocessing unit 331 outputs the processed image to the detection processing unit 335 as an input image.
  • the pre-processing unit 331 also outputs the processed image to the post-processing unit 336 as a display image.
  • the detection processing unit 335 performs detection processing for detecting a region of interest such as a lesion from the input image.
  • the attention area detection processing is not essential, and the detection processing unit 335 can be omitted.
  • the post-processing unit 336 performs post-processing based on the outputs of the pre-processing unit 331 and the detection processing unit 335 and outputs the post-processed image to the display unit 340 .
  • the post-processing unit 336 may add the detection result of the detection processing unit 335 to the display image and display the added image.
  • the user who is the operator, treats the lesion area in the living body while viewing the image displayed on the display unit 340 .
  • the treatment is, for example, an endoscopic mucosal resection (EMR) or an endoscopic submucosal dissection (ESD) for resecting a lesion.
  • EMR endoscopic mucosal resection
  • ESD endoscopic submucosal dissection
  • the control unit 332 is connected to the imaging element 312, the preprocessing unit 331, the detection processing unit 335, the postprocessing unit 336, and the light source 352, and controls each unit.
  • the acquisition unit 110 acquires operation input data based on control information from the control unit 332, for example.
  • the acquisition unit 110 also acquires operation output data based on sensor information from a motion sensor provided in the insertion unit 310b, for example.
  • the processing unit 120 performs skill evaluation using the operation input data and the operation output data.
  • the output processing unit 130 outputs skill evaluation information to the display unit 340 and external devices connected to the endoscope system 300 .
  • FIG. 5 is a diagram showing a configuration example of a system including the processing system 100. As shown in FIG. As shown in FIG. 5, the system includes multiple endoscope systems 300 and a processing system 100 .
  • the processing system 100 is a server system connected to each of the endoscope systems 300 via a network.
  • the server system here may be a server provided in a private network such as an intranet, or a server provided in a public communication network such as the Internet.
  • the processing system 100 may be configured by one server device, or may include a plurality of server devices.
  • the processing system 100 may include a database server that collects operation input data and operation output data from a plurality of endoscope systems 300 and a processing server that performs skill evaluation.
  • the database server may collect other information such as difficulty level data, operator data, treatment tool data, peripheral device data, etc., as will be described later.
  • the processing system 100 may perform skill evaluation based on machine learning, as described later.
  • the processing system 100 may include a learning server that generates a trained model by performing machine learning using data collected by a database server as learning data.
  • the processing server performs skill evaluation based on the trained model generated by the learning server.
  • the processing system 100 when the processing system 100 can be connected to a plurality of endoscope systems 300, it is possible to efficiently collect data. For example, since it is easy to increase the amount of learning data used for machine learning, it is possible to improve the accuracy of skill evaluation.
  • Operation Input Data, Operation Output Data, and Transfer Characteristic Data As described above with reference to FIGS. Accordingly, the relationship between the operation input data and the operation output data greatly changes. Specific examples of operation input data and operation output data will be described below. Also, transfer characteristic data representing the relationship between the operation input data and the operation output data will be explained.
  • the operation input data of the present embodiment includes information regarding at least one of the amount of operation of the operation device, the amount of twisting of the insertion section 310b, and the amount of forward/backward movement of the insertion section 310b.
  • the amount of operation of the operation device is, for example, the amount of rotation of the angle knob, but may be the amount of operation when another operation device is operated.
  • the operation amount is an amount calculated from the translation or rotation of the operation device, but may be calculated from the time when the operation device is operated. In this way, the processing system 100 can acquire, as operation input data, information for specifying an operation performed on the insertion section 310b in a treatment using the endoscope system 300 or the like. become.
  • the operation input data is not limited to the parameters indicating the displacement of the input amount of the operator to the switches, levers, sliders, etc. as described above, but may be the amount of strength associated with forward/backward movement/twisting, and its velocity/angular velocity.
  • FIG. 6 is a diagram illustrating the configuration of the insertion section 310b.
  • the longitudinal direction of the insertion portion 310b is defined as a reference axis AX1.
  • the reference axis AX1 represents the longitudinal direction of the insertion section 310b when the bending section 12 is not bent.
  • the bending portion 12 can bend with respect to the reference axis AX1.
  • the bending portion 12 can adjust the bending angle with respect to the reference axis AX1 by operating at least one of the vertical bending operation knob 14b and the horizontal bending operation knob 14a.
  • ⁇ shown in FIG. 6 represents the bending angle.
  • the longitudinal direction of the bending portion 12 changes in a direction different from the reference axis AX1.
  • the angle knobs mentioned above are, for example, the up/down bending operation knob 14b and the left/right bending operation knob 14a, and the angle knob rotation amount is the operation amount of each of the up/down bending operation knob 14b and the left/right bending operation knob 14a.
  • the bending angle in the vertical direction changes according to the amount of operation of the vertical bending operation knob 14b.
  • the bending angle in the left-right direction changes according to the amount of operation of the left-right bending operation knob 14a.
  • the bending angle is a vector including a vertical bending angle and a horizontal bending angle.
  • the angle knob of the present embodiment may be any operation member capable of changing the bending angle of the distal end portion 11, and the specific configuration is not limited to the above example.
  • the control unit 332 of the endoscope system 300 can acquire the amount of rotation of the up/down bending operation knob 14b and the amount of rotation of the left/right bending operation knob 14a as control information using, for example, an encoder or the like.
  • the insertion portion 310b when the operator grasps the insertion portion 310b itself or the operation portion 310a connected to the insertion portion 310b by hand and performs a rotation operation, which is an operation of twisting the grasped portion around the reference axis AX1, the insertion portion 310b can be moved to the reference position. Rotate around axis AX1.
  • the twist amount of the insertion section 310b represents the rotation angle of the insertion section 310b at the operator's hand in the rotation operation.
  • the insertion portion 310b when the operator grasps the insertion portion 310b itself or the operation portion 310a connected to the insertion portion 310b by hand, and performs an advance/retreat operation, which is an operation of moving the grasped portion in the direction along the reference axis AX1, the insertion can be performed.
  • the portion 310b is inserted and removed in the direction along the reference axis AX1. That is, the forward/backward operation is an operation of pushing the insertion portion 310b into or out of the patient's body.
  • the advance/retreat amount represents the amount of movement of the insertion portion 310b at hand of the operator during the advance/retreat operation.
  • FIG. 7 is another diagram illustrating the configuration of the scope unit 310 of the endoscope system 300.
  • the endoscope system 300 may include an insertion amount/torsion amount sensor 62 .
  • the insertion amount/torsion amount sensor 62 is a cylindrical sensor having a hole through which the insertion portion 310b can be inserted, and is fixed at a predetermined location (not shown).
  • the predetermined location is, for example, a location including the patient's oral cavity, anus, and the like.
  • illustration of a band or the like used for fixing is omitted.
  • An encoder for detecting the amount of insertion of the insertion portion 310b in the axial direction and an encoder for detecting the amount of rotation of the insertion portion 310b around the axis are arranged on the inner peripheral surface of the hole of the insertion amount/torsion amount sensor 62. It is Therefore, the processing system 100 can acquire operation input data representing the advance/retreat amount and the twist amount of the insertion portion 310 b based on the sensor output of the insertion amount/twist amount sensor 62 .
  • the endoscope system 300 includes, for example, an advancing/retreating roller 17a that moves the insertion portion 310b in a direction corresponding to the reference axis AX1, and an advancing/retreating mechanism 17 having a driving portion 19 that drives the advancing/retreating roller 17a.
  • the forward/backward roller 17a is rotatable in a direction indicated by D1 or D2 with AX2 as a rotation axis. A part of the advancing/retreating roller 17a is in contact with the insertion portion 310b. Therefore, the insertion portion 310b moves forward by rotating the forward/backward roller 17a in the direction D1.
  • the advance/retreat amount of the insertion portion 310b may be information representing the amount of rotation of the advance/retreat roller 17 a or information representing the amount of driving of the driving portion 19 .
  • the endoscope system 300 includes a rotating roller 18a that rotates the insertion portion 310b about the reference axis AX1, and a twisting mechanism 18 that has a driving unit 19 that drives the rotating roller 18a. It's okay.
  • a drive unit for driving the forward/backward roller 17a and a drive unit for driving the rotating roller 18a may be provided separately.
  • the rotating roller 18a is rotatable in the direction indicated by D3 or D4 with AX3 as the rotation axis. A portion of the rotating roller 18a is in contact with the insertion portion 310b. Therefore, when the rotating roller 18a rotates, the insertion portion 310b rotates in the opposite direction to the rotating roller 18a.
  • the amount of twist of the insertion portion 310b may be information representing the amount of rotation of the rotating roller 18a, or may be information representing the amount of driving of the driving portion 19.
  • the advancing/retreating mechanism 17 and the twisting mechanism 18 are not essential components, and one or both of them can be omitted.
  • the operation input data in the present embodiment is information representing the amount of operation of the operation device, the amount of twisting of the insertion section 310b, and the amount of forward/backward movement of the insertion section 310b, and is information corresponding to the output of the encoder, for example.
  • the acquisition unit 110 of the processing system 100 acquires the output of the encoder, and the processing unit 120 calculates the operation amount of the operation device, the twist amount of the insertion unit 310b, and the advance/retreat amount of the insertion unit 310b based on the output. good.
  • the operation amount of the operation device, the twist amount of the insertion section 310b, and the advance/retreat amount of the insertion section 310b may be calculated in the control section 332 or the like of the processing device 330, and the obtaining section 110 may obtain the calculation results. That is, the information regarding the operation amount of the operation device, the amount of twist of the insertion section 310b, and the amount of advance/retreat of the insertion section 310b may be the amount of operation of the operation device, the amount of twist of the insertion section 310b, and the amount of advance/retreat of the insertion section 310b. Alternatively, information that can identify them may be used.
  • the operation output data includes information on at least one of the position, orientation, and speed of the distal end portion 11 of the insertion portion 310b, and may include strength such as pressing pressure of the distal end portion.
  • the position and orientation are hereinafter referred to as position and orientation.
  • the velocity here may be a translational velocity, an angular velocity, or both. In this way, the processing system 100 can acquire, as operation output data, information indicating how the insertion portion 310b is moved by the operation input.
  • the endoscope system 300 includes a motion sensor provided at the distal end portion 11 of the insertion portion 310b.
  • the motion sensor is, for example, a 6-axis sensor including a 3-axis acceleration sensor and a 3-axis angular velocity sensor.
  • the acceleration sensor is a sensor that detects translational acceleration on each of the XYZ axes.
  • the angular velocity sensor is a sensor that detects angular velocity around each of the XYZ axes.
  • the acquisition unit 110 acquires sensor information from a motion sensor and the processing unit 120 obtains the position and orientation of the distal end portion 11 based on the sensor information will be described below.
  • the position and orientation may be calculated outside the processing system 100, and the obtaining unit 110 may obtain the calculation result. That is, the information about at least one of the position, orientation, and speed of the distal end portion 11 of the insertion section 310b may be the position, orientation, and speed themselves, or may be information that can specify these.
  • the information that can specify the position or the like is, for example, sensor information of a motion sensor, but may be a captured image or the like as described later.
  • the processing unit 120 obtains the position and angle of the tip 11 by integrating the outputs of the acceleration sensor and the angular velocity sensor.
  • the motion sensor which is an inertial sensor
  • the processing unit 120 may obtain the translational velocity and angular velocity of the distal end portion 11 by adjusting the number of times of integration for the outputs of the acceleration sensor and the angular velocity sensor. Alternatively, the processing unit 120 may first obtain the position and orientation of the distal end portion 11 and differentiate the position and orientation to obtain information about the velocity.
  • the method of obtaining the position and orientation of the distal end portion 11 of the insertion portion 310b is not limited to using a motion sensor. Some modifications will be described below. As described above, the velocity can be obtained based on the position and orientation, and the description of the process for obtaining the velocity will be omitted below.
  • the endoscope system 300 may include a magnetic sensor provided on the distal end portion 11 .
  • a magnetic sensor includes two cylindrical coils whose center axes are perpendicular to each other.
  • the endoscope system 300 also includes a magnetic field generator (not shown) as a peripheral device. The magnetic sensor detects the position and orientation of the distal end portion 11 by detecting the magnetic field generated by the magnetic field generator.
  • the processing system 100 may also obtain the position and orientation of the distal end portion 11 of the insertion section 310b based on the captured image captured by the imaging device 312 .
  • the endoscope system 300 may include multiple imaging systems in the distal end portion 11 .
  • the processing unit 120 obtains the distance to the subject imaged on the image by performing stereo matching processing based on parallax images imaged by a plurality of imaging systems at different positions. Stereo matching is a well-known technique, and detailed description thereof will be omitted.
  • Stereo matching is a well-known technique, and detailed description thereof will be omitted.
  • the processing unit 120 can specify the coordinates of each point of the subject in the camera coordinate system, it can estimate the positional relationship with the subject.
  • the processing section 120 can obtain the position and orientation of the distal end portion 11 with respect to the subject. For example, if the subject can be assumed to be stationary, the processing unit 120 can identify changes in the position and orientation of the distal end portion 11 based on changes in the position and orientation of the subject.
  • the method of obtaining the position and orientation of the distal end portion 11 using the imaging system is not limited to the method using parallax images.
  • the processing unit 120 may measure the positional relationship between the subject and the distal end portion 11 by measuring the distance to the subject using a TOF (Time Of Flight) method or a structured light method.
  • the TOF method is a method of measuring the time it takes for a reflected wave of light to reach an image sensor.
  • the structured light method is a method of projecting a plurality of patterns of light onto an object and determining the distance from how each pattern of light appears.
  • phase shift method of obtaining a phase shift by projecting a pattern whose brightness changes with a sine wave. Since these techniques for estimating the three-dimensional shape of the subject are well known, detailed description thereof will be omitted.
  • the processing unit 120 may also associate a plurality of feature points in a plurality of different captured images.
  • the positions of feature points can be calculated from image information using methods such as SLAM (Simultaneous Localization and Mapping) and SfM (Structure from Motion).
  • the processing unit 120 obtains subject information by applying a bundle adjustment that optimizes the intrinsic parameters, the extrinsic parameters and the world coordinate point cloud from the image using a non-linear least squares method.
  • the processing unit 120 performs perspective projection transformation on the world coordinate points of the plurality of extracted feature points using each estimated parameter, and performs each parameter and each world coordinate point cloud so that the reprojection error is minimized.
  • methods such as SfM are publicly known, further detailed description thereof will be omitted. These methods can estimate not only the three-dimensional position of the subject but also the position and orientation of the camera.
  • the processing unit 120 may obtain transfer characteristic data representing the relationship between operation input data and operation output data, and perform skill evaluation based on the transfer characteristic data.
  • the transfer characteristic data is information representing operability when using a flexible endoscope. Therefore, by using the transfer characteristic data, it is possible to improve the accuracy of skill evaluation.
  • the transfer characteristic data is data representing the ratio between the magnitude of the operation input represented by the operation input data and the magnitude of the operation output represented by the operation output data.
  • the operation input data is information specifying the bending angle of the distal end portion 11 .
  • the acquisition unit 110 acquires operation input data representing the amount of rotation of the up/down bending operation knob 14b and the amount of rotation of the left/right bending operation knob 14a.
  • the amount of rotation of each angle knob can be associated with the bending angle of the distal end portion 11 when the insertion portion 310b is not in contact with another object. Therefore, the processing unit 120 obtains the ideal bending angle based on the angle knob rotation amount.
  • the ideal bending angle in the vertical direction obtained based on the amount of rotation of the vertical bending operation knob 14b is assumed to be ⁇ ud.
  • ⁇ lr be the ideal bending angle in the left-right direction obtained based on the amount of rotation of the left-right bending operation knob 14a.
  • the acquisition unit 110 acquires information such as a motion sensor.
  • the processing unit 120 identifies the position and orientation of the distal end portion 11 based on the acquired information. More specifically, the processing unit 120 obtains ⁇ pitch, which is the actual bending angle in the vertical direction, and ⁇ yaw, which is the actual bending angle in the horizontal direction.
  • the processing unit 120 obtains transfer characteristic data (Tx, Ty) based on the following expressions (1) and (2).
  • Tx and Ty are numerical data of 0 or more and 1 or less, respectively.
  • Tx ⁇ yaw/ ⁇ lr (1)
  • Ty ⁇ pitch/ ⁇ ud (2)
  • the operation input data may be information specifying an angular velocity representing a change in the bending angle of the distal end portion 11 .
  • the processing unit 120 obtains the ideal angular velocity based on the angle knob rotation amount.
  • the ideal curving angular velocity in the vertical direction obtained based on the amount of rotation of the vertical curving operation knob 14b is assumed to be ⁇ ud.
  • ⁇ lr be the ideal bending angular velocity in the left-right direction obtained based on the amount of rotation of the left-right bending operation knob 14a.
  • the acquisition unit 110 acquires information such as a motion sensor.
  • the processing unit 120 identifies the speed of the distal end portion 11 based on the acquired information. More specifically, the processing unit 120 obtains ⁇ pitch, which is the actual bending angular velocity in the vertical direction, and ⁇ yaw, which is the actual bending angular velocity in the horizontal direction.
  • the processing unit 120 obtains transfer characteristic data (Tx, Ty) based on the following equations (3) and (4).
  • Tx and Ty are numerical data of 0 or more and 1 or less, respectively.
  • Tx ⁇ yaw/ ⁇ lr (3)
  • Ty ⁇ pitch/ ⁇ ud (4)
  • the transmission characteristic data is the ratio of bending angles or the ratio of bending angular velocities.
  • the transmission characteristic data may be the ratio of forward/backward movement amounts, the speed ratio that is the difference between the forward/backward movement amounts, the torsion amount ratio, and the rotational angular velocity ratio that is the difference in the torsion amounts. You can understand.
  • FIG. 8 is a diagram showing an example of temporal changes in transfer characteristic data from the start to the end of treatment for a given lesion, for example.
  • the endoscope system 300 periodically acquires control information for specifying the operation input, sensor information of the insertion amount/torsion amount sensor 62, and the like.
  • the endoscope system 300 periodically acquires sensor information of a motion sensor for specifying an operation output, captured images, and the like.
  • the processing system 100 can acquire time-series operation input data and time-series operation output data.
  • the processing unit 120 can calculate the time-series transfer characteristic data shown in FIG. 8 by obtaining the ratio between the operation input data and the operation output data at each timing.
  • B1 in FIG. 8 represents the transfer characteristic data of a highly-skilled expert doctor
  • B2 represents the transfer characteristic data of a low-skilled novice doctor.
  • the skilled doctor can make appropriate adjustments, so that the variation in the transfer characteristic data is small.
  • the value of the transfer characteristic data is within the range of about 0.7 to 0.9.
  • the trainee cannot make appropriate adjustments, the values of the transfer characteristic data vary greatly.
  • the processing unit 120 evaluates the user's skill based on the size of the transfer characteristic data. For example, when evaluating a user's skill into two levels, high and low, the processing unit 120 acquires a numerical range of transfer characteristic data for skill evaluation. The processing unit 120 obtains time-series transfer characteristic data, and performs skill evaluation based on determination as to whether or not the transfer characteristic data is within the above numerical range. Specifically, the processing unit 120 determines that the skill of the user to be evaluated is high when the transfer characteristic data to be evaluated is within the numerical range, and determines that the skill of the user to be evaluated is high when the transfer characteristic data is out of the numerical range. is judged to be low in skill. However, the processing unit 120 may obtain a statistic of the time-series transfer characteristic data, and perform skill evaluation based on comparison processing between the statistic and the numerical range. The statistic here may be the variance, the difference between the maximum value and the minimum value, or other statistic.
  • the processing system 100 may include a database storing transfer characteristic data in past treatments.
  • the processing unit 120 acquires the numerical range set based on the database.
  • the processing system 100 includes a database server connected to the endoscope system 300 via a network or the like.
  • the processing system 100 obtains transfer characteristic data based on the operation input data and the operation output data acquired from the endoscope system 300, and stores the obtained transfer characteristic data in a database.
  • the database here may contain expert data and non-expert data.
  • Expert data is information representing transfer characteristic data when treatment is performed by an expert doctor.
  • Non-expert data is information representing transfer characteristic data when treatment is performed by a novice doctor.
  • Information such as the numerical range for skill evaluation in this embodiment is set based on at least expert data.
  • the processing system 100 obtains information such that many skilled doctors expect changes in the transfer characteristic data during treatment to fall within this range.
  • the processing unit 120 sets the numerical range based on the obtained information.
  • Whether the data stored in the database is expert or non-expert data may be determined based on the doctor's skill level or information specifying the course of treatment. For example, when transmitting operation input data and operation output data to the processing system 100, the endoscope system 300 may add skill level information representing the doctor's skill level and progress information representing progress as metadata. .
  • the proficiency level information is, specifically, number-of-cases information representing the number of times the target treatment has been performed.
  • the progress information is information representing the amount of bleeding, the incidence of complications, the number of days of hospitalization, and the like.
  • the processing system 100 determines whether the target data is expert data, which is the data of a skilled doctor, or non-expert data, which is the data of a trainee doctor.
  • whether or not the data is expert data may be determined based on the movement trajectory of the treatment instrument. It is believed that as skill improves, movements become more controlled and procedures can be accomplished with fewer movements. Therefore, it is determined that the smaller the total number of nodes in the movement trajectory of the treatment instrument accumulated in the operation log information, the higher the skill of the operator corresponding to the data.
  • processing unit 120 is not limited to evaluating the user's skill in two stages, and may evaluate in three stages or more.
  • the processing unit 120 can evaluate the user's skill by dividing it into three or more stages by setting a plurality of numerical ranges in advance.
  • the processing unit 120 may perform skill evaluation by performing classification processing based on operation input data and operation output data. Although a technique using machine learning will be described below, machine learning is not essential in the present embodiment, and classification may be performed using other techniques. In the following, processing using operation output data and transmission characteristic data as inputs for machine learning will be described, but various modifications such as using operation input data are possible.
  • Machine learning using a neural network will be described below, but the method of the present embodiment is not limited to this.
  • machine learning using other models such as SVM (support vector machine) may be performed, or machine learning using techniques developed from various techniques such as neural networks and SVM. may be performed.
  • SVM support vector machine
  • FIG. 9 is a schematic diagram explaining a neural network.
  • a neural network has an input layer to which data is input, an intermediate layer that performs operations based on the output from the input layer, and an output layer that outputs data based on the output from the intermediate layer.
  • FIG. 9 illustrates a network having two intermediate layers, the number of intermediate layers may be one, or three or more. Also, the number of nodes included in each layer is not limited to the example in FIG. 9, and various modifications are possible. Considering the accuracy, it is desirable to use deep learning using a multi-layered neural network for learning in this embodiment.
  • the term “multilayer” as used herein means four or more layers in a narrow sense.
  • the nodes contained in a given layer are combined with the nodes of adjacent layers.
  • a weighting factor is set for each connection.
  • Each node multiplies the output of the preceding node by the weighting factor, and obtains the sum of the multiplication results. Further, each node adds a bias to the total value and applies an activation function to the addition result to obtain the output of that node.
  • activation functions Various functions such as a sigmoid function and a ReLU function are known as activation functions, and these functions can be widely applied in this embodiment.
  • the weighting factor here includes the bias.
  • An example in which processing for generating a trained model is performed in a learning device will be described below.
  • the learning device may be, for example, a learning server included in the processing system 100 as described above, or may be a device provided outside the processing system 100 .
  • the learning device inputs the input data of the learning data to the neural network, and obtains the output by performing forward calculations using the weighting coefficients at that time.
  • the learning device calculates an error function based on the output and the correct label in the learning data. Then, the weighting coefficients are updated so as to reduce the error function.
  • an error backpropagation method can be used to update the weighting coefficients from the output layer toward the input layer.
  • the neural network may be a CNN (Convolutional Neural Network), an RNN (Recurrent Neural Network), or other models.
  • CNN Convolutional Neural Network
  • RNN Recurrent Neural Network
  • the processing procedure is the same as in FIG. That is, the learning device inputs the input data of the learning data to the model and obtains the output by performing forward calculation according to the model configuration using the weighting coefficients at that time.
  • An error function is calculated based on the output and the correct label, and the weighting coefficients are updated so as to reduce the error function.
  • the error backpropagation method can also be used when updating the weighting coefficients of CNN or the like.
  • FIG. 10 is a diagram illustrating the relationship between the input and output of the neural network in the technique of this embodiment.
  • inputs to the neural network are, for example, operation output data and transfer characteristic data.
  • transfer characteristic data By using transfer characteristic data, machine learning that directly reflects the relationship between operation input and operation output is possible.
  • the input may be information obtained based on the operation input data and the operation output data, and may be the operation input data and the transmission characteristic data, or all of the operation input data, the operation output data and the transmission characteristic data. may contain. Processing based on operation input data and operation output data may be performed, excluding transfer characteristic data.
  • time-series operation input data, time-series operation output data, and time-series transfer characteristic data based on them are acquired. be done.
  • Inputs to the neural network may be statistics calculated based on time series data.
  • the input of the neural network may be time-series data.
  • the learning device uses p pieces of data extracted from time-series operation output data and p pieces of transfer characteristic data at corresponding timings as inputs to a neural network.
  • p is an integer of 1 or more.
  • the output of the neural network is, for example, information representing the rank when the skill of the user to be evaluated is ranked in m stages.
  • m is an integer of 2 or more.
  • rank i is higher in skill than rank i+1.
  • i is an integer greater than or equal to 1 and less than m. That is, rank 1 represents the highest skill, and rank m represents the lowest skill.
  • the output layer of a neural network has m nodes.
  • the first node is information representing the likelihood that the skill of the user corresponding to the input data belongs to category 1.
  • each node is information representing the probability that the input data belongs to category 2 to category m.
  • the output layer is a well-known softmax layer
  • the m outputs are sets of probability data that sum to one.
  • Category 1 to category m are categories corresponding to rank 1 to rank m, respectively.
  • the learning device collects operation input data and operation output data obtained when a large number of operators perform treatments using flexible endoscopes, and stores metadata representing the user skill of the data. keep the data.
  • the metadata here is, for example, skill level information and progress information. Based on these metadata, the learning device identifies which of the m ranks the operator's skill belongs to. Alternatively, in the learning stage, the user may manually evaluate each user's skill in m levels, and the learning device may acquire the input results.
  • FIG. 11 is a flow chart explaining the learning process of the neural network.
  • the learning device acquires operation input data for learning and operation output data for learning.
  • the process of step S101 corresponds to, for example, a process in which the learning server reads one set of operation input data and operation output data from a large amount of data accumulated in the database server.
  • the operation input data for learning is operation input data used for learning. Specifically, as described above, at least one of the amount of operation of the operation device, the amount of twist of the insertion section 310b, and the amount of forward/backward movement of the insertion section 310b.
  • Information about The operation output data for learning is operation output data used for learning, and specifically, as described above, information regarding at least one of the position, orientation, and speed of the distal end portion 11 .
  • the operation input data and the learning operation input data represent the difference between data used in the learning stage and data used in the inference stage for skill evaluation.
  • the data format is the same. Also, data used as operation input data for inference at a given timing may be used as operation input data for learning at subsequent timings. The same applies to the operation output data and learning operation output data.
  • step S102 the learning device acquires the correct label associated with the data read out in step S101.
  • the correct label is, for example, the result of evaluating the skill of the user who has operated the endoscope in m stages, as described above.
  • step S103 the learning device performs processing for obtaining an error function. Specifically, the learning device obtains transfer characteristic data from the operation input data and the operation output data, and inputs the operation output data and the transfer characteristic data to the neural network. The learning device performs forward calculations based on the input and the weighting coefficients at that time. Then, the learning device obtains an error function based on the calculation result and the comparison processing of the correct label. For example, if the correct label is rank 1, the learning device determines that the correct value of the first node corresponding to category 1 is 1, and the correct values of the second to m-th nodes corresponding to categories 2 to m. is 0 and the error function is obtained.
  • step S103 the learning device performs processing to update the weighting coefficients so as to reduce the error function.
  • the error backpropagation method or the like can be used as described above.
  • the processing of steps S101 to S103 corresponds to one learning process based on one piece of learning data.
  • the learning device determines whether or not to end the learning process.
  • the learning device may hold a part of a large amount of learning data as evaluation data.
  • the evaluation data is data for confirming the accuracy of the learning result, and is data that is not used for updating the weighting coefficients.
  • the learning device ends the learning process when the accuracy rate of the estimation process using the evaluation data exceeds a predetermined threshold.
  • step S104 the process returns to step S101 to continue the learning process based on the next learning data. If Yes in step S104, the learning process is terminated.
  • the learning device transmits the generated learned model information to the processing system 100 .
  • the trained model is stored in a storage unit (not shown) included in the processing system 100 and read by the processing unit 120 .
  • Various techniques such as batch learning and mini-batch learning are known in machine learning, and these can be widely applied in the present embodiment.
  • machine learning is supervised learning.
  • the method of this embodiment is not limited to this, and unsupervised learning may be performed. For example, as described above, if the number of nodes in the output layer of the neural network is m, in unsupervised learning, a large number of is classified into m categories.
  • the learning device ranks each of the m categories. For example, a category containing a lot of data on experienced doctors is ranked high, and a category containing a lot of data on trainee doctors is ranked low. As described above, it is possible to determine whether each piece of data is the expert doctor's data or the novice doctor's data based on the proficiency level information and the progress information. However, various modifications can be made to the detailed processing. For example, learning data is ranked in m stages in advance, and the learning device selects m categories based on the average value or total value of the ranks of the data included in each category. Ranking may be done. Even when performing unsupervised learning, it is possible to generate a trained model that evaluates the user's skill in m levels based on the input, as in the case of supervised learning.
  • the processing unit 120 classifies a plurality of transfer characteristic data for learning into m (m is an integer equal to or greater than 2) categories. Skill evaluation is performed based on the model and transfer characteristic data. As described above, the trained model may be generated based on supervised learning or unsupervised learning.
  • FIG. 12 is a flowchart for explaining the skill evaluation process.
  • the acquisition unit 110 acquires the operation input data and the operation output data of the user who is the subject of skill evaluation.
  • the processing unit 120 uses the obtained operation input data and operation output data to obtain transfer characteristic data by performing the calculations shown in the above equations (1) to (4).
  • step S203 the processing unit 120 performs inference processing based on the learned model.
  • the processing unit 120 inputs the operation output data and the transfer characteristic data to the learned model, performs forward calculations according to the learned weighting coefficients, and obtains m Get the output.
  • the processing unit 120 obtains the user's skill evaluation information based on the output. For example, the processing unit 120 evaluates the user's skill in m stages based on the data with the largest value among the m outputs.
  • step S204 the output processing unit 130 outputs skill evaluation information that is the result of skill evaluation.
  • the skill evaluation information is information specifying which of the ranks 1 to m the user's skill evaluation result is.
  • the processing unit 120 of the processing system 100 evaluates the user's skill by operating according to the learned model.
  • Calculations in the processing unit 120 according to the trained model that is, calculations for outputting output data based on input data may be performed by software or by hardware.
  • the sum-of-products operation and the like performed at each node in FIG. 9 may be performed by software.
  • the above calculations may be performed by a circuit device such as an FPGA.
  • the above operations may be performed by a combination of software and hardware.
  • a trained model includes an inference algorithm and weighting factors used in the inference algorithm.
  • An inference algorithm is an algorithm that performs forward calculations and the like based on input data.
  • both the inference algorithm and the weighting coefficient are stored in the storage unit, and the processing unit 120 may perform the inference processing by software by reading out the inference algorithm and the weighting coefficient.
  • the inference algorithm may be implemented by FPGA or the like, and the storage unit may store the weighting coefficients.
  • an inference algorithm including weighting factors may be implemented by an FPGA or the like.
  • the storage unit that stores the information of the trained model is, for example, the built-in memory of the FPGA.
  • the processing unit 120 may obtain an n-dimensional feature quantity (n is an integer equal to or greater than 2) based on the transfer characteristic data and the learned model. For example, in the learning device, in the same manner as the processing described above using FIGS. good.
  • the acquisition unit 110 acquires the operation input data and operation output data of the user whose skill is to be evaluated, and the processing unit 120 obtains transmission characteristic data.
  • the processing unit 120 inputs the operation output data and the transfer characteristic data to the learned model, and performs forward calculations according to the learned weighting coefficients.
  • the processing unit 120 obtains the data in the intermediate layer as an n-dimensional feature amount.
  • the value in the j-th intermediate layer having n nodes is the n-dimensional feature quantity.
  • q is an integer of 2 or more
  • j is an integer of 1 or more and q or less.
  • j q
  • the intermediate layer closest to the output layer has n nodes
  • the output of each node is the feature amount.
  • an n-dimensional feature amount may be obtained by combining outputs from multiple intermediate layers.
  • FIG. 13 is an example of an n-dimensional feature amount space.
  • the horizontal axis represents the feature amount A among the n-dimensional feature amounts, and the vertical axis represents the feature amount B different from the feature amount A.
  • the values of the first to n-th feature values are obtained. That is, a set of operation output data and transfer characteristic data is plotted as one point on the n-dimensional feature amount space.
  • the n-dimensional feature amount extracted based on machine learning is a feature amount for classifying the input consisting of the operation output data and the transfer characteristic data into m categories. Therefore, as shown in FIG.
  • the result of clustering based on the distance in the n-dimensional feature amount space becomes the category representing the skill of the user.
  • the user's skill into m stages according to the position of the point in the n-dimensional feature quantity obtained based on the input.
  • C1 in FIG. 13 represents a rank 1 category
  • C2 represents a rank 2 category
  • C3 represents a rank 3 category.
  • m 3 here, the value of m may be other values of 2 or more.
  • the processing unit 120 calculates the position in the feature amount space of the n-dimensional feature amount obtained by inputting the operation output data and the transfer characteristic data to be the target of skill evaluation into the learned model, and one of the m categories.
  • skill evaluation is performed based on the distance between the centroid positions in the feature amount space of a plurality of categories.
  • the position of the center of gravity here is information obtained based on the positions of a plurality of points included in each category, and is, for example, an average value of a plurality of coordinate values.
  • the centroid position of each category is known at the stage when learning is completed.
  • the distance here is, for example, the Euclidean distance, but other distances such as the Mahalanobis distance may be used.
  • the processing unit 120 obtains the category having the smallest distance from the n-dimensional feature amount obtained by the forward calculation among the first to m-th categories, and determines that the data to be evaluated belongs to this category. .
  • the processing unit 120 determines rank 1 when the distance from the center of gravity of C1 is the shortest, and determines rank 2 when the distance from the center of gravity of C2 is the shortest.
  • C3 is the smallest, the rank is determined to be 3.
  • step S204 the output processing unit 130 outputs skill evaluation information that is the result of skill evaluation.
  • an n-dimensional feature amount may be extracted by performing principal component analysis on inputs based on operation input data and operation output data. Since the method of performing principal component analysis is well known, detailed description thereof will be omitted. A method of performing principal component analysis using machine learning is also known, and machine learning can be applied in that case as well. The processing after n-dimensional feature quantity extraction is the same as the above example.
  • the skill evaluation method is not limited to the above.
  • the processing unit 120 may perform skill evaluation based on the distance between the plot point corresponding to the user to be evaluated and the plot point corresponding to the second user different from the user.
  • the second user here is, for example, an instructor, and the user to be evaluated is a user who receives guidance from the instructor. In this way, an index indicating how close the skill of the user to be evaluated is to the skill of the instructor can be output as the skill evaluation information.
  • the acquisition unit 110 may acquire difficulty level data representing the case difficulty level as metadata associated with the operation input data and the operation output data.
  • the processing unit 120 performs skill evaluation based on the operation input data, operation output data, and difficulty level data.
  • the ease of treatment differs depending on the difficulty of the case. More specifically, there are cases where it is easy to keep the operability constant, and there are cases where it is difficult even for an experienced doctor to suppress variation in operability. If differences according to cases are not considered, even unavoidable variations in operability due to the difficulty of the case will lead to a low evaluation of the skill. Alternatively, the simplicity of the case may lead to overestimation of user skill. In that respect, the difficulty of the case can be taken into account by using the difficulty level data for processing, so that the accuracy of skill evaluation can be improved.
  • different learned models may be generated according to the degree of difficulty of the case.
  • a trained model for high difficulty and a trained model for low difficulty are generated separately.
  • a learned model for high difficulty is a model generated by machine learning based on operation input data and operation output data with high case difficulty.
  • a learned model for low difficulty is a model generated by machine learning based on operation input data and operation output data with low case difficulty.
  • the processing unit 120 selects which one of the high-difficulty trained model and the low-difficulty trained model to use based on the difficulty level data given as metadata, and selects the selected trained model. Perform skill assessment by entering data into the model.
  • the number of learned models corresponding to the case difficulty level is not limited to two, and may be three or more.
  • the case difficulty level is determined based on the difficulty level of the procedure itself and information specific to the target lesion.
  • Lesion-specific information includes information such as the size of the lesion, the site where the lesion exists, the insertion route of the endoscope, the tissue properties of the lesion, and the amount of bleeding during surgery. Techniques for determining the degree of difficulty of a case using these pieces of information as parameters are known, and the same technique can be applied in this embodiment.
  • the acquisition unit 110 may also acquire operator data representing the operator who has operated the endoscope as metadata associated with the operation input data and the operation output data.
  • the processing unit 120 performs skill evaluation based on the operation input data, the operation output data, and the operator data.
  • the operator data here may be, for example, information specifying the school of the operator. As described above, even for the same case, different procedures are performed depending on the school. Therefore, if the difference between schools is not taken into account, there is a risk that the accuracy of skill evaluation will be reduced.
  • different learned models may be generated according to the operator data. More specifically, a trained model is generated for each school. For example, a trained model for the first school and a trained model for the second school are generated separately.
  • a learned model for the first school is a model generated by machine learning based on operation input data and operation output data by an operator belonging to the first school.
  • the learned model for the second school is a model generated by machine learning based on operation input data and operation output data by an operator belonging to the second school.
  • the processing unit 120 selects which of the trained models for the first school and the second school to use based on the operator data given as metadata, and inputs data to the selected trained model. Skill evaluation is performed by Naturally, the number of schools may be three or more.
  • the acquisition unit 110 may also acquire, as metadata associated with the operation input data and the operation output data, treatment instrument data that identifies the treatment instrument used for the treatment with the endoscope.
  • the processing unit 120 performs skill evaluation based on the operation input data, the operation output data, and the treatment instrument data.
  • the treatment instrument here is an instrument for performing treatment on a living body, and includes, for example, a high frequency snare and a high frequency knife.
  • High frequency knives include needle knives, IT knives, hook knives, and the like.
  • a needle knife is used for ESD marking.
  • An IT knife is used for the incision.
  • a high-frequency snare or high-frequency knife is used for peeling.
  • the treatment instrument may also include other instruments such as injection needles, forceps, and clips.
  • An injection needle is used for local injection of ESD. Forceps or clips are used to stop bleeding.
  • Different treatment tools are used for different types of lesions, and different treatment tools are used depending on the specific steps in surgery for a single lesion.
  • the appropriate method of use differs depending on the treatment instrument.
  • the used treatment tool can be taken into account, so it is possible to improve the accuracy of skill evaluation.
  • a plurality of different learned models may be generated according to the treatment instrument.
  • a trained model for needle knives and a trained model for IT knives are generated separately.
  • a trained model for a needle knife is a model generated by machine learning based on operation input data and operation output data in treatment using a needle knife.
  • a trained model for an IT knife is a model generated by machine learning based on operation input data and operation output data in treatment using an IT knife.
  • the processing unit 120 selects which learned model to use based on the treatment instrument data given as metadata, and performs skill evaluation by inputting data into the selected learned model. Note that, as described above, various treatment tools other than needle knives and IT knives are conceivable, so the number of learned models may be three or more.
  • the learned model differs depending on the difficulty data, operator data, and treatment instrument data.
  • the method of this embodiment is not limited to this.
  • difficulty level data, operator data, and treatment instrument data may be used as model inputs.
  • FIG. 14 is another diagram showing the input and output of the neural network.
  • the learning device generates a learned model by using not only operation output data and transmission characteristic data, but also difficulty level data, operator data, and treatment instrument data as inputs.
  • the acquisition unit 110 acquires difficulty level data, operator data, and treatment instrument data when acquiring operation input data and operation output data to be evaluated for skill.
  • the processing unit 120 inputs the operation output data, the transfer characteristic data, the difficulty data, the operator data, and the treatment tool data to the learned model, and performs a skill evaluation by performing forward calculations. Even in this way, it is possible to evaluate the skill in consideration of the degree of difficulty of the case, the operator (school), and the treatment tool, so that it is possible to improve the accuracy.
  • peripheral device data representing the usage status of peripheral devices of the endoscope may be used for skill evaluation.
  • the learning device generates a learned model by using not only the operation output data and the transfer characteristic data but also the peripheral device data as inputs.
  • Acquisition unit 110 acquires peripheral device data.
  • the processing unit 120 performs skill evaluation based on the operation input data, the operation output data, and the peripheral device data.
  • the peripheral device here is a device that accompanies the endoscope system 300 .
  • the main body of the endoscope system 300 includes components such as the scope unit 310 and the processing device 330 that are essential for observing the inside of the living body.
  • the main unit may include the display unit 340 and the light source device 350 .
  • peripheral equipment is not an essential component for imaging itself, and includes, for example, a power supply device for supplying power to a treatment tool that is a high-frequency device, and a device having a pump for air supply and suction.
  • Peripheral device data is information that indicates, for example, the timing and number of times of air supply and suction. Since the degree of expansion and contraction of the organ is controlled by air supply and suction, the condition of the surgical field changes. An expert can appropriately control the operability by preparing the surgical field in advance. On the other hand, the trainee cannot arrange the surgical field well, cannot stabilize the distal end portion 11, or causes excessive contact between the insertion portion 310b and the living body. Therefore, information on air supply and suction is useful for skill evaluation of the operator, and the accuracy of skill evaluation can be improved by using peripheral device data.
  • Peripheral device data is, for example, information when a high-frequency device is energized.
  • the information at the time of energization may be, for example, information representing the timing of energization, continuous energization time during treatment, total energization time, or the number of times of energization.
  • a skilled person energizes when necessary and suppresses energization when not required. By doing so, it is possible to prevent the living body from being erroneously cauterized by the high-frequency device. On the other hand, there are cases where novice doctors turn on electricity in unnecessary situations. Therefore, the information at the time of energization is useful for skill evaluation of the operator, and the accuracy of skill evaluation can be improved by using the peripheral device data.
  • AX1 Reference axis 11... Tip part 12... Bending part 13... Flexible part 14a... Left/right bending operation knob 14b... Up/down bending operation knob 17... Retraction mechanism 17a... Retraction roller 18... Twisting mechanism 18a Rotating roller 19
  • Driving unit 62 Insertion/torsion amount sensor 100 Processing system 110 Acquisition unit 120 Processing unit 130 Output processing unit 300 Endoscope system 310 Scope unit , 310a operation unit 310b insertion unit 310c universal cable 310d connector 311 objective optical system 312 imaging element 314 illumination lens 315 light guide 330 processing device 331 pretreatment Part 332... Control part 333... Storage part 335... Detection processing part 336... Post-processing part 340... Display part 350... Light source device 352... Light source

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Surgery (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Biomedical Technology (AREA)
  • Optics & Photonics (AREA)
  • Pathology (AREA)
  • Radiology & Medical Imaging (AREA)
  • Biophysics (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Animal Behavior & Ethology (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Veterinary Medicine (AREA)
  • Endoscopes (AREA)

Abstract

処理システム(100)は、内視鏡に対するユーザの操作を表す操作入力データと、操作を行った際の挿入部(310b)の位置及び姿勢の少なくとも一方を表す操作出力データと、を取得する取得部(110)と、操作入力データ及び操作出力データに基づいて、内視鏡を操作するユーザのスキル評価を行う処理部(120)と、スキル評価の結果であるスキル評価情報を出力する出力処理部(130)を含み、操作入力データと操作出力データの関係は、挿入部(310b)の状態に応じて変化する。

Description

処理システム及び情報処理方法
 本発明は、処理システム及び情報処理方法等に関する。
 従来、内視鏡システムを用いて生体を対象とした処置を行う手法が広く知られている。内視鏡における処置の良し悪しは、医師の経験値や操作上の暗黙知によるものが大きい。そのため、医師のスキルを評価する取組みが数多く行われている。例えば特許文献1には、医療ロボットの動作データを用いて、医師の技能を評価する手法が開示されている。
特開2012-521568号公報
 内視鏡を用いた処置や観察においては、状況に応じて操作性が大きく変化する場合がある。熟練医は、操作性の変化を絶えず修正しながら処置を行っている。即ち、操作性に関する情報はスキル評価に有用である。しかし従来のスキル評価手法においては、操作性が考慮されていない。例えば特許文献1の手法は、外科用内視鏡を対象としているため、操作性が状況に応じて変化することを想定してしない。
 本開示の一態様は、内視鏡に対してユーザが行った操作を表す操作入力データと、前記操作を行った際の挿入部の位置及び姿勢の少なくとも一方を表す操作出力データと、を取得する取得部と、前記操作入力データ及び前記操作出力データに基づいて、前記内視鏡を操作する前記ユーザのスキル評価を行う処理部と、前記スキル評価の結果であるスキル評価情報を出力する出力処理部と、を含み、前記操作入力データと前記操作出力データの関係は、前記挿入部の状態に応じて変化する処理システムに関係する。
 本開示の他の態様は、内視鏡に対してユーザが行った操作を表す操作入力データと、前記操作を行った際の挿入部の位置及び姿勢の少なくとも一方を表す操作出力データと、を取得し、前記操作入力データ及び前記操作出力データに基づいて、前記内視鏡を操作する前記ユーザのスキル評価を行い、前記スキル評価の結果であるスキル評価情報を出力し、前記操作入力データと前記操作出力データの関係は、前記挿入部の状態に応じて変化する情報処理方法に関係する。
図1(A)、図1(B)は状況に応じた操作性の違いを説明する図。 処理システムの構成例。 内視鏡システムの外観例。 内視鏡システムの構成例。 処理システムを含むシステムの構成例。 挿入部の詳細な構成例。 内視鏡システムのスコープ部の他の構成例。 伝達特性データの時間変化を説明する図。 ニューラルネットワークの説明図。 ニューラルネットワークの入力及び出力の例。 学習処理を説明するフローチャート。 推論処理であるスキル評価処理を説明するフローチャート。 n次元特徴量空間におけるクラスタリング結果の例。 ニューラルネットワークの入力及び出力の例。
 以下、本実施形態について説明する。なお、以下に説明する本実施形態は、請求の範囲に記載された内容を不当に限定するものではない。また本実施形態で説明される構成の全てが、本開示の必須構成要件であるとは限らない。
1.システム構成例
 従来、軟性部を有する軟性内視鏡を用いた処置が広く行われている。軟性内視鏡は、例えば図3を用いて後述するように、挿入部310bの先端部11から操作部310aまでが軟性且つ長大である。そのため、先端部11が生体と接触することによる感触や力量は、術者にはほとんど伝わらない。また術者が取得できる情報は、先端部11に設けられる撮像系による撮像画像が主である。即ち、術者が確認できるのは画面から見える範囲及び角度のみである。さらに言えば、撮像画像は3次元的な情報を有さない場合が多い。そのため、術者は、病変に対する実際の内視鏡の位置や姿勢を想像で補っている。
 このように十分な情報が得られない中で、内視鏡医である術者は自らの経験則に基づいて手技を行う。そのため、熟練医自身も、どういう時にどう操作するのがよいのか、うまく言葉で表すことができない。換言すれば、従来、内視鏡の処置におけるスキルは「暗黙知」となっていた。
 そのため、ユーザスキルを可視化、定量化することに対する要求がある。客観的なスキル評価が可能になれば、ユーザのスキルアップを容易にすることや、病院における人材配置を最適化すること等が可能になる。例えば特許文献1では、ユーザが行なう外科的作業に対するデータを収集し、収集したデータと、同じ外科的作業に対する他のデータとを比較することによってユーザの臨床技能を定量化する。
 しかし特許文献1等の従来手法では、内視鏡ならではの課題が考慮されてない。例えば内視鏡には、上述したとおり軟性部を有する軟性内視鏡が含まれる。そのため、軟性内視鏡を用いた治療においては、内視鏡が病変に到達した後の、管腔内における病変への内視鏡先端のポジショニングの取り方や、送気吸引を含めた術場の作り方によって、内視鏡を支える場所が変化する。結果として、軟性内視鏡を用いた処置中は、操作性が変化しやすい。また対象組織側が動くことによっても、操作性は変化する。
 ここでの操作性とは、操作入力に対する操作出力の関係を表す。操作入力とは、術者が挿入部310bの先端部11を移動させるために手元で行う具体的な操作を表す。例えば、軟性内視鏡は、湾曲部12を上下左右に湾曲させる湾曲操作、挿入部310bを軸周りに回転させる回転操作、挿入部310bを挿抜させる進退操作を行うことが可能である。操作出力とは、操作入力に対して、挿入部310bがどのように動いたか、より具体的には挿入部310bの先端部11がどのように動いたかを表す情報である。
 挿入部310bが屈曲せず、且つ、他の物体に接触しない状態では、術者が所定の操作デバイスを操作させたときの操作量と、先端部11の実際の動きはある程度正確に対応する。なお、所定の操作デバイスとは、先端部11を変位又は回転させるものであり、例えばガイドワイヤーを直接制御するアングルノブであるが、ガイドワイヤーを制御するモーター等を含む駆動手段と電気的に接続するレバー、スイッチ又はスライダー等であってもよい。また、所定の操作デバイスは、例えば、アングルノブをこれだけ回転させれば、先端部11は上方向にθだけ湾曲する、といった対応関係が明確である。換言すれば、先端部11をθだけ湾曲させるための湾曲操作を明確に定義可能である。回転操作、進退操作についても同様であり、先端部11をφだけ回転させたければ挿入部310bを軸周りにφだけ回転させればよく、先端部11をxだけ前進させたければ挿入部310bを軸方向にxだけ押し込めばよい。即ち、理想的な状態では、操作入力と操作出力は1対1に対応しており、操作性は安定している。なお、以降の説明のおいては、所定の操作デバイスはアングルノブを例に説明するが、他の操作デバイスによる操作の適用を妨げるものではない。
 しかし挿入時の軟性内視鏡は、先端部11が観察や処置の対象となる部位に到達した際に、挿入部310bと生体がどのような関係にあるかが、状況に応じて大きく異なる。
 図1(A)、図1(B)は、軟性内視鏡における操作性が状況に応じて変化することを説明する図である。図1(A)、図1(B)に示す例では、いずれも胃の大彎部分に存在する病変に対する処置を行うために、当該病変の近傍まで挿入部310bが挿入された状態を図示している。図1(A)、図1(B)に示すOBが病変を表す。
 図1(A)に示す状態では、挿入部310bはA1に示す位置において噴門と接触しており、且つ、A1よりも先端側では生体と接触していない。この場合、先端部11の動きが接触によって規制されにくいため、術者の操作に対して先端部11は敏感に反応する。例えば、術者が操作部310aを用いて、上記理想的な状態であれば先端部11がθだけ湾曲するであろう操作を行った場合、先端部11はθに近い角度であるθ1だけ湾曲する。この場合、先端部11を大きく動かすことは容易であるものの、安定感に欠け、精緻な処置が妨げられるおそれがある。
 一方、図1(B)に示す状態では、挿入部310bは噴門よりも処置対象の病変であるOBに近い位置であるA2において、胃の表面と接触している。この場合、A2での接触に起因して、図1(A)の状態に比べて先端部11の動きが規制される。例えば、術者が先端部11をθだけ湾曲させる操作を行った場合、先端部11はθ2<θ1であるθ2しか湾曲しない。この場合、先端部11の動きは小さくなるものの、安定化が容易であるため、精緻な処置に適している。
 スキルに長けた熟練医は、操作性の変化を絶えず修正しながら処置を行うことが可能である。具体的には熟練医は、軟性内視鏡であっても、操作入力に対する操作出力の関係ができるだけ一定となるように、挿入部310bを制御できる。例えば熟練医は、図1(B)に示したように、適切な位置及び程度で挿入部310bを生体に接触させる状態を実現することによって、安定した状態で処置を行う。また熟練医は、必要に応じて送気や吸引を行うことによって、術場を整えるスキルにも長けている。
 一方、熟練医に比べてスキルの低い修練医は、操作性を適切に制御できない。例えば修練医は、精緻な処置が必要なときに、挿入部310bを図1(A)のような接触の少ない状態としてしまうため、先端部11を安定させることができない。逆に、挿入部310bと生体を過剰に接触させることによって、操作部310aを操作しているのに先端部11が十分に動かないといったケースも考えられる。
 以上のように、軟性内視鏡を対象とした場合、時々刻々と変化する操作入力と操作出力の関係は、ユーザのスキル評価に有用である。しかし特許文献1等の従来手法では、この操作入力と操作出力の関係が考慮されておらず、軟性内視鏡の操作技能を収集及び評価するには十分ではない。
 図2は、本実施形態に係る処理システム100の構成を示す図である。処理システム100は、取得部110と、処理部120と、出力処理部130を含む。ただし処理システム100は図2の構成に限定されず、これらの一部の構成要素を省略したり、他の構成要素を追加したりするなどの種々の変形実施が可能である。
 取得部110は、内視鏡システム300から操作入力データと、操作出力データを取得する。内視鏡システム300の詳細については、図3及び図4を用いて後述する。操作入力データとは、内視鏡システム300の挿入部310bの位置及び姿勢の少なくとも一方を変更するために行われたユーザ操作を特定する情報である。操作出力データとは、当該ユーザ操作が行われた場合に、挿入部310bの位置及び姿勢がどのように変化したかを表す情報である。操作入力データは、例えば内視鏡システム300における制御情報に基づいて取得される。操作出力データは、例えば内視鏡システム300に設けられるセンサ等に基づいて取得される。取得部110は、例えば情報取得用の通信チップ、当該通信チップを制御するプロセッサ又は制御回路等によって実現が可能である。
 処理部120は、操作入力データと操作出力データに基づいて、内視鏡システム300の操作を行ったユーザのスキル評価を行う。処理部120が実行する処理は、例えば伝達特性データの変動を判定する処理であってもよいし、クラスタリング等の分類処理であってもよい。具体的な処理は後述する。
 学習済モデルを用いる処理が行われる場合、処理システム100は、機械学習によって生成された学習済モデルを記憶する不図示の記憶部を含む。ここでの記憶部は、処理部120等のワーク領域となるもので、その機能は半導体メモリ、レジスタ、磁気記憶装置などにより実現できる。処理部120は、記憶部から学習済モデルを読み出し、当該学習済モデルからの指示に従って動作することによって、ユーザのスキル評価結果を出力する推論処理を行う。
 なお処理部120は、下記のハードウェアにより構成される。ハードウェアは、デジタル信号を処理する回路及びアナログ信号を処理する回路の少なくとも一方を含むことができる。例えば、ハードウェアは、回路基板に実装された1又は複数の回路装置や、1又は複数の回路素子で構成することができる。1又は複数の回路装置は例えばIC(Integrated Circuit)、FPGA(field-programmable gate array)等である。1又は複数の回路素子は例えば抵抗、キャパシター等である。
 また処理部120は、下記のプロセッサにより実現されてもよい。処理システム100は、情報を記憶するメモリと、メモリに記憶された情報に基づいて動作するプロセッサと、を含む。ここでのメモリは、上記の記憶部であってもよいし、異なるメモリであってもよい。情報は、例えばプログラムと各種のデータ等である。プロセッサは、ハードウェアを含む。プロセッサは、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、DSP(Digital Signal Processor)等、各種のプロセッサを用いることが可能である。メモリは、SRAM(Static Random Access Memory)、DRAM(Dynamic Random Access Memory)などの半導体メモリであってもよいし、レジスタであってもよいし、HDD(Hard Disk Drive)等の磁気記憶装置であってもよいし、光学ディスク装置等の光学式記憶装置であってもよい。例えば、メモリはコンピュータにより読み取り可能な命令を格納しており、当該命令がプロセッサにより実行されることで、処理部120の機能が処理として実現されることになる。ここでの命令は、プログラムを構成する命令セットの命令でもよいし、プロセッサのハードウェア回路に対して動作を指示する命令であってもよい。さらに、処理部120の各部の全部または一部をクラウドコンピューティングで実現し、後述する各処理をクラウドコンピューティング上で行うこともできる。
 また、本実施形態の処理部120は、プロセッサ上で動作するプログラムのモジュールとして実現されてもよい。例えば、処理部120は、操作入力データと操作出力データに基づいてスキル評価を行う処理モジュールとして実現される。
 また、本実施形態の処理部120が行う処理を実現するプログラムは、例えばコンピュータによって読み取り可能な媒体である情報記憶装置に格納できる。情報記憶装置は、例えば光ディスク、メモリカード、HDD、或いは半導体メモリなどによって実現できる。半導体メモリは例えばROMである。処理部120は、情報記憶装置に格納されるプログラムに基づいて本実施形態の種々の処理を行う。即ち情報記憶装置は、処理部120としてコンピュータを機能させるためのプログラムを記憶する。コンピュータは、入力装置、処理部、記憶部、出力部を備える装置である。具体的には本実施形態に係るプログラムは、図12等を用いて後述する各ステップを、コンピュータに実行させるためのプログラムである。
 出力処理部130は、処理部120によるスキル評価の結果であるスキル評価情報を出力する処理を行う。例えば、処理システム100は不図示の表示部を含み、出力処理部130は、スキル評価情報を当該表示部に表示する処理を行ってもよい。或いは、図5を用いて後述するように、処理システム100はネットワークを介して、内視鏡システム300に接続されてもよい。出力処理部130は、ネットワークを介してスキル評価情報を送信する通信デバイスや通信チップであってもよい。なおスキル評価情報が出力される機器は内視鏡システム300に限定されず、処理システム100と通信可能なPC(Personal Computer)であってもよいし、スマートフォンやタブレット端末等の携帯端末装置であってもよい。
 本実施形態の手法によれば、操作入力データと操作出力データの関係が、挿入部310bの状態に応じて変化する場合において、操作出力データと操作出力データの両方に基づいてユーザのスキル評価を行うことが可能になる。術者が操作性を適切に制御しているか否かという観点からスキル評価が可能であるため、評価精度を高くすることが可能になる。
 具体的には、本実施形態に係る内視鏡は、図3を用いて後述するように、操作部310aと挿入部310bとの間に設けられ、受動的に動く軟性部13を有する軟性内視鏡である。このような軟性内視鏡では、軟性部13が存在することによって、操作入力データと操作出力データの関係が挿入部310bの状態に応じて変化する。よって軟性内視鏡を対象としたスキル評価を行う場合に、本実施形態の手法は好適である。
 なお本実施形態の処理システム100が行う処理は、情報処理方法として実現されてもよい。情報処理方法は、操作入力データと操作出力データの関係が挿入部310bの状態に応じて変化する場合において、内視鏡に対してユーザが行った操作を表す操作入力データと、操作を行った際の挿入部310bの位置及び姿勢の少なくとも一方を表す操作出力データと、を取得し、操作入力データ及び操作出力データに基づいて、内視鏡を操作するユーザのスキル評価を行い、スキル評価の結果であるスキル評価情報を出力する。
 図3は、内視鏡システム300の構成を示す図である。内視鏡システム300は、スコープ部310と、処理装置330と、表示部340と、光源装置350とを含む。術者は、内視鏡システム300を用いて患者の内視鏡検査を行う。ただし、内視鏡システム300の構成は図3に限定されず、一部の構成要素を省略したり、他の構成要素を追加したりするなどの種々の変形実施が可能である。
 また図3においては、処理装置330が、コネクタ310dによってスコープ部310と接続される1つの装置である例を示したがこれには限定されない。例えば、処理装置330の一部又は全部の構成は、ネットワークを介して接続可能なPCやサーバシステム等の他の情報処理装置によって構築されてもよい。例えば、処理装置330はクラウドコンピューティングによって実現されてもよい。
 スコープ部310は、操作部310aと、可撓性を有する挿入部310bと、信号線などを含むユニバーサルケーブル310cとを有する。スコープ部310は、管状の挿入部310bを体腔内に挿入する管状挿入装置である。ユニバーサルケーブル310cの先端にはコネクタ310dが設けられる。スコープ部310は、コネクタ310dによって、光源装置350及び処理装置330と着脱可能に接続される。さらに、図4を用いて後述するように、ユニバーサルケーブル310c内には、ライトガイド315が挿通されており、スコープ部310は、光源装置350からの照明光を、ライトガイド315を通して挿入部310bの先端から出射する。
 例えば挿入部310bは、挿入部310bの先端から基端に向かって、先端部11と、湾曲可能な湾曲部12と、軟性部13とを有している。挿入部310bは、被写体に挿入される。挿入部310bの先端部11は、スコープ部310の先端部であり、硬い先端硬質部である。後述する対物光学系311や撮像素子312は、例えば先端部11に設けられる。
 湾曲部12は、操作部310aに設けられた湾曲操作部材に対する操作に応じて、所望の方向に湾曲可能である。湾曲操作部材は、例えば左右湾曲操作ノブ14a及び上下湾曲操作ノブ14bを含む。また操作部310aには、湾曲操作部材の他にも、レリーズボタン、送気送水ボタン等の各種操作ボタンが設けられてもよい。
 処理装置330は、受信した撮像信号に対して所定の画像処理を行い、撮像画像を生成するビデオプロセッサである。生成された撮像画像の映像信号は、処理装置330から表示部340へ出力され、ライブの撮像画像が、表示部340上に表示される。処理装置330の構成については後述する。表示部340は、例えば液晶ディスプレイやEL(Electro-Luminescence)ディスプレイ等である。
 光源装置350は、通常観察モード用の白色光を出射可能な光源装置である。なお、光源装置350は、通常観察モード用の白色光と、狭帯域光等の特殊光とを選択的に出射可能であってもよい。
 図4は、内視鏡システム300の各部の構成を説明する図である。なお図4では、スコープ部310の一部の構成を省略、簡略化している。
 光源装置350は、照明光を発光する光源352を含む。光源352は、キセノン光源であってもよいし、LED(light emitting diode)であってもよいし、レーザー光源であってもよい。また光源352は他の光源であってもよく、発光方式は限定されない。
 挿入部310bは、対物光学系311、撮像素子312、照明レンズ314、ライトガイド315を含む。ライトガイド315は、光源352からの照明光を、挿入部310bの先端まで導光する。照明レンズ314は、ライトガイド315によって導光された照明光を被写体に照射する。対物光学系311は、被写体から反射した反射光を、被写体像として結像する。
 撮像素子312は、対物光学系311を経由した被写体からの光を受光する。撮像素子312はモノクロセンサであってもよいし、カラーフィルタを備えた素子であってもよい。カラーフィルタは、広く知られたベイヤフィルタであってもよいし、補色フィルタであってもよいし、他のフィルタであってもよい。補色フィルタとは、シアン、マゼンタ及びイエローの各色フィルタを含むフィルタである。
 処理装置330は、画像処理やシステム全体の制御を行う。処理装置330は、前処理部331、制御部332、記憶部333、検出処理部335、後処理部336を含む。
 前処理部331は、撮像素子312から順次出力されるアナログ信号をデジタルの画像に変換するA/D変換と、A/D変換後の画像データに対する各種補正処理を行う。なお、撮像素子312にA/D変換回路が設けられ、前処理部331におけるA/D変換が省略されてもよい。ここでの補正処理とは、例えばカラーマトリクス補正処理、構造強調処理、ノイズ低減処理、AGC(automatic gain control)等を含む。また前処理部331は、ホワイトバランス処理等の他の補正処理を行ってもよい。前処理部331は、処理後の画像を入力画像として検出処理部335に出力する。また前処理部331は、処理後の画像を表示画像として、後処理部336に出力する。
 検出処理部335は、入力画像から病変等の注目領域を検出する検出処理を行う。ただし本実施形態では、注目領域の検出処理は必須ではなく、検出処理部335は省略が可能である。
 後処理部336は、前処理部331、検出処理部335の出力に基づく後処理を行い、後処理後の画像を表示部340に出力する。例えば後処理部336は、表示画像に対して、検出処理部335における検出結果を付加し、付加後の画像を表示する処理を行ってもよい。術者であるユーザは、表示部340に表示される画像を見ながら、生体内の病変領域に対する処置を行う。ここでの処置は、例えば内視鏡的粘膜切除術(EMR:Endoscopic mucosal resection)や、内視鏡的粘膜下層はく離術(ESD:Endoscopic submucosal dissection)等の病変を切除するための処置である。
 制御部332は、撮像素子312、前処理部331、検出処理部335、後処理部336、光源352と互いに接続され、各部を制御する。
 例えば処理システム100が処理装置330に含まれる場合、図4の構成に取得部110、処理部120及び出力処理部130が追加される。取得部110は、例えば制御部332の制御情報に基づいて操作入力データを取得する。また取得部110は、例えば挿入部310bに設けられるモーションセンサのセンサ情報に基づいて操作出力データを取得する。処理部120は、操作入力データと操作出力データを用いてスキル評価を行う。出力処理部130は、表示部340や、内視鏡システム300と接続される外部機器にスキル評価情報を出力する。
 或いは、処理システム100は、内視鏡システム300とは別体として設けられてもよい。図5は、処理システム100を含むシステムの構成例を示す図である。図5に示すように、システムは、複数の内視鏡システム300と、処理システム100を含む。
 例えば処理システム100は、複数の内視鏡システム300のそれぞれと、ネットワークを介して接続されるサーバシステムである。ここでのサーバシステムは、イントラネット等のプライベートネットワークに設けられるサーバであってもよいし、インターネット等の公衆通信網に設けられるサーバであってもよい。また処理システム100は、1つのサーバ装置によって構成されてもよいし、複数のサーバ装置を含んでもよい。例えば処理システム100は、複数の内視鏡システム300から、操作入力データと操作出力データを収集するデータベースサーバと、スキル評価を行う処理サーバを含んでもよい。データベースサーバは、例えば後述するように、難易度データ、術者データ、処置具データ、周辺機器データ等の他の情報を収集してもよい。
 また、処理システム100は、後述するように、機械学習に基づいてスキル評価を行ってもよい。例えば処理システム100は、データベースサーバが収集したデータを学習データとする機械学習を行うことによって、学習済モデルを生成する学習サーバを含んでもよい。処理サーバは、学習サーバによって生成された学習済モデルに基づいて、スキル評価を行う。
 図5に示したように、処理システム100が複数の内視鏡システム300と接続可能である場合、効率的にデータを収集することが可能である。例えば機械学習に用いる学習データの量を増やすことが容易であるため、スキル評価精度をより高くすることが可能である。
2.操作入力データ、操作出力データ及び伝達特性データ
 図1(A)、図1(B)を用いて上述したように、軟性内視鏡である内視鏡システム300においては、挿入部310bの状態に応じて、操作入力データと操作出力データの関係が大きく変化する。以下、操作入力データと操作出力データの具体例について説明する。また、操作入力データと操作出力データの関係を表す伝達特性データについても説明する。
2.1 操作入力データ
 本実施形態の操作入力データは、操作デバイスの操作量、挿入部310bのねじり量、挿入部310bの進退量の少なくとも1つに関する情報を含む。なお、操作デバイスの操作量とは、例えばアングルノブ回転量であるが、他の操作デバイスを操作した場合の操作量であってもよい。なお、操作量は、操作デバイスの並進や回転から演算される量であるが、操作デバイスを操作した時間から演算してもよい。このようにすれば、処理システム100は、内視鏡システム300を用いた処置等において、挿入部310bに対して行われた操作を特定するための情報を、操作入力データとして取得することが可能になる。なお、操作入力データは上記のようなスイッチ、レバー、スライダー等に対する術者の入力量の変位を示すパラメータに限らず、進退・ねじりに伴う力量、その速度・角速度でもよい。
 図6は、挿入部310bの構成を例示する図である。図6に示すように、挿入部310bの長手方向を基準軸AX1とする。なお、基準軸AX1は、湾曲部12が湾曲していない状態における挿入部310b長手方向を表す。湾曲部12は、基準軸AX1に対して湾曲可能である。具体的には、湾曲部12は、上下湾曲操作ノブ14bと左右湾曲操作ノブ14aの少なくとも一方に対する操作によって、基準軸AX1に対する湾曲角度を調整可能である。図6に示すθが湾曲角度を表す。湾曲操作が行われることによって、湾曲部12の長手方向は基準軸AX1とは異なる方向に変化する。
 上述したアングルノブとは、例えば上下湾曲操作ノブ14b及び左右湾曲操作ノブ14aであり、アングルノブ回転量とは、上下湾曲操作ノブ14b及び左右湾曲操作ノブ14aそれぞれの操作量である。上下湾曲操作ノブ14bの操作量に応じて、上下方向における湾曲角度が変化する。また左右湾曲操作ノブ14aの操作量に応じて、左右方向における湾曲角度が変化する。例えば湾曲角度は、上下方向の湾曲角度と、左右方向の湾曲角度とを含むベクトルである。ただし、本実施形態のアングルノブとは、先端部11の湾曲角度を変更可能な操作部材であればよく、具体的な構成は上記の例に限定されない。
 内視鏡システム300の制御部332は、例えばエンコーダ等を用いて、上下湾曲操作ノブ14bの回転量及び左右湾曲操作ノブ14aの回転量を制御情報として取得可能である。
 また術者が挿入部310b自体、又は挿入部310bに接続される操作部310aを手で把持し、把持部分を基準軸AX1周りにねじる操作である回転操作を行うことによって、挿入部310bは基準軸AX1周りに回転する。挿入部310bのねじり量とは、回転操作における術者の手元での挿入部310bの回転角度を表す。
 また術者が挿入部310b自体、又は挿入部310bに接続される操作部310aを手で把持し、把持部分を基準軸AX1に沿った方向に移動させる操作である進退操作を行うことによって、挿入部310bは基準軸AX1に沿った方向に挿抜される。即ち、進退操作とは、挿入部310bを患者の体内に押し込む操作又は抜き出す操作である。進退量とは、進退操作における術者の手元での挿入部310bの移動量を表す。
 図7は、内視鏡システム300のスコープ部310の構成を例示する他の図である。図7に示すように、内視鏡システム300は、挿入量・ねじり量センサ62を含んでもよい。挿入量・ねじり量センサ62は、挿入部310bが挿通可能な孔を有する円筒形状のセンサであり、不図示の所定箇所に固定される。所定箇所とは、例えば、患者の口腔や肛門等を含む箇所である。なお、固定に用いるバンド等の図示は省略する。挿入量・ねじり量センサ62の孔の内周面には、挿入部310bの軸方向の挿入量を検出するためのエンコーダと、挿入部310bの軸周りの回転量を検出するエンコーダとが配設されている。よって、処理システム100は、挿入量・ねじり量センサ62のセンサ出力に基づいて、挿入部310bの進退量と、ねじり量を表す操作入力データを取得可能である。
 或いは内視鏡システム300は、図6に示すように、例えば挿入部310bを基準軸AX1に対応する方向に移動させる進退ローラー17aと、進退ローラー17aを駆動する駆動部19を有する進退機構17を含んでもよい。進退ローラー17aは、AX2を回転軸としてD1又はD2に示す方向に回転可能である。進退ローラー17aは、その一部が挿入部310bと接触している。そのため、進退ローラー17aがD1の方向へ回転することによって、挿入部310bが手前方向に移動する。また進退ローラー17aがD2の方向へ回転することによって、挿入部310bが奥方向に移動する。挿入部310bの進退量は、進退ローラー17aの回転量を表す情報であってもよいし、駆動部19の駆動量を表す情報であってもよい。
 また内視鏡システム300は、図6に示すように、挿入部310bを、基準軸AX1を回転軸として回転させる回転ローラー18aと、回転ローラー18aを駆動する駆動部19を有するねじり機構18を含んでもよい。なお、進退ローラー17aを駆動する駆動部と、回転ローラー18aを駆動する駆動部は別々に設けられてもよい。回転ローラー18aは、AX3を回転軸としてD3又はD4に示す方向に回転可能である。回転ローラー18aは、その一部が挿入部310bと接触している。そのため、回転ローラー18aが回転することによって、挿入部310bは回転ローラー18aとは逆方向に回転する。挿入部310bのねじり量は、回転ローラー18aの回転量を表す情報であってもよいし、駆動部19の駆動量を表す情報であってもよい。ただし、進退機構17及びねじり機構18は必須の構成ではなく、一方又は両方を省略可能である。
 以上のように、本実施形態における操作入力データは、操作デバイスの操作量、挿入部310bのねじり量、挿入部310bの進退量を表す情報であり、例えばエンコーダの出力に対応する情報である。例えば処理システム100の取得部110は、エンコーダの出力を取得し、処理部120が当該出力に基づいて操作デバイスの操作量、挿入部310bのねじり量、挿入部310bの進退量を演算してもよい。或いは、処理装置330の制御部332等において操作デバイスの操作量、挿入部310bのねじり量、挿入部310bの進退量が演算され、取得部110は当該演算結果を取得してもよい。即ち、操作デバイスの操作量、挿入部310bのねじり量、挿入部310bの進退量に関する情報とは、操作デバイスの操作量、挿入部310bのねじり量、挿入部310bの進退量そのものであってもよいし、これらを特定可能な情報であってもよい。
2.2 操作出力データ
 また操作出力データは、挿入部310bの先端部11の位置、姿勢、及び速度の少なくとも1つに関する情報を含むが、先端の押し付け圧などの力量を含んでもよい。以下、位置及び姿勢を位置姿勢と表記する。またここでの速度は、並進速度であってもよいし、角速度であってもよいし、その両方であってもよい。このようにすれば、処理システム100は、操作入力によって挿入部310bがどのように動いたかを表す情報を、操作出力データとして取得することが可能になる。
 位置、姿勢、速度の取得手法は種々考えられる。例えば内視鏡システム300は、挿入部310bの先端部11に設けられるモーションセンサを含む。モーションセンサは、例えば3軸の加速度センサと、3軸の角速度センサを含む6軸センサである。例えば所与のセンサ座標系の3軸をX軸、Y軸、Z軸とした場合、加速度センサは、XYZの各軸における並進加速度を検出するセンサである。角速度センサは、XYZの各軸周りの角速度を検出するセンサである。
 モーションセンサを用いることによって、先端部11の位置姿勢を求めることが可能である。以下、取得部110がモーションセンサのセンサ情報を取得し、処理部120が、センサ情報に基づいて、先端部11の位置姿勢を求める例について説明する。ただし、処理システム100の外部において位置姿勢が演算され、取得部110が演算結果を取得してもよい。即ち、挿入部310bの先端部11の位置、姿勢、及び速度の少なくとも1つに関する情報とは、位置、姿勢、速度そのものであってもよいし、これらを特定可能な情報であってもよい。位置等を特定可能な情報は、例えばモーションセンサのセンサ情報であるが、後述するように撮像画像等であってもよい。
 例えば処理部120は、加速度センサ及び角速度センサの出力を積分することによって、先端部11の位置及び角度を求める。なお慣性センサであるモーションセンサから位置姿勢を特定するためには、境界条件となる所与の基準位置の設定が必要である。例えば3次元空間に固定された所与の基準座標系において基準位置姿勢を定義した場合に、処理部120は、当該基準位置姿勢を基準として、センサ出力に基づいて求められる先端部11の変位及び回転量を蓄積することによって、各タイミングにおける先端部11の位置姿勢を求める。
 なお処理部120は、加速度センサ及び角速度センサの出力に対する積分回数を調整することによって、先端部11の並進速度及び角速度を求めてもよい。或いは処理部120は、まず先端部11の位置姿勢を求め、当該位置姿勢を微分することによって速度に関する情報を求めてもよい。
 また挿入部310bの先端部11の位置姿勢を求める手法はモーションセンサを用いるものに限定されない。以下、いくつかの変形例について説明する。なお、位置姿勢に基づいて速度を求めることが可能である点は上述したとおりであり、以下では速度を求める処理については説明を省略する。
 例えば内視鏡システム300は、先端部11に設けられる磁気センサを含んでもよい。例えば磁気センサは、中心軸が互いに直交する2つの円筒状コイルを含む。また内視鏡システム300は、周辺機器として不図示の磁場発生装置を含む。磁気センサは、当該磁場発生装置が発生させた磁場を検出することによって、先端部11の位置姿勢を検出する。
 また処理システム100は、撮像素子312によって撮像される撮像画像に基づいて、挿入部310bの先端部11の位置姿勢を求めてもよい。例えば、内視鏡システム300は、先端部11に複数の撮像系を含んでもよい。処理部120は、位置の異なる複数の撮像系によって撮像された視差画像に基づいて、ステレオマッチング処理を行うことによって、画像上に撮像された被写体との距離を求める。ステレオマッチングについては公知の手法であるため、詳細な説明は省略する。例えば処理部120は、カメラ座標系における被写体の各点の座標を特定できるため、被写体との位置関係を推定できる。先端部11の姿勢とカメラ座標系との関係は設計上既知であるため、処理部120は、被写体を基準とした場合の先端部11の位置姿勢を求めることが可能である。例えば、被写体が固定であると仮定できる場合、処理部120は、被写体に対する位置姿勢の変化に基づいて、先端部11の位置姿勢の変化を特定可能である。
 また撮像系を用いて先端部11の位置姿勢を求める手法は、視差画像を用いる方式には限定されない。例えば処理部120は、TOF(Time Of Flight)方式やストラクチャードライト方式を用いて被写体との距離を測定することによって、被写体と先端部11の位置関係を測定してもよい。TOF方式は、光の反射波がイメージセンサに到達する時間を測定する方式である。ストラクチャードライト方式は、被写体に複数のパターン光を投影し、各パターン光の写り方から距離を求める手法である。例えば、明度が正弦波で変化するパターンを投影することによって、位相のずれを求める位相シフト法等が知られている。被写体の3次元形状を推定するこれらの手法は公知であるため詳細な説明は省略する。
 また処理部120は、異なる複数の撮像画像において、複数の特徴点の対応付けを行ってもよい。特徴点の位置は、画像情報からSLAM(Simultaneous Localization and Mapping)、SfM(Structure from Motion)などの手法を用いて算出することが可能である。例えば処理部120は、非線形最小二乗法を用いて、画像から、内部パラメータ、外部パラメータ及び世界座標点群を最適化するバンドル調整を適用することによって、被写体の情報を求める。また処理部120は、推定された各パラメータを用いて、抽出された複数の特徴点の世界座標点を透視投影変換し、再投影誤差が最小になるように、各パラメータと各世界座標点群を求める。SfM等の手法は公知であるため、これ以上の詳細な説明は省略する。これらの手法では、被写体の3次元位置だけでなく、カメラの位置姿勢も推定可能である。
 その他、挿入部310bの先端部11の位置姿勢を求める手法は種々知られており、本実施形態ではこれらの手法を広く適用可能である。
2.3 伝達特性データ
 処理部120は、操作入力データと操作出力データとの関係を表す伝達特性データを求め、当該伝達特性データに基づいて、スキル評価を行ってもよい。伝達特性データは、軟性内視鏡を用いた場合の操作性を表す情報である。そのため、伝達特性データを用いることによって、スキル評価の精度向上が可能になる。
 具体的には、伝達特性データは、操作入力データによって表される操作入力の大きさと、操作出力データによって表される操作出力の大きさの比率を表すデータである。
 例えば、操作入力データが、先端部11の湾曲角度を特定する情報である場合を考える。例えば、取得部110は、上下湾曲操作ノブ14bの回転量及び左右湾曲操作ノブ14aの回転量を表す操作入力データを取得する。上述したように、挿入部310bが他の物体に接触していない状態では、各アングルノブの回転量は、先端部11の湾曲角度と対応付けが可能である。よって処理部120は、アングルノブ回転量に基づいて、理想的な湾曲角度を求める。ここでは上下湾曲操作ノブ14bの回転量に基づいて求められる上下方向の理想的な湾曲角度をθudとする。左右湾曲操作ノブ14aの回転量に基づいて求められる左右方向の理想的な湾曲角度をθlrとする。
 また取得部110は、モーションセンサ等の情報を取得する。処理部120は、取得した情報に基づいて、先端部11の位置姿勢を特定する。より具体的には、処理部120は、上下方向の実際の湾曲角度であるθpitchと、左右方向の実際の湾曲角度であるθyawを求める。
 処理部120は、下式(1)及び(2)に基づいて、伝達特性データ(Tx,Ty)を求める。Tx及びTyは、それぞれ0以上1以下の数値データである。
  Tx=θyaw/θlr …(1)
  Ty=θpitch/θud …(2)
 或いは、操作入力データは、先端部11の湾曲角度の変化を表す角速度を特定する情報であってもよい。例えば処理部120は、アングルノブ回転量に基づいて、理想的な角速度を求める。ここでは上下湾曲操作ノブ14bの回転量に基づいて求められる上下方向の理想的な湾曲角速度をωudとする。左右湾曲操作ノブ14aの回転量に基づいて求められる左右方向の理想的な湾曲角速度をωlrとする。
 また取得部110は、モーションセンサ等の情報を取得する。処理部120は、取得した情報に基づいて、先端部11の速度を特定する。より具体的には、処理部120は、実際の上下方向の湾曲角速度であるωpitchと、左右方向の湾曲角速度であるωyawを求める。
 処理部120は、下式(3)及び(4)に基づいて、伝達特性データ(Tx,Ty)を求める。Tx及びTyは、それぞれ0以上1以下の数値データである。
  Tx=ωyaw/ωlr …(3)
  Ty=ωpitch/ωud …(4)
 また以上では、伝達特性データが湾曲角度の比率、又は、湾曲角速度の比率である例を説明した。しかし伝達特性データが、進退量の比率、進退量の差分である速度の比率、ねじり量の比率、ねじり量の差分である回転角速度の比率であってもよいことは当業者であれば容易に理解できるであろう。
3.スキル評価
 次にスキル評価の詳細について説明する。
3.1 伝達特性データの値に基づく評価
 図8は、例えば所与の病変に関する処置を開始してから終了するまでの伝達特性データの時間変化例を示す図である。例えば内視鏡システム300は、定期的に操作入力を特定するための制御情報や、挿入量・ねじり量センサ62のセンサ情報等を取得する。また、内視鏡システム300は、定期的に操作出力を特定するためのモーションセンサのセンサ情報や、撮像画像等を取得する。処理システム100は、これらの情報に基づいて、時系列の操作入力データと時系列の操作出力データを取得可能である。処理部120は、各タイミングにおける操作入力データと操作出力データの比率を求めることによって、図8に示す時系列の伝達特性データを演算できる。
 図8のB1がスキルの高い熟練医の伝達特性データを表し、B2がスキルの低い修練医の伝達特性データを表す。図8に示すように、熟練医は、挿入部310bの状況が変化しても、適切な調整が可能であるため、伝達特性データのばらつきが小さい。例えば伝達特性データの値は0.7~0.9程度の範囲に収められる。一方、修練医は、適切な調整を行えないため、伝達特性データの値が大きくばらつく。
 よって処理部120は、伝達特性データの大きさに基づいて、ユーザのスキル評価を行う。例えばユーザのスキルを高低の2段階に評価する場合、処理部120は、スキル評価のための伝達特性データの数値範囲を取得する。処理部120は、時系列の伝達特性データを求め、当該伝達特性データが上記数値範囲内であるか否かの判定に基づいてスキル評価を行う。具体的には、処理部120は、評価対象となる伝達特性データが数値範囲内である場合に評価対象のユーザのスキルが高いと判定し、伝達特性データが数値範囲を外れた場合に当該ユーザのスキルが低いと判定する。ただし処理部120は、時系列の伝達特性データの統計量を求め、当該統計量と数値範囲の比較処理に基づいてスキル評価を行ってもよい。ここでの統計量は、分散であってもよし、最大値と最小値の差分であってもよいし、他の統計量であってもよい。
 例えば処理システム100は、過去の処置における伝達特性データを蓄積したデータベースを含んでもよい。処理部120は、データベースに基づいて設定された数値範囲を取得する。例えば図5を用いて上述したように、処理システム100は、内視鏡システム300とネットワーク等を介して接続されるデータベースサーバを含む。処理システム100は、内視鏡システム300から取得した操作入力データ及び操作出力データに基づいて伝達特性データを求め、求めた伝達特性データをデータベースに記憶する。
 ここでのデータベースは、エキスパートデータと、非エキスパートデータとを含んでもよい。エキスパートデータとは、熟練医による処置が行われた際の伝達特性データを表す情報である。非エキスパートデータとは、修練医による処置が行われた際の伝達特性データを表す情報である。本実施形態におけるスキル評価用の数値範囲等の情報は、少なくともエキスパートデータに基づいて設定される。
 例えば処理システム100は、エキスパートデータに基づいて、多くの熟練医は処置中の伝達特性データの変化がこの範囲に収まる、といった情報を求める。処理部120は、求めた情報に基づいて、上記数値範囲を設定する。
 データベースに記憶されるデータがエキスパートであるか、非エキスパートデータであるかは、医師の熟練度、又は、処置の経過を特定する情報に基づいて決定されてもよい。例えば、内視鏡システム300は、処理システム100に操作入力データ及び操作出力データを送信する際に、医師の熟練度を表す熟練度情報や経過を表す経過情報をメタデータとして付与してもよい。熟練度情報は、具体的には対象となる処置を実行した回数を表す症例数情報である。経過情報は、出血量、偶発症発生率、入院日数等を表す情報である。処理システム100は、当該メタデータに基づいて、対象のデータが熟練医のデータであるエキスパートデータであるか、修練医のデータである非エキスパートデータであるかを判定する。
 或いは、処置具の移動軌跡に基づいて、エキスパートデータであるか否かが判定されてもよい。技能が向上するほど動きが統制されて、より少ない動きで処置を遂行できると考えられる。よって操作ログ情報に蓄積されている処置具の移動軌跡におけるノード総数が少ないほど、当該データに対応する術者のスキルが高いと判定される。
 なお、処理部120は、ユーザのスキルを2段階で評価するものに限定されず、3段階以上での評価を行ってもよい。例えば処理部120は、複数の数値範囲をあらかじめ設定しておくことによって、ユーザのスキルを3段階以上に分けて評価できる。
3.2 分類処理
 また処理部120は、操作入力データ及び操作出力データに基づく分類処理を行うことによって、スキル評価を行ってもよい。以下、機械学習を用いる手法について説明するが、本実施形態では機械学習は必須ではなく、他の手法による分類が行われてもよい。また、以下では操作出力データと伝達特性データを、機械学習の入力として用いる処理について説明するが、操作入力データを用いる等の種々の変形実施が可能である。
3.2.1 機械学習
 機械学習の概要について説明する。以下では、ニューラルネットワークを用いた機械学習について説明するが、本実施形態の手法はこれに限定されない。本実施形態においては、例えばSVM(support vector machine)等の他のモデルを用いた機械学習が行われてもよいし、ニューラルネットワークやSVM等の種々の手法を発展させた手法を用いた機械学習が行われてもよい。
 図9は、ニューラルネットワークを説明する模式図である。ニューラルネットワークは、データが入力される入力層と、入力層からの出力に基づいて演算を行う中間層と、中間層からの出力に基づいてデータを出力する出力層を有する。図9においては、中間層が2層であるネットワークを例示するが、中間層は1層であってもよいし、3層以上であってもよい。また各層に含まれるノードの数は図9の例に限定されず、種々の変形実施が可能である。なお精度を考慮すれば、本実施形態の学習は多層のニューラルネットワークを用いたディープラーニングを用いることが望ましい。ここでの多層とは、狭義には4層以上である。
 図9に示すように、所与の層に含まれるノードは、隣接する層のノードと結合される。各結合には重み付け係数が設定されている。各ノードは、前段のノードの出力と重み付け係数を乗算し、乗算結果の合計値を求める。さらに各ノードは、合計値に対してバイアスを加算し、加算結果に活性化関数を適用することによって当該ノードの出力を求める。この処理を、入力層から出力層へ向けて順次実行することによって、ニューラルネットワークの出力が求められる。なお活性化関数としては、シグモイド関数やReLU関数等の種々の関数が知られており、本実施形態ではそれらを広く適用可能である。
 ニューラルネットワークにおける学習は、適切な重み付け係数を決定する処理である。ここでの重み付け係数は、バイアスを含む。以下、学習済モデルを生成する処理が学習装置において行われる例を示す。学習装置とは、例えば上述したように処理システム100に含まれる学習サーバであってもよいし、処理システム100の外部に設けられる装置であってもよい。
 学習装置は、学習データのうちの入力データをニューラルネットワークに入力し、そのときの重み付け係数を用いた順方向の演算を行うことによって出力を求める。学習装置は、当該出力と、学習データのうちの正解ラベルとに基づいて、誤差関数を演算する。そして誤差関数を小さくするように、重み付け係数を更新する。重み付け係数の更新では、例えば出力層から入力層に向かって重み付け係数を更新していく誤差逆伝播法を利用可能である。
 なおニューラルネットワークには種々の構成のモデルが知られており、本実施形態ではそれらを広く適用可能である。例えばニューラルネットワークは、CNN(Convolutional Neural Network)であってもよいし、RNN(Recurrent Neural Network)であってもよいし、他のモデルであってもよい。CNN等を用いる場合も、処理の手順は図8と同様である。即ち、学習装置は、学習データのうちの入力データをモデルに入力し、そのときの重み付け係数を用いてモデル構成に従った順方向演算を行うことによって出力を求める。当該出力と、正解ラベルとに基づいて誤差関数が算出され、当該誤差関数を小さくするように、重み付け係数の更新が行われる。CNN等の重み付け係数を更新する際にも、例えば誤差逆伝播法を利用可能である。
 図10は、本実施形態の手法におけるニューラルネットワークの入力と出力の関係を例示する図である。図10に示すように、ニューラルネットワークの入力は、例えば操作出力データと、伝達特性データである。伝達特性データを用いることによって、操作入力と操作出力の関係を直接的に反映した機械学習が可能である。ただし、入力は操作入力データと操作出力データに基づいて求められる情報であればよく、操作入力データ及び伝達特性データであってもよいし、操作入力データと操作出力データと伝達特性データの全てを含んでもよい。また伝達特性データを除いて、操作入力データと操作出力データに基づく処理が行われてもよい。
 なお図8を用いて上述したように、所与の術者による1回の手術において、時系列の操作入力データと、時系列の操作出力データと、それらに基づく時系列の伝達特性データが取得される。ニューラルネットワークの入力は、時系列データに基づいて演算される統計量であってもよい。或いはニューラルネットワークの入力は、時系列のデータであってもよい。例えば学習装置は、時系列の操作出力データから抽出されたp個のデータと、対応するタイミングにおけるp個の伝達特性データを、ニューラルネットワークの入力とする。ここでのpは1以上の整数である。
 ニューラルネットワークの出力は、例えば評価対象となるユーザのスキルを、m段階でランク付けした際のランクを表す情報である。mは2以上の整数である。以下、ランクiは、ランクi+1に比べてスキルが高いものとする。iは、1以上m未満の整数である。即ち、ランク1は最もスキルが高いことを表し、ランクmが最もスキルが低いことを表す。
 例えばニューラルネットワークの出力層はm個のノードを有する。第1ノードは、入力となったデータに対応するユーザのスキルがカテゴリ1に属する確からしさを表す情報である。第2ノード~第mノードも同様であり、各ノードはそれぞれ、入力となったデータがカテゴリ2~カテゴリmに属する確からしさを表す情報である。例えば、出力層が公知のソフトマックス層である場合、m個の出力は、合計が1となる確率データの集合である。カテゴリ1~カテゴリmは、それぞれランク1~ランクmに対応するカテゴリである。
 学習段階では、学習装置は、多数の術者がそれぞれ軟性内視鏡を用いて処置を行った際に取得された操作入力データと操作出力データを収集するとともに、当該データのユーザスキルを表すメタデータを保持しておく。ここでのメタデータは、例えば、熟練度情報や経過情報である。学習装置は、これらのメタデータに基づいて、術者のスキルをm段階のランクのうちのいずれであるかを特定する。或いは学習段階では、ユーザが手動で、各ユーザのスキルをm段階で評価し、学習装置はその入力結果を取得してもよい。
 図11は、ニューラルネットワークの学習処理を説明するフローチャートである。まずステップS101において、学習装置は、学習用操作入力データと、学習用操作出力データを取得する。ステップS101の処理は、例えば学習サーバが、データベースサーバに蓄積された多数のデータから、1組の操作入力データ及び操作出力データを読み出す処理に相当する。
 なお学習用操作入力データとは、学習に用いられる操作入力データであり、具体的には上述したとおり、操作デバイスの操作量、挿入部310bのねじり量、挿入部310bの進退量の少なくとも1つに関する情報である。学習用操作出力データとは、学習に用いられる操作出力データであり、具体的には上述したとおり、先端部11の位置、姿勢及び速度の少なくとも1つに関する情報である。換言すれば、操作入力データと学習用操作入力データとは、学習段階で用いられるデータであるか、スキル評価を行う推論段階で用いられるデータであるかの違いを表すものであり、具体的なデータ形式は同様である。また、所与のタイミングにおいて推論用の操作入力データとして用いられたデータが、それ以降のタイミングにおいて学習用操作入力データとして用いられてもよい。操作出力データと学習用操作出力データについても同様である。
 またステップS102において、学習装置は、ステップS101で読み出したデータに対応付けられた正解ラベルを取得する。正解ラベルは、例えば上述したように、内視鏡操作を行ったユーザのスキルをm段階で評価した結果である。
 ステップS103において、学習装置は、誤差関数を求める処理を行う。具体的には、学習装置は、操作入力データと操作出力データから伝達特性データを求め、操作出力データ及び伝達特性データをニューラルネットワークに入力する。学習装置は、入力と、その際の重み付け係数に基づいて順方向の演算を行う。そして学習装置は、演算結果と、正解ラベルの比較処理に基づいて誤差関数を求める。例えば、正解ラベルがランク1であった場合、学習装置は、カテゴリ1に対応する第1ノードの正解値が1であり、カテゴリ2~カテゴリmに対応する第2ノード~第mノードの正解値が0であるものとして誤差関数を求める。さらにステップS103において、学習装置は、誤差関数を小さくするように重み付け係数を更新する処理を行う。この処理は、上述したように誤差逆伝播法等を利用可能である。ステップS101~S103の処理が、1つの学習データに基づく1回の学習処理に対応する。
 ステップS104において、学習装置は学習処理を終了するか否かを判定する。例えば学習装置は、多数の学習データの一部を評価データとして保持していてもよい。評価データは、学習結果の精度を確認するためのデータであり、重み付け係数の更新には使用されないデータである。学習装置は、評価データを用いた推定処理の正解率が所定閾値を超えた場合に、学習処理を終了する。
 ステップS104でNoの場合、ステップS101に戻り、次の学習データに基づく学習処理が継続される。ステップS104でYesの場合、学習処理が終了される。学習装置は、生成した学習済モデルの情報を処理システム100に送信する。例えば、学習済モデルは処理システム100に含まれる不図示の記憶部に記憶され、処理部120によって読み出される。なお、機械学習においてはバッチ学習、ミニバッチ学習等の種々の手法が知られており、本実施形態ではこれらを広く適用可能である。
 なお、以上では機械学習が教師あり学習である例について説明した。ただし、本実施形態の手法はこれに限定されず、教師無し学習が行われてもよい。例えば、上述したように、ニューラルネットワークの出力層のノード数をm個とした場合、教師無し学習では入力である操作出力データと伝達特性データから導出される特徴量の類似度合いに基づいて、多数の入力をm個のカテゴリに分類する分類処理が行われる。
 学習装置は、m個のカテゴリの各カテゴリにランク付けを行う。例えば、熟練医のデータが多く含まれるカテゴリのランクが高く、修練医のデータが多く含まれるカテゴリのランクが低く判定される。各データが熟練医のデータであるか修練医のデータであるかは、上述したように、熟練度情報や経過情報に基づいて、判定が可能である。ただし、詳細な処理については種々の変形実施が可能である。例えば、あらかじめ学習用のデータに対して、m段階のランク付けが行われており、学習装置は、各カテゴリに含まれるデータのランクの平均値や合計値等に基づいて、m個のカテゴリのランク付けを行ってもよい。教師無し学習を行う場合であっても、教師あり学習の例と同様に、入力に基づいて、ユーザのスキルをm段階で評価する学習済モデルを生成することが可能である。
3.2.2 分類結果に基づく判定
 処理部120は、複数の学習用伝達特性データを、m(mは2以上の整数)個のカテゴリに分類する機械学習を行うことによって取得された学習済モデルと、伝達特性データとに基づいて、スキル評価を行う。上述したように、学習済モデルは、教師あり学習に基づいて生成されてもよいし、教師無し学習に基づいて生成されてもよい。
 図12は、スキル評価を行う処理を説明するフローチャートである。この処理が開始されると、まずステップS201において、取得部110は、スキル評価の対象となるユーザの操作入力データと操作出力データを取得する。ステップS202において、処理部120は、取得した操作入力データと操作出力データを用いて、上式(1)~(4)等に示した演算を行うことによって、伝達特性データを求める。
 ステップS203において、処理部120は学習済モデルに基づく推論処理を行う。図10に示した例であれば、処理部120は、操作出力データと伝達特性データを学習済モデルに入力し、学習済みの重み付け係数に従った順方向の演算を行うことによって、m個の出力を取得する。処理部120は、当該出力に基づいて、ユーザのスキル評価情報を求める。例えば処理部120は、m個の出力のうち、最も値が大きいデータに基づいて、ユーザのスキルをm段階で評価する。
 ステップS204において、出力処理部130は、スキル評価の結果であるスキル評価情報を出力する。例えばスキル評価情報は、ユーザのスキル評価結果がランク1~ランクmのいずれであるかを特定する情報である。
 このように、伝達特性データを入力に用いることによって、操作性の調整が適切に行われたか否かを考慮したスキル評価が可能になる。そのため、操作入力と操作出力の関係が大きく変化する軟性内視鏡を用いる場合のスキル評価を精度よく行うことが可能になる。その際、機械学習が用いられるため、評価精度のさらなる向上が可能である。
 以上で説明したように、処理システム100の処理部120は、学習済モデルに従って動作することによって、ユーザのスキル評価を行う。学習済モデルに従った処理部120おける演算、即ち、入力データに基づいて出力データを出力するための演算は、ソフトウェアによって実行されてもよいし、ハードウェアによって実行されてもよい。換言すれば、図9の各ノードにおいて実行される積和演算等は、ソフトウェア的に実行されてもよい。或いは上記演算は、FPGA等の回路装置によって実行されてもよい。また、上記演算は、ソフトウェアとハードウェアの組み合わせによって実行されてもよい。このように、学習済モデルからの指令に従った処理部120の動作は、種々の態様によって実現可能である。例えば学習済モデルは、推論アルゴリズムと、当該推論アルゴリズムにおいて用いられる重み付け係数とを含む。推論アルゴリズムとは、入力データに基づいて、順方向の演算等を行うアルゴリズムである。この場合、推論アルゴリズムと重み付け係数の両方が記憶部に記憶され、処理部120は、当該推論アルゴリズムと重み付け係数を読み出すことによってソフトウェア的に推論処理を行ってもよい。或いは、推論アルゴリズムはFPGA等によって実現され、記憶部は重み付け係数を記憶してもよい。或いは、重み付け係数を含む推論アルゴリズムがFPGA等によって実現されてもよい。この場合、学習済モデルの情報を記憶する記憶部は、例えばFPGAの内蔵メモリである。
3.2.3 n次元特徴量を用いた判定
 また処理部120は、伝達特性データと学習済モデルとに基づいて、n(nは2以上の整数)次元の特徴量を求めてもよい。例えば学習装置では、図9、図10を用いて上述した処理と同様に、複数の学習用伝達特性データを、m(mは2以上の整数)個のカテゴリに分類する機械学習を行ってもよい。
 処理システム100における処理の流れは、図12と同様である。まずステップS201及びS202において、取得部110は、スキル評価の対象となるユーザの操作入力データと操作出力データを取得し、処理部120は、伝達特性データを求める。
 ステップS203において、処理部120は、操作出力データと伝達特性データを学習済モデルに入力し、学習済みの重み付け係数に従った順方向の演算を行う点も同様である。この際、処理部120は、中間層におけるデータを、n次元の特徴量として求める。例えば、ニューラルネットワークが第1中間層~第q中間層を有する場合、n個のノードを有する第j中間層での値をn次元特徴量とする。qは2以上の整数であり、jは1以上q以下の整数である。例えば、j=qであり、最も出力層に近い中間層がn個のノードを有し、各ノードの出力が特徴量となる。或いは、複数の中間層における出力を組み合わせることによって、n次元特徴量が求められてもよい。
 図13は、n次元特徴量空間の例である。横軸がn次元特徴量のうちの特徴量Aを表し、縦軸が特徴量Aとは異なる特徴量Bを表す。ここではn=2としているが、nは3以上であってもよい。操作出力データと伝達特性データを入力することによって、第1特徴量~第n特徴量の値が求められる。即ち、1組の操作出力データと伝達特性データが、n次元特徴量空間上の1つの点としてプロットされる。図13に示すように、機械学習に基づいて抽出されるn次元特徴量は、操作出力データと伝達特性データからなる入力を、m個のカテゴリに分類するための特徴量である。よって、図13に示すように、n次元特徴量空間での距離に基づいてクラスタリングした結果が、ユーザのスキルを表すカテゴリとなる。即ち、入力に基づいて求められたn次元特徴量での点の位置に応じて、ユーザのスキルをm段階に分類することが可能である。例えば、図13のC1がランク1のカテゴリを表し、C2がランク2のカテゴリを表し、C3がランク3のカテゴリを表す。ここではm=3であるが、mの値は2以上の他の値であってもよい。
 処理部120は、スキル評価の対象となる操作出力データと伝達特性データを学習済モデルに入力することによって求められたn次元特徴量の特徴量空間における位置と、m個のカテゴリのうちの1又は複数のカテゴリの特徴量空間における重心位置と、の距離に基づいてスキル評価を行う。ここでの重心位置とは、各カテゴリに含まれる複数の点の位置に基づいて求められる情報であり、例えば複数の座標値の平均値である。各カテゴリの重心位置は、学習が完了した段階で既知である。またここでの距離は、例えばユークリッド距離であるが、マハラノビス距離等の他の距離が用いられてもよい。
 例えば処理部120は、第1~第mのカテゴリのうち、順方向の演算によって求められたn次元特徴量との距離が最も小さいカテゴリを求め、評価対象のデータが当該カテゴリに属すると判定する。図13の例であれば、処理部120は、C1の重心位置との距離が最小である場合にランク1と判定し、C2の重心位置との距離が最小である場合にランク2と判定し、C3の重心位置との距離が最小である場合にランク3と判定する。
 ユーザ評価後の処理は図12と同様であり、ステップS204において、出力処理部130は、スキル評価の結果であるスキル評価情報を出力する。
 以上では、クラスタリングを行った際の中間層データが、n次元特徴量である例について説明した。ただし本実施形態の手法はこれに限定されない。例えば、操作入力データと操作出力データに基づく入力に対して、主成分分析を行うことによってn次元特徴量が抽出されてもよい。主成分分析を行う手法は公知であるため詳細な説明は省略する。また機械学習を用いて主成分分析を行う手法も知られており、その場合も機械学習を適用可能である。n次元特徴量抽出後の処理については上記の例と同様である。
 またn次元特徴量を用いる場合、スキル評価の手法は上記に限定されない。例えば、処理部120は、評価対象となるユーザに対応するプロット点と、当該ユーザとは異なる第2ユーザに対応するプロット点との距離に基づいてスキル評価を行ってもよい。ここでの第2ユーザは例えば指導者であり、評価対象となるユーザは当該指導者による指導を受けるユーザである。このようにすれば、評価対象となるユーザのスキルが、指導者のスキルにどの程度近いかを表す指標を、スキル評価情報として出力できる。
 内視鏡を用いた処置では、同じ部位の同じ病変を対象とする場合であっても、複数の方式が考えられる。どの方式が適していると考えるかはユーザによるため、指導者が異なればよいとされる処置の内容が異なる可能性がある。換言すれば、複数の熟練医が、特定処置についてそれぞれ異なる流派を形成する。その点、上記のように特定のユーザとの類似度を表す情報をスキル評価情報とすることによって、対象ユーザのスキルを適切に評価することが可能になる。例えば、所定の流派に属するユーザのスキルは、同じ流派における熟練医を基準として判断される。
4.変形例
 以上では、操作入力データ、操作出力データ、伝達特性データに基づく処理について説明したが、他の情報がスキル評価に用いられてもよい。
 例えば取得部110は、操作入力データ及び操作出力データに対応付けられたメタデータとして、症例難易度を表す難易度データを取得してもよい。処理部120は、操作入力データと操作出力データと難易度データに基づいて、スキル評価を行う。
 例えば、症例の難易度に応じて、処置のしやすさは異なる。より具体的には、操作性を一定に保つことが容易な症例もあれば、熟練医であっても操作性のばらつきを抑制することが難しい症例もある。症例に応じた違いを考慮しない場合、症例が難しいことに起因するやむを得ない操作性のばらつきであっても、スキルが低く評価されることにつながってしまう。或いは、症例が簡単であることによって、ユーザスキルが過剰に高く評価されてしまうおそれもある。その点、難易度データを処理に用いることによって、症例の難しさを考慮できるため、スキル評価の精度向上が可能になる。
 例えば、学習段階において、症例難易度に応じて異なる複数の学習済モデルが生成されてもよい。例えば高難易度用の学習済モデルと、低難易度用の学習済モデルが別々に生成される。高難易度用の学習済モデルは、症例難易度の高い操作入力データ及び操作出力データに基づく機械学習によって生成されるモデルである。低難易度用の学習済モデルは、症例難易度の低い操作入力データ及び操作出力データに基づく機械学習によって生成されるモデルである。処理部120は、メタデータとして付与された難易度データに基づいて、高難易度用の学習済モデルと、低難易度用の学習済モデルのいずれを用いるかを選択し、選択された学習済モデルにデータを入力することによってスキル評価を行う。なお、症例難易度に応じた学習済モデルの数は2つに限定されず、3つ以上であってもよい。
 なお、症例難易度は、手技自体の難易度と、対象とする病変固有の情報に基づいて決定される。病変固有の情報とは、病変の大きさや、当該病変が存在する部位、内視鏡の挿入経路、当該病変の組織性状、術中の出血量等の情報を含む。これらの情報をパラメータとして症例難易度を求める手法は公知であり、本実施形態では同様の手法を適用できる。
 また取得部110は、操作入力データ及び操作出力データに対応付けられたメタデータとして、内視鏡を操作した術者を表す術者データを取得してもよい。処理部120は、操作入力データと操作出力データと術者データに基づいて、スキル評価を行う。
 ここでの術者データは、例えば当該術者の流派を特定する情報であってもよい。上述したように、同じ症例を対象とする場合であっても、流派に応じて実行する手技が異なる。そのため、流派の違いを考慮しない場合、スキル評価の精度が低下するおそれがある。
 例えば、学習段階において、術者データに応じて異なる複数の学習済モデルが生成されてもよい。より具体的には、流派ごとに学習済モデルが生成される。例えば第1流派用の学習済モデルと、第2流派用の学習済モデルが別々に生成される。第1流派用の学習済モデルは、第1流派に属する術者による操作入力データ及び操作出力データに基づく機械学習によって生成されるモデルである。第2流派用の学習済モデルは、第2流派に属する術者による操作入力データ及び操作出力データに基づく機械学習によって生成されるモデルである。処理部120は、メタデータとして付与された術者データに基づいて、第1流派用と第2流派用の学習済モデルのいずれを用いるかを選択し、選択された学習済モデルにデータを入力することによってスキル評価を行う。当然、流派は3以上であってもよい。
 また取得部110は、操作入力データ及び操作出力データに対応付けられたメタデータとして、内視鏡による処置に用いられた処置具を特定する処置具データを取得してもよい。処理部120は、操作入力データと操作出力データと処置具データに基づいて、スキル評価を行う。
 ここでの処置具は、生体に対する処置を行うための器具であり、例えば高周波スネアや高周波ナイフを含む。高周波ナイフは、ニードルナイフ、ITナイフ、フックナイフ等を含む。例えばESDのマーキングには、ニードルナイフが用いられる。切開にはITナイフが用いられる。剥離には高周波スネアや高周波ナイフが用いられる。また処置具は、注射針、鉗子、クリップ等の他の器具を含んでもよい。ESDの局注には注射針が用いられる。止血には鉗子やクリップが用いられる。
 病変の種類が異なれば用いられる処置具は異なるし、1つの病変に対する手術の中でも具体的なステップに応じて用いられる処置具が異なる。そして、処置具に応じて、適切な使用方法が異なる。処置具データを処理に用いることによって、使用した処置具を考慮できるため、スキル評価の精度向上が可能になる。
 例えば、学習段階において、処置具に応じて異なる複数の学習済モデルが生成されてもよい。例えばニードルナイフ用の学習済モデルと、ITナイフ用の学習済モデルが別々に生成される。ニードルナイフ用の学習済モデルは、ニードルナイフを用いた処置における操作入力データ及び操作出力データに基づく機械学習によって生成されるモデルである。ITナイフ用の学習済モデルは、ITナイフを用いた処置における操作入力データ及び操作出力データに基づく機械学習によって生成されるモデルである。処理部120は、メタデータとして付与された処置具データに基づいて、いずれの学習済モデルを用いるかを選択し、選択された学習済モデルにデータを入力することによってスキル評価を行う。なお、上述したように、ニードルナイフやITナイフ以外にも処置具は種々考えられるため、学習済モデルの数は3つ以上であってもよい。
 また、以上では難易度データ、術者データ、処置具データに応じて学習済モデルが異なる例を説明した。ただし本実施形態の手法はこれに限定されない。例えば難易度データ、術者データ、処置具データは、モデルの入力として用いられてもよい。
 図14は、ニューラルネットワークの入力及び出力を表す他の図である。例えば学習装置は、操作出力データと伝達特性データだけでなく、難易度データ、術者データ及び処置具データも入力として用いることによって学習済モデルを生成する。取得部110は、スキル評価の対象となる操作入力データと操作出力データを取得する際に、難易度データ、術者データ及び処置具データをあわせて取得する。処理部120は、操作出力データ、伝達特性データ、難易度データ、術者データ及び処置具データを学習済モデルに入力し、順方向の演算を行うことによってスキル評価を行う。このようにしても、症例難易度、術者(流派)、処置具を考慮したスキル評価が可能であるため、精度向上が可能になる。
 また図14に示すように、内視鏡の周辺機器の使用状況を表す周辺機器データが、スキル評価に用いられてもよい。具体的には、学習装置は、操作出力データと伝達特性データだけでなく、周辺機器データも入力として用いることによって学習済モデルを生成する。取得部110は、周辺機器データを取得する。処理部120は、操作入力データと操作出力データと周辺機器データに基づいて、スキル評価を行う。
 ここでの周辺機器とは、内視鏡システム300に付随して設けられる機器である。具体的には、スコープ部310、処理装置330のように生体内の観察に必須な構成が内視鏡システム300の本体部に相当する。また本体部は、表示部340や光源装置350を含んでもよい。これに対して、周辺機器は撮像そのものに必須の構成ではなく、例えば高周波デバイスである処置具に電力を供給するための電源装置や、送気、吸引を行うためのポンプ等を有する装置が含まれる。
 周辺機器データは、例えば送気吸引のタイミングや回数を表す情報である。送気や吸引を行うことによって、臓器の膨張、収縮度合いが制御されるため、術場の状態が変化する。熟練者は、あらかじめ術場を整えておくことによって、操作性を適切に制御可能である。一方、修練医は術場をうまく整えることができず、先端部11を安定させることができなかったり、挿入部310bと生体を過剰に接触させたりする。よって送気吸引に関する情報は術者のスキル評価に有用であり、周辺機器データを用いることによってスキル評価の精度向上が可能である。
 また周辺機器データは、例えば高周波デバイスの通電時の情報である。通電時の情報とは、例えば通電タイミングを表す情報であってもよいし、処置中の連続通電時間や合計通電時間であってもよいし、通電回数であってもよい。熟練者は、必要な場面で通電するとともに、不要な場面での通電を抑制する。このようにすれば、高周波デバイスによって誤って生体を焼灼することを抑制できるためである。一方、修練医は不要な場面で通電するケースが見られる。よって通電時の情報は術者のスキル評価に有用であり、周辺機器データを用いることによってスキル評価の精度向上が可能である。
 なお、難易度データ、術者データ、処置具データ及び周辺機器データは、その全てを用いる必要はなく、1又は複数を省略可能である。また図14に示したように、全てが省略されてもよい。
 以上、本実施形態およびその変形例について説明したが、本開示は、各実施形態やその変形例そのままに限定されるものではなく、実施段階では、要旨を逸脱しない範囲内で構成要素を変形して具体化することができる。また、上記した各実施形態や変形例に開示されている複数の構成要素を適宜組み合わせることができる。例えば、各実施形態や変形例に記載した全構成要素からいくつかの構成要素を削除してもよい。さらに、異なる実施の形態や変形例で説明した構成要素を適宜組み合わせてもよい。このように、本開示の主旨を逸脱しない範囲内において種々の変形や応用が可能である。また、明細書又は図面において、少なくとも一度、より広義または同義な異なる用語と共に記載された用語は、明細書又は図面のいかなる箇所においても、その異なる用語に置き換えることができる。
AX1…基準軸、11…先端部、12…湾曲部、13…軟性部、14a…左右湾曲操作ノブ、14b…上下湾曲操作ノブ、17…進退機構、17a…進退ローラー、18…ねじり機構、18a…回転ローラー、19…駆動部、62…挿入量・ねじり量センサ、100…処理システム、110…取得部、120…処理部、130…出力処理部、300…内視鏡システム、310…スコープ部、310a…操作部、310b…挿入部、310c…ユニバーサルケーブル、310d…コネクタ、311…対物光学系、312…撮像素子、314…照明レンズ、315…ライトガイド、330…処理装置、331…前処理部、332…制御部、333…記憶部、335…検出処理部、336…後処理部、340…表示部、350…光源装置、352…光源

Claims (13)

  1.  内視鏡に対してユーザが行った操作を表す操作入力データと、前記操作を行った際の挿入部の位置及び姿勢の少なくとも一方を表す操作出力データと、を取得する取得部と、
     前記操作入力データ及び前記操作出力データに基づいて、前記内視鏡を操作する前記ユーザのスキル評価を行う処理部と、
     前記スキル評価の結果であるスキル評価情報を出力する出力処理部と、
     を含み、
     前記操作入力データと前記操作出力データの関係は、前記挿入部の状態に応じて変化することを特徴とする処理システム。
  2.  請求項1において、
     前記内視鏡は、
     前記挿入部の先端部と操作部との間に、受動的に動く軟性部を有する軟性内視鏡であることを特徴とする処理システム。
  3.  請求項1において、
     前記処理部は、
     前記操作入力データと前記操作出力データとの関係を表す伝達特性データを求め、前記伝達特性データに基づいて、前記スキル評価を行うことを特徴とする処理システム。
  4.  請求項3において、
     前記伝達特性データは、前記操作入力データによって表される操作入力の大きさと、前記操作出力データによって表される操作出力の大きさの比率を表すデータであることを特徴とする処理システム。
  5.  請求項3において、
     前記処理部は、
     前記スキル評価のための前記伝達特性データの数値範囲を取得し、
     前記伝達特性データの統計量を求め、
     前記統計量と前記数値範囲の比較処理に基づいて、前記スキル評価を行うことを特徴とする処理システム。
  6.  請求項1において、
     前記操作入力データは、前記挿入部の先端部を変位又は回転させる操作デバイスの操作量、前記挿入部のねじり量、前記挿入部の進退量の少なくとも1つに関する情報を含み、
     前記操作出力データは、前記挿入部の先端部の前記位置、前記姿勢、及び速度の少なくとも1つに関する情報を含むことを特徴とする処理システム。
  7.  請求項3において、
     前記処理部は、
     複数の学習用伝達特性データを、m(mは2以上の整数)個のカテゴリに分類する機械学習を行うことによって取得された学習済モデルと、前記伝達特性データとに基づいて、前記スキル評価を行うことを特徴とする処理システム。
  8.  請求項7において、
     前記処理部は、
     前記伝達特性データと前記学習済モデルとに基づいて、n(nは2以上の整数)次元の特徴量を求め、
     求められた前記特徴量の特徴量空間における位置と、前記m個のカテゴリのうちの1又は複数のカテゴリの前記特徴量空間における重心位置と、の距離に基づいて前記スキル評価を行うことを特徴とする処理システム。
  9.  請求項1において、
     前記取得部は、
     前記操作入力データ及び前記操作出力データに対応付けられたメタデータとして、症例難易度を表す難易度データを取得し、
     前記処理部は、
     前記操作入力データと前記操作出力データと前記難易度データに基づいて、前記スキル評価を行うことを特徴とする処理システム。
  10.  請求項1において、
     前記取得部は、
     前記操作入力データ及び前記操作出力データに対応付けられたメタデータとして、前記内視鏡を操作した術者を表す術者データを取得し、
     前記処理部は、
     前記操作入力データと前記操作出力データと前記術者データに基づいて、前記スキル評価を行うことを特徴とする処理システム。
  11.  請求項1において、
     前記取得部は、
     前記操作入力データ及び前記操作出力データに対応付けられたメタデータとして、前記内視鏡による処置に用いられた処置具を特定する処置具データを取得し、
     前記処理部は、
     前記操作入力データと前記操作出力データと前記処置具データに基づいて、前記スキル評価を行うことを特徴とする処理システム。
  12.  請求項1において、
     前記取得部は、
     前記操作入力データ及び前記操作出力データに対応付けられたメタデータとして、前記内視鏡の周辺機器の使用状況を表す周辺機器データを取得し、
     前記処理部は、
     前記操作入力データと前記操作出力データと前記周辺機器データに基づいて、前記スキル評価を行うことを特徴とする処理システム。
  13.  内視鏡に対してユーザが行った操作を表す操作入力データと、前記操作を行った際の挿入部の位置及び姿勢の少なくとも一方を表す操作出力データと、を取得し、
     前記操作入力データ及び前記操作出力データに基づいて、前記内視鏡を操作する前記ユーザのスキル評価を行い、
     前記スキル評価の結果であるスキル評価情報を出力し、
     前記操作入力データと前記操作出力データの関係は、前記挿入部の状態に応じて変化することを特徴とする情報処理方法。
PCT/JP2021/036107 2021-09-30 2021-09-30 処理システム及び情報処理方法 WO2023053333A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2023550900A JPWO2023053333A1 (ja) 2021-09-30 2021-09-30
PCT/JP2021/036107 WO2023053333A1 (ja) 2021-09-30 2021-09-30 処理システム及び情報処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/036107 WO2023053333A1 (ja) 2021-09-30 2021-09-30 処理システム及び情報処理方法

Publications (1)

Publication Number Publication Date
WO2023053333A1 true WO2023053333A1 (ja) 2023-04-06

Family

ID=85781590

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/036107 WO2023053333A1 (ja) 2021-09-30 2021-09-30 処理システム及び情報処理方法

Country Status (2)

Country Link
JP (1) JPWO2023053333A1 (ja)
WO (1) WO2023053333A1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001198083A (ja) * 2000-01-19 2001-07-24 Olympus Optical Co Ltd 電動湾曲式内視鏡
JP2017099509A (ja) * 2015-11-30 2017-06-08 オリンパス株式会社 内視鏡業務支援システム
JP2019170638A (ja) * 2018-03-28 2019-10-10 オリンパス株式会社 内視鏡システム
WO2021111879A1 (ja) * 2019-12-05 2021-06-10 Hoya株式会社 学習モデルの生成方法、プログラム、手技支援システム、情報処理装置、情報処理方法及び内視鏡用プロセッサ
WO2021149112A1 (ja) * 2020-01-20 2021-07-29 オリンパス株式会社 内視鏡検査支援装置、内視鏡検査支援装置の作動方法及びプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001198083A (ja) * 2000-01-19 2001-07-24 Olympus Optical Co Ltd 電動湾曲式内視鏡
JP2017099509A (ja) * 2015-11-30 2017-06-08 オリンパス株式会社 内視鏡業務支援システム
JP2019170638A (ja) * 2018-03-28 2019-10-10 オリンパス株式会社 内視鏡システム
WO2021111879A1 (ja) * 2019-12-05 2021-06-10 Hoya株式会社 学習モデルの生成方法、プログラム、手技支援システム、情報処理装置、情報処理方法及び内視鏡用プロセッサ
WO2021149112A1 (ja) * 2020-01-20 2021-07-29 オリンパス株式会社 内視鏡検査支援装置、内視鏡検査支援装置の作動方法及びプログラム

Also Published As

Publication number Publication date
JPWO2023053333A1 (ja) 2023-04-06

Similar Documents

Publication Publication Date Title
JP7293265B2 (ja) 管状網のナビゲーション
JP7493528B2 (ja) エンドエフェクタのフィードバック連続配置制御
CN105979899B (zh) 用于设备感知柔性工具配准的系统和方法
CN108542499B (zh) 用于使用形状感测的变形补偿的系统和方法
RU2692206C2 (ru) Роботизированное управление эндоскопом на основе анатомических признаков
JP7245360B2 (ja) 学習モデルの生成方法、プログラム、手技支援システム、情報処理装置、情報処理方法及び内視鏡用プロセッサ
US20220218180A1 (en) Endoscope insertion control device, endoscope insertion control method, and non-transitory recording medium in which endoscope insertion control program is recorded
CN114945937A (zh) 用于内窥镜流程的引导式解剖操纵
WO2023053333A1 (ja) 処理システム及び情報処理方法
US20220096164A1 (en) Systems and methods for facilitating optimization of an imaging device viewpoint during an operating session of a computer-assisted operation system
JP7454112B2 (ja) 連続体ロボット装置、方法及び媒体
WO2023053334A1 (ja) 処理システム及び情報処理方法
JP2023507063A (ja) 手術中に画像取込装置を制御するための方法、装置、およびシステム
WO2020059007A1 (ja) 内視鏡用トレーニングシステム、コントローラ及び記録媒体
WO2022230160A1 (ja) 内視鏡システム、内腔構造算出システム及び内腔構造情報の作成方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21959374

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2023550900

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE