WO2019164276A1 - 수술동작 인식 방법 및 장치 - Google Patents

수술동작 인식 방법 및 장치 Download PDF

Info

Publication number
WO2019164276A1
WO2019164276A1 PCT/KR2019/002094 KR2019002094W WO2019164276A1 WO 2019164276 A1 WO2019164276 A1 WO 2019164276A1 KR 2019002094 W KR2019002094 W KR 2019002094W WO 2019164276 A1 WO2019164276 A1 WO 2019164276A1
Authority
WO
WIPO (PCT)
Prior art keywords
surgical
learning
image
recognizing
computer
Prior art date
Application number
PCT/KR2019/002094
Other languages
English (en)
French (fr)
Inventor
이종혁
형우진
양훈모
김호승
Original Assignee
(주)휴톰
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020180098358A external-priority patent/KR102014385B1/ko
Application filed by (주)휴톰 filed Critical (주)휴톰
Publication of WO2019164276A1 publication Critical patent/WO2019164276A1/ko

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B34/00Computer-aided surgery; Manipulators or robots specially adapted for use in surgery
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B34/00Computer-aided surgery; Manipulators or robots specially adapted for use in surgery
    • A61B34/10Computer-aided planning, simulation or modelling of surgical operations
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B34/00Computer-aided surgery; Manipulators or robots specially adapted for use in surgery
    • A61B34/20Surgical navigation systems; Devices for tracking or guiding surgical instruments, e.g. for frameless stereotaxis
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B34/00Computer-aided surgery; Manipulators or robots specially adapted for use in surgery
    • A61B34/30Surgical robots
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B90/00Instruments, implements or accessories specially adapted for surgery or diagnosis and not covered by any of the groups A61B1/00 - A61B50/00, e.g. for luxation treatment or for protecting wound edges
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • G06T17/20Finite element generation, e.g. wire-frame surface description, tesselation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image

Definitions

  • the present invention relates to a method and apparatus for recognizing a surgical operation.
  • Deep learning is defined as a set of machine learning algorithms that attempts to achieve high levels of abstraction (summarizing key content or functions in large amounts of data or complex data) through a combination of several nonlinear transformations. Deep learning can be seen as a field of machine learning that teaches computers how people think in a large framework.
  • the problem to be solved by the present invention is to provide a surgical image learning and learning-based surgical motion recognition method and apparatus.
  • the problem to be solved by the present invention is to provide a method and apparatus for learning-based surgery operation recognition.
  • Learning-based operation operation recognition method performed by a computer according to an embodiment of the present invention, obtaining a surgical image, learning the image frame in the surgical image to recognize the operation operation, and the recognized operation operation Extracting an image frame set among the image frames in the surgical image based on the method, and deriving the meaning of the surgical operation through learning.
  • Surgical image learning method performed by a computer according to an embodiment of the present invention, obtaining first learning data for recognizing the operation operation from the image frame in the surgical image, motion recognition based on the first learning data Training a learning model, acquiring a set of image frames for deriving the meaning of the surgical operation among the image frames in the surgical image as second learning data, and a meaning derived learning model based on the second learning data. Learning.
  • the learning-based operation operation recognition method performed by a computer according to an embodiment of the present invention, acquiring a surgical image sequence, performing deep learning based learning on the surgical image sequence based on loss information. And recognizing a surgical operation on the surgical image sequence based on the learning.
  • each image frame is used as a unit for recognizing one surgical operation, the meaning of the operations included in the surgical image can be recognized more accurately.
  • stepwise learning is performed in recognizing a surgical operation, a more effective learning model and learning results can be derived.
  • the image sequence is used as a unit for recognizing one operation, the operation can be recognized more accurately in the operation image.
  • loss information is used so that learning can be efficiently performed even with a small amount of image data or fine movement, a more improved recognition rate of a surgical operation can be obtained.
  • FIG. 1 is a schematic diagram of a system capable of performing robot surgery according to an embodiment of the present invention.
  • FIG. 2 is a flowchart illustrating a learning-based operation recognition method according to an embodiment of the present invention.
  • 3 to 7 are diagrams for explaining a process of recognizing a surgical operation by obtaining a surgical image in the learning-based surgical motion recognition method according to an embodiment of the present invention.
  • FIG. 8 is a flowchart illustrating a surgical image learning method according to an embodiment of the present invention.
  • FIG. 9 is a diagram schematically showing the configuration of an apparatus 400 for performing a surgical image learning method and a learning-based surgical gesture recognition method according to an embodiment of the present invention.
  • FIG. 10 is a schematic diagram of a system capable of performing robot surgery according to an embodiment of the present invention.
  • FIG. 11 is a flowchart illustrating a learning-based operation recognition method according to an embodiment of the present invention.
  • FIG. 12 is a view showing a surgical image sequence.
  • FIG. 13 is a view for explaining a surgical motion recognition method through CNN-based learning according to an embodiment of the present invention.
  • FIG. 14 is a diagram schematically illustrating a configuration of an apparatus 300 for performing a learning-based surgery gesture recognition method according to an embodiment of the present invention.
  • a “part” or “module” refers to a hardware component such as software, FPGA, or ASIC, and the “part” or “module” plays certain roles. However, “part” or “module” is not meant to be limited to software or hardware.
  • the “unit” or “module” may be configured to be in an addressable storage medium or may be configured to play one or more processors.
  • a “part” or “module” may include components such as software components, object-oriented software components, class components, and task components, processes, functions, properties, Procedures, subroutines, segments of program code, drivers, firmware, microcode, circuitry, data, databases, data structures, tables, arrays, and variables. Functions provided within components and “parts” or “modules” may be combined into smaller numbers of components and “parts” or “modules” or into additional components and “parts” or “modules”. Can be further separated.
  • FIGS. 1 to 9 a learning-based surgical motion recognition method and apparatus, a surgical image learning method and apparatus according to an embodiment of the present invention will be described in detail.
  • a computer includes all the various devices capable of performing arithmetic processing to provide a result to a user.
  • a computer can be a desktop PC, a notebook, as well as a smartphone, a tablet PC, a cellular phone, a PCS phone (Personal Communication Service phone), synchronous / asynchronous The mobile terminal of the International Mobile Telecommunication-2000 (IMT-2000), a Palm Personal Computer (PC), a Personal Digital Assistant (PDA), and the like may also be applicable.
  • a head mounted display (HMD) device includes a computing function
  • the HMD device may be a computer.
  • the computer may correspond to a server that receives a request from a client and performs information processing.
  • FIG. 1 is a schematic diagram of a system capable of performing robot surgery according to an embodiment of the present invention.
  • the robotic surgical system includes a medical imaging apparatus 10, a server 100, a control unit 30 provided in an operating room, a display 32, and a surgical robot 34.
  • the medical imaging apparatus 10 may be omitted in the robot surgery system according to the disclosed embodiment.
  • surgical robot 34 includes imaging device 36 and surgical instrument 38.
  • the robot surgery is performed by the user controlling the surgical robot 34 using the control unit 30. In one embodiment, the robot surgery may be automatically performed by the controller 30 without the user's control.
  • the server 100 is a computing device including at least one processor and a communication unit.
  • the controller 30 includes a computing device including at least one processor and a communication unit.
  • the control unit 30 includes hardware and software interfaces for controlling the surgical robot 34.
  • the imaging device 36 includes at least one image sensor. That is, the imaging device 36 includes at least one camera device and is used to photograph an object, that is, a surgical site. In one embodiment, the imaging device 36 includes at least one camera coupled with a surgical arm of the surgical robot 34.
  • the image photographed by the photographing apparatus 36 is displayed on the display 340.
  • surgical robot 34 includes one or more surgical tools 38 that can perform cutting, clipping, fixing, grabbing operations, and the like, of the surgical site.
  • Surgical tool 38 is used in conjunction with the surgical arm of the surgical robot 34.
  • the controller 30 receives information necessary for surgery from the server 100 or generates information necessary for surgery and provides the information to the user. For example, the controller 30 displays the information necessary for surgery, generated or received, on the display 32.
  • the user performs the robot surgery by controlling the movement of the surgical robot 34 by manipulating the control unit 30 while looking at the display 32.
  • the server 100 generates information necessary for robotic surgery using medical image data of an object previously photographed from the medical image photographing apparatus 10, and provides the generated information to the controller 30.
  • the controller 30 displays the information received from the server 100 on the display 32 to provide the user, or controls the surgical robot 34 by using the information received from the server 100.
  • the means that can be used in the medical imaging apparatus 10 is not limited, for example, other various medical image acquisition means such as CT, X-Ray, PET, MRI may be used.
  • the surgical image obtained by the imaging device 36 is transmitted to the controller 30.
  • the controller 30 may segment the surgical image obtained during the surgery in real time.
  • control unit 30 transmits the surgical image to the server 100 during or after surgery is completed.
  • the server 100 may receive and analyze the surgical image.
  • the server 100 learns and stores at least one model for analyzing a surgical image.
  • the server 100 uses the training data to learn at least one model, and the training data includes information about the surgical image and the surgical image, but is not limited thereto.
  • the server 100 learns a surgical image and recognizes a surgical operation based on the learning.
  • the embodiments disclosed below may not be applicable only in connection with the robotic surgery system illustrated in FIG. 1, but may be performed using learning data and perform all kinds of learning using a trained model. The same may be applied to the embodiments.
  • Computer may mean the server 100 of FIG. 1, but is not limited thereto and may be used to encompass a device capable of performing computing processing.
  • FIG. 2 is a flowchart illustrating a learning-based operation recognition method according to an embodiment of the present invention.
  • the step of acquiring a surgical image by the computer (S100), by learning a plurality of image frames included in the surgical image to operate the operation Recognizing (S110), extracting a set of consecutive image frames among the plurality of image frames based on the recognized surgical operation, and deriving the meaning of the surgical operation through learning (S120).
  • S100 the computer
  • S110 the operation Recognizing
  • S120 extracting a set of consecutive image frames among the plurality of image frames based on the recognized surgical operation
  • deriving the meaning of the surgical operation through learning (S120).
  • the computer may acquire a surgical image (S100).
  • the surgical image may be an actual surgical image or may be a virtual image for simulation.
  • the actual surgical image refers to data obtained by the actual medical staff performing the operation, for example, may be an image of the actual surgical scene actually performed by the surgical robot 34.
  • the actual surgical image is data recorded on the surgical site and the operation during the actual surgical procedure.
  • the virtual image for the simulation refers to a simulation image generated based on the medical image photographed from the medical imaging apparatus 10, and may be, for example, a simulation model generated by modeling a medical image of an actual patient in three dimensions.
  • a virtual surgical image may be generated by rehearsing or simulating the simulation model in the virtual space. Therefore, the virtual image may be data recorded about the surgical site and the operation during the surgery performed on the simulation model.
  • the surgical image may include one or more image frames.
  • Each image frame may include a part of a body part of an object (eg, a patient), that is, a surgical part.
  • each image frame may include not only the surgical site of the subject, but also surgical instruments, consumables necessary for surgery, and the like.
  • the surgical image refers to data composed of image frames in which each operation (scene) records a surgical operation according to time during the surgical procedure.
  • the computer may recognize the surgical operation by learning the image frame in the acquired surgical image (S110).
  • the computer calculates an attribute for each of the image frames in the surgical image using a pre-generated motion recognition learning model, and based on the calculated attributes, the operation for each of the image frames in the surgical image.
  • the motion recognition learning model is a model trained for motion recognition using an image frame included in a surgical image as learning data, and may be a model trained using various learning methods.
  • the learning method may be a machine learning method such as supervised learning, unsupervised learning, reinforcement learning, for example, a deep learning-based convolutional neural network (CNN).
  • CNN convolutional neural network
  • each image frame is an image recording a surgical operation and includes information related to the surgical operation.
  • information related to the operation operation included in the image frame is used, it is possible to determine which operation operation is recorded in each operation of the image frame.
  • the computer may first extract information, that is, attributes related to the surgical operation, from each image frame in order to recognize the surgical operation from each image frame of the surgical image.
  • An attribute is information of an object for identifying a surgical operation.
  • object information such as a surgical site, a type of surgical operation, a surgical tool, an article used in the operation, an object's position information, direction information, or motion information
  • an image Camera information such as a camera's viewpoint, direction, and movement, may be included as object information.
  • attributes can be defined as shown in Table 1 below.
  • the computer may store predefined attribute information. This can be derived from the attribute information as shown in Table 1 based on the results of learning using image frames as learning data. Therefore, when a computer inputs a surgical image using a motion recognition learning model, the computer may calculate attribute information of each image frame included in the surgical image as an output. For example, when a computer inputs a first image frame of a surgical image into a motion recognition learning model, the computer extracts at least one attribute information (ie, object information), and outputs a binary value defined in correspondence with each extracted attribute. Can be calculated. The computer may recognize a surgical operation included in the first image frame based on attribute information (eg, binary value data) calculated for the first image frame.
  • attribute information eg, binary value data
  • the computer may extract a set of image frames among the image frames included in the surgical image based on the recognized operation for each image frame and derive the meaning of the operation through learning.
  • the computer extracts a set of image frames representing a series of surgical motions using a previously generated semantic learning model based on the attributes calculated for each of the image frames in the surgical image, and a series of operations.
  • the meaning of the surgical operation can be derived based on the detailed surgical operation corresponding to the operation.
  • the semantic derivation learning model is a model trained to derive the meaning of the motion by using a set of image frames representing a series of surgical motions as learning data, and may be a model trained using various learning methods.
  • the learning method may use a machine learning method such as supervised learning, unsupervised learning, reinforcement learning, and may use, for example, a deep learning based Recurrent neural network (RNN).
  • RNN deep learning based Recurrent neural network
  • the surgical image includes a series of image frames in which the surgical procedure is recorded over time. Therefore, if we can figure out which motion each image frame represents, we can find related image frames expressing one motion, and the meaning of what surgical operation is performed in the whole surgery process based on these related image frames. Can be identified. That is, in the present invention, the associated image frames are referred to as image frame sets. For example, since the surgical image is composed of consecutive image frames over time, the associated image frames (ie, the image frame set) may be composed of consecutive image frames.
  • the computer may store information about the predefined detailed surgery operation. This may be derived based on the results of learning using image frame sets representing a series of surgical operations as learning data. For example, the information on the detailed surgery operation may be defined as shown in Table 2 below.
  • the detailed operation represents a minimum operation unit constituting a surgical process determined according to a specific standard, and the detailed operation may be divided by various criteria.
  • the detailed surgical motion may include the type of surgery (eg, laparoscopic surgery, robotic surgery, etc.), the anatomical body portion on which the surgery is performed, the surgical tools used, the number of surgical tools, and the direction in which the surgical tools appear on the screen. Or based on location, movement of the surgical instrument (eg, forward / backward), and the like. That is, the detailed surgery operation may be determined based on the above attribute information.
  • the computer acquires attribute information from each image frame in the surgical image, and inputs the attribute information of each image frame to the semantic derivation learning model, and based on the attribute information, a series of surgical operations (ie, detailed surgery) Operation) can be calculated as an output. For example, if a computer inputs n video frames to a motion recognition learning model, the computer outputs attribute information for each of the n video frames.
  • the image frame may be detected to output information on the detailed surgical operation.
  • the computer may derive the meaning of the surgical operation from the plurality of image frames based on the detailed surgical operation information.
  • the specific surgical operation may be identified through attribute information recognized from the surgical image, and the detailed surgical operation may be recognized through the continuity of each specific surgical operation.
  • learning it is possible to recognize higher surgical motions that mean a series of detailed motions, and to provide a learning model that can recognize a larger level of surgical motions and even a type of surgery.
  • 3 to 7 are diagrams for explaining a process of recognizing a surgical operation by obtaining a surgical image in the learning-based surgical motion recognition method according to an embodiment of the present invention.
  • the computer may acquire a surgical image 200 including n image frames.
  • the n image frames may be acquired continuously over time.
  • the computer may calculate an attribute 210 of each of the image frames 200 using a motion recognition learning model for each of the n image frames 200.
  • the motion recognition learning model may be a model trained using the CNN technology of deep learning.
  • the CNN is applied to each of the image frames 200
  • the attribute 210 for each of the image frames 200 is applied. Can be generated as an output.
  • the computer extracts at least one image frame set 220 representing a series of surgical operations by applying the attribute 210 for each of the n image frames 200 to the semantic derivation learning model, and correspondingly Detailed surgical movements can be derived.
  • the semantic derivation learning model may be a model trained using RNN technology of deep learning, and when the RNN is applied by inputting the attribute 210 of each of the image frames 200, the detailed surgery included in the surgical image You can generate an action as an output.
  • 5 to 7 are views for explaining a process of calculating the attribute for the surgical tool from the image frame when the surgical image including the surgical tool is obtained.
  • the computer includes an image frame including at least one surgical tool such as a first surgical tool 310 (eg, a Harmonic tool) and a second surgical tool 320 (eg, a bipolar tool). 300 can be obtained.
  • the computer detects each of the first surgical tool 310 and the second surgical tool 320 from the image frame 300, and then calculates the respective attributes by applying a motion recognition learning model to each.
  • the computer first recognizes the first surgical tool 310 from the image frame 300, and the result of the recognized first surgical tool 310 (eg, the first surgical tool 310). ID) can be obtained.
  • the computer may acquire the processed image frame 330 by fusing (eg, padding) the first surgical tool 310 acquired in the image frame.
  • the processed image frame 330 may be an image including only the first surgical tool 310 by padding.
  • the computer may calculate an attribute of the first surgical tool 310 using a motion recognition learning model for the processed image frame 330 including only the first surgical tool 310.
  • the computer recognizes the second surgical tool 320 from the image frame 300, and the result of the recognized second surgical tool 320 (eg, the second surgical tool 320). ID) can be obtained.
  • the computer may acquire the processed image frame 340 by fusing (eg, padding) the second surgical tool 320 acquired in the image frame.
  • the processed image frame 340 may be an image including only the second surgical tool 320 by padding.
  • the computer may calculate an attribute of the second surgical tool 320 using a motion recognition learning model for the processed image frame 340 including only the second surgical tool 320.
  • the first surgical tool 310 is provided in the case of the image frame 300 including the first surgical tool 310 and the second surgical tool 320 as shown in FIGS. 5 and 6, the first surgical tool 310 is provided. Since the processed image frame 330 including only the processed image frame 340 including only the second surgical tool 320 is obtained, respectively, the CNN of deep learning for each processed image frame 330 and 340. You can generate each attribute as an output by applying. Therefore, in the case of the image frame 300 including the first surgical tool 310 and the second surgical tool 320, a total of two attribute calculation processes are performed.
  • the computer applies each of the attributes calculated from each of the processed image frames 330 and 340 to a semantic derivation learning model (eg, RNN technology of deep learning) to represent at least one image frame set representing a series of surgical operations. Can be extracted and the corresponding detailed surgical operation can be derived.
  • a semantic derivation learning model eg, RNN technology of deep learning
  • FIG. 8 is a flowchart illustrating a surgical image learning method according to an embodiment of the present invention.
  • the surgical image learning method acquiring first learning data for recognizing a surgical operation from a plurality of image frames included in the surgical image (S200). 1, learning a motion recognition learning model based on the training data (S210), and obtaining a continuous set of image frames for deriving the meaning of the surgical operation from the plurality of image frames as second training data (S220).
  • the method may include training the semantic derivation learning model based on the second training data (S230).
  • the computer may acquire first learning data for recognizing a surgical operation from the plurality of image frames included in the surgical image (S200).
  • the first learning data includes an image frame to which attribute information for motion recognition is assigned. Therefore, the computer may acquire the image frame obtained by recognizing the attribute of each of the plurality of image frames included in the surgical image as the first learning data. For example, the process of recognizing an attribute for an image frame may be performed by a person or automatically by an image using an image recognition algorithm.
  • the computer may train the motion recognition learning model based on the first learning data (S210).
  • the motion recognition learning model is trained through a learning process such as supervised learning, non-supervised learning, reinforcement learning, etc. using the first learning data, and as a result of the learning, the operation recognition corresponding to the attribute of each image frame is recognized.
  • a learning process such as supervised learning, non-supervised learning, reinforcement learning, etc. using the first learning data
  • the operation recognition corresponding to the attribute of each image frame is recognized.
  • attribute information type of object, object position, direction, motion information, camera information, etc.
  • the computer may acquire a set of consecutive image frames as second learning data for deriving a meaning of a surgical operation from the surgical image (S220).
  • the second training data comprises a set of consecutive image frames representing a series of surgical operations (ie, detailed surgical operations). Therefore, the computer may acquire a plurality of consecutive image frames representing a series of surgical operations based on the recognized attributes of each image frame of the surgical image as a data set, and use it as the second learning data. For example, the process of recognizing the detailed surgery operation based on the recognized attribute of the image frame may be performed by a person or may be automatically performed by deep learning using a computer.
  • the computer may train the semantic derived learning model based on the second learning data (S230).
  • the semantic derivation learning model is learned through a learning process such as supervised learning, non-supervised learning, reinforcement learning, etc. using the second learning data, to derive the meaning of the surgical operation corresponding to the detailed operation of the learning result.
  • a learning process such as supervised learning, non-supervised learning, reinforcement learning, etc. using the second learning data
  • the meaning of the surgical operation corresponding to the detailed operation of the learning result can be.
  • information on the detailed surgical operation (name of the detailed surgical operation, code information, detailed description, etc.) as shown in Table 2 can be obtained.
  • each image frame is used as a unit for recognizing one surgical operation and a technique such as image recognition is applied to each image frame, even if it is not an expert group such as a doctor, that is, data labeled by a computer Can be obtained. Therefore, in terms of cost and time, it is easier to acquire data than in the prior art.
  • the present invention performs a step-by-step learning, such as motion recognition learning and semantic derivation learning in recognizing the operation operation can derive a more effective learning model and learning results.
  • FIG. 9 is a diagram schematically showing the configuration of an apparatus 400 for performing a surgical image learning method and a learning-based surgical gesture recognition method according to an embodiment of the present invention.
  • the processor 410 may include a connection passage (eg, a bus or the like) that transmits and receives signals with one or more cores (not shown) and a graphic processor (not shown) and / or other components. ) May be included.
  • a connection passage eg, a bus or the like
  • a graphic processor not shown
  • / or other components May be included.
  • the processor 410 executes one or more instructions stored in the memory 320 to perform the surgical image learning method and the learning-based surgical motion recognition method described with reference to FIGS. 2 to 8.
  • the processor 410 acquires first training data for recognizing a surgical operation from a plurality of image frames included in the surgical image by executing one or more instructions stored in the memory 420, the first training. Training a motion recognition learning model based on the data, acquiring a continuous set of image frames as second learning data for deriving a meaning of the surgical operation among the plurality of image frames, and the second learning data
  • a surgical image learning method may include performing a training on a semantic derivation learning model based on the same.
  • the processor 410 acquires a surgical image by executing one or more instructions stored in the memory 420, recognizing a surgical operation by learning a plurality of image frames included in the surgical image, and the recognized Based on the surgical operation, a continuous image frame set may be extracted from the plurality of image frames, and the learning-based operation operation recognition method may include performing a derivation of the meaning of the surgical operation through learning.
  • the processor 410 may include random access memory (RAM) and read-only memory (ROM) for temporarily and / or permanently storing a signal (or data) processed in the processor 410. , Not shown) may be further included.
  • the processor 410 may be implemented in the form of a system on chip (SoC) including at least one of a graphic processor, a RAM, and a ROM.
  • SoC system on chip
  • the memory 320 may store programs (one or more instructions) for processing and controlling the processor 410.
  • Programs stored in the memory 420 may be divided into a plurality of modules according to their functions.
  • the surgical image learning method and the learning-based surgical motion recognition method according to an embodiment of the present invention described above may be implemented as a program (or an application) to be executed in combination with a computer which is hardware and stored in a medium.
  • a computer includes all the various devices capable of performing arithmetic processing to provide a result to a user.
  • a computer can be a desktop PC, a notebook, as well as a smartphone, a tablet PC, a cellular phone, a PCS phone (Personal Communication Service phone), synchronous / asynchronous The mobile terminal of the International Mobile Telecommunication-2000 (IMT-2000), a Palm Personal Computer (PC), a Personal Digital Assistant (PDA), and the like may also be applicable.
  • a head mounted display (HMD) device includes a computing function
  • the HMD device may be a computer.
  • the computer may correspond to a server that receives a request from a client and performs information processing.
  • FIG. 10 is a schematic diagram of a system capable of performing robot surgery according to an embodiment of the present invention.
  • the robotic surgical system includes a medical imaging apparatus 10, a server 100, a control unit 30 provided in an operating room, a display 32, and a surgical robot 34.
  • the medical imaging apparatus 10 may be omitted in the robot surgery system according to the disclosed embodiment.
  • surgical robot 34 includes imaging device 36 and surgical instrument 38.
  • the robot surgery is performed by the user controlling the surgical robot 34 using the control unit 30. In one embodiment, the robot surgery may be automatically performed by the controller 30 without the user's control.
  • the server 100 is a computing device including at least one processor and a communication unit.
  • the controller 30 includes a computing device including at least one processor and a communication unit.
  • the control unit 30 includes hardware and software interfaces for controlling the surgical robot 34.
  • the imaging device 36 includes at least one image sensor. That is, the imaging device 36 includes at least one camera device and is used to photograph an object, that is, a surgical site. In one embodiment, the imaging device 36 includes at least one camera coupled with a surgical arm of the surgical robot 34.
  • the image photographed by the photographing apparatus 36 is displayed on the display 340.
  • surgical robot 34 includes one or more surgical tools 38 that can perform cutting, clipping, fixing, grabbing operations, and the like, of the surgical site.
  • Surgical tool 38 is used in conjunction with the surgical arm of the surgical robot 34.
  • the controller 30 receives information necessary for surgery from the server 100 or generates information necessary for surgery and provides the information to the user. For example, the controller 30 displays the information necessary for surgery, generated or received, on the display 32.
  • the user performs the robot surgery by controlling the movement of the surgical robot 34 by manipulating the control unit 30 while looking at the display 32.
  • the server 100 generates information necessary for robotic surgery using medical image data of an object previously photographed from the medical image photographing apparatus 10, and provides the generated information to the controller 30.
  • the controller 30 displays the information received from the server 100 on the display 32 to provide the user, or controls the surgical robot 34 by using the information received from the server 100.
  • the means that can be used in the medical imaging apparatus 10 is not limited, for example, other various medical image acquisition means such as CT, X-Ray, PET, MRI may be used.
  • the surgical image obtained by the imaging device 36 is transmitted to the controller 30.
  • the controller 30 may segment the surgical image obtained during the surgery in real time.
  • control unit 30 transmits the surgical image to the server 100 during or after surgery is completed.
  • the server 100 may receive and analyze the surgical image.
  • the server 100 learns and stores at least one model for analyzing a surgical image.
  • the server 100 uses the training data to learn at least one model, and the training data includes information about the surgical image and the surgical image, but is not limited thereto.
  • the server 100 learns a surgical image and recognizes a surgical operation based on the learning.
  • the embodiments disclosed below may not be applicable only in connection with the robotic surgery system illustrated in FIG. 10, but may be performed by using a surgical image and recognize all kinds of specific operations through the learned results. The same may be applied to the embodiments.
  • Computer may mean the server 100 or the controller 30 of FIG. 10, but is not limited thereto and may be used to encompass a device capable of performing a computing process.
  • FIG. 11 is a flowchart illustrating a learning-based operation recognition method according to an embodiment of the present invention.
  • the method may include obtaining a surgical image sequence (S100), based on loss information of a surgical image sequence.
  • the method may include performing deep learning based on low learning (S110), and recognizing a surgical operation on a surgical image sequence based on the learning (S120).
  • S110 deep learning based on low learning
  • S120 recognizing a surgical operation on a surgical image sequence based on the learning
  • the computer may acquire a surgical image sequence (S100).
  • the surgical image may be an actual surgical image or may be a virtual image for simulation.
  • the actual surgical image refers to data obtained by the actual medical staff performing the operation, for example, may be an image of the actual surgical scene actually performed by the surgical robot 34.
  • the actual surgical image is data recorded on the surgical site and the operation during the actual surgical procedure.
  • the virtual image for the simulation refers to a simulation image generated based on the medical image photographed from the medical imaging apparatus 10, and may be, for example, a simulation model generated by modeling a medical image of an actual patient in three dimensions.
  • a virtual surgical image may be generated by rehearsing or simulating the simulation model in the virtual space. Therefore, the virtual image may be data recorded about the surgical site and the operation during the surgery performed on the simulation model.
  • the surgical image may include one or more image frames.
  • Each image frame may include a part of a body part of a patient, that is, a surgical part.
  • each image frame may include not only the surgical site of the patient, but also surgical instruments, consumables necessary for surgery, and the like.
  • the surgical image refers to data composed of image frames in which each operation (scene) records a surgical operation according to time during the surgical procedure. Therefore, data consisting of these image frames is referred to as a surgical image sequence.
  • 12 is a view showing a surgical image sequence. As shown in FIG. 12, the surgical image sequence may include a plurality of image frames.
  • the computer may perform deep learning based learning on the surgical image sequence based on loss information (S110).
  • the computer extracts the motion information of the object based on the difference between the frames in the surgical image sequence, and can learn the loss information on the extracted motion information to minimize the loss of the operation.
  • the computer may recognize the surgical operation image corresponding to the surgical operation from the surgical image sequence, and learn the loss information on the recognized surgical operation image to minimize the surgical operation loss.
  • the computer may recognize the operation of the surgical image sequence based on the learning (S120).
  • the computer may extract a common feature based on the surgical motion image corresponding to the surgical motion, and recognize the surgical motion based on the extracted common feature.
  • step S110 deep learning-based learning may be performed by using a convolutional neural network (CNN).
  • CNN convolutional neural network
  • learning is performed through a CNN, including at least one main layer recognizing a surgical operation, a first sublayer extracting motion information of an object, and a second sublayer recognizing a surgical operation image.
  • the feature values of the image may be output.
  • the output layer may be a spatial pyramid pooling (SPP) layer in the main layer, and the SPP layer may be connected to the first sublayer and the second sublayer to output a learning result.
  • SPP spatial pyramid pooling
  • FIG. 13 is a view for explaining a surgical motion recognition method through CNN-based learning according to an embodiment of the present invention.
  • the computer may acquire the surgical image sequence 200 as an input value.
  • the surgical image sequence 200 may be composed of a plurality of image frames (eg, frame 1, frame 2, shock, frame N).
  • the computer may perform CNN-based learning on the surgical image sequence 200.
  • the CNN-based learning may include a main network 210 (eg, a motion recognition network), a first sub-network 220 (eg, a motion information extraction network), and a second sub-network 230 (eg : Surgery operation image recognition network) can be configured.
  • Each network 210, 220, 230 may include at least one layer, and learning may be performed through each layer.
  • the main network 210 may function to recognize a surgical operation through learning from the input surgical image sequence 200.
  • the main network 210 may include at least one main layer, and the at least one main layer may include a convolutional layer, a fully connected layer, and an SPP layer. have.
  • the main network 210 may interwork with the first sub-network 220 and the second sub-network 230 to perform the learning based on the loss information on the surgical image sequence 200.
  • the main network 210 may calculate the operation loss information (L a ) through the learning from the input surgical image sequence 200 as shown in equation (1).
  • t i is the i-th target value
  • C is the number of classes for surgical motion recognition
  • G 1i (x; ⁇ c; ⁇ a) is for the network parameters ⁇ c, ⁇ a Shows the i-th softmax output of x.
  • [theta] c and [theta] a are parameters for the convolutional layer and the fully connected layer.
  • ⁇ c is a parameter shared by the three networks 210, 220, and 230.
  • image data obtained during minimally invasive surgery such as laparoscopic surgery or robotic surgery has a problem that it is difficult to learn because the data amount is small and the movement of objects in the image is minute.
  • deep learning-based learning is performed using such image data, it is difficult to generalize since it operates effectively only on the learned image data. Therefore, in the present invention, to solve such a problem, by learning the loss information, it is possible to effectively perform the learning even on the small image data and the fine movement to improve the recognition ability of the surgical operation.
  • the main network 210 acquires the loss information L d of the motion information of the object from the first sub-network 220 together with the operation loss loss information L a and performs the learning. Through this, it is possible to minimize the loss of the surgical motion recognition.
  • the main network 210 acquires the loss information (L S ) of the surgical operation image corresponding to the surgical operation from the second sub-network 230 to perform learning, thereby minimizing the loss of recognition of the surgical operation. can do.
  • the first sub-network 220 extracts the motion information of the object from the input surgical image sequence 200 and performs a function based on this to calculate loss information L d of the motion information of the object. Can be.
  • the first sub-network 220 may serve as a decoder and generate motion information of the object.
  • the first sub network 220 may include at least one first sub layer, and the at least one first sub layer may include a fully connected layer.
  • the object is included in the image data taken by the camera entered into the body of the patient who is the target of minimally invasive surgery, for example, surgical instruments, parts of the patient's body (for example, organs, blood vessels), the patient's body Objects created from (eg bleeding), consumables needed for surgery (eg gauze, clips, etc.).
  • surgical instruments for example, surgical instruments, parts of the patient's body (for example, organs, blood vessels), the patient's body Objects created from (eg bleeding), consumables needed for surgery (eg gauze, clips, etc.).
  • the first sub-network 220 may extract the motion information of the object based on the difference between the adjacent frames in the input surgical image sequence 200, it may be calculated as Equation 2.
  • x (i) is the i-th frame
  • ⁇ (x) is the sum of absolute difference (SAD) of the difference between adjacent frames in the surgical image sequence 200, if the motion is large Larger values and smaller movements can have smaller values. That is, the motion information may be calculated based on the change amount of the pixel value between two frames. Since the background image is almost unchanged in the surgical image, it is possible to effectively extract minute movements of objects such as surgical instruments or organs through Equation 2.
  • the first sub-network 220 may calculate loss information L d from the motion information of the object, and may be calculated as shown in Equation 3 below.
  • a feature value that is, feature map information
  • the SPP layer of the main network 210 may be obtained and used as an input value.
  • G 2 (x; ⁇ c; ⁇ d) is a decoder having weight parameters ⁇ c, ⁇ d for generating an image of the same size from one frame of the input image sequence, and ⁇ is the SAD of the images.
  • is the SAD of the images.
  • L d is 0, since the combination of G2 (x; ⁇ c; ⁇ d) should indicate SAD, motion information can be extracted.
  • ⁇ c is a parameter shared with the main network, the motion information of the object may be utilized when recognizing the surgical operation.
  • the second sub-network 230 recognizes a surgical operation image corresponding to the surgical operation from the input surgical image sequence 200 and performs learning based on this to calculate loss information L S for the surgical operation image. Can function.
  • the second sub-network 230 may include at least one second sub-layer, and the at least one second sub-layer may include a fully connected layer.
  • the second sub-network 230 may recognize a surgical operation image corresponding to the surgical operation from the input surgical image sequence 200, it may be calculated as shown in equations (4) and (5).
  • the second sub-network 230 may use a gradient reversal layer (GRL), which may change the sign of the gradient calculated during the backpropagation.
  • GRL gradient reversal layer
  • I a learning rate and P is a parameter for controlling the learning intensity. This parameter can be set to 0.1.
  • the second sub-network 230 may calculate loss information L S from the surgical operation image corresponding to the surgical operation, and may be calculated as shown in Equation 6 below.
  • a feature value that is, feature map information
  • the SPP layer of the main network 210 may be obtained and used as an input value.
  • ⁇ s is a learnable parameter of the second sub-network 230 G 3
  • G 3i is an i-th softmax value of the network.
  • S i is required, which may be the first element automatically generated using the surgical image index number v.
  • the second sub-network 230 is trained to minimize loss information L S of the surgical operation image, and the loss information L S is used to identify the surgical operation image in the surgical image sequence 200.
  • CNN-based learning tends to store only input data as a method of minimizing loss information
  • the percentage of objects eg, surgical instruments, organs, consumables, etc.
  • the background image except the object occupies a large proportion and almost no movement occurs, there is a problem in that it does not work properly. In this case, it is important to perform the learning by generating a loss by adversely affecting the present invention.
  • unnecessary information can be removed using only the loss information L a , L d , L s described above, and only useful information can be extracted. It was made.
  • the main network 210 may calculate the final loss information (L t ) based on the loss information (L a , L d , L s ) derived through Equations 1 to 6, Equation 7 and Can be calculated as:
  • lambda d and lambda s represent parameters for adjusting the ratio of loss values.
  • the main network 210 may extract common feature information from the surgical image sequence 200 by calculating final loss information L t through learning, and based on the extracted common feature information. The operation can be recognized.
  • the main network 210 may output feature information in the SPP layer, and may process feature information by additionally using information related to a camera.
  • the camera may process scale information related to the zoom in / zoom out of the camera, and may include a case where the camera zooms in / out from the camera due to the movement of a surgical tool during a robot surgery.
  • the surgical operation may mean a minimum operation unit constituting the surgical process.
  • the surgical image includes a series of image frames in which the surgical procedure is recorded over time. Therefore, by performing a learning on the surgical image sequence 200 including the continuous image frames, it is possible to recognize which operation is performed in the entire operation process as the minimum operation unit, so that the meaning of the operation operation more effectively I can figure it out.
  • the computer may store information about a predefined surgery operation. This is information representing one surgical operation and may be determined based on a standardized name.
  • the code data may be generated with a specific digit code data. Table 1 below shows an example of information representing a surgical operation.
  • the surgical operation represents a minimum operation unit constituting a surgical process determined according to a specific criterion, and the surgical operation may be divided by various criteria.
  • a surgical operation may include a type of surgery (eg, laparoscopic surgery, robotic surgery, etc.), an anatomical body portion on which the surgery is performed, a surgical tool used, a number of surgical tools, a direction in which a surgical tool appears on a screen, or Location, surgical instrument movement (e.g., forward / regret), and the like.
  • FIG. 14 is a diagram schematically illustrating a configuration of an apparatus 300 for performing a learning-based surgery gesture recognition method according to an embodiment of the present invention.
  • the processor 310 may include a connection passage (for example, a bus or the like) that transmits and receives a signal with one or more cores (not shown) and a graphic processor (not shown) and / or other components. ) May be included.
  • a connection passage for example, a bus or the like
  • the processor 310 executes one or more instructions stored in the memory 320 to generate a virtual body model described with reference to FIGS. 11 to 13 and a method of providing position information of a surgical tool. Do this.
  • the processor 310 acquires a surgical image sequence by executing one or more instructions stored in the memory 320, performs deep learning based learning on the surgical image sequence based on loss information, Based on the learning, the operation of the surgical image sequence can be recognized.
  • the processor 310 may read random access memory (RAM) and read-only memory (ROM) for temporarily and / or permanently storing a signal (or data) processed in the processor 310. , Not shown) may be further included.
  • the processor 310 may be implemented in the form of a system on chip (SoC) including at least one of a graphic processor, a RAM, and a ROM.
  • SoC system on chip
  • the memory 320 may store programs (one or more instructions) for processing and controlling the processor 310. Programs stored in the memory 320 may be divided into a plurality of modules according to their functions.
  • the learning-based operation recognition method according to an embodiment of the present invention described above may be implemented as a program (or an application) to be executed by being combined with a computer which is hardware and stored in a medium.
  • the program may be read by the computer's processor (CPU) through the device interface of the computer in order for the computer to read the program and execute the methods implemented as the program.
  • Code that is coded in a computer language such as C, C ++, JAVA, or machine language.
  • Such code may include functional code associated with a function or the like that defines the necessary functions for executing the methods, and includes control procedures related to execution procedures necessary for the computer's processor to execute the functions according to a predetermined procedure. can do.
  • the code may further include memory reference code for additional information or media required for the computer's processor to execute the functions at which location (address address) of the computer's internal or external memory should be referenced. have.
  • the code may be used to communicate with any other computer or server remotely using the communication module of the computer. It may further include a communication related code for whether to communicate, what information or media should be transmitted and received during communication.
  • the stored medium is not a medium for storing data for a short time such as a register, a cache, a memory, but semi-permanently, and means a medium that can be read by the device.
  • examples of the storage medium include, but are not limited to, a ROM, a RAM, a CD-ROM, a magnetic tape, a floppy disk, an optical data storage device, and the like. That is, the program may be stored in various recording media on various servers to which the computer can access or various recording media on the computer of the user. The media may also be distributed over network coupled computer systems so that the computer readable code is stored in a distributed fashion.
  • RAM random access memory
  • ROM read only memory
  • EPROM erasable programmable ROM
  • EEPROM electrically erasable programmable ROM
  • flash memory hard disk, removable disk, CD-ROM, or It may reside in any form of computer readable recording medium well known in the art.

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Surgery (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Veterinary Medicine (AREA)
  • Public Health (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Animal Behavior & Ethology (AREA)
  • Medical Informatics (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Biomedical Technology (AREA)
  • Robotics (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Software Systems (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Pathology (AREA)
  • Image Analysis (AREA)

Abstract

컴퓨터에 의해 수행되는 학습 기반 수술동작 인식 방법이 제공된다. 상기 방법은 수술영상을 획득하는 단계, 상기 수술영상 내 영상프레임을 학습하여 수술동작을 인식하는 단계, 및 상기 인식된 수술동작을 기초로 상기 수술영상 내 영상프레임 중 영상프레임 세트를 추출하여, 학습을 통해 상기 수술동작의 의미를 도출하는 단계를 을 포함한다.

Description

수술동작 인식 방법 및 장치
본 발명은 수술동작을 인식하는 방법 및 장치에 관한 것이다.
수술과정에서, 의사의 수술을 보조하기 위한 정보를 제공할 수 있는 기술들의 개발이 요구되고 있다. 수술을 보조하기 위한 정보를 제공하기 위해서는, 수술 행위를 인식할 수 있어야 한다.
따라서, 컴퓨터가 수술영상으로부터 수술행위를 인식할 수 있는 기술의 개발이 요구된다.
또한, 최근에는 의료영상의 분석에 딥 러닝이 널리 이용되고 있다. 딥 러닝은 여러 비선형 변환기법의 조합을 통해 높은 수준의 추상화(abstractions, 다량의 데이터나 복잡한 자료들 속에서 핵심적인 내용 또는 기능을 요약하는 작업)를 시도하는 기계학습 알고리즘의 집합으로 정의된다. 딥 러닝은 큰 틀에서 사람의 사고방식을 컴퓨터에게 가르치는 기계학습의 한 분야로 볼 수 있다.
본 발명이 해결하고자 하는 과제는 수술영상 학습 및 학습 기반 수술동작 인식 방법 및 장치를 제공하는 것이다.
본 발명이 해결하고자 하는 과제는 학습 기반 수술동작 인식 방법 및 장치를 제공하는 것이다.
본 발명이 해결하고자 하는 과제들은 이상에서 언급된 과제로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
본 발명의 일 실시예에 따른 컴퓨터에 의해 수행되는 학습 기반 수술동작 인식 방법은, 수술영상을 획득하는 단계, 상기 수술영상 내 영상프레임을 학습하여 수술동작을 인식하는 단계, 및 상기 인식된 수술동작을 기초로 상기 수술영상 내 영상프레임 중 영상프레임 세트를 추출하여, 학습을 통해 상기 수술동작의 의미를 도출하는 단계를 포함한다.
본 발명의 일 실시예에 따른 컴퓨터에 의해 수행되는 수술영상 학습 방법은, 수술영상 내 영상프레임으로부터 수술동작을 인식하기 위한 제1 학습데이터를 획득하는 단계, 상기 제1 학습데이터를 기반으로 동작인식 학습모델을 학습시키는 단계, 상기 수술영상 내 영상프레임 중 상기 수술동작의 의미를 도출하기 위한 영상프레임 세트를 제2 학습데이터로 획득하는 단계, 및 상기 제2 학습데이터를 기반으로 의미도출 학습모델을 학습시키는 단계를 포함한다.
본 발명의 일 실시예에 따른 컴퓨터에 의해 수행되는 학습 기반 수술동작 인식 방법은, 수술영상 시퀀스를 획득하는 단계, 상기 수술영상 시퀀스에 대해 손실(loss) 정보를 기초로 딥러닝 기반의 학습을 수행하는 단계, 및 상기 학습을 기초로 상기 수술영상 시퀀스에 대한 수술동작을 인식하는 단계를 포함한다.
본 발명에 따르면, 하나의 수술동작을 인식하는 단위로서 각 영상프레임을 사용하므로 더 정확하게 수술영상에 포함되는 동작들의 의미를 인식할 수 있다. 또한 수술동작을 인식함에 있어서 단계적인 학습을 수행하기 때문에, 보다 효과적인 학습모델 및 학습결과를 도출할 수 있다.
본 발명에 따르면, 하나의 수술동작을 인식하는 단위로서 영상 시퀀스를 사용하므로, 보다 정확하게 수술영상에서 수술동작을 인식할 수 있다.
본 발명에 따르면, 적은 영상데이터량이나 미세 움직임에도 효과적으로 학습을 수행할 수 있도록 손실 정보를 이용하므로, 보다 향상된 수술동작 인식율을 얻을 수 있다.
본 발명의 효과들은 이상에서 언급된 효과로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
도 1은 본 발명의 일 실시예에 따라 로봇수술을 수행할 수 있는 시스템을 간략하게 도식화한 도면이다.
도 2는 본 발명의 일 실시예에 따른 학습 기반 수술동작 인식 방법을 도시한 흐름도이다.
도 3 내지 도 7은 본 발명의 일 실시예에 따른 학습 기반 수술동작 인식 방법에서 수술영상을 획득하여 수술동작을 인식하는 과정을 설명하기 위한 도면이다.
도 8은 본 발명의 일 실시예에 따른 수술영상 학습 방법을 도시한 흐름도이다.
도 9는 본 발명의 일 실시예에 따른 수술영상 학습 방법 및 학습 기반 수술동작 인식 방법을 수행하는 장치(400)의 구성을 개략적으로 나타내는 도면이다.
도 10은 본 발명의 일 실시예에 따라 로봇수술을 수행할 수 있는 시스템을 간략하게 도식화한 도면이다.
도 11은 본 발명의 일 실시예에 따른 학습 기반 수술동작 인식 방법을 도시한 흐름도이다.
도 12는 수술영상 시퀀스를 도시한 도면이다.
도 13은 본 발명의 일 실시예에 따른 CNN 기반의 학습을 통한 수술동작 인식 방법을 설명하기 도면이다.
도 14는 본 발명의 일 실시예에 따른 학습 기반 수술동작 인식 방법을 수행하는 장치(300)의 구성을 개략적으로 나타내는 도면이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 제한되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술 분야의 통상의 기술자에게 본 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.
본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 외에 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다. 명세서 전체에 걸쳐 동일한 도면 부호는 동일한 구성 요소를 지칭하며, "및/또는"은 언급된 구성요소들의 각각 및 하나 이상의 모든 조합을 포함한다. 비록 "제1", "제2" 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있음은 물론이다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야의 통상의 기술자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.
명세서에서 사용되는 "부" 또는 “모듈”이라는 용어는 소프트웨어, FPGA 또는 ASIC과 같은 하드웨어 구성요소를 의미하며, "부" 또는 “모듈”은 어떤 역할들을 수행한다. 그렇지만 "부" 또는 “모듈”은 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. "부" 또는 “모듈”은 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 "부" 또는 “모듈”은 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터구조들, 테이블들, 어레이들 및 변수들을 포함한다. 구성요소들과 "부" 또는 “모듈”들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 "부" 또는 “모듈”들로 결합되거나 추가적인 구성요소들과 "부" 또는 “모듈”들로 더 분리될 수 있다.
이하에서는 도 1 내지 도 9를 참조하여, 본 발명의 실시예에 따른 학습 기반 수술동작 인식 방법 및 장치, 수술영상 학습 방법 및 장치에 관해 상세히 설명한다.
본 명세서에서 "컴퓨터"는 연산처리를 수행하여 사용자에게 결과를 제공할 수 있는 다양한 장치들이 모두 포함된다. 예를 들어, 컴퓨터는 데스크 탑 PC, 노트북(Note Book) 뿐만 아니라 스마트폰(Smart phone), 태블릿 PC, 셀룰러폰(Cellular phone), 피씨에스폰(PCS phone; Personal Communication Service phone), 동기식/비동기식 IMT-2000(International Mobile Telecommunication-2000)의 이동 단말기, 팜 PC(Palm Personal Computer), 개인용 디지털 보조기(PDA; Personal Digital Assistant) 등도 해당될 수 있다. 또한, 헤드마운트 디스플레이(Head Mounted Display; HMD) 장치가 컴퓨팅 기능을 포함하는 경우, HMD장치가 컴퓨터가 될 수 있다. 또한, 컴퓨터는 클라이언트로부터 요청을 수신하여 정보처리를 수행하는 서버가 해당될 수 있다.
이하, 첨부된 도면을 참조하여 본 발명의 실시예를 상세하게 설명한다.
도 1은 본 발명의 일 실시예에 따라 로봇수술을 수행할 수 있는 시스템을 간략하게 도식화한 도면이다.
도 1에 따르면, 로봇수술 시스템은 의료영상 촬영장비(10), 서버(100) 및 수술실에 구비된 제어부(30), 디스플레이(32) 및 수술로봇(34)을 포함한다. 실시 예에 따라서, 의료영상 촬영장비(10)는 개시된 실시 예에 따른 로봇수술 시스템에서 생략될 수 있다.
일 실시 예에서, 수술로봇(34)은 촬영장치(36) 및 수술도구(38)를 포함한다.
일 실시 예에서, 로봇수술은 사용자가 제어부(30)를 이용하여 수술용 로봇(34)을 제어함으로써 수행된다. 일 실시 예에서, 로봇수술은 사용자의 제어 없이 제어부(30)에 의하여 자동으로 수행될 수도 있다.
서버(100)는 적어도 하나의 프로세서와 통신부를 포함하는 컴퓨팅 장치이다.
제어부(30)는 적어도 하나의 프로세서와 통신부를 포함하는 컴퓨팅 장치를 포함한다. 일 실시 예에서, 제어부(30)는 수술용 로봇(34)을 제어하기 위한 하드웨어 및 소프트웨어 인터페이스를 포함한다.
촬영장치(36)는 적어도 하나의 이미지 센서를 포함한다. 즉, 촬영장치(36)는 적어도 하나의 카메라 장치를 포함하여, 대상체, 즉 수술부위를 촬영하는 데 이용된다. 일 실시 예에서, 촬영장치(36)는 수술로봇(34)의 수술 암(arm)과 결합된 적어도 하나의 카메라를 포함한다.
일 실시 예에서, 촬영장치(36)에서 촬영된 영상은 디스플레이(340)에 표시된다.
일 실시 예에서, 수술로봇(34)은 수술부위의 절단, 클리핑, 고정, 잡기 동작 등을 수행할 수 있는 하나 이상의 수술도구(38)를 포함한다. 수술도구(38)는 수술로봇(34)의 수술 암과 결합되어 이용된다.
제어부(30)는 서버(100)로부터 수술에 필요한 정보를 수신하거나, 수술에 필요한 정보를 생성하여 사용자에게 제공한다. 예를 들어, 제어부(30)는 생성 또는 수신된, 수술에 필요한 정보를 디스플레이(32)에 표시한다.
예를 들어, 사용자는 디스플레이(32)를 보면서 제어부(30)를 조작하여 수술로봇(34)의 움직임을 제어함으로써 로봇수술을 수행한다.
서버(100)는 의료영상 촬영장비(10)로부터 사전에 촬영된 대상체의 의료영상데이터를 이용하여 로봇수술에 필요한 정보를 생성하고, 생성된 정보를 제어부(30)에 제공한다.
제어부(30)는 서버(100)로부터 수신된 정보를 디스플레이(32)에 표시함으로써 사용자에게 제공하거나, 서버(100)로부터 수신된 정보를 이용하여 수술로봇(34)을 제어한다.
일 실시 예에서, 의료영상 촬영장비(10)에서 사용될 수 있는 수단은 제한되지 않으며, 예를 들어 CT, X-Ray, PET, MRI 등 다른 다양한 의료영상 획득수단이 사용될 수 있다.
개시된 실시 예에서, 촬영장치(36)에서 획득되는 수술영상은 제어부(30)로 전달된다.
일 실시 예에서, 제어부(30)는 수술 중에 획득되는 수술영상을 실시간으로 분할(segmentation)할 수 있다.
일 실시 예에서, 제어부(30)는 수술 중 또는 수술이 완료된 후 수술영상을 서버(100)에 전송한다.
서버(100)는 수술영상을 수신하여 분석할 수 있다.
서버(100)는 수술영상을 분석하기 위한 적어도 하나의 모델을 학습 및 저장한다.
서버(100)는 적어도 하나의 모델을 학습하기 위하여 학습 데이터를 이용하며, 학습 데이터는 수술 영상 및 수술 영상에 대한 정보를 포함하나, 이에 제한되지 않는다.
이하에서는, 서버(100)가 수술영상을 학습하고, 학습을 기반으로 수술동작을 인식하는 방법에 대하여 설명한다. 단, 이하에서 개시되는 실시 예들은 도 1에 도시된 로봇수술 시스템과 연관되어서만 적용될 수 있는 것은 아니고, 학습 데이터를 이용하여 학습을 수행하고, 학습된 모델을 통해 특정 동작을 인식하는 모든 종류의 실시 예들에도 적용될 수 있다.
또한, 이하에서는 설명의 편의를 위해 "컴퓨터"가 본 명세서에서 개시되는 실시예에 따른 수술영상 학습 방법 및 학습 기반 수술동작 인식 방법을 수행하는 것으로 설명한다. "컴퓨터"는 도 1의 서버(100)를 의미할 수 있으나, 이에 한정되는 것은 아니고 컴퓨팅 처리를 수행할 수 있는 장치를 포괄하는 의미로 사용될 수 있다.
도 2는 본 발명의 일 실시예에 따른 학습 기반 수술동작 인식 방법을 도시한 흐름도이다.
도 2를 참조하면, 본 발명의 일 실시예에 따른 학습 기반 수술동작 인식 방법은, 컴퓨터가 수술영상을 획득하는 단계(S100), 상기 수술영상에 포함된 복수의 영상프레임을 학습하여 수술동작을 인식하는 단계(S110), 상기 인식된 수술동작을 기초로 상기 복수의 영상프레임 중 연속된 영상프레임 세트를 추출하여, 학습을 통해 상기 수술동작의 의미를 도출하는 단계(S120)를 포함할 수 있다. 이하, 각 단계에 대한 상세한 설명을 기재한다.
컴퓨터는 수술영상을 획득할 수 있다(S100).
여기서, 수술영상은 실제 수술 영상일 수도 있고, 시뮬레이션을 위한 가상 영상일 수도 있다. 일 실시예로, 실제 수술 영상은 실제 의료진이 수술을 수행함에 따라 획득되는 데이터를 의미하며, 예컨대 수술로봇(34)에 의하여 실제로 수행된 실제 수술 장면을 촬영한 영상일 수 있다. 즉, 실제 수술 영상은 실제 수술과정에서의 수술부위 및 수술동작에 대해 기록된 데이터이다. 시뮬레이션을 위한 가상 영상은 의료영상 촬영장비(10)로부터 촬영된 의료영상에 기초하여 생성된 시뮬레이션 영상을 말하며, 예컨대 실제 환자의 의료영상을 3차원으로 모델링하여 생성된 시뮬레이션 모델일 수 있다. 이때 가상공간에서 시뮬레이션 모델에 대해 리허설 또는 시뮬레이션을 수행함에 따라 가상 수술 영상이 생성될 수 있다. 따라서 가상 영상은 시뮬레이션 모델에 대해 수행된 수술과정에서의 수술부위 및 수술동작에 대해 기록된 데이터일 수 있다.
또한 수술영상은 하나 이상의 영상프레임들을 포함할 수 있다. 각 영상프레임은 대상체(예: 환자)의 신체부위 일부, 즉 수술부위를 포함할 수 있다. 또한, 각 영상프레임은 대상체의 수술부위뿐만 아니라, 수술도구, 수술시 필요한 소모품 등을 포함할 수 있다. 다시 말해, 수술영상은 수술과정에서의 시간에 따른 수술동작을 각 장면(씬; scene)별로 기록한 영상프레임들로 구성된 데이터를 말한다.
컴퓨터는 획득된 수술영상 내 영상프레임을 학습을 통해 수술동작을 인식할 수 있다(S110).
일 실시예에서, 컴퓨터는 수술영상 내 영상프레임 각각에 대해서, 기생성된 동작인식 학습모델을 이용하여 어트리뷰트(attribute)를 산출하고, 산출된 어트리뷰트를 기초로 수술영상 내 영상프레임 각각에 대한 수술동작을 인식할 수 있다. 여기서, 동작인식 학습모델은 수술영상 내에 포함된 영상프레임을 학습데이터로 사용하여 동작인식을 위해 학습된 모델로서, 다양한 학습 방법을 사용하여 학습된 모델일 수 있다. 예를 들어, 학습 방법은 지도학습, 비지도학습, 강화학습 등의 기계학습 방법을 사용할 수 있으며, 예컨대 딥러닝 기반의 CNN(Convolutional neural network)을 이용할 수 있다.
상술한 바와 같이, 각 영상프레임은 수술동작을 기록한 이미지로서, 수술동작과 관련된 정보를 포함하고 있다. 다시 말해, 영상프레임에 포함된 수술동작과 관련된 정보를 이용한다면 각 영상프레임이 수술과정에서 어떤 수술동작을 기록한 것인지를 파악할 수 있다.
이에, 컴퓨터는 수술영상의 각 영상프레임으로부터 수술동작을 인식하기 위해서 먼저 각 영상프레임으로부터 수술동작과 관련된 정보, 즉 어트리뷰트를 추출할 수 있다. 어트리뷰트는 수술동작을 식별하기 위한 객체의 정보로서, 예를 들어 수술부위, 수술동작의 유형, 수술도구, 수술시 사용되는 물품 등과 같은 객체 정보와, 객체의 위치정보, 방향정보 또는 움직임 정보, 영상에 대한 카메라의 시점, 방향, 움직임 등과 같은 카메라 정보 등을 객체 정보로 포함할 수 있다. 일례로, 아래 표 1과 같이 어트리뷰트를 정의할 수 있다.
[표 1]
Figure PCTKR2019002094-appb-I000001
일 실시예에서, 컴퓨터는 미리 정의된 어트리뷰트 정보를 저장할 수 있다. 이는 영상프레임들을 학습데이터로 사용하여 학습한 결과를 기반으로 표 1과 같은 어트리뷰트 정보가 도출될 수 있다. 따라서, 컴퓨터는 동작인식 학습모델을 이용하여 수술영상을 입력하면 수술영상 내에 포함된 영상프레임 각각에 대한 어트리뷰트 정보를 출력으로 산출할 수 있다. 예를 들어, 컴퓨터는 수술영상의 제1 영상프레임을 동작인식 학습모델에 입력하면 적어도 하나의 어트리뷰트 정보(즉, 객체 정보)를 추출하고, 추출된 각 어트리뷰트에 대응하여 정의된 이진값을 출력으로 산출할 수 있다. 컴퓨터는 제1 영상프레임에 대해 산출된 어트리뷰트 정보(예: 이진값 데이터)를 기초로 제1 영상프레임에 포함된 수술동작을 인식할 수 있다.
컴퓨터는 각 영상프레임에 대해 인식한 수술동작을 기초로 수술영상 내에 포함된 영상프레임들 중 영상프레임 세트를 추출하고, 학습을 통해 수술동작의 의미를 도출할 수 있다(S120).
일 실시예에서, 컴퓨터는 수술영상 내 영상프레임들 각각에 대해 산출된 어트리뷰트를 기초로, 기생성된 의미도출 학습모델을 이용하여 일련의 수술동작을 표현하는 영상프레임 세트를 추출하고, 일련의 수술동작에 대응하는 세부수술동작을 기반으로 수술동작의 의미를 도출할 수 있다. 여기서, 의미도출 학습모델은 일련의 수술동작을 표현하는 영상프레임 세트를 학습데이터로 사용하여 동작의 의미를 도출하기 위해 학습된 모델로서, 다양한 학습 방법을 사용하여 학습된 모델일 수 있다. 예를 들어, 학습 방법은 지도학습, 비지도학습, 강화학습 등의 기계학습 방법을 사용할 수 있으며, 예컨대 딥러닝 기반의 RNN(Recurrent neural network)을 이용할 수 있다.
상술한 바와 같이, 수술영상은 수술과정을 시간에 따라 기록한 연속된 영상프레임들을 포함하고 있다. 따라서 영상프레임 각각이 어떤 동작을 표현하고 있는 것인지를 파악할 수 있으면 하나의 동작을 표현하고 있는 연관된 영상프레임들을 찾을 수 있고, 이러한 연관된 영상프레임들을 기반으로 전체 수술 과정에서 어떤 수술동작을 행하고 있는지 그 의미를 파악할 수 있다. 즉, 본 발명에서는 연관된 영상프레임들을 영상프레임 세트로 지칭한다. 예컨대, 수술영상은 시간에 따라 연속된 영상프레임들로 구성되므로, 연관된 영상프레임들(즉, 영상프레임 세트)은 연속된 영상프레임들로 구성될 수도 있다.
일 실시예로, 컴퓨터는 미리 정의된 세부수술동작에 대한 정보를 저장할 수 있다. 이는 일련의 수술동작을 표현하는 영상프레임 세트들을 학습데이터로 사용하여 학습한 결과를 기반으로 도출된 것일 수 있다. 일례로, 세부수술동작에 대한 정보는 아래 표 2와 같이 정의될 수 있다.
[표 2]
Figure PCTKR2019002094-appb-I000002
세부수술동작은 특정 기준에 따라 정해진 수술프로세스를 구성하는 최소 동작 단위를 나타내며, 세부수술동작은 여러 기준에 의해 나누어질 수 있다. 예를 들어, 세부수술동작은 수술유형(예를 들어, 복강경 수술, 로봇 수술 등), 수술이 수행되는 해부학적 신체부위, 사용되는 수술도구, 수술도구의 개수, 화면상에 수술도구가 나타나는 방향 또는 위치, 수술도구의 움직임(예를 들어, 전진/후회) 등을 기준으로 나누어질 수 있다. 즉, 세부수술동작은 상술한 어트리뷰트 정보를 기준으로 판단될 수 있다.
따라서, 컴퓨터는 수술영상 내의 각 영상프레임으로부터 어트리뷰트 정보를 획득하고, 획득한 각 영상프레임의 어트리뷰트 정보를 의미도출 학습모델에 입력하면 어트리뷰트 정보를 기초로 서로 연관성 있는 일련의 수술동작(즉, 세부수술동작)을 출력으로 산출할 수 있다. 예를 들어, 컴퓨터는 n개의 영상프레임을 동작인식 학습모델에 입력하면 n개의 영상프레임 각각에 대한 어트리뷰트 정보를 출력하고, 이를 의미도출 학습모델에 입력하면 n개의 영상프레임 중 복수개(n개 이하)의 영상프레임을 검출하여 세부수술동작에 대한 정보를 출력할 수 있다. 컴퓨터는 세부수술동작 정보를 기초로 복수개의 영상프레임으로부터 수술동작의 의미를 도출할 수 있다.
상술한 바와 같이, 본 발명의 일 실시예에서는 수술영상으로부터 인식된 어트리뷰트 정보를 통해 특정 수술동작을 파악하고 이러한 특정 수술동작 각각의 연속성을 통해 세부수술동작을 인식할 수 있다. 또한 학습을 통해 일련의 세부동작들이 의미하는 상위 수술동작을 인식할 수도 있고, 단계적으로 더 큰 단위의 수술동작, 나아가 수술의 종류까지 인식할 수 있는 학습모델을 제공할 수 있다.
도 3 내지 도 7은 본 발명의 일 실시예에 따른 학습 기반 수술동작 인식 방법에서 수술영상을 획득하여 수술동작을 인식하는 과정을 설명하기 위한 도면이다.
도 3 및 도 4를 참조하면, 컴퓨터는 n개의 영상프레임을 포함하는 수술영상(200)을 획득할 수 있다. n개의 영상프레임은 시간에 따라 연속적으로 획득될 수 있다.
컴퓨터는 n개의 영상프레임(200) 각각에 대해 동작인식 학습모델을 이용하여 영상프레임(200) 각각의 어트리뷰트(210)를 산출할 수 있다. 예를 들어, 동작인식 학습모델은 딥러닝의 CNN 기술을 이용하여 학습된 모델일 수 있으며, 영상프레임(200) 각각을 입력으로 하여 CNN을 적용하면 영상프레임(200) 각각에 대한 어트리뷰트(210)를 출력값으로 생성할 수 있다.
다음으로, 컴퓨터는 n개의 영상프레임(200) 각각에 대한 어트리뷰트(210)를 의미도출 학습모델에 적용하여 일련의 수술동작을 표현하는 적어도 하나의 영상프레임 세트(220)를 추출하여, 이에 대응하는 세부수술동작을 도출할 수 있다. 예를 들어, 의미도출 학습모델은 딥러닝의 RNN 기술을 이용하여 학습된 모델일 수 있으며, 영상프레임(200) 각각의 어트리뷰트(210)를 입력으로 하여 RNN을 적용하면 수술영상에 포함된 세부수술동작을 출력값으로 생성할 수 있다.
도 5 내지 도 7은 수술도구를 포함하는 수술영상을 획득한 경우, 영상프레임으로부터 수술도구에 대한 어트리뷰트를 산출하는 과정을 설명하기 위한 도면이다. 도 5 내지 도 7을 참조하면, 컴퓨터는 적어도 하나 이상의 수술도구, 예컨대 제1 수술도구(310)(예: Harmonic 도구) 및 제2 수술도구(320)(예: Bipolar 도구)를 포함하는 영상프레임(300)을 획득할 수 있다. 이때, 컴퓨터는 영상프레임(300)으로부터 제1 수술도구(310)와 제2 수술도구(320) 각각을 검출한 다음, 각각에 대해 동작인식 학습모델을 적용하여 각각의 어트리뷰트를 산출한다.
예를 들어, 도 5를 참조하면, 컴퓨터는 먼저 영상프레임(300)으로부터 제1 수술도구(310)를 인식하고, 인식한 제1 수술도구(310)의 결과(예: 제1 수술도구(310)의 ID)를 획득할 수 있다. 그리고 컴퓨터는 영상프레임에 획득한 제1 수술도구(310)를 융합(예: padding)하여 가공된 영상프레임(330)을 획득할 수 있다. 이때, 가공된 영상프레임(330)은 패딩에 의해서 제1 수술도구(310)만 포함하는 영상일 수 있다. 컴퓨터는 제1 수술도구(310)만 포함하는 가공된 영상프레임(330)에 대해 동작인식 학습모델을 이용하여 제1 수술도구(310)에 대한 어트리뷰트를 산출할 수 있다.
다음으로, 도 6을 참조하면, 컴퓨터는 영상프레임(300)으로부터 제2 수술도구(320)를 인식하고, 인식한 제2 수술도구(320)의 결과(예: 제2 수술도구(320)의 ID)를 획득할 수 있다. 그리고 컴퓨터는 영상프레임에 획득한 제2 수술도구(320)를 융합(예: padding)하여 가공된 영상프레임(340)을 획득할 수 있다. 이때, 가공된 영상프레임(340)은 패딩에 의해서 제2 수술도구(320)만 포함하는 영상일 수 있다. 컴퓨터는 제2 수술도구(320)만 포함하는 가공된 영상프레임(340)에 대해 동작인식 학습모델을 이용하여 제2 수술도구(320)에 대한 어트리뷰트를 산출할 수 있다.
즉, 도 7에 따르면, 도 5 및 도 6에 도시된 바와 같은 제1 수술도구(310) 및 제2 수술도구(320)를 포함하는 영상프레임(300)의 경우, 제1 수술도구(310)만 포함하는 가공된 영상프레임(330)과 제2 수술도구(320)만 포함하는 가공된 영상프레임(340)을 각각 획득하므로, 각각의 가공된 영상프레임(330, 340)에 대해 딥러닝의 CNN을 적용하여 각각의 어트리뷰트를 출력값으로 생성할 수 있다. 따라서, 제1 수술도구(310) 및 제2 수술도구(320)를 포함하는 영상프레임(300)의 경우에는 총 2번의 어트리뷰트 산출 과정을 수행하게 된다. 이후, 컴퓨터는 각각의 가공된 영상프레임(330, 340)으로부터 산출된 어트리뷰트 각각을 의미도출 학습모델(예: 딥러닝의 RNN 기술)에 적용하여 일련의 수술동작을 표현하는 적어도 하나의 영상프레임 세트를 추출하고, 이에 대응하는 세부수술동작을 도출할 수 있다.
도 8은 본 발명의 일 실시예에 따른 수술영상 학습 방법을 도시한 흐름도이다.
도 8을 참조하면, 본 발명의 일 실시예에 따른 수술영상 학습 방법은, 수술영상에 포함된 복수의 영상프레임으로부터 수술동작을 인식하기 위한 제1 학습데이터를 획득하는 단계(S200), 상기 제1 학습데이터를 기반으로 동작인식 학습모델을 학습시키는 단계(S210), 상기 복수의 영상프레임 중 상기 수술동작의 의미를 도출하기 위한 연속된 영상프레임 세트를 제2 학습데이터로 획득하는 단계(S220), 상기 제2 학습데이터를 기반으로 의미도출 학습모델을 학습시키는 단계(S230)를 포함할 수 있다. 이하, 각 단계에 대한 상세한 설명을 기재한다.
컴퓨터는 수술영상에 포함된 복수의 영상프레임으로부터 수술동작을 인식하기 위한 제1 학습데이터를 획득할 수 있다(S200).
일 실시예에서, 제1 학습데이터는 동작인식을 위한 어트리뷰트 정보가 부여된 영상프레임을 포함한다. 따라서 컴퓨터는 수술영상에 포함된 복수의 영상프레임 각각에 대해 어트리뷰트를 인식하여 획득된 영상프레임을 제1 학습데이터로 획득할 수 있다. 예를 들어, 영상프레임에 대해 어트리뷰트를 인식하는 과정은 사람에 의하여 수행될 수도 있고, 컴퓨터에 의해 이미지 인식 알고리즘을 이용하여 자동으로 수행될 수도 있다.
컴퓨터는 제1 학습데이터를 기반으로 동작인식 학습모델을 학습시킬 수 있다(S210).
일 실시예로, 동작인식 학습모델은 제1 학습데이터를 이용하여 지도학습, 비지도학습, 강화학습 등의 학습 과정을 통해 학습되며, 학습 결과 각 영상프레임의 어트리뷰트에 대응하는 수술동작을 인식할 수 있다. 예컨대, 학습한 결과로서, 표 1과 같은 어트리뷰트 정보(객체의 종류, 객체의 위치, 방향, 움직임 정보, 카메라 정보 등)를 획득할 수 있다.
컴퓨터는 수술영상에서 수술동작의 의미를 도출하기 위한 연속된 영상프레임 세트를 제2 학습데이터로 획득할 수 있다(S220).
일 실시예에서, 제2 학습데이터는 일련의 수술동작(즉, 세부수술동작)을 표현하는 연속된 영상프레임 세트를 포함한다. 따라서 컴퓨터는 수술영상의 각 영상프레임에 대해 인식된 어트리뷰트를 기초로 일련의 수술동작을 표현하는 연속된 복수개의 영상프레임을 데이터세트로 획득하고, 이를 제2 학습데이터로 사용할 수 있다. 예를 들어, 영상프레임에 대해 인식된 어트리뷰트를 기초로 세부수술동작을 인식하는 과정은 사람에 의하여 수행될 수도 있고, 컴퓨터에 의해 딥러닝 학습을 이용하여 자동으로 수행될 수도 있다.
컴퓨터는 제2 학습데이터를 기반으로 의미도출 학습모델을 학습시킬 수 있다(S230).
일 실시예로, 의미도출 학습모델은 제2 학습데이터를 이용하여 지도학습, 비지도학습, 강화학습 등의 학습 과정을 통해 학습되며, 학습 결과 세부수술동작에 대응하는 수술동작의 의미를 도출할 수 있다. 예컨대, 학습한 결과로서, 표 2와 같은 세부수술동작에 대한 정보(세부수술동작의 명칭, 코드 정보, 상세한 설명 등)를 획득할 수 있다.
수술동작을 인식하기 위한 학습을 수행할 때, 종래에는 의사와 같은 전문가 집단이 수술영상을 보고 해당 수술이 무엇을 하는 동작인지를 라벨링하고, 라벨링된 데이터를 이용하여 컴퓨터에게 학습을 시키는 방식이었다. 이와 같은 경우 비용이나 시간적인 측면에서 라벨링된 수술영상 데이터를 많이 획득하는 것에 어려움이 있었다. 또한 수술동작을 판단함에 있어서 의사마다 서로 다른 결과를 도출할 수 있기 때문에 라벨링된 데이터의 정확성이 보장되지 않는다.
그러나, 본 발명에서는 하나의 수술동작을 인식하는 단위로서 각 영상프레임을 사용하고, 또한 영상프레임 각각에 대해 이미지 인식과 같은 기법을 적용하면 의사와 같은 전문가 집단이 아니더라도, 즉 컴퓨터에 의해서도 라벨링된 데이터를 획득할 수 있다. 따라서 비용이나 시간적인 측면에서도 종래 기술에 비해서 데이터를 획득하기가 용이하다. 또한 본 발명에서는 수술동작을 인식함에 있어서 동작인식 학습 및 의미도출 학습과 같은 단계적인 학습을 수행하기 때문에 보다 효과적인 학습모델 및 학습결과를 도출할 수 있다.
도 9는 본 발명의 일 실시예에 따른 수술영상 학습 방법 및 학습 기반 수술동작 인식 방법을 수행하는 장치(400)의 구성을 개략적으로 나타내는 도면이다.
도 9를 참조하면, 프로세서(410)는 하나 이상의 코어(core, 미도시) 및 그래픽 처리부(미도시) 및/또는 다른 구성 요소와 신호를 송수신하는 연결 통로(예를 들어, 버스(bus) 등)를 포함할 수 있다.
일 실시예에 따른 프로세서(410)는 메모리(320)에 저장된 하나 이상의 인스트럭션을 실행함으로써, 도 2 내지 도 8과 관련하여 설명된 수술영상 학습 방법 및 학습 기반 수술동작 인식 방법을 수행한다.
예를 들어, 프로세서(410)는 메모리(420)에 저장된 하나 이상의 인스트럭션을 실행함으로써 수술영상에 포함된 복수의 영상프레임으로부터 수술동작을 인식하기 위한 제1 학습데이터를 획득하는 단계, 상기 제1 학습데이터를 기반으로 동작인식 학습모델을 학습시키는 단계, 상기 복수의 영상프레임 중 상기 수술동작의 의미를 도출하기 위한 연속된 영상프레임 세트를 제2 학습데이터로 획득하는 단계, 및 상기 제2 학습데이터를 기반으로 의미도출 학습모델을 학습시키는 단계를 포함하는 수술영상 학습 방법을 수행할 수 있다.
또한, 프로세서(410)는 메모리(420)에 저장된 하나 이상의 인스트럭션을 실행함으로써 수술영상을 획득하는 단계, 상기 수술영상에 포함된 복수의 영상프레임을 학습하여 수술동작을 인식하는 단계, 및 상기 인식된 수술동작을 기초로 상기 복수의 영상프레임 중 연속된 영상프레임 세트를 추출하여, 학습을 통해 상기 수술동작의 의미를 도출하는 단계를 포함하는 학습 기반 수술동작 인식 방법을 수행할 수 있다.
한편, 프로세서(410)는 프로세서(410) 내부에서 처리되는 신호(또는, 데이터)를 일시적 및/또는 영구적으로 저장하는 램(RAM: Random Access Memory, 미도시) 및 롬(ROM: Read-Only Memory, 미도시)을 더 포함할 수 있다. 또한, 프로세서(410)는 그래픽 처리부, 램 및 롬 중 적어도 하나를 포함하는 시스템온칩(SoC: system on chip) 형태로 구현될 수 있다.
메모리(320)에는 프로세서(410)의 처리 및 제어를 위한 프로그램들(하나 이상의 인스트럭션들)을 저장할 수 있다. 메모리(420)에 저장된 프로그램들은 기능에 따라 복수 개의 모듈들로 구분될 수 있다.
이상에서 전술한 본 발명의 일 실시예에 따른 수술영상 학습 방법 및 학습 기반 수술동작 인식 방법은, 하드웨어인 컴퓨터와 결합되어 실행되기 위해 프로그램(또는 어플리케이션)으로 구현되어 매체에 저장될 수 있다.
이하에서는 도 10 내지 도 14를 참조하여, 본 발명의 실시예에 따른 학습 기반 수술동작 인식 방법 및 장치에 관해 상세히 설명한다.
본 명세서에서 "컴퓨터"는 연산처리를 수행하여 사용자에게 결과를 제공할 수 있는 다양한 장치들이 모두 포함된다. 예를 들어, 컴퓨터는 데스크 탑 PC, 노트북(Note Book) 뿐만 아니라 스마트폰(Smart phone), 태블릿 PC, 셀룰러폰(Cellular phone), 피씨에스폰(PCS phone; Personal Communication Service phone), 동기식/비동기식 IMT-2000(International Mobile Telecommunication-2000)의 이동 단말기, 팜 PC(Palm Personal Computer), 개인용 디지털 보조기(PDA; Personal Digital Assistant) 등도 해당될 수 있다. 또한, 헤드마운트 디스플레이(Head Mounted Display; HMD) 장치가 컴퓨팅 기능을 포함하는 경우, HMD장치가 컴퓨터가 될 수 있다. 또한, 컴퓨터는 클라이언트로부터 요청을 수신하여 정보처리를 수행하는 서버가 해당될 수 있다.
이하, 첨부된 도면을 참조하여 본 발명의 실시예를 상세하게 설명한다.
도 10은 본 발명의 일 실시예에 따라 로봇수술을 수행할 수 있는 시스템을 간략하게 도식화한 도면이다.
도 10에 따르면, 로봇수술 시스템은 의료영상 촬영장비(10), 서버(100) 및 수술실에 구비된 제어부(30), 디스플레이(32) 및 수술로봇(34)을 포함한다. 실시 예에 따라서, 의료영상 촬영장비(10)는 개시된 실시 예에 따른 로봇수술 시스템에서 생략될 수 있다.
일 실시 예에서, 수술로봇(34)은 촬영장치(36) 및 수술도구(38)를 포함한다.
일 실시 예에서, 로봇수술은 사용자가 제어부(30)를 이용하여 수술용 로봇(34)을 제어함으로써 수행된다. 일 실시 예에서, 로봇수술은 사용자의 제어 없이 제어부(30)에 의하여 자동으로 수행될 수도 있다.
서버(100)는 적어도 하나의 프로세서와 통신부를 포함하는 컴퓨팅 장치이다.
제어부(30)는 적어도 하나의 프로세서와 통신부를 포함하는 컴퓨팅 장치를 포함한다. 일 실시 예에서, 제어부(30)는 수술용 로봇(34)을 제어하기 위한 하드웨어 및 소프트웨어 인터페이스를 포함한다.
촬영장치(36)는 적어도 하나의 이미지 센서를 포함한다. 즉, 촬영장치(36)는 적어도 하나의 카메라 장치를 포함하여, 대상체, 즉 수술부위를 촬영하는 데 이용된다. 일 실시 예에서, 촬영장치(36)는 수술로봇(34)의 수술 암(arm)과 결합된 적어도 하나의 카메라를 포함한다.
일 실시 예에서, 촬영장치(36)에서 촬영된 영상은 디스플레이(340)에 표시된다.
일 실시 예에서, 수술로봇(34)은 수술부위의 절단, 클리핑, 고정, 잡기 동작 등을 수행할 수 있는 하나 이상의 수술도구(38)를 포함한다. 수술도구(38)는 수술로봇(34)의 수술 암과 결합되어 이용된다.
제어부(30)는 서버(100)로부터 수술에 필요한 정보를 수신하거나, 수술에 필요한 정보를 생성하여 사용자에게 제공한다. 예를 들어, 제어부(30)는 생성 또는 수신된, 수술에 필요한 정보를 디스플레이(32)에 표시한다.
예를 들어, 사용자는 디스플레이(32)를 보면서 제어부(30)를 조작하여 수술로봇(34)의 움직임을 제어함으로써 로봇수술을 수행한다.
서버(100)는 의료영상 촬영장비(10)로부터 사전에 촬영된 대상체의 의료영상데이터를 이용하여 로봇수술에 필요한 정보를 생성하고, 생성된 정보를 제어부(30)에 제공한다.
제어부(30)는 서버(100)로부터 수신된 정보를 디스플레이(32)에 표시함으로써 사용자에게 제공하거나, 서버(100)로부터 수신된 정보를 이용하여 수술로봇(34)을 제어한다.
일 실시 예에서, 의료영상 촬영장비(10)에서 사용될 수 있는 수단은 제한되지 않으며, 예를 들어 CT, X-Ray, PET, MRI 등 다른 다양한 의료영상 획득수단이 사용될 수 있다.
개시된 실시 예에서, 촬영장치(36)에서 획득되는 수술영상은 제어부(30)로 전달된다.
일 실시 예에서, 제어부(30)는 수술 중에 획득되는 수술영상을 실시간으로 분할(segmentation)할 수 있다.
일 실시 예에서, 제어부(30)는 수술 중 또는 수술이 완료된 후 수술영상을 서버(100)에 전송한다.
서버(100)는 수술영상을 수신하여 분석할 수 있다.
서버(100)는 수술영상을 분석하기 위한 적어도 하나의 모델을 학습 및 저장한다.
서버(100)는 적어도 하나의 모델을 학습하기 위하여 학습 데이터를 이용하며, 학습 데이터는 수술 영상 및 수술 영상에 대한 정보를 포함하나, 이에 제한되지 않는다.
이하에서는, 서버(100)가 수술영상을 학습하고, 학습을 기반으로 수술동작을 인식하는 방법에 대하여 설명한다. 단, 이하에서 개시되는 실시 예들은 도 10에 도시된 로봇수술 시스템과 연관되어서만 적용될 수 있는 것은 아니고, 수술영상을 이용하여 학습을 수행하고, 학습된 결과를 통해 특정 동작을 인식하는 모든 종류의 실시 예들에도 적용될 수 있다.
또한, 이하에서는 설명의 편의를 위해 "컴퓨터"가 본 명세서에서 개시되는 실시예에 따른 학습 기반 수술동작 인식 방법을 수행하는 것으로 설명한다. "컴퓨터"는 도 10의 서버(100) 또는 제어부(30)를 의미할 수 있으나, 이에 한정되는 것은 아니고 컴퓨팅 처리를 수행할 수 있는 장치를 포괄하는 의미로 사용될 수 있다.
도 11은 본 발명의 일 실시예에 따른 학습 기반 수술동작 인식 방법을 도시한 흐름도이다.
도 11을 참조하면, 본 발명의 일 실시예에 따른 컴퓨터에 의해 수행되는 학습 기반 수술동작 인식 방법은, 수술영상 시퀀스를 획득하는 단계(S100), 수술영상 시퀀스에 대해 손실(loss) 정보를 기초로 딥러닝 기반의 학습을 수행하는 단계(S110), 및 학습을 기초로 수술영상 시퀀스에 대한 수술동작을 인식하는 단계(S120)를 포함할 수 있다. 이하, 각 단계에 대한 상세한 설명을 기재한다.
컴퓨터는 수술영상 시퀀스를 획득할 수 있다(S100).
여기서, 수술영상은 실제 수술 영상일 수도 있고, 시뮬레이션을 위한 가상 영상일 수도 있다. 일 실시예로, 실제 수술 영상은 실제 의료진이 수술을 수행함에 따라 획득되는 데이터를 의미하며, 예컨대 수술로봇(34)에 의하여 실제로 수행된 실제 수술 장면을 촬영한 영상일 수 있다. 즉, 실제 수술 영상은 실제 수술과정에서의 수술부위 및 수술동작에 대해 기록된 데이터이다. 시뮬레이션을 위한 가상 영상은 의료영상 촬영장비(10)로부터 촬영된 의료영상에 기초하여 생성된 시뮬레이션 영상을 말하며, 예컨대 실제 환자의 의료영상을 3차원으로 모델링하여 생성된 시뮬레이션 모델일 수 있다. 이때 가상공간에서 시뮬레이션 모델에 대해 리허설 또는 시뮬레이션을 수행함에 따라 가상 수술 영상이 생성될 수 있다. 따라서 가상 영상은 시뮬레이션 모델에 대해 수행된 수술과정에서의 수술부위 및 수술동작에 대해 기록된 데이터일 수 있다.
또한 수술영상은 하나 이상의 영상프레임들을 포함할 수 있다. 각 영상프레임은 환자의 신체부위 일부, 즉 수술부위를 포함할 수 있다. 또한, 각 영상프레임은 환자의 수술부위뿐만 아니라, 수술도구, 수술시 필요한 소모품 등을 포함할 수 있다. 다시 말해, 수술영상은 수술과정에서의 시간에 따른 수술동작을 각 장면(씬; scene)별로 기록한 영상프레임들로 구성된 데이터를 말한다. 따라서, 이러한 영상프레임들로 구성된 데이터를 수술영상 시퀀스라 지칭한다. 도 12는 수술영상 시퀀스를 도시한 도면이다. 도 12에 도시된 바와 같이, 수술영상 시퀀스는 복수개의 영상프레임들을 포함할 수 있다.
컴퓨터는 수술영상 시퀀스에 대해 손실(loss) 정보를 기초로 딥러닝 기반의 학습을 수행할 수 있다(S110).
일 실시예로, 컴퓨터는 수술영상 시퀀스 내 프레임들 사이의 차이값을 기초로 객체의 움직임 정보를 추출하고, 추출된 움직임 정보에 대한 손실 정보를 학습하여 수술동작 손실을 최소화할 수 있다. 또한, 컴퓨터는 수술영상 시퀀스로부터 수술동작에 해당하는 수술동작영상을 인식하고, 인식된 수술동작영상에 대한 손실 정보를 학습하여 수술동작 손실을 최소화할 수 있다.
컴퓨터는 학습을 기초로 수술영상 시퀀스에 대한 수술동작을 인식할 수 있다(S120).
일 실시예로, 컴퓨터는 수술동작에 해당하는 수술동작영상을 기반으로 공통적인 특징(feature)을 추출하고, 추출된 공통적인 특징을 기초로 수술동작을 인식할 수 있다.
한편, 단계 S110에서 딥러닝 기반의 학습은 CNN(Convolutional Neural Network)을 이용하여 학습을 수행할 수 있다. 일 실시예로, 수술동작을 인식하는 적어도 하나의 메인 레이어, 객체의 움직임 정보를 추출하는 제1 서브 레이어, 및 수술동작영상을 인식하는 제2 서브 레이어를 포함하여 CNN을 통해 학습을 수행하며, 학습의 결과로 영상의 특징값을 출력할 수 있다. 이때 출력 레이어는 메인 레이어에서의 SPP(Spatial Pyramid Pooling) 레이어일 수 있으며, SPP 레이어는 제1 서브 레이어 및 제2 서브 레이어와 연결되어 학습 결과를 출력할 수 있다. 본 발명의 실시예에 따른 CNN 기반의 학습을 이용한 수술동작 인식 과정은 도 13을 참조하여 보다 구체적으로 설명하도록 한다.
도 13은 본 발명의 일 실시예에 따른 CNN 기반의 학습을 통한 수술동작 인식 방법을 설명하기 도면이다.
도 13을 참조하면, 컴퓨터는 수술영상 시퀀스(200)를 입력값으로 획득할 수 있다. 수술영상 시퀀스(200)는 복수개의 영상프레임들(예: 프레임1, 프레임2, 쪋, 프레임N)로 구성될 수 있다.
컴퓨터는 수술영상 시퀀스(200)에 대해 CNN 기반의 학습을 수행할 수 있다. 일 실시예로, CNN 기반의 학습은, 메인 네트워크(210)(예: 수술동작 인식 네트워크), 제1 서브 네트워크(220)(예: 움직임 정보 추출 네트워크), 제2 서브 네트워크(230)(예: 수술동작영상 인식 네트워크)를 포함하여 구성될 수 있다. 각 네트워크(210, 220, 230)는 적어도 하나의 레이어를 포함할 수 있고, 각 레이어를 통해 학습이 수행될 수 있다.
메인 네트워크(210)는 입력된 수술영상 시퀀스(200)로부터 학습을 통해 수술동작을 인식하는 기능을 할 수 있다. 일 실시예로, 메인 네트워크(210)는 적어도 하나의 메인 레이어를 포함할 수 있으며, 적어도 하나의 메인 레이어에는 컨벌루션 레이어(Convolutional layer), 완전 연결 레이어(Fully Connected layer), SPP 레이어를 포함할 수 있다.
메인 네트워크(210)는 제1 서브 네트워크(220) 및 제2 서브 네트워크(230)와 연동하여 수술영상 시퀀스(200)에 대해 손실 정보를 기초로 학습을 수행할 수 있다.
먼저, 메인 네트워크(210)는 입력된 수술영상 시퀀스(200)로부터 학습을 통해 수술동작 손실 정보(La)를 수학식 1과 같이 계산할 수 있다.
[수학식 1]
Figure PCTKR2019002094-appb-I000003
여기서,
Figure PCTKR2019002094-appb-I000004
는 f 프레임들을 포함하는 mXn 컬러 영상 시퀀스이고, ti 는 i번째 타겟 값이고, C 는 수술동작 인식을 위한 클래스의 개수이고, G1i(x; θc; θa)는 네트워크 파라미터 θc, θa에 대한 x의 i번째 소프트맥스 출력값을 나타낸다. θc, θa는 컨벌루션 레이어, 완전 연결 레이어에 대한 파라미터이다. 이때, θc는 세개의 네트워크(210, 220, 230)에서 공유되는 파라미터이다.
일반적으로 복강경 수술이나 로봇수술 등과 같은 최소침습수술 시에 획득되는 영상데이터는 데이터량이 적고 영상 내 객체의 움직임이 미세하여 학습을 시키기 힘든 문제가 있다. 이러한 영상데이터를 이용하여 딥러닝 기반의 학습을 수행하게 되면 학습된 영상데이터에 대해서만 효과적으로 동작하게 되므로, 일반화시키기 힘들다. 따라서, 본 발명에서는 이러한 문제점을 해결하고자 손실 정보를 학습시킴으로써 적은 영상데이터와 미세한 움직임에도 효과적으로 학습을 수행하여 수술동작의 인식력을 향상시킬 수 있도록 한다.
일 실시예로, 메인 네트워크(210)는 수술동작 손실 정보(La)와 함께 제1 서브 네트워크(220)로부터 객체의 움직임 정보에 대한 손실 정보(Ld)를 획득하여 학습을 수행하고, 이를 통해서 수술동작 인식에 대한 손실을 최소화할 수 있다. 또한, 메인 네트워크(210)는 제2 서브 네트워크(230)로부터 수술동작에 해당하는 수술동작영상에 대한 손실 정보(LS)를 획득하여 학습을 수행하고, 이를 통해서 수술동작 인식에 대한 손실을 최소화할 수 있다.
제1 서브 네트워크(220)는 입력된 수술영상 시퀀스(200)로부터 객체의 움직임 정보를 추출하고, 이를 기반으로 학습을 수행하여 객체의 움직임 정보에 대한 손실 정보(Ld)를 산출하는 기능을 할 수 있다. 또한 제1 서브 네트워크(220)는 디코더로서의 역할을 수행할 수 있으며, 객체의 움직임 정보를 생성할 수 있다. 일 실시예로, 제1 서브 네트워크(220)는 적어도 하나의 제1 서브 레이어를 포함할 수 있으며, 적어도 하나의 제1 서브 레이어에는 완전 연결 레이어를 포함할 수 있다.
여기서, 객체란 최소침습수술의 대상자인 환자의 신체내부에 카메라가 진입하여 촬영한 영상데이터에 포함된 것으로서, 예를 들어 수술도구, 환자의 신체일부(예: 장기, 혈관 등), 환자의 신체로부터 생성된 객체(예: 출혈 등), 수술시 필요한 소모품(예: 거즈, 클립 등) 등을 말한다.
먼저, 제1 서브 네트워크(220)는 입력된 수술영상 시퀀스(200) 내 인접하는 프레임들 사이의 차이값을 기초로 객체의 움직임 정보를 추출할 수 있으며, 수학식 2와 같이 계산될 수 있다.
[수학식 2]
Figure PCTKR2019002094-appb-I000005
여기서, x(i)는 i번째 프레임이고, ε(x)는 수술영상 시퀀스(200) 내 인접하는 프레임들 사이의 차이값의 절대값들의 합(SAD; sum of absolute difference)로서, 움직임이 크면 큰 값을 가지고 움직임이 작으면 작은 값을 가질 수 있다. 즉, 움직임 정보는 두 프레임 간의 픽셀값의 변화량을 기초로 산출될 수 있다. 수술영상에서는 배경 이미지는 변화가 거의 없으므로, 수학식 2를 통해 수술도구나 장기 등과 같은 객체의 미세한 움직임을 효과적으로 추출할 수 있다.
다음으로, 제1 서브 네트워크(220)는 객체의 움직임 정보로부터 손실 정보(Ld)를 산출할 수 있으며, 수학식 3과 같이 계산될 수 있다. 이때, 메인 네트워크(210)의 SPP 레이어로부터 추출된 특징값(즉, 특징 맵 정보)을 획득하여 입력값으로 사용할 수 있다.
[수학식 3]
Figure PCTKR2019002094-appb-I000006
여기서, G2(x; θc; θd)는 입력된 영상 시퀀스의 한 프레임으로부터 동일한 크기의 이미지를 생성하는 가중치 파라미터 θc, θd를 갖는 디코더이고, ε는 이미지들의 SAD이다. 예를 들어, Ld가 0인 경우, G2(x; θc; θd)의 조합은 SAD를 나타내야 하므로 움직임 정보를 추출할 수 있다. θc는 메인 네트워크와 공유되는 파라미터이므로, 객체의 움직임 정보가 수술동작 인식 시에 활용될 수 있다.
제2 서브 네트워크(230)는 입력된 수술영상 시퀀스(200)로부터 수술동작에 해당하는 수술동작영상을 인식하고, 이를 기반으로 학습을 수행하여 수술동작영상에 대한 손실 정보(LS)를 산출하는 기능을 할 수 있다. 일 실시예로, 제2 서브 네트워크(230)는 적어도 하나의 제2 서브 레이어를 포함할 수 있으며, 적어도 하나의 제2 서브 레이어에는 완전 연결 레이어를 포함할 수 있다.
먼저, 제2 서브 네트워크(230)는 입력된 수술영상 시퀀스(200)로부터 수술동작에 해당하는 수술동작영상을 인식할 수 있으며, 수학식 4 및 5와 같이 계산될 수 있다.
[수학식 4]
Figure PCTKR2019002094-appb-I000007
여기서, S ∈ {0, 1}M, M은 수술 횟수이고 Si는 S의 i번째 요소이다. 예를 들어, 3개의 독립적인 수술영상이 있는 경우, M = 3일 수 있다. 이때, 제2 서브 네트워크(230)는 GRL(gradient reversal layer)를 사용할 수 있고, 이는 역전파 동안 계산된 그라디언트의 부호를 변경할 수 있다. 따라서, θc는 수학식 5에서와 같이 음의 그라디언트를 사용하여 업데이트될 수 있다.
[수학식 5]
Figure PCTKR2019002094-appb-I000008
여기서, η는 학습 속도이고, P는 학습 강도를 제어하는 파라미터이다. 이 파라미터는 0.1로 설정될 수 있다.
다음으로, 제2 서브 네트워크(230)는 수술동작에 해당하는 수술동작영상으로부터 손실 정보(LS)를 산출할 수 있으며, 수학식 6과 같이 계산될 수 있다. 이때, 메인 네트워크(210)의 SPP 레이어로부터 추출된 특징값(즉, 특징 맵 정보)을 획득하여 입력값으로 사용할 수 있다.
[수학식 6]
Figure PCTKR2019002094-appb-I000009
여기서, θs는 제2 서브 네트워크(230) G3의 학습 가능한 파라미터이고, G3i는 네트워크의 i번째 소프트맥스(softmax) 값이다. 이때, Si가 요구되며, 이는 수술영상 인덱스 번호 v를 사용하여 자동으로 생성된 첫번째 요소일 수 있다.
즉, 제2 서브 네트워크(230)는 수술동작영상에 대한 손실 정보(LS)를 최소화하도록 학습되며, 이 손실 정보(LS)는 수술영상 시퀀스(200)에서 수술동작영상을 식별하도록 한다.
상술한 바와 같이, 일반적으로 CNN 기반의 학습시에는 손실 정보를 최소화하는 방법으로서 입력 데이터만을 기억하는 경향이 있기 때문에, 수술영상에서와 같이 객체(예: 수술도구, 장기, 소모품 등)가 차지하는 비율보다 객체를 제외한 배경 이미지가 많은 비율을 차지하고 거의 움직임이 발생하지 않는 경우에는 제대로 동작하지 못하는 문제점이 있다. 이러한 경우, 나쁜 영향을 줌으로써 손실을 발생시켜 학습을 수행하는 것이 중요하므로, 본 발명에서는 위에서 설명한 손실 정보(La, Ld, Ls)를 사용하여 불필요한 정보를 제거하고 유용한 정보만 추출할 수 있도록 하였다.
최종적으로, 메인 네트워크(210)는 수학식 1 내지 6을 통해 도출된 손실 정보(La, Ld, Ls)를 기반으로 최종 손실 정보(Lt)를 산출할 수 있으며, 수학식 7과 같이 계산될 수 있다.
[수학식 7]
Figure PCTKR2019002094-appb-I000010
여기서, λd 및 λs는 손실 값의 비율을 조정하는 파라미터를 나타낸다.
일 실시예로, 메인 네트워크(210)는 학습을 통해 최종 손실 정보(Lt)를 산출함으로써 수술영상 시퀀스(200)로부터 공통적인 특징 정보를 추출할 수 있고, 추출된 공통적인 특징 정보를 기초로 해당 수술동작을 인식할 수 있다. 메인 네트워크(210)는 SPP 레이어에서 특징 정보를 출력할 수 있으며, 이때 카메라와 관련된 정보를 추가적으로 이용하여 특징 정보를 처리할 수도 있다. 예를 들어, 카메라의 줌인/줌아웃과 관련된 스케일 정보를 처리할 수 있으며, 로봇 수술시에 수술도구의 움직임으로 인해 카메라에서 줌인/줌아웃되는 경우도 포함할 수 있다.
여기서, 수술동작이란 수술프로세스를 구성하는 최소 동작 단위를 의미할 수 있다. 상술한 바와 같이, 수술영상은 수술과정을 시간에 따라 기록한 연속된 영상프레임들을 포함하고 있다. 따라서, 이러한 연속된 영상프레임들을 포함하는 수술영상 시퀀스(200)에 대해 학습을 수행함으로써 전체 수술과정에서 어떤 수술동작을 행하고 있는지를 최소 동작 단위로 인식할 수 있으므로, 보다 효과적으로 해당 수술동작의 의미를 파악할 수 있게 된다.
실시예에 따라, 컴퓨터는 미리 정의된 수술동작에 대한 정보를 저장할 수 있다. 이는 하나의 수술동작을 표현하는 정보로서, 표준화된 명칭에 기초하여 정해질 수 있다. 예컨대, 특정한 자릿수의 코드 데이터로 생성될 수 있다. 아래 표 1은 수술동작을 표현하는 정보의 일례를 나타낸 것이다.
[표 1]
Figure PCTKR2019002094-appb-I000011
일 실시예로, 수술동작은 특정 기준에 따라 정해진 수술프로세스를 구성하는 최소 동작 단위를 나타내며, 수술동작은 여러 기준에 의해 나누어질 수 있다. 예를 들어, 수술동작은 수술유형(예를 들어, 복강경 수술, 로봇 수술 등), 수술이 수행되는 해부학적 신체부위, 사용되는 수술도구, 수술도구의 개수, 화면상에 수술도구가 나타나는 방향 또는 위치, 수술도구의 움직임(예를 들어, 전진/후회) 등을 기준으로 나누어질 수 있다.
도 14는 본 발명의 일 실시예에 따른 학습 기반 수술동작 인식 방법을 수행하는 장치(300)의 구성을 개략적으로 나타내는 도면이다.
도 14를 참조하면, 프로세서(310)는 하나 이상의 코어(core, 미도시) 및 그래픽 처리부(미도시) 및/또는 다른 구성 요소와 신호를 송수신하는 연결 통로(예를 들어, 버스(bus) 등)를 포함할 수 있다.
일 실시예에 따른 프로세서(310)는 메모리(320)에 저장된 하나 이상의 인스트럭션을 실행함으로써, 도 11 내지 도 13과 관련하여 설명된 가상신체모델을 생성하는 방법 및 수술도구의 위치 정보를 제공하는 방법을 수행한다.
예를 들어, 프로세서(310)는 메모리(320)에 저장된 하나 이상의 인스트럭션을 실행함으로써 수술영상 시퀀스를 획득하고, 수술영상 시퀀스에 대해 손실(loss) 정보를 기초로 딥러닝 기반의 학습을 수행하고, 학습을 기초로 수술영상 시퀀스에 대한 수술동작을 인식할 수 있다.
한편, 프로세서(310)는 프로세서(310) 내부에서 처리되는 신호(또는, 데이터)를 일시적 및/또는 영구적으로 저장하는 램(RAM: Random Access Memory, 미도시) 및 롬(ROM: Read-Only Memory, 미도시)을 더 포함할 수 있다. 또한, 프로세서(310)는 그래픽 처리부, 램 및 롬 중 적어도 하나를 포함하는 시스템온칩(SoC: system on chip) 형태로 구현될 수 있다.
메모리(320)에는 프로세서(310)의 처리 및 제어를 위한 프로그램들(하나 이상의 인스트럭션들)을 저장할 수 있다. 메모리(320)에 저장된 프로그램들은 기능에 따라 복수 개의 모듈들로 구분될 수 있다.
이상에서 전술한 본 발명의 일 실시예에 따른 학습 기반 수술동작 인식 방법은, 하드웨어인 컴퓨터와 결합되어 실행되기 위해 프로그램(또는 어플리케이션)으로 구현되어 매체에 저장될 수 있다.
한편 상기에서 설명된 본 발명의 실시예들에서, 프로그램은, 컴퓨터가 프로그램을 읽어 들여 프로그램으로 구현된 상기 방법들을 실행시키기 위하여, 상기 컴퓨터의 프로세서(CPU)가 상기 컴퓨터의 장치 인터페이스를 통해 읽힐 수 있는 C, C++, JAVA, 기계어 등의 컴퓨터 언어로 코드화된 코드(Code)를 포함할 수 있다. 이러한 코드는 상기 방법들을 실행하는 필요한 기능들을 정의한 함수 등과 관련된 기능적인 코드(Functional Code)를 포함할 수 있고, 상기 기능들을 상기 컴퓨터의 프로세서가 소정의 절차대로 실행시키는데 필요한 실행 절차 관련 제어 코드를 포함할 수 있다. 또한, 이러한 코드는 상기 기능들을 상기 컴퓨터의 프로세서가 실행시키는데 필요한 추가 정보나 미디어가 상기 컴퓨터의 내부 또는 외부 메모리의 어느 위치(주소 번지)에서 참조되어야 하는지에 대한 메모리 참조관련 코드를 더 포함할 수 있다. 또한, 상기 컴퓨터의 프로세서가 상기 기능들을 실행시키기 위하여 원격(Remote)에 있는 어떠한 다른 컴퓨터나 서버 등과 통신이 필요한 경우, 코드는 상기 컴퓨터의 통신 모듈을 이용하여 원격에 있는 어떠한 다른 컴퓨터나 서버 등과 어떻게 통신해야 하는지, 통신 시 어떠한 정보나 미디어를 송수신해야 하는지 등에 대한 통신 관련 코드를 더 포함할 수 있다.
상기 저장되는 매체는, 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상기 저장되는 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있지만, 이에 제한되지 않는다. 즉, 상기 프로그램은 상기 컴퓨터가 접속할 수 있는 다양한 서버 상의 다양한 기록매체 또는 사용자의 상기 컴퓨터상의 다양한 기록매체에 저장될 수 있다. 또한, 상기 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장될 수 있다.
본 발명의 실시예와 관련하여 설명된 방법 또는 알고리즘의 단계들은 하드웨어로 직접 구현되거나, 하드웨어에 의해 실행되는 소프트웨어 모듈로 구현되거나, 또는 이들의 결합에 의해 구현될 수 있다. 소프트웨어 모듈은 RAM(Random Access Memory), ROM(Read Only Memory), EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM), 플래시 메모리(Flash Memory), 하드 디스크, 착탈형 디스크, CD-ROM, 또는 본 발명이 속하는 기술 분야에서 잘 알려진 임의의 형태의 컴퓨터 판독가능 기록매체에 상주할 수도 있다.
이상, 첨부된 도면을 참조로 하여 본 발명의 실시예를 설명하였지만, 본 발명이 속하는 기술분야의 통상의 기술자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며, 제한적이 아닌 것으로 이해해야만 한다.

Claims (24)

  1. 컴퓨터에 의해 수행되는 학습 기반 수술동작 인식 방법에 있어서,
    수술영상을 획득하는 단계;
    상기 수술영상 내 영상프레임을 학습하여 수술동작을 인식하는 단계; 및
    상기 인식된 수술동작을 기초로 상기 수술영상 내 영상프레임 중 영상프레임 세트를 추출하여, 학습을 통해 상기 수술동작의 의미를 도출하는 단계를 포함하는 것을 특징으로 하는 학습 기반 수술동작 인식 방법.
  2. 제1항에 있어서,
    상기 수술동작을 인식하는 단계는,
    상기 수술영상 내 영상프레임 각각에 대해 기생성된 동작인식 학습모델을 이용하여 어트리뷰트(attribute)를 산출하는 단계; 및
    상기 어트리뷰트를 기초로 상기 수술영상 내 영상프레임 각각에 대한 수술동작을 인식하는 단계를 포함하는 것을 특징으로 하는 학습 기반 수술동작 인식 방법.
  3. 제2항에 있어서,
    상기 어트리뷰트는,
    상기 수술동작을 식별하기 위한 객체의 정보를 포함하는 것을 특징으로 하는 학습 기반 수술동작 인식 방법.
  4. 제2항에 있어서,
    상기 수술동작의 의미를 도출하는 단계는,
    상기 수술영상 내 영상프레임 각각에 대한 어트리뷰트를 기초로 기생성된 의미도출 학습모델을 이용하여 일련의 수술동작을 표현하는 상기 영상프레임 세트를 추출하는 단계; 및
    상기 일련의 수술동작에 대응하는 세부수술동작을 기반으로 상기 수술동작의 의미를 도출하는 단계를 포함하는 것을 특징으로 하는 학습 기반 수술동작 인식 방법.
  5. 제4항에 있어서,
    상기 세부수술동작은,
    특정 기준에 따라 정해진 수술프로세스를 구성하는 최소 동작 단위를 나타내는 것을 특징으로 하는 학습 기반 수술동작 인식 방법.
  6. 제4항에 있어서,
    상기 수술영상 내 영상프레임은,
    상기 동작인식 학습모델을 학습시키기 위한 학습데이터로 사용되며,
    상기 영상프레임 세트는,
    상기 의미도출 학습모델을 학습시키기 위한 학습데이터로 사용되는 것을 특징으로 하는 학습 기반 수술동작 인식 방법.
  7. 컴퓨터에 의해 수행되는 수술영상 학습 방법에 있어서,
    수술영상 내 영상프레임으로부터 수술동작을 인식하기 위한 제1 학습데이터를 획득하는 단계;
    상기 제1 학습데이터를 기반으로 동작인식 학습모델을 학습시키는 단계;
    상기 수술영상 내 영상프레임 중 상기 수술동작의 의미를 도출하기 위한 영상프레임 세트를 제2 학습데이터로 획득하는 단계; 및
    상기 제2 학습데이터를 기반으로 의미도출 학습모델을 학습시키는 단계를 포함하는 것을 특징으로 하는 수술영상 학습 방법.
  8. 제7항에 있어서,
    상기 제1 학습데이터를 획득하는 단계는,
    상기 수술영상 내 영상프레임 각각에 대해 어트리뷰트를 인식하는 단계; 및
    상기 인식된 어트리뷰트에 기초하여 상기 제1 학습데이터를 획득하는 단계를 포함하는 것을 특징으로 하는 수술영상 학습 방법.
  9. 제8항에 있어서,
    상기 제2 학습데이터로 획득하는 단계는,
    상기 수술영상 내 영상프레임 각각에 대한 어트리뷰트를 기초로 일련의 수술동작을 표현하는 상기 영상프레임 세트를 추출하는 단계; 및
    상기 일련의 수술동작에 대응하는 세부수술동작에 기초하여 상기 제2 학습데이터를 획득하는 단계를 포함하는 것을 특징으로 하는 수술영상 학습 방법.
  10. 제8항에 있어서,
    상기 동작인식 학습모델을 학습시키는 단계는,
    상기 제1 학습데이터를 이용하여 상기 어트리뷰트에 대응하는 수술동작을 인식하는 것을 특징으로 하는 수술영상 학습 방법.
  11. 제9항에 있어서,
    상기 의미도출 학습모델을 학습시키는 단계는,
    상기 제2 학습데이터를 이용하여 상기 세부수술동작에 대응하는 수술동작의 의미를 도출하는 것을 특징으로 하는 수술영상 학습 방법.
  12. 하나 이상의 인스트럭션을 저장하는 메모리; 및
    상기 메모리에 저장된 상기 하나 이상의 인스트럭션을 실행하는 프로세서를 포함하며,
    상기 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써,
    수술영상을 획득하는 단계;
    상기 수술영상 내 영상프레임을 학습하여 수술동작을 인식하는 단계; 및
    상기 인식된 수술동작을 기초로 상기 수술영상 내 영상프레임 중 영상프레임 세트를 추출하여, 학습을 통해 상기 수술동작의 의미를 도출하는 단계를 수행하는 것을 특징으로 하는 장치.
  13. 하나 이상의 인스트럭션을 저장하는 메모리; 및
    상기 메모리에 저장된 상기 하나 이상의 인스트럭션을 실행하는 프로세서를 포함하며,
    상기 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써,
    수술영상 내 영상프레임으로부터 수술동작을 인식하기 위한 제1 학습데이터를 획득하는 단계;
    상기 제1 학습데이터를 기반으로 동작인식 학습모델을 학습시키는 단계;
    상기 수술영상 내 영상프레임 중 상기 수술동작의 의미를 도출하기 위한 영상프레임 세트를 제2 학습데이터로 획득하는 단계; 및
    상기 제2 학습데이터를 기반으로 의미도출 학습모델을 학습시키는 단계를 수행하는 것을 특징으로 하는 장치.
  14. 하드웨어인 컴퓨터와 결합되어, 제1항 또는 제7항의 방법을 수행할 수 있도록 컴퓨터에서 독출가능한 기록매체에 저장된 컴퓨터프로그램.
  15. 컴퓨터에 의해 수행되는 학습 기반 수술동작 인식 방법에 있어서,
    수술영상 시퀀스를 획득하는 단계;
    상기 수술영상 시퀀스에 대해 손실(loss) 정보를 기초로 딥러닝 기반의 학습을 수행하는 단계; 및
    상기 학습을 기초로 상기 수술영상 시퀀스에 대한 수술동작을 인식하는 단계를 포함하는 것을 특징으로 하는 학습 기반 수술동작 인식 방법.
  16. 제15항에 있어서,
    상기 딥러닝 기반의 학습을 수행하는 단계는,
    상기 수술영상 시퀀스 내 프레임들 사이의 차이값을 기초로 객체의 움직임 정보를 추출하는 단계; 및
    상기 움직임 정보에 대한 손실 정보를 학습하여 상기 수술동작 손실을 최소화하는 단계를 포함하는 것을 특징으로 하는 학습 기반 수술동작 인식 방법.
  17. 제16항에 있어서,
    상기 수술동작 손실을 최소화하는 단계는,
    상기 수술영상 시퀀스로부터 상기 수술동작에 해당하는 수술동작영상을 인식하는 단계; 및
    상기 수술동작영상에 대한 손실 정보를 학습하여 상기 수술동작 손실을 최소화하는 단계를 포함하는 것을 특징으로 하는 학습 기반 수술동작 인식 방법.
  18. 제17항에 있어서,
    상기 수술동작을 인식하는 단계는,
    상기 수술동작영상을 기반으로 공통적인 특징(feature)을 추출하는 단계; 및
    상기 공통적인 특징을 기초로 상기 수술동작을 인식하는 단계를 포함하는 것을 특징으로 하는 학습 기반 수술동작 인식 방법.
  19. 제17항에 있어서,
    상기 딥러닝 기반의 학습은, CNN(Convolutional Neural Network)을 이용하되,
    상기 수술동작을 인식하는 적어도 하나의 메인 레이어, 상기 객체의 움직임 정보를 추출하는 제1 서브 레이어, 및 상기 수술동작영상을 인식하는 제2 서브 레이어를 포함하는 것을 특징으로 하는 학습 기반 수술동작 인식 방법.
  20. 제19항에 있어서,
    상기 메인 레이어는, SPP(Spatial Pyramid Pooling) 레이어를 포함하며,
    상기 SPP 레이어를 통해 상기 제1 서브 레이어 및 상기 제2 서브 레이어와 연결되어 학습 결과를 출력하는 것을 특징으로 하는 학습 기반 수술동작 인식 방법.
  21. 제15항에 있어서,
    상기 수술영상 시퀀스는, 복수의 프레임으로 구성되는 것을 특징으로 하는 학습 기반 수술동작 인식 방법.
  22. 제15항에 있어서,
    상기 수술동작은, 수술프로세스를 구성하는 최소 동작 단위인 것을 특징으로 하는 학습 기반 수술동작 인식 방법.
  23. 하나 이상의 인스트럭션을 저장하는 메모리; 및
    상기 메모리에 저장된 상기 하나 이상의 인스트럭션을 실행하는 프로세서를 포함하며,
    상기 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써,
    수술영상 시퀀스를 획득하는 단계;
    상기 수술영상 시퀀스에 대해 손실(loss) 정보를 기초로 딥러닝 기반의 학습을 수행하는 단계; 및
    상기 학습을 기초로 상기 수술영상 시퀀스에 대한 수술동작을 인식하는 단계를 수행하는 것을 특징으로 하는 장치.
  24. 하드웨어인 컴퓨터와 결합되어, 제15항의 방법을 수행할 수 있도록 컴퓨터에서 독출가능한 기록매체에 저장된 컴퓨터프로그램.
PCT/KR2019/002094 2018-02-20 2019-02-20 수술동작 인식 방법 및 장치 WO2019164276A1 (ko)

Applications Claiming Priority (10)

Application Number Priority Date Filing Date Title
KR20180019867 2018-02-20
KR20180019866 2018-02-20
KR20180019868 2018-02-20
KR10-2018-0019866 2018-02-20
KR10-2018-0019867 2018-02-20
KR10-2018-0019868 2018-02-20
KR10-2018-0098358 2018-08-23
KR1020180098358A KR102014385B1 (ko) 2018-02-20 2018-08-23 수술영상 학습 및 학습 기반 수술동작 인식 방법 및 장치
KR10-2018-0109204 2018-09-12
KR1020180109204A KR102014377B1 (ko) 2018-02-20 2018-09-12 학습 기반 수술동작 인식 방법 및 장치

Publications (1)

Publication Number Publication Date
WO2019164276A1 true WO2019164276A1 (ko) 2019-08-29

Family

ID=67687844

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2019/002094 WO2019164276A1 (ko) 2018-02-20 2019-02-20 수술동작 인식 방법 및 장치

Country Status (1)

Country Link
WO (1) WO2019164276A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011036371A (ja) * 2009-08-10 2011-02-24 Tohoku Otas Kk 医療画像記録装置
KR20120126679A (ko) * 2011-05-12 2012-11-21 주식회사 이턴 수술 상황 판단 및 대응을 위한 수술 로봇 시스템의 제어 방법과 이를 기록한 기록매체 및 수술 로봇 시스템
KR101302595B1 (ko) * 2012-07-03 2013-08-30 한국과학기술연구원 수술 진행 단계를 추정하는 시스템 및 방법
KR20140020071A (ko) * 2012-08-07 2014-02-18 삼성전자주식회사 수술 로봇 시스템 및 그 제어방법
WO2017078768A1 (en) * 2015-11-05 2017-05-11 Facebook, Inc. Identifying content items using a deep-learning model

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011036371A (ja) * 2009-08-10 2011-02-24 Tohoku Otas Kk 医療画像記録装置
KR20120126679A (ko) * 2011-05-12 2012-11-21 주식회사 이턴 수술 상황 판단 및 대응을 위한 수술 로봇 시스템의 제어 방법과 이를 기록한 기록매체 및 수술 로봇 시스템
KR101302595B1 (ko) * 2012-07-03 2013-08-30 한국과학기술연구원 수술 진행 단계를 추정하는 시스템 및 방법
KR20140020071A (ko) * 2012-08-07 2014-02-18 삼성전자주식회사 수술 로봇 시스템 및 그 제어방법
WO2017078768A1 (en) * 2015-11-05 2017-05-11 Facebook, Inc. Identifying content items using a deep-learning model

Similar Documents

Publication Publication Date Title
WO2019132614A1 (ko) 수술영상 분할방법 및 장치
WO2020096099A1 (ko) 기계 학습 방법 및 장치
WO2019164232A1 (ko) 전자 장치, 이의 영상 처리 방법 및 컴퓨터 판독가능 기록 매체
WO2021060899A1 (ko) 인공지능 모델을 사용 기관에 특화시키는 학습 방법, 이를 수행하는 장치
WO2021006522A1 (ko) 딥 러닝 모델을 활용한 영상 진단 장치 및 그 방법
WO2013085193A1 (ko) 사용자 인지 향상 장치 및 그 인지 향상 방법
WO2022005090A1 (ko) 진단 결과를 제공하기 위한 방법 및 장치
WO2019083227A1 (en) MEDICAL IMAGE PROCESSING METHOD, AND MEDICAL IMAGE PROCESSING APPARATUS IMPLEMENTING THE METHOD
WO2020180134A1 (ko) 이미지 수정 시스템 및 이의 이미지 수정 방법
WO2020045848A1 (ko) 세그멘테이션을 수행하는 뉴럴 네트워크를 이용한 질병 진단 시스템 및 방법
WO2020059939A1 (ko) 인공지능 장치
WO2022191474A1 (ko) 이미지의 화질을 개선하는 전자 장치 및 이를 이용한 이미지의 화질 개선 방법
WO2022255529A1 (ko) 머신 러닝 기반의 립싱크 영상 생성을 위한 학습 방법 및 이를 수행하기 위한 립싱크 영상 생성 장치
WO2023182727A1 (en) Image verification method, diagnostic system performing same, and computer-readable recording medium having the method recorded thereon
WO2021010671A2 (ko) 뉴럴 네트워크 및 비국소적 블록을 이용하여 세그멘테이션을 수행하는 질병 진단 시스템 및 방법
WO2019172642A1 (ko) 심장 박동을 측정하기 위한 전자 장치 및 방법
EP3707678A1 (en) Method and device for processing image
WO2020032560A2 (ko) 진단 결과 생성 시스템 및 방법
WO2022065763A1 (en) Display apparatus and method for controlling thereof
WO2019190171A1 (ko) 전자 장치 및 그 제어 방법
WO2019190142A1 (en) Method and device for processing image
WO2021145713A1 (ko) 가상 모델 생성 장치 및 방법
WO2024039058A1 (ko) 피부 진단 장치, 이를 포함하는 피부 진단 시스템 및 그 방법
WO2019164276A1 (ko) 수술동작 인식 방법 및 장치
WO2019164270A1 (ko) 수술 최적화 방법 및 장치

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19757998

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19757998

Country of ref document: EP

Kind code of ref document: A1