WO2022211501A1 - 굴곡성기관지내시경 이미지를 이용하여 해부학적 위치를 판별하는 장치 및 방법 - Google Patents

굴곡성기관지내시경 이미지를 이용하여 해부학적 위치를 판별하는 장치 및 방법 Download PDF

Info

Publication number
WO2022211501A1
WO2022211501A1 PCT/KR2022/004529 KR2022004529W WO2022211501A1 WO 2022211501 A1 WO2022211501 A1 WO 2022211501A1 KR 2022004529 W KR2022004529 W KR 2022004529W WO 2022211501 A1 WO2022211501 A1 WO 2022211501A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
main bronchus
neural network
determining
network model
Prior art date
Application number
PCT/KR2022/004529
Other languages
English (en)
French (fr)
Inventor
김택균
Original Assignee
서울대학교병원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020210134049A external-priority patent/KR20220136046A/ko
Application filed by 서울대학교병원 filed Critical 서울대학교병원
Publication of WO2022211501A1 publication Critical patent/WO2022211501A1/ko

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B1/00Instruments for performing medical examinations of the interior of cavities or tubes of the body by visual or photographical inspection, e.g. endoscopes; Illuminating arrangements therefor
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B1/00Instruments for performing medical examinations of the interior of cavities or tubes of the body by visual or photographical inspection, e.g. endoscopes; Illuminating arrangements therefor
    • A61B1/267Instruments for performing medical examinations of the interior of cavities or tubes of the body by visual or photographical inspection, e.g. endoscopes; Illuminating arrangements therefor for the respiratory tract, e.g. laryngoscopes, bronchoscopes
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61MDEVICES FOR INTRODUCING MEDIA INTO, OR ONTO, THE BODY; DEVICES FOR TRANSDUCING BODY MEDIA OR FOR TAKING MEDIA FROM THE BODY; DEVICES FOR PRODUCING OR ENDING SLEEP OR STUPOR
    • A61M16/00Devices for influencing the respiratory system of patients by gas treatment, e.g. mouth-to-mouth respiration; Tracheal tubes
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61MDEVICES FOR INTRODUCING MEDIA INTO, OR ONTO, THE BODY; DEVICES FOR TRANSDUCING BODY MEDIA OR FOR TAKING MEDIA FROM THE BODY; DEVICES FOR PRODUCING OR ENDING SLEEP OR STUPOR
    • A61M16/00Devices for influencing the respiratory system of patients by gas treatment, e.g. mouth-to-mouth respiration; Tracheal tubes
    • A61M16/01Devices for influencing the respiratory system of patients by gas treatment, e.g. mouth-to-mouth respiration; Tracheal tubes specially adapted for anaesthetising
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/40ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to mechanical, radiation or invasive therapies, e.g. surgery, laser therapy, dialysis or acupuncture
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images
    • G16H30/40ICT specially adapted for the handling or processing of medical images for processing medical images, e.g. editing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Definitions

  • the present invention relates to an apparatus and method for determining an anatomical position using a flexible bronchoscope image.
  • Fiberoptic bronchoscopy has been an important diagnostic or interventional tool for anesthesia as well as pulmonary and intensive care medicine.
  • flexible bronchoscopy is known to be a safe method, it requires high proficiency to perform an accurate examination.
  • the anesthesiologist judges the suitability of the position from the fragmentary image displayed by the flexible bronchoscope passing through the endotracheal tube. .
  • Incorrect anatomical positioning can lead to inaccurate tube positioning, and repositioning of the endotracheal tube can lead to extremely dangerous situations such as prolonged apnea and accidental extubation.
  • the present invention provides a neural network model capable of accurately discriminating anatomical locations using bronchoscopy images during an examination procedure using flexible bronchoscopy to solve the above problems.
  • a method of determining an anatomical position using a flexible bronchoscope image comprising: acquiring a flexible bronchoscope image by an image acquisition module; and determining, by the neural network model, the object expressed in the target region in the entire frame of the flexible bronchoscopy image as one of the tracheal bone, the left main bronchus, and the right main bronchus; includes
  • the neural network model is trained to discriminate one of a carina, a left main bronchus, and a right main bronchus when flexible bronchoscopy images are input using a first set consisting of a plurality of training samples, and the first set each of the plurality of training samples includes a training image and label data, and each training image crops at least a portion of the flexible bronchoscope display area in the raw image including the text and flexible bronchoscopy image of the patient for the training. It is a pinged image,
  • the label data for each training image may indicate an anatomical position of any one object among the tracheal keel, the left main bronchus, and the right main bronchus, included in the corresponding training image.
  • the label data may be a result of recognizing the text of the patient information in the raw image by a character recognition engine.
  • the neural network model is further trained using a second set of a plurality of training samples, and the training images of the second set are randomly cropped images of at least a part of the flexible bronchoscope display area. Rotated and may include additional cropping with circles of random radius.
  • the label data may be recognized from an image to which a binary threshold is applied after converting a color to a gray tone in the original image.
  • the text displayed in the original image is enlarged to
  • the label data may be obtained by extracting the corresponding character string.
  • the character recognition engine may obtain the label data by extracting a corresponding character string by sequentially magnifying the text displayed on the raw image by 2 to 10 times the size.
  • the neural network model extracts features from the flexible bronchoscopy image, and determines one of the tracheal keel, the left main bronchus, and the right main bronchus based on the extracted features, and the neural network model includes:
  • the extracted features are bronchial in the image.
  • the cartilage and posterior muscle are geometrically shaped first features
  • the object of the image is determined as the tracheal keel
  • the extracted features are geometrically shaped depth structures including the junction between the secondary and tertiary bronchus in the image.
  • the object of the image may be determined as a left main bronchus or a right main bronchus.
  • the method may further include visualizing the portion of the object determined by the neural network model by displaying it on a flexible bronchoscopy image on a display.
  • the visualizing may use a Gradient-weighted CAM (Gradient-weighted CAM) model.
  • Gradient-weighted CAM Gradient-weighted CAM
  • the neural network model may be a CNN model.
  • an apparatus for determining an anatomical position using a flexible bronchoscope image comprising: an image acquisition module for acquiring a flexible bronchoscope image; and a neural network model for discriminating an object expressed in the target region in the entire frame of the flexible bronchoscopy image as one of a tracheal keel, a left main bronchus, and a right main bronchus; and a display for visualizing the portion of the object determined by the neural network model by displaying it on a flexible bronchoscopy image; may include.
  • the present invention may be a fiberoptic bronchoscopy device comprising the device.
  • the present invention discriminates the carina, the left main bronchus, and the right main bronchus with excellent accuracy. Thus, by predicting the anatomical position, it can help examiners in their clinical decision making.
  • FIG. 1 is a schematic diagram of an apparatus for determining anatomical positions using a flexible bronchoscope image according to an embodiment of the present invention.
  • FIG. 2 is a flowchart of a process of preprocessing a plurality of training samples when a neural network model is trained using a plurality of training samples, according to an embodiment of the present invention.
  • FIG. 3 is an image illustrating a specific pre-processing process of each of a plurality of training samples, according to an embodiment of the present invention.
  • FIG. 4 is a flowchart illustrating a process of preparing and segmenting a dataset for training and evaluating a neural network model, according to an embodiment of the present invention.
  • FIG. 5 is a table comparing the performance results of determining the tracheal keel, the left main bronchus and the right main bronchus in flexible bronchoscopy images using various neural network models according to an embodiment of the present invention.
  • 6A-6B are graphs illustrating changes in each metric during a training process and final results for a training dataset and a validation dataset, according to an embodiment of the present invention.
  • FIG. 7A is a graph illustrating an ROC curve of a neural network model according to an embodiment of the present invention.
  • 7B is a graph illustrating a precision recall curve of a neural network model according to an embodiment of the present invention.
  • 8A is a graph comparing performance metrics of human experts with a neural network model for three-way discrimination (tracheal keel, left main bronchus, and right main bronchus) according to an embodiment of the present invention.
  • FIG. 8B is an error matrix of a neural network model for the three-way discrimination (tracheal keel, left main bronchus, and right main bronchus) of FIG. 8A and performance metrics of human experts.
  • FIG. 8C is a graph comparing the performance metrics of human experts with the neural network model for binary discrimination (tracheal keel, left and right main bronchus) according to an embodiment of the present invention.
  • FIG. 8D is an error matrix of the neural network model for the binary discrimination (tracheal keel, left and right main bronchus) of FIG. 8C and performance metrics of human experts.
  • 9A to 9D are images for visualizing a corresponding part so that a region of a determined anatomical position is identified, according to an embodiment of the present invention.
  • 10 is a table comparing the precision and recall rate of each evaluator for each class of tracheal keel, left main bronchus, and right main bronchus, according to an embodiment of the present invention.
  • FIG. 1 is a schematic diagram of an apparatus for determining anatomical positions using a flexible bronchoscope image according to an embodiment of the present invention.
  • an apparatus for determining an anatomical location may include an image acquisition module 11 and a neural network model 13 .
  • the image acquisition module 11 acquires a bronchoscope image of the subject.
  • the bronchoscope image may include a bronchoscope image of a patient who has undergone flexible bronchoscopy.
  • the neural network model 13 determines the object expressed in the target region in the entire frame of the flexible bronchoscopy image as one of a carina, a left main bronchus, and a right main bronchus.
  • the neural network model is trained to discriminate flexible bronchoscopy images as one of a tracheal keel, a left main bronchus, and a right main bronchus using a plurality of training samples, and each of the plurality of training samples may be an image that has undergone a preprocessing process.
  • the neural network model may be a CNN model.
  • FIG. 2 is a flowchart of a process of preprocessing a plurality of training samples when a neural network model is trained using a plurality of training samples, according to an embodiment of the present invention.
  • each of the plurality of training samples converts text including patient information from a raw image including patient information and a flexible bronchoscope image to an optical character recognition engine (Optical character recognition engine).
  • Optical character recognition engine labeling an anatomical position into one class of tracheal bone, left main bronchus, and right main bronchus (S21) and removing the patient information area by cropping the flexible bronchoscope image area from the image (S23) may be included.
  • the pre-processing process may further include randomly rotating the image and cropping the image with a circle having a random radius ( S25 ).
  • FIG. 3 is an image illustrating a specific pre-processing process of each of a plurality of training samples, according to an embodiment of the present invention.
  • a plurality of training samples may be used to learn a neural network model.
  • Each of the plurality of training samples includes a training image and label data, and each training image crops at least a portion of a flexible bronchoscope display area from a raw image including text and flexible bronchoscopy image of patient information of the corresponding training patient. It is one image, and the label data for each training image may indicate an anatomical position of any one object among the tracheal keel, the left main bronchus, and the right main bronchus, which the corresponding training image includes.
  • the label data is automatically converted from the raw image to the text of patient information using an open-source optical character recognition engine (Tesseract, version 4.1.1, https://tesseract-ocr.github.io/tessdoc/Home.html). may be labeled.
  • an open-source optical character recognition engine Tetra-ray based optical character recognition engine
  • binary thresholding is performed using the OpenCV library (version 4.4.0, https://opencv.org). ) can be recognized from the applied image.
  • the text displayed in the original image is enlarged to extract the corresponding character string to obtain the label data.
  • the label data may be obtained by sequentially magnifying the text displayed in the original image to 2 to 10 times the size and extracting the corresponding character string.
  • a preprocessing process in which the patient information area is removed by cropping the flexible bronchoscope image area in the image may be performed. Additionally, the neural network model may be further trained using a plurality of training samples obtained by randomly rotating an image obtained by cropping at least a portion of the flexible bronchoscope display area and additionally cropping the image with a circle of a random radius. The cropped image can be resized to 224 ⁇ 224 pixels.
  • FIG. 4 is a flowchart illustrating a process of preparing and segmenting a dataset for training and evaluating a neural network model, according to an embodiment of the present invention.
  • FIG. 5 is a table comparing the performance results of determining the tracheal keel, the left main bronchus and the right main bronchus in flexible bronchoscopy images using various neural network models according to an embodiment of the present invention.
  • the EfficientNetB1 model showed the lowest categorical cross-entropy value (0.3047) and the highest accuracy (0.8871) for the validation dataset. Also, the EfficientNetB1 model had the highest accuracy (0.8630) for the test dataset. Precision and recall were 0.8661 and 0.8652 for the test dataset, respectively. Therefore, the EfficientNetB1 model may be most suitable as the neural network model of the present invention.
  • the pre-trained models may be further modified according to the discrimination task and used to determine the anatomical position in the target image.
  • the fully connected layer of the pre-trained model is activated by an activation function (eg, Softmax function). It may be replaced by three fully connected nodes.
  • the anatomical localization apparatus may classify a ternary class of an input dataset using the modified neural network model.
  • the shape of the input array, the loss function can be further modified. For example, the shape of the input arrangement of pre-trained models having different input types may be set to (224, 224, 3), and the same training process may be applied to all 10 models.
  • 6A and 6B are graphs illustrating changes in each metric during a training process and final results for a training dataset and a validation dataset, according to an embodiment of the present invention.
  • the EfficientNetB1 model exhibits the lowest categorical cross-entropy value (0.3047) and highest accuracy (0.8871) for the validation dataset at 392 epochs.
  • the loss function converges towards the minimum.
  • precision was mainly improved, and as learning progressed, recall increased accordingly.
  • FIG. 7A is a graph illustrating a Receiver Operating Characteristic (ROC) curve of a neural network model according to an embodiment of the present invention.
  • ROC Receiver Operating Characteristic
  • 7B is a graph illustrating a precision recall curve of a neural network model according to an embodiment of the present invention.
  • the AUCs for predicting the tracheal keel, the left main bronchus and the right main bronchus were 0.9833, 0.9765, and 0.9657, respectively, by the neural network model.
  • the class-mean AUC was 0.9752.
  • the areas under the precision recall curve for predicting the tracheal keel, left main bronchus and right main bronchus were 0.9674, 0.9616, and 0.9439, respectively.
  • the class-mean area under the precision recall curve was 0.9673.
  • FIG. 8A is a graph comparing the performance metrics of the neural network model and human experts for three-way discrimination (tracheal keel, left main bronchus and right main bronchus) according to an embodiment of the present invention
  • FIG. 8B is 3 of FIG. 8A
  • the neural network model for circle discrimination (tracheal keel, left main bronchus and right main bronchus) and the error matrix of the performance metrics of each human expert.
  • A1, A2, and A3 are anesthesiologists with 1, 15, and 24 years of experience, respectively, and P1, P2, and P3 are lung disease specialists with 12, 14, and 20 years of experience, respectively. to be.
  • A1 showed the lowest accuracy (0.3800) among human experts, while P3 showed the highest accuracy (0.8150).
  • the neural network model of the present invention has higher accuracy (0.8400) than human experts. In other words, the neural network model performed significantly better in discriminating performance than human experts.
  • FIG. 8C is a graph comparing the performance metrics of human experts with the neural network model for binary discrimination (tracheal keel, left and right main bronchus) according to an embodiment of the present invention.
  • FIG. 8D is an error matrix of the neural network model for the binary discrimination (tracheal keel, left and right main bronchus) of FIG. 8C and performance metrics of human experts.
  • 9A to 9D are images for visualizing a corresponding part so that a region of a determined anatomical position is identified, according to an embodiment of the present invention.
  • the anatomical location determination apparatus may further include a display for visualizing a portion of an object determined by the neural network model by displaying it on a flexible bronchoscopy image.
  • a CAM image may be output using a gradient-weighted CAM (Grad-CAM) model.
  • Grad-CAM gradient-weighted CAM
  • the activity level for each class is displayed as an image using an internal weight and a feature map, where the feature map ( Feature map) refers to features created after convolution operation on an image.
  • the method for obtaining the gradual grade activity map is a feature map that has passed convolution and a score (logit value) to be determined as a specific class for each grade. ) is obtained by multiplying the gradient of the feature map through convolution.
  • the gradual grade activity map can be used in almost all CNN structures, overcoming the disadvantage that the existing structure called the grade activity map (CAM) cannot be used universally. .
  • odd-numbered rows and even-numbered rows represent a matched original image and a circular cropped image, respectively.
  • 9a to 9c each shows that the anatomical position determining unit 13 of the present invention accurately predicts the tracheal keel, the left main bronchus and the right main bronchus.
  • 9D shows the case where the inference is changed depending on whether the image is cropped or not.
  • A7 is a true tracheal keel
  • cropped A8 is identified as a right main bronchus
  • B7 is a true left main bronchus
  • cropped B8 is determined as a tracheal keel
  • C7 was identified as the true right main bronchus
  • cropped C8 was identified as the right main bronchus.
  • E7 is the tracheal keel identified as the right main bronchus
  • E8 is the true tracheal keel
  • F7 is the left main bronchus identified as the right main bronchus
  • F8 is the true left main bronchus
  • G7 was the right main bronchus identified as the left main bronchus
  • G8 was identified as the true right main bronchus. Therefore, it was confirmed that the determination result was different depending on whether the image was cropped.
  • the neural network model extracts features from the flexible bronchoscopy image, determines one of the tracheal bone, the left main bronchus, and the right main bronchus based on the extracted features, and the extracted features are bronchial cartilage in the image
  • the posterior muscle is the first feature geometrically shaped
  • the object of the image is determined as the tracheal keel
  • the extracted feature is the third geometrically shaped depth structure including the junction between the secondary and tertiary bronchus in the image.
  • the object of the image was determined as the left main bronchus or the right main bronchus.
  • 10 is a table comparing the precision and recall rate of each evaluator for each class of tracheal keel, left main bronchus, and right main bronchus, according to an embodiment of the present invention.
  • the accuracy and recall rate of the anesthesiologists (A1, A2, A3) to distinguish the tracheal keel from the left main bronchus were lower compared to the neural network model of the present invention and the lung disease specialist.
  • the recall for the right main bronchus was worse. This is because the anesthesiologist may be more familiar with both structures, but access to the right main bronchus may be less frequent, since the double-tube endotracheal tube is typically located in the tracheal keel and left main bronchus.
  • the device for determining the anatomical location using the neural network model of the present invention identifies the anatomical structure similar to the ability of the most experienced pulmonary disease specialist during the flexible bronchoscopy performed in the anesthesia procedure to perform anesthesia.
  • a specialist can assist you.
  • a method for determining an anatomical position using a flexible bronchoscope image includes: acquiring a flexible bronchoscope image by an image acquisition module; and discriminating the flexible bronchoscopy image as one of a tracheal keel, a left main bronchus, and a right main bronchus by a neural network model; may include. Additionally, the method may further include visualizing the portion of the object determined by the neural network model by displaying it on a flexible bronchoscopy image on a display.
  • the present invention can directly assist examiners by predicting the anatomical position with excellent accuracy by determining the tracheal keel, the left main bronchus and the right main bronchus. and can save time through short inference time.
  • the operation by the method of determining an anatomical position using the flexible bronchoscope image according to the embodiments described above may be at least partially implemented as a computer program and recorded in a computer-readable recording medium.
  • a program product consisting of a computer-readable medium containing program code, which may be executed by a processor for performing any or all steps, operations, or processes described.
  • a method of determining an anatomical position using a flexible bronchoscope image according to another aspect of the present invention may be performed by a computing device including a processor.
  • the computing device may be any device that may be incorporated into or may be a computing device such as a desktop computer, laptop computer, notebook, smart phone, or the like.
  • a computer is a device having one or more alternative and special purpose processors, memory, storage, and networking components (either wireless or wired).
  • the computer may run, for example, an operating system compatible with Microsoft's Windows, an operating system such as Apple OS X or iOS, a Linux distribution, or Google's Android OS.
  • the computer-readable recording medium includes all kinds of recording identification devices in which computer-readable data is stored. Examples of the computer-readable recording medium include ROM, RAM, CD-ROM, magnetic tape, floppy disk, optical data storage identification device, and the like. In addition, the computer-readable recording medium may be distributed in network-connected computer systems, and the computer-readable code may be stored and executed in a distributed manner. In addition, functional programs, codes, and code segments for implementing the present embodiment may be easily understood by those skilled in the art to which the present embodiment belongs.
  • An apparatus and method for determining an anatomical position using a flexible bronchoscopy image of embodiments of the present invention is determined with excellent accuracy
  • the tracheal keel (carina) is determined with excellent accuracy
  • the left main bronchus (left main bronchus) and the right main bronchus (right main bronchus) is determined with excellent accuracy
  • it can help examiners in their clinical decision making.

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • Surgery (AREA)
  • Veterinary Medicine (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Animal Behavior & Ethology (AREA)
  • Pathology (AREA)
  • Radiology & Medical Imaging (AREA)
  • Anesthesiology (AREA)
  • Primary Health Care (AREA)
  • Pulmonology (AREA)
  • Epidemiology (AREA)
  • Optics & Photonics (AREA)
  • Hematology (AREA)
  • Molecular Biology (AREA)
  • Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Emergency Medicine (AREA)
  • Otolaryngology (AREA)
  • Data Mining & Analysis (AREA)
  • Urology & Nephrology (AREA)
  • Physiology (AREA)
  • Databases & Information Systems (AREA)
  • Endoscopes (AREA)
  • Apparatus For Radiation Diagnosis (AREA)
  • Image Analysis (AREA)

Abstract

굴곡성기관지내시경 이미지를 이용하여 해부학적 위치를 판별하는 방법으로서, 이미지획득 모듈에 의하여, 굴곡성기관지내시경 이미지를 획득하는 단계; 및 신경망 모델에 의하여, 상기 굴곡성기관지내시경 이미지의 전체 프레임에서 대상 영역에 표현된 객체를 기관용골, 좌측 주기관지 및 우측 주기관지 중 하나로 판별하는 단계; 를 포함한다.

Description

굴곡성기관지내시경 이미지를 이용하여 해부학적 위치를 판별하는 장치 및 방법
본 발명은 굴곡성기관지내시경 이미지를 이용하여 해부학적 위치를 판별하는 장치 및 방법에 관한 것이다.
굴곡성기관지내시경검사(fiberoptic bronchoscopy)는 마취뿐만 아니라 폐 및 중환자 의학을 위한 중요한 진단 또는 중재 도구였다. 굴곡성기관지내시경검사가 안전한 방법으로 알려져 있지만, 정확한 검사를 수행하기 위해 높은 숙련도를 필요로 한다. 특히 마취 중 사용하는 이중관 기관내튜브 또는 기관지 차단장치의 올바른 위치를 파악하는데에 이용되는 경우, 마취 전문의는 기관내 튜브를 통과하는 굴곡성기관지내시경에 의해 나타난 단편적인 이미지로부터 그 위치의 적합성을 판단한다. 해부학적 위치를 잘못 판단한 경우, 부정확한 튜브 위치조정을 야기할 수 있으며, 기관 내 튜브의 위치 재설정은 장기간의 무호흡 및 우발적인 발관과 같은 극히 위험한 상황을 초래할 수 있다.
본 발명은 상술한 문제점들을 해결하기 위한 것으로서, 굴곡성기관지내시경검사를 사용하는 검사 절차 동안 기관지내시경 영상을 이용하여, 해부학적 위치를 정확하게 구별할 수 있는 신경망 모델을 제시한다.
본 발명의 일 실시예에서는, 굴곡성기관지내시경 이미지를 이용하여 해부학적 위치를 판별하는 방법으로서, 상기 방법은 이미지획득 모듈에 의하여, 굴곡성기관지내시경 이미지를 획득하는 단계; 및 신경망 모델에 의하여, 상기 굴곡성기관지내시경 이미지의 전체 프레임에서 대상 영역에 표현된 객체를 기관용골, 좌측 주기관지 및 우측 주기관지 중 하나로 판별하는 단계; 를 포함한다.
일 실시예에서, 상기 신경망 모델은 복수의 훈련 샘플로 이루어진 제1 세트을 이용하여 굴곡성기관지내시경 이미지들이 입력되면 기관용골(carina), 좌측 주기관지 및 우측 주기관지 중 하나로 판별하도록 학습된 것이고, 상기 제1 세트의 복수의 훈련 샘플 각각은 훈련 이미지 및 레이블 데이터를 포함하고, 각 훈련 이미지는 해당 훈련용 환자의 환자정보의 텍스트 및 굴곡성기관지내시경 이미지를 포함한 원시이미지에서 굴곡성기관지내시경 표시 영역의 적어도 일부 영역을 크로핑한 이미지이고,
각 훈련 이미지에 대한 레이블 데이터는 해당 훈련 이미지가 포함하는, 기관용골, 좌측 주기관지 및 우측 주기관지 중 어느 하나의 객체의 해부학적 위치를 가리킬 수 있다.
일 실시예에서, 상기 레이블 데이터는 상기 원시이미지에서 상기 환자정보의 텍스트를 문자 인식 엔진(character recognition engine)에 의해 인식된 결과인 것일 수 있다.
일 실시예에서, 상기 신경망 모델은 복수의 훈련 샘플로 이루어진 제2 세트를 이용하여 추가로 훈련되며, 상기 제2 세트의 상기 훈련 이미지는 굴곡성기관지내시경 표시 영역을 적어도 일부 크로핑한 이미지를 랜덤하게 회전하고 랜덤 반경의 원으로 추가 크로핑된 것을 포함할 수 있다.
일 실시예에서, 상기 레이블 데이터는 상기 원시이미지에서 컬러를 그레이(grey) 톤으로 변환한 후, 이진 임계화(binary threshold)를 적용된 이미지로부터 인식된 것일 수 있다.
일 실시예에서, 상기 문자 인식 엔진에 의하여 환자정보를 포함하는 텍스트로부터 기관용골, 좌측 주기관지 및 우측 주기관지 중 어느 하나에 대응하는 문자열을 추출하는 것이 실패할 경우, 상기 원시이미지에 표시된 텍스트를 확대하여 상기 대응하는 문자열을 추출하여 상기 레이블 데이터가 획득될 수 있다.
일 실시예에서, 상기 문자 인식 엔진은 상기 원시이미지에 표시된 텍스트를 사이즈 대비 2배 내지 10배로 순차적으로 확대하여 대응하는 문자열을 추출하여 상기 레이블 데이터를 획득할 수 있다.
일 실시예에서, 상기 신경망 모델은 굴곡성기관지내시경 이미지로부터 특징을 추출하고, 추출된 특징에 기초하여 기관용골, 좌측 주기관지 및 우측 주기관지 중 하나로 판별하고, 상기 신경망 모델은: 추출되는 특징이 이미지 내 기관지 연골 및 후방 근육을 기하학적으로 형상화된 제1 특징일 경우, 이미지의 객체를 기관용골로 판별하고, 추출되는 특징이 이미지 내 2차 및 3차 기관지 사이의 접합부를 포함하는 깊이 구조를 기하학적으로 형상화한 제2 특징일 경우, 이미지의 객체를 좌측 주기관지 또는 우측 주기관지로 판별하는 것일 수 있다.
일 실시예에서, 상기 방법은 신경망 모델이 판별한 객체의 부분을 디스플레이 상의 굴곡성기관지내시경 이미지에 표시하여 시각화하는 단계를 더 포함할 수 있다.
일 실시예에서, 상기 시각화하는 단계는 Grad-CAM(Gradient-weighted CAM) 모델을 이용할 수 있다.
일 실시예에서, 상기 신경망 모델은 CNN 모델일 수 있다.
본 발명의 다른 실시예에서는, 굴곡성기관지내시경 이미지를 이용하여 해부학적 위치를 판별하는 장치로서, 상기 장치는 굴곡성기관지내시경 이미지를 획득하는 이미지획득 모듈; 및 상기 굴곡성기관지내시경 이미지의 전체 프레임에서 대상 영역에 표현된 객체를 기관용골, 좌측 주기관지 및 우측 주기관지 중 하나로 판별하는 신경망 모델; 및 상기 신경망 모델이 판별한 객체의 부분을 굴곡성기관지내시경 이미지에 표시하여 시각화하는 디스플레이; 를 포함할 수 있다.
일 실시예에서, 본 발명은 상기 장치를 포함하는 굴곡성기관지내시경검사(fiberoptic bronchoscopy) 장치일 수 있다.
이와 같은 굴곡성기관지내시경 이미지를 이용하여 해부학적 위치를 판별하는 장치 및 방법에 따르면, 본 발명은 기관용골(carina), 좌측 주기관지(left main bronchus) 및 우측 주기관지(right main bronchus)를 우수한 정확도로 판별하여 해부학적 위치를 예측함으로써 검사자들의 임상적 의사 판단에 도움을 줄 수 있다.
본 발명의 효과들은 이상에서 언급한 효과들로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 청구범위의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
본 발명 또는 종래 기술의 실시예의 기술적 해결책을 보다 명확하게 설명하기 위해, 실시예에 대한 설명에서 필요한 도면이 아래에서 간단히 소개된다. 아래의 도면들은 본 명세서의 실시예를 설명하기 목적일 뿐 한정의 목적이 아니라는 것으로 이해되어야 한다. 또한, 설명의 명료성을 위해 아래의 도면들에서 과장, 생략 등 다양한 변형이 적용된 일부 요소들이 도시될 수 있다.
도 1은, 본 발명의 일 실시예에 따른, 굴곡성기관지내시경 이미지를 이용하여 해부학적 위치를 판별하는 장치의 개략도이다.
도 2는, 본 발명의 일 실시예에 따른, 신경망 모델이 복수의 훈련 샘플을 이용하여 학습될 때 복수의 훈련 샘플이 전처리되는 과정의 흐름도이다.
도 3은, 본 발명의 일 실시예에 따른, 복수의 훈련 샘플 각각의 구체적인 전처리 과정을 도시하는 이미지이다.
도 4는, 본 발명의 일 실시예에 따른, 신경망 모델을 훈련 및 평가하기 위한 데이터세트의 준비 및 분할 과정을 도시하는 흐름도이다.
도 5는, 본 발명의 일 실시예에 따른, 다양한 신경망 모델을 이용하여 굴곡성기관지내시경 이미지를 기관용골, 좌측 주기관지 및 우측 주기관지를 판별한 성능 결과를 비교한 표이다.
도 6a 내지 도 6b는, 본 발명의 일 실시예에 따른, 훈련 프로세스 동안 각 메트릭의 변화 및 훈련 데이터세트와 검증 데이터세트에 대한 최종 결과를 나타내는 그래프이다.
도 7a는, 본 발명의 일 실시예에 따른, 신경망 모델의 ROC 곡선을 나타내는 그래프이다.
도 7b는, 본 발명의 일 실시예에 따른, 신경망 모델의 정밀도 재현율 곡선을 나타내는 그래프이다.
도 8a는, 본 발명의 일 실시예에 따른, 3원 판별(기관용골, 좌측 주기관지 및 우측 주기관지)에 대한 신경망 모델과 인간 전문가들의 성능 메트릭을 비교한 그래프이다.
도 8b는, 도 8a의 3원 판별(기관용골, 좌측 주기관지 및 우측 주기관지)에 대한 신경망 모델과 인간 전문가들 각각의 성능 메트릭의 오차 행렬이다.
도 8c는, 본 발명의 일 실시예에 따른, 2원 판별(기관용골, 좌우측 주기관지)에 대한 신경망 모델과 인간 전문가들의 성능 메트릭을 비교한 그래프이다. 도 8d는, 도 8c의 2원 판별(기관용골, 좌우측 주기관지)에 대한 신경망 모델과 인간 전문가들 각각의 성능 메트릭의 오차 행렬이다.
도 9a 내지 도 9d는, 본 발명의 일 실시예에 따른, 판별한 해부학적 위치의 영역이 파악되도록 해당 부분을 시각화하는 이미지이다.
도 10은, 본 발명의 일 실시예에 따른, 기관용골, 좌측 주기관지 및 우측 주기관지 클래스별로 각 평가자의 정밀도 및 재현율을 비교한 표이다.
여기서 사용되는 전문 용어는 단지 특정 실시예를 언급하기 위한 것이며, 본 발명을 한정하는 것을 의도하지 않는다. 여기서 사용되는 단수 형태들은 문구들이 이와 명백히 반대의 의미를 나타내지 않는한 복수 형태들도 포함한다. 명세서에서 사용되는 "포함하는"의 의미는 특정 특성, 영역, 정수, 단계, 동작, 항목 및/또는 성분을 구체화하며, 다른 특성, 영역, 정수, 단계, 동작, 항목 및/또는 성분의 존재나 부가를 제외시키는 것은 아니다.
다르게 정의하지는 않았지만, 여기에 사용되는 기술용어 및 과학용어를 포함하는 모든 용어들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 일반적으로 이해하는 의미와 동일한 의미를 가진다. 보통 사용되는 사전에 정의된 용어들은 관련기술문헌과 현재 개시된 내용에 부합하는 의미를 가지는 것으로 추가 해석되고, 정의되지 않는한 이상적이거나 매우 공식적인 의미로 해석되지 않는다.
이하에서, 도면을 참조하여 본 발명의 실시예들에 대하여 상세히 살펴본다.
도 1은, 본 발명의 일 실시예에 따른, 굴곡성기관지내시경 이미지를 이용하여 해부학적 위치를 판별하는 장치의 개략도이다.
도 1을 참조하면, 해부학적 위치를 판별하는 장치(이하, "해부학적 위치판별 장치")(1)는, 이미지획득 모듈(11) 및 신경망 모델(13)을 포함할 수 있다.
본 발명의 일 실시예에서, 이미지획득 모듈(11)은 피검사자의 기관지경 이미지를 획득한다. 상기 기관지경 이미지는 굴곡성기관지내시경검사를 받은 환자의 기관지경 이미지를 포함할 수 있다.
신경망 모델(13)은 상기 굴곡성기관지내시경 이미지의 전체 프레임에서 대상 영역에 표현된 객체를 기관용골(carina), 좌측 주기관지(left main bronchus) 및 우측 주기관지(right main bronchus) 중 하나로 판별한다.
상기 신경망 모델은 복수의 훈련 샘플을 이용하여 굴곡성기관지내시경 이미지들이 기관용골, 좌측 주기관지 및 우측 주기관지 중 하나로 판별하도록 학습된 것이고, 상기 복수의 훈련 샘플 각각은 전처리 과정을 거친 이미지일 수 있다.
본 발명의 일 실시예에서, 상기 신경망 모델은 CNN모델일 수 있다.
도 2는, 본 발명의 일 실시예에 따른, 신경망 모델이 복수의 훈련 샘플을 이용하여 학습될 때 복수의 훈련 샘플이 전처리되는 과정의 흐름도이다.
도 2를 참조하면, 복수의 훈련 샘플이 전처리되는 과정은 복수의 훈련 샘플 각각이 환자정보 및 굴곡성기관지내시경 이미지를 포함하는 원시이미지에서 환자정보를 포함하는 텍스트를 광학 문자 인식 엔진(Optical character recognition engine)에 의해, 기관용골, 좌측 주기관지 및 우측 주기관지 중 하나의 클래스로 해부학적 위치가 라벨링되는 단계(S21) 및 상기 이미지에서 굴곡성기관지내시경 이미지 영역을 크로핑(cropping)하여 환자정보 영역이 제거되는 단계(S23)를 포함할 수 있다. 추가적으로, 전처리되는 과정은 이미지를 랜덤하게 회전하고 랜덤 반경의 원으로 크로핑하는 단계(S25)를 더 포함할 수 있다.
도 3은, 본 발명의 일 실시예에 따른, 복수의 훈련 샘플 각각의 구체적인 전처리 과정을 도시하는 이미지이다.
도 3을 참조하면, 신경망 모델을 학습하기 위하여 복수의 훈련 샘플을 이용할 수 있다. 복수의 훈련 샘플 각각은 훈련 이미지 및 레이블 데이터를 포함하고, 각 훈련 이미지는 해당 훈련용 환자의 환자정보의 텍스트 및 굴곡성기관지내시경 이미지를 포함한 원시이미지에서 굴곡성기관지내시경 표시 영역의 적어도 일부 영역을 크로핑한 이미지이고, 각 훈련 이미지에 대한 레이블 데이터는 해당 훈련 이미지가 포함하는, 기관용골, 좌측 주기관지 및 우측 주기관지 중 어느 하나의 객체의 해부학적 위치를 가리키는 것일 수 있다. 상기 레이블 데이터는 원시이미지에서 환자정보의 텍스트를 오픈-소스 광학 문자 인식 엔진(Tesseract, version 4.1.1, https://tesseract-ocr.github.io/tessdoc/Home.html)을 사용하여 자동으로 라벨링될 수 있다. 광학 문자 인식 성능을 향상시키기 위하여, 상기 원시이미지에서 컬러를 그레이(grey) 톤으로 변환한 후, OpenCV 라이브러리(버전 4.4.0, https://opencv.org)를 사용하여 이진 임계화(binary threshold)가 적용된 이미지로부터 인식될 수 있다.
일 실시예에서, 환자정보를 포함하는 텍스트로부터 기관용골, 좌측 주기관지 및 우측 주기관지 중 어느 하나에 대응하는 문자열을 추출하는 것이 실패할 경우, 상기 원시이미지에 표시된 텍스트를 확대하여 상기 대응하는 문자열을 추출하여 상기 레이블 데이터를 획득할 수 있다.
일 실시예에서, 원시이미지에 표시된 텍스트를 사이즈 대비 2배 내지 10배로 순차적으로 확대하여 대응하는 문자열을 추출하여 상기 레이블 데이터를 획득할 수 있다.
모든 인식된 텍스트 문자열들은 소문자로 변환될 수 있다. 'ca'를 포함하는 임의의 문자열이 발견되면, 그 이미지는 기관용골 클래스에 할당되었다. 동일한 방식으로, "left main", "lt main" 또는 "lm"은 좌측 주기관지 클래스에 할당되고, "right main", "right main", "rt main", 또는 "rm"은 우측 주기관지 클래스에 할당되었다.
상기 이미지에서 굴곡성기관지내시경 이미지 영역을 크로핑(cropping)하여 환자정보 영역이 제거되는 전처리 과정을 거칠 수 있다. 추가적으로, 상기 신경망 모델은 굴곡성기관지내시경 표시 영역을 적어도 일부 크로핑한 이미지를 랜덤하게 회전하고 랜덤 반경의 원으로 추가 크로핑한 복수의 훈련 샘플을 이용하여 추가 훈련될 수 있다. 크로핑된 이미지는 224×224 픽셀로 크기 조정될 수 있다.
도 4는, 본 발명의 일 실시예에 따른, 신경망 모델을 훈련 및 평가하기 위한 데이터세트의 준비 및 분할 과정을 도시하는 흐름도이다.
도 4를 참조한 일 실시예에서, 3,216명의 피검사자가 굴곡성기관지내시경 검사를 받았다. 통신 시스템을 통해, 연령, 성별 및 진단에 관계없이 텍스트 주석을 포함하는 47,447개의 이미지를 다운로드하였다. 자동화된 라벨링에서, 9,793개의 이미지는 기관용골 클래스(3,228), 좌측 주기관지 클래스(3,471) 및 우측 주기관지 클래스(3,904)에 배치되었다. 이들 중에서, 1,105개의 부적절한 이미지가 수동 평가에 의해 버려졌다. 최종적으로, 기관용골 클래스의 3,100개, 좌측 주기관지 클래스의 2,901 및 우측 주기관지 클래스의 2,687개의 총 8,688개의 이미지가 실험을 위해 준비되었다. 평가 데이터세트는 8,688개의 이미지 중 무작위로 180개가 선택되었다. 평가 데이터세트에 대한 180개의 이미지를 제외하고, 나머지 8,508개의 이미지 중 80%(6,806)가 훈련 데이터세트에 할당되었고, 70%(1,191)가 검증 데이터세트에 할당되었다. 마지막으로, 신경망 모델 평가를 위해 시험 데이터세트에 511개의 이미지를 할당하였다. 전처리는 모든 데이터세트에 대해 수행되었고, 2,382개의 원래의 이미지를 추가함으로써 검증 데이터세트에 사용하였다.
도 5는, 본 발명의 일 실시예에 따른, 다양한 신경망 모델을 이용하여 굴곡성기관지내시경 이미지를 기관용골, 좌측 주기관지 및 우측 주기관지를 판별한 성능 결과를 비교한 표이다.
도 5를 참조하면, 여러 모델 중 EfficientNetB1모델은 검증 데이터세트에 대해 최저 범주형 교차 엔트로피 값(0.3047) 및 최고 정확도(0.8871)를 나타내었다. 또한, EfficientNetB1모델은 시험 데이터세트에 대해 가장 높은 정확도(0.8630)를 가졌다. 정밀도 및 재현율은 시험 데이터세트에 대해 각각 0.8661 및 0.8652였다. 따라서, EfficientNetB1 모델이 본 발명의 신경망 모델로서 가장 적합할 수 있다.
추가적으로, 사전 학습된 모델들은 판별 작업에 따라 추가적으로 수정되어, 대상 이미지에서 해부학적 위치를 판별하는데 사용될 수도 있다. 일 실시예에서, 해부학적 위치를 기관용골, 좌측 주기관지 및 우측 주기관지 중 하나로 판별하는 작업이 요구되는 경우, 사전 학습된 모델의 완전 연결층이 활성화 함수(예를 들어, Softmax 함수)에 의해 활성화된 3개의 완전 연결 노드로 대체될 수도 있다. 상기 해부학적 위치판별 장치는 상기 수정된 신경망 모델을 사용하여 입력 데이터세트의 3항 클래스를 분류할 수 있다. 추가적으로, 입력 배열의 형태, 손실 함수가 더 수정될 수 있다. 예를 들어, 입력 형태가 각기 다른 사전 학습된 모델들의 입력 배열의 형태를 (224, 224, 3)으로 설정할 수 있고, 10개의 모델 모두에 동일한 훈련 프로세스가 적용될 수 있다.
도 6a 및 도 6b는, 본 발명의 일 실시예에 따른, 훈련 프로세스 동안 각 메트릭의 변화 및 훈련 데이터세트와 검증 데이터세트에 대한 최종 결과를 나타내는 그래프이다.
도 6a 및 도 6b를 참조하면, EfficientNetB1 모델은 392 에포크(Epoch)에서 검증 데이터세트에 대한 최저 범주형 교차 엔트로피 값(0.3047) 및 최고 정확도(0.8871)를 나타낸다. 훈련 데이터세트 및 검증 데이터세트 모두에서, 손실 함수는 최소값을 향해 수렴하였다. 훈련 초기에, 정밀도가 주로 개선되었고, 학습이 진행됨에 따라, 재현율이 그에 따라 증가되었다.
도 7a는, 본 발명의 일 실시예에 따른, 신경망 모델의 ROC(Receiver Operating Characteristic) 곡선을 나타내는 그래프이다.
도 7b는, 본 발명의 일 실시예에 따른, 신경망 모델의 정밀도 재현율 곡선을 나타내는 그래프이다.
도 7a 및 도 7b를 참조하면, 신경망 모델에 의해, 기관용골, 좌측 주기관지 및 우측 주기관지를 예측하기 위한 AUC는 각각 0.9833, 0.9765 및 0.9657이었다. 클래스-평균 AUC는 0.9752였다. 기관용골, 좌측 주기관지 및 우측 주기관지를 예측하기 위한 정밀도 재현율 곡선 아래의 면적은 각각 0.9674, 0.9616 및 0.9439였다. 정밀도 재현율 곡선 아래의 클래스-평균 면적은 0.9673이였다.
도 8a는, 본 발명의 일 실시예에 따른, 3원 판별(기관용골, 좌측 주기관지 및 우측 주기관지)에 대한 신경망 모델과 인간 전문가들의 성능 메트릭을 비교한 그래프이고, 도 8b는, 도 8a의 3원 판별(기관용골, 좌측 주기관지 및 우측 주기관지)에 대한 신경망 모델과 인간 전문가들 각각의 성능 메트릭의 오차 행렬이다.
도 8a 및 8b를 참조하면, A1, A2, 및 A3은 각각 1년, 15년 및 24년 경력의 마취 전문의이고, P1, P2 및 P3은 각각 12년, 14년 및 20년 경력의 폐질환 전문의이다. 3원 판별에서, A1은 인간 전문가 중 가장 낮은 정확도(0.3800)를 보인 반면, P3은 가장 높은 정확도(0.8150)를 보였다. 본 발명의 신경망 모델은 인간 전문가보다 정확도(0.8400)가 더 높았다. 즉, 신경망 모델은 인간 전문가보다 판별 성능이 월등히 뛰어났다.
도 8c는, 본 발명의 일 실시예에 따른, 2원 판별(기관용골, 좌우측 주기관지)에 대한 신경망 모델과 인간 전문가들의 성능 메트릭을 비교한 그래프이다. 도 8d는, 도 8c의 2원 판별(기관용골, 좌우측 주기관지)에 대한 신경망 모델과 인간 전문가들 각각의 성능 메트릭의 오차 행렬이다.
도 8c 및 도 8d를 참조하면, P3의 정확도(0.9300)가 신경망 모델의 정확도(0.9100)을 능가한다는 점을 제외하고 전체 결과는 3원 판별과 유사했지만, 그 차이는 크지 않았다(P=0.5572). 따라서, 본 발명의 신경망 모델의 판별 수행이 대부분의 인간 전문가들의 판별 수행보다 뛰어났고, 가장 경험이 많은 폐학자의 판별 수행과 비슷하였다는 것이 입증되었다.
도 9a 내지 도 9d는, 본 발명의 일 실시예에 따른, 판별한 해부학적 위치의 영역이 파악되도록 해당 부분을 시각화하는 이미지이다.
도 9a 내지 도 9d를 참조하면, 해부학적 위치판별 장치는 신경망 모델이 판별한 객체의 부분을 굴곡성기관지내시경 이미지에 표시하여 시각화하는 디스플레이를 더 포함할 수 있다. 상기 디스플레이 상에 판별된 객체의 부분을 시각화할 경우, 점진적 등급 활성 맵(Gradient-weighted CAM, Grad-CAM) 모델을 이용하여 CAM 이미지를 출력할 수 있다.
본 발명의 일 실시예에서 상기 신경망 모델(13)의 판별이 완료된 후에, 내부의 가중치(weight)와 특징 맵(feature map)을 이용해 각각의 클래스에 대한 활성도를 이미지로 표시해주며, 여기서 특징 맵(feature map)은 이미지에 합성곱 연산을 한 뒤 만들어진 특징(feature)들을 의미한다. 본 발명의 일 실시예에서 상기 점진적 등급 활성 맵(Grad-CAM)을 구하는 방법은 합성곱(convolution)을 통과한 특징 맵(feature map)과 각각의 등급에 대한 특정 클래스로 판별할 점수(logit값)의 그래디언트(gradient)에 합성곱(convolution)을 통과한 특징 맵(feature map)의 곱을 이용해 구한다. 본 발명의 일 실시예에서 상기 점진적 등급 활성 맵(Grad-CAM)은, 기존에 나와 있던 등급 활성 맵(CAM)이라는 구조가 범용적으로 사용될 수 없다는 단점을 극복하고 거의 모든 CNN구조에서 사용 가능하다. 이와 같은 방법으로 뽑은 점진적 등급 활성 맵(Grad-CAM)을 굴곡성기관지내시경 이미지 사이즈로 바꿔서 겹치면, 굴곡성기관지내시경 이미지에서 어떤 부분 때문에 특정 클래스로 판별되었는지 확인할 수 있다.
도 9a 내지 도 9b를 참조하면, 홀수 행 및 짝수 행은 매칭된 원본 이미지 및 원형 크로핑된 이미지를 각각 나타낸다.
도 9a 내지 도 9c 각각은 본 발명의 해부학적 위치판별부(13)가 기관용골, 좌측 주기관지 및 우측 주기관지를 정확하게 예측한 것을 도시한다. 도 9d는 이미지가 크로핑되었는지 여부에 따라 추론이 변경된 경우를 도시한다. 도 9d를 참조하면, A7은 진정한 기관용골이고, 크로핑된A8은 우측 주기관지로 판별되었으며, B7은 진정한 좌측 주기관지고, 크로핑된 B8은 기관용골로 판별되었다. C7은 진정한 우측 주기관지고, 크로핑된 C8은 우측 주기관지로 판별되었다. E7은 우측 주기관지로 판별된 기관용골이고, E8은 진정한 기관용골이다. F7은 우측 주기관지로 판별되는 좌측 주기관지고, F8은 진정한 좌측 주기관지다. G7은 좌측 주기관지로 판별되는 우측 주기관지고, G8은 진정한 우측 주기관지로 판별되었다. 따라서, 이미지의 크로핑 여부에 따라 판별 결과가 달라지는 것을 확인하였다.
도 9a 내지 도 9c를 참조하면, 상기 신경망 모델은 굴곡성기관지내시경 이미지로부터 특징을 추출하고, 추출된 특징에 기초하여 기관용골, 좌측 주기관지 및 우측 주기관지 중 하나로 판별하고, 추출되는 특징이 이미지 내 기관지 연골 및 후방 근육을 기하학적으로 형상화된 제1 특징일 경우, 이미지의 객체를 기관용골로 판별하고, 추출되는 특징이 이미지 내 2차 및 3차 기관지 사이의 접합부를 포함하는 깊이 구조를 기하학적으로 형상화한 제2 특징일 경우, 이미지의 객체를 좌측 주기관지 또는 우측 주기관지로 판별하였다.
도 10은, 본 발명의 일 실시예에 따른, 기관용골, 좌측 주기관지 및 우측 주기관지 클래스별로 각 평가자의 정밀도 및 재현율을 비교한 표이다.
도 10, 다시 도 8b및 도 8d를 참조하면, 마취 전문의(A1, A2, A3)가 기관용골과 좌측 주기관지를 구별하는 정확도와 재현율은 본 발명의 신경망 모델 및 폐질환 전문의와 대비하여 더 낮았지만, 우측 주기관지에 대한 재현율은 더 나쁜 결과를 보였다. 이는 이중관 기관내튜브는 일반적으로 기관용골과 좌측 주기관지에 위치하기 때문에, 마취 전문의는 두 구조 모두에 더 익숙할 수 있지만, 우측 주기관지에 대한 접근 빈도는 낮을 수 있기 때문이다. 이러한 결과를 고려할 때, 본 발명의 신경망 모델을 이용하여 해부학적 위치를 판별하는 장치는 마취 절차에서 수행되는 굴곡성기관지내시경 검사 시 가장 경험이 풍부한 폐질환 전문의의 능력과 비슷하게 해부학적 구조를 식별하여 마취 전문의를 보조할 수 있다.
본 발명의 다른 일 측면에 따른 굴곡성기관지내시경 이미지를 이용하여 해부학적 위치를 판별하는 방법은 이미지획득 모듈에 의하여, 굴곡성기관지내시경 이미지를 획득하는 단계; 및 신경망 모델에 의하여 상기 굴곡성기관지내시경 이미지를 기관용골, 좌측 주기관지 및 우측 주기관지 중 하나로 판별하는 단계; 를 포함할 수 있다. 추가적으로, 상기 방법은 상기 신경망 모델이 판별한 객체의 부분을 디스플레이 상의 굴곡성기관지내시경 이미지에 표시하여 시각화하는 단계를 더 포함할 수 있다.
이와 같은 굴곡성기관지내시경 이미지를 이용하여 해부학적 위치를 판별하는 장치 및 방법에 따르면, 본 발명은 기관용골, 좌측 주기관지 및 우측 주기관지를 판별하여 우수한 정확도로 해부학적 위치를 예측함으로써 검사자들을 직접 보조할 수 있고, 짧은 추론 시간을 통해 시간을 절약할 수 있다.
이상에서 설명한 실시예들에 따른 굴곡성기관지내시경 이미지를 이용하여 해부학적 위치를 판별하는 방법에 의한 동작은 적어도 부분적으로 컴퓨터 프로그램으로 구현되어, 컴퓨터로 읽을 수 있는 기록매체에 기록될 수 있다. 예를 들어, 프로그램 코드를 포함하는 컴퓨터-판독가능 매체로 구성되는 프로그램 제품과 함께 구현되고, 이는 기술된 임의의 또는 모든 단계, 동작, 또는 과정을 수행하기 위한 프로세서에 의해 실행될 수 있다.
본 발명의 다른 일 측면에 따른 굴곡성기관지내시경 이미지를 이용하여 해부학적 위치를 판별하는 방법은 프로세서를 포함한 컴퓨팅 장치에 의해 수행될 수 있다. 상기 컴퓨팅 장치는 데스크탑 컴퓨터, 랩탑 컴퓨터, 노트북, 스마트 폰, 이와 유사한 것과 같은 컴퓨팅 장치일 수도 있고 통합될 수도 있는 임의의 장치일 수 있다. 컴퓨터는 하나 이상의 대체적이고 특별한 목적의 프로세서, 메모리, 저장공간, 및 네트워킹 구성요소(무선 또는 유선 중 어느 하나)를 가지는 장치다. 상기 컴퓨터는 예를 들어, 마이크로소프트의 윈도우와 호환되는 운영 체제, 애플 OS X 또는 iOS, 리눅스 배포판(Linux distribution), 또는 구글의 안드로이드 OS와 같은 운영 체제(operating system)를 실행할 수 있다.
상기 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 신원확인 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장신원확인 장치 등을 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수도 있다. 또한, 본 실시예를 구현하기 위한 기능적인 프로그램, 코드 및 코드 세그먼트(segment)들은 본 실시예가 속하는 기술 분야의 통상의 기술자에 의해 용이하게 이해될 수 있을 것이다.
이상에서 살펴본 본 발명은 도면에 도시된 실시예들을 참고로 하여 설명하였으나 이는 예시적인 것에 불과하며 당해 분야에서 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 실시예의 변형이 가능하다는 점을 이해할 것이다. 그러나, 이와 같은 변형은 본 발명의 기술적 보호범위 내에 있다고 보아야 한다. 따라서, 본 발명의 진정한 기술적 보호범위는 첨부된 특허청구범위의 기술적 사상에 의해서 정해져야 할 것이다.
본 발명의 실시예들의 굴곡성기관지내시경 이미지를 이용하여 해부학적 위치를 판별하는 장치 및 방법은, 기관용골(carina), 좌측 주기관지(left main bronchus) 및 우측 주기관지(right main bronchus)를 우수한 정확도로 판별하여 해부학적 위치를 예측함으로써 검사자들의 임상적 의사 판단에 도움을 줄 수 있다.

Claims (13)

  1. 굴곡성기관지내시경 이미지를 이용하여 해부학적 위치를 판별하는 방법으로서,
    이미지획득 모듈에 의하여, 굴곡성기관지내시경 이미지를 획득하는 단계; 및
    신경망 모델에 의하여, 상기 굴곡성기관지내시경 이미지의 전체 프레임에서 대상 영역에 표현된 객체를 기관용골, 좌측 주기관지 및 우측 주기관지 중 하나로 판별하는 단계; 를 포함하는, 해부학적 위치를 판별하는 방법.
  2. 제1항에 있어서,
    상기 신경망 모델은 복수의 훈련 샘플로 이루어진 제1 세트을 이용하여 굴곡성기관지내시경 이미지들이 입력되면 기관용골(carina), 좌측 주기관지 및 우측 주기관지 중 하나로 판별하도록 학습된 것이고,
    상기 제1 세트의 복수의 훈련 샘플 각각은:
    훈련 이미지 및 레이블 데이터를 포함하고,
    각 훈련 이미지는 해당 훈련용 환자의 환자정보의 텍스트 및 굴곡성기관지내시경 이미지를 포함한 원시이미지에서 굴곡성기관지내시경 표시 영역의 적어도 일부 영역을 크로핑한 이미지이고,
    각 훈련 이미지에 대한 레이블 데이터는 해당 훈련 이미지가 포함하는, 기관용골, 좌측 주기관지 및 우측 주기관지 중 어느 하나의 객체의 해부학적 위치를 가리키는 것을 특징으로 하는, 해부학적 위치를 판별하는 방법.
  3. 제2항에 있어서,
    상기 레이블 데이터는 상기 원시이미지에서 상기 환자정보의 텍스트를 문자 인식 엔진(character recognition engine)에 의해 인식한 결과인 것을 특징으로 하는, 해부학적 위치를 판별하는 방법.
  4. 제2항에 있어서,
    상기 신경망 모델은 복수의 훈련 샘플로 이루어진 제2 세트를 이용하여 추가로 훈련되며,
    상기 제2 세트의 상기 훈련 이미지는 굴곡성기관지내시경 표시 영역을 적어도 일부 크로핑한 이미지를 랜덤하게 회전하고 랜덤 반경의 원으로 추가 크로핑한 것을 포함하는 것을 특징으로 하는, 해부학적 위치를 판별하는 방법.
  5. 제3항에 있어서,
    상기 레이블 데이터는
    상기 원시이미지에서 컬러를 그레이(grey) 톤으로 변환한 후, 이진 임계화(binary threshold)를 적용된 이미지로부터 인식된 것을 특징으로 하는, 해부학적 위치를 판별하는 방법.
  6. 제3항에 있어서,
    환자정보를 포함하는 텍스트로부터 기관용골, 좌측 주기관지 및 우측 주기관지 중 어느 하나에 대응하는 문자열을 추출하는 것이 실패할 경우, 상기 원시이미지에 표시된 텍스트를 확대하여 상기 대응하는 문자열을 추출하여 상기 레이블 데이터를 획득하는 것을 특징으로 하는, 해부학적 위치를 판별하는 방법.
  7. 제6항에 있어서,
    상기 원시이미지에 표시된 텍스트를 사이즈 대비 2배 내지 10배로 순차적으로 확대하여 대응하는 문자열을 추출하여 상기 레이블 데이터를 획득하는 것을 특징으로 하는, 해부학적 위치를 판별하는 방법.
  8. 제1항에 있어서,
    상기 신경망 모델은 굴곡성기관지내시경 이미지로부터 특징을 추출하고, 추출된 특징에 기초하여 기관용골, 좌측 주기관지 및 우측 주기관지 중 하나로 판별하고,
    상기 신경망 모델은:
    추출되는 특징이 이미지 내 기관지 연골 및 후방 근육을 기하학적으로 형상화된 제1 특징일 경우, 이미지의 객체를 기관용골로 판별하고,
    추출되는 특징이 이미지 내 2차 및 3차 기관지 사이의 접합부를 포함하는 깊이 구조를 기하학적으로 형상화한 제2 특징일 경우, 이미지의 객체를 좌측 주기관지 또는 우측 주기관지로 판별하는 것을 특징으로 하는, 해부학적 위치를 판별하는 방법.
  9. 제1항에 있어서,
    상기 신경망 모델이 판별한 객체의 부분을 디스플레이 상의 굴곡성기관지내시경 이미지에 표시하여 시각화하는 단계를 더 포함하는 것을 특징으로 하는, 해부학적 위치를 판별하는 방법.
  10. 제9항에 있어서,
    상기 시각화하는 단계는 Grad-CAM(Gradient-weighted CAM) 모델을 이용하는 것을 특징으로 하는, 해부학적 위치를 판별하는 방법.
  11. 제1항에 있어서,
    상기 신경망 모델은 CNN 모델인 것을 특징으로 하는, 해부학적 위치를 판별하는 방법.
  12. 굴곡성기관지내시경 이미지를 이용하여 해부학적 위치를 판별하는 장치로서,
    굴곡성기관지내시경 이미지를 획득하는 이미지획득 모듈; 및
    상기 굴곡성기관지내시경 이미지의 전체 프레임에서 대상 영역에 표현된 객체를 기관용골, 좌측 주기관지 및 우측 주기관지 중 하나로 판별하는 신경망 모델; 및
    상기 신경망 모델이 판별한 객체의 부분을 굴곡성기관지내시경 이미지에 표시하여 시각화하는 디스플레이; 를 포함하는 것을 특징으로 하는, 해부학적 위치 판별 장치.
  13. 제12항의 장치를 포함하는 굴곡성기관지내시경검사(fiberoptic bronchoscopy) 장치.
PCT/KR2022/004529 2021-03-31 2022-03-30 굴곡성기관지내시경 이미지를 이용하여 해부학적 위치를 판별하는 장치 및 방법 WO2022211501A1 (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR20210042330 2021-03-31
KR10-2021-0042330 2021-03-31
KR1020210134049A KR20220136046A (ko) 2021-03-31 2021-10-08 굴곡성기관지내시경 이미지를 이용하여 해부학적 위치를 판별하는 장치 및 방법
KR10-2021-0134049 2021-10-08

Publications (1)

Publication Number Publication Date
WO2022211501A1 true WO2022211501A1 (ko) 2022-10-06

Family

ID=83459688

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2022/004529 WO2022211501A1 (ko) 2021-03-31 2022-03-30 굴곡성기관지내시경 이미지를 이용하여 해부학적 위치를 판별하는 장치 및 방법

Country Status (1)

Country Link
WO (1) WO2022211501A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110282151A1 (en) * 2008-10-20 2011-11-17 Koninklijke Philips Electronics N.V. Image-based localization method and system
US20180296281A1 (en) * 2017-04-12 2018-10-18 Bio-Medical Engineering (HK) Limited Automated steering systems and methods for a robotic endoscope
KR20190105210A (ko) * 2018-02-22 2019-09-16 고려대학교 산학협력단 통합 의료 진단 서비스 제공 시스템 및 그 방법
KR102037303B1 (ko) * 2018-10-24 2019-10-28 아주대학교 산학협력단 캡슐 내시경의 위치를 추정하는 방법 및 장치
KR20200073245A (ko) * 2017-10-13 2020-06-23 아우리스 헬스, 인코포레이티드 항행(navigation)을 위한 이미지 기반 분지(branch) 감지 및 매핑

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110282151A1 (en) * 2008-10-20 2011-11-17 Koninklijke Philips Electronics N.V. Image-based localization method and system
US20180296281A1 (en) * 2017-04-12 2018-10-18 Bio-Medical Engineering (HK) Limited Automated steering systems and methods for a robotic endoscope
KR20200073245A (ko) * 2017-10-13 2020-06-23 아우리스 헬스, 인코포레이티드 항행(navigation)을 위한 이미지 기반 분지(branch) 감지 및 매핑
KR20190105210A (ko) * 2018-02-22 2019-09-16 고려대학교 산학협력단 통합 의료 진단 서비스 제공 시스템 및 그 방법
KR102037303B1 (ko) * 2018-10-24 2019-10-28 아주대학교 산학협력단 캡슐 내시경의 위치를 추정하는 방법 및 장치

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YOO JI YOUNG, KANG SE YOON, PARK JONG SUN, CHO YOUNG-JAE, PARK SUNG YONG, YOON HO IL, PARK SANG JUN, JEONG HAN-GIL, KIM TACKEUN: "Deep learning for anatomical interpretation of video bronchoscopy images", SCIENTIFIC REPORTS, vol. 11, no. 1, 1 December 2021 (2021-12-01), XP055974182, DOI: 10.1038/s41598-021-03219-6 *

Similar Documents

Publication Publication Date Title
WO2019164064A1 (ko) 정제된 인공지능 강화학습 데이터 생성을 통한 의료영상 판독 시스템 및 그 방법
WO2017022908A1 (ko) 심층신경망을 이용한 골 연령 산출방법 및 프로그램
CN111048170A (zh) 基于图像识别的消化内镜结构化诊断报告生成方法与系统
WO2017095014A1 (ko) Dnn 학습을 이용한 세포이상 여부 진단시스템 및 그 진단관리 방법
WO2019208848A1 (ko) 3차원 안구 움직임 측정 방법 및 전자동 딥러닝 기반 어지럼 진단 시스템
CN111026799A (zh) 胶囊内窥镜检查报告文本结构化方法、设备及介质
WO2021182889A2 (ko) 영상 기반의 안질환 진단 장치 및 방법
WO2005099573A1 (en) Cardiac diagnostic system and method
WO2020111754A9 (ko) 세미 슈퍼바이즈드 학습을 이용한 진단 시스템 제공방법 및 이를 이용하는 진단 시스템
WO2019235828A1 (ko) 투 페이스 질병 진단 시스템 및 그 방법
WO2022145519A1 (ko) 딥러닝을 이용한 심전도 시각화 방법 및 장치
WO2019098415A1 (ko) 자궁경부암에 대한 피검체의 발병 여부를 판정하는 방법 및 이를 이용한 장치
WO2020032562A2 (ko) 생체 이미지 진단 시스템, 생체 이미지 진단 방법, 및 이를 수행하기 위한 단말
WO2020032559A2 (ko) 뉴럴 네트워크를 이용한 질병의 진단 시스템 및 방법
CN110556173A (zh) 一种检查报告单智能分类管理系统及方法
Ghosh et al. Automatic bleeding detection in wireless capsule endoscopy based on RGB pixel intensity ratio
WO2022211501A1 (ko) 굴곡성기관지내시경 이미지를 이용하여 해부학적 위치를 판별하는 장치 및 방법
JP2019522274A (ja) 共参照解析、情報抽出および類似文書検索のための装置および方法
EP3467770B1 (en) Method for analysing a medical imaging data set, system for analysing a medical imaging data set, computer program product and a computer-readable medium
WO2023058946A1 (ko) 시계열 기침음, 호흡음, 낭독음, 발성음 측정을 통한 호흡기 질환 예후 예측시스템 및 방법
CN109859813B (zh) 一种实体修饰词识别方法及装置
WO2017010612A1 (ko) 의료 영상 분석 기반의 병리 진단 예측 시스템 및 방법
WO2019164277A1 (ko) 수술영상을 이용한 출혈 평가 방법 및 장치
WO2019235827A1 (ko) 듀얼 클래스를 지원하는 질병 진단 시스템 및 그 방법
WO2022158843A1 (ko) 조직 검체 이미지 정제 방법, 및 이를 수행하는 컴퓨팅 시스템

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22781620

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 22781620

Country of ref document: EP

Kind code of ref document: A1