WO2021112520A1 - 내시경 영상에 대한 깊이 추정 방법 및 장치 - Google Patents

내시경 영상에 대한 깊이 추정 방법 및 장치 Download PDF

Info

Publication number
WO2021112520A1
WO2021112520A1 PCT/KR2020/017346 KR2020017346W WO2021112520A1 WO 2021112520 A1 WO2021112520 A1 WO 2021112520A1 KR 2020017346 W KR2020017346 W KR 2020017346W WO 2021112520 A1 WO2021112520 A1 WO 2021112520A1
Authority
WO
WIPO (PCT)
Prior art keywords
dam
disparity map
image
monocular image
map
Prior art date
Application number
PCT/KR2020/017346
Other languages
English (en)
French (fr)
Inventor
박민규
윤주홍
Original Assignee
한국전자기술연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자기술연구원 filed Critical 한국전자기술연구원
Publication of WO2021112520A1 publication Critical patent/WO2021112520A1/ko

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B1/00Instruments for performing medical examinations of the interior of cavities or tubes of the body by visual or photographical inspection, e.g. endoscopes; Illuminating arrangements therefor
    • A61B1/00002Operational features of endoscopes
    • A61B1/00004Operational features of endoscopes characterised by electronic signal processing
    • A61B1/00009Operational features of endoscopes characterised by electronic signal processing of image signals during a use of endoscope
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B1/00Instruments for performing medical examinations of the interior of cavities or tubes of the body by visual or photographical inspection, e.g. endoscopes; Illuminating arrangements therefor
    • A61B1/00002Operational features of endoscopes
    • A61B1/00004Operational features of endoscopes characterised by electronic signal processing
    • A61B1/00009Operational features of endoscopes characterised by electronic signal processing of image signals during a use of endoscope
    • A61B1/000096Operational features of endoscopes characterised by electronic signal processing of image signals during a use of endoscope using artificial intelligence
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B1/00Instruments for performing medical examinations of the interior of cavities or tubes of the body by visual or photographical inspection, e.g. endoscopes; Illuminating arrangements therefor
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B1/00Instruments for performing medical examinations of the interior of cavities or tubes of the body by visual or photographical inspection, e.g. endoscopes; Illuminating arrangements therefor
    • A61B1/00002Operational features of endoscopes
    • A61B1/00011Operational features of endoscopes characterised by signal transmission
    • A61B1/00016Operational features of endoscopes characterised by signal transmission using wireless means
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B1/00Instruments for performing medical examinations of the interior of cavities or tubes of the body by visual or photographical inspection, e.g. endoscopes; Illuminating arrangements therefor
    • A61B1/00064Constructional details of the endoscope body
    • A61B1/00108Constructional details of the endoscope body characterised by self-sufficient functionality for stand-alone use
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B1/00Instruments for performing medical examinations of the interior of cavities or tubes of the body by visual or photographical inspection, e.g. endoscopes; Illuminating arrangements therefor
    • A61B1/04Instruments for performing medical examinations of the interior of cavities or tubes of the body by visual or photographical inspection, e.g. endoscopes; Illuminating arrangements therefor combined with photographic or television appliances
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B1/00Instruments for performing medical examinations of the interior of cavities or tubes of the body by visual or photographical inspection, e.g. endoscopes; Illuminating arrangements therefor
    • A61B1/04Instruments for performing medical examinations of the interior of cavities or tubes of the body by visual or photographical inspection, e.g. endoscopes; Illuminating arrangements therefor combined with photographic or television appliances
    • A61B1/041Capsule endoscopes for imaging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images
    • G16H30/40ICT specially adapted for the handling or processing of medical images for processing medical images, e.g. editing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Definitions

  • the present invention relates to image processing technology using an artificial intelligence model, and more particularly, to estimate depth with an artificial intelligence model using monocular images acquired in the digestive organs (duodenum, stomach, small intestine, and large intestine) through a capsule endoscope. it's about how to
  • WCE Wireless capsule endoscopy
  • unsupervised learning methods for predicting depth maps and ego-motion showed the possibility of training convolutional neural networks (CNNs) by simply acquiring monocular images acquired in various environments.
  • CNNs convolutional neural networks
  • the core idea of this approach is to use the warped image and the image reconstruction error defined by future frames rather than comparing the predicted disparity map with the corresponding ground truth data.
  • the wireless endoscope capsule is a resource-limited device, and the battery of the capsule must acquire and transmit 100,000 images for more than 8 hours, and the LED attached to the capsule is the only light source for acquiring images.
  • FIGS. 1 (c) and (d) are the disparity maps calculated by the conventional method.
  • the conventional stereo matching algorithm often fails to estimate an accurate disparity map from an endoscopic image including severe noise and blur.
  • the present invention has been devised to solve the above problems, and an object of the present invention is to accurately know the shape and size of a disease through actual measurement, and depth information on an image obtained from a capsule endoscope To provide a method and apparatus for estimating .
  • a depth estimation method includes: generating a monocular image; and predicting a DAM-based disparity map by using a deep learning network that receives the generated monocular image and estimates a DAM (Direct Attenuation Model)-based disparity map. It is a model for estimating a disparity map from a monocular image based on the tendency of the light of the used illumination to be attenuated.
  • DAM Direct Attenuation Model
  • a monocular image of the inside of the object filled with a homogeneous material may be generated.
  • the DAM-based disparity map is a map obtained by normalizing the following DAM-based disparity map,
  • d(p) is the disparity in pixel p
  • f and B are focal lengths and reference lines between cameras, respectively
  • J is a value obtained by approximating the SR (Scene Radiance) of pixel p
  • I(p) is pixel P may be the image intensity of
  • the normalized DAM-based disparity map is determined according to the following equation,
  • is defined according to the following formula,
  • I width may be the width of the input image.
  • the deep learning network may map the predicted DAM-based disparity map to the output of the decoder layer.
  • Deep learning networks can be trained with binocular images.
  • the deep learning network may reflect the loss in the DAM-based disparity map.
  • the loss is a loss that enhances the reconstructed image to be similar to the training input image, a loss to guide the disparity smoothness locally smoothing, and a right-view disparity with the left-view disparity projected. and at least one of a loss for strengthening to match.
  • an imaging system a camera for generating a monocular image; and a computing system for predicting a DAM-based disparity map by using a deep learning network that receives the generated monocular image and estimates the DAM-based disparity map. It is a model for estimating a disparity map from a monocular image based on the tendency of light to be attenuated.
  • a depth estimation method includes: predicting a DAM-based disparity map using a deep learning network that receives a monocular image and estimates a DAM-based disparity map; and outputting the predicted disparity map, wherein the DAM is a model for estimating the disparity map from the monocular image based on the tendency of the light of the illumination used to generate the monocular image to be attenuated.
  • an imaging system a receiver for receiving a monocular image; and a computing system that predicts the DAM-based disparity map and outputs the predicted disparity map by using a deep learning network that receives the received monocular image and estimates the DAM-based disparity map. It is a model for estimating a disparity map from a monocular image based on the tendency of the light of the illumination used to generate the image to be attenuated.
  • a depth map for images taken from various digestive organs or organs as well as the small intestine and large intestine can be estimated using the monocular image obtained from the capsule endoscope, and using this Therefore, it can be used for detecting or measuring the size of the disease, enabling accurate diagnosis and treatment.
  • 1 is a view showing the problem of the disparity map of the endoscopic image calculated by the existing stereo matching algorithm
  • FIG. 2 is a photograph of a wireless endoscope capsule device to which an embodiment of the present invention is applicable;
  • FIG. 3 is a diagram showing the structure of a deep learning network used in a depth map estimation method according to an embodiment of the present invention
  • Deep-LR is the backbone of a network according to an embodiment of the present invention
  • FIG. 9 is a block diagram of an endoscopy system according to another embodiment of the present invention.
  • a method for estimating depth using an artificial intelligence model using a monocular image acquired in the digestive organs (duodenum, stomach, small intestine, and large intestine) through a capsule endoscope is presented.
  • 3D structure information is estimated using the tendency of the light of the light mounted on the endoscope to be attenuated, and the It relates to a method of estimating a sophisticated depth map by using it for running.
  • FIG. 2 is a photograph taken of a wireless endoscope capsule device to which an embodiment of the present invention is applicable.
  • the left side of FIG. 2 is a stereo-type wireless endoscope capsule, and the right side is a wireless receiver.
  • the wireless endoscope capsule includes two cameras, four LED lights, a wireless transmitter and a battery.
  • Four LEDs are attached around the camera, and the LED lights are synchronized with the camera to minimize battery usage.
  • the wireless endoscope capsule device generates an image of the inside of the digestive tract while moving the entire gastrointestinal tract from the stomach to the large intestine.
  • the generated image may be both a binocular image and a monocular image.
  • a monocular image is used when estimating a depth map, and a binocular image is used for network training.
  • the generated image is directly transmitted to the wireless receiver.
  • 3 is a diagram provided to explain a deep learning network used for depth map estimation according to an embodiment of the present invention.
  • the deep learning network shown is a network designed for depth map prediction, which uses a monocular image as an input to predict a disparity map, but requires a binocular image for training.
  • the disparity map predicted by the deep learning network is a DAM (Direct Attenuation Model)-based disparity map, which will be described later.
  • the deep learning network is a self-supervised deep neural network, and instead of calculating the DAM disparity map from scratch, the DAM disparity map is mapped to the output of the decoder layer to find the displacement of the DAM disparity value.
  • the deep learning network predicts the DAM disparity map and maps the DAM disparity map to the output of the decoder layer including the final decoder layer.
  • the DAM disparity map is down-sampled to the same size as the output of the decoder layer, added to the output of each decoder layer, and then up-sampled and connected to the next decoder layer.
  • the image intensity I(p) at pixel P was calculated using SR (Scene Radiance) J, TM (Transmission Map) t and GALV (Global Atmospheric Light Vector) A as follows can be modeled.
  • TM t(p) can be defined as follows using the depth D(p) by Bouguer's exponential decay law.
  • the attenuation coefficient ⁇ (p) of light may be expressed as a sum of an absorption coefficient of light and a scattering coefficient of light.
  • ⁇ (p) ⁇ absorption (p)+ ⁇ scatter (p)
  • the depth map D(p) can be formulated based on DAM.
  • Map D(p) means the depth value at pixel p.
  • Equation (3) can be approximated as follows in consideration of the non-traditional environmental characteristics.
  • the medium ie, water in the gastrointestinal tract
  • GALV A is approximated to zero.
  • the attenuation coefficient ⁇ (p) is set as a constant value ⁇ .
  • J > I(p) not only indicates that D(p) is a positive value, but also mitigates the error caused by the approximation of SR.
  • J and ⁇ by solving the following equations.
  • Dmin and Dmax are predefined minimum and maximum distance values. That is, D(p) ⁇ [Dmin, Dmax], and Imin and Imax are J values corresponding to the pixels of Dmin and Dmax.
  • equation (4) can be transformed as follows .
  • the range of the normalized disparity value is 0 to ⁇ .
  • the ⁇ value is defined as the following equation (8).
  • I width is the width of the input image.
  • This normalization of the disparity map makes it possible to predict the disparity map at any resolution as long as the deep learning network multiplies the image width by the output. Since it is common to adjust the size of an input image according to an application and available resources, this technique is applied in the embodiment of the present invention. Below, is referred to as a DAM disparity map.
  • the deep learning network may reflect the loss function in the DAM disparity map during training. Since the total loss is defined as the sum of the losses calculated for each scale, same as Here, the losses at each scale, Cs, are calculated as follows.
  • Loss is composed of AML (Appearance Matching Loss) C ap , DSL (Disparity Smoothness Loss) C ds DCL and LR (Left-Right Disparity Consistency Loss) C lr.
  • AML Appearance Matching Loss
  • DSL Disarity Smoothness Loss
  • DCL Disparity Consistency Loss
  • LR Left-Right Disparity Consistency Loss
  • AML (Appearance Matching Loss) Cap is designed to make the reconstructed image similar to the corresponding training input image. For example, loss are 'left input image I 1 ' and 'right image and predicted left image restored with predicted disparity. Calculate the intensity and structural differences between '.
  • Predicted disparity map and DAM disparity map It reflects the terms to strengthen the structural similarity between the two.
  • structural similarity (SSIM) between disparity maps is compared as follows.
  • N is the number of pixels
  • DSL (Disparity Smoothness Loss) C ds is for locally smoothing disparity smoothness. To guide the disparity map as follows. It is reflected in terms of the disparity smoothness loss.
  • the penalty reinforces small changes in the disparity value in the x and y directions.
  • the first two terms are edge recognition weights for maintaining depth discontinuity.
  • the other two terms are to restrict the gradient of the predicted image to be similar to the gradient of the DAM-based disparity map.
  • C lr is the predicted left-view (left-view) right of the disparity and the projection-and enhanced to match the view (right-view) disparity, of Likewise versa to be.
  • the accuracy of the disparity map by the method according to an embodiment of the present invention was compared with widely used stereo matching algorithms, SGM and PatchMatch and Deep-LR. In addition, analysis was performed with various settings depending on whether DAM mapping and DAM loss function were reflected.
  • the method and Deep-LR according to an embodiment of the present invention use a monocular image as an input, but SGM and PatchMatch use a binocular image as an input.
  • SGM and PatchMatch tend to show better performance in all depth evaluation indicators compared to Deep-LR (in Fig. 4, v and x are DAM disparity mapping or DAM loss reflection network training). indicates whether it is used for ). This is because the stereo algorithm uses binocular images as input and Deep-LR itself is not suitable for endoscopic images. Since the acquired endoscopic image often contains uniform and noisy regions, the minimization of image reconstruction error does not guarantee an accurate disparity map.
  • the method according to an embodiment of the present invention further improves the performance of Deep-LR.
  • the biggest improvement is that the DAM disparity map is sufficient to use as the initial disparity map due to the DAM disparity mapping. Therefore, the network should train the residuals of the disparity map rather than training from scratch.
  • FIG. 5 shows the error tendency according to the distance from the camera or the capsule using the cardiac image data set.
  • Deep-LR is the backbone of the network according to an embodiment of the present invention (in FIG. 6, v and x indicate whether DAM disparity mapping or DAM loss is used for network training). Similar to FIG. 4 , the absence of each module reduces the accuracy of the image reconstructed from the predicted disparity.
  • the method reflecting the DAM mapping and the loss shows the best results among the compared methods in terms of PSNR and SSIM. Since the structure quality is more affected by the predicted disparity accuracy, it can be inferred that the proposed terms effectively improve the disparity accuracy.
  • DAM mapping improves performance when compared to the DAM loss function. This means that mapping the DAM disparity map is more effective than calculating the disparity map from scratch.
  • the DAM loss function indirectly guides the network to predict the disparity more accurately. This is because the DAM loss term induces the predicted disparity map structure to be similar to the DAM disparity map structure.
  • the stereo matching algorithm predicts the disparity map well, and in particular, the PatchMatch stereo effectively recovers the slope.
  • the stereo matching algorithm is poor in specular reflection, insufficient texture and dark region due to the basic assumption of conventional stereo matching.
  • deep-LR also outperforms stereo matching algorithms. This is because the network is not well trained for endoscopic imaging.
  • the method according to an embodiment of the present invention considers Deep-LR as a backbone network, so that DAM disparity mapping and DAM loss effectively improve depth map prediction performance. This means that the DAM mapping provides a sufficiently good initial disparity map, and the DAM loss recovers the detailed geometric structure of the predicted disparity map.
  • FIG. 8 A qualitative comparison of the right image reconstruction is shown in FIG. 8 . These images are blurry, noisy, and have lower resolution, making them more difficult to process than cardiac image data sets. The results show that the method according to an embodiment of the present invention produces photorealistic correct images, especially at depth discontinuities, whereas Deep-LR shows unexpected artifacts that are often indicated by yellow circles.
  • FIG. 9 is a block diagram of an endoscopy system according to another embodiment of the present invention.
  • the endoscopic examination system according to an embodiment of the present invention is constructed including a wireless endoscope capsule 110 , a wireless receiver 120 and a computing system 130 .
  • the wireless endoscope capsule 110 includes two cameras, four LED lights, a wireless transmitter, and a battery, and can generate a binocular image and a monocular image while moving the entire gastrointestinal tract from the stomach to the large intestine.
  • the wireless receiver 120 receives the image generated by the wireless endoscope capsule 110 .
  • the computing system 130 trains the deep learning network shown in FIG. 3 and estimates the depth map using the learned deep learning network.
  • a self-guided approach for predicting a depth map from a single endoscopic image is presented in consideration of the environmental characteristics of the interior of the gastrointestinal tract. Assuming no ambient light, a direct attenuation model was adopted and used as the initial disparity map. By mapping this disparity map to the output of each decoder layer, the network learns the displacement of the layer, so that the network can learn the predicted displacement of the disparity map similarly to the DAM disparity map to recover the fine structure.
  • the technical idea of the present invention can also be applied to a computer-readable recording medium containing a computer program for performing the functions of the apparatus and method according to the present embodiment.
  • the technical ideas according to various embodiments of the present invention may be implemented in the form of computer-readable codes recorded on a computer-readable recording medium.
  • the computer-readable recording medium may be any data storage device readable by the computer and capable of storing data.
  • the computer-readable recording medium may be a ROM, RAM, CD-ROM, magnetic tape, floppy disk, optical disk, hard disk drive, or the like.
  • the computer-readable code or program stored in the computer-readable recording medium may be transmitted through a network connected between computers.

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Surgery (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • Physics & Mathematics (AREA)
  • Public Health (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Pathology (AREA)
  • Radiology & Medical Imaging (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Animal Behavior & Ethology (AREA)
  • Veterinary Medicine (AREA)
  • Optics & Photonics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Image Analysis (AREA)
  • Endoscopes (AREA)
  • Image Processing (AREA)

Abstract

내시경 영상에 대한 깊이 추정 방법 및 장치가 제공된다. 본 발명의 실시예에 따른 깊이 추정 방법은, 단안 영상을 생성하고, 생성된 단안 영상을 입력받아 DAM(Direct Attenuation Model) 기반 디스패리티 맵을 추정하는 딥러닝 네트워크를 이용하여 DAM 기반 디스패리티 맵을 예측하며, DAM은 단안 영상을 생성하는데 이용되는 조명의 빛이 감쇄되는 경향성을 기초로 단안 영상으로부터 디스패리티 맵을 추정하는 모델이다.

Description

내시경 영상에 대한 깊이 추정 방법 및 장치
본 발명은 인공지능 모델을 활용한 영상 처리 기술에 관한 것으로, 더욱 상세하게는 캡슐 내시경을 통해 소화기관(십이지장, 위, 소장, 대장) 안에서 획득한 단안 영상을 이용하여 인공지능 모델로 깊이를 추정하는 방법에 관한 것이다.
무선 캡슐 내시경(Wireless Capsule Endoscopy : WCE)으로 위장관[GI(GastroIntestinal) tract], 특히, 유선 내시경에 도달 할 수 없는 소장을 탐색하는 기술이 등장하였다. 이후 정확한 진단을 위해 전 세계 병원에서 다양한 캡슐들이 개발되었다.
최근 딥 러닝 및 의료 이미징 기술의 발전을 고려할 때, WCE 기술의 다음 단계는 의사의 임상 경험에 오랫동안 의존해 온 스크리닝 및 진단의 완전한 자동화이다. 이를 달성하기 위해, 위장관 및 병변의 3D 형상, 예를 들어 폴립 및 종양의 검사 및 이해가 필수적이다.
내시경 수술을 위해, 많은 연구자들은 스테레오 매칭(Stereo Matching), SfS(Shape-FromShading), SfF(Shape-from-Focus) 및 SfM(Shape-from-Motion)과 같은 컴퓨터 비전 기술을 채택하기 위해 고심하고 있다. 그리고 이 기술은 딥 러닝이 부상 한 후 새로운 단계로 발전하고 있다.
특히 깊이 맵 및 ego-motion을 예측하기 위한 비지도 학습 방식은 단순히 다양한 환경에서 획득된 단안 영상을 획득함으로써 CNN(convolutional neural networks)을 훈련시킬 가능성을 보여 주었다. 이 접근법의 핵심 아이디어는 예측된 디스패리티 맵과 해당 ground truth 데이터를 비교하기 보다는 워핑된 영상과 미래 프레임으로 정의되는 영상 복원 오류를 사용하는 것이다.
그 후, 깊이 맵과 카메라 포즈를 더 잘 예측하기 위한 많은 연구가 이어졌다. 정적 환경에서 카메라가 x축을 따라 병진 운동하는 경우 한 쌍의 양안 영상은 단안 영상의 연속한 한 쌍으로 간주될 수 있기 때문에, 이 방법은 양안 영상에도 적용할 수 있다. 이는 임의의 단안 영상 쌍보다 쉬운 경우이므로, 스테레오 기반 비지도 방식은 단안 영상의 경우 보다 성능이 더 우수하다.
그러나 무선 내시경 캡슐은 자원이 제한된 장치로 캡슐의 배터리는 8시간 이상 동안 10 만장의 영상을 획득하여 전송해야 하며, 캡슐에 부착된 LED는 영상을 획득함에 있어 유일한 광원이다.
결과적으로, 영상은 일반적으로 희미한 조명 조건에서 획득되며 영상의 해상도는 작다(이를 테면, 320x320). 이러한 이유로, 기존의 스테레오 매칭 방법을 내시경 영상에 직접 적용한다고 해서 만족스러운 결과를 보장할 수 없다.
도 1의 (a)와 (b)는 획득한 좌측 영상과 우측 영상이고, 도 1의 (c)와 (d)는 기존 방법으로 계산된 디스패리티 맵이다. 도시된 바와 같이, 기존의 스테레오 매칭 알고리즘은 심한 노이즈와 blur가 포함된 내시경 영상에서 정확한 디스패리티 맵을 추정하지 못하는 경우가 많다.
본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은, 병증의 형태와 크기를 실제 측정을 통해 정확하게 알 수 있도록 하기 위한 방안으로, 캡슐 내시경에서 획득한 영상에 대한 깊이 정보를 추정하기 위한 방법 및 장치를 제공함에 있다.
상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른, 깊이 추정 방법은, 단안 영상을 생성하는 단계; 및 생성된 단안 영상을 입력받아 DAM(Direct Attenuation Model) 기반 디스패리티 맵을 추정하는 딥러닝 네트워크를 이용하여, DAM 기반 디스패리티 맵을 예측하는 단계;를 포함하고, DAM은, 단안 영상을 생성하는데 이용되는 조명의 빛이 감쇄되는 경향성을 기초로 단안 영상으로부터 디스패리티 맵을 추정하는 모델이다.
생성 단계는, 외부 광이 없는 환경에서, 균질한 물질로 채워진 대상 내부의 단안 영상을 생성할 수 있다.
DAM 기반 디스패리티 맵은, 아래의 DAM 기반 디스패리티 맵을 정규화한 맵이고,
Figure PCTKR2020017346-appb-I000001
여기서, d(p)는 픽셀 p에서의 디스패리티, f와 B는 각각 카메라들 간의 초점 거리와 기준선, J는 픽셀 p의 SR(Scene Radiance)을 근사화한 값이고, I(p)는 픽셀 P의 영상 강도일 수 있다.
정규화된 DAM 기반 디스패리티 맵은, 다음의 식에 따라 결정되고,
Figure PCTKR2020017346-appb-I000002
여기서,
Figure PCTKR2020017346-appb-I000003
는 정규화된 DAM 기반 디스패리티 맵이고, dmin=fB/Dmin이고 dmax=fB/Dmax이며, γ는 상수일 수 있다.
γ는 다음의 식에 따라 정의되며,
Figure PCTKR2020017346-appb-I000004
여기서, Iwidth는 입력 영상의 너비일 수 있다.
딥러닝 네트워크는, 예측한 DAM 기반의 디스패리티 맵을 디코더 계층의 출력에 매핑할 수 있다.
딥러닝 네트워크는, 양안 영상으로 훈련될 수 있다.
딥러닝 네트워크는, DAM 기반의 디스패리티 맵에 손실을 반영할 수 있다.
손실은, 복원된 영상을 훈련 입력 영상과 유사하게 만들도록 강화하는 손실, 디스패리티 평활성(Disparity Smoothness)을 국부적으로 평활하게 하게 가이드하기 위한 손실 및 좌측-뷰 디스패리티가 투사된 우측-뷰 디스패리티와 일치하도록 강화하기 위한 손실 중 적어도 하나를 포함할 수 있다.
한편, 본 발명의 다른 실시예에 따른, 영상 시스템은, 단안 영상을 생성하는 카메라; 및 생성된 단안 영상을 입력받아 DAM 기반 디스패리티 맵을 추정하는 딥러닝 네트워크를 이용하여, DAM 기반 디스패리티 맵을 예측하는 컴퓨팅 시스템;를 포함하고, DAM은, 단안 영상을 생성하는데 이용되는 조명의 빛이 감쇄되는 경향성을 기초로 단안 영상으로부터 디스패리티 맵을 추정하는 모델이다.
한편, 본 발명의 다른 실시예에 따른, 깊이 추정 방법은, 단안 영상을 입력받아 DAM 기반 디스패리티 맵을 추정하는 딥러닝 네트워크를 이용하여, DAM 기반 디스패리티 맵을 예측하는 단계; 및 예측된 디스패리티 맵을 출력하는 단계;를 포함하고, DAM은, 단안 영상을 생성하는데 이용되는 조명의 빛이 감쇄되는 경향성을 기초로 단안 영상으로부터 디스패리티 맵을 추정하는 모델이다.
한편, 본 발명의 다른 실시예에 따른, 영상 시스템은, 단안 영상을 수신하는 수신기; 및 수신된 단안 영상을 입력받아 DAM 기반 디스패리티 맵을 추정하는 딥러닝 네트워크를 이용하여, DAM 기반 디스패리티 맵을 예측하고 예측된 디스패리티 맵을 출력하는 컴퓨팅 시스템;을 포함하고, DAM은, 단안 영상을 생성하는데 이용되는 조명의 빛이 감쇄되는 경향성을 기초로 단안 영상으로부터 디스패리티 맵을 추정하는 모델이다.
이상 설명한 바와 같이, 본 발명의 실시예들에 따르면, 캡슐 내시경에서 획득한 단안 영상을 이용하여 소장, 대장 뿐만 아니라 다양한 소화기관 혹은 장기에서 촬영된 영상에 대한 깊이 맵을 추정할 수 있으며, 이를 이용하여 병증의 검출이나 크기 측정 등에 사용할 수 있어, 정확한 진단 및 치료를 가능하게 한다.
도 1은 기존의 스테레오 매칭 알고리즘으로 계산된 내시경 영상의 디스패리티 맵의 문제점을 보여주는 도면,
도 2는 본 발명의 실시예가 적용가능한 무선 내시경 캡슐 장치를 촬영한 사진,
도 3은 본 발명의 일 실시예에 따른 깊이 맵 추정 방법에 이용되는 딥러닝 네트워크의 구조를 나타낸 도면,
도 4는 널리 사용되는 스테레오 매칭 알고리즘, SGM 및 PatchMatch 스테레오 및 Deep-LR을 사용한 깊이 정확도의 정량적 비교
도 5는 카메라와의 거리에 따른 거리 오차,
도 6은 본 발명의 실시예에 따른 네트워크의 백본인 Deep-LR과의 비교 요약,
도 7은 디스패리티 맵과 심장 영상 데이터 세트의 정성적 비교,
도 8은 우측 영상 복원에 대한 정성적 비교,
도 9는 본 발명의 다른 실시예에 따른 내시경 검사 시스템의 블럭도이다.
이하에서는 도면을 참조하여 본 발명을 보다 상세하게 설명한다.
본 발명의 실시예에서는, 캡슐 내시경을 통해 소화기관(십이지장, 위, 소장, 대장) 안에서 획득한 단안 영상을 이용하여 인공지능 모델로 깊이를 추정하는 방법을 제시한다.
구체적으로, 본 발명의 실시예에서는, 내시경에 장착된 조명 외에 다른 외부 광원이 없다는 점을 고려하여, 내시경에 장착된 조명의 빛이 감쇠되는 경향성을 이용하여 3차원 구조 정보를 추정하고, 이를 딥 러닝에 이용하여 정교한 깊이 맵을 추정하는 방법에 관한 것이다.
1. 무선 내시경 캡슐 장치
도 2는 본 발명의 실시예가 적용가능한 무선 내시경 캡슐 장치를 촬영한 사진이다. 도 2의 좌측은 스테레오 타입의 무선 내시경 캡슐이고, 우측은 무선 수신기이다.
도 2에 도시된 바와 같이, 무선 내시경 캡슐은, 2대의 카메라, 4개의 LED 조명, 무선 송신기 및 배터리를 포함한다. 4개의 LED가 카메라 주변에 부착되어 있고, LED 조명은 카메라와 동기화되어 배터리 사용을 최소화한다.
무선 내시경 캡슐 장치는, 위장으로부터 대장에 이르는 전체 위장관을 이동하면서, 소화기관 내부의 영상을 생성한다. 생성하는 영상은 양안 영상과 단안 영상 모두 가능하다. 본 발명의 실시예에서는 깊이 맵 추정시 단안 영상을 이용하고, 양안 영상은 네트워크 훈련에 이용한다.
무선 내시경 캡슐에는 내부 저장 장치가 없으므로, 생성된 영상은 무선 수신기로 바로 전송된다.
2. 깊이 맵 추정을 위한 딥러닝 네트워크
도 3은 본 발명의 일 실시예에 따른 깊이 맵 추정에 이용되는 딥러닝 네트워크에 대한 설명에 제공되는 도면이다.
도시된 딥러닝 네트워크는 깊이 맵 예측을 위해 설계된 네트워크로, 디스패리티 맵을 예측하기 위해 단안 영상을 입력으로 사용하지만, 훈련에는 양안 영상이 필요하다. 딥러닝 네트워크에 의해 예측되는 디스패리티 맵은 후술할 DAM(Direct Attenuation Model : 직접 감쇠 모델) 기반의 디스패리티 맵이다.
딥러닝 네트워크는 자기 지도 심층 신경망(self-supervised deep neural network)으로, 처음부터 DAM 디스패리티 맵을 계산하는 대신 DAM 디스패리티 맵을 디코더 레이어의 출력에 매핑하여 DAM 디스패리티 값의 변위를 찾는다.
이를 위해, 딥러닝 네트워크는 DAM 디스패리티 맵을 예측하여 DAM 디스패리티 맵을 최종 디코더 계층을 포함하는 디코더 계층의 출력에 매핑한다. 이 과정에서, DAM 디스패리티 맵은 디코더 계층의 출력과 동일한 크기로 다운 샘플링되어 각 디코더 계층의 출력에 추가되며, 업-샘플링되어 다음 디코더 계층에 연결된다.
3. DAM(Direct Attenuation Model : 직접 감쇠 모델)
무선 내시경 캡슐에 의해 획득한 단안 영상에서, 픽셀 P에서의 영상 강도 I(p)는 SR(Scene Radiance) J, TM(Transmission Map) t 및 GALV(Global Atmospheric Light Vector) A를 이용하여 다음과 같이 모델링 될 수 있다.
I(p) = J(p)t(p)+A(1-t(p)) (1)
한편, TM t(p)는 Bouguer의 지수 감쇠 법칙에 의해 깊이 D(p)를 이용하여 다음과 같이 정의될 수 있다.
t(p) = exp(-β(p)D(p)) (2)
여기서, 빛의 감쇠 계수(attenuation coefficient) β(p)는 빛의 흡수 계수(absorption coefficient)와 빛의 산란 계수(scattering coefficient)의 합으로 나타낼 수 있다.
β(p) = βabsorption(p)+βscatter(p)
4. DAM 기반 깊이 맵 예측
식 (1)과 (2)를 기초로, 깊이 맵 D(p)는 DAM을 기반으로 공식화할 수 있다. 맵 D(p)는 픽셀 p에서의 깊이 값을 의미한다.
Figure PCTKR2020017346-appb-I000005
(3)
일반적인 환경과 달리 내시경 검사에서는 제한된 환경이므로, 비전통적인 환경 특성을 고려하여 식 (3)을 다음과 같이 근사할 수 있다. 첫째, 위장관에 강한 자연 조명원이 없고, 매체(즉, 위장관의 물)가 거의 투명하기 때문에, GALV A를 0으로 근사화한다. 또한 위장관 내부에서 균일한 매체와 균일한 산란을 가정(즉, 매질이 균일하여 빛이 동일하게 산란됨을 가정)하여, 감쇠 계수 β(p)를 상수 값 β로 설정한다. 마지막으로, 위장관의 국소 영역은 유사한 색상(즉, 내시경 영상에서는 모든 픽셀이 거의 동일한 색상을 갖음)을 가지므로, J를 상수로 단순화한다. 이 가정들을 바탕으로, 식 (3)을 다음과 같이 단순화할 수 있다.
Figure PCTKR2020017346-appb-I000006
(4)
여기서 J > I(p)는 D(p)가 양수 값임을 나타낼 뿐만 아니라, SR의의 근사에 의해 유발된 에러를 완화시킨다. 다음 식을 풀면 J와 β를 구할 수 있다.
βDmin = ln J - ln Imax
βDmax = ln J - ln Imin (5)
여기서 Dmin 및 Dmax는 사전에 정의된 최소 거리값과 최대 거리값이다. 즉, D(p) ∈ [Dmin, Dmax]이고, Imin과 Imax는 Dmin과 Dmax의 픽셀에 해당하는 J 값이다. 계산된 J와 β를 식 (6)에 대입하면, 실제 깊이 맵과 거의 일치하는 깊이 맵을 예측할 수 있다.
한편, 스테레오 매칭에서는, 추정할 깊이 범위를 설정하는 것이 일반적이며, 감쇠 경향이 위장관에서 유사하다고 가정하면 Imin과 Imax는 실험적으로 설정될 수 있다.
5. DAM을 활용한 디스패리티 매핑
딥러닝 네트워크가 깊이 맵 D(p)이 아닌 디스패리티 맵 d(p)을 예측하므로, d(p)=fB/D(p) 관계식을 기초로 식 (4)를 다음과 같이 변환할 수 있다.
Figure PCTKR2020017346-appb-I000007
(6)
여기서, f와 B는 각각 카메라들 간의 초점 거리와 기준선을 나타낸다. 마지막으로, 다음의 식 (7)에 따라 정규화된 DAM 디스패리티 맵
Figure PCTKR2020017346-appb-I000008
을 구할 수 있다.
Figure PCTKR2020017346-appb-I000009
(7)
여기서, 정규화된 디스패리티 값의 범위는 0에서 γ이다. dmin=fB/Dmin이고 dmax=fB/Dmax이다. γ 값은 다음의 식 (8)과 같이 정의된다.
Figure PCTKR2020017346-appb-I000010
(8)
여기서 Iwidth는 입력 영상의 너비이다.
이 같은 디스패리티 맵의 정규화는, 딥러닝 네트워크가 영상 너비와 출력을 곱하는 한 모든 해상도에서 디스패리티 맵을 예측하는 것을 가능하게 한다. 애플리케이션 및 사용가능한 리소스에 따라 입력 영상의 크기를 조정하는 것이 일반적이므로, 본 발명의 실시예에서는 이 기법을 적용한다. 이하에서는,
Figure PCTKR2020017346-appb-I000011
를 DAM 디스패리티 맵으로 지칭한다.
6. 손실 함수(Loss Function)
딥러닝 네트워크는, 훈련시에 DAM 디스패리티 맵에 손실 함수를 반영할 수 있다. 총 손실은 각 스케일 마다 계산된 손실들의 합으로 정의되므로,
Figure PCTKR2020017346-appb-I000012
과 같다. 여기서 각 스케일에서 손실들인 Cs는 다음과 같이 계산된다.
Figure PCTKR2020017346-appb-I000013
(9)
손실은 AML(Appearance Matching Loss) Cap, DSL(Disparity Smoothness Loss) Cds 및 L-R DCL(Left-Right Disparity Consistency Loss) Clr로 구성된다. 위첨자 l 및 r은 좌측 영상과 우측 영상을 각각 나타낸다.
AML(Appearance Matching Loss) Cap은 복원된 영상을 해당 훈련 입력 영상과 유사하게 만들도록 설계된다. 예를 들어, 손실
Figure PCTKR2020017346-appb-I000014
은 '좌측 입력 영상 I1'와 '우측 영상과 예측된 디스패리티로 복원한 예측된 좌측 영상
Figure PCTKR2020017346-appb-I000015
' 간의 강도(intensity)와 구조적 차이(structural differences)를 계산한다.
예측된 디스패리티 맵
Figure PCTKR2020017346-appb-I000016
과 DAM 디스패리티 맵
Figure PCTKR2020017346-appb-I000017
간의 구조적 유사성을 강화하기 위한 항을 반영한다. 이를 위해, 복원된 영상의 손실과 유사하게, 디스패리티 맵들 간의 구조적 유사성(Structural SIMmilarity : SSIM)을 다음과 같이 비교한다.
Figure PCTKR2020017346-appb-I000018
(10)
여기서, N은 픽셀 수이고, (i,j)는 픽셀 인덱스를 나타낸다. 커널 크기가 3x3인 단순화된 SSIM을 사용한다.
Figure PCTKR2020017346-appb-I000019
는 입력 영상의 너비에 의해 정규화된다. 우측 영상의 손실
Figure PCTKR2020017346-appb-I000020
도 마찬가지로 정의된다. α1=0.6, α2=0.1, and α3=0.3로 설정할 수 있다.
DSL(Disparity Smoothness Loss) Cds은 디스패리티 평활성(Disparity Smoothness)을 국부적으로 평활하게 하기 위한 것이다. 디스패리티 맵을 다음과 같이 가이드하기 위해. 디스패리티 평활성 손실에 항으로 반영한다.
Figure PCTKR2020017346-appb-I000021
(11)
여기서 페널티는 x와 y방향에서 디스패리티 값의 작은 변화를 강화한다. 4개의 가중 항들 중, 처음 두 항은 깊이 불연속을 유지하기 위한 에지 인식 가중치들이다. 다른 두 항은 예측된 영상의 그레디언트를 DAM 기반 디스패리티 맵의 그래디언트와 유사하도록 제한하기 위한 것이다.
L-R DCL(Left-Right Disparity Consistency Loss) Clr은 예측된 좌측-뷰(left-view) 디스패리티가 투사된 우측-뷰(right-view) 디스패리티와 일치하도록 강화하며, 반대의 경우도 마찬 가지이다.
7. 정량적 평가
본 발명의 실시예에 따른 방법에 의한 디스패리티 맵의 정확도를, 널리 사용되는 스테레오 매칭 알고리즘, SGM 및 PatchMatch 및 Deep-LR과 비교하였다. 또한 DAM 매핑 및 DAM 손실 함수 반영 유무에 따른 다양한 설정으로 분석을 수행하였다. 본 발명의 실시예에 따른 방법과 Deep-LR은 단안 영상을 입력으로 사용하지만 SGM과 PatchMatch는 양안 영상을 입력으로 사용한다.
도 4에 나타난 표와 같이, SGM과 PatchMatch는 Deep-LR과 비교하여 모든 깊이 평가 지표에서 더 나은 성능을 나타내는 경향이 있다(도 4에서 v와 x는 DAM 디스패리티 매핑 또는 DAM 손실 반영이 네트워크 훈련에 사용되는지 여부를 나타냄). 스테레오 알고리즘은 양안 영상을 입력으로 사용하고 Deep-LR 자체는 내시경 영상에 적합하지 않기 때문이다. 획득된 내시경 영상은 종종 균일하고 잡음섞인 영역을 포함하기 때문에, 영상 복원 에러의 최소화는 정확한 디스패리티 맵을 보장하지는 않는다.
본 발명의 실시예에 따른 방법은 Deep-LR의 성능을 한 단계 더 향상시킨다. 가장 큰 개선점은 DAM 디스패리티 매핑으로 인해 DAM 디스패리티 맵이 초기 디스패리티 맵으로 사용하기에 충분하다는 것이다. 따라서 네트워크는 처음부터 훈련하기 보다는 디스패리티 맵의 잔차(residual)들을 훈련시켜야 한다.
또한, 도 5에는 심장 영상 데이터 세트를 사용하여 카메라 또는 캡슐과의 거리에 따른 오류 경향을 나타내었다. 다른 데이터 세트에 대해 훈련했지만, 카메라에서 멀어질수록 평균 오차가 증가한다는 것을 알 수 있다. 9-10cm 내에서 평균 거리 오차는 약 5.19mm이고 표준 편차는 1.56mm이다.
실제 영상에 대한 GT(ground truth) 깊이 맵이 없기 때문에, 영상 복원 오류를 평가한다. 도 6에는 본 발명의 실시예에 따른 네트워크의 백본인 Deep-LR과의 비교가 요약되어 있다(도 6에서 v와 x는 DAM 디스패리티 매핑 또는 DAM 손실이 네트워크 훈련에 사용되는지 여부를 나타냄). 도 4와 유사하게, 각 모듈의 부재는 예측된 디스패리티로부터 복원된 영상의 정확도를 저하시킨다.
본 발명의 실시예에 따른 방법과 Deep-LR의 비교를 통해 알 수 있듯이, DAM 매핑과 손실을 반영한 방법은 PSNR 및 SSIM 측면에서 비교된 방법 중에서 최상의 결과를 보여준다. 구조 품질(structure quality)은 예측된 디스패리티 정확도의 영향을 더 많이 받기 때문에, 제안된 항들은 디스패리티 정확도를 효과적으로 향상시키는 것으로 추론할 수 있다.
DAM 매핑은 DAM 손실 함수와 비교할 때 성능을 향상시킨다. 이는 처음부터 디스패리티 맵을 계산하는 것보다 DAM 디스패리티 맵을 매핑하는 것이 더 효과적이라는 것을 의미한다. 또한, DAM 손실 함수가 반영된 본 발명의 실시예에 따른 방법의 PSNR 및 SSIM 결과에서 볼 수 있듯이, DAM 손실 함수가 네트워크를 간접적으로 가이드 하여 보다 정확한 디스패리티를 예측할 수 있도록 하였음을 알 수 있다. 이는 DAM 손실 항이 예측된 디스패리티 맵 구조를 DAM 디스패리티 맵 구조와 유사하게 유도하기 때문이다.
8. 정성적 평가
도 7은 디스패리티 맵과 심장 영상 데이터 세트의 정성적 비교를 보여준다. 영상은 유선 내시경으로 획득되므로, 영상은 무선 캡슐로 획득한 영상보다 노이즈가 적다. 따라서, 스테레오 매칭 알고리즘은 디스패리티 맵을 양호하게 예측하며, 특히 PatchMatch 스테레오는 경사면을 효과적으로 복구한다. 그러나, 스테레오 매칭 알고리즘은 종래의 스테레오 매칭의 기본 가정으로 인해 정반사(specular reflection), 불충분한 텍스처(insufficient texture) 및 어두운 영역(dark region)에서 좋지 않다. 또한 deep-LR은 또한 스테레오 매칭 알고리즘보다 결과가 좋지 않다. 네트워크가 내시경 영상에 대해 잘 훈련되지 않았기 때문이다.
본 발명의 실시예에 따른 방법은 Deep-LR을 백본 네트워크로 고려하여, DAM 디스패리티 매핑 및 DAM 손실이 깊이 맵 예측 성능을 효과적으로 향상시킨다. 이는, DAM 매핑이 충분히 우수한 초기 디스패리티 맵을 제공하고, DAM 손실이 예측된 디스패리티 맵의 상세한 지오메트리 구조를 복구함을 의미한다.
우측 영상 복원에 대한 정성적 비교를 도 8에 나타내었다. 이러한 영상은 흐릿하고 노이즈가 많으며 해상도가 낮아서, 심장 영상 데이터 세트 보다 처리하기 어렵다. 결과는 본 발명의 실시예에 따른 방법이 특히 깊이 불연속에서 사실적인 올바른 영상을 생성하는 반면, Deep-LR은 종종 노란색 원으로 표시되는 예기치 않은 아티팩트를 보여준다.
9. 내시경 검사 시스템
도 9는 본 발명의 다른 실시예에 따른 내시경 검사 시스템의 블럭도이다. 도시된 바와 같이, 본 발명의 실시예에 따른 내시경 검사 시스템은, 무선 내시경 캡슐(110), 무선 수신기(120) 및 컴퓨팅 시스템(130)을 포함하여 구축된다.
무선 내시경 캡슐(110)은 2대의 카메라, 4개의 LED 조명, 무선 송신기 및 배터리를 포함하고 있으며, 위장으로부터 대장에 이르는 전체 위장관을 이동하면서 양안 영상과 단안 영상을 생성할 수 있다.
무선 수신기(120)는 무선 내시경 캡슐(110)이 생성한 영상을 수신한다.
컴퓨팅 시스템(130)은 도 3에 제시된 딥러닝 네트워크를 학습키시키고, 학습된 딥러닝 네트워크을 이용하여 깊이 맵을 추정한다.
10. 변형예
지금까지, 내시경 영상에 대한 깊이 추정 방법 및 장치에 대해 바람직한 실시예를 들어 상세히 설명하였다.
본 발명의 실시예에서는, 위장관 내부의 환경적 특성을 고려하여, 단일 내시경 영상으로부터 깊이 맵을 예측하기 위한 자기 지도 접근법을 제시하였다. 주변 광이 없다고 가정하고, 직접 감쇠 모델을 채택하여 초기 디스패리티 맵으로 사용하였다. 이러한 디스패리티 맵을 각 디코더 레이어의 출력에 매핑하여, 네트워크는 레이어의 변위를 학습하므로, 네트워크는 예측된 디스패리티 맵의 변위를 DAM 디스패리티 맵과 유사하게 학습하여 미세 구조를 복구할 수 있다.
한편, 본 실시예에 따른 장치와 방법의 기능을 수행하게 하는 컴퓨터 프로그램을 수록한 컴퓨터로 읽을 수 있는 기록매체에도 본 발명의 기술적 사상이 적용될 수 있음은 물론이다. 또한, 본 발명의 다양한 실시예에 따른 기술적 사상은 컴퓨터로 읽을 수 있는 기록매체에 기록된 컴퓨터로 읽을 수 있는 코드 형태로 구현될 수도 있다. 컴퓨터로 읽을 수 있는 기록매체는 컴퓨터에 의해 읽을 수 있고 데이터를 저장할 수 있는 어떤 데이터 저장 장치이더라도 가능하다. 예를 들어, 컴퓨터로 읽을 수 있는 기록매체는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광디스크, 하드 디스크 드라이브, 등이 될 수 있음은 물론이다. 또한, 컴퓨터로 읽을 수 있는 기록매체에 저장된 컴퓨터로 읽을 수 있는 코드 또는 프로그램은 컴퓨터간에 연결된 네트워크를 통해 전송될 수도 있다.
또한, 이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.

Claims (12)

  1. 단안 영상을 생성하는 단계; 및
    생성된 단안 영상을 입력받아 DAM(Direct Attenuation Model) 기반 디스패리티 맵을 추정하는 딥러닝 네트워크를 이용하여, DAM 기반 디스패리티 맵을 예측하는 단계;를 포함하고,
    DAM은,
    단안 영상을 생성하는데 이용되는 조명의 빛이 감쇄되는 경향성을 기초로 단안 영상으로부터 디스패리티 맵을 추정하는 모델인 것을 특징으로 하는 깊이 추정 방법.
  2. 청구항 1에 있어서,
    생성 단계는,
    외부 광이 없는 환경에서, 균질한 물질로 채워진 대상 내부의 단안 영상을 생성하는 것을 특징으로 하는 깊이 추정 방법.
  3. 청구항 2에 있어서,
    DAM 기반 디스패리티 맵은,
    아래의 DAM 기반 디스패리티 맵을 정규화한 맵이고,
    Figure PCTKR2020017346-appb-I000022
    여기서, d(p)는 픽셀 p에서의 디스패리티, f와 B는 각각 카메라들 간의 초점 거리와 기준선, J는 픽셀 p의 SR(Scene Radiance)을 근사화한 값이고, I(p)는 픽셀 P의 영상 강도인 것을 특징으로 하는 깊이 추정 방법.
  4. 청구항 3에 있어서,
    정규화된 DAM 기반 디스패리티 맵은,
    다음의 식에 따라 결정되고,
    Figure PCTKR2020017346-appb-I000023
    여기서,
    Figure PCTKR2020017346-appb-I000024
    는 정규화된 DAM 기반 디스패리티 맵이고, dmin=fB/Dmin이고 dmax=fB/Dmax이며, γ는 상수인 것을 특징으로 하는 깊이 추정 방법.
  5. 청구항 3에 있어서,
    γ는 다음의 식에 따라 정의되며,
    Figure PCTKR2020017346-appb-I000025
    여기서, Iwidth는 입력 영상의 너비인 것을 특징으로 하는 깊이 추정 방법.
  6. 청구항 1에 있어서,
    딥러닝 네트워크는,
    예측한 DAM 기반의 디스패리티 맵을 디코더 계층의 출력에 매핑하는 것을 특징으로 하는 깊이 추정 방법.
  7. 청구항 6에 있어서,
    딥러닝 네트워크는,
    양안 영상으로 훈련되는 것을 특징으로 하는 깊이 추정 방법.
  8. 청구항 6에 있어서,
    딥러닝 네트워크는,
    DAM 기반의 디스패리티 맵에 손실을 반영하는 것을 특징으로 하는 깊이 추정 방법.
  9. 청구항 8에 있어서,
    손실은,
    복원된 영상을 훈련 입력 영상과 유사하게 만들도록 강화하는 손실, 디스패리티 평활성(Disparity Smoothness)을 국부적으로 평활하게 하게 가이드하기 위한 손실 및 좌측-뷰 디스패리티가 투사된 우측-뷰 디스패리티와 일치하도록 강화하기 위한 손실 중 적어도 하나를 포함하는 것을 특징으로 하는 깊이 추정 방법.
  10. 단안 영상을 생성하는 카메라; 및
    생성된 단안 영상을 입력받아 DAM(Direct Attenuation Model) 기반 디스패리티 맵을 추정하는 딥러닝 네트워크를 이용하여, DAM 기반 디스패리티 맵을 예측하는 컴퓨팅 시스템;를 포함하고,
    DAM은,
    단안 영상을 생성하는데 이용되는 조명의 빛이 감쇄되는 경향성을 기초로 단안 영상으로부터 디스패리티 맵을 추정하는 모델인 것을 특징으로 하는 영상 시스템.
  11. 단안 영상을 입력받아 DAM(Direct Attenuation Model) 기반 디스패리티 맵을 추정하는 딥러닝 네트워크를 이용하여, DAM 기반 디스패리티 맵을 예측하는 단계; 및
    예측된 디스패리티 맵을 출력하는 단계;를 포함하고,
    DAM은,
    단안 영상을 생성하는데 이용되는 조명의 빛이 감쇄되는 경향성을 기초로 단안 영상으로부터 디스패리티 맵을 추정하는 모델인 것을 특징으로 하는 깊이 추정 방법.
  12. 단안 영상을 수신하는 수신기; 및
    수신된 단안 영상을 입력받아 DAM(Direct Attenuation Model) 기반 디스패리티 맵을 추정하는 딥러닝 네트워크를 이용하여, DAM 기반 디스패리티 맵을 예측하고 예측된 디스패리티 맵을 출력하는 컴퓨팅 시스템;을 포함하고,
    DAM은,
    단안 영상을 생성하는데 이용되는 조명의 빛이 감쇄되는 경향성을 기초로 단안 영상으로부터 디스패리티 맵을 추정하는 모델인 것을 특징으로 하는 영상 시스템.
PCT/KR2020/017346 2019-12-02 2020-12-01 내시경 영상에 대한 깊이 추정 방법 및 장치 WO2021112520A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2019-0158295 2019-12-02
KR1020190158295A KR102306432B1 (ko) 2019-12-02 2019-12-02 내시경 영상에 대한 깊이 추정 방법 및 장치

Publications (1)

Publication Number Publication Date
WO2021112520A1 true WO2021112520A1 (ko) 2021-06-10

Family

ID=76221007

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2020/017346 WO2021112520A1 (ko) 2019-12-02 2020-12-01 내시경 영상에 대한 깊이 추정 방법 및 장치

Country Status (2)

Country Link
KR (1) KR102306432B1 (ko)
WO (1) WO2021112520A1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102559936B1 (ko) * 2022-01-28 2023-07-27 포티투닷 주식회사 단안 카메라를 이용하여 깊이 정보를 추정하는 방법 및 장치

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008089593A (ja) * 2006-09-29 2008-04-17 Mitsutoyo Corp 測距装置および測距方法
KR20120117165A (ko) * 2011-04-14 2012-10-24 삼성전자주식회사 3차원 영상의 생성 방법 및 이를 이용하는 내시경 장치
KR101625830B1 (ko) * 2008-11-04 2016-05-31 코닌클리케 필립스 엔.브이. 깊이 맵을 생성하기 위한 방법 및 디바이스

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102129168B1 (ko) * 2018-05-31 2020-07-01 전자부품연구원 직접 감쇄 모델을 이용한 내시경 영상 스테레오 정합 방법 및 장치

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008089593A (ja) * 2006-09-29 2008-04-17 Mitsutoyo Corp 測距装置および測距方法
KR101625830B1 (ko) * 2008-11-04 2016-05-31 코닌클리케 필립스 엔.브이. 깊이 맵을 생성하기 위한 방법 및 디바이스
KR20120117165A (ko) * 2011-04-14 2012-10-24 삼성전자주식회사 3차원 영상의 생성 방법 및 이를 이용하는 내시경 장치

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MARTIN ATZMUELLER, ALVIN CHIN, FREDERIK JANSSEN, IMMANUEL SCHWEIZER, CHRISTOPH TRATTNER: "ICIAP: International Conference on Image Analysis and Processing, 17th International Conference, Naples, Italy, September 9-13, 2013. Proceedings", vol. 11075 Chap.6, 15 September 2018, SPRINGER, Berlin, Heidelberg, ISBN: 978-3-642-17318-9, article PARK MIN-GYU; YOON JU HONG; HWANG YOUNGBAE: "Stereo Matching for Wireless Capsule Endoscopy Using Direct Attenuation Model", pages: 48 - 56, XP047485674, 032548, DOI: 10.1007/978-3-030-00500-9_6 *
PARK, MINKYU : "Depth Estimation using Endoscopic Stereo Image. Proceedings of Institute of Control", PROCEEDINGS OF INSTITUTE OF CONTROL ROBOTICS AND SYSTEMS INTERNATIONAL CONFERENCE (ICROS), MAY 17-19, 2018, REPUBLIC OF KOREA, 30 April 2018 (2018-04-30), pages 420 - 421, XP009528634 *

Also Published As

Publication number Publication date
KR102306432B1 (ko) 2021-09-30
KR20210068810A (ko) 2021-06-10

Similar Documents

Publication Publication Date Title
WO2013103184A1 (ko) 색상 채널을 이용한 영상 개선 장치 및 방법
WO2020088288A1 (zh) 内窥镜图像的处理方法、系统及计算机设备
KR102129168B1 (ko) 직접 감쇄 모델을 이용한 내시경 영상 스테레오 정합 방법 및 장치
US20080117968A1 (en) Movement detection and construction of an "actual reality" image
WO2012015285A2 (en) Method and apparatus for processing image and medical image system employing the apparatus
US20070116119A1 (en) Movement detection and construction of an "actual reality" image
WO2005104032A2 (en) Automatic in vivo image adjustment
WO2021112520A1 (ko) 내시경 영상에 대한 깊이 추정 방법 및 장치
CN104470416A (zh) 图像处理装置和内窥镜装置
WO2016099099A1 (en) Image capturing device and sensing protection device
WO2012015280A9 (en) Method and apparatus for processing image, and medical image system employing the apparatus
WO2015178745A1 (ko) 깊이 카메라를 이용한 의료영상 촬영장치 및 의료영상 보정방법
WO2018117427A1 (ko) 3d 영상을 재생을 위한 캡슐 내시경 장치, 상기 캡슐 내시경의 동작 방법, 캡슐 내시경과 연동하여 3d 영상을 재생하는 수신기, 캡슐 내시경과 연동하여 수신기의 3d 영상을 재생하는 방법, 및 캡슐 내시경 시스템
WO2019143179A1 (ko) 동일 피사체에 대하여 시간 간격을 두고 촬영된 영상 간에 동일 관심구역을 자동으로 검출하는 방법 및 이를 이용한 장치
CN116452752A (zh) 联合单目稠密slam与残差网络的肠壁重建方法
WO2020101431A1 (ko) 3차원 영상을 렌더링하는 방법, 상기 방법을 사용하는 영상처리장치, 상기 영상처리장치와 연동하는 촬영장치, 상기 촬영장치의 촬영방법, 및 3차원 영상을 렌더링하는 시스템
CN113435573B (zh) 内窥镜图像的视差预测模型建立方法及深度估计方法
WO2022010075A1 (ko) 의료영상을 기초로 인체 조직을 분석하는 방법 및 그 장치
CN109068035B (zh) 一种智能微相机阵列内窥成像系统
WO2021054700A1 (ko) 치아 병변 정보 제공 방법 및 이를 이용한 장치
CN112790738B (zh) 基于偏振光的中医舌苔润燥信息分析装置及方法
CN107993199A (zh) 利用胶囊相机所撷取的图像的去伪影
CN117351199A (zh) 基于框标注训练的息肉分割模型建立方法及息肉分割方法
WO2017086522A1 (ko) 배경스크린이 필요 없는 크로마키 영상 합성 방법
CN110035687A (zh) 对使用胶囊相机所撷取的图像进行图像拼接的方法及装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20897511

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20897511

Country of ref document: EP

Kind code of ref document: A1