WO2021112520A1

WO2021112520A1 - 내시경 영상에 대한 깊이 추정 방법 및 장치

Info

Publication number: WO2021112520A1
Application number: PCT/KR2020/017346
Authority: WO
Inventors: 박민규; 윤주홍
Original assignee: 한국전자기술연구원
Priority date: 2019-12-02
Filing date: 2020-12-01
Publication date: 2021-06-10
Also published as: KR102306432B1; KR20210068810A

Abstract

내시경 영상에 대한 깊이 추정 방법 및 장치가 제공된다. 본 발명의 실시예에 따른 깊이 추정 방법은, 단안 영상을 생성하고, 생성된 단안 영상을 입력받아 DAM(Direct Attenuation Model) 기반 디스패리티 맵을 추정하는 딥러닝 네트워크를 이용하여 DAM 기반 디스패리티 맵을 예측하며, DAM은 단안 영상을 생성하는데 이용되는 조명의 빛이 감쇄되는 경향성을 기초로 단안 영상으로부터 디스패리티 맵을 추정하는 모델이다.

Description

내시경 영상에 대한 깊이 추정 방법 및 장치

본 발명은 인공지능 모델을 활용한 영상 처리 기술에 관한 것으로, 더욱 상세하게는 캡슐 내시경을 통해 소화기관(십이지장, 위, 소장, 대장) 안에서 획득한 단안 영상을 이용하여 인공지능 모델로 깊이를 추정하는 방법에 관한 것이다.

무선 캡슐 내시경(Wireless Capsule Endoscopy : WCE)으로 위장관[GI(GastroIntestinal) tract], 특히, 유선 내시경에 도달 할 수 없는 소장을 탐색하는 기술이 등장하였다. 이후 정확한 진단을 위해 전 세계 병원에서 다양한 캡슐들이 개발되었다.

최근 딥 러닝 및 의료 이미징 기술의 발전을 고려할 때, WCE 기술의 다음 단계는 의사의 임상 경험에 오랫동안 의존해 온 스크리닝 및 진단의 완전한 자동화이다. 이를 달성하기 위해, 위장관 및 병변의 3D 형상, 예를 들어 폴립 및 종양의 검사 및 이해가 필수적이다.

내시경 수술을 위해, 많은 연구자들은 스테레오 매칭(Stereo Matching), SfS(Shape-FromShading), SfF(Shape-from-Focus) 및 SfM(Shape-from-Motion)과 같은 컴퓨터 비전 기술을 채택하기 위해 고심하고 있다. 그리고 이 기술은 딥 러닝이 부상 한 후 새로운 단계로 발전하고 있다.

특히 깊이 맵 및 ego-motion을 예측하기 위한 비지도 학습 방식은 단순히 다양한 환경에서 획득된 단안 영상을 획득함으로써 CNN(convolutional neural networks)을 훈련시킬 가능성을 보여 주었다. 이 접근법의 핵심 아이디어는 예측된 디스패리티 맵과 해당 ground truth 데이터를 비교하기 보다는 워핑된 영상과 미래 프레임으로 정의되는 영상 복원 오류를 사용하는 것이다.

그 후, 깊이 맵과 카메라 포즈를 더 잘 예측하기 위한 많은 연구가 이어졌다. 정적 환경에서 카메라가 x축을 따라 병진 운동하는 경우 한 쌍의 양안 영상은 단안 영상의 연속한 한 쌍으로 간주될 수 있기 때문에, 이 방법은 양안 영상에도 적용할 수 있다. 이는 임의의 단안 영상 쌍보다 쉬운 경우이므로, 스테레오 기반 비지도 방식은 단안 영상의 경우 보다 성능이 더 우수하다.

그러나 무선 내시경 캡슐은 자원이 제한된 장치로 캡슐의 배터리는 8시간 이상 동안 10 만장의 영상을 획득하여 전송해야 하며, 캡슐에 부착된 LED는 영상을 획득함에 있어 유일한 광원이다.

결과적으로, 영상은 일반적으로 희미한 조명 조건에서 획득되며 영상의 해상도는 작다(이를 테면, 320x320). 이러한 이유로, 기존의 스테레오 매칭 방법을 내시경 영상에 직접 적용한다고 해서 만족스러운 결과를 보장할 수 없다.

도 1의 (a)와 (b)는 획득한 좌측 영상과 우측 영상이고, 도 1의 (c)와 (d)는 기존 방법으로 계산된 디스패리티 맵이다. 도시된 바와 같이, 기존의 스테레오 매칭 알고리즘은 심한 노이즈와 blur가 포함된 내시경 영상에서 정확한 디스패리티 맵을 추정하지 못하는 경우가 많다.

본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은, 병증의 형태와 크기를 실제 측정을 통해 정확하게 알 수 있도록 하기 위한 방안으로, 캡슐 내시경에서 획득한 영상에 대한 깊이 정보를 추정하기 위한 방법 및 장치를 제공함에 있다.

상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른, 깊이 추정 방법은, 단안 영상을 생성하는 단계; 및 생성된 단안 영상을 입력받아 DAM(Direct Attenuation Model) 기반 디스패리티 맵을 추정하는 딥러닝 네트워크를 이용하여, DAM 기반 디스패리티 맵을 예측하는 단계;를 포함하고, DAM은, 단안 영상을 생성하는데 이용되는 조명의 빛이 감쇄되는 경향성을 기초로 단안 영상으로부터 디스패리티 맵을 추정하는 모델이다.

생성 단계는, 외부 광이 없는 환경에서, 균질한 물질로 채워진 대상 내부의 단안 영상을 생성할 수 있다.

DAM 기반 디스패리티 맵은, 아래의 DAM 기반 디스패리티 맵을 정규화한 맵이고,

여기서, d(p)는 픽셀 p에서의 디스패리티, f와 B는 각각 카메라들 간의 초점 거리와 기준선, J는 픽셀 p의 SR(Scene Radiance)을 근사화한 값이고, I(p)는 픽셀 P의 영상 강도일 수 있다.

정규화된 DAM 기반 디스패리티 맵은, 다음의 식에 따라 결정되고,

여기서,

는 정규화된 DAM 기반 디스패리티 맵이고, dmin=fB/Dmin이고 dmax=fB/Dmax이며, γ는 상수일 수 있다.

γ는 다음의 식에 따라 정의되며,

여기서, I_width는 입력 영상의 너비일 수 있다.

딥러닝 네트워크는, 예측한 DAM 기반의 디스패리티 맵을 디코더 계층의 출력에 매핑할 수 있다.

딥러닝 네트워크는, 양안 영상으로 훈련될 수 있다.

딥러닝 네트워크는, DAM 기반의 디스패리티 맵에 손실을 반영할 수 있다.

손실은, 복원된 영상을 훈련 입력 영상과 유사하게 만들도록 강화하는 손실, 디스패리티 평활성(Disparity Smoothness)을 국부적으로 평활하게 하게 가이드하기 위한 손실 및 좌측-뷰 디스패리티가 투사된 우측-뷰 디스패리티와 일치하도록 강화하기 위한 손실 중 적어도 하나를 포함할 수 있다.

한편, 본 발명의 다른 실시예에 따른, 영상 시스템은, 단안 영상을 생성하는 카메라; 및 생성된 단안 영상을 입력받아 DAM 기반 디스패리티 맵을 추정하는 딥러닝 네트워크를 이용하여, DAM 기반 디스패리티 맵을 예측하는 컴퓨팅 시스템;를 포함하고, DAM은, 단안 영상을 생성하는데 이용되는 조명의 빛이 감쇄되는 경향성을 기초로 단안 영상으로부터 디스패리티 맵을 추정하는 모델이다.

한편, 본 발명의 다른 실시예에 따른, 깊이 추정 방법은, 단안 영상을 입력받아 DAM 기반 디스패리티 맵을 추정하는 딥러닝 네트워크를 이용하여, DAM 기반 디스패리티 맵을 예측하는 단계; 및 예측된 디스패리티 맵을 출력하는 단계;를 포함하고, DAM은, 단안 영상을 생성하는데 이용되는 조명의 빛이 감쇄되는 경향성을 기초로 단안 영상으로부터 디스패리티 맵을 추정하는 모델이다.

한편, 본 발명의 다른 실시예에 따른, 영상 시스템은, 단안 영상을 수신하는 수신기; 및 수신된 단안 영상을 입력받아 DAM 기반 디스패리티 맵을 추정하는 딥러닝 네트워크를 이용하여, DAM 기반 디스패리티 맵을 예측하고 예측된 디스패리티 맵을 출력하는 컴퓨팅 시스템;을 포함하고, DAM은, 단안 영상을 생성하는데 이용되는 조명의 빛이 감쇄되는 경향성을 기초로 단안 영상으로부터 디스패리티 맵을 추정하는 모델이다.

이상 설명한 바와 같이, 본 발명의 실시예들에 따르면, 캡슐 내시경에서 획득한 단안 영상을 이용하여 소장, 대장 뿐만 아니라 다양한 소화기관 혹은 장기에서 촬영된 영상에 대한 깊이 맵을 추정할 수 있으며, 이를 이용하여 병증의 검출이나 크기 측정 등에 사용할 수 있어, 정확한 진단 및 치료를 가능하게 한다.

도 1은 기존의 스테레오 매칭 알고리즘으로 계산된 내시경 영상의 디스패리티 맵의 문제점을 보여주는 도면,

도 2는 본 발명의 실시예가 적용가능한 무선 내시경 캡슐 장치를 촬영한 사진,

도 3은 본 발명의 일 실시예에 따른 깊이 맵 추정 방법에 이용되는 딥러닝 네트워크의 구조를 나타낸 도면,

도 4는 널리 사용되는 스테레오 매칭 알고리즘, SGM 및 PatchMatch 스테레오 및 Deep-LR을 사용한 깊이 정확도의 정량적 비교

도 5는 카메라와의 거리에 따른 거리 오차,

도 6은 본 발명의 실시예에 따른 네트워크의 백본인 Deep-LR과의 비교 요약,

도 7은 디스패리티 맵과 심장 영상 데이터 세트의 정성적 비교,

도 8은 우측 영상 복원에 대한 정성적 비교,

도 9는 본 발명의 다른 실시예에 따른 내시경 검사 시스템의 블럭도이다.

이하에서는 도면을 참조하여 본 발명을 보다 상세하게 설명한다.

본 발명의 실시예에서는, 캡슐 내시경을 통해 소화기관(십이지장, 위, 소장, 대장) 안에서 획득한 단안 영상을 이용하여 인공지능 모델로 깊이를 추정하는 방법을 제시한다.

구체적으로, 본 발명의 실시예에서는, 내시경에 장착된 조명 외에 다른 외부 광원이 없다는 점을 고려하여, 내시경에 장착된 조명의 빛이 감쇠되는 경향성을 이용하여 3차원 구조 정보를 추정하고, 이를 딥 러닝에 이용하여 정교한 깊이 맵을 추정하는 방법에 관한 것이다.

1. 무선 내시경 캡슐 장치

도 2는 본 발명의 실시예가 적용가능한 무선 내시경 캡슐 장치를 촬영한 사진이다. 도 2의 좌측은 스테레오 타입의 무선 내시경 캡슐이고, 우측은 무선 수신기이다.

도 2에 도시된 바와 같이, 무선 내시경 캡슐은, 2대의 카메라, 4개의 LED 조명, 무선 송신기 및 배터리를 포함한다. 4개의 LED가 카메라 주변에 부착되어 있고, LED 조명은 카메라와 동기화되어 배터리 사용을 최소화한다.

무선 내시경 캡슐 장치는, 위장으로부터 대장에 이르는 전체 위장관을 이동하면서, 소화기관 내부의 영상을 생성한다. 생성하는 영상은 양안 영상과 단안 영상 모두 가능하다. 본 발명의 실시예에서는 깊이 맵 추정시 단안 영상을 이용하고, 양안 영상은 네트워크 훈련에 이용한다.

무선 내시경 캡슐에는 내부 저장 장치가 없으므로, 생성된 영상은 무선 수신기로 바로 전송된다.

2. 깊이 맵 추정을 위한 딥러닝 네트워크

도 3은 본 발명의 일 실시예에 따른 깊이 맵 추정에 이용되는 딥러닝 네트워크에 대한 설명에 제공되는 도면이다.

도시된 딥러닝 네트워크는 깊이 맵 예측을 위해 설계된 네트워크로, 디스패리티 맵을 예측하기 위해 단안 영상을 입력으로 사용하지만, 훈련에는 양안 영상이 필요하다. 딥러닝 네트워크에 의해 예측되는 디스패리티 맵은 후술할 DAM(Direct Attenuation Model : 직접 감쇠 모델) 기반의 디스패리티 맵이다.

딥러닝 네트워크는 자기 지도 심층 신경망(self-supervised deep neural network)으로, 처음부터 DAM 디스패리티 맵을 계산하는 대신 DAM 디스패리티 맵을 디코더 레이어의 출력에 매핑하여 DAM 디스패리티 값의 변위를 찾는다.

이를 위해, 딥러닝 네트워크는 DAM 디스패리티 맵을 예측하여 DAM 디스패리티 맵을 최종 디코더 계층을 포함하는 디코더 계층의 출력에 매핑한다. 이 과정에서, DAM 디스패리티 맵은 디코더 계층의 출력과 동일한 크기로 다운 샘플링되어 각 디코더 계층의 출력에 추가되며, 업-샘플링되어 다음 디코더 계층에 연결된다.

3. DAM(Direct Attenuation Model : 직접 감쇠 모델)

무선 내시경 캡슐에 의해 획득한 단안 영상에서, 픽셀 P에서의 영상 강도 I(p)는 SR(Scene Radiance) J, TM(Transmission Map) t 및 GALV(Global Atmospheric Light Vector) A를 이용하여 다음과 같이 모델링 될 수 있다.

I(p) = J(p)t(p)+A(1-t(p)) (1)

한편, TM t(p)는 Bouguer의 지수 감쇠 법칙에 의해 깊이 D(p)를 이용하여 다음과 같이 정의될 수 있다.

t(p) = exp(-β(p)D(p)) (2)

여기서, 빛의 감쇠 계수(attenuation coefficient) β(p)는 빛의 흡수 계수(absorption coefficient)와 빛의 산란 계수(scattering coefficient)의 합으로 나타낼 수 있다.

β(p) = β_absorption(p)+β_scatter(p)

4. DAM 기반 깊이 맵 예측

식 (1)과 (2)를 기초로, 깊이 맵 D(p)는 DAM을 기반으로 공식화할 수 있다. 맵 D(p)는 픽셀 p에서의 깊이 값을 의미한다.

(3)

일반적인 환경과 달리 내시경 검사에서는 제한된 환경이므로, 비전통적인 환경 특성을 고려하여 식 (3)을 다음과 같이 근사할 수 있다. 첫째, 위장관에 강한 자연 조명원이 없고, 매체(즉, 위장관의 물)가 거의 투명하기 때문에, GALV A를 0으로 근사화한다. 또한 위장관 내부에서 균일한 매체와 균일한 산란을 가정(즉, 매질이 균일하여 빛이 동일하게 산란됨을 가정)하여, 감쇠 계수 β(p)를 상수 값 β로 설정한다. 마지막으로, 위장관의 국소 영역은 유사한 색상(즉, 내시경 영상에서는 모든 픽셀이 거의 동일한 색상을 갖음)을 가지므로, J를 상수로 단순화한다. 이 가정들을 바탕으로, 식 (3)을 다음과 같이 단순화할 수 있다.

(4)

여기서 J > I(p)는 D(p)가 양수 값임을 나타낼 뿐만 아니라, SR의의 근사에 의해 유발된 에러를 완화시킨다. 다음 식을 풀면 J와 β를 구할 수 있다.

βDmin = ln J - ln Imax

βDmax = ln J - ln Imin (5)

여기서 Dmin 및 Dmax는 사전에 정의된 최소 거리값과 최대 거리값이다. 즉, D(p) ∈ [Dmin, Dmax]이고, Imin과 Imax는 Dmin과 Dmax의 픽셀에 해당하는 J 값이다. 계산된 J와 β를 식 (6)에 대입하면, 실제 깊이 맵과 거의 일치하는 깊이 맵을 예측할 수 있다.

한편, 스테레오 매칭에서는, 추정할 깊이 범위를 설정하는 것이 일반적이며, 감쇠 경향이 위장관에서 유사하다고 가정하면 Imin과 Imax는 실험적으로 설정될 수 있다.

5. DAM을 활용한 디스패리티 매핑

딥러닝 네트워크가 깊이 맵 D(p)이 아닌 디스패리티 맵 d(p)을 예측하므로, d(p)=fB/D(p) 관계식을 기초로 식 (4)를 다음과 같이 변환할 수 있다.

(6)

여기서, f와 B는 각각 카메라들 간의 초점 거리와 기준선을 나타낸다. 마지막으로, 다음의 식 (7)에 따라 정규화된 DAM 디스패리티 맵

을 구할 수 있다.

(7)

여기서, 정규화된 디스패리티 값의 범위는 0에서 γ이다. dmin=fB/Dmin이고 dmax=fB/Dmax이다. γ 값은 다음의 식 (8)과 같이 정의된다.

(8)

여기서 I_width는 입력 영상의 너비이다.

이 같은 디스패리티 맵의 정규화는, 딥러닝 네트워크가 영상 너비와 출력을 곱하는 한 모든 해상도에서 디스패리티 맵을 예측하는 것을 가능하게 한다. 애플리케이션 및 사용가능한 리소스에 따라 입력 영상의 크기를 조정하는 것이 일반적이므로, 본 발명의 실시예에서는 이 기법을 적용한다. 이하에서는,

를 DAM 디스패리티 맵으로 지칭한다.

6. 손실 함수(Loss Function)

딥러닝 네트워크는, 훈련시에 DAM 디스패리티 맵에 손실 함수를 반영할 수 있다. 총 손실은 각 스케일 마다 계산된 손실들의 합으로 정의되므로,

과 같다. 여기서 각 스케일에서 손실들인 Cs는 다음과 같이 계산된다.

(9)

손실은 AML(Appearance Matching Loss) C_ap, DSL(Disparity Smoothness Loss) C_ds 및 L-R DCL(Left-Right Disparity Consistency Loss) C_lr로 구성된다. 위첨자 l 및 r은 좌측 영상과 우측 영상을 각각 나타낸다.

AML(Appearance Matching Loss) C_ap은 복원된 영상을 해당 훈련 입력 영상과 유사하게 만들도록 설계된다. 예를 들어, 손실

은 '좌측 입력 영상 I¹'와 '우측 영상과 예측된 디스패리티로 복원한 예측된 좌측 영상

' 간의 강도(intensity)와 구조적 차이(structural differences)를 계산한다.

예측된 디스패리티 맵

과 DAM 디스패리티 맵

간의 구조적 유사성을 강화하기 위한 항을 반영한다. 이를 위해, 복원된 영상의 손실과 유사하게, 디스패리티 맵들 간의 구조적 유사성(Structural SIMmilarity : SSIM)을 다음과 같이 비교한다.

(10)

여기서, N은 픽셀 수이고, (i,j)는 픽셀 인덱스를 나타낸다. 커널 크기가 3x3인 단순화된 SSIM을 사용한다.

는 입력 영상의 너비에 의해 정규화된다. 우측 영상의 손실

도 마찬가지로 정의된다. α₁=0.6, α₂=0.1, and α₃=0.3로 설정할 수 있다.

DSL(Disparity Smoothness Loss) C_ds은 디스패리티 평활성(Disparity Smoothness)을 국부적으로 평활하게 하기 위한 것이다. 디스패리티 맵을 다음과 같이 가이드하기 위해. 디스패리티 평활성 손실에 항으로 반영한다.

(11)

여기서 페널티는 x와 y방향에서 디스패리티 값의 작은 변화를 강화한다. 4개의 가중 항들 중, 처음 두 항은 깊이 불연속을 유지하기 위한 에지 인식 가중치들이다. 다른 두 항은 예측된 영상의 그레디언트를 DAM 기반 디스패리티 맵의 그래디언트와 유사하도록 제한하기 위한 것이다.

L-R DCL(Left-Right Disparity Consistency Loss) C_lr은 예측된 좌측-뷰(left-view) 디스패리티가 투사된 우측-뷰(right-view) 디스패리티와 일치하도록 강화하며, 반대의 경우도 마찬 가지이다.

7. 정량적 평가

본 발명의 실시예에 따른 방법에 의한 디스패리티 맵의 정확도를, 널리 사용되는 스테레오 매칭 알고리즘, SGM 및 PatchMatch 및 Deep-LR과 비교하였다. 또한 DAM 매핑 및 DAM 손실 함수 반영 유무에 따른 다양한 설정으로 분석을 수행하였다. 본 발명의 실시예에 따른 방법과 Deep-LR은 단안 영상을 입력으로 사용하지만 SGM과 PatchMatch는 양안 영상을 입력으로 사용한다.

도 4에 나타난 표와 같이, SGM과 PatchMatch는 Deep-LR과 비교하여 모든 깊이 평가 지표에서 더 나은 성능을 나타내는 경향이 있다(도 4에서 v와 x는 DAM 디스패리티 매핑 또는 DAM 손실 반영이 네트워크 훈련에 사용되는지 여부를 나타냄). 스테레오 알고리즘은 양안 영상을 입력으로 사용하고 Deep-LR 자체는 내시경 영상에 적합하지 않기 때문이다. 획득된 내시경 영상은 종종 균일하고 잡음섞인 영역을 포함하기 때문에, 영상 복원 에러의 최소화는 정확한 디스패리티 맵을 보장하지는 않는다.

본 발명의 실시예에 따른 방법은 Deep-LR의 성능을 한 단계 더 향상시킨다. 가장 큰 개선점은 DAM 디스패리티 매핑으로 인해 DAM 디스패리티 맵이 초기 디스패리티 맵으로 사용하기에 충분하다는 것이다. 따라서 네트워크는 처음부터 훈련하기 보다는 디스패리티 맵의 잔차(residual)들을 훈련시켜야 한다.

또한, 도 5에는 심장 영상 데이터 세트를 사용하여 카메라 또는 캡슐과의 거리에 따른 오류 경향을 나타내었다. 다른 데이터 세트에 대해 훈련했지만, 카메라에서 멀어질수록 평균 오차가 증가한다는 것을 알 수 있다. 9-10cm 내에서 평균 거리 오차는 약 5.19mm이고 표준 편차는 1.56mm이다.

실제 영상에 대한 GT(ground truth) 깊이 맵이 없기 때문에, 영상 복원 오류를 평가한다. 도 6에는 본 발명의 실시예에 따른 네트워크의 백본인 Deep-LR과의 비교가 요약되어 있다(도 6에서 v와 x는 DAM 디스패리티 매핑 또는 DAM 손실이 네트워크 훈련에 사용되는지 여부를 나타냄). 도 4와 유사하게, 각 모듈의 부재는 예측된 디스패리티로부터 복원된 영상의 정확도를 저하시킨다.

본 발명의 실시예에 따른 방법과 Deep-LR의 비교를 통해 알 수 있듯이, DAM 매핑과 손실을 반영한 방법은 PSNR 및 SSIM 측면에서 비교된 방법 중에서 최상의 결과를 보여준다. 구조 품질(structure quality)은 예측된 디스패리티 정확도의 영향을 더 많이 받기 때문에, 제안된 항들은 디스패리티 정확도를 효과적으로 향상시키는 것으로 추론할 수 있다.

DAM 매핑은 DAM 손실 함수와 비교할 때 성능을 향상시킨다. 이는 처음부터 디스패리티 맵을 계산하는 것보다 DAM 디스패리티 맵을 매핑하는 것이 더 효과적이라는 것을 의미한다. 또한, DAM 손실 함수가 반영된 본 발명의 실시예에 따른 방법의 PSNR 및 SSIM 결과에서 볼 수 있듯이, DAM 손실 함수가 네트워크를 간접적으로 가이드 하여 보다 정확한 디스패리티를 예측할 수 있도록 하였음을 알 수 있다. 이는 DAM 손실 항이 예측된 디스패리티 맵 구조를 DAM 디스패리티 맵 구조와 유사하게 유도하기 때문이다.

8. 정성적 평가

도 7은 디스패리티 맵과 심장 영상 데이터 세트의 정성적 비교를 보여준다. 영상은 유선 내시경으로 획득되므로, 영상은 무선 캡슐로 획득한 영상보다 노이즈가 적다. 따라서, 스테레오 매칭 알고리즘은 디스패리티 맵을 양호하게 예측하며, 특히 PatchMatch 스테레오는 경사면을 효과적으로 복구한다. 그러나, 스테레오 매칭 알고리즘은 종래의 스테레오 매칭의 기본 가정으로 인해 정반사(specular reflection), 불충분한 텍스처(insufficient texture) 및 어두운 영역(dark region)에서 좋지 않다. 또한 deep-LR은 또한 스테레오 매칭 알고리즘보다 결과가 좋지 않다. 네트워크가 내시경 영상에 대해 잘 훈련되지 않았기 때문이다.

본 발명의 실시예에 따른 방법은 Deep-LR을 백본 네트워크로 고려하여, DAM 디스패리티 매핑 및 DAM 손실이 깊이 맵 예측 성능을 효과적으로 향상시킨다. 이는, DAM 매핑이 충분히 우수한 초기 디스패리티 맵을 제공하고, DAM 손실이 예측된 디스패리티 맵의 상세한 지오메트리 구조를 복구함을 의미한다.

우측 영상 복원에 대한 정성적 비교를 도 8에 나타내었다. 이러한 영상은 흐릿하고 노이즈가 많으며 해상도가 낮아서, 심장 영상 데이터 세트 보다 처리하기 어렵다. 결과는 본 발명의 실시예에 따른 방법이 특히 깊이 불연속에서 사실적인 올바른 영상을 생성하는 반면, Deep-LR은 종종 노란색 원으로 표시되는 예기치 않은 아티팩트를 보여준다.

9. 내시경 검사 시스템

도 9는 본 발명의 다른 실시예에 따른 내시경 검사 시스템의 블럭도이다. 도시된 바와 같이, 본 발명의 실시예에 따른 내시경 검사 시스템은, 무선 내시경 캡슐(110), 무선 수신기(120) 및 컴퓨팅 시스템(130)을 포함하여 구축된다.

무선 내시경 캡슐(110)은 2대의 카메라, 4개의 LED 조명, 무선 송신기 및 배터리를 포함하고 있으며, 위장으로부터 대장에 이르는 전체 위장관을 이동하면서 양안 영상과 단안 영상을 생성할 수 있다.

무선 수신기(120)는 무선 내시경 캡슐(110)이 생성한 영상을 수신한다.

컴퓨팅 시스템(130)은 도 3에 제시된 딥러닝 네트워크를 학습키시키고, 학습된 딥러닝 네트워크을 이용하여 깊이 맵을 추정한다.

10. 변형예

지금까지, 내시경 영상에 대한 깊이 추정 방법 및 장치에 대해 바람직한 실시예를 들어 상세히 설명하였다.

본 발명의 실시예에서는, 위장관 내부의 환경적 특성을 고려하여, 단일 내시경 영상으로부터 깊이 맵을 예측하기 위한 자기 지도 접근법을 제시하였다. 주변 광이 없다고 가정하고, 직접 감쇠 모델을 채택하여 초기 디스패리티 맵으로 사용하였다. 이러한 디스패리티 맵을 각 디코더 레이어의 출력에 매핑하여, 네트워크는 레이어의 변위를 학습하므로, 네트워크는 예측된 디스패리티 맵의 변위를 DAM 디스패리티 맵과 유사하게 학습하여 미세 구조를 복구할 수 있다.

한편, 본 실시예에 따른 장치와 방법의 기능을 수행하게 하는 컴퓨터 프로그램을 수록한 컴퓨터로 읽을 수 있는 기록매체에도 본 발명의 기술적 사상이 적용될 수 있음은 물론이다. 또한, 본 발명의 다양한 실시예에 따른 기술적 사상은 컴퓨터로 읽을 수 있는 기록매체에 기록된 컴퓨터로 읽을 수 있는 코드 형태로 구현될 수도 있다. 컴퓨터로 읽을 수 있는 기록매체는 컴퓨터에 의해 읽을 수 있고 데이터를 저장할 수 있는 어떤 데이터 저장 장치이더라도 가능하다. 예를 들어, 컴퓨터로 읽을 수 있는 기록매체는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광디스크, 하드 디스크 드라이브, 등이 될 수 있음은 물론이다. 또한, 컴퓨터로 읽을 수 있는 기록매체에 저장된 컴퓨터로 읽을 수 있는 코드 또는 프로그램은 컴퓨터간에 연결된 네트워크를 통해 전송될 수도 있다.

또한, 이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.

Claims

단안 영상을 생성하는 단계; 및

생성된 단안 영상을 입력받아 DAM(Direct Attenuation Model) 기반 디스패리티 맵을 추정하는 딥러닝 네트워크를 이용하여, DAM 기반 디스패리티 맵을 예측하는 단계;를 포함하고,

DAM은,

단안 영상을 생성하는데 이용되는 조명의 빛이 감쇄되는 경향성을 기초로 단안 영상으로부터 디스패리티 맵을 추정하는 모델인 것을 특징으로 하는 깊이 추정 방법.
청구항 1에 있어서,

생성 단계는,

외부 광이 없는 환경에서, 균질한 물질로 채워진 대상 내부의 단안 영상을 생성하는 것을 특징으로 하는 깊이 추정 방법.
청구항 2에 있어서,

DAM 기반 디스패리티 맵은,

아래의 DAM 기반 디스패리티 맵을 정규화한 맵이고,

여기서, d(p)는 픽셀 p에서의 디스패리티, f와 B는 각각 카메라들 간의 초점 거리와 기준선, J는 픽셀 p의 SR(Scene Radiance)을 근사화한 값이고, I(p)는 픽셀 P의 영상 강도인 것을 특징으로 하는 깊이 추정 방법.
청구항 3에 있어서,

정규화된 DAM 기반 디스패리티 맵은,

다음의 식에 따라 결정되고,

여기서,
는 정규화된 DAM 기반 디스패리티 맵이고, dmin=fB/Dmin이고 dmax=fB/Dmax이며, γ는 상수인 것을 특징으로 하는 깊이 추정 방법.
청구항 3에 있어서,

γ는 다음의 식에 따라 정의되며,

여기서, I_width는 입력 영상의 너비인 것을 특징으로 하는 깊이 추정 방법.
청구항 1에 있어서,

딥러닝 네트워크는,

예측한 DAM 기반의 디스패리티 맵을 디코더 계층의 출력에 매핑하는 것을 특징으로 하는 깊이 추정 방법.
청구항 6에 있어서,

딥러닝 네트워크는,

양안 영상으로 훈련되는 것을 특징으로 하는 깊이 추정 방법.
청구항 6에 있어서,

딥러닝 네트워크는,

DAM 기반의 디스패리티 맵에 손실을 반영하는 것을 특징으로 하는 깊이 추정 방법.
청구항 8에 있어서,

손실은,

복원된 영상을 훈련 입력 영상과 유사하게 만들도록 강화하는 손실, 디스패리티 평활성(Disparity Smoothness)을 국부적으로 평활하게 하게 가이드하기 위한 손실 및 좌측-뷰 디스패리티가 투사된 우측-뷰 디스패리티와 일치하도록 강화하기 위한 손실 중 적어도 하나를 포함하는 것을 특징으로 하는 깊이 추정 방법.
단안 영상을 생성하는 카메라; 및

생성된 단안 영상을 입력받아 DAM(Direct Attenuation Model) 기반 디스패리티 맵을 추정하는 딥러닝 네트워크를 이용하여, DAM 기반 디스패리티 맵을 예측하는 컴퓨팅 시스템;를 포함하고,

DAM은,

단안 영상을 생성하는데 이용되는 조명의 빛이 감쇄되는 경향성을 기초로 단안 영상으로부터 디스패리티 맵을 추정하는 모델인 것을 특징으로 하는 영상 시스템.
단안 영상을 입력받아 DAM(Direct Attenuation Model) 기반 디스패리티 맵을 추정하는 딥러닝 네트워크를 이용하여, DAM 기반 디스패리티 맵을 예측하는 단계; 및

예측된 디스패리티 맵을 출력하는 단계;를 포함하고,

DAM은,

단안 영상을 생성하는데 이용되는 조명의 빛이 감쇄되는 경향성을 기초로 단안 영상으로부터 디스패리티 맵을 추정하는 모델인 것을 특징으로 하는 깊이 추정 방법.
단안 영상을 수신하는 수신기; 및

수신된 단안 영상을 입력받아 DAM(Direct Attenuation Model) 기반 디스패리티 맵을 추정하는 딥러닝 네트워크를 이용하여, DAM 기반 디스패리티 맵을 예측하고 예측된 디스패리티 맵을 출력하는 컴퓨팅 시스템;을 포함하고,

DAM은,

단안 영상을 생성하는데 이용되는 조명의 빛이 감쇄되는 경향성을 기초로 단안 영상으로부터 디스패리티 맵을 추정하는 모델인 것을 특징으로 하는 영상 시스템.