KR101866135B1

KR101866135B1 - 2d 영상에 대한 깊이 정보 생성 장치 및 방법과 이에 관한 기록 매체

Info

Publication number: KR101866135B1
Application number: KR1020170059112A
Authority: KR
Inventors: 손광훈; 김영중
Original assignee: 연세대학교 산학협력단
Priority date: 2017-05-12
Filing date: 2017-05-12
Publication date: 2018-06-08

Abstract

2D 영상에 대한 깊이 정보 생성 장치 및 방법과 이에 관한 기록 매체가 개시된다. 개시된 장치는 레퍼런스 2D 영상 및 레퍼런스 깊이 정보를 학습하여 입력된 2D 영상의 최종 깊이 정보를 생성하는 깊이 정보 생성 장치로서, 2D 영상의 1차 깊이 정보를 생성하는 깊이 추정부; 상기 2D 영상의 1차 깊이 그래디언트 정보를 생성하는 깊이 그래디언트 추정부; 및 상기 1차 깊이 정보 및 상기 1차 깊이 그래디언트 정보를 고려하여 최종 깊이 정보를 생성하는 깊이 정보 생성부를 포함하되, 상기 깊이 추정부와 상기 깊이 그래디언트 추정부 및 상기 깊이 정보 생성부는 상기 레퍼런스 2D 영상에 대한 최종 깊이 정보를 생성하고, 상기 레퍼런스 2D 영상에 대해 생성된 최종 깊이 정보와 상기 레퍼런스 깊이 정보의 차분값이 최소가 되게 하는 상기 레퍼런스 2D 영상에 대한 최종 깊이 정보를 생성하도록 학습되는 것을 특징으로 한다. 개시된 장치에 따르면, 깊이 그래디언트 정보뿐만 아니라, 깊이 영상도 함께 학습하여 2D 영상에 대한 깊이 영상을 생성함으로써, scale ambiguity 문제가 완화될 수 있다. 또한, 깊이 영상 학습 과정에서 다운 샘플링을 수행함으로써 복잡성을 감소시킬 수 있으며, 깊이 그래디언트 정보를 학습함으로써 다운 샘플링 과정에서 손실되는 정보를 보상할 수 있는 장점이 있다.

Description

2D 영상에 대한 깊이 정보 생성 장치 및 방법과 이에 관한 기록 매체{DEVICE AND METHOD FOR GENERATING DEPTH INFORMATION OF 2D IMAGE, RECORDING MEDIUM THEREOF}

본 발명은 2D 영상의 깊이 정보 생성 장치 및 방법과 이에 관한 기록 매체에 관한 것이다.

디스플레이 장치의 성능이 고급화되면서, 디스플레이 장치에서 디스플레이하는 컨텐츠의 종류도 다양하게 증대되었다. 특히, 최근에는 3D 컨텐츠까지 시청할 수 있는 입체 디스플레이 시스템이 개발되어 보급되고 있다.

3D 컨텐츠는 스테레오 카메라와 같이 영상의 깊이 정보를 알아낼 수 있는 별도의 카메라로 촬영을 하여야 하며, 일반적인 카메라로 촬영된 컨텐츠는 영상의 깊이 정보를 반영하지 않기 때문에 3D의 형태로 디스플레이될 수 없다.

3D 컨텐츠에 대한 요구가 확대되면서 기존의 2D의 형태로 제작된 컨텐츠에 대해서도 3D로 제공하는 것에 대한 요구가 있으며, 기존의 2D 영상을 3D 영상으로 변환하는 연구도 계속적으로 진행되었다. 2D 영상에는 깊이 정보가 반영되어 있지 않기 때문에 깊이 정보를 2D 영상으로부터 추론하여야 하며, 깊이 정보를 추론하기 위해 다양한 연구가 시도되고 있다.

2D 영상으로부터 깊이 정보를 추론하기 위해 기계 학습과 같은 학습 알고리즘을 이용하거나, 보다 선명한 3D 영상을 획득하기 위해 깊이 정보의 그래디언트(gradient) 정보를 활용하는 등의 연구가 진행된 바 있다. 하지만 기존의 깊이 그래디언트 정보를 이용하는 방법은 scale ambiguity의 문제가 발생할 수 있으며, 보다 고품질의 깊이 영상을 획득할 수 있는 방법에 대한 지속적인 연구가 필요하다.

관련 선행문헌으로, 대한민국 공개특허 제2016-0056132호가 있다.

상기한 바와 같은 종래기술의 문제점을 해결하기 위해, 본 발명은 2D 영상에 대한 깊이 정보를 생성하는 과정을 학습하여 2D 영상에 대한 깊이 정보를 생성하는 장치 및 방법과 이에 대한 기록 매체를 제공한다.

상기한 목적을 달성하기 위해 본 발명의 바람직한 실시예에 따르면, 레퍼런스 2D 영상 및 레퍼런스 깊이 정보를 학습하여 입력된 2D 영상의 최종 깊이 정보를 생성하는 깊이 정보 생성 장치로서, 2D 영상의 1차 깊이 정보를 생성하는 깊이 추정부; 상기 2D 영상의 1차 깊이 그래디언트 정보를 생성하는 깊이 그래디언트 추정부; 및 상기 1차 깊이 정보 및 상기 1차 깊이 그래디언트 정보를 고려하여 최종 깊이 정보를 생성하는 깊이 정보 생성부를 포함하되, 상기 깊이 추정부와 상기 깊이 그래디언트 추정부 및 상기 깊이 정보 생성부는 상기 레퍼런스 2D 영상에 대한 최종 깊이 정보를 생성하고, 상기 레퍼런스 2D 영상에 대해 생성된 최종 깊이 정보와 상기 레퍼런스 깊이 정보의 차분값이 최소가 되게 하는 상기 레퍼런스 2D 영상에 대한 최종 깊이 정보를 생성하도록 학습되는 것을 특징으로 하는 2D 영상에 대한 깊이 정보 생성 장치가 제공된다.

상기 깊이 정보 생성부는 상기 최종 깊이 정보와 상기 1차 깊이 정보의 차분값 및 상기 최종 깊이 정보와 상기 1차 깊이 그래디언트 정보의 차분값이 최소가 되도록 상기 최종 깊이 정보를 생성하는 것을 특징으로 한다.

상기 깊이 정보 생성부는 하기 수학식에 의해 상기 최종 깊이 정보를 생성하는 것을 특징으로 한다.

위 수학식에서,

는 최종 깊이 정보이고,

는 최종 깊이 그래디언트 정보이며,

는 1차 깊이 그래디언트 정보이고,

는 가중치 상수이며,

는 1차 깊이 정보이다.

상기 최종 깊이 정보는 SB 이터레이션에 의해 결정되는 것을 특징으로 한다.

상기 SB 이터레이션의

번째 갱신은 하기 수학식에 의해 수행되는 것을 특징으로 한다.

위 수학식에서,

는 최종 깊이 정보이고,

는 최종 깊이 그래디언트 정보이며,

는 1차 깊이 그래디언트 정보이고,

는 가중치 상수이며,

는 1차 깊이 정보이고,

는 페널티 상수이며,

는 제1 변수이고,

는 제2 변수이다.

상기 깊이 추정부와 상기 깊이 그래디언트 추정부 및 상기 깊이 정보 생성부는 에러 역전파 알고리즘에 의해 학습되는 것을 특징으로 한다.

상기 깊이 추정부는 콘볼루션과 다운 샘플링과 업샘플링 및 ReLU 연산을 통해 상기 1차 깊이 정보를 생성하는 것을 특징으로 한다.

상기 깊이 추정부는 상기 레퍼런스 2D 영상의 1차 깊이 정보와 레퍼런스 깊이 정보의 차분값의 평균값이 최소가 되도록 사전에 훈련되어 있는 것을 특징으로 한다.

상기 깊이 그래디언트 추정부는 콘볼루션 및 ReLU 연산을 통해 상기 1차 깊이 그래디언트 정보를 생성하는 것을 특징으로 한다.

상기 깊이 그래디언트 추정부는 상기 레퍼런스 2D 영상의 1차 깊이 그래디언트 정보와 레퍼런스 깊이 그래디언트 정보의 차분값의 평균값이 최소가 되도록 사전에 훈련되어 있는 것을 특징으로 한다.

또한, 본 발명의 다른 실시예에 따르면, 레퍼런스 2D 영상 및 레퍼런스 깊이 정보를 학습하여 입력된 2D 영상의 최종 깊이 정보를 생성하는 깊이 정보 생성 방법으로서, (a)상기 레퍼런스 2D 영상의 1차 깊이 정보 및 1차 깊이 그래디언트 정보를 생성하는 단계; (b)상기 레퍼런스 2D 영상의 1차 깊이 정보 및 1차 깊이 그래디언트 정보를 고려하여 상기 레퍼런스 2D 영상의 최종 깊이 정보를 생성하는 단계; (c)상기 레퍼런스 2D 영상의 최종 깊이 정보와 레퍼런스 깊이 정보의 차분값이 최소가 되도록 하는 상기 (a)단계 및 상기 (b)단계를 학습하는 단계; (d)상기 학습된 (a)단계 및 상기 (b)단계를 상기 입력된 2D 영상에 대해 수행하여 상기 입력된 2D 영상의 최종 깊이 정보를 생성하는 단계를 포함하는 2D 영상에 대한 깊이 정보 생성 방법이 제공된다.

상기 (b)단계는 상기 최종 깊이 정보와 상기 1차 깊이 정보의 차분값 및 상기 최종 깊이 정보와 상기 1차 깊이 그래디언트 정보의 차분값이 최소가 되도록 상기 최종 깊이 정보를 생성하는 것을 특징으로 한다.

상기 (b)단계는 하기 수학식에 의해 상기 최종 깊이 정보를 생성하는 것을 특징으로 한다.

위 수학식에서,

는 최종 깊이 정보이고,

는 최종 깊이 그래디언트 정보이며,

는 1차 깊이 그래디언트 정보이고,

는 가중치 상수이며,

는 1차 깊이 정보임.

상기 (b)단계의 상기 최종 깊이 정보는 SB 이터레이션에 의해 결정되는 것을 특징으로 한다.

상기 SB 이터레이션의

위 수학식에서,

는 최종 깊이 정보이고,

는 최종 깊이 그래디언트 정보이며,

는 1차 깊이 그래디언트 정보이고,

는 가중치 상수이며,

는 1차 깊이 정보이고,

는 페널티 상수이며,

는 제1 변수이고,

는 제2 변수이다.

상기 (c)단계는 에러 역전파 알고리즘에 의해 학습되는 것을 특징으로 한다.

상기 (a)단계는 콘볼루션과 다운 샘플링과 업샘플링 및 ReLU 연산을 통해 상기 1차 깊이 정보를 생성하는 것을 특징으로 한다.

상기 (a)단계 이전에, 상기 레퍼런스 2D 영상의 1차 깊이 정보와 레퍼런스 깊이 정보의 차분값의 평균값이 최소가 되도록 상기 (a)단계를 미리 훈련하는 단계를 더 포함하는 것을 특징으로 한다.

상기 (a)단계는 콘볼루션 및 ReLU 연산을 통해 상기 1차 깊이 그래디언트 정보를 생성하는 것을 특징으로 한다.

상기 (a)단계 이전에, 상기 레퍼런스 2D 영상의 1차 깊이 그래디언트 정보와 레퍼런스 깊이 그래디언트 정보의 차분값의 평균값이 최소가 되도록 상기 (a)단계를 미리 훈련하는 단계를 더 포함하는 것을 특징으로 한다.

또한, 본 발명의 또다른 실시예에 따르면, 상기의 2D 영상에 대한 깊이 정보 생성 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능한 기록매체가 제공된다.

본 발명에 따르면, 깊이 그래디언트 정보뿐만 아니라, 깊이 영상도 함께 학습하여 2D 영상에 대한 깊이 영상을 생성함으로써, scale ambiguity 문제가 완화될 수 있다.

본 발명에 따르면, 깊이 영상 학습 과정에서 다운 샘플링을 수행함으로써 복잡성을 감소시킬 수 있으며, 깊이 그래디언트 정보를 학습함으로써 다운 샘플링 과정에서 손실되는 정보를 보상할 수 있다.

도 1은 CNN 알고리즘을 설명하기 위한 도면이다.
도 2는 CNN의 컨벌루션 방법을 설명하기 위한 도면이다.
도 3은 CNN의 다운 샘플링 방법을 설명하기 위한 도면이다.
도 4는 본 발명의 바람직한 일 실시예에 따른 2D 영상에 대한 깊이 정보 생성 장치의 구조도이다.
도 5는 본 발명의 바람직한 일 실시예에 따른 2D 영상에 대한 깊이 정보 생성 장치를 설명하기 위한 도면이다.
도 6은 2D 영상 및 영상화한 깊이 정보의 저주파 성분과 고주파 성분을 설명하기 위한 도면이다.
도 7은 본 발명의 바람직한 일 실시예에 따른 2D 영상에 대한 깊이 정보 생성 방법을 시간의 흐름에 따라 나타낸 순서도이다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 자세히 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.

제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 이하에서, 본 발명에 따른 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다.

본 발명은 레퍼런스 2D 영상에 대한 레퍼런스 깊이 정보를 학습하여, 학습 결과를 이용하여 입력되는 2D 영상에 대한 깊이 정보를 추정한다. 깊이 그래디언트(depth gradient)는 깊이 정보에서 각 화소 별로 부여된 깊이 값의 차이를 나타내는 값으로, 예를 들어, 인접 화소와 깊이 값이 동일한 경우 깊이 그래디언트 값은 0이 될 수 있다. 인접 화소는 실시예에 따라 다양하게 결정될 수 있다.

학습을 위해 본 발명은 딥 러닝(deep learning) 알고리즘을 이용할 수 있으며, 일실시예로서 CNN(Convolutional Neural Network) 알고리즘을 이용한다. CNN은, 사람이 물체를 인식할 때 물체의 기본적인 특징들을 추출한 다음 뇌 속에서 복잡한 계산을 거쳐 그 결과를 기반으로 물체를 인식한다는 가정을 기반으로 만들어진 사람의 뇌 기능을 모사한 모델로서, 최근 영상 인식이나 음성 인식 분야에 많이 활용되고 있는 알고리즘이다. CNN에서는 기본적으로 컨볼루션(convolution) 연산을 통해 영상의 특징을 추출하기 위한 다양한 필터와 비선형적인 특성을 더하기 위한 풀링(pooling) 또는 비선형 활성화(non-linear activation) 함수 등이 함께 사용된다.

이하에서, CNN 알고리즘에 대해 간단히 설명한 후, 본 발명에 따른 실시예들을 첨부된 도면을 참조하여 상세하게 설명하기로 한다.

도 1은 CNN 알고리즘을 설명하기 위한 도면이다. 도 2는 CNN의 컨벌루션 방법을 설명하기 위한 도면이며, 도 3은 CNN의 다운 샘플링 방법을 설명하기 위한 도면이다.

도 1을 참조하면, CNN 알고리즘은 입력 영상에 대해 컨벌루션과 다운 샘플링을 통해, 입력 영상에 대한 피쳐 맵(feature map)을 추출(feature learning)하고, 피쳐 맵을 통해 입력 영상을 식별 또는 분류(classification)한다. 피쳐 맵은 입력 영상에 대한 특징 정보를 포함한다. 피쳐 맵 추출을 위해, 컨벌루션(C1, C2, C3)과 다운 샘플링(MP1, MP2)가 반복되며, 반복 횟수는 실시예에 따라서 다양하게 결정될 수 있다.

도 1 및 2를 참조하면, 컨벌루션에 이용되는 필터(또는 커널, 210)의 사이즈가 결정되면, 필터의 각 화소별로 할당된 가중치와 입력 영상(200)의 화소값의 가중치 합(weighted sum)을 통해 컨벌루션이 수행된다. 즉, 필터가 오버랩되는 입력 영상의 특정 영역에 대해 대응되는 화소별로 필터의 가중치를 화소값과 곱한 후 더함으로써 컨벌루션 레이어의 화소값(230)이 결정될 수 있다.

도 2에 도시된 바와 같이, 대응되는 화소별로 필터(210)의 가중치(4, 0, 0, 0, 0, 0, 0, 0, -4)와 오버랩되는 입력 영상(200)의 특정 영역의 화소값(0, 0, 0, 0, 1, 1, 0, 1, 2)에 대해 가중치 합이 수행되어 최종 -8이라는 화소값(230)이 결정된다. 필터가 좌우 상하로 이동하며, 입력 영상의 오버랩된 영역에 대해 총 9개 화소에 대해 가중치 합이 수행되고, 일예로서, 입력 영상(200)의 사이즈가 7X7이며, 필터(210)의 사이즈가 3X3라면 5X5 사이즈의 컨벌루션 레이어가 생성될 수 있다.

컨벌루션에 따른 화소값은 오버랩된 영역의 중앙 화소의 화소값(230)이 되기 때문에, 입력 영상 대비 컨벌루션 레이어, 즉 컨벌루션된 영상의 사이즈는 감소한다. 다만, 입력 영상의 외곽 영역을 특정 화소값으로 패딩(padding)할 경우, 입력 영상의 사이즈와 동일한 7X7 사이즈의 컨벌루션 레이어를 생성할 수 있다. 컨벌루션 레이어의 개수는 이용되는 필터의 개수에 따라 결정된다.

도 1 및 3을 참조하면, 컨벌루션 레이어의 사이즈를 줄이기 위해, 즉 해상도를 낮추기 위해 다운 샘플링이 수행되는데, 다운 샘플링으로 많이 이용되는 방법이 맥스 풀링(max-pooling)이다. 다운 샘플링에 이용되는 커널(kenel)에 포함된 컨벌루션 레이어의 화소값 중 최대 값을 취함으로써 컨벌루션 레이어의 사이즈보다 작은 맥스 풀링 레이어가 생성될 수 있다.

예를 들어, 2X2 사이즈의 커널이 4X4 사이즈의 컨벌루션 레이어(310)에 적용될 경우, 서로 다른 색깔로 표시된 2X2 영역별로 6, 8, 3 및 4가 최대값으로 결정되어 맥스 풀링 레이어(320)가 생성될 수 있다.

다시 도 1로 돌아가, 피쳐 맵은 완전 연결된(fully-connected) 신경망으로 입력되고, 미리 주어진 입력 영상에 대한 라벨(label)과 신경망의 출력값의 차이값에 따라서 CNN의 파라미터에 대한 학습이 수행된다.

도 4는 본 발명의 바람직한 일 실시예에 따른 2D 영상에 대한 깊이 정보 생성 장치의 구조도이다.

도 4에 도시된 바와 같이, 본 발명에 따른 깊이 정보 생성 장치는 깊이 추정부(410), 깊이 그래디언트 추정부(420) 및 깊이 정보 생성부(430)를 포함한다.

깊이 추정부(410)는 2D 영상에 대한 1차 깊이 정보를 생성한다. 깊이 추정부(410)는 2D 영상에 대한 1차 깊이 정보 생성 방법을 학습할 수 있다.

깊이 그래디언트 추정부(420)는 2D 영상에 대한 1차 깊이 그래디언트 정보를 생성한다. 깊이 그래디언트 추정부(420)는 2D 영상에 대한 1차 깊이 그래디언트 정보 생성 방법을 학습할 수 있다.

깊이 추정부(410) 및 깊이 그래디언트 추정부(420)의 학습 방법은 도 5에서 보다 상세히 설명하기로 한다.

깊이 정보 생성부(430)는 1차 깊이 정보 및 1차 깊이 그래디언트 정보를 모두 고려하여 최종 깊이 정보를 생성한다.

본 발명에 따르면, 깊이 그래디언트 정보뿐만 아니라, 깊이 영상도 함께 학습하여 2D 영상에 대한 깊이 영상을 생성함으로써, scale ambiguity가 완화될 수 있다.

도 5는 본 발명의 바람직한 일 실시예에 따른 2D 영상에 대한 깊이 정보 생성 장치를 설명하기 위한 도면이며, 도 6은 2D 영상 및 영상화한 깊이 정보의 저주파 성분과 고주파 성분을 설명하기 위한 도면이다.

먼저 학습 과정을 설명한 후, 깊이 영상 생성 과정을 설명하기로 한다.

<학습 과정>

깊이 추정부(410) 및 깊이 그래디언트 추정부(420) 각각은 컨벌루션을 통해 2D 영상에 대한 1차 깊이 정보 및 1차 깊이 그래디언트 정보를 출력한다. 이 때, 깊이 추정부(410)는 다운 샘플링을 함께 수행하지만, 깊이 그래디언트 추정부(420)는 다운 샘플링을 수행하지 않는 것이 바람직하다.

깊이 그래디언트 정보는 깊이 정보의 변화율 정보로서, 도 6(b)에 도시된 바와 같이 깊이 정보의 에지(edge)와 같은 고주파 성분에 대응되는데, 깊이 그래디언트 추정부(420)에서 주로 학습되는 2D 영상 및 깊이 정보의 고주파 성분은 서로 관련성(correlation)이 높다. 즉, 깊이 그래디언트 정보는 2D 영상에 대한 정보를 대부분 담고 있는데, 다운 샘플링을 수행할 경우 깊이 그래디언트 정보의 중요한 에지 정보가 소실될 수 있기 때문이다.

반면, 깊이 추정부(410)에서 주로 학습되는 2D 영상 및 깊이 정보의 저주파 성분은 도 6(a)에 도시된 바와 같이, 서로 관련성이 낮기 때문에, 다운 샘플링을 통해 정보량을 줄이는 것이 학습 효율 측면에서 유리하다.

도 6(a)를 참조하면, 파란색 박스 영역과 노란색 박스 영역(저주파 성분)은 객체별로 서로 큰 차이가 없어서, 서로 관련성이 적지만, 도 6(b)의 경우 2D 영상 및 깊이 영상의 고주파 성분(에지)은 거의 매칭될 정도로 서로 관련성이 높음을 알 수 있다.

다시, 도 5로 돌아와 학습 방법을 보다 상세히 설명하면, 깊이 추정부(410)는 제1컨벌루션부, 다운 샘플링부, 업 샘플링부 및 제1가중치 조절부를 포함할 수 있다. 제1컨벌루션부는 레퍼런스 2D 영상(540)에 대해 기 설정된 사이즈의 제1필터를 이용하여 컨벌루션을 수행한다. 이 때, 제1컨벌루션부는 레퍼런스 2D 영상에 기 설정된 화소 값을 패딩하여, 레퍼런스 2D 영상과 동일한 사이즈의 컨벌루션 영상을 생성할 수 있다.

다운 샘플링부는 컨벌루션 결과에 대해 다운 샘플링을 수행하며, 일예로서, 맥스 풀링 방법으로 다운 샘플링을 수행할 수 있다.

업 샘플링부는 다운 샘플링 결과에 대해 업샘플링을 수행하여, 레퍼런스 2D 영상(540)과 동일한 사이즈의 1차 깊이 정보(550)를 생성한다. 일예로서 업 샘플링부는 bilinear 방법으로 업 샘플링을 수행할 수 있다. 업 샘플링부는 컨벌루션 이후 축소된 영상을 원 영상 사이즈로 복구하므로, 디컨벌루션(deconv)을 수행한다고 할 수 있다.

제1가중치 조절부는 레퍼런스 깊이 정보와 최종 깊이 정보(570)의 차분값을 이용하여, 제1필터의 가중치를 조절할 수 있다. 최초 레퍼런스 2D 영상에 대한 최종 깊이 정보는 레퍼런스 깊이 정보와 차이가 크지만, 복수의 레퍼런스 2D 영상에 대해 학습을 수행하면서 가중치가 조절되고, 결국, 레퍼런스 2D 영상에 대한 최종 깊이 정보는 레퍼런스 깊이 정보와 유사하게 출력될 수 있다.

또한, 실시예에 따라서 제1가중치 조절부는 사전에 트레이닝될 수도 있다. 이 때, 제1가중치 조절부는 하기 수학식에 의해 제1필터의 가중치를 조절한다.

수학식 1에서,

은 총 샘플의 수이고,

는 1차 깊이 정보이며,

는 레퍼런스 깊이 정보이다.

최초 레퍼런스 2D 영상에 대한 1차 깊이 정보는 레퍼런스 깊이 정보와 차이가 크지만, 복수의 레퍼런스 2D 영상에 대해 학습을 수행하면서 가중치가 조절되고, 결국, 레퍼런스 2D 영상에 대한 1차 깊이 정보는 레퍼런스 깊이 정보와 유사하게 출력될 수 있다.

기존 CNN 알고리즘에서는 컨벌루션을 통해 입력 영상에 대한 피쳐맵이 생성되지만, 제1가중치 조절부는 컨벌루션된 영상이 레퍼런스 2D 영상에 대한 레퍼런스 깊이 정보가 되도록 제1필터의 가중치를 조절한다.

한편, 실시예에 따라서, 깊이 추정부(410)는 컨벌루션 결과에 대해 비선형 활성화 함수의 하나인 ReLU(Rectified Linear Unit) 함수를 이용한 연산을 수행하고, ReLU 연산 결과에 대해 다운 샘플링을 수행할 수도 있다.

깊이 추정부(410)는 컨벌루션, ReLU 연산 및 다운 샘플링의 순서로 기 설정된 횟수만큼 반복 연산을 수행한 후, 업샘플링을 수행하여, 레퍼런스 2D 영상과 동일한 사이즈의 1차 깊이 정보를 생성할 수 있다.

2D 영상의 사이즈가 32X32이며, 다운 샘플링에 이용된 커널의 사이즈가 2X2이며, 컨벌루션, ReLU 연산 및 다운 샘플링이 5회 수행된 경우, 깊이 추정부(410)는 2X2 사이즈의 다운 샘플링 영상을 업샘플링하여 32X32 사이즈의 정보를 생성한다.

깊이 그래디언트 추정부(420)는 제2컨벌루션부 및 제2가중치 조절부를 포함할 수 있다.

제2컨벌루션부는 레퍼런스 2D 영상(540)에 대해 기 설정된 사이즈의 제2필터를 이용하여 컨벌루션을 수행한다. 컨벌루션은 수회 반복되어 1차 깊이 그래디언트 정보가 생성될 수 있다. 전술된 바와 같이, 깊이 그래디언트 추정부(420)는 다운 샘플링을 수행하지 않으며, 다운 샘플링하지 않으므로 업 샘플링또한 수행하지 않는다. 컨벌루션된 영상, 즉 1차 깊이 그래디언트 정보(560)의 사이즈는 레퍼런스 2D 영상과 동일하다.

제2가중치 조절부 또한 레퍼런스 깊이 정보와 최종 깊이 정보(570)의 차분값을 이용하여, 제2필터의 가중치를 조절한다. 1차 깊이 영상과 같이 복수의 레퍼런스 2D 영상에 대해 학습을 수행하면서 가중치가 조절되고, 결국, 레퍼런스 2D 영상에 대한 1차 깊이 그래디언트 정보는 레퍼런스 깊이 정보와 유사하게 출력될 수 있다.

또한, 실시예에 따라서 제2가중치 조절부는 사전에 트레이닝될 수도 있다. 이 때, 제2가중치 조절부는 하기 수학식에 의해 제2필터의 가중치를 조절한다.

수학식 2에서,

은 총 샘플의 수이고,

는 1차 깊이 그래디언트 정보이며,

는 레퍼런스 깊이 그래디언트 정보이다.

최초 레퍼런스 2D 영상에 대한 1차 깊이 그래디언트 정보는 레퍼런스 깊이 그래디언트 정보와 차이가 크지만, 복수의 레퍼런스 2D 영상에 대해 학습을 수행하면서 가중치가 조절되고, 결국, 레퍼런스 2D 영상에 대한 1차 깊이 그래디언트 정보는 레퍼런스 깊이 그래디언트 정보와 유사하게 출력될 수 있다.

제2가중치 조절부 역시, 제1가중치 조절부와 마찬가지로 컨벌루션된 영상이 레퍼런스 2D 영상에 대한 레퍼런스 깊이 그래디언트 정보가 되도록 제2필터의 가중치를 조절한다.

깊이 정보 생성부(430)는 1차 깊이 정보 및 1차 깊이 그래디언트 정보를 모두 고려하여, 하기 수학식에 의해 최종 깊이 정보를 생성한다.

수학식 3에서,

는 최종 깊이 정보이고,

는 최종 깊이 그래디언트 정보이며,

는 1차 깊이 그래디언트 정보이고,

는 가중치 상수이며,

는 1차 깊이 정보이다.

수학식 3의 해를 구하기 위해 하기 수학식의 SB(split Bregman) 이터레이션을 사용할 수 있다.

수학식 4에서,

는 페널티 상수이고,

는 제1 변수이며,

는 제2 변수이다. 제1 변수와 제2 변수 및 최종 깊이 정보는 이터레이션 과정에 의해 갱신되며, 수학식 4에 의해

번째 갱신되는 제1 변수와 제2 변수 및 최종 깊이 정보가 생성된다.

깊이 정보 생성부(430)는 제1 변수 갱신부, 제2 변수 갱신부, 깊이 정보 갱신부, 페널티 상수 조절부 및 가중치 상수 조절부를 포함할 수 있다. 깊이 정보 생성부(430)는 제1 변수 갱신부, 제2 변수 갱신부 및 깊이 정보 갱신부에서 제1 변수와 제2 변수 및 최종 깊이 정보를 갱신하여 수학식 3을 만족하는 최종 깊이 정보를 생성한다. 또한, 에러 역전파(Back-propagation) 알고리즘을 통해 페널티 상수 조절부 및 가중치 상수 조절부에서는 레퍼런스 깊이 정보와 최종 깊이 정보의 차분값이 최소가 되도록 페널티 상수 및 가중치 상수를 조절한다.

복수의 레퍼런스 2D 영상에 대해 학습을 수행하면서 페널티 변수 및 가중치 변수가 조절되고, 결국, 레퍼런스 2D 영상에 대한 최종 깊이 정보는 레퍼런스 깊이 정보와 유사하게 출력될 수 있다.

이상과 같이, 본 발명의 바람직한 일 실시예에 따른 2D 영상에 대한 깊이 정보 생성 장치에 의한 학습 과정은 다운 샘플링을 수행함으로써 복잡성을 감소시킬 수 있으며, 깊이 그래디언트 정보를 학습함으로써 다운 샘플링 과정에서 손실되는 정보를 보상할 수 있다.

<깊이 영상 생성 과정>

전술된 바와 같이, 본 발명의 바람직한 일 실시예에 따른 2D 영상에 대한 깊이 정보 생성 장치가 학습된 이후, 깊이 영상 추정을 희망하는 2D 영상이 입력된다. 깊이 추정부(410)는 학습된 제1필터의 가중치에 따라서, 컨벌루션, ReLU 연산, 다운 샘플링 및 업 샘플링을 수행하고, 입력된 2D 영상에 대한 1차 깊이 정보를 생성한다. 깊이 그래디언트 추정부(420) 역시 학습된 제2필터의 가중치에 따라서, 컨벌루션을 수행하여, 입력된 2D 영상에 대한 1차 깊이 그래디언트 정보를 생성한다.

그리고 깊이 정보 생성부(430)는 1차 깊이 정보 및 1차 깊이 그래디언트 정보를 입력받아 수학식 3에 의해 최종 깊이 정보를 생성할 수 있다. 학습과정과 마찬가지로, 수학식 3을 풀기 위해 수학식 4의 SB 이터레이션이 사용될 수 있다. 수학식 3의 가중치 상수에는 학습된 가중치 상수가 사용되며, 수학식 4의 페널티 상수 또한 학습된 페널티 상수가 사용될 수 있다.

도 7은 본 발명의 바람직한 일 실시예에 따른 2D 영상에 대한 깊이 정보 생성 방법을 시간의 흐름에 따라 나타낸 순서도이다.

본 발명의 바람직한 일 실시예에 따른 2D 영상에 대한 깊이 정보 생성 방법은 전술된 깊이 정보 생성 장치 또는 프로세서를 포함하는 컴퓨팅 장치에서 수행될 수 있다.

도 7을 참조하면, 본 발명의 바람직한 일 실시예에 따른 2D 영상에 대한 깊이 정보 생성 방법은 사전 훈련 단계(S710), 레퍼런스 2D 영상의 1차 정보 생성 단계(S720), 레퍼런스 2D 영상의 최종 깊이 정보 생성 단계(S730), 학습 단계(S740) 및 입력되는 2D 영상의 최종 깊이 정보 생성 단계(S750)를 포함할 수 있다.

사전 훈련 단계(S710)는 2D 영상에 대한 깊이 정보 생성 장치의 깊이 추정부(410) 및 깊이 그래디언트 추정부(420)를 사전 훈련하는 단계이다. 깊이 추정부(410) 및 깊이 그래디언트 추정부(420)는 다음 단계에서 1차 정보를 보다 정확히 생성할 수 있도록 사전 훈련될 수 있다. 깊이 추정부(410) 및 깊이 그래디언트 추정부(420)는 수학식 1 및 수학식 2에 의해 사전 학습되어 훈련된다.

보다 구체적으로 깊이 정보 생성 장치는 레퍼런스 2D 영상에 대해 기 설정된 사이즈의 제1필터를 이용하여 컨벌루션을 수행하고, 컨벌루션 결과에 대해 다운 샘플링을 수행한다. 그리고 다운 샘플링 결과에 대해 업샘플링을 수행하여, 레퍼런스 2D 영상과 동일한 사이즈의 1차 깊이 정보를 생성한다. 이 때, 깊이 정보 생성 장치는 다운 샘플링 전에, ReLU 연산을 수행할 수 있다.

전술된 컨벌루션, 다운 샘플링, ReLU 연산은 수회 반복될 수 있으며, 깊이 정보 생성 장치는 레퍼런스 깊이 정보와 1차 깊이 정보의 차분값을 이용하여, 제1필터의 가중치를 조절한다.

깊이 정보 생성 장치는 레퍼런스 깊이 정보 학습과 별도로 레퍼런스 깊이 그래디언트 정보를 학습한다. 깊이 정보 생성 장치는 입력 2D 영상에 대한 1차 깊이 그래디언트 정보를 출력한다. 깊이 정보 생성 장치는 레퍼런스 깊이 그래디언트 정보와 1차 깊이 그래디언트 정보의 차분값을 이용하여, 레퍼런스 깊이 그래디언트 정보를 학습한다.

보다 구체적으로 깊이 정보 생성 장치는 레퍼런스 2D 영상에 대해 기 설정된 사이즈의 제2필터를 이용하여 컨벌루션을 수행한다. 컨벌루션은 수회 반복될 수 있다. 이후 레퍼런스 깊이 그래디언트 정보와 1차 깊이 그래디언트 정보의 차분값을 이용하여, 제2필터의 가중치를 조절한다.

레퍼런스 2D 영상의 1차 정보 생성 단계(S720)는 사전 훈련된 깊이 추정부(410) 및 깊이 그래디언트 추정부(420)가 레퍼런스 2D 영상의 1차 깊이 정보 및 1차 깊이 그래디언트 정보를 생성하는 단계이다.

레퍼런스 2D 영상의 최종 깊이 정보 생성 단계(S730)는 깊이 정보 생성부(430)가 생성된 1차 깊이 정보 및 1차 깊이 그래디언트 정보를 모두 고려하여 최종 깊이 정보를 생성하는 단계이다. 최종 깊이 정보는 수학식 3 및 수학식 4에 의해 생성될 수 있다.

학습 단계(S740)는 레퍼런스 2D 영상의 최종 깊이 정보와 레퍼런스 깊이 정보를 비교하여 에러 역전파 알고리즘에 의해 깊이 추정부(410)와 깊이 그래디언트 추정부(420) 및 깊이 정보 생성부(430)를 학습시키는 단계이다. 깊이 추정부(410)의 제1필터의 가중치, 깊이 그래디언트 추정부(420)의 제2필터의 가중치, 깊이 정보 생성부(430)의 가중치 상수 및 페널티 상수가 학습되어 결정될 수 있다.

입력되는 2D 영상의 최종 깊이 정보 생성 단계(S750)는 학습된 2D 영상에 대한 깊이 정보 생성 장치가 입력되는 2D 영상의 최종 깊이 정보를 생성하는 단계이다. 학습된 깊이 추정부(410)는 입력되는 2D 영상의 1차 깊이 정보를 생성하고, 학습된 깊이 그래디언트 추정부(420)는 입력되는 영상의 1차 깊이 그래디언트 정보를 생성하며, 학습된 깊이 정보 생성부(430)는 수학식 3 및 수학식 4에 학습된 가중치 상수 및 페널티 상수를 적용하여 입력되는 2D 영상의 최종 깊이 정보를 생성할 수 있다.

앞서 설명한 기술적 내용들은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예들을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 하드웨어 장치는 실시예들의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 본 발명에서는 구체적인 구성 요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다는 것을 이해할 것이다. 따라서, 본 발명의 사상은 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등하거나 등가적 변형이 있는 모든 것들은 본 발명 사상의 범주에 속한다고 할 것이다.

410: 깊이 추정부
420: 깊이 그래디언트 추정부
430: 깊이 정보 생성부

Claims

레퍼런스 2D 영상 및 레퍼런스 깊이 정보를 학습하여 입력된 2D 영상의 최종 깊이 정보를 생성하는 깊이 정보 생성 장치로서,
2D 영상의 1차 깊이 정보를 생성하는 깊이 추정부;
상기 2D 영상의 1차 깊이 그래디언트 정보를 생성하는 깊이 그래디언트 추정부; 및
상기 1차 깊이 정보 및 상기 1차 깊이 그래디언트 정보를 고려하여 최종 깊이 정보를 생성하는 깊이 정보 생성부를 포함하되,
상기 깊이 추정부와 상기 깊이 그래디언트 추정부 및 상기 깊이 정보 생성부는 상기 레퍼런스 2D 영상에 대한 최종 깊이 정보를 생성하고, 상기 레퍼런스 2D 영상에 대해 생성된 최종 깊이 정보와 상기 레퍼런스 깊이 정보의 차분값이 최소가 되게 하는 상기 레퍼런스 2D 영상에 대한 최종 깊이 정보를 생성하도록 학습되며,
상기 깊이 정보 생성부는 상기 최종 깊이 정보와 상기 1차 깊이 정보의 차분값 및 상기 최종 깊이 정보와 상기 1차 깊이 그래디언트 정보의 차분값이 최소가 되도록 상기 최종 깊이 정보를 생성하는 것을 특징으로 하는 2D 영상에 대한 깊이 정보 생성 장치.
삭제
제1항에 있어서,
상기 깊이 정보 생성부는 하기 수학식에 의해 상기 최종 깊이 정보를 생성하는 것을 특징으로 하는 2D 영상에 대한 깊이 정보 생성 장치.

위 수학식에서,
는 최종 깊이 정보이고,
는 최종 깊이 그래디언트 정보이며,
는 1차 깊이 그래디언트 정보이고,
는 가중치 상수이며,
는 1차 깊이 정보임.
제3항에 있어서,
상기 최종 깊이 정보는 SB 이터레이션에 의해 결정되는 것을 특징으로 하는 2D 영상에 대한 깊이 정보 생성 장치.
제4항에 있어서,
상기 SB 이터레이션의
번째 갱신은 하기 수학식에 의해 수행되는 것을 특징으로 하는 2D 영상에 대한 깊이 정보 생성 장치.

위 수학식에서,
는 최종 깊이 정보이고,
는 최종 깊이 그래디언트 정보이며,
는 1차 깊이 그래디언트 정보이고,
는 가중치 상수이며,
는 1차 깊이 정보이고,
는 페널티 상수이며,
는 제1 변수이고,
는 제2 변수임.
제1항에 있어서,
상기 깊이 추정부와 상기 깊이 그래디언트 추정부 및 상기 깊이 정보 생성부는 에러 역전파 알고리즘에 의해 학습되는 것을 특징으로 하는 2D 영상에 대한 깊이 정보 생성 장치.
제1항에 있어서,
상기 깊이 추정부는 콘볼루션과 다운 샘플링과 업샘플링 및 ReLU 연산을 통해 상기 1차 깊이 정보를 생성하는 것을 특징으로 하는 2D 영상에 대한 깊이 정보 생성 장치.
제1항에 있어서,
상기 깊이 추정부는 상기 레퍼런스 2D 영상의 1차 깊이 정보와 레퍼런스 깊이 정보의 차분값의 평균값이 최소가 되도록 사전에 훈련되어 있는 것을 특징으로 하는 2D 영상에 대한 깊이 정보 생성 장치.
제1항에 있어서,
상기 깊이 그래디언트 추정부는 콘볼루션 및 ReLU 연산을 통해 상기 1차 깊이 그래디언트 정보를 생성하는 것을 특징으로 하는 2D 영상에 대한 깊이 정보 생성 장치.
제1항에 있어서,
상기 깊이 그래디언트 추정부는 상기 레퍼런스 2D 영상의 1차 깊이 그래디언트 정보와 레퍼런스 깊이 그래디언트 정보의 차분값의 평균값이 최소가 되도록 사전에 훈련되어 있는 것을 특징으로 하는 2D 영상에 대한 깊이 정보 생성 장치.
레퍼런스 2D 영상 및 레퍼런스 깊이 정보를 학습하여 입력된 2D 영상의 최종 깊이 정보를 생성하는 깊이 정보 생성 방법으로서,
(a)상기 레퍼런스 2D 영상의 1차 깊이 정보 및 1차 깊이 그래디언트 정보를 생성하는 단계;
(b)상기 레퍼런스 2D 영상의 1차 깊이 정보 및 1차 깊이 그래디언트 정보를 고려하여 상기 레퍼런스 2D 영상의 최종 깊이 정보를 생성하는 단계;
(c)상기 레퍼런스 2D 영상의 최종 깊이 정보와 레퍼런스 깊이 정보의 차분값이 최소가 되도록 하는 상기 (a)단계 및 상기 (b)단계를 학습하는 단계;
(d)상기 학습된 (a)단계 및 상기 (b)단계를 상기 입력된 2D 영상에 대해 수행하여 상기 입력된 2D 영상의 최종 깊이 정보를 생성하는 단계를 포함하되,
상기 (b)단계는 상기 최종 깊이 정보와 상기 1차 깊이 정보의 차분값 및 상기 최종 깊이 정보와 상기 1차 깊이 그래디언트 정보의 차분값이 최소가 되도록 상기 최종 깊이 정보를 생성하는 것을 특징으로 하는 2D 영상에 대한 깊이 정보 생성 방법.
삭제
제11항에 있어서,
상기 (b)단계는 하기 수학식에 의해 상기 최종 깊이 정보를 생성하는 것을 특징으로 하는 2D 영상에 대한 깊이 정보 생성 방법.

위 수학식에서,
는 최종 깊이 정보이고,
는 최종 깊이 그래디언트 정보이며,
는 1차 깊이 그래디언트 정보이고,
는 가중치 상수이며,
는 1차 깊이 정보임.
제13항에 있어서,
상기 (b)단계의 상기 최종 깊이 정보는 SB 이터레이션에 의해 결정되는 것을 특징으로 하는 2D 영상에 대한 깊이 정보 생성 방법.
제14항에 있어서,
상기 SB 이터레이션의
번째 갱신은 하기 수학식에 의해 수행되는 것을 특징으로 하는 2D 영상에 대한 깊이 정보 생성 방법.

위 수학식에서,
는 최종 깊이 정보이고,
는 최종 깊이 그래디언트 정보이며,
는 1차 깊이 그래디언트 정보이고,
는 가중치 상수이며,
는 1차 깊이 정보이고,
는 페널티 상수이며,
는 제1 변수이고,
는 제2 변수임.
제11항에 있어서,
상기 (c)단계는 에러 역전파 알고리즘에 의해 학습되는 것을 특징으로 하는 2D 영상에 대한 깊이 정보 생성 방법.
제11항에 있어서,
상기 (a)단계는 콘볼루션과 다운 샘플링과 업샘플링 및 ReLU 연산을 통해 상기 1차 깊이 정보를 생성하는 것을 특징으로 하는 2D 영상에 대한 깊이 정보 생성 방법.
제11항에 있어서,
상기 (a)단계 이전에,
상기 레퍼런스 2D 영상의 1차 깊이 정보와 레퍼런스 깊이 정보의 차분값의 평균값이 최소가 되도록 상기 (a)단계를 미리 훈련하는 단계를 더 포함하는 것을 특징으로 하는 2D 영상에 대한 깊이 정보 생성 방법.
제11항에 있어서,
상기 (a)단계는 콘볼루션 및 ReLU 연산을 통해 상기 1차 깊이 그래디언트 정보를 생성하는 것을 특징으로 하는 2D 영상에 대한 깊이 정보 생성 방법.
제11항에 있어서,
상기 (a)단계 이전에,
상기 레퍼런스 2D 영상의 1차 깊이 그래디언트 정보와 레퍼런스 깊이 그래디언트 정보의 차분값의 평균값이 최소가 되도록 상기 (a)단계를 미리 훈련하는 단계를 더 포함하는 것을 특징으로 하는 2D 영상에 대한 깊이 정보 생성 방법.
제11항 및 제13항 내지 제20항 중 어느 한 항의 2D 영상에 대한 깊이 정보 생성 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능한 기록매체.