KR102342526B1

KR102342526B1 - 비디오 컬러화 방법 및 장치

Info

Publication number: KR102342526B1
Application number: KR1020200024503A
Authority: KR
Inventors: 나태영; 오지형; 김수예; 김문철
Original assignee: 에스케이텔레콤 주식회사; 한국과학기술원
Priority date: 2020-02-27
Filing date: 2020-02-27
Publication date: 2021-12-23
Also published as: KR20210109719A

Abstract

비디오 컬러화 방법 및 장치를 개시한다.
본 실시예는, 다중 흑백 영상(multiple black-and-white image)을 획득하여, 다양한 손실(diverse loss)을 기반으로 사전에 트레이닝된 딥러닝(deep learning) 기반 추론 모델(inference model)에 입력한다. 특성 추출(feature extraction), 적응적 융합 변환(adaptive fusion transform: AFT) 및 특성 개선(feature enhancement) 기능을 포함하는 추론 모델이 컬러화된 비디오를 자동으로 생성하는 비디오 컬러화(video colorization) 장치 및 방법을 제공한다.

Description

비디오 컬러화 방법 및 장치{Method and Apparatus for Video Colorization}

본 발명은 비디오 컬러화 방법 및 장치에 관한 것이다. 더욱 상세하게는, 딥러닝 모델을 기반으로 고해상도(higher resolution) 흑백 비디오를 자동으로 컬러화하는 비디오 컬러화 방법 및 장치에 관한 것이다.

이하에 기술되는 내용은 단순히 본 발명과 관련되는 배경 정보만을 제공할 뿐 종래기술을 구성하는 것이 아니다.

카메라가 처음으로 도입된 19 세기 이래, 흑백(black-and-white)으로 제작된 방대한 양의 오래된 자료 영상들(old footages)이 존재한다. 역사적 또는 예술적 의미 등 다양한 이유에 따라 이러한 자료들에 대한 컬러화(colorization)가 요구되고 있다. 그러나 이들의 컬러화를 위한 수동 작업은 매우 노동집약적이다. 또한, 흑백 정보로부터 자연스럽고 시각적인(natural and visual) 호소력을 유도할 수 있는 그럴듯하게 다양한(plausibly diverse) 색상이 고려되어야 하므로, 고도의 전문성을 필요로 한다.

딥러닝(deep learning) 기반 알고리즘의 개발에 따라, 이를 이용한 영상 컬러화(image colorization)에 대한 연구가 활발하게 진행되고 있다. 영상 컬러화를 위한 컬러화 작업을 효과적으로 지원하기 위하여, 참조 영상(reference image) 또는 사용자 안내(user-guided) 정보 등을 이용하는 다양한 방법들이 존재한다. 이와 같은 추가적인 단서들(clues)은 컬러화된 결과물의 품질을 개선하는 데는 도움이 된다. 그러나 양질의 참조 영상을 선택하기 위한 기준(criteria) 또는 적절한 안내를 선택하기 위한 전문식견(expertise)이 매우 가변적이어서, 이러한 가변성은 컬러화 결과에 심각하게 영향을 줄 수 있다. 특히, 참조 영상을 이용하는 대부분의 방법들은 학습용 데이터세트를 구성하기 위해, 사소하지 않은(non-trivial) 전처리과정(pre-processing) 과정이 요구되는, 방대한 참조 영상의 수집을 필요로 한다는 문제가 있다.

한편, 컬러화되어야 하는 단색(monochrome) 영상물이 비디오 형태인 경우, 비디오의 각 화면(frame)에 영상 컬러화 방법이 적용되면, 컬러화 결과는 흔히 깜박이는 아티팩트(flickering artifacts) 또는 시간적 일관성(temporal coherence)의 결여된 흔적을 포함할 수 있다. 연속되는 컬러 화면 간에 시간적 일관성을 충족시켜야 한다는 관점에서, 비디오 컬러화(video colorization)는 매우 어려운 작업이다. 기존의 자동화된 비디오 컬러화(Automatic Video Colorization: AVC) 방법(비특허문헌 1 참조)은, 두 개의 연속된 회색 화면(gray frame) 각각의 짝(pair)으로부터 컬러화 비디오의 다양한 세트를 생성함으로써, 화면 별로 영상 컬러화를 적용하던 이전의 방법에 비하여 높은 시간적 일관성을 제시한다.

그러나, 기존의 AVC 방법은, 시간적 일관성을 향상시키는 과정에서, 회색계열의 화면(grayscale frame)에 대하여 갈색(brown) 또는 청색(blue) 톤(tone)을 주로 생성한다는 문제가 있다. 또한 기존의 AVC 방법은, 고해상도(higher resolution)의 비디오(720p의 HD(High-definition) 또는 2160p의 4K UHD (Ultra HD))와 비교하여 제한된 수의 객체를 포함하는, 상대적으로 저해상도(lower resolution)의 비디오(256p 및 480p 비디오)를 트레이닝 및 검증용 데이터세트로 사용한다는 문제가 있다.

따라서, 추가적인 단서의 이용 및 전처리과정에 따른 시간과 비용 소모를 줄이면서도, 다양한 색상과 객체를 포함한 고해상도 흑백 비디오에 대하여 시간적 일관성을 유지하고, 컬러의 다양성을 확보하며, 컬러화 과정에서 발생하는 아티팩트의 영향을 감소시키는 것이 가능한 자동화된 비디오 컬러화 방법이 요구된다.

비특허문헌 1: Chenyang Lei and Qifeng Chen. Fully automatic video colorization with self-regularization and diversity. In CVPR, pages 3753-3761, 2019. 비특허문헌 2: Olaf Ronneberger, Philipp Fischer, and Thomas Brox. U-net: Convolutional networks for biomedical image segmentation. In MICCAI, pages 234-241. Springer, 2015. 비특허문헌 3: Yulun Zhang, Yapeng Tian, Yu Kong, Bineng Zhong, and Yun Fu. Residual dense network for image super-resolution. In CVPR, pages 2472-2481, 2018. 비특허문헌 4: Yanyun Qu, Yizi Chen, Jingying Huang, and Yuan Xie. Enhanced pix2pix dehazing network. In CVPR, pages 8160-8168, 2019. 비특허문헌 5: Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition. In CVPR, pages 770-778, 2016. 비특허문헌 6: Liang-Chieh Chen, George Papandreou, Iasonas Kokkinos, Kevin Murphy, and Alan L Yuille. Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs. TPAMI, 40(4):834-848, 2017. 비특허문헌 7: Karen Simonyan and Andrew Zisserman. Very deep convolutional networks for large-scale image recognition. In ICLR, 2015. 비특허문헌 8: Alexia Jolicoeur-Martineau. The relativistic discriminator: a key element missing from standard gan. In ICLR, 2019. 비특허문헌 9: Dae Young Park and Kwang Hee Lee. Arbitrary style transfer with style-attentional networks. In CVPR, pages 5880-5888, 2019. 비특허문헌 10: William K Pratt. Digital image processing, 2001. Dmitry Ulyanov, Andrea Vedaldi, and Victor Lempitsky. Instance normalization: The missing ingredient for fast stylization. arXiv preprint arXiv:1607.08022, 2016. 비특허문헌 11: Han Zhang, Ian Goodfellow, Dimitris Metaxas, and Augustus Odena. Self-attention generative adversarial networks. In ICML, 2019.

본 개시는, 다중 흑백 영상(multiple black-and-white image)을 획득하여, 다양한 손실(diverse loss)을 기반으로 사전에 트레이닝된 딥러닝(deep learning) 기반 추론 모델(inference model)에 입력한다. 특성 추출(feature extraction), 적응적 융합 변환(adaptive fusion transform: AFT) 및 특성 개선(feature enhancement) 기능을 포함하는 추론 모델이 컬러화된 비디오를 자동으로 생성하는 비디오 컬러화(video colorization) 장치 및 방법을 제공하는 데 주된 목적이 있다.

본 발명의 실시예에 따르면, 비디오 컬러화 장치가 이용하는 비디오 컬러화 방법에 있어서, 복수의 흑백 영상(multiple black-and-white images) 중의 하나인 지정 화면(indicated frame)으로부터 분할추출 모델을 이용하여 분할 맵(segmentation map)을 추출하고, 사전에 트레이닝된 딥러닝(deep learning) 기반 ALP 추출부를 이용하여 상기 분할 맵으로부터 ALP(Adaptive Local Parameter)를 생성하는 과정; 상기 지정 화면으로부터 전역특성 추출 모델을 이용하여 전역특성 맵(global feature map)을 추출하고, 사전에 트레이닝된 딥러닝 기반 AGP 추출부를 이용하여 상기 전역특성 맵으로부터 AGP(Adaptive Global Parameter)를 생성하는 과정; 및 상기 ALP 및 상기 AGP를 이용하는 적응적 융합 변환(Adaptive Fusion Transform: AFT)에 기반하는, 사전에 트레이닝된 딥러닝 기반 추론 모델을 이용하여 상기 복수의 흑백 영상으로부터 컬러화된 화면(colorized frame)을 생성하는 과정을 포함하는 것을 특징으로 하는 비디오 컬러화 방법을 제공한다.

본 발명의 다른 실시예에 따르면, 비디오 컬러화 장치의 학습방법에 있어서, ALP(Adaptive Local Parameter) 및 AGP(Adaptive Global Parameter)를 이용하는 적응적 융합 변환(Adaptive Fusion Transform: AFT)에 기반하는, 딥러닝 기반 추론 모델인 생성기를 이용하여 복수의 흑백 영상(multiple black-and-white images)으로부터 컬러화된 화면(colorized frame)을 생성하는 과정; 딥러닝 기반 제1 구별기를 이용하여 상기 컬러화된 화면과 GT(Ground Truth) 화면을 구별하는 과정; 딥러닝 기반 제2 구별기를 이용하여 상기 컬러화된 화면이 포함된 복수의 컬러 영상(multiple color image)과 복수의 GT 컬러 영상 간의 시간적 일관성(temporal coherence)을 구별하는 과정; 및 상기 생성기, 상기 제1 구별기 및 상기 제2 구별기의 출력을 이용하여 총손실(total loss)을 산정하는 과정을 포함하는 것을 특징으로 하는 학습방법을 제공한다.

본 발명의 다른 실시예에 따르면, 비디오 컬러화 방법이 포함하는 각 단계를 실행시키기 위하여 컴퓨터로 읽을 수 있는 기록매체에 저장된 컴퓨터프로그램을 제공한다.

본 발명의 다른 실시예에 따르면, 비디오 컬러화 장치의 학습방법이 포함하는 각 단계를 실행시키기 위하여 컴퓨터로 읽을 수 있는 기록매체에 저장된 컴퓨터프로그램을 제공한다.

이상에서 설명한 바와 같이 본 실시예에 따르면, 다중 흑백 영상(multiple black-and-white image)을 획득하여, 적응적 융합 변환(adaptive fusion transform: AFT) 기능을 포함하는 딥러닝(deep learning) 기반 추론 모델(inference model)이 컬러화된 비디오를 자동으로 생성하는 비디오 컬러화(video colorization) 장치 및 방법을 제공함으로써, 고해상도(higher resolution)의 흑백 영상에 대하여 시간적 일관성(temporal coherence)을 유지하고, 컬러의 다양성을 확보하는 것이 가능해지는 효과가 있다.

또한 본 실시예에 따르면, 다중 흑백 영상(multiple black-and-white image)을 획득하여, 다양한 손실(diverse loss)을 기반으로 사전에 트레이닝된 딥러닝(deep learning) 기반 추론 모델(inference model)이 컬러화된 비디오를 자동으로 생성하는 비디오 컬러화(video colorization) 장치 및 방법을 제공함으로써, 컬러화 과정에서 발생하는 컬러 블리딩(color bleeding), 블럭 아티팩트(block artifact), 경계 누설(boundary leakage) 등의 문제에 대한 개선이 가능해지는 효과가 있다.

도 1은 본 발명의 일 실시예에 따른 비디오 컬러화 장치의 예시도이다.
도 2는 본 발명의 일 실시예에 따른 비디오 컬러화 장치의 구성요소인 추론 모델의 예시도이다.
도 3은 본 발명의 일 실시예에 따른 DB의 구성도이다.
도 4는 본 발명의 일 실시예에 따른 EH의 구성도이다.
도 5는 본 발명의 일 실시예에 따른 ALP 추출부의 구성도이다.
도 6은 본 발명의 일 실시예에 따른 AGP 추출부의 구성도이다.
도 7은 본 발명의 일 실시예에 따른 학습 모델의 예시도이다.
도 8은 본 발명의 일 실시예에 따른 구별기의 구성도이다.
도 9는 본 발명의 일 실시예에 따른 비디오 컬러화 방법의 순서도이다.
도 10은 본 발명의 일 실시예에 따른 학습 모델에 대한 학습방법의 순서도이다.

이하, 본 발명의 실시예들을 예시적인 도면을 참조하여 상세하게 설명한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 실시예들을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 실시예들의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.

또한, 본 실시예들의 구성요소를 설명하는 데 있어서, 제 1, 제 2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성요소를 다른 구성요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 명세서 전체에서, 어떤 부분이 어떤 구성요소를 '포함', '구비'한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 '…부', '모듈' 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.

첨부된 도면과 함께 이하에 개시될 상세한 설명은 본 발명의 예시적인 실시형태를 설명하고자 하는 것이며, 본 발명이 실시될 수 있는 유일한 실시형태를 나타내고자 하는 것이 아니다.

본 실시예는 비디오 컬러화 방법 및 비디오 컬러화 장치의 구조 및 동작을 개시한다. 보다 자세하게는, 다중 흑백 영상(multiple black-and-white image)을 획득하여, 다양한 손실(diverse loss)을 기반으로 사전에 트레이닝되는 딥러닝(deep learning) 기반 추론 모델(inference model)에 입력한다. 적응적 융합 변환(adaptive fusion transform: AFT) 기능을 포함하는 추론 모델(inference model)이 컬러화된 비디오를 자동으로 생성하는 비디오 컬러화(video colorization) 장치 및 방법을 제공한다.

이하, 흑백(black-and-white), 회색(gray), 회색계열(grayscale) 또는 단색(monochrome)은 모두 동일한 의미를 가지며, 백색, 흰색 및 두 색의 중간 색상들을 의미한다.

특성(feature) 또는 특성 맵(feature map)은, 비디오 컬러화 장치에 포함된 내부 블록이 생성하는 중간 결과물을 의미한다. 비디오 컬러화 장치의 내부 블록은 입력 또는 중간 특성 맵을 변환하여 다른 중간 특성 맵 또는 출력을 생성한다.

이하, 도 1 및 도 2를 이용하여, 비디오 컬러화 장치를 설명한다.

도 1은 본 발명의 일 실시예에 따른 비디오 컬러화 장치의 예시도이다.

도 2는 본 발명의 일 실시예에 따른 비디오 컬러화 장치의 구성요소인 추론 모델의 예시도이다.

본 발명에 따른 실시예에 있어서, 비디오 컬러화 장치(100)는 다중 흑백 영상(multiple black-and-white image)을 획득하여, 적응적 융합 변환(adaptive fusion transform: AFT) 기능을 포함하는 딥러닝(deep learning) 기반 추론 모델(inference model)을 이용하여 컬러화된 비디오를 자동으로 생성한다. 비디오 컬러화 장치(100)는 추론 모델(101), 분할추출부(segmentation extraction unit, 111), ALP(Adaptive Local Parameter) 추출부(112), 전역특성(global feature) 추출부(113) 및 AGP(Adaptive Global Parameter) 추출부(114)의 전부 또는 일부를 포함한다.

본 실시예에 따른 추론 모델(101)은 적응적 융합 변환(Adaptive Fusion Transform: AFT) 기능을 이용하여 다중 흑백 영상(multiple black-and-white image)로부터 컬러화된 비디오를 자동으로 생성한다. 추론 모델(10)은 밀집특성(dense feature) 추출부(102), 인코더(103), 병목부(bottleneck unit, 104), 디코더(105), 특성개선부(feature enhancement unit, 106)의 전부 또는 일부를 포함한다.

본 실시예에 따른 추론 모델(101)은 적어도 하나의 콘볼루션 레이어(convolution layer)를 포함하는 U-net 기반의 딥러닝 모델로 구현되나(비특허문헌 2 참조), 반드시 이에 한정하는 것은 아니다. 예컨대, RNN(Recurrent Neural Network) 또는 CNN(Convolutional Neural Network) 등과 같이 영상 처리 기법을 구현하는 것이 가능한 어느 딥러닝 모델이든 이용될 수 있다. 추론 모델(101)은 학습 모델을 이용하여 사전에 트레이닝될 수 있다. 학습 모델의 구조 및 학습 모델의 트레이닝 과정은 추후 설명하기로 한다.

추론 모델(101)에 입력되는 다중 흑백 영상은 시간 t에서의 중앙 화면(central frame)

을 중심으로 다섯 개의 연속적인 회색계열의 비디오 화면으로 구성된다. 다중 흑백 영상은

로 표현되며, 5차원 채널(channel)인 것처럼 결합(concatenation)된다. 한편, 시간 t에서의 추론 모델(101)의 출력 화면은

로 표현한다. 여기서 위첨자

과 ab는 각각 LAB 색공간(color space)에서의 조도(luminance) 및 색차(chrominance)를 의미한다.

이하, iConvj 및 iDcnvj는 각각 ixi 필터 및 간격(stride) j를 갖는 콘볼루션(convolution) 및 디콘볼루션(deconvolution) 레이어를 의미한다. 채널의 개수는 c(c는 자연수)로 표기된다.

본 실시예에 따른 밀집특성 추출부(102)는 계층적 특성(hierarchical feature)을 이용하여 전역 특성(global feature)을 효과적으로 융합(fusion)한다. 밀집특성 추출부(102)는 1Conv1 레이어, LR(Leaky ReLU) 레이어 및 DB(Dense Block, 비특허문헌 3 참조)를 포함한다. 여기서 LR(Leaky Rectifier Linear Unit)은 활성함수(active function)이다. 밀집특성 추출부(102)는 입력

로부터 c 개의 채널에 해당하는 밀집 특성(dense feature)

를 생성한다.

도 3은 본 발명의 일 실시예에 따른 DB의 구성도이다.

계층적 특성을 이용하여 DB는 전역 특성을 효과적으로 융합한다. 도 3의 (b)에 도시된 바와 같이 DB는 D(D는 자연수) 개의 RDB(Residual Dense Block)을 포함한다. 각 RDB가 생성하는 전역 잔차(global residue)는 채널 별로 계층적으로 결합(concatenation)된 후, DB의 출력을 생성하는 레이어의 입력으로 이용된다. 도 3의 (a)에 도시된 바와 같이 d 번째

는 e(e는 자연수) 개의 부블럭(sub-block)을 포함하며, 각 부블럭은 1Conv1 레이어 및 LR 레이어를 포함한다. 부블럭 각각이 생성하는 국부 잔차(local residue)는 채널 별로 계층적으로 결합된 후,

의 출력을 생성하는 레이어의 입력으로 이용된다.

본 실시예에 따른 인코더(103)는

를 입력으로 받아들여 인코더 출력

를 생성하는데,

는 8c 개의 채널에 해당하는 특성 맵(feature map)이다. 인코더(103)는 복수의 RB(Residual Block)와 RDB(Residual Down Block) 짝(pair)을 포함할 수 있는데, 도 2의 예시에는 3 개의 짝이 포함되어 있다.

입력 x에 대하여, i 번째 RB의 출력

는 수학식 1과 같이 표현될 수 있다.

여기서,

는 RB의 입력과 출력 간의 중간 잔차(intermediate residue)로서, 스킵 연결(skip connection)을 이용하여 디코더(105) 측으로 전달될 수 있다. 또한 연산 기호

는 함수의 합성 연산(composite operation)을 의미한다. 수학식 1에 표현된 바와 같이, RB는 콘볼루션에 기반하는 잔차 생성(residue generation) 기능을 포함한다.

한편, 입력 x에 대하여, i 번째 RDB의 출력

는 수학식 2와 같이 표현될 수 있다.

수학식 2에 표현된 바와 같이 RDB는 콘볼루션에 기반하는 잔차 생성 기능을 내부에 포함한다. 또한, 3Conv2 레이어의 동작으로 인하여

는 다운샘플링(down-sampling)을 실행할 수 있다.

본 실시예에 따른 병목부(104)는

를 입력으로 받아들여 병목 출력

를 생성하는데,

는 8c 개의 채널에 해당하는 특성 맵이다. 병목부(104)는 잔차 생성을 수행하는 복수의 RB 블록을 포함할 수 있는데, 도 2의 예시에는 3 개의 RB 블록이 포함되어 있다.

본 실시예에 따른 디코더(105)는

를 입력으로 받아들여 디코더 출력

를 생성하는데,

는 c 개의 채널에 해당하는 특성 맵이다. 디코더(105)는 복수의 RUB(Residual Up Block)와 RSB(Residual Skip Block) 짝을 포함할 수 있는데, 도 2의 예시에는 3 개의 RUB와 RSB 짝이 포함되어 있다. RUB와 RSB 짝의 개수는 인코더(103)에 포함된 RB와 RUB 짝의 개수와 동일하다. 또한 디코더(106)는 각 RSB의 후단에 AFT 레이어를 포함한다. AFT는 특성 맵 변환(Feature Map Transform: FMT)의 한 형태로서, ALP 및 AGP를 이용하여 각 RSB의 출력을 변환한다. AFT에 대한 자세한 내용은 추후에 설명하기로 한다.

입력 x에 대하여, i 번째 RUB의 출력

는 수학식 3과 같이 표현될 수 있다.

수학식 3에 표현된 바와 같이 RUB는 콘볼루션에 기반하는 잔차 생성 기능을 내부에 포함한다. 또한, 3Dcnv2 레이어의 동작으로 인하여

는 업샘플링(up-sampling)을 실행할 수 있다.

한편, 입력 x에 대하여, i 번째 RSB의 출력

는 수학식 4와 같이 표현될 수 있다.

여기서, 연산자 [a, b]는 두 개의 특성 맵 a와 b 간의 결합(concatenation)을 의미한다. 또한

는 스킵 연결을 이용하여 인코더(103)로부터 전달되는 중간 잔차이다. 수학식 4에 표현된 바와 같이 RSB는 콘볼루션에 기반하는 잔차 생성 기능을 포함한다.

본 실시예에 따른 특성개선부(106)는

를 입력으로 받아들여 특성이 개선된 컬러화 화면인

를 생성한다. 특성개선부(106)는 EH(Enhancer, 비특허문헌 4 참조) 및 Tanh 레이어를 포함한다. 여기서 Tanh는 쌍곡선 탄젠트(hyperbolic tangent) 활성함수이다.

도 4는 본 발명의 일 실시예에 따른 EH의 구성도이다.

다양한 축척의 전역 맥락(global context) 정보의 특성을 이용하는 것은 추론 모델(101)의 성능 개선 측면에서 중요하다. EH는 상호 보완적인 다중 축척의(multi-scale)의 공간적 정보를 충분히 이용하여 디코더 출력의 특성을 개선한다. EH는 복수의 축척(scale) 별 가지(branch)를 포함한다. 도 4의 예시에는 4 개의 가지가 포함되어 있다. 각 가지는 축척 별로 특성 맵의 공간적 정보를 평균 풀링(average pooling)한 후, 각 특성 맵 내에서 가장 가까운 이웃(nearest neighborhood)까지 공간적으로 업샘플링한다. 예컨대, ixi 윈도우를 이용하여 평균 풀링된 경우, ixi 업샘플링을 실행하여 평균이 확산되도록 한다. 각 가지의 출력은 채널 별로 결합된 후, EH의 출력을 생성하는 레이어의 입력으로 이용된다.

영상 또는 비디오에 존재하는 시만틱 객체(semantic object)는 고유의 컬러 톤(color tone)을 가질 수 있다. 기존의 비디오 컬러화 방법에서는 분할 맵(segmentation map) 또는 전역 특성(global feature)이 제공할 수 있는 컬러 관련 정보가 간과된 측면이 있다. 본 실시예에 따른 AFT는, 입력 화면으로부터 생성할 수 있는 분할 맵 또는 전역 특성을 이용함으로써, 참조 영상 또는 사용자 안내 정보 등을 대체하고, 내부의 특성 맵에만 의존하는 기존 FMT 방법의 단점을 보완할 수 있다. AFT는 자기 안내(self-guided) FMT로서, 입력 화면으로부터 추출된 국부적인 힌트(local hint)인 분할 관련(segmentation-related) 특성 및 전역적인 힌트(global hint)인 전역 특성을 이용하여, 디코더(105)의 구성요소인 RSB가 생성하는 중간 출력을 변환할 수 있다.

본 실시예에 따른 분할추출부(111)는 다중 입력

의 중앙 화면

을 기트레이닝된(pre-trained) 분할추출 모델에 입력하여 분할 맵(segmentation map)

를 생성한다. 본 실시예에서는 분할추출 모델로서 ResNet-101을 근간(backbone)으로 하는(비특허문헌 5 참조) DeepLab v2를 이용하나(비특허문헌 6 참조), 반드시 이에 한정되는 것은 아니며, 분할추출 모델은 객체 분할을 수행할 수 있는 어느 딥러닝 모델이든 될 수 있다.

도 5는 본 발명의 일 실시예에 따른 ALP 추출부의 구성도이다.

본 실시예에 따른 ALP 추출부(112)는 분할 맵

를 입력으로 받아들여 ALP를 생성한다. ALP 추출부(112)는 공통 특성(shared feature)을 추출하는 공통 부분 및 공통 특성을 이용하여 ALP를 생성하는 복수의 독립적인 부분을 포함한다. 도 5의 도시에는 3 개의 독립적인 부분이 포함되어 있으며, 독립적인 부분의 개수는 디코더(105)에 포함된 RUB와 RSB 짝의 개수와 동일하다. ALP는 스케일(scale) 파라미터인

과 바이어스(bias) 파라미터인

를 포함한다.

는 공간적 해상도(spatial resolution)의 수준을 의미하는데, k는 입력의

배의 공간적 해상도를 갖는 공간적 크기(spatial size)를 의미한다. 여기서 k는 0, 1 및 2의 값을 갖는다.

본 실시예에 따른 전역특성 추출부(113)는 다중 입력

의 중앙 화면

을 기트레이닝된 전역특성 추출 모델에 입력하여 전역특성 맵

를 생성한다. 본 발명의 실시예에서는 전역특성 추출 모델로서 VGG19를 이용하나(비특허문헌 7 참조), 반드시 이에 한정되는 것은 아니며, 전역특성 추출 모델은 전역 특성을 추출할 수 있는 어느 딥러닝 모델이든 될 수 있다.

도 6은 본 발명의 일 실시예에 따른 AGP 추출부의 구성도이다.

본 실시예에 따른 AGP 추출부(114)는 전역특성 맵

를 입력으로 받아들여 AGP를 생성한다. AGP 추출부(114)는 공통 특성(shared feature)을 추출하는 공통 부분 및 공통 특성을 이용하여 AGP(

및

)를 생성하는 복수의 독립적인 부분을 포함한다. 도 6의 도시에는 3 개의 독립적인 부분이 포함되어 있으며, 독립적인 부분의 개수는 디코더(105)에 포함된 RUB와 RSB 짝의 개수와 동일하다. AGP는 스케일 파라미터인

과 바이어스 파라미터인

를 포함한다. 도 6에 도시된 바와 같이, 독립적인 부분의 첫 단계인 GAP(Global Average Pooling) 층은 공통 특성으로부터 전역 공간 정보가 집약된 1x1 스칼라 정보를 생성한다. 독립적인 부분의 나머지 단계는 AGP를 생성한다.

각

에 대한

의 출력

는, RSB의 출력에 해당하는 입력 I에 대하여 수학식 5로 표현된다.

여기서 기호

는 원소 간의(element-wise) 곱셉을 의미한다. 또한

는 트레이닝 가능한 가중치(weight)로서 ALP 및 AGP의 반영 비율을 의미한다.. 수학식 5에 표현된 바와 같이, AFT는 국부적인 힌트로 추출된 분할 관련 특성 및 전역 힌트로 추출된 VGG19 관련 특성을 적응적으로 융합(fusion)한다.

ALP 추출부(112), AGL 추출부(114) 및

는 추론 모델(101)의 트레이닝 시에 함께 트레이닝될 수 있다. 한편, 분할추출부(111) 및 전역특성 추출부(113)는 전술한 바와 같이 기트레이닝된 딥러닝 모델을 이용한다.

도 1 및 도 2의 도시는 본 실시예에 따른 예시적인 구성이며, 입력의 형태, 추론 모델의 구조 및 트레이닝 방법에 따라 다른 구성요소 또는 구성요소 간의 다른 연결을 포함하는 구현이 가능하다.

본 실시예에 따른 추론 모델(101)은 컬러화된 비디오를 생성하기 위하여 사전에 학습되는 딥러닝 기반의 학습 모델을 이용한다. 본 실시예에서는, 비디오 컬러화 장치(100)의 추론 모델(101)을 생성기(generator)로 사용하고, 생성기 및 2 개의 구별기(discriminator)를 포함하는 GAN(Generative Adversarial Networks) 기반 학습 모델(700)을 이용하여 추론 모델(101)이 트레이닝될 수 있다. 본 실시예는 GAN 기반 학습 모델(700)을 채택함으로써, 놈(norm) 기반의 손실(loss)에 의존하는 트레이닝의 단점을 보완하고, 컬러화된 결과에 대한 인지 성능(perceptual quality)을 개선할 수 있다.

이하 도 7 및 도 8을 참조하여, 학습 모델(700)의 트레이닝 과정에 대해 설명하도록 한다.

도 7은 본 발명의 일 실시예에 따른 학습 모델의 예시도이다.

본 실시예에서는 GAN 기반 학습 모델(700)을 이용하여 비디오 컬러화 장치(100) 상의 추론 모델(101)에 대한 트레이닝이 실행된다. 학습 모델(700)은 생성기(추론 모델, 101)를 포함하는 비디오 컬러화 장치(100), 색상변환부(701), 제1 구별기(702) 및 제2 구별기(703)의 전부 또는 일부를 포함한다. 여기서, 본 실시예에 따른 학습 모델(700)에 포함되는 구성요소가 반드시 이에 한정되는 것은 아니다. 예컨대, 학습 모델(700)은 비디오 컬러화 장치(100)의 트레이닝을 위한 트레이닝부(미도시)를 추가로 구비하거나, 외부의 트레이닝부와 연동되는 형태로 구현될 수 있다. 또한 학습 모델(700)은 소벨 연산자(Sobel operator)을 추가로 구비하여, 손실(loss)의 산정에 이용할 수 있다.

GAN 기반 학습 모델의 생성기는 다중 흑백 영상

으로부터 컬러화된 화면

를 생성한다.

분할추출부(111), ALP 추출부(112), 전역특성추출부(113) 및 AGP 추출부는 ALP 및 AGP를 생성하여 생성기(101)에 포함된 AFT 레이어 측으로 제공한다.

색상변환부(701)는 생성기의 출력

와 다중 흑백 영상의 중앙 화면인

를 결합하여 RGB 공간 상의 화면인

를 생성한다.

는 비디오 입력

의 생성에 이용될 수 있다.

제1 구별기(702)

는 이미지 입력

및

를 구분한다. 여기서

는 시간 t에서의 GT(Ground Truth) RGB 이미지이다.

제2 구별기(703)

는 두 입력 간의 시간적 셀프 어텐션(temporal self-attention)을 구별한다. 즉 비디오 입력

와

를 구별한다. 여기서

만이 예측된 이미지이고, 나머지는 GT RGB 이미지이다. 제2 구별기(703)는 비디오 컬러화 장치(100)가 시간적 일관성을 고려하면서

를 추론하도록 한다.

도 8은 본 발명의 일 실시예에 따른 구별기의 구성도이다.

본 실시예에 따른 제1 구별기(702) 및 제2 구별기(703)는 도 8에 도시된 바와 같은 딥러닝 기반 모델로 동일하게 구현되나, 반드시 이에 한정하는 것은 아니다. 두 개의 영상 입력을 구별할 수 있는 어느 형태의 딥러닝 모델이든 구별기로 이용될 수 있다. 또한 제1 구별기(702) 및 제2 구별기(703)는 서로 다른 구조의 딥러닝 모델로 구현될 수 있다.

구별기는 안정적인 트레이닝을 위하여 IN(Instance Normalization) 레이어를 포함한다(비특허문헌 10 참조). 구별기는 셀프 어텐션 레이어를 포함하여(비특허문헌 11 참조), 구별기의 중간 특성 맵 간에 존재하는 긴 범위의(long-range) 의존성을 포착(capture)함으로써, 생성기 즉 추론 모델(101)의 성능 개선을 유도할 수 있다. 또한 구별기는 특성 맵

를 생성한다. 도 8에 도시된 바와 같이,

는 세 개의 LR 및 셀프 어텐션 레이어의 출력이다.

생성기 및 구별기를 트레이닝할 때, 트레이닝부는 GAN 구조에 기반하는 손실 외에도 다양한 형태 놈(norm) 기반 손실을 이용할 수 있다.

본 실시예에 따른 트레이닝부는 RaHinge(Relativistic Average Hinge) GAN 손실(비특허문헌 8 참조)을 대립적 손실(adversarial loss)로서 이용한다. 대립적 손실은 수학식 6으로 표현된다.

여기서,

및

는 각각 구별기 D(제1 구별기(702)

및 제2 구별기(703)

) 및 생성기 G의 GAN 손실이다. 또한

이고,

이다. Y는 GT 화면 또는 GT 다중 컬러 화면을 의미하고, P는 컬러화된 화면 또는 컬러화된 화면을 포함하는 다중 컬러 화면을 의미한다.

GAN에 대한 안정적인 트레이닝을 위하여 특성매칭 손실(feature-matching loss)이 이용될 수 있다. 특성매칭 손실

은 수학식 7로 표현된다.

특성매칭 손실은 구별기 D(

및

)의 Y 및 P의 특성 맵

간의 L1 손실이다.

추가적인 손실 항목을 산정하기 위하여, 전역특성 추출부(113)가 생성하는 전역특성 맵이 이용될 수 있다. 본 실시예에서는 전역특성 추출 모델인 VGG19이 생성하는 전역특성 맵을 이용한다.

VGG19의 특성 맵을 이용하여 산정되는 스타일 손실(style loss)이 이용될 수 있다(비특허문헌 9 참조). 스타일 손실

은 Y 및 P에 대한 특성 맵

에 기반하는 L1 손실이고, 수학식 8로 표현된다.

여기서 i는 VGG19의 구성요소인 ReLU_i_1 레이어를 나타내고,

및

는 각각 평균 및 표준편차를 의미한다. 수학식 8에서, i는 4 및 5가 반영되었으나, 반드시 이에 한정하는 것은 아니다.

VGG19의 특성 맵을 이용하여 산정되는 콘텐츠 손실(content loss)이 이용될 수 있다(비특허문헌 9 참조). 콘텐츠 손실

은 Y 및 P에 대한 특성 맵

에 기반하는 L1 손실이고, 수학식 9로 표현된다.

여기서,

는

가 채널 별로 평균-분산 측면에서 정규화된 맵(normalized map)이다.

VGG19의 인지 손실(perceptual loss)이 이용될 수 있다. 인지 손실

는 Y 및 P에 대한 특성 맵 간의 차이에 기반하는 L1 손실이고, 수학식 10으로 표현된다.

소벨 연산자는 미분(derivative)을 이용하여 영상에 존재하는 경계를 검출할 수 있다. 본 실시예에서는, 소벨 연산자

가 생성하는 Y 및 P의 경계 맵(edge map) 간의 L2 손실인 경계 손실(edge loss)이 이용될 수 있다. 경계 손실

는 수학식 11로 표현된다.

여기서 v 및 h는 각각 경계 맵의 수직 및 수평 구성요소이다.

색차성분 간의 차이에 기반하는 재구성 손실(reconstruction loss)이 이용될 수 있다. 재구성 손실

는 L1 손실이고, 수학식 12로 표현된다.

이상의 손실을 결합하여 GAN 기반 학습 모델의 총손실(total loss)은 수학식 13 및 14로 표현될 수 있다.

여기서, i, v는 각각 제1 구별기(702)

및 제2 구별기(703)

와 관련된 손실을 의미한다. 또한 모든

는 손실에 관련된 하이퍼파라미터들이다.

트레이닝을 위한 학습용 GT 비디오로는 YouTube^TM에서 수집된 4K(3840x2160) 데이터세트가 이용된다. 기존의 방식(비특허문헌 1 참조)과 비교하여, 학습용 GT 비디오는 고해상도이고, 풍부한 컬러와 다양한 객체를 포함한다.

고해상도 흑백 비디오 및 학습용 GT 비디오를 이용하여 학습 모델(700)을 효과적으로 트레이닝하여, 추론 모델(101)이 수행하는 컬러화 과정에서 발생할 수 있는 다양한 아티팩트(artifact)의 영향을 감소시키기 위해, 트레이닝부는 다음과 같은 방법을 실행할 수 있다.

본 실시예에 따른 트레이닝부는 총손실이 감소되는 방향으로 생성기(101), 제1 구별기(702) 및 제2 구별기(703)의 파라미터를 업데이트한다.

또한, 총손실에 포함된 손실 항목의 전부 또는 일부가 감소되는 방향으로 생성기(101), 제1 구별기(702) 및 제2 구별기(703)의 파라미터가 업데이트될 수 있다.

또한, 총손실에 포함된 손실 항목의 전부 또는 일부가 감소되는 방향으로 생성기(101), 제1 구별기(702) 및 제2 구별기(703) 중 적어도 하나의 파라미터가 업데이트될 수 있다.

트레이닝부는 학습 모델(700)에 대한 트레이닝을 두 과정으로 진행한다.

첫 번째 과정에서, 분할추출부(111) 및 전역특성 추출부(113)에 포함된 딥러닝 모델이 기트레이닝(pre-training)된다.

두 번째 과정에서, 생성기(101) 및 두 개의 구별기가 트레이닝된다. 트레이닝부는 수학식 13 및 14에 표현된 총손실을 감소시키는 방향으로 생성기(101), 제1 구별기(702) 및 제2 구별기(703)의 파라미터를 업데이트한다. 전술한 바와 같이 생성기(101)가 트레이닝될 때, ALP 추출부(112) 및 AGP 추출부(114)도 함께 트레이닝될 수 있다.

GAN 기반 딥러닝 모델의 트레이닝은 어려운 것으로 알려져 있다. 특히, 학습의 초기 단계에서 안정적인 트레이닝을 실행하는 것이 어려울 수 있다. 따라서, 두 번째 트레이닝 과정에서, 본 실시예에 따른 트레이닝부는 하이퍼파라미터

각각에 대한 설정을 변경함으로써, 학습 모델(700)에 대한 학습 효율을 증대시킬 수 있다. 트레이닝 초기 단계에서, 트레이닝부는 수학식 13 및 14에 표현된 총손실 중에서 일부 항목에 대한

를 영(zero) 로 설정하여 트레이닝을 진행할 수 있다. 예컨대 스타일 손실, 재구성 손실, 콘텐츠 손실 및/또는 인지 손실 항목이 활성화되고, 대립적 손실, 특성 매칭 손실 및 경계 손실을 포함하는 나머지 손실 항목은 비활성화될 수 있다.

생성기(101)의 동작이 안정된 후기 단계에서, 트레이닝부는 영으로 설정되었던

를 영이 아닌 값으로 설정함으로써, 모든 손실 항목을 이용하여 생성기(101) 및 두 개의 구별기의 파라미터를 업데이트할 수 있다. 또한 AFT도 후기 단계에서 활성화함으로써, 초기 단계에서 트레이닝부는 추론 모델(101)의 안정화를 집중적으로 도모하고, 후기 단계에서 추론 모델의 성능을 정밀 조정(fine-tuning)할 수 있다. 여기서, AFT를 활성화한다는 것은, ALP 추출부(112) 및 AGP 추출부(114)에 대한 트레이닝을 실행하고, ALP 및 AGP의 반영 비율을 결정하는 가중치도 트레이닝한다는 의미이다.

이상에서 설명한 바와 같이 본 실시예에 따르면, 다중 흑백 영상(multiple black-and-white image)을 획득하여, 다양한 손실(diverse loss)을 기반으로 사전에 트레이닝된 딥러닝(deep learning) 기반 추론 모델(inference model)이 컬러화된 비디오를 자동으로 생성하는 비디오 컬러화 장치를 제공함으로써, 컬러화 과정에서 발생하는 컬러 블리딩(color bleeding), 블럭 아티팩트(block artifact), 경계 누설(boundary leakage) 등의 문제에 대한 개선이 가능해지는 효과가 있다.

본 실시예에 따른 비디오 컬러화 장치(100)가 탑재되는 디바이스(미도시)는 프로그램가능 컴퓨터 또는 스마트폰 등의 정보처리 장치일 수 있으며, 서버(미도시)와 연결이 가능한 적어도 한 개의 통신 인터페이스를 포함한다.

전술한 바와 같은 추론 모델에 대한 트레이닝은, 비디오 컬러화 장치(100)가 탑재되는 디바이스의 컴퓨팅 파워를 이용하여 비디오 컬러화 장치(100)가 탑재되는 디바이스에서 진행될 수 있다.

전술한 바와 같은 비디오 컬러화 장치(100)의 추론 모델(101)에 대한 트레이닝은 서버에서 진행될 수 있다. 디바이스 상에 탑재된 비디오 컬러화 장치(100)의 구성요소인 추론 모델(101)과 동일한 구조의 딥러닝 모델에 대하여 서버의 트레이닝부는 트레이닝을 수행할 수 있다. 디바이스와 연결되는 통신 인터페이스를 이용하여 서버는 트레이닝된 딥러닝 모델의 파라미터를 디바이스로 전달하고, 전달받은 파라미터를 이용하여 비디오 컬러화 장치(100)는 추론 모델(101)의 파라미터를 설정할 수 있다. 또한 디바이스의 출하 시점 또는 비디오 컬러화 장치(100)가 디바이스에 탑재되는 시점에, 추론 모델(101)의 파라미터가 설정될 수 있다.

도 9는 본 발명의 일 실시예에 따른 비디오 컬러화 방법의 순서도이다.

도 9의 (a)는 비디오 컬러화 장치(100)가 수행하는 비디오 컬러화 방법의 순서도이다.

비디오 컬러화 장치(100)는 다중 흑백 영상(multiple black-and-white image)의 중앙 화면(center frame)으로부터 분할추출 모델을 이용하여 분할 맵(segmentation map)을 추출하고, 사전에 트레이닝된 딥러닝(deep learning) 기반 ALP(Adaptive Local Parameter) 추출부를 이용하여 상기 분할 맵으로부터 ALP를 생성한다(S901).

ALP는 스케일(scale) 파라미터와 바이어스(bias) 파라미터를 포함한다.

비디오 컬러화 장치(100)는 다중 흑백 영상의 중앙 화면으로부터 전역특성 추출 모델을 이용하여 전역특성 맵(global feature map)을 추출하고, 사전에 트레이닝된 딥러닝 기반 AGP 추출부를 이용하여 전역특성 맵으로부터 AGP(Adaptive Global Parameter)를 생성한다(S902).

AGP는 스케일 파라미터와 바이어스 파라미터를 포함한다.

비디오 컬러화 장치(100)는 ALP 및 AGP를 이용하는 적응적 융합 변환(Adaptive Fusion Transform: AFT)에 기반하는, 사전에 트레이닝된 딥러닝 기반 추론 모델을 이용하여 다중 흑백 영상으로부터 컬러화된 화면을 생성한다(S903).

AFT는 국부적인 힌트(local hint)인 분할 관련 특성 및 전역적인 힌트(global hint)인 전역 특성을 적응적으로 융합(fusion)한다.

분할추출 모델 및 전역특성 추출 모델은, 추론 모델(101)이 학습되기 전에 기트레이닝되는(pre-trained) 딥러닝 모델로 구현된다.

한편, ALP 추출부(112) 및 AGL 추출부(114)는 추론 모델(101)의 트레이닝 시에 함께 트레이닝될 수 있다.

도 9의 (b)는 추론 모델(101)이 실행하는 S903 단계를 상세하게 나타낸 순서도이다.

다중 흑백 영상을 획득하여 전역 특성(global feature)을 융합한 밀집 특성(dense feature)을 생성한다(S911). 추론 모델(101)은 계층적 특성(hierarchical feature)을 이용하여 전역 특성이 효과적으로 융합된 밀집 특성을 생성할 수 있다.

추론 모델(101)은 밀집 특성을 인코더에 입력하고, 콘볼루션에 기반하는 잔차 생성 기능을 이용하여 밀집 특성이 다운샘플링(down-sampling)된 인코더 출력을 생성한다(S912). 추론 모델(101)은 인코더(103)을 이용하여 다중 흑백 영상에 대한 특성 맵인 인코더 출력을 생성할 수 있다.

추론 모델(101)은 잔차 생성 기능을 이용하여 인코더 출력으로부터 병목(bottleneck) 출력을 생성한다(S913).

추론 모델(101)은 병목 출력을 디코더에 입력하고, AFT 및 잔차 생성 기능을 이용하여 상기 병목 출력이 업샘플링(up-sampling)된 디코더 출력을 생성한다(S914). 스킵 연결을 이용하여, 추론 모델(101)은 인코더(103)에서 생성된 중간 잔차(intermediate residue)를 디코터(105) 측으로 전달할 수 있다.

추론 모델(101)은 디코더(103)을 이용하여 다중 흑백 영상에 대한 특성 맵으로부터 예비적인 (preliminary) 추론 결과인 디코더 출력을 생성할 수 있다.

추론 모델(101)은 디코더 출력의 특성을 개선하여 컬러화된 화면을 생성한다(S915). 추론 모델(101)은 다중 축척의(multi-scale)의 공간적 정보를 이용하여 예비적인 추론 결과인 디코더 출력의 특성이 개선된 컬러화된 화면을 생성할 수 있다.

도 10은 본 발명의 일 실시예에 따른 학습 모델에 대한 학습방법의 순서도이다.

트레이닝부는 다중 흑백 영상의 중앙 화면으로부터 분할추출 모델을 이용하여 분할 맵을 추출하고, ALP 추출부를 이용하여 분할 맵으로부터 ALP를 생성한다(S1001).

트레이닝부는 중앙 화면으로부터 전역특성 추출 모델을 이용하여 전역특성 맵을 추출하고, AGP 추출부를 이용하여 전역특성 맵으로부터 AGP를 생성한다(S1002).

트레이닝부는 ALP 및 AGP를 이용하는 적응적 융합 변환(Adaptive Fusion Transform: AFT)에 기반하는, 딥러닝 기반 추론 모델인 생성기를 이용하여 다중 흑백 영상으로부터 컬러화된 화면을 생성한다(S1003).

AFT는 국부적인 힌트인 분할 관련 특성 및 전역적인 힌트인 전역 특성을 적응적으로 융합(fusion)한다.

트레이닝부는 제1 구별기를 이용하여 컬러화된 화면과 GT(Ground Truth) 화면을 구별한다(S1004).

트레이닝부는 제2 구별기를 이용하여 컬러화된 화면이 중앙 화면으로 포함된 다중 컬러 화면과 GT 다중 컬러 화면 간의 시간적 일관성을 구별한다(S1005).

제1 구별기(702) 및 제2 구별기(703)는 딥러닝 기반 모델로 구현되며, 두 개의 영상 입력을 구별할 수 있는 어느 형태의 딥러닝 모델이든 구별기로 이용될 수 있다.

트레이닝부는 생성기, 제1 구별기 및 제2 구별기의 출력을 이용하여 총손실(total loss)을 산정한다(S1006).

총손실을 구성하는 각각의 손실 항목에 대한 내용은 이미 설명되었으므로, 더 이상의 자세한 설명은 생략한다.

트레이닝부는 총손실에 포함된 손실 항목의 전부 또는 일부가 감소되는 방향으로 생성기, 제1 구별기 및 제2 구별기 중 적어도 하나의 파라미터를 업데이트한다(S1007).

본 실시예에 따른 각 순서도에서는 각각의 과정을 순차적으로 실행하는 것으로 기재하고 있으나, 반드시 이에 한정되는 것은 아니다. 다시 말해, 순서도에 기재된 과정을 변경하여 실행하거나 하나 이상의 과정을 병렬적으로 실행하는 것이 적용 가능할 것이므로, 순서도는 시계열적인 순서로 한정되는 것은 아니다.

본 명세서에 설명되는 시스템들 및 기법들의 다양한 구현예들은, 디지털 전자 회로, 집적 회로, FPGA(field programmable gate array), ASIC(application specific integrated circuit), 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 이들의 조합으로 실현될 수 있다. 이러한 다양한 구현예들은 프로그래밍가능 시스템 상에서 실행가능한 하나 이상의 컴퓨터 프로그램들로 구현되는 것을 포함할 수 있다. 프로그래밍가능 시스템은, 저장 시스템, 적어도 하나의 입력 디바이스, 그리고 적어도 하나의 출력 디바이스로부터 데이터 및 명령들을 수신하고 이들에게 데이터 및 명령들을 전송하도록 결합되는 적어도 하나의 프로그래밍가능 프로세서(이것은 특수 목적 프로세서일 수 있거나 혹은 범용 프로세서일 수 있음)를 포함한다. 컴퓨터 프로그램들(이것은 또한 프로그램들, 소프트웨어, 소프트웨어 애플리케이션들 혹은 코드로서 알려져 있음)은 프로그래밍가능 프로세서에 대한 명령어들을 포함하며 "컴퓨터가 읽을 수 있는　기록매체"에 저장된다.

컴퓨터가 읽을 수 있는　기록매체는, 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 이러한 컴퓨터가 읽을 수 있는　기록매체는 ROM, CD-ROM, 자기 테이프, 플로피디스크, 메모리 카드, 하드 디스크, 광자기 디스크, 스토리지 디바이스 등의 비휘발성(non-volatile) 또는 비일시적인(non-transitory) 매체일 수 있으며, 또한 캐리어 웨이브(예를 들어, 인터넷을 통한 전송) 및 데이터 전송 매체(data transmission medium)와 같은 일시적인(transitory) 매체를 더 포함할 수도 있다. 또한 컴퓨터가 읽을 수 있는　기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수도 있다.

본 명세서에 설명되는 시스템들 및 기법들의 다양한 구현예들은, 프로그램가능 컴퓨터에 의하여 구현될 수 있다. 여기서, 컴퓨터는 프로그램가능 프로세서, 데이터 저장 시스템(휘발성 메모리, 비휘발성 메모리, 또는 다른 종류의 저장 시스템이거나 이들의 조합을 포함함) 및 적어도 한 개의 커뮤니케이션 인터페이스를 포함한다. 예컨대, 프로그램가능 컴퓨터는 서버, 네트워크 기기, 셋탑 박스, 내장형 장치, 컴퓨터 확장 모듈, 개인용 컴퓨터, 랩탑, PDA(Personal Data Assistant), 클라우드 컴퓨팅 시스템 또는 모바일 장치 중 하나일 수 있다.

이상의 설명은 본 실시예의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 실시예들은 본 실시예의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 실시예의 기술 사상의 범위가 한정되는 것은 아니다. 본 실시예의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 실시예의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

100: 비디오 컬러화 장치 101: 추론 모델
102: 밀집특성 추출부 103: 인코더
104: 병목부 105: 디코더
106: 특성개선부
111: 분할추출부 112: 전역특성 추출부
113: ALP 추출부 114: AGP 추출부
700: 학습 모델 701: 색상변환부
702: 제1 구별기 703: 제2 구별기

Claims

비디오 컬러화 장치가 이용하는 비디오 컬러화 방법에 있어서,
복수의 흑백 영상(multiple black-and-white images) 중의 하나인 지정 화면(indicated frame)으로부터 분할추출 모델을 이용하여 분할 맵(segmentation map)을 추출하고, 사전에 트레이닝된 딥러닝(deep learning) 기반 ALP 추출부를 이용하여 상기 분할 맵으로부터 ALP(Adaptive Local Parameter)를 생성하는 과정;
상기 지정 화면으로부터 전역특성 추출 모델을 이용하여 전역특성 맵(global feature map)을 추출하고, 사전에 트레이닝된 딥러닝 기반 AGP 추출부를 이용하여 상기 전역특성 맵으로부터 AGP(Adaptive Global Parameter)를 생성하는 과정; 및
적응적 융합 변환(Adaptive Fusion Transform: AFT)에 기반하는, 사전에 트레이닝된 딥러닝 기반 추론 모델을 이용하여 상기 복수의 흑백 영상으로부터 컬러화된 화면(colorized frame)을 생성하는 과정
을 포함하되,
상기 ALP는, 상기 지정 화면의 컬러에 대한 국부적인 특성(local feature)이고,
상기 AGP는, 상기 지정 화면의 컬러에 대한 전역적인 특성(global feature)이며,
상기 AFT는, 상기 ALP 및 상기 AGP의 특성을 반영하여 상기 추론 모델의 내부에서 생성되는 중간 출력을 변환하는 것을 특징으로 하는 비디오 컬러화 방법.
제1항에 있어서,
상기 AFT는,
상기 중간 출력으로부터 상기 ALP를 이용하여 상기 지정 화면의 국부적인 특성이 반영된 국부특성 개선화면을 생성하고, 상기 중간 출력으로부터 상기 AGP를 이용하여 상기 지정 화면의 전역적인 특성이 반영된 전역특성 개선화면을 생성하며, 상기 국부특성 개선화면과 상기 전역특성 개선화면을 적응적으로(adaptively) 가중합(weighted sum)함으로써 상기 국부적인 특성 및 상기 전역적인 특성을 융합(fusion)하는 것을 특징으로 하는 비디오 컬러화 방법.
제1항에 있어서,
상기 추론 모델이 상기 컬러화된 화면을 생성하는 과정은,
상기 복수의 흑백 영상의 전역 특성을 융합한 밀집 특성(dense feature)을 생성하는 단계;
상기 밀집 특성을 인코더에 입력하고, 잔차 생성(residue generation) 기능을 이용하여, 잔차 및 인코더 출력을 생성하는 단계, 여기서, 인코더 출력은 상기 밀집 특성이 다운샘플링(down-sampling)되어 생성됨;
상기 잔차 생성 기능을 이용하여 상기 인코더 출력으로부터 병목(bottleneck) 출력을 생성하는 단계;
상기 잔차, 상기 병목 출력, 상기 ALP 및 상기 AGP를 디코더에 입력하여 상기 병목 출력이 업샘플링(up-sampling)된 디코더 출력을 생성하는 단계; 및
상기 디코더 출력의 특성을 개선하여 상기 컬러화된 화면을 생성하는 단계
를 포함하는 것을 특징으로 하는 비디오 컬러화 방법.
제3항에 있어서,
상기 디코더는,
적어도 하나의 RUB(Residual Up Block)와 RSB(Residual Skip Block)의 짝(pair), 및 상기 RSB 각각의 후단에 상기 AFT를 수행하는 레이어를 포함하되,
상기 RUB는 입력에 대한 업샘플링을 수행하고, 상기 RSB는 스킵 경로를 이용하여 상기 인코더로부터 전달된 잔차와 상기 RUB의 출력을 결합하여 상기 중간 출력을 생성하는 것을 특징으로 하는 비디오 컬러화 방법.
제1항에 있어서,
상기 분할추출 모델 및 상기 전역특성 추출 모델 각각은,
딥러닝 모델로 구현되되, 상기 추론 모델에 대한 학습을 수행하기 전에 기트레이닝되는(pre-trained) 것을 특징으로 하는 비디오 컬러화 방법.
비디오 컬러화 장치가 수행하는 학습방법에 있어서,
딥러닝 기반 추론 모델인 생성기를 이용하여 복수의 흑백 영상(multiple black-and-white images)으로부터 컬러화된 화면(colorized frame)을 생성하는 과정;
딥러닝 기반 제1 구별기를 이용하여 상기 컬러화된 화면과 GT(Ground Truth) 화면을 구별하는 과정;
딥러닝 기반 제2 구별기를 이용하여 상기 컬러화된 화면이 포함된 복수의 컬러 영상(multiple color image)과 복수의 GT 컬러 영상 간의 시간적 일관성(temporal coherence)을 구별하는 과정;
상기 컬러화된 화면, 상기 GT 화면, 및 상기 복수의 GT 컬러 영상을 기반으로 생성되는 총손실(total loss)을 산정하는 과정, 여기서, 총손실은, 상기 생성기, 상기 제1 구별기, 및 상기 제2 구별기를 포함하는 GAN 구조에 따른 손실 항목, 및 상기 컬러화된 화면과 상기 GT 화면에 기반하는 놈(norm) 기반 손실 항목을 포함함; 및
상기 총손실에 포함된 손실 항목의 전부 또는 일부가 감소되는 방향으로 상기 생성기, 상기 제1 구별기 및 상기 제2 구별기 중 적어도 하나의 파라미터를 업데이트하는 과정
을 포함하는 것을 특징으로 하는 학습방법.
제6항에 있어서,
상기 복수의 흑백 영상 중의 하나인 지정 화면(indicated frame)으로부터 분할추출 모델을 이용하여 분할 맵(segmentation map)을 추출하고, 딥러닝(deep learning) 기반 ALP 추출부를 이용하여 상기 분할 맵으로부터 상기 ALP를 생성하는 과정; 및
상기 지정 화면으로부터 전역특성 추출 모델을 이용하여 전역특성 맵(global feature map)을 추출하고, 딥러닝 기반 AGP 추출부를 이용하여 상기 전역특성 맵으로부터 상기 AGP를 생성하는 과정
을 더 포함하여,
상기 추론 모델은, ALP(Adaptive Local Parameter) 및 AGP(Adaptive Global Parameter)를 이용하는 적응적 융합 변환(Adaptive Fusion Transform: AFT)에 기반하여 동작하되,
상기 ALP는, 상기 지정 화면의 컬러에 대한 국부적인 특성(local feature)이고,
상기 AGP는, 상기 지정 화면의 컬러에 대한 전역적인 특성(global feature)이며,
상기 AFT는, 상기 ALP 및 상기 AGP의 특성을 반영하여 상기 추론 모델의 내부에서 생성되는 중간 출력을 변환하는 것을 특징으로 하는 학습방법.
제7항에 있어서,
상기 총손실은,
상기 컬러화된 화면과 상기 GT 화면에 대한 상기 제1 구별기의 출력, 상기 복수의 컬러 영상과 상기 복수의 GT 컬러 영상에 대한 상기 제2 구별기의 출력, 및 상기 컬러화된 화면을 기반으로 생성되는 대립적 손실(adversarial loss);
상기 컬러화된 화면과 상기 GT 화면에 대하여 상기 제1 구별기가 생성하는 특성 맵(feature map) 간의 차이, 및 상기 복수의 컬러 영상과 상기 복수의 GT 컬러 영상에 대하여 상기 제2 구별기가 생성하는 특성 맵(feature map) 간의 차이에 기반하는 특성 매칭 손실(feature-matching loss); 및
상기 컬러화된 화면과 상기 GT 화면 간의 차이에 기반하는 재구성 손실(reconstruction loss)
을 포함하는 것을 특징으로 하는 학습방법.
제8항에 있어서,
상기 총손실은,
상기 컬러화된 화면으로부터 생성되는 전역특성 맵과 상기 GT 화면으로부터 생성되는 전역특성 맵에 대한 평균 간의 차이, 및 상기 컬러화된 화면으로부터 생성되는 전역특성 맵과 상기 GT 화면으로부터 생성되는 전역특성 맵에 대한 표준편차의 간의 차이에 기반하는 스타일 손실(style loss);
상기 컬러화된 화면으로부터 생성되는 전역특성 맵이 정규화된 맵(normalized map), 및 상기 GT 화면으로부터 생성되는 전역특성 맵이 정규화된 맵 간의 차이에 기반하는 콘텐츠 손실(content loss); 및
상기 컬러화된 화면과 상기 GT 화면으로부터 생성되는 전역특성 맵 간의 차이에 기반하는 인지 손실(perceptual loss)
을 더 포함하는 것을 특징으로 하는 학습방법.
제8항에 있어서,
상기 총손실은,
소벨 연산자(Sobel operator)를 이용하여 산정되는 경계 손실(edge loss)을 포함하되, 상기 경계 손실은 상기 컬러화된 화면과 상기 GT 화면의 경계 맵(edge map) 간의 차이에 기반하는 것을 특징으로 하는 학습방법.
제7항에 있어서,
상기 분할추출 모델 및 상기 전역특성 추출 모델 각각은,
딥러닝 기반 신경망(neural network)으로 구현되고, 상기 비디오 컬러화 장치에 대한 학습을 수행하기 전에 기트레이닝되는(pre-trained) 것을 특징으로 하는 학습방법.
삭제
제7항에 있어서,
상기 ALP 추출부 및 상기 AGP 추출부 각각은,
딥러닝 모델로 구현되고, 상기 생성기, 상기 제1 구별기 및 상기 제2 구별기와 함께 트레이닝되는 것을 특징으로 하는 학습방법.
제1항 내지 제5항 중 어느 한 항에 따른 비디오 컬러화 방법이 포함하는 각 단계를 실행시키기 위하여 컴퓨터로 읽을 수 있는 기록매체에 저장된 컴퓨터프로그램.
제6항 내지 제11항, 또는 제13 중 어느 한 항에 따른 비디오 컬러화 장치가 수행하는 학습방법이 포함하는 각 단계를 실행시키기 위하여 컴퓨터로 읽을 수 있는 기록매체에 저장된 컴퓨터프로그램.