KR102511059B1

KR102511059B1 - 동영상의 초해상 처리 방법 및 이를 위한 영상 처리 장치

Info

Publication number: KR102511059B1
Application number: KR1020180012941A
Authority: KR
Inventors: 파리차이 카푸르; 오지훈; 손광훈; 조영철; 박용섭; 김현중
Original assignee: 삼성전자주식회사
Priority date: 2017-05-17
Filing date: 2018-02-01
Publication date: 2023-03-17
Also published as: KR20180126362A; CN110622502A; CN110622502B; EP3566435A1; EP3566435B1; EP3566435A4

Abstract

동영상의 초해상(super-resolution) 처리 방법이 개시된다. 동영상의 초해상 처리 방법은, 동영상을 구성하는 복수의 입력 프레임을 초해상 처리를 위한 RNN(Recurrent Neural Network) 및 CNN(Convolutional Neural Network) 중 어느 하나에 순차적으로 입력하는 단계, 어느 하나에서 순차적으로 출력되는 프레임을 RNN 및 CNN 중 다른 하나에 순차적으로 입력하는 단계 및, 다른 하나에서 순차적으로 출력되는 프레임에 디콘볼루션(deconvolution)을 수행하여 출력 프레임의 해상도를 업스케일링(upscaling)하는 단계를 포함한다.

Description

동영상의 초해상 처리 방법 및 이를 위한 영상 처리 장치 { SUPER-RESOLUTION PROCESSING METHOD FOR MOVING IMAGE AND IMAGE PROCESSING APPARATUS THEREFOR }

본 발명은 동영상의 초해상 처리 방법 및 이를 위한 영상 처리 장치에 관한 것으로, 보다 상세하게는 동영상을 고해상도로 업스케일링시킬 수 있는 초해상 처리 방법 및 이를 위한 영상 처리 장치에 관한 것이다.

최근에는 이미지의 초해상(super resolution) 처리에 딥러닝(deep learning) 기술의 일종인 컨볼루션 신경망(Convolutional Neural Network, 이하 CNN)이 이용되고 있다. 즉, 이미지의 초해상 처리는 저해상도의 이미지가 CNN에 입력되면, 이미지의 패치별로 특징 데이터를 추출하고, 추출된 특징 데이터 및 기존에 학습된 데이터를 이용하여 저해상도의 입력 이미지를 고해상도의 이미지로 업스케일(upscale)하는 방식으로 이루어진다.

이와 같이, 사용자는 CNN에 기반한 초해상 처리 방법에 의해, 저해상도의 이미지의 사이즈를 단순히 크게 늘리는 것보다 부드럽고 선명한 고해상도의 이미지를 얻을 수 있다. 이러한 초해상 처리를 위한 CNN은 SRCNN(Super-Resolution CNN)으로 통용되기도 한다.

그러나, 동일한 방식으로 동영상을 초해상 처리하고자 하는 경우, 동영상을 구성하는 복수의 프레임 각각에 대하여 고해상도의 프레임을 얻을 수 있기는 하지만, 복수의 프레임 각각에 대하여 독립적으로 초해상 처리가 수행됨으로써, 깜박임(flickering) 현상 혹은, 복수의 프레임 간의 불연속적 아티팩트(discontinuity artifact)가 발생하는 현상이 발생하는 문제가 있다.

따라서, CNN을 기반으로 초해상 처리된 동영상의 깜박임 현상 또는 불연속적 아티팩트가 발생하는 현상을 해결하기 위한 개선 방안이 요구되고 있다.

본 발명은 상술한 문제점을 해결하기 위한 것으로, 본 발명의 목적은 깜박임 없이 연속적으로 초해상 처리된 동영상을 획득할 수 있는 초해상 처리 방법 및 이를 위한 영상 처리 장치를 제공함에 있다.

본 발명의 일 실시 예에 따른 동영상의 초해상 처리 방법은, 상기 동영상을 구성하는 복수의 입력 프레임을 초해상 처리를 위한 RNN(Recurrent Neural Network) 및 CNN(Convolutional Neural Network) 중 어느 하나에 순차적으로 입력하는 단계, 상기 어느 하나에서 순차적으로 출력되는 프레임을 상기 RNN 및 상기 CNN 중 다른 하나에 순차적으로 입력하는 단계 및, 상기 다른 하나에서 순차적으로 출력되는 프레임에 디콘볼루션(deconvolution)을 수행하여 상기 출력 프레임의 해상도를 업스케일링(upscaling)하는 단계를 포함한다.

이때, 상기 RNN 및 CNN 중 어느 하나에 순차적으로 입력하는 단계는, 상기 복수의 입력 프레임을 상기 RNN에 순차적으로 입력하고, 상기 RNN 및 상기 CNN 중 다른 하나에 순차적으로 입력하는 단계는, 상기 RNN에서 출력되는 프레임을 상기 CNN에 순차적으로 입력할 수 있다.

또한, 상기 초해상 처리 방법은, 상기 CNN에서 순차적으로 출력되는 프레임을 상기 RNN에 재귀시키는 단계를 더 포함하며, 상기 CNN에서 출력되는 프레임은, 상기 RNN에 입력된 대응되는 제1 프레임보다 고 해상도인 제2 프레임에 대한 정보를 포함할 수 있다.

또한, 상기 초해상 처리 방법은, 상기 CNN에서 순차적으로 출력되는 프레임을 타 RNN에 순차적으로 입력하는 단계 및, 상기 타 RNN의 히든 상태(hidden status)에 대한 정보를 상기 RNN에 재귀시키는 단계를 더 포함하며, 상기 업 스케일링 단계는, 상기 타 RNN에서 순차적으로 출력되는 프레임을 디콘볼루션할 수 있다.

또한, 상기 CNN은, 상기 RNN로부터 순차적으로 입력되는 프레임을 필터링하여 피쳐맵(feature map)을 생성하고, 상기 피쳐맵에 대한 배치(batch) 정규화(normalization)를 수행하고, 상기 정규화된 피쳐맵에 활성 함수(activation function)를 적용할 수 있다.

또한, 상기 초해상 처리 방법은, 상기 RNN에서 재귀된 이전 프레임의 히든 상태에 대한 정보를 이용하여, 상기 동영상의 장면 전환을 예측하는 단계, 상기 장면 전환이 예측되면, 상기 이전 프레임의 히든 상태에 대한 정보를 제로(zero) 값으로 변경하는 단계 및, 상기 제로 값으로 변경된 상기 이전 프레임의 히든 상태에 대한 정보에 기초하여, 현재 프레임의 히든 상태에 대한 정보를 업데이트하는 단계를 더 포함할 수 있다.

또한, 상기 장면 전환을 예측하는 단계는, 상기 이전 프레임의 히든 상태에 대한 정보에 기초하여 예측되는 현재 프레임의 히든 상태에 대한 정보를 이용하여 에러율을 산출하고, 상기 산출된 에러율이 기설정된 임계값을 초과하는지 여부에 따라 상기 동영상의 장면 전환을 예측할 수 있다.

또한, 상기 RNN 및 CNN 중 어느 하나에 순차적으로 입력하는 단계는, 상기 동영상의 출력 포맷이 YCbCr 채널인 경우, 상기 복수의 입력 프레임 중 Y 채널에 대응되는 프레임들만 상기 RNN 및 CNN 중 어느 하나에 순차적으로 입력할 수 있다.

또한, 상기 RNN은, LSTM(Long Short-Term Memory) 네트워크를 포함할 수 있다.

한편, 본 발명의 일 실시 예에 따른, 동영상의 초해상 처리를 수행하는 영상 처리 장치는, 상기 동영상을 입력받는 입력부 및, 상기 동영상을 구성하는 복수의 입력 프레임을 초해상 처리를 위한 RNN(Recurrent Neural Network) 및 CNN(Convolutional Neural Network) 중 어느 하나에 순차적으로 입력하고, 상기 어느 하나에서 순차적으로 출력되는 프레임을 상기 RNN 및 상기 CNN 중 다른 하나에 순차적으로 입력하며, 상기 다른 하나에서 순차적으로 출력되는 프레임에 디콘볼루션(deconvolution)을 수행하여 상기 출력 프레임의 해상도를 업스케일링(upscaling)하는 프로세서를 포함할 수 있다.

이때, 상기 프로세서는, 상기 복수의 입력 프레임을 상기 RNN에 순차적으로 입력하고, 상기 RNN에서 출력되는 프레임을 상기 CNN에 순차적으로 입력할 수 있다.

또한, 상기 프로세서는, 상기 CNN에서 순차적으로 출력되는 프레임을 상기 RNN에 재귀시키고, 상기 CNN에서 출력되는 프레임은, 상기 RNN에 입력된 대응되는 제1 프레임보다 고해상도인 제2 프레임에 대한 정보를 포함할 수 있다.

또한, 상기 프로세서는, 상기 CNN에서 순차적으로 출력되는 프레임을 타 RNN에 순차적으로 입력하고, 상기 타 RNN의 히든 상태(hidden status)에 대한 정보를 상기 RNN에 재귀시키며, 상기 타 RNN에서 순차적으로 출력되는 프레임에 대하여 디콘볼루션을 수행할 수 있다.

또한, 상기 CNN은, 상기 RNN으로부터 순차적으로 입력되는 프레임을 필터링하여 피쳐맵(feature map)을 생성하고, 상기 피쳐맵에 대한 배치(batch) 정규화(normalization)를 수행하고, 상기 정규화된 피쳐맵에 활성 함수(activation function)를 적용할 수 있다.

또한, 상기 프로세서는, 상기 RNN에서 재귀된 이전 프레임의 히든 상태에 대한 정보를 이용하여, 상기 동영상의 장면 전환을 예측하고, 상기 장면 전환이 예측되면, 상기 이전 프레임의 히든 상태에 대한 정보를 제로(zero) 값으로 변경하며, 상기 제로 값으로 변경된 상기 이전 프레임의 히든 상태에 대한 정보에 기초하여, 현재 프레임의 히든 상태에 대한 정보를 업데이트할 수 있다.

또한, 상기 프로세서는, 상기 이전 프레임의 히든 상태에 대한 정보에 기초하여 예측되는 현재 프레임의 히든 상태에 대한 정보를 이용하여 에러율을 산출하고, 상기 산출된 에러율이 기설정된 임계값을 초과하는지 여부에 따라 상기 동영상의 장면 전환을 예측할 수 있다.

또한, 상기 프로세서는, 상기 동영상의 출력 포맷이 YCbCr 채널인 경우, 상기 복수의 입력 프레임 중 Y 채널에 대응되는 프레임들만 상기 RNN 및 CNN 중 어느 하나에 순차적으로 입력할 수 있다.

한편, 본 발명의 일 실시 예에 따른, 동영상의 초해상 처리 방법을 실행하기 위한 프로그램이 저장된 기록 매체에 있어서, 상기 초해상 처리 방법은, 상기 동영상을 구성하는 복수의 입력 프레임을 초해상 처리를 위한 RNN(Recurrent Neural Network) 및 CNN(Convolutional Neural Network) 중 어느 하나에 순차적으로 입력하는 단계, 상기 어느 하나에서 순차적으로 출력되는 프레임을 상기 RNN 및 상기 CNN 중 다른 하나에 순차적으로 입력하는 단계 및, 상기 다른 하나에서 순차적으로 출력되는 프레임에 디콘볼루션(deconvolution)을 수행하여 상기 출력 프레임의 해상도를 업스케일링(upscaling)하는 단계를 포함할 수 있다.

상술한 본 발명의 다양한 실시 예에 따르면, 초경량의 RNN을 CNN과 결합하여 깜박임 없이 부드럽게 연속되도록 초해상 처리된 동영상을 획득할 수 있게 된다.

도 1은 본 발명의 일 실시 예에 따른, CNN을 통해 초해상 처리를 수행하는 종래의 방법을 설명하기 위한 도면,
도 2 내지 5는 본 발명의 다양한 실시 예에 따른 CNN과 RNN을 결합한 초해상 처리 과정을 설명하기 위한 도면,
도 6은 본 발명의 일 실시 예에 다른, 동영상의 초해상 처리 방법을 설명하기 위한 흐름도,
도 7은 본 발명의 일 실시 예에 따른, CNN 및 RNN의 연산 처리를 모듈화하여 초해상 배율을 조정하는 방법을 설명하기 위한 도면,
도 8은 본 발명의 일 실시 예에 따른, 동영상의 출력 포맷에 따라 채널을 분리하여 초해상 처리를 수행하는 방법을 설명하기 위한 도면,
도 9는 본 발명의 일 실시 예에 따른, 영상 처리 장치의 구성을 간략히 도시한 블록도,
도 10은 본 발명의 일 실시 예에 따라 발생되는 메모리 대역폭의 병목 현상을 설명하기 위한 도면,
도 11은 메모리 대역폭의 병목 현상을 해결하기 위한 본 발명의 추가 실시 예를 설명하기 위한 도면이다.

본 발명에 대하여 구체적으로 설명하기에 앞서, 본 명세서 및 도면의 기재 방법에 대하여 설명한다.

먼저, 본 명세서 및 청구범위에서 사용되는 용어는 본 발명의 다양한 실시 예들에서의 기능을 고려하여 일반적인 용어들을 선택하였다. 하지만, 이러한 용어들은 당해 분야에 종사하는 기술자의 의도나 법률적 또는 기술적 해석 및 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 일부 용어는 출원인이 임의로 선정한 용어일 수 있다. 이러한 용어에 대해서는 본 명세서에서 정의된 의미로 해석될 수 있으며, 구체적인 용어 정의가 없으면 본 명세서의 전반적인 내용 및 당해 기술 분야의 통상적인 기술 상식을 토대로 해석될 수도 있다.

또한, 본 명세서에 첨부된 각 도면에 기재된 동일한 참조 번호 또는 부호는 실질적으로 동일한 기능을 수행하는 부품 또는 구성요소를 나타낸다. 설명 및 이해의 편의를 위해서 서로 다른 실시 예들에서도 동일한 참조번호 또는 부호를 사용하여 설명하도록 한다. 즉, 복수의 도면에서 동일한 참조 번호를 가지는 구성 요소를 모두 도시하고 있다고 하더라도, 복수의 도면들이 하나의 실시 예를 의미하는 것은 아니다.

또한, 본 명세서 및 청구범위에서는 구성요소들 간의 구별을 위하여 “제1”, “제2” 등과 같이 서수를 포함하는 용어가 사용될 수 있다. 이러한 서수는 동일 또는 유사한 구성 요소들을 서로 구별하기 위하여 사용하는 것이며, 이러한 서수 사용으로 인하여 용어의 의미가 한정 해석되어서는 안될 것이다. 일 예로, 이러한 서수와 결합된 구성 요소는 그 숫자에 의해 사용 순서나 배치 순서 등이 제한 해석되어서는 안된다. 필요에 따라서는, 각 서수들은 서로 교체되어 사용될 수도 있다.

본 명세서에서 단수의 표현은 문맥상 명백하게 다름을 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, “포함하다” 또는 “구성하다” 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성 요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성 요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

본 발명의 실시 예에서 “모듈”, “유닛”, “부(Part)” 등과 같은 용어는 적어도 하나의 기능이나 동작을 수행하는 구성 요소를 지칭하기 위한 용어이며, 이러한 구성 요소는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어 및 소프트웨어의 결합으로 구현될 수도 있다. 또한, 복수의 “모듈”, “유닛”, “부(part)” 등은 각각이 개별적인 특정한 하드웨어로 구현될 필요가 있는 경우를 제외하고는, 적어도 하나의 모듈이나 칩으로 일체화되어 적어도 하나의 프로세서(미도시)로 구현될 수 있다.

또한, 본 발명의 실시 예에서, 어떤 부분이 다른 부분과 연결되어 있다고 할 때, 이는 직접적인 연결뿐 아니라, 다른 매체를 통한 간접적인 연결의 경우도 포함한다. 또한 어떤 부분이 어떤 구성 요소를 포함한다는 의미는, 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있다는 것을 의미한다.

이하, 첨부된 도면을 이용하여 본 발명에 대하여 구체적으로 설명한다.

도 1은 본 발명의 일 실시 예에 따른, CNN을 통해 초해상 처리를 수행하는 종래의 방법을 설명하기 위한 도면이다.

동영상을 구성하는 복수의 프레임은 연속적으로 CNN(12)으로 입력될 수 있다. 복수의 프레임의 컬러 형식은 RGB, YCbCr 포맷의 3채널 형식일 수 있으며, 이하에서는 특별한 설명이 없는 한, 동영상을 구성하는 복수의 프레임이 RGB 포맷의 3채널 형식으로 구현되는 예에 대하여 설명한다.

이때, 도 1에 도시된 바와 같이, 동영상을 구성하는 복수의 프레임(11)이 순차적으로 CNN(12)에 입력될 수 있다. 이때, CNN(12)에 입력되는 프레임(11)은 동영상의 원 프레임이 가로 W, 세로 H 크기로 분할된 이미지 패치일 수 있다. 이하에서는, 편의상 CNN(12)에 입력되는 분할된 이미지 패치를 프레임으로 통칭하여 기재하도록 한다.

한편, CNN(12)에 입력되는 프레임(11)은 RGB의 3채널에 대응되는 뎁스(depth)를 가질 수 있다. 여기서, CNN(12)은 이미지의 초해상 처리가 학습된 뉴럴 네트워크이다. CNN(12)은 기학습된 복수 개의 필터(filter)를 각각의 프레임(11)에 적용하여 피쳐맵을 생성하고, 생성된 피쳐맵에 활성 함수(activation function)를 적용하는 과정을 기설정된 횟수만큼 반복할 수 있다. 여기서, 활성 함수는 sigmoid, tanh, ReLU 등을 포함할 수 있다.

예를 들어, CNN(12)에 입력된 프레임(11)에, 입력된 프레임(11)과 마찬가지로 각각 3채널을 가지는 64개의 필터를 적용하고, ReLU 함수를 적용하는 과정을 수행하면, 최종적으로 입력된 프레임(11)과 동일한 사이즈 및 64채널을 가지는 피쳐맵(13)이 출력될 수 있다. 이때, 출력되는 피쳐맵(13)은 64채널을 통해 새로운 픽셀 정보를 포함하게 되며, 새로운 픽셀 정보는 초해상 처리에 있어서 이용되는 정보이다.

출력된 피쳐맵(13)에 CNN(12)에서의 콘볼루션 연산과 반대되는 디콘볼루션 연산(14)을 수행하면, 출력된 피쳐맵(13)에 포함된 새로운 픽셀 정보에 기초하여 출력된 피쳐맵(13)보다 정수배 큰 사이즈를 가지는 64채널의 고해상도 피쳐맵(15)이 생성된다. 생성된 고해상도 피쳐맵(15)에 다시 콘볼루션 연산(16)을 수행하여, 최종적으로 3채널의 고해상도 프레임(17)을 획득할 수 있다.

도 1에 도시된 바와 같이 3채널의 고해상도 프레임(17)은 CNN(12)에 입력된 프레임(11)의 해상도보다 두 배의 해상도(2W x 2H)를 가지게 된다.

그러나, 상술한 바와 같은 종래의 초해상 처리는 동영상의 각 프레임마다 독립적으로 수행됨으로써, 깜박임(flickering), 불연속적 아티팩트(discontinuity artifact)가 발생하는 문제가 있다.

이러한 문제를 해결하기 위한 방법으로, 기존에는 연속된 프레임을 동시에 CNN 입력단에 입력하는 방법 혹은 양방향 리커런트 콘볼루션 네트워크(Bidirectional Recurrent Convolutional Network)가 제안되었다. 리커런트 콘볼루션 네트워크는 과거 프레임을 처리할 때에 히든 레이어의 정보를 보존하고, 이를 다음 프레임을 처리할 때 반영할 수 있도록 하여 visual-temporal dependency를 높이도록 구현되었다.

그러나, 기존의 연속된 프레임을 동시에 입력하는 방법은 연산량이 N^2(N: 입력 프레임의 개수)로 기하급수적으로 많아지게 되고, 불연속성이 여전히 주기적으로 발생하는 문제가 있었다. 또한, 리커런트 콘볼루션 네트워크는 모든 콘볼루션 레이어가 모두 리커런트 콘볼루션, 컨디셔널 콘볼루션(conditional convolution)으로 밀집 연결된 형태를 가지기 때문에 기존 방식보다 6배 높은 연산량을 요구하는 문제점이 있었다.

따라서, 본 발명은 최소의 연산량을 요구하면서, 동영상의 연속 프레임 처리시 visual-temporal dependency를 효율적으로 반영할 수 있는 뉴럴 네트워크 구조로서, CNN에 RNN(Recurrent Neural Network)을 직렬적으로 결합된 알고리즘을 제안하고자 하며, 이하에서 구체적으로 설명하도록 한다.

도 2 내지 6은 본 발명의 다양한 실시 예에 따른 CNN과 RNN을 결합한 초해상 처리 과정을 설명하기 위한 도면이다.

RNN은 시간적인 상관 관계가 중요한 데이터, 예를 들어, 대화, 동영상 음성 등 시계열 데이터를 처리하기 위한 딥러닝 기술 중의 하나이다. RNN은 일반적으로 현재 상태를 이전 상태와 입력 값을 통해서 예측하게 된다. 여기서, 이전 상태는 히든 레이어(hidden layer)에서 재귀(recurrent)되어 현재 상태에 반영되기 때문에, 이전의 계산 결과가 다음 계산에 영향을 미치는 구조이다.

본 발명의 다양한 실시 예에 있어서, RNN은 CNN에 다양한 방식으로 결합될 수 있다.

예를 들어, 동영상을 구성하는 복수의 입력 프레임은 초해상 처리를 위한 RNN(Recurrent Neural Network) 및 CNN(Convolutional Neural Network) 중 어느 하나에 순차적으로 입력될 수 있다. 이후, 어느 하나에서 순차적으로 출력되는 프레임이 RNN 및 CNN 중 다른 하나에 순차적으로 입력할 수 있다.

도 2는 간단한 구조의 예로서, 동영상의 복수의 프레임이 RNN(21)에 순차적으로 입력되고, RNN(21)에서 출력되는 프레임이 CNN(22)에 순차적으로 입력되는 구조를 도시한 것이다. RNN(21)은 현재(t) 프레임 x_t가 RNN(21)에 인풋으로 입력되고, 현재 프레임의 히든 상태(hidden state)에 대한 정보 h_t가 다음 프레임의 히든 레이어로 재귀되는 구조를 갖는다.

현재 프레임의 히든 상태에 대한 정보 h_t는 이전 프레임의 히든 상태에 대한 정보 h_t _-1에 의해 갱신되고, 현재 프레임의 히든 레이어의 아웃풋 y_t는 h_t를 전달받아 갱신된다. 현재 프레임의 히든 상태에 대한 정보 h_t를 수식으로 표현하면 다음과 같다.

수학식 1에서, W_h는 RNN(21)의 인풋 x_t에 콘볼루션되는 가중치(연결선 ①의 가중치), U_h는 이전 프레임의 히든 상태에 대한 정보 h_t _- ₁와 콘볼루션되는 가중치(연결선 ②의 가중치), b_h는 연결선 ①의 바이어스(bias)이다. σ_h는 히든 레이어의 활성함수를 의미하며, 활성함수로는 비선형 함수가 사용된다. 예를 들어, σ_h는 대표적인 비선형 함수인 tanh일 수 있다.

한편, RNN(21)의 아웃풋 y_t를 수식으로 표현하면 다음과 같다.

수학식 2에서, W_y는 현재 프레임의 히든 상태에 대한 정보 h_t와 콘볼루션되는 가중치(연결선 ③의 가중치) b_y는 연결선 ③의 바이어스(bias)이다. σ_y는 RNN(21)의 출력단의 활성함수이다.

이에 따라, CNN(22)에 입력되는 복수의 프레임은 각각 이전 프레임의 히든 상태에 대한 정보를 포함하게 되고 따라서, CNN(22)에서 복수의 프레임간의 연속성이 반영된 초해상 처리가 수행할 수 있다.

CNN(22)으로 순차적으로 입력되는 복수의 프레임은 해상도가 변환되지 않은 저해상도의 프레임이고, CNN(22)에서 출력되는 복수의 피쳐맵은 CNN(22)에 입력된 대응되는 프레임보다 상대적으로 고해상도인 프레임에 대한 정보, 즉, 고해상도인 프레임으로 변환될 수 있는 정보를 포함하고 있는 피쳐맵이다. 이러한 의미해서, CNN(22)에서 출력되는 복수의 피쳐맵은 y_t ^sr로 표현하여, CNN(22)에 입력되는 복수의 프레임 y_t과 구별하도록 한다.

CNN(22)의 출력 피쳐맵 y_t ^sr에 대하여는 디콘볼루션/콘볼루션(23)이 각각 순차적으로 수행되어 고해상도로 스케일업된 복수의 프레임 x_t ^SR가 생성된다. 복수의 프레임 x_t ^SR가 순차적으로 결합되어 최종적으로 고해상도로 스케일업된 동영상이 출력된다.

한편, 도 2에 도시된 예에서, RNN(21)과 CNN(22)의 순서가 서로 변경된 형태의 뉴럴 네트워크 구조도 구현 가능하다. CNN(22)에서 출력된 현재 프레임의 피쳐맵 x_t ^sr가 RNN(21)에 입력되고, RNN(21)에서 현재 프레임의 히든 상태에 대한 정보 h_t가 다음 프레임의 히든 레이어에 재귀됨으로써, 이전 프레임에 대한 정보가 반영된 복수의 피쳐맵 y_t ^sr가순차적으로 출력될 수 있다.

도 3은 다른 구조의 예로서, 동영상의 복수의 프레임이 제1 RNN(31)에 순차적으로 입력되고, 제1 RNN(31)에서 출력되는 피쳐맵이 CNN(32)에 순차적으로 입력되며, CNN(32)에서 출력된 피쳐맵이 다시 제2 RNN(33)으로 순차적으로 입력되는 구조를 도시한 것이다.

제1 RNN(31)에서는 현재 프레임 x_t가 인풋으로 입력되고, 현재 프레임의 히든 상태에 대한 정보 h_t가 다음 프레임의 히든 레이어로 재귀된다. 현재의 히든 상태에 대한 정보 h_t는 이전 프레임의 히든 상태에 대한 정보 h_t _-1에 의해 갱신되며, 제1 RNN(31)의 아웃풋으로서 y_t가 출력된다.

또한, 제1 RNN(31)에서 출력된 y_t가 CNN(32)으로 입력되면, 고해상도인 프레임으로 변환될 수 있는 정보를 포함하는 피쳐맵 y_t ^sr이 출력되며, 출력된 y_t ^sr이 제2 RNN(33)으로 입력된다. 제2 RNN(33)에서는 제1 RNN(31)과 마찬가지로, 현재 프레임의 피쳐맵 y_t ^sr의 히든 상태에 대한 정보 h'_t가 다음 프레임의 히든 레이어로 재귀되는 구조를 갖는다. 도 3은 현재 프레임의 히든 상태에 대한 정보 h'_t가 연결선 ⑤를 통해 다음 프레임의 히든 레이어로 재귀되는 것을 도시한 것이다.

이때, 제2 RNN(33)은 도 3에 도시된 바와 같이, 제1 RNN(31)의 현재 프레임 x_t의 히든 레이어로도 h'_t를 재귀시킬 수 있다(연결선 ⑥).

즉, 제1 RNN(31)에서는 CNN(32)에 입력되기 전에 있어서, 상대적으로 저해상도를 가지는 이전 프레임의 히든 상태에 대한 정보 h_t _- ₁와 CNN(32)에 입력된 후에 있어서, 상대적으로 고해상도 프레임으로 변환될 수 있는 정보를 포함하는 이전 프레임의 히든 상태에 대한 정보 h'_t _-1에 의해 h_t가 갱신되고, 갱신된 h_t에 따라 제1 RNN(31)의 아웃풋 y_t가 출력된다.

이에 따라, 제1 RNN(31)에 있어서, 현재 프레임의 히든 상태에 대한 정보 h_t를 수식으로 표현하면 다음과 같다.

수학식 3에서, 제2 RNN(33)의 이전 프레임의 히든 상태에 대한 정보 h'_t _-1과 콘볼루션되는 가중치 V_h는 제2 RNN(33)에서 제1 RNN(31)으로 재귀되는 연결선 ⑥의 가중치를 의미한다. 나머지 변수는 수학식 1과 같다.

즉, h_t는 상대적으로 저해상도를 가지는 이전 프레임의 히든 상태에 대한 정보 h_t _- ₁와 상대적으로 고해상도 프레임으로 변환될 수 있는 정보를 포함하는 이전 프레임의 히든 상태에 대한 정보 h'_t _- ₁를 모두 포함하므로, CNN(32) 과정에서 이전 프레임의 정보가 더욱 잘 반영된 초해상 처리가 가능하게 된다.

한편, 제2 RNN(33)에서 재귀되는 h'_t를 수식으로 표현하면 다음과 같다.

수학식 4에서 W'_h는 제2 RNN(33)으로 입력되는 연결선 ④의 가중치를 의미한다. U'_h는 제2 RNN(33)에서 이전 프레임의 히든 레이어로 재귀되는 연결되는 연결선 ⑤의 가중치를 의미한다. b'_h는 제2 RNN(33)으로 입력되는 연결선 ④의 바이어스이다.

한편, 제2 RNN(33)의 아웃풋 y'_t를 수식으로 표현하면 다음과 같다.

수학식 5에서, W'_y 및 b'_y는 제2 RNN(33)에서 y'_t가 출력되는 연결선 ⑦의 가중치 및 바이어스를 각각 의미한다.

제2 RNN(33)에서 출력된 y'_t에 대하여는 도 2의 실시 예와 마찬가지로, 디콘볼루션/콘볼루션(23)이 각각 순차적으로 수행되어 고해상도로 스케일업된 복수의 프레임 x_t ^SR가 생성된다. 복수의 프레임 x_t ^SR가 순차적으로 결합되어 최종적으로 고해상도로 스케일업된 동영상이 출력된다.

이와 같은 도 3의 실시 예에 따르면, CNN(32)의 앞뒤 단에 위치하는 RNN에서 각각 저해상도를 가지는 이전 프레임에 대한 정보와 고해상도 프레임으로 변환될 수 있는 정보를 가지는 이전 프레임에 대한 정보를 현재 프레임이 고해상도 프레임으로 변환되기 위한 정보를 추출하는 데에 반영할 수 있게 된다.

도 4는 다른 구조의 예로서, 동영상의 복수의 프레임이 RNN(41)에 순차적으로 입력되고, RNN(41)에서 출력되는 프레임이 CNN(42)에 순차적으로 입력되며, CNN(42)에서 출력된 피쳐맵이 다시 RNN(41)으로 재귀되는 구조를 도시한 것이다.

RNN(41)에서 현재 프레임 x_t가 인풋으로 입력되고, 현재 프레임의 히든 상태에 대한 정보 h_t _- ₁는 다음 프레임의 히든 레이어로 재귀된다. 현재 프레임의 히든 상태에 대한 정보 h_t는 이전 프레임의 히든 상태에 대한 정보 h_t _-1에 의해 갱신되며, RNN(41)의 아웃풋으로서 y_t가 출력된다.

또한, RNN(41)에서 출력된 y_t가 CNN(42)으로 입력되면, 고해상도인 프레임으로 변환될 수 있는 정보를 포함하는 피쳐맵 y_t ^sr이 출력된다. 이때, 출력되는 y_t ^sr은 RNN(41)으로 재귀된다. 도 4는 CNN(42)에서 출력된 이전 프레임의 출력 y_t _-1 ^sr이 연결선 ⑤를 통해 RNN(41)의 현재 프레임의 히든 레이어로 재귀된 것을 도시한 것이다.

이때, RNN(41)에서 현재 프레임의 히든 상태에 대한 정보 h_t를 수식으로 표현하면 다음과 같다.

수학식 6에서, V_h는 RNN(41)으로 재귀되는 연결선 ⑤의 가중치를 의미한다. 나머지 변수는 수학식 3과 같다.

한편, 도 4에 도시된 구조의 변형으로서, 연산 효율을 높이기 위해서, RNN(41)에서 h_t가 재귀되지 않는 구조도 가능하다. 즉, 도 4의 구조에서 연결선 ②가 생략된 구조이다. 이때, RNN(41)에서 현재 프레임의 히든 상태에 대한 정보 h_t는 다음과 같은 수식으로 표현될 수 있다.

수학식 7에서, U_h는 RNN(41)으로 재귀되는 연결선 ⑤의 가중치를 의미한다. 나머지 변수는 수학식 6과 같다.

CNN(42)에서 출력된 y_t ^sr에 대하여는 상술한 실시 예들과 마찬가지로, 디콘볼루션/콘볼루션(43)이 각각 순차적으로 수행되어 고해상도로 스케일업된 복수의 프레임 x_t ^SR가 생성된다. 복수의 프레임 x_t ^SR가 순차적으로 결합되어 최종적으로 고해상도로 스케일업된 동영상이 출력된다.

도 5는 본 발명의 일 실시 예에 따른, 복수의 RNN이 직렬로 연결된 구조를 도시한 것이다. 직렬로 연결된 제1 RNN 및 제2 RNN은 각각 현재 프레임의 히든 상태에 대한 정보 h_t를 다음 프레임의 히든 레이어에 재귀시키고, 제2 RNN에서의 현재 프레임의 히든 상태에 대한 정보 h'_t는 제1 RNN의 다음 프레임의 히든 레이어에 추가적으로 재귀될 수 있다. 이와 같은 구조를 Interconnected RNNs라고 명명할 수 있다.

제1 RNN(51)에서의 현재 프레임의 히든 상태에 대한 정보 h_t는 수학식 3와 같으며, 제1 RNN(51)의 아웃풋 y_t는 수학식 2와 같다. 또한, 제2 RNN(51)에서의 현재 프레임의 히든 상태에 대한 정보 h'_t 및 제2 RNN(51)의 아웃풋 y'_t는 각각 수학식 4 및 5와 같다.

결론적으로, 제2 RNN(52)에서 재귀되는 연결선을 통해, 제1 RNN(51)은 제1 RNN(51)이 속한 레이어뿐만 아니라 선처리된 다른 레이어에서의 이전 프레임에 대한 정보를 획득하여 불연속적 아티팩트가 보다 감소된 아웃풋을 출력할 수 있는 효과가 있다. 이와 같은 RNN 직렬 연결 구조는 영상 인식이나 영상 분류 등에서 유효하게 이용될 수 있을 것으로 예상된다.

한편, 상술한 다양한 실시 예들에 있어서, RNN은 그라디언트 소실(vanising gradient)을 해결하기 위한 네트워크 구조인 LSTM(Long Short-Term Memory)로 구현될 수도 있다.

도 6은 본 발명의 일 실시 예에 다른, 동영상의 초해상 처리 방법을 설명하기 위한 흐름도이다.

먼저, 동영상을 구성하는 복수의 입력 프레임을 초해상 처리를 위한 RNN(Recurrent Neural Network) 및 CNN(Convolutional Neural Network) 중 어느 하나에 순차적으로 입력한다(S610). 복수의 입력 프레임이 입력된 어느 하나에서 순차적으로 출력되는 프레임을 RNN 및 CNN 중 다른 하나에 순차적으로 입력한다(S620). 이때, 타 RNN에서 순차적으로 출력되는 프레임을 디콘볼루션하여, 출력 프레임의 해상도를 업스케일링(upcaling)할 수 있다(S630).

이하에서는, 동영상을 구성하는 복수의 입력 프레임을 먼저 RNN에 순차적으로 입력하고, RNN에서 출력되는 프레임을 CNN에 순차적으로 입력하는 순서의 초해상 처리 방법에 대하여 설명하도록 한다.

CNN에서 순차적으로 출력되는 프레임은 RNN에 재귀될 수 있으며, 이때, CNN에서 순차적으로 출력되는 프레임은 RNN에서 입력된 대응되는 제1 프레임보다 고해상도인 제2 프레임에 대한 정보를 포함할 수 있다.

이때, CNN은 레지듀얼 네트워크(Residual Network, ResNet)를 포함할 수 있으며, 레지듀얼 네트워크는 RNN으로부터 순차적으로 입력되는 프레임을 필터링하여 피쳐맵을 생성하고, 피쳐맵에 대한 배치 정규화(batch normalization) 및 정규화된 피쳐맵에 활성함수(activation function)를 적용하는 레지듀얼 블록(residual block, resblock)이 직렬로 연결된 구조의 네트워크일 수 있다.

또한, CNN에서 순차적으로 출력되는 프레임이 타 RNN에 순차적으로 입력될 수 있으며, 타 RNN의 히든 상태에 대한 정보가 RNN에 재귀될 수 있다.

한편, 일반적으로 동영상은 많은 수의 장면 전환을 포함한다. 장면 전환이 이루어질 때의 이전 프레임에 대한 정보는 현재 프레임과 연속성이 존재하지 않기 때문에, RNN에서 이전 프레임에 대한 정보를 현재 프레임에 반영할 필요가 없으며, 반영할 경우 오히려 초해상 처리의 품질이 떨어질 수 있다.

따라서, 상술한 적어도 하나의 RNN에 있어서, 재귀된 이전 프레임의 히든 상태에 대한 정보에 기초하여, 동영상의 장면 전환이 예측될 수 있으며, 장면 전환이 예측되면, 이전 프레임의 히든 상태에 대한 정보가 제로(zero) 값으로 변경될 수 있다. 제로 값으로 변경된 이전 프레임의 히든 상태에 대한 정보에 기초하여, 현재 프레임의 히든 상태에 대한 정보가 갱신될 수 있다.

이에 따라, 현재 프레임의 히든 상태에 대한 정보는 제로 값이 반영되기 때문에 실질적으로, 이전 프레임의 히든 상태에 대한 정보가 현재 프레임의 히든 상태에 대한 정보에 영향을 미치지 않게 된다.

여기서, 동영상을 구성하는 복수의 프레임들 간의 장면 전환을 예측하는 방법은, 이전 프레임의 히든 상태에 대한 정보 h_t _-1에 기초하여 현재 프레임의 히든 상태에 대한 정보 h_t _|t- ₁를 예측하고, 예측된 h_t _|t- ₁를 이용하여 에러율을 산출하며, 산출된 에러율이 기설정된 임계값을 초과하는지 여부에 따라 동영상의 장면 전환을 예측하는 방식으로 이루어질 수 있다.

구체적으로, 예측된 h_t _|t- ₁는 다음과 같은 수식에 의해 표현될 수 있다.

수학식 8에서, W^_h, U^_h, V^_h 및 b^_n는 각각 현재 프레임의 히든 상태에 대한 정보 h_t를 예측하기 위해 기설정된 별도의 가중치를 의미한다.

한편, 현재 프레임의 히든 상태에 대한 정보 h_t는 수학식 3과 같다.

장면 전환 여부에 대한 판단은 다음과 같은 공식에 따라 이루어질 수 있다.

즉, 장면 전환을 예측하는 방법은 h_t와 h_t _|t-1의 차이값 및 프레임 사이즈 m에 기초하여 산출된 값이 기설정된 임계값(threshold)보다 큰 경우, t 및 t-1 사이에 장면 전환이 된 것으로 판단할 수 있으며, h_t _-1 및 h'_t _-1을 제로 값으로 변경하며, 제로 값으로 변경된 h_t _-1 및 h'_t _-1에 기초하여 h_t를 갱신할 수 있다.

한편, 도 7에 도시된 바와 같이, CNN 및 RNN의 연산 처리를 모듈화하여 초해상 배율을 조정할 수도 있다. 즉, CNN 및 RNN이 결합된 뉴럴 네트워크를 포함한 모듈을 직렬로 연결하고, 각 모듈의 출력단을 디콘볼루션 및 콘볼루션 연산을 수행하는 모듈과 연결함으로써, 2배 혹은 4배로 스케일업된 동영상을 출력할 수 있다. 각 모듈의 동작은 도 2 내지 도 5에서 설명한 바와 같다. 여기서, 기설정된 스케일업 비율은 각 모듈의 출력단에 입력될 수 있으며, 기설정된 스케일업 비율에 따라 동영상이 정수배로 스케일업될 수 있다.

도 8은 본 발명의 일 실시 예에 따른, 동영상의 출력 포맷에 따라 채널을 분리하여 초해상 처리를 수행하는 방법을 설명하기 위한 도면이다.

초해상 처리를 위해 입력되는 동영상은 RGB 채널, YCbCr 채널(혹은 YUV 채널) 중 어느 하나의 출력 포맷을 가질 수 있다. YCbCr 채널은 각 픽셀마다 휘도 성분(Luma Sample)과 색차 성분(Chroma Sample)을 구분하여 저장하는 형태로서, Y는 휘도 성분, Cb 및 Cr은 색차 성분에 해당한다. YCbCr 채널 방식은 RGB 채널 방식에 있어서, R, G, B 각 성분들 사이에 존재하는 공간적 데이터 중복을 줄임으로써 전송과 저장에 있어서 효율성을 높인 방식이다.

한편, 사람의 눈이 컬러 영상을 인식하는데 있어서, 색상을 인식하는 것이 영상의 밝고 어두운 정도를 인식하는 것에 비해 상대적으로 둔감한 특징이 있기 때문에, 동영상의 경우 Y 성분에 많은 비트수(해상도)를 할당하고, Cb, Cr 성분에는 낮은 비트수를 할당하는 방식으로 압축된다.

따라서, 이러한 YCbCr 채널의 출력 포맷을 가지는 동영상에 대하여 초해상 처리를 수행하는 경우, 도 8에 도시된 바와 같이, Y 성분만 RNN 및 CNN이 결합된 뉴럴 네트워크 구조에 입력하고, Cb 및 Cr 성분은 기존의 방식 등과 같은 별도의 처리를 거쳐 업스케일링하는 방식을 사용하면, 연산량이 줄어들고, 연산 속도가 높아지는 등 연산 효율이 크게 증가한다는 장점이 있다. Cb 및 Cr 성분은 업스케일러(80)에서 별도의 처리를 거쳐 업스케일링되고, 업스케일된 Cb 및 Cr 성분은 출력단에서 업스케일된 Y 성분과 결합되어 최종적으로 모든 칼라 성분이 업스케일된 동영상을 획득할 수 있다.

도 9는 본 발명의 일 실시 예에 따른, 영상 처리 장치의 구성을 간략히 도시한 블록도이다.

도 9를 참조하면, 영상 처리 장치(100)는 영상 입력부(110) 및 프로세서(120)를 포함한다.

영상 입력부(110)는 영상을 입력받기 위한 구성이다. 영상은 정지 영상 및 동영상을 포함할 수 있다.

프로세서(120)는 영상 처리 장치(100)의 전반적인 동작을 제어하기 위한 구성이다. 프로세서(120)는 상술한 초해상 처리 방법을 수행할 수 있으며, MCU(Micro Controller Unit) 등의 임베디드프로세서(embeded processor)로 구현될 수 있다.

구체적으로, 프로세서(120)는 동영상을 구성하는 복수의 입력 프레임을 초해상 처리를 위한 RNN(Recurrent Neural Network) 및 CNN(Convolutional Neural Network) 중 어느 하나에 순차적으로 입력하고, 어느 하나에서 순차적으로 출력되는 프레임을 RNN 및 CNN 중 다른 하나에 순차적으로 입력할 수 있다.

이때, 프로세서(120)는 다른 하나에서 순차적으로 출력되는 프레임에 디콘볼루션(deconvolution)을 수행하여, 출력 프레임의 해상도를 업스케일링(upscaling)할 수 있다.

이하에서는, 프로세서(120)는 복수의 입력 프레임을 RNN에 순차적으로 입력하고, RNN에서 출력되는 프레임을 CNN에 순차적으로 입력되는 실시 예에 대하여 설명하도록 한다.

프로세서(120)는 CNN에서 순차적으로 출력되는 프레임을 RNN에 재귀시키고, CNN에서 출력되는 프레임은, RNN에 입력된 대응되는 제1 프레임보다 고해상도인 제2 프레임에 대한 정보를 포함할 수 있다.

또한, 프로세서(120)는 CNN에서 순차적으로 출력되는 프레임을 타 RNN에 순차적으로 입력하고, 타 RNN의 히든 상태(hidden status)에 대한 정보를 RNN에 재귀시킬 수 있다. 이때, 프로세서(120)는 타 RNN에서 순차적으로 출력되는 프레임에 대하여 디콘볼루션을 수행할 수 있다.

또한, 프로세서(120)는 CNN을 통해, RNN으로부터 순차적으로 입력되는 프레임을 필터링하여 피쳐맵(feature map)을 생성하고, 피쳐맵에 대한 배치(batch) 정규화(normalization)를 수행하며, 정규화된 피쳐맵에 활성 함수(activation function)를 적용하여 초해상 처리를 수행할 수 있다.

또한, 프로세서(120)는, RNN에서 재귀된 이전 프레임의 히든 상태에 대한 정보를 이용하여, 동영상의 장면 전환을 예측하고, 장면 전환이 예측되면, 이전 프레임의 히든 상태에 대한 정보를 제로(zero) 값으로 변경하며, 제로 값으로 변경된 이전 프레임의 히든 상태에 대한 정보에 기초하여, 현재 프레임의 히든 상태에 대한 정보를 업데이트할 수 있다.

또한, 프로세서(120)는, 이전 프레임의 히든 상태에 대한 정보에 기초하여 예측되는 현재 프레임의 히든 상태에 대한 정보를 이용하여 에러율을 산출하고, 산출된 에러율이 기설정된 임계값을 초과하는지 여부에 따라 동영상의 장면 전환을 예측할 수 있다.

또한, 프로세서(120)는, 동영상의 출력 포맷이 YCbCr 채널 또는 YUV 채널인 경우, 복수의 입력 프레임 중 Y 채널에 대응되는 프레임들만 RNN 및 CNN 중 어느 하나에 순차적으로 입력할 수 있다.

다만, 디콘볼루션(deconvolution)을 수행하여, 출력 프레임의 해상도를 업스케일링(upscaling)하는 동작은 실시 예에 따라, 프로세서(120)와 별도의 프로세싱 소자인 업스케일러(80)에서 수행될 수도 있다.

이상과 같은 실시 예에 따르면, CNN 모듈에 비해 상대적으로 매우 적은 연산량을 요구하는 RNN 모듈을 CNN 모듈과 결합함으로써, 적은 연산량으로도 연속 프레임을 효율적으로 처리할 수 있는 효과가 있다.

도 10은 본 발명의 일 실시 예에 따른 이전 프레임의 피쳐맵을 로드하여 현재 프레임의 피쳐맵에 반영하는 방법을 설명하기 위한 도면이다.

도 10에 도시된 바와 같이, 영상 처리 장치(100)의 저장부(130)에는 CNN에 입력되는 현재 t의 프레임 I_t와 t-1일 때의 이전 프레임의 피쳐맵(92-1)에 대한 h_t _-1이 저장된다. 여기서, 이전 프레임의 피쳐맵(92-1)에 대한 h_t _- ₁는 이전 프레임의 피쳐맵(92-1)에 대한 정보를 포함한다.

이와 함께, 저장부(130)에는 이전 프레임의 피쳐맵(92-1)에 대한 h_t _-1에 적용되는 콘볼루션 가중치(convolution weight)가 파라미터로 저장될 수 있다. 저장부(130)에 저장되는 이전 프레임의 피쳐맵에 대한 h_t _- ₁는 이전 프레임의 제1 피쳐맵 내지 제n 피쳐맵(102-1 ~ 102-N) 각각에 대응되는 h_t-1을 각각 포함할 수 있다.

한편, 저장부(130)는 DMA(Direct Memory Access) 콘트롤러(131)에 의해 프로세서(120)의 개입 없이 제어될 수 있으며, DMA 콘트롤러(131)가 저장부(130)로부터 직접 현재 프레임 I_t, 이전 프레임의 제1 특징맵(92-1)에 대한 h_t _-1 및 파라미터를 읽어들일 수 있다. DMA 콘트롤러(131)는 읽어들인 현재 프레임 I_t, 이전 프레임의 제1 특징맵(92-1)에 대한 h_t _-1및 파라미터를 캐쉬 메모리(132)에 임시로 저장하게 된다. 다만, 여기서 DMA(Direct Memory Access) 콘트롤러(131)의 동작은 프로세서(120)에서 수행될 수도 있다.

이때, 프로세서(120)는 캐쉬 메모리(132)에 저장된 이전 프레임의 제1 특징맵(92-1)에 대한 h_t _- ₁를 현재 프레임의 제1 특징맵(102-1)에 대한 h_t에 반영하는 타임 필터링을 수행하여, 현재 프레임의 제1 특징맵(102-1)에 대한 h_t가 갱신된h_t'를 출력할 수 있다. 이때, h_t'는 h_t와 h_t _-1을 인자로 하는 특정 함수의 출력값이 될 수 있다.

갱신된 h_t'는 현재 프레임의 제1 특징맵(102-1)에 대한 h_t와 더하여져서, 현재 프레임의 제2 피쳐맵(102-2)을 나타내는 h_t'가 된다. 이러한 타임 필터링 과정은 이전 프레임의 제2 피쳐맵 내지 제n 피쳐맵(102-1 ~ 102-N)에 대한 h_t _-1에 대하여도 동일하게 수행될 수 있다.

프로세서(120)는 이렇게 출력된 최종 피쳐맵(102-N)에 디콘볼루션 연산을 수행하여, 고해상도의 피쳐맵(103)을 생성할 수 있으며, 고해상도의 피쳐맵(103)에 다시 콘볼루션 연산을 수행하여, 최종적으로 3채널의 고해상도 프레임(104)을 획득할 수 있다.

이에 따라, 누적된 이전 프레임의 모션을 내부적으로 보상함으로써, 움직임이 부드러운 고해상도 비디오 영상이 생성될 수 있게 된다.

다만, 상술한 바와 같이, 이전 프레임의 피쳐맵(92-1)에 대한 h_t _-1을 저장부(130)에 저장하는 실시 예의 경우, 대용량의 저장공간이 필요하고, 많은 채널(64ch)의 h_t-1을 로드함에 따라, 큰 대역폭이 발생하는 문제점이 있다.

도 11은 본 발명의 도 10에 도시된 실시 예에 따라 발생되는 저장 공간 및 대역폭 이슈를 해결하기 위한 본 발명의 추가 실시 예를 설명하기 위한 도면이다.

도 11에 도시된 바와 같이, 저장부(130)에는 이전 프레임의 피쳐맵에 대한 h_t-1가 저장되는 것이 아니라, 입력 프레임 I_t _-1(91-1)이 저장된다. 즉, 64채널의 h_t _-1이 저장되는 것이 아니라, 3채널의 입력 프레임 I_t _-1(91-1)이 저장되므로, 저장 공간의 효율화가 가능하게 된다.

한편, DMA 콘트롤러(131)는 저장부(130)에 저장된 이전의 입력 프레임 I_t _-1(91-1)을 읽어들인 후, 캐쉬 메모리(132)에 임시로 저장하게 된다. 프로세서(120)는 캐쉬 메모리(132)에 저장된 3채널의 입력 프레임 I_t _-1(91-1)에 대하여 CNN과 마찬가지로 피쳐맵을 생성하기 위한 필터링(이하, 특징 필터링)을 수행하여, 64채널의 피쳐맵(91-2)을 생성한다. 생성된 64채널의 피쳐맵(91-2)에 대하여는 도 10에 도시된 바와 같이 타임 필터링을 거치게 되는데, 도 11에서는 t-2일 때의 입력 프레임 I_t _-2(101-1)에 대하여도 특징 필터링을 수행하여 t-2일 때의 64채널의 피쳐맵(101-2)을 추가적으로 생성하는 예가 도시된 것이다.

이때, 프로세서(120)는 t-2일 때의 피쳐맵(91-2)에 대한 h_t _-2에 t-1일 때의 피쳐맵(101-2)에 대한 h_t _-1을 반영하여, t-2일 때의 피쳐맵(91-2)에 대한 h_t _-2가 갱신된 h_t _-2'를 출력할 수 있다. 이때, h_t _-2'는 h_t _-2와 h_t _-1을 인자로 하는 특정 함수의 출력값이 될 수 있다.

프로세서(120)는 갱신된 h_t _-2'를 현재 프레임의 h_t에 반영하여, 현재 프레임의 h_t가 갱신된 h_t'를 출력할 수 있다. 이때, h_t'는 h_t와 h_t _-2'를 인자로 하는 특정 함수의 출력 값이 될 수 있다.

갱신된 h_t'는 현재 프레임의 h_t와 더하여져서, 현재 프레임의 제2 특징맵(102-2)이 된다. 즉, 도 10에 도시된 실시 예와 같이, 저장부(130)에 입력 프레임 I_t _-1을 저장하고, 이에 대하여 특징 필터링 및 타임 필터링을 수행하여 이전 프레임의 h_t _- ₁를 생성하는 방식을 이용할 수도 있다. 이에 따라, 누적된 이전 프레임의 모션을 보상하면서도 h_t _- ₁를 모두 저장하고, 이를 로딩함에 따른 저장 공간 및 대역폭과 관련된 이슈를 해결할 수 있다.

상술한 다양한 실시 예에 따른 동영상의 초해상 처리 방법은 프로그램으로 구현되어 다양한 기록 매체에 저장될 수 있다. 즉, 각종 프로세서에 의해 처리되어 상술한 다양한 제어 방법을 실행할 수 있는 컴퓨터 프로그램이 기록 매체에 저장된 상태로 사용될 수도 있다.

일 예로, 동영상을 구성하는 복수의 입력 프레임을 초해상 처리를 위한 RNN(Recurrent Neural Network)에 입력하는 단계, RNN의 복수의 출력 프레임을 초해상 처리를 위한 CNN(Convolutional Neural Network)에 입력하는 단계 및, CNN의 복수의 출력 프레임에 디콘볼루션(deconvolution)을 수행하여 복수의 출력 프레임의 해상도를 업스케일링(upscaling)하는 단계를 수행하는 프로그램이 저장된 비일시적 판독 가능 매체(non-transitory computer readable medium)가 제공될 수 있다.

비일시적 판독 가능 매체한 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상술한 다양한 어플리케이션 또는 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크 USB, 메모리카드, ROM 등과 같은 비일시적 판독 가능 매체에 저장되어 제공될 수 있다.

이상에서는 본 발명의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형 실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.

100: 영상 처리 장치 110: 입력부
120: 프로세서

Claims

동영상의 초해상(super-resolution) 처리 방법에 있어서,
상기 동영상을 구성하는 연속된 복수의 입력 프레임을 초해상 처리를 위한 RNN(Recurrent Neural Network)에 순차적으로 입력하는 단계;
상기 RNN에서 순차적으로 출력되는 프레임을 초해상 처리를 위한 CNN(Convolutional Neural Network)에 순차적으로 입력하는 단계; 및
상기 CNN에서 순차적으로 출력되는 프레임에 디콘볼루션(deconvolution)을 수행하여 상기 출력 프레임의 해상도를 업스케일링(upscaling)하는 단계;를 포함하고,
상기 RNN에서 순차적으로 출력되는 프레임은,
이전 프레임의 히든 상태에 기초하여 업데이트된 현재 프레임의 히든 상태에 관한 정보를 포함하고,
상기 RNN은,
상기 이전 프레임의 히든 상태에 대한 정보를 이용하여 상기 동영상의 장면 전환을 예측하고, 상기 장면 전환이 예측되면 상기 이전 프레임의 히든 상태에 대한 정보를 제로(zero) 값으로 변경하고, 상기 제로 값으로 변경된 상기 이전 프레임의 히든 상태에 대한 정보에 기초하여 상기 현재 프레임의 히든 상태에 대한 정보를 업데이트하는 것을 특징으로 하는 초해상 처리 방법.
삭제
제1항에 있어서,
상기 CNN에서 순차적으로 출력되는 프레임을 상기 RNN에 재귀시키는 단계;를 더 포함하며,
상기 CNN에서 출력되는 프레임은,
상기 RNN에 입력된 대응되는 제1 프레임보다 고 해상도인 제2 프레임에 대한 정보를 포함하는 것을 특징으로 하는, 초해상 처리 방법.
제1항에 있어서,
상기 CNN에서 순차적으로 출력되는 프레임을 타 RNN에 순차적으로 입력하는 단계; 및
상기 타 RNN의 히든 상태(hidden status)에 대한 정보를 상기 RNN에 재귀시키는 단계;를 더 포함하며,
상기 업 스케일링 단계는,
상기 타 RNN에서 순차적으로 출력되는 프레임을 디콘볼루션하는 것을 특징으로 하는, 초해상 처리 방법.
제1항에 있어서,
상기 CNN은,
상기 RNN로부터 순차적으로 입력되는 프레임을 필터링하여 피쳐맵(feature map)을 생성하고, 상기 피쳐맵에 대한 배치(batch) 정규화(normalization)를 수행하고, 상기 정규화된 피쳐맵에 활성 함수(activation function)를 적용하는 것을 특징으로 하는, 초해상 처리 방법.
삭제
제1항에 있어서,
상기 장면 전환을 예측하는 단계는,
상기 이전 프레임의 히든 상태에 대한 정보에 기초하여 예측되는 현재 프레임의 히든 상태에 대한 정보를 이용하여 에러율을 산출하고, 상기 산출된 에러율이 기설정된 임계값을 초과하는지 여부에 따라 상기 동영상의 장면 전환을 예측하는 것을 특징으로 하는, 초해상 처리 방법.
제1항에 있어서,
상기 RNN 및 CNN 중 어느 하나에 순차적으로 입력하는 단계는,
상기 동영상의 출력 포맷이 YCbCr 채널인 경우, 상기 복수의 입력 프레임 중 Y 채널에 대응되는 프레임들만 상기 RNN 및 CNN 중 어느 하나에 순차적으로 입력하는 것을 특징으로 하는, 초해상 처리 방법.
제1항에 있어서,
상기 RNN은,
LSTM(Long Short-Term Memory) 네트워크를 포함하는 것을 특징으로 하는, 초해상 처리 방법.
동영상의 초해상 처리를 수행하는 영상 처리 장치에 있어서,
상기 동영상을 입력받는 입력부; 및
상기 동영상을 구성하는 연속된 복수의 입력 프레임을 초해상 처리를 위한 RNN(Recurrent Neural Network)에 순차적으로 입력하고, 상기 RNN에서 순차적으로 출력되는 프레임을 초해상 처리를 위한 CNN(Convolutional Neural Network)에 순차적으로 입력하며,
상기 CNN에서 순차적으로 출력되는 프레임에 디콘볼루션(deconvolution)을 수행하여 상기 출력 프레임의 해상도를 업스케일링(upscaling)하는 프로세서;를 포함하고,
상기 RNN에서 순차적으로 출력되는 프레임은,
이전 프레임의 히든 상태에 기초하여 업데이트된 현재 프레임의 히든 상태에 관한 정보를 포함하고,
상기 프로세서는,
상기 이전 프레임의 히든 상태에 대한 정보를 이용하여 상기 동영상의 장면 전환을 예측하고, 상기 장면 전환이 예측되면 상기 이전 프레임의 히든 상태에 대한 정보를 제로(zero) 값으로 변경하며, 상기 제로 값으로 변경된 상기 이전 프레임의 히든 상태에 대한 정보에 기초하여 현재 프레임의 히든 상태에 대한 정보를 업데이트하는 것을 특징으로 하는 영상 처리 장치.
삭제
제10항에 있어서,
상기 프로세서는,
상기 CNN에서 순차적으로 출력되는 프레임을 상기 RNN에 재귀시키고,
상기 CNN에서 출력되는 프레임은,
상기 RNN에 입력된 대응되는 제1 프레임보다 고해상도인 제2 프레임에 대한 정보를 포함하는 것을 특징으로 하는, 영상 처리 장치.
제10항에 있어서,
상기 프로세서는,
상기 CNN에서 순차적으로 출력되는 프레임을 타 RNN에 순차적으로 입력하고, 상기 타 RNN의 히든 상태(hidden status)에 대한 정보를 상기 RNN에 재귀시키며,
상기 타 RNN에서 순차적으로 출력되는 프레임에 대하여 디콘볼루션을 수행하는 것을 특징으로 하는, 영상 처리 장치.
제10항에 있어서,
상기 CNN은,
상기 RNN으로부터 순차적으로 입력되는 프레임을 필터링하여 피쳐맵(feature map)을 생성하고, 상기 피쳐맵에 대한 배치(batch) 정규화(normalization)를 수행하고, 상기 정규화된 피쳐맵에 활성 함수(activation function)를 적용하는 것을 특징으로 하는, 영상 처리 장치.
삭제
제10항에 있어서,
상기 프로세서는,
상기 이전 프레임의 히든 상태에 대한 정보에 기초하여 예측되는 현재 프레임의 히든 상태에 대한 정보를 이용하여 에러율을 산출하고, 상기 산출된 에러율이 기설정된 임계값을 초과하는지 여부에 따라 상기 동영상의 장면 전환을 예측하는 것을 특징으로 하는, 영상 처리 장치.
제10항에 있어서,
상기 프로세서는,
상기 동영상의 출력 포맷이 YCbCr 채널인 경우, 상기 복수의 입력 프레임 중 Y 채널에 대응되는 프레임들만 상기 RNN 및 CNN 중 어느 하나에 순차적으로 입력하는 것을 특징으로 하는, 영상 처리 장치.
제10항에 있어서,
상기 RNN은,
LSTM(Long Short-Term Memory) 네트워크를 포함하는 것을 특징으로 하는, 영상 처리 장치.
동영상의 초해상 처리 방법을 실행하기 위한 프로그램이 저장된 기록 매체에 있어서,
상기 초해상 처리 방법은,
상기 동영상을 구성하는 연속된 복수의 입력 프레임을 초해상 처리를 위한 RNN(Recurrent Neural Network)에 순차적으로 입력하는 단계;
상기 RNN에서 순차적으로 출력되는 프레임을 초해상 처리를 위한 CNN(Convolutional Neural Network)에 순차적으로 입력하는 단계; 및
상기 CNN에서 순차적으로 출력되는 프레임에 디콘볼루션(deconvolution)을 수행하여 상기 출력 프레임의 해상도를 업스케일링(upscaling)하는 단계;를 포함하고,
상기 RNN에서 순차적으로 출력되는 프레임은,
이전 프레임의 히든 상태에 기초하여 업데이트된 현재 프레임의 히든 상태에 관한 정보를 포함하고,
상기 RNN은,
상기 이전 프레임의 히든 상태에 대한 정보를 이용하여 상기 동영상의 장면 전환을 예측하고, 상기 장면 전환이 예측되면 상기 이전 프레임의 히든 상태에 대한 정보를 제로(zero) 값으로 변경하고, 상기 제로 값으로 변경된 상기 이전 프레임의 히든 상태에 대한 정보에 기초하여 상기 현재 프레임의 히든 상태에 대한 정보를 업데이트하는 것을 특징으로 하는 기록 매체.