KR102459606B1

KR102459606B1 - 프레임 보간을 위한 움직임 기반 저정밀도 계산 방법

Info

Publication number: KR102459606B1
Application number: KR1020210137609A
Authority: KR
Inventors: 이채은; 정민우
Original assignee: 인하대학교 산학협력단
Priority date: 2021-10-15
Filing date: 2021-10-15
Publication date: 2022-10-27

Abstract

본 발명은 프레임 보간을 위한 움직임 기반 저정밀도 계산 방법에 관한 것으로, 프레임에서 움직임이 발생하는 영역에 대한 정보를 명시적으로 제공하여 입력 영상의 특성에 따라 정밀도(presision)를 제어하고 객관적 화질 성능인 PSNR(Peak Signal-to-Noise Ratio)과 SSIM(Structual Similarity)의 저하 없이 수행 시간을 단축시킬 수 있도록 프레임 보간을 위한 움직임 기반 저정밀도 계산 방법을 제공한다.

Description

프레임 보간을 위한 움직임 기반 저정밀도 계산 방법 {Motion-aware Low-precision Computation method for Frame Interpolation}

본 발명은 프레임 보간을 위한 움직임 기반 저정밀도 계산 방법에 관한 것으로서, 더욱 상세하게는 영상 특성을 적극적으로 반영할 수 있는 프레임 보간을 위한 움직임 기반 저정밀도 계산 방법에 관한 것이다.

비디오 보간법(video interpolation)은 과거 및 미래의 비디오로부터 현재의 비디오 프레임을 예측하는 기술로서, 비디오 프레임을 보간 하기 위해서는 움직임을 예측하고 픽셀을 합성하는 방식으로 진행되었다.

종래에는 비디오 프레임 예측 방법으로 블록 단위 예측하고 스무딩(Smoothing) 하는 방법, 옵티컬 플로우(Optical Flow)를 이용한 움직임 예측 등이 제안된 바 있으나, 최근 딥러닝(Deep Learning)을 활용한 비디오 보간법에 대한 연구가 활발히 이루어지고 있다.

이러한 딥러닝 기반의 프레임 보간(FI; Frame Interpolation)에 관한 선행기술로서 참고문헌 1, 2 등이 제안된 바 있다.

그런데, 상기 참고문헌 1, 2 들은 입력 영상 특성을 학습에만 의존함으로써 학습 데이터에 사용된 영상 전반의 평균적인 특성을 활용하여 객관적 화질을 높이는데 초점을 맞추고 있어, 처리 속도 및 리소스 오버헤드(resource overhead)가 증가함으로써 온디바이스 적합도는 떨어지는 단점이 있다.

참고문헌 1 : Simon Niklaus, et al, "Video frame interpolation via adaptive separable convolution," in Proceedings of the IEEE International Conference on Computer Vision, 2017, pp 261-270. 참고문헌 2 : Wenbo Bao, et al, "Depth-aware video frame interpolation," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019, pp 3703-3712 참고문헌 3 : Z Liu, et al. Video frame synthesis using deep voxel flow. In ICCV, 2017.

따라서, 본 발명은 이러한 문제점들을 해결하기 위한 것으로서 본 발명은 영상 특성을 적극적으로 반영할 수 있는 프레임 보간을 위한 움직임 기반 저정밀도 계산 방법을 제공하는데 그 목적이 있다.

특히, 본 발명은 2개의 입력 프레임들 사이의 광학 흐름(Optical Flow)을 찾아 중간 프레임을 합성하는 DVF(Deep Voxel Flow) 기반에서 이루어지는 프레임 보간을 위한 움직임 기반 저정밀도 계산 방법을 제공하는데 그 목적이 있다.

이와 같은 기술적 과제를 해결하기 위해 본 발명은;

프레임 보간을 위한 움직임 기반 저정밀도 계산 방법에 있어서, 인코더의 출력인 2개의 연속된 프레임의 신호 차이를 비교하는 제1단계; 상기 제1단계 이후에 2개의 연속된 프레임의 신호 차이에 따라 모션 영역은 '1' 또는 배경 영역은 '0'으로 바이너리 마스크를 생성하는 제2단계; 및 상기 바이너리 마스크 값에 따라 이미지를 블록으로 나누어 저정밀도를 수행하는 제3단계;를 포함하는 것을 특징으로 하는 프레임 보간을 위한 움직임 기반 저정밀도 계산 방법을 제공한다.

이때, 상기 제3단계는 디코더 계층에서 float32와 양자화된 int8 가중치를 공유하여 4×4 블록별로 정밀도를 달리하여 연산을 수행하는 단계인 것을 특징으로 한다.

그리고, 상기 제3단계는 상기 블록별 바이너리 마스크 값에 따라 움직임이 있는 모션 영역은 float32 연산을 수행하고, 움직임이 없는 배경 영역은 int8 연산을 수행하는 것을 특징으로 한다.

아울러, 상기 프레임 보간을 위한 움직임 기반 저정밀도 계산 방법은 입력되는 2개의 프레임들 사이의 광학 흐름(Optical Flow)을 찾아 중간 프레임을 합성하는 DVF(Deep Voxel Flow) 기반에서 이루어진 것을 특징으로 한다.

또한, 상기 제1단계에서, 2개의 연속된 프레임의 신호의 차이(R_i,jzero)는 하기의 식으로 계산되는 것을 특징으로 한다.

그리고, 상기 제2단계에서, 바이너리 마스크(M_i,j)는 2개의 연속된 프레임의 신호의 차이(R_i,jzero)의 특성에 따라 하기의 식(2)에 따라 계산되는 것을 특징으로 한다.

아울러, 상기 제1단계 이전에, 연속된 2개의 이미지 사이에 계산된 모션벡터를 이용하여 원본 이미지에서 픽셀을 빌려와 프레임을 생성하는 제4단계;를 더 포함하는 것을 특징으로 한다.

본 발명에 따르면, 프레임에서 움직임이 발생하는 영역에 대한 정보를 명시적으로 제공하여 입력 영상의 특성에 따라 정밀도(presision)를 제어하고 객관적 화질 성능인 PSNR(Peak Signal-to-Noise Ratio)과 SSIM(Structual Similarity)의 저하 없이 수행 시간을 단축하는 효과가 있다.

도 1은 본 발명에 따른 프레임 보간을 위한 움직임 기반 저정밀도 계산을 위한 이미지 처리장치의 구성도이다.
도 2는 본 발명에 따른 프레임 보간을 위한 움직임 기반 저정밀도 계산을 위한 베이스라인 DVF의 네트워크 및 레이어별 MAC 분포를 설명하기 위해 도시한 도면이다.
도 3은 본 발명에 따른 프레임 보간을 위한 움직임 기반 저정밀도 계산을 위한 네트워크 구조를 도시한 도면이다.
도 4는 본 발명에 따른 이미지의 블록 단위 처리 예를 도시한 도면이다.
도 5는 본 발명에 따른 프레임 보간을 위한 움직임 기반 저정밀도 계산시 TH에 따른 움직임 영역 비율과 속도 향상 예를 도시한 도면이다.
도 6은 본 발명에 따른 움직임 기반 저정밀도 계산시 움직임 영역 비율에 따른 PSNR과 SSIM의 평가표이다.

이하, 본 발명에 따른 프레임 보간을 위한 움직임 기반 저정밀도 계산 방법을 첨부한 도면을 참고로 하여 상세히 기술되는 실시 예에 의하여 그 특징들을 이해할 수 있을 것이다.

이에 앞서, 본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 아니 되며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념을 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다.

따라서, 본 명세서에 기재된 실시 예와 도면에 도시된 구성은 본 발명의 가장 바람직한 일 실시 예에 불과할 뿐이고, 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들은 대체할 수 있는 다양한 균등물과 변형 예들이 있을 수 있음을 이해하여야 한다.

도 1을 참고하면, 본 발명에 따른 프레임 보간을 위한 움직임 기반 저정밀도 계산 방법은 영상 특성을 적극적으로 반영할 수 있도록 MALFnet(Motion-aware Low-precision Computation for Flow-based Frame Synthesis Network)을 제안한다.

통상적으로 영상의 픽셀(Pixel) 값을 직접 생성하는 기존의 프레임 보간(FI; Frame Interpolation)보다 광학 흐름(Optical Flow) 기반의 연구가 덜 흐릿하며 좋은 성능을 보인다고 알려져 있다.

이에 본 발명에서는 입력되는 2개의 프레임들 사이의 광학 흐름(Optical Flow)을 찾아 중간 프레임을 합성하는 DVF(Deep Voxel Flow) 기반에서 이루어졌다. 상기 DVF(Deep Voxel Flow)는 참고문헌 3의 비디오 프레임 합성을 의미한다.

이때, 프레임에서 움직임이 있는 모션 영역은 밀집(dense)한 흐름(flow)이 필요하고, 움직임이 없는 배경 영역은 밀도가 낮은(sparse) 흐름(flow) 출력값을 갖는다.

상기 영상은 카메라(1)를 통해 촬영될 수 있으며, PC, 노트북 등의 다양한 이미지 처리장치(10)에서 연산을 통해 입력 영상의 특성에 따라 정밀도(presision)를 제어하고 객관적 화질 성능의 저하 없이 수행 시간을 줄일 수 있다.

좀 더 구체적으로 설명하면 상기 이미지 처리장치(10)는 프레임에서 움직임이 발생하는 영역에 대한 정보를 명시적으로 제공하여 입력 영상의 특성에 따라 정밀도(presision)를 제어하고 객관적 화질 성능인 PSNR(Peak Signal-to-Noise Ratio)과 SSIM(Structual Similarity)의 저하 없이 수행 시간을 줄일 수 있다.

이를 위해 상기 이미지 처리장치(10)는 프레임 보간을 위한 움직임 기반 저정밀도 계산을 위한 프로그램이 저장되는 메모리(11)와, 상기 프로그램을 로딩하여 연산을 수행하는 프로세서(12)를 구비함으로써 후술할 다양한 방법 내지는 동작을 수행한다.

도 2는 본 발명의 베이스라인(baseline)인 인코더-디코더 구조를 가진 DVF(Deep Voxel Flow)를 설명하기 위해 도시한 도면이다.

이에 의하면 연속된 2개의 이미지 사이에 계산된 모션벡터를 이용하여 원본 이미지에서 픽셀을 빌려와 프레임을 생성한다. 레이어별 요구되는 MAC을 보면 실행 속도 향상을 위해서 디코더 레이어의 계산 수행 시간을 줄이는 것이 필요하다는 것을 알 수 있다.

도 3은 본 발명에서 제안하는 MALFnet(Motion-aware Low-precision Computation for Flow-based Frame Synthesis Network)을 보인다.

이에 의하면 블록 별 바이너리 마스크 값에 따라 움직임이 있는 모션 영역과 움직임이 없는 배경 영역을 다르게 처리한다.

이에 바이너리 마스크 값에 따라 빨간색으로 구분되어진 모션 영역은 float32 연산을 수행하고, 보라색 영역으로 구분되어진 배경 영역은 int8 연산을 수행한다. 파이토치(pytorch) 프레임워크 기반 양자화(Quantization)를 가중치(Weights)와 엑티베이션(Activation)에 적용하고 양자화 인식 훈련을 통해 양자화 파라미터를 결정함으로써 성능 손실을 최소화한다. 저정밀도(Low precision) 수행을 위해 추가되는 가중치 메모리는 전체 메모리 증가율의 3%를 차지한다.

상기 파이토치(pytorch)는 페이스북(Facebook)에서 개발 한 AI(Artificial Intelligence) 프레임 워크로서, GPU의 성능을 활용하고 딥 러닝 개발 플랫폼으로서의 유연성을 제공하기 위해 Numpy를 대체하는 Python 기반 패키지이다.

한편, 본 발명에서는 연속된 2개 이미지의 특징을 추출하기 위해 가중치가 공유된 인코더(encoder)와 추출된 2개 이미지의 신호 차이를 이용하여 마스크 생성자(Mask Generator)가 모션 영역과 배경 영역을 구분하는 바이너리값을 생성한다. 디코더(decoder) 계층은 float32와 양자화된 int8 가중치를 공유하여 4×4 블록별로 정밀도(precision)를 달리하여 연산을 수행한다.

상기 인코더(encoder)의 출력인 2개의 연속된 프레임의 신호의 차이가 배경과 같은 움직임이 없는 영역에서 '0'에 가깝다는 단순한 특성으로 하기의 식(1)을 이용한다.

이에 의하면 블록 단위로 '0'의 비율을 기준으로 R_i,jzero ＜ TH 이면 모션 영역인 '1', R_i,jzero ＞ TH 이면 배경 영역인 '0'으로 나타내는 바이너리 마스크(M_i,j)를 식(2)로 생성한다.

바이너리 마스크(M_i,j) 값에 따라 이미지를 4×4 블록으로 나누어 고정밀도(High precision) 또는 저정밀도(Low precision)를 수행한다.

이미지를 블록 별로 나누어 처리하기 위해서는 도 4와 같이 인접 블록에서 위와 왼쪽의 W*(K-S)*N 과 H*(K-S)*N의 빨간 영역이 필요하며, 초록 영역의 재계산이 필요하다. 여기서 W, H, K, S와 N은 각각 이미지 크기와 kernel, stride size, channel의 개수를 의미한다.

이하, 도 5 및 도 6을 참고로 본 발명에 따른 프레임 보간을 위한 움직임 기반 저정밀도 계산 계산을 통한 이미지 처리 실험 예를 설명한다.

본 발명의 실험에 사용된 이미지 처리장치(10)의 컴퓨팅 플랫폼은 4.8㎓의 클럭 주파수와 48GB RAM의 AMD 16 코어 Ryzen 5950 CPU로 구성된다. 실험을 통해 UCF101 이미지 10,000개를 사용하였다. 정량적 결과와 정성적 결과를 baseline DVF(Deep Voxel Flow)[참고문헌 3]와 비교하였다.

도 5에서 TH = 0.7이 적용되었을 때 움직임 영역 비율이 평균 0.5이고 처리속도는 2배 증가하였다. 도 6의 표에서 제안된 기법으로 생성된 in-between frame들의 평균적인 PSNR, SSIM값은 High precision(FP32)과 거의 차이가 나지 않음을 확인할 수 있다.

이상에서와 같이 최근 연구된 다양한 딥러닝 기반 이미지 처리를 디바이스에 적용하려면 다양한 유형의 입력 데이터를 처리할 수 있는 속도 향상 기술이 필수적이다.

본 발명에서는 오토 인코더 네트워크의 디코더 계층에 초점을 맞춘 속도 개선 기술을 제안하였으나 이에 한정하지 않고 인코더 계층에 대한 연구를 기반으로 추가적인 성능 개선 역시 바람직하다.

위에서 설명한 프레임 보간을 위한 움직임 기반 저정밀도 계산 방법을 정리하면, 프레임 보간을 위한 움직임 기반 저정밀도 계산 방법에 있어서, 인코더의 출력인 2개의 연속된 프레임의 신호 차이를 비교하는 제1단계, 상기 제1단계 이후에 2개의 연속된 프레임의 신호 차이에 따라 모션 영역은 '1' 또는 배경 영역은 '0'으로 바이너리 마스크를 생성하는 제2단계 및 상기 바이너리 마스크 값에 따라 이미지를 블록으로 나누어 저정밀도를 수행하는 제3단계를 포함하여 이루어지게 된다.

이때, 상기 제3단계는 디코더 계층에서 float32와 양자화된 int8 가중치를 공유하여 4×4 블록별로 정밀도를 달리하여 연산을 수행하게 된다.

그리고, 상기 제3단계는 상기 블록별 바이너리 마스크 값에 따라 움직임이 있는 모션 영역은 float32 연산을 수행하고, 움직임이 없는 배경 영역은 int8 연산을 수행하게 된다.

아울러, 상기 프레임 보간을 위한 움직임 기반 저정밀도 계산 방법은 입력되는 2개의 프레임들 사이의 광학 흐름(Optical Flow)을 찾아 중간 프레임을 합성하는 DVF(Deep Voxel Flow) 기반에서 이루어진다.

또한, 상기 제1단계에서, 2개의 연속된 프레임의 신호의 차이(R_i,jzero)는 하기의 식으로 계산되게 된다.

그리고, 상기 제2단계에서, 바이너리 마스크(M_i,j)는 2개의 연속된 프레임의 신호의 차이(R_i,jzero)의 특성에 따라 하기의 식(2)에 따라 계산되게 된다.

아울러, 상기 제1단계 이전에, 연속된 2개의 이미지 사이에 계산된 모션벡터를 이용하여 원본 이미지에서 픽셀을 빌려와 프레임을 생성하는 제4단계를 더 포함하게 된다.

이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형 가능한 것으로, 본 발명의 보호범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

1: 카메라 10: 이미지 처리장치
11: 메모리 12: 프로세서

Claims

프레임 보간을 위한 움직임 기반 저정밀도 계산 방법에 있어서,
인코더의 출력인 2개의 연속된 프레임의 신호 차이를 비교하는 제1단계;
상기 제1단계 이후에 2개의 연속된 프레임의 신호 차이에 따라 모션 영역은 '1' 또는 배경 영역은 '0'으로 바이너리 마스크를 생성하는 제2단계; 및
상기 바이너리 마스크 값에 따라 이미지를 블록으로 나누어 저정밀도를 수행하는 제3단계;를 포함하고,
상기 제3단계는 상기 블록별 바이너리 마스크 값에 따라 움직임이 있는 모션 영역은 float32 연산을 수행하고, 움직임이 없는 배경 영역은 int8 연산을 수행하는 것을 특징으로 하는 프레임 보간을 위한 움직임 기반 저정밀도 계산 방법.
제 1항에 있어서,
상기 제3단계는 디코더 계층에서 float32와 양자화된 int8 가중치를 공유하여 4×4 블록별로 정밀도를 달리하여 연산을 수행하는 단계인 것을 특징으로 하는 프레임 보간을 위한 움직임 기반 저정밀도 계산 방법.
삭제
제 1항에 있어서,
상기 프레임 보간을 위한 움직임 기반 저정밀도 계산 방법은 입력되는 2개의 프레임들 사이의 광학 흐름(Optical Flow)을 찾아 중간 프레임을 합성하는 DVF(Deep Voxel Flow) 기반에서 이루어진 것을 특징으로 하는 프레임 보간을 위한 움직임 기반 저정밀도 계산 방법.
삭제
삭제
제 1항에 있어서,
상기 제1단계 이전에, 연속된 2개의 이미지 사이에 계산된 모션벡터를 이용하여 원본 이미지에서 픽셀을 빌려와 프레임을 생성하는 제4단계;를 더 포함하는 것을 특징으로 하는 프레임 보간을 위한 움직임 기반 저정밀도 계산 방법.