KR102242343B1 - 고해상도 동영상 프레임 율 고속 변환 방법 및 장치 - Google Patents

고해상도 동영상 프레임 율 고속 변환 방법 및 장치 Download PDF

Info

Publication number
KR102242343B1
KR102242343B1 KR1020190137132A KR20190137132A KR102242343B1 KR 102242343 B1 KR102242343 B1 KR 102242343B1 KR 1020190137132 A KR1020190137132 A KR 1020190137132A KR 20190137132 A KR20190137132 A KR 20190137132A KR 102242343 B1 KR102242343 B1 KR 102242343B1
Authority
KR
South Korea
Prior art keywords
resolution
optical flow
frames
generation step
generating
Prior art date
Application number
KR1020190137132A
Other languages
English (en)
Inventor
정진우
안하은
김제우
Original Assignee
한국전자기술연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자기술연구원 filed Critical 한국전자기술연구원
Priority to KR1020190137132A priority Critical patent/KR102242343B1/ko
Priority to PCT/KR2019/017545 priority patent/WO2021085743A1/ko
Application granted granted Critical
Publication of KR102242343B1 publication Critical patent/KR102242343B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/01Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level
    • H04N7/0127Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level by changing the field or frame frequency of the incoming video signal, e.g. frame rate converter
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234381Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by altering the temporal resolution, e.g. decreasing the frame rate by frame skipping
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440281Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by altering the temporal resolution, e.g. by frame skipping
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/01Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level
    • H04N7/0135Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level involving interpolation processes
    • H04N7/0137Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level involving interpolation processes dependent on presence/absence of motion, e.g. of motion zones

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Television Systems (AREA)

Abstract

고해상도 비디오 영상에 대하여 고품질, 고속으로 프레임 보간을 수행하기 위한 방안으로, 입력 고해상도 영상을 저해상도 영상으로 변환하여 고속으로 광학 흐름 지도를 생성하고 이를 원본 고해상도로 복원하여 고해상도 영상을 고속으로 보간하는 동영상 프레임 율 고속 변환 방법 및 장치가 제공된다. 본 발명의 실시예에 따른, 동영상 프레임 율 변환 방법은 시간적으로 연속된 고해상도의 프레임들로부터 생성한 저해상도의 프레임들들로 광학 흐름을 예측하여, 저해상도의 광학 흐름 지도들을 생성하는 제1 생성단계; 저해상도의 광학 흐름 지도들의 해상도를 단계적으로 높이면서, 고해상도의 중간 프레임들을 생성하는 제2 생성단계; 생성된 고해상도의 중간 프레임들을 블렌딩하여, 최종 보간 프레임을 생성하는 제3 생성단계:를 포함한다.
이에 의해, 입력 고해상도 영상을 저해상도 영상으로 변환하여 고속으로 광학 흐름 지도를 생성하고 이를 원본 고해상도로 복원하여 고해상도 영상을 보간함으로써, 4K와 같은 고해상도 비디오 영상에 대하여 실시간성을 요구하는 시스템 환경에서도 고품질, 고속으로 프레임 보간을 수행할 수 있게 된다.

Description

고해상도 동영상 프레임 율 고속 변환 방법 및 장치{A Fast High Quality Video Frame Rate Conversion Method and Apparatus}
본 발명은 동영상의 프레임 율 변환 기술에 관한 것으로, 더욱 상세하게는 딥러닝 기법에 기반한 광학 흐름 추정 지도를 저해상도에서 예측하고 이를 고해상도로 복원하여 고해상도 동영상의 프레임을 고속으로 보간하는 동영상 프레임 율 고속 변환 방법 및 장치에 관한 것이다.
1. 동영상 프레임 율 변환 기법 개요
동영상은 연속된 정지 영상의 집합으로 구성된다. 비디오에서 정지 영상을 프레임이라고 부르며 단위 시간 당 프레임의 수를 동영상의 프레임 율 (frame rate)이라고 한다. 예를 들어 1초에 24장의 프레임으로 구성되면 프레임 율은 24 fps (frame per second)가 된다. 프레임 율은 촬영자의 의도, 영상의 포맷, 카메라의 한계 등에 의하여 결정된다.
관찰자가 영상을 연속된 화면으로 느끼기 위해서는 어느 정도 이상의 프레임 율이 필요하고 이보다 낮을 경우 움직임이 부드럽지 않아 보인다. 이 현상은 디스플레이의 크기, 조명, 시청 거리 등에 의해 달라질 수 있다. 이를 개선하기 위해 동영상의 프레임 율을 후처리에 의해 증가시키는 것을 동영상 프레임 율 변환이라고 한다.
2. 종래 기술
동영상 프레임 율을 증가시키는 가장 간단한 방법은 프레임을 반복하는 것이다. 예를 들어 30 fps 영상을 60 fps 영상으로 증가시킬 경우, 각 프레임마다 한 프레임을 반복하여 출력하는 것이다.
그러나 이 방법의 경우 동영상의 정보량은 동일하고 움직임에 대한 연속성은 변하지 않았으므로 관찰자가 느끼는 불편감은 동일하다. 이를 해결하기 위해 연속된 프레임들을 이용하여 가상의 프레임을 생성하는 기술이 개발되었다. 즉 t 초와 t+1 초 사이의 영상을 이용하여 t+0.5 초의 중간 영상을 새롭게 생성하며 이를 프레임 보간 (frame interpolation) 기술(도 1 참조)이라고 한다.
프레임 보간은 다양한 방법이 개발되었으며 일반적으로는 다음과 같은 두 단계 과정을 거친다. 첫 번째 단계는 움직임 또는 광학 흐름 지도를 획득하는 단계 이며 두 번째 단계는 움직임 정보를 바탕으로 중간 프레임을 생성 (Synthesis)하는 단계이다.
동영상에서 물체의 움직임이 부드럽게 보이려면 중간 영상은 물체의 움직임이 두 영상 사이의 중간에 해당되어야 한다. 따라서 물체의 움직임 정보를 가지고 있는 광학 흐름 지도를 정확하게 찾는 것이 매우 중요하다. 이에 기반한 다양한 기법들이 제안되어 왔다.
최근 딥러닝 (Deep learning) 알고리즘이 등장하여 컴퓨터 비젼, 음성 인식 등 다양한 분야에 널리 사용되고 있으며 종래에 방법에 비해 월등한 성능을 보이고 있다. 이에 발맞추어 딥러닝을 사용한 다양한 프레임 보간 기법이 등장하였다. 이 기법들은 딥러닝을 이용하여 고품질의 광학 흐름 지도를 예측하여 종래의 방법보다 더욱 뛰어난 보간 결과를 보여주고 있다.
3. 종래 기술 문제점
기존 방법의 문제는 네트워크 구조로 인한 문제로 4K (3840x2160) 해상도와 같이 큰 해상도에 대하여 GPU 메모리 부족으로 연산이 불가능 하거나, 매우 느린 연산 속도를 보여준다. 이와 같은 현상은 실시간 연산을 요구하는 상용 애플리케이션에 딥러닝을 이용한 프레임 보간 방법 적용을 어렵게 한다.
또한, 고해상도 영상은 저해상도 영상들에 비하여 일반적으로 큰 움직임을 가진다. 기존 방법들은 이러한 큰 움직임에 대하여 저품질의 광학 흐름 지도를 생성하는 경향이 있으며, 이는 보간된 영상의 품질 저하를 야기하는 문제를 가진다.
본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은, 고해상도 비디오 영상에 대하여 고품질, 고속으로 프레임 보간을 수행하기 위한 방안으로, 입력 고해상도 영상을 저해상도 영상으로 변환하여 고속으로 광학 흐름 지도를 생성하고 이를 원본 고해상도로 복원하여 고해상도 영상을 고속으로 보간하는 동영상 프레임 율 고속 변환 방법 및 장치를 제공함에 있다.
상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른, 동영상 프레임 율 변환 방법은 시간적으로 연속된 고해상도의 프레임들로부터 생성한 저해상도의 프레임들들로 광학 흐름을 예측하여, 저해상도의 광학 흐름 지도들을 생성하는 제1 생성단계; 저해상도의 광학 흐름 지도들의 해상도를 단계적으로 높이면서, 고해상도의 중간 프레임들을 생성하는 제2 생성단계; 생성된 고해상도의 중간 프레임들을 블렌딩하여, 최종 보간 프레임을 생성하는 제3 생성단계:를 포함한다.
제1 생성단계는, 입력되는 시간적으로 연속된 프레임들의 해상도인 제1 해상도 보다 낮은 제3 해상도의 프레임들로 광학 흐름을 예측하여, 제3 해상도의 광학 흐름 지도들을 생성하는 단계; 제3 해상도의 광학 흐름 지도들을 이용하여, 제3 해상도의 중간 프레임들을 생성하는 단계; 제3 해상도의 중간 프레임들과 광학 흐름 지도들로, 제3 해상도 보다 높은 제2 해상도의 중간 프레임들과 광학 흐름 지도들을 복원하는 단계;를 포함하고, 제2 생성단계는, 제2 해상도의 중간 프레임들과 광학 흐름 지도들을 이용하여, 제2 해상도 보다 높은 제1 해상도의 중간 프레임들을 생성하는 제2 생성단계;를 포함할 수 있다.
제2 생성단계는, 복원된 제2 해상도의 중간 프레임들과 광학 흐름 지도들로 광학 흐름을 예측하여, 제2 해상도의 광학 흐름 지도들을 생성하는 단계; 제2 해상도의 광학 흐름 지도들을 이용하여, 제2 해상도의 중간 프레임들을 생성하는 단계; 생성된 제2 해상도의 중간 프레임들과 광학 흐름 지도들로 광학 흐름을 예측하여, 제1 해상도의 광학 흐름 지도들을 생성하는 단계; 제1 해상도의 광학 흐름 지도들을 이용하여, 제1 해상도의 중간 프레임들을 생성하는 단계;를 포함하고, 제3 생성단계는, 생성된 제1 해상도의 중간 프레임들을 블렌딩하여, 최종 보간 프레임을 생성하는 것일 수 있다.
제2 해상도의 광학 흐름 지도 생성단계는, 복원된 제2 해상도의 중간 프레임들과 광학 흐름 지도들에 제1 해상도의 프레임들을 제2 해상도로 다운 샘플링한 프레임들을 추가로 이용하여, 광학 흐름을 예측하는 것일 수 있다.
복원 단계는, 선형 보간 방법을 이용하여, 제3 해상도의 중간 프레임들과 광학 흐름 지도들로, 제2 해상도의 중간 프레임들과 광학 흐름 지도들을 복원하는 것일 수 있다.
제3 해상도의 광학 흐름 지도 생성단계, 제2 해상도의 광학 흐름 지도 생성단계 및 제1 해상도의 광학 흐름 지도 생성단계는, 훈련된 인공지능 모델을 이용하여, 제3 해상도의 광학 흐름 지도, 제2 해상도의 광학 흐름 지도 및 제1 해상도의 광학 흐름 지도를 생성하는 것일 수 있다.
제3 해상도의 광학 흐름 지도 생성단계는, 제3 해상도의 프레임들과 제3 해상도의 광학 흐름 지도들을 bak-warping 연산하여 생성하고, 제2 해상도의 광학 흐름 지도 생성단계는, 제2 해상도의 프레임들과 제2 해상도의 광학 흐름 지도들을 bak-warping 연산하여 생성하며, 제1 해상도의 광학 흐름 지도 생성단계는, 제1 해상도의 프레임들과 제1 해상도의 광학 흐름 지도들을 bak-warping 연산하여 생성하는 것일 수 있다.
제3 생성단계는,
Figure 112019111480908-pat00001
위의 블렌딩 파라미터 B로 제1 해상도의 중간 프레임들을 블렌딩 연산하고,
k1은 sigmoid 함수의 기울기를 조절하며,
K2는 sigmoid 함수의 입력으로 주어지는 것일 수 있다.
인공지능 모델의 훈련은, 원본 입력 영상과 보간 영상을 다시 원본 영상으로 back-warpking한 영상과의 차이를 계산하는 함수, 생성된 광학 흐름 지도들의 전과 후의 차이를 계산하는 함수, adversarial 손실 함수를 이용하는 것일 수 있다.
본 발명의 다른 측면에 따르면, 시간적으로 연속된 고해상도의 프레임들로부터 생성한 저해상도의 프레임들들로 광학 흐름을 예측하여, 저해상도의 광학 흐름 지도들을 생성하는 예측부; 저해상도의 광학 흐름 지도들의 해상도를 단계적으로 높이면서, 고해상도의 중간 프레임들을 생성하는 향상부; 생성된 고해상도의 중간 프레임들을 블렌딩하여, 최종 보간 프레임을 생성하는 생성부:를 포함하는 것을 특징으로 하는 동영상 프레임 율 변환 장치가 제공된다.
본 발명의 또다른 측면에 따르면, 저해상도의 프레임들들로 광학 흐름을 예측하여, 저해상도의 광학 흐름 지도들을 생성하는 제1 생성단계; 저해상도의 광학 흐름 지도들을 이용하여, 고해상도의 중간 프레임들을 생성하는 제2 생성단계; 및 생성된 고해상도의 중간 프레임들을 이용하여, 최종 보간 프레임을 생성하는 제3 생성단계:를 포함하는 것을 특징으로 하는 동영상 프레임 율 변환 방법이 제공된다.
본 발명의 또다른 측면에 따르면, 시간적으로 연속된 고해상도의 프레임들로부터 생성한 저해상도의 프레임들들로 광학 흐름을 예측하여, 저해상도의 광학 흐름 지도들을 생성하는 제1 생성단계; 저해상도의 광학 흐름 지도들의 해상도를 단계적으로 높이면서, 고해상도의 중간 프레임들을 생성하는 제2 생성단계; 생성된 고해상도의 중간 프레임들을 블렌딩하여, 최종 보간 프레임을 생성하는 제3 생성단계:를 포함하는 것을 특징으로 하는 동영상 프레임 율 변환 방법을 수행할 수 있는 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록매체가 제공된다.
이상 설명한 바와 같이, 본 발명의 실시예들에 따르면, 입력 고해상도 영상을 저해상도 영상으로 변환하여 고속으로 광학 흐름 지도를 생성하고 이를 원본 고해상도로 복원하여 고해상도 영상을 보간함으로써, 4K와 같은 고해상도 비디오 영상에 대하여 실시간성을 요구하는 시스템 환경에서도 고품질, 고속으로 프레임 보간을 수행할 수 있게 된다.
도 1 : 프레임 보간 기술
도 2 : 본 발명의 실시예에 따른 동영상 프레임 율 변환 장치의 블럭도
도 3 : 피라미드 형태의 영상 표현 방법
도 4 : 광학 흐름 예측부, 광학 흐름 해상도 향상부 및 중간 프레임 생성부의 상세 구조
이하에서는 도면을 참조하여 본 발명을 보다 상세하게 설명한다.
도 2는 본 발명의 일 실시예에 따른 동영상 프레임 율 변환 장치의 블럭도이다. 본 발명의 실시예에 따른 동영상 프레임 율 변환 장치는, 도시된 바와 같이, 광학 흐름 예측부(110), 광학 흐름 해상도 향상부(120) 및 최종 중간 프레임 생성부(130)를 포함하여 구성된다.
광학 흐름 예측부(110)는 입력으로 주어지는 시간적으로 연속된 프레임들의 양방향 광학 흐름을 저해상도에서 예측한다.
기존의 방법에서는 광학 흐름 예측을 원본 해상도에서 수행하기 때문에, 고해상도 영상을 입력으로 받는 경우 많은 양의 메모리를 요구하며, 제한된 하드웨어 환경을 가지는 시스템에서는 프레임 보간을 수행 할 수 없으며, 프레임 보간을 수행한다 하더라도, 매우 느린 동작 속도를 가지는 문제를 가졌었다. 또한 고해상도 영상의 경우 영상내의 객체들의 움직임이 매우 큰 편이며, 기존의 방법들은 이러한 경우에 blur나 ghost 열화를 발생시키는 문제가 있었다.
하지만, 본 발명의 실시예에서는 광학 흐름 예측을 저해상도에서 수행함으로써 상기 문제들을 효과적으로 해결한다.
도 3은 본 발명의 실시예에서 사용가능한 피라미드 형태의 영상 표현 방법들을 보여준다. 도 3에서 Level 1 해상도는 원본 입력 영상의 해상도와 동일한 해상도를 가지며, level 2의 영상들은 level 1의 해상도를 2분의 1크기로 downsample한 해상도를 가진다. 마지막으로 level 3 해상도는 level 1 해상도의 4분의 1크기를 가진다.
광학 흐름 예측부(110)는 level 3의 해상도에서 광학 흐름 지도를 생성하고, 광학 흐름 해상도 향상부(120)에서는 level 3 해상도의 광학 흐름 지도를 level 2 해상도와 level 1 해상도로 순차적으로 복원한다.
광학 흐름 지도의 해상도 향상을 단계적으로 수행하는 것은 광학 흐름이 급작스럽게 변화하지 않도록 하여, 최종 보간된 프레임이 자연스러운 움직임을 갖도록 하기 위함이다.
최종적으로 최종 중간 프레임 생성부(130)에서는, 복원된 고해상도 광학 흐름 지도를 이용하여 최종 중간 프레임을 생성하여 보간한다.
도 4는 광학 흐름 예측부(110), 광학 흐름 해상도 향상부(120) 및 최종 중간 프레임 생성부(130)의 상세 구조를 도식화하여 보여준다.
일반적으로 고품질의 광학 흐름 지도를 생성하기 위해서는 합성곱 신경망에서 충분한 크기의 receptive field가 요구된다. 하지만 receptive field가 커질수록 합성곱 신경망의 알고리즘 계산 복잡도가 증가하게 되는 문제를 가진다. 기존의 방법들에서는 원본 영상의 해상도와 동일한 크기를 가지는 광학 흐름 지도를 생성하기 때문에 4K 프레임과 같은 고해상도 영상에 대해서 느린 동작 속도를 가지는 문제를 가진다.
이에 본 발명의 실시예에서는 원본 입력 영상의 해상도를 level 3 해상도로 줄여 광학 흐름을 예측한다. 이를 통하여 비교적 작은 크기의 receptive field를 통해서도 영상 내의 객체의 움직임을 쉽게 다룰 수 있고, 동시에 계산 연산에 필요한 메모리와 동작시간을 크게 감소시킬 수 있다.
광학 흐름 예측부(110)는 합성곱 신경망(111)를 포함하고 있다. 합성곱 신경망(111)에서는 원본 입력 해상도의 4분의 1의 크기를 갖는 level 3 해상도의 원본 입력 영상을 이용하여 광학 흐름 지도
Figure 112019111480908-pat00002
Figure 112019111480908-pat00003
를 생성한다. 그리고, 광학 흐름 지도
Figure 112019111480908-pat00004
Figure 112019111480908-pat00005
를 이용하여, 광학 흐름 예측부(110)는 level 3 해상도의 중간 프레임
Figure 112019111480908-pat00006
Figure 112019111480908-pat00007
를 생성한다.
Figure 112019111480908-pat00008
Figure 112019111480908-pat00009
는 다음의 수학식 (1)로 구할 수 있다.
Figure 112019111480908-pat00010
(1)
여기서 bω(ㆍ,ㆍ)는 bak-warping 연산을 의미한다.
다음, 광학 흐름 예측부(110)는 선형 보간 방법을 이용하여, 중간 프레임
Figure 112019111480908-pat00011
Figure 112019111480908-pat00012
그리고 광학 흐름 지도
Figure 112019111480908-pat00013
Figure 112019111480908-pat00014
로부터 원본 입력 해상도의 2분의 1크기를 갖는 level 2 해상도의
Figure 112019111480908-pat00015
Figure 112019111480908-pat00016
그리고 level 2 해상도의
Figure 112019111480908-pat00017
Figure 112019111480908-pat00018
를 복원한다.
복원된 영상들은 광학 흐름 해상도 향상부(120)의 입력으로 주어진다. 이 때, 2분의 1크기로 downsample 된 level 2 해상도의 원본 입력 영상을 추가적으로 사용하여 광학 흐름 지도의 해상도 향상시 품질 향상에 도움을 줄 수 있다.
광학 흐름 해상도 향상부(120)는 2개의 합성곱 신경망을 포함하고 있다. 첫 번째 합성곱 신경망(121)에서는
Figure 112019111480908-pat00019
,
Figure 112019111480908-pat00020
를 입력으로 받아, level 2 해상도의 광학 흐름 지도
Figure 112019111480908-pat00021
Figure 112019111480908-pat00022
를 생성한다. 여기서 H와 W는 원본 입력 영상의 세로와 가로 크기를 의미한다.
그리고 광학 흐름 해상도 향상부(120)는 수식 (1)과 유사하게 광학 흐름 지도
Figure 112019111480908-pat00023
Figure 112019111480908-pat00024
를 이용하여 level 2 해상도의 중간 프레임
Figure 112019111480908-pat00025
Figure 112019111480908-pat00026
를 생성한다.
Figure 112019111480908-pat00027
Figure 112019111480908-pat00028
는 다음의 수학식 (2)로 구할 수 있다.
Figure 112019111480908-pat00029
,
Figure 112019111480908-pat00030
(2)
다음 광학 흐름 해상도 향상부(120)의 두 번째 합성곱 신경망(122)에서는
Figure 112019111480908-pat00031
를 입력으로 받아 원본 입력 영상의 해상도인 level 1 해상도를 가지는 광학 흐름 지도
Figure 112019111480908-pat00032
Figure 112019111480908-pat00033
를 복원한다. 즉,
Figure 112019111480908-pat00034
Figure 112019111480908-pat00035
는 원본 해상도인 level 1 해상도로 복원된 최종 광학 흐름 지도를 의미한다.
그리고 광학 흐름 해상도 향상부(120)는 원본 입력 영상의 해상도인 level 1 해상도를 가지는 중간 프레임
Figure 112019111480908-pat00036
Figure 112019111480908-pat00037
을 다음 식 (3)을 통하여 구한다.
Figure 112019111480908-pat00038
,
Figure 112019111480908-pat00039
(3)
마지막으로, 최종 중간 프레임 생성부(130)는 최종 중간 프레임
Figure 112019111480908-pat00040
Figure 112019111480908-pat00041
를 블렌딩 (blending) 하여 보간할 최종 중간 프레임을 구한다. 최종 중간 프레임
Figure 112019111480908-pat00042
을 다음 식 (4)를 통하여 구한다.
Figure 112019111480908-pat00043
(4)
여기서 ⊙는 element-wise 곱셈 연산을 의미하며 B는 입력 영상의 blending parameter를 의미한다. 예를 들어, pixel p가 두 개의 입력 영상
Figure 112019111480908-pat00044
Figure 112019111480908-pat00045
에 모두 존재한다면 B는 0.5로 설정되며, 만약 p가
Figure 112019111480908-pat00046
에는 존재하지만
Figure 112019111480908-pat00047
에는 존재하지 않는다면 B=1 로 설정된다.
Blending parameter를 통한 중간 프레임 생성 방법은 가려짐 영역들에 의하여 발생하는 문제를 효과적으로 해결하나, 복잡한 구조의 변화나, 너무 큰 움직임을 가지는 객체들에 대해서는 저조한 성능을 보인다. 특히 이러한 경우에는 B의 값이 0.5로 설정되는 경우가 많아, 최종적으로 생성된 중간프레임이 blur한 결과를 보이는 경우가 많다.
본 발명의 실시예에서는 이를 해결하기 위하여,sigmoid 함수를 이용하여 적응적으로 학습을 통해 blending parameter를 생성하는 방법을 이용한다. 적응적 blending parameter B는 다음을 통하여 구한다.
Figure 112019111480908-pat00048
(5)
여기서, k1과 K2는 두 번째 광학 흐름 해상도 향상부(120)에서 출력된다. 첫 번째 parameter k1은 sigmoid 함수의 기울기를 조절하며, 두 번째 parameter K2는 sigmoid 함수의 입력으로 주어진다. Sigmoid 함수의 기울기 조절을 통하여 blur와 ghost 문제를 효과적으로 해결할 수 있다.
한편, 본 발명의 실시예에서는 딥러닝 기반의 광학 흐름 예측부(110)와 광학 흐름 해상도 향상부(120)를 훈련하기 위하여 multi-scale smoothness 손실 함수, consistecny 손실 함수와 adversarial 손실 함수를 새롭게 제안한다.
Consistency 손실 함수는 원본 입력 영상과 보간 영상을 다시 원본 영상으로 back-warpking한 영상과의 차이를 계산하는 함수이다. 이를 통하여 광학 흐름 해상도 향상부(120)가 고 품질의 고해상도 광학 흐름 지도를 복원하고 보간 영상이 blur 열화되는 것을 방지 할 수 있다. 제안하는 consistency 손실 함수 lc는 다음 식을 통하여 계산된다.
Figure 112019111480908-pat00049
(6)
한편, Consistency 손실 함수를 이용하여 blur 열화 문제를 방지 함에도 불구하고, 최종 보간 영상이 급작스러운 광학 흐름 변화로 인하여 over-smoothed되는 경향을 보일 수 있다.
이를 해결하기 위하여 본 발명의 실시예에서는 mulit-scale smoothness 손실 함수를 제안한다. Multi-scale smoothness 손실함수는 광학 흐름 해상도 향상부(120)의 결과와 이전 단계의 광학 흐름 해상도 향상부(120)와 광학 흐름 예측부(110)의 결과의 차이를 계산하는 함수이다.
Multi-scale smoothness 손실함수는 regularization 역할을 수행하며, 훈련된 광학 흐름 해상도 향상부(120)가 안정적으로 고해상도의 광학 흐름 지도를 복원하도록 한다. Multi-scale smoothness 손실함수 ls는 다음 식을 통하여 계산 된다.
Figure 112019111480908-pat00050
(7)
여기서 fu는 양방향 선형 보간 연산을 의미한다. 마지막으로 자연스러운 보간 영상을 생성하기 위하여 adversarial 손실 함수를 제안한다.
Adversarial 손실 함수 la는 다음 식을 통하여 계산된다.
Figure 112019111480908-pat00051
(8)
지금까지, 고해상도 동영상 프레임 율 고속 변환 방법 및 장치에 대해 바람직한 실시예를 들어 상세히 설명하였다.
종래 방법은 고해상도 영상을 입력시, 원본 해상도와 동일한 해상도를 가지는 광학 흐름 지도를 생성하여 프레임 보간을 수행함으로써, 많은 양의 메모리를 요구하며, 매우 느린 보간 속도를 갖는 문제점을 보였따.
하지만, 본 발명의 실시예에서는 입력 고해상도 영상을 저해상도 영상으로 변환하여 고속으로 광학 흐름 지도를 생성하고 이를 원본 고해상도로 복원하는 형태로 동작하여, 4K 프레임과 같은 고해상도 영상을 고속으로 보간이 가능하다.
본 발명의 실시예에 따른 고해상도 동영상 프레임 율 고속 변환 장치를 구현할 수 있는 하드웨어 구조에 대해, 이하에서 도 5를 참조하여 상세히 설명한다.
도 5는 본 발명의 다른 실시예에 따른 고해상도 동영상 프레임 율 고속 변환 장치로 기능할 수 있는 영상 시스템의 하드웨어 구조를 나타낸 블록도이다. 본 발명의 실시예에 따른 영상 시스템은, 도 5에 도시된 바와 같이, 입력부(210), 프로세서(220), 출력부(230) 및 저장부(240)를 포함한다.
입력부(210)는 외부 저장매체, 외부 기기, 통신망 등을 통해 영상 데이터를 입력받는 수단이고, 프로세서(220)는 입력된 영상에 대해 프레임 율 변환을 수행하기 위한 CPU들과 GPU들의 집합니다.
동영상 프레임 율을 변환함에 있어 프로세서(220)는 전술한 실시예에서 제시한 방법을 이용한다. 저장부(240)는 프로세서(220)가 프레임 율 변환을 수행함에 있어 필요한 저장공간을 제공하는 내부 저장매체이다.
출력부(230)는 프로세서(220)에서 프레임 율이 변환된 영상을 외부 저장매체, 외부 기기, 통신망 등으로 출력한다.
한편, 본 실시예에 따른 장치와 방법의 기능을 수행하게 하는 컴퓨터 프로그램을 수록한 컴퓨터로 읽을 수 있는 기록매체에도 본 발명의 기술적 사상이 적용될 수 있음은 물론이다. 또한, 본 발명의 다양한 실시예에 따른 기술적 사상은 컴퓨터로 읽을 수 있는 기록매체에 기록된 컴퓨터로 읽을 수 있는 코드 형태로 구현될 수도 있다. 컴퓨터로 읽을 수 있는 기록매체는 컴퓨터에 의해 읽을 수 있고 데이터를 저장할 수 있는 어떤 데이터 저장 장치이더라도 가능하다. 예를 들어, 컴퓨터로 읽을 수 있는 기록매체는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광디스크, 하드 디스크 드라이브, 등이 될 수 있음은 물론이다. 또한, 컴퓨터로 읽을 수 있는 기록매체에 저장된 컴퓨터로 읽을 수 있는 코드 또는 프로그램은 컴퓨터간에 연결된 네트워크를 통해 전송될 수도 있다.
또한, 이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.
110 : 광학 흐름 예측부
120 : 광학 흐름 해상도 향상부
130 : 최종 중간 프레임 생성부

Claims (12)

  1. 시간적으로 연속된 고해상도의 프레임들로부터 생성한 저해상도의 프레임들들로 광학 흐름을 예측하여, 저해상도의 광학 흐름 지도들을 생성하는 제1 생성단계;
    저해상도의 광학 흐름 지도들의 해상도를 단계적으로 높이면서, 고해상도의 중간 프레임들을 생성하는 제2 생성단계;
    생성된 고해상도의 중간 프레임들을 블렌딩하여, 최종 보간 프레임을 생성하는 제3 생성단계:를 포함하는 것을 특징으로 하는 동영상 프레임 율 변환 방법.
  2. 청구항 1에 있어서,
    제1 생성단계는,
    입력되는 시간적으로 연속된 프레임들의 해상도인 제1 해상도 보다 낮은 제3 해상도의 프레임들로 광학 흐름을 예측하여, 제3 해상도의 광학 흐름 지도들을 생성하는 단계;
    제3 해상도의 광학 흐름 지도들을 이용하여, 제3 해상도의 중간 프레임들을 생성하는 단계;
    제3 해상도의 중간 프레임들과 광학 흐름 지도들로, 제3 해상도 보다 높은 제2 해상도의 중간 프레임들과 광학 흐름 지도들을 복원하는 단계;를 포함하고,
    제2 생성단계는,
    제2 해상도의 중간 프레임들과 광학 흐름 지도들을 이용하여, 제2 해상도 보다 높은 제1 해상도의 중간 프레임들을 생성하는 제2 생성단계;를 포함하는 것을 특징으로 하는 동영상 프레임 율 변환 방법.
  3. 청구항 2에 있어서,
    제2 생성단계는,
    복원된 제2 해상도의 중간 프레임들과 광학 흐름 지도들로 광학 흐름을 예측하여, 제2 해상도의 광학 흐름 지도들을 생성하는 단계;
    제2 해상도의 광학 흐름 지도들을 이용하여, 제2 해상도의 중간 프레임들을 생성하는 단계;
    생성된 제2 해상도의 중간 프레임들과 광학 흐름 지도들로 광학 흐름을 예측하여, 제1 해상도의 광학 흐름 지도들을 생성하는 단계;
    제1 해상도의 광학 흐름 지도들을 이용하여, 제1 해상도의 중간 프레임들을 생성하는 단계;를 포함하고,
    제3 생성단계는,
    생성된 제1 해상도의 중간 프레임들을 블렌딩하여, 최종 보간 프레임을 생성하는 것을 특징으로 하는 동영상 프레임 율 변환 방법.
  4. 청구항 3에 있어서,
    제2 해상도의 광학 흐름 지도 생성단계는,
    복원된 제2 해상도의 중간 프레임들과 광학 흐름 지도들에 제1 해상도의 프레임들을 제2 해상도로 다운 샘플링한 프레임들을 추가로 이용하여, 광학 흐름을 예측하는 것을 특징으로 하는 동영상 프레임 율 변환 방법.
  5. 청구항 3에 있어서,
    복원 단계는,
    선형 보간 방법을 이용하여, 제3 해상도의 중간 프레임들과 광학 흐름 지도들로, 제2 해상도의 중간 프레임들과 광학 흐름 지도들을 복원하는 것을 특징으로 하는 동영상 프레임 율 변환 방법.
  6. 청구항 3에 있어서,
    제3 해상도의 광학 흐름 지도 생성단계, 제2 해상도의 광학 흐름 지도 생성단계 및 제1 해상도의 광학 흐름 지도 생성단계는,
    훈련된 인공지능 모델을 이용하여, 제3 해상도의 광학 흐름 지도, 제2 해상도의 광학 흐름 지도 및 제1 해상도의 광학 흐름 지도를 생성하는 것을 특징으로 하는 동영상 프레임 율 변환 방법.
  7. 청구항 6에 있어서,
    제3 해상도의 광학 흐름 지도 생성단계는,
    제3 해상도의 프레임들과 제3 해상도의 광학 흐름 지도들을 bak-warping 연산하여 생성하고,
    제2 해상도의 광학 흐름 지도 생성단계는,
    제2 해상도의 프레임들과 제2 해상도의 광학 흐름 지도들을 bak-warping 연산하여 생성하며,
    제1 해상도의 광학 흐름 지도 생성단계는,
    제1 해상도의 프레임들과 제1 해상도의 광학 흐름 지도들을 bak-warping 연산하여 생성하는 것을 특징으로 하는 동영상 프레임 율 변환 방법.
  8. 청구항 6에 있어서,
    제3 생성단계는,
    Figure 112019111480908-pat00052

    위의 블렌딩 파라미터 B로 제1 해상도의 중간 프레임들을 블렌딩 연산하고,
    k1은 sigmoid 함수의 기울기를 조절하며,
    K2는 sigmoid 함수의 입력으로 주어지는 것을 특징으로 하는 동영상 프레임 율 변환 방법.
  9. 청구항 6에 있어서,
    인공지능 모델의 훈련은,
    원본 입력 영상과 보간 영상을 다시 원본 영상으로 back-warpking한 영상과의 차이를 계산하는 함수, 생성된 광학 흐름 지도들의 전과 후의 차이를 계산하는 함수, adversarial 손실 함수를 이용하는 것을 특징으로 하는 동영상 프레임 율 변환 방법.
  10. 시간적으로 연속된 고해상도의 프레임들로부터 생성한 저해상도의 프레임들들로 광학 흐름을 예측하여, 저해상도의 광학 흐름 지도들을 생성하는 예측부;
    저해상도의 광학 흐름 지도들의 해상도를 단계적으로 높이면서, 고해상도의 중간 프레임들을 생성하는 향상부;
    생성된 고해상도의 중간 프레임들을 블렌딩하여, 최종 보간 프레임을 생성하는 생성부:를 포함하는 것을 특징으로 하는 동영상 프레임 율 변환 장치.
  11. 저해상도의 프레임들들로 광학 흐름을 예측하여, 저해상도의 광학 흐름 지도들을 생성하는 제1 생성단계;
    저해상도의 광학 흐름 지도들을 이용하여, 고해상도의 중간 프레임들을 생성하는 제2 생성단계; 및
    생성된 고해상도의 중간 프레임들을 이용하여, 최종 보간 프레임을 생성하는 제3 생성단계:를 포함하는 것을 특징으로 하는 동영상 프레임 율 변환 방법.
  12. 시간적으로 연속된 고해상도의 프레임들로부터 생성한 저해상도의 프레임들들로 광학 흐름을 예측하여, 저해상도의 광학 흐름 지도들을 생성하는 제1 생성단계;.
    저해상도의 광학 흐름 지도들의 해상도를 단계적으로 높이면서, 고해상도의 중간 프레임들을 생성하는 제2 생성단계;
    생성된 고해상도의 중간 프레임들을 블렌딩하여, 최종 보간 프레임을 생성하는 제3 생성단계:를 포함하는 것을 특징으로 하는 동영상 프레임 율 변환 방법을 수행할 수 있는 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록매체.
KR1020190137132A 2019-10-31 2019-10-31 고해상도 동영상 프레임 율 고속 변환 방법 및 장치 KR102242343B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020190137132A KR102242343B1 (ko) 2019-10-31 2019-10-31 고해상도 동영상 프레임 율 고속 변환 방법 및 장치
PCT/KR2019/017545 WO2021085743A1 (ko) 2019-10-31 2019-12-12 고해상도 동영상 프레임 율 고속 변환 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190137132A KR102242343B1 (ko) 2019-10-31 2019-10-31 고해상도 동영상 프레임 율 고속 변환 방법 및 장치

Publications (1)

Publication Number Publication Date
KR102242343B1 true KR102242343B1 (ko) 2021-04-20

Family

ID=75716411

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190137132A KR102242343B1 (ko) 2019-10-31 2019-10-31 고해상도 동영상 프레임 율 고속 변환 방법 및 장치

Country Status (2)

Country Link
KR (1) KR102242343B1 (ko)
WO (1) WO2021085743A1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113538525B (zh) * 2021-05-28 2023-12-05 北京旷视科技有限公司 光流估计方法、模型训练方法及对应装置
US11915383B2 (en) 2021-07-05 2024-02-27 Huawei Technologies Co., Ltd. Methods and systems for high definition image manipulation with neural networks
CN114648500B (zh) * 2022-03-17 2023-04-07 江西科技师范大学 一种基于无人机和深度学习的农作物杂草检测方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101498207B1 (ko) * 2008-11-26 2015-03-03 삼성전자주식회사 초고해상도 영상의 프레임 레이트 변환 장치 및 방법
KR101902212B1 (ko) * 2012-02-15 2018-09-28 전자부품연구원 초고해상도 비디오를 위한 효율적인 스케일러블 계층 정보 전송 방법 및 장치
US9282253B2 (en) * 2014-02-18 2016-03-08 Qualcomm Technologies, Inc. System and method for multiple-frame based super resolution interpolation for digital cameras
CN104954812A (zh) * 2014-03-27 2015-09-30 腾讯科技(深圳)有限公司 一种视频同步播放的方法、装置及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
A Fast 4K Video Frame Interpolation Using a Hybrid Task-Based Convolutional Neural Network.* *

Also Published As

Publication number Publication date
WO2021085743A1 (ko) 2021-05-06

Similar Documents

Publication Publication Date Title
KR102242343B1 (ko) 고해상도 동영상 프레임 율 고속 변환 방법 및 장치
CN111667442B (zh) 一种基于事件相机的高质量高帧率图像重建方法
CN109087243B (zh) 一种基于深度卷积生成对抗网络的视频超分辨率生成方法
WO2022141819A1 (zh) 视频插帧方法、装置、计算机设备及存储介质
WO2023103576A1 (zh) 视频处理方法、装置、计算机设备及存储介质
CN110634105A (zh) 一种光流法和深度网络结合的视频高时空分辨率信号处理方法
Xiao et al. Space-time video super-resolution using temporal profiles
JP2007305113A (ja) 画像処理方法および画像処理装置
CN112488922B (zh) 一种基于光流插值的超分辨率处理方法
CN113850718A (zh) 一种基于帧间特征对齐的视频同步时空超分方法
US20060280250A1 (en) Moving picture converting apparatus and method, and computer program
CN114692765A (zh) 视频时空超分模型构建方法、装置、设备及可读存储介质
CN111767679B (zh) 时变矢量场数据的处理方法及装置
CN113747242B (zh) 图像处理方法、装置、电子设备及存储介质
KR102242334B1 (ko) 데이터 변형을 통한 고해상도 동영상 프레임 율 고속 변환 방법 및 장치
Xiang et al. Learning spatio-temporal downsampling for effective video upscaling
Zhu et al. MFNet: Real-time motion focus network for video frame interpolation
US20180063551A1 (en) Apparatus and methods for frame interpolation
US20240146868A1 (en) Video frame interpolation method and apparatus, and device
Dixit et al. ExWarp: Extrapolation and Warping-based Temporal Supersampling for High-frequency Displays
Kong et al. Dynamic Frame Interpolation in Wavelet Domain
US11765360B2 (en) Codec rate distortion compensating downsampler
KR102136468B1 (ko) 딥러닝 기반 동영상 프레임 율 변환 방법 및 장치
EP4329301A1 (en) System and method for transmission and receiving of image frames
CN115761065A (zh) 一种中间帧生成方法、装置、设备及介质

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant