KR102244187B1 - 예외적 움직임에 강인한 비디오 프레임 보간 방법 및 그 장치 - Google Patents

예외적 움직임에 강인한 비디오 프레임 보간 방법 및 그 장치 Download PDF

Info

Publication number
KR102244187B1
KR102244187B1 KR1020190137384A KR20190137384A KR102244187B1 KR 102244187 B1 KR102244187 B1 KR 102244187B1 KR 1020190137384 A KR1020190137384 A KR 1020190137384A KR 20190137384 A KR20190137384 A KR 20190137384A KR 102244187 B1 KR102244187 B1 KR 102244187B1
Authority
KR
South Korea
Prior art keywords
frame
motion information
exceptional motion
exceptional
interpolation
Prior art date
Application number
KR1020190137384A
Other languages
English (en)
Inventor
노용만
박민호
김학구
이상민
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Priority to KR1020190137384A priority Critical patent/KR102244187B1/ko
Priority to PCT/KR2020/003461 priority patent/WO2021085757A1/ko
Application granted granted Critical
Publication of KR102244187B1 publication Critical patent/KR102244187B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/01Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level
    • H04N7/0135Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level involving interpolation processes
    • H04N7/0137Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level involving interpolation processes dependent on presence/absence of motion, e.g. of motion zones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0454
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/14Picture signal circuitry for video frequency region
    • H04N5/144Movement detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Television Systems (AREA)

Abstract

예외적 움직임에 강인한 비디오 프레임 보간 방법 및 그 장치가 개시된다. 본 발명의 일 실시예에 따른 비디오 프레임 보간 방법은 비디오 시퀀스의 연속되는 제1 프레임과 제2 프레임 간의 광 흐름(optical flow)을 추정하는 단계; 상기 추정된 광 흐름을 이용한 보간을 통해 상기 제1 프레임과 상기 제2 프레임 사이의 중간 프레임을 생성하는 단계; 상기 중간 프레임에서의 예외적 움직임 정보를 검출하는 단계; 및 상기 검출된 예외적 움직임 정보에 기초하여 상기 중간 프레임을 보정함으로써, 보간 프레임을 획득하는 단계를 포함한다.

Description

예외적 움직임에 강인한 비디오 프레임 보간 방법 및 그 장치 {METHOD FOR VIDEO FRAME INTERPOLATION ROBUST TO EXCEPTIONAL MOTION AND THE APPARATUS THEREOF}
본 발명은 비디오 프레임 보간 기술에 관한 것으로, 보다 구체적으로는 빠른 회전, 갑작스러운 가속 등의 예외적 움직임(exceptional motion)에 강인한 비디오 프레임 보간 방법 및 그 장치에 관한 것이다.
비디오 프레임 보간법은 컴퓨터 비전의 고전적인 주제 중 하나이다. 비디오 프레임 보간법에서는 비디오 시퀀스의 연속 프레임 사이에 중간 프레임을 생성함으로써, 비디오에서의 움직임이 부드럽고 연속적일 수 있다. 그 결과, 비디오는 사람들이 볼 때 편안하고 자연스러운 콘텐츠로 재현될 수 있었다. 비디오 스트리밍에서 느린 움직임 생성, 비디오 압축, 프레임 복구 등의 유용성 때문에 프레임 보간법이 다수의 비디오 프로세싱 애플리케이션에서 널리 사용되고 있다.
일반적으로 프레임 보간법은 움직임 추정과 중간 프레임 합성의 두 단계로 나뉜다. 첫째, 움직임 추정은 두 개의 연속된 프레임 사이에서 움직이는 물체의 방향과 속도를 측정하는 것을 말한다. 움직임 추정의 결과, 물체의 움직임을 흐름(flow) 맵으로 나타내는 광 흐름이 얻어진다. 둘째, 중간 프레임 합성은 인접한 두 프레임과 추정된 광 흐름을 이용하여 중간 프레임을 예측하는 것을 말한다. 중간 프레임은 광 흐름의 움직임 정보를 사용하여 현재 프레임과 다음 프레임의 픽셀들을 예측된 움직임의 중간 위치로 워핑(warping)하여 예측된다. 그러나 복잡하고 큰 움직임, 조명 변화, 오클루전(occlusion) 등으로 인하여 중간 프레임 예측에 많은 어려움이 있다. 특히 갑작스러운 가속, 빠른 회전, 비선형 이동 등 복잡하고 큰 움직임 즉, 예외적 움직임은 프레임 보간법에서 가장 중요한 요소 중 하나이다. 예외적 움직임은 움직임 흐름의 복잡성으로 인해 두 프레임 사이의 정확한 움직임 정보를 얻기 어렵게 한다. 부정확한 움직임 정보는 워핑된 프레임이 올바른 픽셀 위치로 워핑되는 것을 방해한다. 이것은 예측된 중간 프레임을 흐리게 하고 기하학적 왜곡이 크게 만드는 원인이 된다. 따라서 움직임 패턴의 예외적 경우를 고려하여 기존의 프레임 보간법 절차를 개선할 필요가 있다.
이 문제를 해결하기 위해 다양한 방법들이 제안되었다. 종래 일 실시예 방법은 2개의 연속 프레임에 있는 각 픽셀에 대해 복수의 움직임 가설이 형성되었다. 그런 다음 라벨링 문제를 해결하고 파라미터를 최적화함으로써 최선의 움직임 가설을 결정한다. 종래 다른 일 실시예 방법은 다른 레벨들 간의 상호작용을 이용한 멀티 레벨 프레임 보간법 스킴이 제안되었다. 해당 스킴은 블록 레벨, 픽셀 레벨 및 시퀀스 레벨의 세 단계로 구성되지만, 빠르고 비선형적 움직임을 정확하게 추정하는 데 한계가 있다. 또한 데이터 특유의 문제가 있어 다양한 데이터 조건에 적용하기 어려운 문제가 있다.
최근에는, 특히 컨볼루션 뉴럴 네트워크(CNN) 등 딥 러닝의 진보와 함께 딥 러닝을 기반으로 한 다양한 프레임 보간법이 제안되고 있다. 종래 일 실시예의 기술은 프레임 보간법에서, CNN은 광 흐름을 추정하여 신뢰할 수 있는 움직임 벡터를 얻고 인코딩된 특징의 디컨볼루션을 수행함으로써 중간 프레임을 합성하는데 사용될 수 있다. 종래 다른 일 실시예의 기술에서, 딥 뉴럴 네트워크는 흐름 픽셀 값(즉, 딥 복셀 흐름)을 추정하여 중간 프레임을 합성하는 딥 뉴럴 네트워크를 학습하였으며, 해당 기술에서의 네트워크는 기존의 광 흐름 추정 네트워크와 달리 광 흐름 감시를 필요로 하지 않았다. 종래 또 다른 일 실시예의 기술에서는 입력 프레임뿐만 아니라 픽셀 단위 상황 정보도 워핑시키는 새로운 상황 인식 합성 기법이 제안되었으며, 입력 프레임과 상황 정보는 프레임 합성 네트워크에 공급하기 전에 미리 워핑된다.
상술한 종래 기술들에 의해 비디오 프레임 보간법이 개선되었지만, 움직임이 복잡하고 빠를 때 중간 프레임을 합성하는 것은 여전히 어렵다. 움직임이 예외적일수록 움직임 흐름이 정확하게 예측되기 더 어렵기 때문이다.
따라서, 비디오 프레임에서 예외적 움직임에 대한 움직임 흐름을 정확하게 예측하고, 이를 통해 예외적 움직임에 강인한 프레임 보간 기법의 필요성이 대두된다.
본 발명의 실시예들은, 빠른 회전, 갑작스러운 가속 등의 예외적 움직임에 강인한 비디오 프레임 보간 방법 및 그 장치를 제공한다.
구체적으로, 본 발명의 실시예들은, 움직임을 이용하여 비디오 내에 포함된 예외적 움직임을 자동으로 검출하고, 검출된 예외적 움직임 정보를 이용하여 예외적 움직임에 강인한 프레임으로 재생성함으로써, 예외적 움직임에 강인한 비디오 프레임 보간 방법 및 그 장치를 제공한다.
본 발명의 일 실시예에 따른 비디오 프레임 보간 방법은 비디오 시퀀스의 연속되는 제1 프레임과 제2 프레임 간의 광 흐름(optical flow)을 추정하는 단계; 상기 추정된 광 흐름을 이용한 보간을 통해 상기 제1 프레임과 상기 제2 프레임 사이의 중간 프레임을 생성하는 단계; 상기 중간 프레임에서의 예외적 움직임 정보를 검출하는 단계; 및 상기 검출된 예외적 움직임 정보에 기초하여 상기 중간 프레임을 보정함으로써, 보간 프레임을 획득하는 단계를 포함한다.
상기 예외적 움직임 정보를 검출하는 단계는 상기 제1 프레임과 상기 제2 프레임 각각까지의 프레임 시퀀스를 입력으로 하는 미리 학습된 제1 뉴럴 네트워크를 이용하여 상기 제1 프레임에 대한 예외적 움직임 정보와 상기 제2 프레임에 대한 예외적 움직임 정보를 추정하고, 상기 제1 프레임에 대한 예외적 움직임 정보, 상기 제2 프레임에 대한 예외적 움직임 정보와 상기 추정된 광 흐름에 기초하여 상기 중간 프레임에서의 예외적 움직임 정보를 검출할 수 있다.
상기 예외적 움직임 정보를 검출하는 단계는 상기 제1 프레임에 대한 예외적 움직임 정보와 상기 제1 프레임에서 상기 제2 프레임으로의 광 흐름을 이용한 공간 워핑(warping)에 기초하여 상기 중간 프레임에 대한 제1 예외적 움직임 맵을 검출하고, 상기 제2 프레임의 예외적 움직임 정보와 상기 제2 프레임에서 상기 제1 프레임으로의 광 흐름을 이용한 공간 워핑에 기초하여 상기 중간 프레임에 대한 제2 예외적 움직임 맵을 검출할 수 있다.
상기 제1 뉴럴 네트워크는 비예외적 움직임을 가지는 트레이닝 데이터 세트에 의해 학습된 비지도 학습 뉴럴 네트워크를 포함할 수 있다.
상기 예외적 움직임 정보를 검출하는 단계는 시공간 자동인코더(spatio-temporal autoencoder)를 이용하여 상기 제1 프레임에 대한 예외적 움직임 정보와 상기 제2 프레임에 대한 예외적 움직임 정보를 추정하고, 상기 제1 프레임에 대한 예외적 움직임 정보, 상기 제2 프레임에 대한 예외적 움직임 정보와 상기 추정된 광 흐름에 기초하여 상기 중간 프레임에서의 예외적 움직임 정보를 검출할 수 있다.
상기 예외적 움직임 정보를 검출하는 단계는 시공간 자동인코더를 이용하여 상기 제1 프레임에 해당하는 제1 예측 프레임과 상기 제2 프레임에 해당하는 제2 예측 프레임을 획득하고, 상기 제1 프레임과 상기 제1 예측 프레임 간의 차이에 기초하여 상기 제1 프레임에서의 예외적 움직임 패턴의 영역에 대한 예외적 움직임 정보를 추정하며, 상기 제2 프레임과 상기 제2 예측 프레임 간의 차이에 기초하여 상기 제1 프레임에서의 예외적 움직임 패턴의 영역에 대한 예외적 움직임 정보를 추정할 수 있다.
상기 보간 프레임을 획득하는 단계는 상기 검출된 예외적 움직임 정보와 상기 중간 프레임을 입력으로 하는 미리 학습된 제2 뉴럴 네트워크를 이용하여 상기 중간 프레임과 상기 중간 프레임에 대응하는 실측 프레임 간의 잔차(residual)를 예측하고, 상기 중간 프레임과 상기 잔차를 결합함으로써, 상기 보간 프레임을 획득할 수 있다.
상기 광 흐름을 추정하는 단계는 미리 학습된 제3 뉴럴 네트워크를 이용하여 상기 제1 프레임과 상기 제2 프레임 간의 양방향에 대한 광 흐름을 추정하고, 상기 중간 프레임을 생성하는 단계는 상기 제1 프레임과 상기 제2 프레임 간의 양방향에 대한 광 흐름을 이용하여 상기 제1 프레임과 상기 중간 프레임 간의 광 흐름 및 상기 제2 프레임과 상기 중간 프레임 간의 광 흐름을 계산하며, 상기 계산된 광 흐름과 상기 제1 프레임을 이용한 공간 워핑 및 상기 계산된 광 흐름과 상기 제2 프레임을 이용한 공간 워핑에 기초하여 상기 중간 프레임을 생성할 수 있다.
본 발명의 다른 일 실시예에 따른 비디오 프레임 보간 방법은 비디오 시퀀스의 연속되는 제1 프레임과 제2 프레임 간의 보간을 통해 상기 제1 프레임과 상기 제2 프레임 사이의 중간 프레임을 생성하는 단계; 상기 제1 프레임과 상기 제2 프레임 각각까지의 프레임 시퀀스를 이용하여 상기 중간 프레임에서의 예외적 움직임 정보를 검출하는 단계; 및 상기 검출된 예외적 움직임 정보에 기초하여 상기 중간 프레임을 보정함으로써, 보간 프레임을 획득하는 단계를 포함한다.
본 발명의 일 실시예에 따른 비디오 프레임 보간 장치는 비디오 시퀀스의 연속되는 제1 프레임과 제2 프레임 간의 광 흐름(optical flow)을 추정하고, 상기 추정된 광 흐름을 이용한 보간을 통해 상기 제1 프레임과 상기 제2 프레임 사이의 중간 프레임을 생성하는 생성부; 상기 중간 프레임에서의 예외적 움직임 정보를 검출하는 검출부; 및 상기 검출된 예외적 움직임 정보에 기초하여 상기 중간 프레임을 보정함으로써, 보간 프레임을 획득하는 획득부를 포함한다.
상기 검출부는 상기 제1 프레임과 상기 제2 프레임 각각까지의 프레임 시퀀스를 입력으로 하는 미리 학습된 제1 뉴럴 네트워크를 이용하여 상기 제1 프레임에 대한 예외적 움직임 정보와 상기 제2 프레임에 대한 예외적 움직임 정보를 추정하고, 상기 제1 프레임에 대한 예외적 움직임 정보, 상기 제2 프레임에 대한 예외적 움직임 정보와 상기 추정된 광 흐름에 기초하여 상기 중간 프레임에서의 예외적 움직임 정보를 검출할 수 있다.
상기 검출부는 상기 제1 프레임에 대한 예외적 움직임 정보와 상기 제1 프레임에서 상기 제2 프레임으로의 광 흐름을 이용한 공간 워핑(warping)에 기초하여 상기 중간 프레임에 대한 제1 예외적 움직임 맵을 검출하고, 상기 제2 프레임의 예외적 움직임 정보와 상기 제2 프레임에서 상기 제1 프레임으로의 광 흐름을 이용한 공간 워핑에 기초하여 상기 중간 프레임에 대한 제2 예외적 움직임 맵을 검출할 수 있다.
상기 제1 뉴럴 네트워크는 비예외적 움직임을 가지는 트레이닝 데이터 세트에 의해 학습된 비지도 학습 뉴럴 네트워크를 포함할 수 있다.
상기 검출부는 시공간 자동인코더(spatio-temporal autoencoder)를 이용하여 상기 제1 프레임에 대한 예외적 움직임 정보와 상기 제2 프레임에 대한 예외적 움직임 정보를 추정하고, 상기 제1 프레임에 대한 예외적 움직임 정보, 상기 제2 프레임에 대한 예외적 움직임 정보와 상기 추정된 광 흐름에 기초하여 상기 중간 프레임에서의 예외적 움직임 정보를 검출할 수 있다.
상기 검출부는 시공간 자동인코더를 이용하여 상기 제1 프레임에 해당하는 제1 예측 프레임과 상기 제2 프레임에 해당하는 제2 예측 프레임을 획득하고, 상기 제1 프레임과 상기 제1 예측 프레임 간의 차이에 기초하여 상기 제1 프레임에서의 예외적 움직임 패턴의 영역에 대한 예외적 움직임 정보를 추정하며, 상기 제2 프레임과 상기 제2 예측 프레임 간의 차이에 기초하여 상기 제1 프레임에서의 예외적 움직임 패턴의 영역에 대한 예외적 움직임 정보를 추정할 수 있다.
상기 획득부는 상기 검출된 예외적 움직임 정보와 상기 중간 프레임을 입력으로 하는 미리 학습된 제2 뉴럴 네트워크를 이용하여 상기 중간 프레임과 상기 중간 프레임에 대응하는 실측 프레임 간의 잔차(residual)를 예측하고, 상기 중간 프레임과 상기 잔차를 결합함으로써, 상기 보간 프레임을 획득할 수 있다.
상기 생성부는 미리 학습된 제3 뉴럴 네트워크를 이용하여 상기 제1 프레임과 상기 제2 프레임 간의 양방향에 대한 광 흐름을 추정하고, 상기 제1 프레임과 상기 제2 프레임 간의 양방향에 대한 광 흐름을 이용하여 상기 제1 프레임과 상기 중간 프레임 간의 광 흐름 및 상기 제2 프레임과 상기 중간 프레임 간의 광 흐름을 계산하며, 상기 계산된 광 흐름과 상기 제1 프레임을 이용한 공간 워핑 및 상기 계산된 광 흐름과 상기 제2 프레임을 이용한 공간 워핑에 기초하여 상기 중간 프레임을 생성할 수 있다.
본 발명의 실시예들에 따르면, 움직임을 이용하여 비디오 내에 포함된 예외적 움직임을 자동으로 검출하고, 검출된 예외적 움직임 정보 예를 들어, 위치와 세기를 이용하여 예외적 움직임에 강인한 프레임으로 재생성함으로써, 예외적 움직임에 강인한 비디오 프레임을 제공할 수 있다.
비디오 프레임 보간 기술은 과거부터 현재까지 많은 관심을 받아왔던 분야로 최근 비디오 내 복잡하거나 빠른 움직임에 강인한 기술 개발이 많은 주목을 받고 있다.
본 발명은 영상 콘텐츠에서 움직임의 빠르기나 복잡한 정도 및 해당 위치를 자동으로 추출하여 프레임 보간에 사용하는 방법으로, 비디오 콘텐츠에 상관없이 예외적 움직임에 강인한 높은 질의 프레임 보간된 영상을 생산할 수 있기 때문에 사용자로 하여금 비디오 콘텐츠에 구애 받지 않으면서 사용할 수 있게 하고 다양한 비디오 프로세싱 분야 예를 들어, 비디오 프레임레이트 변환 기술, 비디오 압축 기술, 비디오 프레임 복원 기술 등에 적용될 수 있다.
기존에 8K UHD와 110도 field of view TV 등에서 사용하고 있는 프레임 보간 방법은 피로도를 야기하는 반면, 본 발명은 이러한 기존 프레임 보간 방법에 대한 문제점을 해결할 수 있다.
도 1은 본 발명의 일 실시예에 따른 비디오 프레임 보간 방법에 대한 동작 흐름도를 나타낸 것이다.
도 2는 본 발명의 실시예에 따른 방법에 대한 개념적인 전체 구조를 나타낸 것이다.
도 3은 본 발명의 일 실시예에 따른 비디오 프레임 보간 방법에 대한 개요를 나타낸 것이다.
도 4는 예외적 움직임 추정기에 대한 일 실시예의 구조를 나타낸 것이다.
도 5는 종래 방법들과 본 발명의 방법에 의한 시각적 결과를 비교한 일 예시도를 나타낸 것이다.
도 6은 본 발명의 일 실시예에 따른 비디오 프레임 보간 장치에 대한 개념적인 구성을 나타낸 것이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.
본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며, 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.
이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예들을 보다 상세하게 설명하고자 한다. 도면 상의 동일한 구성요소에 대해서는 동일한 참조 부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.
비디오에서의 움직임(motion)은 중간 프레임을 합성함으로써 부드럽고 연속적일 수 있다. 움직임이 복잡하고 크며 비선형 즉, 예외적 움직임인 경우 생성된 중간 프레임이 흐리게 되어 큰 아티팩트가 있을 가능성이 있다.
본 발명의 실시예들은, 움직임을 이용하여 비디오 내에 포함된 예외적 움직임을 자동으로 검출하고, 검출된 예외적 움직임 정보 예를 들어, 위치와 세기를 이용하여 예외적 움직임에 강인한 프레임으로 재생성함으로써, 예외적 움직임에 강인한 비디오 프레임을 제공하는 것을 그 요지로 한다.
여기서, 본 발명은 비디오 내에 예외적 움직임 예를 들어, 빠른 회전, 갑작스러운 가속 등이 포함된 경우 프레임 보간이 잘 되지 않는 기존 방법들을 개선한 모델로 다음과 같은 특징을 가질 수 있다.
1) 예외적 움직임을 검출할 수 있는 움직임 예를 들어, 딥 움직임 기반의 검출기가 있고, 이를 통해 예외적 움직임 정보를 비디오 내에서 추출할 수 있다.
2) 검출된 예외적 움직임 정보 예를 들어, 위치와 세기를 활용하여 기존 프레임 보간법으로 생성된 중간 프레임을 예외적 움직임에 강인한 프레임으로 재생성할 수 있다.
이러한 본 발명은 두 프레임 사이의 움직임을 자동으로 예측하는 것 뿐만 아니라 움직임의 복잡도, 빠르기의 정도를 예측함으로써, 복잡하고 빠른 예외적 움직임에 대해서도 보간 프레임을 잘 생성할 수 있다.
즉, 본 발명은 움직임을 이용하여 입력 영상의 움직임에 대한 정보를 습득하기 때문에 입력 영상의 움직임 정보에 기초하여 예외적 움직임에 강인한 프레임을 재생성하고, 이를 통해 예외적 움직임에 강인한 비디오 프레임을 제공할 수 있다.
이러한 본 발명의 주요 기여는 다음과 같다.
1) 본 발명은 딥 러닝을 기초하여 새로운 예외적 움직임 추정기(EME; exceptional motion estimator)를 제시하는데, 이는 예외적 움직임이 발생하는 영역을 검출한다. 광 흐름 기반 프레임 보간법에서는 움직임 흐름을 정확하게 추정하는 것이 중요하다. 기존의 광 흐름 방법은 갑작스러운 가속이나 빠른 회전의 움직임에 대한 불충분한 고려 때문에 복잡하고 비선형적인 움직임을 가지는 비디오의 움직임 흐름을 추정하는 데 어려움을 겪었다. 본 발명에서의 EME는 예외적 움직임이 발생하는 위치에 대한 맵 정보를 제공함으로써 움직임 흐름 추정의 정확성을 개선할 수 있다. EME는 비예외적 움직임 패턴을 예측하는 방법을 학습하기 위해 비예외적 움직임을 가지는 비디오를 비지도(unsupervised) 방식으로 사용하여 미리 트레이닝된다. 그 결과, 주어진 입력 비디오에 비예외적 움직임이 포함되어 있다면, EME는 향후 프레임을 잘 예측할 수 있다. 한편, 입력 비디오에 예외적 움직임 패턴이 포함되어 있다면, 예측된 프레임에서 예외적 움직임이 발생한 영역은 잘 생성되지 않을 것이다. 원래 프레임과 예측 프레임의 차이가 일정 레벨을 초과하는 영역은 예외적 움직임이 발생하는 맵이라고 볼 수 있다. 본 발명에서는 EME로부터 획득된 예외적 움직임 맵이 다음의 프레임 비율 보정 프로세스에서 비예외적 움직임으로 인하여 정확한 움직임 추정이 실패할 수 있는 영역에 적용하기 위해 사용된다.
2) 본 발명은 미리 생성된 중간 프레임의 품질을 향상시키는 딥 러닝 기반 프레임 보정 모듈을 제공한다. 기존의 프레임 보간 네트워크는 예외적 움직임 영역을 충분히 고려하지 않기 때문에 생성된 중간 프레임은 많이 흐리게 될 수 있고 그 영역에는 큰 왜곡이 있을 수 있다. 본 발명에서의 프레임 보정 모듈은 특별한 움직임 영역을 집중시킴으로써 프레임의 품질을 향상시킨다. 프레임 보정 모듈은 기존의 프레임 보간 네트워크와 순차적으로 연결될 수 있다. 프레임 보정 모듈은 예외적 움직임 영역에 초점을 맞추기 위해 EME에서 얻은 예외적 움직임 맵을 활용한다. 맵은 모듈이 움직임의 복잡성으로 인해 추정된 움직임이 정확하지 않은 영역에 초점을 맞추도록 유도한다. 그 결과 미리 생성된 프레임을 보정할 수 있다.
본 발명에서 예외적 움직임 맵은 예외적 움직임의 위치와 세기를 포함할 수 있다.
이러한 본 발명에 대해 도 1 내지 도 6을 참조하여 설명하면 다음과 같다.
도 1은 본 발명의 일 실시예에 따른 비디오 프레임 보간 방법에 대한 동작 흐름도를 나타낸 것이다.
도 1을 참조하면, 본 발명의 실시예에 따른 방법은 비디오 시퀀스의 연속되는 두 프레임들 예를 들어, 제1 프레임과 제2 프레임 간의 광 흐름(optical flow)을 추정한다(S110).
여기서, 단계 S110은 미리 학습된 뉴럴 네트워크를 이용하여 제1 프레임과 제2 프레임 간의 양방향에 대한 광 흐름을 추정할 수 있다.
단계 S110에 의해 두 프레임들 간의 광 흐름이 추정되면, 추정된 광 흐름을 이용한 보간을 통해 제1 프레임과 제2 프레임 사이의 중간 프레임을 생성한다(S120).
여기서, 단계 S120은 제1 프레임과 제2 프레임 간의 양방향에 대한 광 흐름을 이용하여 제1 프레임과 중간 프레임 간의 광 흐름 및 제2 프레임과 중간 프레임 간의 광 흐름을 계산하며, 계산된 광 흐름과 제1 프레임을 이용한 공간 워핑(warping) 및 계산된 광 흐름과 제2 프레임을 이용한 공간 워핑에 기초하여 중간 프레임을 생성할 수 있다.
그리고, 중간 프레임에서의 예외적 움직임 정보를 검출한다(S130).
구체적으로, 단계 S130은 제1 프레임과 제2 프레임 각각까지의 프레임 시퀀스를 입력으로 하는 미리 학습된 뉴럴 네트워크를 이용하여 제1 프레임에 대한 예외적 움직임 정보와 제2 프레임에 대한 예외적 움직임 정보를 추정하고, 제1 프레임에 대한 예외적 움직임 정보, 제2 프레임에 대한 예외적 움직임 정보와 단계 S110에서 추정된 광 흐름에 기초하여 중간 프레임에서의 예외적 움직임 정보를 검출할 수 있다.
이 때, 단계 S130은 제1 프레임에 대한 예외적 움직임 정보와 제1 프레임에서 제2 프레임으로의 광 흐름을 이용한 공간 워핑에 기초하여 상기 중간 프레임에 대한 제1 예외적 움직임 맵을 검출하고, 제2 프레임의 예외적 움직임 정보와 제2 프레임에서 제1 프레임으로의 광 흐름을 이용한 공간 워핑에 기초하여 중간 프레임에 대한 제2 예외적 움직임 맵을 검출할 수 있다. 단계 S130에서 이용하는 뉴럴 네트워크는 비예외적 움직임을 가지는 트레이닝 데이터 세트에 의해 트레이닝되어 학습된 비지도 학습 뉴럴 네트워크를 포함할 수 있다.
나아가, 단계 S130은 시공간 자동인코더(spatio-temporal autoencoder)를 이용하여 제1 프레임에 대한 예외적 움직임 정보와 제2 프레임에 대한 예외적 움직임 정보를 추정하고, 제1 프레임에 대한 예외적 움직임 정보, 제2 프레임에 대한 예외적 움직임 정보와 단계 S110에서 추정된 광 흐름에 기초하여 중간 프레임에서의 예외적 움직임 정보 예컨대, 예외적 움직임 맵을 검출할 수 있다.
이 때, 단계 S130은 시공간 자동인코더를 이용하여 제1 프레임에 해당하는 제1 예측 프레임과 제2 프레임에 해당하는 제2 예측 프레임을 획득하고, 제1 프레임과 제1 예측 프레임 간의 차이에 기초하여 제1 프레임에서의 예외적 움직임 패턴의 영역에 대한 예외적 움직임 정보를 추정하며, 제2 프레임과 제2 예측 프레임 간의 차이에 기초하여 제1 프레임에서의 예외적 움직임 패턴의 영역에 대한 예외적 움직임 정보를 추정할 수 있다.
단계 S130에 의해 중간 프레임에서의 예외적 움직임 정보 예컨대, 예외적 움직임 맵이 검출되면, 검출된 예외적 움직임 정보에 기초하여 중간 프레임을 보정함으로써, 보간 프레임을 획득한다(S140).
여기서, 단계 S140은 단계 S130에 의해 검출된 중간 프레임에서의 예외적 움직임 정보와 중간 프레임을 입력으로 하는 미리 학습된 뉴럴 네트워크를 이용하여 단계 S120에서 생성된 중간 프레임과 중간 프레임에 대응하는 실측 프레임 간의 잔차(residual)를 예측하고, 중간 프레임과 잔차를 결합함으로써, 중간 프레임을 보정하고 이를 통해 예외적 움직임에 강인한 보간 프레임을 획득할 수 있다.
이러한 본 발명의 실시예에 따른 예외적 움직임에 강인한 비디오 프레임 보간 방법에 대해 도 2 내지 도 5를 참조하여 상세히 설명하면 다음과 같다.
도 2는 본 발명의 실시예에 따른 방법에 대한 개념적인 전체 구조를 나타낸 것으로, 도 2에 도시된 바와 같이, 본 발명의 실시예에 따른 방법(FIEM)은 광 흐름 기반 프레임 보간(optical flow based frame interpolation), 예외적 움직임 검출(exceptional motion detection) 및 프레임 보정(frame refinement)이라는 세 부분으로 구성된다. 광 흐름 기반 프레임 보간은 미리 생성된 중간 프레임을 합성하는데 사용되는 광 흐름을 예측한다. 예외적 움직임 검출 기능은 현재 프레임과 이전 프레임 시퀀스로 복잡하고 큰 움직임의 예외적 움직임의 위치와 세기를 검출한다. 프레임 보정은 예외적 움직임 맵을 사용하여 미리 생성된 중간 프레임의 예외적인 움직임 영역에 초점을 맞추고, 예외적임 움직임 영역을 개선함으로써, 중간 프레임을 보정한 보간 프레임을 획득한다.
도 3은 본 발명의 일 실시예에 따른 비디오 프레임 보간 방법에 대한 개요를 나타낸 것이다.
도 3에 도시된 바와 같이, 본 발명의 일 실시예에 따른 방법은 광 흐름 기반 프레임 보간 과정, 예외적 움직임 검출 과정 및 프레임 보정 과정을 포함한다.
광 흐름 기반 프레임 보간 과정에서, 광 흐름 추정기(OFE)는 두 개의 연속적인 입력 프레임들 간의 광 흐름을 예측한다. 예외적 움직임 검출 과정에서, 예외적 움직임 추정기(EME)는 예외적 움직임의 공간적 정보를 포함하는 예외적 움직임 맵을 획득한다. 프레임 보정 과정에서, 프레임 보정 모듈(FRM)은 미리 생성된 중간 프레임과 원래 실측(ground-truth) 프레임 간 잔차(residuals)를 예측한다. 마지막으로, 보간된 중간 프레임은 잔차와 미리 생성된 중간 프레임을 결합함으로써, 예외적 움직임에 강인한 프레임으로 재생성된다.
It와 It+2가 각각 t번째와 (t+2)번째의 연속되는 입력 프레임이라 하면, 본 발명은 (t+1)번째 프레임이 합성되도록 프레임 수를 늘리는 것이다. Ft->t+2와 Ft+2->t는 각각 It에서 It+2로의 광 흐름과 It+2에서 It로의 광 흐름을 의미한다.
Figure 112019111610712-pat00001
은 미리 생성된 중간 프레임으로, 보간된 광 흐름인 Ft*t+2와 Ft+2*t를 사용하여 It과 It+2에서 공간적으로 워핑된다. Vt와 Vt +2는 각각 t번째와 (t+2)번째 프레임까지의 프레임 시퀀스이다. 즉, Vt = [It-2N-2, It-2N, ..., It]이고 Vt +2 = [It-2N-2, It-2N, ..., It+2]이다.
Figure 112019111610712-pat00002
은 본 발명(FIEM; video frame interpolation considering exceptional motion)의 출력으로서, 미리 생성된 중간 프레임
Figure 112019111610712-pat00003
에서 보정(또는 개선)된 보간 프레임을 의미한다. 본 발명의 방법은 광 흐름 기반 프레임 보간, 예외적 움직임 검출 및 프레임 보정이라는 세 가지 모듈을 포함한다. 첫째, 광 흐름 기반 프레임 보간에서는 두 개의 입력 프레임 It와 It+2 간의 광 흐름인 Ft->t+2와 Ft+2->t를 추정한다. 그런 다음 미리 생성된 중간 프레임인
Figure 112019111610712-pat00004
이 Ft->t+2와 Ft+2->t를 이용한 공간 워핑으로 합성된다. 둘째, 예외적 움직임 검출은 중간 프레임에서 예외적 움직임의 공간 정보를 획득한다. 검출 모듈은 프레임 시퀀스의 시간 히스토리와 광 흐름을 이용하여 프레임 보간에서 더 관심을 가져야 할 공간 정보를 제공한다. 셋째, 프레임 보정 모듈은 예외적 움직임 정보를 포함하는 예외적 움직임 맵을 이용하여 복잡하고 빠른 모션이 발생한 영역에 초점을 맞추고,
Figure 112019111610712-pat00005
로부터
Figure 112019111610712-pat00006
을 합성한다. 이러한 본 발명의 실시예에 따른 방법에 대해 상세히 설명하면 다음과 같다.
광 흐름 기반 프레임 보간
도 3에 도시된 바와 같이, 광 흐름 기반 프레임 보간은 광 흐름 추정기(OFE)와 공간 워핑 과정의 두 부분으로 구성된다. OFE는 Ft->t+2와 Ft+2->t의 양방향으로 두 개의 연속 프레임 사이의 광 흐름을 계산한다. 광 흐름 필드가 짧은 순간(short moment)에 국지적으로 매끄럽다 가정하면 타겟 (t+1)번째 프레임의 근사화된 양방향 광 흐름 즉, Ft->t+1 및 Ft+2->t+1을 획득할 수 있으며, 타겟 (t+1)번째 프레임의 근사화된 양방향 광 흐름은 아래 <수학식 1>, <수학식 2>와 같이 나타낼 수 있다.
[수학식 1]
Figure 112019111610712-pat00007
[수학식 2]
Figure 112019111610712-pat00008
여기서, 본 발명은 (t+1)번째 프레임의 양방향 광 흐름으로, 공간 워핑 함수 w(·;·)을 사용하여 (t+1)번째 프레임을 합성할 수 있으며, 워핑 함수는 이선형 보간(bilinear interpolation)에 의해 구현될 수 있다.
합성된 프레임인
Figure 112019111610712-pat00009
은 아래 <수학식 3>과 같이 나타낼 수 있다.
[수학식 3]
Figure 112019111610712-pat00010
여기서, 0.5 값은 표준화(normalization)의 가중치를 의미할 수 있다.
본 발명의 실시예에 따른 방법은 기존의 광 흐름 추정 방법을 OFE로 사용할 수 있다. 예를 들어, 본 발명은 본 발명을 구성하는 뉴럴 네트워크를 안정적으로 트레이닝시키기 위해 미리 트레이닝된 OFE를 사용할 수 있다.
예외적 움직임 검출
비디오 프레임 보간에서 중간 프레임의 정확한 예측은 비디오가 높은 동적 및 빠른 움직임 패턴을 가질 경우 어려운 점이 있다. 빠른 움직임 패턴을 고려하지 않을 경우 보간 프레임이 흐릿해지거나 큰 아티팩트가 있을 수 있다. 따라서, 비디오가 예외적 움직임을 포함하는 경우 예외적 움직임 패턴을 고려할 필요가 있다. 본 발명은 비디오 프레임 보간에서 예외적 움직임 검출 모듈을 제공한다. 생성기는 입력 비디오 프레임의 재구성을 위해 사용된다. 생성기는 비예외적 움직임 패턴의 허용 오차(tolerance)를 학습하기 위하여 비예외적 움직임을 가지는 일반 비디오로 트레이닝될 수 있다. 비디오 생성기는 비예외적 움직임이 포함된 일반 비디오로 트레이닝되기 때문에 예외적 움직임 패턴을 가진 비디오가 주어지면 예측 프레임의 재구성이 잘 되지 않는다.
본 발명에서의 예외적 움직임 검출 모듈은 도 3에 도시된 바와 같이, 예외적 움직임 추정기(EME)와 공간 워핑 과정을 포함한다. Vt가 주어지면, EME는 It에서 복잡하고 빠른 움직임의 공간 위치를 포함하는 Mt를 획득한다. 광 흐름 추정기와 공간 워핑 함수 w에서 얻은 Ft->t+2를 이용하여 중간 프레임에서 워핑된 예외적 움직임 맵 Mt+1,1이 획득된다. 마찬가지로, Vt +2가 주어지면, EME는 It+2에서 복잡하고 빠른 움직임의 공간 위치를 포함하는 Mt +2를 획득하고, 광 흐름 추정기와 공간 워핑 함수 w에서 얻은 Ft+2->t를 이용하여 중간 프레임에서 워핑된 예외적 움직임 맵 Mt +1, 2이 획득된다.
도 4는 예외적 움직임 추정기에 대한 일 실시예의 구조를 나타낸 것이다.
도 4에 도시된 바와 같이, 예외적 움직임 추정기(EME)는 향후 프레임 예측을 위한 시공간 자동인코더(spatial-temporal autoencoder)를 포함한다. 자동인코더는 비지도 학습 뉴럴 네트워크로서, 입력을 약간의 왜곡을 가지는 출력으로 변환하기 위한 데이터 코딩을 학습하는데 사용된다. 본 발명은 시공간 인코딩을 위하여 컨볼루션 LSTM(ConvLSTM)을 사용할 수 있고, 시공간 디코딩을 위하여 디컨볼루션 LSTM(DeconvLSTM)을 사용할 수 있다. DeconvLSTM는 디컨볼루션 레이어가 컨볼루션 레이어 대신 사용된다는 점을 제외하면 거의 ConvLSTM과 동일하다. 모든 컨볼루션 레이어는 2 stride를 가진 3×3 커널을 가진다. 아래 <표 1>은 본 발명에서의 시공간 자동인코더에 대한 일 실시예의 상세 아키텍처를 나타낸 것이다.
Figure 112019111610712-pat00011
시공간 인코더에서, 프레임 시퀀스의 시간적 특성이 학습되는 동안 공간적 특징이 각 프레임의 시각적 특성을 나타내도록 인코딩된다. 시공간 디코더에서, 다음 프레임은 학습된 시공간 특징으로부터 예측된다. t번째 예측 프레임 Pt는 아래 <수학식 4>와 같이 나타낼 수 있다.
[수학식 4]
Figure 112019111610712-pat00012
여기서, f는 시공간 자동인코더를 의미할 수 있다.
Pt를 잘 예측할 수 있도록 비예외적 움직임을 가지는 프레임 시퀀스를 사용하여 f를 트레이닝할 수 있다. 이 때, 예측 손실 함수는 아래 <수학식 5>와 같이 나타낼 수 있다.
[수학식 5]
Figure 112019111610712-pat00013
본 발명은 원본 영상 It와 예측 프레임인 Pt 사이의 예측 손실을 최소화함으로써, 비예외적 움직임 패턴을 가진 일반 비디오의 예측 품질을 보장할 수 있다.
트레이닝이 완료되면 f의 파라미터가 고정된다. 테스트 단계에서 생성된 프레임을 획득한 후 원본 프레임과 생성된 프레임의 차이는 아래 <수학식 6>과 같이 계산된다.
[수학식 6]
Figure 112019111610712-pat00014
생성기는 비예외적 움직임의 비디오를 사용하여 트레이닝되므로, 예측 오류는 예외적 움직임을 의미할 수 있다. 따라서, Mt은 t번째 프레임의 예외적 움직임 공간 정보를 포함하고 있다. 즉, t번째 프레임에서 예외적 움직임 패턴의 영역이 검출될 수 있다는 것이다. 본 발명에서 Mt은 예외적 움직임 맵이라 할 수 있다.
도 3에 도시된 바와 같이, Mt와 Mt +2는 EME에 각각 Vt와 Vt +2가 주어졌을 때 획득된다. 본 발명의 실시예에 따른 방법은 미리 생성된 중간 프레임
Figure 112019111610712-pat00015
의 품질을 향상시키는 것이므로, 중간 프레임에서의 예외적 움직임 영역(즉, Mt +1)이 필요하다. Mt +1은 함수 w(·,·), 광 흐름 Ft->t+1 및 Ft+2->t+1과 함께 Mt와 Mt +2를 공간적으로 워핑하면 얻을 수 있다. 워핑된 예외적 움직임 맵은 아래 <수학식 7> 및 <수학식 8>과 같이 나타낼 수 있다.
[수학식 7]
Figure 112019111610712-pat00016
[수학식 8]
Figure 112019111610712-pat00017
여기서 Mt +1,1 및 Mt +1,2는 각각 Mt와 Mt +2로부터 워핑된 예외적 움직임 맵을 의미할 수 있다.
프레임 보정
프레임 보정 과정은 미리 생성된 중간 프레임인
Figure 112019111610712-pat00018
과 워핑된 예외적 움직임 맵인 Mt +1,1 및 Mt +1, 2이 주어지면, 픽셀 단위 블렌딩은 이들을 결합하여 고품질의 보간 프레임인
Figure 112019111610712-pat00019
을 획득한다. Mt +1,1 및 Mt +1,2는 예외적 움직임이 발생하는 로컬 정보와 복잡성의 정도를 포함한다. 그것들은 미리 생성된 중간 프레임과 실측 프레임 사이의 잔차를 예측한다. 잔차는 Mt +1,1과 Mt +1,2로부터 획득된 예외적 움직임의 로컬 정보를 의미한다. 따라서, 프레임 보정 모듈은 많은 아티팩트가 있는 영역의 세부사항(details)을 개선시킨다. 결과적으로,
Figure 112019111610712-pat00020
에 잔차를 결합하여 보정된 보간 프레임
Figure 112019111610712-pat00021
을 얻을 수 있다.
본 발명은 프레임 보정 모듈로 확장 GridNet 아키텍처를 사용할 수 있다. GridNet은 연속 잔차 블록, 다운 샘플링 및 업 샘플링 블록으로 구성된다. 다운 샘플링과 업 샘플링을 이용해 정보를 교환함으로써, 다른 스케일의 특징을 결합하는 방법을 학습한다. 따라서,
Figure 112019111610712-pat00022
, Mt +1,1과 Mt +1,2의 공간정보를 이용하여 실측 프레임과 미리 생성된 중간 프레임 사이의 잔차를 예측할 수 있도록 트레이닝될 수 있다. 확장 GridNet의 구조는 기존 연구(S. Niklaus and F. Liu, "Context-aware synthesis for video frame interpolation," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018, pp. 1701-1710.)에 상세히 기재되어 있기에 그 상세한 설명은 생략한다. 미리 생성된 중간 프레임인
Figure 112019111610712-pat00023
과 워핑된 예외적 움직임 맵인 Mt +1,1과 Mt +1,2는 채널 단위로 연결된다. 그런 다음, 보간 프레임
Figure 112019111610712-pat00024
은 보정 모듈(refinement module)의 출력과 미리 생성된 프레임
Figure 112019111610712-pat00025
을 더하여 생성될 수 있다. 보정된 보간 프레임
Figure 112019111610712-pat00026
은 아래 <수학식 9>와 같이 나타낼 수 있다.
[수학식 9]
Figure 112019111610712-pat00027
여기서 G는 프레임 보정 모듈을 의미할 수 있다.
G를 트레이닝시키기 위해, 재구성 손실(reconstruction loss)과 지각 손실(perceptual loss)을 이용하며, 재구성 손실과 지각 손실을 이용하여
Figure 112019111610712-pat00028
을 원래 프레임 It+1에 가깝게 생성한다. 본 발명은 G뿐만 아니라 미리 트레이닝된 광 흐름 추정기를 트레이닝시키기 위하여 상기 손실들을 사용할 수 있다. 본 발명에서의 목적 함수는 아래 <수학식 10>과 같이 나타낼 수 있다.
[수학식 10]
Figure 112019111610712-pat00029
여기서, lr과 lp는 각각 재구성 손실과 지각 손실을 의미할 수 있다.
두 손실들은 가중치 파라미터 λr과 λp와 결합되어 가중치가 적용될 수 있다.
재구성 손실 lr은 보간 프레임
Figure 112019111610712-pat00030
과 실측 프레임 It+1의 차이를 측정한다. 컬러 기반 손실 함수에 대하여, 본 발명은 아래 <수학식 11>과 같이 L1 손실을 사용할 수 있다.
[수학식 11]
Figure 112019111610712-pat00031
또한, 본 발명은 보간 프레임의 세부 사항과 선명도(sharpness)를 유지하기 위해 지각 손실을 사용한다. 이 때, 지각 손실 lp는 아래 <수학식 12>와 같이 나타낼 수 있다.
[수학식 12]
Figure 112019111610712-pat00032
여기서, φ는 ImageNet 미리 트레이닝된 VGG 모델(K. Simonyan and A. Zisserman, "Very deep convolutional networks for large-scale image recognition," arXiv preprint arXiv:1409.1556, 2014.)의 conv4_3 특징을 의미할 수 있다.
워핑 함수와 프레임 보정 모듈(FRM)은 구별할 수 있다. 따라서, 프레임 보정 모듈은 상술한 목적함수를 사용하여 트레이닝될 수 있다. 미리 트레이닝된 광 흐름 추정기도 프레임 보정 모듈의 트레이닝 중 목적 함수에 맞게 미세 조정될 수 있다.
물론, 본 발명에서의 광 흐름 추정기, 예외적 움직임 추정기 및 프레임 보정 모듈은 상술한 뉴럴 네트워크로 한정되지 않으며, 본 발명에서 사용될 수 있는 모든 종류의 뉴럴 네트워크가 이용될 수 있다.
도 5는 종래 방법들과 본 발명의 방법에 의한 시각적 결과를 비교한 일 예시도를 나타낸 것으로, 첫 번째 칼럼(column)은 두 개의 입력 프레임들(It, It+1)을 나타내고, 두 번째 내지 다섯 번째 칼럼들은 종래 방법들과 본 발명의 방법에 의해 보간되 보간 프레임들을 나타내며, 마지막 칼럼은 예외적 움직인 추정기에 의해 획득된 예외적 움직임 맵을 나타낸 것이다.
도 5를 통해 알 수 있듯이, 종래 방법들 즉, DVF(deep voxel flow), SepConv(seperable adaptive convolution)과 SuperSlomo(Estimation of multiple intermediate frames)에 의해 생성된 아이의 오른 손은 흐리게 보이고 불 명확하게 보이며, 손 주변에 많은 아티팩트가 존재하는 반면, 본 발명의 방법에 의해 생성된 아이의 오른 손 형상과 손가락들이 잘 생성되고 손 주변의 아티팩트들이 적은 것을 알 수 있다. 또한, 훌라후프 영역은 예외적 움직임이 발생한 영역으로, 종래 방법들에 의해 생성된 훌라후프 영역은 많은 아티팩트가 존재하며 훌라후프 형상이 예외적 움직임 영역에서 두 라인들로 분열되는 반면, 본 발명의 방법에 의해 생성된 훌라후프 영역은 종래 방법들에 비해 아티팩트가 적을 것을 알 수 있다. 또한, 체조 이미지에 대해서, 종래 방법들은 많은 아티팩트가 존재하고 손이 여러 조각으로 분할되어 잘 생성되지 않은 반면, 본 발명의 방법은 손 모양을 잘 생성하는 것을 알 수 있다. 또한, 예외적 움직임 맵을 통해 알 수 있듯이, 예외적 움직임이 발생한 영역에서 예외적 움직임 맵이 높게 활성화되는 것을 알 수 있다.
이와 같이, 본 발명의 실시예들에 따른 방법은 움직임을 이용하여 비디오 내에 포함된 예외적 움직임을 자동으로 검출하고, 검출된 예외적 움직임 정보 예를 들어, 위치와 세기를 이용하여 예외적 움직임에 강인한 보간 프레임을 재생성함으로써, 예외적 움직임에 강인한 비디오 프레임을 제공할 수 있다.
이러한 본 발명의 방법은 영상 콘텐츠에서 움직임의 빠르기나 복잡한 정도 및 해당 위치를 자동으로 추출하여 프레임 보간에 사용하는 방법으로, 비디오 콘텐츠에 상관없이 예외적 움직임에 강인한 높은 질의 프레임 보간된 영상을 생산할 수 있다.
또한, 본 발명의 방법은 8K UHD와 110도 field of view TV 등에서 사용하고 있는 기존의 프레임 보간 방법에 의해 발생될 수 있는 피로도에 대한 문제점을 해결할 수 있다.
도 6은 본 발명의 일 실시예에 따른 비디오 프레임 보간 장치에 대한 개념적인 구성을 나타낸 것으로, 도 1 내지 도 5의 방법을 수행하는 장치에 대한 개념적인 구성을 나타낸 것이다.
도 6을 참조하면, 본 발명의 실시예에 따른 장치(600)는 생성부(610), 검출부(620) 및 획득부(630)를 포함한다.
생성부(610)는 비디오 시퀀스의 연속되는 두 프레임들 예를 들어, 제1 프레임과 제2 프레임 간의 광 흐름을 추정하고, 추정된 광 흐름을 이용한 보간을 통해 제1 프레임과 제2 프레임 사이의 중간 프레임을 생성한다.
여기서, 생성부(610)는 미리 학습된 뉴럴 네트워크를 이용하여 제1 프레임과 제2 프레임 간의 양방향에 대한 광 흐름을 추정하고, 제1 프레임과 제2 프레임 간의 양방향에 대한 광 흐름을 이용하여 제1 프레임과 중간 프레임 간의 광 흐름 및 제2 프레임과 중간 프레임 간의 광 흐름을 계산하며, 계산된 광 흐름과 제1 프레임을 이용한 공간 워핑 및 계산된 광 흐름과 제2 프레임을 이용한 공간 워핑에 기초하여 중간 프레임을 생성할 수 있다.
검출부(620)는 생성부(610)에 의해 생성된 중간 프레임에서의 예외적 움직임 정보를 검출한다. 구체적으로, 검출부(620)는 제1 프레임과 제2 프레임 각각까지의 프레임 시퀀스를 입력으로 하는 미리 학습된 뉴럴 네트워크를 이용하여 제1 프레임에 대한 예외적 움직임 정보와 제2 프레임에 대한 예외적 움직임 정보를 추정하고, 제1 프레임에 대한 예외적 움직임 정보, 제2 프레임에 대한 예외적 움직임 정보와 단계 S110에서 추정된 광 흐름에 기초하여 중간 프레임에서의 예외적 움직임 정보를 검출할 수 있다.
이 때, 검출부(620)는 제1 프레임에 대한 예외적 움직임 정보와 제1 프레임에서 제2 프레임으로의 광 흐름을 이용한 공간 워핑에 기초하여 중간 프레임에 대한 제1 예외적 움직임 맵을 검출하고, 제2 프레임의 예외적 움직임 정보와 제2 프레임에서 제1 프레임으로의 광 흐름을 이용한 공간 워핑에 기초하여 중간 프레임에 대한 제2 예외적 움직임 맵을 검출할 수 있다. 검출부에서 이용하는 뉴럴 네트워크는 비예외적 움직임을 가지는 트레이닝 데이터 세트에 의해 트레이닝되어 학습된 비지도 학습 뉴럴 네트워크를 포함할 수 있다.
나아가, 검출부(620)는 시공간 자동인코더(spatio-temporal autoencoder)를 이용하여 제1 프레임에 대한 예외적 움직임 정보와 제2 프레임에 대한 예외적 움직임 정보를 추정하고, 제1 프레임에 대한 예외적 움직임 정보, 제2 프레임에 대한 예외적 움직임 정보와 생성부(610)에 의해 추정된 광 흐름에 기초하여 중간 프레임에서의 예외적 움직임 정보 예컨대, 예외적 움직임 맵을 검출할 수 있다.
이 때, 검출부(620)는 시공간 자동인코더를 이용하여 제1 프레임에 해당하는 제1 예측 프레임과 제2 프레임에 해당하는 제2 예측 프레임을 획득하고, 제1 프레임과 제1 예측 프레임 간의 차이에 기초하여 제1 프레임에서의 예외적 움직임 패턴의 영역에 대한 예외적 움직임 정보를 추정하며, 제2 프레임과 제2 예측 프레임 간의 차이에 기초하여 제1 프레임에서의 예외적 움직임 패턴의 영역에 대한 예외적 움직임 정보를 추정할 수 있다.
획득부(630)는 검출부(620)에 의해 검출된 예외적 움직임 정보에 기초하여 중간 프레임을 보정함으로써, 보간 프레임을 획득한다.
여기서, 획득부(630)는 검출부(620)에 의해 검출된 중간 프레임에서의 예외적 움직임 정보와 중간 프레임을 입력으로 하는 미리 학습된 뉴럴 네트워크를 이용하여 생성부에서 생성된 중간 프레임과 중간 프레임에 대응하는 실측 프레임 간의 잔차를 예측하고, 중간 프레임과 잔차를 결합함으로써, 중간 프레임을 보정하고 이를 통해 예외적 움직임에 강인한 보간 프레임을 획득할 수 있다.
비록, 도 6의 장치에서 그 설명이 생략되었더라도, 도 6을 구성하는 각 구성 수단은 도 1 내지 도 5에서 설명한 모든 내용을 포함할 수 있으며, 이는 이 기술 분야에 종사하는 당업자에게 있어서 자명하다.
이상에서 설명된 시스템 또는 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 시스템, 장치 및 구성요소는, 예를 들어, 프로세서, 컨트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 컨트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예들에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (17)

  1. 삭제
  2. 비디오 시퀀스의 연속되는 제1 프레임과 제2 프레임 간의 광 흐름(optical flow)을 추정하는 단계;
    상기 추정된 광 흐름을 이용한 보간을 통해 상기 제1 프레임과 상기 제2 프레임 사이의 중간 프레임을 생성하는 단계;
    상기 중간 프레임에서의 예외적 움직임 정보를 검출하는 단계; 및
    상기 검출된 예외적 움직임 정보에 기초하여 상기 중간 프레임을 보정함으로써, 보간 프레임을 획득하는 단계를 포함하고,
    상기 예외적 움직임 정보를 검출하는 단계는
    상기 제1 프레임과 상기 제2 프레임 각각까지의 프레임 시퀀스를 입력으로 하는 미리 학습된 제1 뉴럴 네트워크를 이용하여 상기 제1 프레임에 대한 예외적 움직임 정보와 상기 제2 프레임에 대한 예외적 움직임 정보를 추정하고, 상기 제1 프레임에 대한 예외적 움직임 정보, 상기 제2 프레임에 대한 예외적 움직임 정보와 상기 추정된 광 흐름에 기초하여 상기 중간 프레임에서의 예외적 움직임 정보를 검출하는 것을 특징으로 하는 비디오 프레임 보간 방법.
  3. 제2항에 있어서,
    상기 예외적 움직임 정보를 검출하는 단계는
    상기 제1 프레임에 대한 예외적 움직임 정보와 상기 제1 프레임에서 상기 제2 프레임으로의 광 흐름을 이용한 공간 워핑(warping)에 기초하여 상기 중간 프레임에 대한 제1 예외적 움직임 맵을 검출하고, 상기 제2 프레임의 예외적 움직임 정보와 상기 제2 프레임에서 상기 제1 프레임으로의 광 흐름을 이용한 공간 워핑에 기초하여 상기 중간 프레임에 대한 제2 예외적 움직임 맵을 검출하는 것을 특징으로 하는 비디오 프레임 보간 방법.
  4. 제2항에 있어서,
    상기 제1 뉴럴 네트워크는
    비예외적 움직임을 가지는 트레이닝 데이터 세트에 의해 학습된 비지도 학습 뉴럴 네트워크를 포함하는 것을 특징으로 하는 비디오 프레임 보간 방법.
  5. 제2항에 있어서,
    상기 예외적 움직임 정보를 검출하는 단계는
    시공간 자동인코더(spatio-temporal autoencoder)를 이용하여 상기 제1 프레임에 대한 예외적 움직임 정보와 상기 제2 프레임에 대한 예외적 움직임 정보를 추정하고, 상기 제1 프레임에 대한 예외적 움직임 정보, 상기 제2 프레임에 대한 예외적 움직임 정보와 상기 추정된 광 흐름에 기초하여 상기 중간 프레임에서의 예외적 움직임 정보를 검출하는 것을 특징으로 하는 비디오 프레임 보간 방법.
  6. 제5항에 있어서,
    상기 예외적 움직임 정보를 검출하는 단계는
    시공간 자동인코더를 이용하여 상기 제1 프레임에 해당하는 제1 예측 프레임과 상기 제2 프레임에 해당하는 제2 예측 프레임을 획득하고, 상기 제1 프레임과 상기 제1 예측 프레임 간의 차이에 기초하여 상기 제1 프레임에서의 예외적 움직임 패턴의 영역에 대한 예외적 움직임 정보를 추정하며, 상기 제2 프레임과 상기 제2 예측 프레임 간의 차이에 기초하여 상기 제1 프레임에서의 예외적 움직임 패턴의 영역에 대한 예외적 움직임 정보를 추정하는 것을 특징으로 하는 비디오 프레임 보간 방법.
  7. 비디오 시퀀스의 연속되는 제1 프레임과 제2 프레임 간의 광 흐름(optical flow)을 추정하는 단계;
    상기 추정된 광 흐름을 이용한 보간을 통해 상기 제1 프레임과 상기 제2 프레임 사이의 중간 프레임을 생성하는 단계;
    상기 중간 프레임에서의 예외적 움직임 정보를 검출하는 단계; 및
    상기 검출된 예외적 움직임 정보에 기초하여 상기 중간 프레임을 보정함으로써, 보간 프레임을 획득하는 단계를 포함하고,
    상기 보간 프레임을 획득하는 단계는
    상기 검출된 예외적 움직임 정보와 상기 중간 프레임을 입력으로 하는 미리 학습된 제2 뉴럴 네트워크를 이용하여 상기 중간 프레임과 상기 중간 프레임에 대응하는 실측 프레임 간의 잔차(residual)를 예측하고, 상기 중간 프레임과 상기 잔차를 결합함으로써, 상기 보간 프레임을 획득하는 것을 특징으로 하는 비디오 프레임 보간 방법.
  8. 제7항에 있어서,
    상기 광 흐름을 추정하는 단계는
    미리 학습된 제3 뉴럴 네트워크를 이용하여 상기 제1 프레임과 상기 제2 프레임 간의 양방향에 대한 광 흐름을 추정하고,
    상기 중간 프레임을 생성하는 단계는
    상기 제1 프레임과 상기 제2 프레임 간의 양방향에 대한 광 흐름을 이용하여 상기 제1 프레임과 상기 중간 프레임 간의 광 흐름 및 상기 제2 프레임과 상기 중간 프레임 간의 광 흐름을 계산하며, 상기 계산된 광 흐름과 상기 제1 프레임을 이용한 공간 워핑 및 상기 계산된 광 흐름과 상기 제2 프레임을 이용한 공간 워핑에 기초하여 상기 중간 프레임을 생성하는 것을 특징으로 하는 비디오 프레임 보간 방법.
  9. 삭제
  10. 삭제
  11. 비디오 시퀀스의 연속되는 제1 프레임과 제2 프레임 간의 광 흐름(optical flow)을 추정하고, 상기 추정된 광 흐름을 이용한 보간을 통해 상기 제1 프레임과 상기 제2 프레임 사이의 중간 프레임을 생성하는 생성부;
    상기 중간 프레임에서의 예외적 움직임 정보를 검출하는 검출부; 및
    상기 검출된 예외적 움직임 정보에 기초하여 상기 중간 프레임을 보정함으로써, 보간 프레임을 획득하는 획득부를 포함하고,
    상기 검출부는
    상기 제1 프레임과 상기 제2 프레임 각각까지의 프레임 시퀀스를 입력으로 하는 미리 학습된 제1 뉴럴 네트워크를 이용하여 상기 제1 프레임에 대한 예외적 움직임 정보와 상기 제2 프레임에 대한 예외적 움직임 정보를 추정하고, 상기 제1 프레임에 대한 예외적 움직임 정보, 상기 제2 프레임에 대한 예외적 움직임 정보와 상기 추정된 광 흐름에 기초하여 상기 중간 프레임에서의 예외적 움직임 정보를 검출하는 것을 특징으로 하는 비디오 프레임 보간 장치.
  12. 제11항에 있어서,
    상기 검출부는
    상기 제1 프레임에 대한 예외적 움직임 정보와 상기 제1 프레임에서 상기 제2 프레임으로의 광 흐름을 이용한 공간 워핑(warping)에 기초하여 상기 중간 프레임에 대한 제1 예외적 움직임 맵을 검출하고, 상기 제2 프레임의 예외적 움직임 정보와 상기 제2 프레임에서 상기 제1 프레임으로의 광 흐름을 이용한 공간 워핑에 기초하여 상기 중간 프레임에 대한 제2 예외적 움직임 맵을 검출하는 것을 특징으로 하는 비디오 프레임 보간 장치.
  13. 제11항에 있어서,
    상기 제1 뉴럴 네트워크는
    비예외적 움직임을 가지는 트레이닝 데이터 세트에 의해 학습된 비지도 학습 뉴럴 네트워크를 포함하는 것을 특징으로 하는 비디오 프레임 보간 장치.
  14. 제11항에 있어서,
    상기 검출부는
    시공간 자동인코더(spatio-temporal autoencoder)를 이용하여 상기 제1 프레임에 대한 예외적 움직임 정보와 상기 제2 프레임에 대한 예외적 움직임 정보를 추정하고, 상기 제1 프레임에 대한 예외적 움직임 정보, 상기 제2 프레임에 대한 예외적 움직임 정보와 상기 추정된 광 흐름에 기초하여 상기 중간 프레임에서의 예외적 움직임 정보를 검출하는 것을 특징으로 하는 비디오 프레임 보간 장치.
  15. 제14항에 있어서,
    상기 검출부는
    시공간 자동인코더를 이용하여 상기 제1 프레임에 해당하는 제1 예측 프레임과 상기 제2 프레임에 해당하는 제2 예측 프레임을 획득하고, 상기 제1 프레임과 상기 제1 예측 프레임 간의 차이에 기초하여 상기 제1 프레임에서의 예외적 움직임 패턴의 영역에 대한 예외적 움직임 정보를 추정하며, 상기 제2 프레임과 상기 제2 예측 프레임 간의 차이에 기초하여 상기 제1 프레임에서의 예외적 움직임 패턴의 영역에 대한 예외적 움직임 정보를 추정하는 것을 특징으로 하는 비디오 프레임 보간 장치.
  16. 비디오 시퀀스의 연속되는 제1 프레임과 제2 프레임 간의 광 흐름(optical flow)을 추정하고, 상기 추정된 광 흐름을 이용한 보간을 통해 상기 제1 프레임과 상기 제2 프레임 사이의 중간 프레임을 생성하는 생성부;
    상기 중간 프레임에서의 예외적 움직임 정보를 검출하는 검출부; 및
    상기 검출된 예외적 움직임 정보에 기초하여 상기 중간 프레임을 보정함으로써, 보간 프레임을 획득하는 획득부를 포함하고,
    상기 획득부는
    상기 검출된 예외적 움직임 정보와 상기 중간 프레임을 입력으로 하는 미리 학습된 제2 뉴럴 네트워크를 이용하여 상기 중간 프레임과 상기 중간 프레임에 대응하는 실측 프레임 간의 잔차(residual)를 예측하고, 상기 중간 프레임과 상기 잔차를 결합함으로써, 상기 보간 프레임을 획득하는 것을 특징으로 하는 비디오 프레임 보간 장치.
  17. 제16항에 있어서,
    상기 생성부는
    미리 학습된 제3 뉴럴 네트워크를 이용하여 상기 제1 프레임과 상기 제2 프레임 간의 양방향에 대한 광 흐름을 추정하고, 상기 제1 프레임과 상기 제2 프레임 간의 양방향에 대한 광 흐름을 이용하여 상기 제1 프레임과 상기 중간 프레임 간의 광 흐름 및 상기 제2 프레임과 상기 중간 프레임 간의 광 흐름을 계산하며, 상기 계산된 광 흐름과 상기 제1 프레임을 이용한 공간 워핑 및 상기 계산된 광 흐름과 상기 제2 프레임을 이용한 공간 워핑에 기초하여 상기 중간 프레임을 생성하는 것을 특징으로 하는 비디오 프레임 보간 장치.
KR1020190137384A 2019-10-31 2019-10-31 예외적 움직임에 강인한 비디오 프레임 보간 방법 및 그 장치 KR102244187B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020190137384A KR102244187B1 (ko) 2019-10-31 2019-10-31 예외적 움직임에 강인한 비디오 프레임 보간 방법 및 그 장치
PCT/KR2020/003461 WO2021085757A1 (ko) 2019-10-31 2020-03-12 예외적 움직임에 강인한 비디오 프레임 보간 방법 및 그 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190137384A KR102244187B1 (ko) 2019-10-31 2019-10-31 예외적 움직임에 강인한 비디오 프레임 보간 방법 및 그 장치

Publications (1)

Publication Number Publication Date
KR102244187B1 true KR102244187B1 (ko) 2021-04-26

Family

ID=75716394

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190137384A KR102244187B1 (ko) 2019-10-31 2019-10-31 예외적 움직임에 강인한 비디오 프레임 보간 방법 및 그 장치

Country Status (2)

Country Link
KR (1) KR102244187B1 (ko)
WO (1) WO2021085757A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114663562A (zh) * 2022-03-29 2022-06-24 江苏元贞智能科技有限公司 基于人工智能和模式识别的中间画图像优化方法及系统
KR102459606B1 (ko) * 2021-10-15 2022-10-27 인하대학교 산학협력단 프레임 보간을 위한 움직임 기반 저정밀도 계산 방법

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115706810A (zh) * 2021-08-16 2023-02-17 北京字跳网络技术有限公司 视频帧调整方法、装置、电子设备和存储介质
CN114066730B (zh) * 2021-11-04 2022-10-28 西北工业大学 一种基于无监督对偶学习的视频插帧方法
CN117115210B (zh) * 2023-10-23 2024-01-26 黑龙江省农业科学院农业遥感与信息研究所 基于物联网的智慧农业监控调节方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100018248A (ko) * 2008-08-06 2010-02-17 (주)메디슨 초음파 시스템에서 초음파 영상의 프레임 보간 방법 및장치
KR20100087963A (ko) * 2009-01-29 2010-08-06 서강대학교산학협력단 광류 정보를 이용한 중간 영상 생성 방법
KR101227524B1 (ko) * 2011-08-10 2013-01-31 엘지전자 주식회사 영상 처리방법 및 영상 처리장치
KR20170006079A (ko) * 2015-07-07 2017-01-17 이선구 화재 감시 장치
KR20180055629A (ko) * 2016-11-16 2018-05-25 한국과학기술원 딥 러닝 기반 교육용 비디오 학습 및 평가 시스템
US20190138889A1 (en) * 2017-11-06 2019-05-09 Nvidia Corporation Multi-frame video interpolation using optical flow

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100018248A (ko) * 2008-08-06 2010-02-17 (주)메디슨 초음파 시스템에서 초음파 영상의 프레임 보간 방법 및장치
KR20100087963A (ko) * 2009-01-29 2010-08-06 서강대학교산학협력단 광류 정보를 이용한 중간 영상 생성 방법
KR101227524B1 (ko) * 2011-08-10 2013-01-31 엘지전자 주식회사 영상 처리방법 및 영상 처리장치
KR20170006079A (ko) * 2015-07-07 2017-01-17 이선구 화재 감시 장치
KR20180055629A (ko) * 2016-11-16 2018-05-25 한국과학기술원 딥 러닝 기반 교육용 비디오 학습 및 평가 시스템
US20190138889A1 (en) * 2017-11-06 2019-05-09 Nvidia Corporation Multi-frame video interpolation using optical flow

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102459606B1 (ko) * 2021-10-15 2022-10-27 인하대학교 산학협력단 프레임 보간을 위한 움직임 기반 저정밀도 계산 방법
CN114663562A (zh) * 2022-03-29 2022-06-24 江苏元贞智能科技有限公司 基于人工智能和模式识别的中间画图像优化方法及系统

Also Published As

Publication number Publication date
WO2021085757A1 (ko) 2021-05-06

Similar Documents

Publication Publication Date Title
KR102244187B1 (ko) 예외적 움직임에 강인한 비디오 프레임 보간 방법 및 그 장치
US20200036995A1 (en) Machine-Learning Based Video Compression
Kim et al. Recurrent temporal aggregation framework for deep video inpainting
JP4973031B2 (ja) ノイズ抑圧方法、ノイズ抑圧方法のプログラム、ノイズ抑圧方法のプログラムを記録した記録媒体及びノイズ抑圧装置
Park et al. Robust video frame interpolation with exceptional motion map
KR101671391B1 (ko) 레이어 블러 모델에 기반한 비디오 디블러링 방법, 이를 수행하기 위한 기록 매체 및 장치
CN111263161A (zh) 视频压缩处理方法、装置、存储介质和电子设备
US10825138B2 (en) Super resolution using fidelity transfer
Kim et al. Deep blind video decaptioning by temporal aggregation and recurrence
CN113269722A (zh) 生成对抗网络的训练方法、及高分辨率图像重建方法
CN112422870B (zh) 一种基于知识蒸馏的深度学习视频插帧方法
CN111626308A (zh) 一种基于轻量卷积神经网络的实时光流估计方法
CN114339409A (zh) 视频处理方法、装置、计算机设备及存储介质
CN115486068A (zh) 用于视频编码中基于深度神经网络的帧间预测的方法和设备
JP2021184594A (ja) ビデオフレームの補間装置及び方法
KR101805625B1 (ko) 영상 스케일링을 통한 영상 레이트 변환 방법 및 그 장치
EP3298579A1 (en) Visual data processing using energy networks
Yang et al. Isophote-constrained autoregressive model with adaptive window extension for image interpolation
CN116170650A (zh) 视频插帧方法及装置
RU2747965C1 (ru) Обработка окклюзий для frc c помощью глубокого обучения
CN113421186A (zh) 使用生成对抗网络的非监督视频超分辨率的设备和方法
US20230298135A1 (en) Image super-resolution method using frequency domain features
Xiao et al. Progressive motion boosting for video frame interpolation
KR102057395B1 (ko) 기계학습 기반 비디오 보외법을 이용한 영상 생성 방법
US11570465B2 (en) Machine-learned in-loop predictor for video compression

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant