KR20190001444A - 보간 프레임을 생성하기 위한 움직임 예측 방법 및 장치 - Google Patents
보간 프레임을 생성하기 위한 움직임 예측 방법 및 장치 Download PDFInfo
- Publication number
- KR20190001444A KR20190001444A KR1020170081448A KR20170081448A KR20190001444A KR 20190001444 A KR20190001444 A KR 20190001444A KR 1020170081448 A KR1020170081448 A KR 1020170081448A KR 20170081448 A KR20170081448 A KR 20170081448A KR 20190001444 A KR20190001444 A KR 20190001444A
- Authority
- KR
- South Korea
- Prior art keywords
- block
- regularity
- fejnd
- determining
- frame
- Prior art date
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/187—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a scalable video layer
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/17—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
- H04N19/172—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/17—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
- H04N19/176—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/503—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
- H04N19/51—Motion estimation or motion compensation
- H04N19/577—Motion compensation with bidirectional frame interpolation, i.e. using B-pictures
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Television Systems (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
복수의 프레임 중에서 시간상으로 인접한 두 개의 프레임 사이에 보간 프레임을 생성하기 위한 움직임 예측 방법이 개시된다. 움직임 예측 방법은, 상기 복수의 프레임 중에서 선정된 두 개의 프레임 내에 각각 속하고 미리 설정된 크기를 갖는 제1 블록과 제2 블록의 규칙성을 판단하는 단계, 상기 제1 블록과 상기 제2 블록의 규칙성이 일치하는지 결정하는 단계 및 규칙성이 일치하면, 상기 제1 블록과 상기 제2 블록 상호간의 유사도를 판단하는 단계를 포함할 수 있다. 따라서, 움직임 예측의 효율을 향상시킬 수 있다.
Description
본 발명은 보간 프레임을 생성하기 위한 움직임 예측 방법 및 장치에 관한 것으로, 더욱 상세하게는 보간 프레임을 생성하기 위한 움직임 예측시 블록 매칭되는 블록의 크기를 적응적으로 결정하는 방법에 관한 것이다.
TV 방송을 비롯한 각종 영상 콘텐츠의 유통이 증가하고 통신 기술이 발전함에 따라 고품질 영상에 대한 수요가 증가하고 있다.
영상 콘텐츠에서 초당 프레임 수(frame per second, FPS)와 해상도, 비트 레이트(bitrate)가 화질을 결정하는 주 요소이고 이 때문에 고품질의 영상 콘텐츠를 생성하여 제공하기 위한 연구가 지속되고 있다.
고품질의 영상 콘텐츠를 제공하기 위한 방법의 하나로서, 프레임 수를 증가시키는 방법이 활발하게 제안되고 있는데, 이와 같은 프레임율 향상 기법(Frame rate up conversion)들로는 같은 프레임을 반복시키는 프레임 반복 기법, 프레임 평활화 기법 등이 있다. 그러나, 기존의 프레임율 향상 기법들은 움직임을 고려하지 않아 영상의 이어짐이 부드럽지 못한 문제점이 있다.
상기 문제점을 해결하기 위하여 움직임을 고려한 기법인 움직임 보상 프레임율 향상 기법(motion compensation frame rate up conversion, MC-FRUC)이 제안되었다. 움직임 보상 프레임율 향상 기법은 블록 정합 기법을 사용하여 움직임(또는 움직임 벡터)을 정확하게 예측하는 움직임 예측 단계와 움직임 벡터를 사용하여 보간 프레임에 적합한 픽셀 값을 결정하는 움직임 보상 단계로 구성될 수 있다.
여기서, 움직임 예측 단계에서의 블록 정합 기법은 프레임간의 블록을 비교하여 유사 블록을 찾는데, 전역 탐색으로 유사한 블록을 찾을 경우 지나치게 속도가 느려질 수 있고, 블록의 크기에 따라 움직임 예측의 정확도가 감소하는 문제점이 있다.
상기와 같은 문제점을 해결하기 위한 본 발명의 목적은, 움직임 예측 방법을 제공하는데 있다.
상기와 같은 문제점을 해결하기 위한 본 발명의 다른 목적은, 움직임 예측 장치를 제공하는데 있다.
상기 목적을 달성하기 위한 본 발명은, 복수의 프레임 중에서 시간상으로 인접한 두 개의 프레임 사이에 보간 프레임을 생성하기 위한 움직임 예측 방법을 제공한다.
여기서, 움직임 예측 방법은, 복수의 프레임 중에서 선정된 두 개의 프레임 내에 각각 속하고 미리 설정된 크기를 갖는 제1 블록과 제2 블록의 규칙성을 판단하는 단계, 제1 블록과 제2 블록의 규칙성이 일치하는지 결정하는 단계 및 규칙성이 일치하면, 제1 블록과 제2 블록 상호간의 유사도를 판단하는 단계를 포함할 수 있다.
여기서 제1 블록과 제2 블록의 규칙성을 판단하는 단계는, 제1 블록이 속하는 프레임의 FEJND(Free-Energy Principle Based Just Noticeable Difference)와 제1 블록의 FEJND를 비교하여 제1 블록의 규칙성을 판단하고, 제2 블록이 속하는 프레임의 FEJND와 제2 블록의 FEJND를 비교하여 제2 블록의 규칙성을 판단할 수 있다.
여기서 제1 블록과 제2 블록의 규칙성을 판단하는 단계는, 제1 블록의 FEJND 가 제1 블록이 속하는 프레임의 FEJND보다 크면, 제1 블록의 규칙성은 불규칙한 것으로 판단하는 단계를 포함할 수 있다.
여기서 제1 블록의 FEJND는, 제1 블록에 포함된 각 픽셀의 FEJND 값의 평균값으로 산출될 수 있다.
여기서 제1 블록에 포함된 각 픽셀의 FEJND 값은, 제1 블록에 포함된 각 픽셀의 규칙성 임계값(JNDp)과 불규칙성 임계값(JNDd)을 이용하여 산출될 수 있다.
여기서 규칙성 임계값을 산출하는 과정은, 제1 블록에 대하여 AR 모델(autoregressive model)에 기초한 예측 블록을 생성하는 단계, 예측 블록에 대한 휘도 적응을 수행하는 단계 및 예측 블록에 대한 공간적 마스킹을 수행하는 단계를 포함할 수 있다.
여기서 불규칙성 임계값을 산출하는 과정은, 제1 블록에 대하여 AR 모델(autoregressive model)에 기초한 예측 블록을 생성하는 단계, 생성된 예측 블록의 각 픽셀값을 제1 블록의 각 픽셀값으로부터 차분하여 차분 블록을 생성하는 단계 및 차분 블록의 각 픽셀에 대한 불규칙성 임계값을 도출하는 단계를 포함할 수 있다.
여기서 움직임 예측 방법은, 제1 블록과 제2 블록의 규칙성이 일치하지 않으면, 미리 설정된 크기를 더 작은 크기로 재설정하는 단계를 더 포함할 수 있다.
여기서 움직임 예측 방법은, 재설정된 크기를 갖고 제1 블록에 포함되는 제3 블록 및 재설정된 크기를 갖고 제2 블록에 포함되는 제4 블록 상호간의 유사도를 판단하는 단계를 더 포함할 수 있다.
여기서 움직임 예측 방법은, 미리 설정된 크기 대신에 재설정된 크기를 기초로, 규칙성을 판단하는 단계를 재수행하는 단계를 더 포함할 수 있다.
상기 목적을 달성하기 위한 본 발명의 다른 측면은, 연속된 복수의 프레임 중에서 시간상으로 인접한 두 개의 프레임 사이에 보간 프레임을 생성하기 위한 움직임 예측 장치를 제공한다.
여기서 움직임 예측 장치는, 적어도 하나의 프로세서(processor) 및 적어도 하나의 프로세서가 적어도 하나의 단계를 수행하도록 지시하는 명령어들(instructions)을 저장하는 메모리(memory)를 포함할 수 있다.
여기서 적어도 하나의 단계는, 복수의 프레임 중에서 선정된 두 개의 프레임 내에 각각 속하고 미리 설정된 크기를 갖는 제1 블록과 제2 블록의 규칙성을 판단하는 단계, 제1 블록과 제2 블록의 규칙성이 일치하는지 결정하는 단계 및 규칙성이 일치하면, 제1 블록과 제2 블록 상호간의 유사도를 판단하는 단계를 포함할 수 있다.
여기서, 제1 블록과 제2 블록의 규칙성을 판단하는 단계는, 제1 블록이 속하는 프레임의 FEJND(Free-Energy Principle Just Noticeable Difference)와 제1 블록의 FEJND를 비교하여 제1 블록의 규칙성을 판단하고, 제2 블록이 속하는 프레임의 FEJND와 제2 블록의 FEJND를 비교하여 제2 블록의 규칙성을 판단할 수 있다.
여기서, 제1 블록과 제2 블록의 규칙성을 판단하는 단계는, 제1 블록의 FEJND 가 제1 블록이 속하는 프레임의 FEJND보다 크면, 제1 블록의 규칙성은 불규칙한 것으로 판단하는 단계를 포함할 수 있다.
여기서, 제1 블록의 FEJND는, 제1 블록에 포함된 각 픽셀의 FEJND 값의 평균값으로 산출될 수 있다.
여기서, 제1 블록에 포함된 각 픽셀의 FEJND 값은, 제1 블록에 포함된 각 픽셀의 규칙성 임계값(JNDp)과 불규칙성 임계값(JNDd)을 이용하여 산출될 수 있다.
여기서, 규칙성 임계값을 도출하는 과정은, 제1 블록에 대하여 AR 모델(autoregressive model)에 기초한 예측 블록을 생성하는 단계, 예측 블록에 대한 휘도 적응을 수행하는 단계 및 예측 블록에 대한 공간적 마스킹을 수행하는 단계를 포함할 수 있다.
여기서, 불규칙성 임계값을 도출하는 과정은, 제1 블록에 대하여 AR 모델(autoregressive model)에 기초한 예측 블록을 생성하는 단계, 생성된 예측 블록의 각 픽셀값을 제1 블록의 각 픽셀값으로부터 차분하여 차분 블록을 생성하는 단계 및 차분 블록의 각 픽셀에 대한 불규칙성 임계값을 도출하는 단계를 포함할 수 있다.
여기서 명령어들은 프로세서가, 제1 블록과 제2 블록의 규칙성이 일치하지 않으면, 미리 설정된 크기를 더 작은 크기로 재설정하는 단계를 더 수행하도록 지시할 수 있다.
여기서 명령어들은 프로세서가, 재설정된 크기를 갖고 제1 블록에 포함되는 제3 블록 및 재설정된 크기를 갖고 제2 블록에 포함되는 제4 블록 상호간의 유사도를 판단하는 단계를 더 수행하도록 지시할 수 있다.
여기서 명령어들은 프로세서가, 미리 설정된 크기 대신에 재설정된 크기를 기초로, 규칙성을 판단하는 단계를 재수행하는 단계를 더 수행하도록 지시할 수 있다.
상기와 같은 본 발명에 따른 움직임 예측 방법 및 장치를 이용할 경우에는 움직임 예측 과정에서의 블록 매칭시, 블록 크기를 적응적으로 결정함으로써 정확한 움직임 예측을 수행할 수 있다.
또한, 전역 탐색이 아닌 지역 탐색을 수행함으로써 탐색 속도를 개선하는 장점이 있다.
도 1은 보간 프레임을 생성하기 위한 단방향 움직임 예측 방법에 대한 개념도이다.
도 2는 보간 프레임을 생성하기 위한 양방향 움직임 예측 방법에 대한 개념도이다.
도 3은 본 발명의 일 실시예에 따른 다중 프레임 기반 양방향 움직임 예측 방법에 대한 개념도이다.
도 4는 본 발명의 일 실시예에 따른 예측 영상과 잔차 영상을 설명하기 위한 개념도이다.
도 5는 본 발명의 일 실시예에 따른 FEJND를 도출하는 방법에 대한 흐름도이다.
도 6은 본 발명의 일 실시예에 따른 보간 프레임을 생성하기 위한 움직임 예측 방법에 대한 흐름도이다.
도 7은 본 발명의 일 실시예에 따른 보간 프레임을 생성하기 위한 움직임 예측 장치에 대한 구성도이다.
도 8은 본 발명의 일 실시예에 따른 보간 프레임을 생성하기 위한 움직임 예측에 대한 결과를 나타내는 제1 예시도이다.
도 9는 본 발명의 일 실시예에 따른 보간 프레임을 생성하기 위한 움직임 예측에 대한 결과를 나타내는 제2 예시도이다.
도 2는 보간 프레임을 생성하기 위한 양방향 움직임 예측 방법에 대한 개념도이다.
도 3은 본 발명의 일 실시예에 따른 다중 프레임 기반 양방향 움직임 예측 방법에 대한 개념도이다.
도 4는 본 발명의 일 실시예에 따른 예측 영상과 잔차 영상을 설명하기 위한 개념도이다.
도 5는 본 발명의 일 실시예에 따른 FEJND를 도출하는 방법에 대한 흐름도이다.
도 6은 본 발명의 일 실시예에 따른 보간 프레임을 생성하기 위한 움직임 예측 방법에 대한 흐름도이다.
도 7은 본 발명의 일 실시예에 따른 보간 프레임을 생성하기 위한 움직임 예측 장치에 대한 구성도이다.
도 8은 본 발명의 일 실시예에 따른 보간 프레임을 생성하기 위한 움직임 예측에 대한 결과를 나타내는 제1 예시도이다.
도 9는 본 발명의 일 실시예에 따른 보간 프레임을 생성하기 위한 움직임 예측에 대한 결과를 나타내는 제2 예시도이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.
제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 본 발명에 따른 바람직한 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.
도 1은 보간 프레임을 생성하기 위한 단방향 움직임 예측 방법에 대한 개념도이다. 도 2는 보간 프레임을 생성하기 위한 양방향 움직임 예측 방법에 대한 개념도이다. 도 3은 본 발명의 일 실시예에 따른 다중 프레임 기반 양방향 움직임 예측 방법에 대한 개념도이다.
도 1을 참조하여, 본 발명의 일 실시예에 따른 단방향 움직임 예측 방법을 설명하고, 도 2를 참조하여, 본 발명의 일 실시예에 따른 양방향 움직임 예측 방법을 설명하며, 도 3을 참조하여 본 발명의 일 실시예에 따른 다중 프레임 기반 양방향 움직임 예측 방법을 설명한다.
먼저, 도 1을 참조하면, 단방향 움직임 예측 방법은 보간 프레임(fn -1/2)을 생성하는 데 있어서, 현재 프레임(fn)보다 시간상으로 이전에 위치한 이전 프레임(fn -1)과 현재 프레임(fn) 상호간에 블록 매칭을 수행함으로써, 움직임 벡터를 도출할 수 있다.
여기서, 움직임 벡터는 블록 매칭에 따른 SAD(Sum of Absolute Difference) 값이 최소가 되는 움직임 벡터로 결정될 수 있다.
이와 같은 단방향 움직임 예측 방법은, 움직임 벡터의 정확도가 높으나, 보간 프레임에서 홀 영역과 폐색 영역이 발생할 수 있다. 이 때문에 추가적으로 홀 영역과 폐색 영역을 처리하는 과정이 필요할 수 있다.
도 2를 참조하면, 양방향 움직임 예측 방법은, 보간 프레임(fn -1/2)을 생성하는 데 있어서, 보간 프레임(fn -1/2)에서 이전 프레임(fn -1) 방향과 현재 프레임(fn) 방향으로의 후보 움직임 벡터를 도출할 수 있다. 즉, 보간 프레임(fn -1/2)을 기준으로 정해진 탐색 영역 내에서, 이전 프레임(fn - 1)의 블록과 현재 프레임 (fn)의 블록 상호간의 SBAD(Sum of bilateral absolute difference)를 계산하여 유사한 블록을 찾고, SBAD를 최소화하는 움직임 벡터를 도출해낼 수 있다.
예를 들어, 이전 프레임(fn - 1)의 블록과 현재 프레임 (fn)의 블록 상호간의 SBAD는 다음의 수학식 1에 의해 도출할 수 있다.
여기서, Bx 및 By는 움직임 벡터가 탐색되는 x좌표와 y좌표의 범위를 지시할 수 있고, (dx, dy)는 후보 움직임 벡터를 지시할 수 있다.
도 2에 따른 양방향 움직임 예측 방법은 홀 영역과 폐쇄 영역이 생기지 않는 장점이 있으나, 도 2와 같이 움직이는 물체 뿐만 아니라, 배경 부분도 대칭적으로 존재할 경우, 움직이는 물체가 삽입되어야 하는 위치에 배경 부분이 삽입되는 문제점이 발생할 수 있다.
도 3을 참조하면, 다중 프레임 기반의 양방향 움직임 예측 방법은 보간 프레임을 생성하는 데 있어서, 이전 프레임이나 현재 프레임의 블록에 대한 움직임 벡터를 이용하는 것이 아니라, 더 확장된 후보 프레임들을 추가적으로 활용하여 움직임 예측을 수행할 수 있다. 이때, 정적인 물체라면 확장된 후보 프레임에 존재할 가능성이 낮으므로 이전 프레임과 현재 프레임만을 이용하여 움직임 예측을 수행할 수도 있다.
구체적으로, 다중 프레임 기반의 양방향 움직임 예측 방법은 현재 프레임(fn)과 이전 프레임(fn - 1)에 대한 움직임 벡터(±v) 뿐만 아니라, 그보다 확장된 프레임들(fn-2 ,fn +1))에 대한 움직임 벡터(±3v)를 고려하여 움직임 예측을 수행할 수 있다.
예를 들어, 다음의 수학식 2와 같이 수정된 SBAD(modified sum of absolute differences, MSBAD)를 최소화하는 움직임 벡터를 도출할 수 있다.
상기 수학식 2에서, α는 다중 프레임의 시간적 위치에 따라 적용되는 가중치 파라미터일 수 있다. 또한, (dx, dy)는 움직임 벡터를 의미할 수 있다.
한편, 도 1 내지 3에 따른 움직임 예측 방법으로 움직임 벡터를 도출하면, 도출된 움직임 벡터를 이용한 움직임 보상 과정을 통하여 보간 프레임을 생성할 수 있다. 이때, 움직임 보상 과정에 대해서는 본 발명이 속하는 기술분야에서 통상의 기술자가 용이하게 이해할 수 있으므로 자세한 설명은 생략한다.
도 4는 본 발명의 일 실시예에 따른 예측 영상과 잔차 영상을 설명하기 위한 개념도이다.
도 4를 참조하면, 입력 영상(10)에서 규칙적 성분으로 구성되는 예측 영상(20)을 생성하고, 생성된 예측 영상(20)을 입력 영상(10)에서 제거함으로써 불규칙적 성분으로 이루어지는 잔차 영상(30)을 획득하는 과정을 설명할 수 있다.
인간의 시각 시스템(human visual system, HVS)은 입력 영상(10)을 있는 그대로 해석하기 보다는 내부 생성 메커니즘(internal generative mechanism, IGM)에 의해 입력 영상(10)을 추론한다. 이러한 인간의 시각 시스템의 내부 생성 메커니즘(IGM)을 정형화하고, 인간의 인식 방법을 설명하는 이론의 하나가 자유 에너지 원리(free energy principle)이다.
자유 에너지 원리의 기저 아이디어는 인간의 시각 시스템은 규칙 영역에 대하여 비교적 상세하게 인식하는 반면, 불규칙 영역에 대해서는 대략적으로(roughly) 인식하는 경향이 강하다는 것이다. 예를 들어, 규칙적 패턴으로 이루어진 영상의 경우에 인간의 시각 시스템은 규칙적 패턴 또는 규칙적 패턴으로 이루어진 형상의 변화를 쉽게 인식할 수 있으나, 불규칙한 패턴으로 이루어진 영상의 경우에 인간의 시각 시스템은 어떠한 영상인지 쉽게 인식하지 못하는 경향을 가질 수 있다.
따라서, 인간의 시각 시스템은 규칙 영역을 불규칙 영역보다 더 민감하게 인식한다고 할 수 있고, 본 발명의 일 실시예에서는 인간의 시각적 특성을 모방하여 입력 영상(10)의 규칙적 성분을 예측하기 위한 모델인 오토리그레시브 모델(autoregressive model, AR model)을 제공할 수 있다. 이하에서, 입력 영상(10)에 대한 예측 영상을 생성하는 과정을 오토리그레시브 모델링 과정으로 지칭할 수 있다. 또한, 베이시안 추론(Bayesian inference)은 정보 예측에 대한 강력한 도구이므로, 베이시안 브레인 이론(Bayesian brain theory)이 규칙적 성분을 예측하는데 적용될 수 있다.
베이시안 브레인 이론은 최소 오류를 갖는 감각 정보를 확률적으로 표현하기 위한 이론이다. 예를 들어, 베이시안 브레인 이론은 입력 영상(F, 10)의 각 픽셀 값(x)의 조건부 확률p(x/F)를 최대화하여, 픽셀값 x를 표현할 수 있다.
이때, 픽셀 x가 규칙적 영역에 위치한다면, 픽셀 x는 픽셀 x의 주변에 위치한 픽셀들 χ ={x1, x2, x3, ... , xN}과 높은 관련성을 가질 수 있으므로, 입력 영상(F)에 대한 픽셀 값(x)의 조건부 확률은, 주변 픽셀들(χ)에 대한 픽셀 값(x)의 조건부 확률(p(x/χ))로 근사화할 수 있다.
예를 들어, 주변 픽셀들(χ)에 대한 픽셀 값(x)의 조건부 확률은 다음의 수학식 3과 같이 표현할 수 있다.
상기 수학식 3의 양변에 로그를 취하면, 다음의 수학식 4를 도출될 수 있다.
상기 수학식 4에서, 양변에 기대값(E)을 취하고, 샤논 정보 이론(Shannon information theory)에 따른 엔트로피(H)로 표현하면, 아래의 수학식 5를 도출할 수 있다.
상기 수학식 5에서, I(x;χ)는 x와 χ 사이의 상호 정보량을 의미할 수 있고, H(x)는 x의 엔트로피를 의미할 수 있다. 또한, 샤논 정보 이론은 더 상세하게는 (C.E.Shannon, "A mathmetical theory of communication", Bell System Technical Journal, vol.27, pp. 379-423, July 1948)을 참조할 수 있다.
한편, 만약 픽셀 x가 거의 불규칙성이 없는 규칙 영역 χ에 위치한다면, x는 주변의 규칙 영역 χ에 의해 거의 정확하게 예측될 수 있다. 즉, 정보 이론의 관점에서, 만약 픽셀 x가 주변 영역의 픽셀들 χ와 높게 관련되어 있다면, 상호 정보량 I(x;χ)는 대략적으로 H(x)로 근사화할 수 있다. 반면, 픽셀 x가 불확실성을 내포하고 있어, 주변 영역의 픽셀들 χ과 연관되지 않거나 연관성이 적다면, 상호 정보량 I(x;χ)는 0으로 근사화할 수 있다.
상기 수학식 3 내지 5에 의하면, 주변 픽셀들 χ에 대한 픽셀 x의 조건부 확률(p(x/χ))을 최대화하는 것은 상호 정보량 I(x;χ)를 최대화하는 것으로 귀결될 수 있다.
χ1,k를 픽셀 x1부터 xk를 지시하는 것으로 정의하면, 상호 정보량 I(x;χ)는 다음의 수학식 6와 같이 표현될 수 있다.
여기서, xk는 주변 픽셀들 중에서 k번째 이웃 픽셀을 의미할 수 있고, I(x;xk)는 픽셀 x와 이웃 픽셀 xk 사이의 상호 정보량을 의미할 수 있다.
상기 수학식 6에서, 후단부분()은 이웃 픽셀들의 의존성과 관련된 상호 정보량을 표현한 것으로 이해될 수 있다. 따라서, 수학식 6의 후단부분은 전단부분()보다 훨씬 더 작기 때문에, 전단 부분에 의해 상호 정보량 I(x;χ)가 결정될 수 있다.
베이시안 이론의 관점에서, 인간의 인식 메커니즘은 상호 정보량 I(x;χ)을 최대화하기 때문에, 인간의 인식 과정을 모방하려면, 상호 정보량을 최대화하는 것이 중요할 수 있다. 따라서, 주변 픽셀과 그들의 상호 정보량을 이용하여 특정한 픽셀값을 예측하는 예측 모델을 제안할 수 있다.
상기 수학식 6에서, 전단 부분이 상호 정보량을 최대화하는 가장 중요한 역할을 하므로, 전단 부분을 최대화하는 것이 중요할 수 있다.
현재 픽셀과 주변의 이웃한 픽셀 각각(xk) 사이의 상호 정보량을 오토리그레시브 계수(autoregressive coefficient)로 취한다면, AR model(autoregressive model)에 기반한, 입력 영상(F)에 대한 예측 영상(F', 20)은 다음과 같은 수학식 7에 의해 도출될 수 있다.
상기 수학식 7에서, x'는 예측 영상 또는 프레임(F')에 속한 각 픽셀값을 의미할 수 있으며, Ci는 상호 정보량으로 표현된 오토리그레시브 계수이며, xi는 예측하려는 픽셀 주변 픽셀들(χ) 중 하나이며, ε은 백색 잡음(white noise)를 의미할 수 있다.
즉, 입력 영상(F, 10)에 대한 예측 영상(F', 20)은 상기 수학식 7에 따른 예측 픽셀값(x')으로 구성될 수 있다.
한편, 예측 영상(F', 20)은 주변 픽셀들을 이용하여 예측되었고, 규칙적인 영역일수록 주변 픽셀들과의 상호 관련도가 높은 특성을 고려할 때 입력 영상(10)의 불규칙적 성분 또는 영역은 예측 영상(20)에 잘 반영되지 않는 반면, 규칙적 성분 또는 영역은 예측 영상(20)에 잘 반영될 수 있다.
따라서, 예측 영상(20)은 입력 영상(10)의 규칙적 성분으로 이해할 수 있으므로, 입력 영상(10)에서 예측 영상(20)을 뺀 차분으로 구성되는 잔차 영상(30)은 불규칙적 성분일 수 있다. 이와 같이 입력 영상(10)에서 규칙적 성분과 불규칙적 성분을 도출해낸 것은 이하에서 인간의 시각적 특성에 기반한 규칙성을 판단하는 기초 자료로 활용될 수 있다.
도 5는 본 발명의 일 실시예에 따른 FEJND를 도출하는 방법에 대한 흐름도이다.
도 5를 참조하면, FEJND를 도출하는 과정을 상세히 설명할 수 있다.
JND(Just Noticeable Difference)는 두 자극 사이의 차이를 식별할 수 있는 임계 강도 차이로 정의할 수 있다. 여기서, 인간의 시각 특성은 앞에서 설명한 바와 같이 규칙적 영역에 대해서는 민감도가 높고, 불규칙적 영역에 대해서는 민감도가 낮다. 따라서, 규칙적 영역에 대한 JND는 작은 값을 가질 수 있고, 불규칙적 영역에 대한 JND는 높은 값을 가질 수 있다.
여기서, JND에 대해서는 C.Chou and K.Liu, "Colour image compression based on the measure of just noticeable colour difference", IET Image Processing, vol. 2, pp. 304-322, 2008을 참조하여 상세하게 이해할 수 있으므로 추가적인 설명은 생략한다.
결론적으로는, 규칙적 영역과 불규칙적 영역 각각에 대한 JND 값을 도출하고, 도출된 각각의 JND 값을 결합함으로써, 해당 영상 또는 프레임 내의 일정 영역이나 블록에 대한 규칙성 여부를 판단할 수 있는데, 그 과정은 다음과 같다.
먼저, FEJND를 도출하고자 하는 입력 영상(F)을 획득할 수 있다(S100). 이때, 입력 영상은 일시적 또는 비 일시적인 메모리 또는 저장장치에 저장되어 있거나, 통신 모듈을 통하여 다른 기기 또는 서버로부터 수신될 수도 있다.
여기서, 입력 영상은 설명의 편의를 위하여 하나의 프레임으로 구성된 이미지(image)를 기준으로 설명하나, 수개의 시간상으로 연속된 프레임으로 구성되는 영상, 하나의 프레임 내의 일부 영역을 구성하는 픽셀 블록을 모두 포함하는 용어로 이해되어야 한다.
다음으로, 입력 영상(F)에서 규칙 영역과 불규칙 영역으로 분리할 수 있다(S110). 여기서, 규칙 영역 및 불규칙 영역은 도 4에서 설명한 예측 영상을 도출하는 과정과 동일한 방법으로 도출할 수 있으므로, 중복 설명은 생략한다.
다음으로, 규칙 영역에 대한 임계값을 결정(S120)하고 불규칙 영역에 대한 임계값을 결정(S130)할 수 있다.
여기서, 규칙 영역에 대한 임계값을 결정(S120)하는 과정은 비선형 가감성 모델(non-linear additional model for masking, NAMM) 과정으로도 호칭할 수 있는데, 그 상세한 과정은 다음과 같다.
먼저, 비선형 가감설 모델 과정은 규칙 영역(F')의 픽셀 x에 대한 배경 휘도(B(x))를 수정하는 휘도 적응 과정을 포함할 수 있는데, 예를 들면 다음의 수학식 8과 같이 적용될 수 있다.
여기서, LA(x)는 픽셀 x의 휘도값이 수정된 결과값이며, B(x)는 픽셀 x에 대한 배경 휘도로서, 예를 들면, 어느 이미지 영역에 대한 평균 휘도값으로 정의할 수 있다. 상세하게는, 여기서의 이미지 영역은 픽셀 x의 주변 일정범위의 블록 또는 입력 영상(또는 프레임)의 평균 휘도값일 수 있다.
또한, 비선형 가감설 모델 과정은 공간적 마스킹 과정(spatial masking)을 포함할 수 있는데, 공간적 마스킹 과정은 다음의 수학식 9와 같이 수행될 수 있다.
여기서, SM(x)는 픽셀 x에 대하여 공간적 마스킹 과정이 수행된 결과값이고, G(x)는 픽셀 x의 주변 5×5 영역에 대한 최대 에지 크기로서, 예를 들면, 주변 영역에 대한 필터링을 수행하여, 가장 큰 그레디언트(gradient)를 갖는 값으로 정의할 수 있다.
다음으로, 규칙 영역의 각 픽셀 x에 대한 임계값JNDp(x)는 다음의 수학식 10과 같이 도출될 수 있다.
여기서, Cgr은 휘도 적응 과정과 공간적 마스킹 과정 사이의 중복성을 감쇠시키기 위한 이득 감쇠 파라미터로서 예를 들면 0.3으로 설정할 수 있다.
한편, 불규칙 영역(D)에 대한 임계값 JNDd를 결정하는 과정(S130)은 다음과 같다.
이때, 불규칙 영역은 앞의 도 4에서 설명한 바와 같이 입력 영상(F)과 예측 영상(F')의 차분값으로 도출할 수 있다.
다음으로, 불규칙 영역에 대한 임계값은 다음의 수학식 11과 같이 도출할 수 있다.
여기서, D(x)는 불규칙 영역(D)의 각 픽셀 x에 대한 픽셀 값이며, α는 불규칙적으로 적용될 수 있는 파라미터로서, 이미지 종류나 불규칙 정도에 따라 달리 설정할 수 있는데, 예를 들면, 1.125로 설정할 수 있다.
다음으로, 규칙 영역에 대한 임계값과 불규칙적 영에 대한 임계값을 결합하여 도출되는 최종 FEJND(Free Energy Principle Based Just Noticeable Difference)는 다음의 수학식 12과 같이 도출할 수 있다.
여기서, 픽셀 x에 대하여 도출된 FEJND(x)는 인간의 시각적 특성을 반영한 것일 수 있다. 따라서, 규칙적 영역에 대해서는 민감하게 인식하는 인간의 시각 특성상, FEJND가 작은 값을 가지고, 불규칙적 영역에 대해서는 FEJND가 큰 값을 가질 수 있다.
상기 특성을 이용하여 어느 하나의 프레임 내에 있는 블록이 해당 프레임 영상에서 규칙적인 부분인지 판단할 수 있는데, 예를 들면, 프레임 내에 있는 블록의 각 픽셀에 대한 평균 FEJND가 프레임 전체 픽셀에 대한 평균 FEJND보다 크다면, 해당 블록은 그 프레임 내에서 불규칙적인 블록으로 판단할 수 있다.
또한, 프레임 내에 있는 블록의 각 픽셀에 대한 평균 FEJND가 프레임 전체 픽셀에 대한 평균 FEJND보다 작다면, 해당 블록은 그 프레임 내에서 규칙적인 블록으로 판단할 수 있다.
이와 같이, 특정 블록이 규칙적 영역인지 여부를 판단하는 과정을 기초로 하여 보간 프레임을 생성하기 위한 움직임 예측 과정에서 움직임 예측의 효율을 향상시킬 수 있다. 구체적으로, 특정 블록이 해당 프레임 내에서 규칙적 영역인지 여부에 따라 움직임 예측 과정내의 블록 매칭시 블록의 크기를 적응적으로 결정함으로써 움직임 예측의 효율을 향상시킬 수 있다. 이하에서는 이에 관한 상세 과정을 설명한다.
도 6은 본 발명의 일 실시예에 따른 보간 프레임을 생성하기 위한 움직임 예측 방법에 대한 흐름도이다.
도 6을 참조하면, 연속된 복수의 프레임 중에서 시간상으로 인접한 두 개의 프레임 사이에 보간 프레임을 생성하기 위한 움직임 예측 방법은, 복수의 프레임 중에서 선정된 두 개의 프레임 내에 각각 속하고 미리 설정된 크기를 갖는 제1 블록과 제2 블록의 규칙성을 판단하는 단계(S100), 제1 블록과 제2 블록의 규칙성이 일치하는지 결정하는 단계(S200) 및 규칙성이 일치하면, 제1 블록과 제2 블록 상호간의 유사도를 판단하는 단계(S220)를 포함할 수 있다.
여기서, 제1 블록과 제2 블록 상호간의 유사도를 판단하는 단계(S220)는, 제1 블록과 제2 블록의 규칙성이 규칙적인 것으로 판단되었으면, 제1 블록과 제2 블록의 규칙성이 불규칙적 것으로 판단된 경우보다 미리 설정된 크기를 더 크게 설정할 수 있다. 예를 들어, 제1 블록과 제2 블록의 규칙성이 규칙적인 것으로 판단되었다면, 미리 설정된 크기를 16×16으로 하여 유사도를 판단할 수 있고, 제1 블록과 제2 블록의 규칙성이 불규칙적인 것으로 판단되었으면, 미리 설정된 크기를 8×8로 설정하여 유사도를 판단할 수 있다.
또한, 제1 블록과 제2 블록의 규칙성이 일치하지 않으면, 제1 블록과 제2 블록의 유사도 판단을 통해 도출되는 움직임 벡터를 수정함으로써, 움직임 예측의 효율을 향상시킬 수도 있다. 예를 들어, 규칙성이 불일치하면, 주변 벡터들의 평균값으로 움직임 벡터를 수정할 수 있다.
여기서, 제1 블록과 제2 블록의 규칙성을 판단하는 단계(S200)는, 제1 블록이 속하는 프레임의 FEJND(Free-Energy Principle Just Noticeable Difference)와 제1 블록의 FEJND를 비교하여 제1 블록의 규칙성을 판단하고, 제2 블록이 속하는 프레임의 FEJND와 제2 블록의 FEJND를 비교하여 제2 블록의 규칙성을 판단할 수 있다.
여기서, 제1 블록과 제2 블록의 규칙성을 판단하는 단계(S200)는, 제1 블록의 FEJND 가 제1 블록이 속하는 프레임의 FEJND보다 크면, 제1 블록의 규칙성은 불규칙한 것으로 판단하는 단계를 포함할 수 있다.
여기서, 제1 블록의 FEJND는, 제1 블록에 포함된 각 픽셀의 FEJND 값의 평균값으로 산출될 수 있다.
예를 들면, 제1 블록이 16×16의 블록 크기를 가진다면, 제1 블록의 FEJND는 다음의 수학식 13과 같이 산출할 수 있다.
여기서, FEJNDMB는 제1 블록의 FEJND값을 의미할 수 있고, FEJND(x,y)는 제1 블록내에 포함된 각 픽셀값을 의미할 수 있다.
여기서, 제1 블록이 속하는 프레임의 FEJND는, 제1 블록이 속하는 프레임에 포함된 각 픽셀의 FEJND값의 평균값으로 산출될 수 있다.
예를 들어, 제1 블록이 속하는 프레임이 M×N의 해상도를 갖는 프레임일 경우, 제1 블록이 속하는 프레임의 FEJND는 다음의 수학식 14와 같이 산출할 수 있다.
여기서, FEJNDframe는 제1 블록이 속하는 프레임의 FEJND이며, FEJND(x,y)는 제1 블록이 속하는 프레임 내의 각 픽셀값을 지시할 수 있다.
여기서, 제1 블록에 포함된 각 픽셀의 FEJND 값은, 제1 블록에 포함된 각 픽셀의 규칙성 임계값(JNDp)과 불규칙성 임계값(JNDd)을 이용하여 산출될 수 있다.
여기서, 규칙성 임계값을 도출하는 과정은, 제1 블록에 대하여 AR 모델(autoregressive model)에 기초한 예측 블록을 생성하는 단계, 예측 블록에 대한 휘도 적응을 수행하는 단계 및 예측 블록에 대한 공간적 마스킹을 수행하는 단계를 포함할 수 있다.
여기서, 불규칙성 임계값을 도출하는 과정은, 제1 블록에 대하여 AR 모델(autoregressive model)에 기초한 예측 블록을 생성하는 단계, 생성된 예측 블록의 각 픽셀값을 제1 블록의 각 픽셀값으로부터 차분하여 차분 블록을 생성하는 단계 및 차분 블록의 각 픽셀에 대한 불규칙성 임계값을 도출하는 단계를 포함할 수 있다.
여기서, 규칙성 임계값과 불규칙성 임계값을 도출하는 과정은 도 5에 따른 설명을 참조할 수 있다.
여기서, 제1 블록과 제2 블록의 규칙성이 일치하지 않으면, 미리 설정된 크기를 더 작은 크기로 재설정하는 단계(S230)를 더 포함할 수 있다.
예를 들어, 블록 매칭이 이루어지는 두 블록 상호간에 규칙성 여부가 상이하다면, 두 블록은 유사성이 있는 부분이 더 작은 부분에서만 존재할 수 있다. 따라서, 블록 매칭되는 두 블록의 규칙성이 상이할 때 적응적으로 블록의 크기를 작게 재설정함으로써 움직임 예측의 효율성을 증가시킬 수 있다.
여기서, 미리 설정된 크기를 더 작은 크기로 재설정하는 단계(S230) 이후에 분기 방법 중 하나로서, 재설정된 크기를 갖고 제1 블록에 포함되는 제3 블록 및 재설정된 크기를 갖고 제2 블록에 포함되는 제4 블록 상호간의 유사도를 판단하는 단계(S240)를 더 포함할 수 있다.
즉, 미리 설정된 크기를 더 작은 크기로 재설정하는 단계(S230) 이후에 분기 방법 중 하나로서, 제1 블록과 제2 블록보다 더 작은 크기를 갖는 하위 블록 상호간에 유사도를 판단하여 블록 매칭을 수행할 수 있다.
여기서, 미리 설정된 크기를 더 작은 크기로 재설정하는 단계(S230) 이후에 다른 분기 방법 중 하나로서, 미리 설정된 크기 대신에 재설정된 크기를 기초로, 규칙성을 판단하는 단계를 재수행하는 단계를 더 포함할 수 있다.
즉, 더 작은 크기로 재설정이 이루어진 다음 하위 블록들에 대해서 다시 규칙성 판단 및 일치 여부를 판단함으로써, 계속해서 작은 크기로 재설정이 반복 수행될 수 있고, 이러한 과정을 거쳐 규칙성이 일치하는 크기가 도출되었을 때, 유사도 판단이 이루어짐으로써, 최적의 블록 매칭이 이루어질 수도 있다.
여기서, 제1 블록과 제2 블록 상호간의 유사도를 판단하는 단계(S220)는 제1 블록과 제2 블록 상호간에 SBAD를 최소화하는 움직임 벡터를 찾는 단계를 포함할 수 있다. 여기서, SBAD는 도 1 내지 3에서의 수정된 SBAD로 대체될 수 있다.
여기서, 제1 블록과 제2 블록 상호간의 유사도를 판단하는 단계(S220) 이후에는 도출된 움직임 벡터 중에서 이상 벡터를 평활화(smoothing)하는 단계가 수행될 수 있고, 움직임 벡터를 도출하여 움직임 예측 과정이 모두 끝난 후에는 보간 프레임 생성을 위한 움직임 보상 과정이 수행될 수 있다.
여기서, 움직 벡터 중에서 이상 벡터를 평활화하는 단계는, 제1 블록과 제2 블록의 유사도 판단을 통해 도출되는 움직임 벡터를 수정하는 단계로서, 예를 들어, 제1 블록과 제2 블록의 규칙성이 불일치하면, 주변 벡터들의 평균값으로 움직임 벡터를 수정할 수 있다.
이러한 이후 과정에 대해서는 본 발명이 속하는 기술분야에서 통상의 기술자가 용이하게 이해 및 적용할 수 있으므로, 이에 대한 구체적 설명은 생략한다.
도 7은 본 발명의 일 실시예에 따른 보간 프레임을 생성하기 위한 움직임 예측 장치에 대한 구성도이다.
도 7을 참조하면, 연속된 복수의 프레임 중에서 시간상으로 인접한 두 개의 프레임 사이에 보간 프레임을 생성하기 위한 움직임 예측 장치(100)는, 적어도 하나의 프로세서(processor, 110) 및 적어도 하나의 프로세서가 적어도 하나의 단계를 수행하도록 지시하는 명령어들(instructions)을 저장하는 메모리(memory, 120)를 포함할 수 있다.
또한, 움직임 예측 장치(100)는 보간 프레임을 생성하는 과정에서 필요한 입력 영상 또는 중간 처리과정에서 도출되는 예측 영상 또는 프레임 내 특정 블록을 저장하기 위한 저장소(storage, 140)를 더 포함할 수 있다.
또한, 움직임 예측 장치(100)는 다른 기기 또는 장치와 통신하여 각종 영상이나 입출력 명령을 송수신하는 통신 모듈(130)을 더 포함할 수 있다.
여기서, 움직임 예측 장치(100)의 예를 들면, 통신 가능한 데스크탑 컴퓨터(desktop computer), 랩탑 컴퓨터(laptop computer), 노트북(notebook), 스마트폰(smart phone), 태블릿 PC(tablet PC), 모바일폰(mobile phone), 스마트 워치(smart watch), 스마트 글래스(smart glass), e-book 리더기, PMP(portable multimedia player), 휴대용 게임기, 네비게이션(navigation) 장치, 디지털 카메라(digital camera), DMB(digital multimedia broadcasting) 재생기, 디지털 음성 녹음기(digital audio recorder), 디지털 음성 재생기(digital audio player), 디지털 동영상 녹화기(digital video recorder), 디지털 동영상 재생기(digital video player), PDA(Personal Digital Assistant) 등일 수 있다.
여기서, 적어도 하나의 단계는, 복수의 프레임 중에서 선정된 두 개의 프레임 내에 각각 속하고 미리 설정된 크기를 갖는 제1 블록과 제2 블록의 규칙성을 판단하는 단계, 제1 블록과 제2 블록의 규칙성이 일치하는지 결정하는 단계 및 규칙성이 일치하면, 제1 블록과 제2 블록 상호간의 유사도를 판단하는 단계를 포함할 수 있다.
여기서, 제1 블록과 제2 블록의 규칙성을 판단하는 단계는, 제1 블록이 속하는 프레임의 FEJND(Free-Energy Principle Just Noticeable Difference)와 제1 블록의 FEJND를 비교하여 제1 블록의 규칙성을 판단하고, 제2 블록이 속하는 프레임의 FEJND와 제2 블록의 FEJND를 비교하여 제2 블록의 규칙성을 판단할 수 있다.
여기서, 제1 블록과 제2 블록의 규칙성을 판단하는 단계는, 제1 블록의 FEJND 가 제1 블록이 속하는 프레임의 FEJND보다 크면, 제1 블록의 규칙성은 불규칙한 것으로 판단하는 단계를 포함할 수 있다.
여기서, 제1 블록의 FEJND는, 제1 블록에 포함된 각 픽셀의 FEJND 값의 평균값으로 산출될 수 있다.
여기서, 제1 블록에 포함된 각 픽셀의 FEJND 값은, 제1 블록에 포함된 각 픽셀의 규칙성 임계값(JNDp)과 불규칙성 임계값(JNDd)을 이용하여 산출될 수 있다.
여기서, 규칙성 임계값을 도출하는 과정은, 제1 블록에 대하여 AR 모델(autoregressive model)에 기초한 예측 블록을 생성하는 단계, 예측 블록에 대한 휘도 적응을 수행하는 단계 및 예측 블록에 대한 공간적 마스킹을 수행하는 단계를 포함할 수 있다.
여기서, 불규칙성 임계값을 도출하는 과정은, 제1 블록에 대하여 AR 모델(autoregressive model)에 기초한 예측 블록을 생성하는 단계, 생성된 예측 블록의 각 픽셀값을 제1 블록의 각 픽셀값으로부터 차분하여 차분 블록을 생성하는 단계 및 차분 블록의 각 픽셀에 대한 불규칙성 임계값을 도출하는 단계를 포함할 수 있다.
여기서, 명령어들은 프로세서(110)가, 제1 블록과 제2 블록의 규칙성이 일치하지 않으면, 미리 설정된 크기를 더 작은 크기로 재설정하는 단계를 더 수행하도록 지시할 수 있다.
여기서, 명령어들은 프로세서(110)가, 재설정된 크기를 갖고 제1 블록에 포함되는 제3 블록 및 재설정된 크기를 갖고 제2 블록에 포함되는 제4 블록 상호간의 유사도를 판단하는 단계를 더 수행하도록 지시할 수 있다.
여기서, 명령어들은 프로세서(110)가, 미리 설정된 크기 대신에 재설정된 크기를 기초로, 규칙성을 판단하는 단계를 재수행하는 단계를 더 수행도록 지시할 수 있다.
도 8은 본 발명의 일 실시예에 따른 보간 프레임을 생성하기 위한 움직임 예측에 대한 결과를 나타내는 제1 예시도이다. 도 9는 본 발명의 일 실시예에 따른 보간 프레임을 생성하기 위한 움직임 예측에 대한 결과를 나타내는 제2 예시도이다.
본 발명의 일 실시예에 따른 움직임 예측 방법에 따른 화질을 비교하기 위하여 CIF 영상과 HD, Full HD 영상을 사용하였다. 또한, 불규칙 영역에 적용되는 파라미터로서 수학식 9에 제시된 α는 1.125로 설정하였으며, 이득 감쇠 파라미터 Cgr은 0.3 으로 설정하였다.
또한, CIF 영상은 매칭되는 블록의 규칙성이 규칙적인 경우, 16×16의 크기를 갖도록 설정하고, 불규칙적인 경우, 8×8의 크기를 갖도록 하였으며, HD와 Full HD 영상은 규칙적인 경우 32×32의 크기로, 불규칙적인 경우 16×16의 크기를 갖도록 설정하였다. 또한, 프레임에서 영역 특성이 일치하지 않을 때 주변 벡터들의 평균값을 사용하여 움직임 벡터를 수정하는 과정을 거쳤다.
상기 표1은 각 영상에 대하여, 다중 프레임 기반 움직임 예측과 본 발명의 일 실시예에 따른 움직임 예측 방법(제안하는 알고리듬)을 비교한 표이다. 본 발명의 일 실시예에 따른 움직임 예측 방법은 CIF 영상은 147 프레임 기준 한 프레임을 처리하는 속도가 0.3초 였으며, HD 영상의 경우 297 프레임 기준 2.6초, Full HD 영상은 225 프레임 기준 6.3초 소요되었다. 따라서, 본 발명의 일 실시예에 따른 움직임 예측 방법이 종래의 방법보다 하나의 보간 프레임을 생성할 때 1초 이상 빨랐음을 확인할 수 있었다.
표 2는 기존의 다중 프레임 기반 움직임 예측 방법과, 본 발명의 일 실시예에 따른 움직임 예측 방법(제안하는 알고리듬)의 PSNR(peak signal to noise ratio)를 비교한 표이다. 여기서 기존의 다중 프레임 기반 움직임 예측에 사용되는 프레임 가중치는 0.2로 설정하였다. PSNR 비교 결과를 통해 본 발명의 일 실시예에 따른 움직임 예측 방법의 PSNR이 더 높은 값을 갖는 것을 확인할 수 있었다.
또한, 도 8 및 9를 참조하면, 기존의 다중 프레임 기반의 움직임 예측 방법을 수행하여 프레임율 보간한 결과 영상들(300a~300d)과 비교하여 본 발명의 일 실시예에 따른 움직임 예측 방법을 이용하여 프레임율 보간한 결과 영상들(200a~200d)의 차이를 확인할 수 있다. 구체적으로, 본 발명의 일 실시예에 따른 움직임 예측 방법이 표시된 영역에서의 주관적 화질 비교시, 기존의 방법보다 더 나은 화질을 갖는 것이 일부 영역에서 확인될 수 있다.
여기서는 다중 프레임 기반의 움직임 예측 방법과 비교하였으나, 본 발명의 일 실시예에 따른 움직임 예측 방법은 다중 프레임 기반의 움직임 예측 뿐만 아니라, 단방향 또는 양방향 움직임 예측에도 적용될 수 있으며, 영상 부호화 또는 영상 복호화 과정에서의 화면 간 예측(inter prediction)에도 적용될 수 있다.
본 발명에 따른 방법들은 다양한 컴퓨터 수단을 통해 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 컴퓨터 판독 가능 매체에 기록되는 프로그램 명령은 본 발명을 위해 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.
컴퓨터 판독 가능 매체의 예에는 롬(ROM), 램(RAM), 플래시 메모리(flash memory) 등과 같이 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함될 수 있다. 프로그램 명령의 예에는 컴파일러(compiler)에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터(interpreter) 등을 사용해서 컴퓨터에 의해 실행될 수 있는 고급 언어 코드를 포함할 수 있다. 상술한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 적어도 하나의 소프트웨어 모듈로 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
또한, 상술한 방법 또는 장치는 그 구성이나 기능의 전부 또는 일부가 결합되어 구현되거나, 분리되어 구현될 수 있다.
상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
Claims (20)
- 복수의 프레임 중에서 시간상으로 인접한 두 개의 프레임 사이에 보간 프레임을 생성하기 위한 움직임 예측 방법에서,
상기 복수의 프레임 중에서 선정된 두 개의 프레임 내에 각각 속하고 미리 설정된 크기를 갖는 제1 블록과 제2 블록의 규칙성을 판단하는 단계;
상기 제1 블록과 상기 제2 블록의 규칙성이 일치하는지 결정하는 단계; 및
규칙성이 일치하면, 상기 제1 블록과 상기 제2 블록 상호간의 유사도를 판단하는 단계를 포함하는, 움직임 예측 방법. - 청구항 1에서,
상기 제1 블록과 제2 블록의 규칙성을 판단하는 단계는,
상기 제1 블록이 속하는 프레임의 FEJND(Free-Energy Principle Based Just Noticeable Difference)와 상기 제1 블록의 FEJND를 비교하여 상기 제1 블록의 규칙성을 판단하고, 상기 제2 블록이 속하는 프레임의 FEJND와 상기 제2 블록의 FEJND를 비교하여 상기 제2 블록의 규칙성을 판단하는, 움직임 예측 방법. - 청구항 2에서,
상기 제1 블록과 제2 블록의 규칙성을 판단하는 단계는,
상기 제1 블록의 FEJND 가 상기 제1 블록이 속하는 프레임의 FEJND보다 크면, 상기 제1 블록의 규칙성은 불규칙한 것으로 판단하는 단계를 포함하는, 움직임 예측 방법. - 청구항 2에서,
상기 제1 블록의 FEJND는,
상기 제1 블록에 포함된 각 픽셀의 FEJND 값의 평균값으로 산출되는, 움직임 예측 방법. - 청구항 4에서,
상기 제1 블록에 포함된 각 픽셀의 FEJND 값은,
상기 제1 블록에 포함된 각 픽셀의 규칙성 임계값(JNDp)과 불규칙성 임계값(JNDd)을 이용하여 산출되는, 움직임 예측 방법. - 청구항 5에서,
상기 규칙성 임계값을 산출하는 과정은,
상기 제1 블록에 대하여 AR 모델(autoregressive model)에 기초한 예측 블록을 생성하는 단계;
상기 예측 블록에 대한 휘도 적응을 수행하는 단계; 및
상기 예측 블록에 대한 공간적 마스킹을 수행하는 단계를 포함하는, 움직임 예측 방법. - 청구항 5에서,
상기 불규칙성 임계값을 산출하는 과정은,
상기 제1 블록에 대하여 AR 모델(autoregressive model)에 기초한 예측 블록을 생성하는 단계;
생성된 예측 블록의 각 픽셀값을 상기 제1 블록의 각 픽셀값으로부터 차분하여 차분 블록을 생성하는 단계; 및
상기 차분 블록의 각 픽셀에 대한 불규칙성 임계값을 도출하는 단계를 포함하는, 움직임 예측 방법. - 청구항 1에서,
상기 제1 블록과 상기 제2 블록의 규칙성이 일치하지 않으면,
상기 미리 설정된 크기를 더 작은 크기로 재설정하는 단계를 더 포함하는, 움직임 예측 방법. - 청구항 8에서,
재설정된 크기를 갖고 상기 제1 블록에 포함되는 제3 블록 및 재설정된 크기를 갖고 상기 제2 블록에 포함되는 제4 블록 상호간의 유사도를 판단하는 단계를 더 포함하는, 움직임 예측 방법. - 청구항 8에서,
상기 미리 설정된 크기 대신에 재설정된 크기를 기초로, 상기 규칙성을 판단하는 단계를 재수행하는 단계를 더 포함하는, 움직임 예측 방법. - 연속된 복수의 프레임 중에서 시간상으로 인접한 두 개의 프레임 사이에 보간 프레임을 생성하기 위한 움직임 예측 장치로서,
적어도 하나의 프로세서(processor); 및
상기 적어도 하나의 프로세서가 적어도 하나의 단계를 수행하도록 지시하는 명령어들(instructions)을 저장하는 메모리(memory)를 포함하고,
상기 적어도 하나의 단계는,
상기 복수의 프레임 중에서 선정된 두 개의 프레임 내에 각각 속하고 미리 설정된 크기를 갖는 제1 블록과 제2 블록의 규칙성을 판단하는 단계;
상기 제1 블록과 상기 제2 블록의 규칙성이 일치하는지 결정하는 단계; 및
규칙성이 일치하면, 상기 제1 블록과 상기 제2 블록 상호간의 유사도를 판단하는 단계를 포함하는, 움직임 예측 장치. - 청구항 11에서,
상기 제1 블록과 제2 블록의 규칙성을 판단하는 단계는,
상기 제1 블록이 속하는 프레임의 FEJND(Free-Energy Principle Just Noticeable Difference)와 상기 제1 블록의 FEJND를 비교하여 상기 제1 블록의 규칙성을 판단하고, 상기 제2 블록이 속하는 프레임의 FEJND와 상기 제2 블록의 FEJND를 비교하여 상기 제2 블록의 규칙성을 판단하는, 움직임 예측 장치. - 청구항 12에서,
상기 제1 블록과 제2 블록의 규칙성을 판단하는 단계는,
상기 제1 블록의 FEJND 가 상기 제1 블록이 속하는 프레임의 FEJND보다 크면, 상기 제1 블록의 규칙성은 불규칙한 것으로 판단하는 단계를 포함하는, 움직임 예측 장치. - 청구항 12에서,
상기 제1 블록의 FEJND는,
상기 제1 블록에 포함된 각 픽셀의 FEJND 값의 평균값으로 산출되는, 움직임 예측 장치. - 청구항 14에서,
상기 제1 블록에 포함된 각 픽셀의 FEJND 값은,
상기 제1 블록에 포함된 각 픽셀의 규칙성 임계값(JNDp)과 불규칙성 임계값(JNDd)을 이용하여 산출되는, 움직임 예측 장치. - 청구항 15에서,
상기 규칙성 임계값을 도출하는 과정은,
상기 제1 블록에 대하여 AR 모델(autoregressive model)에 기초한 예측 블록을 생성하는 단계;
상기 예측 블록에 대한 휘도 적응을 수행하는 단계; 및
상기 예측 블록에 대한 공간적 마스킹을 수행하는 단계를 포함하는, 움직임 예측 장치. - 청구항 15에서,
상기 불규칙성 임계값을 도출하는 과정은,
상기 제1 블록에 대하여 AR 모델(autoregressive model)에 기초한 예측 블록을 생성하는 단계;
생성된 예측 블록의 각 픽셀값을 상기 제1 블록의 각 픽셀값으로부터 차분하여 차분 블록을 생성하는 단계; 및
상기 차분 블록의 각 픽셀에 대한 불규칙성 임계값을 도출하는 단계를 포함하는, 움직임 예측 장치. - 청구항 11에서,
상기 명령어들은 상기 프로세서가,
상기 제1 블록과 상기 제2 블록의 규칙성이 일치하지 않으면,
상기 미리 설정된 크기를 더 작은 크기로 재설정하는 단계를 더 수행하도록 지시하는, 움직임 예측 장치. - 청구항 18에서,
상기 명령어들은 상기 프로세서가,
재설정된 크기를 갖고 상기 제1 블록에 포함되는 제3 블록 및 재설정된 크기를 갖고 상기 제2 블록에 포함되는 제4 블록 상호간의 유사도를 판단하는 단계를 더 수행하도록 지시하는, 움직임 예측 장치. - 청구항 18에서,
상기 명령어들은 상기 프로세서가,
상기 미리 설정된 크기 대신에 재설정된 크기를 기초로, 상기 규칙성을 판단하는 단계를 재수행하는 단계를 더 수행하도록 지시하는, 움직임 예측 장치.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020170081448A KR102066012B1 (ko) | 2017-06-27 | 2017-06-27 | 보간 프레임을 생성하기 위한 움직임 예측 방법 및 장치 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020170081448A KR102066012B1 (ko) | 2017-06-27 | 2017-06-27 | 보간 프레임을 생성하기 위한 움직임 예측 방법 및 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20190001444A true KR20190001444A (ko) | 2019-01-04 |
KR102066012B1 KR102066012B1 (ko) | 2020-01-14 |
Family
ID=65018195
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020170081448A KR102066012B1 (ko) | 2017-06-27 | 2017-06-27 | 보간 프레임을 생성하기 위한 움직임 예측 방법 및 장치 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102066012B1 (ko) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102201297B1 (ko) | 2020-05-29 | 2021-01-08 | 연세대학교 산학협력단 | 다중 플로우 기반 프레임 보간 장치 및 방법 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20070069615A (ko) * | 2005-12-28 | 2007-07-03 | 삼성전자주식회사 | 움직임 추정장치 및 움직임 추정방법 |
KR20130023644A (ko) * | 2011-08-29 | 2013-03-08 | 삼성전자주식회사 | 영상 프레임의 보간 방법 및 장치 |
-
2017
- 2017-06-27 KR KR1020170081448A patent/KR102066012B1/ko active IP Right Grant
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20070069615A (ko) * | 2005-12-28 | 2007-07-03 | 삼성전자주식회사 | 움직임 추정장치 및 움직임 추정방법 |
KR20130023644A (ko) * | 2011-08-29 | 2013-03-08 | 삼성전자주식회사 | 영상 프레임의 보간 방법 및 장치 |
Non-Patent Citations (3)
Title |
---|
S-J. Kang, et al. Motion Compensated Frame Rate Up-Conversion Using Extended Bilateral Motion Estimation. IEEE Trans. on Consumer Elec. Nov. 2007, Vol.53, No.4, pp.1759-1767 * |
박대준 외 1명, 에지 정보를 이용한 블록 유형 분류를 통한 프레임율 향상 기법. 2016년 제28회 영상처리 및 이해에 관한 워크샵. 2016년 2월, pp.1-5* * |
오우정 외 1명, 공간적 유사성에 기반한 프레임률 향상 기법. 제29회 영상처리 및 이해에 관한 워크샵. 2017년 2월, pp.1-5 * |
Also Published As
Publication number | Publication date |
---|---|
KR102066012B1 (ko) | 2020-01-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100809354B1 (ko) | 복원된 프레임의 프레임율을 업컨버팅하는 장치 및 방법 | |
Zhang et al. | Low-rank decomposition-based restoration of compressed images via adaptive noise estimation | |
US10536692B2 (en) | Picture prediction method and related apparatus | |
US8064522B2 (en) | Motion-vector detecting device, motion-vector detecting method, and computer program | |
KR102059066B1 (ko) | 모션 벡터 필드 코딩 방법 및 디코딩 방법, 및 코딩 및 디코딩 장치들 | |
CN109660800B (zh) | 运动估计方法、装置、电子设备及计算机可读存储介质 | |
US20070064802A1 (en) | Adaptive area of influence filter for moving object boundaries | |
CN110427899B (zh) | 基于人脸分割的视频预测方法及装置、介质、电子设备 | |
CN110741641A (zh) | 用于视频压缩的翘曲参考运动矢量 | |
KR20230028250A (ko) | 강화 학습 기반 속도 제어 | |
JP2023507968A (ja) | マシン向け映像符号化における方法及び装置 | |
CN111246212A (zh) | 一种基于编解码端的几何划分模式预测方法、装置、存储介质及终端 | |
US9712828B2 (en) | Foreground motion detection in compressed video data | |
EP1584069B1 (en) | Video frame correlation for motion estimation | |
CN113269086A (zh) | 一种vlog剪辑方法和剪辑系统 | |
KR20190001444A (ko) | 보간 프레임을 생성하기 위한 움직임 예측 방법 및 장치 | |
EP3675503B1 (en) | Display apparatus and image processing method thereof | |
CN108600762B (zh) | 结合运动补偿和神经网络算法的递进式视频帧生成方法 | |
WO2018123202A1 (ja) | 動画像処理装置、表示装置、動画像処理方法、および制御プログラム | |
CN107977628B (zh) | 神经网络训练方法、人脸检测方法及人脸检测装置 | |
US11570465B2 (en) | Machine-learned in-loop predictor for video compression | |
CN115018734A (zh) | 视频修复方法和视频修复模型的训练方法、装置 | |
Chakraborty et al. | Adaptive weighted non-parametric background model for efficient video coding | |
CN114998814A (zh) | 目标视频生成方法、装置、计算机设备和存储介质 | |
US11423692B1 (en) | Facial image data generation using partial frame data and landmark data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |