KR20160141739A - 모션 필드 추정 - Google Patents
모션 필드 추정 Download PDFInfo
- Publication number
- KR20160141739A KR20160141739A KR1020167027366A KR20167027366A KR20160141739A KR 20160141739 A KR20160141739 A KR 20160141739A KR 1020167027366 A KR1020167027366 A KR 1020167027366A KR 20167027366 A KR20167027366 A KR 20167027366A KR 20160141739 A KR20160141739 A KR 20160141739A
- Authority
- KR
- South Korea
- Prior art keywords
- reference frame
- frame
- motion
- quality
- current frame
- Prior art date
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/503—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
- H04N19/51—Motion estimation or motion compensation
- H04N19/513—Processing of motion vectors
- H04N19/521—Processing of motion vectors for estimating the reliability of the determined motion vectors or motion vector field, e.g. for smoothing the motion vector field or for correcting motion vectors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G06T7/2033—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/103—Selection of coding mode or of prediction mode
- H04N19/105—Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/136—Incoming video signal characteristics or properties
- H04N19/137—Motion inside a coding unit, e.g. average field, frame or block difference
- H04N19/139—Analysis of motion vectors, e.g. their magnitude, direction, variance or reliability
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/154—Measured or subjectively estimated visual quality after decoding, e.g. measurement of distortion
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/17—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
- H04N19/172—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/503—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
- H04N19/51—Motion estimation or motion compensation
- H04N19/58—Motion compensation with long-term prediction, i.e. the reference frame for a current frame not being the temporally closest one
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30168—Image quality inspection
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Television Systems (AREA)
- Image Analysis (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
본 발명은 참조 프레임을 포함하는 비디오 시퀀스를 프로세싱하는 컴퓨터에 의해 수행되는 방법에 관련되는데, 비디오 시퀀스의 각각의 현재 프레임에 대해, 그 방법은 현재 프레임과 참조 프레임 간의 모션 필드와 결정된 모션 필드로부터 결정된 모션 필드의 품질을 나타내는 품질 메트릭을 결정하는 단계를 포함한다. 품질 메트릭이 품질 임계값 미만인 경우, 그 방법은, 새로운 참조 프레임과 참조 프레임 간의 이전에 생성된 모션 필드의 품질 메트릭이 품질 임계값을 초과하도록 이전의 현재 프레임들의 그룹 중에서 새로운 참조 프레임을 선택하는 단계와, 현재 프레임과 새로운 참조 프레임 간의 모션 필드를 결정하고 현재 프레임과 새로운 참조 프레임 간의 결정된 상기 모션 필드를 새로운 참조 프레임과 참조 프레임 간의 이전에 생성된 모션 필드와 연접함으로써 현재 프레임과 참조 프레임 간의 모션 필드의 결정하는 단계를 반복하는 단계를 더 포함한다.
Description
본 발명은 대체로 비디오 프로세싱의 분야에 관한 것이다. 더 정확하게는, 본 발명은 참조 프레임과 관련하여 비디오 시퀀스에 대한 모션 필드들을 생성하는 방법 및 디바이스에 관한 것이다.
이 구역은 아래에서 설명되는 그리고/또는 청구되는 본 발명의 다양한 양태들에 관련될 수도 있는 기술분야의 다양한 양태들을 독자에게 소개하기 위한 것이다. 이 논의는 본 발명의 다양한 양태들의 더 나은 이해를 용이하게 하는 배경 정보를 독자에게 제공하는 것을 돕는다고 생각된다. 따라서, 이들 진술들은 이러한 관점에서 읽혀져야 하고, 선행 기술의 시인으로서는 아니라는 것이 이해되어야 한다.
비디오 편집 애플리케이션들의 영역에서, 비디오 시퀀스에서 오퍼레이터에 의해 선택된 참조 프레임을 편집하고, 참조 프레임으로부터의 정보를 후속 프레임들로 전파하는 방법들이 공지되어 있다. 참조 프레임의 선택은 수동적이고 왠지 랜덤이다. 그러므로 오퍼레이터에 의한 수정 또는 편집을 위한 참조 프레임의 자동화된 그리고 제어된 선택이 바람직할 것이다.
그밖에, 정보의 전파는 시퀀스의 참조 프레임과 다른 프레임들 간의 모션 대응관계 (correspondence) 를 요구한다.
모션 필드들을 생성하는 제 1 방법이 고려되는 프레임들, 즉, 참조 프레임 및 현재 프레임 간에 직접 매칭을 수행하는 것에 특징이 있다. 그러나 멀리 있는 (distant) 프레임들을 다루는 경우, 모션 범위는 일반적으로 매우 크고 추정이, 예를 들면 주기적 이미지 패턴들 내에서처럼, 모호한 대응관계들에 매우 민감할 수 있다.
제 2 방법은 기본 광학 흐름 (elementary optical flow) 필드들의 순차적 연접 (concatenation) 을 통해 모션 추정을 획득하는 것에 특징이 있다. 이들 기본 광학 흐름 필드들은 연속적인 프레임들 사이에서 컴퓨팅될 수 있고 비교적 정확하다. 그러나, 이 전략은 모션 에러들에 매우 민감한데, 하나의 잘못된 모션 벡터가 연접된 모션 벡터가 잘못되게 하는데 충분하여서이다. 그것은 특히 연접이 높은 수의 기본 벡터들을 수반하는 경우 매우 중요해진다. 그밖에 이러한 최신식 조밀 (dense) 모션 추적자들은 시퀀스를 프레임 단위 방식으로 순차적으로 프로세싱하고, 설계에 의해, 비디오에서 사라지고 (폐색 (occlusion)) 다시 나타나는 특징들과 상이한 트랙들을 연관시킴으로써, 장기 모션 신호의 중요한 정보를 손실한다. 따라서 시퀀스를 따르는 폐색들 또는 잘못된 모션 대응관계들이 멀리 있는 프레임들 간에 전파의 품질의 문제를 제기한다. 다르게 말하면, 양호한 추적의 길이는 장면 내용에 의존한다.
『Towards Longer Long-Range Motion Trajectories" (British Machine Vision Conference 2012), Rubinstein et al.』은, 상이한 시작 프레임들을 기준으로 추정되는 "트랙릿들 (tracklets)"이라 지칭되는 짧은 궤도들을 재-상관시키고 그것들을 링크하여 장거리 모션 표현을 형성하는 알고리즘을 개시한다. 그 목적을 위해, Rubinstein 등은 더 긴 장거리 모션 궤도들을 향해 가는 경향이 있다. 특히 폐색에 의해 절단된 트랙릿들을 연결한다면, 그 방법은 성긴 (sparse) 모션 궤도들로 제한된 채로 남아 있다.
국제 특허 출원 WO2013107833호는 비디오 시퀀스의 참조 프레임과 다른 프레임들의 각각 사이에서 장기 모션 필드들을 생성하는 방법을 개시한다. 참조 프레임은 예를 들어 비디오 시퀀스의 첫 번째 프레임이다. 그 방법은 참조 프레임과 현재 프레임 간의 순차적 모션 추정에 그 특징이 있는데, 이 현재 프레임은 연속하여 참조 프레임에 인접하는 프레임이고, 그 다음에 다음 프레임이고 등등이다. 그 방법은 사전 컴퓨팅될 것으로 가정되는 다양한 입력 기본 모션 필드들에 의존한다. 이들 모션 필드들은 양호한 품질을 갖는 시퀀스에서의 프레임들의 쌍들을 링크하는데, 프레임 간 모션 범위가 모션 추정기 성능과 양립 가능한 것으로 가정되어서이다. 현재 프레임과 참조 프레임 간의 현재 모션 필드 추정은 이전에 추정된 모션 필드들 (참조 프레임과 현재 프레임에 선행하는 프레임들 사이임) 과, 현재 프레임을 이전의 프로세싱된 프레임들에 링크하는 기본 모션 필드들에 의존하며, 다양한 모션 후보들은 기본 모션 필드들과 이전에 추정된 모션 필드들을 연접함으로써 구축된다. 그 다음에, 이들 다양한 후보 필드들은 현재 출력 모션 필드를 형성하기 위해 병합된다. 이 방법은 양호한 순차적 옵션이지만 일부 화소들에서 가능한 드리프트 (drift) 들을 피할 수 없다. 그때, 일단 에러가 모션 필드에 도입되면, 그것은 순차적 프로세싱 동안 다음 필드들로 전파될 수 있다.
이 제한은 한 쌍의 멀리 있는 프레임들 간의 조밀 모션 추정에 대해, 2013년의 이미지 프로세싱에 대한 IEEE 국제 회의에서 공개된 "dense motion estimation between distant frames: combinatorial multi-step integration and statistical selection"이란 명칭의 논문에서 Conze 등에 의해 제안된 방법에서 설명된 조합적 다-단계 통합 및 통계적 선택을 적용함으로써 해결될 수 있다. 이 접근법의 목표는 고려되는 프레임들 사이의 다수의 다-단계 기본 광학 흐름 벡터들의 조합들로 이루어진 큰 세트를 고려하는 것이다. 각각의 조합은 대응하는 모션 후보를 제공한다. 통계적 선택을 통한 모든 이들 후보들의 공간적 리던던시의 연구는 변위 필드들의 선택 태스크에 대한 고전적 광학 흐름 가정들과 비교하여 더욱 강건한 표시를 제공한다. 덧붙여서, 다-단계 기본 광학 흐름 벡터들의 모든 가능한 조합들의 랜덤으로 선택된 서브세트만이 통합 동안 고려된다. 다수의 쌍들의 프레임들에 적용되면, 이 조합적 통합은 시간적으로 고도로 상관되지 않는 결과적인 변위 필드들을 획득하는 것을 허용한다.
그러나 흐름 융합에 기초한 방법들은 다양한 모션 필드 후보들을 구축하기 위해 기본 모션 필드들의 입력 세트를 요구하고, 매우 복잡하고 계산적일 수도 있는 최상의 후보를 선택하는 최적화 기능을 요구한다.
따라서 고전적 모션 추정기들이 높은 에러 레이트를 갖는 장기 모션 추정에 대해 순차적 프로세싱의 단순성 및 조합적 다-단계 흐름 융합의 정확도 둘 다로부터 이익을 얻을 두 개의 프레임들 간의 모션 추정을 위한 방법이 그러므로 바람직하다.
다르게 말하면, 비디오 편집 애플리케이션의 고도로 바람직한 기능성이, 예를 들어 오퍼레이터에 의해 정의된 영역을 추적하거나, 또는 오퍼레이터에 의해 이 영역에 초기에 배정되는 정보를 전파하기 위하여 시퀀스를 따라 참조 프레임들의 세트를 결정할 수 있는 것이다.
본 발명은 비디오 시퀀스를 프로세싱하는 방법을 위한 것인데, 그 방법에서는, 비디오에서의 프레임 또는 각각의 다른 프레임에 의한 지역 또는 다른 프레임에서의 지역의 표현의 품질을 평가하는 품질 메트릭이, 매우 장기의 조밀 모션 추정에서 새로운 참조 프레임들을 도입하는데 또는 제 1 참조 프레임을 선택하는데 사용된다.
제 1 양태에서, 본 발명은 참조 프레임과 관련하여 비디오 시퀀스에 대한 모션 필드들을 생성하기 위해 프로세서에 의해 수행되는 방법을 위한 것인데, 비디오 시퀀스의 각각의 현재 프레임에 대해, 그 방법은 현재 프레임과 참조 프레임 간의 모션 필드와 결정된 모션 필드의 품질을 나타내는 품질 메트릭을 결정하는 단계를 포함하며, 품질 메트릭은 결정된 모션 필드로부터 획득된다. 품질 메트릭이 품질 임계값 미만인 경우, 그 방법은, 새로운 참조 프레임과 참조 프레임 간의 이전에 생성된 모션 필드의 품질 메트릭이 품질 임계값을 초과하도록 이전의 현재 프레임들의 그룹 중에서 새로운 참조 프레임을 선택하는 단계와, 현재 프레임과 새로운 참조 프레임 간의 모션 필드를 결정하고 현재 프레임과 새로운 참조 프레임 간의 결정된 상기 모션 필드를 새로운 참조 프레임과 참조 프레임 간의 이전에 생성된 모션 필드와 연접함으로써 현재 프레임과 참조 프레임 간의 모션 필드의 결정을 반복하는 단계를 더 포함한다.
유리하게는, 품질 메트릭들에 기초한 새로운 참조 프레임의 이러한 삽입은, 모든 생성된 다중-참조 변위 벡터들 중에서 양호한 품질을 갖는 변위 벡터들을 결합함으로써 모션 드리프트를 피하게 하고 단일 참조 프레임 추정 문제들을 개선시킨다. 그밖에, 다-단계 흐름 융합과는 달리, 그 방법은 모션 필드를 결정하는, 특히 단기의 변위를 해결하는 임의의 방법과 양립 가능하고, 사전-컴퓨팅된 모션 필드 세트를 요구하지 않는다. 유리하게는, 현재 프레임과 참조 프레임 또는 새로운 참조 프레임 간의 모션 필드들만이 결정된다. 그 방법은 참조 프레임에 인접한 프레임으로부터 시작하는 비디오 시퀀스에 속한 연속하는 현재 프레임들에 대해 순차적으로 반복된다.
제 1 변형예에 따르면, 불일치 값이 참조 프레임에서의 제 1 화소와, 제 1 화소로부터의 모션 벡터의 현재 프레임으로의 엔드포인트로부터의 역 모션 벡터의 엔드포인트에 대응하는 참조 프레임에서의 포인트 간의 거리이다. 유리하게는, 품질 메트릭은 참조 프레임의 화소들의 세트의 불일치 값들의 평균의 함수이다.
제 2 변형예에 따르면, 참조 프레임에서의 제 1 화소와, 제 1 화소로부터의 모션 벡터의 현재 프레임으로의 엔드포인트로부터의 역 모션 벡터의 엔드포인트에 대응하는 참조 프레임에서의 포인트 간의 거리가 임계값을 초과하는 경우에 이진 불일치 값이 설정 (1로 설정) 된다. 이진 불일치 값은 거리가 임계값 미만인 경우 재설정 (1로 설정) 된다. 유리하게는, 품질 메트릭은 참조 프레임의 화소들의 세트 중에서 이진 불일치 값이 재설정 (0으로 설정) 되는 화소들의 비율이거나, 또는 다르게 말하면, 품질 메트릭은 "일치하는 화소들"의 수에 비례한다.
제 3 변형예에 따르면, 모션 보상된 절대차가 참조 프레임에서의 제 1 화소로부터의 모션 벡터의 현재 프레임으로의 엔드포인트의 컬러 또는 휘도와 참조 프레임에서의 각각의 제 1 화소의 컬러 또는 휘도 간의 절대차이다. 유리하게는 품질 메트릭은 참조 프레임의 화소들의 세트의 모션 보상된 절대차들의 평균의 함수이다.
제 4 변형예에 따르면, 품질 메트릭은 참조 프레임의 화소들의 세트의 모션 보상된 절대차들의 평균에 기초한 피크 신호 대 잡음 비 (peak signal-to-noise ratio) 를 포함한다.
제 5 변형예에 따르면, 품질 메트릭은 불일치 값의 함수와 모션 보상된 절대차의 함수의 가중된 합을 포함한다. 유리하게는, 품질 메트릭은 참조 프레임의 화소들의 세트에 대해 컴퓨팅된 가중된 합들의 평균의 함수이다.
추가의 유리한 특성에 따르면, 품질 메트릭을 결정하는데 사용되는 화소들의 세트는 참조 프레임의 관심 지역에 포함된다.
추가의 유리한 특성에 따르면, 이전의 현재 프레임들의 그룹 중에서 새로운 참조 프레임을 선택하는 단계는, 현재 프레임에 가장 가까운 이전의 현재 프레임을 선택하는 단계를 포함한다.
다른 유리한 특성에 따르면, 제 1 프레임의 사용자 선택된 지역의 경우, 그 방법은, 참조 프레임의 사용자 선택된 지역에 대응하는 현재 프레임의 지역에서의 화소들의 수를 포함하는 사이즈 메트릭을 결정하는 단계; 및 상기 품질 메트릭이 품질 임계값보다 더 크고 상기 사이즈 메트릭이 사이즈 임계값보다 더 큰 경우, 새로운 참조 프레임을 현재 프레임인 것으로서 선택하고 사이즈 임계값을 결정된 사이즈 메트릭으로 설정하는 단계; 및 상기 새로운 참조 프레임을 사용하여 현재 프레임과 참조 프레임 간의 모션 필드의 결정하는 것을 반복하는 단계를 더 포함한다. 이 사이즈 메트릭은 품질 메트릭을 초과하는 사용자 선택된 지역에 대한 해상도 메트릭으로서 사용된다.
유리하게는, 그 방법은 제 1 프레임 (참조 프레임에 해당함) 의 사용자 초기 선택으로부터 시작하여, 시퀀스에서의 가능한 더 미세한 표현이 제 1 참조 프레임 (새로운 참조 프레임에 해당함) 에 의해 자동으로 그리고 품질 표현 메트릭에 응답하여 결정된다. 유리하게는, 그 방법은 반복만 된다.
추가의 유리한 특성에 따르면, 사이즈 임계값은 상기 제 1 프레임 (참조 프레임에 해당) 의 상기 사용자 선택된 지역에서의 화소들의 수로 초기화된다.
추가의 유리한 특성에 따르면, 제 1 프레임과 현재 프레임 간의 결정된 모션 필드의 품질을 나타내는 품질 메트릭을 결정하는 단계는, 현재 프레임에서 가시적인 제 1 프레임의 사용자 선택된 지역의 화소들의 수를 결정하는 단계를 더 포함한다.
제 2 양태에서, 본 발명은 개시된 방법을 수행하기 위해 컴퓨터-실행 가능한 프로그램 명령들을 저장하는 컴퓨터 판독가능 저장 매체를 위한 것이다.
제 3 양태에서, 본 발명은 적어도 하나의 프로세서와 적어도 하나의 프로세서에 커플링된 메모리를 포함하는 디바이스를 위한 것인데, 메모리는 프로그램 명령들을 저장하고, 프로그램 명령들은 개시된 방법을 수행하기 위해 적어도 하나의 프로세서에 의해 실행 가능하다.
본 방법에 대해 설명되는 임의의 특성 또는 변형예가, 개시된 방법들을 프로세싱하도록 의도된 디바이스와 그리고 프로그램 명령들을 저장하는 컴퓨터 판독가능 저장 매체와 양립 가능하다.
본 발명의 바람직한 특징들이 첨부의 도면들을 참조하여, 비제한적 예로서, 이제 설명될 것인데, 도면들 중에서:
도 1은 제 1 바람직한 실시형태에 따라 방법의 단계들을 예시하며;
도 2는 품질 메트릭의 변형예에 따른 불일치를 예시하며;
도 3은 품질 메트릭의 변형예에 따른 폐색 검출을 예시하며;
도 4는 제 2 바람직한 실시형태에 따른 방법의 단계들을 예시하며; 그리고
도 5는 본 발명의 특정 실시형태에 따른 디바이스를 예시한다.
도 1은 제 1 바람직한 실시형태에 따라 방법의 단계들을 예시하며;
도 2는 품질 메트릭의 변형예에 따른 불일치를 예시하며;
도 3은 품질 메트릭의 변형예에 따른 폐색 검출을 예시하며;
도 4는 제 2 바람직한 실시형태에 따른 방법의 단계들을 예시하며; 그리고
도 5는 본 발명의 특정 실시형태에 따른 디바이스를 예시한다.
본 발명의 두드러진 아이디어가 비디오에서의 프레임 또는 각각의 다른 프레임에 의한 지역 또는 다른 프레임에서의 지역의 표현의 품질을 평가하는 품질 측정값을 고려한다는 것이다. 제 1 바람직한 실시형태에서, 이러한 품질 측정값은 비디오 시퀀스에서의 매우 장기의 조밀 모션 추정에 새로운 참조 프레임을 도입하는데 사용된다. 하나의 단일 참조 프레임에만 의존하는 대신, 이것 이면의 기본 아이디어는, 모션 추정 프로세스가 실패할 때마다 시퀀스를 따라 새로운 참조 프레임들을 삽입하는 것과 그 다음에 이들 새로운 참조 프레임들의 각각에 대해 모션 추정기를 적용하는 것이다. 사실상, 새로운 참조 프레임이 이미지 프로세싱 알고리즘 (이를테면 모션 필드 추정) 에 대해 이전의 참조 프레임을 대체한다. 유리하게는, 품질 메트릭들에 기초한 새로운 참조 프레임의 이러한 삽입은, 모든 생성된 다중-참조 변위 벡터들 중에서 양호한 품질을 갖는 변위 벡터들을 결합함으로써 모션 드리프트를 피하게 하고 단일 참조 프레임 추정 문제들을 개선시킨다. 제 2 바람직한 실시형태에서, 이러한 품질 측정값은 비디오 시퀀스에서 사용자에 의해 선택되는 프레임에서의 타겟 영역이 더 잘 표현되는 제 1 참조 프레임을 선택하는데 사용된다.
"참조 프레임"이란 기술용어는 모호하다는 것에 주의해야 한다. 사용자 상호작용의 관점에서의 참조 프레임과 알고리즘 도구로서 간주되는 참조 프레임이 분리되어야 한다. 예를 들면 비디오 편집의 맥락에서, 사용자는 하나의 단일 참조 프레임에 텍스처/로고를 삽입하고 이후로 설명되는 다중-참조 프레임들의 알고리즘을 실행할 것이다. 본 발명에 따라 삽입되는 새로운 참조 프레임들은 임의의 사용자 상호작용 없이 더 나은 모션 추정을 수행하는 알고리즘적 방도이다. 그 목적을 위해, 제 2 실시형태에서, 사용자 선택된 프레임은, 심지어 제 1 참조 프레임에 대한 검색에서 참조 프레임으로서 초기에 사용되더라도, 제 1 프레임이라 지칭된다.
도 1은 제 1 바람직한 실시형태에 따라 방법의 단계들을 예시한다. 본 실시형태에서, 참조 프레임과 시퀀스의 현재 프레임 간의 모션 추정은 참조 프레임 다음의 제 1 프레임으로부터 시작한 다음 현재 프레임에 대해 현재 프레임에서부터 계속해서 멀어지게 이동하면서 순차적으로 프로세싱된다고 가정된다. 간단히 말하면, 품질 메트릭이 각각의 현재 프레임에 대해 현재 프레임과 참조 프레임 간의 대응관계의 품질을 평가한다. 품질이 품질 임계값에 도달하는 경우, 새로운 참조 프레임 (예를 들어 이전의 현재 프레임) 이 이전에 프로세싱된 현재 프레임들 중에서 선택된다. 이제부터 모션 추정이 수행되고 이 새로운 참조 프레임에 대하여 평가된다. 다음의 현재 프레임들을 프로세싱하는 경우 다른 새로운 참조 프레임들이 시퀀스를 따라 도입될 수도 있다. 마지막으로, 제 1 참조 프레임에 대한 현재 프레임의 모션 벡터들이 현재 프레임의 모션 벡터들과 제 1 참조 프레임에 도달하기까지 참조 프레임들의 쌍들 간에 컴퓨팅된 연속하는 모션 벡터들을 연접시킴으로써 획득된다. 바람직한 변형예에서, 품질 메트릭은 정규화되고 최상의 품질이 1에 대응하는 간격 [0,1]에서 정의된다. 이 규칙에 따르면, 품질 메트릭이 품질 임계값을 초과하는 경우 품질 기준에 도달된다.
비디오 시퀀스의 현재 프레임에 대한 프로세싱 방법의 반복이 이제 설명된다. 현재 프레임은 (참조 프레임이 첫 번째 프레임도 아니고 마지막 프레임도 아니라면) 참조 프레임의 두 개의 이웃 프레임들 중 하나의 이웃 프레임에 대해 초기화된 다음, 다음의 현재 프레임이 현재 프레임의 이웃 프레임이 된다.
제 1 단계 (10) 에서, 현재 프레임과 참조 프레임 간의 모션 필드가 결정된다. 모션 필드가, 참조 프레임과 현재 프레임을 포함하는 프레임들의 각각의 쌍에 대해, 그리고 현재 프레임의 각각의 화소에 대해, 참조 프레임에서의 대응 포인트 (모션 벡터 엔드포인트) 를 포함한다. 이러한 대응관계는 현재 프레임의 제 1 화소와 참조 프레임에서의 대응 포인트 간의 모션 벡터에 의해 표현된다. 그 포인트가 카메라 필드 밖에 있거나 또는 폐색된 특정 경우에서, 이러한 대응 포인트는 존재하지 않는다.
제 2 단계 (11) 에서, 참조 프레임과 현재 프레임을 포함하는 프레임들의 쌍에 대해, 결정된 모션 필드의 품질을 나타내는 품질 메트릭이 평가되고 모션 품질 임계값과 비교된다. 품질 메트릭은 도 2를 사용하여 상이한 변형예들에 따라 평가된다.
제 1 변형예에서, 품질 메트릭은 참조 프레임의 화소들의 세트의 불일치 값들의 평균의 함수이다. 불일치 값이 참조 프레임 (21) 에서의 제 1 화소 (XA) 와, 제 1 화소 (XA) 로부터의 모션 벡터 (25) 의 현재 프레임 (24) 으로의 엔드포인트 (XB) 로부터의 역 모션 벡터 (23) 의 엔드포인트에 대응하는 참조 프레임 (21) 에서의 포인트 (22) 간의 거리 (20) 이다. 사실상 품질 측정값은 참조 프레임과 현재 프레임 간에 추정된 순방향 및 역방향 모션 필드들 둘 다에 의존한다. 순방향 (23) (역방향 (25) 각각의) 모션 필드는 예를 들어 참조 프레임 (21) (현재 프레임 (24) 각각) 의 화소들을 현재 프레임 (24) (참조 프레임 (21) 각각) 에 링크시키는 모션 필드를 지칭한다. 이들 두 개의 모션 필드들의 일치성 (consistency) 은,직접 모션 필드라고 일반적으로 지칭되고 역 모션 필드는 그들의 고유 품질 (intrinsic quality) 의 양호한 표시자이다. 두 개의 모션 필드들 간의 불일치 값이 다음에 의해 주어진다:
이 수학식에서, 는 화소의 2D 포지션인 한편 는 현재 프레임에서의 모션 벡터 의 엔드포인트에 해당한다. 리파인먼트에서, 추정된 모션이 일반적으로 서브화소 해상도를 가짐에 따라, 이 후자의 포지션은 화소에 대응하지 않는다. 따라서 는 2D 표현에서의 네 개의 이웃 화소들 (26) 에 결부된 벡터들로부터의 이중선형 보간을 통해 추정된다.
제 2 변형예에서, 불일치 값들은 2진화된다. 참조 프레임 (21) 에서의 제 1 화소 (XA) 와, 제 1 화소 (XA) 로부터의 모션 벡터 (25) 의 현재 프레임 (24) 으로의 엔드포인트 (XB) 로부터의 역 모션 벡터 (23) 의 엔드포인트에 대응하는 참조 프레임 (21) 에서의 포인트 (22) 간의 거리가 불일치 임계값을 초과하는 경우, 이진 불일치 값이 (예를 들면 값 일로) 설정된다. 이진 불일치 값은 그 거리가 불일치 임계값 미만인 경우 재설정 (예를 들면 영으로 설정) 된다. 품질 메트릭은 참조 프레임 (21) 의 화소들의 세트 중에서 이진 불일치 값이 재설정된 화소들의 정규화된 수를 포함한다.
제 3 변형예에서, 품질 메트릭은 참조 프레임 (21) 의 제 1 화소 (XA) 가 현재 프레임에서의 매칭된 포인트 (XB) 에 의해 얼마나 정확히 복원될 수 있는지를 나타내는 매칭 비용을 사용하여 추정된다. 모션 보상된 절대차가 참조 프레임 (21) 에서의 제 1 화소 (XA) 로부터의 모션 벡터 (25) 의 현재 프레임 (24) 으로의 엔드포인트 (XB) 와 참조 프레임 (21) 에서의 제 1 화소 (XA) 간에 컴퓨팅된다. 그 차이는, 예를 들면, RGB 컬러 스킴에서의 화소의 휘도 값의 차이를 지칭한다. 그러나, 이 변형예는 위에서 상세하게 된 바와 같은 비디오에서의 화소를 나타내는 임의의 값과 양립 가능하다. 이 변형예에서, 품질 메트릭은 참조 프레임의 화소들의 세트의 모션 보상된 절대차들의 평균의 함수이다. 고전적 측정값이 예를 들어 다음에 의해 정의될 수 있는 매칭 비용이다:
참조 프레임에서의 화소 (XA) 의 매칭 비용 는 이 화소에서의 값과, 가 화소 (XA) 에 배정된 현재 프레임에 대한 모션 벡터 (25) 에 대응하는 현재 프레임에서의 포인트 에서의 값 간의 절대차의 3 컬러 채널들 RGB의 합 (I C 에 해당함) 에 대응한다.
제 4 변형예에서, 품질 메트릭은 참조 프레임의 화소들의 세트의 피크 신호 대 잡음 비의 함수이다. 참조 프레임의 N 개 화소들 (x A ) 의 세트를 고려해 보자. 피크 신호 대 잡음 비 (PSNR) 를 컴퓨팅하기 위해, 다음과 같이, 평균 제곱 오차 (mean square error, MSE) 를 추정하는 것으로 시작하며:
그러면, PSNR은 다음과 같이 컴퓨팅된다:
다른 변형예에서, 현재 프레임에 의해 제 1 프레임의 표현의 품질을 평가하는데 고려되어야만 하는 중요한 정보가, 현재 프레임에서 대응관계가 없는 제 1 프레임의 화소들의 수인데, 이는 제 1 프레임에서 관찰되는 장면 포인트가 현재 프레임에서 폐색되기 때문이거나 또는 그 장면 포인트가 현재 프레임에서 카메라 필드 외부에 있기 때문이다. 기법들이 이러한 화소들을 검출하기 위해 존재한다. 예를 들어, 도 3은 제 1 프레임 (31) 상에 현재 프레임 (32) 의 모션 필드 (33) 를 투영하고 가장 가까운 화소들을 프레임 (31) 에서의 엔드포인트들이라고 마킹한 다음, 마킹되지 않은 화소들을 프레임 (31) 에서 식별함으로써 현재 프레임에서 대응관계를 갖지 않는 제 1 프레임의 가능한 화소들 (폐색된 화소들이라 지칭됨) 을 검출하는 것에 그 특징이 있는 방법을 예시한다. 프레임 (31) 에서 마킹된 폐색된 화소들 (즉, 프레임 (32) 에서 폐색된 프레임 (31) 의 화소들) 이 더 많을수록, 프레임 (31) 에 대해 대표하는 프레임 (32) 이 더 적다.
제 5 변형예에서, 현재 프레임이 얼마나 정확히 참조 프레임에 의해 전체적으로 잘 표현되는지를 평가하기 위하여 글로벌 품질 메트릭이 정의된다. 예를 들어, 이 글로벌 품질은 임계값 미만의 비용 매칭을 갖는 화소들의 수를 카운트하여, 또는 (즉, 불일치 거리가 제 2 변형예에서처럼 불일치 임계값 미만에 있는, 즉, 0으로 설정된 이진 불일치 값을 갖는)"일치하는" 화소들의 수를 카운팅하여 발생할 수 있다.
그 다음으로 비율이 가시적 화소들 (다시 말하면 폐색되지 않은 화소들) 의 총 수를 기준으로 도출될 수 있다. 덧붙여서, 참조 프레임에서의 현재 프레임의 가시적 화소들의 비율은 자체가 현재 프레임이 참조 프레임에 의해 얼마나 잘 표현되는지의 관련 파라미터일 수 있다.
불일치 값만이 모션 품질을 측정하는데 사용되는 변형예에서, 그리고 불일치 임계값이 일치하는 모션 벡터와 불일치하는 모션 벡터를 구별하기 위해 도입된다면, 모션 품질 메트릭은 다음이 된다:
애플리케이션에 의존하여, 품질 메트릭의 변형예가 다음이 되며:
여기서 N은 이미지에서의 화소들의 수이다.
다른 변형예에 따르면, 이들 '글로벌' 메트릭은 오퍼레이터에 의해 나타내어진 특정 관심 영역 상에서 또한 컴퓨팅될 수 있다.
다른 변형예에 따르면, 이진 불일치 값이 임계화 (thresholding) 로 초래되는 대신, 가중치가 도입될 수 있다. 예를 들어, 이 가중치는 비용 매칭의 또는 불일치 거리의 음의 지수 함수에 의해 주어질 수 있다. 그러므로, 참조 프레임을 기준으로 현재 프레임에서의 모션 필드의 다음의 품질 측정값이 제안된다:
품질 메트릭은 최상의 품질이 1에 대응하는 간격 [0,1]에서 바람직하게 정의된다. 그러나, 본 발명은 이 규칙으로 제한되지 않는다. 이 맥락에서, 와 에 대한 가능한 해는 다음일 수 있고:
N은 이 품질 추정에서 고려되는 화소들의 수이다.
일단 품질 메트릭의 변형예들이 개시되면, 현재 프레임 반복에 대한 프로세싱 방법의 추가의 단계들이 이제 설명된다.
따라서, 제 2 단계 (11) 에서, 결정된 모션 필드 (즉, 현재 프레임과 참조 프레임 간의 모션 필드, 순방향 또는 역방향 중 어느 하나임) 의 품질을 나타내는, 예를 들면 [0,1]에 속하는 품질 메트릭이 품질 임계값 미만인 경우, 새로운 참조 프레임이 단계 12에서 품질 임계값을 초과하는 품질 메트릭을 갖는 이전의 현재 프레임들의 그룹 중에서 결정된다. 따라서, 현재 프레임과 참조 프레임 간의 "참조향 (to-the-reference)" 모션 필드 (각각 벡터) 는 단계 13에서 현재 프레임과 새로운 참조 프레임 간의 모션 필드 (각각 벡터) 와, 새로운 참조 프레임과 참조 프레임 간의 모션 필드 (각각 벡터) 를 연접 (또는 합산) 하는 것에 의해 결정된다. 따라서, 현재 프레임과 참조 프레임 간의 "참조발 (from-the-reference)" 모션 필드 (각각 벡터) 는 단계 13에서 참조 프레임과 현재 프레임 간의 모션 필드 (각각 벡터) 와, 새로운 참조 프레임과 현재 프레임 간의 모션 필드 (각각 벡터) 를 연접 (또는 합산) 하는 것에 의해 결정된다. 변형예에서, 품질 메트릭이 품질 임계값 미만이 되자마자, 순차적 프로세싱에서의 이전의 현재 프레임은 새로운 참조 프레임으로서 선택된다. 그 다음에 프레임들의 새로운 쌍들이 이 새로운 참조 프레임과 다음의 현재 프레임들 (아직 프로세싱되지 않음) 의 그루핑으로서 간주되지 않는다. 그 다음에, 이들 프레임들과 참조 프레임 간의 대응관계는 모션 필드들 (각각 벡터들) 의 연접에 의해 획득된다.
그 방법은 제 1 프레임으로부터 시작하여 시간적 축을 따라 임의의 방향에서 수행될 수 있다.
이전 프레임 중 새로운 참조 프레임의 선택의 변형예에서, 모든 이전에 선택된 새로운 참조 프레임들에 대한 직접 모션 추정이 그것들 중 하나가 현재 프레임에 대한 양호한 참조 프레임이 될 수 있는지를 체크하기 위하여 평가된다. 실제로, 장면에서의 모션에 의존하여, 포기되었던 이전의 참조 프레임이 모션 추정에 대한 양호한 후보가 다시 되는 일이 발생할 수도 있다. 참조 프레임이 적절하지 않다면, 다른 이전에 프로세싱된 현재 프레임들이 현재 프레임에 대한 가능한 새로운 참조 프레임들로서 테스트된다.
제 1 실시형태의 또 다른 변형예에서, 품질 메트릭을 결정하는데 사용되는 화소들의 세트는 참조 프레임의 관심 지역에 포함된다.
관심 영역이 현재 프레임에서 부분적으로 폐색되는 경우, 품질 메트릭은 가시적 부분들에만 관련된다. 한편, 새로운 참조 프레임의 선택은 후보 새로운 참조 프레임이 현재 프레임에서 가시적인 참조 영역의 모든 화소들을 포함할 것을 요구한다. 관심 영역의 가시적 부분의 사이즈가 임계값 미만인 경우, 직접 모션 추정이 다른 참조를 아마도 선택하기 위하여 현재 프레임과 참조 프레임들 사이에서 수행된다. 실제로, 관심 영역이 일시적으로 폐색되고 일부 프레임들 후에 다시 가시적이 되는 일이 발생할 수도 있다.
비디오 시퀀스의 현재 프레임들의 세트에 대한 글로벌 프로세싱 방법은 제 1 실시형태에 대해 이제 설명된다.
를 참조 프레임으로서 간주하여 N + 1 개의 RGB 이미지들 () 의 시퀀스를 따라 궤도 의 추정에 집중하기로 하자. 는 의 그리드 포인트 () 로부터 시작하고 참조발 변위 벡터들 의 세트에 의해 정의된다. 이들 변위 벡터들은 화소 () (그 변위 벡터들이 배정된 화소) 로부터 시작하고 시퀀스의 다른 프레임들의 각각 (n) 을 가리킨다. 실제로, 의 품질은 각각의 변위 벡터들 에 배정된 이진 불일치 값들의 연구를 통해 추정된다. 이들 벡터들 중 하나가 불일치하면, 프로세스는 매칭 문제에 선행하는 순간에 새로운 참조 프레임을 자동으로 추가하고 위에서 설명된 절차를 실행한다.
의 추정에 수반되는 장기 조밀 모션 추정이 앞에서 그리고 더 정확하게는 인 에서 실패한다고 가정하자. 에서, 즉, 추적 실패에 선행하고 가 정확히 추정된 순간에 새로운 참조 프레임을 도입할 것이 제안된다.
일단 이 새로운 참조 프레임 (이라고 지칭됨) 이 삽입되었다면, 과 인 각각의 후속 프레임들 () 사이에서 인 포지션 로부터 시작하는 새로운 모션 추정들이 실행된다. 따라서, 변위 벡터들 의 세트가 획득된다. 이들 추정값들은 정정하려는 변위 벡터들의 다음의 새로운 버전을 획득하는 것을 허용한다: . 사실상, 이들 변위 벡터들의 각각의 초기 추정값은 다음과 같이 를 기준으로 추정된 와 단지 에 대해서 컴퓨팅되었던 의 연접을 통해 획득된 벡터에 의해 대체될 수 있다:
의 이 결과적인 새로운 버전이, 예를 들면 (인) 에서 다시 실패하면, 에서 새로운 참조 프레임 이 삽입되고 에서 시작하는 장기 추정기가 수행된다. 따라서, 인 변위 벡터들 의 새로운 추정값들이 다음과 같이 획득될 수 있다:
시퀀스의 말단까지 가 다시 실패할 때마다, 정확히 유사한 프로세싱이 적용된다. 유리하게는 현재 프레임에서부터 초기 참조 프레임 () 보다 더 가까운 참조 프레임에 의존하는 경우, 변위 선택 기준들 (밝기 불변성 (constancy) 가정을 포함함) 이 더욱 유효하다. 특히 강한 컬러 변동들의 경우, 매칭은 더욱 쉽사리 수행될 수 있다. 따라서 이 다중 참조 프레임들의 모션 추정은 고전적 단일 참조 프레임 접근법에 비하여 향상된다.
기준들이 무엇이든, 새로운 참조 프레임이 어떤 순간부터 필요한지를 결정하기 위해 모션 품질 임계값이 품질 요건들에 따라 설정되어야만 한다. 이전에 설명된 바와 같이, 전체 이미지들이 관련되는 경우 관심 지역에만 집중하는 로컬 평가가 관련이 있을 수도 있다. 모션 추정 프로세스의 품질은 고려하는 영역에 고도로 의존하고, 전체 이미지에 대해 모션 벡터 품질을 연구하는 것은 이 경우의 참조 프레임 삽입 프로세스에 나쁘게 영향을 미칠 수 있다.
참조향 변위 벡터들 의 추정이 필요한 특정 경우 - 이러한 특정 경우는 예를 들면 텍스처 삽입 및 전파에 적합함 - 에 따르면, 각각의 프레임 () 으로부터 시작하는 이 다중-참조 프레임들의 프로세싱을 컴퓨테이션 문제들을 위해 에 적용하는 것이 어려워 보인다. 따라서 로부터의 참조발 방향의 프로세싱은 유지되고 그러므로 새로운 참조 프레임들의 도입은 참조발 변위 벡터들의 품질을 기준으로 결정된다. 하지만 참조향 변위 벡터들이 이들 새로운 참조 프레임들의 도입으로부터 이익을 얻을 수 있다. 과 가 삽입된 이전의 예로 되돌아가면, 인 의 그리드 포인트 () 로부터 시작하는 부정확한 변위 벡터들 은 다음의 연접들을 고려함으로써 리파인될 수 있다:
참조발 변위 벡터들의 품질 평가와 참조향 변위 벡터들의 효과적인 품질 간의 특정한 상관을 보장하기 위해, 새로운 참조 프레임들의 삽입에 대한 이전에 설명된 기준들 중에서 대응하는 변위 벡터가 일치하지 않는 화소들의 백분율을 선택할 것이 제안된다. 이 기준에 관계된 불일치는 순방향-역방향 불일치를 다루고 그러므로 동시에 참조발 및 참조향 변위 벡터들 양쪽 모두의 품질을 해결한다는 사실에 의해 이 선택이 설명된다.
도 4는 제 2 바람직한 실시형태에 따라 방법의 단계들을 예시한다. 본 실시형태에서, 제 1 참조 프레임이 비디오 시퀀스의 제 1 프레임의 사용자 선택된 지역에 대해 결정된다. 예를 들면, 비디오 시퀀스가 주어지면, 사용자가 임의적으로 또는 구체적인 특성들을 요구하는 특정 애플리케이션에 따라 중 어느 하나로 특정 프레임을 선택한다. 이러한 사용자 선택된 프레임은, 종래 기술에서, 임의의 이미지 프로세싱 알고리즘에 대한 참조 프레임으로서 사용된다. 예를 들어, 사용자가 자신이 편집하기 원하는 특정 영역에 집중한다면, 그 사용자는 이 영역 참조 프레임에서 완전히 가시적이 되는 것을 필요로 할 수도 있다. 한편, 한 프레임에서 사용자에 의해 선택된 지역이 다른 프레임에서 더 나은 해상도를 가질 수도 있다. 실제로, 오퍼레이터가 비디오 시퀀스를 따라 최고로 미세한 해상도를 갖는 지역의 표현을 선택하였다는 것은 확실하지 않다. 그래서, 본 발명은 이 초기 선택으로부터 시작하여, 시퀀스에서 가능한 더 미세한 표현이 결정되는 것을 유리하게 허용한다. 이는 다른 프레임들에서 대응 지역을 식별하며, 그 대응 지역의 사이즈를 참조 지역의 사이즈를 기준으로 평가함으로써 행해진다. 변형예에서, 지역들의 사이즈는 그것들의 화소들의 수에 의해 정의된다.
비디오 시퀀스의 현재 프레임들 중에서 제 1 참조 프레임을 결정하기 위한 프로세싱 방법의 반복이 이제 설명된다. 사이즈 임계값은 첫 번째 프레임에서 사용자 선택된 지역의 사이즈로, 그리고 참조 프레임은 첫 번째 프레임 (사용자에 의해 선택됨) 으로서 초기화된다. 그러면 다음의 현재 프레임은 현재 프레임의 이웃 프레임이다.
제 1 단계 (40) 에서, 첫 번째 프레임과 현재 프레임 간의 모션 필드가 결정된다. 유리하게는, 순방향 및 역방향 모션 필드들이 참조 프레임으로서 사용되는 첫 번째 프레임과 시퀀스의 다른 현재 프레임들 간에 추정된다. 그들 모션 필드들은 시퀀스의 프레임들에서 사용자 선택된 지역을 식별하는 것을 허용한다. 변형예에서, 모션 필드 추정은 참조 프레임의 선택된 지역으로 제한된다. 추정은 화소-방식 또는 블록-기반 모션 추정으로 획득된다. 결과적인 조밀 모션 필드는 첫 번째 프레임의 화소들과 다른 현재 프레임들의 각각에서의 화소들/포인트들 간의 대응관계를 제공한다. 모션이 서브화소 해상도를 갖는다면, 첫 번째 프레임의 주어진 화소 (Xa) 에 대응하는 현재 프레임에서의 화소는 화소 (XA) 에 결부된 모션 벡터의 엔드포인트로부터 가장 가까운 것으로서 식별된다. 결과적으로, 첫 번째 프레임에서의 제 1 지역 (RA) 에 대응하는 현재 프레임에서의 지역 (RB) 은 제 1 지역의 화소들에 결부된 모션 벡터들의 엔드포인트들을 기준으로 가장 가까운 화소들인 화소들의 세트로서 정의된다.
제 2 단계 (41) 에서, 첫 번째 프레임 (A) 과 현재 프레임 (B) 간의 결정된 모션 필드의 품질을 나타내는 품질 메트릭이 추정된다. 유리한 특성에 따르면, 추정은 자신의 화소들 (XA) 의 세트에 의해 정의되는 제 1 지역 (RA) 에 대해 프로세싱된다. 프레임들 간의 비교를 위한 관련 있는 정보를 제공하기 위하여, 모션 필드들은 신뢰성이 있어야 한다. 그 목적을 위해, 모션 품질 메트릭이 예를 들어 위의 변형예들 중 하나를 사용하여 도출된다. Q D (R A , B)로 표시된 이 측정값은 첫 번째 프레임 (A) 에서 오퍼레이터에 의해 선택된 관심 영역 (RA) 으로 제한된다. 바람직한 변형예에서, 품질 메트릭 (Q D (R A , B)) 이 품질 임계값을 초과하는 경우 그것은 지역 (RA) 에 대응하는 현재 프레임 (B) 에서의 영역 (RB) 은 잘 식별된다는 것을 나타낸다.
변형예에 따르면, 모션 품질의 다른 관련 있는 파라미터가 현재 프레임 (B) 에서의 (폐색되지도 않고 현재 프레임 외부에 있지도 않는) 가시적인 제 1 지역 (RA) 의 화소들의 비율이다. Q D (R A , B)로 표시된 이 비율은 가시성 임계값을 또한 초과해야만 한다. 유리하게는, 가시성 임계값은, 지역 (RA) 의 화소들의 대부분이 현재 프레임 (B) 에서 가시적이도록 1에 가까워서, RA가 RB에 의해 표현될 수 있다는 것을 고려할 수 있게 한다.
제 3 단계 (42) 에서, 제 1 프레임의 사용자 선택된 지역에 대응하는 현재 프레임의 지역에서의 화소들의 수를 포함하는 사이즈 메트릭이 추정된다. 유리하게는 이 특성은 대응 지역들 (R A 및 R B ) 둘 다의 해상도의 비교를 허용한다. 이 목적을 위해, 변형예가 지역들의 사이즈들, 즉, 그 지역들의 화소들의 수들 (N A 및 N B 라 지칭됨) 을 직접적으로 비교하는 것에 특징이 있으며: N A > N B 이면, 제 1 지역 (R A ) 은 지역 (R B ) 보다 더 나은 해상도를 갖고, 그렇지 않으면 식별된 지역 (R B ) 은 오퍼레이터에 의해 초기에 선택된 영역 (R A ) 을 더 잘 나타내는 양호한 후보이다.
제 4 단계 (43) 에서, 그들 두 개의 상기의 메트릭들이 테스트된다. 품질 메트릭이 품질 임계값보다 더 높은 경우, 그리고 사이즈 메트릭이 사이즈 임계값보다 더 높은 경우, 첫 번째 참조 프레임은 현재 프레임으로 설정되고 사이즈 임계값은 사이즈 메트릭으로 업데이트된다.
그 단계들은 그 다음에 시퀀스의 각각의 연속하는 현재 프레임에 대해 순차적으로 반복된다.
통상의 기술자는 그 방법이 특수 장비에 대한 필요 없이 그래픽 프로세싱 유닛을 포함하거나 또는 포함하지 않는 PC들, 랩톱들, 테블릿들, PDA, 모바일 폰과 같은 디바이스들에 의해 아주 쉽게 구현될 수 있다는 것을 또한 이해할 것이다. 상이한 변형예들에 따르면, 본 방법에 대해 설명된 특징들이 소프트웨어 모듈에서 또는 하드웨어 모듈에서 구현되고 있다. 도 5는 본 발명의 특정 실시형태에 따른 비디오 시퀀스를 프로세싱하는 디바이스를 예시한다. 그 디바이스는 비디오 비트-스트림을 프로세싱하도록 의도된 임의의 디바이스이다. 그 디바이스 (400) 는 본 발명의 실시형태를 구현하도록 의도된 물리적 수단들, 예를 들면 프로세서 (501) (CPU 또는 GPU), 데이터 메모리 (502) (RAM, HDD), 프로그램 메모리 (503) (ROM), 사용자에 대한 정보의 디스플레이 및/또는 데이터 또는 파라미터들의 입력에 적합한 맨 머신 (MMI) 인터페이스 (504) 또는 특정 애플리케이션 (예를 들어, 키보드, 마우스, 사용자가 프레임을 선택 및 편집하는 것을 허용하는 터치스크린 등) 그리고 옵션으로는 임의의 기능을 하드웨어에서 구현하기 위한 모듈 (505) 을 포함한다. 유리하게는 데이터 메모리 (502) 는 비디오 시퀀스를 나타내는 비트-스트림, 비디오 시퀀스에 연관된 조밀 모션 필드들의 세트들, 본원에서 설명되는 방법의 단계들을 구현하기 위해 프로세서 (501) 에 의해 실행 가능할 수도 있는 프로그램 명령들을 저장한다. 이전에 드러낸 바와 같이, 조밀 모션 추정의 생성은 예를 들면 GPU에서 또는 전용 하드웨어 모듈 (505) 에 의해 유리하게 사전 컴퓨팅된다. 유리하게는 프로세서 (501) 는 프로세서에 결부된 디스플레이 디바이스 (504) 상에 프로세싱된 비디오 시퀀스를 디스플레이하도록 구성된다. 변형예에서, 프로세서 (501) 는, 디스플레이 디바이스에 커플링되어, 비디오 시퀀스의 병렬 프로세싱을 허용하며, 따라서 컴퓨테이션 시간을 감소시키는 그래픽 프로세싱 유닛이다. 다른 변형예에서, 프로세싱 방법은 네트워크 클라우드에서, 즉, 네트워크 인터페이스를 통해 접속된 분산형 프로세서에서 구현된다.
상세한 설명과 (해당되는 경우) 청구항들 및 도면들에서 개시되는 각각의 특징은 독립적으로 또는 임의의 적절한 조합으로 제공될 수도 있다. 소프트웨어로 구현되는 것으로서 설명되는 특징들은 하드웨어로 또한 구현될 수도 있고, 반대의 경우도 마찬가지이다. 청구항들에서 보이는 참조 번호들은 단지 예시로서만이고 청구항들의 범위에 대한 제한하는 효과를 갖지 않을 것이다.
본 발명의 다른 양태에서, 프로그램 명령들은 임의의 적합한 컴퓨터 판독가능 저장 매체를 통해 디바이스 (500) 에 제공될 수도 있다. 컴퓨터 판독가능 저장 매체가 하나 이상의 컴퓨터 판독가능 매체(들)에 수록되고 컴퓨터에 의해 실행 가능한 수록된 컴퓨터 판독가능 프로그램 코드를 갖는 컴퓨터 판독가능 프로그램 제품의 형태를 취할 수 있다. 본원에서 사용되는 바와 같은 컴퓨터 판독가능 저장 매체가, 정보를 그 속에 저장하는 고유 능력뿐만 아니라 그로부터 정보의 취출을 제공하는 고유 능력이 주어진다고 하면 비일시적 저장 매체로 간주된다. 컴퓨터 판독가능 저장 매체가, 예를 들어, 전자, 자기, 광학적, 전자기, 적외선, 또는 반도체 시스템, 장치, 또는 디바이스, 또는 전술한 바의 임의의 적합한 조합일 수도 있지만 그것들로 제한되지 않는다. 휴대용 컴퓨터 디스켓; 하드 디스크; 랜덤 액세스 메모리 (RAM); 판독전용 메모리 (ROM); 소거가능 프로그램가능 판독전용 메모리 (EPROM 또는 플래시 메모리); 휴대용 콤팩트 디스크 판독전용 메모리 (CD-ROM); 광학적 저장 디바이스; 자기 저장 디바이스; 또는 전술한 바의 임의의 적합한 조합은, 본원의 원리들이 적용될 수 있는 컴퓨터 판독가능 저장 매체들의 더욱 구체적인 예들을 제공하는 단지 예시적인 것이고 본 기술분야의 통상의 기술자에 의해 쉽사리 예시되는 바와 같은 완전한 열거는 아니라는 것이 이해된다.
당연히, 본 발명은 이전에 설명된 실시형태들로 제한되지 않는다.
Claims (14)
- 참조 프레임과 관련하여 비디오 시퀀스에 대한 모션 필드들을 생성하는 방법으로서,
상기 방법은, 상기 비디오 시퀀스의 각각의 현재 프레임에 대해,
상기 현재 프레임 (24) 과 상기 참조 프레임 (21) 간의 모션 필드를 결정하고 결정된 상기 모션 필드로부터 상기 결정된 모션 필드의 품질을 나타내는 품질 메트릭을 결정하는 단계 (10);
상기 품질 메트릭이 품질 임계값 미만인 경우:
이전의 현재 프레임들의 그룹 중에서 새로운 참조 프레임을 선택하는 단계 (12) 로서, 상기 새로운 참조 프레임과 상기 참조 프레임 간의 이전에 생성된 모션 필드의 품질 메트릭이 상기 품질 임계값을 초과하도록, 상기 새로운 참조 프레임을 선택하는 단계 (12); 및
상기 현재 프레임과 상기 새로운 참조 프레임 간의 모션 필드를 결정하고 (13) 상기 현재 프레임과 상기 새로운 참조 프레임 간의 결정된 상기 모션 필드를 상기 새로운 참조 프레임과 상기 참조 프레임 간의 상기 이전에 생성된 모션 필드와 연접함으로써, 상기 현재 프레임과 상기 참조 프레임 간의 상기 모션 필드를 상기 결정하는 단계 (10) 를 반복하는 단계를 포함하는, 비디오 시퀀스에 대한 모션 필드 생성 방법. - 제 1 항에 있어서,
상기 방법은, 상기 참조 프레임에 인접한 프레임으로부터 시작하는, 상기 비디오 시퀀스에 속한 연속하는 현재 프레임들에 대해 순차적으로 반복되는, 비디오 시퀀스에 대한 모션 필드 생성 방법. - 제 1 항 또는 제 2 항에 있어서,
불일치 값이, 상기 참조 프레임 (21) 에서의 제 1 화소 (XA) 와, 상기 제 1 화소 (XA) 로부터의 모션 벡터 (25) 의 상기 현재 프레임 (24) 으로의 엔드포인트 (XB) 로부터의 역 모션 벡터 (23) 의 엔드포인트에 대응하는 상기 참조 프레임 (20) 에서의 포인트 (22) 간의 거리 (20) 이고, 그리고
상기 품질 메트릭은 상기 참조 프레임의 화소들의 세트의 불일치 값들의 평균의 함수인, 비디오 시퀀스에 대한 모션 필드 생성 방법. - 제 1 항 또는 제 2 항에 있어서,
상기 참조 프레임 (21) 에서의 제 1 화소 (XA) 와, 상기 제 1 화소 (XA) 로부터의 모션 벡터 (25) 의 상기 현재 프레임 (24) 으로의 엔드포인트 (XB) 로부터의 역 모션 벡터 (23) 의 엔드포인트에 대응하는 상기 참조 프레임 (20) 에서의 포인트 (22) 간의 거리 (20) 가 불일치 임계값을 초과하는 경우 이진 불일치 값이 1로 설정되며; 상기 거리가 상기 불일치 임계값 미만인 경우 상기 이진 불일치 값이 0으로 설정되고, 그리고
상기 품질 메트릭은 화소들의 세트 중에서 이진 불일치 값이 0으로 설정되는 화소들의 비율인, 비디오 시퀀스에 대한 모션 필드 생성 방법. - 제 1 항 또는 제 2 항에 있어서,
모션 보상된 절대차가, 상기 참조 프레임 (21) 의 제 1 화소 (XA) 로부터의 모션 벡터 (25) 의 상기 현재 프레임 (24) 으로의 엔드포인트 (XB) 의 컬러 또는 휘도와 상기 참조 프레임 (21) 의 상기 제 1 화소 (XA) 의 컬러 또는 휘도 간의 절대차이고, 그리고
상기 품질 메트릭은 상기 참조 프레임의 화소들의 세트의 모션 보상된 절대차들의 평균의 함수인, 비디오 시퀀스에 대한 모션 필드 생성 방법. - 제 5 항에 있어서,
상기 품질 메트릭은 상기 참조 프레임의 화소들의 세트의 모션 보상된 절대차들의 평균에 기초한 피크 신호 대 잡음 비를 포함하는, 비디오 시퀀스에 대한 모션 필드 생성 방법. - 제 3 항 또는 제 5 항에 있어서,
상기 품질 메트릭은 상기 불일치 값의 함수와 상기 모션 보상된 절대차의 함수의 가중된 합을 포함하는, 비디오 시퀀스에 대한 모션 필드 생성 방법. - 제 3 항 내지 제 7 항 중 어느 한 항에 있어서,
상기 품질 메트릭을 결정하는데 사용되는 상기 화소들의 세트는 상기 참조 프레임의 관심 지역에 포함되는, 비디오 시퀀스에 대한 모션 필드 생성 방법. - 제 1 항 내지 제 8 항 중 어느 한 항에 있어서,
상기 이전의 현재 프레임들의 그룹 중에서 새로운 참조 프레임을 선택하는 단계는, 상기 현재 프레임에 가장 가까운 상기 이전의 현재 프레임을 선택하는 단계를 포함하는, 비디오 시퀀스에 대한 모션 필드 생성 방법. - 제 1 항 내지 제 9 항 중 어느 한 항에 기재된 참조 프레임과 관련하여 비디오 시퀀스에 대한 모션 필드들을 생성하는 방법으로서,
참조 프레임의 사용자 선택된 지역의 경우,
상기 방법은, 상기 비디오 시퀀스의 각각의 현재 프레임에 대해,
상기 참조 프레임의 사용자 선택된 지역에 대응하는 상기 현재 프레임의 지역에서의 화소들의 수를 포함하는 사이즈 메트릭을 결정하는 단계;
상기 품질 메트릭이 품질 임계값보다 더 크고 상기 사이즈 메트릭이 사이즈 임계값보다 더 큰 경우,
새로운 참조 프레임을 상기 현재 프레임인 것으로서 선택하고 상기 사이즈 임계값을 결정된 상기 사이즈 메트릭으로 설정하는 단계; 및
상기 새로운 참조 프레임을 사용하여 상기 현재 프레임과 상기 참조 프레임 간의 상기 모션 필드의 상기 결정하는 단계 (10) 를 반복하는 단계를 더 포함하는, 비디오 시퀀스에 대한 모션 필드 생성 방법. - 제 10 항에 있어서,
상기 사이즈 임계값은 상기 참조 프레임의 상기 사용자 선택된 지역에서의 화소들의 수로 초기화되는, 비디오 시퀀스에 대한 모션 필드 생성 방법. - 제 10 항에 있어서,
상기 참조 프레임과 상기 현재 프레임 간의 결정된 상기 모션 필드의 품질을 나타내는 품질 메트릭을 결정하는 단계는, 상기 현재 프레임에서 가시적인 상기 참조 프레임의 상기 사용자 선택된 지역의 화소들의 수를 결정하는 단계를 더 포함하는, 비디오 시퀀스에 대한 모션 필드 생성 방법. - 제 1 항 내지 제 9 항 중 어느 한 항의 방법을 수행하기 위한 컴퓨터-실행가능 프로그램 명령들을 저장하는 컴퓨터 판독가능 저장 매체.
- 적어도 하나의 프로세서 (501); 및
상기 적어도 하나의 프로세서에 커플링되는 메모리 (502) 를 포함하는 디바이스 (500) 로서,
상기 메모리는 프로그램 명령들을 저장하며, 상기 프로그램 명령들은 제 1 항 내지 제 11 항 중 어느 한 항의 방법을 수행하도록 적어도 하나의 프로세서에 의해 실행 가능한, 디바이스 (500).
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP14305485.6 | 2014-04-02 | ||
EP14305485.6A EP2927872A1 (en) | 2014-04-02 | 2014-04-02 | Method and device for processing a video sequence |
PCT/EP2015/056797 WO2015150286A1 (en) | 2014-04-02 | 2015-03-27 | Motion field estimation |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20160141739A true KR20160141739A (ko) | 2016-12-09 |
Family
ID=50489043
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020167027366A KR20160141739A (ko) | 2014-04-02 | 2015-03-27 | 모션 필드 추정 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20170214935A1 (ko) |
EP (2) | EP2927872A1 (ko) |
JP (1) | JP2017515372A (ko) |
KR (1) | KR20160141739A (ko) |
CN (1) | CN106416244A (ko) |
WO (1) | WO2015150286A1 (ko) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10375422B1 (en) * | 2018-03-30 | 2019-08-06 | Tencent America LLC | Method and apparatus for motion field based tree splitting |
CN111402292B (zh) * | 2020-03-10 | 2023-04-07 | 南昌航空大学 | 基于特征变形误差遮挡检测的图像序列光流计算方法 |
CN111369592B (zh) * | 2020-03-13 | 2023-07-25 | 浙江工业大学 | 一种基于牛顿插值的快速全局运动估计方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5398068A (en) * | 1993-09-02 | 1995-03-14 | Trustees Of Princeton University | Method and apparatus for determining motion vectors for image sequences |
JP2003299040A (ja) * | 2002-04-03 | 2003-10-17 | Sony Corp | 動きベクトル検出装置及び方法 |
US20130251045A1 (en) * | 2010-12-10 | 2013-09-26 | Thomson Licensing | Method and device for determining a motion vector for a current block of a current video frame |
WO2013107833A1 (en) * | 2012-01-19 | 2013-07-25 | Thomson Licensing | Method and device for generating a motion field for a video sequence |
US20150208082A1 (en) * | 2014-01-21 | 2015-07-23 | Vixs Systems, Inc. | Video encoder with reference picture prediction and methods for use therewith |
-
2014
- 2014-04-02 EP EP14305485.6A patent/EP2927872A1/en not_active Withdrawn
-
2015
- 2015-03-27 JP JP2016560785A patent/JP2017515372A/ja active Pending
- 2015-03-27 EP EP15715202.6A patent/EP3127087B1/en not_active Not-in-force
- 2015-03-27 WO PCT/EP2015/056797 patent/WO2015150286A1/en active Application Filing
- 2015-03-27 CN CN201580027622.6A patent/CN106416244A/zh active Pending
- 2015-03-27 US US15/301,397 patent/US20170214935A1/en not_active Abandoned
- 2015-03-27 KR KR1020167027366A patent/KR20160141739A/ko unknown
Also Published As
Publication number | Publication date |
---|---|
CN106416244A (zh) | 2017-02-15 |
EP3127087A1 (en) | 2017-02-08 |
US20170214935A1 (en) | 2017-07-27 |
WO2015150286A1 (en) | 2015-10-08 |
JP2017515372A (ja) | 2017-06-08 |
EP3127087B1 (en) | 2018-08-29 |
EP2927872A1 (en) | 2015-10-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106254885B (zh) | 数据处理系统、执行运动估计的方法 | |
TWI520078B (zh) | Optical flow tracking method and device | |
KR102265315B1 (ko) | 영상 광류를 추정하는 방법 및 이를 위한 장치 | |
KR102214934B1 (ko) | 단항 신뢰도 및 쌍별 신뢰도 학습을 통한 스테레오 매칭 장치 및 방법 | |
US8311351B2 (en) | Apparatus and method for improving frame rate using motion trajectory | |
KR101885839B1 (ko) | 객체추적을 위한 특징점 선별 장치 및 방법 | |
US20160048978A1 (en) | Method and apparatus for automatic keyframe extraction | |
KR19980702922A (ko) | 깊이 모델링 및 이동 물체의 깊이 정보 제공방법 및 장치 | |
KR20100027703A (ko) | 정밀 움직임 예측을 기반으로 한 프레임 보간 장치 및 그 방법 | |
US10410358B2 (en) | Image processing with occlusion and error handling in motion fields | |
US11330286B2 (en) | Biasing selection of motion estimation vectors | |
US8300015B2 (en) | Method of detecting the movement of an entity equipped with an image sensor and device for implementing same | |
KR20160141739A (ko) | 모션 필드 추정 | |
JP2011141710A (ja) | 奥行推定装置、奥行推定方法および奥行推定プログラム | |
Ince et al. | Geometry-based estimation of occlusions from video frame pairs | |
Ricco et al. | Video motion for every visible point | |
KR101784620B1 (ko) | 스테레오 매칭을 통한 깊이값의 신뢰도 측정 방법 및 장치 | |
JP2006215655A (ja) | 動きベクトル検出方法、動きベクトル検出装置、動きベクトル検出プログラム及びプログラム記録媒体 | |
KR20140120527A (ko) | 스테레오 영상 매칭 장치 및 스테레오 영상 매칭 방법 | |
JP5059855B2 (ja) | 大域的動き推定方法 | |
JP4545211B2 (ja) | 移動物体検出装置 | |
US8179967B2 (en) | Method and device for detecting movement of an entity provided with an image sensor | |
Kondermann et al. | Postprocessing of optical flows via surface measures and motion inpainting | |
US10015521B2 (en) | Error detection in a motion estimation system | |
Turetken et al. | Temporally consistent layer depth ordering via pixel voting for pseudo 3D representation |