KR101638211B1 - 전역 움직임 보상에 기초하는 비디오 코딩 - Google Patents

전역 움직임 보상에 기초하는 비디오 코딩 Download PDF

Info

Publication number
KR101638211B1
KR101638211B1 KR1020117016796A KR20117016796A KR101638211B1 KR 101638211 B1 KR101638211 B1 KR 101638211B1 KR 1020117016796 A KR1020117016796 A KR 1020117016796A KR 20117016796 A KR20117016796 A KR 20117016796A KR 101638211 B1 KR101638211 B1 KR 101638211B1
Authority
KR
South Korea
Prior art keywords
images
coding
image
gmc
region
Prior art date
Application number
KR1020117016796A
Other languages
English (en)
Other versions
KR20110106387A (ko
Inventor
에두아르 프랑수와
도미니끄 또로
제롬 비에롱
오렐리 마르땡
Original Assignee
톰슨 라이센싱
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from FR0858833A external-priority patent/FR2940576A1/fr
Application filed by 톰슨 라이센싱 filed Critical 톰슨 라이센싱
Publication of KR20110106387A publication Critical patent/KR20110106387A/ko
Application granted granted Critical
Publication of KR101638211B1 publication Critical patent/KR101638211B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/577Motion compensation with bidirectional frame interpolation, i.e. using B-pictures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/107Selection of coding mode or of prediction mode between spatial and temporal predictive coding, e.g. picture refresh
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/137Motion inside a coding unit, e.g. average field, frame or block difference
    • H04N19/139Analysis of motion vectors, e.g. their magnitude, direction, variance or reliability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • H04N19/43Hardware specially adapted for motion estimation or compensation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/513Processing of motion vectors
    • H04N19/517Processing of motion vectors by encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/523Motion estimation or motion compensation with sub-pixel accuracy
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/527Global motion vector estimation

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

본 발명의 목적은 적어도 하나의 디지털 영상 시퀀스의 비디오 코딩을 위한 방법이고, 상기 시퀀스의 영상은 중간 영상(INT) 또는 중간 영상(INT)의 움직임 보상에 의해 코딩을 위한 기준으로서 사용되는 주요 영상(IC0, IC1)이 될 수 있다. 중간 영상(INT)은 주요 영상(IC0, IC1)으로부터 순방향(GM1) 및 역방향(GM0)에서 전역 움직임 보상(GMC)(200)에 기초하여 영역마다 코딩되고, 중간 영상(INT)의 영역은 전역 움직임 보상된 주요 영상 영역의 병합(205)에 의해 또는 통상의 코딩(203)에 의해 구성되고, 병합 및 통상의 코딩 사이의 선택은 전역 움직임 보상된 주요 영상 영역의 신호 사이의 일치의 측정의 결과에 따라 이루어진다(201, 202, 204).
본 발명의 목적은 또한 비디오 코딩 디바이스 및 비디오 디코딩 디바이스이다.

Description

전역 움직임 보상에 기초하는 비디오 코딩{VIDEO CODING BASED ON GLOBAL MOVEMENT COMPENSATION}
본 발명은 비디오 영상(video picture)의 시퀀스의 전역 움직임 파라미터(global motion parameter)의 추정 및 코딩을 위한 방법 뿐만 아니라 전역 움직임 보상에 기초하여 비디오 영상을 코딩하기 위한 방법 및 장치에 관한 것이다. 본 발명은 특히 비디오의 전송, 분석, 디코딩 및 트랜스코딩의 분야에 적용된다.
비디오 시퀀스는 본래 시간적 및 공간적 도메인의 모두에서 높은 통계적 리던던시(redundancy)를 포함한다. 이들 시퀀스가 전송되는 전송 매체 대역폭을 더 효율적으로 사용하기 위한 요구 및 이들의 저장 비용을 감소시키려는 목적은 비디오 압축의 매우 초기의 과제에 해당한다. 표준 비디오 압축 기술은 일반적으로 2개의 단계로 분할될 수 있다. 제1 목적은 공간적 리던던시를 감소시키고 또한 정지 동영상을 압축하기 위해 이를 수행하는 것이다. 영상은 먼저 픽셀들의 블록(예를 들어, MPEG-1/2/4 표준에 따라 4×4 또는 8×8)으로 분할되고, 주파수 도메인으로의 변환 후에, 눈이 덜 민감한 높은 주파수의 근사 또는 삭제를 가능하게 하는 정량화로 이어진다. 마지막으로 정량화된 데이터는 엔트로피 방식으로 코딩된다. 제2 단계의 목적은 시간적 리던던시를 감소시키는 것이다. 이 기술은 동일한 시퀀스 내에서 미리 디코딩된 하나 이상의 다른 기준 영상으로부터 기술(description)의 나머지에 있는 중간 영상이라 칭하는 영상이 예측되는 것을 가능하게 한다. 달리 말하면, 움직임의 추정이 수행된다. 이 기술은 예측될 것에 가장 양호하게 대응하는 블록에 대한 이들 기준 영상들을 탐색하는 것으로 이루어지고, 움직임 추정 벡터가 2개의 영상 사이의 블록의 변위에 대응하여 보유될 뿐만 아니라, 시각적 렌더링을 정밀화하는 것을 가능하게 하는 잔류 오차(residual error)도 보유된다..
특히 낮은 및 중간 비트레이트에서 코딩 효율을 향상시키기 위해, 따라서 등가의 비트레이트에 대해 디코딩된 비디오의 더 양호한 시각적 품질을 얻기 위해, 이하의 설명에서 약어 GMC(Global Motion Compensation)이라 지정되는 전역 움직임 보상이라 칭하는 기술이 제안되어 왔다. 비디오 압축을 위한 전역 움직임의 다수의 모델이 종래 기술에 존재한다. 이 모델 유형은 특히 "MPEG-4 파트 2"라 또한 칭하는 "MPEG-4 비쥬얼" 표준 뿐만 아니라 DivX 또는 Dirac 표준에서 도입된다.
소정의 영상에 대해 개발된 접근법에서, 상기 영상과 그 기준 영상 사이의 전역 움직임은 전체 영상에 걸쳐 또는 영역마다 추정된다. 관련된 전역 움직임에 의해 보상된 기준 영상은 이후 비전역 움직임에 의해, 즉 표준 코딩법에 의해 보상된 기준 영상과 동일한 방식으로 시간적 예측을 위한 가능한 후보자가 된다. 표준 코딩법은 일반적으로 시간적 예측이 다방향성일 때, 즉 다수의 기준 영상에 의존할 때 블록마다 또는 다수의 블록마다 움직임 벡터의 사용에 의존한다. GMC의 사용에 있어서의 관심사는 이것이 적용되는 영상의 구역들에서 움직임 정보의 비용의 상당한 감소이다. 시간적 예측은 또한 블록마다 병진 벡터(translation vector)에 기초하여 움직임의 표현에 대해 향상된다(블록마다가 아니라 픽셀마다 하나의 움직임 벡터).
비디오 코딩 체계는 이제 GMC 모델을 사용한다. 표제가 Using multiple global motion models for improved block - based video coding인 스테인바하(Steinbach), 비에간드(Wiegand) 및 지로드(Girod)에 의한 문헌, ICIP 1999, vol. 2, pp. 56-60, 1999년 10월은 이 모델 유형을 상세히 설명하고 있다. 이들 모델이 적용되는 각각의 영상에 대해, 전역 움직임 파라미터의 추정 및 코딩이 수행된다. 이는 타입 B 영상 및 중간 영상이라 또한 칭하는 양방향성 영상에서 특히 그러한데, 여기서 추정 및 코딩이 순방향 및 역방향으로 연속적으로 수행된다.
이 접근법은 다수의 단점을 제시한다. 파라미터의 세트의 추정이 일 방향에서 이어서 다른 방향에서 수행됨에 따라, 계산 복잡성이 상당해진다. 추정은 일반적으로 현재 영상(또는 이 영상의 영역)과 보상된 기준 영상(또는 이 영상의 영역) 사이의 평균 제곱 오차를 최소화하는 전역 움직임을 식별하는 것과 그 동안에 최소 제곱의 해를 구하는 것으로 이루어진다. 이 추정은 그리스 문자 θ에 의해 나타내는 파라미터 또는 벡터의 세트를 유도한다. 파라미터(θ)의 벡터의 추정(
Figure 112011055280411-pct00001
)은 이하의 식을 사용하여 얻어질 수 있고,
Figure 112011055280411-pct00002
(1)
여기서, p=(x,y)는 영상의 픽셀의 위치를 나타내고, R은 프로세싱 영역을 나타내고, B는 코딩될 현재 영상을 나타내고, Iref는 기준 영상을 나타내고, (uθ, vθ)는 움직임 전역 파라미터(θ)의 벡터의 함수인 움직임 벡터의 성분을 나타낸다.
예를 들어 세밀한 모델의 경우에, θ는 6개의 파라미터의 벡터를 표현하고, 따라서 전역 움직임마다 추정될 2×6개의 파라미터 또는 순방향 움직임에 대해 6개, 역방향 움직임에 대해 6개의 파라미터가 존재한다.
일반적으로, 최소화될 함수는 테일러 전개(Taylor development)에 기초하는 근사에 의해 선형화된다. 이는 이하의 식에 의해 설명될 수 있는데,
Figure 112011055280411-pct00003
(2)
여기서, Bt, Bx 및 By는 신호 B의 수평 공간적 및 수직 공간적 시간적 구배를 각각 나타낸다. 최소 제곱의 해는 이후 N개의 방정식에서 선형 시스템의 해로 복귀하고, N은 전역 움직임 모델의 크기에 대응한다.
최소 가중 제곱의 반복적인 해가 일반적으로 전역 움직임에 응답하지 않는 이미지 샘플의 문제점을 해결하기 위해 적용되고, 상기 샘플은 일반적으로 용어 "가외치(outlier)"에 의해 나타낸다. 표현 "M-추정자"에 의해 나타낸 이 추정자 유형의 설명은 표제가 Explorary Data Analysis인 제이. 더블유. 터키(J. W. Tukey)에 의한 문헌, 1977년, 애디슨-웨슬리(Addison-Wesley), 미국 매사추세츠주 리딩 소재에서 발견될 수 있다.
다른 단점은 추정이 일 방향에서 이어서 다른 방향에서 수행되는 사실에 기인한다. 따라서, 전방 및 후방 추정된 움직임 파라미터 사이에 불일치가 존재할 수 있다. 이는 전방 지시기 또는 후방 지시기가 강성 텍스처(rigid texture)를 움직임 보상하기 위한 중간 영상의 코딩을 위해 국부적으로 선택되는 접근법에서 방해 요인이 될 수 있다. 이는 특히 표제가 A content - based video coding approach for rigid and non - rigid textures인 은디지키-냐(Ndjiki-Nya), 힌츠(Hinz), 스튀버(Stuber) 및 비에간드(Wiegand)에 의한 문헌, ICIP'06, 미국 조지아주 애틀란타 소재, pp. 3169-3172, 2006년 10월에 제안된 접근법에서 특히 해당한다. 움직임 불일치, 심지어 약간의 불일치가 신호의 시간적 변동에 기인하여 불일치성 시각 효과를 가질 수 있다.
제3 단점은 움직임 파라미터들이 순방향 및 역방향의 모두에 대해 코딩되는 사실에 의한 결과이다. 계층 타입 B GOP(영상의 그룹) 구조가 이용되면, 이들 파라미터의 코딩 비용은 중요하게 될 수 있다. 이는 낮은 또는 매우 낮은 전송 비트레이트가 소정의 애플리케이션에 대해 목표화될 때 문제점이 될 수 있다.
전역 움직임 보상(GMC)을 사용하는 비디오 영상의 코딩에 관련하는 것에 대해, 통상의 체계에서, 심지어 순방향 및 역방향 예측의 혼합물을 사용하는 양방향성 예측의 경우에도, 보상은 일반적으로 단지 일방향, 순방향 및/또는 역방향에서만 적용되고, 이는 순방향 및 역방향 보상된 버전 사이의 시간적 불일치를 발생시킬 수 있고 관련된 영역에서 시간적 변동을 통한 시각적 디스플레이를 열화시킬 수 있다. 더욱이, 전역 움직임으로부터 재구성된 기준 영역으로서 사용하는 중간 영상은 순방향 및 역방향 예측 사이의 이 시간적 불일치 정보를 실제로 사용하지 않는다. 현존하는 코딩 체계의 다른 단점은 전역 움직임을 사용하는 영역이 시그널링되어야 하는 것이다. 이는 통상적으로 영상의 각각의 블록에 대해 정보의 아이템을 코딩하라는 요구를 함축한다. 게다가, 코딩 레시듀가 일반적으로 코딩되고 이러한 경우가 아니라면 이 코딩 레시듀는 디코더에게 시그널링되어야 한다. GMC 기술에 기초한 디코딩 방법이 완전히 결정된 것이고 또한 비디오 스트림의 디코딩을 수행하는 단말의 복잡성에 적응 가능하지 않은 것을 주목하는 것이 또한 중요하다.
본 발명의 목적은 위에 언급된 단점들을 주목할만하게 극복하는 것이다.
본 발명의 목적은 특히 위에서 언급된 단점들을 극복하는 것이다.
이를 위해, 본 발명의 목적은 영상의 그룹(GOP)으로 구성된 비디오 영상의 시퀀스의 움직임 파라미터의 추정 및 코딩을 위한 방법이고, GOP는 적어도 2개의 기준 영상 및 적어도 하나의 중간 영상을 포함하고, GOP 내의 적어도 하나의 영상 또는 기준 영상부에 대한 영상 또는 소정의 영상 부분의 움직임 벡터의 필드의 계산은 전역 움직임 파라미터의 벡터의 계산에 기초하고, "역방향" 파라미터의 벡터는 영상 또는 소정의 영상부와 이에 선행하는 영상 또는 미리 코딩된 기준 영상부 사이의 움직임 벡터의 필드를 기술하고, "순방향" 파라미터의 벡터는 영상 또는 소정의 영상부와 이에 선행하는 영상 또는 미리 코딩된 기준 영상부 사이의 움직임 벡터의 필드를 기술한다. 영상 또는 중간 영상부와 관련된 "순방향" 및 "역방향" 파라미터의 벡터는 2개의 영상 또는 기준 영상부 사이의 움직임을 설명하는 파라미터의 벡터에 따라 표현된다.
전역 움직임 파라미터의 소정의 벡터는 M, T의 쌍으로 구성될 수 있고, 쌍의 제1 항(M)은 2×2 차원의 행렬에 대응하고, 쌍의 제2 항(T)은 2×1 차원의 행렬에 대응한다.
움직임의 전역 추정은 표현
Figure 112011055280411-pct00004
에 따라 영상 또는 기준 영상의 픽셀을 연결하는 전역 움직임 파라미터의 벡터 θ=(M, T)를 추정하는 방식으로 소정의 GOP의 2개의 영상 또는 기준 영상부 사이에서 수행되고,
여기서,
XA는 좌표 xA 및 yA에서 제1 기준 영상의 픽셀의 위치를 표현하고,
XC는 좌표 xC 및 yC에서 제2 기준 영상(C)의 픽셀의 위치를 표현한다.
상기 GOP의 2개의 영상 또는 기준 영상의 부분에 대한 소정의 GOP의 영상 또는 중간 영상의 전역 움직임 "역방향" 파라미터 θ0=(M0, T0) 및 "순방향" 파라미터 θ1=(M1, T1)의 벡터의 추정은 예를 들어 이하의 식에 따라 영상의 픽셀 또는 기준 영상부에 영상의 픽셀 또는 중간 영상부를 연결하는 방식으로 수행된다.
Figure 112011055280411-pct00005
본 발명의 양태에 따르면, 영상 또는 중간 영상 부분의 역방향 θ0=(M0, T0) 및 순방향 θ1=(M1, T1) 전역 움직임 파라미터의 벡터의 추정은 이하의 식
Figure 112011055280411-pct00006
Figure 112011055280411-pct00007
을 검증하는 두 개의 파라미터 α0 및 α1 로부터 θ0 및 θ1을 추론함으로써 2개의 자유도로 제한된다.
파라미터(α0)의 추정(
Figure 112011055280411-pct00008
)은 이하의 식을 사용하여 얻어질 수 있고,
Figure 112011055280411-pct00009
여기서,
Figure 112011055280411-pct00010
이고,
Bx[p] 및 By[p]는 중간 영상의 신호의 수평 공간적 및 수직 공간적 구배이고,
uθ 및 vθ는 전역 움직임 파라미터 벡터(θ)에 따른 움직임 벡터의 성분이다.
예를 들어, 단지 2개의 파라미터(α0, α1)가 전역 파라미터 벡터(θ0, θ1)를 표현하도록 코딩된다.
본 발명의 다른 양태에 따르면, 중간 영상의 "역방향" θ0=(M0, T0) 및 "순방향" θ1=(M1, T1) 전역 움직임 파라미터의 벡터의 추정은 이하의 식
Figure 112011055280411-pct00011
Figure 112011055280411-pct00012
을 검증하는 파라미터 α로부터 θ0 및 θ1을 추론함으로써 하나의 자유도로 제한된다.
파라미터 α의 추정치(
Figure 112011055280411-pct00013
)는 예를 들어 이하의 식을 사용하여 얻어지고,
Figure 112011055280411-pct00014
여기서,
Figure 112011055280411-pct00015
이고,
Figure 112011055280411-pct00016
이고,
θ"는 파라미터 쌍 ((I-M)-1×M, (I-M)-1×T)에 대응하고,
u"θ 및 v"θ는 전역 파라미터 벡터(θ")에 따른 움직임 벡터의 성분이다.
예를 들어, 단지 파라미터 α만이 전역 파라미터 벡터(θ0 및 θ1)를 표현하도록 코딩된다.
본 발명의 목적은 또한 적어도 하나의 비디오 시퀀스를 위한 코딩 디바이스이고, 상기 시퀀스는 영상의 그룹(GOP)으로 구성되고, GOP는 적어도 2개의 기준 영상과 적어도 하나의 중간 영상을 포함한다. GOP 내의 기준 영상부의 적어도 하나의 영상에 대한 소정의 영상부 또는 영상의 움직임 벡터 필드는 전역 움직임 파라미터 벡터를 계산함으로써 추정된다. 영상 또는 중간 영상부와 관련된 "순방향" 및 "역방향" 파라미터 벡터는 본 발명에 따른 코팅 방법을 구현함으로써 코딩된다.
본 발명의 목적은 또한 영상의 그룹(GOP)으로 구성된 비디오 영상 시퀀스를 디코딩하기 위한 디바이스이고, GOP는 적어도 2개의 기준 영상 및 적어도 하나의 중간 영상을 포함한다. GOP를 갖는 적어도 하나의 영상 또는 하나의 기준 영상부에 대한 소정의 영상부 또는 영상의 움직임 벡터의 필드는 재구성되고, 영상 또는 중간 영상부와 관련된 상기 필드의 "순방향" θ1=(M1, T1) 및 "역방향" θ0=(M0, T0) 파라미터의 벡터가 2개의 영상 또는 기준 영상부 사이의 움직임을 설명하는 파라미터의 적어도 하나의 벡터에 이들 벡터를 연결하는 적어도 하나의 파라미터로부터 추론되고, 상기 파라미터는 본 발명에 따른 코딩 방법을 사용하여 미리 코딩되어 있다.
본 발명의 목적은 또한 적어도 하나의 디지털 영상 시퀀스의 비디오 코딩을 위한 방법이고, 상기 시퀀스의 영상은 중간 영상 또는 중간 영상의 움직임 보상에 의해 코딩을 위한 기준으로서 사용된 주요 영상일 수 있다. 중간 영상은 주요 영상으로부터 순방향 및 역방향에서 전역 움직임 보상(GMC)에 기초하여 영역마다 코딩되고, 중간 영상의 영역은 전역 움직임 보상된 주요 영상 영역의 병합에 의해 또는 통상의 코딩에 의해 구성되고, 병합 및 통상의 코딩 사이의 선택은 전역 움직임 보상된 주요 영상 영역의 신호 사이의 일치의 측정의 결과에 따라 이루어진다.
예를 들어, 기준 영상은 이들 영상의 다른 픽셀로부터 GMC형 픽셀을 구별할 수 있게 하는 방식으로 중간 영상과 상기 영상들과 관련된 적어도 하나의 분할맵(segmentation map)이 계산되기 전에 코딩된다.
전역 움직임 파라미터가 추정되고 중간 영상의 코딩 전에 코딩될 수 있다.
본 발명의 양태에 따르면, 움직임 보상된 주요 영상은 적어도 전역 움직임 파라미터를 사용하여 주요 영상으로부터 추론된다.
움직임 보상된 영상과 관련된 분할맵은 적어도 움직임 보상 파라미터를 사용하여 전치에 의해 주요 영상과 관련된 분할맵으로부터 추론될 수 있다.
코딩될 중간 영상 뿐만 아니라 그 코딩을 위해 사용된 움직임 보상된 주요 영상은 예를 들어 프로세싱 영역으로 분할되고, 프로세싱 영역은 움직임 보상된 주요 영상의 프로세싱 영역에 대응한다.
본 발명의 실시예에 따르면, 움직임 보상된 주요 영상의 프로세싱 영역이 GMC 픽셀의 이들의 비율에 따라 분류되고, 상기 비율은 0과 1 사이에 포함된 임계치(η)에 비교되고, 영역은 상기 비율이 η보다 클 때 "GMC"로 분류되고, 반대 경우에 "비GMC"로 분류된다.
본 발명의 다른 실시예에 따르면, 움직임 보상된 영상의 영역당 GMC 픽셀의 비율이 분할맵으로부터 추론된다.
중간 영상의 코딩될 영역의 코딩을 기준으로서 사용된 움직임 보상된 영상 중 하나의 적어도 하나의 영역이 "비GMC"로 분류되면, 상기 영역의 통상의 코딩이 수행될 수 있다.
본 발명의 다른 양태에 따르면, 중간 영상의 영역의 코딩을 위한 기준으로서 사용되는 움직임 보상된 영상의 영역이 "GMC"로 분류되면, 상기 영역의 일치성은 전역 움직임 보상된 주요 영상의 영역의 신호의 비교에 의해 분석된다.
일치가 분석되는 전역 보상 파라미터를 고려함으로써 움직임 보상된 주요 영상의 영역은 예를 들어 가장 가까운 픽셀로의 정확도의 변환 벡터를 사용하여 제2 시간에 움직임 보상된다.
제2 움직임 보상의 변환 벡터가 "블록 정합"형 추정기를 사용하여 계산될 수 있다.
실시예에 따르면, 코딩될 영역의 평균 제곱 오차(D)가 계산되고, 높은 로컬 구배를 갖는 영역으로부터 낮은 로컬 구배를 갖는 영역을 구별하는 방식으로 사전 규정된 임계치(
Figure 112011055280411-pct00017
)에 비교되고, 영역은 낮은 로컬 구배를 갖는 것으로 고려되고, D가
Figure 112011055280411-pct00018
미만이면 "일치"하는 것으로 분류되고 반대의 경우에 높은 로컬 구배를 갖는 것으로 고려된다.
평균 제곱 오차(D)보다 높은 한계(S)가 예를 들어 현재 영역의 로컬 구배의 값을 사용하여 계산되고, 평균 제곱 오차(D)는 상기 한계(S)와 비교되고, 현재 영역은 D가 이 한계보다 작을 때 "일치"로 분류되고 반대의 경우에 "비일치"로 분류된다.
코딩될 영역이 "일치"로 분류될 때, 움직임 보상된 주요 영상의 대응 영역의 병합이 수행될 수 있다.
병합은 예를 들어 "그래프 절단(Graph cut)"형 알고리즘을 사용하여 수행된다.
실시예에 따르면, 프로세싱되는 영역은 "비일치"로 분류되고, 상기 영역의 통상의 코딩이 수행된다.
본 발명의 목적은 또한 적어도 하나의 디지털 영상 시퀀스의 비디오 영상 코딩을 위한 디바이스이고, 상기 시퀀스의 영상은 중간 영상 또는 중간 영상의 움직임 보상에 의한 코딩을 위한 기준으로서 사용되는 주요 영상일 수 있다. 코딩 디바이스는 주요 영상으로부터 순방향 및 역방향에서 전역 움직임 보상(GMC)에 기초하여 프로세싱 영역마다 중간 영상을 코딩하기 위한 수단을 포함하고, 중간 영상의 프로세싱 영역은 주요 영상의 대응 영역의 병합에 의해 또는 통상의 코딩에 의해 코딩되고 코딩될 영역의 분석에 의해 병합 및 통상의 코딩 사이에서 자동으로 선택한다.
본 발명의 목적은 또한 본 발명에 따른 코딩을 위한 방법을 사용하여 미리 코딩된 적어도 하나의 디지털 영상 시퀀스의 비디오 영상 디코딩을 위한 디바이스이고, 상기 시퀀스의 영상은 중간 영상 또는 중간 영상의 움직임 보상에 의한 디코딩을 위한 기준으로서 사용되는 주요 영상일 수 있다. 중간 영상은 디코딩된 주요 영상으로부터 순방향 및 역방향으로 전역 움직임 보상(GMC)에 기초하여 영역마다 디코딩되고, 중간 영상의 영역은 전역 움직임 보상된 주요 영상 영역의 병합에 의해 또는 통상의 디코딩에 의해 재구성되고, 병합 및 통상의 디코딩 사이의 선택은 전역 움직임 보상된 주요 영상 영역의 신호 사이의 일치의 측정의 결과에 따라 이루어진다.
본 발명은 특히 코딩된/디코딩된 비디오 시퀀스의 시각적 품질을 잠재적으로 향상시키면서 요구되는 비트레이트의 감소에 의해 코딩 효율을 향상시키는 장점을 갖는다. 단지 몇몇 전경 물체가 장면에서 이동하는 시퀀스에서, 이 방법의 사용은 현존하는 기술에 대한 압축된 비디오 스트림의 비트레이트의 상당한 감소를 유도한다. 더욱이, 이들 영역에서 신호의 시간적 변동에 기인하는 시각적 아티팩트는 방법의 전개에 의해 제한된다.
본 발명의 다른 특징 및 장점은 첨부 도면과 관련하여 구성된 비한정적인 예로서 제공된 이어지는 상세한 설명의 보조에 의해 나타나게 될 것이다.
도 1은 2개의 기준 영상에 기초하는 3개의 중간 영상을 포함하는 GOP의 예를 도시하는 도면.
도 2는 코딩이 2개의 기준 영상에 기초하는 중간 영상의 경우를 도시하는 도면으로서, 이 경우는 본 발명의 실시예를 제공하는 방식으로 사용되는 도면.
도 3은 주요 영상과 중간 영상 사이의 시간적 의존성의 원리를 도시하는 도면.
도 4는 본 발명에 따른 코딩을 위한 방법의 실시예를 제공하는 도면.
도 5는 2개의 상이한 영상의 영역의 일치를 테스트하기 위한 방법을 도시하는 도면.
도 1은 2개의 기준 영상에 기초하는 3개의 중간 영상을 포함하는 GOP의 예를 도시한다. 달리 말하면, 이 예는 3개의 레벨에서 계층적 GOP를 표현한다. 2개의 영상(P0, P4)이 중간 영상(B1, B2, B3)을 코딩하기 위해 기준으로서 사용된다. 다음에, 영상(B1)에 대해 θ10 및 θ14, 영상(B2)에 대해 θ20 및 θ24, 영상(B3)에 대해 θ30 및 θ34 및 영상(P4)에 대해 θ40인 GOP당 코딩하기 위해 7개의 세트의 파라미터가 존재한다. 이 예에서, 전역 움직임 추정은 기준 영상(P0 및 P4) 사이에서 수행되고, 상기 움직임 추정은 파라미터 세트(θ40)를 유도한다.
본 발명의 범위 내에서, 상이한 전역 움직임 파라미터의 추정 및 코딩이 설정될 때 움직임 파라미터의 자유도를 제한하는 것이 제안된다. 이는 2개의 기준 영상 사이의 전역 움직임에 기초하여 구현될 수 있다. 이 제약은 이어서 단지 순방향 움직임 파라미터 및 역방향 움직임 파라미터의 모두를 설명하도록 추정되고 코딩될 파라미터인 하나 또는 2개의 파라미터를 사용하여 표현된다.
본 발명은 특히 이들 파라미터의 추정을 위한 방법을 제안한다.
도 2는 코딩이 2개의 기준 영상에 기초하는 중간 영상의 경우를 도시하고, 이 경우는 본 발명의 실시예를 제공하는 방식으로 사용된다.
중간 영상(B)은 기준 영상(A 및 C) 사이에 위치되고, 이들 사이에 전역 움직임의 "역방향" 추정이 수행되고, 관련된 파라미터(θ)의 벡터가 코딩되어 있다. 사용된 움직임의 모델은 이하의 식에 의해 표현되는 정제된 모델이라 또한 칭하는 선형 모델이고,
Figure 112011055280411-pct00019
(3)
여기서, XK=(xK, yK)는 A, B 또는 C의 값인 영상(K, K)의 픽셀의 위치를 표현하고, I는 차원 2×2의 단위 행렬이고, M은 차원 2×2의 행렬이고, T는 원소가 전역 움직임 파라미터인 차원 2×1의 행렬이다.
더욱이, 이하의 식을 사용하여 XA 및 XC를 표현하는 것이 가능하다.
Figure 112011055280411-pct00020
(4)
미리 추정되고 코딩되어 있는 θ=(M, T)를 인지하면, 목표를 위해 추구되는 것은 특히 이들의 코딩 비용을 제한하면서 "역방향" θ0=(M0, T0) 및 "순방향" θ1=(M1, T1) 전역 움직임 파라미터를 식별하고 코딩하는 것이다. 다른 목적은 중간 영상(B)에서의 움직임 보상의 양호한 시간적 일치성을 보장하기 위해 θ0, θ1 및 θ 사이의 일치성을 보장하는 것이다.
이전에 인용된 이들의 목적을 얻기 위해, 예를 들어 하나가 2개의 자유도를 갖고 다른 하나가 하나의 자유도를 갖는 2개의 해결책 유형을 구현하는 것이 가능하다. 이들 2개의 예는 이하의 설명에서 설명된다.
본 발명의 제1 실시예는 2개의 자유도를 갖고, 원리적으로 파라미터(θ0 및 θ1)에 독립적인 제약을 부여해야 한다. 이들 제약은 쌍(M, T)에 비례하도록 쌍(M0, T0) 및 (M1, T1)에 부여된다. 이는 이하의 식에 의해 변환되는데,
Figure 112011055280411-pct00021
(5)
여기서, θ'=(M', T')는 A로부터 C로의 전역 움직임에 대응한다. 이어서, M'=I-(I-M)-1이고 T'=-(I-M)-1×T인 것을 식 (3)으로부터 증명하는 것이 용이하다. 이 경우에, 단지 2개의 스칼라 파라미터(α0 및 α1)가 순방향 및 역방향 전역 움직임을 특징화하도록 추정되고 코딩되어야 한다.
코더 레벨에서, α0의 움직임 추정은 이어서 α0의 추정인 이하의 식
Figure 112011055280411-pct00022
를 해결하기 위해 복귀된다.
Figure 112011055280411-pct00023
(6)
여기서,
Figure 112011055280411-pct00024
는 전역 움직임(θ0)에 의해 보상된 이전의 영상과 현재 영상 사이의 구배이고 움직임 보상된 기준 영상과 현재 영상 사이의 차이에 기초한다.
이 식의 해는 이하의 식을 유도하는데,
Figure 112011055280411-pct00025
(7)
여기서,
Figure 112011055280411-pct00026
이다.
최소 가중 제곱 유형의 반복적인 해에서, 단지 시간적 구배
Figure 112011055280411-pct00027
가 α에 의존한다. 다른 항들은 단지 제1 반복에서 계산될 수 있다. 움직임 추정은, 단일의 파라미터가 N 대신에 추정되기 때문에 식 (2)에 따라 완전한 추정에 대해 명백하게 간단화되고, N은 움직임 모델의 치수이다.
α1의 추정을 위해, 식 (7)에서 θ'로 θ를, θ1으로 θ0를 대체하는 것이 충분하다.
코더 또는 디코더의 레벨에서, θ가 미리 코딩(또는 디코딩)되어 있는 것이 인지되면, 이어서 벡터(θ0, θ1)의 파라미터의 세트 대신에 단지 파라미터(
Figure 112011055280411-pct00028
,
Figure 112011055280411-pct00029
)만을 코딩(또는 디코딩)하면 충분하고, 이는 전역 움직임 정보를 코딩하는 비용을 상당히 감소시킨다. θ0 및 θ1은 이어서 식 (5)를 사용하여
Figure 112011055280411-pct00030
,
Figure 112011055280411-pct00031
및 θ로부터 추론된다.
본 발명의 제2 실시예는 원리로서 일 자유도에서 파라미터(M0 및 T0)에 제약을 부여하고 M1 및 T1의 값을 이들로부터 추론해야 한다. 이 경우에, 단지 하나의 스칼라 파라미터(α)는 순방향 및 역방향 전역 움직임을 특징화하기 위해 추정되고 코딩(또는 디코딩)되어야 한다.
M0 및 T0는 이어서 M 및 T에 비례하도록 강요된다. 이는 이하의 식에 의해 변환된다.
Figure 112011055280411-pct00032
(8)
식 (3), (4) 및 (8)을 조합함으로써, 이하의 식에 의해 쌍(M1, T1)을 쌍(M, T)에 연결하는 것이 용이하다.
Figure 112011055280411-pct00033
(9)
따라서, 코딩된(또는 디코딩된) α를 갖고 θ를 인지하여, θ0는 식 (8) 및 (9)에 기인하여 θ1에 의해 추론된다.
코더에서, α의 추정을 위해, 부분 최적화 해결책은 식 (7)에 기초하는 동안 단지 일방향으로 고려하면서 진행하는 것이다. 최적화는 또한 예를 들어 이하의 식에 따라 순방향(파라미터 θ0) 및 역방향(파라미터 θ1)의 두 움직임 보상된 영상을 고려함으로써 이루어질 수 있다.
Figure 112011055280411-pct00034
(10)
여기서, θ"=((I-M)-1×M, (I-M)-1×T)이다. 이 식의 해는 이어서 이하의 식으로 유도되고,
Figure 112011055280411-pct00035
(11)
여기서,
Figure 112011055280411-pct00036
이고,
Figure 112011055280411-pct00037
이다.
도 3은 설명의 나머지에서 주요 영상이라 칭하는 기준 영상과 중간 영상 사이의 시간적 의존성의 원리를 도시한다. 도면의 예는 2개의 주요 영상(IC0, IC1)으로 형성되고 하나 이상의 중간 영상(INT)을 프레임 형성하는 약어 GOP(영상의 그룹)으로 일반적으로 나타내는 영상의 그룹을 고려한다. 본 발명에 따른 코딩을 위한 방법은 예를 들어 하나 이상의 블록 또는 매크로블록에 대응하는 것이 가능한 프로세싱 영역에서 작동한다.
GOP IC0 및 IC1의 주요 영상이 먼저 코딩된다. 코딩은 통상의 접근법에 따라 수행되고, 코딩 툴에 기초하는 GMC가 또한 구현된다. 따라서, 주요 영상의 몇몇 영역이 코딩되거나 기준으로서 기능할 수 있고, GMC 예측 및 다른 것은 그렇지 않을 수 있다. 이어서 영역 및 따라서 이를 구성하는 픽셀이 GMC 유형을 갖는지 아닌지의 여부를 지시하는 2진 분할맵이 코더 및 디코더 레벨에서 추론하는 것이 가능하다.
본 발명은 중간 영상(INT)의 코딩에 특히 관련된다. 소정의 중간 영상으로 코딩될 영역에서, 이하의 설명에서 GM0 및 GM1으로서 나타내는 순방향 및 역방향 전역 움직임 파라미터가 미리 추정되고 코딩되어 있는 것으로 가정된다. 주요 영상(IC0 및 IC1)은 기준 영상으로서 기능하기 위해 재구성되고, 미리 코딩된 중간 영상이 또한 기준 영상으로서 이용 가능할 수 있다는 것이 가설로서 또한 취해진다. 마지막으로, 2진 분할맵이 인코더의 판정 모듈에 의해 각각의 영상에 대해 계산되고, GMC 유형인지 아닌지 여부를 기준 영상의 각각의 픽셀에 대해 지시한다.
도 4는 본 발명에 따른 코딩을 위한 방법의 실시예를 제공한다.
코딩을 위한 방법은 다수의 단계로 분할될 수 있다.
제1 단계(200)는 주요 영상(IC0 및 IC1)의 전역 움직임 보상(GMC)을 수행한다. 인코더의 판정 모듈에 의해 또는 디코더에서 코딩 모드의 디코딩에 의해 미리 결정되는 이들의 관련된 분할맵(S0 및 S1)은 입력 뿐만 아니라 움직임 파라미터 추정 모듈(208)에 의해 미리 결정된 움직임 파라미터(GM0 및 GM1)에 사용된다. 다음, 영상(IG0 및 IG1)이 얻어지고, 이 영상들은 움직임 모듈(GM0 및 GM1)에 따라 움직임 보상된 영상(IC0 및 IC1)에 각각 대응한다. 더욱이, 영상(IG0 및 IG1)과 관련된 2개의 분할맵(SG0 및 SG1)은 움직임 모드(GM0 및 GM1)에 따른 움직임 보상에 의해 분할맵(S0 및 S1)으로부터 변환된다.
코딩된 중간 영상은 프로세싱 영역으로 분할된다. 이 분할은 자동이거나 적응성일 수 있다. 예를 들어, 프로세싱 영역은 코딩될 영상의 매크로블록에 대응할 수 있다. 다음에, 단계의 연속이 코딩될 중간 영상의 영역의 각각에 대해 적용된다. 설명의 나머지에서, 프로세싱되는 영역은 "현재 영역"이라 칭한다.
대응 영역의 분류(201)가 분할맵(SG0 및 SG1)에 기초하여 수행된다. 각각의 영역은 예를 들어 2개의 가능한 클래스로부터 일 클래스와 관련된다. 상기 클래스의 각각은 각각 "GMC" 또는 "비GMC" 영역을 식별한다. 따라서, 현재 영역에 대해, IG0와 관련된 변수(C0)는 이 클래스 정보와 관련된다. 동일한 방식으로, 변수(C1)가 IG1과 관련된다. 예를 들어, 2개의 클래스가 고려된 영역에서 영상의 픽셀 분류된 "GMC"의 비율을 카운팅하고 0과 1 사이에 포함된 소정의 임계치(η)와 이 비율을 비교함으로써 형성될 수 있고, 이는 분할맵(SG0 및 SG1)을 사용한다.
맵(S0, S1, SG0 및 SG1)을 사용하지 않는 것도 또한 가능하다. 이 경우에, C0 및 C1은 예를 들어 "GMC"로서 계통적으로 고려된다.
다음, C0 및 C1이 GMC 유형을 갖는지 여부가 검증된다(202). 이 실시예에서, C0 또는 C1이 "GMC" 유형을 갖지 않으면, 영역의 통상의 코딩(2032)이 수행된다. 이 통상의 코딩은 예를 들어 공간적 예측형, 단방향성 시간적 예측 또는 양방향성 시간적 예측일 수 있다. 통상의 코딩은 여전히 GMC 예측을 이용할 수 있지만, 이는 무엇보다도 2진 스트림 내의 디코더에 신호화되어야 하는 일 모드일 것이다.
C0 및 C1이 "GMC" 유형을 가질 때, 영상(IG0 및 IG1)으로 고려되는 영역에서의 일치가 테스트된다(204). 영상 영역 사이의 일치의 설명이 상세한 설명에서 이하에 상세히 설명된다.
상기 영상의 콘텐츠가 일치하는 것으로 고려되면, 신호는 IG0 및 IG1의 프로세싱된 영역의 병합(205)에 의해 생성되고, 이는 어떠한 정보도 코딩될 필요가 없는 것을 암시한다. 병합에 의해 구성된 영역은 임의의 추가 정보의 코딩을 필요로 하지 않고, 따라서 널 코딩 비용에 대응하고, 이는 명백하게는 상기 영역이 다수이면 매우 유리하다. 이와 같이 구현된 코딩 모드는 어떠한 신호화 정보를 필요로 하지 않는 암시 모드이다. 코더측에서 테스트된 이 코딩 모드는 또한 디코더측에서 테스트된다. 디코더는 이어서 현재 영역이 이 암시적인 GMC 코딩 모드에 따라 구성되는지 아닌지 여부를 신호화 정보 없이 자체로 인지할 수 있다.
콘텐츠가 특히 상이하고 따라서 일치가 검증되지 않으면, 영역의 통상의 코딩(203)이 수행된다. GMC 예측은 여전히 가능한 예측 모드 중 하나로서 사용될 수 있다.
따라서, 본 발명에 따른 방법을 사용하여 코딩된 중간 영상은 다른 중간 영상의 코딩을 위한 기준으로서 사용될 수 없는 예측된 영역(207)으로 구성되고, 재구성된 영역(206)은 그 부분에서 다른 영상의 코딩을 위한 기준으로서 사용될 수 있다.
인코더측에서 전술된 코딩을 위한 방법은 디코더에 대칭적으로 적용될 수 있다. GOP IC0 및 IC1의 주요 영상이 먼저 디코딩된다. 디코더는 주요 영상으로부터 디코딩된 코딩 모드로부터, 영역 및 따라서 이를 구성하는 픽셀이 GMC 유형인지 아닌지 여부를 지시하는 2진 분할맵(S0 및 S1)을 각각의 주요 영상(IC0 및 IC1)에 대해 구성한다.
본 발명은 특히 중간 영상(INT)의 디코딩에 관한 것이다. 소정의 중간 영상의 디코딩될 영역에 대해, GM0 및 GM1으로서 나타난 순방향 및 역방향 전역 움직임 파라미터가 미리 디코딩된다.
디코딩을 위한 방법은 다수의 단계로 분할될 수 있다.
제1 단계는 주요 영상(IC0 및 IC1)의 전역 움직임 보상(GMC)을 수행한다. 영상(IG0 및 IG1)이 이어서 얻어지고, 이들 영상은 움직임 모델(GM0 및 GM1)에 따라 움직임 보상된 영상(IC0 및 IC1)에 각각 대응한다. 더욱이, 영상(IG0 및 IG1)과 관련된 2개의 분할맵(SG0 및 SG1)이 움직임 모델(GM0 및 GM1)에 따른 움직임 보상에 의해 분할맵(S0 및 S1)으로부터 변환된다.
디코딩될 중간 영상은 프로세싱 영역으로 분할된다. 이 분할은 자동 또는 적응성일 수 있다. 예를 들어, 프로세싱 영역은 코딩될 영상의 매크로블록에 대응할 수 있다. 단계의 연속이 이어서 코딩될 중간 영상의 영역의 각각에 대해 적용된다.
대응 영역의 분류가 분할맵(SG0 및 SG1)에 의존하여 수행된다.
이어서 C0 및 C1이 GMC 유형을 갖는지가 검증된다. 이 실시예에서, C0 또는 C1이 "GMC" 유형을 갖지 않으면, 현재 영역에 대한 코딩 정보(코딩 모드, 관련된 파라미터-예를 들어 인트라 예측의 방향, 움직임 벡터-예측 잔류물)의 디코딩이 수행된다. 이 정보는 이어서 2진 스트림으로 존재해야 한다.
C0 및 C1이 "GMC" 유형을 가질 때, 영상(IG0 및 IG1)이 고려된 영역에서의 일치가 테스트된다.
상기 영상의 콘텐츠가 일치하는 것으로 고려되면, 신호는 IG0 및 IG1의 프로세싱된 영역의 병합에 의해 생성되고, 이는 어떠한 정보도 디코딩될 필요가 없는 것을 암시한다. 병합에 의해 구성된 영역은 임의의 추가 정보의 디코딩을 필요로 하지 않는다.
콘텐츠가 현저하게 상이하고 따라서 일치가 검증되지 않으면, 코딩 정보의 디코딩이 수행된다. 이 정보는 이어서 2진 스트림으로 존재해야 한다.
도 5는 2개의 상이한 영상 위의 영역의 일치를 테스트하기 위한 방법을 도시한다. 영상들 사이의 일치의 개념은 이전의 도면에서 소개되었다. 현재 영역에서의 2개의 신호(IG0 및 IG1)의 일치 측정은 평균 제곱 오차와 같은 왜곡의 표준 측정에 의해 이루어질 수 있다. 그러나, 전역 움직임 파라미터의 코딩 중에 요구되는 전역 움직임 추정기 및 정량화의 가능한 제한에 기인하여, 신호(IG0 및 IG1)는 절대로 완벽하게 정렬되지 않고 2개의 신호가 일치되는 것으로 판단되어도 약간의 편차가 매우 높은 발생 기회를 갖는다. 이 편차는 움직임 모델이 병진 모델, 즉 영역의 모든 픽셀이 동일한 벡터에 따라 변위하는 모델과는 상이하기 때문에 더욱 더 상당할 수 있다. 이 경우에, 움직임은 픽셀의 위치에 의존한다. 원점으로부터 이격될 때, 모델의 비변환 성분의 작은 에러가 모델로부터 움직임 벡터의 상당한 편차에 의해 변환될 수 있다. 평균 제곱 오차 단독은 이 가능한 편차가 고려되는 것을 가능하지 않게 한다.
이 편차를 고려하기 위해, 접근법이 본 발명의 범주 내에서 제안된다.
제1 단계 300의 목적은 특히 IG0에 대한 IG1의 로컬 움직임 보상에 의한 IG1 픽셀의 픽셀 정합이다. 이 보상은 픽셀로의 정확도의 변환 벡터로 그리고 제한된 최대 범위값(excmax)으로 이루어진다. 범위값은 예를 들어 2개 또는 3개의 픽셀이다. 이를 수행하기 위해, 표준 "블록 정합"형 추정기가 사용될 수 있다. 이 알고리즘 유형의 목적은 평균 제곱 오차를 최소화하는 벡터를 탐색하는 것이다. 이는 움직임 모델의 에러에 기인하여 상당한 편차를 보정하기 위해 구현된다.
제2 단계 중에, 평균 제곱 오차는 현재 영역에 걸쳐 단계 301에서 계산된다. 이 에러(D)는 이하의 식으로 표현될 수 있고,
Figure 112011055280411-pct00038
(1)
여기서, Z는 고려되는 영역을 나타내고, p는 픽셀을 나타내고, IG1mc는 IG1의 움직임 보상 영상을 나타낸다.
식 (1)에 평균들의 편차를 통합하는 것이 가능하고, 이는 이하의 식을 유도한다.
Figure 112011055280411-pct00039
(2)
여기서 μ0 및 μ1은 현재 영역(Z)에 걸쳐 IG0 및 IG1mc의 각각의 휘도의 추정 평균이다.
이 추정은 낮은 로컬 구배의 영역에 대해 신호의 직접 비교에 의해 이어진다. D가 미리 규정된 임계치(
Figure 112011055280411-pct00040
) 미만이면, IG0 및 IG1은 영역에 걸쳐 일치하는 것으로 고려된다. 임계치(
Figure 112011055280411-pct00041
)는 예를 들어 값 52×NZ로서 취해질 수 있고, NZ는 현재 영역(Z)의 점들의 수이다. 이는 이 경우에 5의 평균 신호간 편차가 견뎌지는 것을 암시한다.
이전의 테스트(302)가 네거티브이면, 로컬 구배의 측정이 단계 303에서 수행되고, 이는 높은 로컬 구배의 영역을 위한 것이다. 높은 값의 D는 예를 들어 텍스처링되는 영역의 픽셀 미만의 약간의 편차에 기인할 수 있고, 따라서 높은 구배를 갖는다. 2개의 신호가 일치하면, IG1mc가 이하의 식으로 현재 영역에서의 임의의 픽셀(p)에 대해 표현될 수 있는데,
Figure 112011055280411-pct00042
(3)
여기서, δ=(δx, δy)는 픽셀로의 재설정이 미리 수행되었기 때문에 2개의 성분 δx 및 δy가 1 미만의 진폭을 갖는 벡터이다.
이어서, 식 (3)의 테일러 전개 후에 식 (2)를 고려하면 D보다 더 큰 S값을 결정하는 것이 가능한데, 이 식은 이하와 같다.
Figure 112011055280411-pct00043
(4)
따라서, 로컬 구배는 단계 303에서 계산되고, 이어서 합(S)은 단계 304에서 D와 비교된다. D가 S 이하이면, IG0 및 IG1은 현재 영역(Z)에 걸쳐 일치하는 것으로 고려된다. 반대의 경우에, IG0 및 IG1은 현재 영역에 걸쳐 불일치하는 것으로 고려된다.
알고리즘에 개입하는 excmax
Figure 112011055280411-pct00044
와 같은 몇몇 파라미터가 코팅되어 디코더에 전송될 수 있다.
도 4의 예에서, 비교된 영역이 일치하는 것으로 고려될 때, 2개의 신호(IG0 및 IG1)의 병합이 고려될 수 있는 것을 알 수 있다. 병합 알고리즘은 만족스러운 방식으로, 즉 상기에 언급된 약간의 공간적 편차에 기인하는 에코의 발생을 발생하지 않고 2개의 신호를 혼합하는 것이다. 일 해결책은 "그래프 절단" 유형의 스티칭 알고리즘 없이 파일링을 사용하는 것이다. 이 유형의 기술의 일 예는 표제가 "Graphcut Textures : Image and Video Synthesis Using Graph Cuts"인 비벡 콰트라(Vivek Kwatra) 등에 의한 문헌, Proc. ACM Transactions on Graphics, 시그그래프03'에 설명되어 있다. 이들 알고리즘은 명백한 스티치 유형 시각적 아티팩트를 제한하면서 텍스터의 부분이 조립되는 것을 가능하게 한다.

Claims (15)

  1. 적어도 하나의 디지털 영상 시퀀스(digital picture sequence)를 비디오 코딩하기 위한 방법으로서 - 상기 시퀀스의 영상들은 중간 영상들(INT) 또는 움직임 보상에 의한 상기 중간 영상들(INT)의 코딩을 위한 기준들로서 사용되는 주요 영상들(IC0, IC1)이 되는 것이 가능함 - ,
    상기 중간 영상들(INT)은 상기 주요 영상들(IC0, IC1)로부터 순방향(GM1) 및 역방향(GM0)에서 전역 움직임 보상(GMC)(200)에 기초하여 영역(area)마다 코딩되고, 상기 중간 영상(INT)의 영역들은 전역 움직임 보상된 주요 영상들의 영역들의 병합(205)에 의해 또는 통상의 코딩(203)에 의해 구성되고, 병합 및 통상의 코딩 사이의 선택은 전역 움직임 보상된 주요 영상들의 영역들의 신호들 사이의 코히런스(coherence)의 측정의 결과에 따라 이루어지며(201, 202, 204), 기준 영상들(IC0, IC1)은 상기 중간 영상들 전에 코딩되고, 상기 영상들과 관련된 적어도 하나의 분할맵(segmentation map)(S0, S1)은 이들 영상들의 다른 픽셀들로부터 GMC형 픽셀들을 구별하는 것이 가능한 방식으로 계산되는 것을 특징으로 하는 비디오 코딩 방법.
  2. 삭제
  3. 제1항에 있어서, 전역 움직임 파라미터들(GM0, GM1)은 중간 영상들(INT)의 코딩 전에 추정되고 코딩되는(208) 것을 특징으로 하는 비디오 코딩 방법.
  4. 제3항에 있어서, 상기 움직임 보상된 주요 영상들(IG0, IG1)은 적어도 상기 전역 움직임 파라미터들(GM0, GM1)를 사용하여 주요 영상들(IC0, IC1)로부터 추론되는(200) 것을 특징으로 하는 비디오 코딩 방법.
  5. 제4항에 있어서, 상기 움직임 보상된 주요 영상들(IG0, IG1)과 관련된 분할맵들(SG0, SG1)은 적어도 상기 전역 움직임 파라미터들(GM0, GM1)을 사용하여 전치(transposition)들에 의해 주요 영상들(IC0, IC1)과 관련된 분할맵들(S0, S1)로부터 추론되는 것을 특징으로 하는 비디오 코딩 방법.
  6. 제4항에 있어서, 코딩될 상기 중간 영상(INT) 뿐만 아니라 그 코딩을 위해 사용된 상기 움직임 보상된 주요 영상들(IG0, IG1)은 프로세싱 영역들로 분할되고, 코딩될 중간 영상(INT)의 프로세싱 영역은 움직임 보상된 주요 영상(IG0, IG1)의 프로세싱 영역들에 대응하는 것을 특징으로 하는 비디오 코딩 방법.
  7. 제6항에 있어서, 움직임 보상된 주요 영상들(IG0, IG1)의 상기 프로세싱 영역들은 GMC 픽셀들 중의 이들의 비율에 따라 분류되고(C0, C1), 상기 비율은 0과 1 사이에 포함된 임계치 η에 비교되고, 영역은 상기 비율이 η보다 클 때 "GMC"로 분류되고(201) 또한 반대 경우에 "비GMC"로 분류되는 것을 특징으로 하는 비디오 코딩 방법.
  8. 제7항에 있어서, 움직임 보상된 주요 영상들(IG0, IG1)의 영역마다의 GMC 픽셀들의 비율은 분할맵들(SG0, SG1)로부터 추론되는 것을 특징으로 하는 비디오 코딩 방법.
  9. 제7항에 있어서, 중간 영상(INT)의 코딩될 영역의 코딩을 위한 기준들로서 사용된, 움직임 보상된 영상들(SG0, SG1) 중 하나의 적어도 하나의 영역이 "비GMC"로 분류되면, 상기 영역에 대한 통상의 코딩이 수행되는 것을 특징으로 하는 비디오 코딩 방법.
  10. 제7항에 있어서, 중간 영상(INT)의 영역의 코딩을 위한 기준들로서 사용되는 움직임 보상된 영상들(SG0, SG1)의 영역들이 "GMC"로 분류되면, 상기 영역들의 코히런스가 전역 움직임 보상된 주요 영상들의 영역들의 신호들의 비교에 의해 분석되는(204) 것을 특징으로 하는 비디오 코딩 방법.
  11. 제10항에 있어서, 코딩될 영역의 평균 제곱 오차(D)가 계산되고 또한 높은 로컬 구배를 갖는 영역들로부터 낮은 로컬 구배를 갖는 영역들을 구별하는 방식으로 미리 규정된 임계치
    Figure 112011055280411-pct00045
    에 비교되고(302), 상기 영역은 낮은 로컬 구배를 갖는 것으로 고려되고 또한 D가
    Figure 112011055280411-pct00046
    미만이면 "코히런트"한 것으로 분류되고 반대의 경우에 높은 로컬 구배를 갖는 것으로 고려되는 것을 특징으로 하는 비디오 코딩 방법.
  12. 적어도 하나의 디지털 영상 시퀀스의 비디오 코딩을 위한 디바이스로서 - 상기 시퀀스의 영상들은 중간 영상들(INT) 또는 움직임 보상에 의한 상기 중간 영상들(INT)의 코딩을 위한 기준들로서 사용되는 주요 영상들(IC0, IC1)이 되는 것이 가능함 - ,
    상기 주요 영상들(IC0, IC1)로부터 순방향(GM1) 및 역방향(GM0)에서 전역 움직임 보상(GMC)에 기초하여 영역마다 상기 중간 영상들(INT)을 코딩하고 - 상기 중간 영상(INT)의 영역들은 주요 영상들의 대응 영역들의 병합에 의해 또는 통상의 코딩에 의해 코딩됨 - ,
    전역 움직임 보상된 주요 영상들의 영역들의 신호들 사이의 코히런스의 측정의 결과에 따라 병합 및 통상의 코딩 사이에서 자동으로 선택하기 위한 수단
    을 포함하며,
    기준 영상들(IC0, IC1)은 상기 중간 영상들 전에 코딩되고, 상기 영상들과 관련된 적어도 하나의 분할맵(S0, S1)은 이들 영상들의 다른 픽셀들로부터 GMC형 픽셀들을 구별하는 것이 가능한 방식으로 계산되는 것을 특징으로 하는 비디오 코딩 디바이스.
  13. 제1항에 따른 방법을 사용하여 미리 코딩된 적어도 하나의 디지털 영상 시퀀스의 비디오 디코딩을 위한 디바이스로서 - 상기 시퀀스의 영상들은 중간 영상들(INT) 또는 움직임 보상에 의한 상기 중간 영상들(INT)의 디코딩을 위한 기준들로서 사용되는 주요 영상들(IC0, IC1)이 되는 것이 가능함 - ,
    디코딩된 주요 영상들로부터 순방향(GM1) 및 역방향(GM0)에서 전역 움직임 보상(GMC)에 기초하여 영역마다 중간 영상들(INT)을 디코딩하기 위한 수단을 포함하고, 상기 중간 영상(INT)의 영역들은 전역 움직임 보상된 주요 영상들의 영역들의 병합(205)에 의해 또는 통상의 디코딩(203)에 의해 재구성되고, 병합 및 통상의 디코딩 사이의 선택은 전역 움직임 보상된 주요 영상들의 영역들의 신호들 사이의 코히런스의 측정의 결과에 따라 이루어지며, 기준 영상들(IC0, IC1)은 상기 중간 영상들 전에 디코딩되고, 상기 영상들과 관련된 적어도 하나의 분할맵(S0, S1)은 이들 영상들의 다른 픽셀들로부터 GMC형 픽셀들을 구별하는 것이 가능한 방식으로 계산되는 것을 특징으로 하는 비디오 디코딩 디바이스.
  14. 제1항에 있어서, 역방향 및 순방향에서 각각 전역 움직임 보상의 구현을 위해 영상 또는 중간 영상의 부분의 역방향 θ0=(M0, T0) 및 순방향 θ1=(M1, T1) 전역 움직임 파라미터들의 벡터들의 추정은, 이하의 식
    Figure 112011055280411-pct00047

    을 검증하는 2개의 파라미터 α0 및 α1로부터 θ0 및 θ1을 추론함으로써 2개의 자유도로 제한되는 것을 특징으로 하는 비디오 코딩 방법.
  15. 제1항에 있어서, 역방향 및 순방향에서 각각 상기 전역 움직임 보상의 구현을 위해 중간 영상의 역방향 θ0=(M0, T0) 및 순방향 θ1=(M1, T1) 전역 움직임 파라미터들의 벡터들의 추정은, 이하의 식
    Figure 112011055280411-pct00048

    을 검증하는 파라미터 α로부터 θ0 및 θ1을 추론함으로써 하나의 자유도로 제한되는 것을 특징으로 하는 비디오 코딩 방법.
KR1020117016796A 2008-12-19 2009-12-18 전역 움직임 보상에 기초하는 비디오 코딩 KR101638211B1 (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
FR0858833A FR2940576A1 (fr) 2008-12-19 2008-12-19 Procede de codage video base sur la compensation de mouvement global et dispositifs apparentes
FR0858833 2008-12-19
FR0858834 2008-12-19
FR0858834 2008-12-19

Publications (2)

Publication Number Publication Date
KR20110106387A KR20110106387A (ko) 2011-09-28
KR101638211B1 true KR101638211B1 (ko) 2016-07-20

Family

ID=41692330

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020117016796A KR101638211B1 (ko) 2008-12-19 2009-12-18 전역 움직임 보상에 기초하는 비디오 코딩

Country Status (7)

Country Link
US (1) US20120207217A1 (ko)
EP (1) EP2374278B1 (ko)
JP (1) JP5512696B2 (ko)
KR (1) KR101638211B1 (ko)
CN (1) CN102257817B (ko)
BR (1) BRPI0922734A2 (ko)
WO (1) WO2010070247A1 (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10721487B2 (en) 2012-04-17 2020-07-21 Texas Instruments Incorporated Converting a bi-predicted merging candidate in a merging candidate list for a prediction unit of a picture
US9591312B2 (en) * 2012-04-17 2017-03-07 Texas Instruments Incorporated Memory bandwidth reduction for motion compensation in video coding
KR20180057564A (ko) * 2016-11-22 2018-05-30 한국전자통신연구원 영상 부호화/복호화 방법, 장치 및 비트스트림을 저장한 기록 매체
WO2019205129A1 (en) 2018-04-28 2019-10-31 SZ DJI Technology Co., Ltd. Motion estimation

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6611560B1 (en) 2000-01-20 2003-08-26 Hewlett-Packard Development Company, L.P. Method and apparatus for performing motion estimation in the DCT domain
US20030202595A1 (en) 1996-10-30 2003-10-30 Yoshinori Suzuki Method and apparatus for image coding
US20040161038A1 (en) * 2002-10-16 2004-08-19 Kunio Yamada Method of encoding and decoding motion picture, motion picture encoding device and motion picture decoding device
WO2005076629A1 (ja) 2004-02-09 2005-08-18 Sanyo Electric Co., Ltd 画像符号化装置及び方法、画像復号化装置及び方法、及び撮像装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6205178B1 (en) * 1996-09-20 2001-03-20 Hitachi, Ltd. Method and synthesizing a predicted image, video coding device and video coding method
CN1208971C (zh) * 1997-02-14 2005-06-29 日本电信电话株式会社 运动图像的预测编码方法和译码方法
JP4083265B2 (ja) * 1997-10-07 2008-04-30 株式会社日立製作所 画像信号の方式変換方法および装置
JPH11122619A (ja) * 1997-10-17 1999-04-30 Hitachi Ltd 動画像符号化および復号化方法
US7050500B2 (en) * 2001-08-23 2006-05-23 Sharp Laboratories Of America, Inc. Method and apparatus for motion vector coding with global motion parameters
CN1258925C (zh) * 2003-06-27 2006-06-07 中国科学院计算技术研究所 多视角视频编解码预测补偿方法及装置
CN100486336C (zh) * 2006-09-21 2009-05-06 上海大学 基于h.264压缩域运动对象实时分割方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030202595A1 (en) 1996-10-30 2003-10-30 Yoshinori Suzuki Method and apparatus for image coding
US6611560B1 (en) 2000-01-20 2003-08-26 Hewlett-Packard Development Company, L.P. Method and apparatus for performing motion estimation in the DCT domain
US20040161038A1 (en) * 2002-10-16 2004-08-19 Kunio Yamada Method of encoding and decoding motion picture, motion picture encoding device and motion picture decoding device
WO2005076629A1 (ja) 2004-02-09 2005-08-18 Sanyo Electric Co., Ltd 画像符号化装置及び方法、画像復号化装置及び方法、及び撮像装置

Also Published As

Publication number Publication date
JP5512696B2 (ja) 2014-06-04
EP2374278A1 (fr) 2011-10-12
CN102257817A (zh) 2011-11-23
JP2012513141A (ja) 2012-06-07
EP2374278B1 (fr) 2018-05-30
KR20110106387A (ko) 2011-09-28
WO2010070247A1 (fr) 2010-06-24
US20120207217A1 (en) 2012-08-16
CN102257817B (zh) 2014-10-08
BRPI0922734A2 (pt) 2018-05-29

Similar Documents

Publication Publication Date Title
CN110809887B (zh) 用于多参考预测的运动矢量修正的方法和装置
US11438575B2 (en) Bi-prediction coding method and apparatus, bi-prediction decoding method and apparatus, and recording medium
US6631214B1 (en) Image coder and image coding method
US11350129B2 (en) Method and device for encoding and decoding a video bitstream using a selected motion vector
KR100464995B1 (ko) 운동의존예측을이용하여비디오정보를압축하는방법및장치
US7321626B2 (en) System and method for predictive motion estimation using a global motion predictor
US20070297510A1 (en) Method and Apparatus for Generating Coded Picture Data and for Decoding Coded Picture Data
EP1406448B1 (en) Motion picture decoding device
US20070092007A1 (en) Methods and systems for video data processing employing frame/field region predictions in motion estimation
US11825074B2 (en) Generation and usage of combined affine merge candidate
US6295377B1 (en) Combined spline and block based motion estimation for coding a sequence of video images
US8755436B2 (en) Method of coding, decoding, coder and decoder
US8073054B2 (en) Unit for and method of estimating a current motion vector
KR101638211B1 (ko) 전역 움직임 보상에 기초하는 비디오 코딩
US20240098251A1 (en) Bi-prediction coding method and apparatus, bi-prediction decoding method and apparatus, and recording medium
Namuduri Motion estimation using spatio-temporal contextual information
Garus et al. Motion compensation-based low-complexity decoder side depth estimation for MPEG immersive video
US6020933A (en) Method and apparatus for encoding a motion vector
Kim et al. Multilevel Residual Motion Compensation for High Efficiency Video Coding
Tok et al. A parametric merge candidate for high efficiency video coding
KR20070029109A (ko) 비디오 인코딩 방법 및 디바이스
JP2005323252A (ja) 画像符号化装置及び画像復号化装置

Legal Events

Date Code Title Description
AMND Amendment
A201 Request for examination
AMND Amendment
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20190716

Year of fee payment: 4