KR20060055472A

KR20060055472A - 변위된 프레임 차분을 이용하여 가중된 예측 추정을 위한방법 및 장치

Info

Publication number: KR20060055472A
Application number: KR1020057024698A
Authority: KR
Inventors: 펭 윙; 질 맥도날드 보이스
Original assignee: 톰슨 라이센싱
Priority date: 2003-06-25
Filing date: 2004-06-23
Publication date: 2006-05-23
Also published as: CN1810041A; US20060198440A1; WO2005004492A2; MXPA05013727A; JP2007525072A; BRPI0411708A; WO2005004492A3; US7809059B2; EP1636998A2

Abstract

비디오 인코더(200, 300) 및 대응 방법(600, 700)은 변위된 프레임 차이 EH는 차분을 이용하여 가중된 예측 추정을 위해 제공되며, 상기 인코더는, 실질적으로 압축되지 않은 이미지 블록을 수신하는 단계(712)와; 가중치 인자를 결정하기 위해 프레임 차이를 이용하여, 대응하는 인덱스를 갖는 특정 기준 화상에 대응하는 이미지 블록을 위해 가중치 인자를 할당하는 단계(714)와; 상기 이미지 블록과 상기 특정 기준 화상 사이의 차이에 대응하는 움직임 벡터를 계산하는 단계(716)와; 상기 움직임 벡터에 따라 상기 특정 기준 화상을 움직임 보상하는 단계(718)와; 가중된 움직임 보상된 기준 화상을 형성하기 위해 상기 할당된 가중치 인자에 의해 상기 움직임 보상된 기준 화상을 조정하는 단계(720)와; 상기 실질적으로 압축되지 않은 이미지 블록으로부터 상기 가중된 움직임 보상된 기준 화상을 감산하는 단계(722)와; 상기 특정 기준 화상의 대응하는 인덱스와 함께 상기 실질적으로 압축되지 않은 이미지 블록과 상기 가중된 움직임 보상된 기준 화상 사이의 차이를 나타내는 신호를 인코딩하는 단계(724)를 포함하는 방법(700)을 구현한다.

Description

변위된 프레임 차분을 이용하여 가중된 예측 추정을 위한 방법 및 장치{METHOD AND APPARATUS FOR WEIGHTED PREDICTION ESTIMATION USING A DISPLACED FRAME DIFFERENTIAL}

본 출원은, 본 명세서에 전체가 참고용으로 병합된, 2003년 6월 25일에 출원된 "변위된 프레임 차분을 이용하는 가중된 예측 추정 방법 및 장치"라는 명칭의 미국 가특허 출원 번호 60/482,301(출원인 관리 번호 PU030165)의 이익을 청구한다.

본 발명은 비디오 인코더 및 디코더에 관한 것으로, 더 구체적으로 가중된 예측 추정을 위한 장치 및 방법에 관한 것이다.

JVT 표준(또한 H.264 및 MPEG AVC로서 알려진)은 가중된 예측(WP: Weighted Prediction) 특징을 채택하기 위한 제 1 비디오 압축 표준이다. MPEG1, 2 및 4와 같은 JVT 이전의 비디오 압축 표준에서, 단일 기준 화상 예측이 예측(P) 화상 또는 슬라이스에 사용될 때, 예측은 스케일링(scaled)되지 않는다. 양방향 예측이 양방향-예측(B) 화상 또는 슬라이스에 사용될 때, 예측은 2가지 상이한 화상으로부터 형성되고, 그 다음에 2개의 예측은 (1/2, 1/2)의 동일한 가중치 인자를 이용하여 함께 평균되어, 단일 평균 예측을 형성한다. JVT에서, 다수의 기준 화상은 인터-예 측에 사용될 수 있으며, 다수의 기준 화상 중 어떤 것이 사용되는지를 나타내기 위해 기준 화상 인덱스가 코딩된다.

P 화상 또는 슬라이스에서, 단일 방향 예측만이 사용되고, 허용가능한 기준 화상은 목록 0에서 관리된다. B 화상 또는 슬라이스에서, 기준 화상의 2개의 목록, 즉 목록 0 및 목록 1이 관리된다. B 화상 또는 슬라이스에서, 목록 0 또는 목록 1 중 어느 하나를 이용하는 단일 방향 예측이 허용되거나, 목록 0 및 목록 1 모두를 이용하는 양방향 예측이 허용된다. 양방향 예측이 사용될 때, 목록 0 및 목록 1 예측자(predictor)는 함께 평균되어, 최종 예측자를 형성한다. 따라서, JVT WP 툴은 임의의 곱셈 가중치 인자 및 덧셈 오프셋이 P 및 B 화상 모두에서 기준 화상 예측에 적용되도록 한다.

가중된 예측은 JVT 표준의 주요(main) 및 확장(Extended) 프로파일에서 지원된다. 가중된 예측의 이용은 P, SP(스위칭 P) 및 B 슬라이스를 위한 화상 파라미터 세트로 표시된다. 2가지 WP 모드, 즉 P, SP, 및 B 슬라이스에서 지원되는 명시적(explicit) 모드, 및 B 슬라이스에만 지원되는 묵시적(implicit) 모드가 있다.

명시적 모드

명시적 모드에서, WP 파라미터는 슬라이스 헤더에서 코딩된다. 각 칼라 성분에 대한 곱셈 가중치 인자 및 덧셈 오프셋은 P 슬라이스 및 B 슬라이스에 대한 목록 0에서 허용가능한 기준 화상 각각에 대해 코딩될 수 있다. 그러나, 동일한 화상에서의 상이한 매크로블록은, 심지어 동일한 기준 화상 저장으로부터 예측될 때도 상이한 가중치 인자를 이용할 수 있다. 이것은, 하나를 초과하는 기준 화상 인덱스 를 특정 기준 화상 저장과 연관시키기 위해 기준 화상 재배치(reordering) 및 메모리 관리 제어 동작(MMCO: Memory Management Control Operation)을 이용함으로써 달성될 수 있다.

단일 예측에 사용되는 동일한 가중치 파라미터는 양방향 예측을 위한 조합에 사용된다. 최종 인터 예측은 사용된 예측 유형에 기초하여 각 매크로블록 또는 매크로블록 분할의 픽셀에 대해 형성된다. 목록 0으로부터의 단일 방향 예측에 대해,

SampleP=Clip1(((SampleP0ㆍW₀+2^LWD-1)>>LWD)+O₀)

목록 1로부터의 단일 방향 예측에 대해,

SampleP=Clip1(((SampleP1ㆍW₁+2^LWD-1)>>LWD)+O₁)

양방향 예측에 대해,

SampleP=Clip1(((SampleP0ㆍW₀+SampleP1ㆍW₁+2^LWD)>>(LWD+1))+(O₀+O₁+1)>>1)

여기서 Clip1()은 [0,255]의 범위로 클립(clip)하는 연산자이고, W₀ 및 O₀은 목록 0 기준 화상 가중치 인자 및 오프셋이고, W₁ 및 O₁은 목록 1 기준 화상 가중치 인자 및 오프셋이고, LWD는 로그 가중치 분모 버림 인자(log weight denominator rounding factor)이다. SampleP0 및 SampleP1은 목록 0 및 목록 1 초기 예측자이고, SampleP는 가중된 예측자이다.

묵시적 모드

WP 묵시적 모드에서, 가중치 인자는 슬라이스 헤더에서 명시적으로 송신되지 않고, 그 대신 현재 화상과 기준 화상 사이의 상대적 거리에 기초하여 유도된다. 묵시적 모드는, 직접 모드를 이용하는 것을 포함하는, B 슬라이스에서 양방향 예측적으로 코딩된 매크로블록 및 매크로블록 분할에만 사용된다. 오프셋 값(O₀ 및 O₁)이 0과 같고, 가중치 인자(W₀ 및 W₁)가 아래의 수학식을 이용하여 유도된다는 점을 제외하고, 양방향 예측을 위해 이전의 명시적 모드 부분에 주어진 것과 동일한 양방향 예측을 위한 수학식이 사용된다.

X=(16384+(TD₀>>1))/TD_D

Z=clip3(-1024, 1023,(TD_BㆍX+32)>>6)

W₁=Z>>2 W₀=64-W₁

이것은 수학식 5의 나눗셈이 없는 16비트 안전 연산 구현이다.

W₁=(64*TD_D)/TD_B

TD_B는, [-128, 127]의 범위로 클립된, 목록 1 기준 화상과 목록 0 기준 화상 사이의 시간차이고, TD_B는 [-128, 127]의 범위로 클립된, 현재 화상 및 목록 0 기준 화상의 차이이다.

가중치 파라미터의 적용을 위한 접근법은 수학식 6 내지 8에 의해 설명된다.

간략함을 위해, 목록 0 예측을 위한 가중된 예측을 다음 수학식 6으로 기재할 수 있다.

SampleP=SampleP0ㆍW₀+O₀

간략함을 위해, 목록 1 예측을 위한 가중된 예측을 다음 수학식 7로 기재할 수 있다.

SampleP=SampleP1ㆍW₁+O₁

양방향 예측을 위해,

SampleP=(SampleP0ㆍW₀+SampleP1ㆍW₁+O₀+O₁)/2

여기서 W₁은 가중치 인자이고, O₁은 가중치 오프셋이다.

따라서, 가중된 예측 파라미터를 결정하기 위한 장치 및 새로운 방법 단계가 필요하다.

종래 기술의 이들 및 다른 결점 및 단점은 변위된 프레임 차분을 이용하여 가중된 예측 추정을 위한 장치 및 방법에 의해 다루어진다.

비디오 인코더 및 대응하는 방법은 변위된 프레임 차이 또는 차분을 이용하여 가중된 예측 추정을 위해 제공되며, 상기 인코더는, 실질적으로 압축되지 않은 이미지 블록을 수신하는 방법과; 대응하는 인덱스를 갖는 특정 기준 화상에 대응하는 이미지 블록에 대한 가중치 인자 및 오프셋을 할당하는 방법과; 이미지 블록과 특정 기준 화상 사이의 차이에 대응하는 움직임 벡터를 계산하는 방법과; 상기 움직임 벡터에 대응하여 특정 기준 화상을 움직임 보상하는 방법과; 가중된 움직임 보상된 기준 화상을 형성하기 위해 할당된 가중치 인자와 움직임 보상된 기준 화상을 곱하는 방법과; 실질적으로 압축되지 않은 이미지 블록으로부터 가중된 움직임 보상된 기준 화상을 감산하는 방법과; 특정 기준 화상의 대응하는 인덱스와 함께 실질적으로 압축되지 않은 이미지 블록과 가중된 움직임 보상된 기준 화상 사이의 차이를 나타내는 신호를 인코딩하는 방법을 구현한다.

본 발명의 이들 및 다른 양상, 특징 및 장점은 첨부 도면과 연계하여 읽혀질 다음의 예시적인 실시예의 설명으로부터 명백해질 것이다.

본 발명은 다음의 예시적인 도면을 참조하여 더 잘 이해될 것이다.

도 1은 비디오 인코더를 도시한 블록도.

도 2는 묵시적 기준 화상 가중을 갖는 비디오 인코더를 도시한 블록도.

도 3은 명시적 기준 화상 가중을 갖는 비디오 인코더를 도시한 블록도.

도 4는 비디오 디코더를 도시한 블록도.

도 5는 명시적 기준 화상 가중을 갖는 비디오 디코더를 도시한 블록도.

도 6은 본 발명의 원리에 따라 예시적인 디코딩 프로세스를 도시한 흐름도.

도 7은 본 발명의 원리에 따라 예시적인 인코딩 프로세스를 도시한 흐름도.

JVT 비디오 코딩 표준은 주요 및 확장 프로파일에서 가중된 예측(WP) 도구를 포함한다. WP에서, 곱셈 가중치 인자 및 덧셈 오프셋은 움직임 보상된 예측에 적용된다. WP는 특히 코딩 페이딩 시퀀스에 유용하다. 명시적 모드에서, 가중치 인자 및 오프셋은 각 허용가능한 기준 화상 인덱스에 대한 슬라이스 헤더에서 코딩될 수 있다. 묵시적 모드에서, 가중치 인자는 코딩되지 않고, 2개의 기준 화상의 상대적 화상 순서 카운트(POC: Picture Order Count)에 기초하여 유도된다.

선형 회귀(linear regression)와 같은 통계적 방법은 가중치 파라미터를 추정하는데 사용될 수 있다. 가중치 오프셋이 0으로 설정되는 동안 기준 화상에서의 픽셀의 평균값으로 나누어진 현재 화상에서의 픽셀의 평균값 사이의 비율로서 가중치 인자가 추정되는 것도 또한 가능하다.

본 설명은 본 발명의 원리를 예시한다. 따라서, 본 명세서에 명시적으로 설명되거나 도시되지 않지만, 본 발명의 원리를 구현하고 본 발명의 사상 및 범주 내에 포함되는 다양한 장치를 당업자가 고안할 수 있음이 인식될 것이다.

본 명세서에 언급된 모든 예 및 조건부 언어는 본 발명의 원리, 및 종래 기술을 촉진시키기 위해 본 발명자에 의해 기여된 개념을 이해하는데 독자(reader)에 게 도움을 주기 위해 교육적 목적으로 의도되고, 특히 그렇게 언급된 예 및 조건에 대한 한계가 없는 것으로 해석되어야 한다.

더욱이, 본 발명의 원리, 양상 및 실시예 뿐 아니라 본 발명의 특정 예를 본 명세서에서 언급한 모든 설명은 본 발명의 구조적 및 기능적 등가물 모두를 포함하도록 의도된다. 더욱이, 그러한 등가물이 현재 알려진 등가물 뿐 아니라 미래에 개발된 등가물, 즉 구조에 상관없이 동일한 기능을 수행하는 개발된 임의의 요소 모두를 포함하도록 의도된다.

따라서, 예를 들어, 본 명세서에 제공된 블록도가 본 발명의 원리를 구현하는 예시적인 회로의 구상도를 나타낸다는 것이 당업자에게 인식될 것이다. 유사하게, 임의의 플로우 차트, 흐름도, 상태 전이도, 의사 코드 등은, 컴퓨터 판독가능 매체에 실질적으로 나타나, 컴퓨터 또는 프로세서가 명백히 도시되는지에 상관없이 컴퓨터 또는 프로세서에 의해 실행될 수 있는 다양한 프로세스를 나타낸다는 것이 인식될 것이다.

도면에 도시된 다양한 요소의 기능은 전용 하드웨어 뿐 아니라 적절한 소프트웨어와 연관하여 소프트웨어를 실행할 수 있는 하드웨어의 이용을 통해 제공될 수 있다. 프로세서에 의해 제공될 때, 그 기능은 단일 전용 프로세서, 단일 공유 프로세서, 또는 몇몇 프로세서가 공유될 수 있는 복수의 개별 프로세서에 의해 제공될 수 있다. 더욱이, "프로세서" 또는 "제어기"라는 용어의 명시적 이용은 전적으로 소프트웨어를 실행할 수 있는 하드웨어를 언급하도록 해석되지 않아야 하고, 제한 없이, 디지털 신호 프로세서(DSP) 하드웨어, 소프트웨어를 저장하기 위한 판 독-전용 메모리(ROM), 랜덤 액세스 메모리(RAM), 및 비-휘발성 저장부를 묵시적으로 포함할 수 있다.

종래 및/또는 관습적인 다른 하드웨어도 또한 포함될 수 있다. 유사하게, 도면에 도시된 임의의 스위치는 단지 개념적이다. 그 기능은 프로그램 논리 동작, 전용 논리, 프로그램 제어 및 전용 논리의 상호 동작을 통해 수행될 수 있거나, 심지어 수동으로, 특정 기술은 더 특히 정황으로부터 이해될 때 구현자에 의해 선택가능하다.

본 발명의 청구항에서, 지정된 기능을 수행하기 위한 수단으로서 표현된 임의의 요소는, 예를 들어 a) 상기 기능을 수행하는 회로 소자의 결합, 또는 b) 임의의 형태의 소프트웨어, 그러므로 상기 기능을 수행하기 위해 상기 소프트웨어를 실행하기 위한 적절한 회로와 결합된 펌웨어, 마이크로코드 등을 포함하는 소프트웨어를 포함하는 상기 기능을 수행하는 임의의 방식을 포함하도록 의도된다. 그러한 청구항에 의해 한정된 본 발명은, 언급된 다양한 수단에 의해 제공된 기능성이 결합되고 상기 청구항이 요청하는 방식으로 야기된다는 점에 있다. 따라서 출원인은 그러한 기능성을 제공할 수 있는 임의의 수단을 본 명세서에 예시된 기능성의 등가물로서 간주한다.

도 1에 도시된 바와 같이, 비디오 인코더는 일반적으로 참조 번호(100)로 표시된다. 인코더(100)로의 입력은 합산 접합(110)의 비-반전 입력과 신호 통신하여 연결된다. 합산 접합(110)의 출력은 블록 변환 기능부(120)와 신호 통신하여 연결된다. 변환기(120)는 양자화기(130)와 신호 통신하여 연결된다. 양자화기(130)의 출력은 가변 길이 코더(VLC)(140)와 신호 통신하여 연결되며, 여기서 VLC(140)의 출력은 인코더(100)의 외부적으로 이용가능한 출력이다.

양자화기(130)의 출력은 역 양자화기(150)와 신호 통신하여 추가로 연결된다. 역 양자화기(150)는 역 블록 변환기(160)와 신호 통신하여 연결되며, 상기 역 블록 변환기는 다시 기준 화상 저장부(170)와 신호 통신하여 연결된다. 기준 화상 저장부(170)의 제 1 출력은 움직임 추정기(180)의 제 1 입력과 신호 통신하여 연결된다. 인코더(100)로의 입력은 움직임 추정기(180)의 제 2 입력과 신호 통신하여 추가로 연결된다. 움직임 추정기(180)의 출력은 움직임 보상기(190)의 제 1 입력과 신호 통신하여 연결된다. 기준 화상 저장부(170)의 제 2 출력은 움직임 보상기(190)의 제 2 입력과 신호 통신하여 연결된다. 움직임 보상기(190)의 출력은 합산 접합(110)의 반전 입력과 신호 통신하여 연결된다.

다시 도 2를 참조하면, 묵시적 기준 화상 가중치를 갖는 비디오 인코더는 일반적으로 참조 번호(200)로 표시된다. 인코더(200)로의 입력은 합산 접합(210)의 비-반전 입력과 신호 통신하여 연결된다. 합산 접합(210)의 출력은 블록 변환기(220)와 신호 통신하여 연결된다. 변환기(220)는 양자화기(230)와 신호 통신하여 연결된다. 양자화기(230)의 출력은 VLC(240)와 신호 통신하여 연결되며, 여기서 VLC(240)의 출력은 인코더(200)의 외부적으로 이용가능한 출력이다.

양자화기(230)의 출력은 역 양자화기(250)와 신호 통신하여 추가로 연결된다. 역 양자화기(250)는 역 블록 변환기(260)와 신호 통신하여 연결되고, 상기 역 블록 변환기는 다시 기준 화상 저장부(270)와 신호 통신하여 연결된다. 기준 화상 저장부(270)의 제 1 출력은 기준 화상 가중치 인자 할당기(272)의 제 1 입력과 신호 통신하여 연결된다. 인코더(200)로의 입력은 기준 화상 가중치 인자 할당기(272)의 제 2 입력과 신호 통신하여 추가로 연결된다. 기준 화상 저장부(270)의 제 2 출력은 움직임 추정기(280)로의 입력과 신호 통신하여 연결된다.

인코더(200)로의 입력은 움직임 추정기(280)의 제 2 입력과 신호 통신하여 추가로 연결된다. 움직임 벡터를 나타내는 움직임 추정기(280)의 출력은 움직임 보상기(290)의 제 1 입력과 신호 통신하여 연결된다. 기준 화상 저장부(270)의 제 3 출력은 움직임 보상기(290)의 제 2 입력과 신호 통신하여 연결된다. 움직임 보상된 기준 화상을 나타내는 움직임 보상기(290)의 출력은 곱셈기(또는 기준 화상 가중치 애플리케이터)(292)의 제 1 입력과 신호 통신하여 연결된다. 예시적인 곱셈기 실시예가 도시되지만, 기준 화상 가중치 애플리케이터(292)는 예를 들어 시프트 레지스터에 의해서와 같이 대안적인 방식으로 구현될 수 있다. 가중치 인자를 나타내는 기준 화상 가중치 인자 할당기(272)의 출력은 기준 화상 가중치 애플리케이터(292)의 제 2 입력과 신호 통신하여 연결된다. 기준 화상 가중치 애플리케이터(292)의 출력은 합산 접합(210)의 반전 입력과 신호 통신하여 연결된다.

도 3을 다시 참조하면, 명시적 기준 화상 가중치를 갖는 비디오 인코더는 일반적으로 참조 번호(300)로 표시된다. 인코더(300)로의 입력은 합산 접합(310)의 비-반전 입력과 신호 통신하여 연결된다. 합산 접합(310)의 출력은 블록 변환기(320)와 신호 통신하여 연결된다. 변환기(320)는 양자화기(330)와 신호 통신하여 연결된다. 양자화기(330)의 출력은 VLC(340)와 신호 통신하여 연결되며, 여기서 VLC(340)의 출력은 인코더(300)의 외부적으로 이용가능한 출력이다.

양자화기(330)의 출력은 역 양자화기(350)와 신호 통신하여 추가로 연결된다. 역 양자화기(350)는 역 블록 변환기(360)와 신호 통신하여 연결되며, 상기 역 블록 변환기는 다시 기준 화상 저장부(370)와 신호 통신하여 연결된다. 기준 화상 저장부(370)의 제 1 출력은 기준 화상 가중치 인자 할당기(372)의 제 1 입력과 신호 통신하여 연결된다. 인코더(300)로의 입력은 기준 화상 가중치 인자 할당기(372)의 제 2 입력과 신호 통신하여 추가로 연결된다. 가중치 인자를 나타내는 기준 화상 가중치 인자 할당기(372)의 제 1 출력은 움직임 추정기(380)의 제 1 입력과 신호 통신하여 연결된다. 기준 화상 저장부(370)의 제 2 출력은 움직임 추정기(380)의 제 2 입력과 신호 통신하여 연결된다.

인코더(300)로의 입력은 움직임 추정기(380)의 제 3 입력과 신호 통신하여 추가로 연결된다. 움직임 벡터를 나타내는 움직임 추정기(380)의 출력은 움직임 보상기(390)의 제 1 입력과 신호 통신하여 연결된다. 기준 화상 저장부(370)의 제 3 출력은 움직임 보상기(390)의 제 2 입력과 신호 통신하여 연결된다. 움직임 보상된 기준 화상을 나타내는 움직임 보상기(390)의 출력은 곱셈기(또는 기준 화상 가중치 애플리케이터)(392)의 제 1 입력과 신호 통신하여 연결된다. 가중치 인자를 나타내는 기준 화상 가중치 인자 할당기(372)의 제 1 출력은 또한 기준 화상 가중치 애플리케이터(392)의 제 2 입력과 신호 통신하여 연결된다. 기준 화상 가중치 애플리케이터(392)의 출력은 합산 접합(394)의 제 1 비-반전 입력과 신호 통신하여 연결된다. 오프셋을 나타내는 기준 화상 가중치 인자 할당기(372)의 제 2 출력은 합산 접 합(394)의 제 2 비-반전 입력과 신호 통신하여 연결된다. 합산 접합(394)의 출력은 합산 접합(310)의 반전 입력과 신호 통신하여 연결된다.

도 4에 도시된 바와 같이, 비디오 디코더는 일반적으로 참조 번호(400)로 표시된다. 비디오 디코더(400)는 역 양자화기(420)와 신호 통신하여 연결된 가변 길이 디코더(VLD)(410)를 포함한다. 역 양자화기는 역 변환부(430)와 연결된다. 역 변환부는 가산기 또는 합산 접합(440)의 제 1 입력 단자와 신호 통신하여 연결되며, 여기서 합산 접합(440)의 출력은 비디오 디코더(400)의 출력을 제공한다. 합산 접합(440)의 출력은 기준 화상 저장부(450)와 신호 통신하여 연결된다. 기준 화상 저장부(450)는 움직임 보상기(460)와 신호 통신하여 연결되고, 상기 움직임 보상기는 합산 접합(440)의 제 2 입력 단자와 신호 통신하여 연결된다.

도 5를 참조하면, 명시적 기준 화상 가중치를 위한 비디오 디코더는 일반적으로 참조 번호(500)로 표시된다. 비디오 디코더(500)는 역 양자화기(520)와 신호 통신하여 연결된 VLD(510)를 포함한다. 역 양자화기(520)는 역 변환기(530)와 신호 통신하여 연결된다. 역 변환기(530)는 합산 접합(540)의 제 1 입력 단자와 신호 통신하여 연결되며, 여기서 합산 접합(540)의 출력은 비디오 디코더(500)의 출력을 제공한다. 합산 접합(540)의 출력은 기준 화상 저장부(550)와 신호 통신하여 연결된다. 기준 화상 저장부(550)는 움직임 보상기(560)와 신호 통신하여 연결되며, 상기 움직임 보상기는 곱셈기(또는 기준 화상 가중치 애플리케이터)(570)의 제 1 입력과 신호 통신하여 연결된다. 당업자에 의해 인식되는 바와 같이, 명시적 가중된 예측을 위한 디코더(500)는 또한 묵시적 가중된 예측에 사용될 수 있다.

VLD(510)는 계수 인덱스를 룩업(580)에 제공하기 위해 기준 화상 가중치 인자 룩업(580)과 신호 통신하여 추가로 연결된다. 룩업(580)의 제 1 출력은 가중치 인자를 제공하기 위한 것이고, 기준 화상 가중치 애플리케이터(570)의 제 2 입력과 신호 통신하여 연결된다. 기준 화상 가중치 애플리케이터(570)의 출력은 합산 접합(590)의 제 1 입력과 신호 통신하여 연결된다. 룩업(580)의 제 2 출력은 오프셋을 제공하기 위한 것이고, 합산 접합(590)의 제 2 입력과 신호 통신하여 연결된다. 합산 접합(590)의 출력은 합산 접합(540)의 제 2 입력 단자와 신호 통신하여 연결된다.

이제 도 6을 참조하면, 이미지 블록에 대한 비디오 신호 데이터를 디코딩하기 위한 예시적인 프로세스는 일반적으로 참조 번호(600)로 표시된다. 이 프로세스는 제어를 입력 블록(612)에 통과시키는 시작 블록(610)을 포함한다. 입력 블록(612)은 이미지 블록 압축된 데이터를 수신하고, 제어를 입력 블록(614)에 통과시킨다. 입력 블록(614)은 이미지 블록에 대한 데이터와 함께 적어도 하나의 기준 화상 인덱스를 수신하고, 각 기준 화상 인덱스는 특정 기준 화상에 대응한다. 입력 블록(614)은 제어를 기능 블록(616)에 통과시키고, 상기 기능 블록(616)은 각 수신된 기준 화상 인덱스에 대응하는 가중치 인자를 결정하고, 제어를 선택 기능 블록(617)에 통과시킨다. 선택 기능 블록(617)은 각 수신된 기준 화상 인덱스에 대응하는 오프셋을 결정하고, 제어를 기능 블록(618)에 통과시킨다. 기능 블록(618)은 각 수신된 기준 화상 인덱스에 대응하는 기준 화상을 검색하고, 제어를 기능 블록(620)에 통과시킨다. 기능 블록(620)은 다시 검색된 기준 화상을 움직임 보상하고, 제어를 기능 블록(622)에 통과시킨다. 기능 블록(622)은 움직임 보상된 기준 화상을 대응하는 가중치 인자와 곱하고, 제어를 선택 기능 블록(623)에 통과시킨다. 선택 기능 블록(623)은 움직임 보상된 기준 화상을 대응하는 오프셋에 추가하고, 제어를 기능 블록(624)에 통과시킨다. 기능 블록(624)은 다시 가중된 움직임 보상된 기준 화상을 형성하고, 제어를 최종 블록(626)에 통과시킨다.

도 7에 도시된 바와 같이, 이미지 블록에 대한 비디오 신호 데이터를 인코딩하기 위한 예시적인 프로세스는 일반적으로 참조 번호(700)로 표시된다. 이 프로세스는 시작 블록(710)을 포함하고, 시작 블록은 제어를 입력 블록(712)에 통과시킨다. 입력 블록(712)은 실질적으로 압축되지 않은 이미지 블록 데이터를 수신하고, 제어를 기능 블록(714)에 통과시킨다. 기능 블록(714)은 대응하는 인덱스를 갖는 특정 기준 화상에 대응하는 이미지 블록에 대한 가중치 인자를 할당한다. 기능 블록(714)은 제어를 선택 기능 블록(715)에 통과시킨다. 선택 기능 블록(715)은 대응하는 인덱스를 갖는 특정 기준 화상에 대응하는 이미지 블록에 대한 오프셋을 할당한다. 선택 기능 블록(715)은 제어를 기능 블록(716)에 통과시키고, 상기 기능 블록(716)은 이미지 블록과 특정 기준 화상 사이의 차이에 대응하는 움직임 벡터를 계산하고, 제어를 기능 블록(718)에 통과시킨다. 기능 블록(718)은 움직임 벡터에 따라 특정 기준 화상을 움직임 보상하고, 제어를 기능 블록(720)에 통과시킨다. 기능 블록(720)은 다시 가중된 움직임 보상된 기준 화상을 형성하기 위해 움직임 보상된 기준 화상을 할당된 가중치 인자와 곱하고, 제어를 선택 기능 블록(721)에 통과시킨다. 선택 기능 블록(721)은 다시 가중된 움직임 보상된 기준 화상을 형성하 기 위해 움직임 보상된 기준 화상을 할당된 오프셋에 추가하고, 제어를 기능 블록(722)에 통과시킨다. 기능 블록(722)은 실질적으로 압축되지 않은 이미지 블록으로부터 가중된 움직임 보상된 기준 화상을 감산하고, 제어를 기능 블록(724)에 통과시킨다. 기능 블록(724)은 다시 특정 기준 화상의 대응하는 인덱스와 함께 실질적으로 압축되지 않은 이미지 블록과 가중된 움직임 보상된 기준 화상 사이의 차이로 신호를 인코딩하고, 제어를 최종 블록(726)에 통과시킨다.

가중된 예측(WP) 툴은 코딩 효율을 개선시키기 위해 주요 및 확장 프로파일에 대한 JVT 비디오 코딩 표준으로 채택된다. 본 발명의 바람직한 실시예에서, 새로운 방법 단계는 가중치 파라미터를 추정하기 위해 제공된다.

동작 방법은 디졸브(dissolve) 또는 페이딩(fading) 시퀀스를 설명하기 위한 모델에 기초한다. 대부분의 기본 원리에서, 디졸브 또는 페이드 프로세스가 2개의 비디오 스트림의 시변 중첩(time-varying superposition)으로서 보일 수 있다는 것이 간주된다. f_k(x,y)가 시퀀스(f)의 프레임(k)에서의 픽셀값(x,y)을 나타낸다고 하자. 그러므로, 프레임(m)으로부터 프레임(n)까지 지속하는, 시퀀스(g)로부터 시퀀스(h)까지의 디졸브는 다음 수학식 9로서 기재될 수 있다.

f_k(x,y)=α_kh(x,y)+(1-α_k)g(x,y)

이러한 설명을 위해, 또한 시퀀스(g)로부터 시퀀스(h)까지의 무시할 수 있는 움직임이 있다고 간주하자. 간편함을 위해, f_k가 프레임(k)의 모든 픽셀에 의해 형 성된 벡터를 나타낸다고 하자. 수학식 9에 의해, 다음과 같이 기재할 수 있다.

f_a(x,y)=α_ah(x,y)+(1-α_a)g(x,y)

f_b(x,y)=α_bh(x,y)+(1-α_b)g(x,y)

f_c(x,y)=α_ch(x,y)+(1-α_c)g(x,y)

f_d(x,y)=α_dh(x,y)+(1-α_d)g(x,y)

여기서 m<a,b,c,d<n, a≠b, c≠d이고

다음 수학식 10을 유도할 수 있다:

프레임 인덱스를 수학식 10으로 대체함으로써, 양방향 예측을 위해 WP의 수학식을 유도할 수 있다. 예를 들어, 현재 프레임 인덱스를 k로서 나타내고, 목록 0 예측에 대한 기준 프레임을 k-l₀으로 나타내고, 목록 1 예측을 위한 기준 프레임을 k+l₁로 나타내고, 그런 후에 수학식 10으로부터, 다음 수학식을 얻는다.

그러므로

수학식 6 내지 8과 비교하여,

및

을 설정할 수 있다.

그러므로 추정하는데 필요한 유일한 파라미터는 β이다. 수학식 11에 의해, 수학식 13을 얻는다.

즉, β는 화상 차이의 비율, 또는 가중치 인자이다. β를 추정하는데 여러 방식이 있다.

방법 실시예 1: 수학식 13을 이용하여, 가중치 인자의 결정이, 이전 화상과 현재 화상의 프레임 차이의 예측을 계산하는 것과, 또한 후속 화상과 현재 화상의 프레임 차이의 예측을 계산하는 것을 포함하는 방법이 예시된다. 본 발명의 본 실시예에서, β의 값은 이들 2가지 예측 사이의 비율이다. 2가지 가중치(w₀ 및 w₁)는 β에 기초하여 계산된다.

방법 실시예 2: 수학식 11에 의해, 수학식 3에서의 선형 회귀 또는 수학식 6에서와 같이 다른 통계적 방법이 사용될 수 있다.

방법 실시예 3: 곡선 피팅(curve fitting)이 적용될 수 있다.

β를 추정할 때, 이미지에서의 모든 픽셀을 이용할 필요가 없다. 서브샘플링된 이미지는 계산을 절감하기 위해 사용될 수 있다.

수학식 10에서, 시퀀스에서 어떠한 움직임도 없다고 간주하자. 움직임을 고려하기 위해, 반복적 방법이 다음과 같이 사용된다.

단계 1: 처음에 프레임 차이를 이용하여 β_n=0을 계산;

단계 2: n=n+1;

단계 3: β_n에 의해 가중된 예측을 이용하여 움직임 벡터를 추정, 즉, 움직임 벡터는 β_n과 곱한 픽셀 값을 갖는 가중된 기준 화상과 현재 화상 사이에서 추정된다;

단계 4: 움직임 보상된 프레임 차이를 이용하여 β_n+1을 계산;

단계 5: 만약 |β_n+1-β_n|<ε, 또는 n>N이면, 중단; 그렇지 않으면 단계 2로 진행.

가중치 인자가 계산된 후에, 선택 가중치 오프셋은 수학식 6 및 7을 이용하여 계산될 수 있다. 양측상에서 예측을 취함으로써, 현재 화상과 가중된 움직임 보상된 기준 화상 사이의 평균 차이로서 가중치 오프셋을 유도할 수 있다.

O₀=E(SampleP)-E(sampleP0ㆍw₀)

O₁=E(SampleP)-E(sampleP1ㆍw₁)

본 발명의 이들 및 다른 특징 및 장점은 본 명세서의 가르침에 기초하여 당업자에 의해 쉽게 확인될 것이다. 본 발명의 원리가 하드웨어, 소프트웨어, 펌웨어, 특수 목적 프로세서, 또는 이들의 조합의 다양한 형태로 구현될 수 있음이 이해될 것이다.

더 바람직하게, 본 발명의 원리는 하드웨어와 소프트웨어의 조합으로서 구현된다. 더욱이, 소프트웨어는 프로그램 저장 유닛 상에서 명백히 구현된 응용 프로그램으로서 구현되는 것이 바람직하다. 응용 프로그램은 임의의 적합한 구조를 포함하는 기계에 업로드될 수 있고, 이 기계에 의해 실행될 수 있다. 바람직하게, 기계는 하나 이상의 중앙 처리 유닛(CPU), 랜덤 액세스 메모리(RAM), 및 입/출력(I/O) 인터페이스와 같이 하드웨어를 갖는 컴퓨터 플랫폼 상에서 구현된다. 컴퓨터 플랫폼은 운영 체계 및 마이크로지령 코드를 또한 포함할 수 있다. 본 명세서에 설명된 다양한 프로세스 및 기능은 마이크로지령 코드의 부분 또는 응용 프로그램의 부분, 또는 이들의 임의의 조합일 수 있으며, 이것은 CPU에 의해 실행될 수 있다. 더욱이, 다양한 다른 주변 유닛은 추가 데이터 저장 유닛 및 프린팅 유닛과 같은 컴퓨터 플랫폼에 연결될 수 있다.

첨부 도면에 도시된 몇몇 구성 시스템 구성요소 및 방법이 소프트웨어에서 구현되는 것이 바람직하기 때문에, 시스템 구성요소 또는 프로세스 기능 블록 사이의 실제 연결은 본 발명이 프로그래밍되는 방식에 따라 다를 수 있다는 것이 더 이해될 것이다. 본 명세서의 가르침이 주어지면, 당업자는 본 발명의 이들 및 유사한 구현 또는 구성을 구상할 수 있을 것이다.

예시적인 실시예가 첨부 도면을 참조하여 본 명세서에 설명되었지만, 본 발명이 이들 그 실시예에 한정되지 않고, 다양한 변화 및 변형이 본 발명의 범주 또는 사상에서 벗어나지 않고도 당업자에 의해 본 명세서에서 달성될 수 있다는 것이 이해될 것이다. 모든 그러한 변화 및 변형은 첨부된 청구항에 설명된 바와 같이 본 발명의 범주 내에 포함되도록 의도된다.

상술한 바와 같이, 본 발명은 비디오 인코더 및 디코더에 관한 것으로, 더 구체적으로 가중된 예측 추정을 위한 장치 및 방법 등에 이용된다.

Claims

적어도 하나의 기준 화상과 연관하여 현재 화상의 비디오 신호 데이터를 인코딩하기 위한 비디오 인코더(200, 300)로서,

기준 화상 가중치 애플리케이터(applicator)(292, 392)와;

프레임 차이에 응답하여, 상기 적어도 하나의 기준 화상에 대응하는 가중치 인자를 할당하기 위해 상기 기준 화상 가중치 애플리케이터와 신호 통신하는 기준 화상 가중치 인자 유닛(272, 372)을

포함하는, 비디오 인코더.
제 1항에 있어서, 상기 기준 화상 가중치 인자 유닛은 움직임 보상된 프레임 차이에 응답하는, 비디오 인코더.
제 1항에 있어서, 상기 프레임 차이는 상기 현재 화상과 상기 적어도 하나의 기준 화상 사이에서 계산되는, 비디오 인코더.
제 1항에 있어서, 상기 기준 화상 가중치 인자 유닛은 임의의 시퀀스에 대응하는 복수의 기준 화상에 응답하는, 비디오 인코더.
제 2항에 있어서, 상기 기준 화상 가중치 인자 유닛은 상기 움직임 보상된 프레임 차이로부터 반복적으로 유도된 가중치 인자에 추가로 응답하는, 비디오 인코더.
제 2항에 있어서, 상기 기준 화상 가중치 인자 유닛은 통계적 방법 또는 곡선 피팅(curve fitting) 중 적어도 하나로부터 유도된 가중치 인자에 추가로 응답하는, 비디오 인코더.
제 6항에 있어서, 상기 통계적 방법은 선형 회귀(linear regression)를 포함하는, 비디오 인코더.
제 1항에 있어서, 상기 기준 화상 가중치 인자 유닛은 상기 현재 화상과 가중된 움직임 보상된 기준 화상 사이의 평균 차이로서 유도된 가중치 오프셋을 적용하는, 비디오 인코더.
제 4항에 있어서, 적어도 하나의 페이딩 시퀀스 화상을 코딩하기 위해 상기 기준 화상 가중치 인자 유닛에 응답하여 움직임 보상된 페이드-아웃(fade-out) 시작 화상 및 움직임 보상된 페이드-인 종료 화상 중 적어도 하나를 제공하기 위해 상기 기준 화상 가중치 애플리케이터와 신호 통신하는 움직임 보상 유닛(290, 390)을 더 포함하는, 비디오 인코더.
제 9항에 있어서, 상기 페이드-아웃 시작 화상 및 페이드-인 종료 화상 각각을 저장하기 위해 상기 기준 화상 가중치 인자 유닛 및 움직임 보상 유닛 각각과 신호 통신하는 기준 화상 저장부(270, 370)를 더 포함하는, 비디오 인코더.
제 9항에 있어서, 상기 기준 화상 가중치 애플리케이터는 상기 기준 화상 가중치 인자 유닛에 의해 선택된 가중치 인자를 상기 움직임 보상된 페이드-아웃 시작 화상 및 상기 움직임 보상된 페이드-인 종료 화상 중 적어도 하나에 적용하는, 비디오 인코더.
제 11항에 있어서, 양방향 예측 화상 예측자(predictor)와 함께 이용가능하고, 상기 인코더는 각각 상기 가중되고 움직임 보상된 페이드-아웃 시작 및 페이드-인 종료 화상으로부터 제 1 및 제 2 예측자를 형성하기 위한 예측 수단을 더 포함하는, 비디오 인코더.
제 12항에 있어서, 상기 가중된 및 움직임 보상된 페이드-아웃 시작 및 페이드-인 종료 화상 각각은 상기 모든 적어도 하나의 크로스-페이드(cross-fade) 화상에 대해 반대 방향으로부터 나오는, 비디오 인코더.
제 1항에 있어서, 명시적(explicit) 동작 모드로 가중치 인자에 응답하여 움직임 추정을 제공하기 위해 상기 기준 화상 가중치 인자 유닛과 신호 통신하는 움 직임 추정 유닛(380)을 더 포함하는, 비디오 인코더.
제 8항에 있어서, 명시적 동작 모드로 오프셋을 상기 가중된 움직임 보상된 기준 화상에 적용하기 위해 상기 기준 화상 가중치 인자 유닛과 신호 통신하는 합산 유닛(394)을 더 포함하는, 비디오 인코더.
이미지 블록을 위한 비디오 신호 데이터를 인코딩하는 방법(700)으로서,

실질적으로 압축되지 않은 이미지 블록을 수신하는 단계(712)와;

가중치 인자를 결정하기 위해 프레임 차이를 이용하여, 대응하는 인덱스를 갖는 특정 기준 화상에 대응하는 이미지 블록을 위해 가중치 인자를 할당하는 단계(714)와;

상기 이미지 블록과 상기 특정 기준 화상 사이의 차이에 대응하는 움직임 벡터를 계산하는 단계(716)와;

상기 움직임 벡터에 따라 상기 특정 기준 화상을 움직임 보상하는 단계(718)와;

가중된 움직임 보상된 기준 화상을 형성하기 위해 상기 할당된 가중치 인자에 의해 상기 움직임 보상된 기준 화상을 조정하는 단계(720)와;

상기 실질적으로 압축되지 않은 이미지 블록으로부터 상기 가중된 움직임 보상된 기준 화상을 감산하는 단계(722)와;

상기 특정 기준 화상의 대응하는 인덱스와 함께 상기 실질적으로 압축되지 않은 이미지 블록과 상기 가중된 움직임 보상된 기준 화상 사이의 차이를 나타내는 신호를 인코딩하는 단계(724)를

포함하는, 이미지 블록을 위한 비디오 신호 데이터를 인코딩하는 방법.
제 16항에 있어서, 가중치 인자를 결정하는 단계는, 이전 화상과 현재 화상의 프레임 차이의 예측을 계산하는 단계와; 후속 화상과 상기 현재 화상의 프레임 차이의 예측을 계산하는 단계를 포함하는 이미지 블록을 위한 비디오 신호 데이터를 인코딩하는 방법.
제 16항에 있어서, 가중치 인자를 결정하는 단계는, 상기 현재 화상을 나타내는 시퀀스 상의 선형 회귀(linear regression)를 수행하는 단계를 포함하는, 이미지 블록을 위한 비디오 신호 데이터를 인코딩하는 방법.
제 16항에 있어서, 가중치 인자를 결정하는 단계는 상기 현재 화상을 나타내는 시퀀스에 곡선을 피팅(fitting)하는 단계를 포함하는, 이미지 블록을 위한 비디오 신호 데이터를 인코딩하는 방법.
제 19항에 있어서, 계산을 절감하기 위해 상기 이미지를 서브샘플링(subsampling)하는 단계를 더 포함하는, 이미지 블록을 위한 비디오 신호 데이터를 인코딩하는 방법.
제 19항에 있어서, 상기 움직임을 고려하기 위해 가중치 인자를 반복하는 단계를 더 포함하는 이미지 블록을 위한 비디오 신호 데이터를 인코딩하는 방법.
제 21항에 있어서, 상기 반복은,

프레임 차이 및 변위된 프레임 차분 중 적어도 하나를 이용하여 제 1 반복을 계산하는 단계와;

가중된 예측(Weighted Prediction)을 이용하여 현재 화상과 가중된 기준 화상 사이의 움직임 벡터를 추정하는 단계와;

움직임 보상된 프레임 차이 및 변위된 프레임 차분 중 적어도 하나를 이용하여 상기 가중치 인자를 계산하는 단계를

포함하는, 이미지 블록을 위한 비디오 신호 데이터를 인코딩하는 방법.
제 16항에 있어서, 가중치 오프셋을 결정하는 단계를 더 포함하는, 이미지 블록을 위한 비디오 신호 데이터를 인코딩하는 방법.
제 23항에 있어서, 상기 가중치 오프셋을 결정하는 단계는,

양측상에서 기대값을 취하는 단계와;

상기 현재 화상과 가중된 움직임 보상된 기준 화상 사이의 평균 차이로서 상기 가중치 오프셋을 유도하는 단계를

포함하는, 이미지 블록을 위한 비디오 신호 데이터를 인코딩하는 방법.
제 16항에 있어서, 움직임 벡터를 계산하는 단계는,

상기 이미지 블록에 대해 오프셋의 미리 결정된 범위 내의 모든 변위에 대해 검색 영역 내에서 테스트하는 단계와;

움직임 보상된 기준 화상으로 상기 이미지 블록에서의 각 픽셀의 절대 차이(absolute difference)와 평균 제곱 에러의 합 중 적어도 하나를 계산하는 단계와;

상기 움직임 벡터로서 상기 절대 차이와 평균 제곱 에러의 가장 낮은 합으로 상기 오프셋을 선택하는 단계를

포함하는, 이미지 블록을 위한 비디오 신호 데이터를 인코딩하는 방법.
제 16항에 있어서, 양방향 예측 화상 예측자가 사용되며,

제 2 대응하는 인덱스를 갖는 제 2 특정 기준 화상에 대응하는 이미지 블록에 대해 제 2 가중치 인자를 할당하는 단계와;

상기 이미지 블록과 상기 제 2 특정 기준 화상 사이의 차이에 대응하는 움직임 벡터를 계산하는 단계와;

상기 움직임 벡터에 따라 상기 제 2 특정 기준 화상을 움직임 보상하는 단계와;

가중된 움직임 보상된 제 2 기준 화상을 형성하기 위해 상기 움직임 보상된 제 2 기준 화상을 상기 할당된 제 2 가중치 인자와 곱하는 단계와;

상기 실질적으로 압축되지 않은 이미지 블록으로부터 상기 가중된 움직임 보상된 제 2 기준 화상을 감산하는 단계와;

상기 제 2 특정 기준 화상의 대응하는 인덱스와 함께 상기 실질적으로 압축되지 않은 이미지 블록과 상기 가중된 움직임 보상된 제 2 기준 화상 사이의 차이를 나타내는 신호를 인코딩하는 단계를

더 포함하는, 이미지 블록을 위한 비디오 신호 데이터를 인코딩하는 방법.
제 26항에 있어서, 상기 2개의 차이 기준 화상은 상기 이미지 블록에 대해 동일한 방향 모두로부터 나오는, 이미지 블록을 위한 비디오 신호 데이터를 인코딩하는 방법.
제 26항에 있어서, 움직임 벡터를 계산하는 단계는,

상기 이미지 블록에 대해 오프셋의 미리 결정된 범위 내의 모든 변위에 대해 검색 영역 내에서 테스트하는 단계와;

상기 제 1 예측자에 대응하는 제 1 움직임 보상된 기준 화상으로 상기 이미지 블록에서의 각 픽셀의 절대 차이의 합 또는 평균 제곱 에러 중 적어도 하나를 계산하는 단계와;

상기 제 1 예측자에 대해 움직임 벡터로서 상기 절대 차이의 가장 낮은 합 또는 평균 제곱 에러에 대한 오프셋을 선택하는 단계와;

상기 제 2 예측자에 대응하는 제 2 움직임 보상된 기준 화상으로 상기 이미 지 블록에서의 각 픽셀의 절대 차이의 합 또는 평균 제곱 에러 중 적어도 하나를 계산하는 단계와;

상기 제 2 예측자에 대한 움직임 벡터로서 상기 절대 차이의 가장 낮은 합 또는 평균 제곱 에러로 오프셋을 선택하는 단계를

포함하는, 이미지 블록을 위한 비디오 신호 데이터를 인코딩하는 방법.