KR20080002936A - 하나 이상의 디지털 영상을 인코딩하는 방법, 인코더 및컴퓨터 프로그램 생성물 - Google Patents

하나 이상의 디지털 영상을 인코딩하는 방법, 인코더 및컴퓨터 프로그램 생성물 Download PDF

Info

Publication number
KR20080002936A
KR20080002936A KR1020077025894A KR20077025894A KR20080002936A KR 20080002936 A KR20080002936 A KR 20080002936A KR 1020077025894 A KR1020077025894 A KR 1020077025894A KR 20077025894 A KR20077025894 A KR 20077025894A KR 20080002936 A KR20080002936 A KR 20080002936A
Authority
KR
South Korea
Prior art keywords
layer
image
representation
cif
qcif
Prior art date
Application number
KR1020077025894A
Other languages
English (en)
Inventor
정구오 리
위 야오
겡 팡 림
지아오 린
수산토 라하르드자
Original Assignee
에이전시 포 사이언스, 테크놀로지 앤드 리서치
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 에이전시 포 사이언스, 테크놀로지 앤드 리서치 filed Critical 에이전시 포 사이언스, 테크놀로지 앤드 리서치
Publication of KR20080002936A publication Critical patent/KR20080002936A/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

하나 이상의 디지털 영상을 인코딩하는 방법이 설명되며, 그 방법에서 상기 영상의 첫 번째 표시를 생성하고, 상기 영상의 두 번째 표시를 생성하며, 상기 영상의 첫 번째 표시 및 두 번째 표시를 이용하여 상기 영상의 코딩 정보를 예측함으로써 상기 영상의 첫 번째 표시 및 두 번째 표시로부터 상기 영상의 세 번째 표시를 생성한다.

Description

하나 이상의 디지털 영상을 인코딩하는 방법, 인코더 및 컴퓨터 프로그램 생성물{Method for encoding at least one digital picture, encoder, computer program product}
본 발명은 하나 이상의 디지털 영상을 인코딩하는 방법, 인코더 및 컴퓨터 프로그램 생성물에 대한 것이다.
MPEG(Moving Picture Expert Group)의 표준화 작업에서, 스케일러블 비디오 코딩(scalable video coding; SVC)에 대한 방법이 개방형 루프 동작 추정/동작 보상(motion estimation/motion compensation; ME/MC)을 기반으로 하여 제안되었고, 이제는 비디오 코딩 표준 AVC의 스케일러블 확장이다. (이에 대해서는 본 명세서 끝 부분의 참조문헌 [1], [2] 참조.)
AVC에서 이용가능한 ME/MC 방법(참조문헌 [2] 참조) 외에, 제안된 SVC 방법의 주요 부분들은 계층 간(inter-layer) 예측 방법이다.
고위 계층(enhancement layer)에서 각 슬라이스(slice)에 대해, 대응하는 "기본 계층(base layer)"(base_id_plus1의 파라미터로 특정됨, 참조문헌 [1] 참조)은 "기본 계층"에서의 동작 정보와 잉여(residual) 정보 간의 중복(redundancy) 및 고위 계층에서의 동작 정보와 잉여 정보 간의 중복을 제겅하기 위해 선택된다.
고위 계층에서의 각 슬라이스에 대해 단 하나만의 기본 계층이 있기 때문에(참조문헌 [1] 참조), 특정한 경우에는 코딩 효율이 낮아질 수 있다.
도 1은 종래 기술에 따라 계층을 코딩하는 예를 도시한 것이다.
도 1에서, 4가지 계층이 도시되며, 첫 번째 계층은 (QCIF, 로우)로 표시되며, 두 번째 계층은 (QCIF, 미디움), 세 번째 계층은 (CIF, 로우) 그리고 네 번째 계층은 (CIF, 미디움)으로 표시된다.
"로우(low)"는 대응 계층이 "미디움(medium)"에 대응하는 계층보다 더 낮은 정확성을 가지고 양자화된 코딩 정보를 포함한다는 것을 나타낸다. 이것은 도 1에서 더 오른쪽에 도시된 계층이 더 높은 SNR을 가지는 코딩 정보에 대응된다는 것을 나타내는 첫 번째 축(105)에 의해서도 마찬가지로 나타내진다.
종래의 기술에 따르면, 전체 기본 계층은 첫 번째 계층(101)(QCIF, 로우)으로서 선택되며, 이 계층은 세 번째 계층(103)(CIF, 로우)과 두 번째 계층(102)(QCIF, 미디움)에서의 모든 슬라이스들에 대한 "기본 계층"이기도 하다.
스케일러블 비트 스트림이 생성될 때에, 세 번째 계층(103)(CIF, 로우)과 첫 번째 계층(101)(QCIF, 로우) 간의 공간 중복과 첫 번째 계층(101)(QCIF, 로우)과 두 번째 계층(102)(QCIF, 미디움) 간의 SNR(signal-to-noise)는 추진중인 참조문헌 [1]의 시안에서 제안된 계층간 예측 방법에 의해 제거될 수 있다.
그러나, 네 번째 계층(104)(CIF, 미디움)이 코딩될 때에 문제가 있다. 각 슬라이스에 대해 단지 하나만의 "기본 계층"이 있기 때문에, 세 번째 계층(103)(CIF, 로우) 또는 첫 번째 계층(101)(QCIF, 미디움)이 "기본 계층"으로 선택된다.
한편으로는, 첫 번째 계층(101)(CIF, Low)이 "기본 계층"으로 선택되면, 첫 번째 계층(101)(QCIF, 로우)과 두 번째 계층(102)(QCIF, 미디움) 간의 SNR 중복은 효과적으로 제거될 수 있다.
그러나, 두 번째 계층(102)(QCIF, 미디움)과 네 번째 계층(104)(QCIF, 미디움) 간의 공간 중복은 제거될 수 없다.
반면에, 두 번째 계층(102)(QCIF, 미디움)이 "기본 계층"으로서 선택되면, 두 번째 계층(102)(QCIF, 미디움)과 네 번째 계층(104)(CIF, 미디움) 간의 공간 중복은 효과적으로 제거될 수 있다. 그러나 네 번째 계층(104)(CIF, 미디움)과 세 번째 게층(103)(CIF, 로우) 간의 SNR 중복은 제거될 수 없다.
이 문제를 다룰 두가지 방법은 다음과 같다:
1)
- 첫 번째 계층(101)(QCIF, 로우)을 두 번째 계층(102)(QCIF, 미디움)의 "기본 계층"으로 설정한다.
- 첫 번째 계층(101)(QCIF, 로우)을 세 번째 계층(103)(CIF, 로우)의 "기본 계층"으로 설정한다.
- 세 번째 계층(103)(CIF, 로우)을 네 번째 계층(104)(CIF, 미디움)의 "기본 계층"으로 설정한다.
이 경우, 상기에서 설명된 것과 같이, 네 번째 계층(CIF, 미디움)의 코딩 효율이 보장될 수 없다.
2)
- 첫 번째 계층(101)(QCIF, 로우)을 두 번째 계층(102)(QCIF, 미디움)의 "기본 계층"으로 설정한다.
- 두 번째 계층(102)(QCIF, 미디움)을 세 번째 계층(103)(CIF, 로우)의 "기본 계층"으로 설정한다.
- 세 번째 계층(103)(CIF, 로우)을 네 번째 계층(104)(CIF, 미디움)의 "기본 계층"으로 설정한다.
이 경우, 네 번째 계층(CIF, 미디움)의 코딩 효율이 보장될 수 있다. 그러나 두 번째 계층(102)(QCIF, 미디움)이 세 번째 계층의 "기본 계층"인 이 경우에 세 번째 계층(103)(CIF, 로우)의 코딩 효율은 첫 번째 계층(101)(QCIF, 로우)이 세 번째 계층의 "기본 계층"인 이 경우에 비해 더 낮다. 이 간격은, "CIF"에 의해 표시되는 해상도에서 "로우"에 의해 표시되는 화질과 "QCIF"에 의해 표시되는 해상도에서 "미디움"에 의해 표시되는 화질 간격이 크면, 2dB 보다 클 것이다.
본 발명의 목적은 디지털 영상에 대해 종래의 기술에 따른 인코딩 방법에 비해 개선된 인코딩 방법을 제공하는 것이다.
본 발명의 목적은 독립항들의 따른 특성을 구비하는 하나 이상의 디지털 영상을 인코딩하는 방법, 인코더 및 컴퓨터 프로그램 생성물에 의해 달성된다.
하나 이상의 디지털 영상을 인코딩하는 방법은, 상기 영상의 첫 번째 표시를 생성하고, 상기 영상의 두 번째 표시를 생성하며, 상기 영상의 첫 번째 표시 및 두 번째 표시를 이용하여 상기 영상의 코딩 정보를 예측함으로써 상기 영상의 첫 번째 표시 및 두 번째 표시로부터 상기 영상의 세 번째 표시를 생성하여 제공된다.
또한, 상기에 설명된 것과 같이 하나 이상의 디지털 영상을 인코딩하는 방법에 따른 인코더와 컴퓨터 프로그램 생성물도 제공된다.
본 발명에 예시적인 실시예가 이하에서 도면을 참조하여 설명된다.
도 1은 종래 기술에 따라 계층들을 코딩하는 예를 도시한 것이다.
도 2는 본 발명의 일 실시예에 따른 인코더를 도시한 것이다.
도 3은 본 발명의 일 실시예에 따른 디코더를 도시한 것이다.
예시적으로, 두 개의 "기본 계층"이 사용되며, (한 실시예에서는 상기에서 언급된 계층들(QCIF, 미디움) 및 (CIF, 로우)) 둘 다 (CIF, 미디움)에서의 각 슬라이스에 대해 기본 계층들이다. 즉, (CIF, 미디움)에서 각 슬라이스에 대해 두 개의 계층들이 있다. 이 방법은 이하에서 상세하게 주어진다.
영상 엘리먼트에 적용되는 코딩 정보는 예를 들면 색차(chrominance) 정보 차수(order) 휘도 정보이다.
인코드될 영상은 복수의 영상들 중의 한 영상, 즉, 비디오 시퀀스의 한 프레임일 수 있으며, 첫 번째 표시와 두 번째 표시는 동작 보상을 이용하여 생성된다.
최소한 하나의 디지털 영상을 인코딩하는 방법의 문맥에서 설명되는 실시예들은 인코더 및 컴퓨터 프로그램 생성물에서 유사하게 들어맞는다.
일 실시예에서, 영상의 두 번째 표시는 첫 번째 표시보다 더 낮은 신호 대 잡음 비율을 갖는다.
일 실시예에서, 영상의 두 번째 표시는 첫 번째 표시보다 더 높은 해상도를 가진다.
예를 들면 두 번째 표시는 CIF(common intermediate format)에 따른 해상도를 가지도록 생성되며, 첫 번째 표시는 예를 들면 QCIF(quarter common intermediate format)에 따른 해상도를 가지도록 생성되며, 세 번째 표시는 CIF에 따른 해상도를 가지도록 생성된다.
도 2는 본 발명의 일 실시예에 따른 인코더(200)를 도시한 것이다.
코딩될 원 비디오 신호(201)가 (슬라이스들의 모습으로) 기본 계층 생성기(202)로 입력된다. 기본 계층 생성기는 예측기(203)로 입력되는 기본 계층(즉, 기본 계층 코딩 정보)을 생성한다. 예측기(203)는 기본 계층을 기반으로 원래의 비디오 신호를 예측한다. 예측기(203)에 의해 생성되는 예측 및 원래의 비디오 신호(201)로부터, 고위 계층 생성기(204)는 고위 계층(enahncement layer)(즉, 고위 계층 코딩 정보)을 생성한다.
그러면 고위 계층과 기본 계층은 인코딩 및 멀티플렉싱 유닛(205)에 의해 원 비디오 신호(201)에 대응하는 코딩된 비디오 신호(206)가 형성되도록 인코딩되고 멀티플렉스된다.
인코더(200)에 대응하는 디코더가 도 3에 도시된다. 도 3은 본 발명의 일 실시예에 따른 디코더(300)를 보여준다.
인코더(200)에 의해 생성된 코딩된 비디오 신호(206)에 대응하는 코딩된 비 디오 신호(301)는 (슬라이스들의 모습으로) 디코딩 및 디멀티플렉싱 유닛(303)으로 입력된다. 디코딩 및 디멀티플렉싱 유닛(303)은 코딩된 비디오 신호(301)로부터 기본 계층(즉, 기본 계층 코딩 정보) 및 고위 계층(즉, 고위 계층 코딩 정보)을 추출한다. 기본 계층은 기본 계층으로부터 예측을 생성하는 예측기(302)로 입력된다.
예측과 고위 계층은 원 비디오 신호(201)에 대응하는 재구성된 비디오 신호(305)를 생성하는 전처리기(304)로 입력된다.
인코더(200)와 디코더(300)는 예를 들면 MPEG(Moving Picture Expert Group) 표준이나 H.264 표준(본 발명에 따른 추가적인 특징을 제외함)에 따른 기능을 하도록 변형될 수 있다.
비록 인코더(200)와 디코더(300)가 고위 계층에서 각 슬라이스에 대해 하나의 기본 계층이 있는 경우에 대해 설명되었지만, 인코더(200)는, 특히 예측기(203)가 하나 이상의 계층들을 입력으로 수신하고 이 하나 이상의 기본 계층들부로터 예측을 계산하는 다른 모드에서 사용될 수 있다. 간단하게 하기 위해, 다음은 인코더(200)의 관점에서 설명된다. 디코더(300)는 대응하는 기능을 가진다.
"고위 계층"에서 각 슬라이스에 대해, 예를 들어 base-layer-id1-plus1 및 base-layer-id2-plus1으로 각각 이름이 붙여진 두 개의 기본 계층들이 있다.
다음의 설명에서는, (QCIF, 로우), (QCIF, 미디움), (CIF, 로우) 및 (CIF, 미디움)으로 상기에서 이미 언급되었던 계층들이 사용된다.
상기에서 설명된 것과 같이, "로우(low)"는 대응 계층이 "미디움(medium)"에 대응하는 계층보다 더 낮은 정확성을 가지고 양자화된 코딩 정보를 포함한다는 것 을 나타낸다. "QCIF"는 대응 계층이 "CIF"에 대응하는 계층보다 더 낮은 공간 해상도에 대한 코딩 정보를 포함한다는 것을 나타낸다.
현재의 "고위 계층", 예를 들면, (QCIF, 로우)에 대해 아무 "기본 계층"도 없다면, base-layer-id1-plus1 및 base-layer-id2-plus1의 두 파라미터는 -1이다. 현재의 고위 계층, 예를 들면 (CIF, 로우) 및 (QCIF, 미디움)에 대해 단지 하나의 기본 계층만이 있다면, base-layer-id1-plus1은 (QCIF, 로우)를 언급하며, base-layer-id2-plus1는 -1이다. 현재의 고위 계층, 예를 들면 (CIF, 미디움)에 대해 두 기본 계층이 있으면, base-layer-id1-plus1은 (QCIF, 미디움)을 언급하며, base-layer-id2-plus1는 (CIF, 로우)를 언급한다. 그러므로, 예측기(203)에 의해 실행되는 (CIF, 미디움)의 계층간 예측에 대해서는 다음의 세 가지의 모드가 있을 수 있다:
모드 1 : (CIF, 로우)로부터 예측 (즉, (CIF, 로우)를 기본 계층으로 사용)
모드 2 : (QCIF, 미디움)으로부터 예측 (즉, (QCIF, 미디움)을 기본 계층으로 사용)
모드 3: (CIF, 로우) 및 (QCIF, 미디움)의 둘로부터 예측 (즉, (CIF, 로우) 및 (QCIF, 미디움)를 기본 계측으로 사용)
모드 1 및 2는 참조문헌 [1] 및 [3]에서 설명된 것과 같이 실행된다.
모드 3의 수학적인 설명이 다음에서 주어진다.
QCIF 및 CIF의 해상도에서 참조 프레임들이 각각
Figure 112007080014318-PCT00001
,
Figure 112007080014318-PCT00002
이며, 낮은(low) 화질과 중간(medium) 품질이 두 개의 양자화 파라미터 QP1과 QP2에 각각 대응한다고 한다. (dx0, dy0)이 (QCIF, 로우)에 대해 생성된 동작 정보를 표시한다고 한다. 간략화를 위해서, D(l, 1, 2n, 2n + 1, x, y, dx0, dy0)과 D(l, 2, 2n, 2n + 1, x, y, dx0, dy0) 이 각각 (QCIF, 로우) 및 (QCIF, 미디움)에서 코딩된 잉여 정보라고 한다. 수학적으로 (QCIF, 로우)에 대해서는,
Figure 112007080014318-PCT00003
이 성립하며, (QCIF, 미디움)에 대해서는
Figure 112007080014318-PCT00004
이 성립하며, 이때에 SD는 다운-샘플링 처리를 표시한다(참조문헌 [1], [3] 참조).
모드 3이 사용될 때에 (CIF, 미디움)에서 코딩될 잉여 정보는,
Figure 112007080014318-PCT00005
으로 주어지며, 이때에 (dx, dy)가 CIF의 해상도에서의 동작 정보이고, 그리고
Figure 112007080014318-PCT00006
이다. 이때에 SU는 업-샘플링 처리를 표시하며 (참조문헌 [1], [3] 참조),
Figure 112007080014318-PCT00007
는 양자화 파라미터
Figure 112007080014318-PCT00008
를 구비한 양자화 연산을 나타내며,
Figure 112007080014318-PCT00009
는 대응하는 역양자화 연산을 나타낸다.
(i, j)의 값은 더 높은 해상도에서 남아있는 잉여 정보를 최소화하기 위해 변형되어 선택된다.
수학식 1은 (QCIF, 로우)와 (QCIF, 미디움) 간의 SNR(signal-to-noise)의 중 복을 제거하기 위해 채택된다. 수학식 2는 (CIF, 로우)와 (CIF, 미디움) 간의 SNR 중복을 제거하기 위해 사용된다. 수학식 3은 (CIF, 로우)와 (QCIF, 로우) 간의 공간 중복, 그리고 (CIF, 미디움)과 (QCIF, 미디움)간의 공간 중복을 제거하기 위해 적용된다.
계층 1과 계층 2로 표시되는 두 개의 연속적인 계층들이 사용되며, 계층 1이 참조문헌 [3]에서 설명된 SNR 잘라버림(truncation) 방법에 의해 계층 2로부터 잘려버려지면, 계층 1에서 MB를 분할하는 2개의 서로 다른 SNR 잘라버림 방법이 사용될 수 있다.
한 SNR 잘라버림 방법은 MB 분할(partitioning)이 비-스케일러블(non-scalable)한 것이다. 즉, 계층 1의 MB의 MB 유형(MB_type)과 서브 MB 유형(Sub_MB_type)은 계층 2의 MB의 동일 유형의 그것들과 동일하다. 계층 1로부터의 정보를 사용하는 인트라 텍스쳐(intra texture) 예측은 항상 계층 2에서의 모든 인트라 MB들에 대해 실행될 수 있다. MB_type과 Sub_MB_type은 계층 1에서 코딩되며 계층 2에서 코딩될 필요는 없다.
다른 SNR 잘라버림 방법은 MB의 분할이 계층 2에서의 분할에서는 거친 것이며, 계층 1에서 MB의 MB_type과 Sub_MB_type 간의 관계 그리고 계층 2에서 같이 위치한(co-located) MB의 MB_type과 Sub_MB_type 간의 관계가 각각 표 1 및 표 2에서 리스트된다.
계층 2에서의 MB_type 계층 1에서의 MB_type
16x16 16x16
16x8 16x16, 16x8
8x16 16x16, 8x16
8x8 16x16, 8x16, 16x8, 8x8
표 1. 계층 1에서 MB의 MB_type 그리고 계층 2에서 같이 위치한 MB의 MB_type 간의 관계
계층 2에서의 Sub_MB_type 계층 1에서의 Sub_MB_type
8x8 8x8
8x4 8x8, 8x4
4x8 8x8, 4x8
4x4 8x8, 4x8, 8x4, 4x4
표 2. 계층 1에서 MB의 Sub_MB_type 그리고 계층 2에서 같이 위치한 MB의 Sub_MB_type 간의 관계
계층 1과 계층 2가 두 개의 연속적인 계층이고, 계층 1은 참조문헌 [3]에 설명된 공간 잘라버림 방법에 의해 계층 2로부터 잘라버림 된 것으로 가정한다. 계층 1에서의 어떤 매크로블록(macro block; MB)에 대해서도, 4개의 같이 위치한 계층 2에서의 블록이 식별된다. 두 서로 다른 공간 잘라버림 방법이 계층 1에서 MB를 분할하는데 사용될 수 있다.
매크로블록은 이미지의 고정된 크기 영역으로, 동작 보상은 그 이미지를 기초로 한다. 예시적으로, 복수의 픽셀들(예를 들면 8x8 사각형의 픽셀들)이 하나의 매크로블록으로 그룹지어질 수 있다.
하나의 공간 잘라버림 방법은 계층 2에서 4개 MB들의 MB_type들을 계층 1의 같이 위치한 MB의 MB_type과 Sub_MB_type으로부터 전적으로 유도하는 것이며, 즉, 그들은 계층 2에서는 코딩될 필요가 없다. 계층 1로부터의 정보를 이용한 인트라 텍스쳐 예측은 계층 2의 모든 인트라 MB들에 대해 항상 실행될 수 있다. 계층 1에서의 MB의 MB_type과 Sub_MB_type은 다음의 두 가지 케이스들에 따라 유도된다:
케이스 1
4개의 같이 위치한 MB들 중에, MB_type이 16x16이 아닌 하나의 MB가 있다. MB_type은 8x8이고 Sub_MB_type은 계층 2에서의 대응 MB_type에 의해 결정된다. Sub_MB_type과 최초 MV들은 표 3과 같이 주어진다.
계층 2에서의 MB_type 계층 1에서의 Sub_MB_type (또한 보조의 Sub_MB_Type) 계층 1에서의 초기 MV들
16x16 8x8 계층 1에서 MV를 2로 나눔
16x8 8x4 계층 2에서 MV들을 2로 나눔
8x16 4x8 계층 2에서 MV를 2로 나눔
8x8 4x4 상-좌(upper-left) 블록들의 MV들을 2로 나눔
표 3. 계층 1에서의 Sub_MB_type 및 최초 MV들
케이스 2
계층 2에서 4개의 같이 위치한 MB들의 MB_type들이 16x16이다. 계층 2에서 MB_type의 최초값은 8x8로 설정되며, 4개의 MV들은 계층 2에서 4개의 같이 위치한 MB들의 MV들을 2로 나누어서 유도된다. 마지막 MB_type과 MV들은 MV들을 잘라버림에 제한들을 가한 RDO에 의해 결정된다.
다른 공간 잘라버림 방법은 계층 2에서의 4개 MB들의 MB_type은 계층 1에서 같이 위치한 MB의 MB_type과 Sub_MB_type에 의해 결정될 수 없다는 것이다. 보조의 MB_type은 계층 1에서의 MB에 대해 8x8로 설정되며 추가의 Sub_MB_type은 계층 1에서의 각 서브-MB에 대해 계층 2에서의 대응하는 MB의 MB_type에 따라 설정된다. SNR의 확장성(scalability)과 유사하게, 실제의 MB_type과 Sub_MB_type 그리고 보조의 MB_type과 Sub_MB_type이 각각 표 4와 표 5에 그 목록이 주어진다.
계층 1에서의 보조 MB_type 계층 1에서의 실제 MB_type
8x8 16x16, 8x16, 16x8, 8x8
표 4. 계층 1에서의 보조 및 실제 MB_type 간의 관계
계층 1에서의 보조 Sub_MB_type 계층 1에서의 실제 Sub_MB_type
8x8 8x8
8x4 8x8, 8x4
4x8 8x8, 4x8
4x4 8x8, 4x8, 8x4, 4x4
표 5. 계층 1에서의 보조 및 실제 Sub_MB_type 간의 관계
MPEG-4 AVC(참조문헌 [2] 참조)에 이미 채택된 CABAC(Context Adaptive Binary Arithmetic Coding)이 현재의 추진중인 시안(참조문헌 [1])에서 엔트로피 코딩에서 또한 사용된다. 그들 간의 유일한 차이는 현재의 추진중인 시안은 추가의 신택스(syntax) 엘리먼트와 FGS 코딩을 위한 추가적인 콘텍스트를 가진다는 것이다. 코딩 효율을 증가시키기 위해, CABAC는 각 신택스 엘리먼트에 대해 다양한 콘텍스트 모델을 사용한다. 콘텍스트 모델링은 이웃한 블록들에서 신택스 엘리먼트를 사용함으로써 신택스 엘리먼트들의 이진 심볼들에 대한 더 정확한 확률 모델을 추정하는 것을 가능하게 한다.
한편으로는, 전자의 케이스에서는 두 개의 독립적인 동작 벡터 필드(MVF)들이 있으며, 후자의 케이스에서는 하나의 동작 벡터 필드만이 있다. SNR/공간 정제(refinement) 방법과 SNR/공간 잘라버림의 통계들은 보통은 서로 다르며, 서로 다른 콘텍스트 모델들이 본 발명의 일 실시예에 따라 사용된다. 그러므로, 계층 1에 대해 계층 1이 계층 2로부터 잘라버림되는가 아닌가의 여부를 특정하기 위해 인코더로부터 디코더로 한 비트가 전송된다. 1의 비트는 계층 1이 계층 2로부터 잘라버림되는 것이며, 0의 비트는 계층 1이 계층 2로부터 잘라버림되지 않는다는 것을 의미한다. 이 비트는 슬라이스 헤더에 포함된다.
현재 추진중인 시안(WD 1.0, 참조문헌 [1])에서, 고위 계층의 동작 필드를 인코딩하는 것에 대해, 두 매크로블록(MB) 모드들이 기본 계층에서 적용할 수 있는 모드들에 부가하는 것이 가능하다: "BASE_LAYER_MODE" 및 "QPEL_REFINEMENT_MODE". "BASE_LAYER_MODE"가 사용되면 대응하는 매크로블록에 대해 더 이상의 정보가 전송되지 않는다. 이 MB 모드는 "기본 계층"의 대응 MB의 MB 분할을 포함하는 동작/예측 정보가 사용된다는 것을 나타낸다. 기본 계층이 공간 해상도의 반의 해상도를 가진 계층을 표시하면, MB 분할을 포함하는 동작 벡터 필드는 그에 따라 크기 조절이 된다. "QPEL_REFINEMENT_MODE"는 기본 계층이 현재 계층의 공간 해상도의 절반의 해상도를 가진 계층을 표시할 때만 사용된다. "QPEL_REFINEMENT_MODE"는 "BASE_LAYER_MODE"와 유사하다. 참조 색인들 및 동작 벡터(MV)들 뿐만이 아니라 MB 분할도 "BASE_LAYER_MODE"에 대한 것처럼 유도된다. 그러나, 각 MV에 대해 4분의 1 샘플 MV 정제(각 MV 요소에 대해 -1, 0 또는 +1)는 추가적으로 전송되어 유도된 MV들에게 더해진다.
그러므로, 일 실시예에서, 새로운 모드 "NEIGHBORHOOD_REFINEMENT_MODE"가 사용되며, 이는 "기본 계층"의 대응 MB의 MB 분할을 포함하는 동작/예측 정보가 사용되며 고위 계층에서의 블록의 MV는 그 "기본 계층"에서 대응하는 블록의 그 이웃에 있다는 것을 의미한다. "QPEL_REFINEMENT_MODE"에도 동일하게, 정제 정보가 추가로 전송된다. "NEIGHBORHOOD_REFINEMENT_MODE"는 SNR 확장성 그리고 공간 확장성에 다 적용 가능하다.
"기본 계층"에서의 한 블록의 동작 벡터(MV)가 (dx0, dy0)이라고 가정한다. SNR 확장성을 고려하면, 이웃(neighborhood)의 중심은 (dx0, dy0)이다. 공간 확장성이 학습되면, 이웃의 중심은 (2dx0, 2dy0)이다. "QPEL_REFINEMENT_MODE"에도 동일하게, 정제 정보가 추가로 전송된다. "NEIGHBORHOOD_REFINEMENT_MODE"는 SNR 확장성 그리고 공간 확장성에 다 적용 가능하다. 이 새로운 모드는 참조문헌 [3]에서 설명된 SNR/공간 잘라버림 방법 역시 고려함으로써 일 실시예로 설계된다.
기본 계층 및 고위 계층에서 동작 벡터들을 생성하기 위한 양자화 파라미터를 각각 QPb과 QPe라고 가정한다. 보통은, 이웃의 크기는 QPb과 QPe에 따라 변경되며, 보통은 |QPb - QPe|의 단조 비-감소 함수이다. 정제 정보의 선택은 이웃의 크기에 달려있다. 다음에 그 예가 주어진다.
|QPb - QPe|가 문턱값보다 크면, 이웃의 크기 및 SNR 잘라버림 방법과 공간 잘라버림 방법의 정제 정보는 각각 표 6 및 표 7의 목록과 같다.
기본 계층에서의 MV 정제의 가능한 선택
모든 픽셀(Full Pixel) {-1, -1/2, -1/4, 0, 1/4, 1/2, 1}
절반 픽셀(Half Pixel) {-1/4, 0, 1/4}
표 6. SNR 잘라버림에 대한 이웃
기본 계층에서의 MV 정제의 가능한 선택
모든 픽셀(Full Pixel) {-1, -1/2, -1/4, 0, 1/4, 1/2, 1}
절반 픽셀(Half Pixel) {-1/2, -1/4, 0, 1/4, 1/2}
4분의 1 픽셀(Quarter Pixel) {-1/4, 0, 1/4}
표 7. 공간 잘라버림에 대한 이웃
WD 1.0(참조문헌 [1])에서 설명된 "QPEL_REFINEMENT_MODE"와 유사하게, 정제 정보와 정수 간의 매핑이 미리 정의된다(표 8 참조).
정제 정보 -1 -1/2 -1/4 0 1/4 1/2 1
-4 -2 -1 0 1 2 4
표 8. SNR/공간 잘라버림에 대한 매핑
본원의 발명의 상세한 설명에서 다음의 출판물들이 참조문헌으로 사용되었다:
[1] Julien Reichel, Heiko Schwarz and Mathias Wien. Working Draft 1.0 of 14496-10 : 200x/AMD 1 Scalable Video Coding, ISO/IEC JTC1/SC29 WGIl MPEG2005/N6901, Kong Hong, China. Jan. 2005.
[2] Information Technology-Coding of Audio-Visual Objects- Part 10: Advance Video Coding. ISO/IEC FDIS 14496-10.
[3] Z. G. Li, X. K. Yang, K. P. Lim, X. Lin, S. Rahardja and F. Pan. Customer Oriented Scalable Video Coding. ISO/IEC JTC1/SC29 WGIl MPEG2004/M11187," Spain, Oct 2004.
본 발명은 디지털 영상을 처리하는데 사용될 수 있다.

Claims (8)

  1. 하나 이상의 디지털 영상을 인코딩하는 방법에 있어서,
    상기 영상의 첫 번째 표시를 생성하는 단계;
    상기 영상의 두 번째 표시를 생성하는 단계; 및
    상기 영상의 첫 번째 표시 및 두 번째 표시를 이용하여 상기 영상의 영상 엘리먼트들에 할당되는 코딩 정보를 예측함으로써 상기 영상의 첫 번째 표시 및 두 번째 표시로부터 상기 영상의 세 번째 표시를 생성하는 단계;를 포함하는 것을 특징으로 하는 인코딩 방법.
  2. 제1항에 있어서,
    상기 영상의 두 번째 표시는 상기 첫 번째 표시보다 더 낮은 신호 대 잡음비를 가지도록 생성되는 것을 특징으로 하는 인코딩 방법.
  3. 제2항에 있어서,
    상기 영상의 두 번째 표시는 상기 첫 번째 표시보다 더 높은 해상도를 가지도록 생성되는 것을 특징으로 하는 인코딩 방법.
  4. 제1항에 있어서,
    상기 두 번째 표시는 CIF(common intermediate format)에 따른 해상도를 가 지도록 생성되는 것을 특징으로 하는 인코딩 방법.
  5. 제1항에 있어서,
    상기 첫 번째 표시는 QCIF(quarter common intermediate format)에 따른 해상도를 가지도록 생성되는 것을 특징으로 하는 인코딩 방법.
  6. 제1항에 있어서,
    상기 세 번째 표시는 CIF에 따른 해상도를 가지도록 생성되는 것을 특징으로 하는 인코딩 방법.
  7. 하나 이상의 디지털 영상을 인코딩하는 인코더에 있어서,
    상기 영상의 첫 번째 표시를 생성하는 제1생성부;
    상기 영상의 두 번째 표시를 생성하는 제2생성부; 및
    상기 영상의 첫 번째 표시 및 두 번째 표시를 이용하여 상기 영상의 영상 엘리먼트들에 할당되는 코딩 정보를 예측함으로써 상기 영상의 첫 번째 표시 및 두 번째 표시로부터 상기 영상의 세 번째 표시를 생성하는 제3생성부;를 포함하는 것을 특징으로 하는 인코더.
  8. 컴퓨터에 의해 실행되어 상기 컴퓨터가 하나 이상의 디지털 영상을 인코딩하는 방법을 실행하게 하는 컴퓨터 프로그램 생성물에 있어서,
    상기 영상의 첫 번째 표시를 생성하는 단계;
    상기 영상의 두 번째 표시를 생성하는 단계; 및
    상기 영상의 첫 번째 표시 및 두 번째 표시를 이용하여 상기 영상의 영상 엘리먼트들에 할당되는 코딩 정보를 예측함으로써 상기 영상의 첫 번째 표시 및 두 번째 표시로부터 상기 영상의 세 번째 표시를 생성하는 단계;를 포함하는 것을 특징으로 하는 컴퓨터 프로그램 생성물.
KR1020077025894A 2005-04-08 2006-04-06 하나 이상의 디지털 영상을 인코딩하는 방법, 인코더 및컴퓨터 프로그램 생성물 KR20080002936A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US66953105P 2005-04-08 2005-04-08
US60/669,531 2005-04-08

Publications (1)

Publication Number Publication Date
KR20080002936A true KR20080002936A (ko) 2008-01-04

Family

ID=37073755

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020077025894A KR20080002936A (ko) 2005-04-08 2006-04-06 하나 이상의 디지털 영상을 인코딩하는 방법, 인코더 및컴퓨터 프로그램 생성물

Country Status (6)

Country Link
US (1) US20090129467A1 (ko)
EP (1) EP1867172A4 (ko)
JP (1) JP2008536393A (ko)
KR (1) KR20080002936A (ko)
CN (1) CN101258754B (ko)
WO (1) WO2006107281A1 (ko)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9319700B2 (en) * 2006-10-12 2016-04-19 Qualcomm Incorporated Refinement coefficient coding based on history of corresponding transform coefficient values
US8599926B2 (en) * 2006-10-12 2013-12-03 Qualcomm Incorporated Combined run-length coding of refinement and significant coefficients in scalable video coding enhancement layers
US8325819B2 (en) * 2006-10-12 2012-12-04 Qualcomm Incorporated Variable length coding table selection based on video block type for refinement coefficient coding
US8565314B2 (en) * 2006-10-12 2013-10-22 Qualcomm Incorporated Variable length coding table selection based on block type statistics for refinement coefficient coding
US8126054B2 (en) * 2008-01-09 2012-02-28 Motorola Mobility, Inc. Method and apparatus for highly scalable intraframe video coding
US10085017B2 (en) * 2012-11-29 2018-09-25 Advanced Micro Devices, Inc. Bandwidth saving architecture for scalable video coding spatial mode

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2127151A1 (en) * 1993-09-21 1995-03-22 Atul Puri Spatially scalable video encoding and decoding
US6057884A (en) * 1997-06-05 2000-05-02 General Instrument Corporation Temporal and spatial scaleable coding for video object planes
US6493387B1 (en) * 2000-04-10 2002-12-10 Samsung Electronics Co., Ltd. Moving picture coding/decoding method and apparatus having spatially scalable architecture and signal-to-noise ratio scalable architecture together
FI120125B (fi) * 2000-08-21 2009-06-30 Nokia Corp Kuvankoodaus
US20020118742A1 (en) * 2001-02-26 2002-08-29 Philips Electronics North America Corporation. Prediction structures for enhancement layer in fine granular scalability video coding
US6944222B2 (en) * 2002-03-04 2005-09-13 Koninklijke Philips Electronics N.V. Efficiency FGST framework employing higher quality reference frames
CN1199460C (zh) * 2002-06-19 2005-04-27 华为技术有限公司 视讯系统中的图像分层编码和交换方法
KR100664929B1 (ko) * 2004-10-21 2007-01-04 삼성전자주식회사 다 계층 기반의 비디오 코더에서 모션 벡터를 효율적으로압축하는 방법 및 장치
KR100886191B1 (ko) * 2004-12-06 2009-02-27 엘지전자 주식회사 영상 블록을 디코딩 하는 방법
CN101601296B (zh) * 2006-10-23 2014-01-15 维德约股份有限公司 使用套叠式模式标记的用于可分级视频编码的系统和方法

Also Published As

Publication number Publication date
CN101258754A (zh) 2008-09-03
CN101258754B (zh) 2010-08-11
WO2006107281A1 (en) 2006-10-12
EP1867172A4 (en) 2010-05-19
EP1867172A1 (en) 2007-12-19
JP2008536393A (ja) 2008-09-04
US20090129467A1 (en) 2009-05-21

Similar Documents

Publication Publication Date Title
Boyce et al. Overview of SHVC: Scalable extensions of the high efficiency video coding standard
EP1859630B1 (en) Coding scheme enabling precision-scalability
EP2803190B1 (en) Hybrid reference picture reconstruction method for multiple layered video coding systems
US7847861B2 (en) Method and apparatus for encoding video pictures, and method and apparatus for decoding video pictures
CN101601300B (zh) 用自适应增强层预测对位深度可分级视频数据进行编码和/或解码的方法和设备
KR100791299B1 (ko) 다 계층 기반의 비디오 인코딩 방법 및 장치
US20060120450A1 (en) Method and apparatus for multi-layered video encoding and decoding
WO2014199634A1 (ja) 画像符号化装置、画像符号化方法、画像復号装置及び画像復号方法
WO2006087609A2 (en) Method and system for motion vector prediction in scalable video coding
CN101601299A (zh) 用位深度可分级性的增强层残差预测对视频数据进行编码和/或解码的方法和设备
KR20070038396A (ko) 영상 신호의 인코딩 및 디코딩 방법
JP2008104188A (ja) 画像の系列をスケーラブル形式で符号化する装置および方法ならびに対応する復号装置および方法
CN112055968A (zh) 视频编码方法和装置
JP2007266749A (ja) 符号化方法
KR20080002936A (ko) 하나 이상의 디지털 영상을 인코딩하는 방법, 인코더 및컴퓨터 프로그램 생성물
CN112135134B (zh) 视频解码方法、装置、计算机设备和存储介质
CN114787870A (zh) 用于视频编码的用虚拟参考图片进行帧间图片预测的方法和装置
CN110636302A (zh) 视频解码、编码方法和装置、存储介质及解码器、编码器
KR20160085237A (ko) 머지를 기반으로 한 복호화 방법 및 장치
WO2006059848A1 (en) Method and apparatus for multi-layered video encoding and decoding
CN110636288A (zh) 视频解码、编码方法和装置及电子设备
JP2007036889A (ja) 符号化方法
Li et al. Rate-distortion criterion based picture padding for arbitrary resolution video coding using H. 264/MPEG-4 AVC
Chen et al. Efficient video coding using legacy algorithmic approaches
Ma et al. Smoothed reference inter-layer texture prediction for bit depth scalable video coding

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application