KR101353214B1

KR101353214B1 - 비디오 코딩 방법 및 그 장치

Info

Publication number: KR101353214B1
Application number: KR1020127019279A
Authority: KR
Inventors: 장-프랑스와 맥큐
Original assignee: 알까뗄 루슨트
Priority date: 2009-12-21
Filing date: 2010-12-20
Publication date: 2014-01-21
Also published as: JP2015084559A; JP2013515416A; CN102783148A; KR20120096591A; JP5913542B2; EP2355510A1; US20120269265A1; CN102783148B; WO2011076722A1

Abstract

적어도 하나의 비디오 스트림(IV1, IV2)을 인코딩하기 위한 방법은, 처리된 레지듀얼 픽셀 데이터(QRPD1, QRPD2) 시퀀스를 얻기 위하여, 상기 적어도 하나의 입력 비디오 스트림(IV1, IV2)을 수신하는 단계와, 예측 픽셀 블록 시퀀스(PPB1, PPB2)를 구성하는 단계와, 상기 예측 픽셀 블록 시퀀스(PPB1, PPB2)와 상기 적어도 하나의 입력 비디오 스트림(IV1, IV2)의 대응 블록을 처리하는 단계를 포함하고, 여기서 상기 예측 픽셀 블록(PPB) 시퀀스는 기준 입력 데이터(IREF)의 입력 인코딩 구조 데이터(IESD)로부터 구성되고, 상기 입력 인코딩 구조 데이터(IESD)는 상기 처리된 레지듀얼 픽셀 데이터(QRPD)와 함께, 결합된 엔트로피 인코딩 단계를 더 겪음으로써, 적어도 하나의 인코딩된 비디오 스트림(EV1, EV2)를 얻는다. 인코더, 그리고 이러한 인코더를 포함한 몇몇 장치들이 또한 개시된다.

Description

비디오 코딩 방법 및 그 장치{METHOD AND ARRANGEMENT FOR VIDEO CODING}

본 발명은 비디오 코딩(video coding)을 위한 방법에 관한 것이다.

오디오 또는 비디오 스트림과 같은 멀티미디어 스트림의 인코딩은 문헌에서 광범위하게 기술되어 왔으며 몇몇 표준에 의해 표준화된다. 대부분의 비디오 코딩 표준은 보다 낮은 비트율로 비디오 또는 오디오 신호의 전송이 가능하도록 발전해 온 향상된 압축 기법을 기술하며, 일반적으로 단지 비디오 스트림의 신택스(syntax)와 디코딩 처리를 명시한다. 인코딩 처리 그자체는 표준화되지 않을 수 있지만, 대부분의 기존 인코더는 다소 동일한 기준 구조를 따르며, 여기서 처리 대부분은 인코딩 관련 신택스 요소를 계산하는 것을 포함한다. 이들은 레지듀얼 데이터(residual data)가 아닌 신택스 요소를 포함하고, 인트라-코딩(intra-coding)된, 각 인터-코딩(inter-coding)된 매크로블록에 대한 인트라-예측 모드(intra-prediction modes), 각 모션 벡터 등을 포함한, 슬라이스내 각 매크로 블록을 위한 슬라이스 헤더(slice header) 및 헤더 데이터를 포함할 수 있다. 예를 들어 H.264/AVC 비디오 코딩 표준에 있어서, 이들 신택스 요소는 범주 2 신택스 요소로 표시되며, 따라서 인코딩된 스트림의 기본 인코딩 구조를 기술하기 위한 신택스 요소만을 포함하지만 픽셀 값 상의 추가 정보는 없다.

대부분의 종래 인코더는 수신된 입력 비디오 데이터로부터, 그리고 이들 계산된 인코딩 관련 신택스 요소로부터 예측 픽셀 블록 시퀀스를 더 구성한다. 이들 예측 픽셀 블록은 레지듀얼 픽셀 블록 시퀀스를 얻기 위하여, 예를 들어 대응한 입력 비디오 스트림 블록으로부터 이들을 감산시킴으로써, 또는 이의 역으로 처리된다. 이 레지듀얼 픽셀 블록 시퀀스는 주로, 처리된 레지듀얼 픽셀 데이터 시퀀스를 얻기 위해 더 변환되고 양자화된다. 예를 들어 H.264 인코더에서, 이들 처리된 레지듀얼 픽셀 데이터는 범주 3 및 4 신택스 요소에 대응한다.

이들 처리된 레지듀얼 픽셀 데이터에, 인코딩 관련 신택스 요소와 함께 결합된 엔트로피 인코딩(entropy encoding) 단계를 더 시행한다. 인코딩된 레지듀얼 픽셀 데이터와 인코딩된 인코딩 관련 신택스 요소의 최종 결합이 통상적인 인코딩된 비디오 스트림을 형성한다.

이러한 인코딩 방법은 현재 널리 퍼져 있지만, 인코더는 많은 처리 노력을 필요로 하는 각 입력 스트림에 대한 인코딩 구조 관련 신택스 요소를 계산할 필요가 있으므로 여전히 상당한 처리 전력을 필요로 한다.

따라서 본 발명의 목적은 적은 처리 전력을 필요로 하며, 결과적으로 보다 더 많은 전력 효율적인 인코더가 될, 적어도 하나의 비디오 스트림을 인코딩하기 위한 다른 인코딩 방법을 기술하기 위한 것이다.

본 발명에 따라서, 본 목적은 상기 적어도 하나의 입력 비디오 스트림을 수신하는 단계, 예측 픽셀 블록 시퀀스를 구성하는 단계, 그리고 처리된 레지듀얼 픽셀 데이터 시퀀스를 얻기 위해 상기 예측 픽셀 블록 시퀀스와 상기 적어도 하나의 입력 비디오 스트림의 대응 블록을 처리하는 단계를 포함한다.

여기서 상기 예측 픽셀 블록 시퀀스는 기준 입력 데이터로부터의 입력 인코딩 구조 데이터로부터 구성되고, 상기 입력 인코딩 구조 데이터에 상기 처리된 레지듀얼 픽셀 데이터와 함께, 결합된 엔트로피 인코딩 단계를 더 시행하여 적어도 하나의 인코딩된 비디오 스트림을 얻는다.

이런 식으로, 입력 인코딩 구조를 간단히 도출 또는 추출할 수 있는 기준 입력 데이터를 제공함으로써, 그리고 이로부터 예측 픽셀 블록을 구성함으로써, 이 인코딩 구조가 인코더 그자체에 의해 더이상 계산되지 않고, 대신에 인코더로 직접 제공되거나, 혹은 쉽게 추출 또는 도출을 가능하게 하는 형태 하에서 제공되는 간단하고 개선된 방법을 얻는다.

결합된 엔트로피 인코딩 단계는 입력 인코딩 구조와 처리된 레지듀얼 데이터의 엔트로피 인코딩 단계에 뒤이은 인코딩된 인코딩 구조와 인코딩된 레지듀얼 데이터의 결합 단계를 포함하거나, 또는 입력 인코딩 구조와 처리된 레지듀얼 데이터의 결합 단계에 뒤이어 결합된 입력 인코딩 구조와 처리된 레지듀얼 데이터의 엔트로피 인코딩 단계를 포함하거나, 또는 이러한 동작 부분의 가능한 결합의 임의 다른 시퀀스를 포함할 수 있다.

레지듀얼 픽셀 블록의 처리는 상기 예측 픽셀 블록과, 상기 적어도 하나의 입력 비디오 스트림의 대응 블록 간의 차이로부터 레지듀얼 픽셀 블록 시퀀스를 생성하는 단계, 상기 처리된 레지듀얼 픽셀 데이터 시퀀스를 얻기 위해 상기 레지듀얼 픽셀 블록 시퀀스를 변환 및 양자화하는 단계를 포함할 수 있다.

이 대신에, 레지듀얼 픽셀 블록의 처리는 상기 예측 픽셀 블록(PPB1, PPB2)과 대응한 상기 적어도 하나의 입력 비디오 스트림 블록(IV1, IV2) 간의 차이로부터 레지듀얼 픽셀 블록 시퀀스를 생성하는 단계, 그리고 상기 처리된 레지듀얼 픽셀 데이터 시퀀스를 얻기 위해 레지듀얼 픽셀 블록을 필터링하는 단계를 포함할 수 있다.

소정 실시예에서, 상기 기준 입력 데이터를 엔트로피 디코딩(entropy decoding)함으로써 상기 기준 입력 데이터로부터 입력 인코딩 구조 데이터를 도출하기 위해, 기준 입력 데이터는 인코딩된 입력 인코딩 구조 데이터를 포함한다.

다른 변경된 실시예는 적어도 하나의 입력 데이터의 구성 데이터를 입력 인코딩 구조 데이터와 비교하는 단계, 데이터가 매칭하지 않는다면, 레지듀얼 픽셀 블록이 상기 예측 픽셀 블록 및 상기 적어도 하나의 갱신 비디오 스트림의 대응 블록 간의 차이로부터 결정되도록, 상기 적어도 하나의 입력 비디오 스트림은 적어도 하나의 갱신된 입력 비디오 스트림을 생성하기 위해 더 사전처리되는 단계를 더 포함한다.

상세한 설명에서 더 기술하는 바와 같이, 이것은 입력 비디오 스트림내 이들 선택사양적 구성 데이터를 포함하는 소정 경우에 인코딩 처리를 더 개선시킬 수 있다.

추가 대안 방법은 상기 예측 픽셀 블록의 구성 동안에 추가 사용하기 위해 처리된 레지듀얼 픽셀 블록의 역 양자화 및 역 변환의 추가 단계를 포함한다.

이것은 여전히 인코딩의 정확성을 더 개선시킬 수 있다.

본 방법은 기준 인코딩된 스트림으로부터 기준 입력 데이터를 생성하는 단계를 더 포함할 수 있다.

이 기준 인코딩된 스트림은 기준 비디오 입력 스트림을 통상적으로 인코딩함으로써 얻어질 수 있다.

또 다른 대체 방법에 있어서, 적어도 하나의 입력 스트림은 이러한 기준 비디오 스트림과 소정 입력 변경 데이터로부터 생성될 수 있다. 이것은 일 기준 스트림으로부터의 일 인코딩 구조가 이 기준 스트림과 각 입력 변경 데이터의 결합에 의해 이러한 기준 스트림으로부터 도출된 다수의 스트림을 인코딩하는데 일반적으로 사용될 수 있다는 이점을 가진다. 이러한 최종 비디오 스트림의 각각의 경우에 완전한 인코딩 처리를 수행했어야 하는 종래기술과 대조적으로, 이제 단지 하나의 기준 스트림을 인코딩해야 하고, 그의 인코딩 구조는 이 단일 기준 스트림으로부터 도출된 모든 비디오 스트림의 코딩을 위해 재사용될 수 있다. 이것은 상당량의 인코딩 처리 전력를 절약시키며, 또한 가능한 인코딩된 스트림 전송 동안에, 많은 전송 대역폭을 절약시킨다. 이들 최종 인코딩된 스트림을 저장해야 한다면, 또한 적은 저장 용량을 필요로 한다.

몇몇 비디오 스트림을 병렬로 인코딩하기 위한 또 다른 변형 방법에 있어서, 이들 스트림중의 하나를 기준 스트림으로서 선택할 수 있고, 이로부터 인코딩 구조를 결정하고, 다른 비디오 스트림을 인코딩하는데 더 재사용된다.

또한 이 변형 방법은 이들 비디오 스트림의 각각을 개별적으로 인코딩하는 종래 해결방안에 비해 처리 전력을 감소시키는 이점을 가진다. 감소된 대역폭과 저장 용량이라는 유사한 고려사항이 이전 변형에도 유효하다.

더욱이 본 발명은 전술한 방법을 수행하기 위한 인코더, 장치 및 배치에 관한 것이다.

추가 실시예는 첨부된 특허청구범위에 제시된다.

청구범위에서 사용되는 "결합된"이란 용어는 직접적인 연결만으로 제한하려는 것으로 해석되어서는 안된다. 따라서 표현 범주 "장치 B에 결합된 장치 A"는 장치 또는 시스템으로 제한되어서는 안되며, 여기서 장치 A의 출력은 장치 B의 입력으로 직접 연결된다. 이것은 A의 출력과 B의 입력 사이에, 다른 장치 또는 수단을 포함한 경로일 수 있는 경로가 존재한다는 것을 의미한다.

청구범위에 사용된 "포함하는(comprising)"이란 용어는 그 후에 리스트된 수단으로 제한되는 것으로 해석되어서는 안된다는 데에 주목한다. 따라서 표현 범주 "수단 A 및 B를 구비한 장치"는 구성요소 A 및 B 만으로 이루어 진 장치로 제한되어서는 안된다. 이것은 본 발명의 경우에 장치의 적절한 구성요소가 단지 A와 B라는 것을 의미한다.

본 발명의 상기 및 다른 목적과 특징은 보다 명백해질 것이며, 발명 그자체는 첨부도면과 함께 취한 후속된 실시예의 설명을 참조함으로써 잘 이해될 것이다.
도 1은 종래기술 인코더 실시예의 기본 개략도.
도 2a 내지 도 2d는 본 발명에 따른 인코더의 실시예를 도시하는 도면.
도 3은 본 발명에 따라서 인코더의 다른 실시예를 도시하는 도면.
도 4a 및 도 4b는 둘 이상의 입력 비디오를 각각 수신하는, 본 발명에 따른 인코더의 다른 실시예를 도시하는 도면.
도 5는 본 발명에 따라서 인코더의 또 다른 실시예를 도시하는 도면.
도 6a는 이전 도 2 내지 도 5의 실시예로의 입력으로서 사용될 수 있는 기준 입력 데이터 IREF를 생성하기 위한 장치의 실시예 A를 도시하는 도면.
도 6b는 도 6a 장치이지만 예를 들어 H.264 표준에 따라서 추가 데이터 분할 특징을 사용하는 인코딩된 비트스트림의 특정 경우의 특정 실시예 B를 도시하는 도면.
도 7은 도 5에서와 같은 장치의 실시예, 그리고 도 4b에 디스플레이된 바와 같은 인코더 실시예를 포함한 제1 장치 A1의 실시예를 도시하는 도면.
도 8은 도 7에 도시된 바와 같은 제1 장치 A1을 포함한 제2 장치 A2 그자체의 실시예를 도시하는 도면.
도 9는 도 8에 도시된 바와 같은 제2 장치 A2를 포함한 제3 장치 A3의 실시예를 도시하는 도면.
도 10a는 도 7에 도시된 바와 같은 제1 장치 A1을 포함한 제4 장치 A4의 실시예를 도시하는 도면.
도 10b는 이러한 제4 장치의 또 다른 실시예 A4b를 도시하는 도면.

다음은 본 발명의 원리를 단순히 기술한다는 데에 주목한다. 따라서 본 기술분야에 통상의 지식을 가진 자는 여기서 명확히 기술 또는 도시하지 않았을 지라도 본 발명의 원리를 구현하는 다양한 배치를 고안할 수 있을 것이라는 것을 알 것이다. 여기에서 주장되는 모든 예 및 조건 언어는 판독자로 하여금 본 발명의 원리와 발명자(들)에 의해 기여되는 개념을 이해시에 본 기술을 발전시키도록 돕기 위한 교육적 목적을 위해서만 주로 명확히 의도되며, 이렇게 특별히 주장된 예 및 조건으로 제한되지 않고 구성될 것이다. 더욱이 본 발명의 원리, 양상 및 실시예를 주장하는 모든 서술뿐만 아니라 그의 특정 예는 그의 구조적 및 기능상 등가물을 포함하려 한다. 부가적으로, 이러한 등가물은 장래에 개발되는 등가물뿐만 아니라 현재 알려진 등가물, 즉 구조에 관계없이 동일 기능을 수행하는 개발된 임의 요소의 모두를 포함하려 한다.

당해 기술분야에 통상의 지식을 가진 자는 여기의 임의 블록도가 본 발명의 원리를 구현하는 예시적 회로의 개념 뷰를 나타낸다는 것을 이해해야 한다. 유사하게, 임의 흐름차트, 흐름도, 상태 천이도, 유사 코드 등은 이러한 컴퓨터 또는 프로세서가 명확히 도시되든지 간에 컴퓨터 판독가능 매체에서 사실상 표현될 수 있으며, 따라서 컴퓨터 또는 프로세서에 의해 실행될 수 있는 다양한 처리를 나타낸다는 것을 알 것이다.

또한 이 문서를 통해 표기 "입력 비디오 스트림"과 "출력 비디오 스트림"은 실 스트리밍 비디오 행태를 가질 수 있지만 또한 (저장된) 데이터 파일 또는 임의 이들 결합과 관련될 수 있는 입력 및 출력 데이터를 언급한다는 것을 알아야 한다. 따라서 이 설명에서 설명되는 실시예는 이들 비디오 데이터의 온라인 및 오프라인 인코딩의 모두, 그리고 이의 임의 결합에 관한 것이다.

본 발명에 따라서 인코더의 실시예를 거론하기 전에, H.264 종래기술 인코딩 방법의 간단한 설명을 할 것이다. 이 표준에 따라서, 각 비디오 프레임은 매크로블록 레벨에서 부분분할되어 인코딩되고, 여기서 각 매크로블록은 16×16 픽셀블록이다.

매크로블록은 병렬화 또는 오류 복원(error resilience)이 가능하도록 슬라이스에 함께 그룹화될 수 있다. 각 매크로블록의 경우, 코딩된 비트스트림은 먼저, 이미 디코딩된 매크로블록을 기반으로 그 매크로블록의 예측을 계산하는 방법을 디코더에게 신호하는 데이터, 두 번째, 매크로블록 픽셀 값을 재구성하기 위해 디코딩하여 예측에 추가되는 레지듀얼 데이터를 포함한다. 각 매크로블록은 매크로블록의 예측이 현 슬라이스에서 재구성된 매크로블록을 기반으로 형성되는 "인트라-예측(intra-prediction)" 모드에서, 또는 매크로블록의 예측이 기준 프레임으로 불리는 이미 디코딩된 프레임에서 픽셀 블록을 기반으로 형성된 "인터-예측(inter-prediction)" 모드로 인코딩된다. 인트라-예측 코딩 모드는 인코딩된 매크로블록이 미리 인코딩되고, 디코딩되고, 그리고 재구성되었던 현 슬라이스에서 이웃 샘플로부터 예측되는 현 슬라이스 내에서 공간 예측을 적용한다. 인트라-예측 모드에서 코딩된 매크로블록은 I 형 매크로블록으로 불린다. 인터-예측 코딩은 이전 및/또는 장래 기준 프레임에서 샘플로부터 인코딩된 매크로블록을 예측하는 임시 예측을 기반으로 한다. 인터-예측 모드에서 코딩된 매크로블록은 각 서브블록이 단일 기준 프레임으로부터 예측되는 경우에 P 형 매크로블록이거나, 또는 각 서브블록이 일 또는 두 기준 프레임으로부터 예측되는 경우에는 B 형 매크로블록일 수 있다.

디폴트 H.264 행동은 래스터-스캔(raster-scan) 순서(즉 좌로부터 우로 스캐닝 라인)로 매크로불록을 그룹화하는 것이다. 그러나 H.264 표준은 유연한 매크로블록 순서화로서 언급되고, 그 후에 FMO로써 축약되는 다른 특징을 더 도입했다. FMO는 비디오 프레임을 다수의 슬라이스 그룹으로 분할하고, 여기서 각 슬라이스 그룹은 잠재적으로 비연속적인 위치에 있을 수 있으며 프레임의 임의 곳에 있을 수 있는 매크로블록 셋을 포함한다.

전송의 경우, 각 슬라이스는 디폴트 모드를 사용하여 후에 NAL(network abstraction layer)으로 축약될 수 있는 일 네트워크 추상층내에서 전송될 수 있다. 그러나 H.264/AVC 표준은 슬라이스의 전송 동안에 오류 복원성을 개선하기 위해 몇몇 NAl 유닛에 대해 각 슬라이스의 데이터 분할의 추가 특징을 더 기술한다.

몇몇 분할에 대한 일 슬라이스의 데이터 분할 특징에 따라서, 일 슬라이스의 인코딩된 콘텐츠는 3 NAL 유닛에 대해 분산될 것이다: NAl 유닛 분할 A, NAL 유닛 분할 B 및 NAL 유닛 분할 C. 표준에 따라서, NAl 유닛 분할 A는 레지듀얼 데이터가 아닌 모든 슬라이스 관련 신택스 요소를 나타내는 그 슬라이스의 범주 2 신택스 요소를 포함할 것이다. 이들 범주 2 신택스 요소는 인트라-코딩된, 각 인터-코딩된 매크로블록에 대한 인트라-예측 모드, 각 모션 벡터 등을 포함한, 슬라이스내 각 매크로 블록을 위한 슬라이스 헤더 및 헤더 데이터를 포함할 수 있다. NAL 유닛 분할 B는 인트라 예측 코딩이 사용된 경우에 고려하에 슬라이스의 매크로블록의 인트라코딩된 레지듀얼 데이터인 범주 3 신택스 요소를 포함할 것이며, NAl 유닛 분할 C는 이 유형의 코딩을 사용한 경우에 인터코딩된 레지듀얼 데이터인 범주 4 신택스 요소를 포함할 것이다.

H.264 표준에 따라서, 이 데이터 분할 매카니즘은 IDR(instaneous Decoding Refresh) 픽처의 슬라이스를 제외하고 스트림의 임의 슬라이스로 적용될 수 있다. IDR 픽처는 단지 인트라-코딩된 슬라이스만으로 구성되며 모든 이전 기준 픽처가 스트림의 다음 픽처에서 인터-프레임 예측을 위해 더 오래 사용될 수 없다는 것을 보장하는 픽처이다. IDR 픽처는 주로, 코딩된 스트림에서 액세스 지점을 제공하거나, 또는 오류 복원성을 증가시키는데 사용된다.

이들 NAl 유닛은 디스플레이를 위해 원 프레임을 재구성할 수 있도록 하기 위해 수신한 패킷을 다시 디코딩하기 위한 디코더를 포함한 수신기를 향해, 네트워크를 통한 전송을 위해 패킷으로 더 압축된다.

데이터 분할없는 출력 스트림의 경우, 주어진 슬라이스의 범주 2, 3, 4 신택스 요소는 코딩 표준에 의해 명시되는 바와 같이 동일 NAl 유닛에서 함께 그룹화된다. 따라서 인코딩 구조 및 레지듀얼 데이터에 관한 신택스 요소는 동일 NAl 유닛에서 혼합된다. 데이터 분할을 사용하는 출력 비트스트림의 경우, 주어진 슬라이스의 경우에, 범주 2, 3, 4의 신택스 요소는 분할 A, B 및 C NAL 유닛으로 각각 식별되는 상이한 NAL 유닛에 각각 들어간다. 따라서 인코딩된 레지듀얼 픽셀 데이터는 분할 B 및 C NAl 유닛에 포함되는 반면에, 인코딩된 범주 2 신택스 요소는 분할 A에 포함된다.

도 1은 전형적인 종래기술 비디오 인코더의 주 구성요소를 도시한다. 입력 비디오 스트림은 원 입력 비디오 데이터를 포함한다(픽셀 컬러값 그자체 뿐만 아니라 선택적으로 수평 및 수직 방향으로 픽셀의 수로 표현되는 프레임 크기와 같은 소정 추가 입력 데이터, 프레임 율, 컬러 공간, 예를 들면 YUV 또는 RGB, 예를 들면 YUV가 사용되는 경우에 4:2:0 또는 4:4:4로서 표현되는 채도 샘플링 유형 등). 한편으로, 이 입력 비디오 스트림은 인코딩 그자체와 관련된 신택스 요소와 같은 것을 제공하기 위해 인코딩 결정을 하는데 적합한 "인코딩 결정하기(make encoding decisions)"로 표기된 모듈로 전송된다. 또한 범주 2 신택스 요소로 표기되는, H.264에서의 이들 신택스 요소는 전형적으로 시퀀스 및 픽처 매개변수 셋, 슬라이스 및 매크로블록 헤더 뿐만 아니라, 이미 디코딩된 비디오 부분을 기반으로 픽셀 데이터의 인트라- 및 인터-예측을 구성하는 방법을 차후에 디코더에게 설명할 모든 정보와 같은 데이터를 포함한다. 이들 신택스 요소는 인코딩된 신택스 요소를 제공하는 유사하게 명명된 블록에서 인코딩된 추가 엔트로피이다. 반면에, 입력 비디오 스트림은 또한 예측 구성 모듈에 의해 제공되는 바와 같은 예측 픽셀 블록과 입력 비디오로부터의 대응 블록 간의 차이를 결정하기 위한 유닛으로 전송된다. 도 1의 "예측 구성(construct prediction)"으로 표기된 예측 구성 모듈은 "인코딩 결정(make encoding decisions)" 모듈로 그자체로 결합되어, 이들 신택스 요소로부터의 예측 픽셀 블록의 생성을 가능하게 한다.

그 후에 최종 레지듀얼 픽셀 블록은 결과적으로 처리된 레지듀얼 픽셀 데이터가 같은 것이 되도록 유사하게 명명된 모듈에서 더 변환되고 양자화된다.

H.264 인코더에서, 이들 레지듀얼 픽셀 데이터는 범주 3 및 4 신택스 요소에 대응한다.

대부분의 종래기술 인코더에서, 블록 변환 및 양자화의 계산은 순방향으로 수행되지만, 또한 도 1에 도시된 바와 같이 보통 역방향으로도 수행된다. 이들 피드백 단계는 주로 예측을 하기 위해 디코더와 동일한 디코딩된 프레임 셋을 사용한다는 것을 확인하기 위해 추가된다. 이러한 인코더는 "개방 루프" 인코더와 반대로 "폐쇄 루프" 인코더로 불리며, 여기서 이들 피드백 단계는 제공되지 않는다.

종래기술 인코더들 간의 주된 구분은 보통 프레임 유형 선택, 슬라이싱, 인트라 대 인터 예측, 인트라 예측 모드 선택, 그리고 모션 벡터 계산 등을 하는 것을 의미하므로 기본 인코딩 구조를 생성하기 위해 인코딩 결정을 하는 방식에 있다. 따라서 이들 단계는 일반적으로 블록 "인코딩 결정하기"내에서 수행되며, 주로 인코더의 복잡성을 상당히 추가하게 된다.

인코딩 관련 신택스 요소뿐만 아니라 인코딩된 레지듀얼 픽셀 데이터는 마지막으로 입력 비디오 스트림으로부터 하나의 단일 인코딩된 비디오 스트림을 생성하기 위해 엔트로피 인코딩될 것이다. 이 결합된 엔트로피 인코딩은 엔트로피 인코더와 바인더 C를 주로 포함한 모듈에서 수행된다. 엔트로피 인코딩은 신택스 요소뿐만 아니라 레지듀얼 픽셀 블록 모두를 압축하기 위한 동작을 포함하는 것으로 이해될 것이다. 이들 동작은 예를 들어 H.254 표준에 명시된 바와 같은 예측 코딩, 가변 길이 코딩(EXP Golomb, CAVLC) 또는 수치 코딩(CABAC) 단계를 포함한다. 이것은 신택스 요소와 레지듀얼 픽셀 블록의 결합 이전 또는 그 후에 수행될 수 있다. 도 1에 도시된 실시예에서, 엔트로피 인코딩은 결합 전에 수행되지만, 종래기술 인코더에서 이 시퀀스는 역이 된다.

H.264 인코더에서, 이 결합 단계는 이전에 설명한 바와 같이 NAL 유닛으로 패킷화 단계를 더 포함할 수 있다.

이들 보다 복잡한 종래기술 인코더의 경우, 본 발명에 따른 인코더의 실시예는 도 2a에 제시된다. 이 실시예 E1은 실 스트림일 수 있지만 이전에 설명한 바와 같이 저장 파일일 수 있는 입력 비디오 스트림을 수신하기 위한 제1 입력 단자 IN1를 포함한다. 이 입력 비디오는 IV1으로 표기된다. 도 1을 참조하여 설명한 바와 같이, 이 입력 비디오는 픽셀 컬러 값과 같은 동일한 원 비디오 데이터뿐만 아니라, 수평 및 수직 방향으로 픽셀의 수로 표현된 프레임 크기, 프레임 율, 컬러 공간, 예를 들어 YUV 또는 RGB, YUV가 사용된다면 예를 들어 4:2:0 또는 4:4:4로 표기되는 채도 샘플링 유형 등과 같은 소정의 추가 입력 데이터를 선택사양적으로 포함할 수 있다. 이 실시예 E1은 PPB1으로 표기된 예측 픽셀 블록(predicted pixel blocks) 시퀀스를 구성하는데 더 적합하여, 입력 비디오 스트림의 대응 블록과 함께 상기 예측 픽셀 블록 시퀀스를 처리하는데 더 적합하다. 실시예 E1에서, 이 처리는 예측 픽셀 블록으로부터, 그리고 입력 비디오 스트림의 대응 블록으로부터 RPB1(residual pixel blocks)으로 표기된 레지듀얼 픽셀 블록 시퀀스를 생성하고, 레지듀얼 픽셀 블록을 변환 및 양자화하여 처리된 레지듀얼 픽셀 데이터 시퀀스를 얻는다. 그러나 에측 픽셀 블록과 입력 비디오 스트림의 대응 블록으로부터 처리된 레지듀얼 픽셀 데이털ㄹ 얻기 위한 다른 방법이 가능하다. 종래기술 인코더와의 차이는 이 실시예 E1이 이제 IESD(input encoding structure data)를 도출 및 취하는 기준 입력 데이터 IREF로를 수신하기 위해 추가 입력 단자 INRef를 포함한다. 도 2a의 실시예에서, IREF는 단순히 이러한 입력 인코딩 구조를 포함함으로써, 입력 IREF는 IESD를 얻기 위한 추가 처리를 겪지 않아도 된다. 이제, 이 입력 인코딩 구조 데이터는 전술된 종래기술 인코더와 비교해 더 낮은 복잡도를 가져오는 예측된 픽셀 블록의 구성을 위해 사용된다 인코딩 구조가 예측 픽셀 블록을 구성할 시에 기반으로 하는 추가 입력으로서 취하므로, 종래기술 "인코딩 결정" 블록에서 수행되는 비디오 시퀀스의 상세한 분석을 더 이상 필요로 하지 않는다. 이로써, 인코딩 처리의 복잡성은 상당히 감소된다.

도 2a에 도시된 바와 같이, 레지듀얼 픽셀 블록 RPB1은 필터링 단계, 또는 이 대신에 변환 및 양자화 단계를 더 겪게될 수 있다. 그 후에, 처리된 레지듀얼 픽셀 데이터 QRPD1은 도 2a의 실시예에서 엔트로피 인코딩 모듈에 이어 결합 모듈 C를 포함한 결합된 엔트로피 인코딩 모듈 CEE로 입력 인코딩 구조 데이터 IESD와 함께 제공된다. 그러나 CEE를 위한 다른 실시예가 가능하며, 결합 모듈에 이어 엔트로피 인코딩 모듈을 포함할 수 있거나, 또는 엔트로피 인코딩이 예를 들어 데이터의 개별 부분상에 순차적으로 또는 병렬로 수행되는 경우에 이러한 모듈 셋 또는 시퀀스를 포함할 수 있다.

도 1에 대하여 전술한 바와 같이, 엔트로피 인코딩은 레지듀얼 픽셀 블록뿐만 아니라 신택스 요소의 모두를 압축하기 위한 동작을 포함하는 것으로 이해해야 한다. 이들 동작은 예를 들어 H.264 표준에서 명시된 바와 같은 예측 코딩, 가변 길이 코딩(Exp-Golomb, CAVLC) 또는 수치 코딩(CABAC) 단계를 포함한다. 이것은 인코딩 구조 데이터와 레지듀얼 픽셀 블록의 결합 전 또는 그 후에 수행될 수 있다.

처리된 레지듀얼 픽셀 데이터의 엔트로피 인코딩은 인코딩된 레지듀얼 픽셀 데이터 ERPD1를 도출할 것이지만, 입력 인코딩 구조 데이터 IESD의 엔트로피 인코딩이 인코딩된 입력 인코딩된 구조 데이터 EIESD를 도출할 것이다. 둘 모두의 결합 결과는 최종적으로 인코딩된 출력 비디오 스트림 IV1이 된다.

기준 입력 데이터 IREF는 데이터 스트림, 또는 자립형 데이터 파일, 또는 이들의 결합으로서 제공될 수 있다. 또한 이러한 기준 입력 데이터의 예가 주어지며 이 문서의 차후 그래프에서 설명될 것이다.

이 문서에 기술된 모든 실시예의 경우, 적절한 버퍼 관리 회로와 제어부는 모든 도면에서 픽셀 데이터 저장소를 제어하기 위해, 그리고 "버퍼링된 픽셀 데이터"로 표기된 버퍼로 및, 이로부터의 제공을 위해 제시된다는 것을 안다는 데에 더 주목해야 한다. 버퍼 관리 기법은 당해 기술분야에 통상의 지식을 가진 자에게 잘 알려져 있으며, 이들은 본 발명의 실시예를 이해하는 데 필요하지 않으므로, 이들 제어 모듈은 도면의 과적을 막기 위하여 도시되지 않는다.

미리 언급한 바와 같이, 마지막으로 인코딩된 비디오 스트림 EV1을 얻기 위하여 입력 비디오 스트림 IV1을 인코딩하는 모든 단계는 또한 하나의 단일 프로세서에 의해 수행될 수 있다.

도 1의 종래기술 인코더에 비하여, 도 2a의 실시예는 역 양자화 및 연 변환의 디코딩 피드백 루프를 더 이상 포함하지 않는다. 인코딩이 충분히 높은 비트율/품질 동작점에서 행해질 때에 품질에 대한 영향이 작은 것으로 도시되었지만, 이 개방 루프 구조는 때때는 디코더에서 품질 드리프트(quality drift)로 이끌 수 있다(예를 들어 이미징 시스템 및 기술의 국제 저널, vol. 5, no. 4, 1994, pp. 268-275, J.S. McVeigh와 S.-W.Wu,"Partial closed loop versus open loop motion estimation for HDTV compression"). 또한 그들이 인터-프레임 예측 체인을 깨므로, 비트스트림에 정규적으로 삽입되는 IDR 픽처는 인코딩과 디코딩 측면에 사용되는 기준 프레임을 위한 재동기화 지점으로서 사용될 수 있고, 따라서 연속 프레임에 걸친 품질 드리프트의 전달을 제한한다.

도 2b 및 도 2c는 인코더 E2 및 E3의 소정의 변형 구현을 도시한다. 두 실시예의 경우, 기준 입력 데이터 IREF는 인코딩 형태의 입력 인코딩 구조 EIESD를 포함함으로써, 이것은 먼저 예측 픽셀 블록의 구성을 위해 사용가능한 입력 인코딩 구조 데이터 IESD를 얻기 위해 엔트로피 디코딩되어야 한다. 두 변형의 경우, 이 엔트로피 디코딩은 모듈 ED1에 의해 수행된다. 디코딩된 입력 인코딩 구조 데이터 IESD는 도 2c의 실시예에 도시된 바와 같이 처리된 레지듀얼 픽셀 데이터 QRPD1과 함께 추가적인 결합된 엔트로피 인코딩을 겪을 수 있거나, 또는 도 2b의 실시예에 도시된 바와 같이 인코딩된 인코딩 입력 구조 EIESD를 포함한 기준 데이터는 이러한 결합된 엔트로피 인코딩 모듈 CEE의 결합 모듈 C로 간단히 제공될 수 있다.

도 2d는 다른 결합된 엔트로피 인코딩 모듈 CEE를 가진 실시예 E4를 도시하고, 따라서 여기서 입력 인코딩 구조 데이터 IESD는 먼저 결합된 데이터의 엔트로피 인코딩 전에 처리된 레지듀얼 픽셀 블록 QRPB1과 결합될 수 있다.

도 3은 역 양자화 및 역 변환의 피드백 단계를 수행하기 위한 모듈을 가진 인코더 E5의 실시예를 도시한다. 이들은 등가의 디코딩된 레지듀얼 픽셀 블록을 생성하는데 적합하며, 이들 블록은 그 후에 임시 버퍼링 또는 저장된 디코딩된 픽셀 데이투 DPD를 생성하기 위해 예측 픽셀 블록 PPB로 추가된다. 도 3의 이 폐쇄 루프 실시예는 도 2a-c의 개방 루프 실시예에 비하여 품질 드리프트를 더 방지할 것이므로 보다 강건하다.

도 4a 및 도 4b는 각 입력 단자 IN1 및 IN2 상에 수신된 두 입력 비디오 스트림 IV1 및 IV2을 인코딩하기 위한 인코더의 실시예를 도시한다. 도 4a에 도시된 실시예 E6에서, 기준 입력 데이터 IREF는 먼저 입력 인코딩 구조 데이터 IESD를 얻기 위해 엔트로피 인코딩될 엔트로피 인코딩된 입력 구조 데이터 EIESD를 포함한다. 이 데이터는 두 입력 비디오 스트림 IV1 및 IV2를 위한 예측된 픽셀 블록의 구조를 위해 일반적으로 사용되며, 이로부터 추출된 양자화 매개변수가 또한 일반적으로 사용된다. 비디오 스트림 IV1 및 IV2를 위한 각 인코딩된 레지듀얼 픽셀 데이터 ERPD1 및 ERPD2는 각 출력 단자 OUT1 및 OUT2로 공급을 위한 각 인코딩된 출력 비디오 스트림 EV1 및 EV2와 같은 것을 얻기 위해 각 결합 모듈 C1 및 C2에서 입력 인코딩 구조 데이터 IESD와 결합된다.

도 4b상에 도시된 실시예 E7에서, 기준 입력 데이터 IREF는 임의 추가 디코딩없이 쉽게 사용될 수 있는 비인코딩된 입력 인코딩 구조 데이터 IESD를 포함한다. 도 2a의 실시예 E1에서와 같이, 이 입력 인코딩 구조 IESD는 각 인코딩된 레지듀얼 픽셀 데이터 ERPD1 및 ERPD2와 결합되기 전에 엔트로피 인코딩될 필요가 있다. 그러나 결합된 엔트로피 인코딩 모듈 CEE의 다른 실시예는 역이되는 엔트로피 인코딩과 결합의 순서를 가질 수 있다.

각 입력 비디오 스트림의 경우, 이전에 인코딩 결정을 행해야 하고 예측 픽셀 블럭을 구성할 수 있는 종래 상황에 비하여, 기술한 실시예 E1 내지 E7은 이제 입력 인코딩 구조가 외부적으로 제공되며 각 입력 비디오 스트림의 예측 픽셀 블록을 구성하기 위해 일반적으로 사용된다는 사실에 의해 상당히 단순해진다.

기준 입력 데이터 IREF는 예를 들어 이미 인코딩된 비디오 스트림으로부터 추론되거나 또는 도출될 수 있는 인코딩 구조를 포함할 수 있거나, 혹은 입력 비디오 스트림 구조의 선험적 지식을 기반으로 데이터를 포함할 수 있다. 소정 형태의 입력 인코딩 구조 데이터를 포함한 기준 입력 데이터의 생성은 차후 그래프에서 설명될 것이다.

도 5에 도시된 실시예 E8과 같은 소정 실시예에서, 인코딩 품질은 먼저 입력 비디오 스트림내 선택적으로 포함된 비디오 메타데이터의 일부 또는 모두가 입력 인코딩 구조 데이터와 매칭하는지의 여부의 검사 수행을 함으로서 더 개선될 수 있다. 비교할 메타데이터는 예를 들어 수평 및 수직 방향에서 픽셀의 수로 표현되는 프레임 크기, 프레임 율, 컬러 공간, 채도 샘플링 유형, 그리고 인코딩할 입력 비디오 시퀀스의 프레임 수 등과 같은 구성 데이터를 포함할 수 있다. 이들이 입력 비디오 스트림에 제공된다면, 이들은 바람직하게는, IREF에 의해 제공되는 입력 인코딩 구조 데이터에 내장된 바와 유사해야 한다. 그 경우가 아닌 경우, 잘 알려진 최신 기법을 모두 따르는 공간 스케일링, 컬러 공간 변환, 채도 포맷 변환, 그리고 프레임 율의 변환, 또는 몇몇 서브시퀀스에서 단편화 등과 같은 특별한 사전처리 동작이 여전히 이들 제한사항을 이행하기 위하여 사전처리 단계와 같은 입력 비디오 스트림 IV1상에 행해질 수 있다. 따라서 실시예 E8은 입력 비디오 스트림 IV1내 제공된 이들 구성 매개변수 또는 이들의 부분이 입력 인코딩 구조 데이터와 호환가능한 지를 확인하기 위해 "비교(comp)"로 표기된 비교 모듈을 포함한다. 또한 인코더의 이전 실시예를 사용할 수 없다면, 이 실시예는 이러한 메타데이터를 제공하는 경우에 더 바람직할 수 있다는 것에 주목해야 한다. 구성 데이터가 입력 인코딩 구조 데이터와 매칭한다면, 입력 비디오 스트림은 예를 들어 도 2a-d의 실시예에 도시된 바와 같이 더 인코딩될 것이다. 환언하면, "사전처리(preproc)"로 표기된 추가 사전처리 모듈이 사용될 것이며, 여기서 입력 비디오 스트림은 먼저, 사전처리 또는 갱신된 비디오 스트림을 얻기 위해 전술한 최신 변환을 사용하여 픽셀 도메인에서 사전처리되고, 이는 그 후에 도 2a-d에 도시된 바와 같은 다른 동작으로 제출될 것이다. 도 5에 도시된 실시예에서, 비교 모듈로부터 사전처리 모듈로 화살표에 의해 표기된 제어신호 c1는 입력 비디오 IV1상에서 이들 동작을 수행하는 지의 여부를 사전처리기에게 통보한다. 또한 이러한 구성 데이터중의 임의 데이터를 포함하지 않는 입력 비디오 스트림을 위한 경우일 수 있는 사전처리가 필요없는 경우에, 사전처리기는 따라서 바로 입력 비디오 스트림을 출력하고, 사전처리가 필요한 경우, 이것은 그에 따라서 수행된다. 사전처리된 비디오 스트림 또는 원 비디오 스트림 그자체를 나타내는 이 사전처리 모듈로부터의 출력은 UIV1으로 표기된다. 그 후에 이 갱신된 비디오 스트림으로부터의 갱신된 픽셀 데이터는 예측 픽셀 블록 PPB1을 구성하기 위해 입력 인코딩 구조 데이터와 함께 사용된다.

물론, 이 변형 방법을 구현하기 위한 다수의 다른 실시예가 가능하다.

전술한 바와 같이, 본 발명에 따른 인코더의 실시예는 인코딩된 또는 비인코딩된 인코딩 구조 입력 데이터를 포함한 기준 입력 데이터상에서 동작할 수 있고, 그들의 입력 INRef에서 기준 데이터 IREF가 이미 인코딩되었는지의 여부를 검사하기 위해, 분석을 기반으로 IREF 로부터 적절한 인코딩 구조 IESD의 선택, 추출 또는 도출을 검사하기 위해 소정의 추가 분석 수단을 포함할 수 있다.

성능을 더 개선하기 위해, 때때로 입력 기준 스트림 IREF가 임의 I_PCM 매크로블록을 포함하지 않도록 권할 수 있다. 이것은 필요한 경우에 이들 특정 인코더 실시예에서 추가 분석 및 교정 모듈에 의해 다시 검사 및 교정될 수 있다. 당해 기술분야에서 통상의 지식을 가진 자는 이러한 모듈을 제공할 수 있다.

본 발명에 따른 인코더의 또 다른 실시예는 전술한 실시예 중의 하나를 도 1을 참조하여 기술한 최신 인코딩 메카니즘과 결합시킬 수 있다. 예를 들면 이러한 실시예는 먼저 각 슬라이스에 대해 도 3을 참조하여 설명한 방법에 따라서 그 슬라이스의 레지듀얼 데이터를 계산하고, 그 슬라이스의 예측 픽셀 블록을 추가한 후에, 피드백 단계에 의해 계산된 구한 디코딩된 슬라이스를 입력 비디오에서의 동일 슬라이스와 비교하는데 적합할 수 있다. 예를 들어 PSNR(Peak Signal-to-Noise Ratio)을 사용하여 측정된 것으로 원래 슬라이스에 비해 디코딩된 슬라이스의 품질이 소정 임계치 아래라면, 원 슬라이스는 보다 나은 품질의 코딩된 슬라이스를 도출하는 새 인코딩 구조를 계산하기 위하여 도 1의 인코더와 같은 최신 인코더로 재전송될 수 있다. 이 경우, 그 슬라이스를 위한 출력 인코딩 구조는 입력으로 제공되는 인코딩 구조 대신에 이 새로운 인코딩 구조로 구성된다. 최신 인코더와 이전 실시예에 도시된 인코더 간의 이 스위칭 결정이 또한 굵은 입도, 예를 들어 프레임 레벨 또는 시퀀스 레벨로, 또는 미세 입도, 예를 들어 매크로블록 레벨로 제조될 수 있다는 데에 주목한다. 후자 경우, 매크로블록의 인코딩 구조가 변경된다면, 동일 슬라이스에서 모든 후속 매크로블록의 경우, 변경된 매크로블록에 의존하는 모든 신택스 요소가 재계산되어 재인코딩될 필요가 있다는데에 주목한다. 이것은 예를 들어 QP(quantization parameters)의 예측 코딩, 모션 벡터 및 인트라-코딩 모드로 인하여, 또는 상황-기반 적응형 코딩(context-based adaptive coding)으로써 인코딩된 신택스 요소에 대한 상황 변경으로 인하여 발생할 수 있다.

인코딩 구조 데이터를 포함한 기준 입력 데이터 IREF가 생성되어 다수의 방식으로 인코더로 제공될 수 있다. 여기서는 세 가능성을 기술하지만 다수의 다른 가능성을 예상할 수 있다.

제1 가능성은 이전에 인코딩된 기준 비디오 스트림의 인코딩 구조 데이터를 사용하는 것이다. 바람직하게는, 이 기준 스트림의 공간 및 시간적 구조(spatial and temporal structure)는 인코딩할 하나의 비디오 스트림(들)과 유사해야 한다. 그러나 이것이 그 경우가 아닐 지라도, 입력 비디오 스트림의 인코딩은 여전히 기능상 임의 문제없이 발생할 수 있고, 결과적으로 덜 최적인 압축율 또는 PSNR 충실도가 가능할 수 있다. 이러한 인코딩된 기준 비디오 스트림 EVREF로부터 인코딩 구조 데이터를 도출하기 위한 장치 A의 실시예가 도 6a에 도시된다. 이 장치 A는 이 인코딩된 기준 비디오 스트림 EVREF을 수신하는데 적합하며, 엔트로피 디코딩에 더 적합하고, 그리고 인코딩된 데이터를 더 분석(parse or analyze)하는데 적합하므로, 필터는 레지듀얼 픽셀 데이터로부터 그들을 분리시키는 것과 같은 것을 위해 인코딩 구조에 존재하는 모든 신택스 요소를 후속적으로 추출할 수 있다. 또한 분석은 필터 그 자체에 의해 수행될 수 있으므로, 따라서 이를 위해 개별 모듈을 도시하진 않는다. 그러므로 필터링된 입력 인코딩 구조 데이터 또는 스트림 IESD는 그 후에 전술한 인코더의 실시예를 위한 입력 기준 데이터 IREF로서 쉽게 사용될 수 있다. 선택적으로, 이들 데이터의 이러한 압축 또는 인코딩이 다른 목적을 위해 바람직할 수 있다면, 입력 인코딩 구조 데이터 IESD는 엔트로피 인코딩의 추가 단계에 의해 다시 압축될 수 있다. 최종 데이터는 EIESD로 표기된다.

도 6b는 이전 인코딩된 기준 비디오 스트림 EVREFh로부터 기준 입력 데이터 IREF를 도출하는데 사용하기에 적당한 이러한 장치에 대한 다른 실시예 B를 도시하는데, 여기서 이 이전 인코딩은 예를 들어 H.264 표준을 따라서 추가 데이터 분할 특징을 사용하여 수행되었다. 초기의 데이터 분할로 인하여, 인코딩된 기준 비디오 스트림 EVREFh는 이제 NAL 분할 B 및 C로부터 NAL 분할 A 패킷을 분리시키기 위해 NAL 유닛 레벨에서 간단히 필터링될 수 있다. 필터링 동작 전에 엔트로피 디코딩이 필요없을 지라도, NAL 유닛 A 분할이 여전히 인코딩된 입력 인코딩 구조 데이터 EIESDh를 포함한다는 데에 주목한다. 따라서 이들은 IREF로부터 입력 인코딩 구조 데이터 IESD를 도출하기 위한 추가 엔트로피 디코더를 구비하므로, 기준 입력 데이터 IREF는 인코딩된 입력 인코딩 구조 데이터를 포함하고, 그 후에 바람직하게 도 2b 및 도 2c에 도시된 바와 같이 인코더 실시예로 제공된다.

또 다른 가능성은 인코딩할 입력 비디오 스트림의 구조를 선험적 지식으로부터 입력 인코딩 구조 데이터 IESD를 더 생성하는 것이며, 이 지식 자체는 인코딩된 비디오를 사용할 애플리케이션과 관련있다. 예를 들어 이러한 애플리케이션이 픽처에서, 예를 들어 잘 정의된 윈도우에서 픽셀을 그룹화할 방법과 이들 그룹을 후속 픽처내에서 공간적으로 발전시킬 방법에 대한 소정 지식을 미리 제공한다면, 이 정보는 애플리케이션에 의해 주어진 비디오 모델의 정확성에 따라 비디오 스트림 그자체의 압축에 사용될 수 있는 인코딩 구조 데이터 또는 스트림으로 쉽게 변환될 수 있다. 이것은 주어진 애플리케이션에 대해 비디오는 일정 컬러의 배경 상에서 이동하는 로고(logo)일거라 가정한 간단한 예에 의해 도시될 수 있다. 로고가 16 배수인 폭과 높이를 가진 이미지의 경계부에 평행한 직사각형 형태를 가진다고 더 가정한다. 픽처내에서 시간에 대한 변위는 알고 있으며 시간의 매 시점에서 16배수인 치수를 가정하여 가능한 바와 같이 단지 전체 매크로블록에 걸쳐 있는 방식으로 위치된다고 더 가정한다. 마지막으로, 로고는 매크로블록의 제1 로우 또는 제1 컬럼의 매크로블록을 커버하지 않는다고 가정한다. 따라서 로고 또는 배경 컬러 그자체에 관계없이, 인코딩 구조 데이터는 비디오 구조에 대한 이 가정된 지식을 다음과 같이 이 인코딩 구조로 변환하는 인코딩 구조 데이터를 생성할 수 있다:

- 제1 픽처에서, 인트라-코딩 모드는 제1 (상부-좌측) 매크로블록 컬러의 배경 컬러를 나머지 배경으로 전달하는데 사용되고, 로고에 의해 커버된 셋 매크로블록의 경우, 임의 인트라코딩 모드와 QP 값을 사용한다. 로고의 픽셀 값을 미리 알지 못하므로, 로고 매크로블록에 대한 압축 효율성은 여기서 낮을 수 있다.

- 다음 픽처에서, 이전 픽처에 관한 로고의 모션을 알고 항상 16 배수로서 표현할 수 있으므로, 각 매크로블록은 로고의 초기 매크로블록 중의 하나 또는 배경에 충분하다. 따라서 제2 프레임으로부터의 각 프레임은 단일 P-슬라이스로서 인코딩될 수 있고, 모든 모션 벡터는 각 전체 매크로블록에 대해 미리 계산될 수 있다.

본 발명에 따른 인코더의 실시예는 다수의 애플리케이션을 가진다. 제1 애플리케이션은 도 7에 도시되며, 인코딩된 기준 스트림 EVREF를 기반으로 일 또는 몇몇 입력 비디오 스트림 IV1 및 IV2를 인코딩하기 위한 배치 A1을 도시한다. 이 기준 인코딩된 스트림은 예를 들어 도 4b에 제시된 바와 같은 인코더 E7 실시예로 입력 기준 데이터 IREF로서 제공되는 기준 입력 인코딩 구조 IESD를 추출하기 위해 도 5에 도시된 바와 같은 장치 A의 실시예로 제공된다. 이 도면에 관해 설명하는 바와 같이, 이 인코더 실시예는 IV1 및 IV2에 대한 각 인코딩된 레지듀얼 데이터를 생성하는데 적합하고, 후속하여, 각 인코딩된 출력 비디오 스트림 IV1 및 IV2를 생성 및 제공하는 것과 같이 이들을 인코딩된 입력 인코딩 구조와 제각기 결합할 것이다.

도 8은 다른 애플리케이션을 이전 그래프에서 거론한 바와 같은 제1 배치 A1과 추가적인 종래 인코더 ET를 포함한 제2 배치 A2를 도시한다. 이 통상적인 종래 인코더는 종래 인코딩 방법에 따라서 기준 비디오 스트림 또는 기준 비디오 데이터 VREF를 인코딩하고, 인코딩된 기준 비디오 스트림 EVREF를 제1 배치 A1으로 제공하는데 적합하다. 그 후, A1은 마지막으로 인코딩된 출력 스트림 EV1 및 EV2를 각각 제공하기 위해 두 입력 비디오 스트림 IV1 및 IV2를 인코딩할 수 있을 것이다.

도 9는 이전 도면상에 도시된 바와 같이 제2 배치의 실시예 A2를 그 자체로 사용하는 제3 배치의 실시예 A3를 도시한다. 이 제3 배치는 기준 입력 비디오 스트림 VREF뿐만 아니라 Delta1 및 Delta2로 각각 표기된 각 입력 변경 데이터 입력을 수신하는데 적합하다. 이들 최소 변경은 기준 스트림 VREF과 픽셀 레벨에서 추가 또는 결합될 때에 각 입력 비디오 스트림 IV1 및 IV2가 될 것이다. Delta1 및 Delta2는 IV1 및 IV2를 도출하는 것과 같이 VREF의 픽셀 값을 변경하는 방법을 기술하는 것으로 간주될 수 있다. 전형적으로, 그들은 사전명시된 포맷에 따라서 VREF의 픽셀 위치 변경을 기술하는 인스트럭션 리스트, 그리고 IV1 및 IV2를 얻기 위해 VREF에서 대응 픽셀값을 순서대로 변경할 방법을 포함할 수 있다. 이들 인스트럭션은 예를 들어 변경할 VREF의 픽셀 리스트로서 표현될 수 있고, 여기서 이러한 각 픽셀에 대해, 예를 들면 픽셀 값을 원 픽셀 값에 추가(또는 이로부터 감산)함으로써, 또는 원 픽셀 값을 대체해야 하는 새 픽셀 값에 의한 이러한 변경을 기술한다. 이 대신에 소정 다른 경우에, 픽셀의 위치는 리스트보다 컴팩트한 방식으로 표현될 수 있는데, 예를 들면 변경할 픽셀이 이미지 측면에 평행한 측면을 가진 직사각형 영역에서 그룹화된다면, 그들 위치는 그 직사각형의 상부 좌측과 하부 우측 픽셀 위치에 의해 기술될 수 있다. 유사하지만 다른 경우에, 픽셀 값을 변경할 인스트럭션은 소정 픽셀 영역상에 또는 전체 프레임 상에 적용할 명암, 라이트닝 등에서 변경과 관련된 소정의 글로벌 이미지 필터링 정보로서 표현될 수 있거나, 혹은 Delta1 또는 Delta2 내에 비디오 또는 이미지 데이터를 또한 포함하는 픽셀 영역과 매칭하는 해상도를 가진 주어진 비디오 또는 정적 이미지에 의해 정의된 픽셀 영역을 대체하는 것을 의미할 수 있다. 또한 이전 가능성을 결합하는 것이 가능하다. 이러한 상황은 예를 들면 작은 로고의 경우, PiP(picture-in-picture) 비디오 또는 애니메이션 객체가, 이 경우에 기준 비디오 스트림으로 간주될 수 있는 원 비디오 시퀀스의 상부에 독립적으로 추가되는 라이트웨이트 개인화 애플리케이션(Lightweight personalization application)에서 발생한다. 최종 비디오 스트림 IV1 및 IV2가 기준 스트림 VREF와 크게 다르지 않을 수도 있으므로, EVREF로부터 인코딩 구조 IESD는 최종 IV1 및 IV2 비디오 스트림을 인코딩하기 위해 효율적인 압축을 여전히 제공할 수 있다.

변형 애플리케이션은 예를 들어 소정 브랜드명 또는 로고의 외형을 감추기 위하여 비디오 씬의 소정 작은 부분을 마스킹 또는 추가하는 것과 관련있다. 기준 입력 비디오가 될 것에 따라, 델타는 기준 비디오가 이를 포함하지 않는 경우에 로고, 또는 소정의 숨길 정보, 예를 들어 또 다른 로고를 포함하거나, 혹은 다른 경우에 이를 분명히 숨기기 위하여 로고가 있었던 곳의 픽셀 값을 숨기는 방법을 상세히 하는 임의 다른 인스트럭션을 포함할 것이다.

워터마킹(watermarking)은 라이트웨이트의 또 다른 예이며, 원리상 픽셀 영역에 적용될 수 있는 시각적으로는 인지할 수 없는 변경이다. 예를 들어 IPTV 시나리오에서, 워터마킹은 그의 셋탑 박스에 수신된 비디오 스트림을 기반으로 가입자를 고유하게 확인할 수 있게 한다. 그러나 이것은 각 가입자에 대한 비디오 스트림의 개인 버전을 재인코딩하는 것을 요구하진 않는다. 적어도 버전을 사용하여, 개별 스트림의 개인화는 고유한 시간적 패턴(temporal pattern)에 따라서 일 버전으로부터 다른 버전으로 전환함으로서 얻어질 수 있다. IDR 픽처가 이러한 전환 지점에 대한 자연스런 후보이다.

도 10a 및 도 10b는 다른 애플리케이션을 구현하기 위한 제4 배치의 실시예 A4, 각 A4b를 도시한다. 이 배치는 다중 입력 비디오 스트림을 수신하는데 적합하다. 도 10a 및 b에 도시된 두 실시예에서, 단지 두 입력 비디오 스트림 IV1 및 IV2는 단순성을 위해, 그리고 도면을 과적하지 않도록 도시되지만, 이 배치는 또한 특별히 셋 이상의 입력 비디오 스트림을 수신하는데 적합하다. 실시예는 기준 스트림으로서 입력 비디오 스트림 중의 하나를 선택하기 위해 선택 모듈 S를 포함하는데, 이는 종래 인코더 ET에 의해 통상적으로 인코딩될 것이다. 두 도시된 실시예에서, 제1 입력 비디오 IV1은 기준 스트림으로서 선택된다. 그 후, 다른 스트림 IV2가 있을 것이므로 기준 인코딩된 스트림 EV1T는 제1 배치 A1으로 제공된다. 도 10b의 실시예에서, 인코딩된 기준 스트림 EV1T는 배치의 출력 인코딩된 스트림 EV1으로서 직접 제공된다. 도 10a의 실시예에서, EV1T는 또한 이 문서에서 설명한 바와 같은 방법에 따라서 모듈 CEE에서 결합된 엔트로피 인코딩을 다시 겪기 전에 엔트로피 디코딩된다.

이러한 제4 배치의 실시예는 예를 들여 스테레오 비디오 또는 멀티뷰 비디오의 압축을 위해 사용될 수 있다. 예를 들어 입체(stereocopy)기반 3차원 비디오 또는 프리 뷰포인트 비디오를 사용하는 애플리케이션의 경우에 전형적으로 동일 물체 또는 씬의 몇몇 뷰를 포착해야만 한다. 예를 들면 입체의 경우, 두 비디오는 전형적으로 서로 상당히 근접하다. 광범위한 뷰포인트를 포괄하는 다중 비디오 스트림을 캡처시에, 다양한 스트림은 전형적으로 서로 근접한 뷰포인트로써 스트림 클러스터로 그룹화될 수 있다. 근접한 뷰포인트를 가진 둘 이상의 비디오 스트림을 저장 또는 전송하기 위하여, 종래 방법은 독립적으로 다양한 부를 압축 및 저장/전송할 것이며, 그 결과로 복잡도와 같은 상당한 비용이 생기고, 저장/전송 비용은 인코딩할 뷰의 수와 선형적으로 스케일링될 것이다. 이 제4 배치는 먼저 단지 하나의 비디오 스트림을 인코딩하고, 그 후 다른 비디오 스트림을 효율적으로 인코딩하기 위해 선택한 인코딩된 스트림의 인코딩 구조를 재사용하는 것을 포함한 대안을 제공한다. 이것은 모든 스트림이 저장/전송 매체상에 동일한 인코딩 구조를 공유할 수 있게 하는 후자 스트림의 인코딩 복잡성을 상당히 감소시킨다. 특히 NAL 유닛 A 분할을 공유할 수 있는 H.264 애플리케이션의 경우, 이것은 상당히 비용 효율적인 해결방안이다.

본 발명의 원리는 특정 장치와 함께 기술하였지만, 이 설명은 단지 예로서 행해진 것이며 첨부된 청구범위에 정의된 바와 같이 본 발명의 범주를 제한하려는 것이 아니다.

Claims

적어도 하나의 입력 비디오 스트림(IV1, IV2)을 인코딩하기 위한 방법으로서,
상기 적어도 하나의 입력 비디오 스트림(IV1, IV2)을 수신하는 단계와,
예측 픽셀 블록의 시퀀스(PPB1, PPB2)를 구성하는 단계와,
처리된 레지듀얼 픽셀 데이터의 시퀀스(a sequence of processed residual pixel data)(QRPD1, QRPD2)를 얻기 위하여, 상기 예측 픽셀 블록의 시퀀스(PPB1, PPB2)와 상기 적어도 하나의 입력 비디오 스트림(IV1, IV2)의 대응 블록을 처리하는 단계를 포함하고,
상기 예측 픽셀 블록의 시퀀스(PPB1, PPB2)는 기준 입력 데이터(IREF)의 입력 인코딩 구조 데이터(IESD)로부터 구성되고, 상기 입력 인코딩 구조 데이터(IESD)는 상기 처리된 레지듀얼 픽셀 데이터(QRPD1, QRPD2)와 함께, 결합된 엔트로피 인코딩(entropy encoding) 단계가 더 수행되어, 적어도 하나의 인코딩된 비디오 스트림(EV1, EV2)을 얻는
인코딩 방법.
제1항에 있어서,
상기 처리 단계는,
상기 예측 픽셀 블록(PPB1, PPB2)과 상기 적어도 하나의 입력 비디오 스트림(IV1, IV2)의 대응 블록 간의 차이로부터 레지듀얼 픽셀 블록의 시퀀스(RPB1, RPB2)를 생성하는 단계와,
상기 처리된 레지듀얼 픽셀 데이터의 시퀀스(QRPD1, QRPD2)를 얻기 위하여 상기 레지듀얼 픽셀 블록의 시퀀스(RPB1, RPB2)를 변환 및 양자화하는 단계를 포함하는
인코딩 방법.
제1항 또는 제2항에 있어서,
상기 기준 입력 데이터(IREF)는 인코딩된 입력 인코딩 구조 데이터(EIESD)를 포함하고, 상기 입력 인코딩 구조 데이터(IESD)는 상기 기준 입력 데이터(IREF)를 엔트로피 디코딩(entropy decoding)함으로써 상기 기준 입력 데이터(IREF)로부터 도출되는
인코딩 방법.
제1항 또는 제2항에 있어서,
상기 적어도 하나의 입력 비디오 스트림(IV1)의 구성 데이터를 상기 입력 인코딩 구조 데이터(IESD)와 비교하는 단계를 더 포함하고,
데이터가 매칭하지 않는다면, 상기 적어도 하나의 입력 비디오 스트림(IV1)을 더 사전처리하여 적어도 하나의 갱신된 입력 비디오 스트림(UIV1)를 생성함으로써, 상기 예측 픽셀 블록(PPB1)과 상기 적어도 하나의 갱신된 입력 비디오 스트림의 대응 블록 간의 차이로부터 레지듀얼 픽셀 블록이 결정되는
인코딩 방법.
제1항 또는 제2항에 있어서,
인코딩된 기준 비디오 스트림(EVREF, EVREFh)으로부터 상기 기준 입력 데이터(IREF)를 추출하는 단계를 더 포함하는
인코딩 방법.
제5항에 있어서,
상기 인코딩된 기준 비디오 스트림(EVREF)을 제공하기 위해 기준 비디오 스트림(VREF)을 인코딩하는 단계를 더 포함하는
인코딩 방법.
제6항에 있어서,
상기 적어도 하나의 입력 비디오 스트림(IV1, IV2)은 상기 기준 비디오 스트림(VREF)과 입력 변경 데이터(delta1, delta2)로부터 생성되는
인코딩 방법.
복수의 비디오 스트림(IV1, IV2)을 인코딩하는 방법으로서,
인코딩된 기준 비디오 스트림을 얻기 위하여 더 인코딩되는 기준 비디오 스트림(VREF)으로서 상기 비디오 스트림(IV1, IV2) 중의 하나를 선택하는 단계를 포함하고, 상기 비디오 스트림(IV1, IV2) 중 다른 비디오 스트림은 제5항에 따라서 더 인코딩되는
인코딩 방법.
적어도 하나의 입력 비디오 스트림(IV1, IV2)을 인코딩하기 위한 인코더로서,
상기 적어도 하나의 입력 비디오 스트림(IV1, IV2)을 수신하기 위한 적어도 하나의 입력 단자(IN1, IN2)와,
기준 입력 데이터(IREF)를 수신하기 위한 추가 입력 단자(INRef)를 포함하되,
상기 인코더는, 예측 픽셀 블록의 시퀀스(PPB1, PPB2)를 구성하고 상기 예측 픽셀 블록의 시퀀스(PPB1, PPB2)와 상기 적어도 하나의 입력 비디오 스트림(IV1, IV2)의 대응 블록을 처리하여 처리된 레지듀얼 픽셀 데이터의 시퀀스(QPRD1, QPRD2)를 얻도록 구성되고,
상기 인코더는, 상기 기준 입력 데이터(IREF)의 입력 인코딩 구조 데이터(IESD)로부터 상기 예측 픽셀 블록의 시퀀스(PPB1, PPB2)를 구성하고 상기 처리된 레지듀얼 픽셀 데이터(QPRD1, QPRD2)와 함께 상기 기준 입력 데이터(IREF)를 엔트로피 인코딩하여 상기 인코더의 적어도 하나의 출력 단자(OUT1, OUT2)에 제공하기 위한 적어도 하나의 인코딩된 비디오 스트림(EV1, EV2)를 발생하도록 더 구성되는
인코더.
제9항에 있어서,
엔트로피 인코더와 결합기(C; C1, C2)를 더 포함하는
인코더.
제9항 또는 제10항에 있어서,
상기 처리된 레지듀얼 픽셀 데이터의 시퀀스(QRPD1, QRPD2)를 얻기 위해, 상기 예측 픽셀 블록(PPB1, PPB2)과 상기 적어도 하나의 입력 비디오 스트림(IV1, IV2)의 대응 블록 간의 차이로부터 레지듀얼 픽셀 블록의 시퀀스(RPB1, RPB2)를 생성하고 상기 레지듀얼 픽셀 블록의 시퀀스(RPB1, RPB2)를 변환 및 양자화함으로써 상기 예측 픽셀 블록(PPB1, PPB2)과 상기 적어도 하나의 입력 비디오 스트림(IV1, IV8)의 대응 블록을 처리하도록 더 구성되는
인코더.
제9항에 있어서,
상기 기준 입력 데이터(IREF)는 인코딩된 입력 인코딩 구조 데이터(EIESD)를 포함하고, 상기 인코더는 상기 입력 인코딩 구조 데이터(IESD)를 생성하기 위해 상기 기준 입력 데이터(IREF)를 엔트로피 디코딩하는 엔트로피 디코더(ED1)를 더 포함하는
인코더.
제9항 또는 제10항에 있어서,
상기 적어도 하나의 입력 비디오 스트림(IV1)의 구성 데이터를 상기 입력 인코딩 구조 데이터(IESD)와 비교하도록 더 구성되되,
상기 데이터가 매칭하지 않는다면, 상기 적어도 하나의 입력 비디오 스트림(IV1)을 사전처리하여 적어도 하나의 갱신된 입력 비디오 스트림(UIV1)을 생성함으로써 상기 예측 픽셀 블록과 상기 적어도 하나의 갱신된 입력 비디오 스트림(UIV1)의 대응 블록 간의 차이로부터 레지듀얼 픽셀 블록(RPB1)이 결정되도록 더 구성되는
인코더.
제1 장치로서,
제9항 또는 제10항에 따른 인코더와, 상기 인코더로 제공하기 위해 인코딩된 기준 비디오 스트림(EVREF, EVREFh)으로부터 상기 기준 입력 데이터(IREF)를 추출하도록 구성된 장치(A, B)를 포함하는
제1 장치.
제2 장치로서,
제14항에 따른 제1 장치와, 기준 비디오 스트림(VREF)을 인코딩하기 위한 인코더(ET)를 포함하여, 인코딩된 기준 비디오 스트림(EVREF)을 상기 제1 장치로 제공하는
제2 장치.
제3 장치로서,
제15항에 따른 제2 장치와,
상기 제2 장치로 제공하기 위하여 상기 입력 기준 비디오 스트림(VREF) 및 입력 변경 데이터(Delta1, Delta2)로부터 상기 적어도 하나의 입력 비디오 스트림(IV1, IV2)을 생성하는 적어도 하나의 비디오 결합수단(VCM1, VCM2)을 포함하는
제3 장치.
복수의 입력 비디오 스트림(IV1, IV2)를 수신하도록 구성된 제4 장치로서,
상기 복수의 입력 비디오 스트림(IV1, IV2) 중의 하나의 입력 비디오 스트림(IV1)을 기준 비디오 스트림으로서 선택하기 위한 선택 수단(S)과,
상기 제4 장치의 제1 출력 및 상기 제4 장치내에 포함된 제14항에 따른 제1 장치로 제공하기 위한 인코딩된 기준 비디오 스트림(EV1)을 생성하기 위하여, 상기 기준 비디오 스트림을 인코딩하는 인코더(ET)를 포함하되,
제14항에 따른 상기 제1 장치는, 상기 복수의 입력 비디오 스트림(IV1, IV2) 중의 다른 입력 비디오 스트림(IV2)을 인코딩하고, 인코딩된 상기 다른 비디오 스트림(EV2)를 상기 제4 장치의 다른 출력으로 제공하도록 구성되는
제4 장치.