KR101837206B1

KR101837206B1 - 비디오 인코딩 및 디코딩에서 적응적 변환 선택을 위한 방법들 및 장치

Info

Publication number: KR101837206B1
Application number: KR1020127004666A
Authority: KR
Inventors: 시아오안 루; 조엘 솔; 펭 와인; 치안 수; 윤페이 젱
Original assignee: 톰슨 라이센싱
Priority date: 2009-07-23
Filing date: 2010-07-22
Publication date: 2018-03-09
Also published as: WO2011011074A1; EP2457377A1; JP5927117B2; US20120121009A1; KR20120039728A; CN102474607B; CN102474607A; US9357221B2; JP2012533963A

Abstract

비디오 인코딩 및 디코딩에서 적응적 변환 선택을 위한 방법들 및 장치가 제공된다. 이 장치는 변환을 이용하여 화상 내의 적어도 한 블록을 인코딩하는 비디오 인코더(300)를 포함한다. 블록을 인코딩하는데 이용되는 변환은 복수의 변환으로부터 선택된다. 복수의 변환은 화상의 인코딩 동안에 적응적으로 업데이트된다.

Description

비디오 인코딩 및 디코딩에서 적응적 변환 선택을 위한 방법들 및 장치{METHODS AND APPARATUS FOR ADAPTIVE TRANSFORM SELECTION FOR VIDEO ENCODING AND DECODING}

관련 출원들에 대한 교차-참조

이 출원은 그 전체가 본 명세서에 참조로 통합되는, 2009년 7월 23일에 출원된 미국 가출원 제61/227,938호(대리인 관리 번호 PU090100)의 이익을 청구한다.

기술 분야

본 발명의 원리들은 일반적으로 비디오 인코딩 및 디코딩에 관한 것이며, 더 구체적으로는 비디오 인코딩 및 디코딩에서 적응적 변환 선택을 위한 방법들 및 장치에 관한 것이다.

블록 기반 이산 변환은, 예를 들어, JPEG(Joint Photographic Experts Group), ITU-T(International Telecommunication Union, Telecommunication Sector) H.263 권고(이하, "H.263 권고"), ISO/IEC(International Organization for Standardization/International Electrotechnical Commission) MPEG-1(Moving Picture Experts Group-1) 표준, ISO/IEC MPEG-2 표준, ISO/IEC MPEG-4 파트 10 AVC(Advanced Video Coding) 표준/ITU-T H.264 권고(이하, "MPEG-4 AVC 표준") 등을 포함하는 많은 이미지 및 비디오 압축 표준들의 기본 컴포넌트이며, 광범위한 애플리케이션들에서 이용된다. 상기 변환은 신호를 변환 도메인으로 전환하며, 상기 신호를 변환 기반 함수(transform basis function)들의 세트의 선형 조합으로서 나타낸다. 이후 양자화 스테이지가 후속한다. 비디오 코딩에 대한 양호한 변환은:(1) 신호가 양자화되도록 상관해제해야 하며, 따라서 개별 값들에 대한 스칼라 양자화가 벡터 양자화와 비교시 너무 많은 코딩 효율성을 유실하지 않고 효과적으로 이용될 수 있고; (2) 비디오 신호의 에너지를 가능한 적은 계수들로서 간소화해야 하는데, 이는 인코더가 큰 크기들을 가지는 몇몇 계수들에 의해 이미지를 표현하게 한다. 선행하는 2개 기준들 하에서 양호하게 수행하는 변환은 Karhunen-Loeve 변환(KLT)이다. 이산 코사인 변환(DCT)은 일반적인 이미지 신호들에 대해 KLT에 대한 양호한 근사화를 제공하며, 거의 모든 현대의 비디오 코딩 표준들에서 이용된다.

DCT 방식은 이미지/프레임을 픽셀들의 블록들(일반적으로, 4x4, 8x8 및 16x16)로 분할하고, 각각의 블록을 이산 코사인 변환을 이용하여 공간 도메인에서 주파수 도메인으로 변환하고, DCT 계수들을 양자화함으로써, 이미지/프레임의 로컬 공간 상관 특징을 이용한다. 대부분의 이미지 압축 표준들은 고정된 2-디멘젼(2-D) 분리가능한 DCT 블록 변환을 이용한다. 몇몇 블록 사이즈들이 허용되는 경우(통상적으로 4x4 내지 16x16 블록들), 이들은 블록에 대응하는 사이즈를 가지는 DCT를 이용한다.

예를 들어, MPEG-4 AVC 표준과 같은 이미지 및 비디오 코딩 표준들에서, 이용할 변환은 블록 사이즈에 의존한다. 예를 들어, 4x4 정수 DCT는 4x4 블록들에 대해 이용되고, 8x8 블록들에 대해 8x8 정수 DCT가 이용되고, INTRA 16x16 블록들에 대해 4개의 캐스케이드된 4x4 정수 DCT가 이용된다. DCT 기반 함수들이 미리 결정되며, 비디오 콘텐츠 또는 코딩 파라미터들에 대해 적응하지 않는다.

KLT가 최적화된 선형 변환이므로, 제1 종래 기술의 방식에서, MPEG-4 AVC 표준에서 9개의 인트라 예측 모드들 각각에 대한 최상의 변환을 유도하는 것이 이용된다. 각각의 모드에 대한 통계치가 추출되며, 대응하는 KLT들이 유도된다. 각각의 인트라 예측 모드에 대한 레시듀얼(residual) 데이터는 대응하는 KLT를 이용하여 인코딩된다. DCT가 더이상 최상의 변환에 근접하지 않도록 9개의 인트라 모드들이 데이터 공간을 효율적으로 분할하며, 따라서, 개별 최상의 변환이 유도되어 성공적으로 적용될 수 있다. 요약하면, 제1 종래 기술의 방식은 몇몇 변환들을 이용하며, 이들 각각은 비디오 콘텐츠와는 무관하게(despite) 선택된 인트라 예측 모드로 고정된다.

제2 종래 기술 방식에서, 하나 이상의 변환들을 오프라인으로 트레이닝하고, 이후 인코더가 이들 블록들 중 각각의 블록에 대해 압축 성능을 최적화하기 위한 변환들을 선택하는 것이 제안된다. 선택은 각각의 블록에 대해 시그널링된다. 그러나 이미지 및 비디오 콘텐츠는 가변적인 통계치들 및 특징들을 가지는 데이터를 가진다. 또한, 인코더는 상이한 타겟 비트 레이트들과 같은 상이한 코딩 파라미터들을 이용하여 동작한다. 오리지널 이미지들 및 레시듀얼 이미지들에서의 변경들이 항상 DCT에 의해 캡쳐될 수는 없다.

도 1을 참조하면, 인코더에서의 통상적인 변환 선택 방법이 일반적으로 참조 번호(100)로 표시된다. 방법(100)은 기능 블록(120)에 제어를 전달하는 시작 블록(110)을 포함한다. 기능 블록(120)은 변환 세트를 초기화하고, 루프 제한 블록(130)에 제어를 전달한다. 루프 제한 블록(130)은 (처리 중인) 현재 비디오 시퀀스에서 1 내지 화상들의 번호(#)까지의 범위를 가지는 변수 j를 이용하는 루프(이하, "루프(1)")를 개시하고, 루프 제한 블록(140)에 제어를 전달한다. 루프 제한 블록(140)은 처리 중인 현재 화상에서 1 내지 블록들의 번호(#)까지의 범위를 가지는 변수 i를 이용하는 루프(이하, "루프(2)")를 개시하고, 기능 블록(150)에 제어를 전달한다. 기능 블록(150)은 (예를 들어, 하나 이상의 기준에 기초하여) 블록에 대한 최상의 변환을 선택하고, 기능 블록(160)에 제어를 전달한다. 기능 블록(160)은 화상 j내의 블록 i를 인코딩하고, 루프 제한 블록(170)에 제어를 전달한다. 루프 제한 블록(170)은 루프(2)를 종료하고 루프 제한 블록(180)에 제어를 전달한다. 루프 제한 블록(180)은 루프(1)를 종료하고 종료 블록(199)에 제어를 전달한다.

종래 기술에서, 변환 세트는 큰 트레이닝 데이터 세트를 가지고 오프라인으로 트레이닝된다. 트레이닝 기법은 일반적인 KLT, 희소 객체 함수 등에 기초할 수 있다. 인코딩 동안, 인코더는 압축 성능을 개선하기 위해 각각의 블록에 대해 트레이닝 세트로부터 최상의 변환을 선택한다. 선택은 비트스트림에서 시그널링되고, 따라서 대응하는 디코더는 비트스트림을 파싱(parse)할 수 있고, 인코더에 의해 이용된 것과 동일한(그러나 역) 변환을 이용하여 비디오 신호를 디코딩할 수 있다.

도 2를 참조하면, 디코더에서의 통상적인 변환 선택 방법은 일반적으로 참조 번호(200)로 표시된다. 방법(200)은 기능 블록(220)에 제어를 전달하는 시작 블록(210)을 포함한다. 기능 블록(220)은 변환 세트를 초기화하고, 루프 제한 블록(230)에 제어를 전달한다. 루프 제한 블록(230)은 (처리 중인) 현재 비디오 시퀀스에서 1 내지 화상들의 번호(#)까지의 범위를 가지는 변수 j를 이용하는 루프(이하 "루프(1)")를 개시하고, 루프 제한 블록(240)에 제어를 전달한다. 루프 제한 블록(240)은 처리 중인 현재 화상에서 1 내지 블록들의 번호(#)까지의 범위를 가지는 변수 i를 이용하는 루프(이하 "루프(2)")를 개시하고, 기능 블록(250)에 제어를 전달한다. 기능 블록(250)은 (현재) 블록에 대한 변환을 디코딩하고, 기능 블록(260)에 제어를 전달한다. 기능 블록(260)은 화상 j내의 블록 i를 디코딩하고 루프 제한 블록(270)에 제어를 전달한다. 루프 제한 블록(270)은 루프(2)를 종료시키고 루프 제한 블록(280)에 제어를 전달한다. 루프 제한 블록(280)은 루프(1)를 종료시키고 종료 블록(299)에 제어를 전달한다.

따라서, 방법(200)에서, 각각의 블록에 대해, 디코더는 인코더에 의해 이용되는 변환을 비트스트림으로부터 획득하고, 이후 시그널링된 변환(역변환)을 이용하여 비디오 신호를 재구성한다. 그러나 변환들의 세트는 오프라인으로 유도되며, 입력 비디오 시퀀스 및 코딩 파라미터들에 적응할 수 없다.

종래 기술의 이들 및 다른 결함들 및 단점들은, 비디오 인코딩 및 디코딩에서 적응적 변환 선택을 위한 방법들 및 장치에 관한 것인 본 발명의 원리들에 의해 해결된다.

본 발명의 원리들의 양상에 따라, 장치가 제공된다. 장치는 변환을 이용하여 화상 내의 적어도 한 블록을 인코딩하는 비디오 인코더를 포함한다. 블록을 인코딩하는데 이용되는 변환은 복수의 변환으로부터 선택된다. 복수의 변환은 화상의 인코딩 동안에 적응적으로 업데이트된다.

본 발명의 원리들의 또다른 양상에 따라, 비디오 인코더에서의 방법이 제공된다. 이 방법은 변환을 이용하여 화상 내의 적어도 한 블록을 인코딩하는 단계를 포함한다. 블록을 인코딩하는데 이용되는 변환은 복수의 변환으로부터 선택된다. 복수의 변환은 화상의 인코딩 동안에 적응적으로 업데이트된다.

본 발명의 원리들의 또다른 양상에 따라, 장치가 제공된다. 이 장치는 역변환을 이용하여 화상 내의 적어도 한 블록을 디코딩하는 비디오 디코더를 포함한다. 블록을 디코딩하는데 이용되는 역변환은 복수의 역변환으로부터 선택된다. 복수의 역변환은 화상의 디코딩 동안에 적응적으로 업데이트된다.

본 발명의 원리들의 추가적인 양상들에 따라, 디코더에서의 방법이 제공된다. 이 방법은 역변환을 이용하여 화상 내의 적어도 한 블록을 디코딩하는 단계를 포함한다. 블록을 디코딩하는데 이용되는 역변환은 복수의 역변환으로부터 선택된다. 복수의 역변환은 화상의 디코딩 동안에 적응적으로 업데이트된다.

본 발명의 원리들의 이들 및 다른 양상들, 특징들 및 장점들은, 첨부 도면들과 함께 판독될 예시적인 실시예들의 후속하는 상세한 설명으로부터 명백해질 것이다.

본 발명의 원리들은 후속하는 예시적인 도면들에 따라 더욱 양호하게 이해될 수 있다.
도 1은 종래 기술에 따른, 인코더에서의 통상적인 변환 선택 방법을 도시하는 흐름도이다.
도 2는 종래 기술에 따른, 디코더에서의 통상적인 변환 선택 방법을 도시하는 흐름도이다.
도 3은 본 발명의 원리들의 실시예에 따른, 본 발명의 원리들의 적용될 수 있는 예시적인 비디오 인코더를 도시하는 블록도이다.
도 4는 본 발명의 원리들의 실시예에 따른, 본 발명의 원리들이 적용될 수 있는 예시적인 비디오 디코더를 도시하는 블록도이다.
도 5는 본 발명의 원리들의 실시예에 따른, 인코딩 동안에 업데이트되어 대응하는 디코더에 전송되는 변환들을 이용하여, 화상을 인코딩하기 위한 예시적인 방법을 도시하는 흐름도이다.
도 6은 본 발명의 원리들의 실시예에 따른, 인코더로부터 수신되는 업데이트된 변환들을 이용하여, 화상을 디코딩하기 위한 예시적인 방법을 도시하는 흐름도이다.
도 7은 본 발명의 원리들의 실시예에 따른, 인코딩 동안에 업데이트되는 변환들을 이용하여, 화상을 인코딩하기 위한 예시적인 방법을 도시하는 흐름도이다.
도 8은 본 발명의 원리들의 실시예에 따른, 디코딩 동안에 업데이트되는 변환들을 이용하여, 화상을 디코딩하기 위한 예시적인 방법을 도시하는 흐름도이다.
도 9는 본 발명의 원리들의 실시예에 따른, 인코딩 동안에 업데이트되는 변환들 및 대응하는 디코더에 전송된 변환 인덱스들을 이용하여 화상을 인코딩하기 위한 예시적인 방법을 도시하는 흐름도이다.
도 10은 본 발명의 원리들의 실시예에 따른, 대응하는 인코더로부터 수신되는 변환 인덱스들을 이용하여 화상을 디코딩하기 위한 예시적인 방법을 도시하는 흐름도이다.
도 11은 본 발명의 원리들의 실시예에 따른, 특이값 분해(singular value decomposition)를 이용하여 인코더에서 변환들을 유도하기 위한 예시적인 방법을 도시하는 흐름도이다.
도 12는 본 발명의 원리들의 실시예에 따른, 특이값 분해를 이용하여 디코더에서 변환들을 유도하기 위한 예시적인 방법을 도시하는 흐름도이다.

본 발명의 원리들은 비디오 인코딩 및 디코딩을 위한 적응적 변환 선택에 대한 방법들 및 장치에 관한 것이다.

본 발명의 기재는 본 발명의 원리들을 예시한다. 따라서, 당업자가, 여기서 명시적으로 기술되고 도시되지는 않았지만, 본 발명의 원리들을 구현하고 그 사상 및 범위 내에 포함되는 다양한 배열(arrangement)들을 고안할 수 있을 것이라는 점이 이해될 것이다.

여기서 인용되는 모든 예들 및 조건적 언어는 발명인(들)에 의해 상기 기술을 발전시키는데 기여되는 본 발명의 원리들 및 개념의 이해에 있어 독자를 보조하기 위한 교육적 목적으로 의도되며, 이러한 구체적으로 인용된 예들 및 조건들에 대한 제한이 없는 것으로서 해석되어야 한다.

또한, 여기서 본 발명의 원리들, 양상들 및 실시예들 및 이들의 특정 예들을 인용하는 모든 스테이트먼트들은 이들의 구조적 및 기능적 등가물들 모두를 포함하는 것으로 의도된다. 추가로, 이러한 등가물들은 현재 공지된 등가물들 및 향후에 개발될 등가물들 모두, 즉 구조와는 무관하게 동일한 기능을 수행하도록 개발되는 임의의 엘리먼트들을 포함하도록 의도된다.

따라서, 예를 들어, 여기서 제시된 블록도들이 본 발명의 원리들을 구현하는 예시적인 회로의 개념적 뷰들을 나타낸다는 점이 당업자에 의해 이해될 것이다. 유사하게, 임의의 플로우 차트들, 흐름도들, 상태 천이도들, 의사 코드 등이, 컴퓨터 판독가능한 매체 상에서 실질적으로 나타날 수 있고, 따라서 컴퓨터 또는 프로세서가 명시적으로 도시되든 아니든 간에 이러한 컴퓨터 또는 프로세서에 의해 실행될 수 있는 다양한 프로세스들을 나타낸다는 점이 이해될 것이다.

도면들에서 도시된 다양한 엘리먼트들의 기능들은 전용 하드웨어 및 적절한 소프트웨어와 연관되어 소프트웨어를 실행할 수 있는 하드웨어의 이용을 통해 제공될 수 있다. 프로세서에 의해 제공될 때, 기능들은 단일 전용 프로세서에 의해, 단일 공유 프로세서에 의해, 또는 그 중 일부가 공유될 수 있는 복수의 개별 프로세서들에 의해 제공될 수 있다. 또한, 용어 "프로세서" 또는 "제어기"의 명시적 이용은 소프트웨어를 실행할 수 있는 하드웨어를 배타적으로 참조하도록 해석되지 않아야 하며, 디지털 신호 프로세서("DSP") 하드웨어, 소프트웨어를 저장하기 위한 판독-전용 메모리("ROM"), 랜덤 액세스 메모리("RAM"), 및 비휘발성 저장소를, 제한 없이, 내포적으로 포함할 수 있다.

종래의 그리고/또는 주문형의 다른 하드웨어가 또한 포함될 수 있다. 유사하게, 도면들에 도시된 임의의 스위치들은 오직 개념적이다. 이들의 기능은 프로그램 로직의 동작을 통해, 전용 로직을 통해, 프로그램 제어 및 전용 로직의 상호작용을 통해, 또는 심지어 수동적으로 수행될 수 있으며, 특정 기법은 컨텍스트로부터 더욱 구체적으로 이해되는 바와 같이 구현자에 의해 선택가능하다.

본원의 청구항들에서, 특정된 기능을 수행하기 위한 수단으로서 표현된 임의의 엘리먼트는, 예를 들어, a) 해당 기능을 수행하는 회로 엘리먼트들의 조합 또는 b) 따라서, 기능을 수행하기 위해 해당 소프트웨어를 실행하기 위한 적절한 회로와 결합된, 펌웨어, 마이크로코드 등을 포함하는 임의의 형태의 소프트웨어를 포함하는, 해당 기능을 수행하는 임의의 방식을 포함하도록 의도된다. 이러한 청구항들에 의해 정의되는 바와 같은 본 발명의 원리들은 다양한 인용된 수단에 의해 제공되는 기능성들이 청구항들이 요청하는 방식으로 함께 결합되어 도출된다는 사실에 있다. 따라서, 해당 기능성들을 제공할 수 있는 임의의 수단은 여기에 도시된 수단들과 등가인 것으로 간주된다.

본 발명의 원리들의 "일 실시예" 또는 "실시예", 및 이들의 다른 변형예들에 대한 본 명세서의 참조는 실시예와 함께 기술되는 특정한 특징들, 구조, 특성 등은 본 발명의 원리들의 적어도 일 실시예에 포함된다는 것을 의미한다. 따라서, 구문 "일 실시예에서" 또는 "실시예에서", 및 명세서 전반에 걸쳐 다양한 곳에서 나타나는 임의의 다른 변형예들의 출현은 동일한 실시예를 반드시 모두 참조하지는 않는다.

예를 들어, "A/B", "A 및/또는 B" 및 "A 및 B 중 적어도 하나"의 경우들에서, 다음의 "/", "및/또는", 및 "~중 적어도 하나" 중 임의의 것의 이용이 제1 열거된 옵션 (A) 만의 선택, 또는 제2 열거된 옵션 (B) 만의 선택, 또는 옵션들 (A 및 B) 모두의 선택을 포함하도록 의도된다는 점이 이해되어야 한다. 추가의 예로서, "A, B 및/또는 C" 및 "A, B 및 C 중 적어도 하나"의 경우, 이러한 구문은 제1 열거된 옵션(A) 만의 선택, 또는 제2 열거된 옵션(B) 만의 선택, 또는 제3 열거된 옵션(C)만의 선택, 또는 제1 및 제2 열거된 옵션들(A 및 B) 만의 선택, 또는 제1 및 제3 열거된 옵션들(A 및 C) 만의 선택, 또는 제2 및 제3 열거된 옵션들(B 및 C) 만의 선택, 또는 모든 3개의 옵션들(A 및 B 및 C)의 선택을 포함하는 것으로 의도된다. 이는 본 발명의 기술분야 및 관련 기술분야에서의 당업자에 의해 용이하게 이해될 바와 같이, 열거된 많은 항목들과 같이 확장될 수 있다.

여기서 이용된 바와 같이, "고레벨 신택스"는 계층적으로 매크로블록 층 위에 상주하는 비트스트림 내에 존재하는 신택스를 참조한다. 예를 들어, 고레벨 신택스은, 여기서 이용되는 바와 같이, 슬라이스 헤더 레벨, SEI(Supplemental Enhancement Information) 레벨, PPS(Picture Parameter Set) 레벨, SPS(Sequence Parameter Set) 레벨 및 NAL(Network Abstraction Layer) 유닛 헤더 레벨에서의 신택스를 참조하지만 이에 제한되지 않는다.

또한, 여기서 이용되는 바와 같이, 용어 "화상(picture)" 및 "이미지"는 상호교환가능하게 이용되며, 비디오 시퀀스로부터의 정지 이미지 또는 화상을 참조한다. 알려진 바와 같이, 화상은 프레임 또는 필드일 수 있다.

추가로, 여기서 이용되는 바와 같이, 용어 "비트스트림"은 인코더 출력을 참조한다. 물론, 인코더 출력은 많은 형태들일 수 있으며, 이들 모두는 본 발명의 원리들에 의해 참작된다. 예를 들어, "비트스트림"은 예를 들어, 브로드캐스트, 점-대-점, 또는 멀티캐스트 전송 방식을 이용하는 신호로서 전송되거나 그렇지 않은 경우 송신될 수 있지만 이에 제한되지 않으며, 또는 예를 들어, 광학, 자기, 또는 다른 저장 매체와 같은, 그러나 이에 제한되지 않는, 고정된 매체 상에 레코딩될 수 있다.

또한, 여기서 이용되는 바와 같이, 용어 "신호"는 대응하는 디코더에 대한 어떤 것을 나타내는 것을 참조할 수 있다. 예를 들어, 인코더는 어떤 특정 변환(또는 변환들의 서브세트)가 인코더 측에서 이용되었는지를 디코더가 알게 하기 위해 특정 변환(또는 변환들의 세트)을 시그널링할 수 있다. 이러한 방식으로, 동일한 변환(또는 변환들의 서브세트)은 인코더 측 및 디코더 측 모두에서 이용될 수 있다. 따라서, 예를 들어, 인코더는 디코더가 동일한 변환(또는 변환들의 서브세트)을 이용할 수 있도록 디코더에 특정 맵핑 함수를 전송할 수 있거나, 또는 디코더가 이미 특정 변환(또는 변환들의 서브세트) 및 다른 것들을 이미 가진 경우, 시그널링은 단순히 디코더가 특정 변환(또는 변환들의 서브세트)을 알고 선택하게 하기 위해 (전송 없이) 이용될 수 있다. 임의의 실제 변환들의 전송을 회피함으로써, 비트 절약이 달성될 수 있다. 시그널링이 다양한 방식들로 달성될 수 있다는 점이 이해되어야 한다. 예를 들어, 하나 이상의 신택스 엘리먼트들, 플래그들 등은 대응하는 디코더에 정보를 시그널링하기 위해 이용될 수 있다. 상기의 관련 시그널링이 변환들에 대해 기술되었지만, 이는 균등하게 역변환들에 적용된다.

도 3을 참조하면, 본 발명의 원리들이 적용될 수 있는 예시적인 비디오 인코더는 일반적으로 참조 번호(300)로 표시된다.

비디오 인코더(300)는 결합기(385)의 비반전 입력과 신호 통신하는 출력을 가지는 프레임 정렬 버퍼(310)를 포함한다. 결합기(385)의 출력은 변환기 및 양자화기(325)의 제1 입력과 신호 통신시에 접속된다. 변환기 및 양자화기(325)의 출력은 엔트로피 인코더(345)의 제1 입력 및 역변환기 및 역양자화기(350)의 제1 입력과 신호 통신시에 접속된다. 엔트로피 코더(345)의 출력은 결합기(390)의 제1 비반전 입력과 신호 통신시에 접속된다. 결합기(390)의 출력은 출력 버퍼(335)의 제1 입력과 신호 통신시에 접속된다.

인코더 제어기(305)의 제1 출력은 프레임 정렬 버퍼(310)의 제2 입력, 역변환기 및 역양자화기(350)의 제2 입력, 화상-타입 결정 모듈(315)의 입력, 매크로블록 타입(MB-타입) 결정 모듈(320)의 제1 입력, 인트라 예측 모듈(360)의 제2 입력, 디블록킹 필터(365)의 제2 입력, 모션 보상기(370)의 제1 입력, 모션 추정기(375)의 제1 입력, 및 기준 화상 버퍼(380)의 제2 입력과 신호 통신시에 접속된다.

인코더 제어기(305)의 제2 입력은 SEI 삽입기(330)의 제1 입력, 변환기 및 양자화기(325)의 제2 입력, 엔트로피 코더(345)의 제2 입력, 출력 버퍼(335)의 제2 입력, SPS 및 PPS 삽입기(340)의 입력과 신호 통신시에 접속된다.

SEI 삽입기(330)의 출력은 결합기(390)의 제2 비반전 입력과 신호 통신시에 접속된다.

화상-타입 결정 모듈(315)의 제1 출력은 프레임 정렬 버퍼(310)의 제3 입력과 신호 통신시에 접속된다. 화상-타입 결정 모듈(315)의 제2 출력은 매크로블록-타입 결정 모듈(320)의 제2 입력과 신호 통신시에 접속된다.

SPS 및 PPS 삽입기(340)의 출력은 결합기(390)의 제3 비반전 입력과 신호 통신시에 접속된다.

역양자화기 및 역변환기(350)의 출력은 결합기(319)의 제1 비반전 입력과 신호 통신시에 접속된다. 결합기(319)의 출력은 인트라 예측 모듈(360)의 제1 입력 및 디블록킹 필터(365)의 제1 입력과 신호 통신시에 접속된다. 디블록킹 필터(365)의 출력은 기준 화상 버퍼(380)의 제1 입력과 신호 통신시에 접속된다. 기준 화상 버퍼(380)의 출력은 모션 추정기(375)의 제2 입력 및 모션 보상기(370)의 제3 입력과 신호 통신시에 접속된다. 모션 추정기(375)의 제1 출력은 모션 보상기(370)의 제2 입력과 신호 통신시에 접속된다. 모션 추정기(375)의 제2 출력은 엔트로피 코더(345)의 제3 입력과 신호 통신시에 접속된다.

모션 보상기(370)의 출력은 스위치(397)의 제1 입력과 신호 통신시에 접속된다. 인트라 예측 모듈(360)의 출력은 스위칭(397)의 제2 입력과 신호 통신시에 접속된다. 매크로블록-타입 결정 모듈(320)의 출력은 스위치(397)의 제3 입력과 신호 통신시에 접속된다. 스위치(397)의 제3 입력은 (제어 입력, 즉, 제3 입력과 비교시) 스위치의 "데이터" 입력이 모션 보상기(370)에 의해 제공될지 또는 인트라 예측 모듈(360)에 의해 제공될 지의 여부를 결정한다. 스위치(397)의 출력은 결합기(319)의 제2 비반전 입력 및 결합기(385)의 반전 입력과 신호 통신시에 접속된다.

프레임 정렬 버퍼(310)의 제1 입력 및 인코더 제어기(305)의 입력은 입력 화상을 수신하기 위한 인코더(300)의 입력들로서 이용이능하다. 또한, SEI 삽입기(330)의 제2 입력은 메타 데이터를 수신하기 위한 인코더(300)의 입력으로서 이용이능하다. 출력 버퍼(335)의 출력은 비트스트림을 출력하기 위한 인코더(300)의 출력으로서 이용이능하다.

도 4를 참조하면, 본 발명의 원리들이 적용될 수 있는 예시적인 비디오 디코더가 일반적으로 참조 번호(400)로 표시된다.

비디오 디코더(400)는 엔트로피 디코더(445)의 제1 입력과 신호 통신시에 접속되는 출력을 가지는 입력 버퍼(410)를 포함한다. 엔트로피 디코더(445)의 제1 출력은 역변환기 및 역양자화기(450)의 제1 입력과 신호 통신시에 접속된다. 역변환기 및 역양자화기(450)의 출력은 결합기(425)의 제2 비반전 입력과 신호 통신시에 접속된다. 결합기(425)의 출력은 디블록킹 필터(465)의 제2 입력 및 인트라 예측 모듈(460)의 제1 입력과 신호 통신시에 접속된다. 디블록킹 필터(465)의 제2 출력은 기준 화상 버퍼(480)의 제1 입력과 신호 통신시에 접속된다. 기준 화상 버퍼(480)의 출력은 모션 보상기(470)의 제2 입력과 신호 통신시에 접속된다.

엔트로피 디코더(445)의 제2 출력은 모션 보상기(470)의 제3 입력, 디블록킹 필터(465)의 제1 입력, 및 인트라 예측기(460)의 제3 입력과 신호 통신시에 접속된다. 엔트로피 디코더(445)의 제3 출력은 디코더 제어기(405)의 입력과 신호 통신시에 접속된다. 디코더 제어기(405)의 제1 출력은 엔트로피 디코더(445)의 제2 입력과 신호 통신시에 접속된다. 디코더 제어기(405)의 제2 출력은 역변환기 및 역양자화기(450)의 제2 입력과 신호 통신시에 접속된다. 디코더 제어기(405)의 제3 출력은 디블록킹 필터(465)의 제3 입력과 신호 통신시에 접속된다. 디코더 제어기(405)의 제4 출력은 인트라 예측 모듈(460)의 제2 입력, 모션 보상기(470)의 제1 입력, 및 기준 화상 버퍼(480)의 제2 입력과 신호 통신시에 접속된다.

모션 보상기(470)의 출력은 스위치(497)의 제1 입력과 신호 통신시에 접속된다. 인트라 예측 모듈(460)의 출력은 스위치(497)의 제2 입력과 신호 통신시에 접속된다. 스위치(497)의 출력은 결합기(425)의 제1 비반전 입력과 신호 통신시에 접속된다.

입력 버퍼(410)의 입력은 입력 비트 스트림을 수신하기 위한 디코더(400)의 입력으로서 이용이능하다. 디블록킹 필터(465)의 제1 출력은 출력 화상을 출력하기 위한 디코더(400)의 출력으로서 이용이능하다.

변환이 비디오 콘텐츠 및 인코딩 파라미터들에 대해 선택적으로 적응될 수 있는 경우 이용이능한 잠재적인 압축 이득들이 존재한다는 점이 인지되었다. 따라서, 본 발명의 원리들에 따라, 비디오 인코딩 및 디코딩과 함께 이용될 콘텐츠-적응형 변환 선택을 위한 방법들 및 장치가 개시되고 설명된다. 또한, 어떤 변환들이 이용되어야 할지를 어떻게 가장 잘 선택할지에 관한 방법들이 기술된다. 변환 세트는 인코딩 프로세스 동안 유도된다. 변환들이 인코딩동안 유도되므로, 이들은 입력 비디오 시퀀스 및 코딩 파라미터들에 자동으로 적응되며, 더 높은 압축 성능을 제공할 수 있다.

종래 기술 방식들에 비해, 그리고 본 발명의 원리들의 하나 이상의 실시예들에 따라, 이용되는 변환들은 인코딩 프로세스 동안 이전에 인코딩되었던 화상들로부터 유도되는 정보를 이용하여 인코딩 프로세스동안 "실시간"으로 트레이닝된다. 비디오 신호가 장면 내의 인접한 화상들 사이에서 종종 유사하므로, 이전의 화상들을 이용하여 트레이닝된 변환들은 종종 현재 화상들에 대한 변환들과 매우 근접하다. 이전에 인코딩된 화상들을 이용함으로써, 트레이닝 프로세스는 입력 비디오 시퀀스 및 코딩 파라미터들의 특성들을 자동으로 고려한다.

도 5를 참조하면, 인코딩동안 업데이트되고 대응하는 디코더에 전송되는 변환들을 이용하여 화상을 인코딩하기 위한 예시적인 방법이 일반적으로 참조 번호(500)로 표시된다. 이 방법(500)은 기능 블록(520)에 제어를 전달하는 시작 블록(510)을 포함한다. 기능 블록(520)은 변환들의 세트를 초기화하고 루프 제한 블록(530)에 제어를 전달한다. 루프 제한 블록(530)은 (처리 중인) 현재 비디오 시퀀스에서 1 내지 화상들의 번호(#)까지의 범위를 가지는 변수 j를 이용하는 루프(이하, "루프(1)")를 개시하고, 루프 제한 블록(540)에 제어를 전달한다. 루프 제한 블록(540)은 처리 중인 현재 비디오 시퀀스에서 1 내지 블록들의 번호(#)까지의 범위를 가지는 변수 i를 이용하는 루프(이하, "루프(2)")를 개시하고, 기능 블록(550)에 제어를 전달한다. 기능 블록(550)은 (현재) 블록에 대한 최상의 변환을 선택하고, 기능 블록(560)에 제어를 전달한다. 기능 블록(560)은 화상 j 내의 블록 i를 인코딩하고 루프 제한 블록(570)에 제어를 전달한다. 루프 제한 블록(570)은 루프(2)를 종료하고 기능 블록(580)에 제어를 전달한다. 기능 블록(580)은 인코딩된 화상들로부터의 변환들을 업데이트하고, 업데이트된 변환들을 송신하고, 루프 제한 블록(590)에 제어를 전달한다. 루프 제한 블록(590)은 루프(1)를 종료하고, 종료 블록(599)에 제어를 전달한다. 기능 블록(580)에 대해, 변환들은, 예를 들어, 프레임 기반, 화상들의 그룹 기반 및/또는 장면 기반으로 업데이트될 수 있다. 또한, 기능 블록(580)에 대해, 변환들은 예를 들어, 이전에 인코딩된 화상들로부터 제공되는 정보 및 그 일부분에 기초하여 업데이트될 수 있다.

이 방법(500)에 대해, 변환들이 각각의 화상이 코딩된 이후 업데이트되도록, 변환 세트가 인코딩동안 트레이닝된다. 또한, 업데이트 프로세스는 계산상의 복잡도를 감소시키기 위해, 예를 들어, 화상들의 그룹(GOP) 또는 장면과 같은 몇몇 화상들 다음에 적용될 수 있다. 변환들을 업데이트하기 위해, 하나 이상의 코딩된 화상들이 이용될 수 있다. 이용될 이전에 코딩된 화상들의 분량(volume)은 인코더 및 디코더 모두에 알려진 일부 규칙들에 기초할 수 있거나, 또는 비트스트림 내에서 디코더에 전달되는 일부 다른 기준/기준들에 기초할 수 있다. 장면 변경에서 상기 변환들을 초기 변환들로 리셋하기 위해 특정 리셋 프로세스가 포함될 수 있다. 적절하게 기능하는 디코더에 대해, 변환들은 구체적으로 신택스에서 표시되며 비트스트림으로 전달된다.

도 6을 참조하면, 인코더로부터 수신되는 업데이트된 변환들을 이용하여 화상을 디코딩하기 위한 예시적인 방법이 일반적으로 참조 번호(600)로 표시된다. 이 방법(600)은 기능 블록(620)에 제어를 전달하는 시작 블록(610)을 포함한다. 기능 블록(620)은 변환들의 세트를 초기화하고, 루프 제한 블록(630)에 제어를 전달한다. 루프 제한 블록(630)은 (처리 중인) 현재 비디오 시퀀스에서 1 내지 화상들의 번호(#)까지의 범위를 가지는 변수 j를 이용하는 루프(이하, "루프(1)")를 개시하고, 기능 블록(640)에 제어를 전달한다. 기능 블록(640)은 비트스트림으로부터 변환들을 디코딩하고, 루프 제한 블록(650)에 제어를 전달한다. 루프 제한 블록(650)은 처리 중인 현재 화상에서 1 내지 블록들의 번호(#)까지의 범위를 가지는 변수 i를 이용하는 루프(이하, "루프(2)")를 개시하고, 기능 블록(660)에 제어를 전달한다. 기능 블록(660)은 (현재) 블록으로부터 변환을 디코딩하고, 기능 블록(670)에 제어를 전달한다. 기능 블록(670)은 화상 j 내의 블록 i를 디코딩하고, 루프 제한 블록(680)에 제어를 전달한다. 루프 제한 블록(680)은 루프(2)를 종료하고, 루프 제한 블록(690)에 제어를 전달한다. 루프 제한 블록(690)은 루프(1)를 종료하고, 종료 블록(699)에 제어를 전달한다.

이 방법(600)에 대해, 디코더는 각각의 화상에 대한 변환 세트를 유도하기 위해 비트스트림을 파싱한다. 이후, 각각의 블록에 대해, 디코더는 인코더에 의해 이용된 변환을 획득하고, 이후, 대응하는 역변환을 이용함으로써 비디오 신호를 재구성한다. 따라서, 방법(600)에서, 트레이닝된 변환들이 각각의 화상에 대해 수신된다.

그러나 변환들의 송신은 높은 오버헤드를 초래한다. 따라서, 변환들이 디코더에 송신되지는 않지만 대신 디코더가 어떤 변환들을 이용할지를 결정한 경우 디코더에서 업데이트되는 본 발명의 원리들의 또다른 실시예가 또한 개시된다.

도 7을 참조하면, 인코딩동안 업데이트되는 변환들을 이용하는 화상을 인코딩하기 위한 예시적인 방법이 일반적으로 참조 번호(700)로 표시된다. 이 방법(700)은 기능 블록(720)에 제어를 전달하는 시작 블록(710)을 포함한다. 기능 블록(720)은 변환들의 세트를 초기화하고, 루프 제한 블록(730)에 제어를 전달한다. 루프 제한 블록(730)은 (처리 중인) 현재 비디오 시퀀스에서 1 내지 화상들의 번호(#)까지의 범위를 가지는 변수 j를 이용하는 루프(이하, "루프 (1)")를 개시하고, 루프 제한 블록(740)에 제어를 전달한다. 루프 제한 블록(740)은 처리 중인 현재 비디오 시퀀스에서 1 내지 블록들의 번호(#)의 범위를 가지는 변수 i를 이용하는 루프(이하, "루프 (2)")를 개시하고, 기능 블록(750)에 제어를 전달한다. 기능 블록(750)은 (현재) 블록에 대한 최상의 변환을 선택하고, 기능 블록(760)에 제어를 전달한다. 기능 블록(760)은 화상 j 내의 블록 i을 인코딩하고, 루프 제한 블록(770)에 제어를 전달한다. 루프 제한 블록(770)은 루프(2)를 종료하고, 기능 블록(780)에 제어를 전달한다. 기능 블록(780)은 인코딩된 화상들로부터 변환들을 업데이트하고, 루프 제한 블록(790)에 제어를 전달한다. 루프 제한 블록(790)은 루프(1)를 종료하고, 종료 블록(799)에 제어를 전달한다. 기능 블록(780)에 대해, 변환들은, 예를 들어 프레임 기반, 화상들의 그룹 기반 및/또는 장면 기반으로 업데이트될 수 있다. 또한, 기능 블록(780)에 대해, 변환들은 예를 들어 이전에 인코딩된 화상들로부터 제공되는 정보, 또는 이전에 인코딩된 화상들로부터 제공되는 정보의 일부분에 기초하여 업데이트될 수 있다.

도 8을 참조하면, 디코딩동안 업데이트되는 변환들을 이용하여 화상을 디코딩하기 위한 예시적인 방법이 일반적으로 참조 번호(800)로 표시된다. 이 방법(800)은 기능 블록(820)에 제어를 전달하는 시작 블록(810)을 포함한다. 기능 블록(820)은 변환들의 세트를 초기화하고, 루프 제한 블록(830)에 제어를 전달한다. 루프 제한 블록(830)은 (처리 중인) 현재 비디오 시퀀스에서 1 내지 화상들의 번호(#)까지의 범위를 가지는 변수 j를 이용하는 루프(이하, "루프 (1)")를 개시하고, 루프 제한 블록(840)에 제어를 전달한다. 루프 제한 블록(840)은 (처리 중인) 현재 비디오 시퀀스에서 1 내지 블록들의 번호(#)까지의 범위를 가지는 변수 i를 이용하는 루프(이하, "루프 (2)")를 개시하고, 기능 블록(850)에 제어를 전달한다. 기능 블록(850)은 블록에 대한 변환들을 디코딩하고, 기능 블록(860)에 제어를 전달한다. 기능 블록(860)은 화상 j 내의 블록 i을 인코딩하고, 루프 제한 블록(870)에 제어를 전달한다. 루프 제한 블록(870)은 루프(2)를 종료하고, 기능 블록(880)에 제어를 전달한다. 기능 블록(880)은 변환들을 업데이트하고, 루프 제한 블록(890)에 제어를 전달한다. 루프 제한 블록(890)은 루프(1)를 종료하고, 종료 블록(899)에 제어를 전달한다. 기능 블록(880)에 대해, 변환들은 예를 들어 프레임 기반, 화상들의 그룹 기반 및/또는 장면 기반으로 업데이트될 수 있다. 또한, 기능 블록(880)에 대해, 변환들은, 예를 들어, 이전에 디코딩된 화상들로부터 제공되는 정보, 또는 이전에 디코딩된 화상들로부터 제공되는 정보의 일부분에 기초하여 업데이트될 수 있다.

또한, 많은 수의 변환들(및 역변환들)이 인코더 및 디코더에 이미 알려져 있는 본 발명의 원리들의 또다른 실시예가 개시된다. 각각의 화상에 대해, 변환들의 서브세트가 선택되고, 이들의 인덱스들이 디코더에 송신된다.

도 9를 참조하면, 인코딩동안 업데이트되는 변환들 및 대응하는 디코더에 전송되는 변환 인덱스들을 이용하여 화상을 인코딩하기 위한 예시적인 방법이 일반적으로 참조 번호(900)로 표시된다. 이 방법(900)은 기능 블록(920)에 제어를 전달하는 시작 블록(910)을 포함한다. 기능 블록(920)은 변환들의 큰 세트를 초기화하고, 루프 제한 블록(930)에 제어를 전달한다. 루프 제한 블록(930)은 (처리 중인) 현재 비디오 시퀀스에서 1 내지 화상들의 번호(#)까지의 범위를 가지는 변수 j를 이용하는 루프를 개시하고, 기능 블록(940)에 제어를 전달한다. 기능 블록(940)은 화상 j를 인코딩하고, 기능 블록(950)에 제어를 전달한다. 기능 블록(950)은 변환들을 트레이닝하고, 기능 블록(960)에 제어를 전달한다. 기능 블록(960)은 (변환들의 큰 세트로부터) 변환들의 서브세트를 선택하고, 기능 블록(970)에 제어를 전달한다. 기능 블록(970)은 변환들의 인덱스들을 송신하고, 루프 제한 블록(980)에 제어를 전달한다. 루프 제한 블록(980)은 루프를 종료하고, 종료 블록(999)에 제어를 전달한다. 기능 블록(970)에 대해, 변환들의 인덱스들은 예를 들어 하나 이상의 고레벨 신택스 엘리먼트들을 이용하여 송신될 수 있다.

이 방법(900)에 대해, 인코더는 변환 세트가 콘텐츠에 더욱 양호하게 매치될 수 있게 하기 위해 트레이닝된 변환들을 이용하여 변환들의 큰 세트를 업데이트한다. 트레이닝된 변환들에 근접한 변환들은 대응하는 디코더로 하여금 과중한(heavy) 오버헤드를 요구하지 않고 이러한 정보를 획득할 수 있게 하기 위해 자신의 인덱스들을 통해 표시된다. 이는 화상에 대해 선택할 차선의 변환들의 비용을 수반한다.

도 10을 참조하면, 대응하는 인코더로부터 수신되는 변환 인덱스들을 이용하여 화상을 디코딩하기 위한 예시적인 방법이 일반적으로 참조 번호(1000)로 표시된다. 이 방법(1000)은 기능 블록(1020)에 제어를 전달하는 시작 블록(1010)을 포함한다. 기능 블록(1020)은 변환들의 큰 세트를 초기화하고, 루프 제한 블록(1030)에 제어를 전달한다. 루프 제한 블록(1030)은 (처리 중인) 현재 비디오 시퀀스에서 1 내지 화상들의 번호(#)까지의 범위를 가지는 변수 j를 이용하는 루프(이하, "루프(1)")를 개시하고, 기능 블록(1040)에 제어를 전달한다. 기능 블록(1040)은 변환 인덱스들을 디코딩하고, 비트스트림으로부터 변환들을 획득하고, 루프 제한 블록(1050)에 제어를 전달한다. 루프 제한 블록(1050)은 처리 중인 현재 비디오 시퀀스에서 1 내지 블록들의 번호(#)까지의 범위를 가지는 변수 i를 이용하는 루프(이하, "루프(2)")를 개시하고, 기능 블록(1060)에 제어를 전달한다. 기능 블록(1060)은 블록에 대한 변환을 디코딩하고, 기능 블록(1070)에 제어를 전달한다. 기능 블록(1070)은 화상 j 내의 블록 i를 디코딩하고, 루프 제한 블록(1080)에 제어를 전달한다. 루프 제한 블록(1080)은 루프(2)를 종료하고, 루프 제한 블록(1090)에 제어를 전달한다. 루프 제한 블록(1090)은 루프(1)를 종료하고, 종료 블록(1099)에 제어를 전달한다. 기능 블록(1040)에 대해, 변환 인덱스들은 예를 들어 비트스트림 내의 하나 이상의 신택스 엘리먼트들로부터(그리고/또는 사이드 정보로부터) 디코딩될 수 있다.

도 11을 참조하면, 특이값 분해를 이용하여 인코더에서 변환들을 유도하기 위한 예시적인 방법이 일반적으로 참조 번호(1100)로 표시된다. 이 방법(1100)은 기능 블록(1120)에 제어를 전달하는 시작 블록(1110)을 포함한다. 기능 블록(1120)은 이전에 인코딩된 화상들로부터 트레이닝 데이터를 수집하고, 기능 블록(1130)에 제어를 전달한다. 기능 블록(1120)에 의해 수집된 데이터에 대해, 이러한 데이터는 넌-제로인 레시듀(residue) 또는 레시듀 부분을 포함할 수 있으며, 따라서, 동일한 변환이 현재 화상에 대해 이용될 수 있다. 기능 블록(1130)은 트레이닝 데이터에 특이값 분해(SVD)를 적용하고, 기능 블록(1140)에 제어를 전달한다. 기능 블록(1140)은 변환 기반을 계산할 수 있고, 종료 블록(1199)에 제어를 전달한다.

도 12를 참조하면, 특이값 분해를 이용하여 디코더에서 변환들을 유도하기 위한 예시적인 방법이 일반적으로 참조 번호(1200)로 표시된다. 이 방법(1200)은 기능 블록(1220)에 제어를 전달하는 시작 블록(1210)을 포함한다. 기능 블록(1220)은 이전에 디코딩된 화상들로부터 트레이닝 데이터를 수집하고, 기능 블록(1230)에 제어를 전달한다. 기능 블록(1230)은 트레이닝 데이터에 특이값 분해(SVD)를 적용하고, 기능 블록(1240)에 제어를 전달한다. 기능 블록(1240)은 변환 기반을 계산하고, 종료 블록(1299)에 제어를 전달한다.

신택스:

변환들의 세트는, 예를 들어, 하나 이상의 고레벨 신택스 엘리먼트들에서 특정될 수 있다. 본 발명인은 도 5의 방법(500)에 관한 실시예들에 대한 신택스를 정의하는 방법의 예를 제공한다. 표 1은 (방법(500)에 관련된) 본 발명의 원리들의 실시예에 따른, PPS(picture parameter set)에 대한 예시적인 신택스를 도시한다. 유사한 신택스 변경들이, 다양한 레벨들에 대해 다른 신택스 엘리먼트들에 적용될 수 있다. 이러한 예에서, 3가지 변환 사이즈들, 즉 4x4, 8x8 및 16x16이 고려된다. 각각의 블록 사이즈에 대해, 화상 파라미터 세트를 통해 변환들의 세트가 표시된다. N4, N8 및 N16은 각각 4x4, 8x8 및 16x16 변환들에 대한 세트들에서의 변환들의 번호들을 나타낸다.

표 1의 신택스 엘리먼트들 중 일부의 시맨틱(semantic)들은 다음과 같다:

transform _ selection _ present _ flag=1은 변환 선택이 화상 파라미터 세트에 존재함을 특정한다. transform_selection_present_flag=0은 변환 선택이 화상 파라미터 세트에 존재하지 않음을 특정한다.

transform _ basis _4x4[i][j]는 i번째 4x4 변환에 대한 j번째 변환 기반 엘리먼트의 값을 특정한다.

transform _ basis _8x8[i][j]는 i번째 8x8 변환에 대한 j번째 변환 기반 엘리먼트의 값을 특정한다.

transform _ basis _16x16[i][j]는 i번째 16x16 변환에 대한 j번째 변환 기반 엘리먼트의 값을 특정한다.

또한, 본 발명인은 도 9의 방법(900)에 관한 실시예에 대한 신택스를 정의하는 방법의 예를 제공한다. 표 2는 (방법(900)에 관련된) 본 발명의 원리들의 또다른 실시예에 따라, PPS에 대한 예시적인 신택스를 도시한다. 각각의 블록 사이즈에 대해, 화상 파라미터 세트를 통해 변환들의 인덱스들이 표시된다. 표시된 인덱스들에 대응하는 변환들이 인코더 및 디코더 모두에 알려진다.

표 2의 신택스 엘리먼트들의 일부의 시맨틱들은 다음과 같다:

transform _ basis _4x4_index[i]는 4x4 변환들에 대한 i번째 변환 기반의 인덱스를 특정한다.

transform _ basis _8x8[i]는 8x8 변환들에 대한 i번째 변환 기반의 인덱스를 특정한다.

transform _ basis _16x16[i]는 16x16 변환들에 대한 i번째 변환 기반의 인덱스를 특정한다.

화상에 대한 변환들의 세트를 결정하기 위한 방법:

인코딩될 데이터가 이용이능하거나 적절한 트레이닝 데이터 세트가 존재하는 경우, 변환들의 최적의 세트를 유도하기 위한 기법들이 존재한다. 이들 기법들은 일반적인 KLT, 희소 객체 함수 등에 기초할 수 있다. 본 발명의 원리들의 실시예에 따라, 본 발명인은 특이값 분해(SVD)를 이용하여 변환 세트를 유도하기 위한 방법을 제안한다. 물론, 본 발명의 원리들이 오직 SVD에만 제한되지는 않으며, 따라서, 변환 세트를 유도하기 위한 다른 방법들이 또한 본 발명의 원리들에 따라 이용될 수 있으며, 동시에 본 발명의 원리들의 사상 및 범위를 유지한다. 후속하는 예에서, 본 발명인은, 화상에 대해, 인코더가 2개의 변환들로부터 선택될 수 있으며, 상기 2개 변환들 중 하나는 DCT인 시나리오를 고려한다. 트레이닝 데이터를 수집하고, 화상에 대해 Tsvd로 표기되는, 화상 n에 대한 다른 변환을 생성할 필요가 있다.

화상에 대해 Tsvd를 트레이닝하기 위해, 이전에 코딩된 화상들로부터의 트레이닝 데이터 세트가, 변환으로서 Tsvd를 선택할 현재 화상의 레시듀와 유사하다는 점이 중요하다. 본 발명인은 트레이닝을 위해 레시듀의 오직 일부만을 이용할 것을 제안한다. 일 실시예에서, 전체 레시듀 데이터 중 이 부분은, 넌-제로이며 이전 화상에서 DCT를 선택하지 않는 레시듀일 수 있다. 이후, SVD 분해가 선택된 레시듀 블록들에 적용되어 변환 Tsvd.O를 생성한다. 도 5의 방법(500)에 대해, Tsvd,O는 Tsvd로서 이용되어 비트스트림으로 송신된다. 도 9의 방법(900)에 대해, Tsvd,0은 변환들의 큰 세트에서의 각각의 변환과 비교되며, 가장 근접한 변환이 현재 화상에 대한 Tsvd로서 이용된다. Tsvd의 인덱스가 비트스트림으로 송신된다.

이제 본 발명의 다수의 수반하는 장점들/특징들의 일부가 주어질 것이며, 이들 중 일부는 전술되었다. 예를 들어, 일 장점/특징은 변환을 이용하여 화상 내의 적어도 한 블록을 인코딩하는 비디오 인코더를 갖는 장치이다. 블록을 인코딩하는데 이용되는 변환은 복수의 변환으로부터 선택된다. 복수의 변환은 화상의 인코딩 동안에 적응적으로 업데이트된다.

또다른 장점/특징은 전술된 바와 같은 비디오 인코더를 갖는 장치이며, 여기서, 복수의 변환은 이전에 인코딩된 화상들로부터 제공되는 정보에 응답하여 적응적으로 업데이트된다.

또다른 장점/특징은 같은 비디오 인코더를 갖는 장치이며, 여기서, 복수의 변환은 전술된 바와 같은 이전에 인코딩된 화상들로부터 제공되는 정보에 응답하여 적응적으로 업데이트되며, 여기서, 이전에 인코딩된 화상들로부터 제공되는 정보의 일부만이 복수의 변환을 적응적으로 업데이트하는데 이용된다.

또다른 장점/특징은 같은 비디오 인코더를 갖는 장치이며, 여기서, 복수의 변환은 전술된 바와 같은 이전에 인코딩된 화상들로부터 제공되는 정보에 응답하여 적응적으로 업데이트되며, 여기서 특이값 분해 트레이닝이 복수의 변환을 적응적으로 업데이트하는데 이용된다.

또한, 또다른 장점/특징은 비디오 인코더를 갖는 장치이며, 여기서, 복수의 변환은 전술된 바와 같은 이전에 인코딩된 화상들로부터 제공되는 정보에 응답하여 적응적으로 업데이트되며, 여기서, 복수의 변환은 프레임 기반, 화상들의 그룹 기반 및 장면 기반 중 적어도 하나에 기초하여 적응적으로 업데이트된다.

또한, 또다른 장점/특징은 전술된 바와 같은 비디오 인코더를 갖는 장치이며, 여기서 선택된 변환은, 선택된 변환이 대응하는 디코더에 존재하지 않는 경우 대응하는 디코더에 전송되거나, 선택된 변환이 대응하는 디코더에 이미 존재하는 경우 대응하는 디코더에게 식별되거나, 또는 선택된 변환이 대응하는 디코더에 존재하지 않는 경우 대응하는 디코더에서 재생성된다.

또한, 또다른 장점/특징은 전술된 바와 같은 비디오 인코더를 갖는 장치이며, 여기서, 화상은 복수의 화상들을 가지는 시퀀스에 포함되고, 여기서 복수의 변환 및 대응하는 복수의 역변환은 비디오 인코더 및 대응하는 디코더 모두에 알려져 있으며, 복수의 변환 및 복수의 역변환 중 적어도 하나의 서브세트는 복수의 화상들 각각에 대해 선택된다.

추가로, 또다른 장점/특징은 비디오 인코더를 갖는 장치이며, 여기서 화상은 복수의 화상들을 가지는 비디오 시퀀스에 포함되며, 여기서, 복수의 변환 및 대응하는 복수의 역변환은 비디오 인코더 및 대응하는 디코더 모두에 알려져 있으며, 복수의 변환 및 복수의 역변환 중 적어도 하나의 서브세트는 전술된 바와 같이 복수의 화상 각각에 대해 선택되며, 여기서, 서브세트의 인덱스들이 하나 이상의 고레벨 신택스 엘리먼트들을 이용하여 대응하는 비트스트림으로 전송된다.

또한, 또다른 장점/특징은 비디오 인코더를 갖는 장치이며, 여기서 화상은 복수의 화상들을 가지는 비디오 시퀀스에 포함되며, 여기서, 복수의 변환 및 대응하는 복수의 역변환은 비디오 인코더 및 대응하는 디코더 모두에 알려져 있으며, 복수의 변환 및 복수의 역변환 중 적어도 하나의 서브세트는 전술된 바와 같이 복수의 화상들 각각에 대해 선택되며, 복수의 변환은 적응적으로 업데이트되어 트레이닝된 복수의 변환을 획득하고, 여기서, 서브세트의 선택은 복수의 변환 및 트레이닝된 복수의 변환에 기초한다.

또한, 또다른 장점/특징은 비디오 인코더를 갖는 장치이며, 여기서 화상은 복수의 화상들을 가지는 비디오 시퀀스에 포함되며, 여기서, 복수의 변환 및 대응하는 복수의 역변환은 비디오 인코더 및 대응하는 디코더 모두에 알려져 있으며, 복수의 변환 및 복수의 역변환 중 적어도 하나의 서브세트는 전술된 바와 같이 복수의 화상들 각각에 대해 선택되며, 여기서, 복수의 변환은 이전에 인코딩된 화상으로부터 제공되는 정보에 응답하여 적응적으로 업데이트된다.

본 발명의 원리들의 이들 및 다른 특징들 및 장점들은 여기서의 교시들에 기초하여 관련 기술 분야의 당업자에 의해 용이하게 확인될 수 있다. 본 발명의 원리들의 교시들이 다양한 형태들의 하드웨어, 소프트웨어, 펌웨어, 특수 목적 프로세서들, 또는 이들의 조합에서 구현될 수 있다는 점이 이해되어야 한다.

가장 바람직하게는, 본 발명의 원리들의 교시들이 하드웨어와 소프트웨어의 조합으로서 구현된다. 또한, 소프트웨어는 프로그램 저장 유닛 상에 실재적으로 포함되는 애플리케이션 프로그램으로서 구현될 수 있다. 애플리케이션 프로그램은, 임의의 적절한 아키텍쳐를 포함하는 머신에 업로드되고, 상기 머신에 의해 실행될 수 있다. 바람직하게는, 머신은 하나 이상의 중앙 처리 장치("CPU"), 랜덤 액세스 메모리("RAM"), 및 입력/출력("I/O") 인터페이스들과 같은 하드웨어를 가지는 컴퓨터 플랫폼 상에서 구현된다. 컴퓨터 플랫폼은 또한 운영 체제 및 마이크로명령 코드를 포함할 수 있다. 여기서 기술된 다양한 프로세스들 및 기능들은, CPU에 의해 실행될 수 있는, 마이크로명령 코드의 일부분 또는 애플리케이션 프로그램의 일부분, 또는 이들의 임의의 조합일 수 있다. 추가로, 다양한 다른 주변 유닛들이 추가적인 데이터 저장 유닛 및 프린트 유닛과 같은 컴퓨터 플랫폼에 접속될 수 있다.

첨부 도면들에서 도시된 구성 시스템 컴포넌트들 및 방법들 중 일부가 바람직하게는 소프트웨어로 구현되므로, 시스템 컴포넌트들과 프로세스 기능 블록들 사이의 실제 접속들은 본 발명의 원리들이 프로그래밍되는 방식에 따라 달라질 수 있다는 점이 추가로 이해되어야 한다. 여기서의 교시들이 주어지면, 관련 기술분야의 당업자는 본 발명의 원리들의 이들 및 유사한 구현들 또는 구성들을 참작할 수 있을 것이다.

예시된 실시예들이 첨부 도면들을 참조하여 여기서 기술되었지만, 본 발명의 원리들이 상기 정확한 실시예들에 제한되지 않으며, 다양한 변경들 및 수정들이 본 발명의 원리들의 범위 또는 사상에서 벗어나지 않고 관련 기술 분야의 당업자에 의해 여기서 실행될 수 있다는 점이 이해되어야 한다. 모든 이러한 변경들 및 수정들은 첨부된 청구항들에서 설명되는 바와 같은 본 발명의 원리들의 범위 내에 있는 것으로 의도된다.

Claims

장치로서,
변환(transform)을 이용하여 화상 내의 적어도 한 블록을 인코딩하는 비디오 인코더(300)를 포함하고,
상기 블록을 인코딩하는데 이용되는 상기 변환은 복수의 변환으로부터 선택되고,
상기 복수의 변환은 상기 화상의 인코딩 동안에 장면의 하나 이상의 이전에 인코딩된 화상들을 사용해서 상기 장면에 기초하여 적응적으로(adaptively) 업데이트되어 복수의 적응적으로 업데이트된 변환을 획득하고,
리셋 프로세스가 사용되어 장면 변경에서 상기 복수의 적응적으로 업데이트된 변환이 상기 복수의 변환으로 되돌아가도록 리셋하는,
장치.
비디오 인코더에서의 방법으로서,
변환을 이용하여 화상 내의 적어도 한 블록을 인코딩하는 단계를 포함하고,
상기 블록을 인코딩하는데 이용되는 상기 변환은 복수의 변환으로부터 선택되고,
상기 복수의 변환은 상기 화상의 인코딩 동안에 장면의 하나 이상의 이전에 인코딩된 화상들을 사용해서 상기 장면에 기초하여 적응적으로 업데이트되어 복수의 적응적으로 업데이트된 변환을 획득하고,
리셋 프로세스가 사용되어 장면 변경에서 상기 복수의 적응적으로 업데이트된 변환이 상기 복수의 변환으로 되돌아가도록 리셋하는(520, 550, 560, 580),
방법.
제2항에 있어서,
상기 선택된 변환은, 상기 선택된 변환이 대응하는 디코더에 존재하지 않는 경우 상기 대응하는 디코더에 전송되는(580)
방법.
삭제
삭제
삭제
삭제
삭제
삭제
제2항에 있어서,
상기 화상은 복수의 화상을 갖는 비디오 시퀀스에 포함되고, 상기 복수의 변환 및 대응하는 복수의 역변환은 상기 비디오 인코더 및 상기 비디오 인코더에 대응하는 비디오 디코더 모두에 알려져 있고, 상기 복수의 변환 및 상기 복수의 역변환 중 적어도 하나의 서브세트는 상기 복수의 화상 각각에 대해 선택되는(960, 1040),
방법.
제10항에 있어서,
상기 서브세트의 인덱스들은 하나 이상의 고레벨 신택스 엘리먼트를 이용하여 대응하는 비트스트림으로 전송되거나 또는 수신되는(970, 1040)
방법.
제10항에 있어서,
상기 복수의 변환은 적응적으로 업데이트되어 트레이닝된 복수의 변환을 획득하고, 상기 서브세트의 선택은 상기 복수의 변환 및 상기 트레이닝된 복수의 변환에 기반하는
방법.
제10항에 있어서,
상기 복수의 변환은 이전에 인코딩된 화상들 또는 이전에 디코딩된 화상들로부터 제공되는 정보에 응답하여 적응적으로 업데이트되는(580, 880)
방법.
인코딩된 비디오 신호 데이터를 갖는 컴퓨터 판독가능 저장 매체로서,
변환을 이용하여 인코딩되는 화상 내의 적어도 한 블록을 포함하고,
상기 블록을 인코딩하는데 이용되는 상기 변환은 복수의 변환으로부터 선택되고,
상기 복수의 변환은 상기 화상의 인코딩 동안에 장면의 하나 이상의 이전에 인코딩된 화상들을 사용해서 상기 장면에 기초하여 적응적으로 업데이트되어 복수의 적응적으로 업데이트된 변환을 획득하고,
리셋 프로세스가 사용되어 장면 변경에서 상기 복수의 적응적으로 업데이트된 변환이 상기 복수의 변환으로 되돌아가도록 리셋하는,
컴퓨터 판독가능 저장 매체.
제2항에 있어서,
상기 복수의 변환은 이전에 인코딩된 화상들로부터 제공되는 정보에 응답하여 적응적으로 업데이트되는(780),
방법.
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제