KR20170044169A - 비디오 구성 - Google Patents

비디오 구성 Download PDF

Info

Publication number
KR20170044169A
KR20170044169A KR1020177007616A KR20177007616A KR20170044169A KR 20170044169 A KR20170044169 A KR 20170044169A KR 1020177007616 A KR1020177007616 A KR 1020177007616A KR 20177007616 A KR20177007616 A KR 20177007616A KR 20170044169 A KR20170044169 A KR 20170044169A
Authority
KR
South Korea
Prior art keywords
video data
data stream
pictures
video
picture
Prior art date
Application number
KR1020177007616A
Other languages
English (en)
Other versions
KR102037158B1 (ko
Inventor
야고 산체스 드 라 푸엔테
로버트 스큐핀
토마스 쉬를
Original Assignee
프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. filed Critical 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Publication of KR20170044169A publication Critical patent/KR20170044169A/ko
Application granted granted Critical
Publication of KR102037158B1 publication Critical patent/KR102037158B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/40Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video transcoding, i.e. partial or full decoding of a coded input stream followed by re-encoding of the decoded output stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/13Adaptive entropy coding, e.g. adaptive variable length coding [AVLC] or context adaptive binary arithmetic coding [CABAC]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/157Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
    • H04N19/159Prediction type, e.g. intra-frame, inter-frame or bidirectional frame prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/31Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability in the temporal domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • H04N19/436Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation using parallelised computational arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/48Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using compressed domain processing techniques other than decoding, e.g. modification of transform coefficients, variable length coding [VLC] data or run-length data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • H04N21/4312Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/174Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a slice, e.g. a line of blocks or a group of blocks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/177Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a group of pictures [GOP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Image Processing (AREA)
  • Television Signal Processing For Recording (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

비디오 구성은 수집 및 카피에 의해 구성된 비디오 데이터 스트림의 일부, 및 모션-보상된 시간적 예측을 통해, 수집 및 카피에 의해 획득된 구성된 비디오 데이터 스트림의 다른 부분을 참조함으로써 합성적으로 추가된 다른 부분을 채움으로써 수행된다.

Description

비디오 구성{VIDEO COMPOSITION}
본 출원은 하나의 또는 복수의 입력 비디오 데이터 스트림들을 사용하여 구성된 비디오 데이터 스트림을 구성하는 것과 같은 비디오 구성에 관한 것이다.
비디오 회의, 비디오 감시, 의료 애플리케이션들, 파노라마 스트리밍, 광고 삽입, 픽처 인 픽처 디스플레이 또는 비디오 오버레이와 같은 다수의 애플리케이션들 및 사용 사례들이 존재하고, 여기서 몇몇 전용 비디오 비트스트림들이 동시에 디코딩되고 구성된 형식으로 사용자에게 표시된다. 이러한 애플리케이션들에 대한 예시적인 예는 다수의 비디오 소스들이 사용자에게 제시되는 교통 감시 시스템이다. 이러한 애플리케이션들에 대한 문제점은 많은 디바이스들이 단일 하드웨어 비디오 디코더만을 통합하거나 그렇지 않으면 계산, 전력 및/또는 다른 자원들에서 제한된다는 점이다. 이러한 디바이스들의 예들은 셋톱 박스(STB)들, 저렴한 TV 세트들 또는 배터리 구동 모바일 디바이스들이다.
이러한 디바이스들에서 상기 애플리케이션들 및 사용 사례들을 가능하게 하기 위해, 몇몇 전용 비디오 비트스트림들을 통합하는 단일 비디오 비트스트림이 선행으로 생성되어야 한다. 이러한 단일 비디오 비트스트림을 달성하기 위해, 상이한 비디오 비트스트림들이 단일 비트스트림으로 트랜스코딩되는 픽셀-도메인 비디오 프로세싱(예를 들어, 스티칭, 병합 또는 믹싱과 같은 구성)이 통상적으로 적용된다. 트랜스코딩은 캐스케이드된(cascaded) 비디오 디코더 및 인코더를 사용하여 구현될 수 있고, 이는 착신 비트스트림들을 디코딩하고, 픽셀-도메인의 입력 비트스트림들로부터 새로운 비디오를 구성하고, 새로운 비디오를 단일 비트스트림으로 인코딩하는 것을 수반한다. 이 방법은 또한 미압축된 도메인에서의 프로세싱을 포함하는 종래의 풀(full) 트랜스코드로 지칭될 수 있다. 그러나, 이는 다수의 단점들을 갖는다. 첫째로, 비디오 정보의 반복된 인코딩은 코딩 아티팩트(artifact)들을 통해 추가적인 신호 품질 저하를 도입시킬 수 있다. 둘째로 더 중요하게는, 풀 트랜스코딩은 착신 및 발신 비디오 비트스트림들의 다중 디코딩 및 인코딩을 통해 계산적으로 복잡하고, 따라서 양호하게 스케일링되지 않는다.
따라서, 다른 접근법이 [1]에 제시되었고, 여기서 비디오 스티칭은 압축된 도메인에서 수행된다. [1]의 주 아이디어는, 인코더들에서의 제약들, 예를 들어, 일부 모션 벡터 뿐만 아니라 픽처 경계들의 모션 벡터 예측을 허용하지 않는 것을 설정하고, 이는, 혼합되도록 의도되는 모든 비디오들을 포함하는 단일 비트스트림을 생성하기 위해 상이한 비트스트림들에 적용될 수 있은 낮은 복잡도의 비트스트림 재작성 프로세스를 허용한다. 이러한 스티칭 접근법은 마찬가지로 풀 트랜스코딩보다 계산적으로 덜 복잡하지만 신호 품질 저하를 도입시키지 않는다.
이러한 시스템에 대한 예시는 클라우드 서버 인프라구조를 사용하는 비디오 감시 시스템에 대한 도 23에 도시되어 있다. 볼 수 있는 바와 같이, 다수의 비디오 비트스트림들(900a-d)은 상이한 전송기들(902a-d)에 의해 전송되고 단일 비디오 비트스트림(906)을 생성하기 위해 클라우드 믹서(904)에서 스티칭된다.
적용된 스티칭 프로세스의 기술들에 대한 더 상세한 설명은 [1]에서 발견될 수 있다.
압축 도메인 프로세싱은 많은 애플리케이션들 및 사용 사례들에 적용되어, 낮은 복잡도의 비디오 프로세싱을 허용하고, 배터리 수명 및/또는 구현 비용을 절감할 수 있다. 그러나, 각 애플리케이션의 특성들은 압축된 도메인 비디오 프로세싱에 개별적인 문제점들을 제기한다. 마찬가지로 비디오 압축 표준/방식의 특성들 및 특징들은 새로운 애플리케이션들에 대해 낮은 복잡도의 압축 도메인 프로세싱을 가능하게 하기 위해 활용될 수 있다.
도 23의 인코딩된 도메인 스티칭 방식을 이용하여 충분히 처리되지 않는 문제점들은, 예를 들어, 인바운드 비디오 비트스트림들(900a-d)로부터 단일 비디오 비트스트림(906)을 구성하는 방식이, 예를 들어, 구성된 비디오 비트스트림(906) 내의 인바운드 비디오 비트스트림들의 재배열, 구성된 비디오 비트스트림(906) 픽처 영역 내에서의 특정 입력 비디오 비트스트림의 공간적 변위 등과 같은 변화들을 겪을 경우에 발생한다. 이러한 사례들 모두에 대해, 도 23의 구성 방식은, 인바운드 비디오 비트스트림들(900a 내지 900d)의 개별적인 픽처들을 서로 일시적으로 묶는 시간적 모션 보상 예측으로 인해 적절히 작동하지 않아서, 디코딩된/미압축된 도메인을 통한 우회를 사용하지 않는 인바운드 비디오 비트스트림의 재배열에서는 임의의 시간적 모션 보상 예측을 사용하지 않는 인트라 픽처들에 의해 표현되는 인바운드 비디오 스트림의 랜덤 액세스 포인트들을 제외하고는 금지되고, 이는 비트레이트 및 대역폭 피크들의 바람직하지 않은 일시적인 증가를 초래한다. 따라서, 임의의 추가적인 노력없이는, 압축된 도메인을 벗어남이 없이 출력 비디오 비트스트림(906)의 구성을 변경하는 자유는 임의의 시간적 모션 보상 예측을 사용하지 않는 인바운드 비디오 비트스트림의 랜덤 액세스 포인트들에 의해 단지 특정 시점들에서만 발생하도록 제한될 것이다. 그러나, 인바운드 비디오 비트스트림들(900a-900d) 내의 이러한 랜덤 액세스 포인트들의 높은 빈도는 인트라 예측된 픽처들에서 시간적 예측기들의 부족으로 인해 더 낮은 압축 레이트를 수반한다.
따라서, 본 발명의 목적은 낮은 계산 노력으로 구성된 비디오 데이터 스트림의 구성에서 더 큰 자유를 허용하는 하나의 또는 복수의 입력 비디오 데이터 스트림들을 사용하여 구성된 비디오 데이터 스트림을 구성하기 위한 개념을 제공하는 것이다.
이러한 목적은 계류중인 독립항들의 요지에 의해 달성된다.
본 출원의 제 1 양상에 따르면, 적어도 하나의 입력 비디오 데이터 스트림을 사용하여 구성된 비디오 데이터 스트림이 구성되고, 여기서 구성된 비디오 데이터 스트림 및 적어도 하나의 입력 비디오 데이터 스트림은 모션 보상된 시간적 예측을 사용하여 인코딩되고, 비디오 구성은, 적어도 하나의 입력 비디오 데이터 스트림의 모션 보상된 사이드 정보 및 예측 잔여 데이터를 수집 및 카피함으로써 승계된 픽처들의 공간적 부분을 채워서 구성된 비디오 데이터 스트림의 승계된 픽처들의 시퀀스를 형성하는 것 - 여기서 공간적 부분의 공간적 위치는 승계된 픽처들의 시퀀스에서 하나의 승계된 픽처로부터 다음 승계된 픽처로 시간적으로 변함 -; 및 승계된 픽처들의 시퀀스의 승계된 픽처들 사이의 구성된 비디오 데이터 스트림에 적어도 하나의 출력없는 픽처를 삽입하는 것에 의해 수행되고, 적어도 하나의 출력없는 픽처는 모션 보상된 시간적 예측을 통해 승계된 픽처들의 서브세트를 참조한다. 이러한 양상에 따르면, 공간적 부분의 공간적 위치의 시간적 변화는 승계된 픽처들 사이에 적어도 하나의 출력없는 픽처를 삽입함으로써 계산 복잡도 관점에서 완화된다. 이를 사용하면, 압축된 도메인을 떠날 필요성이 회피되고, 적어도 하나의 입력 비디오 데이터 스트림의 픽처들 사이의 "미스-레퍼런싱(miss-referencing)"은 적어도 하나의 출력없는 픽처를 이용하여 회피될 수 있고, 이를 사용하면, 공간적 위치들이 변하기 전 및 후의 적어도 하나의 입력 비디오 데이터 스트림의 픽처를 각각 "재등록"하는 것이 실현가능하다.
본 출원의 추가적인 양상에 따르면, 복수의 입력 비디오 데이터 스트림들로부터 구성된 비디오 데이터 스트림을 구성하기 위한 개념은, 복수의 입력 비디오 데이터 스트림들의 모션 보상 사이드 정보 및 예측 잔여 데이터를 수집하고 이를 구성된 비디오 데이터 스트림에 카피함으로써 구성된 비디오 데이터 스트림의 픽처들의 제 1 부분에 복수의 입력 비디오 데이터 스트림들을 멀티플렉싱하는 것 및 모션 보상된 시간적 예측을 통해, 구성된 비디오 데이터 스트림의 제 1 부분을 참조함으로써, 구성된 비디오 데이터 스트림의 픽처들의 제 2 부분을 수집된 비디오로 채우는 것을 포함하고, 여기서 제 1 부분은 출력되지 않도록 시그널링되고 제 2 부분은 출력되도록 시그널링된다. 제 1 양상의 아이디어에 따라, 본 출원의 제 2 양상에 따른 비디오 구성은 수집 및 카피에 의해 채워진 구성 비디오 데이터 스트림의 일부와, 모션 보상된 시간적 예측을 통해, 수집 및 카피에 의해 획득된 구성된 비디오 데이터 스트림의 다른 부분을 참조함으로써 합성적으로 추가된 다른 부분 사이를 분리시킨다. 그러나, 제 2 양상에 따르면, 제 2 부분은 실제 수집된 비디오를 형성하고, 출력되도록 시그널링된다. 제 1 부분은 단순히 참조 픽처 컨텐츠의 일종의 저장소를 표현하고, 이에 기초하여, 모션 보상된 시간 예측을 사용하여 구성된 비디오 데이터 스트림의 제 1 부분의 특정한 하위 부분을 참조함으로써 픽처 컨텐츠가 선택적으로 구성될 수 있다.
따라서, 하나의 또는 복수의 입력 비디오 데이터 스트림들에 기초하여 수행된 비디오 구성은, 비디오의 표현 영역에 걸쳐 인바운드 비디오 데이터 스트림을 재배열할 필요가 없는 또는 복수의 입력 비디오 데이터 스트림들을 병렬적으로 디코딩할 필요가 없는 표준 비디오 디코더에 의해 디코딩될 수 있는 구성 비디오 데이터 스트림을 도출한다. 오히려, 비디오 구성은 트랜스코딩의 작업을 가정하고, 이러한 트랜스코딩은 하나의 또는 복수의 입력 비디오 데이터 스트림들에 관하여 압축/인코딩된 도메인을 남기는 것을 회피하여 합리적인 양으로 계산 노력을 유지한다.
본 출원의 유리한 양상들은 종속항들의 요지이며 본 출원의 바람직한 실시예들은 도면들과 관련하여 아래에 설명된다.
도 1은 일 실시예에 따른 적어도 하나의 입력 비디오 데이터 스트림 및 구성된 비디오 데이터 스트림의 개략적 표현과 함께 비디오 구성 장치의 개략적인 블록도를 도시한다.
도 2는 일 실시예에 따라, 입력 비디오 데이터 스트림의 픽처의 모션 보상 사이드 정보 및 예측 잔여 데이터를 수집 및 카피함으로써 승계된 픽처의 공간적 부분을 채우는 프로세스를 예시하기 위해 인바운드 비디오 데이터 스트림의 픽처와 함께 승계된 픽처의 개략도를 도시한다.
도 3은 본 출원의 실시예들에 따라, 출력없는 픽처의 공간적 부분을 구성/코딩할 때의 가능성을 예시하기 위해, 픽처의 공간적 부분 내에서 참조 픽처, 출력없는 픽처 대체물 및 구성된 비디오 데이터 스트림을 운반하는 승계된 픽처와 함께 삽입된 출력없는 픽처를 예시하는 개략도를 도시한다.
도 4는 구성된 비디오 데이터 스트림의 출력없는 픽처의 우회를 통해, 픽처의 공간적 부분으로부터, 지금까지의 참조 픽처의 공간적 부분을 참조하는 승계된 픽처의 개략도를 도시한다.
도 5는 비디오 구성 장치를 사용하고 하나 이상의 비디오 인코더들(70)을 더 포함하는 시스템의 개략도를 도시하며, 시스템은 구성된 비디오 데이터 스트림을 디코더에 출력하는 것으로 도시된다.
도 6은 파노라마 스트리밍 애플리케이션을 도시한다.
도 7은 위치 변화로 인한 실패된 시간적 참조를 도시한다.
도 8은 생성된 참조 픽처 개념의 예시를 도시한다.
도 9는 비디오 회의 상황의 GRP를 도시한다.
도 10은 원격 제어 차량으로부터의 360도 파노라마를 도시한다.
도 11은 일 실시예에 따른 복수의 입력 비디오 데이터 스트림들 및 구성된 비디오 데이터 스트림의 개략적 표현과 함께 비디오 구성 장치의 개략적인 블록도를 도시한다.
도 12는 구성된 비디오 데이터 스트림의 참조 부분으로부터 카피하는 모션/예측 벡터들을 예시하는 점선 화살표들과 함께, 구성된 비디오 데이터 스트림의 수집된 비디오 부분의 SLCP의 개략도를 도시한다.
도 13은 백-투-백 참조 접근법의 예시를 도시한다.
도 14은 스티칭된 참조 접근법의 예시를 도시한다.
도 15는 출력없는 접근법을 사용하여 상이한 공간적 차원들의 스티칭된 참조들을 갖는 SLCP의 개략도를 도시한다.
도 16은 시각적 리샘플링을 위한 더미 사용의 예시를 도시한다.
도 17은 B2B 참조들을 갖는 SLCP의 예시를 도시한다.
도 18a 내지 도 18b는 스티칭된 참조들을 갖는 SLCP의 예시를 도시한다.
도 19는 가중 예측을 통한 알파 블렌딩을 갖는 SLCP를 도시한다.
도 20은 가변 예측 벡터들을 통한 리샘플링을 사용하는 SLCP를 도시한다.
도 21은 반복적 리샘플링에 대한 다중 단계 SLCP를 도시한다.
도 22는 SEI 메시지의 형태인 각각의 시그널링을 예시적으로 설명한다.
도 23은 비디오 믹싱에 대한 통상적인 시스템 아키텍처를 도시하며, 여기서는 교통 비디오 감시를 예시적으로 도시한다.
도 1은 본 출원의 일 실시예에 따른 비디오 구성 장치를 도시한다. 도 1의 비디오 구성 장치는 본 출원의 일 양상에 따라 비디오 구성을 수행하고, 이 양상에 따르면, 출력없는 픽처들이 구성된 비디오 데이터 스트림에 삽입되어 공간적 부분의 시간적 위치에서의 시간적 변화를 허용하고, 공간적 부분은, 시간적 변화 전에 공간적 부분의 공간적 위치를 디스플레이하는 참조 픽처들을, 구성된 비디오 데이터 스트림을 디코딩하는 디코더의 디코딩된 픽처 버퍼에서의 시간적 변화 이후 공간적 부분의 공간적 위치 디스플레이하는 참조 픽처들로 대체하는 출력없는 픽처들의 삽입에 의해, 특정 입력 비디오 데이터의 모션 보상된 사이드 정보 및 예측 잔여 데이터를 수집 및 카피함으로써 채워진다.
도 1의 비디오 구성 장치는 일반적으로 참조 부호(10)를 사용하여 표시되고, 입력 비디오 데이터 스트림(14)을 수신하기 위한 입력(12) 및 구성된 비디오 데이터 스트림(18)을 출력하기 위한 출력(16)을 포함한다. 구성된 비디오 데이터 스트림(18) 및 입력 비디오 데이터 스트림(14)은 모션 보상된 시간적 예측을 사용하여 인코딩된다. 이들은 예를 들어, HEVC, VP9 또는 일부 다른 비디오 인코딩 방식을 사용하여 인코딩될 수 있다. 아래에서 더 상세히 설명될 바와 같이, 비디오 구성 장치(10)는 낮은 계산 노력으로 그리고 입력 비디오 데이터 스트림(14)이 관련되는 한 압축된/인코딩된 도메인 내에 남아있는 구성된 비디오 데이터 스트림(18)을 생성 또는 구성할 수 있다.
아래에서 더 상세하게 설명되는 방식으로, 도 1의 비디오 구성 장치는, 구성된 비디오 데이터 스트림을 디코딩할 때 입력 비디오 데이터 스트림(14)에 의해 표현된 비디오가 구성된 비디오 데이터 스트림(18)의 픽처들 내의 자신의 공간적 위치를 시간적으로 변경하는 공간적 부분(20)에 디스플레이되도록 구성된 비디오 데이터 스트림(18)을 생성할 수 있다. 예를 들어, 입력 비디오 데이터 스트림(14)의 픽처들은 n × m 샘플 폭과 같은 제 1 크기인 한편, 구성된 비디오 데이터 스트림(18)의 픽처들은 제 1 크기보다 큰 제 2 크기, 예를 들어, N × M 샘플 폭이고, n < N 및/또는 m < M이고, n < N 및 m < M인 것이 도 1에 예시되어 있다. 도 1의 예에 따르면, 입력 비디오 데이터 스트림(14)의 컨텐츠가 있는 공간적 부분(20)은 제 1 크기, 즉, n × m 폭이지만, 비디오 구성 장치(10)가 구성 비디오 데이터 스트림(18)의 공간적 부분(20) 내에 단지 입력 비디오 데이터 스트림(14)의 특정한 고정된 공간적 서브-부분만을 도시한다는 점에서 도 1의 예는 수정될 수 있다.
도 1의 비디오 구성 장치(10)의 동작 모드의 이해를 용이하게 하기 위해, 도 1은 입력 비디오 데이터 스트림(14)의 픽처들의 시퀀스(22)의 예시적인 부분을 도시한다. 도 1에 예시적으로 도시된 픽처들(22)은 데이터 스트림(14)에서 자신들의 코딩 순서에 따라 연속적인 화살표들(24)을 사용하여 0에서 7까지 넘버링된다. 도 1은 모션 보상된 시간적 예측, 즉, 어떤 픽처(22)가 모션 보상된 시간적 예측을 통해 어떤 픽처를 참조 하는지를 이용하여 픽처들(22) 사이의 상호의존성을 예시한다. 즉, 화살표(24)가 포인팅하는 임의의 픽처(22)는 각각의 화살표들이 시작되는 픽처의 참조 픽처를 표현한다. 예를 들어, 번호 1을 갖는 픽처(22)는 번호 2 및 4를 갖는 픽처(22)의 참조 픽처를 표현한다. 모션 보상된 시간적 예측은 각각의 모션 보상 사이드 정보에 의해 입력 비디오 데이터 스트림(14) 내에서 제어되고, 이에 추가로, 입력 비디오 데이터 스트림(14)은 모션 보상된 시간적 예측을 이용하여 예측을 정정하기 위한 예측 잔여 데이터를 포함한다. 예를 들어, 모션 보상된 사이드 정보는 각각의 참조 픽처의 블록들에 대한 모션 벡터들을 포함할 수 있고, 예측 잔여 데이터는 또한 예를 들어 변환 코딩을 사용하여, 예를 들어, DCT 등과 같은 스펙트럼 분해 변환을 사용하여 블록별로 인코딩될 수 있어서, 예측 잔여 데이터는 예를 들어 변환 계수들을 포함할 수 있다. 각각의 픽처(22)에 대한 입력 비디오 데이터 스트림(14)에 존재하는 모션 보상 사이드 정보 및 예측 잔여 데이터는 예를 들어, 가변 길이 코딩 및/또는 산술 코딩을 사용하여 엔트로피 인코딩된 형태로 데이터 스트림에 존재할 수 있다. 특히, 특정 픽처(22)에 대한 모션 보상 사이드 정보 및 예측 잔여 데이터는, 예를 들어 각각의 픽처(22)를 횡단하는 어떠한 코딩 순서에 따라 각각의 픽처(22)가 공간적으로 세분화될 수 있는 하나 이상의 슬라이스 패킷들의 형태로 데이터 스트림(14)에 존재할 수 있다.
구성된 비디오 데이터 스트림(18)에 관한 한, 도 1은 입력 비디오 데이터 스트림(14)의 시간적으로 대응하는 부분이 도 1에 도시된 번호 0 내지 7을 갖는 픽처들(22)로 이루어져 디스플레이되는, 이러한 구성된 비디오 데이터 스트림(18) 중의 픽처들의 시퀀스(26)의 단편을 예시한다. 예시를 위해, 도 1은 비디오 데이터 스트림(14)의 컨텐츠가 디스플레이되는 공간적 부분(20)을 비디오 구성 장치(10)가 그 시간 동안 그의 공간적 위치의 관점에서 한번 변경하는 것을 도시하지만, 비디오 구성 장치(10)는 구성된 비디오 데이터 스트림(18)의 전체 또는 이의 임의의 시퀀스에 관해서도 공간적 부분(20)의 공간적 위치를 시간적으로 단지 한번 변경하는 것으로 제한되지 않음을 주목해야 한다.
데이터 스트림(18)의 픽처들(26) 내의 공간적 부분(20)의 공간적 위치를 변경할 때 앞서 간략하게 요약된 문제점들을 피하기 위해, 비디오 구성 장치(10)는 다음과 같이 동작한다.
도 1의 화살표(28)를 사용하여 예시적으로 표시된 시간적 순간인 공간적 부분(20)의 공간적 위치에서의 변경 전에, 비디오 구성 장치(10)는 입력 비디오 데이터 스트림(14)의 대응하는 픽처들(22)로부터 데이터를 단순히 승계함으로써 구성된 비디오 데이터 스트림(18)의 픽처들(26)을 형성한다. 더 정확하게는, 도 1의 예에서, 입력 비디오 데이터 스트림(14)의 도 1에 도시된 처음 3 개의 픽처들(22)은 스펙트럼 부분(20)의 공간 위치에서의 변화(28) 이전이며, 따라서 구성된 비디오 데이터 스트림(18)의 처음 3 개의 픽처들은 "승계된 픽처들"이고, 이들의 스펙트럼 부분(20)은 입력 비디오 데이터 스트림(14)의 모션 보상 사이드 정보 및 예측 잔여 데이터를 수집 및 카피함으로써 비디오 구성 장치(10)에 의해 채워진다. 더 정확하게는, 구성된 비디오 데이터 스트림(18)에서 번호 0'을 갖는 픽처(26)의 공간적 부분 20)은, 예를 들어, 번호 0을 갖는 비디오(14)의 대응하는 픽처(22)의 모션 보상 사이드 정보 및 예측 잔여 데이터를 수집 및 카피함으로써 채워지고, 마찬가지로, 번호 1'를 갖는 픽처(26)의 공간적 부분(20)은 번호 1을 갖는 대응하는 픽처(22)의 모션 보상 사이드 정보 및 예측 잔여 데이터를 수집 및 카피함으로써 채워지고, 번호 2'를 갖는 픽처(26)의 공간적 부분(20)은 그에 따라 번호 2를 갖는 픽처(22)의 각각의 데이터를 사용하여 채워진다. 즉, 각각의 승계된 픽처들(26)의 공간적 부분(20)은 픽처들(22)의 픽처 순서를 유지하면서 픽처들(22) 중 연관된 것을 사용하여 채워진다.
그에 따라, 방금 설명된 바와 같이, 입력 비디오 데이터 스트림(14)의 대응하는 픽처들(22)의 각각의 데이터를 수집 및 카피함으로써 그 공간적 부분(20)이 채워지는 구성된 비디오 데이터 스트림(18)의 픽처들(26)은 "승계된 픽처들"로 지칭되고, 공간적 부분(20) 외부의 픽처들(26)의 영역 내에서 간단한 빗금을 사용하여 도 1에 표시된다. 공간적 부분(20)을 둘러싸는 영역은 인위적으로 비디오 구성 장치(10)에 의해 채워질 수 있고, 예를 들어 단순히 흑색일 수 있거나 일부 다른 정지 픽처 등을 나타낼 수 있다. 비디오 구성 장치(10)에서, 다른 입력 비디오 데이터 스트림에 의해 표현된 다른 비디오를 공간적 부분(20) 외부의 픽처들(26)의 주변/나머지 영역 내에 나타내는 것이 또한 가능할 것이다. 아래에서 추가로 설명되는 실시예는 비디오 구성 장치(10)의 이러한 확장을 위한 예를 표현한다. 거기에 설명된 바와 같이, 구성된 비디오 데이터 스트림의 픽처들의 연관된 공간적 부분들을 갖는 하나보다 많은 입력 데이터 스트림이 병렬적으로 핸들링될 수 있다. 입력 데이터 스트림들의 공간적 부분들은, 예를 들어, 시간 인스턴트(28)에서 그들의 위치를 상호 변경할 수 있다. 더 상세하게, 이하에서 설명하는 것을 참조한다.
비디오 구성 장치(10)는 픽처들(26) 내의 공간적 위치의 공간적 부분(20)의 변경에 후속하는 승계된 픽처들(26)의 시퀀스를 형성하는 것으로 진행한다. 따라서, 번호 5'를 갖는 픽처(26)는 승계된 픽처이고 이의 공간적 부분(20)은 번호 0' 내지 2'를 갖는 전술된 픽처들(26)의 공간적 부분들(20)에 대해 공간적으로 변위되고, 이의 공간적 부분(20)은 입력 비디오 데이터 스트림(14)의 번호 3을 갖는 픽처(22)의 모션 보상 사이드 정보 및 예측 잔여 데이터를 수집 및 카피함으로써 채워지고, 구성된 비디오 데이터 스트림(18)의 후속 번호들 6' 내지 9'를 갖는 후속 픽처들(26)은 마찬가지로 입력 비디오 데이터 스트림(14)의 번호들 4 내지 7을 갖는 후속 픽처들(22)의 각각의 데이터를 수집 및 카피하여 공간적 부분(20) 내에 채워진다.
따라서, 번호 0', 1', 2', 5' 내지 9'를 갖는 픽처들(26)은 설명된 바와 같이 입력 비디오 데이터 스트림(14)의 대응하는 픽처들(22)의 각각의 모션 보상 사이드 정보 및 예측 잔여 데이터의 수집 및 카피를 사용하여 채워진 승계된 픽처들의 시퀀스를 형성하고, 다른 것들은 공간적 부분(20) 이외의 외부 영역을 채운다. 그러나, 공간적 부분(20)의 공간적 위치에서의 변화(28)로 인해, 공간적 부분(20) 내의 구성된 비디오 데이터 스트림(18)의 컨텐츠는 시간 인스턴트(28)에 공간적 부분(20)의 시프트 또는 변위로 인해 시간 인스턴스(28)에 후속하는 임의의 추가적 조치 없이는 부정확할 것이다. 예를 들어, 번호 5'를 갖는 픽처(26)를 참조하면: 이 픽처(26)는 번호 3을 갖는 대응하는 픽처(22)의 각각의 모션 보상 사이드 정보 및 예측 잔여 데이터를 수집 및 카피함으로써 공간적 부분(20) 내에 채워지기 때문에, 이는, 임의의 추가적 조치 없이는, 모션 보상된 시간적 예측을 통해, 선행하는 승계된 픽처(2')일 직전의 픽처를 참조한다. 그러나, 추후의 픽처(26)는 번호 3을 갖는 픽처(22)의 참조 픽처, 즉, 변위된 위치에 삽입된 번호 2를 갖는 픽처(22)로부터 승계된 픽처 컨텐츠를 갖고, 따라서 비디오 구성 장치(10)는 다음 방식으로 이러한 문제를 해결한다.
특히, 도 1의 비디오 구성 장치(10)는 승계된 픽처들(26) 사이의 구성된 비디오 데이터 스트림(18)에 출력없는 픽처들(30)을 삽입하고, 출력없는 픽처들(30)은 모션 보상된 시간적 예측을 통해, 승계된 픽처들의 서브세트를 참조한다.
출력없는 픽처들이 방금 개략된 오참조 문제들을 극복하는 방법을 예시하기 위해, 도 1은, 연속된 라인 화살표들(32)을 사용하여 수집 및 카피된 모션 보상 사이드 정보로부터 얻어지는 구성 비디오 데이터 스트림(18)의 픽처들(26 및 30) 사이의 상호 의존성을 예시하는 한편, 아래에서 더 상세히 설명되는 방식으로 비디오 구성 장치(10)에 의해 인위적으로 생성된 출력없는 픽처들(30) 및 이들의 모션 보상 사이드 정보에 의해 추가된 상호 의존성들은 파선 화살표들(34)을 사용하여 예시된다. 도시된 바와 같이, 비디오 구성 장치(10)는, 공간적 부분(20)이 자신의 공간적 위치를 공간적으로 변경한 시간 인스턴트(38)에 출력없는 픽처들(30)을 삽입하였다. 앞서 논의된 "문제가 있는" 픽처(26)는 예를 들어, 픽처(5')이다. 픽처(5')는, 그러나 이제 번호 4'를 갖는 출력없는 픽처(30)인, 데이터 스트림(18)의 직전의 픽처를 참조한다. 도시된 바와 같이, 비디오 구성 장치(10)는 출력없는 픽처(30)의 공간적 부분(20)를 채워서, 1) 출력없는 픽처(30)의 공간적 부분(20)은 픽처(5')의 공간적 부분(20)과 동일 위치인 공간적 부분(20)의 새로운 위치에 위치되고, 2) 번호 4'를 갖는 출력없는 픽처(30)의 공간적 부분(20)의 영역은 승계된 픽처(2')의 공간적 부분(20)의 컨텐츠를 카피함으로써 채워진다. 그 다음, 후자의 승계된 픽처, 즉, 픽처(2')는, 출력없는 픽처들(30)이 데이터 스트림(18)에 삽입되지 않았다면 픽처(5')의 참조 픽처이다. 즉, 번호 4'를 갖는 출력없는 픽처(30)는 승계된 픽처(2')의 공간적 부분(20)의 컨텐츠를 시간 인스턴트(28)를 변경하는 것에 후속하여 유효하게 공간적 부분(20)의 새로운 위치로 카피하고, 따라서, 이의 공간적 부분(20)에 관한 한, 픽처(2)의 역할은 픽처(3)에 대한 참조 픽처로서의 픽처(2)의 역할에 관한 것이다. 더 정확하게는, 출력없는 픽처(4')는, 승계된 픽처(5')의 공간적 부분(20)을 채우는 모션 보상 사이드 정보 및 예측 잔여 정보 데이터를 사용하여, 픽처(2')가 픽처(3)의 참조 픽처인 것과 마찬가지로, 승계된 픽처(5')의 참조 픽처이다. 이제, 승계된 픽처(5')의 공간적 부분(20)에 대한 참조 픽처 컨텐츠는 정확한 위치에 있어서: 이는 직전의 픽처 또는 데이터 스트림(18), 즉 번호(4')를 갖는 출력없는 픽처 내에 있고, 이는 정확한 공간적 위치에 있어서, 즉, 픽처(5')의 공간적 부분(20)에 정확히 공간적으로 대응하는 위치에 있다.
도 1에 도시된 바와 같이, 비디오 구성 장치(10)는 또한 시간 인스턴트(28)의 위치에 출력없는 픽처(30)를 삽입하고, 이는 이전에 승계된 참조 픽처(1')를 대체하는데: 즉, 비디오 구성 장치(10)는 공간적 부분(20) 내의 승계된 픽처(1')의 픽처 컨텐츠를 참조 및 그에 따라 카피하는 모션 보상 사이드 정보로, 시간 인스턴트(28)에 후속하는 승계된 픽처들(26)의 공간적 부분(20)과 동일 위치인 공간적 부분(20)에 출력없는 픽처(30)를 채운다. 이러한 조치에 의해, 이러한 출력없는 픽처(30), 즉, 픽처(3')은, 승계된 픽처(6')의 공간적 부분(20)을 채운 모션 보상 사이드 정보 및 예측 잔여 데이터를 사용하는 픽처(4)의 이전 참조 픽처였던, 참조 번호 1을 갖는 픽처(22)의 픽처 컨텐츠로 공간적 부분(20) 내에서 채워진다는 점에서 승계된 픽처(6')에 대한 참조 픽처로서 정확하게 기능한다. 즉, 도 1의 비디오 구성 장치(10)는, 시간 인스턴트(28)에 선행하는 입력 비디오 데이터 스트림(14) 내의 픽처들(22) 사이에 존재하는 참조 픽처들만큼 많은 출력없는 픽처들(30)을 시간 인스턴트(28)에서 삽입하고, 이들은, 시간 인스턴트(28)에 후속하는 입력 비디오 데이터 스트림(14)의 픽처들(22)에 대한 참조 픽처들이다. 또한 달리 말해서, 비디오 구성 장치(10)는 데이터 스트림(18) 내에 존재하는 승계된 픽처들(26)만큼 많은 출력없는 픽처들(30)을 시간 인스턴트(28)에서 삽입하고, 이들은, 삽입이 없다면 시간 인스턴트(28)에 후속하는 데이터 스트림(18)의 승계된 픽처들(26)에 대한 참조 픽처들을 표현할 것이다.
비디오 구성 장치(10)는, 입력 비디오 데이터 스트림(14)의 픽처들(22)의 모션 보상 사이드 정보 및 예측 잔여 데이터의 수집 및 카피를 수행할 때, 예를 들어, 엔트로피 인코딩된 도메인으로부터 신택스 레벨 도메인으로 예비적으로 리턴할 수 있는데, 즉, 픽처들(22)의 모션 보상 사이드 정보 및 예측 잔여 데이터를 설명하는 신택스 엘리먼트들을 획득하기 위해, 입력 비디오 데이터 스트림(14)의 픽처들(22)의 모션 보상 사이드 정보 및 예측 잔여 데이터의 엔트로피 디코딩을 수행할 수 있고, 공간적 부분(20) 내의 각각의 승계된 픽처(26)를 채우기 위해 이러한 수집 및 카피된 모션 보상 사이드 정보 및 예측 잔여 데이터를 사용하고 이를 엔트로피 인코딩하는 것을 수행하여, 구성된 비디오 데이터 스트림을 형성할 수 있다. 입력 비디오 데이터 스트림(14)의 픽처들(22)의 모션 보상 사이드 정보 및 예측 잔여 데이터는, 예를 들어, 각각의 픽처(22)가 코딩되는 코딩 순서와 비교되는 승계된 픽처(26)의 공간적 부분(20)을 횡단할 때의 상이한 코딩 순서를 고려하기 위해, 이러한 조치에 의해, 심지어 공간적으로 재정렬 또는 재순서화될 수 있다. 그러나, 수집 및 카피를 수행하는 이러한 방식은 비디오 구성 장치(10)가 모션 보상 탐색을 다시 수행할 필요성을 회피하게 하지만, 일 실시예에 따른 비디오 구성 장치(10)에 의해 신택스 엘리먼트 레벨을 통한 엔트로피 디코딩/인코딩 우회가 회피될 수 있다. 즉, 수집 및 카피는 엔트로피 코딩된 도메인에 유지되는 방식으로 수행될 수 있다. 이러한 가능성을 예시하기 위해 도 2가 참조된다.
도 2는, 승계된 픽처(5') 및 번호 3을 갖는 대응하는 입력 픽처(22)를 예시적으로 예시하고, 이의 모션 보상 사이드 정보 및 예측 잔여 데이터는 수집 및 카피에 의해 픽처(5')의 공간적 부분(20)을 채우기 위해 사용된다. 도 2는 또한 래스터 스캔 순서(36)와 같은 미리 결정된 코딩 순서에 따라 데이터 스트림(14)에서 번호 3을 갖는 픽처(22)가 표현되는 방식을 예시하고, 픽처(22)의 컨텐츠는 하나 이상의 슬라이스들(38)의 단위로 데이터 스트림(14)에 순차적으로 코딩된다. 2개의 슬라이스들이 도 2에 예시적으로 예시되어 있다. 각각의 슬라이스(38)는, 예를 들어, 데이터 스트림(14) 내에, 예를 들어, 픽처(22)의 상부 좌측 코너에 대해 표시된 픽처(22) 내에 위치되는, 예를 들어, 각각의 슬라이스들을 표시하는 슬라이스 헤더(40)를 포함한다.
엔트로피 코딩을 사용하여 인코딩된 모션 보상 사이드 정보 및 예측 잔여 데이터를 포함하는, 적어도 그들의 페이로드 섹션(42)에 관한 한 엔트로피 코딩 도메인을 벗어나지 않고 실질적으로 그대로 슬라이스들(38)을 구성된 비디오 데이터 스트림(18)으로 승계하기 위해, 공간적 부분(20)이 관련되는 한 픽처(26)의 컨텐츠를 코딩하기 위해, 비디오 구성 장치는 도 2의 실시예에 따라 픽처(26)를 타일들(44)로 세분화하고, 타일 파티셔닝은 점선들을 사용하여 도 2에 예시되고, 예를 들어, HEVC에서 이용가능하다. 픽처(26)를 타일들(44)로 세분화함으로써, 픽처(26)가 데이터 스트림(18)에서 코딩되는 순서가 안내되어, 픽처(26)의 공간적 부분(20) 내에서 코딩 순서는 코딩 순서(36)와 일치하고, 이를 사용하여 픽처(22)가 슬라이스들(38)로 코딩된다. 더 정확하게는, 앞서 설명된 픽처(26)는 픽처(22)보다 크다. 공간적 부분(20)은 픽처(22)와 동일한 크기이다. 픽처(26)를 타일들(44)로 타일 파티셔닝하는 것은, 공간적 부분(20)이 타일들(44) 중 하나와 정확히 일치하도록 행해진다. 픽처(26)의 코딩 순서는, 픽처(26)의 코딩 순서(44)가 타일 순서에서 다음 타일로 진행하기 전에 먼저 하나의 타일 내에서 픽처(26)를 횡단하는 타일 순서에 따 타일들(44)을 횡단하기 때문에 타일 파티셔닝에 의해 수정된다. 이러한 조치에 의해, 비디오 구성 장치(10)가 슬라이스들(38)을 데이터 스트림(18)으로, 즉, 픽처(26)가 데이터 스트림(18)에서 코딩되는 액세스 유닛(46)으로 직접 카피하는 것이 실현가능하다. 그 다음, 이러한 슬라이스들(38)은 공간적 부분(20)을 표현하는 각각의 타일(44)을 코딩한다.
도 2의 개념을 사용/적용할 때 비디오 구성 장치(10)는 슬라이스 헤더(40) 내의 일부 데이터를 수정한다. 예를 들어, 각각의 슬라이스 헤더(40)는 각각의 픽처의 상부 좌측 코너에 대한 각각의 슬라이스의 시작 위치(인코딩 순서(36))를 표시하는 슬라이스 어드레스를 포함할 수 있다. 따라서, 승계된 픽처(26) 내에서, 즉, 공간적 부분(20) 내에서 슬라이스의 새로운 위치를 설명하기 위해, 비디오 구성 장치(10)는 승계된 픽처(26)의 상부 좌측 코너에 대한 공간적 부분(20) 내에서 슬라이스의 새로운 위치를 측정하기 위해 슬라이스 어드레스를 변경할 수 있다.
추가적으로 또는 대안적으로, 각각의 슬라이스 헤더(40)는 픽처 순서 카운트 데이터를 포함할 수 있다. 픽처 순서 카운트는 각각의 데이터 스트림 내에서 픽처들을 순서화할 수 있다. 앞서 표시된 바와 같이, 비디오 구성 장치(10)가 구성된 비디오 데이터 스트림(18)에 출력없는 픽처들(30)을 삽입할 때, 비디오 구성 장치(10)는, 승계된 픽처들(26)의 공간적 부분(20)을 채우는 경우 슬라이스 헤더(40)에서 이러한 픽처 순서 카운트 데이터를 변경할 수 있다. 예를 들어, 도 2의 슬라이스 헤더(40)는 픽처 순서 카운트로서 3을 표시할 수 있는 한편, 데이터 스트림(18) 내의 슬라이스들(38)의 슬라이스 헤더는 2개의 출력없는 픽처들(30)의 삽입을 설명하기 위해 5를 표시할 수 있다.
추가적으로 또는 대안적으로, 슬라이스 헤더(40)는 참조 픽처 순서 카운트 차이 값들, 즉, 상대적 관점에서 현재의 픽처(22)의 참조 픽처를 표시하는 값들, 즉, 현재의 픽처(22)에 선행하는 또는 후속하는 x-번째 픽처를 포함할 수 있다. 도 1을 참조하여 설명된 실시예에서, 출력없는 픽처들(30)이 비디오 데이터 스트림(18) 내의 정확한 위치에 위치되었기 때문에, 참조 픽처 순서 카운트 차이 값의 변경은 불필요할 것이지만, 다른 예를 따르면, 비디오 구성 장치(10)는 이러한 참조 픽처 순서 카운트 차이 값들을 슬라이스 헤더들(40) 내에서 변경할 수 있다.
추가로, 또한 추가적으로 또는 대안적으로, 슬라이스 헤더(40)는 참조 픽처 순서 카운트 차이 값들의 세트에 대한 참조를 포함할 수 있다. 이러한 참조는, 예를 들어, 입력 비디오 데이터 스트림(14) 내에서 전달된 파라미터 세트를 지칭할 수 있고, 참조는 슬라이스들(38)을 사용하여 공간적 부분(20)을 채울 때 슬라이스 헤더(40)에서 변경될 수 있다. 마찬가지로, 파라미터 세트들 자체는 수정없이 또는 이들을 수정하여 입력 비디오 데이터 스트림으로부터 채택될 수 있다.
추가적으로, 슬라이스 헤더(40)가 차동 코딩된 양자화 파라미터를 추가적으로 또는 대안적으로 포함하는 것이 실현가능할 수 있다. 즉, 예를 들어, 데이터 스트림(14) 내에서, 슬라이스 헤더(40)의 차동 코딩된 양자화 파라미터는 픽처(22)에 대해 또는 심지어 픽처(22)를 포함하는 픽처들의 시퀀스에 대해 데이터 스트림(40) 내에서 전달되는 양자화 파라미터에 대해 차동 코딩될 수 있다. 구성된 비디오 데이터 스트림(18)을 구성할 때, 비디오 구성 장치(10)는 마찬가지로 데이터 스트림(18) 내에서 픽처(26)에 대한 또는 심지어 픽처(26)를 포함하는 픽처들의 시퀀스에 대한 특정 양자화 파라미터를 선택할 수 있고, 이는, 예를 들어, 슬라이스 헤더(40) 내에서 차동 코딩된 양자화 파라미터의 기초로서 기능하는 양자화 파라미터와는 상이할 수 있다. 따라서, 데이터 스트림(18)에 전달되는 슬라이스들(38)의 슬라이스 헤더(40)는, 비디오 구성 장치(10)에 의해 데이터 스트림(18)의 다른 곳에서 시그널링되는 참조 양자화 파라미터들에서의 변경을 설명하기 위해 장치(10)에 의해 변경될 수 있다.
도 3은 비디오 구성 장치(10)가 출력없는 픽처들을 어떻게 인위적으로 생성할 수 있는지의 가능성을 예시한다. 특히, 도 3은 번호 4'를 갖는 출력없는 픽처(30) 및 번호 2'를 갖는 승계된 픽처(26), 즉, 출력없는 픽처(30)가 대체되고 모션 보상된 시간적 예측을 통해 참조하는 승계된 픽처(26)를 예시적으로 도시한다. 특히, 도 3은 데이터 스트림들(14 및 18)이 블록-기반 방식으로 모션 보상된 시간적 예측을 사용하여 인코딩되는 경우를 예시한다. 즉, 각각의 픽처들은 블록들로 파티셔닝되고, 이들 중 일부는 모션 보상된 시간적 예측을 사용하여 예측되고, 이들 블록들 각각에 대해, 고유의 모션 벡터가 모션 보상 사이드 정보에 의해 표시된다. 장치(10)는, 출력없는 픽처(30)의 부분(20)이 전환에 의해 승계된 픽처(26)의 공간적 부분(20)으로부터 카피되고, 부분들(20) 둘 모두는 동일한 크기이도록, 출력없는 픽처(30)의 공간적 부분(20)에 대해 모션 보상 사이드 정보를 결정한다. 즉, 출력없는 픽처(30)의 부분(20)의 각각의 샘플은 그 위치에 대해 하나의 동일한 모션 벡터(50)를 사용하여 변위된 픽처(26) 내에서 대응하는 샘플로부터 카피되고, 픽처(26)는 출력없는 픽처(30)의 부분(20)의 각각의 샘플과 동일 위치이다. 그러나, 일 실시예에 따라 모션 벡터(50)는 모든 블록들(52)에 대해 동일하기 때문에, 장치(10)는 데이터 스트림들(14 및 18)에 내재하는 인코딩 방식에 의해 이용가능하다면 출력없는 픽처(30)의 부분(20)에 대한 모션 보상 사이드 정보를 코딩하기 위해 공간적 예측 메커니즘을 활용한다. 이러한 경우, 예를 들어, 모션 벡터(50)는 출력없는 픽처(30)의 공간적 부분(20)의 블록들(52) 중 단지 하나에 대해 데이터 스트림(18) 내에서 명시적으로 코딩될 것이지만, 부분(20)의 다른 블록들(52)의 경우, 모션 벡터는 공간적 예측을 이용하여 채택/예측될 것이다. 예를 들어, 모션 벡터(50)가 명시적으로 코딩되는 블록 이외의 블록들(52)에 대해 스킵 모드가 사용될 수 있다. 예를 들어, 스킵 모드를 사용하는 것은 각각의 블록(52)에 대해, 모션 벡터(52)가 채택 또는 공간적으로 예측된 것, 및 각각의 블록(52)에 대해 어떠한 예측 잔여 데이터도 존재하지 않는 것을 시그널링할 것이다. 예를 들어, 출력없는 픽처(30)가 대체되는 승계된 픽처(26)의 공간적 부분(20)의 픽처 컨텐츠를 수정없이 카피하기 위해, 예측 잔여 데이터는 임의의 출력없는 픽처(30)의 공간적이 아닌 부분(20)에 대해서는 장치(10)에 의해 코딩되지 않는다.
간략하게 도 1을 다시 참조하면, 도 1은 도 1의 비디오 구성 장치(10)가 외부 신호(60), 즉 변경을 위한 외부 요청들에 대한 응답으로 공간적 부분(20)의 공간적 위치의 시간적 변화를 제어하도록 구성될 수 있는 가능성을 예시한다. 그렇다면, 비디오 구성 장치(10)는 변경을 위한 이러한 외부 요청을 즉시 및 명확하게 실행하지 않을 수 있다. 오히려, 비디오 구성 장치(10)는 요청(60)을 수신하면, 임의의 다른 입력 픽처(22)에 의해 시간적 모션 보상 사이드 정보 예측을 통해 참조되지 않은 동일한 픽처들 중 제 1 픽처를 결정하기 위해 입력 픽처들(22)을 순차적으로 검사할 수 있다. 이를 행하기 위한 세부사항 및 이유들은 아래에서 더 자세히 기술된다.
예를 들어, 도 4를 참조한다. 도 4는, 픽처(5')에 대한 출력없는 픽처(4')에 의한 픽처(2')의 대체를 예시한다. 즉, 장치(10)에 의해 삽입된 출력없는 픽처(4')는, 공간적 부분 위치의 변화 전에 유효한 공간적 부분(20)의 위치의 픽처 컨텐츠를 공간적 부분(20)의 새로운 위치에서 출력없는 픽처(4')에 삽입되도록 카피하여, 입력 픽처들 중 하나, 즉, 입력 픽처(3)로부터 수집 및 카피에 의해 채워진 픽처(5') 및 이의 공간적 부분(20)은 출력없는 픽처(4')와 동일 위치인 공간적 부분(20)으로부터, 도 4의 몇몇 화살표들(62)을 사용하여 예시된 입력 픽처(3)의 모션 보상 사이드 정보를 사용하여 공간적 부(20) 내의 픽처 컨텐츠를 예측할 수 있다. 즉, 입력 픽처(3)로부터 픽처(5')의 공간적 부분(20)으로 수집 및 카피된 모션 보상 사이드 정보는 예를 들어 공간적 부분(20) 내의 인터-예측된 블록마다 하나의 모션 벡터를 코딩할 수 있다.
도 3에 대해 설명된 바와 같이, 시간적 예측은 입력 픽처들(22)의 모션 보상 사이드 정보와 같은, 모션 보상 사이드 정보에 대해 소비되는 비트레이트를 감소시키기 위한 하나의 옵션일 수 있다. 그러나, 참조 픽처로부터 픽처(5')의 공간적 부분(20)의 모션 보상 사이드 정보를 시간적으로 예측하는 것은 현재 다음의 이유들, 즉, 출력없는 픽처(4')가 픽처(5')에 대한 참조 픽처로서의 픽처(2')의 기능에 대해 픽처(2')를 대체하는 것으로 인해 에러들을 초래할 것이다. 이는, 픽처 컨텐츠, 즉 모션 보상 사이드 정보(62)에 의해 픽처(5')의 공간적 부분(20)에 카피되는 최종적으로 재구성된 픽처 컨텐츠에 대해 작용한다. 그러나, 도 3의 설명으로부터 명백해질 바와 같이, 출력없는 픽처(4')의 공간적 픽처(20)에 대한 데이터 스트림에서 전달되는 모션 보상 사이드 정보는 픽처(2')의 공간적 부분(20)에 대해 시그널링된 모션 보상 사이드 정보와 일치하지 않는데, 이는, 출력없는 픽처(4')의 공간적 부분(20)의 모션 보상 사이드 정보은 픽처(2')의 공간적 부분(20)을 출력없는 픽처(4')의 공간적 부분(20)으로 단지 전환 방식으로 카피하기 때문이다. 즉, 출력없는 부분(4')의 공간적 부분(20)의 모션 벡터들은 전체 공간적 부분(20) 사이에서 균일한 단지 인위적인 모션 벡터들인 한편, 픽처(2')의 공간적 부분(20)에 대해 시그널링되는 모션 벡터들은 비디오 장면에서 픽처 컨텐츠의 이동을 표현한다.
따라서, 본 발명의 일 실시예에 따르면, 비디오 구성 장치(10)는 는 직접적으로가 아니라, 순차적으로 다음 기회 또는 시간 인스턴트에서 직면할 때 변경에 대한 외부 요청(60)을 실행하도록 구성되고, 이 때, 그 기회 또는 시간 인스턴트에 대해 과거의 승계된 픽처들 중 기준 픽처들의 교체는 그 기회 또는 시간적 인스턴트에 대한 임의의 후속하는 입력 픽처(22)에 의한 잘못된 시간적 모션 보상 사이드 정보 예측을 초래하지 않을 수 있다. 예를 들어, 요청(60)은 도 1의 입력 픽처(1)의 각각의 데이터를 수집 및 카피함으로써 픽처(1')의 공간적 부분(20)이 채워질 시간에 장치(10)에 도달될 것으로 가정한다. 장치(10)는 현재 이용가능한 참조 픽처들, 즉 인스턴트(28)가 픽처(1)의 바로 앞에 있던 경우 각각의 출력없는 픽처들에 의해 교체되는 후보들이 될 수 있는 임의의 참조 픽처들이 모션 보상 사이드 정보를 예측하기 위한 시간적 예측에 대해 사용되는지 여부를 체크할 것이다. 그렇다면, 장치는 공간적 부분(20)의 공간적 위치의 변경 실행을 연기할 것이다. 그 다음에, 장치(10)는 예를 들어 입력 픽처(2)를 마찬가지로 체크할 것이다. 즉, 장치는 시간 인스턴트에 참조 픽처들, 즉 출력없는 픽처들에 의해 교체될 후보들이 모션 보상 사이드 정보에 대해 참조되는지 여부를 체크할 것이다. 예를 들어, 도 1의 경우, 픽처(3)는 제 1 입력 픽처(22)이었을 수 있고, 이 픽처로부터 어떠한 픽처도 그 시간에 교체될 임의의 참조 픽처들로부터 동작 보상 사이드 정보를 예측하기 위한 시간적 예측을 사용하지 않는데, 즉, 그 모든 참조 픽처들은 모션 보상 사이드 정보의 시간적 예측에 대해 사용되지 않고, 따라서 장치(10)는 입력 픽처들(22)의 픽처들(2 및 3) 사이에서 요청들(60)을 실행한다.
요청(60)이 실행될 수 있는, 즉 요청(60)이 각각의 픽처 전에 출력없는 픽처들(30)을 삽입함으로써 실행될 수 있는 입력 픽처들을 검출하는 효율적인 방식으로 실행될 수 있는 가능한 시점들을 비디오 구성 장치(10)에 효율적으로 시그널링하는 하나의 방법은, 하나 이상의 특정 시간적 계층적 계층(들)의 픽처들이 모션 보상 사이드 정보의 시간적 예측을 위해 사용되지 않는 것이 보장되도록 비디오(14)를 생성하는 것이다. 즉, 특정 임계 시간적 계층구조의 계층 ID를 초과하는 것들과 같은 특정 시간적 계층 ID(들)의 픽처들(22)이, 데이터 스트림(14)의 다른 픽처들(22)로부터 모션 보상 사이드 정보에 대한 시간적 예측을 통해 참조되도록 허용되는 한편, 데이터 스트림(14)은, 하나 이상의 특정 시간적 계층 ID(들) 이외의 시간적 계층구조의 계층 ID의 픽처들(22) 그 임계값에 후속하는 것 위의 픽처들은 모션 보상 사이드 정보의 시간적 예측에서 참조로서 사용되지 않도록 보장됨을 비디오 구성 장치(10) 시그널링할 수 있다. 이 경우에, 장치(10)는, 요청(60)의 도달 시간으로부터 입력 픽처들(22)의 시퀀스 내에서 순차적으로 다음 픽처에 직면하는 것을 검출할 수 있고, 이의 코딩 시간에, 그 코딩 시간이 적합한 스위칭 시간 인스턴트(28)인 것으로 판명되면, 출력없는 픽처들에 의해 교체될 하나 이상의 현재의 참조 픽처들 중 어떠한 것도 모션 보상 사이드 정보에 대해 참조되도록 허용되는 픽처들을 포함하는 시간적 계층 ID가 아니다. 장치는 단지, 입력 픽처들의 픽처 범위 시간적 계층구조의 계층 ID 및 인바운드 데이터 스트림(14)의 하이 레벨 신택스에 포함되는 픽처 범위 초과의 시간적 계층구조의 계층 판별자에 기초하여 이러한 체크를 수행할 수 있다. 입력 픽처(22)의 픽처 범위 시간적 계층구조의 계층 ID는 예를 들어 각각의 픽처(22)과 개별적으로 연관된 액세스 유닛 헤더 또는 각각의 입력 픽처(22)의 슬라이스들의 슬라이스 헤더(40) 내에 포함될 수 있다. 상술한 픽처 범위 초과 시간적 계층구조의 계층 판별자를 포함하는 하이 레벨 신택스는 구체적인 SEI 메시지 신택스 예에 대해 이후에 설명될 바와 같이 데이터 스트림(14)의 SEI 메시지에 포함될 수 있다. 대안적으로, 장치(10)는 각각의 하이-레벨 신택스를 통한(코딩 효율에서의 손실과 연관된) 데이터 스트림(14)에서의 시간적 모션 보상 사이드 정보 예측의 완전한 부재를 검출할 수 있고, 따라서 픽처 범위 시간적 계층구조의 계층 ID와는 독립적으로 요청(60)을 실행할 수 있다. 또한 대안적으로, 인바운드 데이터 스트림(14)은 예를 들어, 비트스트림 내의 표시자의 위치에 의한 요청(60)의 실행에 대한 현재 픽처의 적합성을 표시하는 SEI 메시지 또는 특수한 NAL 유닛 타입의 형태로 표시자들을 포함할 수 있다. 또한 대안적으로, 장치(10)는 디폴트로, 사실을 명시적으로 검증하지 않고 데이터 스트림(14)에서 시간적 모션 보상 사이드 정보 예측의 완전한 부재를 예상할 수 있다. 입력 비디오 데이터 스트림들은 그에 따라, 즉 각각의 제약에 따르는 장치(10)에 제공될 것이다.
인위적으로 삽입된 출력없는 픽처들(30)에 관해서는, 이에 대한 데이터 레이트를 감소시키기 위해, 장치는 하나의 출력없는 픽처(30)와 다른 출력없는 픽처 사이, 예를 들어, 하나의 특정 시간 인스턴트(28)에 삽입된 상이한 출력없는 픽처들 사이 또는 심지어 상이한 시간 인스턴트에 삽입된 출력없는 픽처들 사이에 모션 보상 사이드 정보의 시간적 예측을 사용할 수 있다. 이러한 조치에 의해, 출력없는 픽처의 공간적 부분에서 다른 블록들에 대한 공간적 모션 보상 사이드 정보 예측을 위한 시드를 형성하는 하나의 명시적으로 코딩된 모션 벡터를 코딩하기 위한 코딩 오버 헤드가 감소되는데, 이는 단순히 이의 시간적 예측의 잔여물이 코딩되기 때문이다.
도 5는 구성된 비디오 데이터 스트림(16)을 수신하는 비디오 인코더(70) 및 디코더(72)와 함께 프레임워크 내의 비디오 구성 장치(10)를 예시한다. 여기서, 비디오 구성 장치(10)는 비디오 인코더(70)와 함께 시스템(74)을 형성하고, 이의 예들은, 예를 들어, 하나 이상의 클라이언트들에 이용가능한 교통 카메라 뷰의 블렌드를 제공하는 교통 감시 시스템, 하나 이상의 클라이언트들에 파노라마 비디오의 하위 부분을 제공하는 파노라마 비디오 애플리케이션을 실현하는 가상 현실 시스템, 또는 하나 이상의 클라이언트들에게 제 3의 참가자들의 뷰의 블렌드를 제공하는 전화 회의 시스템과 같은 하나보다 많은 비디오 인코더(70)를 사용하는 실시예들에 대해 아래에서 제시된다.
비디오 구성 장치(10)는 비디오 인코더(70)로부터 입력 비디오 데이터 스트림(14)을 수신하고, 위에서 개략된 방식으로 구성된 비디오 데이터 스트림(16)의 픽처들의 공간적 부분(20)에 이를 디스플레이한다. 비디오 디코더(72)는 장치(10)에 의한 출력으로서 입력된 구성된 비디오 데이터 스트림(16)을 디코딩할 필요가 있다. 디코더(72)의 출력에서, 디스플레이될 재구성된 픽처 시퀀스가 출력되어 도 5의 참조 부호(76)를 사용하여 표시된다. 내부적으로, 디코더(72)는 코딩된 픽처 버퍼(78), 이에 후속하는 디코딩 엔진(80) 및 또한 이에 후속하는 디코딩된 픽처 버퍼(82)의 시퀀스로 구성되는 것으로 예시적으로 표시된다. 인바운드 구성된 비디오 데이터 스트림(18)이 버퍼(78)에 입력된다. 디코딩 엔진(80)은 데이터 스트림(18)의 픽처들(26 및 30)을 순차적으로 디코딩하고, 이러한 픽처들의 디코딩 결과를 디코딩 픽처 버퍼(82)에 삽입한다. 화살표(84)로 표시된 바와 같이, 디코딩 픽처 버퍼(82)의 출력은 또한, 앞서 모션 보상된 시작적 예측에 대해 이미 개략된 바와 같이, 버퍼(82)의 디코딩된 픽처들이 후속적으로 디코딩된 픽처들에 대한 참조 픽처들로서 기능할 수 있도록 디코딩 엔진(80)에 피드백된다.
디코딩된 픽처들을 출력할 때, 디코더(72)는 한편으로는 승계된 픽처(26)와 다른 한편으로는 삽입된 출력없는 픽처들(30)을 구별하며, 출력없는 픽처들(30)은 출력되지 않는 것으로서, 즉 디스플레이될 비디오(76)의 일부가 아닌 것으로 데이터 스트림(18)에서 시그널링된다. 예를 들어, 데이터 스트림(18)은 데이터 스트림(18)의 각각의 픽처(26 및 30)에 대해, 각각의 픽처가 출력되어야 하는지 여부를 시그널링하는 플래그를 포함할 수 있다. 그러나, 플래그는 또한 슬라이스 단위로 시그널링될 수 있다. 즉, 출력없는 픽처(30)에 속하는 모든 슬라이스들은 디스플레이되지 않을 각각의 픽처 컨텐츠를 시그널링할 것이다. 예를 들어, HEVC에서, 이를 위해 플래그 pic_output_flag가 사용될 수 있다. 입력 비디오 데이터 스트림들의 픽처들은 출력 픽처 타입 전부일 수 있지만, 대안적으로, 이는 출력없는 픽처들에 이미 산재되어 있는 것이 가능할 수 있음을 주목해야 한다.
앞서 구체적으로 개략되지는 않았지만, 비디오 인코더(70)는 비디오 코덱 자체에 의해 부과된 제약들에 추가하여 일부 코딩 제약들을 따르도록 구성될 수 있다. 예를 들어, 입력 픽처들(22)의 각각의 데이터에 기초하여 승계된 픽처들(26)의 공간적 부분(20)을 채울 때, 입력 픽처들(22)의 이전의 픽처 경계들은 공간적 부분(20)을 채운 후의 공간적 부분(20)의 내부 경계가 되는 것은 자명하다. 그러나, 이러한 상황 변화는 시간적 모션 보상된 예측을 변경시킬 수 있어서, 픽처 경계를 넘어 연장되는 참조 픽처들의 영역들을 포인팅하는 모션 벡터들은 참조 픽처의 외부에 놓인 참조 픽처의 카피된 영역 부분, 예를 들어 외삽 등에 대한 일부 특수한 처리를 호출할 수 있다. 그러나, 이러한 호출은 예를 들어, 각각의 승계된 픽처(26) 내에 놓일 수 있으므로, 공간적 부분(20)의 경계에서 발생하지 않을 수 있다. 따라서, 비디오 인코더(70)는, 모션 보상 사이드 정보가 픽처(22)의 경계들을 넘어 연장하는 영역들에서 참조 픽처들을 카피하지 않는 정도로 픽처(22)의 경계들 근방에서 모션 보상 사이드 정보를 제한할 수 있다. 추가적으로, 비디오 인코더(70)는, 입력 픽처(22)의 경계들에 가까운 서브-픽셀 정밀도로 모션 벡터들에 대해 요구되는 서브-픽셀 보간을 회피하도록 제한될 수 있다. 예를 들어, 입력 픽처(22)의 영역 내의 블록들의 서브-픽셀 정밀도를 갖는 모션 벡터들은, 루마 또는 크로마 샘플값들의 보간을 위한 유한 임펄스 응답 필터 절차를 호출할 수 있다. 모션 벡터 서브-픽셀 포지션이 입력 픽처(22)의 공간 픽처 경계에 공간적으로 가까운 경우, 필터 커널은, 서브-픽셀 샘플값들을 보간할 시에 픽처(22)의 경계들을 넘어 연장하는 영역들과 중첩할 수 있다. 그러한 경우에서, 외삽 등과 같은 이전에 언급된 특수한 픽처 경계 처리가 호출될 수 있다. 입력 픽처들(22)의 각각의 데이터에 기초하여 승계된 픽처들(26)의 공간 부분(20)을 채울 경우, 입력 픽처들(22)의 픽처 경계들은, 공간 부분(20)을 채운 이후 승계된 픽처들(26)의 공간 부분(20)의 내부 경계들이 될 수 있으며, 그러한 호출은 발생하지 않을 수 있다. 따라서, 비디오 인코더(70)는, 서브-픽셀 보간 프로세스가 픽처(22)의 경계들을 넘어 연장하는 참조 픽처 영역들을 사용하지 않는 정도로 픽처(22)의 경계들 근처에서 서브-픽셀 정밀도의 모션 벡터들의 사용을 제한할 수 있다. 추가적으로, 인코더(70)는, 입력 픽처(22)의 공간 경계들에 공간적으로 위치된 블록들에 대한 모션 보상 사이드 정보의 시간 예측을 수행할 경우, 그러한 블록들이 존재하면, 참조 픽처들 내에서 함께 위치된 블록들에 이웃한 블록들의 모션 벡터들을 용이하게 할 수 있다. 이전에 지적된 바와 같이, 입력 픽처들(22)의 각각의 데이터에 기초한 승계된 픽처들(26)의 공간 부분(20)의 채움은, 승계된 픽처들(26)의 공간 부분(20)의 내부 경계들로 입력 픽처(22)의 픽처 경계를 전환시킬 수 있다. 따라서, 부분(20)의 내부 경계에 공간적으로 가까운 주어진 블록의 모션 벡터 사이드 정보의 시간 예측 프로세스는, 각각의 함께 위치된 블록들에 이웃한 참조 픽처들 내의 블록들에 액세스할 수 있으며, 따라서, 인코더(70)에 이용가능하지 않은 블록들에 액세스될 수 있어서, 예측 미스매치를 유도한다. 따라서, 비디오 인코더(70)는, 예측 프로세스가 픽처(22)의 경계들을 넘어 연장하는 참조 픽처 영역들로부터의 정보를 사용하지 않는 정도로 픽처(22)의 경계들 근방에서 모션 보상 사이드 정보의 시간 예측을 제한할 수 있다. 유사하게, 입력 픽처(22)의 내부 경계들은 픽처(26) 내에서 픽처 경계들이 될 수 있으며, 인코더(70)는 그에 따라, 입력 픽처(22)의 내부 경계들에 대해 모션 벡터 사이드 정보의 시간 예측을 제한할 수 있다. 인-루프 필터링(in-loop filtering)에서, 비디오 인코더들(70)은 입력 비디오 데이터 스트림들을 제공할 시에 인-루프 필터링을 사용하거나 사용하지 않도록 셋팅될 수 있다. 인-루프 필터링이 입력 데이터 비디오 데이터 스트림들에서 사용되도록 시그널링되면, 장치(10)는, 승계된 픽처들(22)의 대응하는 공간 부분들의 인-루프 필터링을 채용할 수 있으며, 입력 데이터 비디오 데이터 스트림들에서 사용되지 않도록 시그널링되면, 장치(10)는 승계된 픽처들(22)의 대응하는 공간 부분들의 인-루프 필터링을 적용하지 않을 수 있다. 그러나, 인-루프 필터가 사용되면, 장치는, 인-루프 필터링이 승계된 픽처들의 공간 부분(20)의 경계를 교차하는 그러한 방식으로 승계된 픽처들(22)의 인-루프 필터링을 활성화시키는 것을 억제한다. 예를 들어, 참조 픽처 컨텐츠를 변화시키지 않도록 어떠한 추가적인 인-루프 필터링도 미출력 픽처들(30)에서 장치(10)에 의해 활성화되지 않는다.
추가적으로, 1개 초과의 비디오 인코더(70)를 사용하는 경우에서, 화살표들(24) 및/또는 추가적인 코딩 툴들 및 파라미터들을 사용하여 도 1에 예시된 시간 예측 GOP 구조에 대해 이들 비디오 인코더들(70)을 동기화시키는 것이 유리할 수 있다.
추가적으로, 비디오 인코더(70)는, 도 4에 대해 위에서 서술된 바와 같이, 데이터 스트림(14)을 생성할 시에 시간 계층 코딩 개념을 사용할 수 있으며, 시간 계층 레벨들의 서브세트에 대해, 비디오 인코더(70)는 자발적으로, 시간 모션 보상 사이드 정보 예측의 사용을 억제하고, 즉 TMVP에 대한 참조로서 시간 계층 레벨들의 각각의 서브세트의 픽처들을 사용하는 것을 억제할 수 있으며, 장치(10)에 이러한 비사용을 보장하는 것은 데이터 스트림(14)의 각각의 고레벨 신택스를 통한 위에서 서술된 보장 시그널링을 사용하므로, 장치(10)는 차례로, 공간 부분(20)의 공간 위치의 변화가 발생할 수 있는 인바운드 데이터 스트림(14)의 그 픽처들(22)을 식별할 수 있다.
도 6 내지 도 10에 대해 설명된 특정 애플리케이션 시나리오들의 설명으로부터 또한 명백해질 바와 같이, 입력 비디오 데이터 스트림(들)(14)을 생성하는 비디오 인코더(들)(70)는 각각의 비디오 카메라에 의해 캡쳐된 비디오들을 인코딩하도록 구성될 수 있으며, 여기서, 이러한 비디오 인코딩은 즉시 또는 실시간으로 각각 발생할 수 있다. 비디오 인코더(70)는 그러한 카메라 내에 통합될 수 있다. 장치(10)는 서버 내에 포함될 수 있는 반면, 디코더(72)는 그 서버의 클라이언트 내에 통합될 수 있다. 그러나, 심지어 대안적으로, 장치(10)는 클라이언트 측에서 또한 구현되며, 그에 의해, 디코더(72)에 업스트림으로 장치(10)를 단지 직렬로 접속시킴으로써, 위에서-서술된 구성 자유도를 달성하기 위한 (표준) 디코더(72)의 능력을 값싼 방식으로 확장시킨다. 예를 들어, 아래에 설명되는 실시예들은, 예를 들어, 디코더(72)가 참여자의 클라이언트의 일부인 화상회의 시스템에 관한 것이다. 대안적으로, 디코더 (72)는, 아래에서 더 상세히 서술되는 방식으로 비디오 구성 장치 (10)에 의해 수행되는 구성을 이용하여 파노라마 비디오 어레이로부터 파노라마 비디오 서브-부분을 리트리브하는 헤드-장착된 디스플레이 경우와 같은 클라이언트일 수 있다. 비디오 구성 장치(10) 그 자체는, 컴퓨터 등 상에서 구동하는 소프트웨어의 형태로 구현될 수 있는 반면, 디코더(72)는 모바일 디바이스 상에서 소프트웨어, 하드웨어 또는 프로그래밍가능 하드웨어를 사용하여 구현될 수 있다.
도 5에 예시되지는 않았지만, 비디오 구성 장치(10)에 도달하는 요청(60)이 디코딩 측으로부터 유래될 수도 있다. 대안적으로, 요청(60)은 관리 엔티티와 같은 일부 제어 포인트에서 수동으로 생성된다.
다음에서, 도 1 내지 도 5의 실시예들이 1개 초과의 입력 비디오 데이터 스트림에 대해 동시에 사용되는 실시예들이 설명된다. 다음의 설명에서, 미출력 픽처들(30)은 생성된-참조-픽처(GRP)들로 지칭된다. 그들은, 복수의 입력 비디오 데이터 스트림들에 대해 참조 픽처들을 대체한다. 위에서 설명된 바와 같이, GRP들은, 출력되지 않은 구성된 비디오 데이터 스트림/비트스트림으로 삽입되는 구성된 픽처들이고, 구성된 비디오 데이터 스트림을 디코딩할 때에 소정의 포지션에서 본래의 참조 픽처들을 교체하기 위한 타겟이다. 위에서 이미 제시된 세부사항들을 넘어 GRPS들에 대한 추가적인 세부사항들은, 몇몇 샘플 애플리케이션들을 사용하여 다음에서 제시되지만, 추가적인 애플리케이션들에 또한 적용가능하다. 특히, 그러한 세부사항들은 또한, 개별적으로 위의 설명에 전달가능할 것이다.
도 6은, 타일-기반 파노라마 스트리밍 애플리케이션을 표현한다. 파노라마 스트리밍이 오늘날 실현되는 방식은 클라이언트의 관심있는 영역(ROI), 즉 클라이언트 디바이스 상의 컨텐츠 영역 디스플레이를 추적하는 전용 서버를 가짐으로써 행해지는 것이며, 주어진 클라이언트에 대한 ROI만을 포함하는 비디오로 파노라마 비디오를 트랜스코딩한다. 그러한 접근법은, 그것이 매우 양호하게 스케일링되지는 않는다는 결함을 갖는다. 그러나, HEVC를 이용하여, 예를 들어, 비디오 비트스트림은 타일들로 지칭되는 더 작은 부분들로 분할될 수 있다. 타일들은 픽처의 작은 직사각형들의 형태인 파티션들이며, 이들은, 상이한 타일들 사이의 시간 의존성이 제거되는 그러한 방식 [2]으로 인코딩될 수 있다. 그러나, 타일들이 독립적으로 디코딩되면, 단일 비디오 디코더가 사용될 수 없으며, 따라서, [1]에 도시된 기술과 유사한 타일 스티칭 절차가 요구된다.
클라이언트 스크린 움직임을 특성화하는 2개의 시간 인스턴트들, 즉 T=0 및 T=1이 도 6에 도시되며, 여기서, T=1은, 클라이언트 측이 제시된 타일들의 포지션을 변화시키는 인터액티브 스트리밍에 대한 스위칭 포인트를 표현한다. 파노라마 스트리밍 시나리오에서, 클라이언트들은 통상적으로, 예를 들어, 사용자 상호작용 또는 ROI 인식과 같은 자동화된 프로세스에 의해 시간에 걸쳐 적응적으로 ROI를 선택함으로써, 파노라마에 걸쳐 내비게이팅한다.
이것은, 전체 파노라마 시퀀스에 대한 수신된/다운로딩된 타일들의 포지션이 시간에 걸쳐 변한다는 것을 의미한다. T=1의 스트리밍 프로세스 동안 수신된 (즉, T=0에서 이전에 수신되지 않은) 새로운 포지션에서의 임의의 타일은, 예전의 시간 인스턴트 T<1이 참조를 위해서는 디코더에 이용가능하지 않으므로, 이러한 타일의 압축해제된 비디오 컨텐츠에서 랜덤 액세스를 요구한다.
그러나, 이전에 수신되었던 포지션들의 타일들의 제 2 세트는, 이러한 세트 내의 타일들에 대한 정보가 이미 수신되었으므로, 반드시 랜덤 액세스를 요구하지는 않는다. 이들 타일들은 도 6 및 도 7에서 음영을 사용하여 표시된다. 그 타일들에 대해, 출력 픽처 내의 포지션만이 참조를 위해 이용가능한 이미 디코딩된 픽처들 내의 포지션과 상이하다. 따라서, [1]에서 설명된 기술은 그대로 사용될 수는 없다. 참조된 픽처들이 인코더 측 상에서 직면되는 정보와는 상이한 정보를 가질 것이므로, 비디오 디코더 버퍼 내의 정규 참조 프레임들로부터의 시간 예측은 타일들의 이러한 제 2 세트에 대해서는 실패한다.
사소한 중간 유의점으로서, 구성된 비디오의 9개의 타일 파티셔닝이 예시의 목적들을 위해서만 도 6 및 도 7에서 선택되었고, 자연적으로 일부 다른 파티셔닝이 또한 사용될 수 있음을 유의한다. 타일들은 참조 부호(90)를 사용하여 표시된다. 아래의 설명으로부터 명백해질 바와 같이, 구성된 비디오 데이터 스트림의 타일들은, 각각의 입력 비디오 데이터 스트림이 디스플레이될 수 있는 공간 부분의 가능한 공간 위치들을 표현한다. 도 6에 도시된 파노라마 애플리케이션 시나리오에서, 많은 입력 비디오 데이터 스트림들이 이용가능하며: 도 6의 예에서, 입력 비디오 데이터 스트림들(92) 모두가 파노라마 장면의 상이한 공간 부분을 캡쳐하고, 공간 부분들은, 예를 들어, 틈새없이 서로 경계가 이루어져 있고, 도 6에 도시된 바와 같이 열들 및 행들에서 어레이 방식으로 공간적으로 분배되어 있다는 점에서, 11x5 입력 비디오 스트림들(92)은 파노라마 비디오 장면을 커버하므로, 비디오들(92)은 열들 및 행들에 배열된 파노라마 장면 부분들과 각각 연관된다. 각각의 시간 인스턴트에서, 구성된 비디오 데이터 스트림은 자신의 3×3 타일들 내에서, 11×5 입력 비디오 데이터 스트림들(92)로부터 3×3 서브매트릭스만을 나타낸다.
도 7은, 시간 인스턴트 T=1에서 타일들의 새로운 포지션으로 인해, 스티칭된 비디오, 즉 구성된 비디오 데이터 스트림에서 사용되는 참조(그 참조는 도 7의 (94)에서 표시됨)가 도 7의 블록들(96)을 사용하여 예시된 인코더 측 상의 본래의 참조와는 상이할 것이어서, 도 6 및 도 7의 라인들을 이용하여 점선으로 도시된 리프레쉬되지 않은 부분들에 대해 시간 예측을 사용하는 것을 허용하지 않을 드리프트를 유도한다는 것을 예시한다. 따라서, 수신되었고 구성된/스티칭된 출력 신호의 새로운 포지션으로 재위치된 타일들은 또한, 랜덤 액세스를 요구하여, 시간 예측이 허용되지 않으며, 이는 수신된 구성된 비트스트림의 더 높은 비트레이트를 유도한다. GRP들이 개념은 이러한 문제점을 해결한다.
도 8은 도 6 및 도 7에 대한 전술된 문제점들을 해결하는 GRP 개념을 예시한다. GRP는, 도 1에서 (28)로 표시되었던 스트리밍 스위칭 포인트에서 그리고 그 이후에, 이전에 수신되었고, 구성된/스티칭된 비디오에서 새로운 포지션으로 변위되는 타일들(즉, 비디오의 영역들)의 시간 예측을 후속하는 픽처들이 사용할 수 있도록 정규 참조 픽처의 컨텐츠의 변위를 수행하는 픽처이다. GRP들은 참조를 위해서만 사용되며, 출력되지 않는다.
다음 애플리케이션의 장면으로 진행하기 전에, 도 1 내지 도 5의 실시예들이 몇몇 입력 비디오 데이터 스트림들을 사용하는 경우에 적용되는 경우, 직전에 언급된 실시예는 도 1을 도 8에 결합시킴으로써 간략히 설명된다. 특히, 도 6 내지 도 8에 대해 위에서 설명된 실시예들에 따르면, 도 5의 시스템은, 예를 들어, 파노라마 부분 비디오(92), 즉 도 6의 예시적인 실시예에서는 11×5 마다 하나의 비디오 인코더(70)를 포함할 것이다. 비디오 구성 장치(10)는, 예를 들어, 3×3 인바운드 비디오 데이터 스트림들의 서브어레이를 구성된 비디오 데이터 스트림으로 스티칭할 것이다. 서브어레이가 입력 비디오 데이터 스트림들(92)의 어레이에 걸쳐 이동할 때마다, 비디오 구성 장치(10)는 미출력 픽처들 또는 GRP들의 삽입을 수행하며, 여기서, 그 시간 인스턴트(28)에서의 삽입된 GRP들(30)은, 이미 시간 인스턴트(28)에 선행하는 서브어레이의 부분이었던 입력 비디오 데이터 스트림들에 대응하는 타일 포지션들에서 인공적인 모션 보상 사이드 정보를 포함할 것이다. 서브어레이의 대각 움직임의 경우에서, 이들은 수가 4인 반면, 수평 또는 수직 움직임은 각각의 스위칭 시간 인스턴트 이전에 그리고 이후에 6개의 데이터 스트림들을 공동-소유한다. 도 6의 경우에서, 예를 들어, 시간 인스턴트 이후, 즉 T=1에서 서브어레이의 일부인 4개의 입력 비디오 데이터 스트림들은 이미, 시간 인스턴트 이전, 즉 T=0에서 서브어레이의 일부였으며, 즉 그들은 음영을 사용하여 표시된다. 도 8의 시간 인스턴트(28)에서, 즉 승계된 픽처들(26) 사이에 삽입된 GRP 또는 GRP들은 이들 4개의 입력 비디오 데이터 스트림들이 이전에 포지셔닝되었던 타일들의 컨텐츠를 이들 4개의 입력 비디오 데이터 스트림들의 새로운 타일 포지션들에 병진 방식으로 카피할 것이다. 따라서, GRP(들)는 몇몇 입력 비디오 데이터 스트림들(14)에 대해 이를 병렬로 행할 수 있다. 이러한 파노라마 애플리케이션 시나리오의 경우에서, 인공적인 모션 보상 사이드 정보는, 현재 디스플레이되는 구성된 비디오 데이터 스트림에 남아있는 모든 입력 비디오 데이터 스트림들에 대응하는 공간 부분에 대한 병진 움직임을 인스턴스화할 것이다. 다음에 설명되는 애플리케이션 시나리오에서, 이것은 상이할 수 있고, 즉 GRP들에 대한 인공적으로 생성된 모션 보상 사이드 정보는 하나의 입력 비디오 데이터 스트림에 대해 병진적일 수 있지만, 모션 방향은 병렬로 핸들링되는 상이한 입력 비디오 데이터 스트림들에 대해 상이할 수 있다.
특히, GRP 개념이 도 5 내지 도 8에 대해 파노라마 스트리밍 애플리케이션의 맥락에서 위에서 설명되었지만, 상이한 예가 도 9에 대해 아래에서 제시된다. 이전에 언급된 바와 같이, GRP는 다른 애플리케이션들, 예를 들어, 비디오 화상회의를 또한 허용한다. 비디오 화상회의 시스템에서, 모든 참여자들의 비디오 비트스트림들은 대략적으로 유사한 방식으로 단일 비디오 비트스트림으로 구성/스티칭된다. 예를 들어, 스피커 변화 또는 참여자 변동을 통한 스피커 구성 레이아웃의 변화 시에, GRP들은, 구성에서 포지션을 변경했던 참여자 비디오 비트스트림들에 대해 정확한 시간 예측을 허용하기 위해 비트스트림에 부가된다. 그러한 애플리케이션에서, 각각의 GRP 내의 모션 벡터들은 GRP 전반에 걸쳐 반드시 일정하지는 않지만, 도 9에 예시된 바와 같이, 각각의 참여자의 비디오 비트스트림에 의해 커버되는 영역들에 대해서는 적어도 일정하며, 여기서, 2개의 상이한 구성들이 T=0 및 T=1에 대해 주어지고, GRP의 모션 벡터들이 또한 예시된다. 따라서, 이러한 경우에서, 각각의 스피커에 대해, 단일 코딩 유닛이 모션 벡터 정보를 갖고 인코딩된 그 스피커에 대한 코딩 유닛들의 나머지가 스킵되도록 레이아웃 방식에 대응하는 더 많은 슬라이스들 또는 타일들이 사용될 수 있다. 즉, 도 9의 GRP(30)는 도 3에 대해 위에서 제기된 설명과 유사한 방식으로 인코딩될 수 있으며: 픽처(30)는, 도 9의 경우에서 예시적으로는 3인 스위칭 인스턴트(28) 이전 및 이후에 존재하는 입력 비디오 데이터 스트림 당 하나의 공간 부분(20)을 초래하기 위해 세분될 수 있고, 공간 예측을 사용하여, 이들 3개의 입력 비디오 데이터 스트림들 각각에 대한 공간 부분의 변위는, 이들 3개의 입력 비디오 데이터 스트림들 각각에 대해, 즉 각각의 공간 부분 내에서 하나의 블록에 대해서만 단지 1회 인코딩될 수 있지만, 공간 예측은, 동일한 공간 부분 내의 나머지 블록들에 대해 각각의 입력 비디오 데이터 스트림의 병진 모션을 새로이 시그널링하는 것을 피하기 위해 각각 사용될 수 있다.
GRP 개념에 대한 추가적인 목표된 애플리케이션은, 입력 스트림들(14)에서 가변 랜덤 액세스 레이트들 및 스트리밍 제어를 이용하는 가상-현실 또는 원격-현실 사용 경우들에서 통상적으로 발견되는 헤드-장착된 디스플레이들로의 파노라마 스트리밍이다. 언급된 애플리케이션에서, 이용가능한 비디오 스트림들은 아마도, 카메라(들) 포지션에서 최대 360도 시야각을 커버한다. 유사하게, 이용가능한 시야각 비디오의 다소 큰 부분이 주변 시야를 제공하기 위해 사용자에게 동시에 제시된다. 또한, 헤드 움직임으로 인한 파노라마 비디오의 디스플레이된 영역의 조정은, 예를 들어, 터치-기반 입력 시스템들 상에서보다 훨씬 더 짧은 간격들 및 더 높은 속도로 발생할 가능성이 있다.
일부 경우들에서, 비디오 스트림에서 명확히 선호되는 관심있는(ROI) 영역, 예를 들어, 도 10에 예시된 바와 같은 원격으로 제어되는 차량 상의 움직임의 방향 등이 존재한다. 표시된다면, 즉각적인 액세스를 제공하기 위해 디스플레이되지 않더라도, 참조 비디오가 디코더 측에서 이용가능하도록 (즉, 계속 디코딩되도록) 의도되므로, 영역 내에 놓여있는 픽처 영역들은 더 조밀하지 않은(또는 제로) 랜덤 액세스 레이트로 인코딩될 수 있다. 다른 시야각들(주변 영역)은, 시야 방향의 가끔의 변화들을 위해 제공하도록 비교적 정밀한 랜덤 액세스 레이트를 제공한다. 이러한 시나리오에서, 스티칭된 비디오는 ROI 및 선택적으로는 주변 영역들의 부분들을 항상 포함한다. 그 후, GRP들은 제시된 비디오 영역에 의존하여 이전에 설명된 바와 같이 생성된다.
[1]에서 서술된 기술과 비교하여, 위에서 서술된 GRP 개념은 일부 확장들을 수반할 수 있으며, 다음의 리스트는, 입력 비디오 데이터 스트림들(14) 및 GRP들이 각각 준수하고 포함할 수 있는 제한들 및 속성들을 상세히 설명한다.
시간 모션 벡터 예측: 픽처들(22)의 에지 부분들에서의 모션 벡터들에 관련되는 일부 제한들과 같은 일부 비트스트림 제한들(그 제한들에 기초하여, 입력 비디오 데이터 스트림(14)이 생성됨)은 위에서 이미 논의되었다. 그에 부가하여, 시간 모션 벡터 예측(TMVP), 즉 모션 보상 사이드 정보의 시간 예측은, GRP들에 의해 대체될 수 있는 어떠한 픽처들도 TMVP에 대해 사용되지 않도록 제한될 수 있다. 통상적으로, 리스트된 예시적인 애플리케이션들에서, 이러한 포인트로부터 시간상 앞으로 ROI 또는 스피커 레이아웃을 변경시키기 위해 사용되는 정의된 스위칭 포인트들이 존재할 것이다. 예를 들어, 계층적인 예측 시간 확장성이 사용되면, 스위칭 포인트들은, 예를 들어, 이용가능한 시간 계층들의 일부 다른 서브세트의 시간 레벨 0 픽처들 또는 픽처들로서 선택될 수 있다. 이러한 경우에서, 시간 레벨 0을 갖는 어떠한 픽처도 TMVP에 대해 선택되지 않는데, 이는, 이러한 픽처가 가급적 GRP로 변경될 수 있기 때문이다. 대안적으로, TMVP는, 예측 구조에 의해 결정된 픽처들/시간의 양에 대한 스위칭 포인트들에서 모든 시간 레벨들에 대해 디스에이블링될 수 있다. GOP 구조는, 스티칭된 픽처들이 동일한 값의 시간 레벨 표시자를 갖고 재기록 프로세스가 간략화되도록, 비트스트림들에 걸쳐 일정하게 유지될 수 있다.
참조 픽처 세트들: 수신기/디코더에서 요구된 메모리의 증가를 회피하고 필수적으로 디코딩되는 픽처 버퍼(DPB) 사이즈를 감소시키기 위해, 입력 비디오 데이터 스트림들이 동일한 예측 구조 전체를 사용하는 것이 바람직하므로, 입력 비디오 데이터 스트림들(예를 들어, 타일들)이 동기식 방식으로 믹싱/스티칭/구성되는 경우, 특히 일부가 I 슬라이스를 갖고 일부가 P 또는 B 슬라이스들을 갖는 경우, 참조 픽처 세트(RPS)의 양 및 사이즈는 최소로 유지될 수 있다. 일관된 RPS들은, 예를 들어, 하나의 입력 비디오 데이터 스트림의 HEVC IDR 또는 CRA가 구성된 비디오 데이터 스트림에서 I 슬라이스를 갖는 트레일링 픽처로 변환되는 경우 선택될 수 있고, I 슬라이스 타일이 믹싱/스티칭되는 타일들의 RPS와 매칭하는 비워져 있지 않은 RPS가 선택될 수 있으며, 참조로서 I 슬라이스만을 사용하는 다음의 슬라이스들에 대해, (다른 타일들에) 코히런트한 RPS가 표시될 수 있고, I 슬라이스를 고유한 참조 픽처로서 식별하는 신택스 구조들, 참조 픽처 리스트에 대한 신택스 구조들 및 픽처 인덱스는 슬라이스들에 부가되어야 한다.
픽처 순서 카운트(POC): GRP들(30)의 삽입/부가는, 한편으로 입력 픽처들(22) 및 대응하는 승계된 픽처들(26)의 POC 값들을 비교하는 경우 POC 값들을 추가적으로 변경시키는 장치(10)에 의해 달성될 수 있다. GRP들의 POC 차이는 대체된 본래의 픽처들과 동일하게 유지되며, 이는, DPB 더하기 1의 모든 픽처들의 가장 큰 POC 차이보다 크거나 그와 동일한 POC 델타를 정의함으로써 달성될 수 있다. 이러한 POC 델타는, 그것을 DPB 내의 대체된 픽처의 POC에 부가함으로써 POC 값을 계산하도록 GRP들에 대해 사용된다. 최종 IDR로부터의 모든 POC 델타들의 합산은 슬라이스 헤더로부터 도출된 POC 값에 부가될 수 있다. 추가적으로, 추가적인 고레벨 신택스 구조들은 적응을 요구할 수 있으며, 예를 들어, HEVC를 사용하는 경우에서, VPS 내의 vui_poc_proportional_to_timing_flag는 출력 스트림에서 셋팅되지 않을 수 있다.
인-루프 필터들: 추가적으로, 예측을 통해 공간적으로 재위치되는 경우(화살표들(34)) 본래의 입력 비디오 스트림 픽처들(22)의 변형으로 인해 GRP(들)(30)에 후속하는 픽처들의 예측 드리프트를 회피하기 위하여, HEVC의 디블록킹 및 샘플 적응 오프셋 필터와 같은 GRP들(30)의 인-루프 필터들은, 예를 들어, PPS에서 디스에이블링되어야 하며, 즉 비디오 인코더(70)에 의해 수행되는 인-루프 필터링의 상단 상의 어떠한 추가적인 인-루프 필터링도 GRP들(30)에 적용되지 않을 수 있다.
타일들 및 슬라이스들: 데이터의 삽입된 양을 감소시키기 위해, 장치(10)는, 그것이 불필요한 시그널링 오버헤드를 도입하므로, 타일들 및 슬라이스들을 통한 GRP들의 구성을 최소로 유지할 수 있다. 그러나, 스티칭된 픽처들 또는 임의의 다른 것과 유사한 타일/슬라이스 셋업은 요구된/바람직한 구현 또는 소스 비디오 단위일 수 있다.
출력 신호화: 위에서 설명된 바와 같이, 구성된 비디오 데이터 스트림에 기저가 되는 비디오 코덱은 GRP들에 대한 출력 속성의 신호화를 가능하게 하며, 즉 그 GRP들은 출력되지 않고, 예를 들어, HEVC 슬라이스 헤더들에서 output_flag를 통하여 참조를 위해 사용된다. 슬라이스 헤더 내의 그러한 신택스 엘리먼트의 존재는, 추가적인 PPS를 참조하는 슬라이스에서 자신의 존재를 시그널링하는 그 추가적인 PPS를 요구할 수 있다.
파라미터 세트 삽입: GRP들은 반드시, 그들 각각의 파라미터 세트들에서 시그널링되는 모든 속성들을 스트림의 다른 픽처들과 공유할 필요는 없다. 따라서, GRP들이 참조할 출력 비트스트림으로 추가적인 파라미터 세트들을 삽입하는 것이 바람직할 수 있다.
GRP NAL 유닛(들): 가장 큰 가능한 사이즈의 코딩 유닛(CU)들 또는 블록들을 사용함으로써 GRP들을 인코딩하는 것은, 가능한 적은 비트들을 생성하기 위해 바람직하다. 제 1 CU 또는 블록은 도 3에 대해 서술된 바와 같이 인코딩될 수 있으며, 픽처의 필요한 변위, 즉 얼마나 많은 픽셀들이 존재하는지 및 각각의 타일(들)이 어떤 방향으로 이동되는지를 표시한다. CU들 또는 블록들의 나머지는, 움직임이 각각의 공간 부분의 모든 CU들에 대해 동일하므로, 스킵 모드 등으로 인코딩된다. 그러나, 입력 스트림들의 CU 사이즈들 또는 픽처 영역 당 개별 모션은 더 작은 CU 사이즈들을 유발할 수 있다. GRP 슬라이스는, 요구되는 경우 참조를 위해 필요하지 않은 것으로서 대체된 픽처들을 마킹하는 SPS에 새로운 RPS 또는 RPS들에 대한 인덱스를 포함할 수 있다. 후자는, 일단 픽처들이 GRP들에 의해 대체되고 추가적인 GRP들이 포함되면, 추가적인 GRP들의 RPS들이 DPB 메모리 요건을 낮게 유지하기 위해 본래의 픽처들에 대한 참조들을 포함하지 않는다는 것을 의미한다.
SPS 일관성: IDR들은, 이전의 활성 SPS와는 상이한 값들로 새로운 SPS를 활성화시킬 수 있다. 그러나, 단일 비트스트림에서 상이한 비트스트림들을 함께 스티칭할 수 있기 위해, 상이한 스트림들의 SPS들이 일관적이라는 것이 요건이다. 트레일링 픽처의 I 슬라이스에 IDR을 재기록하고 다른 비 I 슬라이스들과 스티칭되기 위해, 그것은, 이전의 활성 SPS의 것과는 상이한 신택스 엘리먼트들을 이용하여 SPS를 활성화시키지 않아야 한다.
위의 설명에 대해, 예를 들어, 슬라이스 데이터 또는 슬라이스 페이로드 섹션(42)의 형태의 GRP들(30)이 삽입을 위해 사전 인코딩될 수 있음을 유의해야 한다. 즉, 장치(10)는, 계획된 입력 데이터 스트림 구성들과 매칭하는 그러한 사전 인코딩된 GRP들(30)의 세트들을 가질 수 있다. 이러한 방식으로, 그러한 GRP들은, 그들의 슬라이스 페이로드 컨텐츠가 픽처 치수들, 변위 또는 타일 구조와 같은 고레벨 파라미터들에만 의존하므로, 구성된 비디오 데이터 스트림들(18)로 삽입될 수 있다. 예를 들어, 이것은, 예를 들어, H.264/AVC 또는 HEVC 코딩된 컨텐츠에 대한 맥락-적응적 바이너리 산술 코딩(CABAC) 엔진과 같은 실제 엔트로피 코더들 없는 구현을 허용한다.
위에-서술된 실시예들 내에서, 몇몇 입력 비디오 데이터 스트림들을 하나의 구성된 비디오 데이터 스트림으로 구성했던 실시예들이 존재했다. 다음에서, 약간 상이한 개념을 사용하여, 구성된 비디오 데이터 스트림 또는 복수의 입력 비디오 데이터 스트림들의 구성을 달성하는 실시예들이 설명된다. 도 11은, 복수(104)의 입력 비디오 데이터 스트림들(1051, 1052 ... 105N)을 수신하기 위한 입력(102) 및 구성된 비디오 데이터 스트림(108)을 출력하기 위한 출력(106)을 갖는 장치(100)를 도시한다. 입력 비디오 데이터 스트림들의 인덱스는 다음의 설명에서 종종 생략된다. 입력 비디오 데이터 스트림들(105) 및 구성된 비디오 데이터 스트림(108)은 모션 보상된 시간 예측을 사용하여 인코딩된다.
더 상세히 아래에서 서술되는 방식으로, 도 11의 비디오 구성 장치(100)는, 인바운드 비디오 데이터 스트림들(105)로부터 비디오를, 도 1 내지 도 10에 대해 위에서 설명된 실시예들과 비교하여 증가되는 구성 자유도로 구성할 수 있지만, 구성된 비디오 데이터 스트림(100)에 걸쳐있는 공간 치수 공간으로 픽처 수를 확대하는 비용을 치뤄야 한다. 일반적으로 말하면, 도 11의 비디오 구성 장치(100)는, 출력되지 않을 구성된 비디오 데이터 스트림(100)의 참조 부분 내에 입력 비디오 데이터 스트림들(105)을 "숨기는" 반면, 비디오 구성 장치(100)에 의해 종합적으로 생성되는 구성된 비디오 데이터 스트림의 추가적인 부분은, 모션 보상된 시간 예측을 통해 참조 부분으로부터 다양한 영역들을 참조함으로써, 대조된 비디오를 구성한다. 종합적으로 생성되는 컨텐츠의 후자의 부분은, 디코딩 측에서 실제로 출력될 구성된 비디오 데이터 스트림(100)의 부분이다.
즉, 도 11의 개념에 따르면, 다수의 입력 비디오 데이터 스트림들(105)은, 단일 디코더에 공급되는 경우 다수의 입력 비디오 데이터 스트림들/비트스트림들(105)의 공간 구성을 생성하는 단일의 출력 비디오 데이터 스트림/비트스트림(108)을 생성하도록 장치(100)에 의해 압축 도메인에서 프로세싱된다. 도 12는, 출력 비트스트림(108)을 디코딩함으로써 달성되는 의도된 구성(110)을 구성하기 위해, 하나의 입력 비트스트림(스트림 1)(1051)의 컨텐츠가 다른 입력 비트스트림(스트림 2)(1052)의 부분들로 오버레이되는 제 1 예시적인 사용 경우를 예시한다. 더 상세히 아래에서 서술되는 방식으로, 이를 위해, 출력 데이터 스트림(108)은, 모션 보상된 시간 예측을 통해 참조 부분(112)을 참조하는 실제로 출력될 구성 부분 및 입력 데이터 스트림들(1051 및 1052)의 비디오 컨텐츠를 운반하는 참조 부분(112)을 포함한다. 도 12에서, 상이하게 음영표시된 화살표들은 입력 비디오 데이터 스트림들(105)로부터의 사용된 참조된 영역들을 예시한다. 즉, 그 화살표들은 부분(114)에서 구성된 비디오 컨텐츠의 생성을 위한 예측 벡터들을 예시한다. 더 많은 세부사항들이 아래에서 제시된다.
도 11을 다시 참조하면, 비디오 구성 장치(100)는, 복수(104)의 입력 비디오 데이터 스트림들(105)의 예측 잔여 데이터 및 모션 보상 사이드 정보를 수집하고 제 1 부분(112)으로 카피함으로써, 복수의 입력 비디오 데이터 스트림들(105)을 구성된 비디오 데이터 스트림(108)의 픽처들(116)의 참조 부분(112)으로 멀티플렉싱한다. 구성된 비디오 데이터 스트림(108)의 픽처들(116)의 제 2 부분(114)은, 모션 보상된 시간 예측을 통해 참조 부분(112)을 참조함으로써, 종합적으로 생성된 대조된 비디오로 채워진다. 참조 부분이 출력되지 않도록 데이터 스트림(108)에서 시그널링되는 반면, 제 2 부분(114)은 출력되도록 시그널링된다.
아래에서 더 상세히 서술될 바와 같이, 입력 비디오 데이터 스트림들(105)을 참조 부분(112)으로 어떻게 멀티플렉싱할지에 대한 몇몇 가능성들이 존재한다. 소정의 입력 비디오 데이터 스트림(105i)에 의해 운반된 "비디오 양"이, 예를 들어, ni×mi와 같은 각각의 입력 비디오 데이터 스트림(105i)의 픽처(118) 당 샘플들의 수 곱하기 ti와 같은 초당 픽처들의 수를 나타낸다고 하고, 추가적으로, no×mo와 같은 대조된 비디오의 픽처당 샘플들의 수 곱하기 초당 픽처들의 수로서 제 2 부분(114)의 양을 나타낸다고 하며, 그 후, 대조된 비디오 데이터 스트림(108)은, 예를 들어, 초당 적어도
Figure pct00001
개의 샘플들을 포함한다. 비디오 입력 데이터 스트림들 중에서의 픽처 사이즈 변경들은, 도 15를 참조하여 설명될 바와 같이, 최소 사이즈에 부가되는 더미 데이터 채워진 영역들을 유도할 수 있다. 입력 비디오 데이터 스트림들(105)이 어떻게 숨겨질 수 있는지 또는 참조 부분(112)으로 멀티플렉싱될 수 있는지에 대한 다양한 방식들이 존재한다. 이를 위해, 예를 들어, 참조 부분(112)은, 크롭될 구성된 비디오 데이터 스트림(108)의 출력 픽처들의 픽처 영역들 및/또는 미출력 픽처들을 포함할 수 있다. 더 많은 세부사항들이 다음에서 설명된다.
즉, 도 11의 개념은, 멀티플렉싱을 통해 새로운 단일 출력 비트스트림(108)의 부분(112)을 생성하기 위해 몇몇 입력 비트스트림들(105)을 사용한다. 단일 시간 인스턴트에서 출력될 구성을 형성하도록 의도되는 입력 비트스트림들(105)의 픽처들(118) 또는 그 픽처들의 부분들은, 다음에서 참조 픽처(PSR)들의 세트 내의 픽처들로 지칭된다.
도 13 및 도 14에 대해, 입력 비트스트림들(105)을 참조 부분(112)으로 멀티플렉싱하기 위한 2개의 대안들이 다음에서 더 상세히 설명된다. 제 1 대안은 도 13에 대해 제시되고 예시된다. 도 13은, 2개의 입력 비디오 데이터 스트림들(105) 둘 모두가 GOP 구조를 참조하는 IPPP를 사용하는 예를 예시하지만, 이것은 단지 예시의 목적들을 위해서만 도 13에서 선택되었다. 도 13의 예시적인 2개의 입력 비디오 데이터 스트림들(1051 및 1052)은, 시분할 멀티플렉싱을 사용하여, 구성된 비디오 데이터 스트림(108)의 픽처들(116)의 적어도 서브세트의 공간적으로 정적인 공간 부분(118)으로 멀티플렉싱된다. 즉, 도 13의 경우에서, 픽처들(118)은 데이터 스트림(108)의 픽처들(116)의 적어도 서브세트를 채우기 위해 교대로 사용되어, 도 13에 예시된 바와 같이, 데이터 스트림(108)의 연속하는 픽처들(116)의 쌍이 입력 데이터 스트림(1051)의 하나의 픽처(118) 및 다른 입력 비디오 데이터 스트림(1052)의 하나의 픽처로 채워진 그의 공간적으로 정적인 공간 부분(119)을 갖게 하며, 예를 들어, 그 2개의 픽처들은 동일한 시간 인스턴트에서 구성 비디오를 형성하도록 의도되고, 2개의 입력 비디오 데이터 스트림들(1051 및 1052)에서 동일한 인스턴트에 속한다. 예를 들어, 입력 비디오 데이터 스트림(1051)의 픽처들(118)은 입력 비디오 데이터 스트림(1052)의 픽처들(118)과 동일한 사이즈를 가질 수 있고, 즉, n1 = n2 및 m1 = m2 이므로, 구성된 비디오 데이터 스트림(108)의 픽처들(116)의 적어도 서브세트 내의 동일한 사이즈의 각각의 공간적으로 정적인 공간 부분(119)은, 이들 입력 비디오 데이터 스트림들(105)의 각각의 픽처들(118)의 모션 보상 사이드 정보 및 예측 잔여 데이터를 수집 및 카피함으로써 채워진다. 그러나, 그에 따라서 도 13에 도시되지만, 다른 한편으로는, 입력 비디오 데이터 스트림들(1051 및 1052)의 픽처들(118)은 상이한 사이즈를 가질 수 있다. 따라서, 출력 비디오 데이터 스트림의 참조 부분(112)에서, 입력 비디오 데이터 스트림들(1051 및 1052)의 픽처들(118)은, 다음에서 백-투-백(B2B)으로 지칭되는 방식으로 서로에 후속한다. 즉, 소정의 시간 인스턴트에서 구성을 형성하도록 의도된 픽처들은 별개의 POC 값들을 갖는 개별 픽처들로서, 구성된 비디오 데이터 스트림에서 서로에 후속한다. 출력 비디오 데이터 스트림(108)에서의 입력 비디오 데이터 스트림들(1051 및 1052)의 픽처들(118)의 시간 인터리빙으로 인해, 장치(10)는, 픽처들(118)의 컨텐츠가 채용되는 픽처들(116)의 POC 값들에서의 변화를 고려하기 위해, 입력 비디오 데이터 스트림들(1051 및 1052)의 픽처들(118)의 슬라이스들의 슬라이스 헤더들에서의 참조 픽처 순서 카운트 차이값들의 세트로 참조 픽처 순서 카운트 차이값들 또는 참조들을 수정할 수 있다.
예를 들어, 도 13에서, 입력 비디오 데이터 스트림(1051)의 2개의 픽처들은 데이터 스트림(108)의 출력 픽처들(116)의 부분(119)을 채우기 위해 사용되는 것으로 예시된다. 본래의 입력 비디오 데이터 스트림(1051)의 IPPP 참조 구조 덕분에, 화살표(120)를 사용하여 표시된 바와 같이, 이들 픽처들 중 첫번째는 이들 픽처들의 2번째의 참조 픽처를 형성한다. 구성된 비디오 데이터 스트림(108)에서 이러한 참조을 유지하기 위해, 장치(10)는, 입력 비디오 데이터 스트림(1051) 내의 대응하는 픽처들이, 예를 들어, 픽처들(116)의 좌측 상단 코너들의 작은 수들 "1" 및 "2"에 의해 예시된 바와 같이 POC 차이 1을 갖는 반면, 각각의 입력 픽처들(118)로 채워진 공간 부분(119)을 갖는 출력 비디오 데이터 스트림(108)의 출력 비디오 데이터 스트림의 픽처들(116) 사이의 POC 값은 이제 2, 즉 3-1의 POC 차이를 갖는다는 사실을 고려할 수 있다. 동일한 것이, 참조 부호(122)로 표시된 바와 같이, 입력 비디오 데이터 스트림(1052)의 픽처들 사이의 시간 예측(122)에 대해 적용된다.
따라서, POC 및 RPS와 같은 고레벨 신택스 정보로의 장치(10)에 의한 조정들이 수행될 수 있는 동안, 비디오 인코더들에 의해 입력 비디오 데이터 스트림들(1051 내지 105N)을 생성할 시의 자유도는 도 1 내지 도 10에 대해 위에서 설명된 실시예들에 비해 증가될 수 있다. 예를 들어, 도 13의 백-투-백 접근법이 타일들을 사용하는 입력 픽처들(118)의 스티칭을 수반하므로, 인코더-디코더 미스매치들이 발생하지 않을 수 있다.
입력 비디오 데이터 스트림들(105)의 픽처들(118)의 픽처 컨텐츠를 구성된 비디오 스트림(108)의 참조 부분(112)으로 멀티플렉싱하는 제 2 가능성이 도 14에 도시된다. 여기서, 입력 비디오 데이터 스트림들(105)의 픽처들을 데이터 스트림(108)으로 멀티플렉싱하기 위해 공간 분할 멀티플렉싱이 사용된다. 입력 비디오 데이터 스트림들(1051 및 1052)은 구성된 비디오 데이터 스트림(108)의 픽처들(116)의 상이한 타일들(122 및 124)을 점유한다. 특히, 도 14는, 도 13의 경우에서와 동일한 참조 구조의 예시적인 사용을 예시한다. 여기서, PSR들은, [1]에서 설명된 바와 같이 그리고/또는 도 6 내지 도 10에 대해 위에서 설명된 바와 같이 함께 스티칭된다. 여기서, 도 13과 비교하면, 출력 비트스트림의 픽처 사이즈, 즉 픽처들(116)의 사이즈는 스티칭된 PSR들의 공간 치수들에 의존하여 개별 입력 비트스트림들에 대해 증가한다. 즉, 도 14의 경우에서, 장치(10)는, 예를 들어, 제 1 입력 비디오 데이터 스트림(1051)의 픽처(118)로 제 1 타일(122) 내의 하나의 픽처(116)를 채우고, 비디오 데이터 스트림(1052)의 시간적으로 정렬된 픽처(118)로 동일한 픽처(116)의 다른 타일(124)을 채운다. 예를 들어, 구성된 비디오 데이터 스트림(108)의 다음의 픽처(116)는, 입력 비디오 데이터 스트림(1051)의 다음의 픽처(118)를 사용하는 타일(122) 및 입력 비디오 데이터 스트림(1052)의 시간적으로 정렬된 픽처(118)를 사용하는 타일(124)에서, 도 1 내지 도 13에 대해 위에서 이미 서술된 수집 및 카피 접근법을 사용하여 채워진다. 따라서, 입력 비디오 데이터 스트림들(115)의 상이한 스트림들의 시간적으로 정렬된 픽처들(118)은, 구성된 비디오 데이터 스트림(108)의 하나의 픽처들(116)의 상이한 타일들로 채용되며, 따라서, 비디오 데이터 스트림(108)에서, 도 14에 도시된 입력 비디오 데이터 스트림들(1051 및 1052)의 제 1 픽처들(118)에 대해 t(1) 및 이들 입력 비디오 데이터 스트림들(1051 및 1052)의 제 2 픽처들에 대해 t(2)에서 표시된 하나의 공통 POC 값과 연관된다. 더 상세히 아래에서 설명되는 바와 같이 제 2 부분(114)이 데이터 스트림(118)에 부가되는 방식에 의존하여, 장치(10)는, 입력 비디오 데이터 스트림들(105)에 대해, 구성된 비디오 데이터 스트림(108)의 참조 픽처 순서 카운트 차이값들의 세트로 참조 픽처 순서 카운트 차이값들 및/또는 참조들을 수정할 수 있거나 수정하지 않을 수 있다. 예를 들어, 더 상세히 아래에서 설명될 바와 같이, 그것은, 대조된 비디오 부분(114)이 참조 부분(112)에 공간적으로 부착되는 방식으로, 구성된 비디오 데이터 스트림(108) 내에서 운반된다는 것일 수 있으며, 그 경우에서, 구성된 비디오 데이터 스트림(108)은, 입력 비디오 데이터 스트림들(105)을 사용하여 채워진 타일들(122 및 124)을 갖는 픽처들을 넘어서는 임의의 픽처들(16)을 포함하지 않을 수 있으므로, 예를 들어, 시간 예측(120 및 122)에 대한 상대적인 POC 차이 참조가 동일하게 유지된다. 대조된 비디오 부분(114)의 구성된 비디오 데이터 스트림(108)으로의 삽입이 추가적인 픽처들(116)의 구성된 비디오 데이터 스트림(108)으로의 삽입을 유도하면(도 14에 도시되지 않음), 장치(10)는 그에 따라, 픽처 순서 카운트 값, 참조 픽처 순서 카운트 차이값들 또는 참조들과 같은 고레벨 신택스 구조들을 참조 픽처 순서 카운트 차이값들의 세트들로 수정할 수 있다.
따라서, 도 14의 경우에서, 도 14에 예시된 바와 같이, 입력 비디오 데이터 스트림들의 픽처들(118)이, 예를 들어, 동일한 사이즈 n×m을 갖는 경우, 참조 부분(112)은, 예를 들어, 참조 부분(112)에 속하는 구성된 비디오 데이터 스트림(108)의 픽처들(116)로부터 공간적으로 2×n×m개의 샘플들을 소비한다.
상이한 입력 비디오 데이터 스트림들(105)의 픽처들(118)이 동일한 사이즈를 갖는다는 후자의 가정은 반드시 충족될 필요는 없다. 둘 모두의 경우에서, 상이한 입력 비디오 데이터 스트림들(105)의 픽처들(118)은 상이한 사이즈를 가질 수 있다. 그 경우에서, 도 15에 대해 다음에서 설명되는 바와 같이, 구성된 비디오 데이터 스트림(108)의 일부 영역들은 더미 컨텐츠로 채워질 수 있다.
도 15는, 도 12가 행하는 것과 같이 대조된 비디오를 형성하는 방식을 개략적으로 도시하지만, 입력 비디오 데이터 스트림(1052)의 픽처들(118)이 입력 비디오 데이터 스트림(1051)의 픽처들보다 더 작은 사이즈를 갖는 경우를 예시한다. 도 14에 대해 위에서 제시되었던 스티칭된 참조 접근법에서, 이것은, 제 1 입력 비디오 데이터 스트림(1051)의 픽처들의 사이즈가 n1×m1 이고 제 2 입력 비디오 데이터 스트림(1052)의 픽처들의 사이즈가 n2×m2 라고 가정하면, 참조 부분(112)에 속하는 한 출력 데이터 스트림(108)의 픽처(116) 당 (n1+n2)×m1 개의 샘플들의 영역을 공간적으로 소비하는 참조 부분(112)을 초래할 것이다. 그 경우에서, 참조 부분(112)의 각각의 픽처(116) 내의 직사각형 영역은, 예를 들어, 더미 정보(130)로 채워질 수 있다. 자연적으로, 입력 비디오 데이터 스트림들(1051 및 1052)의 픽처들은 대안적으로, 도 14 및 도 15에 예시적으로 도시된 바와 같이 수평보다는 서로에 수직으로 스티칭될 수 있다. 직전에 서술된 방법을 도 13에 대해 위에서 예시된 B2B 접근법으로 번환하는 것은, 예를 들어, 입력 비디오 데이터 스트림(1052)의 픽처(118)로 채워진 공간 부분(119)을 갖는 구성된 비디오 데이터 스트림의 각각의 픽처(116)가 더미 데이터로 채워진 (n1×m1)-(n2×m2) 개의 샘플들의 채워지지 않은 부분을 갖는다는 것을 의미할 수 있다. 예를 들어, 입력 비디오 데이터 스트림들(1051 및 1052)의 픽처들(118) 모두는, 채워질 더미 부분이 부분(119)의 하단 및 우측을 따른 L-형상일 수 있도록 정적 공간 부분(119)의 좌측 상단 코너에 등록될 수 있다.
구성된 비디오 데이터 스트림(108)의 대조된 비디오 부분(114)의 사이즈가 도 15의 제 1 및 제 2 입력 비디오 데이터 스트림들(1051 및 1052)의 픽처들 중 더 큰 픽처의 사이즈와 일치한다는 것을 도 15가 예시한다는 사실은 단지 예시의 목적들을 위해서만 선택되었다.
따라서, 도 15는, 디코딩되는 경우, 입력 비디오 데이터 스트림들에는 임의의 컨텐츠를 갖는 더미 슬라이스들이 수반될 수 있으며, 대조된 비디오 부분 또는 SLCP(114)에 의한 참조를 위해 사용되지는 않는다는 것을 예시했다. 도 15에서 관측될 수 있는 바와 같이, 더미 슬라이스들은, B2B 접근법에서 모든 입력 비트스트림들(105)의 공간 이미지 치수들 둘 모두를 정렬시키거나, 필요하면 적어도 하나의 이미지 치수를 정렬시킴으로써 스티칭을 허용하기 위해 사용될 수 있다.
단지 예시의 목적들을 위해, 다음의 설명들 모두는 스티칭된 참조 접근법을 이용하지만, 이들 다음의 설명들 모두는 대안적으로, B2B 접근법을 사용하여 또한 구현될 수 있음을 유의한다.
도 15가 공간 치수의 관점들에서 입력 비디오 데이터 스트림들 사이의 차이들을 어떻게 처리하는지의 가능성을 예시했던 반면, 도 16은, 장치(10)가 상이한 프레임 레이트들의 입력 비디오 데이터 스트림들(105)을 처리하는 가능성을 예시한다. 상이한 프레임 레이트들의 입력 비트스트림들(105)은, 모든 입력 비트스트림들(105) 중에서 직면되는 최대 프레임 레이트로 더 낮은 프레임 레이트들의 입력 비트스트림들(105)을 리샘플링함으로써 장치(10)에 의해 참조 부분(112)으로 멀티플렉싱될 수 있다. 구성된 비디오 데이터 스트림(108)에서 프레임 레이트들을 정렬시키기 위한 하나의 방식은, 도 16에 예시된 바와 같이, 참조를 위해 사용되지 않는 더미 슬라이스들을 선택적으로 부가하고 다수의 연속하는 SLCP들에서 동일한 참조 픽처(영역)를 사용하는 것에 의한 것이며, 여기서, 입력 비디오 데이터 스트림(1052)의 프레임 레이트는 예시적으로는 입력 비디오 데이터 스트림(1051)의 프레임 레이트의 절반이고, SLCP들은 가장 높은 이용가능한 프레임 레이트, 즉 입력 비디오 데이터 스트림(1051)의 프레임 레이트에서 생성된다. 유사하게, 예를 들어, SLCP들의 프레임 레이트는, 예를 들어, 구성을 위해 입력 비디오 데이터 스트림(들)의 이들 더 높은 프레임 레이트의 일부 참조 픽처들을 사용하지 않음으로써 입력 비디오 데이터 스트림들 중에서 최대 프레임 레이트보다 작을 수 있다.
RPS들은, PSR들에 의해 필요한 참조들이 모든 멀티플렉싱된 스트림들에 대한 필수적인 참조 픽처들을 포함한다는 그러한 방식으로 장치(10)에 의해 셋팅되어야 한다. B2B 접근법에 대해, 동일한 시간 인스턴트에 속하는 참조들이 공통 POC를 공유하지 않는 경우, 이것은 필연적으로, 각각의 개별 RPS의 사이즈의 증가를 도입한다. 스티칭된 참조 접근법에 대해 그리고 (실제 RPS들 및 RPS에 대한 참조들의 관점들에서) RPS가 정렬되는 경우, 사이즈 또는 양에서의 증가는 최소이다.
직접적인 구현은, 예를 들어, 참조 픽처들 및/또는 SLCP 픽처들의 슬라이스 헤더들에서 새로운 RPS를 시그널링할 수 있지만, 이것은 시그널링 오버헤드를 유도할 수 있다. 그러나, 이것은, 프로세스가 후속 송신 없이 최종 디바이스 상에서 수행되는 경우 무시가능하다. 프로세스가 최종 디바이스에 멀리 떨어져 있는 클라우드 서버와 같은 원격 엔티티 상에서 수행되고 후속하여 최종 디바이스로 송신되는 경우, 시그널링 오버헤드를 최소화시키기 위해 파라미터 세트들에서 RPS들을 적절하게 조정하는 것이 유익할 수 있다.
각각의 시간 인스턴트 동안 각각의 PSR들을 초래하기 위해 참조를 위한 입력 스트림들(104)을 출력 비디오 데이터 스트림(108)의 참조 부분으로 합병/멀티플렉싱한 이후, B2B 또는 스티칭된 참조 픽처 부분(112)에 대한 시간 예측 참조에 의한 구성을 포함하는 추가적인 SLCP 슬라이스 데이터가 생성되고 부분(114)로서 데이터 스트림(108)에 부가된다. 이러한 구성된 SLCP는 디코더 및/또는 디스플레이에 의한 최종 사용자로의 출력을 위해 의도된다. SLCP는, 샘플 예측을 통해 이미지 컨텐츠들의 구성을 생성하기 위해 PSR들 내의 픽셀 포지션들을 포인팅하는 예측/모션 벡터들과 같은 모션 보상 사이드 정보로 구성될 수 있다.
장치(10)가 픽처 순서 카운트-공간 액세스-공간에서 참조 부분(112)에 대해 부분(114)을 포지셔닝하기 위한 다양한 가능성들은 존재하며, 이들 중 일부는 도 17, 도 18a 및 도 18b에 대해 아래에서 제시된다.
출력 비트스트림(108) 내의 SLCP들의 포지션은, 적용된 참조/멀티플렉싱 접근법에 의존하여 선택될 수 있다. 예를 들어, 도 13에 대해 위에서 제시된 B2B 참조 접근법에 대해, SLCP 슬라이스 데이터는, 입력 픽처들(118)이 멀티플렉싱되는 출력 비트스트림(108)의 픽처들(116)에 특유한 POC들을 갖는 개별 픽처들의 형태로 출력 비트스트림(108)으로 멀티플렉싱될 수 있다. 특히, 이러한 경우에서, 부분(114)은, 도 13에 도시된 참조 픽처들 내에 산재된 출력 픽처들을 포함할 것이며, 출력 픽처들은 참조된 PSR들에 따라 시간적으로 배열된다. 이것은 도 17에 예시적으로 예시되며, 이는, 그러한 한에 있어서 부분(114)에 의해 도 13에 도시된 바와 같이 B2B 접근법을 확장시킨다.
즉, 도 17에 따르면, 장치(10)는, 비트스트림(108)의 참조 부분들(112)을 형성하기 위하여 시분할 멀티플렉스에 의해, 구성된 비디오 비트스트림(108)의 각각의 픽처들(116)로 인바운드 입력 비디오 비트스트림들(1051 및 1052)의 픽처들(118)을 멀티플렉싱하며, 참조 부분(112)을 형성하는 픽처들(116)을 모션 보상된 시간 예측(130)을 통해 참조하는 데이터로 채워진 추가적인 픽처들(116)을 이들 픽처들 사이에 개재한다. 도 17의 예에서, 부분(114)에 속하는 픽처들(116)의 전체 영역은 디스플레이/출력되기 위해 전용될 수 있다. 대안적으로, 그의 서브-부분만이 출력되기 위해 전용될 수 있으며, 나머지 부분들은 크롭-아웃된다. 특히, 장치(10)는, 하나의 시간 인스턴트에 속하고 따라서 참조 픽처들의 세트를 형성하는 참조 부분(112)의 픽처들(116)이 서로에 바로 연속하도록, 서로 시간적으로 등록되는 방식으로 참조 부분(112)에 속하는 픽처들(116) 사이에 픽처(116)를 배치할 수 있으며, 부분(114)의 일부인 픽처들(116)은, 입력 비디오 데이터 스트림들(105)의 픽처들 또는 동일한 시간 인스턴트로부터 수집 및 카피함으로써 채워지는 참조 부분(112)의 그러한 픽처들(116) 사이에 개재된다. 위에서 이미 나타낸 바와 같이, 부분(114)에 속하는 픽처들(116)의 프레임 레이트는 입력 비디오 비트스트림들(105)의 픽처들의 프레임 레이트와 동일할 수 있다. 도 17의 경우에서, 출력 데이터 스트림(108)의 픽처들(116)은, 비트스트림(108)의 미출력 픽처들인 것으로 장치(10)에 의해 표시될 것이지만, 부분(114)을 형성하는 픽처들(116)은 출력 픽처들, 즉 디코딩 측에서 출력될 픽처들로 시그널링될 것이다. 간단하게, 도 17은, 시분할 멀티플렉스를 사용하여 입력 픽처들(118)로 채워짐으로써 참조 부분(112)을 형성하는 픽처들(116) 사이의 부분(114)에 속하는 픽처들(116)의 배치가 부분(114)에 속하는 픽처들(116)의 비-삽입과 비교하여 레이트를 증가시키는 더 높은 POC를 유도한다는 것을 표시한다는 것을 유의하며, 그 사실은, 시간 예측 참조, 즉 참조 픽처 순서 카운트 차이값들 및 슬라이스 헤더들 및/또는 참조들의 참조 픽처 순서 카운트 차이값들의 세트로의 변형을 관리할 시에 장치(10)에 의해 적절히 처리된다. 더 정밀하도록, 장치(10)는, 예를 들어, 동일한 입력 비디오 비트스트림의 픽처들이 멀티플렉싱되는 픽처들(116)의 POC 차이 변화를 고려하기 위해 슬라이스 헤더(40)를 동시에 변경하면서, 각각의 입력 비디오 스트림(105)의 각각의 입력 픽처(118)가 도 2의 설명에 대응하는 방식으로 코딩되는 하나 또는 그 초과의 슬라이스들을 채용함으로써 참조 부분(112)에 속하는 데이터 스트림(108)의 각각의 픽처(116)를 채울 수 있다. 참조 부분(112)에 속하는 픽처들(116)은 직전에 서술된 바와 같이, 출력되지 않는다. 그들은 미출력 픽처들이다. 대조된 비디오는, 부분(114)에 속하는 출력 픽처들(116)에 의해 정의된다. 장치(10)는, 부분(114)에 속하는 픽처들(116)의 상이한 영역들에 대해 모션 보상 사이드 정보를 코딩함으로써, 대조된 비디오를 간단히 형성할 수 있다.
도 12 및 도 15에서, 예를 들어, 부분(114)의 일부, 즉 SLCP들인 픽처들(116)이 영역들로 분할된다는 것이 예시되었으며, 그 각각의 영역에서, 시간 모션 벡터들은 각각의 영역에 걸쳐 일정하지만, 시간 모션 보상 사이드 정보는 개별 영역들 사이에서 상이하다. 도 17에서, 예를 들어, 부분(114)에 속하는 픽처(116)의 서브영역(132)은, 예를 들어, 출력 비트스트림 POC 1을 갖는 입력 비디오 데이터 스트림(1051)에 속하는 PSR들(116)로부터 동일한 사이즈의 각각의 부분을 병진 방식으로 카피하는 모션 보상 사이드 정보를 사용하여 코딩되는 반면, 이러한 SLCP(116)의 나머지 영역(134)은, 다른 입력 비디오 비트스트림(1052)의 PSR(116)로부터 동일한 사이즈 및 형상의 각각의 부분을, 예를 들어, 병진 방식으로 카피하는 모션 보상 사이드 정보를 사용하여 코딩된다. 도 17에 도시되지 않은 다음의 시간 인스턴트의 SLCP(116)는, 동일한 모션 보상 사이드 정보 및 영역들(132 및 134)로의 세분을 사용하여 또는 상이한 셋업을 사용하여 코딩될 수 있다. 예를 들어, 연속하는 SLCP들의 동일한 코딩의 사용을 가정한다. 추가적으로, 영역들(134) 중 하나가 제로 모션 벡터를 사용한다고 가정하며, 즉 그 영역은 각각의 입력 비디오 데이터 스트림의 함께 위치된 부분들을 간단히 공간적으로 카피한다. 그 경우에서, 그러한 구성된 비디오 데이터 스트림은, 입력 비디오 데이터 스트림들 중 하나의 제시/디스플레이를 초래할 것이며, 입력 비디오 데이터 스트림들의 다른 스트림은 입력 비디오 데이터 스트림의 소정 영역에서 제시되거나 오버레이된다. 이러한 예는 도 12 및 도 14에 도시되었다. 예를 들어, PSR들의 픽처 컨텐츠의 병진 카피를 사용하는 경우에서, 장치(10)는, 각각, 도 3에 대해 위에서 설명된 방식으로, 즉 공간 예측을 사용하여 그리고/또는 각각의 영역(132 및 134)의 제 1 블록에 후속하는 임의의 블록에 대한 스킵 모드를 사용하여 SLCP들(116)의 영역들(132 및 134)을 코딩할 수 있다. 장치(10)는 심지어, 예측 잔여 데이터를 사용하여 SLCP들도 코딩할 수 있거나, 정지 픽처 코딩 등을 사용하여, PSR들에서 시간적으로 예측된 영역들(132 및 134) 이외의 추가적인 영역들을 코딩할 수 있다.
도 14 및 도 16에서 위에서 서술된 바와 같이 입력 비디오 데이터 스트림들을 멀티플렉싱하기 위해 스티칭된 참조 접근법을 사용하는 경우, SLCP 비트스트림 포지션들, 즉 구성된 비디오 비트스트림(108)의 부분(114)을 포지셔닝하기 위한 몇몇 가능성들이 존재하며, 2개의 가능성들이 도 18a 및 도 18b에 예시된다. 도 18b는, 도 16에서 위에서 이미 도시되었던 가능성을 도시하며, 즉 입력 비디오 데이터 스트림들(105)은, 제 1 픽처들(116)이 각각의 입력 비디오 데이터 스트림에 대한 하나의 타일을 가질 때까지 장치(10)에 의해 함께 공간적으로 스티칭되며, SLCP들은, 그들 사이에 개재되고, 스티칭된 참조 픽처들에 기초하여, 모션-모상된 예측을 사용하여 구성된다. SLCP들(116)은, 다양한 입력 비디오 비트스트림들의 공간 스티칭에 대응하는 증가된 사이즈를 갖지만, SLCP들의 일부를 크롭 아웃하는 것은, 디스플레이될 픽처들의 사이즈, 및 그에 따른, 장치(10)에 의해 그에 따라 정의된 대조된 비디오의 사이즈를 감소시키기 위해 사용될 수 있다.
따라서, 도 18b가 부분(114)에 속하는 픽처들(116) 및 참조 부분(112)에 속하는 픽처들을 시간적으로 인터리빙하는 반면, 도 18a에 따르면, SLCP들, 즉 대조된 비디오 부분(114)은 구성된 비디오 비트스트림(108)의 픽처들(116)에 공간적으로 부착된다. SLCP들의 픽처 컨텐츠를 구성하기 위해 사용되는 시간 모션 보상된 예측 덕분에, 시간-지연이 부분(114), 즉 SLCP들에 의해 정의된 대조된 비디오와 입력 비디오 데이터 스트림들(105)의 참조된 컨텐츠 사이에서 초래된다는 것을 유의할 가치가 있다.
따라서, 도 18a의 경우에서, 장치(10)는, 입력 비디오 데이터 스트림(105) 당 하나의 타일 및 부분(114)을 운반하기 위한 추가의 추가적인 타일을 포함하기 위해, 구성된 비디오 데이터 스트림(108)의 픽처들(116)을 포함할 수 있다. 입력 비디오 데이터 스트림들 중 하나 또는 그 초과가 이미 다수의 타일들로 분할되면, 입력 비디오 데이터 스트림들의 타일 당 하나의 타일이 구성된 비디오 데이터 스트림(108)에서 제시될 수 있다. 한편으로는 입력 비디오 데이터 스트림들(105) 및 다른 한편으로는 SLCP들의 의 상이한 프레임 레이트들을 사용하는 경우, 타일들 중 일부는 더미 데이터로 채워질 수 있으며, 이것은, 입력 비디오 데이터 스트림 및 SLCP들 중 어느 하나가 더 낮은 프레임 레이트를 가질 때마다 그들 중 임의의 것에 대해 참이다.
따라서, 도 18a 및 도 18b는, SLCP 슬라이스 데이터가 개별 픽처들의 형태로, 예를 들어, 참조된 PSR들에 후속하는 별개의 POC 값들로 장치(10)에 의해 삽입될 수 있거나, SLCP들은 참조된 PSR들에 후속하는 PSR들의 데이터로 스티칭될 수 있다는 것을 도시했다.
스티칭된 참조 접근법을 사용하는 경우, SLCP는 구상된 출력 픽처 사이즈, 예를 들어, 예컨대 개별 입력 스트림들 중 하나의 픽처 사이즈로 다시 크롭될 수 있다.
도 17 내지 도 18b를 요약하여, 장치(100)는 다음과 같이 동작할 수 있다:
도 17에 따르면, 장치(100)는, 0<n<=N 인 입력 비디오 데이터 스트림들 n의 인덱스 i의 픽처들
Figure pct00002
의 모션 보상 사이드 정보 및 예측 잔여 데이터를 수집 및 카피함으로써, 구성된 비디오 데이터 스트림의 픽처들
Figure pct00003
을 채울 수 있고(N은 입력 비디오 데이터 스트림들의 수이고, K는, 동일한 인덱스 i의 N개의 픽처들
Figure pct00004
마다 장치(100)에 의해 삽입되는 픽처들, 즉 중간 부분의 중간 픽처들 또는 대조된 비디오(또는 출력) 부분에 속하는 픽처들의 수), 구성된 비디오 데이터 스트림의 픽처 (수식)(0<k<=K(k는 삽입된 픽처들의 시퀀스들을 인덱싱함))으로부터 모션 보상된 시간 예측을 통해, (존재한다면) 시퀀스 k>1의 픽처들에 대해 선택적으로는 픽처들
Figure pct00005
을 추가적으로 포함하는 구성된 비디오 데이터 스트림의 픽처들
Figure pct00006
중 하나 또는 그 초과를 참조함으로써, 대조된 비디오를 구성할 수 있으며, 픽처
Figure pct00007
에 대해 "참조된 총 영역"을 형성한다. 파라미터 K는 1일 수 있지만, 도 17에 도시된 바와 같이, 더 높은 SLCP 프레임 레이트를 가능하게 하기 위해, K개의 시퀀스들은 출력 부분(114)을 형성하는 출력 픽처들의 2개 또는 그 초과의 픽처들을 포함할 수 있거나, 아래에서 서술되는 바와 같이 멀티-스테이지 참조 접근법을 달성하기 위해, K개의 시퀀스들은 중간 픽처들의 적어도 하나의 시퀀스 및 출력 픽처들의 적어도 하나의 시퀀스를 포함할 수 있다.
대안적으로, 도 18a에 따르면, 장치(100)는, 입력 비디오 데이터 스트림들 n의 픽처들
Figure pct00008
의 모션 보상 사이드 정보를 각각 수집 및 카피함으로써, 구성된 비디오 데이터 스트림의 픽처
Figure pct00009
의 N개의 타일들 Tn을 채우고, 구성된 비디오 데이터 스트림의 픽처들
Figure pct00010
로부터 모션 보상된 시간 예측을 통해, (존재한다면) 시퀀스 k>1의 픽처들에 대해 선택적으로는 픽처들
Figure pct00011
을 추가적으로 포함하는 픽처들
Figure pct00012
의 타일들 T1 ... TN 중 하나 또는 그 초과를 참조함으로써, 대조된 비디오를 구성하며, 픽처
Figure pct00013
에 대해 "참조된 총 영역"을 형성한다. 파라미터 K는 1일 수 있지만, 도 18a에 도시된 바와 같이, 더 높은 SLCP 프레임 레이트를 가능하게 하기 위해, K개의 시퀀스들은 출력 부분(114)을 형성하는 출력 픽처들의 2개 또는 그 초과의 픽처들을 또한 포함할 수 있거나, 아래에서 서술되는 바와 같이 멀티-스테이지 참조 접근법을 달성하기 위해, K개의 시퀀스들은 중간 픽처들의 적어도 하나의 시퀀스 및 출력 픽처들의 적어도 하나의 시퀀스를 포함할 수 있다.
대안적으로, 장치(10)는, 입력 비디오 데이터 스트림들 n의 픽처들
Figure pct00014
의 모션 보상 사이드 정보 및 예측 잔여 데이터를 수집 및 카피함으로써, 구성된 비디오 데이터 스트림의 픽처
Figure pct00015
의 타일들 TN을 채우고, 구성된 비디오 데이터 스트림의 픽처들
Figure pct00016
의 타일 TN+1 로부터 모션 보상된 시간 예측을 통해, 구성된 비디오 데이터 스트림의 픽처들
Figure pct00017
의 타일들 T1 ... TN 을 참조함으로써, 대조된 비디오를 구성하며, 픽처
Figure pct00018
의 타일 TN+1 에 대해 "참조된 총 영역"을 형성한다. 위의 K>1에 의해 나타낸 경우와 유사한 방식으로, 1개 초과의 타일은, 아래에서 더 상세히 설명되는 바와 같이 멀티-스테이지 예측을 위해, 즉 구성된 비디오 데이터 스트림의 중간 부분을 형성하기 위해, 픽처
Figure pct00019
마다 삽입될 수 있다.
대조된 비디오를 구성하는 과정에서의 참조는, 구성된 비디오 데이터 스트림의 각각의 픽처 또는 타일의 출력 영역 A를 J개의 영역들 Aj로 분할함으로써 장치(100)에 의해 수행될 수 있으며, 이들 영역들 Aj(0<j<=J)의 적어도 서브세트의 각각의 영역은, ("참조된 총 영역"으로부터의 연관된 참조 픽처들을 갖는) 하나 또는 그 초과의 일정한 모션 벡터들의 세트 m(Aj)를 사용하여 각각의 "참조된 총 영역"으로부터 하나 또는 2개(또는 심지어 그 초과)의 부분들을 참조하고, 즉 Aj 내의 모든 블록들 p 및 q에 대해 m(p)=m(q) 이거나, 하나 또는 그 초과의 벡터들의 세트는 수평 및/또는 수직 치수를 따라 점진적으로 변하고, 즉 Aj 내의 모든 이웃한 블록들 p 및 q에 대해 |m(p)―m(q)|<threshold 이어서, 아래에서 추가적으로 설명되는 바와 같이 효과를 확대하거나 감소시키는 것을 달성한다. 따라서, "참조된 총 영역"으로부터의 공간 서브-부분들은, 제 1 경우에서는 변환기 방식으로 카피될 수 있고, 제 2 경우에서는 인트라-블록 관점 변환이지만 인터-블록 관점 확대 및/또는 감소 방식으로 카피될 수 있다. 영역들 Aj의 적어도 서브세트의 영역들은 시간적으로 코딩된 블록들로 구성될 수 있다. "출력 영역"을 코딩하기 위해, 모션 보상 사이드 정보를 코딩하기에 이용가능한 가장 작은 가능한 블록 사이즈가 점진적으로 변하는 경우에 대해 선택될 수 있다. 영역들의 적어도 서브세트는, 그들의 윤곽들의 관점들에서 그리고 수에서, 픽처들
Figure pct00020
, 픽처들
Figure pct00021
및 픽처들
Figure pct00022
의 타일 TN+1의 시퀀스에 대해 각각 시간상 일정할 수 있거나, (i에 의해 인덱싱된) 시퀀스에 따라 변할 수 있다. 출력 영역은, 픽처들
Figure pct00023
의 시퀀스의 픽처 영역, 픽처들
Figure pct00024
의 픽처 영역, 또는 픽처들
Figure pct00025
의 타일 TN+1 의 타일 영역과 일치할 수 있고, 그 영역은 픽처들의 일부일 수 있으며, 나머지는 크롭-아웃된다. 제로 모션 벡터를 갖는 하나의 영역이 존재할 수 있다. 설명된 바와 같이, 영역들 Aj 중 하나 또는 그 초과는 1개 초과의 모션 벡터의 세트 m(Aj)를 가질 수 있으며, 즉
Figure pct00026
Figure pct00027
이고,
Figure pct00028
은, 모션 벡터 참조 픽처
Figure pct00029
이 현재의 영역 Aj를 포함하는 현재의 픽처의 업스트림에 있는 구성된 비디오 데이터 스트림의
Figure pct00030
픽처라는 것을 나타낸다. 2개의 모션 벡터들의 경우, 즉 M=2에서, 이것은 양방향 예측으로 지칭될 수 있다. 각각의 모션 벡터에 대해, 모션 보상 사이드 정보는 또한, "Aj 를 획득하기 위해
Figure pct00031
만큼 가중된 상대적으로 변위된 위치 ml 에서
Figure pct00032
의 카피들을 합산"하는 것에 따른 모션 보상된 예측을 초래하는 예측/가중 팩터
Figure pct00033
를 포함할 수 있다. 이러한 측정에 의해, 2개 또는 그 초과의 입력 비디오 데이터 스트림들 사이의 오버레이가 영역 Aj에서 달성될 수 있다. Aj에 대한 출력 영역들의 시퀀스에서 시간에 걸쳐 가중치들
Figure pct00034
을 점진적으로 변경시킴으로써, 2개의 입력 비디오 데이터 스트림들 사이의 블렌딩이 달성될 수 있다.
영역들의 직전에-설명된 서브세트의 중첩부 또는 외부에서, 대조된 비디오 부분(114)이 예측 잔여 데이터를 사용하여 코딩되는 "출력 영역"의 공간 부분이 존재할 수 있다. 그러한 공간 부분으로, 무-이동 이미지, 서비스 로고 등과 같은 특수한 컨텐츠가 코딩될 수 있다. 모션 보상된 영역들 Aj 외부의 영역들에서, 공간 예측 모드들은, 대조된 비디오 부분(114)의 출력 영역을 코딩하기 위한 비트 소비를 낮추기 위해 사용될 수 있다. 따라서, 출력 영역 내에 순수하게 인트라-코딩된 영역이 존재할 수 있다.
대조된 비디오 부분(114)의 출력 영역을 코딩하기 위한 데이터 레이트를 감소시키기 위해, 장치(100)는, 즉, 대조된 비디오 부분(114)의 연속하는 픽처들 사이에서, 즉 픽처들
Figure pct00035
의 시퀀스의 연속하는 픽처들, 픽처들
Figure pct00036
의 시퀀스의 연속하는 픽처들 및 픽처들
Figure pct00037
의 시퀀스의 TN+1 의 연속하는 픽처들 각각 사이에서 모션 보상 사이드 정보의 시간 예측을 사용할 수 있다.
수집 및 카피에 의한 채움은 도 3에 대해 위에서 서술된 방식으로 장치(100)에 의해 수행될 수도 있다. 장치(100)는, 예를 들어, 입력 비디오 데이터 스트림들의 카피된 픽처들로부터 구성된 비디오 데이터 스트림의 각각의 타일들 또는 픽처로 슬라이스들을 전달하고, 그리고 예를 들어, 도 15에 대해 위에서 설명된 바와 같이 더미 데이터의 수집 및 카피에 의해, 구성된 비디오 데이터 스트림의 각각의 타일 또는 픽처에서 채워지지 않은 나머지 영역들을 채울 시에, 슬라이스 헤더들에서 참조 픽처들에 대한 참조를 추가적으로 변경한다.
추가적으로, 도 17의 경우에서, 장치(10)는, 픽처들
Figure pct00038
Figure pct00039
이 미출력 픽처들이지만, 픽처들
Figure pct00040
이 중간 픽처들의 출력 픽처들이라는 것을 시그널링할 수 있으며, 여기서, k=K를 갖는 픽처들은 출력 픽처들일 수 있다. 도 18a의 경우에서, 장치(10)는, 픽처들
Figure pct00041
이 미출력 픽처들이지만, 픽처들
Figure pct00042
이 출력 픽처들 또는 중간 픽처들이라는 것을 시그널링할 수도 있고, 여기서, k=K를 갖는 픽처들은 출력 픽처들일 수 있으며, 도 18b의 경우에서, 장치(10)는, 구성된 비디오 데이터 스트림들의 모든 픽처들이 출력 픽처들이라는 것을 시그널링할 수도 있지만, 타일 TN+1 을 제외한 모든 타일은 구성된 비디오 데이터 스트림을 디스플레이/재생할 시에 크롭-아웃될 것이다. 후자의 크롭 시그널링은 또한, 도 18a에 대하여 장치(10)에 적용될 수 있으며, 픽처들
Figure pct00043
중 출력 픽처들로부터의 일부만이 구성된 비디오 데이터 스트림의 출력을 생성하기 위해 사용될 수 있고, 즉 출력 픽처들의 다른 부분이 크롭될 수 있다.
도 21에 대해 다음으로 서술될 바와 같이, 비디오 구성 장치는, 모션 보상된 시간 예측을 통해 구성된 비디오 데이터 스트림의 참조 부분(112)을 참조함으로써, 데이터 스트림의 픽처들의 중간 부분을 채우도록 구성될 수 있으며, 여기서, 구성된 비디오 데이터 스트림의 픽처들의 부분(108)을 형성하는 대조된 비디오는, 모션 보상된 시간 예측을 통해, 중간 부분을 통해 간접적으로 구성된 비디오 데이터 스트림의 제 1 부분을 참조함으로써, 대조된 비디오로 채워진다. 예를 들어, 이미 언급된 타일들 T1 내지 TN+1 을 제외하고, 타일들 TN+2 와 같은 다른 타일들은, 구성된 비디오 데이터 스트림의 픽처
Figure pct00044
의 타일 TN+2 를 통해 간접적으로, 구성된 비디오 데이터 스트림의 픽처
Figure pct00045
의 타일들 T1 ... TN 중 하나 또는 그 초과를 참조하는 구성된 비디오 데이터 스트림의 픽처
Figure pct00046
의 타일 TN+1 을 또한 이용하여 장치(100)에 의해 생성될 수 있으며, 그것은 차례로, 구성된 비디오 데이터 스트림의 픽처
Figure pct00047
의 타일들 T1 ... TN 중 하나 또는 그 초과를 참조한다.
즉, 부분(114)의 SLCP만이 디코더에 의해 출력될 것이고 그리고/또는 PSR들이 SLCP 및 존재한다면, 구성된 비디오 데이터 스트림의 중간 부분에 의한 참조를 위해서만 사용되고 출력되지는 않는 동안, 디스플레이되므로, 입력 비디오 데이터 스트림들(105) 뿐만 아니라 구성된 비디오 데이터 스트림의 기저가 되는 적용된 코덱은, 예를 들어, 출력되지 않는 참조들에 이용가능한 픽처들의 개념을 지원해야 하거나, 임의의 비교가능한 메커니즘이 시스템 계층 상에 적용되어야 한다. 대안적으로, 예를 들어, H.264/AVC와 같이 이러한 특성이 없는 코덱들에 대해, 스티칭된 참조 접근법이 대신 사용될 수 있으며, 참조된 PSR들에 후속하는 SLCP 및 PSR들의 데이터는 위에서 설명된 바와 같이 단일 픽처들로 스티칭될 수 있다.
부분(114)의 SLCP만이 제시된 접근법들 및 그들의 결합들 중 임의의 것을 이용하여 디코더에 의한 출력을 위해 의도되므로, PSR들의 이미지 컨텐츠를 제거하거나 위에서 설명된 바와 같이 개별 픽처로서 운반되었던 디코딩된 SLCP의 공간 치수들을 조정하기 위하여, 디코더에 의해 출력될 디코딩된 픽처들을 크롭하는 것이 바람직할 수 있다.
다양한 양상들은, 타일들 또는 슬라이스들에 의해 SLCP를 구성하는 것을 유발한다. 먼저, SLCP는 스티칭된 참조 픽처들의 구조의 입력 스트림들 중 하나 또는 그 초과에서 이용되는 타일/슬라이스 구조를 따를 수 있으며, 그에 의해, 각각의 SLCP에 대한 병렬 디코딩 인프라구조들의 새로운 초기화를 요구하지 않고, 즉 그의 적어도 공간 부분은 부분(114)에 속한다. 둘째로, SLCP 슬라이스 데이터의 효율적인 압축은, 동일하거나, 유사하거나 또는 관련된 예측 벡터들의 영역들이 단일 타일 및/또는 슬라이스로 효율적으로 인코딩될 수 있도록 예측 벡터들의 분포를 따르는 타일 또는 슬라이스 구조를 유발할 수 있다.
결과적인 SLCP(부분적으로 또는 완전함)에 대해 2개의 입력 비디오들을 (또한, 부분적으로 또는 완전하게) 블렌딩하는 것이 소망될 수 있는 사용 경우들이 존재한다. 각각의 "참조된 총 영역"으로부터 2개의 부분들을 참조하는 것으로 이전에 설명된 예시적인 사용 경우는, 압축 도메인에서 비디오 컨텐츠 상에 그래픽 사용자 인터페이스(GUI)를 오버레이하는 가상 셋탑 박스 애플리케이션과 함께 도 19에서 제공된다. 이러한 예에서, 입력 스트림 1은 압축을 위해 다른 입력 스트림 2의 형태로 GUI를 이용하여 오버레이된다.
도 19의 구성에서 하부의 파선 직사각형은 다음에서 알파 블렌딩된 영역으로 지칭된다. 가중된 예측 절차는, SLCP의 알파 블렌딩된 영역들에 대해 원하는 효과를 생성하기 위해 이용된다. 알파 블렌딩된 영역의 샘플 값들은, (B2B 참조 접근법을 사용하는 경우) 다수의 참조 픽처들 또는 (스티칭된 참조 접근법을 사용하는 경우) 단일 참조 픽처의 다수의 공간 영역들로부터 예측되며, 각각은 개별 가중치를 갖는다. GUI 오버레이 및 채널, 스테이션 또는 서비스 로고와 같이, 동일한 또는 다양한 입력 스트림들로부터 SLCP 내의 몇몇 알파 블렌딩된 영역들을 결합하는 것이 가능하다.
점진적으로 변하는 모션 벡터들로서 이전에 설명된 SLCP들의 추가적인 특성은 픽처-인-픽처(Picture-in-Picture) 애플리케이션들에 기초하여 도 20에 예시된다. 이러한 개념은, 구성을 위한 입력 스트림 픽처 컨텐츠의 공간적인 리사이징을 포함한다. 이것은, 가장 작은 가능한 코딩 유닛 및/또는 예측 유닛 블록 입도로 예측 벡터들을 제공함으로써 달성된다. 예측 벡터 좌표들은, 목표된 입력 비트스트림을 리샘플링하기 위해 SLCP 내의 각각의 영역을 횡단하는 과정에서 조정된다. 디코딩된 SLCP에서의 결과는 부분적인 또는 완전한 각각의 입력 비트스트림 이미지 컨텐츠의 공간적으로 상이한 표현이다.
SLCP 내의 리샘플링된 영역의 각각의 샘플 포지션(즉, 코딩 유닛 및/또는 예측 유닛)에 대해, 입력 픽처들의 다수의 (예를 들어, 이웃한) 코딩 유닛 및/또는 예측 유닛으로부터의 가중된 예측은, 각각의 리샘플링된 픽처 영역의 품질을 증가시키기 위해 적용될 수 있다.
일반적으로, 입력 비트스트림들의 픽처들에 대한 차이들을 도입하지 않기 위해 디블록킹 필터와 같은 인-루프 필터에서 SLCP를 프로세싱하는 것이 회피되어야 한다. 그러나, 리샘플링 절차에 의해 도입된 가능한 품질 열화를 감소시키기 위해, HEVC의 SAO 필터 또는 디블록킹 필터와 같은 추가적인 인-루프 필터는, 전체 SLCP 또는 서브샘플링된 영역들에 적절하게 사용될 수 있다.
일부 환경들 하에서, 단일 출력 비트스트림에서 입력 비트스트림들로부터의 원하는 구성의 생성은 몇몇 예측 단계들, 즉 출력 비트스트림으로 부가될 몇몇 추가적인 미출력 픽처들을 요구할 수 있다. SLCP만이 출력을 위해 의도되는 동안, 더 이전에 생성된 중간 픽처들 및/또는 심지어 초기 PSR들 중 하나 또는 그 초과를 참조하는 SLCP에서 최종의 원하는 구성이 생성될 수 있을 때까지 PSR들 및/또는 그 더 이전에 생성된 중간 픽처들을 사용하여 중간 픽처들이 예측된다.
그러한 환경들에 대한 제 1 예는 반복적인 서브샘플링이며, 여기서, 구성된 비디오 데이터 스트림의 제 1 중간 부분에서, 입력 비트스트림 이미지 컨텐츠는, 가중된 양방향 예측을 사용하여 수평 방향으로 공간적으로 서브샘플링되고, 제 2 단계에서, 이러한 중간 픽처의 컨텐츠는, 가중된 양방향 예측을 다시 사용하여 수직 방향으로 공간적으로 서브샘플링되며, 최종 SLCP 구성은 도 21에 예시된 바와 같이 출력되도록 생성된다.
그러한 환경들의 다른 예는, 알파 블렌딩 효과를 생성하고 출력될 SLCP에 대한 참조로서 결과적인 중간 픽처를 사용하기 위한 VP9에서의 합성물 예측의 사용이다.
따라서, 이전의 섹션들이 도시한 바와 같이, 많은 애플리케이션들 및 사용 경우들은 SLCP의 예측 벡터들을 조정함으로써 구현될 수 있다. 통상적인 비디오 컨텐츠를 구성하는 것을 제외한 추가적인 예는, 개별 문자들을 나타내는 입력 비트스트림 픽처 영역에 대한 정확한 예측 벡터들을 사용하여 SLCP에서 메시지들을 구성하기 위해 입력 비트스트림(들)의 이미지 컨텐츠로서 알파벳의 문자들 또는 그들의 세트들을 제공하는 것이다.
모든 주어진 예들이 특정 참조 구조를 이용했지만, 제시된 개념들은 더 많은 참조 구조들에 적용가능하다. 설명된 SLCP 개념은 2개 초과의 입력 비디오 비트스트림들의 프로세싱을 유사하게 허용한다는 것은 언급할 가치가 있다.
GRP들과 유사하게, SLCP 슬라이스 데이터는, 그들의 컨텐츠가 픽처 치수들 및 변위와 같은 고레벨 파라미터들에만 의존하므로, 임의의 비트스트림들로의 삽입을 위해 사전 인코딩될 수 있다.
도 1 내지 도 10의 비디오 구성 장치에 대해 위에서 이미 설명된 바와 같이, 도 11 내지 도 21에 대해 위에서 설명된 비디오 구성 장치(100)는 도 5에 도시된 바와 같이 시스템 내에서 사용될 수 있지만, 위에서 설명된 바와 같이, 복수의 비디오 인코더들은 도 11 내지 도 21에 대해 설명된 바와 같이 입력 비디오 데이터 스트림들을 생성할 시에 더 많은 자유도를 가질 수 있다. 요청(60)은 SLCP들, 즉 참조 입력 비디오 데이터 스트림들의 최종의 대조된 비디오로의 구성을 변경시키기 위한 요청들로서 장치(100)에 의해 처리될 수 있다. 요청들은, 장치(100)를 포함하는 서버의 오퍼레이터 또는 디코더를 또한 포함하는 클라이언트로부터 유래될 수 있다.
설명된 바와 같은 스티칭, GRP들의 삽입 및/또는 SLCP들을 통한 구성을 위해 필수적인 충족된 인코딩 제한들의 대역내 또는 대역외 시그널링은, 시스템들이 협의하게 하고 그리고/또는 도래하는 스트림들이 위에서 설명된 바와 같이 추가적인 프로세싱을 위해 스티칭될 수 있다는 것을 검출하게 한다. 따라서, 예를 들어, RTP 스트리밍에 대해 SDP에서 또는 DASH-기반 스트리밍 또는 추가적인 것에 대한 MPD에서의 시그널링이 위에서 설명된 바와 같이 사용될 수 있다. 도 22는, SEI 메시지의 형태로 각각의 시그널링을 예시적으로 설명한다.
composition_enabled_type은, 출력 비트스트림의 구성을 위하여 사용을 위해 현재의 비트스트림에 적용될 수 있는 구성(프로세싱)의 타입을 표시하며, 여기서, 현재의 비트스트림은 구성된 비트스트림의 서브-비트스트림 또는 부분(타일/슬라이스)이다. 0과 동일한 값을 갖는 composition_enabled_type은, 현재의 비트스트림이 IDR 할당을 이용하여 [1]에서 설명된 제한들을 충족하는 다른 비트스트림들과 [1]에서 설명된 바와 같이 스티칭될 수 있다는 것을 표시한다. 1과 동일한 값을 갖는 composition_enabled_type은, 현재의 비트스트림이 [1]에서 설명된 제한들을 충족하는 다른 비트스트림들과 [1]에서 설명된 바와 같이 스티칭될 수 있지만, IDR 픽처들은 트레일링 픽처의 I 슬라이스들로 변환될 수 있고, 비 I 슬라이스들과 병합될 수 있다는 것을 표시하며, 즉 1과 동일한 값을 갖는 composition_enabled_type은, 파라미터 세트 활성화가 전혀 발생하지 않으면 IDR들 또는 IRAP들이 이전의 활성 SPS와는 상이한 값들로 SPS를 활성화하지 않는다는 것을 표시한다. 2의 값을 갖는 composition_enabled_type은 추가적으로, TVMP가 추가적으로 제한되며, max_temporial_id_ plus1_TMVP_disabled 보다 작거나 그와 동일한 temporal_id_ plus1은 TMVP에 대한 참조로서 사용되지 않는다는 것을 표시한다.
max_temporal_id_plus1_TMVP_disabled 은, TMVP에 대한 참조로서 사용되지 않을 픽처들의 temporal_id_ plus1 의 상부 경계값을 표시한다.
제안된 SEI 메시지와 함께, 기존의 SEI들은 비트스트림 프로세싱을 더 용이하게 하는 협의를 위해 사용될 수 있다. 일 예는 structure_of_pictures_info SEI 이며, 여기서, 상이한 비트스트림들의 GOP 구조는 요약되고, 이는 GRP 삽입을 위한 스위칭 포인트들을 식별하기 위해 사용될 수 있다. 디코딩의 인스턴스에서, 리스트들 RefPicSetStCurrBefore, RefPicSetStCurrAfter, 또는 RefPicSetLtCurr, 즉 디코더 참조 픽처 버퍼가 max_temporal_id_plus1_TMVP_disabled minus 1의 값보다 작거나 그와 동일한 TemporalID를 갖는 픽처들만을 포함하는 임의의 픽처는 GRP 삽입을 위한 스위칭 포인트로서 기능할 수 있다.
대안적으로, 입력 데이터 스트림들 내의 SEI 메시지들은, GRP들의 삽입을 위한 스위칭 포인트들로서 기능할 수 있는 픽처들을 시그널링하기 위해 사용될 수 있다. 이러한 특정 SEI의 비트스트림 발생 시에, 디코딩 순서에서 후속하는 픽처들의 TMVP를 위한 참조로서 사용되는 RefPicSetStCurrBefore, RefPicSetStCurrAfter, 또는 RefPicSetLtCurr 에 포함되는 어떠한 픽처도 존재하지 않아야 한다.
더 대안적으로, NAL 유닛 타입 표시자 값은, STSA NAL 유닛 시그널링과 유사한 방식으로 위의 제한에 대한 시그널링을 위해 사용될 수 있다. 이러한 특정 NAL 유닛 타입 표시자 값의 픽처 A의 비트스트림 발생 시에, 디코딩 순서에서 후속하고 픽처 A를 포함하는 픽처들의 TMVP를 위한 참조로서 사용되는 RefPicSetStCurrBefore, RefPicSetStCurrAfter, 또는 RefPicSetLtCurr 에 포함되는 어떠한 픽처도 존재하지 않아야 한다.
유사하게, SDP 또는 MPD 또는 임의의 다른 형태의 시그널링 메커니즘은, 이러한 정보를 대역외로 전달하기 위해, 제안된 SEI와 동등한 시그널링을 포함할 수 있다.
일부 양상들은 장치의 상황에서 설명되었지만, 이러한 양상들은 또한 대응하는 방법의 설명을 표현하는 것이 명백하며, 여기서 블록 또는 디바이스는 방법 단계 또는 방법 단계의 특징에 대응한다. 유사하게, 방법의 상황에서 설명되는 양상들은 또한 대응하는 장치의 블록 또는 아이템 또는 특징의 설명을 표현한다. 방법 단계들의 일부 또는 전부는, 예를 들어, 마이크로프로세서, 프로그래밍가능 컴퓨터 또는 전자 회로와 같은 하드웨어 장치에 의해(또는 이를 사용하여) 실행될 수 있다. 일부 실시예들에서, 가장 중요한 방법 단계들 중 일부의 하나 또는 몇몇은 이러한 장치에 의해 실행될 수 있다.
특정한 구현 요건들에 따라, 본 발명의 실시예들은 하드웨어 또는 소프트웨어로 구현될 수 있다. 구현은, 각각의 방법이 수행되도록 프로그래밍가능 컴퓨터 시스템과 협력하는(또는 협력할 수 있는), 전자적으로 판독가능한 제어 신호들을 저장하는 디지털 저장 매체, 예를 들어, 플로피 디스크, DVD, 블루레이, CD, ROM, PROM, EPROM, EEPROM 또는 FLASH 메모리를 사용하여 수행될 수 있다. 따라서, 디지털 저장 매체는 컴퓨터 판독가능일 수 있다.
본 발명에 따른 일부 실시예들은, 본원에서 설명되는 방법들 중 하나가 수행되도록 프로그래밍가능 컴퓨터 시스템과 협력할 수 있는, 전자적으로 판독가능한 제어 신호들을 갖는 데이터 캐리어를 포함한다.
일반적으로, 본 발명의 실시예들은 프로그램 코드를 갖는 컴퓨터 프로그램 물건으로서 구현될 수 있고, 프로그램 코드는, 컴퓨터 프로그램 물건이 컴퓨터 상에서 실행되는 경우 본 방법들 중 하나를 수행하도록 동작한다. 프로그램 코드는 예를 들어, 머신-판독가능 캐리어 상에 저장될 수 있다.
다른 실시예들은, 본원에서 설명되는 방법들 중 하나를 수행하기 위한, 머신 판독가능 캐리어 상에 저장되는 컴퓨터 프로그램을 포함한다.
따라서, 달리 말하면, 창작적 방법의 일 실시예는, 컴퓨터 프로그램이 컴퓨터 상에서 실행되는 경우, 본원에서 설명되는 방법들 중 하나를 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.
따라서, 창작적 방법들의 추가적인 실시예는, 본원에서 설명되는 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램이 포함되고 기록되는 데이터 캐리어(예를 들어, 디지털 저장 매체 또는 컴퓨터 판독가능 매체)이다. 데이터 캐리어, 디지털 저장 매체 또는 기록된 매체는 통상적으로 유형(tangible)이고 그리고/또는 비일시적이다.
따라서, 창작적 방법의 추가적인 실시예는, 본원에서 설명되는 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 표현하는 신호들의 시퀀스 또는 데이터 스트림이다. 예를 들어, 신호들의 시퀀스 또는 데이터 스트림은, 예를 들어, 인터넷을 통해, 데이터 통신 접속을 통해 전송되도록 구성될 수 있다.
추가적인 실시예는, 본원에서 설명되는 방법들 중 하나를 수행하도록 구성 또는 적응되는 프로세싱 수단, 예를 들어, 컴퓨터 또는 프로그래밍가능 로직 디바이스를 포함한다.
추가적인 실시예는, 본원에서 설명되는 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램이 설치된 컴퓨터를 포함한다.
본 발명에 따른 추가적인 실시예는, 본원에서 설명되는 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 수신기에 (예를 들어, 전자적으로 또는 광학적으로) 전송하도록 구성되는 장치 또는 시스템을 포함한다. 수신기는, 예를 들어, 컴퓨터, 모바일 디바이스, 메모리 디바이스 등일 수 있다. 장치 또는 시스템은, 예를 들어, 컴퓨터 프로그램을 수신기에 전송하기 위한 파일 서버를 포함할 수 있다.
일부 실시예들에서, 프로그래밍가능 로직 디바이스(예를 들어, 필드 프로그래밍가능 게이트 어레이)는 본원에서 설명되는 방법들의 기능들 중 일부 또는 전부를 수행하기 위해 사용될 수 있다. 일부 실시예들에서, 필드 프로그래밍가능 게이트 어레이는, 본원에서 정의되는 방법들 중 하나를 수행하기 위해 마이크로프로세서와 협력할 수 있다. 일반적으로, 방법들은 임의의 하드웨어 장치에 의해 바람직하게 수행된다.
앞서 설명된 실시예들은, 본 발명의 원리들에 대해 단지 예시적이다. 본원에서 설명되는 배열들 및 세부사항들의 변형들 및 변화들이 당업자들에게 자명할 것이 이해된다. 따라서, 본 발명은 후속 특허 청구항들의 범주에 의해서만 제한되며, 본원의 실시예들의 서술 및 설명의 방식으로 제시되는 특정 세부사항들에 의해서는 제한되지 않도록 의도된다.
참조문헌들:
[1] Yago
Figure pct00048
de la Fuente, Ralf Globisch, Thomas Schierl, and Thomas Wiegand,□"Low Complexity Cloud-video-Mixing Using HEVC",□Proceedings of IEEE Consumer Communications and Networking Conference, Las Vegas, NV, USA, January 2014.
[2] Sullivan, Gary J., et al. "Overview of the high efficiency video coding (HEVC) standard." Circuits and Systems for Video Technology, IEEE Transactions on 22.12 (2012): 1649-1668.

Claims (47)

  1. 적어도 하나의 입력 비디오 데이터 스트림(14)을 사용하여 구성된 비디오 데이터 스트림(18)을 구성하도록 구성된 비디오 구성 장치(10)로서,
    상기 구성된 비디오 데이터 스트림(18) 및 상기 적어도 하나의 입력 비디오 데이터 스트림(14)은 모션 보상된 시간적 예측을 사용하여 인코딩되고, 상기 비디오 구성 장치는,
    상기 적어도 하나의 입력 비디오 데이터 스트림(14)의 모션 보상 사이드 정보 및 예측 잔여 데이터를 수집 및 카피함으로써 승계된 픽처들(26)의 공간적 부분을 채워서 상기 구성된 비디오 데이터 스트림(18)의 상기 승계된 픽처들(26)의 시퀀스를 형성하는 것 - 상기 공간적 부분의 공간적 위치는 상기 승계된 픽처들의 시퀀스에서 하나의 승계된 픽처로부터 다음 승계된 픽처로 시간적으로 변함 -; 및
    상기 승계된 픽처들의 시퀀스의 승계된 픽처들 사이의 상기 구성된 비디오 데이터 스트림(18)에 적어도 하나의 출력없는 픽처(30)를 삽입하는 것에 의해
    상기 구성된 비디오 데이터 스트림(18)을 구성하도록 구성되고,
    상기 적어도 하나의 출력없는 픽처는 모션 보상된 시간적 예측을 통해 상기 승계된 픽처들의 서브세트를 참조하는,
    비디오 구성 장치.
  2. 제 1 항에 있어서,
    상기 비디오 구성 장치(10)는, 상기 공간적 부분이 공간적으로 변하는 시간 인스턴트에서 상기 하나 이상의 출력없는 픽처들(30)을 삽입하도록 구성되어, 상기 하나 이상의 출력없는 픽처들 각각은, 모션 보상된 시간적 예측을 통해, 상기 시간 인스턴트에 후속하는 승계된 픽처들 중 임의의 픽처의 공간적 부분을 채우는 상기 수집 및 카피에 의해, 상기 모션 보상 사이드 정보에 의해 참조되는 시간 인스턴트에 선행하는 상기 승계된 픽처들 중 참조 픽처를 대체하는,
    비디오 구성 장치.
  3. 제 2 항에 있어서,
    상기 비디오 구성 장치는, 상기 하나 이상의 출력없는 픽처들(30)을 삽입하도록 구성되어, 각각의 출력없는 픽처는 모션 보상된 시간적 예측을 통해, 상기 시간 인스턴트에서 상기 공간적 부분이 변하는 공간적 부분에 공간적으로 대응하는 공간적 부분에서, 상기 각각의 출력없는 픽처에 의해 대체되는 상기 참조 픽처의 공간적 부분을 참조하는,
    비디오 구성 장치.
  4. 제 2 항 또는 제 3 항에 있어서,
    상기 비디오 구성 장치는, 상기 공간적 부분이 상기 승계된 픽처들 중 제 1 픽처로부터 상기 승계된 픽처들 중 제 2 픽처로 공간적으로 변하는 시간 인스턴트에서, 상기 승계된 픽처들 중 제 2 픽처를 포함하고 이에 후속하는 상기 승계된 픽처들 중 임의의 픽처의 공간적 부분을 채우는 수집 및 카피에 의한 모션 보상 사이드 정보에 의해, 모션 보상된 시간적 예측을 통해 참조되는 상기 승계된 픽처들 중 제 1 픽처를 포함하고 이에 선행하는 승계된 픽처들 중 존재하는 참조 픽처들만큼 많은 출력없는 픽처들을, 상기 승계된 픽처들의 시퀀스에서 상기 승계된 픽처들 중 제 1 픽처 직후에 삽입하도록 구성되는,
    비디오 구성 장치.
  5. 제 1 항 내지 제 4 항 중 어느 한 항에 있어서,
    상기 비디오 구성 장치는 상기 적어도 하나의 입력 비디오 데이터 스트림들을 포함하는 복수의 입력 비디오 데이터 스트림들을 제 1 픽처들의 시퀀스로 멀티플렉싱하도록 구성되어, 상기 승계된 픽처들의 시퀀스는 타일들로 공간적으로 세분화되고, 각각의 타일은 연관된 입력 비디오 데이터 스트림의 모션 보상 사이드 정보 및 예측 잔여 데이터를 수집 및 카피함으로써 상기 복수의 입력 비디오 데이터 스트림들 중 각각의 타일과 연관된 스트림으로부터 형성되고, 상기 공간적 부분은 상기 적어도 하나의 입력 비디오 데이터 스트림이 연관되는 타일에 의해 정의되고, 상기 공간적 부분의 공간적 위치는, 한편으로는 상기 타일들 및 다른 한편으로는 상기 복수의 입력 비디오 데이터 스트림들 사이에서의 연관에서의 시간적 변화에 대한 응답으로 상기 승계된 픽처들의 시퀀스에서, 하나의 승계된 픽처로부터 다음 승계된 픽처로 시간적으로 변하는,
    비디오 구성 장치.
  6. 제 5 항에 있어서,
    상기 비디오 구성 장치는, 한편으로는 상기 타일들 및 다른 한편으로는 상기 복수의 입력 비디오 데이터 스트림들 사이의 연관이 변하는 시간 인스턴트들에 출력없는 픽처들을 삽입하도록 구성되고, 상기 출력없는 픽처들은, 각각의 변화 전에 상기 복수의 입력 비디오 데이터 스트림들 중 미리 결정된 비디오 데이터 스트림과 연관된 타일의 픽처 영역을, 변화 이후 상기 미리 결정된 입력 비디오 데이터 스트림과 연관된 타일의 픽처 영역으로 이동시키는 모션 보상 사이드 정보를 포함하는,
    비디오 구성 장치.
  7. 제 1 항 내지 제 6 항 중 어느 한 항에 있어서,
    상기 비디오 구성 장치는 변화에 대한 외부 요청들에 대한 응답으로 시간적으로 변하는 상기 공간적 부분의 공간적 위치의 시간적 변화를 제어하도록 구성되는,
    비디오 구성 장치.
  8. 제 1 항 내지 제 7 항 중 어느 한 항에 있어서,
    상기 적어도 하나의 입력 비디오 데이터 스트림의 입력 픽처들의 시퀀스 중 정확히 하나의 모션 보상 사이드 정보 및 예측 잔여 데이터를 수집 및 카피함으로써 승계된 픽처들 각각의 상기 공간적 부분이 채워지도록, 상기 승계된 픽처들의 공간적 부분을 채워 상기 구성된 비디오 데이터 스트림의 상기 승계된 픽처들의 시퀀스를 형성하도록 구성되는,
    비디오 구성 장치.
  9. 제 8 항에 있어서,
    상기 비디오 구성 장치는, 시간적 모션 보상 사이드 정보 예측을 통해, 참조 픽처들의 현재의 세트 중 어떠한 픽처도 임의의 후속 입력 픽처에 의해 참조되지 않는 입력 픽처들의 시퀀스의 순차적으로 다음 입력 픽처에 직면할 때 변화에 대한 외부 요청을 실행하도록 구성되는,
    비디오 구성 장치.
  10. 제 9 항에 있어서,
    상기 비디오 구성 장치는, 하나 이상의 시간적 계층구조 레벨 ID들에 대해, 시간적 모션 보상 사이드 정보 예측을 통해, 각각의 하나 이상의 시간적 계층구조 레벨 ID들의 입력 픽처들이 임의의 다른 입력 픽처에 의해 참조되지 않는 것을 보장하는 상기 적어도 하나의 입력 비디오 데이터 스트림의 고레벨 신택스에 포함되는 픽처 범위 초과의 시간적 계층구조 계층 ID 및 상기 입력 픽처들의 픽처-범위의 시간적 계층구조 계층 ID에 기초하여, 시간적 모션 보상 사이드 정보 예측을 통해, 참조 픽처들의 세트 중 어떠한 것도 임의의 후속 입력 픽처에 의해 참조되지 않는 입력 픽처들의 시퀀스의 순차적으로 다음 입력 픽처에 직면하는 것을 검출하도록 구성되는,
    비디오 구성 장치.
  11. 제 1 항 내지 제 10 항 중 어느 한 항에 있어서,
    상기 모션 보상 사이드 정보 및 예측 잔여 데이터는 엔트로피 코딩되고, 상기 수집 및 카피는 엔트로피 디코딩없이 수행되는,
    비디오 구성 장치.
  12. 제 1 항 내지 제 11 항 중 어느 한 항에 있어서,
    상기 구성된 비디오 데이터 스트림의 승계된 픽처들의 시퀀스를 형성하는 것은 상기 슬라이스들의 페이로드 데이터를 불변으로 남기고 슬라이스 헤더의 데이터를 변경하여 상기 적어도 하나의 입력 비디오 데이터 스트림의 슬라이스들을 수집 및 카피하는 것을 포함하는,
    비디오 구성 장치.
  13. 제 12 항에 있어서,
    상기 슬라이스 헤더의 데이터는 슬라이스 어드레스 및/또는 픽처 순서 카운트 데이터 및/또는 참조 픽처 순서 카운트 차이 값들 및/또는 참조 픽처 순서 카운트 차이 값들의 세트에 대한 참조 및/또는 차동 코딩된 양자화 파라미터를 포함하는,
    비디오 구성 장치.
  14. 제 1 항 내지 제 13 항 중 어느 한 항에 있어서,
    상기 적어도 하나의 출력없는 픽처에는 예측 잔여 데이터가 없는,
    비디오 구성 장치.
  15. 제 1 항 내지 제 14 항 중 어느 한 항에 있어서,
    상기 비디오 구성 장치는, 상기 적어도 하나의 입력 비디오 데이터 스트림의 입력 픽처들의 시퀀스의 입력 픽처들의 공간적 부분이 전환에 의해 상기 적어도 하나의 출력없는 픽처의 공간적 부분으로 카피되도록, 상기 적어도 하나의 출력없는 픽처를 삽입하여, 상기 적어도 하나의 출력없는 픽처가 모션 보상된 시간적 예측을 통해 상기 승계된 픽처들의 서브세트를 참조하도록 구성되는,
    비디오 구성 장치.
  16. 제 15 항에 있어서,
    상기 구성된 비디오 데이터 스트림 및 상기 적어도 하나의 입력 비디오 데이터 스트림은 블록-입도 방식으로 모션 보상된 시간적 예측을 사용하여 인코딩되고, 상기 비디오 구성 장치는, 상기 적어도 하나의 출력없는 픽처의 공간적 부분이 다수의 블록들로 이루어지고, 블록들의 모션 벡터가 서로 동일하고 상기 다수의 블록들 중 단지 하나에 대한 구성된 비디오 데이터 스트림 내에서, 상기 하나의 블록 이외의 상기 다수의 블록들 중의 블록에 대해 공간적 예측을 사용하여 코딩되도록 구성되는,
    비디오 구성 장치.
  17. 제 16 항에 있어서,
    상기 비디오 구성 장치는, 상기 하나의 블록 이외의 임의의 블록이 예측 잔여 데이터의 부존재를 시그널링하는 스킵 모드 및 이웃 블록으로부터의 모션 보상 사이드 정보의 채택을 사용하여 코딩되도록 구성되는,
    비디오 구성 장치.
  18. 제 1 항 내지 제 17 항 중 어느 한 항에 있어서,
    상기 비디오 구성 장치는 상기 적어도 하나의 비디오 입력 데이터 스트림의 파라미터 세트들에 기초하여 상기 구성된 비디오 데이터 스트림에 대한 새로운 파라미터 세트들을 구축하도록 구성되는,
    비디오 구성 장치.
  19. 복수의 입력 비디오 데이터 스트림들로부터 구성된 비디오 데이터 스트림을 구성하도록 구성되는 비디오 구성 장치로서,
    상기 구성된 비디오 데이터 스트림 및 상기 복수의 입력 비디오 데이터 스트림들은 모션 보상된 시간적 예측을 사용하여 인코딩되고, 상기 비디오 구성 장치는,
    상기 복수의 입력 비디오 데이터 스트림들의 모션 보상 사이드 정보 및 예측 잔여 데이터를 수집하고 상기 구성된 비디오 데이터 스트림의 제 1 부분에 카피함으로써 상기 구성된 비디오 데이터 스트림의 픽처들의 제 1 부분에 상기 복수의 입력 비디오 데이터 스트림들을 멀티플렉싱하는 것 및
    모션 보상된 시간적 예측을 통해, 상기 구성된 비디오 데이터 스트림의 제 1 부분을 참조함으로써, 상기 구성된 비디오 데이터 스트림의 픽처들의 제 2 부분을 수집된 비디오로 채우는 것
    에 의해 상기 구성된 비디오 데이터 스트림을 구성하도록 구성되고,
    상기 제 1 부분은 출력되지 않도록 시그널링되고 상기 제 2 부분은 출력되도록 시그널링되는,
    비디오 구성 장치.
  20. 제 19 항에 있어서,
    상기 제 1 부분은 상기 구성된 비디오 데이터 스트림은 크롭-아웃된 상기 구성된 비디오 데이터 스트림의 출력 픽처들의 픽처 영역들 및/또는 출력없는 픽처들을 포함하는,
    비디오 구성 장치.
  21. 제 19 항 또는 제 20 항에 있어서,
    상기 비디오 구성 장치는, 상기 복수의 입력 비디오 데이터 스트림들의 적어도 서브세트의 시간적으로 인터리빙된 픽처들을 사용하여 상기 구성된 비디오 데이터 스트림의 픽처들의 적어도 서브세트의 공간적으로 정적인 공간적 부분을 채움으로써, 상기 복수의 입력 비디오 데이터 스트림들을 시분할 멀티플렉싱을 사용하여 상기 구성된 비디오 데이터 스트림의 픽처들의 제 1 부분에 멀티플렉싱하도록 구성되는,
    비디오 구성 장치.
  22. 제 21 항에 있어서,
    상기 구성된 비디오 데이터 스트림의 픽처들의 서브세트는 상기 구성된 비디오 데이터 스트림의 상기 제 1 부분을 형성하고, 상기 구성된 비디오 데이터 스트림의 픽처들의 상기 서브세트의 픽처들은 상기 구성된 비디오 데이터 스트림의 출력 픽처들과 인터리빙되어 상기 구성된 비디오 데이터 스트림의 제 2 부분을 형성하는 출력없는 픽처들인,
    비디오 구성 장치.
  23. 제 19 항 또는 제 20 항에 있어서,
    상기 비디오 구성 장치는, 상기 구성된 비디오 데이터 스트림의 픽처들이 공간적으로 병렬적으로 세분화되는 타일들을 상기 복수의 입력 비디오 데이터 스트림들의 적어도 서브세트를 사용하여 채움으로써, 상기 복수의 입력 비디오 데이터 스트림들을 공간 분할 멀티플렉싱을 사용하여 상기 구성된 비디오 데이터 스트림의 제 1 부분에 멀티플렉싱하도록 구성되는,
    비디오 구성 장치.
  24. 제 23 항에 있어서,
    상기 구성된 비디오 데이터 스트림의 픽처들은 상기 구성된 비디오 데이터 스트림의 제 2 부분을 형성하는 추가적인 타일을 갖고, 상기 구성된 비디오 데이터 스트림의 픽처들이 공간적으로 세분화되는 타일들은 상기 구성된 비디오 데이터 스트림의 상기 제 1 부분을 형성하고 크롭-아웃되는,
    비디오 구성 장치.
  25. 제 23 항에 있어서,
    상기 비디오 구성 장치는 상기 복수의 입력 비디오 데이터 스트림들의 적어도 서브세트에 의해 병렬적으로 채워지는 타일들로 세분화되는 상기 구성된 비디오 데이터 스트림의 픽처들 사이에 추가적인 픽처들을 삽입함으로써 상기 제 2 부분을 형성하도록 구성되는,
    비디오 구성 장치.
  26. 제 19 항 내지 제 25 항 중 어느 한 항에 있어서,
    상기 제 1 부분의 픽처들의 공간적 부분들이 상기 제 2 부분의 픽처들의 공간적 부분들로 카피되도록, 모션 보상된 시간적 예측을 통해, 상기 구성된 비디오 데이터 스트림의 제 1 부분을 참조함으로써, 상기 수집된 비디오로 상기 구성된 비디오 데이터 스트림의 픽처들의 제 2 부분을 채우도록 구성되는,
    비디오 구성 장치.
  27. 제 26 항에 있어서,
    상기 제 1 부분의 픽처들의 공간적 부분들이 전환 방식으로 상기 제 2 부분의 픽처들의 공간적 부분들로 카피되도록, 모션 보상된 시간적 예측을 통해, 상기 구성된 비디오 데이터 스트림의 제 1 부분을 참조함으로써, 상기 수집된 비디오로 상기 구성된 비디오 데이터 스트림의 픽처들의 제 2 부분을 채우도록 구성되는,
    비디오 구성 장치.
  28. 제 26 항에 있어서,
    상기 구성된 비디오 데이터 스트림 및 상기 복수의 입력 비디오 스트림은 모션 보상된 시간적 예측을 사용하여 블록-입도 방식으로 인코딩되고, 상기 비디오 구성 장치는, 상기 제 1 부분의 픽처들의 공간적 부분들이 인트라-블록 관점에서는 전환 방식으로 상기 제 2 부분의 픽처들의 공간적 부분들로 카피되지만 인터-블록 관점에서는 확대 및/또는 수축 방식으로 카피되도록, 모션 보상된 시간적 예측을 통해, 상기 구성된 비디오 데이터 스트림의 제 1 부분을 참조함으로써, 상기 수집된 비디오로 상기 구성된 비디오 데이터 스트림의 픽처들의 제 2 부분을 채우도록 구성되는,
    비디오 구성 장치.
  29. 제 26 항에 있어서,
    상기 구성된 비디오 데이터 스트림 및 상기 복수의 입력 비디오 데이터 스트림은 블록-입도 방식으로 모션 보상된 시간적 예측을 사용하여 인코딩되고, 상기 비디오 구성 장치는, 상기 제 2 부분의 픽처들의 공간적 부분들이 다수의 블록들로 각각 구성되고, 상기 블록들의 모션 벡터가 서로 동일하고, 상기 다수의 블록들 중 단지 하나의 블록에 대한 구성된 비디오 데이터 스트림 내에서 상기 하나의 블록 이외의 상기 다수의 블록들 중의 각각의 블록에 대해 공간적 예측을 사용하여 코딩되도록 구성되는,
    비디오 구성 장치.
  30. 제 29 항에 있어서,
    상기 비디오 구성 장치는, 각각의 공간적 부분에 대해, 상기 하나의 블록 이외의 각각의 공간적 부분의 다수의 블록들 중 임의의 블록이 예측 잔여 데이터의 부존재를 시그널링하는 스킵 모드 및 이웃 블록으로부터의 모션 보상 사이드 정보의 채택을 사용하여 코딩되도록 구성되는,
    비디오 구성 장치.
  31. 제 19 항 내지 제 30 항 중 어느 한 항에 있어서,
    오직 인트라-코딩만을 사용하여 부분적으로 수집된 비디오로, 상기 구성된 비디오 데이터 스트림의 픽처들의 상기 제 2 부분을 채우도록 구성되는,
    비디오 구성 장치.
  32. 제 19 항 내지 제 31 항 중 어느 한 항에 있어서,
    상기 비디오 구성 장치는 모션 보상된 시간적 예측을 통해, 상기 구성된 비디오 데이터 스트림의 상기 제 1 부분을 참조함으로써, 상기 구성된 비디오 데이터 스트림의 픽처들의 중간적 부분을 채우도록 구성되고, 상기 구성된 비디오 데이터 스트림의 픽처들의 제 2 부분은, 모션 보상된 시간적 예측을 통해, 상기 중간적 부분을 통해 간접적으로 상기 구성된 비디오 데이터 스트림의 제 1 부분을 참조함으로써 수집된 비디오로 채워지는,
    비디오 구성 장치.
  33. 제 19 항 내지 제 32 항 중 어느 한 항에 있어서,
    상기 모션 보상 사이드 정보 및 예측 잔여 데이터는 엔트로피 코딩되고, 상기 수집 및 카피는 엔트로피 디코딩없이 수행되는,
    비디오 구성 장치.
  34. 제 19 항 내지 제 33 항 중 어느 한 항에 있어서,
    상기 수집 및 카피는 상기 비디오 입력 데이터 스트림들의 슬라이스들의 페이로드 데이터는 불변으로 남고, 상기 슬라이스 헤더의 데이터는 변경되도록 수행되는,
    비디오 구성 장치.
  35. 제 34 항에 있어서,
    상기 슬라이스 헤더의 데이터는 슬라이스 어드레스 및/또는 픽처 순서 카운트 데이터 및/또는 참조 픽처 순서 카운트 차이 값들 및/또는 참조 픽처 순서 카운트 차이 값들의 세트에 대한 참조 및/또는 차동 코딩된 양자화 파라미터를 포함하는,
    비디오 구성 장치.
  36. 제 19 항 내지 제 35 항 중 어느 한 항에 있어서,
    상기 비디오 구성 장치는 모션 보상된 시간적 예측을 통해, 상기 구성된 비디오 데이터 스트림의 상기 제 1 부분의 2개의 부분들 사이의 가중된 양방향-예측을 사용하여 상기 구성된 비디오 데이터 스트림의 상기 제 1 부분을 참조함으로써, 상기 구성된 비디오 데이터 스트림의 픽처들의 상기 제 2 부분을 상기 수집된 비디오 데이터 스트림으로 채우도록 구성되는,
    비디오 구성 장치.
  37. 시스템(74)으로서,
    적어도 하나의 입력 비디오 데이터 스트림을 제공하도록 구성되는 적어도 하나의 비디오 인코더(70); 및
    제 1 항 내지 제 18 항 중 어느 한 항에 따른, 상기 적어도 하나의 입력 비디오 데이터 스트림을 사용하여 구성된 비디오 데이터 스트림을 구성하도록 구성되는 비디오 구성 장치(10)를 포함하고,
    상기 적어도 하나의 입력 비디오 데이터 스트림은 모션 보상된 시간적 예측을 사용하여 인코딩되는,
    시스템.
  38. 제 37 항에 있어서,
    상기 적어도 하나의 비디오 인코더(70)는, 상기 적어도 하나의 입력 비디오 데이터 스트림에 상기 적어도 하나의 입력 비디오 데이터 스트림의 제한적 모션 보상 사이드 정보를 제공하도록 구성되어, 상기 적어도 하나의 입력 비디오 데이터 스트림의 픽처들은, 모션 보상된 시간적 예측을 통해, 상기 적어도 하나의 입력 비디오 데이터 스트림의 미리 결정된 정적 공간적 영역의 경계들을 넘어 연장되는 부분들에서 상기 적어도 하나의 입력 비디오 데이터 스트림의 픽처들에 선행하지 않는,
    시스템.
  39. 제 37 항 또는 제 38 항에 있어서,
    상기 시스템은 상기 적어도 하나의 비디오 인코더를 포함하는 복수의 비디오 인코더들을 포함하고, 상기 비디오 인코더 중 적어도 하나는 상기 복수의 비디오 인코더들 사이에 동기화되는 시간적 예측 GOP 구조를 사용하여 상기 적어도 하나의 입력 비디오 데이터 스트림을 제공하도록 구성되는,
    시스템.
  40. 제 37 항 내지 제 39 항 중 어느 한 항에 있어서,
    상기 적어도 하나의 비디오 인코더는,
    시간적 계층구조 코딩 및 시간적 모션 보상 사이드 정보 예측을 사용하여 상기 적어도 하나의 입력 비디오 데이터 스트림을 제공하고,
    상기 적어도 하나의 입력 비디오 데이터 스트림의 픽처들 각각과 픽처-범위 시간적 계층구조 계층 ID가 연관되도록 상기 적어도 하나의 입력 비디오 데이터 스트림을 제공하고,
    하나 이상의 시간적 계층구조 레벨 ID들에 대해, 각각의 하나 이상의 시간적 계층구조 레벨 ID들의 픽처들을, 시간적 모션 보상 사이드 정보 예측을 통해, 각각의 하나 이상의 시간적 계층구조 레벨 ID들이 임의의 다른 입력 픽처에 의해 참조되지 않는 범위까지, 상기 시간적 모션 보상 사이드 정보 예측을 통해 제한하고;
    하나 이상의 시간적 계층구조 레벨 ID들에 대해, 시간적 모션 보상 사이드 정보 예측을 통해, 각각의 하나 이상의 시간적 계층구조 레벨 ID들이 임의의 다른 입력 픽처에 의해 참조되지 않는 것을 보장하는 픽처 범위 초과의 시간적 계층구조 계층 ID를 상기 적어도 하나의 입력 비디오 데이터 스트림의 고레벨 신택스에 제공하도록 구성되는,
    시스템.
  41. 시스템으로서,
    복수의 입력 비디오 데이터 스트림들 중 각각의 하나를 제공하도록 각각 구성되는 복수의 비디오 인코더들; 및
    제 19 항 내지 제 36 항 중 어느 한 항에 따른, 상기 복수의 입력 비디오 데이터 스트림들로부터 구성된 비디오 데이터 스트림을 구성하도록 구성되는 비디오 구성 장치를 포함하고,
    상기 구성된 비디오 데이터 스트림 및 상기 복수의 입력 비디오 데이터 스트림들은 모션 보상된 시간적 예측을 사용하여 인코딩되는,
    시스템.
  42. 제 41 항에 있어서,
    상기 복수의 비디오 인코더들은 상기 복수의 비디오 인코더들 사이에 동기화되는 시간적 예측 GOP 구조를 사용하여 상기 복수의 입력 비디오 데이터 스트림들을 제공하도록 구성되는,
    시스템.
  43. 적어도 하나의 입력 비디오 데이터 스트림(14)을 사용하여 구성된 비디오 데이터 스트림(18)을 구성하기 위한 비디오 구성 방법(10)으로서,
    상기 구성된 비디오 데이터 스트림(18) 및 상기 적어도 하나의 입력 비디오 데이터 스트림(14)은 모션 보상된 시간적 예측을 사용하여 인코딩되고, 상기 비디오 구성 방법은,
    상기 적어도 하나의 입력 비디오 데이터 스트림(14)의 모션 보상 사이드 정보 및 예측 잔여 데이터를 수집 및 카피함으로써 승계된 픽처들(26)의 공간적 부분을 채워서 상기 구성된 비디오 데이터 스트림(18)의 상기 승계된 픽처들(26)의 시퀀스를 형성하는 단계 - 상기 공간적 부분의 공간적 위치는 상기 승계된 픽처들의 시퀀스에서 하나의 승계된 픽처로부터 다음 승계된 픽처로 시간적으로 변함 -; 및
    상기 승계된 픽처들의 시퀀스의 승계된 픽처들 사이의 상기 구성된 비디오 데이터 스트림(18)에 출력없는 픽처(30)를 삽입하는 단계를 포함하고,
    상기 출력없는 픽처들은 모션 보상된 시간적 예측을 통해 상기 승계된 픽처들의 서브세트를 참조하는,
    비디오 구성 방법.
  44. 복수의 입력 비디오 데이터 스트림으로부터 구성된 비디오 데이터 스트림을 구성하기 위한 비디오 구성 방법으로서,
    상기 구성된 비디오 데이터 스트림 및 상기 복수의 입력 비디오 데이터 스트림들은 모션 보상된 시간적 예측을 사용하여 인코딩되고, 상기 비디오 구성 방법은,
    상기 복수의 입력 비디오 데이터 스트림들의 모션 보상 사이드 정보 및 예측 잔여 데이터를 수집하고 상기 구성된 비디오 데이터 스트림의 제 1 부분에 카피함으로써 상기 구성된 비디오 데이터 스트림의 픽처들의 제 1 부분에 상기 복수의 입력 비디오 데이터 스트림들을 멀티플렉싱하는 단계, 및
    모션 보상된 시간적 예측을 통해, 상기 구성된 비디오 데이터 스트림의 제 1 부분을 참조함으로써, 상기 구성된 비디오 데이터 스트림의 픽처들의 제 2 부분을 수집된 비디오로 채우는 단계를 포함하고,
    상기 제 1 부분은 출력되지 않도록 시그널링되고 상기 제 2 부분은 출력되도록 시그널링되는,
    비디오 구성 방법.
  45. 모션 보상된 시간적 예측 및 모션 보상 사이드 정보 예측을 사용하여 인코딩되는 계층구조적으로 시간적으로 코딩되는 비디오 데이터 스트림으로서,
    상기 계층구조적으로 시간적으로 코딩된 비디오 데이터 스트림은 상기 계층구조적으로 시간적으로 코딩된 비디오 데이터 스트림의 각각의 픽처에 대해 픽처 범위 시간적 계층구조적 계층 ID를 시그널링하고, 하나 이상의 시간적 계층구조 레벨 ID들에 대해, 시간적 모션 보상 사이드 정보 예측을 통해, 각각의 하나 이상의 시간적 계층구조 레벨 ID들의 픽처들이 임의의 다른 입력 픽처에 의해 참조되지 않는 것을 보장하는 픽처 범위 초과의 시간적 계층구조 계층 ID 판별자를 갖는 고레벨 신택스를 포함하는,
    비디오 데이터 스트림.
  46. 모션 보상된 시간적 예측 및 모션 보상 사이드 정보 예측을 사용하여 인코딩되는 비디오 데이터 스트림으로서,
    상기 비디오 데이터 스트림은, 픽처별 시그널링에 의해,
    시간적 모션 보상 사이드 정보 예측을 통해, 참조 픽처들의 현재의 세트 중 어떠한 것도 상기 비디오 데이터 스트림의 임의의 후속 픽처에 의해 참조되지 않는 제 1 픽처들, 및
    시간적 모션 보상 사이드 정보 예측을 통해, 참조 픽처들의 현재의 세트 중 하나가 상기 비디오 데이터 스트림의 임의의 후속 픽처에 의해 참조되거나 참조를 위한 후보가 되는 제 2 픽처들
    을 구별하는,
    비디오 데이터 스트림.
  47. 컴퓨터 상에서 실행되는 경우 제 43 항 또는 제 44 항에 따른 방법을 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램.
KR1020177007616A 2014-08-20 2014-08-20 비디오 구성 KR102037158B1 (ko)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2014/067757 WO2016026526A2 (en) 2014-08-20 2014-08-20 Video composition

Publications (2)

Publication Number Publication Date
KR20170044169A true KR20170044169A (ko) 2017-04-24
KR102037158B1 KR102037158B1 (ko) 2019-11-26

Family

ID=51392247

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020177007616A KR102037158B1 (ko) 2014-08-20 2014-08-20 비디오 구성

Country Status (6)

Country Link
US (1) US10425652B2 (ko)
EP (1) EP3183878B1 (ko)
JP (1) JP6437096B2 (ko)
KR (1) KR102037158B1 (ko)
CN (2) CN112511837A (ko)
WO (1) WO2016026526A2 (ko)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016180486A1 (en) 2015-05-12 2016-11-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Composite scalable video streaming
JP6362116B2 (ja) * 2016-11-30 2018-07-25 キヤノン株式会社 表示装置及びその制御方法、プログラム、記憶媒体
JP6922215B2 (ja) * 2016-12-27 2021-08-18 富士通株式会社 動画像符号化装置
WO2018169176A1 (ko) * 2017-03-17 2018-09-20 엘지전자 주식회사 퀄리티 기반 360도 비디오를 송수신하는 방법 및 그 장치
CN116074502A (zh) * 2017-03-20 2023-05-05 Ge 视频压缩有限责任公司 生成视频数据流的装置以及生成视频数据流的方法
WO2019038473A1 (en) * 2017-08-24 2019-02-28 Nokia Technologies Oy APPARATUS, METHOD AND COMPUTER PROGRAM FOR OMNIDIRECTIONAL VIDEO
GB2570879B (en) * 2018-02-06 2022-08-17 Advanced Risc Mach Ltd Encoding data arrays
US11202088B2 (en) 2018-03-15 2021-12-14 Sony Corporation Image processing apparatus and method
EP3576413A1 (en) * 2018-05-31 2019-12-04 InterDigital CE Patent Holdings Encoder and method for encoding a tile-based immersive video
CN116405721A (zh) * 2018-06-13 2023-07-07 马克西姆综合产品公司 用于不对称图像分离器时钟生成的系统和方法
US11570400B2 (en) * 2018-06-13 2023-01-31 Analog Devices, Inc. Systems and methods for asymmetric image splitter clock generation
EP3811624A1 (en) * 2018-06-21 2021-04-28 Telefonaktiebolaget LM Ericsson (publ) Tile shuffling for 360 degree video decoding
EP3591972A1 (en) * 2018-07-02 2020-01-08 Axis AB Method and system for encoding video with overlay
CN108810417A (zh) * 2018-07-04 2018-11-13 深圳市歌美迪电子技术发展有限公司 一种图像处理方法、机构及后视镜
WO2020042191A1 (zh) * 2018-08-31 2020-03-05 深圳市大疆创新科技有限公司 编码方法、解码方法、编码设备和解码设备
KR102154407B1 (ko) * 2018-11-15 2020-09-09 한국전자기술연구원 타일 기반 스트리밍을 위한 모션 제한 av1 영상 부호화 방법 및 장치
EP3868095A4 (en) * 2018-11-26 2021-12-15 Huawei Technologies Co., Ltd. APPARATUS AND METHOD FOR DERIVATING A CHROMINANCE QUANTIFICATION PARAMETER
TWI799682B (zh) * 2019-02-01 2023-04-21 弗勞恩霍夫爾協會 允許逐子圖像或逐區域隨機存取之視訊編碼解碼器及使用它之視訊合成技術
CN112118454B (zh) * 2019-06-20 2023-02-24 腾讯美国有限责任公司 视频解码方法、设备和计算机可读存储介质
BR112021024418A2 (pt) * 2019-06-21 2022-01-18 Ericsson Telefon Ab L M Métodos para a decodificação de um conjunto de imagens a partir de um fluxo contínuo de bits e para a codificação de uma imagem, decodificador de vídeo, codificador de vídeo, programa de computador, e, portadora
CN112533022A (zh) * 2019-08-30 2021-03-19 中兴通讯股份有限公司 云化机顶盒透明度叠加方法、云化机顶盒及存储介质
CN115668951A (zh) * 2020-03-30 2023-01-31 Lg电子株式会社 用信号通知关于dpb参数的数量的信息的图像编码/解码方法和设备及存储比特流的计算机可读记录介质
US20230222754A1 (en) * 2022-01-07 2023-07-13 Sony Interactive Entertainment Inc. Interactive video playback techniques to enable high fidelity magnification
EP4387228A1 (en) * 2022-12-15 2024-06-19 Axis AB Method and device for combining image data from two or more encoded image frames

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030078772A (ko) * 2002-03-29 2003-10-08 가부시끼가이샤 도시바 동화상 부호화방법 및 장치와, 동화상 복호화방법 및 장치
US20050008240A1 (en) * 2003-05-02 2005-01-13 Ashish Banerji Stitching of video for continuous presence multipoint video conferencing
WO2014010537A1 (en) * 2012-07-09 2014-01-16 Mitsubishi Electric Corporation Method and system for processing multiview videos for view synthesis using motion vector predictor list
KR20140092902A (ko) * 2011-11-11 2014-07-24 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 깊이-맵 추정 및 업데이트를 사용한 효율적인 멀티-뷰 코딩
KR20150065841A (ko) * 2012-10-05 2015-06-15 퀄컴 인코포레이티드 고효율 비디오 코딩에 기초한 스케일러블 코딩을 위한 모션 필드 업샘플링

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3879252B2 (ja) * 1998-05-22 2007-02-07 ソニー株式会社 編集方法および編集装置
US6700588B1 (en) * 1998-11-09 2004-03-02 Broadcom Corporation Apparatus and method for blending graphics and video surfaces
US6901110B1 (en) * 2000-03-10 2005-05-31 Obvious Technology Systems and methods for tracking objects in video sequences
US7599565B2 (en) * 2004-03-10 2009-10-06 Nokia Corporation Method and device for transform-domain video editing
CN100466720C (zh) * 2005-01-17 2009-03-04 株式会社东芝 视频合成设备及视频合成方法
CA2640246C (en) * 2006-02-16 2014-12-02 Vidyo, Inc. System and method for thinning of scalable video coding bit-streams
US8773494B2 (en) * 2006-08-29 2014-07-08 Microsoft Corporation Techniques for managing visual compositions for a multimedia conference call
JP2008066851A (ja) * 2006-09-05 2008-03-21 Sony Corp 情報処理装置および情報処理方法、記録媒体、並びに、プログラム
JP2013055587A (ja) 2011-09-06 2013-03-21 Sony Corp 画像処理装置、画像処理方法、および画像処理システム
US9288506B2 (en) * 2012-01-05 2016-03-15 Qualcomm Incorporated Signaling view synthesis prediction support in 3D video coding
WO2013156678A1 (en) * 2012-04-16 2013-10-24 Nokia Corporation An apparatus, a method and a computer program for video coding and decoding
US9800869B2 (en) * 2012-06-15 2017-10-24 Google Technology Holdings LLC Method and apparatus for efficient slice header processing
US9948915B2 (en) * 2013-07-24 2018-04-17 Qualcomm Incorporated Sub-PU motion prediction for texture and depth coding

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030078772A (ko) * 2002-03-29 2003-10-08 가부시끼가이샤 도시바 동화상 부호화방법 및 장치와, 동화상 복호화방법 및 장치
US20050008240A1 (en) * 2003-05-02 2005-01-13 Ashish Banerji Stitching of video for continuous presence multipoint video conferencing
KR20140092902A (ko) * 2011-11-11 2014-07-24 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 깊이-맵 추정 및 업데이트를 사용한 효율적인 멀티-뷰 코딩
WO2014010537A1 (en) * 2012-07-09 2014-01-16 Mitsubishi Electric Corporation Method and system for processing multiview videos for view synthesis using motion vector predictor list
KR20150065841A (ko) * 2012-10-05 2015-06-15 퀄컴 인코포레이티드 고효율 비디오 코딩에 기초한 스케일러블 코딩을 위한 모션 필드 업샘플링

Also Published As

Publication number Publication date
EP3183878A2 (en) 2017-06-28
WO2016026526A3 (en) 2016-07-14
CN106797495B (zh) 2020-12-22
JP6437096B2 (ja) 2018-12-12
EP3183878B1 (en) 2019-11-13
CN106797495A (zh) 2017-05-31
US20170163994A1 (en) 2017-06-08
US10425652B2 (en) 2019-09-24
CN112511837A (zh) 2021-03-16
WO2016026526A2 (en) 2016-02-25
JP2017530613A (ja) 2017-10-12
KR102037158B1 (ko) 2019-11-26

Similar Documents

Publication Publication Date Title
KR102037158B1 (ko) 비디오 구성
JP6556868B2 (ja) ビデオストリーミング装置、ビデオストリーム、ビデオストリーミング方法、及び、コンピュータプログラム
US11778171B2 (en) Apparatus, a method and a computer program for video coding and decoding
US20220239949A1 (en) An apparatus, a method and a computer program for video encoding and decoding
KR102373046B1 (ko) 효율적인 감소성 또는 효율적인 랜덤 액세스를 허용하는 픽처/비디오 데이터 스트림들에 대한 개념
US20190349598A1 (en) An Apparatus, a Method and a Computer Program for Video Coding and Decoding
JP2022522682A (ja) 出力レイヤセットをサブピクチャでシグナリングするための方法、コンピュータシステム、およびコンピュータプログラム
US20200404269A1 (en) Method for region-wise scalability with adaptive resolution change
US20230013085A1 (en) Region-wise scalability with adaptive resolution change
CN114514742A (zh) 采用已编码视频流中的子图片进行信号发送的用信号发送虚拟边界的方法
RU2785918C1 (ru) Способ ссылки на набор параметров в битовом потоке кодированного видео

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant