KR20180109889A

KR20180109889A - 송신 장치, 송신 방법, 수신 장치 및 수신 방법

Info

Publication number: KR20180109889A
Application number: KR1020187021191A
Authority: KR
Inventors: 이쿠오 츠카고시
Original assignee: 소니 주식회사
Priority date: 2016-02-09
Filing date: 2017-02-06
Publication date: 2018-10-08
Also published as: EP3416393A1; US11223859B2; US20200351529A1; JP6947039B2; JPWO2017138470A1; US20190037250A1; KR20240017138A; CN108605152B; WO2017138470A1; US11792452B2; EP3416393B1; CA3009777C; MX2018009410A; EP3416393A4; US10764615B2; US20230412859A1; CN108605152A; CA3009777A1; US20220094993A1

Abstract

수신측에 있어서 디코드 능력에 따른 처리를 행함에 있어서의 편의를 도모한다. 하이 프레임 레이트로 초고해상도의 화상 데이터를 처리하여, 기본 프레임 레이트로 고해상도의 화상을 얻기 위한 제1 화상 데이터와, 제1 화상 데이터와 함께 사용하여 하이 프레임 레이트로 고해상도의 화상을 얻기 위한 제2 화상 데이터와, 제1 화상 데이터와 함께 사용하여 기본 프레임 레이트로 초고해상도의 화상을 얻기 위한 제3 화상 데이터와, 제1 내지 제3 화상 데이터와 함께 사용하여 하이 프레임 레이트로 초고해상도의 화상을 얻기 위한 제4 화상 데이터를 얻는다. 제1 내지 제4 화상 데이터의 부호화 화상 데이터를 갖는 소정수의 비디오 스트림을 포함하는 컨테이너를 송신한다. 컨테이너에, 소정수의 비디오 스트림의 각각에 삽입된 당해 비디오 스트림이 갖는 화상 데이터에 관한 정보에 대응한 정보를 삽입한다.

Description

송신 장치, 송신 방법, 수신 장치 및 수신 방법

본 기술은 송신 장치, 송신 방법, 수신 장치 및 수신 방법에 관한 것이며, 상세하게는 하이 프레임 레이트로 초고해상도의 화상 데이터를 송신하는 송신 장치 등에 관한 것이다.

고정 수신기와 모바일 수신기가 동일한 전송 대역을 공유하는 수신 환경에 있어서, 해상도가 높다고 여겨지는 고정 수신기용 화상 서비스(영상 서비스)와 중간 정도의 해상도로 되는 모바일 수신기용 화상 서비스가 스트림을 공유함으로써, 고정 수신기용 서비스와 모바일 수신기용 서비스를 별도로 행하는, 소위 사이멀 캐스트 서비스에 비하여, 전체의 비트 레이트를 저감할 수 있다고 생각되고 있다. 예를 들어, 특허문헌 1에는, 미디어 부호화를 스케일러블하게 행하여, 저해상도의 화상 서비스를 위한 기본 레이어의 스트림과, 고해상도의 화상 서비스를 위한 확장 레이어의 스트림을 생성하고, 이것들을 포함하는 방송 신호를 송신하는 것이 기재되어 있다.

일본 특허 공표 제2008-543142호 공보

본 기술의 목적은, 수신측에 있어서 디코드 능력에 따른 처리를 행하는 데 있어서의 편의를 도모하는 데 있다.

본 기술의 개념은,

하이 프레임 레이트로 초고해상도의 화상 데이터를 처리하여, 기본 프레임 레이트로 고해상도의 화상을 얻기 위한 제1 화상 데이터와, 상기 제1 화상 데이터와 함께 사용하여 하이 프레임 레이트로 고해상도의 화상을 얻기 위한 제2 화상 데이터와, 상기 제1 화상 데이터와 함께 사용하여 기본 프레임 레이트로 초고해상도의 화상을 얻기 위한 제3 화상 데이터와, 상기 제1 내지 제3 화상 데이터와 함께 사용하여 하이 프레임 레이트로 초고해상도의 화상을 얻기 위한 제4 화상 데이터를 얻는 화상 처리부와,

상기 제1 내지 제4 화상 데이터의 부호화 화상 데이터를 갖는 소정수의 비디오 스트림을 포함하는 컨테이너를 송신하는 송신부와,

상기 컨테이너에 상기 소정수의 비디오 스트림의 각각에 삽입된 당해 비디오 스트림이 갖는 화상 데이터에 관한 정보에 대응한 정보를 삽입하는 정보 삽입부를 구비하는 송신 장치에 있다.

본 기술에 있어서, 화상 처리부에 의해, 하이 프레임 레이트로 초고해상도의 화상 데이터가 처리되어, 제1 내지 제4 화상 데이터가 얻어진다. 제1 화상 데이터는, 기본 프레임 레이트로 고해상도의 화상을 얻기 위한 화상 데이터이다. 제2 화상 데이터는, 제1 화상 데이터와 함께 사용하여 하이 프레임 레이트로 고해상도의 화상을 얻기 위한 화상 데이터이다. 제3 화상 데이터는, 제1 화상 데이터와 함께 사용하여 기본 프레임 레이트로 초고해상도의 화상을 얻기 위한 화상 데이터이다. 제4 화상 데이터는, 제1 내지 제3 화상 데이터와 함께 사용하여 하이 프레임 레이트로 초고해상도의 화상을 얻기 위한 화상 데이터이다.

송신부에 의해, 제1 내지 제4 화상 데이터의 부호화 화상 데이터를 갖는 소정수의 비디오 스트림을 포함하는 컨테이너가 송신된다. 이 컨테이너에는, 정보 송신부에 의해, 소정수의 비디오 스트림의 각각에 삽입된 당해 비디오 스트림이 갖는 화상 데이터에 관한 정보에 대응한 정보가 삽입된다.

예를 들어, 송신부가 송신하는 컨테이너에는, 제1 화상 데이터의 부호화 화상 데이터와 제2 화상 데이터의 부호화 화상 데이터를 갖는 제1 비디오 스트림과, 제3 화상 데이터의 부호화 화상 데이터와 제4 화상 데이터의 부호화 화상 데이터를 갖는 제2 비디오 스트림이 포함되어 있고, 정보 삽입부는, 제1 및 제2 비디오 스트림을 각각 1트랙에서 관리하는 상태로 정보를 컨테이너에 삽입하도록 되어도 된다. 컨테이너가 MP4(ISOBMFF)인 경우, 트랙에 대응하여 존재하는 "moof" 블록에, 비디오 스트림이 갖는 2개의 화상 데이터의 부호화 화상 데이터에 관한 정보가 배치된다.

이 경우, 비디오 스트림(파일)의 수가 2개로 심플하게 된다. 기본 프레임 레이트의 수신기, 예를 들어 60P의 수신기의 컨테이너 해석부(디멀티플렉서)는, 120P의 스트림을 읽고, 불필요한 픽처를 띄어가며 읽을 필요가 있다. 한편, 하이 프레임 레이트의 수신기, 예를 들어 120P의 수신기는, 아무것도 여분의 것을 하지 않고, 120P의 스트림의 픽처를 그대로 디코드하면 된다.

이 경우, 예를 들어 정보 삽입부는, 정보를 컨테이너에 삽입할 때, 제1 비디오 스트림에 관해서는 제1 화상 데이터의 부호화 화상 데이터에 관한 정보와 제2 화상 데이터의 부호화 화상 데이터에 관한 정보를 그룹 분류하여 삽입하고, 제2 비디오 스트림에 관해서는 제3 화상 데이터의 부호화 화상 데이터에 관한 정보와 제4 화상 데이터의 부호화 화상 데이터에 관한 정보를 그룹 분류하여 삽입하도록 되어도 된다. 이와 같이 그룹 분류되어 있음으로써, 수신측에서는, 각 정보가 어느 부호화 화상 데이터에 관한 것인지를 용이하게 판별 가능하게 된다.

또한, 이 경우, 예를 들어 제1 비디오 스트림에 있어서 제1 화상 데이터의 픽처와 제2 화상 데이터의 픽처가 교대로, 즉 시간순으로 교대로 부호화되어 있고, 제2 비디오 스트림에 있어서 제3 화상 데이터의 픽처와 제4 화상 데이터의 픽처가 교대로, 즉 시간순으로 교대로 부호화되어 있도록 되어도 된다. 이와 같이 부호화되어 있음으로써, 수신측에서는, 각 픽처의 디코드 처리를 원활하게 행하는 것이 가능하게 된다. 또한, 이와 같이 교대로 부호화함으로써, 제1 화상 데이터만, 혹은 제1 화상 데이터와 제3 화상 데이터만을 디코드하는 수신기에 있어서 디코드 능력의 범위 내에서 복호 처리가 가능함을 보증하게 된다.

또한, 예를 들어 송신부가 송신하는 컨테이너에는, 제1 화상 데이터의 부호화 화상 데이터와 제2 화상 데이터의 부호화 화상 데이터를 갖는 제1 비디오 스트림과, 제3 화상 데이터의 부호화 화상 데이터와 제4 화상 데이터의 부호화 화상 데이터를 갖는 제2 비디오 스트림이 포함되어 있고, 정보 삽입부는, 제1 및 제2 비디오 스트림을 각각 2트랙에서 관리하는 상태로 정보를 컨테이너에 삽입하도록 되어도 된다. 컨테이너가 MP4(ISOBMFF)인 경우, 트랙별로 "moof" 블록이 존재하고, 비디오 스트림이 갖는 2개의 화상 데이터의 부호화 화상 데이터 중 한쪽에 관한 정보가 배치된다.

이 경우, 예를 들어 제1 비디오 스트림에 있어서 제1 화상 데이터의 픽처와 제2 화상 데이터의 픽처가 교대로, 즉 시간순으로 교대로 부호화되어 있고, 제2 비디오 스트림에 있어서 제3 화상 데이터의 픽처와 제4 화상 데이터의 픽처가 교대로, 즉 시간순으로 교대로 부호화되어 있도록 되어도 된다. 이와 같이 부호화되어 있음으로써, 수신측에서는, 각 픽처의 디코드 처리를 원활하게 행하는 것이 가능하게 된다. 또한, 이와 같이 교대로 부호화함으로써, 제1 화상 데이터만, 혹은 제1 화상 데이터와 제3 화상 데이터만을 디코드하는 수신기에 있어서 디코드 능력의 범위 내에서 복호 처리가 가능함을 보증하게 된다.

또한, 예를 들어 송신부가 송신하는 컨테이너에는, 제1 화상 데이터의 부호화 화상 데이터를 갖는 제1 비디오 스트림과, 제2 화상 데이터의 부호화 화상 데이터를 갖는 제2 비디오 스트림과, 제3 화상 데이터의 부호화 화상 데이터를 갖는 제3 비디오 스트림과, 제4 화상 데이터의 부호화 화상 데이터를 갖는 제4 비디오 스트림이 포함되어 있고, 정보 삽입부는, 제1 내지 제4 비디오 스트림을 각각 1트랙에서 관리하는 상태로 상기 정보를 삽입하도록 되어도 된다. 컨테이너가 MP4(ISOBMFF)인 경우, 트랙에 대응하여 존재하는 "moof" 블록에, 비디오 스트림이 갖는 하나의 화상 데이터의 부호화 화상 데이터에 관한 정보가 배치된다.

이 경우, 비디오 스트림(파일)의 수가 4개로 된다. 기본 프레임 레이트의 수신기, 예를 들어 60P의 수신기는, 60P의 스트림을 읽고, 아무것도 쓸데없는 의식을 하지 않고 디코더로 전달하는, 소위 하방 호환성을 보증하는 것이다. 한편, 하이 프레임 레이트의 수신기, 예를 들어 120P의 수신기는, 2개의 스트림을 결합하여 디코드순으로 하나의 스트림으로 하여 디코더에 전송할 필요가 있다.

이와 같이 본 기술에 있어서는, 소정수의 비디오 스트림의 각각에 삽입된 당해 비디오 스트림이 갖는 화상 데이터에 관한 정보에 대응한 정보를 컨테이너에 삽입하는 것이다. 그 때문에, 수신측에서는, 디코드 능력에 따라, 이 정보에 기초하여, 소정수의 스트림에 포함되는 제1 내지 제4 화상 데이터로부터 소정의 부호화 화상 데이터를 취출하여 디코드 처리를 행하는 것이 용이하게 가능하게 된다.

또한, 본 기술에 있어서, 예를 들어 하이 프레임 레이트이며 초고해상도의 화상 데이터는, 하이 다이내믹 레인지 화상 데이터에 하이 다이내믹 레인지 광전 변환 특성에 의한 광전 변환을 행하여 하이 다이내믹 레인지 광전 변환 특성을 갖게 한 전송 화상 데이터이며, 정보 삽입부는, 하이 다이내믹 레인지 광전 변환 특성 또는 이 특성에 대응한 전광 변환 특성을 나타내는 변환 특성 정보를, 제1 화상 데이터의 부호화 화상 데이터를 갖는 비디오 스트림에 추가로 삽입하도록 되어도 된다. 예를 들어, 하이 다이내믹 레인지 광전 변환 특성은 하이브리드 로그 감마의 특성이도록 되어도 된다. 또한, 예를 들어 하이 다이내믹 레인지 광전 변환 특성은 PQ 커브의 특성이도록 되어도 된다. 이와 같이 변환 특성 정보가 삽입되어 있음으로써, 수신측에서는, 이 변환 특성 정보에 기초하여 적절한 전광 변환을 행하는 것이 용이하게 가능하게 된다.

이 경우, 예를 들어 하이 다이내믹 레인지 광전 변환 특성이 PQ 커브의 특성일 때, 정보 삽입부는, 제1 화상 데이터의 부호화 화상 데이터를 갖는 비디오 스트림에, PQ 커브의 특성에 의한 변환 데이터의 값을 통상 다이내믹 레인지 광전 변환 특성에 의한 변환 데이터의 값으로 변환하기 위한 변환 정보를 추가로 삽입하도록 되어도 된다. 이와 같이 변환 정보가 삽입되어 있음으로써, 수신측에서는, 통상 다이내믹 레인지 표시를 행하는 경우에, 표시용 화상 데이터를 양호하게 얻는 것이 가능하게 된다.

또한, 본 기술의 다른 개념은,

소정수의 비디오 스트림을 포함하는 컨테이너를 수신하는 수신부를 구비하고,

상기 소정수의 비디오 스트림은, 하이 프레임 레이트로 초고해상도의 화상 데이터를 처리하여 얻어진, 기본 프레임 레이트로 고해상도의 화상을 얻기 위한 제1 화상 데이터와, 상기 제1 화상 데이터와 함께 사용하여 하이 프레임 레이트로 고해상도의 화상을 얻기 위한 제2 화상 데이터와, 상기 제1 화상 데이터와 함께 사용하여 기본 프레임 레이트로 초고해상도의 화상을 얻기 위한 제3 화상 데이터와, 상기 제1 내지 제3 화상 데이터와 함께 사용하여 하이 프레임 레이트로 초고해상도의 화상을 얻기 위한 제4 화상 데이터를 갖고,

상기 컨테이너에 상기 소정수의 비디오 스트림의 각각에 삽입된 당해 비디오 스트림이 갖는 화상 데이터에 관한 정보에 대응한 정보가 삽입되어 있고,

디코드 능력에 따라, 상기 컨테이너에 삽입되어 있는 정보에 기초하여, 상기 제1 내지 제4 화상 데이터의 부호화 화상 데이터로부터 소정의 부호화 화상 데이터를 선택적으로 취출하여 디코드 처리를 행하여 화상 데이터를 얻는 처리부를 더 구비하는 수신 장치에 있다.

본 기술에 있어서, 수신부에 의해, 소정수의 비디오 스트림을 포함하는 컨테이너가 수신된다. 소정수의 비디오 스트림은, 하이 프레임 레이트로 초고해상도의 화상 데이터를 처리하여 얻어진 제1 내지 제4 화상 데이터의 부호화 화상 데이터를 갖고 있다. 제1 화상 데이터는, 기본 프레임 레이트로 고해상도의 화상을 얻기 위한 화상 데이터이다. 제2 화상 데이터는, 제1 화상 데이터와 함께 사용하여 하이 프레임 레이트로 고해상도의 화상을 얻기 위한 화상 데이터이다. 제3 화상 데이터는, 제1 화상 데이터와 함께 사용하여 기본 프레임 레이트로 초고해상도의 화상을 얻기 위한 화상 데이터이다. 제4 화상 데이터는, 제1 내지 제3 화상 데이터와 함께 사용하여 하이 프레임 레이트로 초고해상도의 화상을 얻기 위한 화상 데이터이다.

컨테이너에, 소정수의 비디오 스트림의 각각에 삽입된 당해 비디오 스트림이 갖는 화상 데이터에 관한 정보에 대응한 정보가 삽입되어 있다. 처리부에 의해, 디코드 능력에 따라, 컨테이너에 삽입되어 있는 정보에 기초하여, 제1 내지 제4 화상 데이터의 부호화 화상 데이터로부터 소정의 부호화 화상 데이터가 선택적으로 취출되어 디코드 처리가 행해져 화상 데이터가 얻어진다.

이와 같이 본 기술에 있어서는, 컨테이너에 소정수의 비디오 스트림의 각각에 삽입된 당해 비디오 스트림이 갖는 화상 데이터에 관한 정보에 대응한 정보가 삽입되어 있고, 디코드 능력에 따라, 컨테이너에 삽입되어 있는 정보에 기초하여, 제1 내지 제4 화상 데이터의 부호화 화상 데이터로부터 소정의 부호화 화상 데이터를 선택적으로 취출하여 디코드 처리를 행하는 것이다. 그 때문에, 디코드 능력에 따른 디코드 처리를 행하는 것이 용이하게 가능하게 된다.

또한, 본 기술에 있어서, 예를 들어 하이 프레임 레이트이며 초고해상도의 화상 데이터는, 하이 다이내믹 레인지 화상 데이터에 하이 다이내믹 레인지 광전 변환 특성에 의한 광전 변환을 행하여 하이 다이내믹 레인지 광전 변환 특성을 갖게 한 전송 화상 데이터이며, 제1 화상 데이터의 부호화 화상 데이터를 갖는 비디오 스트림에, 하이 다이내믹 레인지 광전 변환 특성 또는 이 특성에 대응한 전광 변환 특성을 나타내는 변환 특성 정보가 삽입되어 있고, 처리부는, 디코드 처리에서 얻어진 화상 데이터에 변환 특성 정보에 기초하여 전광 변환을 행하여 표시용 화상 데이터를 얻도록 되어도 된다. 이와 같이 변환 특성 정보에 기초하여 전광 변환이 행해짐으로써, 적절한 전광 변환을 행하는 것이 용이하게 가능하게 된다.

또한, 본 기술에 있어서, 예를 들어 하이 프레임 레이트이며 초고해상도의 화상 데이터는, 하이 다이내믹 레인지 화상 데이터에 하이 다이내믹 레인지 광전 변환 특성에 의한 광전 변환을 행하여 하이 다이내믹 레인지 광전 변환 특성을 갖게 한 전송 화상 데이터이며, 하이 다이내믹 레인지 광전 변환 특성은 PQ 커브의 특성이고, 제1 화상 데이터의 부호화 화상 데이터를 갖는 비디오 스트림에, PQ 커브의 특성에 의한 변환 데이터의 값을 통상 다이내믹 레인지 광전 변환 특성에 의한 변환 데이터의 값으로 변환하기 위한 변환 정보가 삽입되어 있고, 처리부는, 통상 다이내믹 레인지 표시를 행할 때, 디코드 처리에서 얻어진 화상 데이터에, 변환 정보에 기초하여 다이내믹 레인지 변환을 행하여 통상 다이내믹 레인지 전송 화상 데이터를 얻고, 이 통상 다이내믹 레인지 전송 화상 데이터에 통상 다이내믹 레인지 전광 변환 특성에 의한 전광 변환을 행하여 표시용 화상 데이터를 얻도록 되어도 된다. 이에 의해, 통상 다이내믹 레인지 표시를 행하는 경우에, 표시용 화상 데이터를 양호하게 얻는 것이 가능하게 된다.

또한, 본 기술의 다른 개념은,

하이 프레임 레이트의 화상 데이터를 처리하여, 기본 프레임 레이트 화상을 얻기 위한 제1 화상 데이터와 해당 제1 화상 데이터와 함께 사용하여 하이 프레임 레이트의 화상 데이터를 얻기 위한 제2 화상 데이터를 얻는 화상 처리부와,

상기 제1 및 제2 화상 데이터의 부호화 화상 데이터를 갖는 하나 이상의 비디오 스트림을 포함하는 컨테이너를 송신하는 송신부와,

상기 컨테이너에, 상기 제1 화상 데이터의 부호화 화상 데이터에 대응하여, 상기 제1 화상 데이터의 부호화 화상 데이터에 대응한 비디오 스트림의 레벨 지정값을 삽입하고, 상기 제2 화상 데이터의 부호화 화상 데이터에 대응하여, 상기 제1 및 제2 화상 데이터의 부호화 화상 데이터를 합한 비디오 스트림의 레벨 지정값을 삽입하는 정보 삽입부를 구비하는 송신 장치에 있다.

본 기술에 있어서, 화상 처리부에 의해, 하이 프레임 레이트의 화상 데이터가 처리되어, 기본 프레임 레이트 화상을 얻기 위한 제1 화상 데이터와 이 제1 화상 데이터와 함께 사용하여 하이 프레임 레이트의 화상 데이터를 얻기 위한 제2 화상 데이터가 얻어진다. 송신부에 의해, 제1 및 제2 화상 데이터의 부호화 화상 데이터를 갖는 하나 이상의 비디오 스트림을 포함하는 컨테이너가 송신된다.

그리고, 정보 삽입부에 의해, 컨테이너에, 상기 제1 화상 데이터의 부호화 화상 데이터에 대응하여, 상기 제1 화상 데이터의 부호화 화상 데이터에 대응한 비디오 스트림의 레벨 지정값이 삽입되고, 제2 화상 데이터의 부호화 화상 데이터에 대응하여, 제1 및 제2 화상 데이터의 부호화 화상 데이터를 합한 비디오 스트림의 레벨 지정값이 삽입된다.

이와 같이 본 기술에 있어서는, 컨테이너에 비디오 스트림의 레벨 지정값이 삽입됨으로써, 수신측에서는, 이 비디오 스트림의 레벨 지정값의 정보에 기초하여, 제1 및 제2 화상 데이터의 부호화 화상 데이터로부터 디코드 능력에 따른 것을 선택적으로 디코더에 보내서 처리시키는 것이 가능하게 된다.

또한, 본 기술의 다른 개념은,

하나 이상의 비디오 스트림을 포함하는 컨테이너를 수신하는 수신부를 구비하고,

상기 하나 이상의 비디오 스트림은, 기본 프레임 레이트 화상을 얻기 위한 제1 화상 데이터와 해당 제1 화상 데이터와 함께 사용하여 하이 프레임 레이트의 화상 데이터를 얻기 위한 제2 화상 데이터를 갖고,

상기 컨테이너에, 상기 제1 화상 데이터의 부호화 화상 데이터에 대응하여, 상기 제1 화상 데이터의 부호화 화상 데이터에 대응한 비디오 스트림의 레벨 지정값이 삽입되어 있고, 상기 제2 화상 데이터의 부호화 화상 데이터에 대응하여, 상기 제1 및 제2 화상 데이터의 부호화 화상 데이터를 합한 비디오 스트림의 레벨 지정값이 삽입되어 있고,

디코드 능력에 따라, 상기 컨테이너에 삽입되어 있는 상기 비디오 스트림의 레벨 지정값에 기초하여, 상기 제1 및 제2 화상 데이터의 부호화 화상 데이터로부터 하나 이상의 부호화 화상 데이터를 선택적으로 취출하여 디코드 처리를 행하여 화상 데이터를 얻는 처리부를 더 구비하는 수신 장치에 있다.

본 기술에 있어서, 수신부에 의해, 하나 이상의 비디오 스트림을 포함하는 컨테이너가 수신된다. 여기서, 하나 이상의 비디오 스트림은, 기본 프레임 레이트 화상을 얻기 위한 제1 화상 데이터와 이 제1 화상 데이터와 함께 사용하여 하이 프레임 레이트의 화상 데이터를 얻기 위한 제2 화상 데이터를 갖고 있다.

또한, 컨테이너에, 상기 제1 화상 데이터의 부호화 화상 데이터에 대응하여, 상기 제1 화상 데이터의 부호화 화상 데이터에 대응한 비디오 스트림의 레벨 지정값이 삽입되어 있고, 제2 화상 데이터의 부호화 화상 데이터에 대응하여, 제1 및 제2 화상 데이터의 부호화 화상 데이터를 합한 비디오 스트림의 레벨 지정값이 삽입되어 있다.

처리부에 의해, 디코드 능력에 따라, 컨테이너에 삽입되어 있는 비디오 스트림의 레벨 지정값에 기초하여, 제1 및 제2 화상 데이터의 부호화 화상 데이터로부터 하나 이상의 부호화 화상 데이터가 선택적으로 취출되어 디코드 처리가 행해져 화상 데이터가 얻어진다.

이와 같이 본 기술에 있어서는, 컨테이너에 삽입되어 있는 비디오 스트림의 레벨 지정값의 정보에 기초하여, 제1 및 제2 화상 데이터의 부호화 화상 데이터로부터 디코드 능력에 따른 것을 선택적으로 디코더에 보내서 처리시키는 것이며, 디코더에 있어서의 처리를 효율적으로 행하는 것이 가능하게 된다.

본 기술에 따르면, 수신측에 있어서 디코드 능력에 따른 처리를 행하는 데 있어서의 편의를 도모할 수 있다. 또한, 본 명세서에 기재된 효과는 어디까지나 예시이며 한정되는 것은 아니고, 또한 부가적인 효과가 있어도 된다.

도 1은, MPEG-DASH 베이스의 스트림 배신 시스템의 구성예를 도시하는 블록도이다.
도 2는, MPD 파일에 계층적으로 배치되어 있는 각 구조체의 관계의 일례를 도시하는 도면이다.
도 3은, 실시 형태로서의 송수신 시스템의 구성예를 도시하는 블록도이다.
도 4는, 통신 네트워크 전송로 또는 RF 전송로를 통하여 송신되는 MP4의 스트림의 일례를 도시하는 도면이다.
도 5는, 서비스 송신 시스템 및 서비스 수신기에 있어서의 인코드/디코드의 처리의 개요를 도시하는 도면이다.
도 6은, 2개 또는 4개의 비디오 스트림(비디오 파일)이 갖는 제1 내지 제4 화상 데이터를 설명하기 위한 도면이다.
도 7은, 케이스 1(Case 1)의 전송에 있어서의 MP4 스트림(파일)의 구성예를 도시하는 도면이다.
도 8은, SPS(VPS)의 요소의 일례를 도시하는 도면이다.
도 9는, 케이스 1(Case 1)의 전송에 있어서의 "moof(moof 0)" 박스 내의 제어 정보의 일례를 개략적으로 도시하는 도면이다.
도 10은, 케이스 1(Case 1)의 전송에 있어서의 "moof(moof 1)" 박스 내의 제어 정보의 일례를 개략적으로 도시하는 도면이다.
도 11은, 케이스 2(Case 2)의 전송에 있어서의 MP4 스트림(파일)의 구성예를 도시하는 도면이다.
도 12는, 케이스 2(Case 2)의 전송에 있어서의 "moof(moof 0)" 및 "moof(moof 1)"의 박스 내의 제어 정보의 일례를 개략적으로 도시하는 도면이다.
도 13은, 케이스 2(Case 2)의 전송에 있어서의 "moof(moof 2)" 및 "moof(moof 3)"의 박스 내의 제어 정보의 일례를 개략적으로 도시하는 도면이다.
도 14는, 케이스 3(Case 3)의 전송에 있어서의 MP4 스트림(파일)의 구성예를 도시하는 도면이다.
도 15는, 2 스트림 구성의 전송의 경우(케이스 1, 케이스 2의 경우)에 있어서의 MPD 파일의 기술예를 도시하는 도면이다.
도 16은, "SupplementaryDescriptor"의 「Value」 시맨틱스를 도시하는 도면이다.
도 17은, 4 스트림 구성의 전송의 경우(케이스 1, 케이스 2의 경우)에 있어서의 MPD 파일의 기술예를 도시하는 도면이다.
도 18은, 서비스 송신 시스템의 구성예를 도시하는 블록도이다.
도 19는, HDR 광전 변환 특성을 설명하기 위한 도면이다.
도 20은, 다이내믹 레인지 변환의 변환 정보를 설명하기 위한 도면이다.
도 21은, 부호화 방식이 HEVC인 경우에 있어서의 GOP의 선두의 액세스 유닛을 도시하는 도면이다.
도 22는, 트랜스퍼ㆍ펑션ㆍSEI 메시지의 구조예와, 그 구조예에 있어서의 주요한 정보의 내용을 도시하는 도면이다.
도 23은, 다이내믹 레인지ㆍ컨버전 SEI 메시지의 구조예를 도시하는 도면이다.
도 24는, 다이내믹 레인지ㆍ컨버전 SEI 메시지의 구조예에 있어서의 주요한 정보의 내용을 도시하는 도면이다.
도 25는, 서비스 수신기의 구성예를 도시하는 블록부이다.
도 26은, 다이내믹 레인지 변환의 상세를 설명하기 위한 도면이다.

이하, 발명을 실시하기 위한 형태(이하, 「실시 형태」라고 함)에 대하여 설명한다. 또한, 설명을 이하의 순서로 행한다.

1. 실시 형태

2. 변형예

<1. 실시 형태>

[MPEG-DASH 베이스의 스트림 배신 시스템의 개요]

최초로, 본 기술을 적용할 수 있는 MPEG-DASH 베이스의 스트림 배신 시스템의 개요를 설명한다.

도 1의 (a)는, MPEG-DASH 베이스의 스트림 배신 시스템(30A)의 구성예를 도시하고 있다. 이 구성예에서는, 미디어 스트림과 MPD 파일이, 통신 네트워크 전송로(통신 전송로)를 통하여 송신된다. 이 스트림 배신 시스템(30A)은, DASH 스트림 파일 서버(31) 및 DASH MPD 서버(32)에, N개의 서비스 수신기(33-1, 33-2, …, 33-N)가, CDN(Content Delivery Network)(34)을 통하여 접속된 구성으로 되어 있다.

DASH 스트림 파일 서버(31)는, 소정의 콘텐츠의 미디어 데이터(비디오 데이터, 오디오 데이터, 자막 데이터 등)에 기초하여, DASH 사양의 스트림 세그먼트(이하, 적절하게 「DASH 세그먼트」라고 함)를 생성하고, 서비스 수신기로부터의 HTTP 요구에 따라 세그먼트를 송출한다. 이 DASH 스트림 파일 서버(31)는, 스트리밍 전용의 서버여도 되고, 또한 웹(Web) 서버에서 겸용되는 경우도 있다.

또한, DASH 스트림 파일 서버(31)는, 서비스 수신기(33)(33-1, 33-2, …, 33-N)로부터 CDN(34)을 통하여 보내져 오는 소정 스트림의 세그먼트의 요구에 대응하여, 그 스트림의 세그먼트를, CDN(34)을 통하여, 요구원의 수신기에 송신한다. 이 경우, 서비스 수신기(33)는, MPD(Media Presentation Description) 파일에 기재되어 있는 레이트의 값을 참조하여, 클라이언트가 놓여져 있는 네트워크 환경의 상태에 따라, 최적의 레이트의 스트림을 선택하여 요구를 행한다.

DASH MPD 서버(32)는, DASH 스트림 파일 서버(31)에 있어서 생성되는 DASH 세그먼트를 취득하기 위한 MPD 파일을 생성하는 서버이다. 콘텐츠 매니지먼트 서버(도시하지 않음)로부터의 콘텐츠 메타데이터와, DASH 스트림 파일 서버(31)에 있어서 생성된 세그먼트의 어드레스(url)를 바탕으로, MPD 파일을 생성한다. 또한, DASH 스트림 파일 서버(31)와 DASH MPD 서버(32)는, 물리적으로 동일한 것이어도 된다.

MPD의 포맷에서는, 비디오나 오디오 등의 각각의 스트림별로 리프리젠테이션(Representation)이라고 하는 요소를 이용하여, 각각의 속성이 기술된다. 예를 들어, MPD 파일에는, 레이트가 상이한 복수의 비디오 데이터 스트림별로, 리프리젠테이션을 나누어 각각의 레이트가 기술된다. 서비스 수신기(33)에서는, 그 레이트의 값을 참고로 하여, 상술한 바와 같이, 서비스 수신기(33)가 놓여져 있는 네트워크 환경의 상태에 따라, 최적의 스트림을 선택할 수 있다.

도 1의 (b)는, MPEG-DASH 베이스의 스트림 배신 시스템(30B)의 구성예를 도시하고 있다. 이 구성예에서는, 미디어 스트림과 MPD 파일이, RF 전송로(방송 전송로)를 통하여 송신된다. 이 스트림 배신 시스템(30B)은, DASH 스트림 파일 서버(31) 및 DASH MPD 서버(32)가 접속된 방송 송출 시스템(36)과, M개의 서비스 수신기(35-1, 35-2, …, 35-M)로 구성되어 있다.

이 스트림 배신 시스템(30B)의 경우, 방송 송출 시스템(36)은, DASH 스트림 파일 서버(31)에서 생성되는 DASH 사양의 스트림 세그먼트(DASH 세그먼트) 및 DASH MPD 서버(32)에서 생성되는 MPD 파일을, 방송파에 실어서 송신한다.

도 2는, MPD 파일에 계층적으로 배치되어 있는 각 구조체의 관계의 일례를 도시하고 있다. 도 2의 (a)에 도시하는 바와 같이, MPD 파일 전체로서의 미디어ㆍ프리젠테이션(Media Presentation)에는, 시간 간격으로 구획된 복수의 피리어드(Period)가 존재한다. 예를 들어, 최초의 피리어드는 스타트가 0초부터, 다음 피리어드는 스타트가 100초부터 등으로 되어 있다.

도 2의 (b)에 도시하는 바와 같이, 피리어드에는, 복수의 어댑테이션 세트(AdaptationSet)가 존재한다. 각 어댑테이션 세트는 비디오나 오디오 등의 미디어 타입의 차이나, 동일한 미디어 타입이라도 언어의 차이, 시점의 차이 등에 의존한다. 도 2의 (c)에 도시하는 바와 같이, 어댑테이션 세트에는 복수의 리프리젠테이션(Representation)이 존재한다. 각 리프리젠테이션은 스트림 속성, 예를 들어 레이트의 차이 등에 의존한다.

도 2의 (d)에 도시하는 바와 같이, 리프리젠테이션에는, 세그먼트 인포(SegmentInfo)가 포함되어 있다. 이 세그먼트 인포에는, 도 2의 (e)에 도시하는 바와 같이, 이니셜라이제이션ㆍ세그먼트(Initialization Segment)와, 피리어드를 더 미세하게 구획한 세그먼트(Segment)별 정보가 기술되는 복수의 미디어ㆍ세그먼트(Media Segment)가 존재한다. 미디어 세그먼트에는, 비디오나 오디오 등의 세그먼트 데이터를 실제로 취득하기 위한 어드레스(url)의 정보 등이 존재한다.

또한, 어댑테이션 세트에 포함되는 복수의 리프리젠테이션의 사이에서는, 스트림의 스위칭을 자유롭게 행할 수 있다. 이에 의해, 수신측의 네트워크 환경의 상태에 따라, 최적의 레이트의 스트림을 선택할 수 있고, 도중에 끊김이 없는 비디오 배신이 가능하게 된다.

[송수신 시스템의 구성예]

도 3은, 실시 형태로서의 송수신 시스템(10)의 구성예를 도시하고 있다. 이 송수신 시스템(10)은, 서비스 송신 시스템(100)과 서비스 수신기(200)에 의해 구성되어 있다. 이 송수신 시스템(10)에 있어서, 서비스 송신 시스템(100)은, 상술한 도 1의 (a)에 도시하는 스트림 배신 시스템(30A)의 DASH 스트림 파일 서버(31) 및 DASH MPD 서버(32)에 대응한다. 또한, 이 송수신 시스템(10)에 있어서, 서비스 송신 시스템(100)은, 상술한 도 1의 (b)에 도시하는 스트림 배신 시스템(30B)의 DASH 스트림 파일 서버(31), DASH MPD 서버(32) 및 방송 송출 시스템(36)에 대응한다.

또한, 이 송수신 시스템(10)에 있어서, 서비스 수신기(200)는, 상술한 도 1의 (a)에 도시하는 스트림 배신 시스템(30A)의 서비스 수신기(33)(33-1, 33-2, …, 33-N)에 대응한다. 또한, 이 송수신 시스템(10)에 있어서, 서비스 수신기(200)는, 상술한 도 1의 (b)에 도시하는 스트림 배신 시스템(30B)의 서비스 수신기(35)(35-1, 35-2, …, 35-M)에 대응한다.

서비스 송신 시스템(100)은, DASH/MP4, 즉 메타파일로서의 MPD 파일과, 비디오나 오디오 등의 미디어 스트림(미디어 세그먼트)이 포함되는, 컨테이너로서의 MP4를, 통신 네트워크 전송로(도 1의 (a) 참조) 또는 RF 전송로(도 1의 (b) 참조)를 통하여 송신한다.

도 4는, 통신 네트워크 전송로 또는 RF 전송로를 통하여 송신되는 MP4의 스트림의 일례를 도시하고 있다. 일반 방송 등, 송신 도중에 화면 음이 나오도록, 서비스 스트림 전체가 프래그먼트화되어 송신된다. 이 경우, 도시하는 바와 같이, 이니셜라이제이션ㆍ세그먼트(IS: initialization segment)로부터 시작되어, 거기에 "styp", "sidx(Segment index box)", "ssix(Sub-segment index box)", "moof(Movie frgment box)", "mdat(Media data box)"의 박스가 계속된다.

이니셜라이제이션ㆍ세그먼트(IS)는, ISOBMFF(ISO Base Media File Format)에 기초하는 박스(Box) 구조를 갖는다. 선두에, 파일 타입(File type)을 나타내는 "ftyp" 박스가 배치되고, 그것에 이어서 제어용 "moov" 박스가 배치되어 있다. 상세 설명은 생략하지만, "moov" 박스 내에는, 도시의 "mvex" 박스를 포함하는 여러 가지 박스가 포함되어 있다. 그리고, 이 "mvex" 박스 내에 "leva" 박스가 배치되어 있다. 이 "leva" 박스에 있어서 "temporal_layerID"로 정의되는 레벨(Level)의 어사인먼트(assignment)가 정의되고, 레벨(Level)별로 픽처의 그룹 분류가 행해지거나, 혹은 레벨(Level)에 대하여 개별적인 트랙이 할당되거나 한다.

"styp" 박스에는 세그먼트 타입 정보가 들어간다. "sidx" 박스에는, 각 트랙(track)의 레인지 정보가 들어가고, "moof"/"mdat"의 위치가 표시되고, "mdat" 내의 각 샘플(픽처)의 위치도 표시된다. "ssix" 박스에는, 트랙(track)의 구분 정보가 들어가고, I/P/B 타입의 구분이 이루어진다.

"moof" 박스에는 제어 정보가 들어간다. "mdat" 박스에는 비디오, 오디오 등의 신호(전송 미디어)의 실체 그 자체가 들어간다. "mdat" 박스와 "mdat" 박스에 의해 무비 프래그먼트(Movie Fragment)가 구성되어 있다. 하나의 무비 프래그먼트의 "mdat" 박스에는, 전송 미디어가 프래그먼트화(단편화)되어 얻어진 단편이 들어가므로, "moof" 박스에 들어가는 제어 정보는 그 단편에 관한 제어 정보로 된다. 단편의 크기로서는, 예를 들어 MPEG Video의 GOP(Group Of Picture) 등이 상정된다.

이 실시 형태에 있어서, 미디어 스트림은, 하이 프레임 레이트(HFR: High Frame Rate)로 초고해상도(UHD: Ultra High Definition)의 화상 데이터(동화상 데이터)가 처리되어 얻어진, 소정수의 비디오 스트림이다. 하이 프레임 레이트이며 초고해상도의 화상 데이터는, 이 실시 형태에 있어서, 예를 들어 120P에서 4K/8K의 화상 데이터이다.

소정수의 비디오 스트림은, 제1 내지 제4 화상 데이터의 부호화 화상 데이터를 갖고 있다. 제1 화상 데이터는, 기본 프레임 레이트(노멀 프레임 레이트)로 고해상도의 화상을 얻기 위한 베이스 레이어의 화상 데이터이다. 제2 화상 데이터는, 제1 화상 데이터와 함께 사용하여 하이 프레임 레이트로 고해상도의 화상을 얻기 위한 베이스 레이어의 화상 데이터이다. 제3 화상 데이터는, 제1 화상 데이터와 함께 사용하여 기본 프레임 레이트로 초고해상도의 화상을 얻기 위한 스케일러블 레이어의 화상 데이터이다. 제4 화상 데이터는, 제1 내지 제3 화상 데이터와 함께 사용하여 하이 프레임 레이트로 초고해상도의 화상을 얻기 위한 스케일러블 레이어의 화상 데이터이다.

예를 들어, 제1 내지 제4 화상 데이터는, 이하와 같이 하여 얻어진 것이다. 즉, 제1 화상 데이터는, 하이 프레임 레이트이며 초고해상도의 화상 데이터에 있어서의 연속되는 2개의 픽처 단위로부터 다운 샘플링에 의해 각 1번째 픽처가 취출되어 얻어진 제5 화상 데이터에 다운 스케일 처리를 실시함으로써 얻어진 것이다. 또한, 여기서 취출되는 각 1번째 픽처는, 2번째 픽처와 소정의 비율로 혼합된 것이어도 된다. 또한, 제2 화상 데이터는, 하이 프레임 레이트이며 초고해상도의 화상 데이터에 있어서의 연속되는 2개의 픽처로부터 다운 샘플링에 의해 각 2번째 픽처가 취출되어 얻어진 제6 화상 데이터에 다운 스케일 처리를 실시함으로써 얻어진 것이다. 또한, 여기서 취출되는 각 2번째 픽처는, 1번째 픽처와 소정의 비율로 혼합된 것이어도 된다.

또한, 제3 화상 데이터는, 제1 화상 데이터에 업 스케일 처리를 실시하여 얻어진 제7 화상 데이터와 상기 제5 화상 데이터의 사이의 차분을 취함으로써 얻어진 것이다. 또한, 제4 화상 데이터는, 제2 화상 데이터에 업 스케일 처리를 실시하여 얻어진 제8 화상 데이터와 상기 제6 화상 데이터의 사이의 차분을 취함으로써 얻어진 것이다.

컨테이너로서의 MP4에, 소정수의 비디오 스트림의 각각에 삽입된 당해 비디오 스트림이 갖는 화상 데이터에 관한 정보에 대응한 정보가 삽입된다. 예를 들어, 비디오 스트림이 갖는 화상 데이터에 관한 정보는, SPS(sequence Parameter Set)에 포함되는 「general_level_idc」, 「general_profile_idc」, 「sublayer_level_idc」, 「sublayer_profile_idc」 등의 정보이며, 이들 정보에 대응한 정보가 "moof" 블록에 배치된다.

여기서, 비디오 스트림(비디오 파일)의 수와 각 비디오 스트림을 관리하는 트랙의 수를 달리하는, 케이스 1(Case 1), 케이스 2(Case 2), 케이스 3(Case 3)의 3개의 케이스가 고려된다.

「케이스 1」

MP4에, 베이스 레이어의 화상 데이터인 제1, 제2 화상 데이터의 부호화 화상 데이터를 갖는 제1 비디오 스트림과, 스케일러블 레이어의 화상 데이터인 제3, 제4 화상 데이터의 부호화 화상 데이터를 갖는 제2 비디오 스트림이 포함되고, 제1 및 제2 비디오 스트림은 각각 1트랙에서 관리된다.

이 경우, 제1 비디오 스트림에 있어서 제1 화상 데이터의 픽처와 제2 화상 데이터의 픽처가 교대로 부호화되고, 제2 비디오 스트림에 있어서 제3 화상 데이터의 픽처와 제4 화상 데이터의 픽처가 교대로 부호화된다. 즉, 기본 60P에 포함되는 픽처(샘플)와 확장 60P에 포함되는 픽처(샘플)가 교대로 인코드된다. 따라서, 그들 디코드 타임 스탬프, 표시 타임 스탬프는 모두 기본 60P와 확장 60P가 교대로 되도록 값이 할당된다.

또한, 이 경우, 트랙에 대응하여 존재하는 "moof" 블록에, 비디오 스트림이 갖는 2개의 화상 데이터의 부호화 화상 데이터에 관한 정보에 대응한 정보가 배치된다. 즉, 제1 및 제2 비디오 스트림을 각각 1트랙에서 관리하는 상태로 정보의 배치가 행해진다. 그리고, 이 경우, 제1 비디오 스트림에 관해서는 제1 화상 데이터의 부호화 화상 데이터에 관한 정보와 제2 화상 데이터의 부호화 화상 데이터에 관한 정보가 그룹 분류되어 삽입되고, 제2 비디오 스트림에 관해서는 제3 화상 데이터의 부호화 화상 데이터에 관한 정보와 제4 화상 데이터의 부호화 화상 데이터에 관한 정보가 그룹 분류되어 삽입된다.

「케이스 2」

MP4에, 베이스 레이어의 화상 데이터인 제1, 제2 화상 데이터의 부호화 화상 데이터를 갖는 제1 비디오 스트림과, 스케일러블 레이어의 화상 데이터인 제3, 제4 화상 데이터의 부호화 화상 데이터를 갖는 제2 비디오 스트림이 포함되고, 제1 및 제2 비디오 스트림이 각각 2트랙에서 관리된다.

또한, 이 경우, 트랙별로 "moof" 블록이 존재하고, 비디오 스트림이 갖는 2개의 화상 데이터의 부호화 화상 데이터 중 한쪽에 관한 정보가 배치된다. 즉, 제1 및 제2 비디오 스트림을 각각 2트랙에서 관리하는 상태로 정보의 배치가 행해진다.

「케이스 3」

MP4에, 베이스 레이어의 화상 데이터인 제1 부호화 화상 데이터를 갖는 제1 비디오 스트림과, 베이스 레이어의 화상 데이터인 제2 부호화 화상 데이터를 갖는 제2 비디오 스트림과, 스케일러블 레이어의 화상 데이터인 제3 화상 데이터의 부호화 화상 데이터를 갖는 제3 비디오 스트림과, 스케일러블 레이어의 화상 데이터인 제4 화상 데이터의 부호화 화상 데이터를 갖는 제4 비디오 스트림이 포함되고, 제1 내지 제4 비디오 스트림이 각각 다른 트랙에서 관리된다.

이 경우, 각 트랙에 대응하여 존재하는 "moof" 블록에, 비디오 스트림이 갖는 하나의 화상 데이터의 부호화 화상 데이터에 관한 정보에 대응한 정보가 배치된다. 즉, 제1 내지 제4 비디오 스트림을 각각 1트랙에서 관리하는 상태로 정보의 배치가 행해진다.

제1 내지 제4 화상 데이터의 기본으로 되는 하이 프레임 레이트이며 초고해상도의 화상 데이터는, 예를 들어 하이 다이내믹 레인지 화상 데이터에 하이 다이내믹 레인지 광전 변환 특성에 의한 광전 변환을 행하여 하이 다이내믹 레인지 광전 변환 특성을 갖게 한 전송 화상 데이터이다. 제1 화상 데이터의 부호화 화상 데이터를 갖는 비디오 스트림에, 하이 다이내믹 레인지 광전 변환 특성 또는 이 특성에 대응한 전광 변환 특성을 나타내는 변환 특성 정보가 삽입된다. 하이 다이내믹 레인지 광전 변환 특성으로서는, 하이브리드 로그 감마의 특성, PQ 커브의 특성 등이 있다.

하이 다이내믹 레인지 광전 변환 특성이 PQ 커브의 특성일 때, 제1 화상 데이터의 부호화 화상 데이터를 갖는 비디오 스트림에, PQ 커브의 특성에 의한 변환 데이터의 값을 통상 다이내믹 레인지 광전 변환 특성에 의한 변환 데이터의 값으로 변환하기 위한 변환 정보가 삽입된다.

서비스 수신기(200)는, 서비스 송신 시스템(100)으로부터 통신 네트워크 전송로(도 1의 (a) 참조) 또는 RF 전송로(도 1의 (b) 참조)를 통하여 보내져 오는 상술한 컨테이너로서의 MP4를 수신한다. 이 MP4에는, 상술한 바와 같이, 제1 내지 제4 화상 데이터의 부호화 화상 데이터를 갖는 소정수의 비디오 스트림이 포함되어 있다. 또한, 이 MP4에는, 상술한 바와 같이, 소정수의 비디오 스트림의 각각에 삽입된 당해 비디오 스트림이 갖는 화상 데이터에 관한 정보에 대응한 정보가 삽입되어 있다.

서비스 수신기(200)는, 디코드 능력에 따라, MP4에 삽입되어 있는 정보에 기초하여, 제1 내지 제4 화상 데이터의 부호화 화상 데이터로부터 소정의 부호화 화상 데이터를 선택적으로 취출하여 디코드 처리를 행하여 화상 데이터를 얻는다.

예를 들어, 기본 프레임 레이트로 고해상도의 화상 데이터를 처리 가능한 디코드 능력이 있는 수신기인 경우, 제1 화상 데이터의 부호화 화상 데이터에 선택적으로 디코드 처리를 실시하여, 기본 프레임 레이트로 고해상도의 화상을 표시하기 위한 화상 데이터를 얻는다. 또한, 예를 들어 하이 프레임 레이트로 고해상도의 화상 데이터를 처리 가능한 디코드 능력이 있는 수신기인 경우, 제1 및 제2 화상 데이터의 부호화 화상 데이터에 선택적으로 디코드 처리를 실시하여, 하이 프레임 레이트로 고해상도의 화상을 표시하기 위한 화상 데이터를 얻는다.

또한, 예를 들어 기본 프레임 레이트로 초고해상도의 화상 데이터를 처리 가능한 디코드 능력이 있는 수신기인 경우, 제1 및 제3 화상 데이터의 부호화 화상 데이터에 선택적으로 디코드 처리를 실시하여, 기본 프레임 레이트로 초고해상도의 화상을 표시하기 위한 화상 데이터를 얻는다. 또한, 예를 들어 하이 프레임 레이트로 초고해상도의 화상 데이터를 처리 가능한 디코드 능력이 있는 수신기인 경우, 제1 내지 제4 모든 화상 데이터의 부호화 화상 데이터에 디코드 처리를 실시하여, 하이 프레임 레이트로 초고해상도의 화상을 표시하기 위한 화상 데이터를 얻는다.

또한, 서비스 수신기(200)는, 하이 다이내믹 레인지 표시를 행할 때, 제1 화상 데이터를 갖는 비디오 스트림 혹은 MP4에 삽입되어 있는 변환 특성 정보에 기초하여, 디코드 처리에서 얻어진 화상 데이터에 하이 다이내믹 레인지 전광 변환을 행하여 하이 다이내믹 레인지의 표시용 화상 데이터를 얻는다.

또한, 서비스 수신기(200)는, 통상 다이내믹 레인지 표시를 행할 때, 변환 특성 정보가 나타내는 하이 다이내믹 광전 변환 특성이 하이브리드 로그 감마의 커브의 특성인 경우, 디코드 처리에서 얻어진 화상 데이터에 그대로 통상 다이내믹 레인지 전광 변환 특성에 의한 전광 변환을 행하여 통상 다이내믹 레인지의 표시용 화상 데이터를 얻는다.

또한, 서비스 수신기(200)는, 통상 다이내믹 레인지 표시를 행할 때, 변환 특성 정보가 나타내는 하이 다이내믹 광전 변환 특성이 PQ 커브의 특성인 경우, 디코드 처리에서 얻어진 화상 데이터에 제1 화상 데이터를 갖는 비디오 스트림에 삽입되어 있는 변환 정보에 기초하여 다이내믹 레인지 변환을 행하여 통상 다이내믹 레인지 전송 화상 데이터를 얻고, 이 통상 다이내믹 레인지 전송 화상 데이터에 통상 다이내믹 레인지 전광 변환 특성에 의한 전광 변환을 행하여 통상 다이내믹 레인지의 표시용 화상 데이터를 얻는다.

도 5는, 서비스 송신 시스템(100)과 서비스 수신기(200)에 있어서의 인코드/디코드의 처리의 개요를 도시하고 있다. 서비스 송신 시스템(100)의 비디오 인코더(104)에는, 하이 프레임 레이트(HFR)로 초고해상도(UHD)의 화상 데이터 「HFR/UHD video」가 입력된다. 비디오 인코더(104)에서는, 화상 데이터 「HFR/UHD video」가 처리되어, 제1 내지 제4 화상 데이터의 부호화 화상 데이터를 갖는 2개의 비디오 스트림(케이스 1, 케이스 2의 경우), 혹은 4개의 비디오 스트림(케이스 3의 경우)이 얻어져, 송신된다.

하이 프레임 레이트로 초고해상도의 화상 데이터를 처리 가능한 디코드 능력이 있는 서비스 수신기(200A)에서는, 비디오 디코더(204A)에 있어서, 제1 내지 제4 모든 화상 데이터의 부호화 화상 데이터에 디코드 처리가 실시되어, 하이 프레임 레이트로 초고해상도의 화상을 표시하기 위한 화상 데이터 「HFR/UHD video」가 얻어진다.

또한, 기본 프레임 레이트로 초고해상도의 화상 데이터를 처리 가능한 디코드 능력이 있는 서비스 수신기(200B)에서는, 비디오 디코더(204B)에 있어서, 제1 및 제3 화상 데이터의 부호화 화상 데이터에 선택적으로 디코드 처리가 실시되어, 기본 프레임 레이트로 초고해상도의 화상을 표시하기 위한 화상 데이터 「LFR/UHD video」가 얻어진다.

또한, 하이 프레임 레이트로 고해상도의 화상 데이터를 처리 가능한 디코드 능력이 있는 서비스 수신기(200C)에서는, 비디오 디코더(204C)에 있어서, 제1 및 제2 화상 데이터의 부호화 화상 데이터에 선택적으로 디코드 처리가 실시되어, 하이 프레임 레이트로 고해상도의 화상을 표시하기 위한 화상 데이터 「HFR/HD video」가 얻어진다.

또한, 기본 프레임 레이트로 고해상도의 화상 데이터를 처리 가능한 디코드 능력이 있는 서비스 수신기(200D)에서는, 비디오 디코더(204D)에 있어서, 제1 화상 데이터의 부호화 화상 데이터에 선택적으로 디코드 처리가 실시되어, 기본 프레임 레이트로 고해상도의 화상을 표시하기 위한 화상 데이터 「LFR/HD video」가 얻어진다.

도 6은, 상술한 제1 내지 제4 화상 데이터를 계층적으로 도시하고 있다. 도시한 예에서는, 하이 프레임 레이트가 120P인 경우를 나타내고 있다. 횡축은 표시순(POC: picture order of composition)을 나타내고, 좌측은 표시 시각이 전이고, 우측은 표시 시각이 후로 된다. 직사각형 프레임의 각각이 픽처를 나타내고 있다.

최하단에, 베이스 레이어의 화상 데이터인 제1 화상 데이터 「HD 60P」가 존재하고, 그 그룹 ID(group_id)는 "0"으로 된다. 이 제1 화상 데이터는 기본 60P를 구성하는 화상 데이터이며, 템포럴 레이어 ID(TemporalLayerId)는 "0"으로 된다.

또한, 제1 화상 데이터의 상단에, 베이스 레이어의 화상 데이터인 제2 화상 데이터 「HD +60P HFR」이 존재하고, 그 그룹 ID(group_id)는 "1"로 된다. 이 제2 화상 데이터는 120P의 화상 데이터로 하기 위한 확장 60P를 구성하는 화상 데이터이며, 템포럴 레이어 ID(TemporalLayerId)는 "1"로 된다. 이 제2 화상 데이터는, 제1 화상 데이터 「HD 60P」에 대하여 시간 방향의 스케일러빌리티이다.

상술한 바와 같이, 케이스 1, 케이스 2에서는, 제1 및 제2 화상 데이터가 동일한 비디오 스트림(비디오 파일)으로서 전송된다. 그룹 ID에 의해 그룹 분류해 둠으로써, 기본 60P만 디코드하는 경우에는, 이 그룹 ID를 어느 패킷을 비디오 디코더에 보내면 되는지라고 하는 판단의 기준으로 할 수 있다. 기본 60P 및 확장 60P의 양쪽을 디코드하는 경우에는, 기본 60P와 확장 60P의 패킷을 교대로 비디오 디코더에 보내면 된다.

또한, 제2 화상 데이터의 상단에, 스케일러블 레이어의 화상 데이터인 제3 화상 데이터 「Sc-UHD 60P」가 존재하고, 그 그룹 ID(group_id)는 "2"로 된다. 이 제3 화상 데이터는 기본 60P를 구성하는 화상 데이터이며, 템포럴 레이어 ID(TemporalLayerId)는 "0"으로 된다. 이 제3 화상 데이터는, 제1 화상 데이터 「HD 60P」에 대하여 공간 방향의 스케일러빌리티이다.

또한, 제3 화상 데이터의 상단에, 스케일러블 레이어의 화상 데이터인 제4 화상 데이터 「Sc-UHD +60P HFR」이 존재하고, 그 그룹 ID(group_id)는 "3"으로 된다. 이 제4 화상 데이터는 120P의 화상 데이터로 하기 위한 확장 60P를 구성하는 화상 데이터이며, 템포럴 레이어 ID(TemporalLayerId)는 "1"로 된다. 이 제4 화상 데이터는, 제3 화상 데이터 「Sc-UHD 60P」에 대하여 시간 방향의 스케일러빌리티임과 함께, 제2 「HD +60P HFR」에 대하여 공간 방향의 스케일러빌리티이다.

상술한 바와 같이, 케이스 1, 케이스 2에서는, 제3 및 제4 화상 데이터가 동일한 비디오 스트림(비디오 파일)으로서 전송된다. 그룹 ID에 의해 그룹 분류해 둠으로써, 기본 60P만 디코드하는 경우에는, 이 그룹 ID를 어느 패킷을 디코더에 보내면 되는지라고 하는 판단의 기준으로 할 수 있다. 기본 60P 및 확장 60P의 양쪽을 디코드하는 경우에는, 기본 60P와 확장 60P의 패킷을 교대로 비디오 디코더에 보내면 된다.

제1 화상 데이터 「HD 60P」에 기초하여, 기본 프레임 레이트로 고해상도(HD)의 화상(60P HD 화상)의 재생이 가능하다. 또한, 제1 화상 데이터 「HD 60P」 및 제2 「HD +60P HFR」에 기초하여, 하이 프레임 레이트로 고해상도(HD)의 화상(120P HD 화상)의 재생이 가능하다.

또한, 제1 화상 데이터 「HD 60P」 및 제3 화상 데이터 「Sc-UHD 60P」에 기초하여, 기본 프레임 레이트로 초고해상도(UHD)의 화상(60P UHD 화상)의 재생이 가능하다. 또한, 제1 화상 데이터 「HD 60P」, 제2 화상 데이터 「HD +60P HFR」, 제3 화상 데이터 「Sc-UHD 60P」 및 제4 화상 데이터 「Sc-UHD +60P HFR」에 기초하여, 하이 프레임 레이트로 초고해상도(UHD)의 화상(120P UHD 화상)의 재생이 가능하다.

또한, 픽처를 나타내는 직사각형 프레임에 부여되어 있는 숫자는, 부호화순, 따라서 디코드순을 나타내고 있다. 제1 화상 데이터의 부호화 화상 데이터에만 디코드 처리를 행하는 경우에는, 0→4→8→…의 순으로 디코드되어 간다. 또한, 제1 및 제2 화상 데이터에 디코드 처리를 행하는 경우에는, 0→2→4→6→…의 순으로 디코드되어 간다. 또한, 제1 및 제3 화상 데이터에 디코드 처리를 행하는 경우에는, 0→1→4→5→…의 순으로 디코드되어 간다. 또한, 제1 내지 제4 화상 데이터에 디코드 처리를 행하는 경우에는, 0→1→2→3→4→5→…의 순으로 디코드되어 간다. 제1 내지 제4 화상 데이터의 스트림으로의 배치 방법에 구애되지 않고, 방송 배신의 경우에는 화상의 부호화순은 0→1→2→3→4→5→…의 순으로 되도록 한다. 이와 같이 함으로써, 수신 후부터 표시까지의 지연을 최소로 할 수 있다.

스트림 내의 부호화순에 관해서는, 제1 화상 데이터와 제2 화상 데이터가 동일한 비디오 스트림에 포함되는 경우, 제1 화상 데이터의 픽처와 제2 화상 데이터의 픽처는 교대로 부호화된 것으로 된다. 마찬가지로, 제3 화상 데이터와 제4 화상 데이터가 동일한 비디오 스트림에 포함되는 경우, 제3 화상 데이터의 픽처와 제4 화상 데이터의 픽처는 교대로 부호화된 것으로 된다.

도 7은, 케이스 1(Case 1)에 있어서의 MP4 스트림(파일)의 구성예를 도시하고 있다. 도시한 예에 있어서는, 도 4에 있어서 파선 프레임으로 둘러싸서 나타내고 있는, 이니셜라이제이션ㆍ세그먼트(IS)와, "styp", "sidx", "ssix"의 박스의 도시는 생략되어 있다. 도시한 예는, 프래그먼티드 MP4(Fragmented MP4)의 예이다. MP4 스트림에는, 제어 정보가 들어가는 "moof" 박스와 미디어 데이터 본체가 들어가는 "mdat" 박스로 구성되는 무비 프래그먼트(Movie Fragment)가 소정 개수 배치된다. "mdat" 박스에는, 트랙 데이터가 단편화되어 얻어진 단편이 들어가므로, "moof" 박스에 들어가는 제어 정보는 그 단편에 관한 제어 정보로 된다.

베이스 레이어(Base Layer)의 제1 및 제2 화상 데이터의 부호화 화상 데이터를 갖는 제1 비디오 스트림을 포함하는 MP4 스트림에 있어서, "mdat" 박스에는, 제1 및 제2 화상 데이터의 부호화 화상 데이터(액세스 유닛)가 소정 픽처수만큼, 예를 들어 1GOP만큼 배치된다. 이 경우, 제1 화상 데이터의 액세스 유닛(AU: Access Unit)과 제2 화상 데이터의 액세스 유닛이 교대로 배치된다. 또한, 각 액세스 유닛의 위치는, "SIDX" 박스나 "SSIX" 박스의 정보로 표시된다. 각 액세스 유닛은, 「VPS」, 「SPS」, 「PPS」, 「SEI」, 「SLC」 등의 NAL 유닛에 의해 구성된다. 또한, 「VPS」, 「SPS」는, 예를 들어 GOP의 선두의 액세스 유닛에 삽입된다.

도 8은, SPS(VPS)의 요소의 일례를 도시하고 있다. 이 예는, 제1 내지 제4 화상 데이터가, 도 6에 도시하는 바와 같이 구성되어 있는 경우의 예이다. 「general_level_idc」의 값은 "156"으로 되어, 제1 내지 제4 화상 데이터의 부호화 화상 데이터의 전체 레벨(스케일러블의 부호화의 화소 레이트의 복잡차)이 "level 5.2"임이 나타난다. 또한, 「general_profile_idc」의 값은 "7"로 되어, 이 제1 내지 제4 화상 데이터의 부호화 화상 데이터의 전체 프로파일(스케일러블의 부호화의 타입)이 "Scalable Main 10 Profile"임이 나타난다.

또한, 「sublayer_level_present_flag[j-1]」은 "1"로 되고, 「sublayer_level_idc[j-1]」의 값은 "153"으로 되고, 「sublayer_profile_idc[j-1]」은 "7"로 된다. 이에 의해, 제3 및 제1 화상 데이터의 부호화 화상 데이터의 전체 레벨이 "level 5.1"임이 나타나고, 그 프로파일이 "Scalable Main 10 Profile"임이 나타난다.

또한, 「sublayer_level_present_flag[j-2]」는 "1"로 되고, 「sublayer_level_idc[j-2]」의 값은 "150"으로 되고, 「sublayer_profile_idc[j-2]」는 "2"로 된다. 이에 의해, 제2 및 제1 화상 데이터의 부호화 화상 데이터의 전체 레벨이 "level 5"임이 나타나고, 그 프로파일이 "Main 10 Profile"임이 나타난다.

또한, 「sublayer_level_present_flag[j-3]」은 "1"로 되고, 「sublayer_level_idc[j-3]」의 값은 "123"으로 되고, 「sublayer_profile_idc[j-3]」은 "2"로 된다. 이에 의해, 제1 화상 데이터의 부호화 화상 데이터의 레벨이 "level 4.1"임이 나타나고, 그 프로파일이 "Main 10 Profile"임이 나타난다.

도 7로 복귀하여, 베이스 레이어(Base Layer)의 제1 및 제2 화상 데이터의 부호화 화상 데이터를 갖는 제1 비디오 스트림을 포함하는 MP4 스트림에서는, 이 제1 비디오 스트림이 1트랙에서 관리되는 것이며, "mdat" 블록에 대응하여 하나의 "moof" 박스(moof 0)가 존재한다. 이 "moof(moof 0)" 박스 내에, "mdat" 블록 내의 제1 화상 데이터의 부호화 화상 데이터를 관리하는 제어 정보와, "mdat" 블록 내의 제2 화상 데이터의 부호화 화상 데이터를 관리하는 제어 정보가 존재한다. 이들 2개의 제어 정보는, "mdat" 블록 내에 있어서, 그룹 ID(group_id)에 의해 그룹 분류되어 관리되고 있다.

"moof(moof 0)" 박스 내의 상세는 후술하지만, 이 "moof(moof 0)" 박스 내에, "mdat" 블록 내의 제1 화상 데이터의 부호화 화상 데이터에 대응한 "tscl" 박스가 존재한다. 이 "tscl" 박스에, 예를 들어 「temporalLayerId=0」의 기재가 있어, 제1 화상 데이터가 기본 60P에 포함되는 픽처(샘플)에 대응하고 있음이 나타난다. 또한, 이 "tscl" 박스에, 「tllevel_idc=123」의 기재가 있어, 제1 화상 데이터의 부호화 화상 데이터의 레벨이 "level 4.1"임이 나타난다. 또한, 이 "tscl" 박스에, 「Tlprofile_idc=2」의 기재가 있어, 제1 화상 데이터의 부호화 화상 데이터의 프로파일이 "Main 10 Profile"임이 나타난다.

또한, "moof(moof 0)" 박스 내에, "mdat" 블록 내의 제2 화상 데이터의 부호화 화상 데이터에 대응한 "tscl" 박스가 존재한다. 이 "tscl" 박스에, 예를 들어 「temporalLayerId=1」의 기재가 있어, 제2 화상 데이터가 확장 60P에 포함되는 픽처(샘플)에 대응하고 있음이 나타난다. 또한, 이 "tscl" 박스에, 「tllevel_idc=150」의 기재가 있어, 제2 및 제1 화상 데이터의 부호화 화상 데이터의 전체 레벨이 "level 5"임이 나타난다. 또한, 이 "tscl" 박스에, 「Tlprofile_idc=2」의 기재가 있어, 제2 및 제1 화상 데이터의 부호화 화상 데이터의 전체 프로파일이 "Main 10 Profile"임이 나타난다.

한편, 스케일러블 레이어(Scalable Layer)의 제3 및 제4 화상 데이터의 부호화 화상 데이터를 갖는 제2 비디오 스트림을 포함하는 MP4 스트림에 있어서, "mdat" 박스에는, 제3 및 제4 화상 데이터의 부호화 화상 데이터(액세스 유닛)가 소정 픽처수만큼, 예를 들어 1GOP만큼 배치된다. 이 경우, 제3 화상 데이터의 액세스 유닛(AU: Access Unit)과 제4 화상 데이터의 액세스 유닛이 교대로 배치된다. 또한, 각 액세스 유닛의 위치는, "SIDX" 박스나 "SSIX" 박스의 정보로 표시된다. 각 액세스 유닛은, 「PPS」, 「SEI」, 「SLC」 등의 NAL 유닛에 의해 구성된다.

또한, 스케일러블 레이어로부터 베이스 레이어로의 참조를 위해, 모든 액세스 유닛의 직전에 익스트랙터의 NAL 유닛이 배치되어 있다. 도시한 예에 있어서, 각 액세스 유닛을 나타내는 직사각형 프레임 내에 나타내는 수치는 디코드순을 나타내고 있다. 이것은, 이하의 마찬가지의 도면에 있어서도 동일하다. 예를 들어, 「1」의 액세스 유닛의 디코드를 행하는 경우, 「0」의 액세스 유닛을 참조하는 것이 필요하게 되는데, 이 경우, 「1」의 액세스 유닛의 직전에 배치된 익스트랙터에 「0」의 액세스 유닛의 디코드 결과가 카피되어 사용된다.

레이어 내에서는, 베이스 레이어 중 120P의 디코드순이 0→2→4→6→…으로 되도록, 디코드 타임 스탬프가 부여된다. 이 디코드 타임 스탬프에서 60P의 디코드순은 0→4→…으로 된다. 즉, 기본 60P와 확장 60P가 표시순, 디코드순의 양쪽에 있어서 타임 스탬프의 값이 교대로 되도록 설정된다.

또한, 스케일러블 레이어(Scalable Layer)의 제3 및 제4 화상 데이터의 부호화 화상 데이터를 갖는 제2 비디오 스트림을 포함하는 MP4 스트림에서는, 이 제2 비디오 스트림이 1트랙에서 관리되는 것이며, "mdat" 블록에 대응하여 하나의 "moof" 박스(moof 1)가 존재한다. 이 "moof(moof 1)" 박스 내에, "mdat" 블록 내의 제3 화상 데이터의 부호화 화상 데이터를 관리하는 제어 정보와, "mdat" 블록 내의 제4 화상 데이터의 부호화 화상 데이터를 관리하는 제어 정보가 존재한다. 이들 2개의 제어 정보는, "mdat" 블록 내에 있어서, 그룹 ID(group_id)에 의해 그룹 분류되어 관리되고 있다.

"moof(moof 1)" 박스 내의 상세는 후술하지만, 이 "moof(moof 1)" 박스 내에, "mdat" 블록 내의 제3 화상 데이터의 부호화 화상 데이터에 대응한 "tscl" 박스가 존재한다. 이 "tscl" 박스에, 예를 들어 「temporalLayerId=0」의 기재가 있어, 제3 화상 데이터가 기본 60P에 포함되는 픽처(샘플)에 대응하고 있음이 나타난다. 또한, 이 "tscl" 박스에, 「tllevel_idc=153」의 기재가 있어, 제3 및 제1 화상 데이터의 부호화 화상 데이터의 전체 레벨이 "level 5.1"임이 나타난다. 또한, 이 "tscl" 박스에, 「Tlprofile_idc=7」의 기재가 있어, 제3 및 제1 화상 데이터의 부호화 화상 데이터의 전체 프로파일이 "Scalable Main 10 Profile"임이 나타난다.

또한, "moof(moof 1)" 박스 내에, "mdat" 블록 내의 제4 화상 데이터의 부호화 화상 데이터에 대응한 "tscl" 박스가 존재한다. 이 "tscl" 박스에, 예를 들어 「temporalLayerId=1」의 기재가 있어, 제4 화상 데이터가 확장 60P에 포함되는 픽처(샘플)에 대응하고 있음이 나타난다. 또한, 이 "tscl" 박스에, 「tllevel_idc=156」의 기재가 있어, 제1 내지 제4 화상 데이터의 부호화 화상 데이터의 전체 레벨이 "level 5.2"임이 나타난다. 또한, 이 "tscl" 박스에, 「Tlprofile_idc=7」의 기재가 있어, 제1 내지 제4 화상 데이터의 부호화 화상 데이터의 전체 프로파일이 "Scalable Main 10 Profile"임이 나타난다.

또한, 도 7의 예에 있어서, 각 샘플(픽처)의 전송순은 0→1→2→3→4→5→…의 순으로 된다. 이와 같이 함으로써, 수신 후부터 표시까지의 지연을 최소로 할 수 있다.

도 9는, "moof(moof 0)" 박스 내의 제어 정보의 일례를 개략적으로 도시하고 있다. 또한, MP4 스트림에 있어서, 이 "moof(moof 0)" 박스에 대응하여 존재하는 이니셜라이제이션ㆍ세그먼트(IS)의 "leva(level assignement)" 박스에 의해, 스케일러빌리티를 갖는 레이어가 어떻게 매핑되는지를 나타낸다. 여기서, 레벨(level)의 수만큼 루프가 돌고, 그 각각에서 「Track_id」, 「assignment_type」, 「grouping_type」을 지정한다. "leva" 박스 내에, 「level_count=2」의 기재가 있어, 하나의 트랙 「TR0」에 2개의 레벨 「level 0, level 1」이 존재함이 나타난다.

그룹 ID의 정의의 방법에는, 이하의 방법이 있다. 트랙(track) 내에 그룹을 정의하기 위해서는, 이하의 제1, 제2 방법이 있다. 제1 방법은, 각각의 레벨(level)에, 「grouping_type」을 "temporal_layer_group"이라고 정의하고, 그룹의 식별을 "moof" 블록의 내부에서 행하는 방법이다. 「assignment_type=0」에서 이 모드로 할 수 있다. 제2 방법은, 각각의 레벨(level)에 대하여 트랙(track) 내에 「sub_track_id」를 정의하고, 그 값을 "moof" 블록 내의 「group_id」와 일치시키는 방법이다. 「assignment_type=4」에서 이 모드로 할 수 있다.

또한, 트랙간에서 그룹을 정의하기 위해서는, 이하의 제3 방법이 있다. 그룹의 식별을 다른 트랙 식별(track_id)에서 행하여, 「grouping_type」을 「temporal_layer_group」이라고 정의함으로써, 트랙(track)간의 관계를 식별하는 방법이다. 「assignment_type=2」에서 이 모드로 할 수 있다.

도시한 예에 있어서, "leva" 박스 내에, 「level_count=2」의 기재가 있어, 하나의 트랙 「TR0」에 2개의 레벨 「level 0, level 1」이 존재함이 나타난다. 제1 방법에서는, 이 "leva" 박스 내에, 「assignment_type=0」이 기재되어 제1 방법임이 나타나고, 또한 2개의 레벨의 각각에 대응하여 「grouping_type=1」이 기재되어, 각각의 레벨(level)의 그루핑 타입이 템포럴 레이어 그룹임이 나타난다.

한편, 제2 방법에서는, 이 "leva" 박스 내에, 「assignment_type=4」가 기재되어 제2 방법임이 나타나고, 또한 2개의 레벨의 각각에 대응하여 「sub_track_id=0」, 「sub_track_id=1」이 기재되어, 각각의 레벨(level)의 「sub_track_id」가 정의된다. 또한, 「sub_track_id」의 값을 「group_id」에 할당할 수도 있다.

"moof(moof 0)" 박스 내에 "traf" 박스가 존재하고, 그 박스 내에 "tfhd" 박스가 존재한다. 이 "tfhd" 박스에 트랙 ID "track_id"의 기재가 있어, 트랙 「TR0」임이 나타난다. 또한, "moof(moof 0)" 박스 내에 "traf" 박스가 존재하고, 그 박스 내에 "tfdt" 박스가 존재한다. 이 "tfdt" 박스에, "moof(moof 0)" 박스 후의 최초의 액세스 유닛의 디코드 타임 "baseMediaDecodeTime"의 기재가 있다.

또한, "moof(moof 0)" 박스 내에 "traf" 박스가 존재하고, 그 박스 내에 "trun" 박스가 존재한다. 이 "trun" 박스에, 「sample_count」, 「sample_composition_time_offset」의 파라미터의 기재가 있다. 이들 파라미터에 의해, 기본 60P, 확장 60P의 디코드순, 표시순을 나타내는 타임 스탬프의 값이 설정된다.

또한, "moof(moof 0)" 박스 내에 "tfdt" 박스가 존재하고, 그 박스 내에 2개의 "sgpd" 박스가 존재한다. 최초의 "sgpd" 박스에는, 제1 화상 데이터에 관한 정보가 배치된다. 이 "sgpd" 박스에는, 「grouping_type」의 파라미터의 기재가 있다. 여기서는, 「grouping_type=1」로 되어, 그루핑 타입이 템포럴 레이어 그룹임이 나타난다.

또한, 이 "sgpd" 박스 관리 하에는, "scif" 박스가 존재하고, 이 "scif" 박스에 「group_id」의 파라미터의 기재가 있다. 여기서는, 「group_id=0」으로 되어, 그룹 ID가 "0"임이 나타난다. 또한, 「group_id」와 함께 「primary_groupID」가 기재된다. 이것은, 이하의 「group_id」의 각 기재 부분에 있어서도 마찬가지이다. 이것은 「group_id」의 값과 「primary_groupID」의 값이 일치하는 그룹은 기본 60P의 그룹임을 식별시키기 위한 것이다. 여기서는, 「group_id=0」이며, 「primary_groupID」의 값과 일치하고 있으므로, 이 그룹은 기본 60P의 그룹이라고 식별된다.

또한, 이 "sgpd" 박스에는 "tscl" 박스가 존재한다. 이 "tscl" 박스에, 「temporalLayerId」, 「tllevel_idc」, 「Tlprofile」, 「tlConstantFrameRate」의 4개의 파라미터의 기재가 있다.

「temporalLayerId」는, "0"으로 됨으로써, 제1 화상 데이터가 기본 60P에 포함되는 픽처(샘플)에 대응하고 있음이 나타난다. 「tlConstantFrameRate」는 "1"로 됨으로써, 프레임 레이트가 콘스턴트임을 나타낸다. 「tllevel_idc」는, 제1 화상 데이터의 부호화 화상 데이터의 레벨을 나타내며, 상술한 SPS(혹은 VPS)의 요소의 「sublayer_level_idc[j-3]」과 일치시킨다. 여기서는, 「tllevel_idc」는 "123"으로 된다. 「Tlprofile」은, 제1 화상 데이터의 부호화 화상 데이터의 프로파일을 나타내며, 상술한 SPS(혹은 VPS)의 요소의 「sublayer_profile_idc[j-3]」과 일치시킨다. 여기서는, 「Tlprofile」은 "2"로 된다.

두 번째 "sgpd" 박스에는, 제2 화상 데이터에 관한 정보가 배치된다. 이 "sgpd" 박스에는 「grouping_type」의 파라미터의 기재가 있다. 여기서는, 「grouping_type=1」로 되어, 그루핑 타입이 템포럴 레이어 그룹임이 나타난다.

또한, 이 "sgpd" 박스에는, "scif" 박스가 존재하고, 이 "scif" 박스에 「group_id」의 파라미터의 기재가 있다. 여기서는, 「group_id=1」로 되어, 그룹 ID가 "1"임이 나타난다. 또한, 「group_id」와 함께 「primary_groupID」가 기재된다. 여기서는, 「group_id=1」이며, 「primary_groupID」의 값과 일치하지 않으므로, 이 그룹은 기본 60P의 그룹이 아니라고 식별된다. 또한, 이 "sgpd" 박스에는, "tscl" 박스가 존재한다. 이 "tscl" 박스에, 「temporalLayerId」, 「tllevel_idc」, 「Tlprofile」, 「tlConstantFrameRate」의 4개의 파라미터의 기재가 있다.

「temporalLayerId」는, "1"로 됨으로써, 제2 화상 데이터가 확장 60P에 포함되는 픽처(샘플)에 대응하고 있음이 나타난다. 「tlConstantFrameRate」는 "1"로 됨으로써, 프레임 레이트가 콘스턴트임을 나타낸다. 「tllevel_idc」는, 제2 및 제1 화상 데이터의 부호화 화상 데이터의 전체 레벨을 나타내며, 상술한 SPS(혹은 VPS)의 요소의 「sublayer_level_idc[j-2]」와 일치시킨다. 여기서는, 「tllevel_idc」는 "150"으로 된다. 「Tlprofile」은, 제2 및 제1 화상 데이터의 부호화 화상 데이터의 프로파일을 나타내며, 상술한 SPS(혹은 VPS)의 요소의 「sublayer_profile_idc[j-2]」와 일치시킨다. 여기서는, 「Tlprofile」은 "2"로 된다.

도 10은, "moof(moof 1)" 박스 내의 제어 정보의 일례를 개략적으로 도시하고 있다. "leva" 박스 내에, 「level_count=2」의 기재가 있어, 하나의 트랙 「TR0」에 2개의 레벨 「level 0, level 1」이 존재함이 나타난다. 제1 방법에서는, 이 "leva" 박스 내에, 「assignment_type=0」이 기재되어 제1 방법임이 나타나고, 또한 2개의 레벨의 각각에 대응하여 「grouping_type=1」이 기재되어, 각각의 레벨(level)의 그루핑 타입이 템포럴 레이어 그룹임이 나타난다.

한편, 제2 방법에서는, 이 "leva" 박스 내에, 「assignment_type=4」가 기재되어 제2 방법임이 나타나고, 또한 2개의 레벨의 각각에 대응하여 「sub_track_id=2」, 「sub_track_id=3」이 기재되어, 각각의 레벨(level)의 「sub_track_id」가 정의된다. 또한, 「sub_track_id」의 값을 「group_id」에 할당할 수도 있다.

"moof(moof 1)" 박스 내에 "traf" 박스가 존재하고, 그 박스 내에 "tfhd" 박스가 존재한다. 이 "tfhd" 박스에 트랙 ID "track_id"의 기재가 있어, 트랙 「TR1」임이 나타난다. 또한, "moof(moof 1)" 박스 내에 "traf" 박스가 존재하고, 그 박스 내에 "tfdt" 박스가 존재한다. 이 "tfdt" 박스에, "moof(moof 1)" 박스 후의 최초의 액세스 유닛의 디코드 타임 "baseMediaDecodeTime"의 기재가 있다. 이 디코드 타임 "baseMediaDecodeTime"은, 익스트랙터가 가리키는 트랙 TR0의 디코드 타임 "baseMediaDecodeTime"과 동일한 값으로 된다.

또한, "moof(moof 1)" 박스 내에 "traf" 박스가 존재하고, 그 박스 내에 "trun" 박스가 존재한다. 이 "trun" 박스에, 「sample_count」, 「sample_composition_time_offset」의 파라미터의 기재가 있다. 이들 파라미터에 의해, 기본 60P, 확장 60P의 표시순, 디코드순을 나타내는 타임 스탬프의 값이 설정된다.

또한, "moof(moof 1)" 박스 내에 "tfdt" 박스가 존재하고, 그 박스 내에 연속해서 2개의 "sgpd" 박스가 존재한다. 최초의 "sgpd" 박스에는, 제1 화상 데이터에 관한 정보가 배치된다. 이 "sgpd" 박스에는, 「grouping_type」의 파라미터의 기재가 있다. 여기서는, 「grouping_type=1」로 되어, 그루핑 타입이 템포럴 레이어 그룹임이 나타난다.

또한, 이 "sgpd" 박스에는, "scif" 박스가 존재하고, 이 "scif" 박스에 「group_id」의 파라미터의 기재가 있다. 여기서는, 「group_id=2」로 되어, 그룹 ID가 "2"임이 나타난다. 또한, 「group_id」와 함께 「primary_groupID」가 기재된다. 여기서는, 「group_id」=2이며, 「primary_groupID」의 값과 일치하지 않으므로, 이 그룹은 기본 60P의 그룹이 아니라고 식별된다. 또한, 이 "sgpd" 박스에는, "tscl" 박스가 존재한다. 이 "tscl" 박스에, 「temporalLayerId」, 「tllevel_idc」, 「Tlprofile」, 「tlConstantFrameRate」의 4개의 파라미터의 기재가 있다.

「temporalLayerId」는, "0"으로 됨으로써, 제3 화상 데이터가 기본 60P에 포함되는 픽처(샘플)에 대응하고 있음이 나타난다. 「tlConstantFrameRate」는 "1"로 됨으로써, 프레임 레이트가 콘스턴트임을 나타낸다. 「tllevel_idc」는, 제3 및 제1 화상 데이터의 부호화 화상 데이터의 전체 레벨을 나타내며, 상술한 SPS(혹은 VPS)의 요소의 「sublayer_level_idc[j-1]」과 일치시킨다. 여기서는, 「tllevel_idc」는 "153"으로 된다. 「Tlprofile」은, 제3 및 제1 화상 데이터의 부호화 화상 데이터의 전체 프로파일을 나타내며, 상술한 SPS(혹은 VPS)의 요소의 「sublayer_profile_idc[j-1]」과 일치시킨다. 여기서는, 「Tlprofile」은 "7"로 된다.

다음의 "sgpd" 박스에는, 제4 화상 데이터에 관한 정보가 배치된다. 이 "sgpd" 박스에는, 「grouping_type」의 파라미터의 기재가 있다. 여기서는, 「grouping_type=1」로 되어, 그루핑 타입이 템포럴 레이어 그룹임이 나타난다.

또한, 이 "sgpd" 박스에는, "scif" 박스가 존재하고, 이 "scif" 박스에 「group_id」의 파라미터의 기재가 있다. 여기서는, 「group_id=3」으로 되어, 그룹 ID가 "3"임이 나타난다. 또한, 「group_id」와 함께 「primary_groupID」가 기재된다. 여기서는, 「group_id=3」이며, 「primary_groupID」의 값과 일치하지 않으므로, 이 그룹은 기본 60P의 그룹이 아니라고 식별된다. 또한, 이 "sgpd" 박스에는, "tscl" 박스가 존재한다. 이 "tscl" 박스에, 「temporalLayerId」, 「tllevel_idc」, 「Tlprofile」, 「tlConstantFrameRate」의 4개의 파라미터의 기재가 있다.

「temporalLayerId」는, "1"로 됨으로써, 제4 화상 데이터가 확장 60P에 포함되는 픽처(샘플)에 대응하고 있음이 나타난다. 「tlConstantFrameRate」는 "1"로 됨으로써, 프레임 레이트가 콘스턴트임을 나타낸다. 「tllevel_idc」는, 제4 내지 제1 화상 데이터의 부호화 화상 데이터의 전체 레벨을 나타내며, 상술한 SPS(혹은 VPS)의 요소의 「general_level_idc」과 일치시킨다. 여기서는, 「tllevel_idc」는 "156"로 된다. 「Tlprofile」은, 제4 내지 제1 화상 데이터의 부호화 화상 데이터의 전체의 부호화 화상 데이터의 프로파일을 나타내며, 상술한 SPS(혹은 VPS)의 요소의 「general_profile_idc」와 일치시킨다. 여기서는, 「Tlprofile」은 "7"로 된다.

도 11은, 케이스 2(Case 2)에 있어서의 MP4 스트림(파일)의 구성예를 도시하고 있다. 도시한 예에 있어서는, 도 4에 있어서 파선 프레임으로 둘러싸서 나타내고 있는, 이니셜라이제이션ㆍ세그먼트(IS)와, "styp", "sidx", "ssix"의 박스의 도시는 생략되어 있다. 도시한 예는, 프래그먼티드 MP4(Fragmented MP4)의 예이다. MP4 스트림에는, 제어 정보가 들어가는 "moof" 박스와 미디어 데이터 본체가 들어가는 "mdat" 박스로 구성되는 무비 프래그먼트(Movie Fragment)가 소정 개수 배치된다. "mdat" 박스에는, 트랙 데이터가 단편화되어 얻어진 단편이 들어가므로, "moof" 박스에 들어가는 제어 정보는 그 단편에 관한 제어 정보로 된다.

또한, 제2 화상 데이터의 액세스 유닛으로부터 다른 트랙의 제1 화상 데이터의 액세스 유닛으로의 참조를 위해, 제2 화상 데이터의 액세스 유닛 직전에 익스트랙터의 NAL 유닛이 배치되어 있다. 예를 들어, 「2」의 액세스 유닛을 디코드하는 경우, 「0」의 액세스 유닛을 참조하는 것이 필요하게 되는데, 이 경우, 「2」의 액세스 유닛의 직전에 배치된 익스트랙터에 「0」의 액세스 유닛의 디코드 결과가 카피되어 사용된다.

베이스 레이어(Base Layer)의 제1 및 제2 화상 데이터의 부호화 화상 데이터를 갖는 제1 비디오 스트림을 포함하는 MP4 스트림에서는, 이 제1 비디오 스트림이 2트랙에서 관리되는 것이며, "mdat" 블록에 대응하여 2개의 "moof" 박스(moof 0, moof 1)가 존재한다. "moof(moof 0)" 박스 내에, "mdat" 블록 내의 제1 화상 데이터의 부호화 화상 데이터를 관리하는 제어 정보가 존재한다.

"moof(moof 0)" 박스 내의 상세는 후술하지만, 이 "moof(moof 0)" 박스 내에, "tscl" 박스가 존재한다. 이 "tscl" 박스에, 예를 들어 「temporalLayerId=0」의 기재가 있어, 제1 화상 데이터가 기본 60P에 포함되는 픽처(샘플)에 대응하고 있음이 나타난다. 또한, 이 "tscl" 박스에, 「tllevel_idc=123」의 기재가 있어, 제1 화상 데이터의 부호화 화상 데이터의 레벨이 "level 4.1"임이 나타난다. 또한, 이 "tscl" 박스에, 「Tlprofile_idc=2」의 기재가 있어, 제1 화상 데이터의 부호화 화상 데이터의 프로파일이 "Main 10 Profile"임이 나타난다.

또한, "moof(moof 1)" 박스 내의 상세는 후술하지만, 이 "moof(moof 1)" 박스 내에, "tscl" 박스가 존재한다. 이 "tscl" 박스에, 예를 들어 「temporalLayerId=1」의 기재가 있어, 제2 화상 데이터가 확장 60P에 포함되는 픽처(샘플)에 대응하고 있음이 나타난다. 또한, 이 "tscl" 박스에, 「tllevel_idc=150」의 기재가 있어, 제2 및 제1 화상 데이터의 부호화 화상 데이터의 전체 레벨이 "level 5"임이 나타난다. 또한, 이 "tscl" 박스에, 「Tlprofile_idc=2」의 기재가 있어, 제2 및 제1 화상 데이터의 부호화 화상 데이터의 전체 프로파일이 "Main 10 Profile"임이 나타난다.

또한, 스케일러블 레이어로부터 베이스 레이어로의 참조를 위해, 나아가 그것에 추가하여 제4 화상 데이터의 액세스 유닛으로부터 다른 트랙의 제3 화상 데이터의 액세스 유닛으로의 참조를 위해, 모든 액세스 유닛의 직전에 익스트랙터의 NAL 유닛이 배치되어 있다. 예를 들어, 「1」의 액세스 유닛을 디코드하는 경우, 「0」의 액세스 유닛을 참조하는 것이 필요하게 되는데, 이 경우, 「1」의 액세스 유닛의 직전에 배치된 익스트랙터에 「0」의 액세스 유닛의 디코드 결과가 카피되어 사용된다.

또한, 스케일러블 레이어(Scalable Layer)의 제3 및 제4 화상 데이터의 부호화 화상 데이터를 갖는 제2 비디오 스트림을 포함하는 MP4 스트림에서는, 이 제2 비디오 스트림이 2트랙에서 관리되는 것이며, "mdat" 블록에 대응하여 2개의 "moof" 박스(moof 2, moof 3)가 존재한다. "moof(moof 2)" 박스 내에, "mdat" 블록 내의 제3 화상 데이터의 부호화 화상 데이터를 관리하는 제어 정보가 존재한다.

"moof(moof 2)" 박스 내의 상세는 후술하지만, 이 "moof(moof 2)" 박스 내에, "tscl" 박스가 존재한다. 이 "tscl" 박스에, 예를 들어 「temporalLayerId=0」의 기재가 있어, 제3 화상 데이터가 기본 60P에 포함되는 픽처(샘플)에 대응하고 있음이 나타난다. 또한, 이 "tscl" 박스에, 「tllevel_idc=153」의 기재가 있어, 제3 및 제1 화상 데이터의 부호화 화상 데이터의 전체 레벨이 "level 5.1"임이 나타난다. 또한, 이 "tscl" 박스에, 「Tlprofile_idc=7」의 기재가 있어, 제3 및 제1 화상 데이터의 부호화 화상 데이터의 전체 프로파일이 "Scalable Main 10 Profile"임이 나타난다.

또한, "moof(moof 3)" 박스 내의 상세는 후술하지만, 이 "moof(moof 3)" 박스 내에, "tscl" 박스가 존재한다. 이 "tscl" 박스에, 예를 들어 「temporalLayerId=1」의 기재가 있어, 제4 화상 데이터가 확장 60P에 포함되는 픽처(샘플)에 대응하고 있음이 나타난다. 또한, 이 "tscl" 박스에, 「tllevel_idc=156」의 기재가 있어, 제4 내지 제1 화상 데이터의 부호화 화상 데이터의 전체 레벨이 "level 5.2"임이 나타난다. 또한, 이 "tscl" 박스에, 「Tlprofile_idc=7」의 기재가 있어, 제4 내지 제1 화상 데이터의 부호화 화상 데이터의 전체 프로파일이 "Scalable Main 10 Profile"임이 나타난다.

또한, 도 11의 예에 있어서, 각 샘플(픽처)의 전송순은, 0→1→2→3→4→5→…의 순으로 된다. 이와 같이 함으로써, 수신 후부터 표시까지의 지연을 최소로 할 수 있다.

도 12는, "moof(moof 0)" 박스 내 및 "moof(moof 1)" 박스 내의 제어 정보의 일례를 개략적으로 도시하고 있다. 또한, MP4 스트림에 있어서, 이들 "moof" 박스에 대응하여 존재하는 이니셜라이제이션ㆍ세그먼트(IS)의 "leva(level assignement)" 박스에 의해, 스케일러빌리티를 갖는 레이어가 어떻게 매핑되는지를 나타낸다. 여기서, 레벨(level)의 수만큼 루프가 돌고, 그 각각에서 「Track_id」, 「grouping_type」, 「assignment_type」을 지정한다.

도시한 예에 있어서, "leva" 박스 내에, 「level_count=2」의 기재가 있어, 2개의 트랙 「TR0」, 「TR1」에 레벨이 하나씩 존재함이 나타난다. 또한, 이 "leva" 박스 내에, 2개의 트랙의 레벨에 대응하여, 「assignment_type=2」가 기재되어 제3 방법임이 나타나고, 또한 2개의 트랙의 레벨에 대응하여 「grouping_type=1」이 기재되어, 각각의 레벨(level)의 그루핑 타입이 템포럴 레이어 그룹임이 나타난다.

또한, "moof(moof 1)" 박스 내에 "traf" 박스가 존재하고, 그 박스 내에 "trun" 박스가 존재한다. 이 "trun" 박스에, 「sample_count」, 「sample_composition_time_offset」의 파라미터의 기재가 있다. 이들 파라미터에 의해, 기본 60P의 표시순, 디코드순을 나타내는 타임 스탬프의 값이 설정된다.

또한, "moof(moof 0)" 박스 내에 "tfdt" 박스가 존재하고, 그 박스 내에 "sgpd" 박스가 존재한다. 이 "sgpd" 박스에는, 제1 화상 데이터에 관한 정보가 배치된다. 이 "sgpd" 박스에는, 「grouping_type」의 파라미터의 기재가 있다. 여기서는, 「grouping_type=1」로 되어, 그루핑 타입이 템포럴 레이어 그룹임이 나타난다.

또한, 이 "sgpd" 박스에는, "scif" 박스가 존재하고, 이 "scif" 박스에 「group_id」의 파라미터의 기재가 있다. 여기서는, 「group_id=0」으로 되어, 그룹 ID가 "0"임이 나타난다. 또한, 「group_id」와 함께 「primary_groupID」가 기재된다. 여기서는, 「group_id=0」이며, 「primary_groupID」의 값과 일치하고 있으므로, 이 그룹은 기본 60P의 그룹이라고 식별된다. 또한, 이 "sgpd" 박스에는, "tscl" 박스가 존재한다. 이 "tscl" 박스에, 「temporalLayerId」, 「tllevel_idc」, 「Tlprofile」, 「tlConstantFrameRate」의 4개의 파라미터의 기재가 있다.

한편, "moof(moof 1)" 박스 내에 "traf" 박스가 존재하고, 그 박스 내에 "tfhd" 박스가 존재한다. 이 "tfhd" 박스에 트랙 ID "track_id"의 기재가 있어, 트랙 「TR1」임이 나타난다. 또한, "moof(moof 1)" 박스 내에 "traf" 박스가 존재하고, 그 박스 내에 "tfdt" 박스가 존재한다. 이 "tfdt" 박스에, "moof(moof 1)" 박스 후의 최초의 액세스 유닛의 디코드 타임 "baseMediaDecodeTime"의 기재가 있다. 이 디코드 타임 "baseMediaDecodeTime"은, 익스트랙터가 가리키는 트랙 TR0의 디코드 타임 "baseMediaDecodeTime"과 동일한 값으로 된다.

또한, "moof(moof 1)" 박스 내에 "traf" 박스가 존재하고, 그 박스 내에 "trun" 박스가 존재한다. 이 "trun" 박스에, 「sample_count」, 「sample_composition_time_offset」의 파라미터의 기재가 있다. 이들 파라미터에 의해, 확장 60P의 표시순, 디코드순을 나타내는 타임 스탬프의 값이 설정된다.

또한, "moof(moof 1)" 박스 내에 "tfdt" 박스가 존재하고, 그 박스 내에 "sgpd" 박스가 존재한다. 이 "sgpd" 박스에는, 제2 화상 데이터에 관한 정보가 배치된다. 이 "sgpd" 박스에는, 「grouping_type」의 파라미터의 기재가 있다. 여기서는, 「grouping_type=1」로 되어, 그루핑 타입이 템포럴 레이어 그룹임이 나타난다.

「temporalLayerId」는, "1"로 됨으로써, 제2 화상 데이터가 확장 60P에 포함되는 픽처(샘플)에 대응하고 있음이 나타난다. 「tlConstantFrameRate」는 "1"로 됨으로써, 프레임 레이트가 콘스턴트임을 나타낸다. 「tllevel_idc」는, 제2 및 제1 화상 데이터의 부호화 화상 데이터의 전체 레벨을 나타내며, 상술한 SPS(혹은 VPS)의 요소의 「sublayer_level_idc[j-2]」와 일치시킨다. 여기서는, 「tllevel_idc」는 "150"으로 된다. 「Tlprofile」은, 제2 및 제1 화상 데이터의 부호화 화상 데이터의 전체 프로파일을 나타내며, 상술한 SPS(혹은 VPS)의 요소의 「sublayer_profile_idc[j-2]」와 일치시킨다. 여기서는, 「Tlprofile」은 "2"로 된다.

도 13은, "moof(moof 2)" 박스 내 및 "moof(moof 3)" 박스 내의 제어 정보의 일례를 개략적으로 도시하고 있다. 도시한 예에 있어서, "leva" 박스 내에, 「level_count=2」의 기재가 있어, 2개의 트랙 「TR2」, 「TR3」에 레벨이 하나씩 존재함이 나타난다. 또한, 이 "leva" 박스 내에, 2개의 트랙의 레벨에 대응하여, 「assignment_type=2」가 기재되어 제3 방법임이 나타나고, 또한 2개의 트랙의 레벨에 대응하여 「grouping_type=1」이 기재되어, 각각의 레벨(level)의 그루핑 타입이 템포럴 레이어 그룹임이 나타난다.

"moof(moof 2)" 박스 내에 "traf" 박스가 존재하고, 그 박스 내에 "tfhd" 박스가 존재한다. 이 "tfhd" 박스에 트랙 ID "track_id"의 기재가 있어, 트랙 「TR2」임이 나타난다. 또한, "moof(moof 2)" 박스 내에 "traf" 박스가 존재하고, 그 박스 내에 "tfdt" 박스가 존재한다. 이 "tfdt" 박스에, "moof(moof 2)" 박스 후의 최초의 액세스 유닛의 디코드 타임 "baseMediaDecodeTime"의 기재가 있다. 이 디코드 타임 "baseMediaDecodeTime"은, 익스트랙터가 가리키는 트랙 TR0의 디코드 타임 "baseMediaDecodeTime"과 동일한 값으로 된다.

또한, "moof(moof 2)" 박스 내에 "traf" 박스가 존재하고, 그 박스 내에 "trun" 박스가 존재한다. 이 "trun" 박스에, 「sample_count」, 「sample_composition_time_offset」의 파라미터의 기재가 있다. 이들 파라미터에 의해, 기본 60P의 표시순, 디코드순을 나타내는 타임 스탬프의 값이 설정된다.

또한, "moof(moof 2)" 박스 내에 "tfdt" 박스가 존재하고, 그 박스 내에 "sgpd" 박스가 존재한다. 이 "sgpd" 박스에는, 제3 화상 데이터에 관한 정보가 배치된다. 이 "sgpd" 박스에는, 「grouping_type」의 파라미터의 기재가 있다. 여기서는, 「grouping_type=1」로 되어, 그루핑 타입이 템포럴 레이어 그룹임이 나타난다.

또한, 이 "sgpd" 박스에는, "scif" 박스가 존재하고, 이 "scif" 박스에 「group_id」의 파라미터의 기재가 있다. 여기서는, 「group_id=2」로 되어, 그룹 ID가 "2"임이 나타난다. 또한, 「group_id」와 함께 「primary_groupID」가 기재된다. 여기서는, 「group_id=2」이며, 「primary_groupID」의 값과 일치하지 않으므로, 이 그룹은 기본 60P의 그룹이 아니라고 식별된다. 또한, 이 "sgpd" 박스에는, "tscl" 박스가 존재한다. 이 "tscl" 박스에, 「temporalLayerId」, 「tllevel_idc」, 「Tlprofile」, 「tlConstantFrameRate」의 4개의 파라미터의 기재가 있다.

한편, "moof(moof 3)" 박스 내에 "traf" 박스가 존재하고, 그 박스 내에 "tfhd" 박스가 존재한다. 이 "tfhd" 박스에 트랙 ID "track_id"의 기재가 있어, 트랙 「TR3」임이 나타난다. 또한, "moof(moof 3)" 박스 내에 "traf" 박스가 존재하고, 그 박스 내에 "tfdt" 박스가 존재한다. 이 "tfdt" 박스에, "moof(moof 3)" 박스 후의 최초의 액세스 유닛의 디코드 타임 "baseMediaDecodeTime"의 기재가 있다. 이 디코드 타임 "baseMediaDecodeTime"은, 익스트랙터가 가리키는 트랙 TR2의 디코드 타임 "baseMediaDecodeTime"이며, 따라서 트랙 TR0의 디코드 타임 "baseMediaDecodeTime"과 동일한 값으로 된다.

또한, "moof(moof 3)" 박스 내에 "tfdt" 박스가 존재하고, 그 박스 내에 "sgpd" 박스가 존재한다. 이 "sgpd" 박스에는, 제4 화상 데이터에 관한 정보가 배치된다. 이 "sgpd" 박스에는, 「grouping_type」의 파라미터의 기재가 있다. 여기서는, 「grouping_type=1」로 되어, 그루핑 타입이 템포럴 레이어 그룹임이 나타난다.

「temporalLayerId」는, "1"로 됨으로써, 제4 화상 데이터가 확장 60P에 포함되는 픽처(샘플)에 대응하고 있음이 나타난다. 「tlConstantFrameRate」는 "1"로 됨으로써, 프레임 레이트가 콘스턴트임을 나타낸다. 「tllevel_idc」는, 제4 내지 제1 화상 데이터의 부호화 화상 데이터의 전체 레벨을 나타내며, 상술한 SPS(혹은 VPS)의 요소의 「general_level_idc」와 일치시킨다. 여기서는, 「tllevel_idc」는 "156"로 된다. 「Tlprofile」은, 제4 내지 제1 화상 데이터의 부호화 화상 데이터의 전체 프로파일을 나타내며, 상술한 SPS(혹은 VPS)의 요소의 「general_profile_idc」와 일치시킨다. 여기서는, 「Tlprofile」은 "7"로 된다.

도 14는, 케이스 3(Case 3)에 있어서의 MP4 스트림(파일)의 구성예를 도시하고 있다. 도시한 예에 있어서는, 도 4에 있어서 파선 프레임으로 둘러싸서 나타내고 있는, 이니셜라이제이션ㆍ세그먼트(IS)와, "styp", "sidx", "ssix"의 박스의 도시는 생략되어 있다. 도시한 예는, 프래그먼티드 MP4(Fragmented MP4)의 예이다. MP4 스트림에는, 제어 정보가 들어가는 "moof" 박스와 미디어 데이터 본체가 들어가는 "mdat" 박스로 구성되는 무비 프래그먼트(Movie Fragment)가 소정 개수 배치된다. "mdat" 박스에는, 트랙 데이터가 단편화되어 얻어진 단편이 들어가므로, "moof" 박스에 들어가는 제어 정보는 그 단편에 관한 제어 정보로 된다.

베이스 레이어(Base Layer)의 제1 화상 데이터의 부호화 화상 데이터를 갖는 제1 비디오 스트림을 포함하는 MP4 스트림에 있어서, "mdat" 박스에는, 제1 화상 데이터의 부호화 화상 데이터(액세스 유닛)가 소정 픽처수만큼, 예를 들어 1GOP만큼 배치된다. 또한, 각 액세스 유닛의 위치는, "SIDX" 박스나 "SSIX" 박스의 정보로 표시된다. 각 액세스 유닛은, 「VPS」, 「SPS」, 「PPS」, 「SEI」, 「SLC」 등의 NAL 유닛에 의해 구성된다. 또한, 「VPS」, 「SPS」는, 예를 들어 GOP의 선두의 액세스 유닛에 삽입된다.

이 제1 비디오 스트림을 포함하는 MP4 스트림에서는, 이 제1 비디오 스트림이 1트랙에서 관리되는 것이며, "mdat" 블록에 대응하여 하나의 "moof" 박스(moof 0)가 존재한다. "moof(moof 0)" 박스 내에, "mdat" 블록 내의 제1 화상 데이터의 부호화 화상 데이터를 관리하는 제어 정보가 존재한다.

"moof(moof 0)" 박스 내의 상세는, 상술한 케이스 2의 경우와 마찬가지이므로 생략하지만, 이 "moof(moof 0)" 박스 내에, "tscl" 박스가 존재한다. 이 "tscl" 박스에, 예를 들어 「temporalLayerId=0」의 기재가 있어, 제1 화상 데이터가 기본 60P에 포함되는 픽처(샘플)에 대응하고 있음이 나타난다. 또한, 이 "tscl" 박스에, 「tllevel_idc=123」의 기재가 있어, 제1 화상 데이터의 부호화 화상 데이터의 레벨이 "level 4.1"임이 나타난다. 또한, 이 "tscl" 박스에, 「Tlprofile_idc=2」의 기재가 있어, 제1 화상 데이터의 부호화 화상 데이터의 프로파일이 "Main 10 Profile"임이 나타난다.

또한, 베이스 레이어(Base Layer)의 제2 화상 데이터의 부호화 화상 데이터를 갖는 제2 비디오 스트림을 포함하는 MP4 스트림에 있어서, "mdat" 박스에는, 제2 화상 데이터의 부호화 화상 데이터(액세스 유닛)가 소정 픽처수만큼, 예를 들어 1GOP만큼 배치된다. 또한, 각 액세스 유닛의 위치는, "SIDX" 박스나 "SSIX" 박스의 정보로 표시된다. 각 액세스 유닛은, 「PPS」, 「SEI」, 「SLC」 등의 NAL 유닛에 의해 구성된다.

또한, 제2 화상 데이터의 액세스 유닛으로부터 다른 트랙의 제1 화상 데이터의 액세스 유닛으로의 참조를 위해, 모든 액세스 유닛의 직전에 익스트랙터의 NAL 유닛이 배치되어 있다. 예를 들어, 「2」의 액세스 유닛을 디코드하는 경우, 「0」의 액세스 유닛을 참조하는 것이 필요하게 되는데, 이 경우, 「2」의 액세스 유닛의 직전에 배치된 익스트랙터에 「0」의 액세스 유닛의 디코드 결과가 카피되어 사용된다.

이 제2 비디오 스트림을 포함하는 MP4 스트림에서는, 이 제2 비디오 스트림이 1트랙에서 관리되는 것이며, "mdat" 블록에 대응하여 하나의 "moof" 박스(moof 1)가 존재한다. "moof(moof 1)" 박스 내에, "mdat" 블록 내의 제2 화상 데이터의 부호화 화상 데이터를 관리하는 제어 정보가 존재한다.

"moof(moof 1)" 박스 내의 상세는, 상술한 케이스 2의 경우와 마찬가지이므로 생략하지만, 이 "moof(moof 1)" 박스 내에, "tscl" 박스가 존재한다. 이 "tscl" 박스에, 예를 들어 「temporalLayerId=1」의 기재가 있어, 제1 화상 데이터가 확장 60P에 포함되는 픽처(샘플)에 대응하고 있음이 나타난다. 또한, 이 "tscl" 박스에, 「tllevel_idc=150」의 기재가 있어, 제2 및 제1 화상 데이터의 부호화 화상 데이터의 전체 레벨이 "level 5"임이 나타난다. 또한, 이 "tscl" 박스에, 「Tlprofile_idc=2」의 기재가 있어, 제2 및 제1 화상 데이터의 부호화 화상 데이터의 전체 프로파일이 "Main 10 Profile"임이 나타난다.

또한, 스케일러블 레이어(Scalable Layer)의 제3 화상 데이터의 부호화 화상 데이터를 갖는 제3 비디오 스트림을 포함하는 MP4 스트림에 있어서, "mdat" 박스에는, 제3 화상 데이터의 부호화 화상 데이터(액세스 유닛)가 소정 픽처수만큼, 예를 들어 1GOP만큼 배치된다. 또한, 각 액세스 유닛의 위치는, "SIDX" 박스나 "SSIX" 박스의 정보로 표시된다. 각 액세스 유닛은, 「PPS」, 「SEI」, 「SLC」 등의 NAL 유닛에 의해 구성된다.

또한, 스케일러블 레이어로부터 베이스 레이어로의 참조를 위해, 모든 액세스 유닛의 직전에 익스트랙터의 NAL 유닛이 배치되어 있다. 예를 들어, 「1」의 액세스 유닛을 디코드하는 경우, 「0」의 액세스 유닛을 참조하는 것이 필요하게 되는데, 이 경우, 「1」의 액세스 유닛의 직전에 배치된 익스트랙터에 「0」의 액세스 유닛의 디코드 결과가 카피되어 사용된다.

이 제3 비디오 스트림을 포함하는 MP4 스트림에서는, 이 제3 비디오 스트림이 1트랙에서 관리되는 것이며, "mdat" 블록에 대응하여 하나의 "moof" 박스(moof 2)가 존재한다. "moof(moof 2)" 박스 내에, "mdat" 블록 내의 제3 화상 데이터의 부호화 화상 데이터를 관리하는 제어 정보가 존재한다.

"moof(moof 2)" 박스 내의 상세는, 상술한 케이스 2의 경우와 마찬가지이므로 생략하지만, 이 "moof(moof 2)" 박스 내에, "tscl" 박스가 존재한다. 이 "tscl" 박스에, 예를 들어 「temporalLayerId=0」의 기재가 있어, 제3 화상 데이터가 기본 60P에 포함되는 픽처(샘플)에 대응하고 있음이 나타난다. 또한, 이 "tscl" 박스에, 「tllevel_idc=153」의 기재가 있어, 제3 및 제1 화상 데이터의 부호화 화상 데이터의 전체 레벨이 "level 5.1"임이 나타난다. 또한, 이 "tscl" 박스에, 「Tlprofile_idc=7」의 기재가 있어, 제3 및 제1 화상 데이터의 부호화 화상 데이터의 전체 프로파일이 "Scalable Main 10 Profile"임이 나타난다.

또한, 스케일러블 레이어(Scalable Layer)의 제4 화상 데이터의 부호화 화상 데이터를 갖는 제4 비디오 스트림을 포함하는 MP4 스트림에 있어서, "mdat" 박스에는, 제4 화상 데이터의 부호화 화상 데이터(액세스 유닛)가 소정 픽처수만큼, 예를 들어 1GOP만큼 배치된다. 또한, 각 액세스 유닛의 위치는, "SIDX" 박스나 "SSIX" 박스의 정보로 표시된다. 각 액세스 유닛은, 「PPS」, 「SEI」, 「SLC」 등의 NAL 유닛에 의해 구성된다.

또한, 스케일러블 레이어로부터 베이스 레이어로의 참조를 위해, 나아가 그것에 추가하여 제4 화상 데이터의 액세스 유닛으로부터 다른 트랙의 제3 화상 데이터의 액세스 유닛으로의 참조를 위해, 모든 액세스 유닛의 직전에 익스트랙터의 NAL 유닛이 배치되어 있다. 예를 들어, 「3」의 액세스 유닛을 디코드하는 경우, 「2」나 「1」의 액세스 유닛을 참조하는 것이 필요하게 되는데, 이 경우, 「2」나 「1」의 액세스 유닛의 직전에 배치된 2개의 익스트랙터에 「2」나 「1」의 액세스 유닛의 디코드 결과가 카피되어 사용된다.

이 제4 비디오 스트림을 포함하는 MP4 스트림에서는, 이 제4 비디오 스트림이 1트랙에서 관리되는 것이며, "mdat" 블록에 대응하여 하나의 "moof" 박스(moof 3)가 존재한다. "moof(moof 3)" 박스 내에, "mdat" 블록 내의 제4 화상 데이터의 부호화 화상 데이터를 관리하는 제어 정보가 존재한다.

"moof(moof 3)" 박스 내의 상세는, 상술한 케이스 2의 경우와 마찬가지이므로 생략하지만, 이 "moof(moof 3)" 박스 내에, "tscl" 박스가 존재한다. 이 "tscl" 박스에, 예를 들어 「temporalLayerId=1」의 기재가 있어, 제4 화상 데이터가 확장 60P에 포함되는 픽처(샘플)에 대응하고 있음이 나타난다. 또한, 이 "tscl" 박스에, 「tllevel_idc=156」의 기재가 있어, 제4 내지 제1 화상 데이터의 부호화 화상 데이터의 전체 레벨이 "level 5.2"임이 나타난다. 또한, 이 "tscl" 박스에, 「Tlprofile_idc=7」의 기재가 있어, 제4 내지 제1 화상 데이터의 부호화 화상 데이터의 전체 프로파일이 "Scalable Main 10 Profile"임이 나타난다.

또한, 도 14의 예에 있어서, 각 샘플(픽처)의 전송순은, 0→1→2→3→4→5→…의 순으로 된다. 이와 같이 함으로써, 수신 후부터 표시까지의 지연을 최소로 할 수 있다.

여기서, 기본 60P, 확장 60P의 표시순, 디코드순을 나타내는 타임 스탬프의 값을 설정하기 위한 「sample_count」, 「sample_composition_time_offset」의 파라미터에 대하여 더 설명한다. "tfdt" 박스의 「baseMediaDecodeTime」은, 프래그먼트(fragment)의 최초의 샘플(픽처)의 디코드 타임 스탬프를 나타낸다. 후속하는 개개의 샘플의 디코드 타임은, "trun" 박스 중 「sample_count」로 기술된다. 또한, 각 샘플의 표시 타임 스탬프는, 「sample_count」로부터의 오프셋(offset)을 나타내는, 「sample_composition_time_offset」으로 표시된다.

도 7의 베이스 레이어(base layer)에 있어서, 「0」의 「sample_count」는 「baseMediaDecodeTime」과 일치하고, 그것으로부터 「2」, 「4」의 「sample_count」는, 순서대로, 120Hz 단위로 하나씩 증가한 값으로 된다. 이것은, 기본 60P의 샘플인 「0」과 「4」의 2개의 샘플의 디코드 타임의 사이에, 확장 60P의 샘플인 「2」의 샘플의 디코드 타임이 끼워짐을 나타낸다.

또한, 스케일러블 레이어(scalable layer)에 있어서, 레이어간 예측을 나타내는 「1」의 익스트랙터의 디코드 타임(= 「sample_count」)은, 「0」의 샘플의 디코드 타임과 동일한 값으로 된다. 「1」의 「sample_count」는 직전의 익스트랙터와 동일한 값이며 시간 오프셋이 없음을 나타낸다. 「3」의 익스트랙터는 「2」를 참조하는 경우에 배치되며, 그 「sample_count」는 「2」와 동일한 값을 취한다. 「3」의 샘플의 참조처가 「1」인 경우에는, 「1」의 「sample_count」에 1만큼 증가시킨 값을, 「3」의 「sample_count」의 값으로 한다.

이와 같이 하여, 120Hz의 정밀도로 디코드 타임에 상당하는 「sample_count」가 부여된다. 베이스 레이어(Base layer)의 기본 60P의 디코드를 행하는 수신기는, 기본 60P의 그룹에 속하는 샘플만, 하나 걸러 디코더에 전송한다.

도 11, 도 14의 양쪽에서, 베이스 레이어(base layer) 내의 「2」의 익스트랙터의 「sample_count」는 「0」의 「sample_count」와 동일한 값으로 된다. 「2」의 「sample_count」는, 직전의 익스트랙터 「sample_count」에 1만큼 증가시킨 값으로 된다. 「4」의 「sample_count」의 값은, 「2」의 「sample_count」에 1만큼 더 증가시킨 값으로 된다. 이하, 마찬가지로 이것을 행한다. 이와 같이 하여, 120Hz의 정밀도로 디코드 타임에 상당하는 「sample_count」가 부여된다.

스케일러블 레이어(scalable layer)에서는, 「1」의 익스트랙터는, 레이어간 참조를 나타내며, 그 「sample_count」는 「0」과 동일한 값이며, 「1」의 「sample_count」는 직전의 익스트랙터와 동일한 값으로 된다. 「3」의 익스트랙터는, 스케일러블 레이어(scalable layer) 내의 다른 트랙(track)을 참조하는 경우, 그 「sample_count」는 「1」과 동일하게 되거나, 혹은 베이스 레이어(base layer)의 「2」의 값을 참조하는 경우, 그 「sample_count」는 「2」와 동일하게 된다. 어느 경우라도, 「3」의 「sample_count」의 값은, 「2」와 동일한 값으로 된다.

「5」의 익스트랙터는 레이어간 참조를 나타내며, 그 「sample_count」는 「4」의 「sample_count」와 동일한 값으로 된다. 「5」의 「sample_count」는, 「4」와 동일한 값으로 된다. 이와 같이, 스케일러블 레이어(scalable layer)에 있어서도, 기본 60P의 샘플인 「1」과 「5」의 2개의 샘플의 디코드 타임의 사이에, 확장 60P의 샘플인 「3」의 샘플의 디코드 타임이 끼워지게 된다. 스케일러블 레이어(scalable layer)의 60P의 디코드를 행하는 수신기는, 기본 60P의 그룹에 속하는 샘플만, 레이어 내의 샘플의 「sample_count」를 하나 걸러 디코더에 전송한다.

도 15는, 2 스트림 구성의 전송의 경우(케이스 1, 케이스 2의 경우)에 있어서의 MPD 파일의 기술예를 도시하고 있다. 여기서는, 설명의 간단화를 위해 비디오 스트림에 관한 정보만이 기술되어 있는 예를 도시하고 있지만, 실제로는 비디오 스트림의 다른 미디어 스트림에 관한 정보도 기술되어 있다. 도 16은, "SupplementaryDescriptor"의 「Value」 시맨틱스를 도시하고 있다.

「<AdaptationSet mimeType="video/mp4" codecs="hev1.xx.xx.L150,xx, hev1.yy.yy.L156,yy"」의 기술에 의해, 비디오 스트림에 대한 어댑테이션 세트(AdaptationSet)가 존재하고, 그 비디오 스트림은 MP4 파일 구조로 공급되고, 150의 레벨과 156의 레벨의 HEVC의 부호화 화상 데이터가 존재함이 나타나 있다.

「<SupplementaryDescriptorschemeIdUri="urn:brdcst:video:highdynamicrange" value="HDR"/>」의 기술에 의해, 대상 스트림이 HDR 스트림임이 나타난다. 또한, "HDR" 대신에 "1"이 기술되어, HDR 스트림임이 나타나도 된다. 또한, SDR 스트림임을 나타내는 경우에는, "SDR" 혹은 "0"이 기술된다.

「<SupplementaryDescriptor schemeIdUri="urn:brdcst:video: transferfunction" value="TFtype"/>」의 기술에 의해, 전광ㆍ광전 변환 특성(TF 특성)이 나타난다. 예를 들어, 「BT.709-5 Transfer Function」인 경우에는, "TFtype"의 부분에, "bt709" 또는 "1"이 기술된다. 또한, 예를 들어 「10bit BT.2020 Transfer Function」인 경우에는, "TFtype"의 부분에, "bt2020-10" 또는 "14"가 기술된다. 또한, 예를 들어 「SMPTE 2084 Transfer Function」인 경우에는, "TFtype"의 부분에, "st2084" 또는 "16"이 기술된다. 또한, 예를 들어 「ARIB STD B-67 Transfer Function」인 경우에는, "TFtype"의 부분에, "arib-b67" 또는 "18"이 기술된다.

「<SupplementaryDescriptor schemeIdUri="urn:brdcst:video: xycolourprimaries" value="ColorGamut"/>」의 기술에 의해, 색 공간이 나타난다. 예를 들어, 「BT.709-5」인 경우에는, "ColorGamut"의 부분에, "bt709" 또는 "1"이 기술된다. 또한, 예를 들어 「BT.2020」인 경우에는, "ColorGamut"의 부분에, "bt2020" 또는 "9"가 기술된다. 또한, 예를 들어 「SMPTE 428 or XYZ」인 경우에는, "ColorGamut"의 부분에, "st428" 또는 "10"이 기술된다.

이 MPD 파일에는, 제1 및 제2 화상 데이터의 부호화 화상 데이터를 갖는 제1 비디오 스트림에 대응한 제1 리프리젠테이션(Representation)이 존재함과 함께, 제3 및 제4 화상 데이터를 갖는 제2 비디오 스트림에 대응한 제2 리프리젠테이션이 존재한다. 또한, 제1 비디오 스트림의 리프리젠테이션 중에, 제1, 제2 화상 데이터의 부호화 화상 데이터에 각각 대응한 서브 리프리젠테이션(SubRepresentation)이 존재한다. 또한, 제2 비디오 스트림의 리프리젠테이션 중에, 제3, 제4 화상 데이터의 부호화 화상 데이터에 각각 대응한 서브 리프리젠테이션이 존재한다.

「<BaseURL>videostreamBase.mp4</BaseURL>」의 기술에 의해, 제1 비디오 스트림의 로케이션처가, 「videostreamBase.mp4」로서 나타나 있다. 제1 비디오 스트림의 리프리젠테이션 중 제1 화상 데이터의 부호화 화상 데이터에 대응한 서브 리프리젠테이션에 있어서, 「width="1920" height="1080" frameRate="60"」, 「codecs="hev1.xx.xx.L123,xx"」, 「level="0"」의 기술이 존재한다. 이에 의해, 2K 60P의 스트림을 실현함을 나타내고, 태그 정보로서 레벨 "0"이 부여됨을 나타내고, 제1 화상 데이터의 부호화 화상 데이터의 레벨이 "123"임을 나타낸다.

제1 비디오 스트림의 리프리젠테이션 중 제2 화상 데이터의 부호화 화상 데이터에 대응한 서브 리프리젠테이션에 있어서, 「width="1920" height="1080" frameRate="120"」, 「codecs="hev1.xx.xx.L150,xx"」, 「level="1"」, 「dependencyLevel="0"」의 기술이 존재한다. 이에 의해, 제1 화상 데이터의 부호화 화상 데이터 상에 확장에 의해 2K 120P의 스트림을 실현하고, 태그 정보로서 레벨 "1"이 부여됨을 나타내고, 제2 및 제1 화상 데이터의 부호화 화상 데이터의 전체 레벨이 "150"임을 나타낸다.

또한, 「<BaseURL>video-bitstreamScalable.mp4</BaseURL>」의 기술에 의해, 제2 비디오 스트림의 로케이션처가, 「video-bitstreamScalable.mp4」로서 나타나 있다. 제2 비디오 스트림의 리프리젠테이션 중 제3 화상 데이터의 부호화 화상 데이터에 대응한 서브 리프리젠테이션에 있어서, 「width="3840" height="2160" frameRate="60"」, 「codecs="hev1.yy.yy.L153,yy"」, 「level="2"」, 「dependencyLevel="0"」의 기술이 존재한다. 이에 의해, 제1 화상 데이터의 부호화 화상 데이터 상에 확장에 의해 4K 60P의 스트림을 실현함을 나타내고, 태그 정보로서 레벨 "2"가 부여됨을 나타내고, 제3 및 제1 화상 데이터의 부호화 화상 데이터의 전체 레벨이 "153"임을 나타낸다.

제2 비디오 스트림의 리프리젠테이션 중 제4 화상 데이터의 부호화 화상 데이터에 대응한 서브 리프리젠테이션에 있어서, 「width="3840" height="2160" frameRate="120"」, 「codecs="hev1.yy.yy.L156,yy"」, 「level="3"」, 「dependencyLevel="0","1","2"」의 기술이 존재한다. 이에 의해, 제1 화상 데이터의 부호화 화상 데이터 상에 확장에 의해 2K 120P의 스트림을 실현하고, 또한 그 위에 확장 성분을 더하여 4K 120P의 스트림을 실현함을 나타내고, 태그 정보로서 레벨 "3"이 부여됨을 나타내고, 제4 내지 제1 화상 데이터의 부호화 화상 데이터의 전체 레벨이 "156"임을 나타낸다.

도 17은, 4 스트림 구성의 전송의 경우(케이스 2의 경우)에 있어서의 MPD 파일의 기술예를 도시하고 있다. 여기서는, 설명의 간단화를 위해 비디오 스트림에 관한 정보만이 기술되어 있는 예를 나타내고 있지만, 실제로는 비디오 스트림의 다른 미디어 스트림에 관한 정보도 기술되어 있다.

「<AdaptationSet mimeType="video/mp4" codecs="hev1.xx.xx.L123,xx, hev1.xx.xx.L150,xx, hev1.yy.yy.L153,yy, hev1.yy.yy.L156,yy"」의 기술에 의해, 비디오 스트림에 대한 어댑테이션 세트(AdaptationSet)가 존재하고, 그 비디오 스트림은 MP4 파일 구조로 공급되고, 123의 레벨과 150의 레벨과 153의 레벨과 156의 레벨의 HEVC의 부호화 화상 데이터가 존재함이 나타나 있다.

「<SupplementaryDescriptor schemeIdUri="urn:brdcst:video: highdynamicrange" value="HDR"/>」, 「<SupplementaryDescriptor schemeIdUri="urn:brdcst:video:transferfunction" value="EOTFtype"/>」, 「<SupplementaryDescriptor schemeIdUri="urn:brdcst:video: xycolourprimaries" value="ColorGamut"/>」의 기술에 관해서는, 도 15의 예와 마찬가지이므로 그 설명은 생략한다.

이 MPD 파일에는, 제1, 제2, 제3, 제4 화상 데이터의 부호화 화상 데이터를 각각 갖는 제1, 제2, 제3, 제4 비디오 스트림에 대응한 제1, 제2, 제3, 제4 리프리젠테이션(Representation)이 존재한다.

제1 비디오 스트림의 리프리젠테이션에 있어서, 「width="1920" height="1080" frameRate="60"」, 「codecs="hev1.xx.xx.L123,xx"」, 「level="0"」의 기술이 존재한다. 이에 의해, 2K 60P의 스트림을 실현함을 나타내고, 태그 정보로서 레벨 "0"이 부여됨을 나타내고, 제1 화상 데이터의 부호화 화상 데이터의 레벨이 "123"임을 나타낸다. 「<BaseURL>video-base1subbitstream.mp4</BaseURL>」의 기술에 의해, 제1 비디오 스트림의 로케이션처가 「video-base1subbitstream.mp4」로서 나타나 있다.

제2 비디오 스트림의 리프리젠테이션에 있어서, 「width="1920" height="1080" frameRate="120"」, 「codecs="hev1.xx.xx.L150,xx"」, 「level="1"」, 「dependencyLevel="0"」의 기술이 존재한다. 이에 의해, 제1 화상 데이터의 부호화 화상 데이터 상에 확장에 의해 2K 120P의 스트림을 실현하고, 태그 정보로서 레벨 "1"이 부여됨을 나타내고, 제2 및 제1 화상 데이터의 부호화 화상 데이터의 전체 레벨이 "150"임을 나타낸다. 「<BaseURL>video-base2subbitstream.mp4</BaseURL>」의 기술에 의해, 제2 비디오 스트림의 로케이션처가 「video-base2subbitstream.mp4」로서 나타나 있다.

제3 비디오 스트림의 리프리젠테이션에 있어서, 「width="3840" height="2160" frameRate="60"」, 「codecs="hev1.yy.yy.L153,yy"」, 「level="2"」, 「dependencyLevel="0"」의 기술이 존재한다. 이에 의해, 제1 화상 데이터의 부호화 화상 데이터 상에 확장에 의해 4K 60P의 스트림을 실현함을 나타내고, 태그 정보로서 레벨 "2"가 부여됨을 나타내고, 제3 및 제1 화상 데이터의 부호화 화상 데이터의 전체 레벨이 "153"임을 나타낸다. 「<BaseURL>video-e1subbitstream.mp4</BaseURL>」의 기술에 의해, 제3 비디오 스트림의 로케이션처가 「video-e1subbitstream.mp4」로서 나타나 있다.

제4 비디오 스트림의 리프리젠테이션에 있어서, 「width="3840" height="2160" frameRate="120"」, 「codecs="hev1.yy.yy.L156,yy"」, 「level="3"」, 「dependencyLevel="0","1","2"」의 기술이 존재한다. 이에 의해, 제1 화상 데이터의 부호화 화상 데이터 상에 확장에 의해 2K 120P의 스트림을 실현하고, 또한 그 위에 확장 성분을 더하여 4K 120P의 스트림을 실현함을 나타내고, 태그 정보로서 레벨 "3"이 부여됨을 나타내고, 제4 내지 제1 화상 데이터의 부호화 화상 데이터의 전체 레벨이 "156"임을 나타낸다. 「<BaseURL>video-e2subset.mp4</BaseURL>」의 기술에 의해, 제4 비디오 스트림의 로케이션처가 「video-e2subset.mp4」로서 나타나 있다.

「서비스 송신 시스템의 구성예」

도 18은, 서비스 송신 시스템(100)의 구성예를 도시하고 있다. 이 서비스 송신 시스템(100)은, 제어부(101)와, HDR(High Dynamic Range: 하이 다이내믹 레인지) 광전 변환부(102)와, RGB/YCbCr 변환부(103)와, 비디오 인코더(104)와, 컨테이너 인코더(105)와, 송신부(106)를 갖고 있다.

제어부(101)는, CPU(Central Processing Unit)를 구비하여 구성되며, 제어 프로그램에 기초하여, 서비스 송신 시스템(100)의 각 부의 동작을 제어한다. HDR 광전 변환부(102)는, 하이 프레임 레이트이며 초고해상도(예를 들어, 4K 120P), 또한 하이 다이내믹 레인지(HDR)의 화상 데이터(비디오 데이터) Vh에 대하여, HDR 광전 변환 특성을 적용하여 광전 변환하고, HDR 전송 화상 데이터 V1을 얻는다. 이 HDR 전송 비디오 데이터 V1은, HDR OETF에서 영상 제작된 영상 소재로 된다. 예를 들어, HDR 광전 변환 특성으로서, STD-B67(HLG: Hybrid Log-Gamma)의 특성, 혹은 ST2084(PQ: Perceptual Quantizer 커브)의 특성 등이 적용된다.

도 19는, SDR(통상 다이내믹 레인지) 및 HDR(하이 다이내믹 레인지)의 광전 변환 특성의 일례를 도시하고 있다. 이 도면에 있어서, 횡축은 입력 휘도 레벨을 나타내고, 종축은 전송 부호값을 나타낸다. 파선 a는, SDR 광전 변환 특성(BT.709: 감마 특성)을 나타내고 있다. 이 SDR 광전 변환 특성에 있어서, 입력 휘도 레벨이 SDR 특성 표현 한계 휘도 SL일 때, 전송 부호값은 피크 레벨 MP로 된다. 여기서, SL은 100cd/㎡이다.

실선 b는, HDR 광전 변환 특성으로서의 STD-B67(HLG)의 특성을 나타내고 있다. 일점쇄선 c는, HDR 광전 변환 특성으로서의 ST2084(PQ 커브)의 특성을 나타내고 있다. 이 HDR 광전 변환 특성에 있어서, 입력 휘도 레벨이 피크 휘도 PL일 때, 전송 부호값은 피크 레벨 MP로 된다.

STD-B67(HLG)의 특성은, SDR 광전 변환 특성(BT.709: 감마 특성)과의 호환 영역을 포함하고 있다. 즉, 입력 휘도 레벨이 제로로부터 양쪽 특성의 호환 한계값까지는, 양쪽 특성의 커브는 일치하고 있다. 입력 휘도 레벨이 호환 한계값일 때, 전송 부호값은 호환 레벨 SP로 된다. ST2084(PQ 커브)의 특성은, 고휘도에 대응하고, 인간의 시각 특성에 적합하다고 말해지는 양자화 스텝의 커브이다.

도 18로 복귀하여, RGB/YCbCr 변환부(103)는, HDR 광전 변환부(102)에서 얻어진 HDR 전송 비디오 데이터 V1을 RGB 도메인으로부터 YCbCr(휘도ㆍ색차) 도메인으로 변환한다. 또한, 이들 색 공간의 도메인은, RGB 도메인에 한정되는 것은 아니며, 또한 휘도ㆍ색차 도메인은 YCbCr에 한정되는 것은 아니다.

비디오 인코더(104)는, YCbCr 도메인으로 변환된 HDR 전송 비디오 데이터 V1에 대하여, 예를 들어 MPEG4-AVC 혹은 HEVC 등의 부호화를 실시하여 부호화 화상 데이터를 얻고, 이 부호화 화상 데이터를 포함하는 소정수의 비디오 스트림을 생성한다.

즉, 케이스 1, 케이스 2의 전송을 행하는 경우에는, 제1 및 제2 화상 데이터의 부호화 화상 데이터를 갖는 제1 비디오 스트림과, 제3 및 제4 화상 데이터의 부호화 화상 데이터를 갖는 제2 비디오 스트림이 생성된다(도 6, 도 7, 도 11 참조). 한편, 케이스 3의 전송을 행하는 경우에는, 제1 화상 데이터의 부호화 화상 데이터를 갖는 제1 비디오 스트림과, 제2 화상 데이터의 부호화 화상 데이터를 갖는 제2 비디오 스트림과, 제3 화상 데이터의 부호화 화상 데이터를 갖는 제3 비디오 스트림과, 제4 화상 데이터의 부호화 화상 데이터를 갖는 제4 비디오 스트림이 생성된다(도 6, 도 14 참조).

이때, 비디오 인코더(104)는, 액세스 유닛(AU)의 SPS NAL 유닛의 VUI(video usability information)의 영역에, HDR 전송 화상 데이터 V1이 갖는 광전 변환 특성 또는 그 특성에 대응한 전광 변환 특성을 나타내는 변환 특성 정보(transferfunction)를 삽입한다. 또한, HDR 전송 화상 데이터 V1이 갖는 광전 변환 특성이 STD-B67(HLG)인 경우에는, 이 VUI의 영역에는, BT.709(감마 특성)를 나타내는 변환 특성 정보를 삽입한다. 이 경우, STD-B67(HLG)을 나타내는 변환 특성 정보는, 액세스 유닛(AU)의 "SEIs"의 부분에 삽입되는, 후술하는 신규 정의의 트랜스퍼ㆍ펑션ㆍSEI 메시지(transfer_function SEI message) 내에 배치된다.

또한, 비디오 인코더(104)는, 상술한 HDR 광전 변환부(102)에서 HDR 광전 변환 특성으로서 ST2084(PQ 커브)의 특성이 적용된 경우에는, 액세스 유닛(AU)의 "SEIs"의 부분에, 다이내믹 레인지 변환의 변환 정보를 갖는, 후술하는 신규 정의하는 다이내믹 레인지ㆍ컨버전 SEI 메시지(Dynamic_range_conv SEI message)를 삽입한다. 이 변환 정보는, ST2084(PQ 커브)의 특성에 의한 변환 데이터의 값을 SDR 광전 변환 특성에 의한 변환 데이터의 값으로 변환하기 위한 변환 정보이다.

도 20을 참조하여, 다이내믹 레인지 변환의 변환 정보에 대하여, 더 설명한다. 실선 a는, SDR 광전 변환 특성을 나타내는 SDR OETF 커브의 일례를 나타내고 있다. 실선 b는, HDR OETF 커브로서의 ST2084(PQ 커브)의 특성의 일례를 나타내고 있다. 횡축은 입력 휘도 레벨을 나타내고, P1은 SDR 피크 레벨에 대응하는 입력 휘도 레벨을 나타내고, P2는 HDR 최대 레벨에 대응하는 입력 휘도 레벨을 나타내고 있다.

또한, 종축은 전송 부호값 또는 정규화된 부호화 레벨의 상대값을 나타낸다. 상대 최대 레벨 M은 HDR 최대 레벨 및 SDR 최대 레벨을 나타낸다. 기준 레벨 G는, SDR 최대 레벨에 대응하는 입력 휘도 레벨 P1에 있어서의 HDR OETF의 전송 레벨을 나타내는 것이며, 소위 레퍼런스의 백색 레벨을 의미하고, 이 레벨보다 높은 범위를 HDR 특유의 반짝임 표현에 이용함을 나타낸다. 분기 레벨 B는, SDR OETF 커브와 HDR OETF 커브가 동일 궤도로부터 분기하여 나뉘는 레벨을 나타낸다. Pf는, 분기 레벨에 대응하는 입력 휘도 레벨을 나타낸다. 또한, 이 분기 레벨 B는, 0 이상의 임의의 값으로 할 수 있다. 또한, 분기 레벨이 명시되지 않는 경우에는, 그것에 상당하는 배신 운용 방법 혹은 수신측에서의 전체로부터의 비율로 구함으로써 근사한다.

다이내믹 레인지 변환의 변환 정보는, HDR 전송 화상 데이터 중, 분기 레벨 B로부터 상대 최대 레벨 M까지를, SDR 광전 변환 특성에 의한 변환 데이터의 값으로 되도록 변환하는 정보이며, 변환 계수, 혹은 변환 테이블이다. 변환 테이블로 제공되는 경우, 다이내믹 레인지 변환은, 이 변환 테이블을 참조하여 변환을 행하게 된다. 한편, 변환 계수로 제공되는 경우, 다이내믹 레인지 변환은, 이 변환 계수를 사용한 연산에 의해 변환을 행하게 된다. 예를 들어, 변환 계수를 C라고 할 때, 분기 레벨 B로부터 상대 최대 레벨 G까지의 입력 데이터에 관하여, 이하의 식 (1)에 의해, 변환을 행할 수 있다.

출력 데이터=분기 레벨 B+(입력 데이터-분기 레벨 B)*C … (1)

도 21은, 부호화 방식이 HEVC인 경우에 있어서의 GOP(Group Of Pictures)의 선두의 액세스 유닛을 도시하고 있다. HEVC의 부호화 방식의 경우, 화소 데이터가 부호화되어 있는 슬라이스(slices) 앞에 디코드용 SEI 메시지군 「Prefix_SEIs」가 배치되고, 이 슬라이스(slices) 뒤에 표시용 SEI 메시지군 「Suffix_SEIs」가 배치된다. 트랜스퍼ㆍ펑션ㆍSEI 메시지, 다이내믹 레인지ㆍ컨버전 SEI 메시지는, 도시하는 바와 같이, 예를 들어 SEI 메시지군 「Suffix_SEIs」로서 배치된다.

도 22의 (a)는, 트랜스퍼ㆍ펑션ㆍSEI 메시지의 구조예(Syntax)를 도시하고 있다. 도 22의 (b)는, 그 구조예에 있어서의 주요한 정보의 내용(Semantics)을 도시하고 있다. 「transferfunction」의 8비트 필드는, 전송 비디오 데이터 V1이 갖는 광전 변환 특성 또는 그 특성에 대응한 전광 변환 특성을 나타낸다. 본 엘리먼트의 값과 VUI의 「transferfunction」의 값이 상이한 경우에는, 본 엘리먼트의 값으로 치환한다.

예를 들어, "1"은 「BT.709-5 Transfer Function(SDR)」을 나타내고, "14"는 「10bit BT.2020 Transfer Function(SDR)」을 나타내고, "16"은 「SMPTE 2084 Transfer Function(HDR1)」을 나타내고, "18"은 「ARIB STD B-67 Transfer Function(HDR2)」을 나타낸다.

「peak_luminance」의 16비트 필드는, 최대 휘도 레벨을 나타낸다. 이 최대 휘도 레벨은, 콘텐츠의, 예를 들어 프로그램 내 혹은 씬 내의 최대 휘도 레벨을 나타낸다. 수신측에서는, 이 값을, 표시 능력에 적합한 표시 화면을 정밀하게 만들 때의 참조값으로서 사용할 수 있다. 「color_space」의 8비트 필드는, 색 공간 정보를 나타낸다.

도 23은, 다이내믹 레인지ㆍ컨버전 SEI 메시지의 구조예(Syntax)를 도시하고 있다. 도 24는, 그 구조예에 있어서의 주요한 정보의 내용(Semantics)을 도시하고 있다. 「Dynamic_range_conv_cancel_flag」의 1비트의 플래그 정보는, "Dynamic_range_conv"의 메시지를 리프레시할지를 나타낸다. "0"은, "Dynamic_range_conv"의 메시지를 리프레시함을 나타낸다. "1"은, "Dynamic_range_conv"의 메시지를 리프레시하지 않음, 즉 전의 메시지를 그대로 유지함을 나타낸다.

「Dynamic_range_conv_cancel_flag」가 "0"일 때, 이하의 필드가 존재한다. 「coded_data_bit_depth」의 8비트 필드는, 부호화 화소 비트수(전송 부호값의 비트수)를 나타낸다. 「reference_level」의 14비트 필드는, 기준 휘도 레벨값, 즉 기준 레벨 G(도 20 참조)를 나타낸다. 「ratio_conversion_flag」의 1비트의 플래그 정보는, 심플 변환에 의함, 즉 변환 계수가 존재함을 나타낸다. 「conversion_table_flag」의 1비트의 플래그 정보는, 변환 테이블에 의함, 즉 변환 테이블 정보가 존재함을 나타낸다. 「branch_level」의 16비트 필드는, 분기 레벨 B(도 20 참조)를 나타낸다.

「ratio_conversion_flag」가 "1"일 때, 「level_conversion_ratio」의 8비트 필드가 존재한다. 이 필드는, 변환 계수(레벨 변환의 비)를 나타낸다. 「conversion_table_flag」가 "1"일 때, 「table_size」의 8비트 필드가 존재한다. 이 필드는, 변환 테이블의 입력수를 나타낸다. 그리고, 그 입력수만큼, 「level_R[i]」, 「level_G[i]」, 「level_B[i]」의 각 16비트 필드가 존재한다. 「level_R[i]」의 필드는, 적색 컴포넌트(Red component)의 변환 후의 값을 나타낸다. 「level_G[i]」의 필드는, 녹색 컴포넌트(Green component)의 변환 후의 값을 나타낸다. 「level_B[i]」의 필드는, 청색 컴포넌트(Blue component)의 변환 후의 값을 나타낸다.

또한, 부호화 화소 비트수가 8비트일 때에는 입력 데이터의 각 값에 대응한 값이 존재하게 된다. 그러나, 부호화 화소 비트수가 10비트, 12비트 등일 때에는, 입력 데이터의 상위 8비트의 각 값에 대응한 값만이 존재하게 된다. 이 경우, 수신측에서 변환 테이블을 사용할 때에는, 남은 하위 비트의 값에 관해서는 보간값이 사용되게 된다.

도 18로 복귀하여, 컨테이너 인코더(105)는, 비디오 인코더(104)에서 생성된 소정수의 비디오 스트림 VS를 포함하는 컨테이너, 여기서는 MP4 스트림을, 배신 스트림 STM으로서 생성한다.

즉, 케이스 1, 케이스 2의 전송을 행하는 경우에는, 제1 및 제2 화상 데이터의 부호화 화상 데이터를 갖는 제1 비디오 스트림이 포함되는 MP4 스트림과, 제3 및 제4 화상 데이터의 부호화 화상 데이터를 갖는 제2 비디오 스트림이 포함되는 MP4 스트림을 생성한다(도 6, 도 7, 도 11 참조).

한편, 케이스 3의 전송을 행하는 경우에는, 제1 화상 데이터의 부호화 화상 데이터를 갖는 제1 비디오 스트림이 포함되는 MP4 스트림과, 제2 화상 데이터의 부호화 화상 데이터를 갖는 제2 비디오 스트림이 포함되는 MP4 스트림과, 제3 화상 데이터의 부호화 화상 데이터를 갖는 제3 비디오 스트림이 포함되는 MP4 스트림과, 제4 화상 데이터의 부호화 화상 데이터를 갖는 제4 비디오 스트림이 포함되는 MP4 스트림을 생성한다(도 6, 도 14 참조).

송신부(106)는, 컨테이너 인코더(105)에서 얻어진 MP4의 배신 스트림 STM을, 방송파 혹은 네트의 패킷에 실어, 서비스 수신기(200)에 송신한다.

도 18에 도시하는 서비스 송신 시스템(100)의 동작을 간단하게 설명한다. 하이 프레임 레이트이며 초고해상도(예를 들어, 4K 120P), 또한 하이 다이내믹 레인지(HDR)의 화상 데이터(비디오 데이터) Vh는, HDR 광전 변환부(102)에 공급된다. 이 HDR 광전 변환부(102)에서는, HDR 비디오 데이터 Vh에 HDR 광전 변환 특성으로 광전 변환이 실시되고, HDR OETF에서 영상 제작된 영상 소재로서의 HDR 전송 비디오 데이터가 얻어진다. 예를 들어, HDR 광전 변환 특성으로서, STD-B67(HLG)의 특성, 혹은 ST2084(PQ 커브)의 특성 등이 적용된다.

HDR 광전 변환부(102)에서 얻어진 HDR 전송 비디오 데이터 V1은, RGB/YCbCr 변환부(103)에서 RGB 도메인으로부터 YCbCr 도메인으로 변환된 후, 비디오 인코더(104)에 공급된다. 비디오 인코더(104)에서는, YCbCr 도메인으로 변환된 HDR 전송 비디오 데이터 V1에 대하여, 예를 들어 MPEG4-AVC 혹은 HEVC 등의 부호화가 실시되어 부호화 화상 데이터가 얻어지고, 이 부호화 화상 데이터를 포함하는 소정수의 비디오 스트림이 생성된다.

이때, 비디오 인코더(104)에서는, 액세스 유닛(AU)의 SPS NAL 유닛의 VUI의 영역에, HDR 전송 비디오 데이터 V1이 갖는 광전 변환 특성 또는 그 특성에 대응한 전광 변환 특성을 나타내는 변환 특성 정보(transferfunction)가 삽입된다. 또한, HDR 전송 비디오 데이터 V1이 갖는 광전 변환 특성이 STD-B67(HLG)인 경우에는, 이 VUI의 영역에는, BT.709(감마 특성)를 나타내는 변환 특성 정보가 삽입된다. 이 경우, STD-B67(HLG)을 나타내는 변환 특성 정보는, 액세스 유닛(AU)의 "SEIs"의 부분에 삽입되는 트랜스퍼ㆍ펑션ㆍSEI 메시지(도 22 참조) 내에 배치된다.

또한, 이때, 비디오 인코더(104)에서는, HDR 광전 변환부(102)에서 HDR 광전 변환 특성으로서 ST2084(PQ 커브)의 특성이 적용된 경우, 액세스 유닛(AU)의 "SEIs"의 부분에, 다이내믹 레인지 변환의 변환 정보를 갖는 다이내믹 레인지ㆍ컨버전 SEI 메시지(도 23 참조)가 삽입된다. 이 변환 정보는, ST2084(PQ 커브)의 특성에 의한 변환 데이터의 값을 SDR 광전 변환 특성에 의한 변환 데이터의 값으로 변환하기 위한 변환 정보이다.

비디오 인코더(104)에서 생성된 소정수의 비디오 스트림 VS는, 컨테이너 인코더(105)에 공급된다. 컨테이너 인코더(105)에서는, 소정수의 비디오 스트림 VS를 포함하는 컨테이너, 여기서는 MP4 스트림이, 배신 스트림 STM으로서 생성된다.

즉, 케이스 1, 케이스 2의 전송을 행하는 경우에는, 제1 및 제2 화상 데이터의 부호화 화상 데이터를 갖는 제1 비디오 스트림이 포함되는 MP4 스트림과, 제3 및 제4 화상 데이터의 부호화 화상 데이터를 갖는 제2 비디오 스트림이 포함되는 MP4 스트림이 생성된다(도 6, 도 7, 도 11 참조).

한편, 케이스 3의 전송을 행하는 경우에는, 제1 화상 데이터의 부호화 화상 데이터를 갖는 제1 비디오 스트림이 포함되는 MP4 스트림과, 제2 화상 데이터의 부호화 화상 데이터를 갖는 제2 비디오 스트림이 포함되는 MP4 스트림과, 제3 화상 데이터의 부호화 화상 데이터를 갖는 제3 비디오 스트림이 포함되는 MP4 스트림과, 제4 화상 데이터의 부호화 화상 데이터를 갖는 제4 비디오 스트림이 포함되는 MP4 스트림이 생성된다(도 6, 도 14 참조).

컨테이너 인코더(105)에서 배신 스트림 STM으로서 생성된 MP4 스트림은, 송신부(106)에 공급된다. 송신부(106)에서는, 컨테이너 인코더(105)에서 얻어진 MP4의 배신 스트림 STM이, 방송파 혹은 네트의 패킷에 실려, 서비스 수신기(200)에 송신된다.

「서비스 수신기의 구성예」

도 25는, 서비스 수신기(200)의 구성예를 도시하고 있다. 이 서비스 수신기(200)는, 제어부(201)와, 수신부(202)와, 컨테이너 디코더(203)와, 비디오 디코더(204)와, YCbCr/RGB 변환부(205)와, HDR 전광 변환부(206)와, SDR 전광 변환부(207)를 갖고 있다.

제어부(201)는, CPU(Central Processing Unit)를 구비하여 구성되며, 제어 프로그램에 기초하여, 서비스 수신기(200)의 각 부의 동작을 제어한다. 수신부(202)는, 서비스 송신 시스템(100)으로부터 방송파 혹은 네트의 패킷에 실어 보내져 오는 MP4의 배신 스트림 STM을 수신한다.

컨테이너 디코더(멀티플렉서)(103)는, 제어부(201)의 제어 하에, 수신기(200)의 디코드 능력에 따라, 수신부(202)에서 수신된 MP4의 배신 스트림 STM으로부터, "moof" 블록의 정보 등에 기초하여, 필요로 하는 화상 데이터의 부호화 화상 데이터를 선택적으로 취출하여, 비디오 디코더(204)에 보낸다.

예를 들어, 수신기(200)가 하이 프레임 레이트로 초고해상도의 화상 데이터를 처리 가능한 디코드 능력이 있을 때, 컨테이너 디코더(203)는, 제1 내지 제4의 모든 화상 데이터의 부호화 화상 데이터를 취출하여, 비디오 디코더(204)에 보낸다. 또한, 예를 들어 수신기(200)가 기본 프레임 레이트로 초고해상도의 화상 데이터를 처리 가능한 디코드 능력이 있을 때에는, 컨테이너 디코더(203)는, 제1 및 제3 화상 데이터의 부호화 화상 데이터를 취출하여, 비디오 디코더(204)에 보낸다.

또한, 예를 들어 수신기(200)가 하이 프레임 레이트로 고해상도의 화상 데이터를 처리 가능한 디코드 능력이 있을 때에는, 컨테이너 디코더(203)는, 제1 및 제2 화상 데이터의 부호화 화상 데이터를 취출하여, 비디오 디코더(204)에 보낸다. 또한, 예를 들어 수신기(200)가 기본 프레임 레이트로 고해상도의 화상 데이터를 처리 가능한 디코드 능력이 있을 때에는, 컨테이너 디코더(203)는, 제1 화상 데이터의 부호화 화상 데이터를 취출하여, 비디오 디코더(204)에 보낸다.

예를 들어, 컨테이너 디코더(203)는, 컨테이너에 삽입되어 있는 레벨값(tlevel_idc)을 체크하고, 비디오 디코더(204)의 디코드 능력과 비교하여, 수신 가능한지 여부의 판단을 행한다. 그때, "moof" 블록 내의 「tlevel_idc」로부터, 수신한 비디오 스트림 중의 스트림 전체의 복잡도(general_level_idc)에 상당하는 값을 검지한다.

그리고, 컨테이너 디코더(203)는, 그 검지된 값이 수신기의 디코드 능력보다 높은 경우, 비디오 스트림 내의 다른 요소(sublayer_level_idc)의 값에 상당하는 "moof" 블록 내의 「tlevel_idc」를 체크하고, 해당하는 범위에서 디코드 가능한지 여부를 판단하고, 그것에 해당하는 화상 데이터의 부호화 화상 데이터를 비디오 디코더(204)에 전송한다.

한편, 컨테이너 디코더(203)는, "moof" 블록 내의 「tlevel_idc」로부터, 수신한 비디오 스트림 중의 스트림 전체의 복잡도(general_level_idc)에 상당하는 값을 검지하고, 그것이 수신기의 디코드 능력에 맞는 경우, 수신한 비디오 스트림에 포함되는 모든 화상 데이터의 부호화 화상 데이터를 디코드 타임 스탬프순으로 하여 비디오 디코더(204)에 전송한다.

비디오 디코더(204)는, 컨테이너 디코더(203)에서 선택적으로 취출된 부호화 화상 데이터에 디코드 처리를 실시하여, HDR 전송 비디오 데이터 V1'를 얻는다. 예를 들어, 수신기(200)가 하이 프레임 레이트로 초고해상도의 화상 데이터를 처리 가능한 디코드 능력이 있을 때, 이 HDR 전송 비디오 데이터 V1'는, 하이 프레임 레이트로 초고해상도의 화상을 표시하기 위한 화상 데이터로 된다. 또한, 예를 들어 수신기(200)가 기본 프레임 레이트로 초고해상도의 화상 데이터를 처리 가능한 디코드 능력이 있을 때, 이 HDR 전송 비디오 데이터 V1'는, 기본 프레임 레이트로 초고해상도의 화상을 표시하기 위한 화상 데이터로 된다.

또한, 예를 들어 수신기(200)가 하이 프레임 레이트로 고해상도의 화상 데이터를 처리 가능한 디코드 능력이 있을 때, 이 HDR 전송 비디오 데이터 V1'는, 하이 프레임 레이트로 고해상도의 화상을 표시하기 위한 화상 데이터로 된다. 또한, 예를 들어 수신기(200)가 기본 프레임 레이트로 고해상도의 화상 데이터를 처리 가능한 디코드 능력이 있을 때, 이 HDR 전송 비디오 데이터 V1'는, 기본 프레임 레이트로 고해상도의 화상을 표시하기 위한 화상 데이터로 된다.

또한, 비디오 디코더(204)는, 컨테이너 디코더(203)에서 선택적으로 취출된 부호화 화상 데이터에 삽입되어 있는 파라미터 세트나 SEI 메시지를 추출하여, 제어부(201)에 보낸다.

추출 정보에는, 상술한 액세스 유닛의 SPS NAL 유닛의 VUI의 영역에 삽입되어 있는 전송 비디오 데이터 V1이 갖는 광전 변환 특성 또는 그 특성에 대응한 전광 변환 특성을 나타내는 변환 특성 정보(transferfunction)나 트랜스퍼ㆍ펑션ㆍSEI 메시지(도 22 참조)도 포함된다. 이에 의해, 제어부(201)는, HDR 전송 비디오 데이터 V1'에 적용되어 있는 HDR 광전 변환 특성을 인식한다.

또한, 추출 정보에는, HDR 전송 비디오 데이터 V1'에 적용되어 있는 HDR 광전 변환 특성이 ST2084(PQ 커브)의 특성일 때, 다이내믹 레인지ㆍ컨버전 SEI 메시지(도 23 참조)도 포함된다. 이에 의해, 제어부(201)는, 다이내믹 레인지의 변환 정보(변환 테이블, 변환 계수)를 인식한다.

YCbCr/RGB 변환부(205)는, 비디오 디코더(204)에서 얻어진 HDR 전송 비디오 데이터 V1'를, YCbCr(휘도ㆍ색차) 도메인으로부터 RGB 도메인으로 변환한다. HDR 광전 변환부(206)는, RGB 도메인으로 변환된 HDR 전송 비디오 데이터 V1'에, HDR 전광 변환 특성을 적용하여, HDR 화상을 표시하기 위한 표시용 비디오 데이터 Vhd를 얻는다. 이 경우, 제어부(201)는, HDR 광전 변환부(206)에, VUI 혹은 트랜스퍼ㆍ펑션ㆍSEI 메시지로부터 인식한 HDR 전광 변환 특성, 즉 송신측에서 적용된 HDR 광전 변환 특성에 대응한 HDR 전광 변환 특성을 설정한다.

SDR 광전 변환부(207)는, RGB 도메인으로 변환된 HDR 전송 비디오 데이터 V1'에, SDR 전광 변환 특성을 적용하여, SDR 화상을 표시하기 위한 표시용 비디오 데이터 Vsd를 얻는다. 여기서, SDR 광전 변환부(207)는, HDR 전송 비디오 데이터 V1'에 적용되어 있는 HDR 광전 변환 특성이 STD-B67(HLG)의 특성일 때에는, 이 HDR 전송 비디오 데이터 V1'에 그대로 SDR 전광 변환 특성을 적용하여, SDR 화상을 표시하기 위한 표시용 비디오 데이터 Vsd를 얻는다.

한편, SDR 광전 변환부(207)는, HDR 전송 비디오 데이터 V1'에 적용되어 있는 HDR 광전 변환 특성이 ST2084(PQ 커브)의 특성일 때에는, HDR 전송 비디오 데이터 V1'에, 다이내믹 레인지의 변환 정보(변환 테이블, 변환 계수)에 기초하여 다이내믹 레인지 변환을 행하여 SDR 전송 화상 데이터를 얻고, 이 SDR 전송 화상 데이터에 SDR 전광 변환 특성을 적용하여, SDR 화상을 표시하기 위한 표시용 비디오 데이터 Vsd를 얻는다.

도 26을 참조하여, 다이내믹 레인지의 변환 정보에 기초하는 다이내믹 레인지 변환의 일례를 설명한다. 종축은 출력 휘도 레벨을 나타내고, 도 20의 횡축에 대응한다. 또한, 횡축은 전송 부호값을 나타내고, 도 20의 종축에 대응한다. 실선 a는, SDR 전광 변환 특성을 나타내는 SDR EOTF 커브이다. 이 SDR EOTF 커브는, 도 20에 실선 a로 나타내는 SDR OETF 커브에 대응하고 있다. 실선 b는, HDR 전광 변환 특성을 나타내는 HDR EOTF 커브이다. 이 HDR EOTF 커브는, 도 20에 실선 b로 나타내는 HDR OETF 커브로서의 ST2084(PQ 커브)의 특성에 대응하고 있다. 또한, P1'는, 기준 레벨 G보다 낮은 소정의 레벨 H에 대응한 출력 휘도 레벨을 나타내고 있다.

다이내믹 레인지 변환에서는, HDR 전송 비디오 데이터 V1' 중, 기준 레벨 G보다 낮은 소정의 레벨 H까지의 입력 데이터에 관해서는, SDR 광전 변환 특성에 의한 변환 데이터의 값과 일치하도록 변환된다. 분기 레벨 B 미만의 입력 데이터는, 그대로 출력 데이터로 된다.

또한, 레벨 H부터 레벨 M까지의 입력 데이터에 관해서는, 일점쇄선으로 나타내는 톤 매핑 특성 TM에 기초하여 다이내믹 레인지 레벨 변환이 행해진다. 이 경우, 예를 들어 레벨 H는 레벨 H'로 변환되고, 기준 레벨 G는 레벨 G'로 변환되고, 레벨 M은 그대로 레벨 M으로 된다. 이와 같이 레벨 H부터 레벨 M까지의 입력 데이터에 관하여 톤 매핑 특성 TM에 기초한 레벨 변환이 이루어짐으로써, 기준 레벨 G로부터 상대 최대 레벨 M까지의 레벨 포화에 의한 화질 열화의 저감이 가능하게 된다.

도 25에 도시하는 서비스 수신기(200)의 동작을 간단하게 설명한다. 수신부(202)에서는, 서비스 송신 시스템(100)으로부터 방송파 혹은 네트의 패킷에 실어 보내져 오는 MP4의 배신 스트림 STM이 수신된다. 이 배신 스트림 STM은, 컨테이너 디코더(203)에 공급된다.

컨테이너 디코더(203)에서는, 제어부(201)의 제어 하에, 수신기(200)의 디코드 능력에 따라, 수신부(202)에서 수신된 MP4의 배신 스트림 STM으로부터, "moof" 블록 정보 등에 기초하여, 필요로 하는 화상 데이터의 부호화 화상 데이터가 선택적으로 취출되어, 비디오 디코더(204)에 공급된다.

예를 들어, 수신기(200)가 하이 프레임 레이트로 초고해상도의 화상 데이터를 처리 가능한 디코드 능력이 있을 때, 컨테이너 디코더(203)에서는, 제1 내지 제4의 모든 화상 데이터의 부호화 화상 데이터가 취출되어, 비디오 디코더(204)에 공급된다. 또한, 예를 들어 수신기(200)가 기본 프레임 레이트로 초고해상도의 화상 데이터를 처리 가능한 디코드 능력이 있을 때에는, 컨테이너 디코더(203)에서는, 제1 및 제3 화상 데이터의 부호화 화상 데이터가 취출되어, 비디오 디코더(204)에 공급된다.

또한, 예를 들어 수신기(200)가 하이 프레임 레이트로 고해상도의 화상 데이터를 처리 가능한 디코드 능력이 있을 때에는, 컨테이너 디코더(203)에서는, 제1 및 제2 화상 데이터의 부호화 화상 데이터가 취출되어, 비디오 디코더(204)에 공급된다. 또한, 예를 들어 수신기(200)가 기본 프레임 레이트로 고해상도의 화상 데이터를 처리 가능한 디코드 능력이 있을 때에는, 컨테이너 디코더(203)에서는, 제1 화상 데이터의 부호화 화상 데이터가 취출되어, 비디오 디코더(204)에 공급된다.

비디오 디코더(204)에서는, 컨테이너 디코더(203)에서 선택적으로 취출된 부호화 화상 데이터에 디코드 처리가 실시되어, HDR 전송 비디오 데이터 V1'가 얻어진다. 예를 들어, 수신기(200)가 하이 프레임 레이트로 초고해상도의 화상 데이터를 처리 가능한 디코드 능력이 있을 때, 이 HDR 전송 비디오 데이터 V1'는, 하이 프레임 레이트로 초고해상도의 화상을 표시하기 위한 화상 데이터이다. 또한, 예를 들어 수신기(200)가 기본 프레임 레이트로 초고해상도의 화상 데이터를 처리 가능한 디코드 능력이 있을 때, 이 HDR 전송 비디오 데이터 V1'는, 기본 프레임 레이트로 초고해상도의 화상을 표시하기 위한 화상 데이터이다.

또한, 예를 들어 수신기(200)가 하이 프레임 레이트로 고해상도의 화상 데이터를 처리 가능한 디코드 능력이 있을 때, 이 HDR 전송 비디오 데이터 V1'는, 하이 프레임 레이트로 고해상도의 화상을 표시하기 위한 화상 데이터이다. 또한, 예를 들어 수신기(200)가 기본 프레임 레이트로 고해상도의 화상 데이터를 처리 가능한 디코드 능력이 있을 때, 이 HDR 전송 비디오 데이터 V1'는, 기본 프레임 레이트로 고해상도의 화상을 표시하기 위한 화상 데이터이다.

또한, 비디오 디코더(204)에서는, 컨테이너 디코더(203)에서 선택적으로 취출된 부호화 화상 데이터에 삽입되어 있는 파라미터 세트나 SEI 메시지가 추출되어, 제어부(201)에 보내진다.

제어부(201)에서는, SPS NAL 유닛의 VUI의 영역에 삽입되어 있는 전송 비디오 데이터 V1이 갖는 광전 변환 특성 또는 그 특성에 대응한 전광 변환 특성을 나타내는 변환 특성 정보(transferfunction)나 트랜스퍼ㆍ펑션ㆍSEI 메시지(도 22 참조)에 기초하여, HDR 전송 비디오 데이터 V1'에 적용되어 있는 HDR 광전 변환 특성이 인식된다. 또한, 제어부(201)에서는, 다이내믹 레인지ㆍ컨버전 SEI 메시지(도 23 참조)에 기초하여, 다이내믹 레인지의 변환 정보(변환 테이블, 변환 계수)가 인식된다.

비디오 디코더(204)에서 얻어진 HDR 전송 비디오 데이터 V1'는, YCbCr/RGB 변환부(205)에서 YCbCr 도메인으로부터 RGB 도메인으로 변환된 후, HDR 전광 변환부(206), 혹은 SDR 전광 변환부(207)에 공급된다.

HDR 광전 변환부(206)에서는, RGB 도메인으로 변환된 HDR 전송 비디오 데이터 V1'에, HDR 전광 변환 특성이 적용되어, HDR 화상을 표시하기 위한 표시용 비디오 데이터 Vhd가 얻어진다. 이 경우, HDR 광전 변환부(206)에는, 제어부(201)의 제어에 의해, VUI 혹은 트랜스퍼ㆍ펑션ㆍSEI 메시지로부터 인식한 HDR 전광 변환 특성, 즉 송신측에서 적용된 HDR 광전 변환 특성에 대응한 HDR 전광 변환 특성이 설정된다.

SDR 전광 변환부(207)에서는, RGB 도메인으로 변환된 HDR 전송 비디오 데이터 V1'에, SDR 전광 변환 특성이 적용되어, SDR 화상을 표시하기 위한 표시용 비디오 데이터 Vsd가 얻어진다. 이 경우, HDR 전송 비디오 데이터 V1'에 적용되어 있는 HDR 광전 변환 특성이 STD-B67(HLG)의 특성일 때에는, 이 HDR 전송 비디오 데이터 V1'에 그대로 SDR 전광 변환 특성이 적용된다.

또한, 이 경우, HDR 전송 비디오 데이터 V1'에 적용되어 있는 HDR 광전 변환 특성이 ST2084(PQ 커브)의 특성일 때에는, HDR 전송 비디오 데이터 V1'에, 다이내믹 레인지의 변환 정보(변환 테이블, 변환 계수)에 기초하여 다이내믹 레인지 변환이 행해져 SDR 전송 화상 데이터가 얻어지고(도 26 참조), 이 SDR 전송 화상 데이터에 SDR 전광 변환 특성이 적용된다.

상술한 바와 같이, 도 3에 도시하는 송수신 시스템(10)에 있어서는, 소정수의 비디오 스트림의 각각에 삽입된 당해 비디오 스트림이 갖는 화상 데이터에 관한 정보(SPS의 정보)에 대응한 정보를 컨테이너(MP4 스트림의 "moof" 블록)에 삽입하는 것이다. 그 때문에, 수신측에서는, 디코드 능력에 따라, 이 정보에 기초하여, 소정수의 스트림에 포함되는 제1 내지 제4 화상 데이터로부터 소정의 부호화 화상 데이터를 취출하여 디코드 처리를 행하는 것이 용이하게 가능하게 된다.

또한, 도 3에 도시하는 송수신 시스템(10)에 있어서는, HDR 광전 변환 특성 또는 이 특성에 대응한 전광 변환 특성을 나타내는 변환 특성 정보를, 제1 화상 데이터의 부호화 화상 데이터를 갖는 비디오 스트림에 삽입하는 것이다. 그 때문에, 수신측에서는, 이 변환 특성 정보에 기초하여 적절한 전광 변환을 행하는 것이 용이하게 가능하게 된다.

또한, 도 3에 도시하는 송수신 시스템(10)에 있어서는, 하이 다이내믹 레인지 광전 변환 특성이 PQ 커브의 특성일 때, 제1 화상 데이터의 부호화 화상 데이터를 갖는 비디오 스트림에, PQ 커브의 특성에 의한 변환 데이터의 값을 통상 다이내믹 레인지 광전 변환 특성에 의한 변환 데이터의 값으로 변환하기 위한 변환 정보를 삽입하는 것이다. 그 때문에, 수신측에서는, 하이 다이내믹 레인지 광전 변환 특성이 PQ 커브의 특성일 때, 통상 다이내믹 레인지 표시를 행하는 경우에, 표시용 화상 데이터를 양호하게 얻는 것이 가능하게 된다.

<2. 변형예>

또한, 상술한 실시 형태에 있어서는, 기본 스트림과 확장 스트림이 다른 트랙에서 전송되는 경우에, 확장 스트림은 익스트랙터(extractor)에 의존한 구성을 전제로 하는 기재로 하고 있다. 그러나, 이것은 단순한 예시이며, 실제로는 익스트랙터가 존재하지 않아도 확장 스트림의 디코드 타이밍을 관리하는 것은 가능하다.

즉, 기본 스트림과 확장 스트림이 다른 트랙에서 전송되는 경우에, 확장 스트림을 포함하는 트랙에 관하여, 그 트랙의 적어도 최초의 오프셋 정보를 "moof"의 트랙 프래그먼트(tfdt)의 디코드 타임(tfdt) 내의 박스, 「baseMediaDecodeTime」에 120Hz 단위의 지연 정보로서 기재함으로써, 기본 스트림의 디코드 타이밍에 대하여 확장 스트림의 디코드 타이밍을 (1/120)초만큼 어긋나게 함으로써 마찬가지의 것을 실현할 수 있다.

또한, 상술한 실시 형태에 있어서는, 컨테이너가 MP4(ISOBMFF)인 예를 나타내었다. 그러나, 본 기술은, 컨테이너가 MP4에 한정되는 것은 아니며, MPEG-2 TS나 MMT 등의 다른 포맷의 컨테이너라도 마찬가지로 적용할 수 있다.

또한, 본 기술은, 이하와 같은 구성을 취할 수도 있다.

(1) 하이 프레임 레이트로 초고해상도의 화상 데이터를 처리하여, 기본 프레임 레이트로 고해상도의 화상을 얻기 위한 제1 화상 데이터와, 상기 제1 화상 데이터와 함께 사용하여 하이 프레임 레이트로 고해상도의 화상을 얻기 위한 제2 화상 데이터와, 상기 제1 화상 데이터와 함께 사용하여 기본 프레임 레이트로 초고해상도의 화상을 얻기 위한 제3 화상 데이터와, 상기 제1 내지 제3 화상 데이터와 함께 사용하여 하이 프레임 레이트로 초고해상도의 화상을 얻기 위한 제4 화상 데이터를 얻는 화상 처리부와,

상기 제1 내지 제4 화상 데이터의 부호화 화상 데이터를 갖는 소정수의 비디오 스트림을 포함하는 소정 포맷의 컨테이너를 송신하는 송신부와,

상기 컨테이너에 상기 소정수의 비디오 스트림의 각각에 삽입된 당해 비디오 스트림이 갖는 화상 데이터에 관한 정보에 대응한 정보를 삽입하는 정보 삽입부를 구비하는 송신 장치.

(2) 상기 송신부가 송신하는 상기 소정 포맷의 컨테이너에는, 상기 제1 화상 데이터의 부호화 화상 데이터와 상기 제2 화상 데이터의 부호화 화상 데이터를 갖는 제1 비디오 스트림과, 상기 제3 화상 데이터의 부호화 화상 데이터와 상기 제4 화상 데이터의 부호화 화상 데이터를 갖는 제2 비디오 스트림이 포함되어 있고,

상기 정보 삽입부는,

상기 제1 및 제2 비디오 스트림을 각각 1트랙에서 관리하는 상태로 상기 정보를 상기 컨테이너에 삽입하는 상기 (1)에 기재된 송신 장치.

(3) 상기 정보 삽입부는,

상기 정보를 상기 컨테이너에 삽입할 때,

상기 제1 비디오 스트림에 관해서는 상기 제1 화상 데이터의 부호화 화상 데이터에 관한 정보와 상기 제2 화상 데이터의 부호화 화상 데이터에 관한 정보를 그룹 분류하여 삽입하고,

상기 제2 비디오 스트림에 관해서는 상기 제3 화상 데이터의 부호화 화상 데이터에 관한 정보와 상기 제4 화상 데이터의 부호화 화상 데이터에 관한 정보를 그룹 분류하여 삽입하는 상기 (2)에 기재된 송신 장치.

(4) 상기 제1 비디오 스트림에 있어서 상기 제1 화상 데이터의 픽처와 상기 제2 화상 데이터의 픽처가 교대로 부호화되어 있고,

상기 제2 비디오 스트림에 있어서 상기 제3 화상 데이터의 픽처와 상기 제4 화상 데이터의 픽처가 교대로 부호화되어 있는 상기 (2) 또는 (3)에 기재된 송신 장치.

(5) 상기 송신부가 송신하는 상기 소정 포맷의 컨테이너에는, 상기 제1 화상 데이터의 부호화 화상 데이터와 상기 제2 화상 데이터의 부호화 화상 데이터를 갖는 제1 비디오 스트림과, 상기 제3 화상 데이터의 부호화 화상 데이터와 상기 제4 화상 데이터의 부호화 화상 데이터를 갖는 제2 비디오 스트림이 포함되어 있고,

상기 정보 삽입부는,

상기 제1 및 제2 비디오 스트림을 각각 2트랙에서 관리하는 상태로 상기 정보를 상기 컨테이너에 삽입하는 상기 (1)에 기재된 송신 장치.

(6) 상기 제1 비디오 스트림에 있어서 상기 제1 화상 데이터의 픽처와 상기 제2 화상 데이터의 픽처가 교대로 부호화되어 있고,

상기 제2 비디오 스트림에 있어서 상기 제3 화상 데이터의 픽처와 상기 제4 화상 데이터의 픽처가 교대로 부호화되어 있는 상기 (5)에 기재된 송신 장치.

(7) 상기 송신부가 송신하는 상기 소정 포맷의 컨테이너에는, 상기 제1 화상 데이터의 부호화 화상 데이터를 갖는 제1 비디오 스트림과, 상기 제2 화상 데이터의 부호화 화상 데이터를 갖는 제2 비디오 스트림과, 상기 제3 화상 데이터의 부호화 화상 데이터를 갖는 제3 비디오 스트림과, 상기 제4 화상 데이터의 부호화 화상 데이터를 갖는 제4 비디오 스트림이 포함되어 있고,

상기 정보 삽입부는,

상기 제1 내지 제4 비디오 스트림을 각각 1트랙에서 관리하는 상태로 상기 정보를 삽입하는 상기 (1)에 기재된 송신 장치.

(8) 상기 하이 프레임 레이트이며 초고해상도의 화상 데이터는, 하이 다이내믹 레인지 화상 데이터에 하이 다이내믹 레인지 광전 변환 특성에 의한 광전 변환을 행하여 하이 다이내믹 레인지 광전 변환 특성을 갖게 한 전송 화상 데이터이고,

상기 정보 삽입부는,

상기 하이 다이내믹 레인지 광전 변환 특성 또는 해당 특성에 대응한 전광 변환 특성을 나타내는 변환 특성 정보를, 상기 제1 화상 데이터의 부호화 화상 데이터를 갖는 비디오 스트림에 추가로 삽입하는 상기 (1) 내지 (7) 중 어느 것에 기재된 송신 장치.

(9) 상기 하이 다이내믹 레인지 광전 변환 특성은 하이브리드 로그 감마의 특성인 상기 (8)에 기재된 송신 장치.

(10) 상기 하이 다이내믹 레인지 광전 변환 특성은 PQ 커브의 특성인 상기 (8)에 기재된 송신 장치.

(11) 상기 정보 삽입부는,

상기 제1 화상 데이터의 부호화 화상 데이터를 갖는 비디오 스트림에, 상기 PQ 커브의 특성에 의한 변환 데이터의 값을 통상 다이내믹 레인지 광전 변환 특성에 의한 변환 데이터의 값으로 변환하기 위한 변환 정보를 추가로 삽입하는 상기 (10)에 기재된 송신 장치.

(12) 하이 프레임 레이트로 초고해상도의 화상 데이터를 처리하여, 기본 프레임 레이트로 고해상도의 화상을 얻기 위한 제1 화상 데이터와, 상기 제1 화상 데이터와 함께 사용하여 하이 프레임 레이트로 고해상도의 화상을 얻기 위한 제2 화상 데이터와, 상기 제1 화상 데이터와 함께 사용하여 기본 프레임 레이트로 초고해상도의 화상을 얻기 위한 제3 화상 데이터와, 상기 제1 내지 제3 화상 데이터와 함께 사용하여 하이 프레임 레이트로 초고해상도의 화상을 얻기 위한 제4 화상 데이터를 얻는 화상 처리 스텝과,

송신부에 의해, 상기 제1 내지 제4 화상 데이터의 부호화 화상 데이터를 갖는 소정수의 비디오 스트림을 포함하는 소정 포맷의 컨테이너를 송신하는 송신 스텝과,

상기 컨테이너에 상기 소정수의 비디오 스트림의 각각에 삽입된 당해 비디오 스트림이 갖는 화상 데이터에 관한 정보에 대응한 정보를 삽입하는 정보 삽입 스텝을 갖는 송신 방법.

(13) 소정수의 비디오 스트림을 포함하는 소정 포맷의 컨테이너를 수신하는 수신부를 구비하고,

디코드 능력에 따라, 상기 컨테이너에 삽입되어 있는 정보에 기초하여, 상기 제1 내지 제4 화상 데이터의 부호화 화상 데이터로부터 소정의 부호화 화상 데이터를 선택적으로 취출하여 디코드 처리를 행하여 화상 데이터를 얻는 처리부를 더 구비하는 수신 장치.

(14) 상기 하이 프레임 레이트이며 초고해상도의 화상 데이터는, 하이 다이내믹 레인지 화상 데이터에 하이 다이내믹 레인지 광전 변환 특성에 의한 광전 변환을 행하여 하이 다이내믹 레인지 광전 변환 특성을 갖게 한 전송 화상 데이터이고,

상기 제1 화상 데이터의 부호화 화상 데이터를 갖는 비디오 스트림에, 상기 하이 다이내믹 레인지 광전 변환 특성 또는 해당 특성에 대응한 전광 변환 특성을 나타내는 변환 특성 정보가 삽입되어 있고,

상기 처리부는,

상기 디코드 처리에서 얻어진 화상 데이터에 상기 변환 특성 정보에 기초하여 전광 변환을 행하여 표시용 화상 데이터를 얻는 상기 (13)에 기재된 수신 장치.

(15) 상기 하이 프레임 레이트이며 초고해상도의 화상 데이터는, 하이 다이내믹 레인지 화상 데이터에 하이 다이내믹 레인지 광전 변환 특성에 의한 광전 변환을 행하여 하이 다이내믹 레인지 광전 변환 특성을 갖게 한 전송 화상 데이터이고,

상기 하이 다이내믹 레인지 광전 변환 특성은 PQ 커브의 특성이고,

상기 제1 화상 데이터의 부호화 화상 데이터를 갖는 비디오 스트림에, 상기 PQ 커브의 특성에 의한 변환 데이터의 값을 통상 다이내믹 레인지 광전 변환 특성에 의한 변환 데이터의 값으로 변환하기 위한 변환 정보가 삽입되어 있고,

상기 처리부는,

통상 다이내믹 레인지 표시를 행할 때,

상기 디코드 처리에서 얻어진 화상 데이터에, 상기 변환 정보에 기초하여 다이내믹 레인지 변환을 행하여 통상 다이내믹 레인지 전송 화상 데이터를 얻고, 해당 통상 다이내믹 레인지 전송 화상 데이터에 통상 다이내믹 레인지 전광 변환 특성에 의한 전광 변환을 행하여 표시용 화상 데이터를 얻는 상기 (13)에 기재된 수신 장치.

(16) 수신부에 의해, 소정수의 비디오 스트림을 포함하는 소정 포맷의 컨테이너를 수신하는 수신 스텝을 갖고,

상기 소정수의 비디오 스트림은, 하이 프레임 레이트로 초고해상도의 화상 데이터를 처리하여 얻어진, 기본 프레임 레이트로 고해상도의 화상을 얻기 위한 제1 화상 데이터와, 상기 제1 화상 데이터와 함께 사용하여 하이 프레임 레이트로 고해상도의 화상을 얻기 위한 제2 화상 데이터와, 상기 제1 화상 데이터와 함께 사용하여 기본 프레임 레이트로 초고해상도의 화상을 얻기 위한 제3 화상 데이터와, 상기 제1 내지 제3 화상 데이터와 함께 사용하여 하이 프레임 레이트로 초고해상도의 화상을 얻기 위한 제4 화상 데이터를 갖고 있고,

디코드 능력에 따라, 상기 컨테이너에 삽입되어 있는 정보에 기초하여, 상기 제1 내지 제4 화상 데이터의 부호화 화상 데이터로부터 소정의 부호화 화상 데이터를 선택적으로 취출하여 디코드 처리를 행하여 화상 데이터를 얻는 처리 스텝을 더 갖는 수신 방법.

본 기술의 주된 특징은, 시공간 스케일러빌리티에 관한 소정수의 비디오 스트림을 포함하는 컨테이너를 송신할 때, 소정수의 비디오 스트림의 각각에 삽입된 당해 비디오 스트림이 갖는 화상 데이터에 관한 정보(SPS의 정보)에 대응한 정보를 컨테이너(MP4 스트림의 "moof" 블록)에 삽입함으로써, 수신측에서는, 디코드 능력에 따라, 이 정보에 기초하여, 소정수의 스트림에 포함되는 제1 내지 제4 화상 데이터로부터 소정의 부호화 화상 데이터를 취출하여 디코드 처리를 행하는 것을 용이하게 한 것이다(도 7, 도 11, 도 14 참조).

10: 송수신 시스템
30A, 30B: MPEG-DASH 베이스의 스트림 배신 시스템
31: DASH 스트림 파일 서버
32: DASH MPD 서버
33, 33-1 내지 33-N: 서비스 수신기
34: CDN
35, 35-1 내지 35-M: 서비스 수신기
36: 방송 송출 시스템
100: 서비스 송신 시스템
101: 제어부
102: HDR 광전 변환부
103: RGB/YCbCr 변환부
104: 비디오 인코더
105: 컨테이너 인코더
106: 송신부
200, 200A, 200B, 200C, 200D: 서비스 수신기
201: 제어부
202: 수신부
203: 컨테이너 디코더
204, 204A, 204B, 204C, 204D: 비디오 디코더
205: YCbCr/RGB 변환부
206: HDR 전광 변환부
207: SDR 전광 변환부

Claims

하이 프레임 레이트로 초고해상도의 화상 데이터를 처리하여, 기본 프레임 레이트로 고해상도의 화상을 얻기 위한 제1 화상 데이터와, 상기 제1 화상 데이터와 함께 사용하여 하이 프레임 레이트로 고해상도의 화상을 얻기 위한 제2 화상 데이터와, 상기 제1 화상 데이터와 함께 사용하여 기본 프레임 레이트로 초고해상도의 화상을 얻기 위한 제3 화상 데이터와, 상기 제1 내지 제3 화상 데이터와 함께 사용하여 하이 프레임 레이트로 초고해상도의 화상을 얻기 위한 제4 화상 데이터를 얻는 화상 처리부와,
상기 제1 내지 제4 화상 데이터의 부호화 화상 데이터를 갖는 소정수의 비디오 스트림을 포함하는 컨테이너를 송신하는 송신부와,
상기 컨테이너에 상기 소정수의 비디오 스트림의 각각에 삽입된 당해 비디오 스트림이 갖는 화상 데이터에 관한 정보에 대응한 정보를 삽입하는 정보 삽입부를 구비하는, 송신 장치.
제1항에 있어서, 상기 송신부가 송신하는 상기 컨테이너에는, 상기 제1 화상 데이터의 부호화 화상 데이터와 상기 제2 화상 데이터의 부호화 화상 데이터를 갖는 제1 비디오 스트림과, 상기 제3 화상 데이터의 부호화 화상 데이터와 상기 제4 화상 데이터의 부호화 화상 데이터를 갖는 제2 비디오 스트림이 포함되어 있고,
상기 정보 삽입부는,
상기 제1 및 제2 비디오 스트림을 각각 1트랙에서 관리하는 상태로 상기 정보를 상기 컨테이너에 삽입하는, 송신 장치.
제2항에 있어서, 상기 정보 삽입부는,
상기 정보를 상기 컨테이너에 삽입할 때,
상기 제1 비디오 스트림에 관해서는 상기 제1 화상 데이터의 부호화 화상 데이터에 관한 정보와 상기 제2 화상 데이터의 부호화 화상 데이터에 관한 정보를 그룹 분류하여 삽입하고,
상기 제2 비디오 스트림에 관해서는 상기 제3 화상 데이터의 부호화 화상 데이터에 관한 정보와 상기 제4 화상 데이터의 부호화 화상 데이터에 관한 정보를 그룹 분류하여 삽입하는, 송신 장치.
제2항에 있어서, 상기 제1 비디오 스트림에 있어서 상기 제1 화상 데이터의 픽처와 상기 제2 화상 데이터의 픽처가 교대로 부호화되어 있고,
상기 제2 비디오 스트림에 있어서 상기 제3 화상 데이터의 픽처와 상기 제4 화상 데이터의 픽처가 교대로 부호화되어 있는, 송신 장치.
제1항에 있어서, 상기 송신부가 송신하는 상기 컨테이너에는, 상기 제1 화상 데이터의 부호화 화상 데이터와 상기 제2 화상 데이터의 부호화 화상 데이터를 갖는 제1 비디오 스트림과, 상기 제3 화상 데이터의 부호화 화상 데이터와 상기 제4 화상 데이터의 부호화 화상 데이터를 갖는 제2 비디오 스트림이 포함되어 있고,
상기 정보 삽입부는,
상기 제1 및 제2 비디오 스트림을 각각 2트랙에서 관리하는 상태로 상기 정보를 상기 컨테이너에 삽입하는, 송신 장치.
제5항에 있어서, 상기 제1 비디오 스트림에 있어서 상기 제1 화상 데이터의 픽처와 상기 제2 화상 데이터의 픽처가 교대로 부호화되어 있고,
상기 제2 비디오 스트림에 있어서 상기 제3 화상 데이터의 픽처와 상기 제4 화상 데이터의 픽처가 교대로 부호화되어 있는, 송신 장치.
제1항에 있어서, 상기 송신부가 송신하는 상기 컨테이너에는, 상기 제1 화상 데이터의 부호화 화상 데이터를 갖는 제1 비디오 스트림과, 상기 제2 화상 데이터의 부호화 화상 데이터를 갖는 제2 비디오 스트림과, 상기 제3 화상 데이터의 부호화 화상 데이터를 갖는 제3 비디오 스트림과, 상기 제4 화상 데이터의 부호화 화상 데이터를 갖는 제4 비디오 스트림이 포함되어 있고,
상기 정보 삽입부는,
상기 제1 내지 제4 비디오 스트림을 각각 1트랙에서 관리하는 상태로 상기 정보를 삽입하는, 송신 장치.
제1항에 있어서, 상기 하이 프레임 레이트이며 초고해상도의 화상 데이터는, 하이 다이내믹 레인지 화상 데이터에 하이 다이내믹 레인지 광전 변환 특성에 의한 광전 변환을 행하여 하이 다이내믹 레인지 광전 변환 특성을 갖게 한 전송 화상 데이터이고,
상기 정보 삽입부는,
상기 하이 다이내믹 레인지 광전 변환 특성 또는 해당 특성에 대응한 전광 변환 특성을 나타내는 변환 특성 정보를, 상기 제1 화상 데이터의 부호화 화상 데이터를 갖는 비디오 스트림에 추가로 삽입하는, 송신 장치.
제8항에 있어서, 상기 하이 다이내믹 레인지 광전 변환 특성은 하이브리드 로그 감마의 특성인, 송신 장치.
제8항에 있어서, 상기 하이 다이내믹 레인지 광전 변환 특성은 PQ 커브의 특성인, 송신 장치.
제10항에 있어서, 상기 정보 삽입부는,
상기 제1 화상 데이터의 부호화 화상 데이터를 갖는 비디오 스트림에, 상기 PQ 커브의 특성에 의한 변환 데이터의 값을 통상 다이내믹 레인지 광전 변환 특성에 의한 변환 데이터의 값으로 변환하기 위한 변환 정보를 추가로 삽입하는, 송신 장치.
화상 처리부가, 하이 프레임 레이트로 초고해상도의 화상 데이터를 처리하여, 기본 프레임 레이트로 고해상도의 화상을 얻기 위한 제1 화상 데이터와, 상기 제1 화상 데이터와 함께 사용하여 하이 프레임 레이트로 고해상도의 화상을 얻기 위한 제2 화상 데이터와, 상기 제1 화상 데이터와 함께 사용하여 기본 프레임 레이트로 초고해상도의 화상을 얻기 위한 제3 화상 데이터와, 상기 제1 내지 제3 화상 데이터와 함께 사용하여 하이 프레임 레이트로 초고해상도의 화상을 얻기 위한 제4 화상 데이터를 얻는 화상 처리 스텝과,
송신부가, 상기 제1 내지 제4 화상 데이터의 부호화 화상 데이터를 갖는 소정수의 비디오 스트림을 포함하는 컨테이너를 송신하는 송신 스텝과,
정보 삽입부가, 상기 컨테이너에 상기 소정수의 비디오 스트림의 각각에 삽입된 당해 비디오 스트림이 갖는 화상 데이터에 관한 정보에 대응한 정보를 삽입하는 정보 삽입 스텝을 갖는, 송신 방법.
소정수의 비디오 스트림을 포함하는 컨테이너를 수신하는 수신부를 구비하고,
상기 소정수의 비디오 스트림은, 하이 프레임 레이트로 초고해상도의 화상 데이터를 처리하여 얻어진, 기본 프레임 레이트로 고해상도의 화상을 얻기 위한 제1 화상 데이터와, 상기 제1 화상 데이터와 함께 사용하여 하이 프레임 레이트로 고해상도의 화상을 얻기 위한 제2 화상 데이터와, 상기 제1 화상 데이터와 함께 사용하여 기본 프레임 레이트로 초고해상도의 화상을 얻기 위한 제3 화상 데이터와, 상기 제1 내지 제3 화상 데이터와 함께 사용하여 하이 프레임 레이트로 초고해상도의 화상을 얻기 위한 제4 화상 데이터를 갖고,
상기 컨테이너에 상기 소정수의 비디오 스트림의 각각에 삽입된 당해 비디오 스트림이 갖는 화상 데이터에 관한 정보에 대응한 정보가 삽입되어 있고,
디코드 능력에 따라, 상기 컨테이너에 삽입되어 있는 정보에 기초하여, 상기 제1 내지 제4 화상 데이터의 부호화 화상 데이터로부터 소정의 부호화 화상 데이터를 선택적으로 취출하여 디코드 처리를 행하여 화상 데이터를 얻는 처리부를 더 구비하는, 수신 장치.
제13항에 있어서, 상기 하이 프레임 레이트이며 초고해상도의 화상 데이터는, 하이 다이내믹 레인지 화상 데이터에 하이 다이내믹 레인지 광전 변환 특성에 의한 광전 변환을 행하여 하이 다이내믹 레인지 광전 변환 특성을 갖게 한 전송 화상 데이터이고,
상기 제1 화상 데이터의 부호화 화상 데이터를 갖는 비디오 스트림에, 상기 하이 다이내믹 레인지 광전 변환 특성 또는 해당 특성에 대응한 전광 변환 특성을 나타내는 변환 특성 정보가 삽입되어 있고,
상기 처리부는,
상기 디코드 처리에서 얻어진 화상 데이터에 상기 변환 특성 정보에 기초하여 전광 변환을 행하여 표시용 화상 데이터를 얻는, 수신 장치.
제13항에 있어서, 상기 하이 프레임 레이트이며 초고해상도의 화상 데이터는, 하이 다이내믹 레인지 화상 데이터에 하이 다이내믹 레인지 광전 변환 특성에 의한 광전 변환을 행하여 하이 다이내믹 레인지 광전 변환 특성을 갖게 한 전송 화상 데이터이고,
상기 하이 다이내믹 레인지 광전 변환 특성은 PQ 커브의 특성이고,
상기 제1 화상 데이터의 부호화 화상 데이터를 갖는 비디오 스트림에, 상기 PQ 커브의 특성에 의한 변환 데이터의 값을 통상 다이내믹 레인지 광전 변환 특성에 의한 변환 데이터의 값으로 변환하기 위한 변환 정보가 삽입되어 있고,
상기 처리부는,
통상 다이내믹 레인지 표시를 행할 때,
상기 디코드 처리에서 얻어진 화상 데이터에, 상기 변환 정보에 기초하여 다이내믹 레인지 변환을 행하여 통상 다이내믹 레인지 전송 화상 데이터를 얻고, 해당 통상 다이내믹 레인지 전송 화상 데이터에 통상 다이내믹 레인지 전광 변환 특성에 의한 전광 변환을 행하여 표시용 화상 데이터를 얻는, 수신 장치.
수신부가, 소정수의 비디오 스트림을 포함하는 컨테이너를 수신하는 수신 스텝을 갖고,
상기 소정수의 비디오 스트림은, 하이 프레임 레이트로 초고해상도의 화상 데이터를 처리하여 얻어진, 기본 프레임 레이트로 고해상도의 화상을 얻기 위한 제1 화상 데이터와, 상기 제1 화상 데이터와 함께 사용하여 하이 프레임 레이트로 고해상도의 화상을 얻기 위한 제2 화상 데이터와, 상기 제1 화상 데이터와 함께 사용하여 기본 프레임 레이트로 초고해상도의 화상을 얻기 위한 제3 화상 데이터와, 상기 제1 내지 제3 화상 데이터와 함께 사용하여 하이 프레임 레이트로 초고해상도의 화상을 얻기 위한 제4 화상 데이터를 갖고 있고,
상기 컨테이너에 상기 소정수의 비디오 스트림의 각각에 삽입된 당해 비디오 스트림이 갖는 화상 데이터에 관한 정보에 대응한 정보가 삽입되어 있고,
처리부가, 디코드 능력에 따라, 상기 컨테이너에 삽입되어 있는 정보에 기초하여, 상기 제1 내지 제4 화상 데이터의 부호화 화상 데이터로부터 소정의 부호화 화상 데이터를 선택적으로 취출하여 디코드 처리를 행하여 화상 데이터를 얻는 처리 스텝을 더 갖는, 수신 방법.
하이 프레임 레이트의 화상 데이터를 처리하여, 기본 프레임 레이트 화상을 얻기 위한 제1 화상 데이터와 해당 제1 화상 데이터와 함께 사용하여 하이 프레임 레이트의 화상 데이터를 얻기 위한 제2 화상 데이터를 얻는 화상 처리부와,
상기 제1 및 제2 화상 데이터의 부호화 화상 데이터를 갖는 하나 이상의 비디오 스트림을 포함하는 컨테이너를 송신하는 송신부와,
상기 컨테이너에, 상기 제1 화상 데이터의 부호화 화상 데이터에 대응하여, 상기 제1 화상 데이터의 부호화 화상 데이터에 대응한 비디오 스트림의 레벨 지정값을 삽입하고, 상기 제2 화상 데이터의 부호화 화상 데이터에 대응하여, 상기 제1 및 제2 화상 데이터의 부호화 화상 데이터를 합한 비디오 스트림의 레벨 지정값을 삽입하는 정보 삽입부를 구비하는, 송신 장치.
화상 처리부가, 하이 프레임 레이트의 화상 데이터를 처리하여, 기본 프레임 레이트 화상을 얻기 위한 제1 화상 데이터와 해당 제1 화상 데이터와 함께 사용하여 하이 프레임 레이트의 화상 데이터를 얻기 위한 제2 화상 데이터를 얻는 화상 처리 스텝과,
송신부가, 상기 제1 및 제2 화상 데이터의 부호화 화상 데이터를 갖는 하나 이상의 비디오 스트림을 포함하는 컨테이너를 송신하는 송신 스텝과,
정보 삽입부가, 상기 컨테이너에, 상기 제1 화상 데이터의 부호화 화상 데이터에 대응하여, 상기 제1 화상 데이터의 부호화 화상 데이터에 대응한 비디오 스트림의 레벨 지정값을 삽입하고, 제2 화상 데이터의 부호화 화상 데이터에 대응하여, 상기 제1 및 제2 화상 데이터의 부호화 화상 데이터를 합한 비디오 스트림의 레벨 지정값을 삽입하는 정보 삽입 스텝을 갖는, 송신 방법.
하나 이상의 비디오 스트림을 포함하는 컨테이너를 수신하는 수신부를 구비하고,
상기 하나 이상의 비디오 스트림은, 기본 프레임 레이트 화상을 얻기 위한 제1 화상 데이터와 해당 제1 화상 데이터와 함께 사용하여 하이 프레임 레이트의 화상 데이터를 얻기 위한 제2 화상 데이터를 갖고,
상기 컨테이너에, 상기 제1 화상 데이터의 부호화 화상 데이터에 대응하여, 상기 제1 화상 데이터의 부호화 화상 데이터에 대응한 비디오 스트림의 레벨 지정값이 삽입되어 있고, 상기 제2 화상 데이터의 부호화 화상 데이터에 대응하여, 상기 제1 및 제2 화상 데이터의 부호화 화상 데이터를 합한 비디오 스트림의 레벨 지정값이 삽입되어 있고,
디코드 능력에 따라, 상기 컨테이너에 삽입되어 있는 상기 비디오 스트림의 레벨 지정값에 기초하여, 상기 제1 및 제2 화상 데이터의 부호화 화상 데이터로부터 하나 이상의 부호화 화상 데이터를 선택적으로 취출하여 디코드 처리를 행하여 화상 데이터를 얻는 처리부를 더 구비하는, 수신 장치.
수신부가, 하나 이상의 비디오 스트림을 포함하는 컨테이너를 수신하는 수신 스텝을 갖고,
상기 하나 이상의 비디오 스트림은, 기본 프레임 레이트 화상을 얻기 위한 제1 화상 데이터와 해당 제1 화상 데이터와 함께 사용하여 하이 프레임 레이트의 화상 데이터를 얻기 위한 제2 화상 데이터를 갖고,
상기 컨테이너에, 상기 제1 화상 데이터의 부호화 화상 데이터에 대응하여, 상기 제1 화상 데이터의 부호화 화상 데이터에 대응한 비디오 스트림의 레벨 지정값이 삽입되어 있고, 상기 제2 화상 데이터의 부호화 화상 데이터에 대응하여, 상기 제1 및 제2 화상 데이터의 부호화 화상 데이터를 합한 비디오 스트림의 레벨 지정값이 삽입되어 있고,
처리부가, 디코드 능력에 따라, 상기 컨테이너에 삽입되어 있는 상기 비디오 스트림의 레벨 지정값에 기초하여, 상기 제1 및 제2 화상 데이터의 부호화 화상 데이터로부터 하나 이상의 부호화 화상 데이터를 선택적으로 취출하여 디코드 처리를 행하여 화상 데이터를 얻는 처리 스텝을 더 갖는, 수신 방법.